《数据库技术与应用》第13章数据仓库与数据挖掘 习题答案_第1页
《数据库技术与应用》第13章数据仓库与数据挖掘 习题答案_第2页
《数据库技术与应用》第13章数据仓库与数据挖掘 习题答案_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、13.5 思考练习1. 数据库与数据仓库的本质区别是什么?解:(1) 数据库用于事务处理,数据仓库用于决策分析;(2) 数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;(3) 数据仓库的数据时大量数据库的集成;(4) 对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大;(5) 数据库是细节的、在存取时准确的、可更新的、一次操作数据量少、面向应用且支持不按理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。2. 数据挖掘的数据源是否必须是数据仓库的数据?解:(1) 数据仓库系统的数据可以作为数据挖掘的数据源;(2

2、) 数据挖掘的数据源不一定必须是数据仓库系统。3. 数据挖掘的技术主要包含哪几种?解:数据挖掘的常用技术有聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等。 4. 数据挖掘的具体功能有哪些?解:(1) 概念描述:定性与对比对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。获得概念描述的方法主要有两种:l 利用更为广义的属性,对所分析数据进行概要总结。l 对两类所分析的数据特点进行对比并对对比结果给出概要性总结。(2) 关联分析关联分析就是从给定的数据集发现频繁出现的项集模式知识。关联分析广泛用于市场营销、事务分析等应用领域。通常关联规则具有

3、:形式,即“”;其中()和()均为属性值(属性值)形式。关联规则表示“数据库中的满足X中条件的记录也一定满足Y中的条件”(3) 分类与预测分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。分类挖掘所获得得分类模型可以采用多种形式加以描述输出。其中主要得表示方法有:分类规则(IF-THEN)、决策树(decision trees)、数学公式和神经网络。分类通常用于预测位置数据实例得归属类别(有限离散值)。但在一些情况下,需要预测某

4、数值属性的值(连续数值),这样的分类就被称为预测。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测。(4) 聚类分析聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析所分析处理的数据均是无类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化,而各聚集对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组,因此一个组中

5、数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集又可以通过分类学习相应的分类预测模型。此外通过反复不断地对所获得的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模型。(5) 异常检测一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异常数据作为噪声或意外而将其排除在数据挖掘的分析处理范围之外。但在一些应用场合,如各种商业欺诈行为的自动检测,小概率事件的往往比经常

6、发生的事件更有挖掘价值。对异常数据的分析处理通常就称为异常检测。异常数据可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象的分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度显著的变化。(6) 演化分析数据演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述,主要是指时序分析。5. 数据挖掘与数据仓库的关系是什么?解:(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。在数据仓库中集成和存储着来自各种信息源的大量长时间的数据,这些信息源本身就可能是一个规模庞大的数据库,使得人们可以进行数据长期趋势的分

7、析,为决策者的长期决策行为提供了支持。(2) 数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展不仅为数据挖掘开辟了新的空间,也对数据挖掘技术提出了更高的要求。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做到实时交互,使决策者的思维保持连续,有可能挖掘出更深入、更有价值的知识。(3) 数据仓库为更好地使用数据挖掘工具提供了方便。用户可以通过数据仓库服务器得到所需的数据,形成中间数据库,利用数据挖掘方法进行挖掘,获得知识。(4) 数据挖掘为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据仓库提供了强有力的技术支持。数据挖掘和数据仓库技术要结合起来才能充分发挥潜力。6. 常用的数据挖掘工具有哪些?解:常用的数据挖掘工具有 SPSS,SAS,SQL SERVER 2005,WEKA,MATLAB等。7. 数据挖掘可以应用在哪些领域?解:随着人们对数据挖掘认识的深入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论