数据仓库与数据挖掘考试试题_第1页
数据仓库与数据挖掘考试试题_第2页
数据仓库与数据挖掘考试试题_第3页
数据仓库与数据挖掘考试试题_第4页
数据仓库与数据挖掘考试试题_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国矿业大学银川学院期末考试试题2010-2011学年第二学期考试科目数据仓库和数据挖掘学分2008级机电动力与信息工程系一、填空(15分)1.数据仓库的特点是面向主题的、集成的、相对稳定的和反映历史变化的。2.元数据是描述数据仓库中数据结构和建立方法的数据。根据元数据的不同用途,元数据可以分为技术元数据和业务元数据。3.在3的多维分析过程中。OLAP技术,多维分析操作包括切片、切片、钻孔、旋转等。4.基于依赖数据集市和操作数据存储的数据仓库体系结构通常被称为“中心和辐射”体系结构,其中企业数据仓库是中心,源数据系统和数据集市位于输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的和详细的数据库,也称为操作数据存储。二、选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括a分类b相关c估价d预测7.在数据仓库的数据ETL过程中,ETL软件的主要功能包括a数据提取b数据转换c数据加载d数据审核8.数据分类的评估标准包括精确b回忆和精确C-F-测度D几何平均9.分层聚类方法包括(BC)基于密度聚类方法的分解式层次聚类方法10.贝叶斯网络由两部分组成,即(公元)先验概率后验概率条件概率表三、计算问题(30分)11.食物链商店的每周交易记录如下表所示,其中每笔交易代表收银机业务中出售的商品。假设supmin=40%,confmin=40%,由Apriori算法生成的关联规则被计算以指示每个数据库扫描的候选集和大项目集。(15分)事务项目事务项目T1T2T3面包、果冻、花生酱面包,花生酱面包、牛奶、花生酱T4T5啤酒,面包啤酒,牛奶解决方案:(1) 1-候选C1直接从所有项目I=面包、果冻、花生酱、牛奶、啤酒中生成,计算其支持度,将支持度小于supmin的项目集取出,形成1-频繁集L1,如下表所示:项目集C1支持项目集L1支持面包花生酱牛奶啤酒4/53/52/52/5面包花生酱牛奶啤酒4/53/52/52/5(2)将L1的项目组合连接,生成一个2-候选集C2,计算其支持度,取出支持度小于supmin的项目集,形成一个2-频繁集L2,如下表所示:项目集C2支持项目集L2支持面包,花生酱3/5面包,花生酱3/5到目前为止,所有的频繁集都已找到,算法也已完成。因此,确认(面包花生酱)=(4/5)/(3/5)=4/3分钟确认(花生酱面包)=(3/5)/(4/5)=3/4分钟因此,关联规则面包花生酱、花生酱面包是强关联规则。12.给定以下数据集(2,4,10,12,15,3,21),执行K均值聚类,将聚类数设置为2,并根据欧几里德距离计算相似度。(15分)解决方案:(1)从数据集x中随机选取k个数据样本作为聚类的表示代表点,每个代表点代表一个类别,从中可以设置k=2,m1=2,m2=4:(2)对于任何数据样本xm(125。过滤器:已过滤的字段。地区,任期,年龄,婚姻,流失。类型:15.在上面的数据流图中给出模型的执行结果(在模型完全展开后生成数据)。如果执行结果太多,可以提取一些结果。(10分)16.简要分析上述模型产生的结果,包括基本原理、数学模型、算法步骤等。被算法采用。(15分)答:k-means聚类算法的基本原理是:将每个聚类子集中所有数据样本的平均值作为聚类的代表点。该算法的主要思想是通过迭代过程将数据划分为不同的类别,从而优化评价聚类类性能的准则函数,使每个生成的聚类类紧凑且类间独立。操作步骤:输入:数据集,其中数据样本只包含描述属性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论