2015浙大数据挖掘-模拟卷_第1页
2015浙大数据挖掘-模拟卷_第2页
2015浙大数据挖掘-模拟卷_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘模拟卷一、是非题(10分)1、大多数数据挖掘算法只有在关系数据库中的结构化数据上才能有效运行2、离散属性值的个数必须是有限个数的34、Euclidean 距离和Manhattan 距离都是Minkowski 距离的特例5、PCA 和 LDA 都是线性降维方法( x)( x)( y )( y)( y)6、比率标度数值属性与区间标度数值属性的本质区别在于是否有真正的零点(即是否可以 说一个值是另一个值的倍数)( y7、数据集的四分位数Q1 Q3 之间的区间覆盖了数据集中间50%的数据8、相关性一定意味着因果关系9、在文档聚类中,我们一般使用Euclidean 距离来衡量文档相似性10、一般

2、使用使用Jaccard 系数评估对称二元属性( y )( x)( x)( x)二、填空题(每格 1 分,共 20 分)1、在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。2、数据仓库的多维数据模型可以有三种不同的形式,分别是星型模式雪花模式事实星座模式3、从数据分析的角度看,数据挖掘可以分为两类:描述性的数据挖掘和预测性的数据挖掘4、给定基本方体,方体的物化有三种选择:不物化、全物化和部分物化5、数据挖掘研究是多个学科融合的结果,目前最相关的三个主要学科是:数据库技术、统计学、机器学习。6、两种常用的大数据集的数据概化方法数据立方体方法(或

3、OLAP)和面向属性的归方法。7、在支持向量机分类中,使用一个适当的对足够高维的非线性映射,两类的数总可以被超平面分开 使支持向量、边缘发现该超平面。8、数据分类是一个两步的过程,分别是:利用训练集训练模型、使用模型对数据分类。 。三、单选题(请选择一个正确答案填入括号内,每题 2 分,共 20 分)下面哪种分类方法是属于神经网络学习算法?(c)A. 判定树归纳B. 贝叶斯分类C. 后向传播分类2置信(confidence)是衡量兴趣度度量( b)的指标A、简洁性B、确定性C.、实用性 3孤立点挖掘适用于下列哪种场合A、目标市场分析B、购物篮分析C、模式识别D. 基于案例的推理D、新颖性D、信

4、用卡欺诈检测4存放最低层汇总的方体称为:cA、顶点方体B、方体的格C、基本方体D、5数据归约的目的是( c)A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据 6下面哪种数据预处理技术可以用来平滑数据,消除数据噪声A.数据清理 B.数据集成 C.数据变换 D.数据归约7(b)通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层B.离散化C.分箱D. 直方图8下面的数据操作中(b)操作不是多维数据模型上的OLAP操作A、上(roll-up)B、选(select)C、切(slice)D、转(pivot) 9假设现在的数据挖掘任务是解析数据库中关于客户的

5、一般特征的描述,通常所使用的据挖掘功能是( e)A.关联分析 B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述10下列哪个描述是正确的?(c)A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习四、多选题(请选择两个或两个以上正确答案填入括号内,每题 2 分,共10 分)1根据关联分析中所涉及的数据维,可以将关联规则分类为(bd)A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规2下列哪些是数据变换可能涉及的内容?A、数据压缩B、数据概化C、维归约D、规范3说明任务相关的数据时,涉

6、及说明( bd)A、包含相关数据的数据库或数据仓库名B、选择相关数据的条件C、相关的属性或维D、关于检索数据的排序和分组指令4从结构的角度看,数据仓库模型包括以下几类:A.企业仓库B.数据集市C.虚拟仓库D.信息仓库5数据仓库的主要特征包括( abcdA、面向主题的B、集成的)C、时变的D、非易失的五、简答题(共 20 分)(5 分)。 聚集通过合并相等的广义元组结果广义关系可以映射到不同形式,如图表或规则,提供用户(3 分)使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是性上没有概化操作符,或)它的较高层概念用其他属性表示1 分)(1 分)(OLAP)常操作的数据库上进行

7、(5 分)答:使用一个独立的数据仓库进行OLAP 处理是为了以下目的:提高两个系统的性能操作数据库是为OLTP OLAP 查询,会大大降低操作任务的性能;而数据仓库是为OLAP 而设计,为复杂的 OLAP 多维视图,汇总等OLAP 功能提供了优化。两者有着不同的功能果将事务处理的并行机制和恢复机制用于这种OLAP 操作,就会显著降低OLAP 的性能。(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。 均值方法与k 中心点方法的鲁棒性和执行代价(5 分)答:当存在噪声和离群点时,k 中心点方法因为中心点较少的受离群点影响所以比k 均值方法更加鲁棒。k 中心

8、点方法的执行代价比k 均值方法要高:k 均值方法: O(nkt)k 中心点方法:O(k(n-k)2)n 与 k 较大时,k 中心点方法的执行代价很高请描述主成份分析算法步骤 分答:主成份分析步骤为:规范化输入的数据:所有属性落在相同的区间内计算k 个标准正交向量,即主成分每个输入数据的向量都是这k 个主成分向量的线性组合。主成分按照重要程度降序排序六、算法题(共 20 分)Apriori 性质的先验知识,从候选项集中找到频繁项集。Aprior算法包括哪两个基本步骤2分;连接与剪枝TID T100 T200 T300T400ID 的列表A,C,DB,C,EA,B,C,E B,E对下图中所示的事务

9、数据记录(|D,请用图示与说明解释如何使用Apriori法寻找D (假设最小事务支持计数为TID T100 T200 T300T400ID 的列表A,C,DB,C,EA,B,C,E B,E使用Apiori 性质由L2 产生C3 1 连接:C3=L2 L2=A,C,B,C,B,EC,EA,C,B,C,B,EC,E = A,B,C,A,C,E,B,C,E使用 Apriori 性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3除其子集为非频繁的选项:A,B,C的 2 项子集是A,B,A,C,B,C,其中A,B不是 L2 的元素,所以删除这个选项;A,C,E的 2 项子集是A,C,A,E,C,E,

10、其中A,E 不是 L2 的元素,所以删除这个选项;B,C,E2 B,C,B,E,C,E,它的所有2项子集都是L2 个选项。这样,剪枝后得到C3=B,C,E枝后得到C3=B,C,E2判定树归纳算法是一种常用的分类算法请简述判定树归纳算法的基本策略(4分;使用判定树归纳算法,根据顾客年龄ag(分为323,收入 incom(取值为 higmediu,lo,是否为studen(取值为yes和 no,信用 credit_rating(取值为fairexcellent)来判定用户是否会购买PCGame,即构建判定树buys_PCGame结果对每一个划分中的各个属性计算信息增益对age23的 顾 客 : G

11、ain(income)=0.042 , Gain(student)=0.462 ,Gain(credit_rating)=0.155请根据以上结果绘制出判定树buys_PCGame(4)incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoage181823age23incomehigh medium high mediumstudentno yes no yescredit_ratingfair fair fairexcellentclassyes yes yes yes如果样本都在同一个类,则该节点成为树叶,并用该类标记。类的属性。对测试属性每个已知的值,创建一个分枝,并据此划分样本。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论