大学数据挖掘期末考试题.doc_第1页
大学数据挖掘期末考试题.doc_第2页
大学数据挖掘期末考试题.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学与信息科学学院 学院 专业 级 班 姓名: 学号: 20132014学年春季学期期末考试试题。-密-封-线- 数据挖掘试卷题目一二三四五六七八九十总成绩复核得分阅卷教师课程代码: C0204413 课程: 数据挖掘A卷一、判断题(每题1分,10分)1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( )2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( )3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( )4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。( )5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( )6. 属性的性质不必与用来度量他的值的性质相同。( )7. 全链对噪声点和离群点很敏感。( )8. 对于非对称的属性,只有非零值才是重要的。( )9. K均值可以很好的处理不同密度的数据。( )10. 单链技术擅长处理椭圆形状的簇。( )二、选择题(每题2分,30分)1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Wards Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是:( )A. 具有全局优化目标函数B. Group Average擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为D.具有全局优化目标函数8.规则牛奶,尿布啤酒的支持度和置信度分别为:( )TID 项 集12345面包,牛奶面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.49.下列( )是属于分裂层次聚类的方法。A.Min B.Max C.Group Average D.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在3和l,2合并 B.3和4,5合并 C.2,3和4,5合并 D. 2,3和4,5形成簇和3合并11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘12. 决策树中不包含一下哪种结点( )A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node) 13. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则14. 下列哪个描述是正确的?( )A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习 D、分类是无指导的学习,聚类是有指导的学习15. 下面购物篮能够提取的3-项集的最大数量是多少( )ID 购买项1 牛奶,啤酒,尿布 2 面包,黄油,牛奶 3 牛奶,尿布,饼干4 面包,黄油,饼干 5 啤酒,饼干,尿布 6 牛奶,尿布,面包,黄油7 面包,黄油,尿布 8 啤酒,尿布 9 牛奶,尿布,面包,黄油10 啤酒,饼干A.1 B.2 C.3 D 4三、简答题(每题8分,40分)1. 何谓数据挖掘?它有哪些方面的功能?2. 简述数据预处理方法和内容。3. 何谓聚类?它与分类有什么异同? 4. 什么是决策树?如何用决策树进行分类?5. 简述ID3算法的基本思想及其主算法的基本步骤四、 算法题(每题10分,20分)1.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P30.220.140.000.150.280.11P40.370.200.150.000.290.22P50.340.130.280.290.000.39P60.230.250.110.220.390.002.假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论