数据挖掘考试题_第1页
数据挖掘考试题_第2页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘考试题一选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A. 分类B.聚类C.关联分析D.主成分分析2. ()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。(单链)(全链)C.组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了()数据挖掘方法。A分类B预测C关联规则分析D聚类4关于K均值和DBSCAN的比较,以下说法不正确的是()均值丢弃被它识别为噪声的对象,而DBSCAN般聚类所有对象。均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。均值很难处理非球形的簇和不同大小的簇,

2、DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5下列关于WardsMethod说法错误的是:()A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C. 对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是:()A. 具有全局优化目标函数B. GroupAverage擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法

3、中,说法错误的事:()A. 旦两个簇合并,该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为oJ2)D. 具有全局优化目标函数8规则件奶,尿布-啤酒的支持度和置信度分别为:()TID项集1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐9. 下列()是属于分裂层次聚类的方法。Average10. 对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:()A.在和1,2合并B.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二填空题:1. 属性包括的四种类型:、。2. 是两个簇的

4、邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。4. 聚类中,定义簇间的相似度的方法有(写出四个):、。5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:、。6. 组平均是一种界于和之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用表示。8. 全链在处理大小不同的簇时,可能使_破裂,并且偏好。9. 单链技术擅长于处理,但对和很敏感。10. 聚类分析可以看做是一种的分类。(有监督、无监督)三判断题1. 从点作为个体簇开始,每一步合并两个最接近的簇

5、,这是一种分裂的层次聚类方法。()2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。()3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差()4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。()5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。()6. 属性的性质不必与用来度量他的值的性质相同。()7. 全链对噪声点和离群点很敏感。()8. 对于非对称的属性,只有非零值才是重要的。()9. K均值可以很好的处理不同密度的数据。()10. 单链技术擅长处理椭圆形状的簇。()四综合题1. 何为层次聚类

6、它用哪两种图表示2. 两种层次聚类的基本方法两种方法的定义3. 分别写出Min、Max和组平均的优缺点4. 写出基本凝聚层次聚类的算法5由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图考试题+答案一选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B)A.分类B.聚类C.关联分析D.主成分分析2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。(单链)(全链)C.组平均方法3数据挖掘的经典案例啤酒与尿布试验最主要是应用了(C)数据挖掘方法。A分类B预测C关联规则分析D聚类4关于K均

7、值和DBSCAN的比较,以下说法不正确的是(A)均值丢弃被它识别为噪声的对象,而DBSCAN般聚类所有对象。均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5下列关于WardsMethod说法错误的是:(C)A.对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C. 对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似7下列关于层

8、次聚类存在的问题说法正确的是:(B)A具有全局优化目标函数Average擅长处理球状的簇C. 可以处理不同大小簇的能力对噪声点和离群点很敏感7下列关于凝聚层次聚类的说法中,说法错误的事:(D)A. 旦两个簇合并,该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为oJ2)D. 具有全局优化目标函数8规则件奶,尿布-啤酒的支持度和置信度分别为:(C)TID项集1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐9下列(D)是属于分裂层次聚类的方法。Average10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二

9、步是哪两个簇合并:(B)A.在和1,2合并B.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二填空题:1属性包括的四种类型:标称、序数、区间、比率2组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度Om2,时间复杂度OCm3),如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为4. 聚类中,定义簇间的相似度的方法有(写出四个):MIN(单链)、MAX(全链)、组平均、Ward方法5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:凝聚层次聚类、分裂层次聚类6组平均是一种界于单链和全

10、链之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用湮离表示。8. 全链在处理大小不同的簇时,可能使大的簇破裂,并且偏好球形9. 单链技术擅长于处理非椭圆形状的簇,但对噪声点和离群点很敏感。10. 聚类分析可以看做是一种无监督的分类。(有监督、无监督)三判断题:1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(X)2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。(V)3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差(X)4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。(V

11、)5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(V)6. 属性的性质不必与用来度量他的值的性质相同。(V)7. 全链对噪声点和离群点很敏感。(x)8. 对于非对称的属性,只有非零值才是重要的(V)9. K均值可以很好的处理不同密度的数据。(x)10单链技术擅长处理椭圆形状的簇。(x)四综合题1. 何为层次聚类它用哪两种图表示层次聚类为嵌套簇的聚集,组成一棵层次数。两种主要图的表示:树状图和嵌套簇图。2. 两种层次聚类的基本方法两种方法的定义凝聚层次聚类和分裂层次聚类凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直

12、到仅剩下单点簇3. 分别写出Min、Max和组平均的优缺点定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1当处理簇大小不同时,较大的簇容易破裂2偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4. 写出基本凝聚层次聚类的算法算法步骤:(1) 计算邻近度矩阵(2) Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度(5) Until仅剩下一个簇5由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图LxeEH(U9)ls_pucnxs一p)xeEH(mQalsohsxtoeh(-IS-pcnXSPQgls-pculs-pxeEHS7=9U)1SOLxeEH(i/9)lsp(17cn)ls_p)xeEH(sQalso二寸告)丄9cn灵tts如册SCNM也Sd启CNd如册9mM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论