数据挖掘考试题_第1页
数据挖掘考试题_第2页
数据挖掘考试题_第3页
数据挖掘考试题_第4页
数据挖掘考试题_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘考试题一选择题1O当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?()A.分类B、聚类C.关联分析D。主成分分析2.()将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。D.Wa r d方法A。MIN(单链)B。MAX(全链)C、组平均3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了()数据挖掘方法、A 分类B 预测 C 关联规则分析D 聚类4。关于K均值与DBSCAN得比较,以下说法不正确得就是()A.K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。B、K均值使用簇得基于原型得概念,DBSC

2、AN使用基于密度得概念。CoK均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇D.K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇5、下列关于Ward'sMethod说法错误得就是:()A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇Co对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差Do当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在得问题说法正确得就是:()A.具有全局优化目标函数B.GroupAverage擅长处理球状得簇C.可以处理不同

3、大小簇得能力D.Max对噪声点与离群点很敏感7。下列关于凝聚层次聚类得说法中,说法错误得事:()A。一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C.空间复杂度为Do具有全局优化目标函数8。规则牛奶,尿布一啤酒得支持度与置信度分别为:()TID项集1面包,牛奶2回包,尿布,啤酒,鸡蛋3牛奶尿布,啤酒,可乐4回包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐A。0。4,0.4B。0.67,0、67C。0。4,0、67D、0。67,0、49、下列()就是属于分裂层次聚类得方法。A.Min?名.Max?C、GroupAverage?D、MST10。对下图数据进行凝聚聚类操作,簇间相似

4、度使用MAX计算,第二步就是哪两个簇合11I2I3I4I51.000,900.100 650200.901,000700,600,500.10070too0.400.300.650.600.401.000.800.200.500,300,801.00并:()11I2I3I4I5A、在3与l,2合并B、3与4,5合并C.2,3与4,5合并D、2,3与4,5形成簇与3合并二.填空题:1 .属性包括得四种类型:、。2 .就是两个簇得邻近度定义为不同簇得所有点对邻近度得平均值、3、基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其她所有簇得距离存放在一个有序表或堆中,层次聚类所需要得时间复杂度

5、将为。4、 .聚类中,定义簇间得相似度得方法有(写出四个):、°5、 层次聚类技术就是第二类重要得聚类方法、两种层次聚类得基本方法:、6、 组平均就是一种界于与之间得折中方法。7、 相似度矩阵可以用相识度表布还可以用表不。8 .全链在处理大小不同得簇时,可能使破裂,并且偏好。9 。单链技术擅长于处理,但对与很敏感。10 、聚类分析可以瞧做就是一种得分类、(有监督、无监督)三、判断题1 .从点作为个体簇开始,每一步合并两个最接近得簇,这就是一种分裂得层次聚类方法。()2 .数据挖掘得目标不在于数据采集策略,而在于对已经存在得数据进行模式得发掘。()3 .在聚类分析当中,簇内得相似性越大

6、,簇间得差别越大,聚类得效果就越差、()4 .当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似。()5 .DBSCAN就是相对抗噪声得,并且能够处理任意形状与大小得簇。()6 .属性得性质不必与用来度量她得值得性质相同。()7 .全链对噪声点与离群点很敏感。()8 .对于非对称得属性,只有非零值才就是重要得、()9 .K均值可以很好得处理不同密度得数据、()10 .单链技术擅长处理椭圆形状得簇。()四。综合题1 .何为层次聚类?它用哪两种图表示?2 。两种层次聚类得基本方法?两种方法得定义?3 .分别写出Min、Max与组平均得优缺点?4 .写出基本凝聚层次聚类得算法?

7、5 .由下图已给出得距离矩阵,将Max用于6个点样本数据集,画出层次聚类得树状图?P1P2P3P4P5P6P10。000、240、220.370、340.23P20。240。000。140.200。130。25P30、220、140。000、150。280.11P40.370、200.150.000.290、22P50.340、130.280、290。000。39P60。230。250、110、220、390、00考试题+答案一、选择题1、当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?(B)Ao分类B.聚类C、关联分析D.主成分分析2。(C)将两个簇得邻

8、近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。A、MIN(单链)B.MAX(全链)C.组平均D。Ward方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了(C)数据挖掘方法。A 分类B预测C关联规则分析D聚类4.关于K均值与DBSCAN得比较,以下说法不正确得就是(A)A.K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。B、K均值使用簇得基于原型得概念,DBSCAN使用基于密度得概念。C、K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇D、K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSC

9、AN会合并有重叠得簇5、下列关于Ward'sMethod说法错误得就是:(C)A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇Co对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D。当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似7 .下列关于层次聚类存在得问题说法正确得就是:(B)A具有全局优化目标函数8 .GroupAverage擅长处理球状得簇Co可以处理不同大小簇得能力DoMax对噪声点与离群点很敏感7。下列关于凝聚层次聚类得说法中,说法错误得事:(D)A、一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C、空间复杂

10、度为D.具有全局优化目标函数8、规则牛奶,尿布一啤酒得支持度与置信度分别为:(C)TID项集1面包,牛奶2面包尿布,啤酒,鸡蛋3t牛奶,尿布,啤酒,可乐j4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可乐Ao0。4,0、4Bo0.67,0。67C、0、4,0。67D。0。67,0.49 .下列(D)就是属于分裂层次聚类得方法。A。Min?B。Max?CoGroupAverage?D。MST11I2I3I4I51000,900,100.650.200,901,000.700.600.500,100,701.000.400.300.650.600.401000.800200.500.300.801.

11、0010 .对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步就是哪两个簇合并:(B)11I2I3I4I5A、在3与1,2合并B.3与4,5合并C。2,3与4,5合并D、2,3与4,5形成簇与3合并填空题:1。属性包括得四种类型:标粗、序数、区间、比率。2。组业L就是两个簇得邻近度定义为不同簇得所有点对邻近度得平均值。3.基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其她所有簇得距离存放在一个有序表或堆中,层次聚类所需要得时间复杂度将为。4。聚类中,定义簇间得相似度得方法有(写出四个):MIN(单链)、MAX(全链)、组平均、Ward方法。5 。层次聚类技术就是第二类重要得

12、聚类方法。两种层次聚类得基本方法:凝聚层次聚类、分裂层次聚类、6 .组平均就是一种界于单链与全链之间得折中方法。7 、相似度矩阵可以用相识度表示还可以用距离表示。8 .全链在处理大小不同得簇时,可能使大得簇破裂,并且偏好球眩。9 、单链技术擅长于处理非椭圆形大得簇,但对噪声点与离群点很敏感。1 0。聚类分析可以瞧做就是一种无监督得分类。(有监督、无监督)三。判断题:1、 从点作为个体簇开始,每一步合并两个最接近得簇,这就是一种分裂得层次聚类方法、(冲2、 数据挖掘得目标不在于数据采集策略,而在于对已经存在得数据进行模式得发掘。(J3。在聚类分析当中,簇内得相似性越大,簇间得差别越大,聚类得效果

13、就越差、(X)4。当两个点之间得邻近度取它们之间距离得平方时,Ward方法与组平均非常相似、(J5。DBSCAN就是相对抗噪声得,并且能够处理任意形状与大小得簇。(J6、属性得性质不必与用来度量她得值得性质相同。(,)7、全链对噪声点与离群点很敏感、(X)8。对于非对称得属性,只有非零值才就是重要得、(,)9、K均值可以很好得处理不同密度得数据。(X)10、单链技术擅长处理椭圆形状得簇。(X)四.综合题1、 何为层次聚类?它用哪两种图表示?层次聚类为嵌套簇得聚集,组成一棵层次数、两种主要图得表示:树状图与嵌套簇图。2、 两种层次聚类得基本方法?两种方法得定义?凝聚层次聚类与分裂层次聚类凝聚得:

14、从点作为个体簇开始,每一步合并两个最接近得簇。分裂得:从包含所有点得某个簇开始,每一步分裂一个簇,直到仅剩下单点簇、3、 分别写出Min、Max与组平均得优缺点?定义方式优点缺点Min能处理非椭圆形状对噪声与离群点很敏感Max对噪声点与离群点敏感度较小1 .当处理簇大小/、同时,较大得簇容易破裂2 .偏好处理球状得簇组平均对噪声点与离群点敏感度较小偏好处理球状得簇4。写出基本凝聚层次聚类得算法算法步骤:(1)计算邻近度矩阵(2)Repeat(3) 合并最邻近得两个簇(4) 更新邻近度矩阵,以反映新得簇与原来得簇之间得邻近度(5)Until仅剩下一个簇5。由下图已给出得距离矩阵,将Max用于6个

15、点样本数据集,画出层次聚类得树状图?P1P2P3P4P5P6P10。000、240.220.370、340.23P20.240.000.140.200o130。25P30O220。140o000.150o280o11P40o370O200、150、000、290、22P50、340、130.280o290、000、39P60o230、250.110O220o390.00C01:0节g斗0I0.1501ons-这就是告诉您得计算过程,现在不要写了、P3与P6最近所以36结合,P2与P5较近,所以25结合,现在就是3,6、2,5、1与4,Dist(3,6,4)=max(dist(3,4),dist(6,4)=max(0、15,0.22)=0、22Dist(3,6,2,5)=max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max(0.14,0。25,0。28,0、39)=0、39Dist(3,6,1尸max(dist(3,1),dist(6,1)=max(0、22,0、23)=0、23所以3,6与4结合。现在还剩3,6,4、2,5与1D1st(3,6,4,2,5)=max(dist(3,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论