




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘考试题一选择题当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。“啤酒与尿布试验”最主要是应用了()数据挖掘方法。A分类B预测C关联规则分析D聚类4关于K均值和DBSCAN的比较,以下说法不正确的是()K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但
2、是DBSCAN会合并有重叠的簇sMethod说法错误的是:()对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似下列关于层次聚类存在的问题说法正确的是:()具有全局优化目标函数GroupAverage擅长处理球状的簇可以处理不同大小簇的能力Max对噪声点和离群点很敏感下列关于凝聚层次聚类的说法中,说法错误的事:()A.一旦两个簇合并,该操作就不能撤销8规则牛奶,尿布-啤酒的支持度和置信度分别为:()TID项集1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布
3、,可乐9下列()是属于分裂层次聚类的方法。10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:()TOC o 1-5 h z HYPERLINK l bookmark20 11I2I3I4I511121314151,000,900100,650,200.901.000.700.600.500.100.701.000.400.300.650.600.401.000.800.200.500.300.801.00A.在3和1,2合并B.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二.填空题:属性包括的四种类型:、。是两个簇的邻近度定义为不同簇的所
4、有点对邻近度的平均值。基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将。聚类中,定义簇间的相似度的方法有(写出四个):、。层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:、。组平均是一种界于和之间的折中方法。相似度矩阵可以用相识度表示还可以用表示。全链在处理大小不同的簇时,可能彳破裂,并且偏好。单链技术擅长于处理,但对和很敏感。聚类分析可以看做是一种的分类。(有监督、无监督)三判断题从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。()数据挖掘的目标不在于数据采集策略,而在于对已经存
5、在的数据进行模式的发掘。()在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。()DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。()属性的性质不必与用来度量他的值的性质相同。()全链对噪声点和离群点很敏感。()对于非对称的属性,只有非零值才是重要的。()K均值可以很好的处理不同密度的数据。()单链技术擅长处理椭圆形状的簇。()四综合题何为层次聚类?它用哪两种图表示?两种层次聚类的基本方法?两种方法的定义?分别写出Min、Max和组平均的优缺点?写出基本凝聚层次聚类的算法?5由下图已给出
6、的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?考试题+答案一选择题当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)(C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。“啤酒与尿布试验”最主要是应用了(C)数据挖掘方法。A分类B预测C关联规则分析D聚类4关于K均值和DBSCAN的比较,以下说法不正确的是(A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和
7、不同形状的簇K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇Method说法错误的是:(C对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似7下列关于层次聚类存在的问题说法正确的是:(BA具有全局优化目标函数B.GroupAverage擅长处理球状的簇7下列关于凝聚层次聚类的说法中,说法错误的事:(DA.一旦两个簇合并,该操作就不能撤销8规则牛奶,尿布-啤酒的支持度和置信度分别为:(C)TID项集1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,
8、尿布,啤酒5面包,牛奶,尿布,可乐9下列(D)是属于分裂层次聚类的方法。10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:(B)11I2I3I4I51000,900,100,650,200.901.000.700.600.500.100.701.000.400.300.650.600.401.000.800.200.500.300.801.001112131415A.在3和1,2合并B.3和4,5合并C.2,3和4,5合并D.2,3和4,5形成簇和3合并二.填空题:1属性包括的四种类型:标称、序数、区间、比率2组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的
9、平均值。3.基本凝聚层次聚类算法空间复杂度时间复杂度如果某个簇到其他所有簇的距离存放在个有序表或堆中,层次聚类所需要的时间复杂度将为OCm21ogm)。聚类中,定义簇间的相似度的方法有(写出四个):MIN(单链)、MAX(全链)、组平均、Ward方法层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:凝聚层次聚类、分裂层次聚类单链和全链之间的折中方法。相似度矩阵可以用相识度表示还可以用.距离表示。全链在处理大小不同的簇时,可能使大的簇破裂,并且偏好球形单链技术擅长于处理非椭圆形状的簇,但对噪声点_和离群点很敏感。聚类分析可以看做是一种无监督的分类。(有监督、无监督)三判断题:从点作为个
10、体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(X数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。(在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(x)当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。(DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(属性的性质不必与用来度量他的值的性质相同。2全链对噪声点和离群点很敏感。(x)对于非对称的属性,只有非零值才是重要的。WK均值可以很好的处理不同密度的数据。(x)单链技术擅长处理椭圆形状的簇。(X四综合题何为层次聚类?它用哪两种图表示?层次聚类为
11、嵌套簇的聚集,组成一棵层次数。两种主要图的表示:树状图和嵌套簇图。两种层次聚类的基本方法?两种方法的定义?凝聚层次聚类和分裂层次聚类凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点?定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1当处理簇大小不同时,较大的簇容易破裂2.偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4写出基本凝聚层次聚类的算法?算法步骤:(1)计算邻近度矩阵Repeat合并最邻近的两个簇更新邻近度矩阵
12、,以反映新的簇与原来的簇之间的邻近度Until仅剩下一个簇5由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?P1P2P3P4P5P6P1P2P3P4P5P6这是告诉你的计算过程,现在不要写了。P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是3,6、2,5、1和4,Dist(3,6,2,5)=max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)A存储数据B.查找所以3,6和4结合。现在还剩3,6,4、2,5和1Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(6,2),dist(6,
13、5),dist(4,2),dist(4,5)所以2,5和1结合数据挖掘考试题目关联分析一、10个选择以下属于关联分析的是()A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模维克托迈尔-舍恩伯格在大数据时代:生活、工作与思维的大变革一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-meansB.BayesNetworkC.D.Apriori3置信度(confidence)是衡量兴趣度度量()的指标。A.简洁性B.确定性C.
14、实用性D.新颖性Apriori算法的加速过程依赖于以下哪个朿略()A抽样B剪枝C.缓冲D.并行5以下哪个会降低Apriori算法的挖掘效率()B.项数减少D.减小硬盘读写速率)B.二叉树、哈希树D.多叉树、有向无环图B.令人不感兴趣D对异常数据项敏感A.支持度阈值增大C.事务数减少Apriori算法使用到以下哪些东东(A.格结构、有向无环图C.格结构、哈希树非频繁模式()A.其置信度小于阈值C.包含负模式和负相关模式)注:分别以1、2、3代表之对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是(A.3可以还原出无损的1B.2可以还原出无损的1C.3与2是完全等价的D.2与1是完全等价的Ha
15、shtree在Apriori算法中所起的作用是()C.加速查找D剪枝以下不属于数据挖掘软件的是()A.SPSSModelerB.WekaC.ApacheSparkD.Knime二、10个填空TOC o 1-5 h z1关联分析中表示关联关系的方法主要有:和。2关联规则的评价度量主要有:和。3关联规则挖掘的算法主要有:和。4购物篮分析中,数据是以的形式呈现。个项集满足最小支持度,我们称之为。一个关联规则同时满足最小支持度和最小置信度,我们称之。7在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做。&极大频繁项集不能无损还原出频繁项集,是因为它不包含频繁项集的信息。9经典
16、的Apriori算法是逐层扫描的,也就是说它(选:深度/宽度)优先的。10.数据挖掘大概步骤包括:输入数据T预处理T挖掘T后处理T输出知识。其中,输出的知识可以有很多种表示形式,两种极端的形式是:内部结构难以被理解的黑匣子,比如说人工神经网络训练得出的网络;模式结构清晰的匣子,这种结构容易被人理解,比如说决策树产生的树。那么,关联分析中输出的知识的表示形式主要(选:黑匣子/清晰结构)。三、10个判断()1.啤酒与尿布的故事是聚类分析的典型实例。()2.Apriori算法是一种典型的关联规则挖掘算法。()3.支持度是衡量关联规则重要性的一个指标。()4.可信度是对关联规则的准确度的衡量。()5.
17、给定关联规则ATB,意味着:若A发生,B也会发生。()6.频繁闭项集可用来无损压缩频繁项集。()7.关联规则可以用枚举的方法产生。()8.Apriori算法产生的关联规则总是确定的。()9.不满足给定评价度量的关联规则是无趣的。()10.对于项集来说,置信度没有意义。四、5个简答简述关联规则产生的两个基本步骤。Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法,该算法利用频繁项集性质的先验知识,从候选项集中找到频繁项集。请简述Apriori算法的基本原理。简述Apriori算法的优点和缺点。针对Apriori算法的缺点,可以做哪些方面的改进?强关联规则一定是有趣的吗?为什么?数据挖掘
18、考试题目+参考答案一、10个选择以下属于关联分析的是(B)A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模维克托迈尔-舍恩伯格在大数据时代:生活、工作与思维的大变革一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘(D)A.K-meansB.BayesNetworkC.D.Apriori3置信度(confidence)是衡量兴趣度度量(B)的指标。A.简洁性B.确定性C.实用性D.新颖性4.Apriori算法的加速过程依赖于以下哪个
19、策略(B)A.抽样B剪枝C缓冲D.并行5以下哪个会降低Apriori算法的挖掘效率(D)A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率6.Apriori算法使用到以下哪些东东(C)A.格结构、有向无环图B.二叉树、哈希树C.格结构、哈希树D.多叉树、有向无环图7.非频繁模式(D)A.其置信度小于阈值C.包含负模式和负相关模式B.令人不感兴趣D对异常数据项敏感注:分别以1、2、3代表之对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是(B)A.3可以还原出无损的1B.2可以还原出无损的1C.3与2是完全等价的D.2与1是完全等价的Hashtree在Apriori算法中所起的
20、作用是(C)A存储数据B查找C.加速查找D.剪枝以下不属于数据挖掘软件的是(C)A.SPSSModelerB.WekaD.KnimeC.ApacheSpark二、10个填空1关联分析中表示关联关系的方法主要有:和关联规则关联规则的评价度量主要有:支持度和置信度。关联规则挖掘的算法主要有:Apriori和FP-Growth。4购物篮分析中,数据是以不对称二元变量的形式呈现。个项集满足最小支持度,我们称之为频繁项集。一个关联规则同时满足最小支持度和最小置信度,我们称之为强规则。7在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做相关。&极大频繁项集不能无损还原出频繁项集,是因为它不包含频繁项集的支持度信息。9经典的Apriori算法是逐层扫描的,也就是说它是宽度(选:深度/宽度)优先的。10.数据挖掘大概步骤包括:输入数据T预处理T挖掘T后处理T输出知识。其中,输出的知识可以有很多种表示形式,两种极端的形式是:内部结构难以被理解的黑匣子,比如说人工神经网络训练得出的网络;模式结构清晰的匣子,这种结构容易被人理解,比如说决策树产生的树。那么,关联分析中输出的知识的表示形式主要是清晰结构(选:黑匣子/清晰结构)。三、10个判断(X)1啤酒与尿布的故事是聚类分析的典型实例。(丿)2.Apriori算法是一种典型的关联规则挖掘算法。()3支持度是衡
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年资产评估师考试试题与答桉资产评估学
- 2025年工业互联网平台网络流量整形技术对工业互联网平台边缘计算架构的影响报告
- 绿色建筑新方向:2025年被动式超低能耗技术原理与建筑材料选择报告
- 2025年教育直播平台技术支持与售后服务优化报告
- 2023年院内POCT血糖仪临床操作规范试题及答案
- 二零二五年度客运服务设施维修合同
- 二零二五年度餐厅食品安全检测众筹合同
- 二零二五版钢构施工合同终止与解除规范
- 2025年度特色生态养殖场承包经营权转让协议
- 2025版新型城镇化建设劳务派遣项目合作协议
- 无人机训练方案
- 内蒙古包头市2024-2025学年八年级下学期期末语文试题(含答案)
- 2024年西藏林芝县人民医院公开招聘护理工作人员试题带答案详解
- 健康体重教育小学课件
- 2025年华住储备干部考试题库
- 床上用品采购 投标方案
- JJG 693-2011可燃气体检测报警器
- GB/T 20910-2007热水系统用温度压力安全阀
- 人教版六年级数学上册第三单元分数除法第1课时-倒数的认识课件
- 山东省一级保护古树名木名录
- 部编版高一语文《红烛》教案公开课一等奖省优质课大赛获奖课件
评论
0/150
提交评论