2015数据挖掘技术试卷A卷-参考答案_第1页
2015数据挖掘技术试卷A卷-参考答案_第2页
2015数据挖掘技术试卷A卷-参考答案_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2014-2015学年第二学期期末考试数据挖掘技术试卷(卷一)使用类/12/13/14答案时间_120分钟一、填空(共10题,每题1分,共10分)1.数据挖掘任务:分类,聚类,回归,关联分析,异常监控,进化分析,序列模式。2.数据集的三个重要特征:维数、稀疏性和分辨率。2.真或假(共10项,每项1分,共10分)判断以下3 7项描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。(女性)4.决策树方法通常用于关联规则挖掘。(女性)5.先验原则可以表示为频繁项集的任何子集也应该是频繁的。(吨)6.克莱曼婷是IBM的专业数据挖掘软件。(吨)7.支持度高的项目有更高的信心。(女性)判断以下8 12项是否为数据挖掘任务?8.使用历史数据来预测公司未来的股价。(吨)9.监测患者心率的异常变化。(女性)10.监测地震活动的地震波。(女性)11.提取声波的频率。(女性)12.根据顾客喜好摆放商品。(吨)三、简答题(6项,每项5分,共30分)13.什么是信息熵?答:熵是用来衡量一个属性的信息量(1点)。假设S是一个训练集,并且S的目标属性C有M个可能的类标签值,C=C1,C2,假设在训练集S的所有样本中Ci出现的频率是(1=1,2,3,在训练集中包含的信息熵被定义为:(3点)熵越小,样本到目标属性的分布越纯,而熵越大,样本到目标属性的分布越混乱。(1分)14.什么是文本挖掘?答:文本挖掘是一个分析丰富语义文本以理解其内容和意义的过程。(2)对其进行深入研究可以大大提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。(1)包括分词、文本表示、文本特征选择、文本分类、文本聚类、自动文档摘要等。(2分)15.什么是主成分分析?答:主成分分析(PCA)是一种用于连续属性的线性变换技术,用于寻找新的属性(主成分),(1)这些新属性是原始属性的线性组合,(1)彼此正交,(1)将原始数据投影到一个更小的集合中,并捕获数据的最大变化。(1)主成分分析通常揭示以前未检测到的联系,并解释异常结果。(1分)16.简述k-最近邻算法的过程。KNN分类算法的基本描述如下:算法名称:KNN输入:最近邻数k,训练集d,测试集Z (1分)输出:预测测试集中所有测试样本的类别标签值(1分)(1)对每个测试样本(1分)做(2)计算Z和每个训练样本之间的距离(1点)(3)选择离Z (1点)最近的K个最近邻集(4)返回样品的大多数类别的类别标签(1分)(5)结束17.简述Apriori算法的原理。回答:先验性质:一个项目集是频繁的,那么它的所有子集都是频繁的。(1)项目集的支持不会超过任何子集的支持。(1)该算法采用逐层查找频繁项集的方法,(1)首先找到一个频繁项集,利用频繁k- 1项集通过迭代方法生成K个候选项集,(1)在扫描数据库后,从候选K项集中指出频繁K项集,直到生成的候选项集为空。(1分)18.什么是离群值?答:异常值是偏离数据集中大多数数据的数据,(2分)使人们怀疑这些数据的偏离不是由随机因素造成的,(1分)而是由完全不同的机制造成的。(2分)四、计算题(共2题,每题20分,共40分)19.数据集如下:第一等的主动脉第二声A3B1B2B3B4C1C2C3x1975962728y2598294713以A1、B1和C1为初始聚类中心,采用曼哈顿距离的k均值算法计算:(1)第一周期后的三个聚类中心;(2)最后三个集群的中心和每个集群中包含的对象。(需要计算步骤)解决方案:(1)计算从其他7个数据点到3个中心的曼哈顿距离:M(A2,A1)=11 M(A2,B1)=7 M(A2,C1)=4M(A3,A1)=13 M(A3,B1)=3 M(A3,C1)=2M(B2,A1)=8 M(B2,B1)=10 M(B2,C1)=7M(B3,A1)=12 M(B3,B1)=2 M(B3,C1)=3M(B4,A1)=3 M(B4,B1)=7 M(B4,C1)=8M(C2,A1)=2 M(C2,B1)=10M(C1 C2)=11M(C3,A1)=8 M(C3,B1)=8M(C1 C3)=5在这个循环之后,属于A1簇的数据点是(A1,B4,C2),(1点),中心是X1(1.67,2.33);(1分)属于B1簇的数据点是(B1,B3),(1点),中心是X2(5.5,8.5););(1分)属于C1聚类的数据点是(C1,A2,A3,B2,C3),(1分钟),中心是X3(8,5.2););(1分)(2)计算10到3个新中心的距离:M(A1,X1)=1 M(A1,X2)=11 M(A1,X3)=10.2M(A2,X1)=10 M(A2,X2)=7 M(A2,X3)=1.2M(A3,X1)=12 M(A3,X2)=2 M(A3,X3)=4.8M(B1,X1)=9 M(B1,X2)=1 M(B1,X3)=5.8M(B2,X1)=7.66 M(B2,X2)=10 M(B2,X3)=4.2M(B3,X1)=11 M(B3,X2)=1 M(B3,X3)=5.8M(B4,X1)=2 M(B4,X2)=8 M(B4,X3)=7.2M(C1,X1)=10 M(C1,X2)=3 M(C1,X3)=2.8M(C2,X1)=1.66 M(C2,X2)=11 M(C2,X3)=10.2M(C3,X1)=7 M(C3,X2)=8 M(C3,X3)=2.2在这个循环之后,属于X1聚类的数据点是(A1,B4,C2),(1点),Y1(1.67,2.33);)中心;(1分)属于X2聚类的数据点为(A3,B1,B3),(1分钟),中心为Y2(6,8.67););(1分)属于X3聚类的数据点为(A2,B2,C1,C3),(1分钟),中心为Y3(8.25,4.25););(1分)再次计算从10个数据点到3个新中心的距离:M(A1,Y1)=1 M(A1,Y2)=11.67 M(A1,Y3)=9.5M(A2,Y1)=10 M(A2,Y2)=6.67 M(A2,Y3)=1.5M(A3,Y1)=12 M(A3,Y2)=1.33 M(A3,Y3)=6M(B1,Y1)=9 M(B1,Y2)=1.67 M(B1,Y3)=7M(B2,Y1)=7.66 M(B2,Y2)=9.67 M(B2,Y3)=3M(B3,Y1)=11 M(B3,Y2)=0.33 M(B3,Y3)=7M(B4,Y1)=2 M(B4,Y2)=8.67 M(B4,Y3)=6.5M(C1,Y1)=9 M(C1,Y2)=2.67 M(C1,Y3)=4M(C2,Y1)=1.66 M(C2,Y2)=11.67 M(C2,Y3)=9.5M(C3,Y1)=7 M(C3,Y2)=7.67 M(C3,Y3)=1.5在这个循环之后,属于Y1簇的数据点是(A1,B4,C2),(1点),Y1(1.67,2.33);)中心;(1分)属于Y2簇的数据点是(A3,B1,B3,C1),(1分钟),中心是Y2(6.25,8.25););(1分)属于Y3聚类的数据点为(A2,B2,C3),(1点),中心为Y3(8.67,3.33););(1分)如你所见,它没有改变。(2分)天气状况x1温度条件x2湿度条件x3风力条件x4户外运动y快活的高的大的微风不适合n快活的高的大的强风不适合n阴天高的大的微风套装y雨在大的微风套装y雨低的中等微风套装y雨低的中等强风不适合n阴天低的中等强风套装y快活的在大的微风不适合n快活的低的中等微风套装y雨在中等微风套装y20.已知数据集如下:使用朴素贝叶斯算法预测雨天、高温、中等湿度和微风等天气条件是否适合户外运动?解决方案:即,计算户外运动的后验概率P(Y=y|X),其中X=雨、高、中、微风是可能的,以及户外运动的后验概率P(Y=n|X),其中X是不可能的,其中最大概率是X的预测值(3分)根据贝叶斯定理,p(y=y | x)=p(x | y=y)* p(y=y)=p(x1 | y=y)* p(x2 | y=y)* p(x3 | y=y)* p(x4 | y=y)* p(y=y)(2分)这里,P(x1|Y=y)=P(x1=雨|Y=y)=3/6 (1点)P(x2|Y=y)=P(x2=高|Y=y)=1/6 (1点)P(x3|Y=y)=P(x3=中|Y=y)=4/6 (1分)P(x4|Y=y)=P(x4=微风|Y=y)=5/6 (1分)P(Y=y)=6/10 (1分)因此,p(y=y | x)=3/6 * 1/6 * 4/6 * 5/6 * 6/10=1/36(1点)同样,计算p(y=n | x)=p(x | y=n)* p(y=n)=p(x1 | y=n)* p(x2 | y=n)* p(x3 | y=n)* p(x4 | y=n)* p(y=n)(1点)其中,P(x1|Y=n)=P(x1=雨|Y=n)=1/4 (1点)P(x2|Y=n)=P(x2=高|Y=n)=2/4 (1点)P(x3|Y=n)=P(x3=中等|Y=n)=1/4 (1点)P(x4|Y=n)=P(x4=微风|Y=n)=2/4 (1分钟)P(Y=n)=4/10 (1分)因此,p(y=n | x)=1/4 * 2/4 * 1/4 * 2/4 * 4/10=1/160(1点)因为P(Y=y|X) P(Y=n|X),天气条件是多雨、高温、中等湿度,当有微风时,户外运动应该是合适的。(2分)五、应用问题(共1个,共10分)21.作为银行信息中心的工作人员,请详细说明数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论