2015新pep四年级下册英语期末试卷(附听力材料)_第1页
2015新pep四年级下册英语期末试卷(附听力材料)_第2页
2015新pep四年级下册英语期末试卷(附听力材料)_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2014 2015学年第二学期期末考试数据挖掘技术试卷(a卷)参考回答班/12/13/14解答时间_120分_一、填空问题(共10空,1空1分钟,共10分钟)1 .数据挖掘任务:分类、聚类、回归、相关分析、离群点监测、进化分析、序列模型。2 .数据集的三个重要特性: _维、稀疏性和分辨率。二、判断问题(合计10小问题,每小问题1分,合计10分)确定以下3-7小问题的描述是否正确3.ID3算法不仅能处理离散属性,还能处理连续属性。 (f )4 .决策树方法通常用于关联规则挖掘。 (f )5 .预处理原理可以表示频繁项集合的子集也应该是频繁的。 (t )6.Clementine是IBM的专业级数据挖掘软件。 (t )7 .具有高支持度的项目集具有高可靠度。 (f )确定以下8到12个主题的说明是否属于数据挖掘任务8 .利用历史数据预测公司未来股价。 (t )9 .监测患者心率的异常变化。 (f )10 .监测地震活动的地震波。 (f )11 .提取声波的频率。 (f )12 .根据顾客的喜好配置商品的位置。 (t )三、简单解答(6个小题,每小题5分,共30分)13 .什么是信息熵?答:熵(entropy )是用于测量属性的信息量(1分钟)。 假定s是一个训练集,而s的目标属性c具有m个可能的类别值,并且C=C1,C2,Cm,其中Ci出现于训练集s内的所有样本的频率为(I=1,2,3,m ),则包括在训练集s中的信息熵定义为(3个点)熵越小表示样本在目标属性上的分布越纯粹,相反熵越大表示样本在目标属性上的分布越混乱。 (1分)14 .什么是文本挖掘?答:文本挖掘是一个分析含义丰富的文本并理解其内容和含义的过程。 (2点)对其进行深入研究,可以大大提高人们从大量文本数据中提取信息的能力,具有较高的商业价值。 (1点)分词、文本表现、文本特征选择、文本分类、文本聚类、文档自动摘要等。 (2分)15 .什么是主成分分析?a :主成分分析(PCA )是用于连续属性的线性变换技术,找到新的属性(主成分),(1)这些新的属性是原属性的线性组合,(1)相互正交,(1)将原数据投影到小集合上,使数据的收集最大化。 (1点) PCA通常明确以前没有发现的联系,说明罕见的结果。 (1分)16 .简述k -最近邻算法的过程。答: a:KNNN分类算法的基本描述是:算法名称: KNN输入:最近邻数k、训练集d、测试集Z (1点)输出:预测测试集z中所有测试样本的类标签值(1分钟)(1)for各测试样本(1点) do(2)计算z和每个训练样本的距离(1分钟)(3)选择离z最近的离k最近的邻接集合(1点)。(4)返回中样本多个类的类标签(1点)(5)结束17 .简要阐述了apriori算法的原理。Apriori的性质:项目集频繁,其子集都频繁。 (1点)一个项目集的支持度不超过其子集的支持度。 (1点)该算法以分层方式找到频繁的项集,(1点)首先找到频繁的项集,以重复的方式利用频繁的k-1项集生成k候选集,(1点)在扫描数据库之后,从候选k项集中频繁的k项集,直到生成的候选集为空为止(1分)18 .什么是离群点?a :离群点是远离大部分数据的数据,(2点)这些数据的偏差不是随机因素,而是(1点)发生在完全不同的机制中。 (2分)四、算题(共两题,每小题二十分,共四十分)19 .数据集如下表所示:A1A2a3.a3B1B2B3B4c1.c1c2.c2C3x1975962728y2598294713利用曼哈顿距离的k均值算法以A1、B1、C1为初始聚类中心进行计算(1)第1次循环后的3个集群中心(2)最后3个集群的中心和各集群所包含的对象。 (需要计算步骤)解: (1)计算从其他7个数据到3个中心的曼哈顿距离M(A2,A1)=11 M(A2,B1)=7 M(A2,C1)=4M(A3,A1)=13 M(A3,B1)=3 M(A3,C1)=2M(B2,A1)=8 M(B2,B1)=10 M(B2,C1)=7M(B3,A1)=12 M(B3,B1)=2 M(B3,C1)=3M(B4,A1)=3 M(B4,B1)=7 M(B4,C1)=8M(C2,A1)=2 M(C2,B1)=10 M(C2,C1)=11M(C3,A1)=8 M(C3,B1)=8 M(C3,C1)=5经过此次循环,属于A1集群的数据点为(A1,B4,C2),(1分钟)中心为x1(1. 67,2.33 ) (1分钟)属于B1簇的数据点是(B1,B3 ),(1分钟)中心是x2 (5.5,8.5 ) (1点)属于C1簇的数据点是(C1,A2,A3,B2,C3 ),(1分钟)中心是x3 (8,5.2 ) (1点)(2)计算从10个到3个新中心的距离M(A1,X1)=1 M(A1,X2)=11 M(A1,X3)=10.2M(A2,X1)=10 M(A2,X2)=7 M(A2,X3)=1.2M(A3,X1)=12 M(A3,X2)=2 M(A3,X3)=4.8M(B1,X1)=9 M(B1,X2)=1 M(B1,X3)=5.8M(B2,x1 )=7.66米(B2,x2 )=10米(B2,X3)=4.2M(B3,X1)=11 M(B3,X2)=1 M(B3,X3)=5.8M(B4,X1)=2 M(B4,X2)=8 M(B4,X3)=7.2M(C1,X1)=10 M(C1,X2)=3 M(C1,X3)=2.8M(C2,x1 )=1.66米(C2,x2 )=11米(C2,X3)=10.2M(C3,X1)=7 M(C3,X2)=8 M(C3,X3)=2.2通过本次循环,属于X1簇的数据点为(A1,B4,C2 ),(1分钟)中心为y1 (1.67,2.33 ) (1分钟)属于X2簇的数据点为(A3,B1,B3 ),(1分钟)中心为y2 (6,8.67 ) (1点)属于X3簇的数据点是(A2,B2,C1,C3 ),(1分钟)中心是y3 (8.25,4.25 ) (1点)重新计算10个数据到3个新中心的距离M(A1,Y1)=1 M(A1,Y2)=11.67 M(A1,Y3)=9.5M(A2,Y1)=10 M(A2,Y2)=6.67 M(A2,Y3)=1.5M(A3,Y1)=12 M(A3,Y2)=1.33 M(A3,Y3)=6M(B1,Y1)=9 M(B1,Y2)=1.67 M(B1,Y3)=7M(B2,Y1)=7.66 M(B2,Y2)=9.67 M(B2,Y3)=3M(B3,Y1)=11 M(B3,Y2)=0.33 M(B3,Y3)=7M(B4,Y1)=2 M(B4,Y2)=8.67 M(B4,Y3)=6.5M(C1,Y1)=9 M(C1,Y2)=2.67 M(C1,Y3)=4M(C2,Y1)=1.66 M(C2,Y2)=11.67 M(C2,Y3)=9.5M(C3,Y1)=7 M(C3,Y2)=7.67 M(C3,Y3)=1.5经过此次循环,属于Y1簇的数据点为(A1,B4,C2),(1分钟)中心为y1(1. 67,2.33 ) (1分钟)属于Y2簇的数据点是(A3,B1,B3,C1 ),(1分钟)中心是y2 (6.25,8.25 ) (1点)属于Y3簇的数据点为(A2,B2,C3 ),(1分钟)中心为y3 (8.67,3.33 ) (1点)正如你看到的,已经没有变化了。 (2分)天气状态x1温度状况x2湿度状况x3风力时为x4户外运动y晴天很贵很大微风不适合n晴天很贵很大强风不适合n阴天很贵很大微风符合y下雨进去很大微风符合y下雨低中等程度微风符合y下雨低中等程度强风不适合n阴天低中等程度强风符合y晴天进去很大微风不适合n晴天低中等程度微风符合y下雨进去中等程度微风符合y20 .已知数据集如下表所示:如果使用朴素的Bayes算法预测气候状况是雨、高温、湿度等微风,适合野外运动吗?解:即,求出X=雨、高、中、微风的能够进行野外运动的后验概率P(Y=y|X )和x在室外运动中不能进行的后验概率P(Y=n|X ),其中概率最大的是x的预测值。 (3分)根据Bayes定理,p (y=y|x )=p (x|y=y ) * p (y=y )=p (x1|y=y ) * p (x2|y=y ) * p (x3|y=y ) * p (x4|y=y ) * p (y=y ) (两分钟)在此,P(x1|Y=y)=P(x1=雨|Y=y)=3/6 (1分钟)P(x2|Y=y)=P(x2=高|Y=y)=1/6 (1分钟)P(x3|Y=y)=P(x3=中|Y=y)=4/6 (1分钟)P(x4|Y=y)=P(x4=微风|Y=y)=5/6 (1分钟)P(Y=y)=6/10 (1分钟)因此,p (y=y|x )=3/6*1/6*4/6*5/6*6/10=1/36 (1分钟)同样,计算p (y=n|x )=p (x|y=n ) * p (y=n )=p (x1| y=n ) * p (x2| y=n ) * p (x3| y=n ) * p (x4| y=n ) * p (y=n ) (1分钟)在此,P(x1|Y=n)=P(x1=雨|Y=n)=1/4 (1分钟)P(x2|Y=n)=P(x2=高|Y=n)=2/4 (1分钟)P(x3|Y=n)=P(x3=中|Y=n)=1/4 (1分钟)P(x4|Y=n)=P(x4=微风|Y=n)=2/4 (1分钟)P(Y=n)=4/10 (1分钟)因此,p (y=n|x )=1/4*2/4*1/4*2/4*4/10=1/160 (1分钟)由于P(Y=y|X) P(Y=n|X ),气候状况为雨、高温、湿度为中等程度,微风时,户外运动应适当。 (2分)五、应用问题(共一题,共十分钟)21 .作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论