下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据仓库与数据挖掘》试卷标准答案(A卷)请定义以下数据挖掘功能(每个3分,共9分)1、聚类分析聚类分析的数据对象不考虑已知的类标号。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。2、分类与预测分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值3、描述性数据挖掘任务:主要负责描述数据特征或特征汇总。简答题:(40分)1、解释如下规范化方法并确定值域(a)min-max规范化;(b)z-score规范化;(c)z-score规范化,使用均值的绝对偏差而不是标准差(6分)(a)min-max规范化。(2分)值域是[new_min,new_max]。(b)z-score规范化。(2分)值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。(c)小数定标规范化。(2分)值域是(-1.0,1.0)2、答:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4分)(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N。缺点:1.K是事先给定的,但非常难以选定;2.初始聚类中心的选择对聚类结果有较大的影响。(3分)3、信息增益:只支持分类,不支持连续特征、缺失值、选择特征时倾向于样本多的特征(2分);信息增益率:只支持分类,支持连续特征和缺失值,根据不同类别比值计算得到信息增益(2分);基尼系数:支持连续特征和缺失值。(2分)4、平行坐标系(2分)、雷达图(2分)、数据降维(3分)5、AdaBoost的运行过程如下:赋予训练数据中每个数据相等的权重。在训练数据上训练分类器并计算该分类器的错误率,根据错误率调整样本权重,降低分对的样本的权重,提高分错的样本的权重。重复以上步骤至满足收敛要求。(迭代样本的权重)。(4分)为每个分类器都分配了一个权重值alpha,这些alpha是基于每个弱分类器的错误率ε进行计算的。错误率ε越大时,分类器的权重α就越小。分类结果为各个分类器预测值的加权平均。(3分)6、操作型处理 分析型处理(1分)细节的 综合或者提炼的(1分)实体-关系(E-R)模型 星型模型或雪花模型(1分)存储瞬间数据 存储历史数据,不包含最近的数据(1分)可更新的 只读、只追加(1分)面向事务 面向分析(1分)数据量小 数据量大计算题(11分)1、假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a)该数据的均值是什么?中位数是什么?(1分)均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即x14=25=Q2。(b)该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。(1分)这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众。(c)数据的中列数是什么?(1分)数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d)粗略地找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以:Q3=35(1分)(e)给出数据的五数概括。(1分)一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。2、请使用以下混淆矩阵,计算分类的准确率、错误率、召回率、精度、敏感度、特效性和F1分数Sensitivity=TP/P=10/13Specificity=TN/N=45/53Accuracy=(TP+TN)/All=55/66Errorrate=(FP+FN)/All=11/66Precision=TP/(TP+FP)=10/18Recall=TP/(TP+FN)=10/13F1=2P×R/(P+R)=2×10/18×10/13/(10/18+10/13)四、 综合题(共40分)1、知识发现的流程主要包括以下重要环节:数据准备、数据选取、数据预处理、数据变换、数据挖掘、模式解释、知识评价。3、下表给出了一个标记类的元祖的训练集D,简述朴素贝叶斯分类原理并写出用朴素贝叶斯分类预测以下示例类别的过程。(10分)X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)AgeincomestudentCredit_ratingBuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30Lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentnoX=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)14P(Ci):P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357ComputeP(X|Ci)foreachclassP(age=“<=30”|buys_computer=“yes”)=2/9=0.222P(age=“<=30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026“梦想靠岸”招商银行南京分行春季校园招聘备考题库含答案详解(巩固)
- 2024年贵阳幼儿师范高等专科学校马克思主义基本原理概论期末考试题含答案解析(夺冠)
- 2025年南城县幼儿园教师招教考试备考题库带答案解析(夺冠)
- 2025年托克托县幼儿园教师招教考试备考题库附答案解析(必刷)
- 2025年长沙卫生职业学院马克思主义基本原理概论期末考试模拟题带答案解析(夺冠)
- 2026国家税务总局湖南省税务局系统公开招聘事业单位工作人员93人备考题库含答案详解(精练)
- 人工智能原理与实践要领
- 2025年郑州体育职业学院单招职业倾向性考试题库带答案解析
- 2025年河北大学工商学院马克思主义基本原理概论期末考试模拟题含答案解析(夺冠)
- 2025年宣化科技职业学院单招职业适应性测试题库带答案解析
- DB11∕T1135-2024供热系统有限空间作业安全技术规程
- 井网部署基础知识
- DB14-T2535-2022煤炭绿色开采技术指南
- JT-T-939.2-2014公路LED照明灯具第2部分:公路隧道LED照明灯具
- 墙面防潮合同
- 皮肤科轮转出科小结
- 医院护士培训课件:《护理值班、交接班制度》
- 产品开发任务书
- 《短歌行》《归园田居(其一)》 统编版高中语文必修上册
- 装配式建筑施工安全管理的要点对策
- 南开大学项目管理学课件-戚安邦教授
评论
0/150
提交评论