数据仓库与数据挖掘 试卷及答案 AB卷_第1页
数据仓库与数据挖掘 试卷及答案 AB卷_第2页
数据仓库与数据挖掘 试卷及答案 AB卷_第3页
数据仓库与数据挖掘 试卷及答案 AB卷_第4页
数据仓库与数据挖掘 试卷及答案 AB卷_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE3数据仓库与数据挖掘期末试题(A卷)班级学号姓名成绩请定义以下数据挖掘功能(每个3分,共9分)1、聚类分析2、分类与预测3、描述性数据挖掘任务简答题:(共40分)1、解释如下规范化方法并确定值域(a)min-max规范化;(b)z-score规范化;(c)z-score规范化(6分)2、简述k-means算法过程及特点。(7分)3、决策树中常使用信息增益、信息增益率及基尼指数衡量属性的重要性,请比较分析这三种指标的特点(6分)4、可以通过哪些途径可以实现多维数据的可视化?(7)5、简述Adaboost算法的原理及特点。(7分)6、简述数据库与数据仓库的区别?(7分)计算题(11分)1、假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(5分)(a)该数据的均值是什么?中位数是什么?(b)该数据的众数是什么?讨论数据的峰(即双峰、三峰等)(c)数据的中列数是什么?(d)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)(e)给出数据的五数概括。2、请使用以下混淆矩阵,计算分类的准确率、错误率、召回率、精度、敏感度、特效性和F1分数(6分)ConfusionMatrixTruevaluecatNotcatPredictedvalueCat103Notcat845四、 综合题:(共40分)1、画出并简述数据挖掘与知识发现的基本流程。(10分)2、下图已按分类器返回示例为正的概率值的递减排序。对于每个示例计算真正例(TP),假正例(FP)、真负例(TN)和负示例(FN)的个数。计算真正例率(TPR)和假正例率(FPR),为该数据绘制ROC曲线。(10分)元组号类概率1p0.952p0.853n0.84p0.665p0.606p0.557n0.538n0.529n0.5110p0.43、下表给出了一个标记类的元祖的训练集D,简述朴素贝叶斯分类原理并写出用朴素贝叶斯分类预测以下示例类别的过程。(10分)X=(age<=30,Income=low,Student=no,Credit_rating=Fair)AgeincomestudentCredit_ratingBuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30Lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentno4、设数据库有5个事务。设min_sup=60%,min_conf=80%使用Apriori算法找出所有频繁项集并简述Apriori算法的特点。(10分)《数据仓库与数据挖掘》试卷标准答案(A卷)请定义以下数据挖掘功能(每个3分,共9分)1、聚类分析聚类分析的数据对象不考虑已知的类标号。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。2、分类与预测分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值3、描述性数据挖掘任务:主要负责描述数据特征或特征汇总。简答题:(40分)1、解释如下规范化方法并确定值域(a)min-max规范化;(b)z-score规范化;(c)z-score规范化,使用均值的绝对偏差而不是标准差(6分)(a)min-max规范化。(2分)值域是[new_min,new_max]。(b)z-score规范化。(2分)值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。(c)小数定标规范化。(2分)值域是(-1.0,1.0)2、答:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4分)(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N。缺点:1.K是事先给定的,但非常难以选定;2.初始聚类中心的选择对聚类结果有较大的影响。(3分)3、信息增益:只支持分类,不支持连续特征、缺失值、选择特征时倾向于样本多的特征(2分);信息增益率:只支持分类,支持连续特征和缺失值,根据不同类别比值计算得到信息增益(2分);基尼系数:支持连续特征和缺失值。(2分)4、平行坐标系(2分)、雷达图(2分)、数据降维(3分)5、AdaBoost的运行过程如下:赋予训练数据中每个数据相等的权重。在训练数据上训练分类器并计算该分类器的错误率,根据错误率调整样本权重,降低分对的样本的权重,提高分错的样本的权重。重复以上步骤至满足收敛要求。(迭代样本的权重)。(4分)为每个分类器都分配了一个权重值alpha,这些alpha是基于每个弱分类器的错误率ε进行计算的。错误率ε越大时,分类器的权重α就越小。分类结果为各个分类器预测值的加权平均。(3分)6、操作型处理 分析型处理(1分)细节的 综合或者提炼的(1分)实体-关系(E-R)模型 星型模型或雪花模型(1分)存储瞬间数据 存储历史数据,不包含最近的数据(1分)可更新的 只读、只追加(1分)面向事务 面向分析(1分)数据量小 数据量大计算题(11分)1、假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a)该数据的均值是什么?中位数是什么?(1分)均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即x14=25=Q2。(b)该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。(1分)这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众。(c)数据的中列数是什么?(1分)数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d)粗略地找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以:Q3=35(1分)(e)给出数据的五数概括。(1分)一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。2、请使用以下混淆矩阵,计算分类的准确率、错误率、召回率、精度、敏感度、特效性和F1分数Sensitivity=TP/P=10/13Specificity=TN/N=45/53Accuracy=(TP+TN)/All=55/66Errorrate=(FP+FN)/All=11/66Precision=TP/(TP+FP)=10/18Recall=TP/(TP+FN)=10/13F1=2P×R/(P+R)=2×10/18×10/13/(10/18+10/13)四、 综合题(共40分)1、知识发现的流程主要包括以下重要环节:数据准备、数据选取、数据预处理、数据变换、数据挖掘、模式解释、知识评价。3、下表给出了一个标记类的元祖的训练集D,简述朴素贝叶斯分类原理并写出用朴素贝叶斯分类预测以下示例类别的过程。(10分)X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)AgeincomestudentCredit_ratingBuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30Lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentnoX=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)14P(Ci):P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357ComputeP(X|Ci)foreachclassP(age=“<=30”|buys_computer=“yes”)=2/9=0.222P(age=“<=30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028 P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007Therefore,Xbelongstoclass(“buys_computer=yes”)4、数据仓库与数据挖掘期末试题(B卷)班级学号姓名成绩请定义以下数据挖掘功能(每个3分,共9分)关联分析2、分类与预测3、聚类分析简答题:(共40分)如何确定数据中的离群点?(6分)简述常用的文本数据可视化方法。(7分)简述DBSCAN算法原理及特点(7分)如何使用10折交叉验证评估分类器的准确率(6分)简述数据预处理的主要内容。(7分)6、简述数据库与数据仓库的区别。(7分)计算题:(11分)1、计算以下四个示例的相异性(4分)IDTest-1Test-2Test-31Code-Aexcellent452Code-Bfair223Code-Cgood644Code-Aexcellent282、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a)计算年龄和脂肪百分比的均值、中位数和标准差。(2分)(b)根据z-score规范化来规范化这两个属性。(3分)(c)判断两个变量的相关性。(2分)四、 综合题:(共40分)1、下图已按分类器返回示例为正的概率值的递减排序。对于每个示例计算真正例(TP),假正例(FP)、真负例(TN)和负示例(FN)的个数。计算真正例率(TPR)和假正例率(FPR),为该数据绘制ROC曲线。(10分)元组号类概率1p0.952n0.853p0.784p0.665n0.606p0.557p0.538n0.529n0.5110n0.4 2、设数据库有5个事务。设min_sup=60%,min_conf=80%使用Apriori算法找出所有频繁项集并简述Apriori算法的特点。(10分)3、画出并简述数据挖掘与知识发现的基本流程。(10分)4、下表给出了一个标记类的元祖的训练集D,简述朴素贝叶斯分类原理并写出用朴素贝叶斯分类预测以下示例类别的过程。(10分)X=(age<=30,Income=low,Student=no,Credit_rating=Fair)AgeincomestudentCredit_ratingBuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30Lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentno《数据仓库与数据挖掘》试卷标准答案(B卷)请定义以下数据挖掘功能(每个3分,共9分)1、关联分析关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。2、分类与预测分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值3、聚类分析聚类是按照某特定的标准把数据集划分为不同的簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇内的数据对象的差异性也尽可能的大。不同于分类,聚类模型建立在无标签数据上,属于非监督学习范畴。简答题1、如何确定数据中的离群点?(6分)答、聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。(3分)箱线图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值。其中IQR=Q3-Q1.(3分)2、文本内容可视化:标签云;语义结构可视化;3、DBSCAN算法将数据点分为三类:1.核心点:在半径Eps内含有超过MinPts数目的点。2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。3.噪音点:既不是核心点也不是边界点的点。流程:1.将所有点标记为核心点、边界点或噪声点;2.删除噪声点;3.为距离在Eps之内的所有核心点之间赋予一条边;4.每组连通的核心点形成一个簇;5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内特点:能发现任意形状的聚簇,聚类结果几乎不依赖于结点遍历顺序,能够有效的发现噪声点4、如何使用10折交叉验证评估分类器的准确率。(8分)将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)(3分)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计(4分),一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计(1分)。5、数据清洗:填写空缺的值,平滑噪声数据,识别、删除异常点,解决数据不一致性。数据集成:可以集成多个数据库或文件。数据变换:主要实现数据规范化。数据归约:得到数据集的压缩表示,归约后的数据集小的多,但可以挖掘得到相同或相似的结果6、操作型处理 分析型处理(1分)细节的 综合或者提炼的(1分)实体-关系(E-R)模型 星型模型或雪花模型(1分)存储瞬间数据 存储历史数据,不包含最近的数据(1分)可更新的 只读、只追加(1分)面向事务 面向分析(1分)数据量小 数据量大。三、计算题1、2、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a)计算年龄和脂肪百分比的均值、中位数和标准差.(2分)年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号(1/n[∑(Xi)2-1/n(∑Xi)2])=开根号1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.(d)根据z-score规范化来规范化这两个属性(P46)(3分)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?(2分)ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。四、综合题1、#类概率TPFPTNFNTPRFPR1P0.9510540.202N0.8511440.20.23P0.7821430.40.24P0.6631420.60.25N0.6032320.60.46P0.5542310.80.47N0.5343210.80.68N0.5244110.80.89N0.5145010.81.010P0.4055001.01.0表格7分图8分2、Apriori需多次扫描数据库。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。(3分)每次候选2分,频繁项2分,共12分。3、知识发现的流程主要包括以下重要环节:数据准备、数据选取、数据预处理、数据变换、数据挖掘、模式解释、知识评价。4、X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)14P(Ci):P(buys_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论