数据仓库与数据挖掘试卷标准答案(B卷)_第1页
数据仓库与数据挖掘试卷标准答案(B卷)_第2页
数据仓库与数据挖掘试卷标准答案(B卷)_第3页
数据仓库与数据挖掘试卷标准答案(B卷)_第4页
数据仓库与数据挖掘试卷标准答案(B卷)_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据仓库与数据挖掘》试卷标准答案(B卷)请定义以下数据挖掘功能(每个3分,共9分)1、关联分析关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。2、分类与预测分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值3、聚类分析聚类是按照某特定的标准把数据集划分为不同的簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇内的数据对象的差异性也尽可能的大。不同于分类,聚类模型建立在无标签数据上,属于非监督学习范畴。简答题1、如何确定数据中的离群点?(6分)答、聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。(3分)箱线图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值。其中IQR=Q3-Q1.(3分)2、文本内容可视化:标签云;语义结构可视化;3、DBSCAN算法将数据点分为三类:1.核心点:在半径Eps内含有超过MinPts数目的点。2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。3.噪音点:既不是核心点也不是边界点的点。流程:1.将所有点标记为核心点、边界点或噪声点;2.删除噪声点;3.为距离在Eps之内的所有核心点之间赋予一条边;4.每组连通的核心点形成一个簇;5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内特点:能发现任意形状的聚簇,聚类结果几乎不依赖于结点遍历顺序,能够有效的发现噪声点4、如何使用10折交叉验证评估分类器的准确率。(8分)将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)(3分)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计(4分),一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计(1分)。5、数据清洗:填写空缺的值,平滑噪声数据,识别、删除异常点,解决数据不一致性。数据集成:可以集成多个数据库或文件。数据变换:主要实现数据规范化。数据归约:得到数据集的压缩表示,归约后的数据集小的多,但可以挖掘得到相同或相似的结果6、操作型处理 分析型处理(1分)细节的 综合或者提炼的(1分)实体-关系(E-R)模型 星型模型或雪花模型(1分)存储瞬间数据 存储历史数据,不包含最近的数据(1分)可更新的 只读、只追加(1分)面向事务 面向分析(1分)数据量小 数据量大。三、计算题1、2、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a)计算年龄和脂肪百分比的均值、中位数和标准差.(2分)年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号(1/n[∑(Xi)2-1/n(∑Xi)2])=开根号1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.(d)根据z-score规范化来规范化这两个属性(P46)(3分)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?(2分)ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。四、综合题1、#类概率TPFPTNFNTPRFPR1P0.9510540.202N0.8511440.20.23P0.7821430.40.24P0.6631420.60.25N0.6032320.60.46P0.5542310.80.47N0.5343210.80.68N0.5244110.80.89N0.5145010.81.010P0.4055001.01.0表格7分图8分2、Apriori需多次扫描数据库。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。(3分)每次候选2分,频繁项2分,共12分。3、知识发现的流程主要包括以下重要环节:数据准备、数据选取、数据预处理、数据变换、数据挖掘、模式解释、知识评价。4、X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)14P(Ci):P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357ComputeP(X|Ci)foreachclassP(age=“<=30”|buys_computer=“yes”)=2/9=0.222P(age=“<=30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“ye

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论