12《数据仓库与数据挖掘》复习题_第1页
12《数据仓库与数据挖掘》复习题_第2页
12《数据仓库与数据挖掘》复习题_第3页
12《数据仓库与数据挖掘》复习题_第4页
12《数据仓库与数据挖掘》复习题_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#/30三、 问答题1、 分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?答:分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。2、 什么是决策树?如何用决策树进行分类?答:决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。3、 在判定树归纳中,为什么树剪枝是有用的?答:当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常。剪枝方法处理这种过分适应数据的问题。通常这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性。四、 分析题1、根据以下训练样本,计算年龄属性的信息增益值年齢性別家庭

所得麟買RV席軍否杏否否否否否是是否否否否否杏否否否否否是是否否否否<35Female但所得<35Female高所得兰35「Mate,小康<35Male高所得Female小康<35Male但所得M35Female小康<35 Male 小康整35 Female 小康M35 Femafe 小康M35 Female 低所得<35 Male 高所得兰35ZEiemaLe低所得>35Male但所得S>35Male小康S35Female低所得否JI(16,4=-((4/16*log2(4/16+(12/16*log2(12/16=0.8113E(年龄=(6/16*1(6,1+(10/16*1(10,3=0.7946Gain(年龄=I(16,4-E(年龄=0.0167第六讲聚类分析考点:1、 什么的聚类?它和分类的区别在哪?2、 聚类的主要算法中K-平均算法(k-means的输入、输出及聚类过程是如何实现的?复习参考题:―、填空题(1在数据挖掘中,常用的聚类算法包括:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。(2聚类分析常作为一个独立的工具来获得数据分布的情况。(3一个好的聚类分析方法会产生高质量的聚类,具有两个特征:高类内相似度、低类间相似度。(4许多基于内存的聚类算法所常用的两种数据结构是数据矩阵、相异度矩阵。(5基于网格的聚类方法的优点是:处理数度快。(6孤立点产生的主要原因包括:度量或执行错误、数据变异的结果。(7在基于统计的孤立点检测中,常用于不一致性检验的参数包括:数据分布、分布参数、预期的孤立点数。二、单选题(1下面那种数据挖掘方法可以用来检测孤立点?C。概念描述分类和预测聚类分析演变分析(2以下哪个指标不是表示对象间的相似度和相异度C。A、Euclidean距离B、Manhattan距离C、 Eula距离D、 Minkowski距离(3以下哪种聚类方法可以发现任意形状的聚类?CA、 划分的方法B、 基于模型的方法C、 基于密度的方法D、 层次的方法三、问答题1、 何谓聚类?它与分类有什么异同?答:聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。2、 简述ID3算法的基本思想及其主算法的基本步骤。答:首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它来对新的样例进行分类。主算法包括如下几步:29/3029/3030/3030/30从训练集中随机选择一个既含正例又含反例的子集(称为窗口;用“建树算法”对当前窗口形成一棵决策树;对训练集(窗口除外中例子用所得决策树进行类别判定,找出错判的例子;若存在错判的例子,把它们插入窗口,重复步骤②,否则结束。四、分析计算1、 给定两个向量对象,分别表示为pl(22,l,42,10,p2(20,0,36,8:(a计算两个对象之间的欧几里得距离;(b计算两个对象之间的曼哈顿距离;(c计算两个对象之间的切比雪夫距离;(d计算两个对象之间的闵可夫斯基距离,用x=3。答:(a计算两个对象之间的欧几里得距离:苗二二^(22-20/-/I-()/-M2-36?-(10-8?二屁(b计算两个对象之间的曼哈顿距离:cli 己己一21广一fI—” 142—3&厂T丨U—(d计算两个对象之间的闵可夫斯基距离,其中参数r=3:2、 假设数据挖掘的任务是将如下的八个点(用(x,y代表位置)聚类为三个类。A1(2,10,A2(2,5,A3(8,4,B1(5,8,B2(7,5,B3(6,4,C1(1,2,C2(4,9距离函数是Euclidean(欧几里得)函数。假设初始我们选择A1,B1,和C1为每个簇的中心,用k-means(K-平均算法)算法来给出:(a)在第一次循环执行后的三个簇中心(b)最后的三个簇思路:K均值算法的过程为(1)选择K个点作为初始质点。(2)repeat(3)每个点指派到最近的质心,形成K个簇。(4)重新计算每个簇的质心、(5)until质心不发生变化。A1,B1,C作为初始质点,距离函数是Euclidean函数,指派点到最近的质心,方法为计算其他点到质点的欧几里得距离。计算距离如下:A1-A2:dist=(2-22+(5-102=25;A1-A3:dist=(8-22+(4-102=72;A1-B2:dist=(7-22+(5-102=50;A1-B3:dist=(6-22+(4-102=52;A1-C2:dist=(4-22+(9-102=5;B1-A2:dist=(2-52+(5-82=18;B1-A3:dist=(8-52+(4-82=25;B1-B2:dist=(7-52+(5-82=13B1-B3:dist=(6-52+(4-82=17B1-C2:dist=(4-52+(9-82=2C1-A2:dist=(2-12+(5-22=10C1-A3:dist=(8-12+(4-22=532222C1-B2:dist=(7-1+(5-2=45C1-B3:dist=(6-1+(4-2=29C1-C2:dist=(4-12+(9-22=58其他五个结点选择与其最近的质心,三个簇分别为:{B1,C2,B3,B2,A3}{C1,A2}{A1}计算这三个簇的质心:{B1,C2,B3,B2,A3}的质心为:((8+5+7+6+4)/5,(4+8+5+4+9/5艮卩(6,6);{C1,A2}的质心为:((2+1)/2, (5+2)/2)即为(1.5,3.5);{A1}的质心为(2,10)。 (a)在第一次循环执行后的三个簇中心分别为(6,6),(1.5,3.5), (2,10)重新指派各个对象到离其最近的质心,与上面方面相同,形成的三个簇为{A3,B1,B2,B3}, {C1,A2}, {A1,C2}三个簇的质心分别为(6.5,5.25), (1.5,3.5), (3,9.5);重新指派各个对象到离其最近的质心,形成的三个簇为:{A3,B2,B3}{C1,A2}{A1,B1,C2}三个簇的质心分别为: (7, 4.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论