数据挖掘概念与技术_第1页
数据挖掘概念与技术_第2页
数据挖掘概念与技术_第3页
数据挖掘概念与技术_第4页
数据挖掘概念与技术_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘概念概念与技术Data MiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译(a)该数据的均值是什么?中位数是什么?(b)该数据的众数是什么?争论数据的峰(即双峰、三峰 等)。(c)数据的中列数是什么?(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第 三个四分位数(Q3)吗?(e)给出数据的五数概括。(f)画出数据的盒图。(g)分位数一分位数图与分位数图的不同之处是什么?解答:(a)该数据的均值是什么?中位数是什么?均值是!妥=809/27 = 29.96 E 30 (公式2.1)。中位数i应是

2、第14个,即灯4=25=。2。(b)该数据的众数是什么?争论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众数。(c)数据的中列数是什么?数据的中列数是最大术和最小是的均值。即:midrang e=(J0-13 )/2=41.5。(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(。3)吗?数据集的第一个四分位数应发生在25%处,即在(N+l)/4=7处。所以:01=20。而第三个四分位数应发生在75%处,即在3x(N+l)/4=21处。所以:23=35(e)给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位

3、数、中位数、第三个四分位数、和最大 值构成。它给出了分布外形良好的汇总,并且这些 数据是:13、20、 25、 35、 70o(f)画出数据的盒图。略。(g)分位数一分位数图与分位数图的不同之处是什么?分位数图是一种用来展现数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展现全部数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数一分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量 值相应分布的值域,且点依据 两种分布分位数值 展现。一条线(y=x)可画到图中,以增加图像的 信息。落

4、在该线以上的点表示在y轴上显示的值 的分布比x轴的相应的等同分位数对应的值 的分 布高。反之,对落在该线以下的点那么低。2.7使用习题2.4给出的age数据回答以下问题:(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3o解释你的步骤。评述对于给定的数 据,该技术的效果。(b)如何确定数据中的离群点?(c)对于数据光滑,还有哪些其他方法?解答:(a)使用分箱均值光滑对以上数据进行光滑,箱 的深度为3o解释你的步骤。评述对于给定的数 据,该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以 下步骤:S 步骤1:对数据排序。(由于数据已被排序,所以此 时不需要该步骤。)S 步骤2:

5、将数据划分到大小为3的等频箱中。箱 2: 16, 19, 204 : 22 , 25 , 25箱 6: 33, 33, 35箱 8: 36, 40, 45箱 1: 13, 15, 16箱 3 : 20 , 21 , 22 箱箱 5: 25, 25, 30箱 7: 35, 35, 35箱 9: 46, 52, 70S 步骤3:计算每个等频箱的算数均值。因 步骤4:用各箱计算出的算数均值替换每箱中的每个 值。箱 1: 44/3, 44/3, 44/3 箱 2: 55/3, 55/3, 55/3 箱 3: 21, 21, 21箱 4: 24, 24, 24箱 5: 80/3, 80/3, 80/3箱

6、 6: 101/3, 101/3, 101/3箱 7: 35, 35, 35 箱 8: 121/3, 121/3,121/3箱9: 56, 56, 56 (b)如何确定数据中的离群点?聚类的方法可用来将相像的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结 合的检测可被采纳,而计算机 用一种事先打算的 数据分布来区分可能的离群点。这些可能的离群点 能被用人工 轻松的检验,而不必检查整个数据集。(c)对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑 方法,如中位数光滑和箱边界 光滑。作为选择, 等宽箱可被用来执行任何分箱方式,其中每个

7、箱中 的数据范围 均是常量。除了分箱方法外,可以使 用回归技术拟合成函数来光滑数据,如通过线性 或多线性回归。分类技术也能被用来对概念分层, 这是通过将低级概念上卷到高级概念来光滑数 据。2.10如下法律规范化方法的值域是什么?min-max法律规范化。z-score法律规范化。(c)小数定标法律规范化。解答:(a) min-max 法律规范化。值域是new_min,new_max o (b) z-score法律规范化。值域是(old _min mean)/ o, (old_max mean)/。,总的来说,对于全部可能 的数据集的 值域是(一oo, +oo) o(c)小数定标法律规范化。值域

8、是(一1.0, 1.0) o2.5 2.12使用习题2.4给出的age数据,回答以下问题:(a)使用min-max法律规范化将age值35变换到0.0, 1.0 区间。(b)使用z-score法律规范化变换age值35,其中age的标 准差为12.94岁。(c)使用小数定标法律规范化变换age值35。(d)对于给定的数据,你情愿使用哪种方法?陈述你的理 由。解答:(a)使用min-max法律规范化将age值35变换到0.0, 1.0 区间。minA=13, maxA=70, new_min A=0.0, new_maxA=1.0,而 v=35, v J俺眯 4)+ new_,min_ min

9、max -AmaxA 厂 min A(1 0Q)+ - = 03860(b)使用z-score法律规范化变换age值35,其中age的标 准差为12.94岁。4 _ 13 +15 + 2 16 + 19 + 2 20 + 21 + 2 22 + 4 - 25A+ 30 + 2 - 33 + 4 - 35+36 + 40+ 45 + 46 + 52 + 70=鬻=29,963(A/ -=12.7002=12.7002= 12.9421吟=一发 161.2949,。A 二Hi 或 AS . 4)=2 = 1=n 167.4986,sA =v=355.037=0.3966 H 0.400o A12.

10、700212.7002?29v963SA?29v963SA口 A = 3512.94215.0 = 0.3892 H 0.393712.9421濒定法律35 o35 oge10 35 =035 由于最大的肯定值为J w70,所以 j=2。M =(d)对于给定的数据,你情愿使用哪种方法?陈述你的理 由。略。2.14假设12个销售价格纪录组已经排序如下:5, 10,11, 13, 15, 35,50, 55, 72, 92, 204, 215。使用如下每种方法将其划分成三 个箱。(a)等频(等深)划分。(b)等宽划分。(c)聚类。解答:(a)等频(等深)划分。bin5.10.11.binbinl

11、72,91,204,215等宽时分。每个区间的宽度是:(215-5)/3=70binbin9bin204.2(c)聚类。我们可以使用一种简洁的聚类技术:用2个最大的间隙将 数据分成3个箱。binbin35.50.55.bin204212.15使用习题2.4给出的age数据,(a)画出一个等宽为10的等宽直方图;(b)为如下每种抽样技术勾画例子:SRSWOR, SRSWR ,聚类抽样,分层抽样。使用大小为5 的样本和层“青年”,“中年”和“老年”。解答:(a)画出一个等宽为10的等宽直方图;(b)为如下每种抽样技术勾画例子:SRSWOR, SRSWR ,聚类抽样,分层 抽样。使用大小为5 的样本

12、和层“青年”,“中年”和“老年”。元组:T1T2T3T1T2T3T1T2T3T1T2T3T1T2T4T2T3T4T2T3T4T2T3T5T2T3T7SRSWOR和SRSWR:不是同次的随机抽样结果可以不 同,但前者因无放回所以不能有相同的元组。SamoleSamoleSamoleSamoleSamoleSamoleT113T20T25T33T35T52T215T20T25T33T36T70T316T21T25T35T40T416T22T25T35T45JT519T22T30T35T46Sample2 Sample5T20T235T20T236T21T240T22T245T22T?46分层抽样:

13、依据年龄分层抽样时,不同的随机试验结果不 同。T1VOUT2VOUH2T3middleT1VOUT2vounzT3middleT1VOUT2vounsT3middleT1VOUT2voun2T3middleT1VOUT2VOUI12T4middleT2VOUT3middleT4middleT2VOUT3middleT4middleT2VOUT3middleT5middleT2VOUT3middleT7seniorT1vounaT2vounsT3middleT4middleT7Senio2.8 555555555555555555555555553.4假定BigUniversity的数据仓库包含

14、如下4个维: student(student_name,area_id , major, status, university) , course(course_name,department) ,semester( semester, year)和 instructor(dept, rank) ; 2 个度量:count和avg_grade 0在最低概念层, 度量avg_grade存放同学的实际课程成果。在较 高概念层,avg_grade存放给定组合的平均成果。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student, course, semester, instructor开始,

15、 为歹U 出 BigUniversity 每个同学的CS课程的平均成果,应使用哪 些特另I的OLAP操作。(c)假如每维有5层(包括all ),如“ studentmajorstatusuniversityall , 该立方体包含多少方体?解答:a)为该数据仓库画出雪花形模式图。雪花模式如图所 /J O由基本方体student, course, semester, instructor开始, 为歹(J 出 BigUniversity 每个同学的CS课程的平均成果,应使用哪 些特别的OLAP操作。这些特别的联机分析处理(OLAP)操作有:.沿课程(course)维从 course_id “上卷至

16、U department o.沿同学(student)维从student_id “上卷”至Iuniversity。.取 department= CS ”和 university= Big University ”,沿课程(course)维和同学(student)维切片。.沿同学(student)维从university下钻到 student_name。假如每维有5层(包括all ),如“ studentmajorstatusuniversity 1.25 *MIN(Shelf) and(RI.Shelfl.5*MIN(Shelf) and Rl .Price100(c)这是一个分布式多特征立方

17、体吗?为什么? 这不是一个分布多特征立方体,由于在“such that”语句中采纳了条件。4.4 2022-11-294.5 2022-11-295.1 Apriori算法使用子集支持度性质的先验学问。节介绍了由频繁项集产生关联规章的方法。提 出了一个更有效的方法。解释它为什么比 节的方 法更有效。(提示:考虑将习题5.1(b)和习题5.1(c) 的性质结合到你的设计中。)5.3数据库有5个事物。设min_sup=60%, min_conf=80。TWOE,YT200min_sup=60%, min_conf=80。TWOE,YT200HD购买的商品M, O, N, K,D, O, N, K,

18、E, Y T300E, Y T300M, A, K, E)T400M, U, C, K,YT500C, O, O, K, I, EApriori和FP增长算法找出全部的频繁项 挖掘过程的效率。h)列举全部与下面的的元规章匹配的强关联规章(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如 A”、“B” 等):xDtransaction, buys(X, item 1) Abuys(X, item 2)buys(X, item3) s, c解答:(a)分别使用Apriori和FP增长算法找出全部的频繁项集。比拟两种挖掘过 程的效率。Apriori算法:由于只有5次购买

19、大事,所以肯定支持度是5xmin_sup=3o第1章引 、A什么是数据挖掘?在你的回答中,针对以下问题:1.6定义以下数据挖掘功能:特征化、区 分、关联和相关分析、猜想聚 类和演化分 析。使用你熟识的现实生活的数据库,给出 每种数据挖掘功 能的例子。解答:回特征化是一个目标类数据的一般特性或特性 的汇总。例如,同学的特征 可被提出,形成 全部高校的计算机科学专业一班级同学的轮 廓,这些特征包括作为一种高的班级平均成 果(GPA: Grade point aversge)的信息、,还有 所修的课程的最大数量。S区分是将目标类数据对象的一般特性与一个 或多个比照类对象的一般 特性进行比拟。 例如,

20、具有高GPA的同学的一般特性可被 用来与具有 低GPA的一般特性比拟。最终 的描述可能是同学的一个一般可比拟的轮 廓,就像具有高GPA的同学的75%是四班级 计算机科学专业的同学,而具有低GPA的同 学的65%不是。因关联是指觉察关联规章,这些规章表示一起 频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能觉察的 关联规那么为:major(X,u computingscience) JM3/O 3XM0 ;/ ,MK3 ot10000 ,=fK 500fME2002 硼Y、MK,V,0g C300发二yY 82400p二,300C20090ZK300003:KEh0000 ,Dp

21、oPE3机2fU:Cloo 100 如 2ooKY3L =0KE31REKY f 113/165=0.68;P(senior)=52/165=0.32;P(Xjunior)P(junior)=0.01796 X0. 68=0. 01221280=0=P(X|senior)P(senio r); 所以:朴实贝叶斯分类器将X分到junior类。解二:设元组的各属性之间不独立,其联合概率不 能写成份量相乘的形式。所以:X=(department=system,age=26, , , 30,salary=46K, , 50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。

22、先验概率:当 status=senio r 时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32 ;当status=junior时,元组总数为: 40+40+20+3+4+6=113 ,P(junior)=l 13/165=0.68 ;由于status=senior状态没有对应的age=2630区间,所以:P(X|senior)=0; 由于 status=junior 状态对应的 partment=systems、age=26 30 区间的总元组 数为:3,所以:P(X|junior)=3/113;由于:P(X|junior)P(junior)=3/l 13

23、 X 113/165 =0. 0180=P(X|senior)P(senior); 所以:朴实贝叶斯分类器将X分到junior类。(d)为给定的数据设计一个多层前馈神经网络。标记输入和输 出层节点。(e)使用上面得到的多层前馈神经网络,给定训练实例(sales, senior, 31 35, 46K50K),给出后向传播算法一次迭代后 的权重值。指出你使用的初始权重和偏倚以及学习率。6.3 2022-12-016.4 2022-12-01owns(X,personalcomputer)confidsupport=12%,ence=98%肯需同圣是丘畲表示同学的变量。这个规章指出正在学 (支持度

24、)主修计算机科学并且拥有一台个人计算机。这个组一个同学 拥有一台个人电 脑的概率是98% (置信度,或确定度)。S分类与猜想不同,由于前者的作用是构造一 系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去猜想 缺失的或无效的、并且通常是数字的数据 值。它们的相像性是他们都是猜想的工具: 分类被用作猜想目标数据的类的标签,而猜 测典型的应用是猜想缺失的 数字型数据的 值。S聚类分析的数据对象不考虑的类标号。 对象依据最大花蕾内部的相 似性、最小化类 之间的相像性的原那么进行聚类或分组。形成 的每一簇可以被看作一个对象类。聚类也便 于分类法组织形式,将观测组织成类分层结 构,把

25、类似的大事组织在一起。S数据延边分析描述和模型化随时间变化的对 象的规律或趋势,尽管这可 能包括时间相关 数据的特征化、区分、关联和相关分析、分 类、或猜想,这种分析的明确特征包括时间序 列数据分析、序列或周期模式匹配、和 基于 相像性的数据分析1.9列举并描述说明数据挖掘任务的五种原语。解答:用于指定数据挖掘任务的五种原语是:因任务相关数据:这种原语指明给定挖掘所处 理的数据。它包括指明数据 库、数据库表、 或数据仓库,其中包括包含关系数据、选择 关系数据的条件、用于探究的关系数据的属 性或维、关于修复的数据排序和分组。因挖掘的数据类型:这种原语指明白所要执行 的特定数据挖掘功能,如特 征化

26、、区分、关 联、分类、聚类、或演化分析。同样,用户 的要求可能更特别,并可能供应所觉察的模 式必需匹配的模版。这些模版或超模式(也被称为超规章)能被用来指导觉察过程。 因背景学问:这种原语允许用户指定已有的关 于挖掘领域的学问。这样的学问能被用来指导学问觉察过程,并且评估觉察的模式。关 于数据中关 系的概念分层和用户信念是背景 学问的形式。因模式爱好度度量:这种原语允许用户指定功 能,用于从学问中分割不感 爱好的模式,并 且被用来指导挖掘过程,也可评估觉察的模 式。这样就 允许用户限制在挖掘过程返回的 不感爱好的模式的数量,由于一种数据挖掘 系统可能产生大量的模式。爱好度测量能被 指定为简易性

27、、确定性、适用性、和新奇性的 特征。S觉察模式的可视化:这种原语述及觉察的模 式应被显示出来。为了使 数据挖掘能有效地 将学问传给用户,数据挖掘系统应能将觉察 的各种 形式的模式展现出来,正如规章、表 格、饼或条形图、决策树、立方体或其它视觉的表示。1.13描述以下数据挖掘系统与数据库或数据 仓库集成方法的差异:不耦合、松散耦合、 半紧耦合和紧密耦合。你认为哪种方法最流 行,为什么?解答:数据挖掘系统和数据库或数据仓库系统的集成的层次的差异如下。S不耦合:数据挖掘系统用像平面文件这样的 原始资料获得被挖掘的原始 数据集,由于没 有数据库系统或数据仓库系统的任何功能被 作为处理过程的一局部执行。因此,这种构 架是一种糟糕的设计。s松散耦合:数据挖掘系统不与数据库或数据 仓库集成,除了使用被挖掘 的初始数据集的 源数据和存储挖掘结果。这样,这种构架能 得到数据库 和数据仓库供应的敏捷、高效、 和特征的优点。但是,在大量的数据集中, 由松散耦合得到高可测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论