




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘课后习题数据挖掘作业1 6第一章 绪论1) 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种 。1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、时序数据库、 文本数据库和多媒体数据库等, 还可以是 Web 数据信息 。实际生活的例子:电信行业中利用数据挖掘技术进行客户行为分析, 包含客户通话记录、通话时间、 所开通的服务等, 据此进行客户群体划分以及客户流失性分析。天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析, 帮助天文学家发现其他未知星体。市场业中应用数据挖掘技术进行市场定位、 消费者分析、 辅助制定市场营销策略等。2) 给
2、出一个例子, 说明数据挖掘对商务的成功是至关重要的。 该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例, 它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘, 百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索 , 没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据模型上的OLAFB作。数据
3、立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。多维数据模型上的OLAFB作a) 上卷(roll-up): 汇总数据通过一个维的概念分层向上攀升或者通过维规约b) 下卷(drill-down):上卷的逆操作由不太详细的数据到更详细的数据, 可以通过沿维的概念分层向下或引入新的维来实现c) 切片和切块 (slice and dice)投影和选择操作d) 转轴 (pivot)立方体的重定位, 可视化, 或将一个 3 维立方体转化
4、为一个2维平面序列2) OLA察维分析如何辅助决策?举例说明。OLAP 是在多维数据结构上进行数据分析的, 一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLA喋查询大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化值,经理通过查询变化值来做决策。例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追踪查询可以发现问题并解决3)举例说明OLAP勺多维数据分析的切片操作。切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为(地区,时间,产品,销售额) ,如果在地区维度上选定
5、一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片) 。第三章 数据预处理1) 假定用于分析的数据包含属性age ,数据元组中 age 的值如下 ( 按递增序 ) :13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70。(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3 。解释你的步骤。评论对于给定的数据,该技术的效果。已知数据元组中 age 的值如下 ( 按递增序 ) :13,15,16,16,19,20,20,21,22,22,25,25,25,25,3
6、0,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度为 3 , 划分为 ( 等频 ) 箱:箱 1 : 13,15,16箱 2 : 16,19,20箱 3 : 20,21,22箱 4 : 22,25,25箱 5 : 25,25,30箱 6 : 33,33,33箱 7 : 35,35,35箱 8 : 35,36,40箱 9 : 45,46,52箱 10 : 70用箱均值光滑:箱 1 : 15,15,15箱 2 : 18,18,18箱 3 : 21,21,21箱 4 : 24,24,24箱 5 : 27,27,37箱 6 : 33,33,33箱 7 : 35,
7、35,35箱 8 : 37,37,37箱 9 : 48,48,48箱 10 : 70(b) 对于数据平滑,还有哪些其它方法?(1) 回归:可以用一个函数(如回归函数)拟合数据来光滑数据;(2) 聚类: 可以通过聚类检测离群点, 将类似的值组织成群或簇。 直观地, 落在簇集合之外的值视为离群点。2) 使用习题 1) 给出的 age 数据,回答以下问题:(a) 使用 min-max 规范化,将age 值 35 转换到 0.0 , 1.0 区间。已知最大值为 70 , 最小值为 13 , 则可将 35 规范化为:(b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年 已
8、知均值为30,标准差为12.94 ,则可将35规范化为:(c)使用小数定标规范化转换age值35。使用小数定标规范化可将35规范化为:(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。对于给定的数据,你愿意使用min-max规范化。理由是计算简单。3)以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、 18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等 高的方法对上面的数据集进行划分。(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格
9、10。价 格在1 10之间出现次数为13;价格在1120之间出现的次数为24;价格 在21 30之间出现的次数为13。(2)等高方法:划分为2个数据集,每个数据集的高度为出现的次数 4。出现次数1 4之间的价格为1、8、10、12、14、21、28、30,共8个数 据;出现次数58之间的价格为5、15、18、20、25,共5个数据。第四章关联规则1)考虑如下的频繁 3-项集:1, 2, 3, 1, 2, 4, 1, 2, 5, 1, 3, 4, 1,3, 5, 2, 3, 4, 2, 3, 5, 3, 4, 5。(a)根据Apriori算法的候选项集生成方法,写出利用频繁 3-项集生成的所有候
10、选4-项集。1,2,3,4; 1,2,3,5; 1,2,4,5; 1,3,4,5; 2,3,4,5(b)写出经过剪枝后的所有候选 4-项集.1,2,3,4; 1,2,3,5;2) 一个数据库有5个事务,如下表所示。设min_sup=60%, min_conf = 80%事务ID购买的商品T100M, O, N, K, E, YT200D, O, N, K, E, YT300M, A, K, ET400M, U, C, K, YT500C, O, O, K, I ,E(a) 分别用Apriori 算法和FP-growth算法找出所有频繁项集。比较 两种挖掘方法的效率。Apriori 算法FP-g
11、rowth 算法效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的 扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生 任何彳8选,但是FP消耗了大量的内存,当数据量很大时。(b)比较穷举法和Apriori算法生成的候选项集的数量。穷举法:M=2 -1=2 11 - 1=2047Apriori 算法:23(c)利用(a)所找出的频繁项集,生成所有的强关联规则和对应的支持度 和置信度。O,K >E,支持度0.6 ,置信度1O,E >k,支持度0.6 ,置信度13)如下表所示的相依表汇总了超级市场的事务数据。其中 hot dogs 指包 含热
12、狗的事务,hot dogs 指不包含热狗的事务。hamburgers指包含汉堡 的事务,hamburgers指不包含汉堡的事务。hot dogshot dogs2 rowHamburgers2,0005002,500hamburgers1,0001,5002,5002 col3,0002,0005,000假设挖掘出的关联规则是“ hot dogs ? hamburgers”。给定最小支持度 阈值25%口最小置信度阈值50%,这个关联规则是强规则吗?s(hot dogs)=3000/5000=60%;s(hot dogs, hamburgers)=2000/5000=40%C(hot dogs
13、- hamburgers)=40%/60%=66.7%故这个关联规则是强规则。计算关联规则“ hot dogs ? hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?S(hamburgers)=2500/5000=50%提升度 lift(hotdogs-hamburgers) = C(hot dogs 一hamburgers)/S(hamburgers)=1.334提升度大于 1,表明 hot dogs 和hamburgers不是互相独立的,二者之间存在正相关关系。第五章分类和预测1)简述决策树分类的主要步骤。决策树生成的过程如下
14、:(1)对数据源进行数据预处理,得到训练集和测试集;(2)对训练集进行训练;(3)对初始决策树进行树剪枝;(4)由所得到的决策树提取分类规则;(5)使用测试数据集进行预测,评估决策树模型;2)考虑下表所示二元分类问题的数据集。AB类标号TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(a)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?按照属性A和B划分时,数据集可分为如下两种情况:A =二 TA =二 F+40-33B = TB = F+31-15划分前样本集的信息嫡为E=-0.4 log 20.4 - 0.6 log 20.6 = 0.9710按照属性A划分
15、样本集分别得到的两个子集(A取值T和A取值F)的信 息嫡分别为:二。X"0二E一a私厂.尸 二。明5按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信 息嫡分别为:串以Q汨I拨夕 d二E,,铜日与吓二 P 65因此,决策树归纳算法将会选择属性A。(b)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?对力向扁碗«二卜”匕' 核好花一产r护褪 / ,4/用。;*Ga吓二 1-匕)-(3、-G疝以至2 G一居"1万归二吗秘B I伯&b二r二卜【,=而":。"穿。“F山护钞二人小子M川裁4二G-J,二
16、r-四的户二DJ砌W QQ 抒 S , 一 .二3)考虑下表数据集,请完成以下问题:记录号ABC类1000+2001-3011-4011-5001+61101+7101-8101-9111+10101+(a)估计条件概率 P(A | +) , P(B | +), P(C | +), P(A | -) , P(B I-) , P(C I-)。P(A | +) = 3/5P(B | +) = 1/5P(C | +) = 4/5P(A | -) = 2/5P(B | -) = 2/5(A=0,P(C I -) = 1(b)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本B=1, C=0)的类标
17、号;假设 P(A=0,B=1,C=0)=K则K属于两个类的概率为:P(+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K=P(A=0|+)P(B|+)P(C=0|+) X P(+)/K=0.4*0.2*0.2*0.5/K=0.008/KP(-|A=0,B=1,C=0) =P(A=0,B=1,C=0) 乂 P(-)/K=P(A=0|-)P(B|-)P(C=0|-) X P(-)/K=0.4*0.2*0*0.5/K=0/K则得到,此样本的类标号是十(c)使用Laplace 估计方法, 其中p=1/2 , l=4 ,估计条件概率P(A | +), P(B | +), P(C
18、 |+) , P(A | -), P(B | -), P(C | -)。P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(d)同(2),使用(3)中的条件概率假设 P(A=0,B=1,C=0)=K则K属于两个类的概率为:P(+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K=P(A=0|+)P(B|+)P(C=0|+)*P(+)/K=(4/9)*(1/3)*(1/3)*0.5/K=0.0247/KP
19、(-|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(-)/K=P(A=0|-)P(B|-)P(C=0|-)*P(-)/K=(5/9)*(4/9)*(2/9)*0.5/K=0.0274/K则得到,此样本的类标号是-0(e) 比较估计概率的两种方法,哪一种更好,为什么?当条件概率为 0 的时候,条件概率的预测用 Laplace 估计方法比较好,因为我们不想整个条件概率计算结果为 0.第六章 聚类分析1) 什么是聚类?简单描述如下聚类方法:划分方法、层次方法、基于密度的方法,并为每一类方法给出例子。聚类是将数据划分为相似对象组的过程, 使得同一组中对象相似度最大而不同组中对象相似度
20、最小。(1) 划分方法给定一个有N个元组或者记录的数据集,分裂法将构造K个分 组,每一个分组就代表一个聚类,K<N而且这K个分组满足下列 条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组 ( 注意:这个要求在某些模糊聚类算法中可以放宽 ) ; 对于给定的 K, 算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组, 使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K-MEAN算法、K-MEDOID算法、 CLARANS 法。(2) 层次方法这种方法对给定的数
21、据集进行层次似的分解, 直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CUR尊法、CHAMELEONS等。(3) 基于密度的方法基于密度的方法与其它方法的一个根本区别是: 它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要 一个区域中的点的密度大过某个阈值, 就把它加到与之相近的聚类中去。代表算法有:D
22、BSCANT法、OPTICSI法、DENCLUE法等。(4) 基于模型的方法基于模型的方法给每一个聚类假定一个模型, 然后去寻找能够很好的满足这个模型的数据。 这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是由一系列的概率分布所决定的。基于模型的方法主要有两类:统计学方法和神经网络方法(SOM)。2) 聚类被广泛的认为是一种重要的数据挖掘方法,有着广泛的应用,对如下每种情况给出一个应用的例子:a) 采用聚类作为主要数据挖掘方法的应用;如电子商务网站中的客户群划分。 根据客户的个人信息、 消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CCOA 4-2019干米粉
- T/CCOA 29-2020芝麻油感官评价
- T/CCMA 0187-2024纯电动液压挖掘机动态噪声试验方法
- T/CCAS 032-2023油井水泥石抗二氧化碳侵蚀试验方法
- T/CBMCA 037-2023混凝土电缆沟盖板
- T/CAQI 48-2018家用和类似用途节水型反渗透净水器
- 2024年度江苏省二级注册建筑师之法律法规经济与施工考试题库
- 翻译测评面试题及答案
- 船舶员工考试题及答案
- 工商模拟面试题及答案
- NB-T+10110-2018风力发电场技术监督导则
- JT-T-913-2014危险货物道路运输企业安全生产责任制编写要求
- 事业单位专业测试项目管理试题库
- DZ∕T 0382-2021 固体矿产勘查地质填图规范(正式版)
- 《研学旅行课程设计》课件-研学课程方案设计
- 快乐跳舞-学前儿童舞蹈教育智慧树知到期末考试答案2024年
- 红旗E-HS3保养手册
- 畜牧业的动物保护与福利
- 写作:说明的关键在说得“明”+课件-【中职专用】高一语文(高教版2023基础模块下册)
- 《钢铁是怎样炼成的》选择题100题(含答案)
- 端午健康养生知识讲座
评论
0/150
提交评论