原《数据挖掘》习题_第1页
原《数据挖掘》习题_第2页
原《数据挖掘》习题_第3页
原《数据挖掘》习题_第4页
原《数据挖掘》习题_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上ch11. 讨论下列每项活动是否是数据挖掘任务:(fgh是)(a)   根据性别划分公司的顾客。(b)   根据可赢利性划分公司的顾客。(c)   计算公司的总销售额。(d)   按学生的标识号对学生数据库排序。(e)   预测掷一对骰子的结果。(f)    使用历史记录预测某公司未来的股票价格。(g)   监视病人心率的异常变化。(h)   监视地震活动的地震波。(i)  

2、60;  提取声波的频率。2. (ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。4. (ch1) 为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。5. (ch5)发烧,上呼吸道感染是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。A 数据越多越好 B 尽可能多的适合的数据 C数据越少越好D 以上三条都正确7. 数据挖掘算法以( D )形式来组织数据。A 行 B列 C 记录 D 表格Ch28. (ch2)假定用于

3、分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求: 1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。 2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。7、P98 3.4(ch3)假定大学的数据仓库包含4个维student学生、course课程、semester学期、instructor教师,2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学

4、期和教师组合),度量avg_grade存放学生的实际成绩。为数据仓库画出雪花模式图8、P98 3.5(ch3)假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。其中,change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。画出该数据仓库的星形模式图10、(ch5)数据库有4个事物。设min_sup=60%,min_conf=80%TID日期购买的物品T10099/10/15K,A,D,BT20099/10/15D,A,C,E,BT30099/10/19C,A,B,ET40099/10/

5、22B,A,Da)使用Apriori算法找出最大得频繁项集b)列出所有强关联规则(带支持度s和置信度c)11.(参P229)假定希望分析爱喝咖啡和爱喝茶得人之间得关系。收集一组人关于饮料偏爱的信息,汇总如下:咖啡不喝咖啡汇总茶15050200不喝茶650150800汇总8002001000若支持度和置信度阈值分别为10%,50%,评估关联规则茶>咖啡。(负相关)12.(ch5,参P224 )有如下事务数据集。试挖掘频繁项集。(最小支持度为2)TID项1a,b2bcd3acde4ade5abc6abcd7a8abc9abd10bce结果:后缀频繁项集ee,de,ade,ce,aedd,cd

6、,bcd,acd,bd,abd,adcc,bc,abcacbbabaa13.(ch5,参P256,17)假定有一个购物篮数据集,包含100个事务和20个项。如果项a的支持度为25%,项b得支持度为90%,且项集ab得支持度为20%。令最小支持度阈值和最小置信度阈值分别为10%和60%。1)计算关联a>b的置信度。根据置信度度量,这条规则是有趣的么?(这条规则是否是强关联规则?)(80%,是)2)a>b是否有趣?(负相关,无趣)11. 求出下表的强关联规则(ch5)IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orang

7、enoodlemeatbeer4fishsoftdrinkfrozenmealbread12、(ch6)下表给出某门课程若干学生期中和期末考试成绩期中 72 50 81 74 94 86 59 83 65 33 88 81期末 84 63 77 78 90 75 49 79 77 52 74 90绘数据图。X和Y看上去具有线性联系吗?13. (ch6) 下表是对是否购买计算机的调查表,请根据ID3算法画出是否购买计算机的决策树。计数年龄收入学生信誉归类:买计算机?64青高否良不买64青高否优不买128中高否良买60老中否良买64老低是良买64老低是优不买64中低是优买128青中否良不买64青低

8、是良买132老中是良买64青中是优买32中中否优买32中高是良买63老中否优不买1老中否优买14.预测拖欠银行贷款的贷款者(参P94)TID有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是一客户信息如下:X=(有房=否,婚姻状况=已婚,年收入=120K)用贝叶斯分类法,预测记录的拖欠贷款类别。 (否)年收入可能的分裂点熵60650.826477072.50.7635575800.689668587.50.875499092.50.846449597

9、.50.51001100.68966120122.50.76355125172.50.82647220原数据集合修正为:TID有房婚姻状况年收入拖欠贷款1是单身125K(>97.5)否2否已婚100K(>97.5)否3否单身70K(<=97.5)否4是已婚120K(>97.5)否5否离异95K(<=97.5)是6否已婚60K(<=97.5)否7是离异220K(>97.5)否8否单身85K(<=97.5)是9否已婚75K(<=97.5)否10否单身90K(<=97.5)是P(是)=0.3 p(否)=0.7 所以,他可能不拖欠贷款最佳分裂

10、点:97.515.(CH6,参P122)考虑如下二元分类问题的训练样本:顾客ID性别车型衬衣尺码类1男家用小C02男运动中C03男运动中C04男运动大C05男运动加大C06男运动加大C07女运动小C08女运动小C09女运动中C010女豪华大C011男家用大C112男家用加大C113男家用中C114男豪华加大C115女豪华小C116女豪华小C117女豪华中C118女豪华中C119女豪华中C120女豪华大C11)计算整个训练样本集得GINI指标(0.5)2)计算属性顾客ID的GINI指标(0)3)计算属性性别的GINI指标(0.5)4)那个属性更好?性别、车型还是衬衣尺码?(车型,因为其GINI指

11、标最低)16. (CH6,参P122)考虑如下二元分类问题的训练样本:实例标号a1a2a3目标类1TT1+2TT6+3TF5_4FF4+5FT7-6FT3-7FF8-8TF7+9FT5-1)整个训练样本集关于类属性得熵是多少?(0.9911)2)关于这些训练样本,a1和a2的信息增益是多少?(0.2294,0.0072)3)对于连续属性a3,计算所有可能的划分的信息增益2.0是最佳分裂点。4)根据信息增益,那个是最佳划分?(在a1,a2,a3中)(a1)5)根据GINI指标,那个是最佳划分?(在a1,a2,a3中)(a1)17.考虑如下二元分类问题得数据集(CH6,参P123)AB类标号TF+

12、TT+TT+TF-TT+FF+FF+FF+TT+TF+1)计算按照属性A、B划分时得信息增益。决策树归纳算法将会选择那个属性?(GA=0.2813.GB=0.2565A)2)计算按照属性A、B划分时的GINI指标。决策树归纳算法将会选择那个属性?(不纯度降低:0.1371,0.1633, (B)18.已知下表: (CH6,参P124)实例数试建立一颗两层的决策树9. (CH6,参,)贝叶斯分类考虑两队之间的足球比赛:对和.假设的比赛队胜出,剩余得比赛队获胜。队获胜得比赛中只有是在队的主场,而对取胜的比赛中是主场获胜。如果下一场比赛在队的主场进行,哪一支球队最有可能胜出呢?(队)x:东道主(0,

13、1) y:胜利者(0,1)队0取胜得概率:p(y=0)=0.65 队1取胜得概率:p(y=1)=0.35对取胜的比赛中是主场获胜:队1获胜时作为东道主的概率:p(x=1|y=1)=0.75队获胜得比赛中只有是在队的主场:即队0取胜时队1作为东道主得概率:P(x=1|y=0)=0.3比较P(y=1|x=1)和P(y=0|x=1)P(y=1|x=1)>P(y=0|x=1) 所以,队1可能取胜。20.(ch6,参P195,8)考虑下列数据集:实例ABC类1001-2101+3010-4100-5101+6001+7110-8000-9010+10111+1)估计条件概率P(A=1|+), P(

14、B=1|+), P(C=1|+), P(A=1|-), P(B=1|-), P(C=1|-)(0.6,0.4,0.8,0.4,0.4,0.2)2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测试样本(A=1,B=1,C=1)得类标号。(+)3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。(独立)14、(ch7)假设数据集D含有9个数据对象(用2维空间的点表示):A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2) 采用k-均值方法进行聚类,距离函数采用欧

15、几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:(1)第一次循环结束时的三个簇的质心。(2)最后求得的三个簇。A2A3B2B3C2C315225074158C110364174916第一次循环结束时:(A1,C3)质心为(2.5,2)或(3,2)(B1,A3,C2),质心为:(8.7,5.7)或(9,6) (C1,A2,B2,B3), 质心为:(2.7,8.3)或(3,8) 平方误差E=28第二次循环A1A2A3B1B2B3C1C2C33,20494145564175219,65245115365490653,72525264010923726第二

16、次循环结束时:(A1,B2,C3)质心为(2.3,2.7)或(2,3)(A3,B1, C2),质心为:(8.7,5.7)或(9,6) (A2, B3 ,C1), 质心为:(2.5,7.25)或(3,7) 平方误差E=21第三次循环A1A2A3B1B2B3C1C2C32,323745531 5095819,65245115365490653,7254264010923737第三次循环结束时:(A1,B2,C3)质心为(2.3,2.7)或(2,3)不变(A3,B1, C2),质心为:(8.7,5.7)或(9,6)不变 (A2, B3 ,C1), 质心为:(2.5,7.25)或(3,7)不变 平方误

17、差E=21不变15. (ch7)已知四个点的坐标如下:点X坐标Y坐标P102P220P331P451其欧几里德距离矩阵:P1P2P3P4P10P22.80P33.21.40P45.13.220试进行单链、全链聚类,并画出树形图。答案:单链:P1P2,p3P4P10P2,p32.80P45.120P1P2,p3,p4P10P2,p3,p42.80P2,p3P2,P3,P4p2,p2,p4,p1全链:第一步同单链P1P2,p3P4P10P2,p33.20P45.13.20P2,p3P2,P3,P4p2,p2,p4,p1或:P2,p3P2,P3,P1p2,p2,p1,p416.请将下列属性分类:(ch7)1)用AM和PM表示的时间(序数变量)2)按度测出得0和360之间的角度(区间标度变量)3)奥运会上授予得铜牌、银牌和金牌(序数)4)学生的性别(二元)5)用如下值表示得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论