




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Data Mining Take Home Exam顾客ID性别车型衬衣尺码类11男家用P 小C02男运动中C03男运动中C04男运动大C05男运动加大C06男运动加大C07女运动小C08女运动小C09女运动中C010女豪华大C011男家用大C112男家用加大C113男家用中C114男豪华加大C115女豪华小C116女豪华小C117女豪华中C118女豪华中C119女豪华中C120女豪华大C1学号:xxxx姓名:xxx1. (20分)考虑下表的数据集(1)计算整个数据集的Gini指标值。(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的 Gini指标值(4)计算使用多路划分属性衬
2、衣尺码的 Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?Gini=1-(6/10)A2-(4/10)A2*1/2*2=0.48 车型家用运动豪华c0181c1307Gini=1-(1/4)A2-(3/4)A2*4/20+1-(8/8)A2-(0/8)A2*8/20+1-(1/8)A2-(7/8)A2*8/20 =26/160=0.1625尺码小中大加大c0332I?c12422Gini=1-(3/5)A2-(2/5)A2*5/20+1-(3/7)A2-(4/7)A2*7/20+1-(2/4)A2-(2/4)A2*4/20 *2=8/25+6/35=0.4914(5)比较
3、上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型 属性更好。2. (20分)考虑下表中的购物篮事务数据集顾客ID事务ID购买项1001a,d,e10024a,b,c,e20012a,b,d,e20031a,c,d,e30015b,c,e30022b,d,e40029c,d40040a,b,c50033a,d,e50038a,b,e(1)将每个事务ID视为一个购物篮,计算项集e , b,d和b,d,e的支持度。(2)使用(1)的计算结果,计算关联规则 b,d -e和e 一b,d的置信(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一
4、个项在顾客的购买事务中至少出现一次,则为 1,否则,为0)。(4)使用(3)的计算结果,计算关联规则b,d 一e剂e 一b,d的置信度。答:(1)由上表计数可得e的支持度为8/10=0.8;b, d的支持度为2/10=0.2;b,d,e的支书寺度为2/10=0.2。(2) cb,d -e=2/8=0.25;ce -b,d=8/2=4。(3)同理可得:e的支持度为4/5=0.8, b,d的支持度为5/5=1, b,d,e的支 持度为4/5=0.8。(4) cb,d e=5/4=1.25, ce 一b,d=4/5=0.8。3. (20分)以下是多元回归分析的部分 R输出结果 ls1=lm(yx1+
5、x2) anova(lsl)DfSum SqMean SqF valuePr(F)x1110021.210021.262.0380.0001007 *x214030.94030.924.9540.0015735 *Residuals71130.7161.5 ls2 anova(ls2)DfSum SqMean SqF valuePr(F)x213363.43363.420.8220.002595 *x1110688.710688.766.1708.193e-05 *Residuals 7 1130.7161.5(1)用F检验来检验以下假设 (a = 0.05)Ho: 31 = 0 Ha: wo
6、 计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设 (& = 0.05)Ho:四=0Ha:色 W0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设 (& = 0.05)Ho:=白=0Ha:向和白并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果 F=62.083F (2, 7) =4.74, pF(2,7)=4.74, pF=(2,7)=4.74,即拒绝原假 设,得到的和瓦并不都等于0。4. ( 20 分)考虑下面1-20.00-0.5166-0.561-0.92811 -0.3770.83016 1.1381.08720
7、个观测值:-1.249 -0.51025.000-0.0230.7140.3740.8380.874 -1.306-1.4892.5240.713( 1)用3*S 标准来检测该数据中是否存在异常值。( 2)用1.5*IQR 标准来检测该数据中是否存在异常值。要求提供均值、标准差、 IQR 值和所用的区间,以及你判断的依据。解:数据放入R 运行得 hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,+ + -0.561,-0.928,-0.023,0.714,0.374,+ + -0.377,0.830,0.838,0.874,-1.306,+ + 1.138,1.
8、087,-1.489,2.524,0.713) mean(hhh)1 0.35665 sqrt(var(hhh)1 7.405346 jjj which(abs(jjj)=3)1 5 Q1=quantile(hhh,0.25) Q3=quantile(hhh,0.75) IQR=Q3-Q1 Q125%-0.65275 Q375%0.847 IQR75%1.49975 kk ll which(hhh which(hhhll)1 5( 1)由以上数据处理可得第五个数据25.00 为异常值。(2)由数据分析可以得出第一个-20.00和第五个 25.00均为异常值。5. 简述题 ( 20 分) 。(
9、1) 在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。答: ( 1) 学习了三种聚类分析算法, 分别为系统聚类分析、 K 均值分析和 DBSCAN分析。其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、 离差平方和法及类平均法等, 其主要思想是在不同方法下把客观认为最相近的两类合并为一类, 再次执行并类步骤, 那么就可以把所有的观测值都聚为一类, 对于想要知道分多少类的具体情况有很大的帮助, 可以依照树状聚类图得到清晰的表示。K- 均值聚类原理是依一定观测值的均值来确定聚类中心, 从而根据其他的观测值和中心的距离来判断归为哪一类中。 该聚类方法事先需要确定要分的类别数据, 计算量要小得多, 效率比层次聚类要高。 但对于想要知道其他几类的分类情况就需要重新计算分析。DBSCAN 分析算法工作原理是对一组观测值优先聚合靠的最近的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽国控资产管理有限公司第二季度社会招聘5人笔试参考题库附带答案详解
- 宁夏职业技术学院《马克思主义哲学原理》2023-2024学年第二学期期末试卷
- 西南林业大学《建筑消防设备工程》2023-2024学年第二学期期末试卷
- 燕山大学《机器人学导论》2023-2024学年第二学期期末试卷
- 沈阳化工大学《语言处理与语音识别》2023-2024学年第二学期期末试卷
- 曲靖医学高等专科学校《民航旅客运输》2023-2024学年第二学期期末试卷
- 安徽警官职业学院《应用水文气象学》2023-2024学年第二学期期末试卷
- 重庆建筑工程职业学院《计算机基础B实验》2023-2024学年第二学期期末试卷
- 开封职业学院《A芯片应用开发实践》2023-2024学年第二学期期末试卷
- 漳州理工职业学院《铁路行车织》2023-2024学年第二学期期末试卷
- 赤峰市垃圾焚烧发电项目
- 2025年心理咨询师执业资格考试试题及答案
- 殡葬单位面试题及答案
- 网络科学在社会网络分析中的应用-全面剖析
- 民法典讲座课件
- 2024年蚌埠市龙子湖区产业发展有限公司招聘笔试真题
- 2025-2030中国萤石行业分析及供需形势与投资风险研究报告
- (四调)武汉市2025届高中毕业生四月调研考试 数学试卷(含答案详解)
- 中外比较文学研究专题智慧树知到期末考试答案2024年
- 建设用地报批服务投标方案(技术方案)
- EN779-2012一般通风过滤器——过滤性能测定(中文版)
评论
0/150
提交评论