




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、计算题 (共4题,100分) 1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。二手车抽样 - 预处理.csv收集的数据包含:变量名代表含义数据类型备注yuanjia原价连续变量汽车原价baojia报价连续变量汽车报价licheng里程连续变量累计里程数(单位:万公里)pailiang排量.L.连续变量发动机单位时间内释放的能量mali最大马力.Ps.连续变量最大动力输出changshang厂商离散变量十一分类排名前十的厂商分别用1-10表示,以及前十以外的其他水平cheshen_type车身结构-车类型离散变量四分类“SUV”、“两厢”、“三厢”、“MPV”pengzhuang排除重大碰撞离散变量排除重大碰撞(0)&存在重大碰撞(1)waiguan_xiufu外观修复检查离散变量排除外观修复(0)&存在外观修复(1)waiguan_quexian外观缺陷检查离散变量排除外观缺陷(0)&存在外观缺陷(1)neishi_quexian内饰缺陷检查离散变量排除内饰缺陷(0)&存在内饰缺陷(1)shangpaishijian上牌时间连续变量与2017年2月之间的时间差(单位:月)对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。答案解析:因变量采用车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到删除了三个变量,R方和调整R方都接近1,模型拟合度很好。由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变量删除后再做线性回归分析,可得: Y=1.1036-0.0646shangpaishijian-0.1064licheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuang1+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang-0.0199changshang模型拟合效果很好,且通过了F检验和t检验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估2、利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为0.7)若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。答案解析:先将给定的数据整理成datahoop关联分析可识别的格式,导入datahoop平台,对变量牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度为2/7=0.286,最小置信度为0,可以得到频繁项集(删除重复)。设置最小支持数为2/7=0.286、最小置信度=0.7,可以得到提升度1的有效强关联规则(删除单项)解答:首先对原数据进行预处理至然后再处理至导入datahoop平台,设置支持度为0.286,置信度为0删除重复项一项频繁项集:(e)、(a)、(d)、(b)、(c)二项频繁项集:(a,e)、(d,e)、(b,e)再将支持度和置信度的值分别设置成0.286和0.7,导入datahoop平台二项的有效强关联规则:aee ad eb e三项的强关联规则:(a,d) e(d,e) a(a,b) e从上面数据可以看出牛肉和鸡肉等肉食产品可以放在一起,方便客户选择,牛奶和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取3、以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。降维、聚类.xls答案解析:分析数据发现无缺失值,且不需要进行其他处理。本案例采用k-means算法进行聚类,因此还需考虑异常值和共线性。由于数据量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数矩阵分析发现变量之间存在共线性,所以不能直接进行聚类,接下来用主成分分析对变量进行降维处理。设置主成分个数为2时发现累计贡献率为0.9557,效果很好,可以用PC1和PC2进行聚类分析。(这里PC1和PC2是由标准化后的变量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用k-means算法对PC1和PC2进行聚类分析,分别选3,4,5个类别进行聚类,发现聚成三类时效果最好。解答:先将数据导入datahoop平台,进行降维处理得出的贡献率和累计贡献率值均在0至1之间将数据进行聚类分析因为之前已进行降维处理所以不再进行标准化,设置聚类个数为3,初始中心点选择次数为10,最大迭代次数为300, 样本个数依次为2452再将聚类个数设置成4,其他数值不变样本个数为22261可以看出样本存在不均衡因此聚类分为3类时分类效果最好4、为了研究影响泰坦尼克号生还与否的影响因素有哪些,收集如下数据:train.csvtrain-原始.csv收集变量包括:PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,EmbarkedPassengerId = 乘客IDSurvived = 是否生还Pclass = 乘客等级(1/2/3等舱位)Name = 乘客姓名Sex = 性别Age = 年龄SibSp = 堂兄弟/妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabin = 客舱Embarked = 登船港口对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived= 是否生还、Pclass = 乘客等级(1/2/3等舱位)、Sex = 性别、Age = 年龄、SibSp = 堂兄弟/妹个数、Parch = 父母与小孩个数、Fare = 票价本案例研究以上选取的变量对于乘客是否获救的影响。通过原始数据截图可以看到,性别属于定性的变量,因此对此进行研究需要对这些变量进行前期数值转换。本次处理把性别进行0和1处理,female(女)转换成0,male(男)转换成1。本案例选取的变量中,年龄Age存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失值用所有年龄数据的平均值进行填充。原始数据中不存在类别不均衡的问题,为了进行分类模型的构建和检验,将数据分为训练集和测试集。选取前594条数据作为训练数据,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高原特色中草药原料采购与产业链协同研发合同
- 2025年度高端服装品牌全球代理权授权及合作协议
- 2025年度电子商务平台用户增长与客户关系管理系统合同
- 2025年养老养生园绿色生态景观设计与维护合同
- 无中介的保姆劳务协议合同范本
- 通辽茶艺师知识培训课件
- 2025年家居新零售线上线下融合模式下的智能家居产业投资前景报告
- 2025年文化产业金融政策实施对融资市场的影响及对策研究报告
- 2025年教育信息化2.0背景下教师心理健康教育与自我调适策略报告
- 入团考试试卷及答案
- 油罐车出租合同协议书
- 艾滋病手术室器械处理流程及标准
- 2025至2030中国避雷器市场销售规模及发展潜力评估报告
- 职业技术学院旅游管理专业《旅行社经营与管理》课程标准
- 噎食急救与应急预案
- 立杆方法分类普通电杆的组立系列课件
- 2024年农艺师专业考试试题及答案
- 学校食堂运营管理职责与分工
- 会计师事务所公司质量控制制度范本
- 实习生劳务合作合同6篇
- 2025《义务教育信息科技课程标准(2022年版)》测试题库及答案(共4套)
评论
0/150
提交评论