


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 50.0 分某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的根本信息,经济情况,以与是否拖欠还款等,具体如附表所示已经将客户分为了训练集和测试集Microsoft OfficeExcel 2007工作表1测试进展数据预处理,并用不同的算法模型逻辑回归、神经网络等分析信用卡拖欠还款情况, 结合测试数据比照模型的拟合优度,要求写出具体的思路过程。答案:1、由题意,可以确定此题中年龄、教育水平、当前工作年限、当前居住年限、家庭收入、债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠情况为 因变量。2、对数据进展预处理:本案例数据均为数值型,符合模型建设要求;本案例数
2、据不存在缺失值,故此项不用处理;通过datahoop平台箱形图可知,家庭年收入一项异常值较多,但是结合实际情况认为可能 是有特殊人群存在,故此处不做处理。观察训练集数据可知,本案例样本均衡,可以进展模型建设。下边分别用逻辑回归、神经网络、SVM进展模型测试。3、 1逻辑回归:首先进展变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得出如下相关系数矩阵+勺田丄ft年陷绻券占蚁人忧PIHO典皤-0,0974a mto. ra&4.罰94-0. 0C4Cu2K90r2J7B-a C67-L1-0-19EO. O1B9. 2434-O.0331O- 1490L131
3、4D. 25SB兰耶亍ft年用-0.1SS10.冊盟 5S277 1591Ci 4:iCl 3115-a, 983日兰貳吕由半IF0(W4.39620. 315X 0062a.级9也34朝1485尿旬也A0SM4O- 24340. 56270. 3151-flB 0092CLEB0L554-0L 0573侑务占1 比例-(lH塚电-0.0331-0.1591o. UD52-0.0B 驚1Ou 6099Q. 455Ea 149Q. 40410, 23090.6388A 455510.65040. 24f-5必缈呂O.IBHa. 115o.群呃Dr目“a BDBE10.17<&迁和竜
4、左悄况-ill0k 2539-Ql 38387】仍-0. 05T3a曲24 17*6L由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接进展逻辑回归分析打开datahoop平台预测分析,将训练数据放入训练表,测试数据放入测试表,选择相应的 自变量和因变量,选择逻辑回归。结果如下:AccuracyAUC0.82210.8936PrecisionRecallFl-scoreSupport00.84840,79450.820647210.79790.85110.8237450由模型训练结果可知 Accuracy , AUC值,准确率召回率F1值都比拟高,模型拟合效果较好,训练误差不大。将模型
5、预测结果中的预测数据和测试集中的实际数据比照,得到混淆矩阵并计算出相应的准 确率和召回率如下:AccuracyTRUEPrecision RecallFl-scoreFredict38512401 0. 86842105 0. 733833333 (17951310 0. 7692307T 0.88a8S8S89 Ol 824742由混淆矩阵计算得出的准确率和召回率都比拟高,模型泛化误差不大,模型整体预测效果较好。2神经网络:具体描述同逻辑回归,模型训练结果如下:AccuracyAUC0.8080.9172PrecisionRecallFl-scorcSupport00.93510.G7160
6、.781847210.73410.95110.8287450F1将测试结果和测试集中的实际分类比照,得到的混淆矩阵与准确率、召回率、预测率, 值结果如下:Accuracy'J. "5555556Dr=rli rt35121033TEUE1 0F*r eels ionRecallFl-scorc0. 7U8E0850.7777777780. 7B0S70."67411860.733333333由训练结果可以看到 Accuracy、AUC准确率召回率等都较大,模型拟合效果较好,训练误差不大;由测试结果可知 Accuracy > AUC准确率召回率等都较大,模型测试
7、效果较好,泛化误差不 大。3SVM导入datehoop平台得到如下训练结果:Accurd 匚 yAUC0.99890.9998PrecisionRecallFl-scorSupport010.99790.998947210.9978103989450将测试结果和测试集中的实际分类比照,得到混淆矩阵如下:Preiict204345TRUE1 0Accuracy0. 5222PrecisionRecallFl-score10. 04440. 08510. 51141a 6767SVM莫型训练结果可知 Accuracy、AUC直均较高,准确率和召回率都较大,模型拟合效果较好,训练误差不大;由预测结果
8、和测试集中的实际结果比照,模型ACCURACY不高,预测为1召回率和F1值较小,模型预测效果不好,泛化误差较大。4、通过比照以上 3种分类模型的比拟,逻辑回归整体准确度最高,SVM模型最差,在此案例中,我们更关注客户是不是会拖欠贷款这一点,即我们更关注分类结果为欠款即为1的召回率的大小,比照三个模型可知, 神经网络这一模型 1的召回率最大,因此三个模型中 神经网络的预测效果最好。2 50.0 分 为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包 含手机的评论得分和评论内容以与手机品牌和价格等信息。对数据进展预处理,选择适宜的模型分析手机好评率与品牌、价格的关系,
9、要求写出详细的思路和过程。答案:1首先对数据进展预处理:观察数据可知不存在缺失值,故此项不用处理。因为手机品牌中存在非数值型数据,因此对手机品牌数据进展数值化,编码如下:品牌编号360121KE2HTC3LG4OPPO5vivo6ZUK7锤子smartisan8飞利浦PHILIPS9华为HUAWEI10金立Gionee11酷派Coolpad12手机价格属于连续型变量,因此需要离散化,离散结果如下:价格编号500-1000onej1000-1500twoj1500-2000threej2000-2500fourj2500-3000fivej3000-3500sixj3500-4000sevenj
10、5000-6000eightj6000以上ninej由题意可知分析手机好评率同价格和品牌、价格等的关系,因此根据数据构建新的变量好 评率好评率=好评数/总评论数*100%计算出的好评率依旧是连续型数据,进展离散化 处理如下:好评率编号hp1hp2hp3hp4将数据导入datehoop平台进展异常值处理,通过箱线图可以看到虽然有异常值,但是属于 温和异常值,此项不做处理。2、对应分析手机好评率处理后 数据将手机品牌和好评率进展对应分析,交叉图与因子贡献率如下Correspondence Analysis ftesult贡献率(沟1Dimension519DimensionDimensiQn_31
11、4.4000从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于 hp1也就是低好评度的品牌主要有品牌 3、9。接着较低 好评度品牌有1、2、8、11。较高好评度品牌包括 5、10、12。高好评度品牌有 6、7、4。因此品牌好评率分布为:好评率等级品牌低级HTC飞利浦较低360, 21KE锤子、金立较高oppo、华为、酷派高级 VIVO、LG、ZUK3个因子,前两个因子贡献然后对价格等级和好评率等级进展对应分析,可以看到提取了 率达到将近80%因此这里选取两个因子就可以。通过对应分析图表可以看到不同价位的手机的好评情况:Corresp
12、ondence Analysis ResultrM匚 o-lauweq-0.40.2 00Dimension 1贡献率()IDinnensionl553000Diirension_223.1Dirren$ion_3211000好评等级价位低级第一区间价位500-1000,第二区间价位1000-1500丨第八区间5000-6000较低第三区间价位1500-2000较高第四区间价位2000-2500丨第六区间3000-3500丨第九区间价位6000-7000高级第五区间2500-3000丨第七区间3500-4000从表中可以看到用户评论中 500-1500价格区间的手机好评率最低,500-6000
13、价位的手机好评率也最低。1500-2000价位的手机好评率较低; 2000-2500价位/3000-3500 价位和 6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和 3500-4000价位。【以下为平台答案解析】1答案解析:本案例数据均为数值型且不存在缺失值,且样本均衡。接下来分别用逻辑回归、 神经网络和SVM算法进展分析,根据泛化误差来选择最适宜的模型。逻辑回归:逻辑回归要考虑异常值的影响,以与变量是否存在共线性,因此我们进展异常值分析和相关性分析。异常值分析发现异常值较多,猜想可能是分类的影响,因此不做处理。由相关矩阵 可看出变量之间虽然也有相关,但不
14、是很强,因此可以进展逻辑回归。由训练结果可以看到Accuracy、AUC准确率召回率等都较大,模型拟合效果较好,训练误差不大。用训练数据 和测试数据进展预测,比照测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得 Accuracy、准确率召回率等。神经网络:用神经网络算法分析,由训练结果可以看到Accuracy > AUG准确率召回率等都较大,模型拟合效果较好,训练误差不大。用训练数据和测试数据进展预测, 比照测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等.SVM算 法:用SVM算法分析,由训练结果可以看到 Accuracy、AUC准确率召回率
15、等都较大,模型拟合 效果较好,训练误差不大。用训练数据和测试数据进展预测, 比照测试数据的预测结果和实 际分类,可以得到混淆矩阵,并求得 Accuracy、准确率召回率等.想要预测信贷客户是否有可能拖欠债款,我们比拟关心“欠款这个分类结果的召回率,因此选择三个模型中1的召回率最大的模型,即神经网络算法来进展预测。2答案解析:本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。对应分析是研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以与不同变量各个类别之间的对应关系。适用于
16、两个或多个定类变量。因此本案例需要对要研究的定量变量进展定性处理。本案例中品牌属于类别数据,但是其中包含汉字,因子需要进展重新编码;价格属于连续型变量,因此需要进展离散化处理。好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进展分析。由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进展离散化处理。数据分析:本次分析采用datahoop1.2版本进展分析,首先对品牌和好评率进展对应分析。从分析结果可以看到数据的交叉表,以与提取的3个公因子的贡献率和因子得分。从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有 3,4。较高好评度品牌包括 1 , 5。高好评度品牌
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社会工作专业社工面试题库:家庭咨询与儿童关爱岗位参考
- 接口技术 试题及答案
- 数据科学家AI面试题库
- 高级安全监管员面试题库
- 烘焙行业面试实战模拟题库
- 网络红人经纪在线招聘面试题库
- 学校教师安全知识培训课件通知
- 鲁盐集团面试经验分享:行业热点面试题库
- 学校安全知识培训课件的收获
- 五金厂面试实战模拟题库
- 医院院长竞聘试题及答案
- 《数据科学导论》课件
- 学校安全管理制度大全
- 道路建设三级安全教育培训
- 工抵房协议书范本
- 建筑机电安装工程质量通病与防治
- 中国航天建筑某厂房施工组织设计
- 2024年国网山东省电力公司招聘考试真题
- 全国高校辅导员素质能力大赛试题(谈心谈话、案例分析)
- 氧气吸入疗法及护理
- 2025年中国电信河南分公司招聘笔试参考题库含答案解析
评论
0/150
提交评论