数据分析应用模拟题二_第1页
数据分析应用模拟题二_第2页
数据分析应用模拟题二_第3页
数据分析应用模拟题二_第4页
数据分析应用模拟题二_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

共享知识分享快乐

1(50.0分)

某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,

经济情况,以及能否拖欠还款等,详尽如附表所示(已经将客户分为了训练集和测试集)。MicrosoftOfficeExcel2007工作表数据解析应用1训练数据.xlsx数据解析应用1测试数据数据解析应用1测试数据.xlsx

进行数据预办理,并用不同样的算法模型(逻辑回归、神经网络等)解析信用卡拖欠还款情况,联合测试数据比较模型的拟合优度,要求写出详尽的思经过程。

答案:

1、由题意,能够确定此题中年纪、教育水平、目前工作年限、目前居住年限、家庭收入、

债务占收入比率、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。

2、对数据进行预办理:

本领例数据均为数值型,符合模型建设要求;

本领例数据不存在缺失值,故此项不用办理;

经过datahoop平台箱形图可知,家庭年收入一项异样值好多,可是联合实质情况认为可能是有特他人群存在,故此处不做办理。

察看训练集数据可知,本领例样本平衡,能够进行模型建设。

下边分别用逻辑回归、神经网络、SVM进行模型测试。

3、(1)逻辑回归:

第一进行变量的有关性检查,将训练集导入平台,经过datahoop平台有关系数矩阵解析得

出以下有关系数矩阵

由有关系数矩阵得悉变量之间虽有有关性但有关性不高,能够直接进行逻辑回归解析.

翻开datahoop平台展望解析,将训练数据放入训练表,测试数据放入测试表,选择相应的自变量和因变量,选择逻辑回归。结果以下:页眉内容共享知识分享快乐由模型训练结果可知Accuracy,AUC值,正确率召回率F1值都比较高,模型拟合收效较好,训练误差不大。将模型展望结果中的展望数据和测试集中的实质数据比较,获取混杂矩阵并计算出相应的正确率和召回率以下:由混杂矩阵计算得出的正确率和召回率都比较高,模型泛化误差不大,模型整体展望收效较好。2)神经网络:详尽描绘同逻辑回归,模型训练结果以下:将测试结果和测试集中的实质分类比较,获取的混杂矩阵及正确率、召回率、展望率,F1值结果以下:由训练结果能够看到Accuracy、AUC、正确率召回率等都较大,模型拟合收效较好,训练误差不大;由测试结果可知Accuracy、AUC、正确率召回率等都较大,模型测试收效较好,泛化误差不大。3)SVM:导入datehoop平台获取以下训练结果:页眉内容共享知识分享快乐将测试结果和测试集中的实质分类比较,获取混杂矩阵以下:SVM模型训练结果可知Accuracy、AUC值均较高,正确率和召回率都较大,模型拟合收效较好,训练误差不大;由展望结果和测试集中的实质结果比较,模型ACCURACY值不高,展望为1召回率和F1值较小,模型展望收效不好,泛化误差较大。4、经过比较以上3种分类模型的比较,逻辑回归整体精准度最高,SVM模型最差,在此案例中,我们更关注客户能否是会拖欠贷款这一点,即我们更关注分类结果为欠款(即为1)的召回率的大小,比较三个模型可知,神经网络这一模型1的召回率最大,因此三个模型中神经网络的展望收效最好。页眉内容共享知识分享快乐2(50.0分)为了研究手机好评率与品牌、价钱的关系,某企业收集如附表所示数据,数据收集的信息包括手机的讨论得分和讨论内容以及手机品牌和价钱等信息。手机数据手机数据.xlsx对数据进行预办理,选择合适的模型解析手机好评率与品牌、价钱的关系,要求写出详尽的思路和过程。答案:1、第一对数据进行预办理:察看数据可知不存在缺失值,故此项不用办理。由于手机品牌中存在非数值型数据,因此敌手机品牌数据进行数值化,编码以下:品牌编号360121KE2HTC3LG4OPPO5vivo6ZUK7锤子(smartisan)8飞利浦(PHILIPS)9华为(HUAWEI)10金立(Gionee)11酷派(Coolpad)12手机价钱属于连续型变量,因此需要失散化,失散结果以下:价钱编号500-1000onej1000-1500twoj1500-2000threej2000-2500fourj2500-3000fivej3000-3500sixj3500-4000sevenj5000-6000eightj6000以上ninej由题意可知解析手机好评率同价钱和品牌、价钱等的关系,因此依据已知数据建立新的变页眉内容共享知识分享快乐量好评率(好评率=好评数/总讨论数*100%),计算出的好评率仍旧是连续型数据,进行失散化办理以下:好评率编号hp1hp2hp30.98-1hp4将数据导入datehoop平台进行异样值办理,经过箱线图能够看到诚然有异样值,可是属于平易异样值,此项不做办理。2、对应解析手机好评率办理后数据将手机品牌平和评率进行对应解析,交叉图及因子贡献率以下从因子贡献率能够看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。依据对应解析的图表能够看各处于hp1也就是低好评度的品牌主要有品牌3、9。接着较低好评度品牌有1、2、8、11。较高好评度品牌包括5、10、12。高好评度品牌有6、7、4。因此品牌好评率散布为:好评率等级品牌初级HTC飞利浦较低360,21KE、锤子、金立较高oppo、华为、酷派页眉内容共享知识分享快乐高级VIVO、LG、ZUK此后对价钱等级平和评率等级进行对应解析,能够看到提取了3个因子,前两个因子贡献率达到快要80%,因此这里采用两个因子就能够。经过对应解析图表能够看到不同样价位的手机的好评情况:好评等级价位:初级第一区间价位(500-1000),第二区间价位(1000-1500)第八区间(5000-6000);较低第三区间价位(1500-2000);较高第四区间价位(2000-2500)第六区间(3000-3500)第九区间价位(6000-7000);高级第五区间(2500-3000)第七区间(3500-4000);从表中能够看到用户讨论中500-1500价钱区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。【以下为平台答案解析】答案解析:页眉内容共享知识分享快乐本领例数据均为数值型且不存在缺失值,且样本平衡。接下来分别用逻辑回归、神经网络和SVM算法进行解析,依据泛化误差来选择最合适的模型。逻辑回归:逻辑回归要考虑异样值的影响,以及变量能否存在共线性,因此我们进行异样值解析和有关性解析。异样值解析发现异样值好多,猜想可能是分类的影响,因此不做办理。由有关矩阵可看出变量之间诚然也有有关,但不是很强,因此能够进行逻辑回归。由训练结果能够看到Accuracy、AUC、正确率召回率等都较大,模型拟合收效较好,训练误差不大。用训练数据和测试数据进行展望,比较测试数据的展望结果和实质分类,能够获取混杂矩阵,并求得Accuracy、正确率召回率等。神经网络:用神经网络算法解析,由训练结果能够看到Accuracy、AUC、正确率召回率等都较大,模型拟合收效较好,训练误差不大。用训练数据和测试数据进行展望,比较测试数据的展望结果和实质分类,能够获取混杂矩阵,并求得Accuracy、正确率召回率等.SVM算法:SVM算法解析,由训练结果能够看到Accuracy、AUC、正确率召回率等都较大,模型拟合收效较好,训练误差不大。用训练数据和测试数据进行展望,比较测试数据的展望结果和实质分类,能够获取混杂矩阵,并求得Accuracy、正确率召回率等.想要展望信贷客户能否有可能拖负债款,我们比较关心“欠款”这个分类结果的召回率,因此选择三个模型中1的召回率最大的模型,即神经网络算法来进行展望。答案解析:本领例想要经过对应解析解析不同样手机品牌和不同样价钱区间的手机的好评情况。对应解析是研究由定性变量组成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展现。主要合用于有多个类其他定类变量,能够揭示同一个变量的各个种类之间的差别,以及不同样变量各个种类之间的对应关系。合用于两个或多个定类变量。因此本领例需要对要研究的定量变量进行定性办理。本领例中品牌属于种类数据,可是其中包括汉字,因子需要进行从头编码;价钱属于连续型变量,因此需要进行失散化办理。好评数不能够直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进行解析。由于好评率计算出来仍旧是一个0到1之间的连续变量,因此需要进行失散化办理。数据解析:本次解析采用datahoop1.2版本进行解析,第一对品牌平和评率进行对应解析。从解析结果能够看到数据的交叉表,以及提取的3个公因子的贡献率和因子得分。从因子贡献率能够看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。依据对应解析的图表能够看各处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包括1,5。高好评度品牌有8,10。因此品牌好评率散布为:好评率等级品牌初级ZUK,飞利浦,金立,酷派较低HTC,LG较高360,oppo高级锤子,华为这样就能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论