版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
逻辑回归对收入进行预测1逻辑回归模型
回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
最简单的回归是线性回归,在此借用AndrewNG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如h
θ
(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h
θ
(x)≥.05为恶性,h
θ
(x)<0.5为良性。Zi=ln(Pi1−Pi)=β0+β1x1+..+βnxnZi=ln(Pi1−Pi)=β0+β1x1+..+βnxn2数据描述该数据从美国人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。3问题描述其实对于收入预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出收入预测。这其实不是一个财务问题,是一个业务问题。对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,提高运营人员的办事效率。流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用场景的用户流失和预测里面去。我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测收入是否超过$50K的资金。
在这个过程中,我们将:
1.导入数据
2.检查类别偏差
3.创建训练和测试样本
4.建立logit模型并预测测试数据
5.模型诊断4数据描述分析查看部分数据AGEWORKCLASSFNLWGTEDUCATIONEDUCATIONNUMMARITALSTATUS
139State-gov77516Bachelors13Never-married
250Self-emp-not-inc83311Bachelors13Married-civ-spouse
338Private215646HS-grad9Divorced
453Private23472111th7Married-civ-spouse
528Private338409Bachelors13Married-civ-spouse
637Private284582Masters14Married-civ-spouse
occupationRELATIONSHIPRACESEXCAPITALGAINCAPITALLOSS
1Adm-clericalNot-in-familyWhiteMale21740
2Exec-managerialHusbandWhiteMale00
3Handlers-cleanersNot-in-familyWhiteMale00
4Handlers-cleanersHusbandBlackMale00
5Prof-specialtyWifeBlackFemale00
6Exec-managerialWifeWhiteFemale00
HOURSPERWEEKNATIVECOUNTRYABOVE50K
140United-States0
213United-States0
340United-States0
440United-States0
540Cuba0
640United-States0对数据进行描述统计分析:AGEWORKCLASSFNLWGTMin.:17.00Private:22696Min.:122851stQu.:28.00Self-emp-not-inc:25411stQu.:117827Median:37.00Local-gov:2093Median:178356Mean:38.58?:1836Mean:1897783rdQu.:48.00State-gov:12983rdQu.:237051Max.:90.00Self-emp-inc:1116Max.:1484705(Other):981EDUCATIONEDUCATIONNUMMARITALSTATUSHS-grad:10501Min.:1.00Divorced:4443Some-college:72911stQu.:9.00Married-AF-spouse:23Bachelors:5355Median:10.00Married-civ-spouse:14976Masters:1723Mean:10.08Married-spouse-absent:418Assoc-voc:13823rdQu.:12.00Never-married:1068311th:1175Max.:16.00Separated:1025(Other):5134Widowed:993OCCUPATIONRELATIONSHIPRACEProf-specialty:4140Husband:13193Amer-Indian-Eskimo:311Craft-repair:4099Not-in-family:8305Asian-Pac-Islander:1039Exec-managerial:4066Other-relative:981Black:3124Adm-clerical:3770Own-child:5068Other:271Sales:3650Unmarried:3446White:27816Other-service:3295Wife:1568(Other):9541SEXCAPITALGAINCAPITALLOSSHOURSPERWEEKFemale:10771Min.:0Min.:0.0Min.:1.00Male:217901stQu.:01stQu.:0.01stQu.:40.00Median:0Median:0.0Median:40.00Mean:1078Mean:87.3Mean:40.443rdQu.:03rdQu.:0.03rdQu.:45.00Max.:99999Max.:4356.0Max.:99.00NATIVECOUNTRYABOVE50KUnited-States:29170Min.:0.0000Mexico:6431stQu.:0.0000?:583Median:0.0000Philippines:198Mean:0.2408Germany:1373rdQu.:0.0000Canada:121Max.:1.0000(Other):1709从上面的结果中我们可以看到每个变量的最大最小值中位数和分位数等等。查看数据维度dim(inputData)[1]3256115从上面的结果中我们可以看到收入情况和一个人的资本收入以及性别存在着正相关。从图中我们可以看到,如果性别是男性,那么他的收入一般会较高,性别是女性,收入较低。5检查类偏差理想情况下,Y变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE50K中的类的比例。
01
247207841显然,不同收入人群比例有偏差。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。6建模分析6.1创建训练和试验样本解决类别偏差问题的一个方法是以相等的比例绘制训练数据(开发样本)的0和1。在这样做的时候,我们将把其余的inputData不包含在testData中。test_ones<-input_ones[-input_ones_training_rows,]
test_zeros<-input_zeros[-input_zeros_training_rows,]
testData<-rbind(test_ones,test_zeros)rowbindthe1'sand0's
接下来,需要找到变量的信息值,以了解在解释因变量(ABOVE50K)方面的价值。6.2构建Logit模型和预测确定模型的最优预测概率截止值
默认的截止预测概率分数为0.5或训练数据中1和0的比值。
但有时,调整概率截止值可以提高开发和验证样本的准确性。InformationValue::optimalCutoff功能提供了找到最佳截止值以提高1,0,1和0的预测的方法,并减少错误分类错误。
可以计算最小化上述模型的错误分类错误的最优分数。optCutOff<-optimalCutoff(testData$ABOVE50K,predicted)[1]
=>0.716.3模型诊断给出了β系数,标准误差,z值和p值。如果模型具有多个级别的分类变量,则会为该变量的每个类别找到一个行条目。这是因为,每个单独的类别被glm()视为一个独立的二进制变量。在这种情况下,如果多类别变量中的少数类别在模型中并不显着(即p值大于显着性水平0.5)。glm(formula=ABOVE50K~RELATIONSHIP+AGE+CAPITALGAIN+职业+
EDUCATIONNUM,family=binomial(link="logit"),data=trainingData)
DevianceResiduals:
Min1QMedian3QMax
-3.8380-0.5319-0.00730.62673.2847
Coefficients:
EstimateStd.ErrorzvaluePr(>|z|)
(截距)-4.577e+002.464e-01-18.572<2e-16***关系未婚-2.525e+001.145e-01-22.054<2e-16***关系妻子3.209e-011.111e-012.8880.00387**年龄2.671e-022.379e-0311.226<2e-16***职业经理8.461e-011.652e-015.1213.04e-07***职业警察1.285e+002.053e+000.6260.53144职业工艺修理1.215e+001.584e-017.6691.73e-14***职业执行管理1.952e+001.577e-0112.376<2e-16***职业养殖1.075e-012.118e-010.5080.61158职业处理程序员4.844e-012.238e-012.1640.03045*职业机器操作7.094e-011.811e-013.9188.95e-05***职业其他服务7.118e-021.917e-010.3710.71044职业防护1.545e+002.196e-017.0381.95e-12***职业销售1.354e+001.605e-018.435<2e-16***职业技术支持1.659e+002.011e-018.252<2e-16***职业交通运输1.028e+001.796e-015.7241.04e-08***职业教育2.812e-011.374e-0220.460<2e-16***
---
Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
(Dispersionparameterforbinomialfamilytakentobe1)
Nulldeviance:15216.0on10975degreesoffreedom
Residualdeviance:8740.9on10953degreesoffreedom
AIC:8786.9
NumberofFisherScoringiterations:8从上面的回归结果中,我们可以看到一个人的职业,他的年龄对他的收入有重要的影响。从中我们可以看到从事技术方面人员的收入会较高。同时可以看到未婚人员的收入较低。还可以发现,随着年龄和一个人的收入存在正相关的关系。6.4错误分类错误
错误分类错误是预测与实际的不匹配百分比,不论1或0。
错误分类错误越低,模型越好。misClassError(testData$ABOVE50K,predicted,threshold=optCutOff)[1]0.08926.5ROCROC曲线指受试者工作特征曲线/接收器操作特性曲线(receiveroperatingcharacteristiccurve),是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。上述型号的ROC曲线面积为88.78%,相当不错。6.6一致性简单来说,在1-0的所有组合中,一致性是预测对的百分比,一致
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026-2032年中国快运快递行业市场现状调查及投资战略研判报告
- 2026-2032年中国公路标志线行业市场竞争态势及投资战略研判报告
- 初中生2025年环保意识探究说课稿
- 第2课 控制系统保安全说课稿2025学年小学信息科技清华版新疆2024六年级下册-清华版(新疆)2024
- 2024年绿色建筑施工合同三篇
- 初中2025年说课稿郑和主题班会设计
- 精准医疗视角下肿瘤指南解读教学实践
- 2026年多元评价促进学困生发展的实践
- 2026年企业疫情防控期间食堂就餐管理规定
- 2026年超声治疗设备软件确认指南
- 基于人工智能的糖尿病处方审核系统
- 渣土车运输安全培训课件
- 2025年成果转化专员岗位招聘面试参考题库及参考答案
- 2026年外国人在中国永久居留资格申请服务合同
- 齐商银行笔试题库及答案
- DB31T+1545-2025卫生健康数据分类分级要求
- 婺安安全生产培训课件
- 血液透析常用药物管理要点
- 《环境设计制图》全套教学课件
- 安全生产培训学校申请书范文
- 云南省云南师范大附属中学2026届中考联考物理试卷含解析
评论
0/150
提交评论