整理多项分类Logistic回归分析的功能与意义

上传人：彩*** IP属地：天津上传时间：2023-10-12 格式：DOCX 页数：43 大小：1.26MB 积分：20 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Logistic回归分析的功能与意义我们常常会遇到因变量有多个取值而且无大小挨次的状况，一般的线性回归分析无法准确地刻画变量之比方职业、婚姻状况等等，这时需要用间的因果关系，拟合模型。SPSSLogistic回归便是一种简便的处理该类因变量问题的分析方法。

其它回归分析方法来进展例子：下表给出了对山东省某中学 20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度〔由轻到重共代表女性〕之间的关系。~

3级〕与年龄、性别〔1代表男性，2分析步骤：编91114181717131115142118编9111418171713111514211815151715号视力低下程度性别 111152111532114422165321663217722178211810321111121215121612173218111911152022162、选择进展Logistic回归的变量。如以下图所示对话框左侧的列表中，选中视力低下程度”并单击向右的箭头按钮使之进入使之进入协变量”列表框。

因变量”列表框，选择性别”使之进入因子”列表框，选择「年龄”K.I［龜耆奠别迥因子〔D：C2L.保存伙〕…Boctstrap(BL.［确疋

I〕；粘贴©］［帝置迟〕］取消6.jpg〔38.14KB,下载次数：47〕下载附件2012-8-1323:20上传34、设置完毕，单击确定”按钮，等待输出结果。模型拟合信息标准模型仅截距32.633最终18.80413.828仅截距32.633最终18.80413.828.008

似然比检验卡方 df 显著水平伪R方CoxCox和Snell.499Nagelkerke.572McFadden.336似然比检验

准效应简化后的模型的-2倍对

似然比检验数似然值截距18.804数似然值截距18.804.0000年龄25.4426.6382.036性别25.3066.5022.039参数估量参数估量=1]［性别=2]00显著水Exp(B)的置信区间95%听力低下程度aB标准误WalddfExp(B)平下限上限截距34.33819.5533.0841.079年龄-2.1121.1813.1971.074.121.0121.225[性别121.2721.183323.0951.0001.731E+091.702E+081.761E+10=1][性别00=2]截距20.97419.0661.2101.271年龄-1.2771.1411.2511.263.279.0302.613[性别220.540.00018.321E+088.321E+088.321E+08还是以教程“blankloan.sav“数据为例，争论银行客户贷款是否违约〔拖欠〕的问题，数据如下所示：缺缺1412”栽育1工龄一tit3110：12G收入175003100I负愤*9.3017.30—-1136”!!违的136501400i.1m了404124411||eS.OO”12000230025.0039433436!27I255212\2”,!2：111111111115“U14£“6鈿胡05&罚2.90117301C.20Hfg11467.003300n”.”O3C.603.60^4.40.86：I2&&I1179：i06，.期i3,832.173232.1G16.670010-13””II1C“13O25.0019.701243.3S2.1506101I11136278”11_16,1Oi屮24!,10141500230064.003714S五915G2900109004900U”O52010.0016.309101S.GOI111!61122“2■2”1”3”?931.72：:3701。吁_942.473.01O”00.03“”£_4i03.401364319”II&194100720016.407.eo2.9211!；3.314230011023IB上面的数据是大约回归0的客户，我们需要进展随机抽样，来进展二

Logistic1:设置随机抽样的随机种0岂前活动生咸需；黠容SPSS12〔S>；活动主成盟可现用幷可淇将来遽用-n

“1”示拖欠贷款，接下来，步骤如下:-------------□谟置洁动生咸器匹〕

「酒动生威罂初贻化——V谟置起点世〕0随机迥〕二『.：上叱山二忸曰I @固疋値近〕値®boooooo慕些适程具有內部殖机數字生咸器-琴问帮助获導完整列義。［踊走］I0〕I蛊置®I］j［诽助200万的容量已经足够了，就承受的默认值,点击确定，返回原界面、2:进展转换”—十算变量生成一个变量〔validate〕，进入如下界面:目祐責量口 vahdate RV.BERNOULLKO.|7〕&年踴【年顒］护当前雇右工作年限［…於当箭地址居性年限［...矽寡底收入〔干元〕［…&负債收入比車CK100..捞 <-信用卡员俵〔千元〕於具他罚债〔干元〕［宀ft*|Lft*

至部CDF石非中心CC0期时间日期运篦B期釧舜画散和特别裳量囚RangeRangeR.eplace〔3〕Replace〔4〕Rnd⑴Rnd⑵Rnd⑶在数字表达式中，输入公式： rv.bernoullibernoulli分布随机值0.7的概率下能够成功，那么就为为了保持数据分析的有效性，对于样本中缺失值，所以，需要设置一个选择条件”点击假设”按钮，进入如下界面：〔0.7〕，这个表达式的意思为：返回概率为1，失败的话，就为“0“违约“变量取缺失值的局部，validate变量也取

Rtrim⑴RtrimCZ〕1怦［教育］g方工作鞭!!址居住年限!!址居住年限｛kA〔千MISSING強的丘D

Oe所育冲■義色@如異个累満足奏件则包括疋』：DS34—_DS34—_\J561LUJ3J—_丿k—删除±iE算术CDF与非中心CDF转换日期运篦曰期创立函数也特别变量应:卢〔xTOO.P员债〔千 >元〕...i债〔千J

i经违约1_rlLMISSIMGCvanable〕*邀辐请*如黑我用芦缺矣itRi1true0参数应为活动數据集中的变量名-

LrgammaLowerLtdrriCI)Ltrimf2)MazMblenBytekTearrvfedianMinr^/fisslng假设违约”变量中，确实存在缺失值，那么当使用 “missing”函数的时候，它的返回值应当为“或者为“true“为了剔除”缺失值所以，结果必需等于“0也就是不存在缺失值的现象点击”连续按钮，返回原界面，如下所示：-区-区护年龄［年副dJ教育水平［教吉I少当前雇方工作年1“/当前地址SJ®彖庭收入〔千丘〕I-3負债收入岀率mg信用卡负债〔千元〕...於其他城億〔千元〕J

I金:；是百曾妊违妁违约］-块曲-----------------------年龄工龄收入方法［向前：LR

下一議即〕选择娈量validal&=1确定］牯贴〔巳I重置屋”｛取渭将是是否曾经违约”作为因变量”拖入因变量选框，分别将其他框内，在方法中，选择：forward.LR方法

帮助8个变量拖入协变量”选将生成的变量“validate“拖入“选择变量框内，并点击”规章设置相应的规章内容，如下validate1，此处我们只将取值为1的记录纳入模型建立过程，将用来做结论的验证或者推测分析，固然你可以反推，承受点击连续，返回，再点击分类”按钮，进入如下页面

0作为取值记录

其它值〔例如：0〕协娈量{Q〕;少弑［年圖〔千元〕［..倉债牧入比車〔X100...&当前雇方工作年眼［.&当前〔千元〕［..倉债牧入比車〔X100...

分类协娈量〔D：敎育〔指搶其他向帖〔千元〕［…更敢对氏I对匕匕迥X 审更瓯〔川爹考荽别: @最终一金也〕O第一个08个自变量中，只有教育水平”这个变量能够作为分类协变量”由于其它变量都没有做分类，本例中，教育水平分为：初中，高中，大专，本科，争论生等等选择：最终一个”在比照中选择指示符”点击连续按钮，返回再点击一保存”按钮，进入界面：

，参考类别-極测値 IV槪率曰□姐咸员［G>:彭响n杠幵値也〕JDfBetafD〕

谦養 n未柿准化刨□Logit0学生化£}L标准化凹□僞差「将按型信息JXL文件a包含协方差趣阵®J在推测值“中选择”概率，在影响”中选择“Coo距离”在残差”中选择学生化”点击连续，返回，再点击选项”按钮，进入如下界面：:颈计蚤和圈V窘娄圄〔£〕度卜》个案的觀走刊a®心九莓菱蚤P

□fe胆》迭畑更记录①□迎卩【日;的C〔〔xx「输岀—个歩蝶中丄〕------------------进入职/Io.05删隱WIo.10

U分类标准値电yI7I龙棋型中包括常数〔即［竝禦］［取浦］［诽朗分析结果如下:041^041^的案例丄逵定案例包括在分析中百分比1S957.5攪失案例0.0总计48957.5未选定的案例36195042,5100.0蠶煤^炷有奴>谄蚩见Mg案例总诩罚直诩罚直否Ei值0是1(1)⑷(1)⑷教官水平未完成高中频率2631.000.050.000.500高中1大学25OCO.0(50.0001.000硏究生3.000.050.000.00034 ODD 1.000 .000 .00058.OCO0101D00.0001:在案例处理汇总”中可以看出：选定的案例 489个，未选定的案例361个，这个结果是validate=1得到的，在因变量编码”中可以看出违约”的两种结果是”或者否”分别用值“1和“0弋替，在分类变量5类，假设选中为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为10，假设四个都未被选中，那么就是“争论生“频率分别代表了处在某个教育水平的个数，总和应当为 489个否是百分比校正否昱百好比梭正3600100.D157□W0.D是1290.0540c已祯测是否曾经违釣是否曾S违约已祯测是否曾经违釣是否曾S违约已观测0是否曾轻违妁总计百分比73.674.4匕.耒选定的案例validateNE1C由于自变量中有缺矢値或芬类变量中的値超岀选定秦例的范围，所巖未吋某些未定的案例进展分饕*d模型中包牯常量。e 切剖値知 . 5 0 1BS.E.BS.E.WaisdfSig.Exp(B)D常量-1.Q26.1031000291COO.358360个是:在方程中的变量”表中可以看出：最初是对为：0.103那么wald=(B/S.E)2=(-1.026/0.103)2=99.2248,对数据进展的向下舍入的关系，所以数据会略微偏小，

否”(未违约) 有129个是是”(违约)常数项”记性赋值，B为-1.026，标准误差跟表中的“100.029几乎接近，是由于我BExp(B)B进展对数抓换后，可以得到：Exp(B)=e^-1.026=0.358,1，sig0.000，格外显著D变量

敎肓敎育⑴敎育⑵

導分7.460E.9346.0S51.145

di Sig.1 .006.oe41i .0141 .266敎盲⑶22241.ne敎育⑷3.5161.113地址肢入其他负儀蔥境计量1

36.746a.asG1.10776.41835,32512.G31U7.557

1 .0001 .0021 .2Q31 .0001 -0001 .00011 .ODD1:从不在方程中的变量”可以看出，最初模型，只有常数项”被纳入了模型，其它变量都不在最初模型内表中分别给出了，得分，df,Sig三个值，而其中得分〔Score〕计算公式如下：03-F$9©-—— .1-刃壬〔耳-刃7^〔公式中〔Xi-X 一少了一个平方〕下面来举例说明这个计算过程： (年龄”自变量的得分为例)从分类表”中可以看出：有129人违约，违约记为489那么：y“=129/489=0.2638036809816

“1129，选定案例x-=16951/489=34.664621676892所以：刀(X-X-)2=30074.9979y(1-y)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则：y“(1-y“)*刀(X-X-)2=0.19421129888216*30074.9979=5840.9044060372则：［刀Xi(yi-y)］人 2=43570.8所以：■［二山-刃？$9®=—=——；--------1—7〕工〔耳-壬〕=43570.8/5840.9044060372=7.4595982010876=7.46 (四舍五入)计算过程承受的是在EXCEL里面计算出来的，截图如下所示:B^esA

Al”=(A436-AVE；RA&E1:A$439))*2c1 D E K G23 136.063399927 53,7461254:534 0.44172197335 0 24 113.734:155548 177.8S23L526 75*0756635

0-6.06Y480 -T,12270-9.96933125.76SS70-6.331290-12.S6260-6.85893021.758S9539122.09589361.7852352650-9.49£9521136.72138560-5.533S3340.4=417219730-3.9693335(111247862125,7658735厲112178520-9.23313340.i4:1721973125.03067332.7709653270-3.705523021.758695390-7.9141124113.73415550-6.3312947152.16155340-12.398S53336.18S0993139.018422150.392G1220-b.8036S36L78S235266126.503072932.087938740-7.65031332.77096532?0-3.7055245106,82004510-11.9712169519979£0,26380443570.81从不在万程的变量中 «---、>—r—验证~!!!!

Z.tJItt

««为7.46，刚好跟计算结果吻合！！答案得到块仁方法=向前步进〔似然比〕咔有df咔有dfSig.1歩骤快7405274.052740522歩骤典44侍畦110.595119.5953歩4寿1.0001.0001.0001.0002.0002.000骤 43.S13 1快1S9.4143.000158.4143.000骡 3G77 1 .002焕179.0914.000模型178.0914.000CoxCox&SnellRNel男『畑R步琥-2射数似S値1490.252^.141JOS2d45709^.315.JI53.201.4254306213^.305.446S1001，所以佑计在迭代农数4处捋止=Qg知纳古计的更改范圉小于.001，所以估量在送Hl,k-rnrn.fiiM-q丄卄｝■+1:1”中可以看出：承受的是：向前步进的方法，在看出：全部的SIG模型系数的综合检验”表中可以卡方几乎都为“0”而且随着模型的渐渐步进，越来越显著，在第4值越来越大，说明模型依据设定的显著性值和自由度，可以算出卡方临界值，公式为：=CHIINV〔显著性值,自由度〕，放入excel就可以得到结果2:在模型汇总中可以看出：Cox&SnellRNagelkerkeR方拟合效果都不太抱负,最终抱负模型也才：0.3050.446，最大似然平方的对数值都比较大，明显是显著的IIH;

M/Wh 〕寸似然数对数计算公式为:计算过程太费时间了，我就不举例说明Cox&SnellR方的计算值是依据：

计算过程了1:先拟合不包含待检验因素的 Logistic模型，求对数似然函数值 INL0 〔指只包含常数项”的检验〕2:再拟合包含待检验因素的的检验〕

Logistic模型，求的对数似然函数值

〔包含自变量再依据公式: 即可算出：Cox&SnellR 方的值!歩骤卡芳OfSig.127.567歩骤卡芳OfSig.127.5670.47?5.341S.72133.312”8”.013411.Q1S8.155昙否曾绘违妁二否是否曾经违的二昙已观测期望値昙否曾绘违妁二否是否曾经违的二昙已观测期望値己观测期望値14444.38854612总计43Taa333335.142315”901516128531S.4104&492g14543.34445.B5E4934141.407T6.51340+374C.520117.4004&54540.2014S.79949S39S7.60I7910.393482427.3172531.7S349101917.50633344945214347.54111453斗24546.04432.gse4934454244.25842.4944747J2e50S494353340.385119.ei549应3537.355U111J5487J334.930111417043a躬30.562U1”S”.43S4992123.5642835.43e48101312.4.6S36355354&1gdPR1dnactHosmerLemeshow检验和随机性表”结合一起来分析1从HosmerLemeshow检验表中，可以看出：经过为：11.919，而临界值为：CHINV〔0.05,8〕=15.507

4次迭代后，最终的卡方统计量卡方统计量<SIG角度来看：0.155>0.05,说明模型能够很好的拟合整体，不存在显著的差异。2HosmerLemeshow检验随即表中可以看出：不存在很大差异，说明模型拟合效果比较抱负，印证了结果而“HosmerLemeshow检验“表中的卡方“统计量，是通过“HosmerLemeshow检

”观测值和”期望值几乎是接近的，“Hosmer和Lemeshow检验“中的验随即表”中的数据得到的〔即通过观测值和”推测值〕得到的，计算公式如下所示：x2〔卡方统计量〕

=刀〔观测值频率-推测值频率〕2/推测值的频率举例说明一下计算过程：以计算 “步骤1的卡方统计量为例”1:将“Hosmer和Lemeshow1”的数据，复制到excel中，得到如下所示结果：C2L ▼ Ji=SUNCCl:C2Ci)A B C D E4444.3S50.0033354444.3S50.0033354543.3440.0632494141>1870.0057L4n40.5加0.3057254540.2010.5728741I59 37.507

0.05160S- t 331 243 191 523i 115 □

55.142Q.13051?32.5900.0051S627.2170.3301??17.5050.12756645E更0.45E更0.49472475.51?0.0363%7.颂1.6560923.79?2.6L7354LQ掖0.1367411 1615.4101615.4100.01025825£1.7E50.475004330064739T.5eGbS593

L2.35S

0.35671从“Hosmer禾口答案得到验证！！

1的卡方统计量为：7.567excel计算得到，结果Lemeshow检验”表中可以看出，为7.566569 ~~7.567〔四舍五入〕，结果是全都的，分类丢°7455426391527S总计百分上匕73.076.E3是否曹迢酣否3332752.51421590.4是总计百分上匕2465504C1.4332138.S77.34殖否曾经违妁否337?3S3.&14116098是5671550342037.C总计百分上匕£3.47G.3已推测选走秦例d是否曾经违覧]耒选定的案例皿是百曾经违约1已观则是書曾经违均書否340是百分比校正已推测选走秦例d是否曾经违覧]耒选定的案例皿是百曾经违约1已观则是書曾经违均書否340是百分比校正否150是2054.47百舟■比校正95.5是9534总计百分上匕26.47S54212323ze.e2是否曾经违约否33525S3.114?1093.6「由于g变量中有缺矢値，或分类妾量中的値超出选定累例的范圉•所以未时某些未施的案例进展分类•5001•从分类表”一步骤1”中可以看出：选定的案例中，是否曾今违约”总计：489个，其360360340个推测成功，20340/360=94.4%其中违约”的有189个，也对189个违约”的客户进展了推测，有95个推测失败， 34个推测成功，推测成功率： 34/129=26.4%总计推测成功率：〔340+34〕/489=76.5%步骤1的总体推测成功率为：76.5%，在步骤4终止后，总体推测成功率为： 83.4，预测准确率渐渐提升76.5%—79.8%—81.4%—83.483.4的推测准确率，不能够算太高，只能够说还行。模酿議模酿議性菱量1超^率3工龄负债率在-2夏改df夏改的显著性-28215274052-245.12S446431■1.000.000-260.99570.2021.0003工龄负债率4工龄地址罚债率-242.99&-205.SG490.10215.G77-222855498193de□3.336-137.94556771.0051.OOQ1.0001.0001000-200.672151301.000信用卡负渍-221.194561M1.000；B；BS.E.1日员债率竜量.129.016Wais61777119Q4SdfSig.Exp<B)1.133-2.5D02b工龄-.13134.850.0020?7.140022.oie01Q?41.150常量-.7BS.3046.3?51.0134651.0001.0001.0001.000■^量-1695.35C41.0511.000.1043C:-252033577441.0007?7.003,0211572&1.0001,0S5信用卡毎俵544.09C31.09Q1.0001723窜量-1101.3751”&.5051.000.3074“工龄地址-.249-0B9034.0235斗.叭3.02Z11.000.003700.933081021U.8931.0001085信用卡罚债594.103336501.000rail1中输入的妾量:负俵率.h在2中输入的变量S1C.S3中输入的变量:信用卡员债.小在4中输入的变量:她址.从假设移去项则建模”表中可以看出：在-2对数似然中的更改”中的数值是不是很眼熟？？？，跟在模型系数总和检验”表中卡方统计量“量的值是一样的！！！将假设移去项则建模”和方程中的变量”两个表结合一起来看1:在方程中的变量”表中可以看出：在步骤1中输入的变量为负债率”，在”假设移去项则建模表中可以看出，当移去负债率”这个变量时，引起了74.052的数值更改，此时模型中只剩下常数项”282.152为常数项的对数似然值2I起了44.5432中，移去工龄”这个自变量后，还剩下值变成了：-245.126，此时我们可以通过公式算出下：

负债率”和常量”此时对数似然负债率”的似然比统计量：计算过程如似然比统计量=2(-245.126+282.152)=74.052 答案得到验证！！！2:在假设移去项则建模”表中可以看出：不管移去那一个自变量，更改的显著性”都格外小，几乎都小于0.05，所以这些自变量系数跟模型显著相关，不能够剔去！！3:依据“方程中的变量这个表，我们可以得出 logistic回归模型表达式：1/1+eA-(a+E3I*Xi)我们假设ZP(丫)1/1+eA(-Z)将”方程中的变量下所示：P(Y)=1/1+eA-43014301513.0121.914总

那么可以得到简洁表达式:((涉骤4中的参数代入模型表达式中，可以得到 logistic回归模型如(-0.766+0.594*信用卡负债率 +0.081*负债率-0.069*地址-0.249*功册2 1270? S ,1224娈蚤年豔2.0311.155敎盲12334.373載言⑴3471.550.0501.913敎盲⑶.7721380^W(4).1301712收入.0051.945其他赁债.1311713总绣计量3B137.323从”不在方程中的变量表中可以看出：年龄，教育，收入，其它负债，都没有纳入模型中,其中：sig0.05，所以说明这些自变量跟模型显著不相关。Stepnumber;4Qhs^rwdrsLipqandPr^didMFrohariliTiAsSO十FR 60+EQU aE40+0ri[|0Cy ilOPOO207000fOOOCOliODQctiolO01011oca□1LOIfODOCOOOOODCOOOOODOOOOCOOOWOO1ICG1100OOCO11111111111IllPrcb.0A.2 .3 .4 .5 € .7.S3 1Crouzj；oooxoooocioccoooDoocoooooocoooooC”Qooooocoooooxoooiiini:uLiiii].LiiiuLiiiuiiiiini:：Pr«dktedProfcatilicyisofMfirTib(rshipfor是Th*uiValuais.50Syrrit“Oh3-否1-是EathSymbolRepresents5Gases,在”观看到的组和推测概率图”中可以看出：1:theCutValueis0.5,此处以0.5为切割值，推测概率大于 0.5，表示客户违约“的概率比较大，小于0.5表示客户违约”概率比较小。2:从上图中可以看出：推测分布的数值根本分布在局部都是“1”.大200.5的切割值中，大局部都是“0”大局部都是未违约〕推测也很准约客户〕推测概率比较准，而未违约”的客户，〔500多个客户,在运行完毕后，会自动生成多个自变量，如下所示:111?4304619^401.DD.7316E0的躬sijoe23£15531DOD7.=-1721S713281923059100?1£2600119■別77?bl1/92&8ITOS1DO0*4710105^1133&1DO.0165SDOODi -17M7Q118T0&57000771£086619901QO”DO.012BE.0W5OOCKjgD33352120517502joeoiI.OOi.IKKD3S4?1E093112比C905&甬1.D0.11066.1171ED畑.00256-.5C4250016^108171DO.QCMMDO的-Daaos00”20111262DO.0^52DK”OOpNdddfl1LpNdddfl1L115330pfodds2 ,4125gpriMldufS213044359014102li曲厲1PREJ1COO11SRE11DO1DO1DO.waDT92e.1K3?OlOBf.02524.76945D0Z31DK02Sls30-551”D4-14704f呢781690102771S12J3690100I.OOlDK”IODOST?22554^134a便1C?1耳1331610H0905&l.ooiJ56&3D059”l9-13&i360-9d306r?IJr 2欝眄 2190? 13631 1oo 2T3聖皿彌 0问 22690 1oo 01033D0272DOOOJ-?3223-144J11 3E-U3 31砂 40io+ 1DO ■3的oe D0352 -3E?E1或13p 00140 她& 1?793 1QO Dcm -055211C415J?”o&iaz1tiC4J7■±A 0C305If 2^393 2JG0J 22890 1001 .2970d DOI9? E1:从上图中可以看出，已经对客户是否违约”做出了推测，上面用颜色标记的局部 -PRE_1表示推测概率，Logistic回归模型计算出来，计算过程不演示了推测概率〔PRE_1〕进展上面的推测概率，可以通过前面的COOK—COOK值跟模型拟合度有肯定的关联，发生奇异值,2:COOK_1SRE_1的值可以跟会影响分析结果。假设有太多奇异值，应当单独进展深入争论!SRE_1对推测概率的影响程度，由于PSS10.0Logistic回归分析〔2009-02-0515:32:54〕转载 ▼所谓Logistic模型，或者说Logistic回归模型，就是人们想为两分类的应变量作一个回归方程出来，可概率的取值在0~1之间，回归方程的应变量取值可是在实数集中，直接做会消灭0~1范围之外的不行能结果，因此就有人耍小聪明，将率做了一个 Logit变换，这样取值区间就变成了整个实数集，作出来的结果就不会有问题了，从而该方法就被叫做了 Logistic回归随着模型的进展，Logistic家族也变得人丁兴盛起来，除了最早的两分类外，还有配对Logistic模型，多分类Logistic模型、随机效应的 Logistic模型等。由于SPSS的力量10.3.1界面详解与实例所限，对话框只能完成其中的两分类和多分类模型，两分类模 F10.3.1界面详解与实例型。11.1某争论人员在探讨肾细胞癌转移的有关临床病理因素争论中，收集了一批行根治性肾切除术患者的肾癌标本资料，26logistic回归分析〔本例i：标本序号k1：确诊时患者的年龄〔i：标本序号k1：确诊时患者的年龄〔岁〕k2:肾细胞癌血管内皮生长因子〔VEGF〕，其阳性表述由低到高共3个等级k3:肾细胞癌组织内微血管数〔MVC〕k4:肾癌细胞核组织学分级，由低到高共4级5:肾细胞癌分期，由低到高共4期:肾细胞癌转移状况〔y=1;y=0〕。ix1x2x3x4x5、190214583128431

现从中159243.421236157.2113612555380341661194.42173817611842124032950174111058368.62211683132.8421225294.6431352156111431147.8211536331.631Dependent;OKDependent;OKPE26603149.843在菜单上选择Analyze==》Regression==》BinaryLogistic...，系统弹出Logistic回归对话框如下:”LogisticRegressionReset<1^x5Preyious^Reset<1^x5Preyious^|BIgk11Wext|Covariales：CancelL±Jtj彳Help二Methad;|1EnterJSelect»1642166.221Catem)iicaL„gave—Qplions...“://bioan.coni/“bioan.coni18321114231935140.22120703177.2432165251.644224521242423683127.23324312124.8232558112843左侧是候选变量框，右上角是应变量框，选入二分类的应变量，下方的选入自变量的，只不过这里按国外的习惯被称为了协变量。

Covariates框是用于两框中间的是BLOCK系列按扭,话框不太一样〔我也不知道为什么SPSS偏在这里做得不同〕，下方的Method话框不太一样〔我也不知道为什么SPSS偏在这里做得不同〕，下方的Method列表框用于选择变量进入方法，有进入法、前进法和后退法三大类，三类之下又有细分。最下面的四个按钮比较重要，请大家听我渐渐道来:要将它用哑变量的方式来分析，那么就要用该按钮将该变量指定为分类变量，假设有必要，可用里面的选择按钮进展具体的定义，如以哪个取值作为根底水平，各水平间PMselect>>钮：用于限定一个筛选条件，只有满足该条件的记录才会被纳入分析，单击它后对话框会开放让你Selec对话框的功能重复了。ateqorical 钮：假设你的自变量是多分类的〔如血型等〕你必需比较的方法是什么等。固然，假设你弄不明白，不改也可以，默认的是以最大取值为根底水平，用Devianee做比较。比较的方法是什么等。固然，假设你弄不明白，不改也可以，默认的是以最大取值为根底水平，用Devianee做比较。LogisticRegression:DefineategoricalVari-abliesContinueCancelHeI-ChangeContrast CoMraijtJIndicator寸ReferenceCategory；LastCHirsiwiKrtlBfOTuramoSave钮：将中间结果存储起来供以后分析，共有推测值、影响强度因子和残差三大类。ooSave钮：将中间结果存储起来供以后分析，共有推测值、影响强度因子和残差三大类。义，还可以选择模型推测状况的描述方式，如StatisticsandPlots中的Classificationplots就是格外重要的模型推测工具，Correlationsofestimates则是重要的模型诊断工具,terationhistory可以看到迭代的具体状况，从而得知你的模型是否在迭代时存在病态，F方则可以确定进入和排解的概率标准，这在逐步回归中是格外有用的。LogisticLogisticRegression;Options-StatisticsandPlots厂：l-StatisticsandPlots厂：l■■■■■■!■at■ZC■■■■■■■“■■■■■■■■■■■■Mill■■■■■■■■H.■■■■■!■■Correlaticnsofestimeitesr~Hosmer-Lemestiowgondness-of-fit厂Casewis?lierationhistoryCliorexp[Q):[35listingofresiduals厂倒1casesDisplayf*AteachsteppProbabilrtyforStepwiseEntry：L05 Removal:.10

AtlaststepClassificatioricutoff：.5MaximurnIterations;|20RIncludeconstantinmodel

WWWbiaon.eam子，依据我们的目的，应变量为丫X1~X5为自变量，具体的分析操作如下:Analyze==》Regression==》Bi子，依据我们的目的，应变量为丫X1~X5为自变量，具体的分析操作如下:Dependent框：选入飞Covariates框：选入x1~x5OK10.3.2结果解释LogisticRegressioPl4cessin<|Siimni4kiyUrwv«旳htftd ForgftntInAnalysis20100.0WishingInAnalysis20100.0WishingCa寺咨Tn囱0.020O100.0JO2010QJ0罪匚To讪fl.flMelgiiliiiciKits(ecB5tlflLj(loilie2626条记录均纳入了分析。DependentVariableEncoding□liginalValugInttrr^alValLa.00□1.00wvrw.bioon.cqrn上表为应变量分类状况列表，没什么好解释的。BlockOiBeginningBlocChissiflcjrtioRTable■”山Predicted1BlockOiBeginningBlocChissiflcjrtioRTable■”山Predicted100PtrcfFiLjgeCorrectstep0Y.□01.0017P0□100.0.0Ov^raJIPei;«ntdg4axoiitiilltikclKlsdIIthII心軌ILT胞tjooe®叫www^bioan.eom此处已经开头了拟合，Block0拟合的是只有常数的无效模型，上表为分类推测表，可见在170170,910,总推测准确率为65.4%，这是不纳入任何解释变量时的推测准确率，相当于比较基线。Sig*Sig*EKP<B)Sp0Cor^tJM*.636.41223601WWffi^DIOOn.CSfQ上表为^locko时的变量系数，可见常数的系数值^^^0.636。MMn<AintheEqu^ionSc*redfstep0VaiiablM上表为^locko时的变量系数，可见常数的系数值^^^0.636。MMn<AintheEqu^ionSc*redfstep0VaiiablMA1.2591s旳，.31113,1701.□OOX3.25512312.089.□01X5816211.004Ov<rj(lStatistics17.737www^ioon.c^OS程的转变是有显著意义的，也是如此，由于StepwiseP4和X5变量X2，然后再重计算该表，再做选择。Block1:Method=ForwardStepwise(ConditionalOmnibusT“t春MM-odelCoeffkiein^ChiY刈LIa df

Sig. 1step1

吕tup 性15.333

■1 .oocBlaeh

is.sae

-1 .000Model 15.S33 ■1 .oocSp

6.170 d 013Blo曲 21.713 2 .OOCwwwsbioon.ct^OS|Miodd 21.71&此处开头了Block1的拟合，依据我们的设定，承受的方法为Forward〔我们只设定了一个Block，所以后面不会再有Block2了〕。上表为全局检验，对每一步都作了Model的检验，可见6个检验都是有意义的。hdISummar/

step、Block和CPMfl$nell 自机也sRStep ■2Lagllhelitood RSquan^ Square1 lS.fiD+ .4Ca .02111舶卩 wmbiaon.cftvi2此处为模型概况汇总，可见从STEP1STEP2，DEVINCE1811，两种打算系数也都有上升。ChissifIcdtioRTihlfr^Predicted沖4V

Y.00 100d5 2

CorrectS◎卫O>feraJIPerc^ntage

100

7 770S46S柚p2Y .00 16 1

04.11JOO

9 1000□V4fAIIParc«nUafr as.2TiecituiliFtJ500此处为每一步的推测状况汇总，可见准确率由Block0的65%上升到了84%，最终到达96%，效果不错，最终只消灭了一例错判。VariablesintheEquation卩X22.563 .eie 75291.00512.973Corstdnt■e.25e7.^e1.ooe.002Step*X22.4151.1964.072■1.044H.171X42.096i.oee3.7131.05481365E.WjiddfSig.E5E.WjiddfSig.E叩何Step匚orsfjnt-■12.3285.43051541.023□00rtp：;-1.Mod由ifrtp：;-1.Mod由ifTwrnRanr^ovad耳L■Step1step2ModalLikelihood^17.739Chan^4m-2LogLih^li”kcod17475dfX21Sig.oftheCharge000X2-■la.sos□.77S斗.M2-1Q.2138.601r ，亠_gi…i亠’1www^rtiiDoriiCum.□03上表为假设将这些变量单独移出方程,则方程的转变有无统计学意义，可见都是有统计学意义的，因此他们应当保存在方程中。\JMublefinottntheEqihitioriSCOredfSig.Overall1Statisticss.oe?WWW由idcin.uq牆

“://bioon.corn/“bioon.cornSt1VariableJ<1.see1X3.isa1.504e1S91.013炖3期1□55OverallStatistics85704.004St2Variables11.237阳72C1.304XS1se21.197上表为方程中变量检验状况列表，分别给出了Step1和Step2的拟合状况。留意X4的P都无关了。10.3.3模型的进一步优化与简洁诊断略大于0.05,但仍旧是可以承受的，由于这里用到的是排解标准〔默认为都无关了。10.3.3模型的进一步优化与简洁诊断以留在方程中。以SteP2X2为例，可见其系数为~2.413，OR11。最终这个表格说明的是在每一步中，尚未进入方程的变量假设再进入现有方程，则方程的改变有无统计学意义。可见在Step1时，X4还应当引入，而在Step2时，其它变量是否引入模型的进一步优化前面我们将X1~X5直接引入了方程，实际上，其中X2、X4、X5这三个自变量为多分类变量，我们并无证据认为它们之间个各等级的 OR值是成倍上升的,~严格来说，这里应当承受哑变量来分析，即需要用缘由是这里总例数只有Categorical钮将他们疋义为分类变量。但本次分析不能这样做，]26哑变量来分析，即需要用缘由是这里总例数只有Categorical钮将他们疋义为分类变量。但本次分析不能这样做，]26例，假设引入哑变量模型会使得每个等级的记录数格外少，从而LoqisticRegression:Defme匚ategoricalVari-ables 2dCovariates； CategoricalCovariales:

ContinueCancelHelpr”ChangeContrastCortrast： Indic^itor

二|ChangeRefererteCategory：LastrFirsi默认状况下定义分类变量格外简洁, 做到如上图所示就可以了, 此时分析结果中的转变如下:Vpitiable3CoclirysFrequency

PjramHeicodingaX5 1.00 11 1.000 .000 .0002.00 3 .000 ■1.000 .00a3.00

.000

a4.00 3 .□co JOOO .□ooX4

4 1,000

.□oa2.00 1C .□CO woo .QQQ：3.00 5 .000 .000 1.00a4.00 7 .□co JOOO .□oaX2 1.00 11 1.000 .0002.0Q e ma 1JO003.00 G .MO ww^bioonxom上表为自变量中多分类变量的哑变量取值状况代码表。

左侧为原变量名及取值, 右侧为相应的哑变量名及编码状况：以 X5为例，表中可见X5=4时，即取值最高的状况被作为了基线水平，这是多分类变量生成哑变量的默认状况。

X5(1)X5=1的状况(X51时110)，X5(2)代表的是X5=2的状况，依此类推。同时留意到很多等级值有几个记录，明显后面的分析结果不会太好。I相应的，分析结果中也以哑变量在进展分析，如下所示:栅〕.4701.306.1131.7361.600Corstjnt.91063711991.2732500inth#E(|ihvtionBSE.Wjid dl142 3Sig..oaeExp(B)step4X40)-IZ.11”9”13e.412inth#E(|ihvtionBSE.Wjid dl142 3Sig..oaeExp(B)step4X40)-IZ.11”9”13e.412.00©1S2e.000风蛇〕-■12.119es.e^ie.0201”EST□00S1«p2口X2mo2.035赵⑴-22.332£ee.缩e.0071.S33□00X2(2)dO.II?102.744.009105624795520X斗.01131.0QOX4(1)S.030444.04.MO1see3072.647陀〕-23.014265,303,0031.631,□00X4f3)10.605170.250DM1S534283S31SCqn&nt1.Q9Q1.1K，郭=51.3413,000上表消灭了格外好玩的现象：全部的检验P0.05，但是全部的变量均没有被上表消灭了格外好玩的现象：全部的检验P0.05，但是全部的变量均没有被移出方程，这是怎么回事？再看看下面的这个表格吧。ModalifTam耳VariableModal1_翎LikelihoodCh«n^4m-2LogLikelihooddfSig.ofiliaCharg#X4■Q642J2.7B63孔(t^tdeiGcidlboialPhaleneti史4nii施舌。阳區Um这个表格为方程的似然值转变状况的检验，可见在最终Step2生成的方程中，无论移出XX4都会引起方程的显著性转变。也就是说，似然比检验的结果和上面的果冲突，以谁为准？此处应以似然比检验为准，由于它是全局性的检验，且Walds检验纟结Walds检验本］身就不太准，这一点大家记住就行了，实在要弄明白请去查阅相关文献。请留意：上面的哑变量均是以最高水平为基线水平，这不符合我们的目的，我们期望将最

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

整理多项分类Logistic回归分析的功能与意义

文档简介

温馨提示

最新文档

评论

整理多项分类Logistic回归分析的功能与意义

文档简介

温馨提示

最新文档

评论

相关文档