




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
利用SPSS进行Logistic归分析第8章利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。Logistic回归分为二值logistic回归和多值logistic回归两类。首先用实例讲述二值logistic回归,然后进一步说明多值logistic回归。在阅读这部分内容之前,最好先看看有关SPSS软件操作技术的教科书。§8.1二值logistic回归8.1.1数据准备和选项设置我们研究2005年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。第一步:整理原始数据。这些数据不妨录入Excel中。数据整理内容包括两个方面:一是对各地区按照三大地带的分类结果赋值,用0、1表示,二是将城镇人口比重转换逻辑值,变量名称为“城市化”。以各地区2005年城镇人口比重的平均值45.41%为临界值,凡是城镇人口比重大于等于45.41%的地区,逻辑值用Yes表示,否则用N。表示(图8-1-1)。图8-1-1原始数据(Excel中,局部)将数据拷贝或者导入SPSS的数据窗口(DataView)中(图8-1-2)。图8-1-2中国31个地区的数据(SPSS中,局部)第二步:打开〃聚类分析〃对话框。沿着主菜单的“Analyze—Regression—BinaryLogisticK"的路径(图8-1-3)打开二值Logistic回归分析选项框(图8-1-4)。图8-1-3打开二值Logistic回归分析对话框的路径对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用两个变量作为自变量:一是数值变量人均GDP,二是分类变量中部地带。图8-1-4Logistic回归分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入Dependent(因变量)和Covariates(协变量)列表框中(图8-1-5)。在本例中,将名义变量“城市化”调入Dependent(因变量)列表框,将“人均GDP”和“中部"调入Covariates(协变量)列表框中。在Method(方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法(Enter)。图8-1-5Logistic回归分析的初步设置接下来进行如下4项设置:设置Categorical(分类)选项:定义分类变量(图8-1-6)。将中部调入CategoricalCovariates(分类协变量)列表框,其余选项取默认值即可。完成后,点击Continue继续。图8-1-6定义分类变量选项设置Save(保存)选项:决定保存到DataView的计算结果(图8-1-7)。选中Leveragevalues、DfBeta(s)、Standardized和Deviance四项。完成后,点击Continue继续。图8-1-7Logistic回归分析的存储选项设置Options:有三个选项区(图8-1-5)。第一^个是StatisticsandPlots(统计和画图)选项,包括六种可以兼容的选择(复选项)。选中Classificationplots、Hosmer-Lemeshowgoodness-of-fit和CIforexp(B)三个选项。第二个是Display(显示)选项,选择Atlaststep(最后一步),这样,输出结果将仅仅给出最终结果,而省略每一步的计算过程。由于我们采用强迫回归,ProbabilityforStepwise(逐步回归概率)选项可以不管。图8-1-9样品处理摘要DependentVariableEncoding(因变量编码)。这是很重要的信息,告诉我们对不同城市化水平地区的分类编码结果(图8-110)。我们开始根据全国各地区的平均结果45.41分为两类:大于等于45.41的地区用Yes表示,否则用No表示。现在,图8-1-10显示,Yes用0表示,No用1表示。也就是说,在这次SPSS分析过程中,0代表城市化水平高于平均值的状态,1代表城市化水平低于平均值的状态。记住这个分类。图8-1-10因变量编码CategoricalVariablesCodings(分类变量编码)。我们的自变量中涉及到代表不同地域类型的名义变量(图8-1-11)。在我们开始的分类中,属于中部用1表示,否则用0表示。但是,SPSS改变了这种编码,原来的0改用1表示,原来的1改用0表示。也就是说,在这次SPSS分析过程中,0代表属于中部的地区,1代表不属于中部的地区。记住这个分类对后面开展预测分析非常重要。图8-1-11分类变量编码ClassificationTable(初始分类表)。Logistic建模如同其他很多种建模方式一样,首先对模型参数赋予初始值,然后借助迭代计算寻找最佳值。以误差最小为原则,或者以最大似然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的参数值。下面是用初始值给出的预测和分类结果(图8-1-12)。这个结果主要用于对比,比较模型参数收敛前后的效果。图8-1-12初始预测分类表VariableintheEquation(初始方程中的变量)。从这个表中可以看到系统对模型的最初赋值方式(图8-1-13)。最开始仅仅对常数项赋值,结果为B=0.598(复制到Excel可以看来,更精确的数值为0.597837),标准误差为S.E.=0.375(复制^"Excel可以看来,更精确的数值为0.375379),于是Wald值为B??0.597837?Wald=??=??=2.536.SE..0.375379后面的df为自由度,即df=1;Sig.为P值,Sig.=0.111。注意Sig.值越彳氐越好,一般要求小于0.05。当然,对于Sig.值,我们关注的是最终模型的显示结果。Exp(E)是B还原之后数值,显然22Exp(B)=eB=e0.597837=1.818.在Excel里,利用指数函数exp很容易对B值进行还原。图8-1-13初始方程中的变量6.VariablenotintheEquation(不在初始方程中的变量)。人均GDP和代表地理位置的中部地带的系数初始值设为0,这相当于,在初始模型中不考虑这两个变量(图8-1-14)。表中给出了Score检验值及其对应的自由度df和P值,即Sig.值。Score检验是一种初始检验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score检验值的计算公式为[Scorej二Ix(yii=1nni]2.i1?I(xi=1因变量为0、1值,根据图8-1-10所示的编码原则,令所有的Yes为0,所有的No为1,容易算出(1?)=0.645161(1?0.645161)=0.228928.人均GDP已知,中部的编码法则已知,于是不难算出2(GDP?GDP)°ii=131312二3595636978.103,'仲部i=131i中部)2=6.387097,[、GDP(yii=1i)]2=12747397078.835,['中部(yii=131i]2=0.037461.将上面的结果代入Score检验值计算公式,立即得到ScoreGDP=15.486,Score中部=0.026.可以看到,人均GDP的Score检验值满足一般的要求,而中部地带这个变量的数值偏低。图8-1-14不在初始方程中的变量7.OmnibusTestsofModelCoefficients(模型系数的混合检验)。主要是针对步骤、模块和模型开展模型系数的综合性检验(图8-1-15)。表中给出卡方值及其相应的自由度、P值即Sig.值。取显著性水平0.05,考虑到自由度数目df=2,在Excel中的任意单元格输入公式〃二CHIINV(0.05,2)”,回车,就可以查出卡方临界值5.991。我们计算的卡方值31.187,大于临界值,并且相应的Sig.值小于0.05,因此在显著性水平为0.05的情况下,这些检验都不成问题。图8-1-15模型系数的综合检验图8-1-15分类数目统计8.ModelSummary(模型摘要)。模型摘要中给出最大似然平方的对数、Cox-Snell拟合优度以及Nagelkerke拟合优度值(图8-1-16a)。最大似然平方的对数值(-2loglikelihood=9.137)用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界值5.991,因此,最大似然对数值检验通过。a以人均GDP和中部为自变量的回归模型摘要b以常数项(数值为1)为自变量的回归模型摘要图8-1-16数据窗口的输出结果为了便于理解,有必要解释一下Cox-Snell拟合优度以及Nagelkerke拟合优度值与最大似然平方对数值的关系。为此,我们需要开展一次特殊的logistic回归。在图8-1-5所示的选项中,从协变量(covariates)列表框中剔除人均GDP和中部两个选项,选中并引入常数项——对应于常系数、所有数值均为1的变量(参加图8-1-1)。以常数项为唯一的自变量,其他选项不变,开展logistic回归,结果将会给出特别的模型摘要(图8-1-16b),其-2loglikelihood=40.324为未引入任何真正自变量的最大似然对数平方值。然后,我们采用下式计算Cox-Snell拟合优度2RCS=1?.S.OH司寸将。寸I告CNm尊cn9onN角着ou£(o)x0角u①o)_lu_CNSU角xeE角su角N角7R宿。M右-si亏us—xouHh洲耍-®真WMOW云M*eNHh烟CNm等cn9.0sigiwwon1%(寸保.。寸;咨.6Isu~CN汩M唳如.(DUCNO)X岗sxICDus)_luk§_l因此,校正后的模型拟合优度可以视为0.872。HosmerandLemeshowTes(Hosmer和Lemeshow检验)。似然比函数的自然对数值对样品数目很敏感,作为补充和参照,我们需要Hosmer-Lemeshow检验(图8-1-17)。该检验依然以卡方分布为标准,但检验的方向与常规检验不同:我们要求其卡方值低于临界值而不是高于临界值。取显著性水平0.05,考虑到自由度数目df=8,在Excel中的任意单元格输入函数〃二CHIINV(0.05,8)”,回车,理解得到卡方临界值15.507。作为Hosmer-Lemeshow检验的卡方值4.730<15.507,检验通过。后面的Sig.值0.786大于0.05,据此也可以判知Hosmer-Lemeshow检验可以通过。图8-1-17Hosmer-Lemeshow检验ContingencyTableforHosmerandLemeshowTes(对应于Hosmer-Lemeshow检验的列联表)。因变量有两类数值,即0和1。在正常情况下,我们要求观测值(observed)与期望值(expected)逐渐趋于接近(图8-1-18)。我们的计算结果表明,相应于〃城市化二Yes”,期望值逐渐减少到0,与观测值趋于接近;相应于〃城市化二No”,期望值逐渐增加到4,与观测值也趋于接近。这种结果是比较理想的,否则,模型的Hosmer-Lemeshow检验就不太理想,从而模型的整体拟合效果不是很好。图8-1-18对应于Hosmer-Lemeshow检验的列联表ClassificationTable(最终预测分类表)。经过迭代运算,模型参数逐渐收敛到稳定值,于是我们得到最终模型参数。利用最终的logistic模型,可以对因变量进行预测,预测结果分类列入下表(图8-1-19)。可以看出,观测值Yes有11个(Yes=0),相应的预测值全部是Yes=0,预测正确率为11/11*100%=100%;观测值No有20个(No=1),相应的预测值有19个No=1,-个Yes=0,也就是说,预测失败1例,预测正确率为19/(1+19)*100%=95%。总的预测正确率为11+1930预测正确率=*100%=*100%=96.8%.11+0+1+1931全部31个样品有30个预测正确,一个预测失败,模型效果良好。p(y)=得到1,?z1+e11+e?(16.364888+6.917073*中部-0.001251*人均GDP).1=1+0.00000007813e?16.364888*中部+0.001251*人均GDP有了上面的式子,就可以对因变量的发生概率进行预测。需要再次强调的是,对于名义变量中部,我们用1代表〃是”,0代表“非”,而SPSS改为0代表“是”,1代表“非”。对于因变量城市人口比重,我们用Yes代表1(城市化水平高于平均值),用No代表0(城市化水平低于平均值),而SPSS改为相反的表示。明确了SPSS的重新编码过程及其含义,就可以检验上述模型的预测效果。首先,在Excel中,将因变量中的名义变量转换为0、1数值。根据SPSS的编码原则(图8-1-10),所有的Yes表示为0,所有的No表示为1。一个快捷的处理方式是利用if函数。在与因变量并列的第二个单元格中,即H2中,输入函数“二IF(G2="Yes",0,1)”,回车立即得到0;将鼠标指向H2单元格的右下角,待其变成细小黑十字,双击或者下拉,得到全部转换结果(图8-1-21)。p(y)二图8-1-21用于预测的数据的整理与转换结果(部分)数据整理完成以后,将图8-1-20所示的表格从SPSS中复制到Excel中,放在将要开展预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物农药及微生物农药合作协议书
- 2025年新式茶饮项目合作计划书
- 2025年高级人力资源管理师考试题及答案
- 2025年城市规划师职业资格考试试题及答案
- 2025年甲基戊烯聚合物项目建议书
- 监狱纱窗施工方案
- 2025中级社会工作者职业资格笔试高频真题含答案
- 栏杆anzhuang施工方案
- 永城花园施工方案
- 工程合同签订程序及注意事项3篇
- 2024-2025学年人教版PEP四年级英语下册期末试卷(3)(含答案含听力原文无音频)
- 2025年乡村医生公共卫生服务考试题库:公共卫生服务传染病防控跨部门合作试题
- 2025广州房屋租赁合同标准版
- 2025年上海房屋租赁合同模板
- 2024年西医临床模拟训练计划试题及答案
- 初级会计师考试历年真题试题及答案
- 2024年美容师考试要关注的法规与行业标准指导试题及答案
- 2024年汽车维修工社会服务意识试题及答案
- 2025年河南三门峡黄河明珠(集团)有限公司招聘笔试参考题库附带答案详解
- 2025中考(会考)地理综合题答题模板+简答题归纳
- 昌乐县马宋水库防御洪水方案
评论
0/150
提交评论