利用 SPSS 进行Logistic 回归分析_第1页
利用 SPSS 进行Logistic 回归分析_第2页
利用 SPSS 进行Logistic 回归分析_第3页
利用 SPSS 进行Logistic 回归分析_第4页
利用 SPSS 进行Logistic 回归分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第8章 利用SPSS进行Logistic回归分析现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。如果我们采用多个因素对0 1表示的某种现象进行因果关系解释,就可能应用 到logistic回归。Logistic回归分为二值logistic回归和多值logistic回归两类。首先用实例 讲述二值logistic回归,然后进一步说明多值logistic回归。在阅读这部分内容之前,最好先看 看有关SPSS软件操作技术的教科书。 8.1 二 logistic 回归8.1.1数据准备和选项设置我们研究2005年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口

2、 比重表征,影响因素包括人均GDP、第二产业产值比重、第三产业产值比重以及地理位置。 地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。 我们用各地区的地带分类代表地理位置。第一步:整理原始数据。这些数据不妨录AExcel中。数据整理内容包括两个方面:一 是对各地区按照三大地带的分类结果赋值,用0、1表示,二是将城镇人口比重转换逻辑值, 变量名称为“城市化”。以各地区2005年城镇人口比重的平均值45.41%为临界值,凡是城 镇人口比重大于等于45.41%的地区,逻辑值用Yes表示,否则用No表示(图8-1-1)ABCDEFGHIJ地区常数项东部中部西部二产比重

3、三产比重人均GDP城镇人口比重城市化北京11000.2P0.2545443.6P83.62Yes天津11000.550.5135783.1975.11Yes河北11000.520.4614782.2637.69No山西10100.560.5112495.0042.11No内彖古10100.460.3816330.8247.20Yes辽宁11000.490.4413983.2058.70Yes吉林10100.440.3813348.0052.52Yes黑龙江10100.540.4914434.0653.10Yes上海11000.490.4551474.0089.09Yes图8-1-1原始数据(E

4、xcel中,局部)将数据拷贝或者导入SPSS的数据窗口(Data View)中(图8-1-2)。地区常数项 东部 中部 西部 二产比重三产比重人均GDP城镇人口比重城市代北京 天津 河北 山西 内蒙 辽宁45443.6935783.1914732.2612495.0016330.8218983.20林龙海吉黑上o u O.44,3S1334S.00.54.4914434.06.49.451474.0033.ID YesS9.09 Yes州南藏西肃海夏疆贵云西陕甘青宁新.41.42.42.41.25.50.43.49.46.45.33.34.36.34.07.42.35.38.38.371098

5、2.009060.005Q51.967S35.009114.009899.007476.5310044.7410239.0013108.0045.2033.0026.S729.5026.6537.2330.0239.2542.2837.15NoNdNoNoNoNoNoNoNoNo图8-1-2中国31个地区的数据(SPSS中,局部)第二步:打开“聚类分析”对话框。沿着主菜单的“AnalyzeRegressionBinary LogisticK ”的路径(图8-1-3)打开二值 Logistic回归分析选项框(图8-1-4)。图8-1-3打开二值Logistic回归分析对话框的路径对数据进行多次拟

6、合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显著。 至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和 中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用 两个变量作为自变量:一是数值变量人均GDP,二是分类变量中部地带。图8-1-4 Logistic回归分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入Dependent (因变量)和Covariates (协变量)列表框中(图8-1-5)。在本例中,将名义变 量“城市化”调ADependent (因变量)列表框,将“

7、人均GDP”和“中部”调ACovariates(协变量)列表框中。在Method (方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法(Enter )o图8-1-5 Logistic回归分析的初步设置接下来进行如下4项设置:1.设置Categorical (分类)选项:定义分类变量(图8-1-6)。将中部调入Categorical Covariates (分类协变量)列表框,其余选项取默认值即可。完 成后,点击Continue继续。图8-1-6定义分类变量选项2.设置Save (保存)选项:决定保存到Data View的计算结果(图8-1-7)。选中 Leverage values

8、、DfBeta(s)、Standardized 和Deviance 四项。完成后,点击Continue 继续。图8-1-7 Logistic回归分析的存储选项3.设置Options:有三个选项区(图8-1-5)。第一个是Statistics and Plots (统计和画图)选项,包括六种可以兼容的选择(复选项)。选中Classification plots、Hosmer-Lemeshow goodness-of-fit 和CI for exp(B)三个选项。第二个是Display (显示)选项,选择At last step (最后一步),这样,输出结果将仅仅 给出最终结果,而省略每一步的计算

9、过程。由于我们采用强迫回归,Probability for Stepwise (逐步回归概率)选项可以不管。图8-1-8 Logisti回归分析的选项设置此外还有一个选项需要说明。一是Classification cutoff (分类临界值),默认值为0.5, 即按四舍五入的原则将概率预测值化为0或者1。如果将数值改为0.6,则大于等于0.6的概 率值才表示为1,否则为0。其情况余依此类推。二是Maximum Iterations (最大迭代值), 规定系统运算的迭代次数,默认值为20次,为安全起见,我们将迭代次数增加到50。原因 是,有时迭代次数太少,计算结果不能真正收敛。三是Include

10、 constant in model(模型中包 括常数项),即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。 完成后,点击Continue继续。8.1.2结果解读全部选项设置完毕以后,点击如图8-1-5所示的OK按钮确定,即可得到Logistic回归 分析结果。输出结果可以分为三大部分,下面逐一说明。1. Case Processing Summary(样品处理摘要)。在输出结果中,首先给出样品处理摘要 报告,包括如下信息:选择了多少样品,没有选择的有多少样品;在选择的样品里,分析多 少样品,缺失了多少样品一一缺失样品一般是因为数据中存在缺失值;选择的样品总数以及 全体样品总

11、数(图8-1-9)o 用N表示各类样品数目,Percent表示各类样品的百分比。在正 常情况下,这些信息对我们的分析没有什么用处。但是,如果样本很大并且构成很复杂,涉及到样品的取舍或者数据缺失的时候,这些信息就很重要,会为后面的分析提供很大方便。Case Processing SummaryUr weqhted Cases3NPercentSele-clted CasesIncluded in Analysis31100.0Missing Cases0.0Total31100.0Urselected Ca&es0.0Total31wo.o3- If weight is in erfect, s

12、ee classification table far the totalnumber of ca&es.图8-1-9样品处理摘要2. Dependent Variable Encoding(因变量编码)。这是很重要的信息,告诉我们对不同城 市化水平地区的分类编码结果(图8-1-10)。我们开始根据全国各地区的平均结果45.41分 为两类:大于等于45.41的地区用Yes表示,否则用No表示。现在,图8-1-10显示,Yes 用0表示,No用1表示。也就是说,在这次SPSS分析过程中,0代表城市化水平高于平 均值的状态,1代表城市化水平低于平均值的状态。记住这个分类。Dependeni Var

13、iable EncodingOriginal ValueInternal ValueYes0No1图8-1-10因变量编码3. Categorical Variables Codings (分类变量编码)。我们的自变量中涉及到代表不同地 域类型的名义变量(图8-1-11)。在我们开始的分类中,属于中部用1表示,否则用0表示。 但是,SPSS改变了这种编码,原来的0改用1表示,原来的1改用0表示。也就是说,在 这次SPSS分析过程中,0代表属于中部的地区,1代表不属于中部的地区。记住这个分类 对后面开展预测分析非常重要。Categorical Variables Codin-gsFrequenc

14、yPara mete中部 02219.000图SI 11分类变最编码4. Classification Table (初始分类表)。Logistic建模如同其他很多种建模方式一样,首先 对模型参数赋予初始值,然后借助迭代计算寻找最佳值。以误差最小为原则,或者以最大似 然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的 参数值。下面是用初始值给出的预测和分类结果(图8-1-12)。这个结果主要用于对比,比 较模型参数收敛前后的效果。Classification Tabll,bObservedPredicted城T亍化Percentage CorrectYe-sNoS

15、tep。城巾化丫女NoOverall Percentage0D1120.0100.064.5a C-onslant is included in the model, b. TTie cut value is .500图8-1-12初始预测分类表5.Variable in the Equation (初始方程中的变量)。从这个表中可以看到系统对模型的最初 赋值方式(图8-1-13)。最开始仅仅对常数项赋值,结果为B=0.598 (复制到Excel可以看来, 更精确的数值为0.597837),标准误差为S.E.=0.375 (复制到Excel可以看来,更精确的数值 为0.375379),于是Wa

16、ld值为才(B V (。斗 审血2.536 .S.E. )0.37J379 )后面的df为自由度,即df=1; Sig.为P值,Sig.=0.111。注意Sig.值越低越好,一般要求小 于0.05。当然,对于Sig.值,我们关注的是最终模型的显示结果Exp(E)是B还原之后数值, 显然Exp(B) = &s =/翎陌 了 =lglg在Excel里,利用指数函数exp很容易对B值进行还原。in the EquationBS.E.WalddfSig.Exp(B)Step 0 Constant.598.3752.5361.1111.818图S-L-13初始方程中的变量6. Variable not

17、in the Equation (不在初始方程中的变量)。人均GDP和代表地理位置的 中部地带的系数初始值设为0,这相当于,在初始模型中不考虑这两个变量(图8-1-14)。 表中给出了Score检验值及其对应的自由度df和P值,即Sig.值。Score检验是一种初始检 验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score检验 值的计算公式为Score .亍(1 -如fi-:因变量为0、1值,根据图8-1-10所示的编码原则,令所有的Yes为0,所有的No为1,容 易算出y(1 - y) = 0.645161(1 - 0.645161) = 0.228928 .人均G

18、DP已知,中部的编码法则已知,于是不难算出31V (GZJP - GDP)- =3595636978 103,f-131工(中部L 两)=6点7097、11(光一可:=12747397078.835,j-111 中部5-肉F = 0 037461i-:将上面的结果代入Score检验值计算公式,立即得到= 15.4S6,假口骼向=0,026 .可以看到,人均GDP的Score检验值满足一般的要求,而中部地带这个变量的数值偏低。Variables not in the Equatiorl5 coredfSigStepVariabl &s人均 GDP0中部15.4&.02&11.00.873Resi

19、dual Chi-Squares are not computed because cf redundancies图8-1-14不在初始方程中的变最7. Omnibus Tests of Model Coefficients(模型系数的混合检验)。主要是针对步骤、模块和模型开展模型系数的综合性检验(图8-1-15)。表中给出卡方值及其相应的自由度、P 值即Sig.值。取显著性水平0.05,考虑到自由度数目df=2,在Excel中的任意单元格输入公 式“ =CHIINV(0.05,2)”,回车,就可以查出卡方临界值5.991。我们计算的卡方值31.187, 大于临界值,并且相应的Sig.值小于0

20、.05,因此在显著性水平为0.05的情况下,这些检验 都不成问题。Omnibus Tests of Model CoefficientsChi-squaredfSiq.St&p 1 Step31.1872.ooBlack31 1872.00。Model31 1872.ODD图模型系数的综合检验8. Model Summary (模型摘要)。模型摘要中给出最大似然平方的对数、Cox-Snell拟合 优度以及Nagelkerke拟合优度值(图8-1-16a)。最大似然平方的对数值(-2loglikelihood=9.137)用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界

21、值 5.991,因此,最大似然对数值检验通过。Model SummaryStep-2 Log likelihoodG(nc & Snell R SquareNagelkerXe R Square19.137a.634.872a Estimation terminated at iteration number W because parameter estimates charged by less than .001.a以人均GDP和中部为自变量的回归模型摘要Model SummaryStep-2 Log liKeStoodCox & Snell R SquareNagelkerke- R

22、Square140 324a.000ODDa Estinnatian terminated at iteration number 3 because parameter estimates thanged by less than .001.b以常数项(数值为1)为自变景的回归模型捕亶图8-L 1数据窗口的输出结果为了便于理解,有必要解释一下Cox-Snell拟合优度以及Nagelkerke拟合优度值与最大 似然平方对数值的关系。为此,我们需要开展一次特殊的logistic回归。在图8-1-5所示的 选项中,从协变量(covariates)列表框中剔除人均GDP和中部两个选项,选中并引入常数

23、 项一一对应于常系数、所有数值均为1的变量(参加图8-1-1)。以常数项为唯一的自变量, 其他选项不变,开展logistic回归,结果将会给出特别的模型摘要(图8-1-16b),其 -2loglikelihood=40.324为未引入任何真正自变量的最大似然对数平方值。然后,我们采用下 式计算Cox-Snell拟合优度R& =1-6 =l-e.容易算出r(5.15710.324)始=1 /=。一634 一更精确的数值为0.634332。至于Nagelkerke拟合优度,相当于校正后的Cox-Snell拟合优度, 计算公式为=1:二微皿一冲1-e1-v k因此心=*40.32.4因此,校正后的模

24、型拟合优度可以视为0.872。9. Hosmer and Lemeshow Test(Hosmer和Lemeshow 检验)。似然比函数的自然对数值 对样品数目很敏感,作为补充和参照,我们需要Hosmer-Lemeshow检验(图8-1-17)。该 检验依然以卡方分布为标准,但检验的方向与常规检验不同:我们要求其卡方值低于临界值 而不是高于临界值。取显著性水平0.05,考虑到自由度数目df=8,在Excel中的任意单元格 输入函数=CHIINV(0.05,8)”,回车,理解得到卡方临界值15.507。作为Hosmer-Lemeshow 检验的卡方值4.73015.507,检验通过。后面的Sig

25、.值0.786大于0.05,据此也可以判知 Hosmer-Lemeshow 检验可以通过。Hosmer ond Lemeshow TestStepChi-square-dfSig14.7308.786图 Hosmer-LemeshoTi10. Contingency Table for Hosmer and Lemeshow Test (对应于Hosmer-Lemeshow 检验的 列联表)。因变量有两类数值,即0和1。在正常情况下,我们要求观测值(observed)与 期望值(expected)逐渐趋于接近(图8-1-18)。我们的计算结果表明,相应于“城市化=Yes”, 期望值逐渐减少到0

26、,与观测值趋于接近;相应于“城市化=No,期望值逐渐增加到4, 与观测值也趋于接近。这种结果是比较理想的,否则,模型的Hosmer-Lemeshow检验就不 太理想,从而模型的整体拟合效果不是很好。Comingency Table for Hosmer and Lemeshow Test城市化=Yes城ill化=NoTotalObservedExpectedObservedExpectedStep 133.0000aao31232.9990.am3322.69313073431.70901.291350.54032.460360.05432.946370.00532.995380.00033

27、000390.00033.0QO3100.0044 aao4图8-1-18对应于Hoinei-Lemeshow检验的列联表11. Classification Table(最终预测分类表)。经过迭代运算,模型参数逐渐收敛到稳定 值,于是我们得到最终模型参数。利用最终的logistic模型,可以对因变量进行预测,预测 结果分类列入下表(图8-1-19)。可以看出,观测值Yes有11个(Yes=0),相应的预测 值全部是Yes=0,预测正确率为11/11*100%=100%;观测值No有20个(No=1),相应的 预测值有19个No=1,一个Yes=0,也就是说,预测失败1例,预测正确率为19/(

28、1+19)*100%=95%。总的预测正确率为预测正确率=11+1911 | 0-| 1 | 19*100% =30 *100% =96.8%31全部31个样品有30个预测正确,一个预测失败,模型效果良好。Classification TablObserv&dPredicted城市化PercentageCorrectYesNoStep 1堀T化YesNoOverall Percentage1110191100.095.096. Ba. The cut value is .500图8-L-1P最耕预濯分类衰12. Variables in the Equation(最终模型中的变量)。只要理解图

29、8-1-13的含义,就不难 理解下图所示的结果(图8-1-20)。B对应的是最终模型参数估计值:常系数为16.365 (更 精确的结果为16.364888),中部的回归系数为6.917(更精确的结果为6.917073),人均 GDP的回归系数为-0.001 (更精确的结果为-0.001251)。S.E,为相应的标准误差。回归系数 与标准误差比值的平方就是Wald值,例如其余依此类推。由于不知道Wald的临界值,我们可以考察后面的Sig.值。可以看出,常系 数和人均GDP回归系数的置信度达到90%以上,而中部的回归系数只有80%以上。这个结 果可以与前面的Score检验形成对照。Variable

30、s in the EquationBS.E.Wald(lfSig.Exp(B)3押人均GDF0010012.8331.929991中部U)6.9174.9551.9491.1631009 361Constant16.%59.5222.9531.861E+007a Variable(s) entered o-n step 1:人均GDP,中部一图8 1 20最终方程中的变量最后的Exp(B)是对回归系数B值进行指数运算的结果,例如钮部)二产“啪=1009.361 一其余的数据还原依此类推。8.1.3建模与预测将图8-1-20所示的结果从SPSS中复制到Excel中,可以看到更精确的数值,据此可以

31、建立如下线性关系z =16.364888 + 6.917073* 中部-0.001*人均GDP .将上面的关系式代入下式,得到P。)二二一l + -J L +fl.l64SES-i-617&73Hti 部一0.001251 人蚓丘HP1=L+尸队倒呻时.硕顼均球有了上面的式子,就可以对因变量的发生概率进行预测。需要再次强调的是,对于名义变量中部,我们用1代表“是”,0代表“非”,而SPSS 改为0代表“是”,1代表“非”。对于因变量城市人口比重,我们用Yes代表1(城市化 水平高于平均值),用No代表0(城市化水平低于平均值),而SPSS改为相反的表示。明确 Tspss的重新编码过程及其含义,

32、就可以检验上述模型的预测效果。首先,在Excel中,将因变量中的名义变量转换为0、1数值。根据SPSS的编码原则(图 8-1-10),所有的Yes表示为0,所有的No表示为1。一个快捷的处理方式是利用if函数。 在与因变量并列的第二个单元格中,即H2中,输入函数“=IF(G2=Yes,0,1)”,回车立即 得到0;将鼠标指向H2单元格的右下角,待其变成细小黑十字,双击或者下拉,得到全部转 换结果(图8-1-21)。图8-1-21用于预测的数据的整理与转换结果(部分)数据整理完成以后,将图8-1-20所示的表格从SPSS中复制到Excel中,放在将要开展 预测的单元格旁边(图8-1-22)图8-

33、1-22将SPSS给出的模型参数估计值复制到Excel中(局部)根据数据分布的位置,在I2单元格中输入如下公式(图8-1-23):“=1/(1+EXP(-($K$5+$K$4*(1-C2)+$K$3*E2)”,回车,立即得到0。将鼠标指向H2 单元格的右下角,待其变成细小填充柄,双击或者下拉,得到全部预测结果(图8-1-24);将这些数值四舍五入,所有的预测值都变成0或者1。图8-1-23预测公式的表达形式注意上面的计算公式中有一个细节,对应于中部变量的单元格为C2,公式中不是用系数6.917073(在单元格K4中)直接乘以C2,而是乘以(1-C2)。这样处理的原因如前所述,SPSS改变了我们的编码,我们用1表示“是(中部)”,用0表示“非(中部)”。而SPSS 将我们的1改编为0,0改编为1(图8-1-11)。我们用1-C2代替C2,相当于将中部变量的 0、1 互换,使之与SPSS的编码一致。AECDEFGHI1地区辑中部西部人均GDP城街人口城市1七城市化预测值2北京10045443.69S3.62Ves00.0003天津10035783.1975.11Ves00.0004河北10014782.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论