13 Logistic回归基础模型

上传人：q*** IP属地：山东上传时间：2026-05-10 格式：PPTX 页数：72 大小：3.12MB 积分：15 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

新编21世纪心理学系列教材心理与教育统计（第3版）温忠麟

著第十三章Logistic回归

Logisticregression核心要点掌握Logistic回归的基本概念。理解Logistic回归模型中参数的含义与解释。了解Logistic回归模型的整体检验方法和拟合优度评估指标。掌握二分类Logistic回归分析的SPSS操作和结果解读。了解多分类Logistic回归分析的SPSS操作和结果解读。为什么需要Logistic回归？传统回归分析（如线性回归）要求因变量是连续变量，并假设其服从正态分布。在社会科学研究中，我们常遇到因变量是分类变量的情况，例如“是否患病”、“是否购买”、“考试是否通过”等。对于这类二分类或多分类的因变量，传统回归分析不再适用，需要使用Logistic回归。举例：研究高中毕业生能否上大学（因变量：上大学/不上大学）与学业成绩、家庭背景等因素的关系。Logistic回归和线性回归有一些本质区别线性回归的因变量和自变量是线性关系。Logistic回归中因变量p和自变量之间的关系是非线性的，而是通过Logit变换使得，自变量与Logit(p)之间为线性关系。线性回归中通常假设因变量Y服从正态分布；但在Logistic回归中，原始的因变量Y服从二项分布或多项分布。Logistic回归的优势对预测变量的分布和类型没有特定假设，预测变量可以是连续变量、分类变量等；尤其适用于自变量对因变量的影响具有收益递减规律或非线性的情况，即当自变量处于取值范围的两端时，其值的变化对因变量的影响较小；当自变量处于取值范围的中间部分时，其值的变化对于因变量的影响较大的情况。模型假设连续预测变量与经过logit转换后的结果变量之间存在线性关系；结果变量为分类变量；预测变量可以是连续变量、分类变量，如果是分类变量，采用虚拟编码；每次观测相互独立、残差均值为0。第一节二分类单变量Logistic回归模型

P受X的影响往往不是线性的，在P=0或P=1附近，影响很不敏感。概率P与自变量X呈典型“S”形曲线。1.1模型概述-“S”形曲线X极低时p≈0；X中等时p快速上升；X极高时p趋近于1，增速放缓。“S”形曲线有如下函数形式：1.1模型概述-“S”形曲线

1.1

模型概述—发生比（odds）发生比（odds）根据Logit变换，可得1.1模型概述—发生比（odds）

1.2模型估计极大似然估计（maximumlikelihoodestimation，MLE）极大似然估计法既可以用于线性模型，也可以用于非线性模型。似然函数（likelihood）是极大似然估计中涉及的一个重要概念，它是在假设的拟合模型为真的情况下能观测到目前的特定样本数据的概率。1.3回归系数的解释

1.4模型检验拟合优度（goodnessoffit）统计量：－2LL=-2*对数似然值比较的前提是各个自变量不存在缺失值；较小的－2LL说明模型拟合较好。不过，如果没有参照，难以说明多小的－2LL就是一个好模型，通常将－2LL用以模型比较，而不是作为检验模型好坏的一个绝对标准。1.5回归系数的检验

1.5回归系数的检验

1.6伪测定系数伪测定系数是评价模型好坏的一个方便而容易理解的指标。考克斯-斯奈尔R方（Cox&SnellRSquare）内戈尔科R方（NagelkerkeRSquare）。1.7分类表预测概率值大于或等于0.5，则将该样品归为事件发生（取值为1），反之则归为事件不发生（取值为0）。列出频数表，并计算Logistic回归模型的预测正确率。预测正确率可以作为评价模型好坏的一个指标。1.8SPSS操作例解某校希望了解学生的性别（女生编码为0，男生编码为1）、学生所在班级类型（实验班编码为1，其他班编码为0）和学生高考前模拟考试综合成绩与能否升入大学（升学编码为1，不能升学编码为0）的关系。数据见表13-2。这里先考虑成绩与升学的关系。1.8SPSS操作例解1.输入数据并对数据作加权处理（1）在<数据视图>中输入表13-2的数据，先输入左栏的5列数据，接着输入右栏的5列数据。有5个变量，第1列变量名为gender，标签为“性别”。第2列变量名为class，标签为“班别”。第3列变量名为score，标签为“成绩”。第4列变量名为uni，标签为“升学”。第3列变量名为f，标签为“人数”。

数据文件取名为“ch13-1.sav”。（2）击选<数据>菜单中的<个案加权>命令。在打开的<个案加权>对话框中，将〈人数〉指定为<频率变量>，单击<确定>按钮。（将人数作为权重对数据加权处理。）1.8SPSS操作例解2.将“成绩”重新编码为“成绩等级”（1）击选<转换>菜单<重新编码>下的<重新编码为不同变量>命令。（2）在打开的<重新编码为不同变量>对话框中，将〈成绩〉指定为<输入变量>。在<输出变量>框中的<名称>下输入“s_grade”作为重新编码后的成绩等级的变量名。在<标签>下输入“成绩等级”作为“s_grade”的标签。然后单击<变化量>按钮。1.8SPSS操作例解（3）单击<旧值和新值>按钮。在打开的<重新编码为不同变量:旧值和新值>对话框中，击选<旧值>下的第一个<范围>，并在<范围>下边输入“69.5”，右边输入“73.5”。在<新值>下的<值>右边输入“1”，然后单击<添加>。这样就完成了将第1组“69.5—73.5”重新编码为“1”的操作。此时将会在<旧值→新值>下看见<69.5thru73.5→1>。（4）重复同样的操作，将“73.5—77.5”重新编码为“2”，将“77.5—81.5”重新编码为“3”,将“81.5—85.5”重新编码为“4”，将“85.5—89.5”重新编码为“5”,将“89.5—93.5”重新编码为“6”，将“93.5—97.5”重新编码为“7”。1.8SPSS操作例解3.画升学频率与成绩等级的线形图（1）击选<图形>下的<旧对话款>命令。（2）在打开的<折线图>对话框中，画默认简单线形图<简单>，单击<定义>按钮。（3）在打开的<定义简单折线图：个案组摘要>对话框中，将〈成绩等级〉指定为<类别轴>。击选<其它统计>，将〈升学〉指定为其下面的<变量>。（4）单击<更改统计>按钮，在打开的<统计>对话框中，击选<上分百分比>，然后在<值>右侧输入“0.5”。单击<继续>按钮回到<定义简单折线图：个案组摘要>对话框，单击<确定>按钮。得到图13-2的线形图。1.8SPSS操作例解1.8SPSS操作例解4.二分类单变量Logistic回归（1）击选<分析>菜单<回归>下的<二元Logistic>命令。（2）在打开的<Logistic回归>对话框中将〈升学〉指定为<因变量>，将〈成绩〉指定为<协变量>。（3）单击<选项>按钮，在打开的<Logistic回归:选项>对话框中，击选<Exp(B)的置信区间:>（输出发生比率的置信区间）。单击<继续>按钮，回到<Logistic回归>对话框。（4）单击<确定>按钮。主要结果见图13-3—图13-5。1.8SPSS操作例解1.8SPSS操作例解图13-4至13-51.9结果解释

1.9结果解释

1.9结果解释发生比率是Exp(B)=1.536，说明成绩每增加1分，发生比（odds）增长53.6%。由置信区间中的数据可知，平均而言，有95%的把握说，成绩每增加1分，发生比增长41.5%至66.8%。最后，可以写出如下Logistic回归方程：

第二节二分类多变量Logistic回归模型

2.1模型概述2.1模型概述

2.2似然比检验

2.3拟合优度检验反映模型预测值与实际观测值之间的差异程度。如果二者差异程度小，说明模型较好地拟合了数据。SPSS中采用的是霍斯默-莱梅肖（Hosmer-Lemeshow)拟合优度检验。2.4自变量的选择同线性回归模型一样，建立Logistic回归模型也有一个自变量的选择问题。建立的Logistic回归模型应该包含对因变量有显著影响的自变量，而将没有影响或者影响较小的变量排除在模型之外。2.4自变量的选择SPSS中提供了7种筛选自变量的方法：（1）输入，强迫进入法。所有被选择的自变量强制进入Logistic回归方程；（2）向前：有条件，基于条件参数的向前逐步回归法。选入变量是基于比分检验（scoretest）结果，剔除变量是基于条件参数估计似然比检验结果；（3）向前：LR，基于极大似然估计的向前逐步回归法。选入变量是基于比分检验结果，剔除变量是基于极大偏似然估计的似然比检验结果；2.4自变量的选择（4）向前：瓦尔德，基于瓦尔德统计量的向前逐步回归法。选入变量是基于比分检验结果，剔除变量是基于瓦尔德检验结果；（5）向后：有条件，基于条件参数的向后剔除法。剔除变量是基于条件参数估计似然比检验结果；（6）向后：LR，基于极大似然估计的向后剔除法。剔除变量是基于极大偏似然估计的似然比检验结果；（7）向后：瓦尔德，基于瓦尔德统计量的向后剔除法。剔除变量是基于瓦尔德检验结果。2.5SPSS操作例解以例13.1的“升学”为因变量，“性别”、“班别”和“成绩”为自变量，进行二分类多变量Logistic回归。（1）打开数据文件“ch13-1.sav”。（2）击选<分析>菜单<回归>下的<二元Logistic>命令。（3）在打开的<二元Logistic>对话框中将〈升学〉指定为<因变量>，将〈性别〉、〈班别〉和〈成绩〉指定为<协变量>。（4）在<方法>右侧选择<向前：有条件>。2.5SPSS操作例解（5）单击<选项>按钮，在打开的<Logistic回归：选项>对话框中，击选<Exp(B)的置信区间:>（输出发生比率的置信区间）。击选<霍斯默-莱梅肖拟合优度>（输出霍斯默-莱梅肖拟合优度检验结果）。单击<继续>按钮，回到<Logistic回归>对话框。（6）单击<确定>按钮。主要结果见图13-6—图13-10。2.6结果说明（1）图13-6是第0步（此时的模型只有常数项，记为M0）的比分检验结果，检验的原假设是，如果将对应变量加入模型，其回归系数等于零。有最大比分的变量（此处是“成绩”）最先被选入模型。2.6结果说明（2）图13-7中的检验其实就是似然比检验。由图13-10可知，第1步中的模型（记为M1）只有1个自变量“成绩”，卡方118.311是M1相对于M0的似然比，即模型包含自变量“成绩”后与只包含常数项的模型相比，－2LL的减少量。显著性小于0.001说明“成绩”对“升学”的影响显著。2.6结果说明第2步中的模型（记为M2）有2个自变量，它们是“成绩”和“班别”。“步骤”右侧的卡方7.420是M2相对于M1的似然比，即增加自变量“班别”后，－2LL的减少量。显著性0.006说明在模型中已有自变量“成绩”后，“班别”对“升学”的影响显著。“模型”右侧的卡方195.731是M2相对于M0的似然比，即模型同时包含自变量“班别”和“成绩”后与只包含常数项的模型相比，－2LL的减少量，自由度是2。2.6结果说明第3步中的模型（记为M3）包含了全部3个自变量。“步骤”右侧的卡方5.884是M3相对于M2的似然比，即增加“性别”后，－2LL的减少量。显著性0.015说明在模型中已有自变量“成绩”和“班别”后，“性别”对“升学”的影响显著。“模型”右侧的卡方201.615是M3相对于M0的似然比，即模型同时包含3个自变量后与只包含常数项的模型相比，－2LL的减少量，自由度是3。2.6结果说明2.6结果说明（3）图13-8中有每一步模型的－2LL、伪测定系数，以及霍斯默-莱梅肖拟合优度检验结果。以内戈尔科R方来说，“成绩”解释了“升学”变异的43.6%，增加“班别”作为自变量后，解释了45.0%，全部3个自变量解释了46.1%。可见“班别”和“性别”分别额外解释了因变量变异的1.5%左右。霍斯默-莱梅肖拟合优度检验结果是3个模型拟合都可以接受，以第2步得到的模型略好。2.6结果说明2.6结果说明（4）图13-9是每一步模型对应的分类表。总的预测正确率，M3（81.5%）比M2（79.9%）高出1.6%，比M1（79.5%）高出2%。以模型3为例，对于未升学人群的预测正确率为90.8%，对于升学人群的预测正确率为62.2%。2.6结果说明（5）图13-10是每个模型的回归参数的估计和瓦尔德检验结果。以M3为例，可以写出如下方程：2.6结果说明全部回归系数为显著的正数（参见瓦尔德检验结果）说明，“成绩”、“班别”和“性别”都有显著的正效应。就是说，成绩好的学生有更高的机会上大学，重点班的学生有更高的机会上大学，男生有更高的机会上大学。“成绩”对应的发生比率是1.522，如果其他自变量保持不变，成绩每增加1分，发生比增长52.2%。“班别”对应的发生比率是2.277，如果其他自变量保持不变，重点班的发生比是其他班的2.277倍。“性别”对应的发生比率是1.857，如果其他自变量保持不变，男生的发生比是女生的1.857倍。2.6结果说明（6）对于二分类自变量，用0-1编码后，可以当作连续变量对待。如果有自变量是多分类的类别变量，在<Logistic回归>对话框中，点击<分类>按钮，在打开的<Logistic回归:定义分类变量>对话框中，将多分类变量指定为<分类协变量>，系统将为每个多分类变量产生若干0-1伪变量（dummyvariable），伪变量个数为分类数减去1。例如，设变量U取4个值（4分类），将第4类作为参照，则三个伪变量(U1,

U2,

U3)取值(1,0,0)表示第1类，(0,1,0)表示第2类，（0,0,1）表示第3类，（0,0,0）表示第4类。第三节多分类Logistic回归模型

3.1模型概述指定一个参考类别，其他类别逐一与参考类别比较，构建独立的二分类Logistic回归模型。把多分类Logistic回归转化到二分类Logistic回归进行分析和解释。在SPSS中，默认的是最后一个类别作为参考类别，但用户也可以自己选定一个类别作为参考类别。3.1模型概述

3.1模型概述类别2与类别1比较:

发生比的对数类别2与类别1比较:

发生比的对数3.2模型解释和二分类Logistic回归模型一样，参数估计通常采用极大似然估计法（MLE），可以使用－2LL比较嵌套模型，使用Wald统计量检验回归系数的显著性，使用伪决定系数衡量模型的解释能力。更多细节请参考前面两节。3.3SPSS操作例解某学院希望了解毕业班学生的职业规划（选择就业编码为1，升学编码为2，创业编码为3）与所在班别类型（实验班编码为1，普通班编码为2）和学生综合平均成绩的关系。数据见表13-3。因为表中的数据不是原始数据，要以人数为权重对数据进行加权处理。3.3SPSS操作例解1.输入数据并对数据作加权处理（1）在<数据视图>中输入表13-3的数据，先输入左栏的4列数据，接着输入右栏的4列数据。有4个变量，第1列变量名为class，标签为“班级类型”，值标签依次为“实验班、普通班”。第2列变量名为score，标签为“综合平均成绩”。第3列变量名为career，标签为“职业规划”，值标签依次为“选择就业、选择升学、选择创业”。第4列变量名为f，标签为“人数”。数据文件取名为“ch13-2.sav”。（2）击选<数据>菜单中的<个案加权>命令。在打开的<个案加权>对话框中，将〈人数〉指定为<频率变量>，单击<确定>按钮。（将人数作为权重对数据加权处理。）3.3SPSS操作例解2.多分类Logistic回归分析（1）击选<分析>菜单<回归>下的<多元Logistic回归>命令。（2）在打开的<多元Logistic回归>对话框中将〈职业规划〉指定为<因变量>，将分类变量<班级类别>指定为<因子>，连续变量〈综合平均成绩〉指定为<协变量>。（3）因变量、自变量分别移入对应的变量框内，然后点击<参考类别>按钮，默认击选<第一个类别>，将“选择就业”作为参考类别。3.3SPSS操作例解（4）击选右侧<模型>，打开<多元Logistic回归：模型>对话框，击选<主效应>（本例主要考察自变量班级类别、综合平均成绩的主效应），然后点击<继续>。（5）点击<统计>按钮，设置模型的统计量。击选<个案处理摘要>、<伪R方>、<步骤摘要>、<模型拟合信息>、<分类表>、<拟合优度>、<估计值>、<似然比检验>。（6）点击<保存>按钮，击选<估算响应概率>，点击<继续>，单击<确定>。主要输出结果见图13-11至图13-173.4结果说明（1）图13-11是个案处理摘要表，列出因变量和自变量的分类水平及对应的个案百分比、个案总数（即样本容量）、有效和缺失个案数据。结果显示，总人数685人，无缺失数据。按职业规划分类，最多的是选择就业的人数383，占55.9%；其次是选择升学的人数186，占27.2%；最少的是选择创业的人数116，占总人数的16.9%。按班级类别分类，实验班有288人（42%），普通班有397人（58%）。3.4结果说明（2）图13-12是模型拟合信息，显著性概率小于0.01，说明所拟合的（最终）模型与不含自变量（仅截距）的模型相比有显著差异。这个检验类似于回归显著性检验。3.4结果说明（3）图13-13是拟合优度，皮尔逊卡方显著性概率大于0.1，说明模型能很好地拟合原始数据，即模型与数据之间没有显著差异。（4）图13-14是伪R方（类似于决定系数），依次列出的3个伪R方值，内戈尔科R方为0.79，说明模型对因变量变异的解释程度良好。3.4结果说明（5）图13-15是模型似然比检验，最终进入模型的变量包括综合平均成绩和班级类型，而且显著性概率表明，两个自变量对因变量的影响都显著，研究它们对职业规划的影响是有意义的。3.4结

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

13 Logistic回归基础模型

文档简介

温馨提示

最新文档

评论

13 Logistic回归基础模型

文档简介

温馨提示

最新文档

评论

相关文档