第8章:Logistic回归分析_第1页
第8章:Logistic回归分析_第2页
第8章:Logistic回归分析_第3页
第8章:Logistic回归分析_第4页
第8章:Logistic回归分析_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第8 8章章 Logistic Logistic回归分析回归分析二元二元LogisticLogistic回归回归无序多分类无序多分类LogisticLogistic回归回归有序多分类有序多分类LogisticLogistic回归回归 线性回归模型的一个局限性是要求因变量是定量变量(定距线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。的情况。 可用于处理分类

2、因变量的统计分析方法有:判别分别可用于处理分类因变量的统计分析方法有:判别分别( (Discriminant analysis) )、Probit 分析、分析、Logistic 回归分析和对回归分析和对数线性模型等。在社会科学中,应用最多是数线性模型等。在社会科学中,应用最多是Logistic回归分析。回归分析。 Logistic 回归分析根据因变量取值类别不同,又可以分为二回归分析根据因变量取值类别不同,又可以分为二元元 Logistic 回归分析和多元回归分析和多元 Logistic 回归分析。回归分析。第一节第一节 二元二元LogisticLogistic回归回归 现实世界中,经常需要判

3、断一些事情是否将要发生,候选人现实世界中,经常需要判断一些事情是否将要发生,候选人是否会当选,为什么一些人易患冠心病,为什么一些人生意会是否会当选,为什么一些人易患冠心病,为什么一些人生意会获得成功。获得成功。 这些问题的特点是因变量只有两个值,发生(是)或不发生这些问题的特点是因变量只有两个值,发生(是)或不发生(否)。这就要求建立的模型必须保证因变量的取值是(否)。这就要求建立的模型必须保证因变量的取值是0 0、1 1。可是大多数模型的因变量值常常处于一个实数集中,与因变量可是大多数模型的因变量值常常处于一个实数集中,与因变量只有两个值的要求相悖。因为一般回归分析要求直接预测因变只有两个值

4、的要求相悖。因为一般回归分析要求直接预测因变量的数值,要求因变量呈现正态分布,并且要求各组中具有相量的数值,要求因变量呈现正态分布,并且要求各组中具有相同的方差同的方差协方差矩阵。协方差矩阵。 本节介绍对因变量数据假设要求不高,并且可以用来预测具本节介绍对因变量数据假设要求不高,并且可以用来预测具有两分特点的因变量概率的统计方法有两分特点的因变量概率的统计方法 二元逻辑斯谛二元逻辑斯谛(Binary (Binary Logistic)Logistic)回归模型。回归模型。一、一、Logistic 回归模型回归模型1 1、 Logistic 模型模型 在二元逻辑斯谛回归中可以直接预测观测量相对于

5、某一事件在二元逻辑斯谛回归中可以直接预测观测量相对于某一事件的发生概率。的发生概率。 设因变量为设因变量为 y,其取值,其取值 1 1 表示事件发生,取值表示事件发生,取值 0 0 表示事件不表示事件不发生。发生。( (因变量具有二分的特点,自变量是分类变量或等间隔测度的变量因变量具有二分的特点,自变量是分类变量或等间隔测度的变量) ) 记事件发生的条件概率为:记事件发生的条件概率为:iipxyP)1( 包含包含 k 个自变量的回归模型可以写为:个自变量的回归模型可以写为:kkkkxxxxxxieep22110221101kkkkxxxxxxieep2211022110111其中:其中:pi

6、表示第表示第 i 个观测中事件发生的概率,个观测中事件发生的概率,1-1-pi 表示第表示第 i 个观个观测中事件不发生的概率。测中事件不发生的概率。 事件发生与不发生之比被称为事件的发生比,简记为事件发生与不发生之比被称为事件的发生比,简记为OddOdd。用公式表示:用公式表示: 2 2、Logistic 回归系数回归系数kkxxepp1101Odd Odd 为一正数,并且没有上界。为一正数,并且没有上界。kkxxpp1101ln 对对 Odd Odd 做对数变换,就能得到做对数变换,就能得到 Logistic Logistic 回归模型的线性回归模型的线性形式:形式: 可以看出可以看出 L

7、ogistic 回归系数可以理解为一个单位自变量的回归系数可以理解为一个单位自变量的变化对比率的对数的改变值。变化对比率的对数的改变值。 由发生比可以看出,当第由发生比可以看出,当第 i 个自变量发生一个单位的变化时,个自变量发生一个单位的变化时,发生比的变化值为发生比的变化值为 Exp(Exp(bi) )。自变量的系数为正值,意味着事。自变量的系数为正值,意味着事件发生的几率会增加,件发生的几率会增加,Exp(Exp(bi) )的值大于的值大于1 1;变量的系数为负值,;变量的系数为负值,意味着事件发生的几率会减少,意味着事件发生的几率会减少,Exp(Exp(bi) )的值小于的值小于1 1

8、。 极大似然法的基本思想是先建立似然函数,然后求使得似然极大似然法的基本思想是先建立似然函数,然后求使得似然函数达到最大的参数估计值。函数达到最大的参数估计值。 3 3、Logistic 回归模型的参数估计回归模型的参数估计niyiyiiippL11)1 ( 对对 Logistic 回归模型的参数估计可以采用极大似然法或者迭回归模型的参数估计可以采用极大似然法或者迭代法。代法。 对于已有样本,可建立样本的似然函数为:对于已有样本,可建立样本的似然函数为:niiiiipypyL1)1ln()1 (lnln 样本的对数似然函数为:样本的对数似然函数为: 根据极大似然原理,对根据极大似然原理,对 l

9、nL L 求一阶导数并令其为求一阶导数并令其为0 0,再用,再用 Newton-Raphson 迭代方法求解,得到参数估计值及其标准误。迭代方法求解,得到参数估计值及其标准误。niikkiiixxxyL122110)(ln将将 pi 代入得:代入得:)exp(1ln(22110ikkiixxx logistic logistic回归方程求解参数是采用极大似然估计方法,因此回归方程求解参数是采用极大似然估计方法,因此其回归方程的整体检验通过似然函数值其回归方程的整体检验通过似然函数值( ( Likelihood ) )。 4 4、 Logistic 回归的评价及统计检验回归的评价及统计检验 对对

10、于整体模型的检验于整体模型的检验 所谓似然函数值表达的是一种概率,即在假设拟合模型为真所谓似然函数值表达的是一种概率,即在假设拟合模型为真实情况时能够观察到这一特定样本数据的概率,因此这个函数实情况时能够观察到这一特定样本数据的概率,因此这个函数值处于值处于0,10,1之间。之间。 因为似然函数值取自然对数后在数学处理上更为方便,而且因为似然函数值取自然对数后在数学处理上更为方便,而且似然函数值是个极小的小数,其对数值是个负数,所以通常对似然函数值是个极小的小数,其对数值是个负数,所以通常对似然函数值先取自然对数再乘以似然函数值先取自然对数再乘以 -2 -2 以后应用。以后应用。 SPSS S

11、PSS中就是报告这一指标,标志为中就是报告这一指标,标志为“-2 -2 对数似然值对数似然值( (可缩写可缩写为为-2LL)-2LL)”。报告值越大,意味着回归方程的似然值越小,标志。报告值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差。模型的拟合程度越差。报告值越小报告值越小,意味着回归方程的似然值,意味着回归方程的似然值越接近越接近1 1,标志,标志模型的拟合程度越好模型的拟合程度越好。 在模型完全拟合观察值的情况下,有似然值等于在模型完全拟合观察值的情况下,有似然值等于1 1,那么似,那么似然值的对数等于然值的对数等于0 0。越接近。越接近0 0,模型拟合效果越好。,模型拟合效

12、果越好。 在评价或检验一个含有自变量的在评价或检验一个含有自变量的 Logistic 回归模型时,通常回归模型时,通常是将其与截距模型相比较。是将其与截距模型相比较。 所谓截距模型,就是将所有自变量删除后只剩一个截距系数所谓截距模型,就是将所有自变量删除后只剩一个截距系数的模型(的模型(logit p= =a)。)。具体操作方法是:具体操作方法是:定义截距模型为定义截距模型为L L0 0,作为参照模型;,作为参照模型;定义假设模型为定义假设模型为L Lx ;计算比率计算比率似然比似然比( (Likelihood - Ratio) )xLLLR0检验两者之比是否显著区别于检验两者之比是否显著区别

13、于1 1。 当似然比等于当似然比等于1 1时,意味着这些自变量完全没有解释效果,时,意味着这些自变量完全没有解释效果,而似然比显著小于而似然比显著小于 1 1 时则说明这些自变量对于因变量变化的解时则说明这些自变量对于因变量变化的解释有显著的贡献。释有显著的贡献。 以截距模型作为标准,比较在加入其他自变量后新的模型与以截距模型作为标准,比较在加入其他自变量后新的模型与数据的拟合水平是否有显著提高。数据的拟合水平是否有显著提高。 为在统计上检验显著性,需要知道似然比的抽样分布。然而为在统计上检验显著性,需要知道似然比的抽样分布。然而我们不知道似然比服从什么分布。但是可以证明似然比的一个我们不知道

14、似然比服从什么分布。但是可以证明似然比的一个函数近似地服从于卡方分布,即:函数近似地服从于卡方分布,即:)(ln220pLLx 如果在如果在SPSS中进行中进行Logistic回归时定义了自变量,那么回回归时定义了自变量,那么回归报告便会自动给出上面这两项计算值。归报告便会自动给出上面这两项计算值。常用的三种卡方统计量分别为:模型、块、步骤。常用的三种卡方统计量分别为:模型、块、步骤。 “模型模型”统计量:检验除常数项以外,模型中所有变量系统计量:检验除常数项以外,模型中所有变量系数为零的假设。数为零的假设。 “块块”卡方统计量为当前卡方统计量为当前 -2LL-2LL 值与后一组变量进入后的值

15、与后一组变量进入后的 -2LL-2LL值之差。如果选择了多组变量,那么值之差。如果选择了多组变量,那么“块块”卡方值用来对卡方值用来对最后一组变量为最后一组变量为 0 0 的零假设进行检验。的零假设进行检验。 “步骤步骤”卡方值是当前与下一步卡方值是当前与下一步 -2LL-2LL 之间的差值。用来之间的差值。用来对最后一个加入模型的变量系数为对最后一个加入模型的变量系数为 0 0 的零假设进行检验。的零假设进行检验。 当前模型的当前模型的 -2LL-2LL 与模型中只包括常数项的与模型中只包括常数项的 -2LL-2LL 之差。之差。 回归系数的检验回归系数的检验 SPSSSPSS软件在执行软件

16、在执行 Logistic 回归时除报告回归系数回归时除报告回归系数i 的估计的估计值以外,还自动报告关于其统计检验量。值以外,还自动报告关于其统计检验量。 Wald Wald 统计量是用来检验偏回归系数显著程度的,它是偏回统计量是用来检验偏回归系数显著程度的,它是偏回归系数与自由度的函数,服从于卡方分布。其计算公式为:归系数与自由度的函数,服从于卡方分布。其计算公式为: WaldWald 检验值越大表明该自变量的作用越显著。同一行的检验值越大表明该自变量的作用越显著。同一行的SigSig就是就是 WaldWald 检验的显著度检验的显著度性概率。性概率。) 1 (.222iSESBWaldi

17、WaldWald 统计量的弱点是当回归系数的绝对值变大时,其标准统计量的弱点是当回归系数的绝对值变大时,其标准误将发生更大的改变,误将发生更大的改变,WaldWald 值值就会变得很小,导致拒绝回归系就会变得很小,导致拒绝回归系数的数的0 0假设失败,即认为变量的回归系数为假设失败,即认为变量的回归系数为0 0。 SPSSSPSS软件没有给出软件没有给出 Logistic 回归的标准化系数,如果要考虑回归的标准化系数,如果要考虑自变量的重要性,不妨直接比较自变量的重要性,不妨直接比较 WaldWald 统计量,统计量,WaldWald 值值大者显大者显著性高,也就更重要著性高,也就更重要。 6

18、 6、Logistic 回归的参数设置回归的参数设置 依次单击依次单击SPSSSPSS软件软件“分析分析回归回归二元二元Logistic”Logistic”命令,进命令,进入入 Logistic 回归对话框如下:回归对话框如下: 5 5、逐步回归中的变量筛选、逐步回归中的变量筛选 Logistic 逐步逐步回归的变量筛选过程与现行逐步回归过程极为回归的变量筛选过程与现行逐步回归过程极为相似,但不再是相似,但不再是 F F 统计量,而是似然比统计量和统计量,而是似然比统计量和WaldWald统计量统计量 例如使用似然比统计量例如使用似然比统计量 作为变量的筛选标作为变量的筛选标准,在进行到第准,

19、在进行到第 l 步时,通过比较含有步时,通过比较含有 Xj 和不含和不含 Xj 的模型,决的模型,决定定 Xj 是否引入模型。是否引入模型。)ln(ln2)(1)(1llLLG 协变量:用于从变量列表中选入协变量。协变量:用于从变量列表中选入协变量。 选择变量:用于选入一个对样本筛选变量,只有满足条选择变量:用于选入一个对样本筛选变量,只有满足条件的观测记录才会进入回归方程。件的观测记录才会进入回归方程。 方法:用于指定协变量进入回归模型的方法。方法:用于指定协变量进入回归模型的方法。SPSSSPSS给出给出了了7 7种可选方案:种可选方案:l进入:强迫进入法,协变量全部进入模型。进入:强迫进

20、入法,协变量全部进入模型。l向前向前: :条件条件向前逐步法向前逐步法( (条件似然比条件似然比) ),变量引入的根据是得,变量引入的根据是得分统计量的显著性水平,变量被剔除的依据是条件参数估计所分统计量的显著性水平,变量被剔除的依据是条件参数估计所得的似然比统计量的概率值。得的似然比统计量的概率值。l向前向前:LR:LR向前逐步法向前逐步法( (似然比似然比) ),变量引入的根据是得分统计,变量引入的根据是得分统计量的显著性水平;变量被剔除的依据是最大偏似然估计所得的量的显著性水平;变量被剔除的依据是最大偏似然估计所得的似然比统计量的概率值。似然比统计量的概率值。l向前向前:Wald:Wal

21、d向前逐步法向前逐步法(Wald(Wald法法) ),变量引入的根据是得分统,变量引入的根据是得分统计量的显著性水平;变量被剔除的依据是计量的显著性水平;变量被剔除的依据是WaldWald统计量概率值。统计量概率值。l向后向后: :条件条件向后前逐步法向后前逐步法( (条件似然比条件似然比) ),将变量剔除的依据,将变量剔除的依据是条件参数估计所得的似然比统计量的概率值。是条件参数估计所得的似然比统计量的概率值。变量设置变量设置 因变量:用于从变量列表中选择一个二分量作为因变量因变量:用于从变量列表中选择一个二分量作为因变量 l向后向后:LR:LR向后前逐步法向后前逐步法( (似然比似然比)

22、),将变量剔除的依据是最大,将变量剔除的依据是最大偏似然估计所得的似然是统计量的概率值。偏似然估计所得的似然是统计量的概率值。lB B向后向后:Wald:Wald向后逐步法向后逐步法(Wald(Wald法法) ),将变量剔除的依据是,将变量剔除的依据是WaldWald统计量的概率值。统计量的概率值。对分类变量设置对分类变量设置 单击单击“分类分类”按钮,弹出对话框如下所示:按钮,弹出对话框如下所示: 协变量:显示当前可用的协变量。协变量:显示当前可用的协变量。 分类协变量:显示当前选择的分类变量。分类协变量:显示当前选择的分类变量。 更改对比:用于选择分类协变量各水平的对照方式。更改对比:用于

23、选择分类协变量各水平的对照方式。 保存的设置保存的设置 单击单击“保存保存”按钮,弹出对话框如下所示:按钮,弹出对话框如下所示: 预测值:保存模型预测值。概率预测值:保存模型预测值。概率事件发生的预测概率;事件发生的预测概率;组成员组成员根据预测概率得到的每个观测的预测分类。根据预测概率得到的每个观测的预测分类。 残差残差 影响影响:保存对单个观测记录进行预测时的有影响力指标。:保存对单个观测记录进行预测时的有影响力指标。 lCook距离:表示把一个个案从计算回归系数的样本中去除时距离:表示把一个个案从计算回归系数的样本中去除时所引起的残差变化的大小,所引起的残差变化的大小,CookCook距

24、离越大,表明该个案对回归距离越大,表明该个案对回归系数的影响越大。系数的影响越大。l杠杆值:用来衡量单个观测对效果的影响程度,取值范围在杠杆值:用来衡量单个观测对效果的影响程度,取值范围在0n/(n-1)0n/(n-1),取,取0 0时表示当前记录对模型的拟合无影响。时表示当前记录对模型的拟合无影响。lDfBeta(s)DfBeta(s),剔除一个个案后回归系数的改变。,剔除一个个案后回归系数的改变。l未标准化残差,观测值与预测值之差。未标准化残差,观测值与预测值之差。lLogit,残差除以,残差除以“预测概率预测概率 (1-(1-预测概率预测概率)”)”。l学生化残差,用残差除以残差标准差的

25、估计值。学生化残差,用残差除以残差标准差的估计值。l标准化残差,其均值为标准化残差,其均值为0 0,标准差为,标准差为1 1。l偏差,基于模型变异的残差。偏差,基于模型变异的残差。选项的设置选项的设置 单击单击“选项选项”按钮,弹出对话框如下所示:按钮,弹出对话框如下所示: 【例例8.18.1】在在HosmerHosmer和和LemeshowLemeshow于于19891989年研究了低出生体重年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿婴儿的影响因素,结果变量为是否娩出低出生体重儿( (变量名为变量名为LOWLOW。值为。值为1 1:低出生体重,即婴儿出生体重:低出生体重

26、,即婴儿出生体重25002500克;值为克;值为0 0:非低出生体重非低出生体重) ),希望筛选出低出生体重儿的影响因素,考虑产,希望筛选出低出生体重儿的影响因素,考虑产妇妊娠前体重妇妊娠前体重(lwt)(lwt)、产妇年龄、产妇年龄(age)(age)、产妇在妊娠期间是否吸、产妇在妊娠期间是否吸烟烟(smoke)(smoke)、种族等。数据文件为、种族等。数据文件为“例例8.1”8.1”。 如果考察产妇是否吸烟为低出生体重儿关系,则四格表为:如果考察产妇是否吸烟为低出生体重儿关系,则四格表为:31.2%18959130合计40.5%743044吸烟(1)25.2%1152986不吸烟(0)低

27、出生体重(1)正常(0)低出生率合计低出生体重儿产妇在妊娠期间是否吸烟 该资料如果拟合该资料如果拟合Logistic回归模型,则结果为:回归模型,则结果为:块块0 0:起始块:起始块块块1 1:方法:方法= =输入输入smokePLogit704. 0087. 1(低体重儿) 常数项:表示自变量全为常数项:表示自变量全为0(0(称基线状态称基线状态) )时,比数时,比数(Y=1(Y=1与与Y=0Y=0的概率之比的概率之比) )的自然对数,本例为:的自然对数,本例为:087. 18629ln1158611529ln0即不吸烟的低体重儿概率和正常儿概率之比的自然对数。即不吸烟的低体重儿概率和正常儿

28、概率之比的自然对数。 自变量的回归系数:自变量的回归系数:表示自变量每改变一个单位,优势表示自变量每改变一个单位,优势比的自然对数值该变量,本例为:比的自然对数值该变量,本例为: 【例例8.28.2】在一次关于公共交通的社会调查中,一个调查项在一次关于公共交通的社会调查中,一个调查项目是目是“是乘坐公共汽车上下班,还是骑自行车上下班是乘坐公共汽车上下班,还是骑自行车上下班”。因变。因变量量y=1=1表示主要乘坐公共汽车上下班,表示主要乘坐公共汽车上下班,y=0=0表示主要骑自行车上表示主要骑自行车上下班。自变量下班。自变量 x1 1 是年龄,作为连续型变量;是年龄,作为连续型变量;x2 2 是

29、月收入是月收入( (元元) ); x3 3 是性别,是性别,x3 3=1=1表示男性,表示男性,x3 3=0=0表示女性。调查对象为工薪族表示女性。调查对象为工薪族群体,数据见下表。试建立群体,数据见下表。试建立 y 与自变量间的与自变量间的Logistic回归。回归。704. 086294430ln1而而exp(exp() )即优势比,自变量每变化一个单位,阳性结果出现概即优势比,自变量每变化一个单位,阳性结果出现概率与不出现概率的比值是变化前的相应比值的倍数。本例为:率与不出现概率的比值是变化前的相应比值的倍数。本例为:即不吸烟的低体重儿概率和正常儿概率之比的自然对数。即不吸烟的低体重儿概

30、率和正常儿概率之比的自然对数。02. 2)704. 0exp(表示吸烟状况每增加一个单位,即从不吸烟改为吸烟时,吸烟表示吸烟状况每增加一个单位,即从不吸烟改为吸烟时,吸烟组的比值相对于不吸烟组的比值的倍数。组的比值相对于不吸烟组的比值的倍数。 由此可以得出结论,在妊娠期间抽烟由此可以得出结论,在妊娠期间抽烟(smoke=1)(smoke=1)的孕妇会比的孕妇会比不吸烟的女性更容易分娩出低出生体重儿。不吸烟的女性更容易分娩出低出生体重儿。 依次单击依次单击“分析分析回归回归二元二元Logistic”Logistic”命令,进入命令,进入Logistic回归对话框如下所示:回归对话框如下所示: 利

31、用利用SPSSSPSS软件进行估计的步骤如下:软件进行估计的步骤如下:将将x1 1、x2 2、x3 3 送入送入“协变量协变量”中;中;点击点击 保存保存 ,做如下选择:,做如下选择:点击点击 选项选项 ,做如下选择:,做如下选择:点击点击 确定确定 ,系统输出以下结果:,系统输出以下结果:得分(得分(Score)Score)计算公式如下:计算公式如下:niiniiijxxyyyyxScore121)()1 ()( 上表中上表中x3 3( (性别性别) )、x1 1( (年龄年龄) )、x2 2( (月收入月收入) )是是3 3个自变量,个自变量,WalsWals是回归系数检验的统计量值是回归

32、系数检验的统计量值: :2jj2)(D.E. SBWaldSig是是Wald检验的显著性概率。可以看到,检验的显著性概率。可以看到,x2 2( (月收入月收入) )不显著。不显著。采用采用“进入进入”回归,输出结果见下表:回归,输出结果见下表: 可以看到,可以看到,x1 1 (年龄年龄)、x3 3 (性别性别)两个自变量都是显著的,因两个自变量都是显著的,因而最终的回归方程为:而最终的回归方程为: )224. 2102. 0629. 2exp(1)224. 2102. 0629. 2exp(3131xxxxpi 根据以上方程式可知:根据以上方程式可知: 年龄越高乘车的比例也越高;年龄越高乘车的

33、比例也越高; 女性乘公共汽车的比例高于男性。女性乘公共汽车的比例高于男性。 【例例8.38.3】研究研究银行客户的贷款拖欠问题。通过分析银行掌银行客户的贷款拖欠问题。通过分析银行掌握的一些客户资料和交易信息,推断指定客户的预期信誉。数握的一些客户资料和交易信息,推断指定客户的预期信誉。数据格式如下:据格式如下: 本例数据集中的前本例数据集中的前700700个案例是先前申请过贷款的用户,将个案例是先前申请过贷款的用户,将利用其中的一个随机样本拟合一个二元逻辑回归模型,然后用利用其中的一个随机样本拟合一个二元逻辑回归模型,然后用拟合的模型对后拟合的模型对后150150名预期用户进行信誉分类。名预期

34、用户进行信誉分类。 因变量为是否拖欠因变量为是否拖欠( (default) ),取值为,取值为0(0(No) )时,表示没有时,表示没有拖欠贷款;取值为拖欠贷款;取值为1(1(Yes) )时,表示有拖欠贷款。时,表示有拖欠贷款。抽取分析样本抽取分析样本 指定随机种子。依次单击指定随机种子。依次单击“转换转换随机数字生成器随机数字生成器” 命令,打开生成随机数的设置界面。输命令,打开生成随机数的设置界面。输91919729191972 计算筛选变量。依次单击计算筛选变量。依次单击“转换转换计算变量计算变量”命令。命令。在在“目标变量目标变量”处输入变量名处输入变量名“validate”;在;在“

35、数字表达式数字表达式” 编辑框输入编辑框输入 rv.bernoulli(0.7)(0.7)。单击左下角的。单击左下角的“如果如果”并输入并输入 Missing(default)=0变量设置变量设置 将是否拖欠变量将是否拖欠变量( (default) )作为因变量选入作为因变量选入“因变量因变量”框,框,将从年龄至其他债务将从年龄至其他债务8 8个变量作为协变量选入个变量作为协变量选入“协变量协变量”列表框。列表框。选中选中“向前向前:LR”,单击,单击 “validate” 进入进入“选择变量选择变量”框,单击框,单击“规则规则”,选中选中“等于等于”选项,输入选项,输入1 1。分类变量设置分

36、类变量设置 在变量列表中选中教育水平变量,将其作为分类变量。在变量列表中选中教育水平变量,将其作为分类变量。保存设置保存设置 勾选勾选:“:“概率概率”、“学生化学生化”、“Cook距离距离”和和“包含协包含协方差矩阵方差矩阵”复选框。复选框。选项设置选项设置 勾选勾选:“:“分类图分类图”和和“Hosmer-Lemeshow拟合度拟合度”复选框。复选框。 单击单击“确定确定”,系统输出以下结果:,系统输出以下结果: 上表中上表中 Cox and Snell R Cox and Snell R 方和方和 Nagelkerke R Nagelkerke R 方两个统计方两个统计量取代了线性回归中

37、的量取代了线性回归中的 R R 方统计量。方统计量。 本例中他们的取值分别为本例中他们的取值分别为 0.281 0.281 和和 0.4170.417,只看这一点,只看这一点,模型拟合的并不理想。模型拟合的并不理想。 这两个统计量一般用于不同模型之间的比较,这两个统计量一般用于不同模型之间的比较,R R 方值越大的方值越大的模型,拟合的效果越好。模型,拟合的效果越好。 Hosmer 和和 Lemeshow 检验表格的原假设为:模型能够很检验表格的原假设为:模型能够很好拟合数据。好拟合数据。 从软件运行结果看:显著性检验的从软件运行结果看:显著性检验的Sig=0.855=0.855 结论:结论:

38、接受原假设,认为模型能够很好拟合数据。接受原假设,认为模型能够很好拟合数据。 Hosmer 和和 Lemeshow 检验的随机性表格根据目标变量的预检验的随机性表格根据目标变量的预测概率,把结果分为大致相等的测概率,把结果分为大致相等的1010个组。个组。 “总计总计”列中是每组的观测数,由于预测值相等的观测被分列中是每组的观测数,由于预测值相等的观测被分到一起,所以各组的观测数不一定相同。到一起,所以各组的观测数不一定相同。 此表直观地反映了模型预测的效果,可以看出各组的观测值此表直观地反映了模型预测的效果,可以看出各组的观测值和预测值大致相同,所以模型的拟合效果不错。和预测值大致相同,所以

39、模型的拟合效果不错。 上表给出了观测值和预测值的列联表,预测概率大于上表给出了观测值和预测值的列联表,预测概率大于0.50.5,预测为预测为YesYes;反之预测为;反之预测为NoNo。 对于最终模型,建模用的对于最终模型,建模用的124124个拖欠用户中有个拖欠用户中有5757个判断正确,个判断正确,正确率为正确率为46.0%46.0%;建模用的;建模用的375375个无拖欠用户中有个无拖欠用户中有352352个判断正确,个判断正确,正确率为正确率为93.9%93.9%;总的回判正确率为;总的回判正确率为82.0%82.0%,这说明模型的预测,这说明模型的预测效果不错,尤其是对那些无拖欠的用

40、户的预测。效果不错,尤其是对那些无拖欠的用户的预测。 上表中上表中Wald统计量的统计量的Sig值全部小于值全部小于0.050.05,说明参数估计值,说明参数估计值都显著地不为都显著地不为0 0。利用该模型,就可以对。利用该模型,就可以对150150名预期用户进行信名预期用户进行信誉分类。誉分类。 Exp(B)表示在其它情况不变的条件下,某个自变量变动表示在其它情况不变的条件下,某个自变量变动 1 1 个单位而引起的发生比个单位而引起的发生比 Odd 的变化率。的变化率。 该图为预测概率的直方图。横轴为对拖欠贷款概率的预测该图为预测概率的直方图。横轴为对拖欠贷款概率的预测概率值,纵轴为观测的频

41、数。符号概率值,纵轴为观测的频数。符号Y Y代表拖欠,代表拖欠,N N代表不拖欠。代表不拖欠。 如果模型对原数据成功进行了模拟,则发生拖欠贷款的观如果模型对原数据成功进行了模拟,则发生拖欠贷款的观测应分布在图形的右侧,其它观测应分布在图形的左侧。测应分布在图形的右侧,其它观测应分布在图形的左侧。 本例总体来看,模型的拟合效果不错。本例总体来看,模型的拟合效果不错。 该图为学生化残差的平方对预测概率的散点图。图中纵轴该图为学生化残差的平方对预测概率的散点图。图中纵轴取值较大的点表示模型对这些点的拟合效果较差。取值较大的点表示模型对这些点的拟合效果较差。 由低到高的曲线代表的是因变量取由低到高的曲

42、线代表的是因变量取0 0的观测的残差的变化,的观测的残差的变化,说明这类观测的预测概率越大,拟合效果越差。说明这类观测的预测概率越大,拟合效果越差。 该图为该图为CookCook距离对预测概率的散点图。图中有较少的几个距离对预测概率的散点图。图中有较少的几个奇异值,它们的奇异值,它们的CookCook值都很大,可能影响了分析,可以进一步值都很大,可能影响了分析,可以进一步对它们进行单独研究。对它们进行单独研究。第二节第二节 无序多分类无序多分类LogisticLogistic回归回归一、模型简介一、模型简介 无序多分类的无序多分类的 Logistic 回归模型用于分析因变量为无序多分回归模型用

43、于分析因变量为无序多分类的情况。类的情况。kkxxxpp1212111041ln 对于多分类的对于多分类的 Logistic Logistic 回归,模型首先会定义因变量的某回归,模型首先会定义因变量的某一个水平为参照水平一个水平为参照水平(SPSS(SPSS默认取值水平大的为参照水平默认取值水平大的为参照水平) ),其,其他水平各与其相比,建立他水平各与其相比,建立“水平数水平数-1”-1”个广义个广义 Logit Logit 模型。模型。 以以 4 4 水平因变量为例,其取值水平分别为:水平因变量为例,其取值水平分别为:1 1、2 2、3 3、4 4,对于对于 k 个自变量拟合个自变量拟合

44、 3 3 个广义个广义 Logit 回归模型:回归模型:kkxxxpp2222121042lnkkxxxpp3232131043ln 显然,同时应当有:显然,同时应当有:p1 1+ +p2 2+ +p3 3+ +p4 4=1,=1,且可以看出且可以看出Y=4Y=4为参照水为参照水平。平。二、无序多分变量的二、无序多分变量的Logistic回归过程回归过程 点击点击“分析分析回归回归多项多项 Logistic,出现下列对话框:,出现下列对话框: 选择一个因变量送入选择一个因变量送入“因变量因变量”框中。一般情况下系统默认框中。一般情况下系统默认因变量的最后一类作为参考类,若要改变单击因变量的最后

45、一类作为参考类,若要改变单击“参考类别参考类别”。选择一个或多个分组变量送入选择一个或多个分组变量送入“因子因子”框中。在左侧的源变量框中。在左侧的源变量框中选择一个或多个连续变量作为协变量送入框中选择一个或多个连续变量作为协变量送入“协变量协变量”框中。框中。 1 1、变量设置、变量设置 单击单击“模型模型”按钮,显示如下对话框:按钮,显示如下对话框: 2 2、模型设置、模型设置 3 3、统计量设置、统计量设置 4 4、收敛标准设置、收敛标准设置 单击单击“条件条件”按钮,显示如下对话框:按钮,显示如下对话框: 5 5、选项设置、选项设置 单击单击“选项选项”按钮,显示如下对话框:按钮,显示

46、如下对话框: 6 6、保存设置、保存设置三、多分变量的三、多分变量的LogisticLogistic回归分析实例回归分析实例 【例例8.48.4】19921992年美国总统选举的数据。年美国总统选举的数据。Pres92(Pres92(投票对象:投票对象:1 1、布什;、布什;2 2、帕罗特;、帕罗特;3 3、克林顿、克林顿) )、sex(sex(性别:性别:1 1、男;、男;0 0、女、女) )、age(age(年龄年龄) )、agecat(agecat(年龄分类年龄分类) )、educ(educ(受教育年限受教育年限) )、degree(degree(学历学历) )。分析选民投票情况。分析选

47、民投票情况。 选择选择 pres92 进入进入“因变量因变量”框,将框,将 degreen、sex 进入进入“因因子子”列表框,操作结果显示如下:列表框,操作结果显示如下:1 1、建立、建立 Logistic Logistic 回归模型回归模型单击单击“确定确定”,结果如下:,结果如下:)2(deg431. 0) 1(deg387. 0reeree)0(deg198. 0) 1(458. 0805. 0)int()(lnreesexonClpBushpLogit模型:模型:) 3(deg424. 0ree2 2、计算预测概率、计算预测概率 根据所建立的模型可以计算某个选民对每个候选人投票的可根

48、据所建立的模型可以计算某个选民对每个候选人投票的可能性。例如,具有学士学位的男性选民投票给各候选人的可能能性。例如,具有学士学位的男性选民投票给各候选人的可能性。性。估算估算 3 3 个模型的值个模型的值077. 0424. 0458. 0805. 0)int()(ln1onClpBushpg624. 0804. 0760. 0188. 2)int()(ln2onClpPerotpg0)int()int(ln3onClponClpg计算每一类的概率值计算每一类的概率值jkkiigggroupp1exp()exp()(412. 0154. 008. 108. 1)(Bushp382. 0154.

49、 008. 11)int(onClp206. 0154. 008. 154. 0)(Perotp计算每一类的概率值计算每一类的概率值jkkiigggroupp1exp()exp()( 数据中有数据中有160160名男性具有学士学位的选民,由此可以判断:名男性具有学士学位的选民,由此可以判断:其中有其中有6666人会投人会投BushBush的票,的票,3333人会投人会投PerotPerot的票,的票,6161人会投人会投ClintonClinton的票的票 【例例8.58.5】为研究胃癌及癌前病变核仁组织变化情况,分析为研究胃癌及癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白核仁组成区嗜银蛋

50、白(AgNoR)(AgNoR)颗粒数量颗粒数量( (x1 1分为分为1 1、2 2、3)3)及大小及大小( (x2 2分为分为1 1、2 2、3)3)在胃炎、不典型增生和胃癌在胃炎、不典型增生和胃癌( (id分为分为1 1、2 2、3)3)中中的变化规律以及临床的诊断意义,共检测的变化规律以及临床的诊断意义,共检测129129例患者,检测结果例患者,检测结果如下表:如下表:230023339122014238010113741401832621521922503031240815233130118192120099111id=3id=2id=1freqx2x1g癌变不典型增生胃炎频数颗粒大小颗

51、粒数分层 建立数据文件:例建立数据文件:例4.sav4.sav。 1 1、对频数变量、对频数变量 freq 进行加权进行加权 2 2、进行多元、进行多元Logistic分析分析 选择选择“数据数据加权个案加权个案”,出现下列对话框:,出现下列对话框: 单击单击“分析分析回归回归多元多元 Logistic,出现下列对话框:,出现下列对话框: 单击单击“确定确定”,得到以下结果:,得到以下结果: Logit模型:模型:211714. 3012.10563.27)3() 1(lnxxidpidpG212938. 1721. 4205.16)3()2(lnxxidpidpG x1 1 的系数都是负的,说明颗粒数少,胃炎和不典型增生发的系数都是负的,说明颗粒数少,胃炎和不典型增生发生的概率大于癌变;生的概率大于癌变;x2 2 的系数都是负的,说明颗粒越小,胃炎的系数都是负的,说明颗粒越小,胃炎和不典型增生发生的概率大于癌变。和不典型增生发生的概率大于癌变。 预测总的符合率为预测总的符合率为85.3%85.3%。第三节第三节 有序多分类有序多分类LogisticLogistic回归回归一、模型简介一、模型简介 有序多分类的资料,如城市竞争力等级可以划分为高、中、有序多分类的资料,如城市竞争力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论