版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 v 内容提要 内容提要 非条件非条件logistic回归回归 模型简介模型简介 简单分析实例简单分析实例 哑变量设置哑变量设置 自变量的筛选方法与逐步回归自变量的筛选方法与逐步回归 模型拟合效果与拟合优度检验模型拟合效果与拟合优度检验 模型的诊断与修正模型的诊断与修正 条件条件logistic回归回归 对分类变量的分析,当考察的影响因素较少,且也为分类对分类变量的分析,当考察的影响因素较少,且也为分类 变量时,常用列联表(变量时,常用列联表(Contingency Table)进行整理,)进行整理, 并用并用 2检验或分层检验或分层 2检验进行分析,但存在以下局限性:检验进行分析,但存在以下
2、局限性: 无法描述其作用大小和方向,更不能考察各因素间是否无法描述其作用大小和方向,更不能考察各因素间是否 有交互作用;有交互作用; 当控制的分层因素较多时,将导致检验结果不可靠;当控制的分层因素较多时,将导致检验结果不可靠; 2检验无法对连续性自变量进行分析检验无法对连续性自变量进行分析(致命缺陷)(致命缺陷)。 模型简介模型简介 logistic回归模型适合于应变量为二项分类的资料,回归模型适合于应变量为二项分类的资料, 在医学研究领域中的应用广泛。如流行病病因学研在医学研究领域中的应用广泛。如流行病病因学研 究(包括队列研究、病例对照研究、横断面研究究(包括队列研究、病例对照研究、横断面
3、研究 等)、临床疗效研究(如疗效与治疗方法、患病轻等)、临床疗效研究(如疗效与治疗方法、患病轻 中重等因素关系)、卫生服务研究(如是否就诊与中重等因素关系)、卫生服务研究(如是否就诊与 性别、年龄、文化程度的关系)等等。性别、年龄、文化程度的关系)等等。 模型简介模型简介 一、问题的提出一、问题的提出 举例:举例:分析分析 “ “新生儿出生体重新生儿出生体重”的影响影的影响影 响响, , 如果以新生儿出生时的体重为因变量,如果以新生儿出生时的体重为因变量, 采用线性回归分析的方法。采用线性回归分析的方法。 线性回归分析线性回归分析:因变量因变量Y是连续性随机变量是连续性随机变量, 并并且且呈正
4、态分布呈正态分布,理论上因变量必须能够,理论上因变量必须能够 在在到到+ 之间自由取值之间自由取值 问题的提出(续)问题的提出(续) 但在医学研究中常碰到因变量的取值仅有但在医学研究中常碰到因变量的取值仅有 两个两个, 如是否发病、死亡或痊愈等如是否发病、死亡或痊愈等; 分析分析“母亲怀孕期间体重增加母亲怀孕期间体重增加”对对“新生新生 儿出生低体重儿出生低体重”的影响的影响 二、概念的引入二、概念的引入 如按线性回归思想建立模型如按线性回归思想建立模型: P= +P= +XX P P的意义是的意义是发生出生低体重的发生出生低体重的概率概率 在线性回归模型中在线性回归模型中,X,X的取值是任意
5、的的取值是任意的,P,P值值 可能大于可能大于1 1或小于或小于0,0,无法从医学意义进行解无法从医学意义进行解 释释, , 显然不适宜用线性回归建立预测模型。显然不适宜用线性回归建立预测模型。 为避免为避免P值大于值大于1或小于或小于0, 我们我们对对P进行进行logit(即(即 logistic)变换)变换, 把把logit(P)作为因变量,)作为因变量,即即 : Logit(P)=ln p/(1-p) = + x logit(P)可以从)可以从到到+ 之间取任何值之间取任何值 如:计算如:计算logit(0.1),),logit(0.95) logit(0.1)=ln(0.1/0.9)=
6、-2.20 logit(0.95)=ln(0.95/0.05)=2.94 1如果以如果以logitP为因变量,暴露因素为因变量,暴露因素X为自变量,建立直线回归方为自变量,建立直线回归方 程:程: Logit P = + x 由由 Logit P = ln p/(1-p) 可导出可导出: ln p/(1-p) = + x (1) 即单因素线性即单因素线性LOGISTIC 回归模型公式;回归模型公式; “p=在暴露变量在暴露变量E下有病下有病D的概率的概率 ” 解解(1)式中以式中以p为反应变量的方程,得:为反应变量的方程,得: (2) 即单因素曲线即单因素曲线LOGISTIC 回归模型公式。回
7、归模型公式。 x x e e 1 单因素单因素LOGISTIC模型参数的解释模型参数的解释 ln p/(1-p) = + x :与变量:与变量 x x 无关的因素的影响无关的因素的影响 :自变量:自变量 x x 的回归系数,大小由因素的回归系数,大小由因素 x x 决定。决定。 = 0 = 0 表明表明 P P与与 x x 无关,无关, 发病不由因素发病不由因素 x x 决定;决定; 0 0 表明表明 P P与与 x x 有关,有关, 变量变量 x x 是疾病发生的危险因素;是疾病发生的危险因素; 0 1 OR 1 表明疾病表明疾病D D与因素与因素 x x 有关,变量有关,变量x x是疾病发
8、生的危险是疾病发生的危险 因素;因素; OR 1 OR 0: 表明表明 P与与 xi 有关,有关, 变量变量 xi是疾病发生的危险因素;是疾病发生的危险因素; i 0: 表明表明 P 与与 xi 有关,有关, 变量变量 xi 是疾病发生是疾病发生 的保护因素。的保护因素。 12 12 ln/(1) i i pp xxx 反应变量为二分类变量或某事件的发生率;反应变量为二分类变量或某事件的发生率; 自变量与自变量与logit(P)之间为线性关系;)之间为线性关系; 残差合计为残差合计为0,且服从二项分布;,且服从二项分布; 各观测间相互独立。各观测间相互独立。 模型简介模型简介适用条件适用条件
9、v logistic logistic回归模型应该使用最大似然法来解决方程的回归模型应该使用最大似然法来解决方程的 估计和检验问题,不应当使用以前的最小二乘法进行参数估计和检验问题,不应当使用以前的最小二乘法进行参数 估计。估计。 举例举例 1. 定群研究资料分析定群研究资料分析弗明汉心脏研究弗明汉心脏研究 742名居住在弗明汉年龄为名居住在弗明汉年龄为40-49岁的男岁的男 性,在各自暴露不同水平的影响因素性,在各自暴露不同水平的影响因素(详见详见 下表中的下表中的7种因素种因素),经,经12年追踪观察年追踪观察CHD 发病情况。根据此发病情况。根据此742名受试者每人暴露各名受试者每人暴露
10、各 项因素的水平和项因素的水平和CHD发病与否的资料,采发病与否的资料,采 用多因素用多因素LOGISTIC回归模型进行分析,结回归模型进行分析,结 果见表果见表1。 表表1. CHD危险因素定群研究危险因素定群研究(12年追踪观察结果)年追踪观察结果) 变量变量参数参数 i i估计值估计值 i标准误标准误标化标化 i 截距截距 0-13.2573 年龄年龄(岁岁) 10.12160.04370.3370 胆固醇胆固醇(mg/dl) 20.00700.00250.3034 BP(mmHg) 30.00680.00600.1320 相对体重相对体重(W/H) 40.02570.00910.345
11、8 血红蛋白血红蛋白(mg%) 5-0.00100.0098-0.0012 吸烟吸烟(0,1,2,3) 60.42230.10310.4952 ECG(0,1) 70.72060.40090.1750 根据表根据表1结果,可建立的结果,可建立的CHD影响因素的影响因素的Logistic回归模型,回归模型, 公式如下公式如下: p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070 x2 + + 0.7206 x1) 该多因素该多因素LOGISTIC回归分析模型的用途回归分析模型的用途: (1) 确定研究因素的性质确定研究因素的性质: 根据根据 值的正和负,确定所分析因素
12、是危险因素还是保护因值的正和负,确定所分析因素是危险因素还是保护因 素。表中素。表中7种因素中,除血红蛋白为保护因素外,其他均为危险因种因素中,除血红蛋白为保护因素外,其他均为危险因 素。素。 (2) 计算描述因素与疾病间联系强度指标计算描述因素与疾病间联系强度指标OR值的大小值的大小: (A) 由于胆固醇的由于胆固醇的 值为值为0.0070,根据估计,根据估计OR值的公式计算值的公式计算 CHD与胆固醇的联系强度为:与胆固醇的联系强度为: OR = e 3 e0.0070 = 1.007 表明胆固醇上升表明胆固醇上升1mg/dl时,时,CHD发病是原胆固醇水平的发病是原胆固醇水平的1.007
13、倍。倍。 (B) 当当ECG的的 值为值为0.7206时,根据估计时,根据估计OR值的公值的公 式计算式计算CHD与与ECG异常的联系强度为:异常的联系强度为: OR = e 7 = e 7 X 1 / e 7 X 0 = e 7 X (1-0) = e0.7206 = 2.056 表明 表明ECG异常者异常者CHD发病是正常者的发病是正常者的2.056倍。倍。 (3) 比较各变量对方程贡献的大小比较各变量对方程贡献的大小: 根据标化的根据标化的 值大小,确定各因素对值大小,确定各因素对CHD发病影响的发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大大小。在此项研究中,危险因素中吸
14、烟对方程贡献最大 ,其他依次为相对体重、年龄、,其他依次为相对体重、年龄、 胆固醇、胆固醇、ECG和和BP。 4) 用于预测发病率用于预测发病率: 可根据该公式预测某人在不同因素暴露条可根据该公式预测某人在不同因素暴露条 件下件下CHD的发病率。如某受试者的发病率。如某受试者A暴露于因暴露于因 素素xi的情况为:的情况为: X(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者利用该模型计算该受试者A在暴露上述各种研在暴露上述各种研 究因素的条件下,究因素的条件下,12年间年间CHD的发病率为:的发病率为: PA1 = 1/1+exp-(-13.2573 + 0
15、.1216 x 45 + 0.0070 x 210 + +0.7206 x 0) = 1/1+exp(-2.9813) = 0.048 (5) 预测发病风险预测发病风险: 例例1: 如上述受试者如上述受试者A暴露于因素暴露于因素 xi 的情况变为:的情况变为: X(45, 210, 130, 100, 120, 3, 0) 即其由不吸烟变为每日吸烟即其由不吸烟变为每日吸烟1包以上包以上(x6=3),可利用,可利用 该模型估计受试者该模型估计受试者A在其他各种研究因素暴露不变的在其他各种研究因素暴露不变的 条件下,其因改变吸烟行为而在条件下,其因改变吸烟行为而在12年间年间CHD的发病的发病 率
16、上升为:率上升为: PA2 =1/1+exp-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.42223 x 3 + 0.7206 x 0) = 1/1+exp(1.7144) = 0.1526 则受试者则受试者A因改变吸烟行为,其在因改变吸烟行为,其在12年间发生年间发生CHD 风险将上升为原来的风险将上升为原来的3.16倍。可用相对危险度倍。可用相对危险度RR公公 式进行计算,即:式进行计算,即: RR PA2 / PA1 = 0.1526 / 0.048 = 3.16 应用多变量应用多变量logistic回归注意事项回归注意事项 (1)因变量必须是
17、二分变量,或任何取值为)因变量必须是二分变量,或任何取值为0或或 1的属性数据。的属性数据。 (2)logistic回归分析对自变量的正态性、方差回归分析对自变量的正态性、方差 齐性不作要求,对自变量类型也不作要求。齐性不作要求,对自变量类型也不作要求。 但应注意自变量但应注意自变量与与logit y之间应符合线性关系。之间应符合线性关系。 如自变量为连续变量,且如自变量为连续变量,且与与logit y之间不存在之间不存在 线性关系,应作适当变量转换,否则参数估计线性关系,应作适当变量转换,否则参数估计 会发生偏倚,结论不可靠。会发生偏倚,结论不可靠。 如果自变量为定量指标:如果自变量为定量指
18、标: (1)同时自变量与)同时自变量与logit y之间为线性关系,之间为线性关系, 则可以直接以原变量的形式进入分析;则可以直接以原变量的形式进入分析; (2)如果自变量与)如果自变量与logit y之间为非线性关系,之间为非线性关系, 则需做适当转换,如则需做适当转换,如x2,log(x),),ex等。等。 也就是说,如果自变量是定量指标的话,在进行回归也就是说,如果自变量是定量指标的话,在进行回归 分析之前一定要首先判断此变量是否与结局变量分析之前一定要首先判断此变量是否与结局变量logit y 之间呈线性关系;定性或等级指标则不用考虑这个问之间呈线性关系;定性或等级指标则不用考虑这个问
19、 题。题。 如果自变量为定性指标:如果自变量为定性指标: (1)如果自变量为二分类变量,常用)如果自变量为二分类变量,常用0, 1或或1,2表示。如表示。如x为性别指标,为性别指标,0代表代表 女性,女性,1代表男性代表男性(如何解释结果?)如何解释结果?)。 (2)如果自变量为多分类指标,需要)如果自变量为多分类指标,需要 用亚(哑)变量(用亚(哑)变量(dummy)表示,又称)表示,又称 指示变量(指示变量(indicator variables) (3)如果自变量为等级资料,可以用两种)如果自变量为等级资料,可以用两种 方法处理:方法处理: 一是将等级数量化后直接进入分析,如果一是将等级
20、数量化后直接进入分析,如果y 的改变在每个等级上是近似相等的,则该的改变在每个等级上是近似相等的,则该 法效果很好;法效果很好; 二是视为定性指标,用亚变量表示,一般二是视为定性指标,用亚变量表示,一般 用于用于y在每个等级上的变化不相等时。在每个等级上的变化不相等时。 样本量样本量 用用logistic回归模型,样本含量要求较大。回归模型,样本含量要求较大。 小样本不适宜。样本含量至少是变量数的小样本不适宜。样本含量至少是变量数的 10倍以上,否则方程不稳定,系数估计或倍以上,否则方程不稳定,系数估计或 标准误估计常出现异常,结果无法解释。标准误估计常出现异常,结果无法解释。 Logisti
21、c回归采用最大似然比估计法来对模型回归采用最大似然比估计法来对模型 进行估计,最大似然估计在大样本或中等样本进行估计,最大似然估计在大样本或中等样本 (如(如n=100)的条件下能保持较好的有效性。)的条件下能保持较好的有效性。 Long(1997)提到,在样本规模小于)提到,在样本规模小于100时时 使用最大似然估计风险较大。使用最大似然估计风险较大。 样本量的大小依赖于模型和数据的特点。参数样本量的大小依赖于模型和数据的特点。参数 越多所需样本量越大,一般认为一个参数至少越多所需样本量越大,一般认为一个参数至少 需要需要10个案例,但要注意的是,并不是说如果个案例,但要注意的是,并不是说如
22、果 只有几个参数就不需要样本量大于只有几个参数就不需要样本量大于100了。了。 如果自变量之间存在高度共线性或因变量如果自变量之间存在高度共线性或因变量 的变化太小(如有太多的研究对象的反应的变化太小(如有太多的研究对象的反应 值都相同)等问题存在就需要较大的样本;值都相同)等问题存在就需要较大的样本; (4)许多人进行多变量回归分析时,往往先作单)许多人进行多变量回归分析时,往往先作单 变量分析,将单变量分析中有显著性意义的变量变量分析,将单变量分析中有显著性意义的变量 再进入多变量分析,这样做法不妥。因为,单变再进入多变量分析,这样做法不妥。因为,单变 量分析没有意义的变量在多变量分析时不
23、一定也量分析没有意义的变量在多变量分析时不一定也 没有意义。因此,应将所有变量都一起进入多变没有意义。因此,应将所有变量都一起进入多变 量分析,进行筛选。量分析,进行筛选。 (5)与多变量线性回归一样,如果各个自变)与多变量线性回归一样,如果各个自变 量之间存在自相关,呈多元共线性,量之间存在自相关,呈多元共线性,bj的的 误差可能较大,可使偏回归系数估计发生误差可能较大,可使偏回归系数估计发生 很大的偏倚,甚至使偏回归系数的符号反很大的偏倚,甚至使偏回归系数的符号反 常、偏回归系数的假设检验呈无显著性。常、偏回归系数的假设检验呈无显著性。 这时,可将自相关的变量其中之一剔除。这时,可将自相关
24、的变量其中之一剔除。 或增加样本含量以减少标准误,抵消共线或增加样本含量以减少标准误,抵消共线 性的影响。或用逐步回归方法,寻找最佳性的影响。或用逐步回归方法,寻找最佳 方程。或将几个高度相关的变量综合,形方程。或将几个高度相关的变量综合,形 成一个新变量(主成分)进入回归。成一个新变量(主成分)进入回归。 (6)自变量的记录中可能出现极端值)自变量的记录中可能出现极端值 (outlier)。其残差较其它各点大得多,)。其残差较其它各点大得多, 或出现或出现high leverage point(高杠杆点),(高杠杆点), 其距其它各点较远,或出现强影响点其距其它各点较远,或出现强影响点 (i
25、nfluential point),对模型有较大影响。),对模型有较大影响。 遇到这种情况,首先应检查是否录入错误,遇到这种情况,首先应检查是否录入错误, 是否忽略了重要的协变量、是否需要增设是否忽略了重要的协变量、是否需要增设 交互项、样本是否足够多?交互项、样本是否足够多? 然后,检查是否是异常值?然后,检查是否是异常值? 例例1 某医师希望研究病人的年龄某医师希望研究病人的年龄age、性别、性别sex (0为女性、为女性、1为男性)、心电图检验是否异常为男性)、心电图检验是否异常 ecg(ST段压低、段压低、0为正常、为正常、1为轻度异常、为轻度异常、2为为 重度异常)与冠心病重度异常)
26、与冠心病ca是否有关,数据见是否有关,数据见 logistic_binary.sav。 简单分析实例简单分析实例 简单分析实例简单分析实例 选入应变量选入应变量 选入自选入自 变量变量 简单分析实例简单分析实例 Dependent Variable Encoding 0 1 Original Value 未患病 患病 Internal Value 简单分析实例简单分析实例 结果分析结果分析 v 此表为应变量取值水平编码,此表为应变量取值水平编码,SPSSSPSS默认取值水平默认取值水平 高的为阳性结果。高的为阳性结果。 简单分析实例简单分析实例 结果分析结果分析 v 本表输出当前模型的本表输出
27、当前模型的-2log-2log(似然值)和两个伪决(似然值)和两个伪决 定系数,但对于定系数,但对于logisticlogistic回归而言,通常看见的伪决回归而言,通常看见的伪决 定系数不像线性回归模型中的决定系数那么大。定系数不像线性回归模型中的决定系数那么大。 Model Summary 86.811 a .237.316 Step 1 -2 Log likelihoodCox & Snell R SquareNagelkerke R Square Estimation terminated at iteration number 5 because parameter estimate
28、s changed by less than .001. a. Variables in the Equation 1.356.5466.1621.0133.882 .873.3845.1621.0232.395 .093.0357.0001.0081.097 -5.6421.8069.7571.002.004 sex ecg age Constant Step 1 a BS.E.WalddfSig.Exp(B) Variable(s) entered on step 1: sex, ecg, age.a. 简单分析实例简单分析实例 结果分析结果分析 v 此表输出模型中的各自变量的偏回归系数及
29、其标准此表输出模型中的各自变量的偏回归系数及其标准 误、误、WaldWald 2 2、自由度、自由度、P P 值、值、OROR值(即值(即expexp(B B)。)。 哑变量设置哑变量设置 在回归模型中,回归系数在回归模型中,回归系数b b表示其他自变量不变,表示其他自变量不变,x x 每改变一个单位时,所预测的每改变一个单位时,所预测的y y的平均变化量,当的平均变化量,当x x 为连续性变量时,这样解释没有问题,二分类变量为连续性变量时,这样解释没有问题,二分类变量 由于只存在两个类别间的比较,也可以对系数得到由于只存在两个类别间的比较,也可以对系数得到 很好的解释。但是当很好的解释。但是
30、当x x为多分类变量时,仅拟合一为多分类变量时,仅拟合一 个回归系数就不太合适了,此时需要使用个回归系数就不太合适了,此时需要使用哑变量哑变量 (dummy variabledummy variable)方式对模型进行定义。)方式对模型进行定义。 例例2 Hosmer 和和Lemeshow于于1989年研究了低出生体年研究了低出生体 重婴儿的影响因素,结果变量为是否娩出低出生体重婴儿的影响因素,结果变量为是否娩出低出生体 重儿(变量名为重儿(变量名为LOW,1表示低出生体重儿,表示低出生体重儿,0表示表示 非低出生体重儿),考虑的自变量有产妇妊娠前体非低出生体重儿),考虑的自变量有产妇妊娠前体
31、 重、产妇年龄、种族、是否吸烟、早产次数、是否重、产妇年龄、种族、是否吸烟、早产次数、是否 患高血压等。(数据文件见:患高血压等。(数据文件见:logistic_step.sav。)。) 哑变量设置哑变量设置 哑变量设置哑变量设置 哑变量设置哑变量设置 选入无序多选入无序多 分类变量分类变量 设置参照水设置参照水 平平 哑变量设置哑变量设置 Categorical Variables Codings 961.000.000 26.0001.000 67.000.000 白人 黑人 其他种族 种族 Frequency(1)(2) Parameter coding 哑变量设置哑变量设置 结果分析结
32、果分析 v 哑变量(种族)的设置情况哑变量(种族)的设置情况 Variables in the Equation -.025.037.4831.487.975 -.014.0074.0901.043.986 7.1462.028 -.908.4374.3261.038.403 .329.534.3801.5371.390 .927.3995.4141.0202.528 .552.3452.5621.1091.736 1.763.6896.5411.0115.831 .649.4681.9251.1651.913 .032.171.0351.8511.033 1.1431.0871.1041.2
33、933.135 age lwt race race(1) race(2) smoke ptl ht ui ftv Constant Step 1 a BS.E.WalddfSig.Exp(B) Variable(s) entered on step 1: age, lwt, race, smoke, ptl, ht, ui, ftv.a. 哑变量设置哑变量设置 v 白人低出生体重的风险较低,而黑人风险较高。白人低出生体重的风险较低,而黑人风险较高。 结果分析结果分析 参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作
34、保证,应不少于参照水平组要有一定的频数作保证,应不少于30或或50例;例; 对有序自变量的分析:对有序自变量的分析: 从专业出发确定;从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较分别以哑变量和连续性变量的方式引入模型进行比较 后确定。后确定。 哑变量设置哑变量设置 v 哑变量设置应该注意的问题哑变量设置应该注意的问题 Forward:Conditional (最可靠)(最可靠) Forward:LR Forward:Wald (应当慎用)(应当慎用) Backward: Conditional (最可靠)(最可靠) Backward:LR Backward:Wald(应当慎
35、用)(应当慎用) v 6 6 种筛选自变量的方法种筛选自变量的方法 逐步回归逐步回归 例例3 仍以例仍以例2的数据的数据 为例,演示如何在为例,演示如何在 SPSS中实现逐步中实现逐步 logistic回归分析。回归分析。 逐步回归逐步回归 选择其中一选择其中一 种逐步法种逐步法 逐步回归逐步回归 Model Summary 227.893a.035.050 223.583b.057.080 217.220b.088.124 Step 1 2 3 -2 Log likelihoodCox & Snell R SquareNagelkerke R Square Estimation termin
36、ated at iteration number 3 because parameter estimates changed by less than .001. a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001. b. 逐步回归逐步回归 v 给出了模型拟合过程中每一步的给出了模型拟合过程中每一步的-2log-2log(L L)及)及 两个伪决定系数。两个伪决定系数。 结果分析结果分析 Variables in the Equation .80
37、2.3176.3911.0112.230 -.964.17530.3701.000.381 .823.3186.6831.0102.277 1.272.6164.2701.0393.569 -1.062.18433.2241.000.346 -.015.0075.5841.018.985 .728.3274.9611.0262.071 1.789.6946.6391.0105.986 .893.8291.1581.2822.441 ptl Constant Step 1 a ptl ht Constant Step 2 b lwt ptl ht Constant Step 3 c BS.E.W
38、alddfSig.Exp(B) Variable(s) entered on step 1: ptl.a. Variable(s) entered on step 2: ht.b. Variable(s) entered on step 3: lwt.c. 逐步回归逐步回归 结果分析结果分析 Variables not in the Equation 3.1491.076 3.3401.068 5.3592.069 5.0281.025 2.0561.152 3.1641.075 4.7221.030 2.1621.141 .7531.385 22.8588.004 age lwt race
39、race(1) race(2) smoke ht ui ftv Variables Overall Statistics Step 1 ScoredfSig. 逐步回归逐步回归 结果分析结果分析 v 输出了尚不在模型中的自变量是否能被引入的输出了尚不在模型中的自变量是否能被引入的ScoreScore 检验结果,这里只给出第一步的结果。检验结果,这里只给出第一步的结果。 对数似然值与伪决定系数对数似然值与伪决定系数 模型预测正确率模型预测正确率 ROCROC曲线曲线 模型拟合效果检验模型拟合效果检验 v 拟合效果判断指标:拟合效果判断指标: -2 倍对数似然值表示模型的拟合效果,其值越小,越接近
40、于倍对数似然值表示模型的拟合效果,其值越小,越接近于 0,说明模型拟合效果越好。,说明模型拟合效果越好。 但是,当自变量中存在缺失值时,因为一般统计软件在进行但是,当自变量中存在缺失值时,因为一般统计软件在进行 计算时会把含有缺失值的记录予以剔除,不参与统计分析,计算时会把含有缺失值的记录予以剔除,不参与统计分析, 此时不能用此时不能用-2log likelihood 对不同模型的拟合效果进行比对不同模型的拟合效果进行比 较。较。 模型拟合效果检验模型拟合效果检验 Classification Table a 123794.6 471220.3 71.4 Observed 正常 低出生体重 低
41、出生体重儿 Overall Percentage Step 3 正常低出生体重 低出生体重儿 Percentage Correct Predicted The cut value is .500a. 例例3进行逐步回归的第三步(进行逐步回归的第三步(step3)输出以上结果,预测)输出以上结果,预测 正确的记录占正确的记录占71.4。 模型拟合效果检验模型拟合效果检验 Save子对话框子对话框 模型拟合效果检验模型拟合效果检验 v先保存研究对先保存研究对 象的预测概率。象的预测概率。 模型拟合效果检验模型拟合效果检验 模型拟合效果检验模型拟合效果检验 模型拟合效果检验模型拟合效果检验 v 这就
42、是这就是ROCROC曲线,曲线, 预测效果最佳时,曲预测效果最佳时,曲 线应该从左下角垂直线应该从左下角垂直 上升至顶,然后水平上升至顶,然后水平 向右延伸到右上角。向右延伸到右上角。 结果分析结果分析 Area Under the Curve Test Result Variable(s): Predicted probability .708.043.000.624.792 AreaStd. Error a Asymptotic Sig. b Lower BoundUpper Bound Asymptotic 95% Confidence Interval The test result
43、variable(s): Predicted probability has at least one tie between the positive actual state group and the negative actual state group. Statistics may be biased. Under the nonparametric assumptiona. Null hypothesis: true area = 0.5b. 模型拟合效果检验模型拟合效果检验 结果分析结果分析 v 本表是对本表是对ROCROC曲线下面积计算的结果,可见曲线下面曲线下面积计算的结果
44、,可见曲线下面 积为积为0.7080.708,9595可信区间为可信区间为0.6240.624 0.7920.792。 模型拟合优度检验(模型拟合优度检验(Test of Goodness Fit ):): 考察当前模型是否可以进一步改善,检验当前模型与饱考察当前模型是否可以进一步改善,检验当前模型与饱 和模型的预测效果之差是否有统计学意义。和模型的预测效果之差是否有统计学意义。 拟合优度检验拟合优度检验 Pearson 和和Deviance 拟合优度检验:拟合优度检验: 当自变量很多,或包含连续性自变量时,不可以用这两种方法。当自变量很多,或包含连续性自变量时,不可以用这两种方法。 似然比检
45、验:似然比检验: 主要用于考察饱和模型是否可以进一步简化。主要用于考察饱和模型是否可以进一步简化。 HosmerLemeshow检验检验: 通常用于自变量很多,或包含连续性自变量的情况。通常用于自变量很多,或包含连续性自变量的情况。 拟合优度检验拟合优度检验 v 模型拟合优度检验的常用方法:模型拟合优度检验的常用方法: 点击主对话框中的点击主对话框中的options按钮,出现如下所示的对话框:按钮,出现如下所示的对话框: 拟合优度检验拟合优度检验 Hosmer and Lemeshow Test 9.9798.266 Step 3 Chi-squaredfSig. Contingency Ta
46、ble for Hosmer and Lemeshow Test 1616.69732.30319 1515.30343.69719 1817.46155.53923 1613.21524.78518 1513.70845.29219 1512.68335.31718 1112.31075.69018 1112.27986.72119 610.531138.46919 75.8121011.18817 1 2 3 4 5 6 7 8 9 10 Step 3 ObservedExpected 低出生体重儿 = 正常 ObservedExpected 低出生体重儿 = 低出 生体重 Total 拟
47、合优度检验拟合优度检验 结果分析结果分析 用用save子对子对 话框可以保存各话框可以保存各 种残差;种残差; 如果残差的绝如果残差的绝 对值大于对值大于2,提,提 示该记录可能是示该记录可能是 异常点。异常点。 Save子对话框子对话框 模型的诊断与修正模型的诊断与修正 v 残差分析残差分析 多重共线性的对偏回归系数的影响与线性回归模型中的表现多重共线性的对偏回归系数的影响与线性回归模型中的表现 一致,如增加或删除一条记录,模型中偏回归系数值发生较一致,如增加或删除一条记录,模型中偏回归系数值发生较 大变化,专业上认为有意义的因素无统计学意义等等。大变化,专业上认为有意义的因素无统计学意义等
48、等。 如果在进行如果在进行logisticlogistic模型分析中,尤其是在向模型中引入交模型分析中,尤其是在向模型中引入交 互作用项时出现了回归结果反常现象,则自变量之间的多重互作用项时出现了回归结果反常现象,则自变量之间的多重 共线性是需要排除的一种可能。共线性是需要排除的一种可能。 模型的诊断与修正模型的诊断与修正 v 多重共线性的识别:多重共线性的识别: 目前目前SPSSSPSS的的logisticlogistic过程中尚没有关于多重共线性过程中尚没有关于多重共线性 诊断的结果输出,代替方法之一是运用相同的反应诊断的结果输出,代替方法之一是运用相同的反应 变量与自变量,拟合线性回归模
49、型,并进行相应的变量与自变量,拟合线性回归模型,并进行相应的 共线性诊断。共线性诊断。 模型的诊断与修正模型的诊断与修正 v 多重共线性的识别:多重共线性的识别: 匹配设计匹配设计(matched design)是在设计阶段控制混杂因素的)是在设计阶段控制混杂因素的 一种方法。当得到一名研究病例后,选择一名或多名非病例一种方法。当得到一名研究病例后,选择一名或多名非病例 作为对照,选择相应对照的条件是:某些需要控制的混杂因作为对照,选择相应对照的条件是:某些需要控制的混杂因 素与该病例之间相同或相似,从而形成一个匹配的对子。一素与该病例之间相同或相似,从而形成一个匹配的对子。一 个匹配的对子可
50、以只有个匹配的对子可以只有 1个病例和个病例和1个对照,称个对照,称1:1匹配;匹配; 当病例很罕见时,常采用当病例很罕见时,常采用 1个病例,多个对照,此时称为个病例,多个对照,此时称为1: m匹配,常用的匹配,常用的 m一般小于等于一般小于等于4,不同的对子,不同的对子,m可以不同;可以不同; 还可设计还可设计m:n匹配,即不同对子的病例与对照个数均可不同,匹配,即不同对子的病例与对照个数均可不同, 这样的设计增加了收集资料的灵活性。这样的设计增加了收集资料的灵活性。 条件条件logistic回归回归简介简介 对于这类匹配设计资料,如果采用以上介绍的非条件对于这类匹配设计资料,如果采用以上
51、介绍的非条件 logisticlogistic回归方法,将会降低检验效能。而应当采用回归方法,将会降低检验效能。而应当采用 条件条件logisticlogistic回归模型回归模型(conditional logistic conditional logistic regression modelregression model)又称配对又称配对logisticlogistic回归模型进行回归模型进行 分析。分析。 条件条件logistic回归回归简介简介 用变量差值拟合:用变量差值拟合:只适用于只适用于1:1配对的情况,用配对的情况,用 Multinomial logistic 过程实现;过
52、程实现; 用分层用分层Cox模型拟合:适用范围非常广。模型拟合:适用范围非常广。 条件条件logistic回归回归 v SPSS SPSS中的拟合方法:中的拟合方法: 例例4 Mack等人预考察服用雌激素与患子宫内膜癌的关等人预考察服用雌激素与患子宫内膜癌的关 系,对退休居住在社区的妇女进行病例对照研究。除服系,对退休居住在社区的妇女进行病例对照研究。除服 用雌激素以外,研究的自变量还包括肥胖、胆囊病史、用雌激素以外,研究的自变量还包括肥胖、胆囊病史、 服用其他非雌激素药物。数据见服用其他非雌激素药物。数据见1_1_logistic.sav。 条件条件logistic回归回归实例分析实例分析
53、compute case = case1 - case2. compute age = age1 - age2. compute est = est1 - est2. compute gall = gall1 - gall2. compute nonest = nonest1 -nonest2. execute. 由于本例是由于本例是1:1配对,可以使用变量差值方式加以拟合。配对,可以使用变量差值方式加以拟合。 首先运用首先运用compute过程产生配对过程产生配对logistic回归的分析变量,回归的分析变量, 或用以下程序予以实现:或用以下程序予以实现: 条件条件logistic回归回归实
54、例分析实例分析 条件条件logistic回归回归实例分析实例分析 条件条件logistic回归回归实例分析实例分析 v 把自变量全部把自变量全部 选入选入CovariateCovariate框,框, 不能选入不能选入factorfactor 框!框! 默认情况下该复默认情况下该复 选框选中,应该选框选中,应该 去除该复选框去除该复选框 条件条件logistic回归回归实例分析实例分析 Warnings The dependent variable has only one valid value. A conditional logistic regression model will be fitted. 条件条件logistic回归回归 结果分析结果分析 v 这是系统给出的警告,说明由于反应变量只有一这是系统给出的警告,说明由于反应变量只有一 个水平,因此个水平,因此SPS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西田阳县2026届第二学期初三期末考试语文试题含解析
- 浙江省慈溪市(区域联考)2026年第二学期初三语文试题统练(二)含解析
- 天津市蓟县2025-2026学年初三下学期第一次在线月考物理试题含解析
- 重庆八中学2026届初三三模联考生物试题试卷含解析
- 江苏省南京秦淮区南航附中2025-2026学年初三下学期二模考试英语试题试卷含解析
- 山东省泰安市肥城市湖屯镇初级中学2026年初三3月联考数学试题试卷含解析
- 深圳罗湖区五校联考2026届初三下学期自测卷(二)线下考试英语试题含解析
- 支气管哮喘的护理(2024年版指南)
- 土地过户合同范本
- 2026年构网型储能一次调频参数整定与试验
- 安踏内部审计制度
- 《工程总承包(EPC)项目审计操作指南(试行)》
- 2026年江苏省公务员考试《申论》试卷及参考答案
- 2026年宁夏石嘴山市单招职业适应性测试题库(含答案详解)
- 煤气管道动火作业施工方案
- 《慢性支气管炎诊断与治疗指南(2025年版)》
- 个体化胚胎移植临床实践指南2026
- 应急响应团队能力提升路径-洞察与解读
- 0-6岁儿童行为预警及早期干预手册
- 水运工程结构防腐蚀施工规范 JTS-T 209-2020
- 带状疱疹后遗神经痛的中医治疗
评论
0/150
提交评论