11Logistic回归分析精讲_第1页
11Logistic回归分析精讲_第2页
11Logistic回归分析精讲_第3页
11Logistic回归分析精讲_第4页
11Logistic回归分析精讲_第5页
已阅读5页,还剩20页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、11 Logistic 回归分析在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治 愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。这类资 料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥 的,需用 Logistic 回归分析。 Logistic 回归分析是一种适用于因变量为分类变量的回归分析, 近年来在许多研究领域得到了广泛的应用。Logistic 回归属于概率型非线性回归, 它分为非条件 Logistic 回归和条件 Logistic 回归 (又 称配比 Logistic 回归 ) ,二者根本的差别在于构造 Lo

2、gistic 模型时是前者未使用条件概率, 后 者使用了条件概率。11.1 二分类资料的 Logistic 回归分析如果因变量 Y 是二分类变量, 其取值只有两种, 如阳性(编码为 1)和阴性 (编码为 0), 这时要说明的问题是阳性率 p Pr (Y 1)与自变量 X 间的关系,可进行因变量为二分类资 料的 Logistic 回归。二分类 Logistic 回归对自变量没有特殊要求,自变量可以是分类变量和 连续变量。11.1.1 一个两分类自变量的二分类 Logistic 回归一个自变量的二分类Logistic 回归要拟合的Logistic 回归方程为:log it ( p) ln( p )

3、 b0 b1X11p例 11-1 实用中医药杂志 2006 年 1 月 第 22 卷 1 期,复方血栓通胶囊配合肌苷片治疗 青少年近视,数据见表 11-1。试作 Logistic 回 归。组别例数有效无效治疗组13110229对照组761858表 11-1 复方血栓通胶囊疗效观察解 本例分组为自变量,疗效为因变量。以fz 表示分组(值标签: 1=“治疗组”、 0=对照组” )、 lx 表示疗效(值标签:1=“有效”、0=“无效”)、f表示频数变量建立数据文件,如图11-1。图 11-1 例 11-1 数据文件1操作步骤( 1)指定频数变量: 选择菜单 Data Weight cases,在弹出

4、的 Weight cases 对话框中,将频数变量 f 送入 Frequency 框中;单击 OK。( 2)进行二分类 Logistic 回归分析。选择菜单 Analyze Regression Binary Logistic 二分类 Logistic ),弹出 Logistic Regression 对话框, 如图 11-2 ;将因变量 lx 送入 Dependent 因变量)框内,将自变量 fz 送入 Covariates(协变量)框内;单击 Options (选项)按钮,在弹出的 Options 对话框中,选中 CI for exp (B) ,单击 Continue ;单击 OK 。图

5、11-2 Logistic Regression 对话框2输出结果1)图 11-3 是因变量赋值表。 这是一个特别要留意的表, 表中因变量原码值 (OriginalOriginal ValueInternal Value0011Dependent Variable Encoding图 11-3 因变量赋值Value)是按升序排列后转换为内码值( Internal Value )0 和 1, Binary Logistic 过程默认以内码值 1 所对应的因变 量取值的概率建立模型, 本例以 P(lx=1) 即有效的概率建 立模型。 如果本例用 1 表示有效, 2 表示无效,则无效 2 对应的内码

6、值为 1,将以 P(lx=2) 即无效的概率建立模型, 尽管所有统计检验结果仍然相同,但是回归系数的符号 全将反过来,所计算的 Exp(B )就完全不同了。搞清实际分析资料因变量的赋值情况,对 分析结果的正确解释很重要。(2)初步模型拟合 (输出结果中 Block 0: Beginning Block 部分,此处略去了输出图表) 。 给出模型不含任何自变量,只有常数项的一些分析结果,包括 Classification Table 表,给出 模型不含任何自变量时, 对所有观察对象的疗效情况进行预测, 正确预测的百分率为 58.0% ; Variables in the Equation 表,给出

7、只有常数项的参数检验结果;Variables not in the Equation表,给出若将现有模型外的各个变量纳入模型,对整个模型的拟合优度改变是否有统计学 意义。(3)引入自变量后的模型分析结果 (输出结果中 Block 1: Method = Enter 部分)。SPSS 提供了 7 种建立 Logistic 回归模型的方法,可通过 Logistic Regression 对话框(见图 11-2 ) 中 Method 下拉列表框来选择,默认 Enter 法,即强迫所有的自变量同时进入模型,本例为Enter 法(全变量模型)。结果如下: 模型系数总检验(见图 11-4)。给出了三个结果

8、: Step 统计量为每一步与前一步相 比的似然比检验结果; Block 统计量是指若将 block1 与 block0 相比的似然比检验结果; Model 统计量则是上一个模型与当前模型的似然比检验结果。 本例由于选择了默认的 Enter 法, 三 个统计量及其假设检验结果是一样的。 2=59.969,P0.01( Sig.为 0.000),表明自变量 fz 引入模型有统计学意义。若是两个或两个以上自变量引入模型, 模型系数总检验得到 P ,拒绝 H0 ,接受 H1 ( H0 : 1 2 k 0 ,即除常数项外所有的总体回归系数全为0),表明至少有一个自变量的作用有统计学意义。Chi-squ

9、aredfSig.Step 1 Step59.9691.000Block59.9691.000Model59.9691.000Omnibus Tests of Model CoefficientsStep-2 Log likelihoodCox & Snell R SquareNagelkerkeR Square1221.711a.252.338Model Summarya. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.图 11-4 模型系数总

10、检验 图 11-5 模型的贡献 模型的贡献(见图 11-5)。给出 -2 倍的似然对数值为 221.711,结合中提及的似然 比检验结果,可认为模型成立。 Cox and Snell R2和 Nagelkerke R2分别为 0.252 和 0.338,其 含义与多元回归中的决定系数意义相同,表示回归模型对因变量变异贡献的百分比。 分类表(见输出结果中 Classification Table ,此处略)。给出现在模型对因变量的分 类预测情况。模型中已经引入了一个自变量,由这个自变量获得的预测概率0.5,则这个观测被预测分类为 1; 0.5 则预测为 0,由此得到正确预测的百分率为 77.3%

11、,比没有自变 量只有常数项的 58.0%提高了 19.3 % 。 进入回归方程的变量分析结果(见图 11-6 )。这是 Logistic 回归分析结果最重要的一 部分。包括最终引入模型的自变量及常数项的系数值 (B)、标准误(SE)、Wald 卡方值( Wald)、 自由度( df)、 P值( Sig.)、 OR 值( Exp(B) )及其 95%的可信区间。Variables in the EquationBS.E.WalddfSig.Exp(B)95.0% C.I.for EXP(B)LowerUpperSatepfz2.428.34250.3401.00011.3335.79622.16

12、21Constant-1.170.27018.8071.000.310a. Variable(s) entered on step 1: fz.图11-6 例 11-1参数估计及检验本例变量 fz的系数为 b1=2.428 ,Wald 卡方值为 50.340, P 0.01,有统计学意义。自变量 fz的比数比为 OR =eb1 e2.428 11.333,即治疗组有效例数与无效例数之比,为对照组有效例数与无效例数之比的 11.333 倍,可认为治疗组的疗效高于对照组。常数项b0= 1.170 。本例 Logistic 回归方程为:logit(p) ln( p ) 1.170 2.428 fz

13、。1p值得注意的是 OR 值在不同的设计中意义不同:病例 -对照研究(回顾性研究), OR值为比数比,要注意病例与对照两组人数的比例是人为规定的,不代表自然人群中真实的病人与正常人的比值,因此,根据病例-对照研究资料建立的 Logistic 回归方程中,常数项意义不大, 主要针对结果中自变量的回归系数及其相应的比数比 OR 值的意义作解释, 不适 宜直接用于所研究事件发生概率的预测和判别。队列研究(即前瞻性研究) ,当队列研究 的事件发生的阳性率很低(接近于0)时,可把 OR 近似看作相对危险度( RR),另外可用建立的 Logistic 回归方程对所研究的事件发生概率进行预测和判别。 疗效评

14、价中的设计类 似队列研究,但 OR 不能当作 RR,还是作为比数比且结合具体问题加以解释为好。11.1.2 两个两分类自变量的二分类 Logistic 回归要拟合的 Logistic 回归方程为:log it ( p) ln( p ) b0 b1X1 b2X 21pSPSS 实现两个两分类自变量的二分类资料Logistic 回归分析与实现一个两分类自变量的二分类资料 Logistic 回归分析在步骤方法上是相同的。不同之处在于在建立SPSS 数据集时两个自变量各占一列,因变量一列,频数一列,共四列。操作时,需将两个自变量都移 到 Covariates 框内; 结果给出常数项及两个自变量对应的参

15、数估计及其检验统计量值,有两个比数比值。11.1.3 无序多分类自变量的二分类 Logistic 回归 自变量中一个或多个为无序多分类变量, 其 Logistic 回归, 在方法上同上述二分类资料 的 Logistic 回归, 只是要对自变量的不同水平构造哑变。 某一多分类无序自变量可构造的哑 变量数等于该自变量的分类数减 1。将哑变量引入模型,其结果无论有无统计学意义,都是相对事先确定该自变量某一类为对照而言的。SPSS对字符型多分类无序自变量,以( Cat)标示在该自变量后的括号内, 系统默认相互比较的方法为 Indicator ,且以最后的那个分类为 对照。11.1.4 有序多分类自变量

16、的二分类 Logistic 回归有时, Logistic 回归中自变量为有序多分类变量, 即等级变量, 如文化程度可分为文盲、 小学、中学、大学及以上。这种资料的 Logistic 回归可分两种情况处理,如果自变量的等级 分组与 logitP 呈线性关系, 即等级效应等比例增加或减少, 则该自变量可以作为一个数值型 自变量引入模型,否则,将等级变量当作无序多分类自变量,以哑变量的形式引入模型进 行分析。11.1.5 引入数值型自变量的二分类 Logistic 回归数值变量直接引入模型, 得到相应的比数比 OR 是指自变量增加一个单位 (如年龄增加 1 岁)比数自然对数值的变化量。若将数值自变量

17、分成几个组段,如自变量年龄按 10 岁间 隔分组引入模型时, 其 OR 值是指年龄每增加 10 岁比数自然对数值的变化量。 特殊情况下, 数值变量(或分组后的变量)与 logitP 不呈线性关系,例如,研究年龄与冠心病的关系,从 理论上讲,年轻时年龄增加 10 岁,与年老时年龄增加 10 岁,患病风险变化不同,即 OR 的意义不等同,这种情况应将数值变量分组转变为分类变量,用哑变量进行分析。例 11-2 为了探索胃癌的有关危险因素和保护因素,对 33 例胃癌病人和 35 例对照者 进行病例对照研究,考察的危险因素作为自变量,分别为x1(年龄)、x2(蛋白质摄入量,由低到高分别为 0、1、2、3

18、、 4)、 x3(新鲜蔬菜及水果食用情况,良好、一般、不足、严 重不足分别为 0、 1、 2、 3)、 x4 (吃盐渍食物及嗜重盐饮食,由轻到重分别为0、1、 2、3、4)、 x5 (饮食习惯,良好、一般、不良、严重不良分别为0、1、2、3)、 x6 (精神心理因素,乐观、 较乐观、 一般、不良分别为 0、1、2、3)。是否患胃癌为因变量 y(未患胃癌者为 y=0, 患胃癌者为 y=1),结果资料见表 11-2。试进行 Logistic 回归分析,且用逐步回归分析方法 筛选上述因素。表 11-2 胃癌危险因素成组设计的结果资料序号x1x2x3x4x5x6y序号x1x2x3x4x5x6y1602

19、100003662213101240221100375613222135411122038614232214711202003954222111558000000406812331164922210041620112017560131004253232211841310100436912312195422220044610142011040322100456220222111593101004653121111126012110047500232311354110200487312221114632121004956023231155302020050542142111670113000516

20、912211117430221005274012201184011100053544032311954120100545513212120500300005579211311216411000056641221012249110200574011323123601201005861212221247611020059501232212553121200605612432126562001006154212111274312010062681233312866312100635521221129523210006466221221304820000065511142213153310000666

21、2132211326622110067613243213351111100685731113134522100003556203000解 以 xh、x1、x2、x3、x4、 x5、 x6 、 y为变量名,将表 11-2中数据建立成 8 列 68 行的数据文件。选择菜单 Analyze Regression BinaryL ogistic ,在弹出的 Logistic Regression 对话框 中,将因变量 y 送入 Dependent 框内,将自变量 x1、x2、 x3、x4、 x5、 x6 送入 Covariates 框内;单击 OK 。主要输出结果见图 11-7。可见, x2 和 x3

22、自变量对应的 P 值均大于 0.05,无统计学意义; x1、x4、x5和 x6自变量对应的 P 值均小于 0.05,有统计学意义。说明影响胃癌发生的因素为 年龄、吃盐渍食物及嗜重盐饮食、饮食习惯、精神心理因素,与蛋白质摄入量大小及新鲜 蔬菜及水果食用多少无关。Variables in the EquationBS.E.WalddfSig.Exp(B)Satepx1.125.0633.9741.0461.1331 x2-.308.591.2721.602.735x3.983.8131.4601.2272.671x41.781.6038.7151.0035.933x52.064.9145.1001

23、.0247.878x61.529.6425.6721.0174.614Constant-15.4905.3828.2841.004.000a. Variable(s) entered on step 1: x1, x2, x3, x4, x5, x6.图11-7 例11-2 参数估计及检验偏回归系数有统计学意义,比数比 OR 1 的自变量为 x1、x4、 x5 和 x6,相应的比数比 bi( OR ebi )分别为: 1.133、5.933、7.878 和 4.614;按 bi 为正值时 OR 1 ,其相应自变量 xi 为危险因素, 可以得出年龄越大、 吃盐渍食物及嗜重盐饮食越重和精神心理不良

24、患胃癌的 可能性越大,成为胃癌的危险因素。注意,这里自变量 x1(年龄)对应的比数比是以一岁为间隔的比数比,即由后一岁的Odds 比上前一岁的 Odds 得到的。如 41 岁的 Odds 比上 40 岁的 Odds 或 42 岁的 Odds 比上 41 岁的 Odds 或 71 岁的 Odds 比上 70 岁的 Odds ,以一岁为间隔得到的OR 值均为0.125e0.125 1.133 。下面对本例作进一步的讨论:1求 10 岁为间隔的 OR 值。如果希望得到年龄以 10 岁为间隔的 OR 值,只要计算 e10 b1 e10 0.125 3.49 即可,或在本例数据文件中将x1 进行变量转换

25、(通过 SPSS 的Transform Compute Variable 过程来实现) ,生成变量 g,使 g x1/10 ,然后选择菜单 Analyze Regression Binary Logistic ,将因变量 y 送入 Dependent 框内,将自变量 g、 x2 至 x6 送入 Covariates 框内,单击 OK 。主要输出结果见表图 11-8 ,得到年龄对应的比数比 OR 为 3.477(与 e10 b1 3.49 不等,是由于 b1 0.125小数点保留位数不同所致) ,是以 10 岁为间隔的比数比, 即 50岁的 Odds 比上 40 岁的 Odds 或 73 岁的

26、Odds 比上 63岁的 Odds。Variables in the EquationBS.E.WalddfSig.Exp(B)Satepg1.246.6253.9741.0463.4771x2-.308.591.2721.602.735x3.983.8131.4601.2272.671x41.781.6038.7151.0035.933x52.064.9145.1001.0247.878x61.529.6425.6721.0174.614Constant-15.4905.3828.2841.004.000a. Variable(s) entered on step 1: g, x2, x3,

27、 x4, x5, x6.图 11-8 10岁为间隔的 OR值2年龄按等级分组的情况。考虑年龄以一岁为间隔或以十岁为间隔比数比的实际意义 不大,不妨将年龄按等级分组,得到的比数比便是以一个等级为间隔的比数比。在本例数 据文件中生成新变量 gg,当 40 x150时,gg=1;当 50 x160 时,gg=2;当 60 x1 70 时,gg=3;当 70 x180 时,gg=4。选择菜单 Analyze Regression Binary Logistic , 将因变量 y 送入 Dependent 框内,将自变量 gg、 x2 至 x6 送入 Covariates 框内,单击 OK 。 输出结果

28、,略。3构造哑变量引入模型。在某些情况下,相同年龄间隔或按等级分组的OR 值意义不完全一致,这时需将年龄分组,由数值变量变为无序多分类变量,构造相应的哑变量引入 模型,得到对应的比数比是以对比区组为基准的比数比,SPSS默认的是基准组为最后一个组别,也可自己定制为第一个组别。 SPSS 实现自变量为无序多分类变量的 Logistic 回归分 析步骤如下:激活 SPSS,打开已把年龄分组的数据集,选择菜单Analyze Regression BinaryLogistic ,将因变量 y 送入 Dependent 框内,将自变量 gg、x2 至 x6 送入 Covariates 框内;单 击 Ca

29、tegorical(多分类变量的比较)按钮,在弹出的Define Categorical Variables (定义多分类变量)对话框中,将变量 gg 送入到右边的 Categorical 框内,选中右下角的 First(系统默 认 Last),单击 Change 按钮,随即 Categorical 框内的内容变为 gg( Indicator(first) ),单击 Continue ,返回主对话框,在 Covariates 框内 gg 变量后面跟着一个 Cat 标识,表示 gg 变量 是以第一区组为基准形成哑变量引入模型的;单击OK 。输出结果,略。4Logistic 逐步回归。 以上为默认

30、方法为 Enter 法,即强迫所有的自变量同时进入模型,若对本例进行变量筛选,可采用逐步回归分析,SPSS 操作步骤如下:选择菜单 Analyze Regression Binary Logistic ,将因变量 y 送入 Dependent 框内,将 自变 x1 至 x6 送入 Covariates 框内,单击 Method 框右端的下拉箭头, 选 Forward: Conditional , 单击 OK 。另外,需要说明的是: SPSS默认引入( Entry)和剔除 (Removal) 变量的检验水准 分别为 0.05 和 0.10,需要变更时, 可点击 Options 选项,在弹出的对话

31、框里相应处进行设置。输出结果增加了逐步回归分析的内容,最后汇总给出引入或未引入回归模型的自变量 检验结果。Variables in the EquationBS.E.WalddfSig.Exp(B)1Satepx41.509.34818.7881.0004.521Constant-2.514.65814.6141.000.081Sbtepx41.760.49512.6241.0005.8142x52.255.70110.3381.0019.534Constant-6.0561.58414.6101.000.002Sctepx41.771.54610.5091.0015.8773x52.305.

32、7728.9101.00310.027x61.006.4574.8421.0282.735Constant-7.0571.87414.1811.000.001Sdtepx1.106.0573.5121.0611.1124x41.721.5788.8711.0035.589x52.198.8776.2751.0129.006x61.341.5416.1581.0133.825Constant-13.3324.3069.5861.002.000a. Variable(s) entered on step 1: x4.b. Variable(s) entered on step 2: x5.c. V

33、ariable(s) entered on step 3: x6.d. Variable(s) entered on step 4: x1.图 11-9 逐步回归结果本例主要输出结果见图 11-9。逐步回归得到的 Logistic 回归方程为:log it ( p) ln( p ) 13.332 0.106x1 1.721x4 2.198x5 1.341x61p因素 x1、x4、x5 和 x6对应的比数比分别为: 1.112、5.589、9.006 和 3.825。11.2 有序多分类资料的 Logistic 回归分析如果因变量 y 是有序多分类资料也称为等级资料,如疗效评价:显效、有效和无效

34、; 尿糖程度: - 、+、+、+和+等,则应进行有序多分类资料的Logistic 回归分析。如果因变量 y取 g个值,需拟合 g1 个 logit 模型,例如对于一个取值为 1、2、3 的有序三分类 因变量 y,需拟合 2 个 logit 模型,即:1 log it ( p1) ln( p1 ) ln( p1 ) 11x12x2mxm1 p1p2 p32 log it ( p1p2)ln(p1p2)ln( p1p2)21x12x2mxm1 p1 p2p3其中, pi P(y i |x),i=1、2、3,第 i 个 logit 模型计算的是 y 取前 i 个值的累积概 率( i=1、2), p1

35、 P(y 1|x), p1 p2 P(y 2|x) 。注意, g1 个 logit 模型的回归系数相等,即自变量与因变量的关系相同,只是常数项 改变,所以是 g 1 条平行直线,这就是为什么有序多分类资料的Logistic 回归模型要求进行数据的平行性检验的原因。 SPSS 通过选择 Analyze Regression Ordinal (有序多分类) 过程完成有序多分类因变量资料的 Logistic 回归分析。例 11-3 研究性别和两种治疗方法对某病疗效的影响, 疗效的评价分为三个有序等级, 数据见表 11-3 。试作 Logistic 回归分析。图 11-10 例 11-3 数据文件图

36、11-11 Ordinal Regression 主对话框表 11-3 性别和两种治疗方法对某病疗效的影响研究性别治疗方法疗效合计显效 (C=1)有效 (C=2)无效 (C=3)女( A=1 )新药疗法 (B=1)165621传统疗法 (B=0)671932男( A=0)新药疗法 (B=1)52714传统疗法 (B=0)101011解 c 是因变量, a、b 是自变量。用 a、 b、c 和 f 变量分别表示性别、治疗方法、疗 效和频数,建立 12行 4 列的数据文件,如图 11-10。1指定频数变量 操作同例 11-1。2进行有序多分类 Logistic 回归分析 选择菜单 Analyze R

37、egression Ord,in弹al出 Ordinal Regression 主对话框,如图 11-11;将因变量 c 送入 Dependent(因变量)框内,将 自变量 a、b 送入 Covariates(协变量)框内;单击 Output (输出)按钮,在弹出的 Output 对话框中,选中左下角的 Test of parallel lines (平行性检验)选项,单击 Continue ,返回主NMarginalPercentagec12833.3%21416.7%34250.0%Valid84100.0%Missing0Total84Case Processing Summary图11

38、-12 例11-3 摘要对话框;单击 OK 。主要输出结果的解释:图 11-12 中 c 的数值是按升序排列的,本例显效、 有效、无效分别用 1、2、3 表示,正好就是升序编码。 如果将显效、有效、无效分别用 3、2、1 表示,结果 中摘要表自上而下仍为 1、2、 3,此时是按无效、有 效、显效顺序计算 2 个 logit 模型,参数估计的结果与 本例是不同的。所以,尽量将 y 值按专业需要的顺序 升序编码。模型拟合检验( Model Fitting Information ):给出 -2 倍的似然对数值为23.598 ,2 x2 =19.887,P 0.05,模型的平行性成立。参数估计( P

39、arameter Estimates):详见表 11-13 。特别要注意这张表的解读。如果用SAS 也计算一下本例,将 SAS 于 SPSS的结果对比会发现,两个常数项: SAS 是 2.667 和 1.813,与 SPSS结果相同,而两个回归系数: SAS 是 1.319、1.797,SPSS是1.319、1.797 , 恰差一个符号。这是因为 SPSS中应用的线性模型形式是1 1x1 2x2mxm ,而SAS 用的是 1 1x1 2x2mxm ,所以两个软件计算出的回归系数差一个符号,而写出的 2个 Logistic 回归模型是相同的,具体形式见下面。Parameter Estimates

40、EstimateStd. ErrorWalddfSig.95% Confidence IntervalLower BoundUpper BoundThresholdc = 1-2.667.60019.7801.000-3.843-1.492c = 2-1.813.55710.6071.001-2.904-.722Locationa-1.319.5296.2101.013-2.356-.282b-1.797.47314.4491.000-2.724-.871Link function: Logit.图 11-13 例 11-3参数估计log it ( p1) ln( p1 ) 2.667 1.3

41、19a 1.797 b , 1 p1p1 p2log it ( p1 p2) ln( 1 2 ) 1.813 1.319a 1.797 b 。1 p1 p2其中, pi P(c i |a,b) ,i=1、2、3。性别和疗法的回归系数均大于 0,且有统计学 意义, OR 值分别为 e1.319 3.740 和 e1.797 6.032 ,可认为女性用新疗法疗效好。11.3 无序多分类资料的 Logistic 回归分析因变量的水平数大于 2,且水平之间不存在等级递增或递减关系的资料为无序多分类资 料,对这种资料所进行的 Logistic 回归与一般的 Logistic 回归方法不同,是通过拟合一种

42、叫 做广义 Logit 模型 (Generalized logits model) 来实现的。若因变量有 k 个无序分类,则将其中 一个分类设为对照, 其它分类与之比较, 拟合 k1 个广义 Logit 模型。 例如有 m 个自变量, 因变量是取值为 a、b、c 三个无序分类的变量,以 a 为对照,可以得到如下个 Logit 模 型:P(Y b X)log itpb ln10 11X11mXm ( b与a比较)P(Y a X)P(Y c X)log itpc ln20 21X12mXm(c与a比较 )P(Y a X)在 SPSS中选择菜单 Analyze Regression Multinom

43、ial Logistic (多项 Logistic )可以完 成无序多分类因变量资料的 Logistic 回归分析。例 11-4 为了研究胃癌及癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白( AgNoR )颗粒数量( X1)及大小( X2)在胃炎、胃组织不典型增生和胃癌三种胃疾病(Y)中的变化规律以及临床的诊断意义,共检测129例患者,检测结果见表 11-4,试作 Logistic 回归分析。表 11-4 核仁组成区嗜银蛋白颗粒数量及大小与三种胃疾病的关系颗粒数量(X1)颗粒大小(X2)三种胃疾病( Y)胃炎( Y=3)不典型增生( Y=2)胃癌( Y=1)较少( X1=1)小( X2=1

44、)900中( X2=2)1810大( X2=3)1580中等( X2=2)小( X2=1)030中( X2=2)2152大( X2=3)0144较多( X3=3)小( X2=1)010中( X2=2)0212大( X2=3)0023本例进行因变量为无序多分类资料的 Logistic 回归分析,以胃炎( Y=3 )为对照,可拟合 如下三个广义 Logit 模型:log itp1 ln P(Y 1 X)/P(Y 3 X)10 11X1 12 X2log itp2 ln P(Y 2 X)/ P(Y 3 X)2021X1 22X2解 y是因变量, x1、x2 是自变量。建立 27行 4 列的数据文件,

45、如图 11-14。1指定频数变量 操作同例 11-1。2进行无序多分类 Logistic 回归分析 选择菜单 Analyze Regression Multinomial Logistic (多项 Logistic ),弹出 Multinomial Logistic Regression 对话框,如图 11-15;将因变 量 y 送入 Dependent(因变量)框内,出现 y(Last) ,为 Reference Category 的默认设置 Last category ,表示以胃炎( Y=3)为对照(若以胃癌( Y=1)为对照,点击 Reference Category 选 First c

46、ategory ;若以不典型增生( Y=2)为对照,点击 Reference Category 选 Custom ,并 在 Value 对应的框内键入 2);将自变量 x1 和 x2 送入 Covariate(s) 框内(这里把 x1 和 x2 两个 等级变量视为数值变量,若是分类变量需移到Factor(s) 框内);单击 Statistics 按钮,在弹出的对话框里再选中 Goodness-of-fit 和 Cell probabilities 及 Classification table ,单击 Continue ; 单击 OK 。图 11-14 例 11-4 数据文件主要输出结果:模型拟

47、合检验(图 11-15 Multinomial Logistic Regression 对话框Model Fitting Information ):给出 -2 倍的似然对数值为223.060 , x2 =182.964, P 0.01,可认为模型成立。模型拟合优度检验( Goodness-of-Fit ): 给出 Pearson 和 Deviance 检验,两者对应的 P 值均大于 0.05,可认为模型拟合良好。似然 比检验( Likelihood Ratio Tests): x1 和 x2对应的 x 2值分别为 169.123 与 17.273,其 P 值 均小于 0.01,可认为本例偏回

48、归系数均有统计学意义。参数估计(Parameter Estimates):见图 11-16 ,可见,所有参数检验均有统计学意义,由此,可得到Y=1 与 Y=3 比较和 Y=2 与 Y=3 比较的两个 logit 模型如下。Parameter Estimatesa yBStd.ErrorWalddfSig.Exp(B)95% Confidence Interval for Exp(B)Lower BoundUpper Bound1Intercept-27.5634.84032.4251.000x110.0121.49045.1461.00022285.0491201.420413363.510x

49、23.7141.07411.9611.00141.0144.999336.5132Intercept-11.3572.87315.6281.000x15.2911.11722.4151.000198.44322.2061773.399x21.776.7036.3901.0115.9071.49023.412a. The reference category is: 3.图 11-16 例 11-4参数估计(1) l ogi t 1p ln P (Y1X ) /P Y( 3X ) 27. 563 110X. 012 2 X3. 714(2) log itp2 ln P(Y 2 X)/ P(Y 3 X) 11.357 5.291X1 1.776 X 2(1)式中 x1 和 x2 的回归系数均为正值,说明核仁组成区嗜银蛋白(AgNoR )颗粒数量越多颗粒越大,胃癌与胃炎相比,胃癌发生的概率较大;(2)式中 x1 和 x2 的回归系数也都为正值,说明核仁组成区嗜银蛋白(AgNoR )颗粒数量越多颗粒越大,胃组织不典型增生与胃炎相比,胃组织不典

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论