逻辑斯蒂克回归中南_第1页
逻辑斯蒂克回归中南_第2页
逻辑斯蒂克回归中南_第3页
逻辑斯蒂克回归中南_第4页
逻辑斯蒂克回归中南_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十六章第十六章 logistic回归分析回归分析(logistic regression) 讲述内容讲述内容第一节第一节 logisticlogistic回归回归第二节第二节 条件条件logisticlogistic回归回归第三节第三节 logisticlogistic回归的应用回归的应用 及其注意事项及其注意事项目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计应变量(应变量(结果因素)结果因素)的的logistic回归方程。回归方程。属于概率型非线性回归。属于概率型非线性回归。资料:资料:1. 应变量为分类变量;应变量为分类变量;2. 自变量宜全自变量宜全部或大

2、部分为分类变量,可有少数数值变量。部或大部分为分类变量,可有少数数值变量。分类变量要数量化。分类变量要数量化。用途:用途:研究某种疾病或现象发生和多个危研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。 用用 检验(或检验(或u检验)的检验)的局限性局限性: 1.只能研究只能研究1个危险因素;个危险因素; 2.只能得出定性结论。只能得出定性结论。2种类:种类:1. 成组(非条件)成组(非条件)logistic回归回归 方程。方程。 2. 配对(条件)配对(条件)logistic回归方回归方 程。程。Logistic回归的回归的分类分类 二分类二分类

3、 有序反应变量有序反应变量 多分类多分类 无序反应变量无序反应变量 非条件(成组)非条件(成组) 1:1配对资料配对资料 条件条件(配对)配对)Logistic回归回归 1:m配对资料配对资料 m:n配对资料配对资料第一节第一节 logistic回归回归 (非条件(非条件logistic回归回归 ) 一、基本概念一、基本概念1 0 Y发生应变量未发生12,mXXX自变量,在m个自变量的作用下阳性结果发生的概率记作个自变量的作用下阳性结果发生的概率记作),| 1(21mXXXYPP1P011ZPe若令若令 mmXXXZ221100112211 exp ()mmPXXX回回归归模模型型其中0为常数

4、项, m,21为回归系数。 11ZPe若令若令 mmXXXZ2211001122ln=1mmPXXXP0112211 exp ()mmPXXX回回归归模模型型其中0为常数项, m,21为回归系数。 概率概率P:01,logitP:。 取值范围取值范围 logitP图图16-1 logistic函数的图形函数的图形00.51-4-3-2-10123410.5PZ当当Z+时,时, P值渐近于值渐近于1;当当Z值值-时,时, P值渐近于值渐近于0;图图16-1 logistic函数的图形函数的图形00.51-4-3-2-10123410.5PZP值的变化在值的变化在01范围之内,并且随范围之内,并且

5、随Z值的增加或值的增加或减少以点(减少以点(0,0.5)为中心呈对称)为中心呈对称S形变化。形变化。常常数数项项0表表示示暴暴露露剂剂量量为为 0 时时个个体体发发病病与与不不发发病病概概率率之之比比的的自自然然对对 数数 。 回回 归归 系系 数数),2, 1(mjj表表 示示自自变变量量jX改改变变一一个个单单位位时时 logitP 的的改改 变变 量量 。 模模型型参参数数的的意意义义01122ln=logit1mmPXXXPPn 流行病学衡量危险因素作用大小的比流行病学衡量危险因素作用大小的比数比例指标。计算公式为:数比例指标。计算公式为:优势比优势比OR(odds ratio)110

6、0/(1)/(1)jPPORPP111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc对对比比某某一一危危险险因因素素两两个个不不同同暴暴露露水水平平1cXj与与0cXj的的发发病病情情况况(假假定定其其它它因因素素的的水水平平相相同同) ,其其优优势势比比的的自自然然对对数数为为: 与与logisticP的关系的关系:0, 1 exp, 0, 1 0, 1 jjjjjjOROROROR无作用危险因保子护因子则有101 , 1, 0 jccX暴非若暴露露由 于jOR值 与 模 型 中的 常 数项0无 关 ,0在

7、危 险 因素 分 析中 通 常视 其 为无 效 参数 。 1100/(1) 1, /(1)PPPORRRPP当则有10 exp()jjORcc即 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP mbbbb,210 二、logistic回归模型的参数估计回归模型的参数估计 参数估计参数估计 原理:最大似然原理:最大似然( likelihood )估计估计 )(exp01ccbROjj若自变量jX只有暴露和非暴露两个水平, 则优势比jOR的1可信区间估计公式为 )exp(2/jbjSub 2. 优势比估计优势比估计 可反映某一因素两个不同水平(c1,c0)的优势

8、比。例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作logistic回归分析。 121 0 1 0 1 0 XXY吸烟不吸烟饮酒不饮酒病例对照确确定定各各变变量量编编码码 分 层 吸 烟 饮 酒 观 察 例 数 阳 性 数 阴 性 数 g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表16-1 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料 经 logistic 回归计算后得 0b=-0.9099,0bS=0.1358

9、;1b=0.8856, 1bS=0.1500;2b=0.5261,2bS=0.1572 吸烟与不吸烟的优势比:11expexp0.8856=2.42ORb 1OR的 95可信区间: 110.05/ 2expexp(0.88561.960.1500)(1.81,3.25)bbuS 饮酒与不饮酒的优势比: 22expexp 0.52611.69ORb 2OR的 95可信区间: 22exp(1.96)exp(0.52611.960.1572)(1.24,2.30)bbS 三、三、logistic回归模型的假设检验回归模型的假设检验 1.1.似然比检验似然比检验2. Wald2. Wald检验检验3.

10、3.计分检验计分检验241.似然比检验:比较在两种不同假设条件下的对数似然函数值,看其差别大小。 具体作法:先拟合一个不包含准备检验的变量在内的 logistic 回归模型,求出它的对数似然函数值 lnL0 ,然后把需要检验的变量加入模型中去再进行配合,得到一个新的对数似然函数值 lnL1。假设前后两个模型分别包含 l个自变量和 p 个自变量, 似然比统计量 G 的计算公式为: )ln(ln201LLG (16-12) 当样本含量较大时,在零假设下得到的统计量近似服从自由度为 d (d=pl)的2分布。若2,dG时,表示新加入的 d 个自变量对回归方程有统计学意义。 零假设:加入的自变量的总体

11、回归系数=0具体方法:(1)先拟合一个不包含准备检验的变量在内的logistic回归模型,得到对数似然函数值lnL0 (设包含的自变量个数为l 个);(2)加入准备检验的变量,重新拟合logistic回归模型,同时又得到一个对数似然函数值lnL1 (设包含的自变量个数为p 个);(3)计算似然比统计量G: G=2(lnL1- lnL0) (16-12)25例 16-1 可以算得:326.585)(ln1XL,436.597)(ln2XL,711.579),(ln21XXL 符号)(1XL和)(2XL分别表示模型中只含有1X和2X的最大似然函数值,而),(21XXL则表示模型中同时含有1X和2X

12、的最大似然函数值。 对于1X:010:H,011:H )(ln),(ln2221XLXXLG)436.597(711.579 2 45.35 查2界值表得84. 321 ,05.0, 84. 3G,故在050.检验水准上拒绝H0,接受 H1,说明平衡了饮酒因素的影响后,食管癌与吸烟有显著性关系。 同理,对于2X020:H,021:H )(ln),(ln2121XLXXLG)326.585(711.579 2 23.11 84. 3G,拒绝0H,接受 H1,说明平衡了吸烟因素的影响后,食管癌与饮酒有显著性关系。 ,=0.05,=0.05262, 1jjjjbbbbuSS2 或 2值均大于 3.8

13、4,说明食道癌与吸烟、饮酒有关系,结论同前。 2.3.计分检验(score test) 需要进行矩阵运算27Logistic回归模型的假设检验方法1 似然比检验比较含有不同自变量的模型(的似然函数值)既适合单个自变量的假设检验,又适合多个自变量的同时检验2 Wald检验各参数与0的比较适合单个自变量的假设检验3 计分检验计分检验统计量=对数似然函数的一阶导数*信息矩阵,符合自由度为1的卡方分布小样本时运用,犯型错误的可能性要小些。注:1)零假设都是总体的回归系数=0 2)大样本时,三种方法的结果是一致的。方法:方法:前进法、后退法和逐步法前进法、后退法和逐步法。检验统计量:检验统计量:不是不是

14、 F 统计量,而是似然比统计量、统计量,而是似然比统计量、 Wald 统计量和计分统计量之一。统计量和计分统计量之一。四、变量筛选四、变量筛选例16-2 为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对26例冠心病病人和例冠心病病人和28例对照者进行病例例对照者进行病例 对照研究,各对照研究,各因素的说明及资料见表因素的说明及资料见表16-2和表和表16-3。试用。试用logistic 逐逐步回归分析方法筛选危险因素。步回归分析方法筛选危险因素。)15. 0,10. 0(出入表表16-2 冠心病冠心病8个可能的危险因素与赋值个可能的危险因素与赋值序号 X1 X2 X3

15、X4 X5 X6 X7 X8 Y 1 3 1 0 1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2 0 1 1 0 1 2 1 1 5

16、2 2 1 1 1 0 0 2 1 1 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表16-3 冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 表表16-4 例例16-2进入方程中的自变量及有关参数的估计值进入方程中的自变量及有关参数的估计值 选入 变量 回归系 数 b 标准误 bS Wald 2 P 值 标准回归 系数 b OR 常数项 -4.705 1.543 9.30 0.0023 - - X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.40

17、6 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.00 X8 1.947 0.847 5.29 0.0215 0.523 7.01 学会看结果!学会看结果! 最终进入 logistic 回归模型的危险因素有4 个,它们分别是年龄增高)(1X、高血脂史)(5X、 动物脂肪摄入量)(6X和 A 型性格)(8X。 标准回归系数3/jjjSbb可以用来比较各因素的相对重要性,jS为变量jX的标准差,=3.1416。 第二节 条件logistic回归 配对资料。最常用的是每组中有一个病例和若干个对照, 即 1: M 配对研究(一般) 3M。 一、原理 表表16-5 1

18、: M 条件条件logistic回归数据的格式回归数据的格式 * t = 0 为病例,其他为对照 条件 logistic 模型0112211 exp (.)iimmPXXX 1,2, iniP 表示第 i 层在一组危险因素作用下发病的概率, i0 表示各层的效应,m,21 为待估计的参数。 与非条件 logistic 回归模型不同之处在常数项上,不同匹配组的i 0可以各不相同,但内在假定了每个危险因素的致病能力在不同匹配组中相同。 二、应用实例例16-3 某北方城市研究喉癌发病的危险因素, 用1:2配对的病例对照研究方法进行了调查。现选取了6 个可能的危险因素并节录25对数据, 各因素的赋值说

19、明见表16-6,资料列于表16-7。试作条件logistic 逐步回归分析。 表16-6 喉癌的危险因素与赋值说明 因素 变量名 赋值说明 咽炎 X1 无=1, 偶尔=2, 经常=3 吸烟量(支/日) X2 0=1, 14=2, 59=3, 1020=4, 20=5 声嘶史 X3 无=1, 偶尔=2, 经常=3 摄食新鲜蔬菜 X4 少=1, 经常=2, 每天=3 摄食水果 X5 很少=1, 少量=2, 经常=3 癌症家族史 X6 无=0, 有=1 是否患喉癌 Y 病例=1, 对照=0 )15. 0,10. 0(出入表表16-7 喉癌喉癌1:2配对病例配对病例 对照调查资料整理表对照调查资料整理

20、表 P344表16-8 例16-3进入方程中的自变量及有关参数的估计值 选入的 4 个危险因素分别为吸烟量)(2X、 有声嘶史)(3X、 是否经常摄食新鲜蔬菜)(4X及癌症家族史)(6X,其中摄食新鲜蔬菜为保护因素)0(4b。 采用逐步法 6个危险因素 变量筛选 4个进方程,结果见表16-9。 选选 入入 变变 量量 回回 归归 系系 数数 b 标标 准准 误误Sb W a ld2 RO P 值值 X2 1 .4 8 6 9 0 .5 5 0 6 7 .2 9 4 .4 2 0 .0 0 6 9 X3 1 .9 1 6 6 0 .9 4 4 4 4 .1 2 6 .8 0 0 .0 4 2 4

21、 X4 3 .7 6 4 1 1 .8 2 5 1 4 .2 5 0 .0 2 0 .0 3 9 2 X6 3 .6 3 2 1 1 .8 6 5 7 3 .7 9 3 7 .7 9 0 .0 5 1 6 Logistic回归与多元线性回归的区别回归与多元线性回归的区别和联系?和联系? 多元线性回归的模型:多元线性回归的模型: Logistic回归的模型:回归的模型:01122iiippiiYXXX01122ln()1iiippiiiPXXXP相同点相同点 Logistic回归和多元线性模型均为广义线性回归和多元线性模型均为广义线性模型;模型; 都是反映一个因变量和多个自变量之间的都是反映一个

22、因变量和多个自变量之间的关系;关系; 都可以控制混杂因素的影响。都可以控制混杂因素的影响。不同点不同点第三节logistic回归的应用及其注意事项45 第三节 有序logistic回归和无序多分类logistic回归基本概念:1、有序logistic回归 应变量Y为等级或成都差别变量。基于累积概率构建模型。2、多分类logistic回归 应变量Y为无序分类变量,是两分类logistic回归的扩展。以选择的某类别为参照,剩余类别相对于此参照类别的logistic回归分析。一、logistic回归的应用 1流行病学危险因素分析 2临床试验数据分析 3分析药物或毒物的剂量反应 4预测与判别 第四节

23、logistic回归的应用及其注意事项47一、logistic回归的应用1流行病学危险因素分析 logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohort study),也适合于病例-对照研究(case-control study),同样还可以用于断面研究(cross-sectional study)482临床试验数据分析当评价某种药物或治疗方法的效果的评价指标为二值变量时(如有效和无效) 影响效果的非处理因素(如年龄、病情等)在试验组和

24、对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。 尽管在分组时要求按随机化原则分配,但由于样本含量有限,非处理因素在试验组和对照组内的分布仍有可能不均衡 在分析阶段对构成混杂的非处理因素进行调整利用logistic回归分析(得到调整的 )对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。jRO493分析药物或毒物的剂量反应 )ln(exp110XP用这一模型可以求出任一剂量的阳性反应率用这一模型可以求出任一剂量的阳性反应率传统的方法:对实验设计有严格的要求,如剂量按等比级数排列,各剂量组的例数必须相同等, logistic回归的方法:没有这些限制。 剂量为X时的阳性率P

25、 与剂量之间的关系:1)不同剂量使动物发生“阳性反应”的概率分布常呈正偏态。2)当将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数都是指数函数,十分接近,所以:504预测与判别 logistic回归模型概率型模型作用:预测某事件发生的概率。例如:在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。关于判别问题见第十八章。)()(11011011mmmmXXXXZZeeeeP或者:)()(1101111mmXXZeeP51二、logistic回归应用的注意事项523、变量选择(逐步回归的方法)实际:根据专业知识、研究目的选择变量。选择最佳自变量的组合(探索性研究): 然似比检验分析某一个变量是否有统计学意义(验证性研究):然似比检验、Wald检验、计分检验534、有序logistic回归的平行性假设检验5、SPSS和SAS中有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论