




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Logistic回归,温医公卫学院黄陈平,例 50例急性淋巴细胞白血病病人,在入院时白细胞数X1(109/L),淋巴结浸润度X2(记为 0、1、2三级),缓解出院后巩固治疗X3 (巩固治疗时赋值 1,无巩固治疗时赋值 0)。随访1年取得每例病人是否死亡 Y (死亡赋值1,生存赋值0)的资料。请分析影响一年内死亡的有关因素。,表10.4 50例急性淋巴细胞性白血病人的资料,第一节 Logistic 回归,1、概念 Logistic 回归是一种主要用于应变量为二项分类的概率型非线性回归。 在医学研究中经常遇到应变量为互斥的二项分类资料,如治愈和未愈、发病和未发病、生存和死亡等,即成功与失败两种可能
2、的结果。同时有许多自变量可能对结果产生影响,而且这种影响不一定是线性的,用线性回归分析这类资料欠合理。这时可用Logistic 回归。,2、Logistic 回归模型:,可能得到的P值会出现小于 0 及大于 1 的情况,从而使公式失去意义。,式中因变量Y可以是( - ,+ )中任意实数。,无论式中Xi 和bi 是什么数值(实数),都能有相应的ln(P/Q)值, ln(P/Q)可以是 - + 之间的任何值,而这些ln(P/Q)值都可以和 0 1 范围内的P值相对应。,多元线性回归方程:,统计学中,把ln(P/Q)称为 P 的Logit 转换或对数转换,记为Logit P。由此得到的回归方程,称为
3、Logistic回归方程。,或:,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图16-1 Logistic回归函数的几何图形,为正值,x 越大,结果y=1发生的可能性(P)越大。,3、Logistic 模型回归系数的含义,回归系数(bi)表示:在其它自变量不变时,某自变量 Xi改变一个单位时LogitP的改变量。 优势比(OR)指某一影响因素Xi两个不同暴露水平(C1,C0)的P/Q值之比。,当某影响因素Xi仅为两个水平 (1暴露,0非暴露),则:,当bi=0时,ORi=1,说明因素Xi对疾病发生不起作用; 当bi0时,ORi1,说明因素Xi对疾病发生是危险因素; 当bi0时,
4、ORi1,说明因素Xi对疾病发生是保护因素。,4. Logistic 回归模型的参数估计,最大似然估计(maximum likelihood estimate, MLE) (最大可能性估计) 最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。 根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。,4. Logistic 回归模型的参数估计,例:进行抛硬币试验,假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(正面记为H,反面记为T,x1=H, x2=T, , x80=T)。设抛出一个正面
5、的概率记为P ,抛出一个反面的概率记为1 P (这里的P即相当于上边的参数)。假设我们抛出了49个正面,31 个反面,即49次H,31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为P = 1 / 3 , P = 1 / 2 , P = 2 / 3 . 这些硬币没有标记,所以我们无法知道是哪个。使用最大似然估计 ,通过这些试验数据,我们可以计算出哪个硬币的可能性最大。,4. Logistic 回归模型的参数估计,我们可以看到当P=2/3时,可能性函数取得最大值。这就是P 的最大似然估计。,5. Logistic 回归方程的计算 例50例急性淋巴细胞白血
6、病病人,在入院时白细胞数X1(10/L),淋巴结浸润度X2(记为 0、1、2三级),缓解出院后巩固治疗X3 (有巩固治疗时赋值 1,无巩固治疗时赋值 0)。随访1年取得每例病人是否死亡 Y (死亡赋值1,生存赋值0)的资料。请分析影响一年内死亡的有关因素。,表10.4 50例急性淋巴细胞性白血病人的资料,全回归方程:,6、回归模型或回归系数的假设检验,对建立的整个模型做检验 说明各自变量对Y的作用总的来讲是否有统计意义。,模型中某是否为0进行检验 说明某自变量对Y的作用是否有统计意义,6、回归模型或回归系数的假设检验,检验方法: 1)似然比检验 (likelihood ratio test)
7、2)Wald检验 3)计分检验(score test),(1) 似然比检验,是比较在两种假设条件下的对数似然函数值的大小。该法可以对一个或同时对多个自变量进行检验。,样本含量较大时,在H0条件下,G服从自由度为d(两模型自变量个数差值)的X2分布。,(1) 似然比检验,Omnibus指模型全局检验,为似然比检验。,模型1包括X1、X2、X3; 模型0不包括自变量。,2ln(X3)=49.690,2ln(X3X2)=46.718,故X3存在的前提下,引进X2不能显著改善模型的拟合优度。,(2) Wald检验,Wald检验是检验j是否为0,或:,服从=1的2分布,Wald检验比较适合单个自变量的检
8、验,但检验效率较低。,(2) Wald检验,(3) 计分检验,计分检验统计量S也服从2分布,检验效率比Wald检验高,适合于自变量筛检。,x3似然比检验,7、自变量的筛选,目的:将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。 变量筛选算法有(SPSS): 进入法(Enter):强制所有变量进入模型,没有筛选。 向前逐步法(Forward Stepwise):包括Conditional; LR; Wald 向后剔除法( Backward):包括 Conditional; LR; Wald,模拟向后剔除法筛选变量过程:上例资料,设剔除检验水准=0.10,第一步:建立全回归方
9、程;,模拟向后剔除法筛选变量过程:上例资料,设剔除检验水准=0.10,第一步:建立全回归方程;第二步:对模型进行检验;,模拟向后剔除法筛选变量过程:上例资料,设剔除检验水准=0.10,X1变量被剔除,每次只剔除关系最弱一个变量,第一步:建立全回归方程;第二步:对模型进行检验; 第三步:检验各偏回归系数;,模拟向后剔除法筛选变量过程:上例资料,设剔除检验水准=0.10,第一步:建立全回归方程;第二步:对模型进行检验; 第三步:检验各偏回归系数; 第四步:重建不含剔除变量的全回归方程;,模拟向后剔除法筛选变量过程:上例资料,设剔除检验水准=0.10,第一步:建立全回归方程;第二步:对模型进行检验;
10、 第三步:检验各偏回归系数; 第四步:重建不含剔除变量的全回归方程; 循环检验,直至模型不存在无统计意义变量为止。,模拟向前逐步法筛选变量过程:上例资料,设入选检验水准为0.05,剔除检验水准为0.10,每次选入一个在模型外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。,模拟向前逐步法筛选变量过程:上例资料,设入选检验水准为0.10,剔除检验水准为0.15,8、模型概况,包含变量 X3 X3、X2 X3、X2、X1,9、概率预测,一名淋巴结浸润度(X2)为2级,而且出院后没有巩固治疗
11、(X3=0)的病人,其一年内死亡的概率为: P = 0.96,其生存概率为 1 0.96 = 0.04 一名淋巴结浸润度(X2)为2级,而且出院后有巩固治疗(X3=1)的病人,其一年内死亡的概率为: P = 0.57,其生存概率为 1 0.57 = 0.43,10、回归方程的分类能力,实际与理论一致率(%)= (14+25)100/50=78%,模型 X3 X3、X2 X3、X2、X1,例16-2 为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见表16-2和表16-3。试用logistic逐步回归分析方法筛选危险因素。,单因素logist
12、ic回归分析,有意义的因素为:动物脂肪摄入X6、高血脂史X5、A型性格X8、年龄(岁)X1,向前逐步法:Conditional 入选0.05,剔除0.10,标准偏回归系数计算,有意义的因素为: 年龄(岁)X1 高血脂史X5 动物脂肪摄入X6 A型性格X8,例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作logistic回归分析。,说明: 1、扣除吸烟因素影响,饮酒者发病的危险性约为非饮酒者的1.7倍。 2、扣除饮酒因素影响,吸烟者发病的危险性约为非吸烟者的2.4倍。,第三节 logistic回归的应用及注意事项,一、logistic回归的应用 1.疾病(某结果)的危险
13、因素分析和筛选 用回归模型中的回归系数(i)和OR说明危险因素与疾病的关系。 适用的资料:前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。 三类研究计算的logistic 回归模型的意义是一致,仅常数项不同。,一、Logistic回归的应用,2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。,例:研究者欲了解a、b两种治疗方案对尿路感染的疗效,收集了一批病例资料如下表,病例分有无并发症两类,比较两种治疗方案的疗效?,应变量:疗效(有效1,无效0) 自变量:治疗方案(a=1,b=0)、并发症(有1,无0),
14、结果表明:在并发症存在的前提下,a、b两种治疗方案疗效差别有统计学意义,a方案优于b方案。,一、Logistic回归的应用,3.预测与判别 预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。,二、Logistic回归应用的注意事项,1.模型中自变量的取值 自变量(X)可为计量资料、分类资料或等级资料。 计量资料常重新划为有序组段,OR的实际意义较大。 2.样本含量 自变量个数越多,例数越多。各组样本例数(对照组和病例组)至少为自变量个数的5-20倍。,回归分析的分型,回归分析根据因变量的取值不同可分为确定型回归与概率型回归两种。确定型回归对应变量的预报是数值预报,多元
15、线性回归属确定型回归;概率型回归对应变量的预报是概率预报,Logistic回归属概率型回归。 若用回归图形来分类,则分为线性回归与非线性回归两类,多元线性回归属于线性类, Logistic 回归属于非线性类。,THE END,关于优势比(OR),当P很低时,则:,第二节 条件Logistic回归,概念: 用配对设计获得病例对照研究资料,计算的Logistic回归模型为条件Logistic回归。 成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为非条件Logistic回归。 区别: 条件Logistic回归的参数估计无常数项(0),主要用于危险因素的分析。,例16-3 某北方城市研究喉癌发病的危险因素,用12配对的病例对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明见表16-6,资料列于表16-7,试做条件logistic逐步回归分析(纳入水准0.05,剔除水准0.10) 。,SPSS处理,SPSS软件对于配对的logistic回归用生存分析中的COX模型来进行处理。 资料中outcome为虚拟生存时间,病例取值全为1,对照取值全为2,实际上只要对照取值大于病例即可。 配对号进入分层框(Strata) 应变量(Y)进入Status框, 病例为1,对照为0 影响因素进入Covar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新能源汽车电控工程师岗位面试问题及答案
- 2025届重庆市主城四区高一下化学期末复习检测试题含解析
- 广西玉林、柳州市2025年高一下化学期末联考模拟试题含解析
- 广东省深圳市南山区南头中学2025届高二下化学期末预测试题含解析
- 江苏省南京梅山高级中学2025年化学高二下期末检测试题含解析
- 2025届湖北省鄂东南五校一体联盟联考高二下化学期末质量跟踪监视试题含解析
- 县区培训材料管理办法
- 跨境旅游品牌策略-洞察及研究
- 村级畜牧兽医管理办法
- 厦门采购方式管理办法
- 外卖配送人员劳动合同
- 《义务教育数学课程标准(2022年版)》初中内容解读
- 精神疾病患者的麻醉管理
- 高一物理竞赛试题及答案
- 医院预约平台建设方案
- 生命体征课件教学课件
- 2024年全国环保产业职业技能竞赛(工业废水处理工)考试题库(含答案)
- 《乌鲁木齐市国土空间总体规划(2021-2035年)》
- HJ 651-2013 矿山生态环境保护与恢复治理技术规范(试行)
- SY-T 5333-2023 钻井工程设计规范
- 冠脉介入进修汇报
评论
0/150
提交评论