版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十六章 logistic回归分析第二军医大学卫生统计学教研室孟 虹 2022/10/121医学统计学第十六章 logistic回归分析第二军医大学卫生统计学本章的内容第一节 Logistic 回归* 基本概念、参数估计、假设检验、变量筛选、模型评价第二节 条件 Logistic 回归第三节 Logistic 回归的应用和注意问题*为重点介绍2022/10/122医学统计学本章的内容第一节 Logistic 回归*2022/10/问题的提出 医学科研中常研究多个影响因素(x)对结果变量(y为分类变量)的关系或作用. 例 冠心病与可能危险因素关系的研究冠心病结果(y) (x)危险因素 结果记录
2、有或无 (x1)高血压史 有或无 (x2)高血脂史 有或无 (x3)吸烟 有或无2022/10/123医学统计学问题的提出 医学科研中常研究多个影响因素(x)多元线性回归方程 多元线性回归的要求: Y 变量的取值为连续性随机变量。 Y与X间关系为线性关系。前例采用单因素统计方法?问题: 1.常采用2检验,但如有混杂因素干扰,导致结果不一定正确。 2.不能回答哪个因素(x)对(y)关系更密切或作用更大?2022/10/124医学统计学多元线性回归方程 多元线性回归的要求:2022/10/单因素方法分类变量(y)与影响因素(x)关系 冠心病 危险因素(x1=高血压) (Y) 有 = 1 无= 0
3、合计 有=1 60(a ) 40( b) 100 无=0 40(c) 60(d) 100 例1 按血脂水平分层分析 血脂高水平 血脂低水平 冠心病 有高血压 无高血压 有高血压 无高血压 有=1 (40) ( 10) (10) ( 40) 无=0 (30) (20) (20) (30)血压与血脂何者对冠心病作用更大?2022/10/125医学统计学单因素方法分类变量(y)与影响因素(x)关系 例2 两医院乳腺癌术后5年生存率比较 比较组 生存数 死亡数 合计 生存率%甲医院 485 270 755 64.2乙医院 257 126 383 67.12 = 0.167 p=0.683不考虑病情和其
4、他因素,单因素分析结论:两生存率差别无统计意义2022/10/126医学统计学例2 两医院乳腺癌术后5年生存率比较 比较组 生存 腋下淋巴 甲医院=1 乙医院=0 结转移 病例 生存 生存率% 病例 生存 生存率% 无=0 45 35 77.7 300 215 71.6 有=1 710 450 63.4 83 42 50.6 合计 755 485 64.2 383 257 67.1 多因素分析作用:1.可校正混杂因素,正确评价结果的效应.2.回答哪个因素对事件(疾病)作用更大?考虑病情因素,甲医院生存率高于乙医院.两医院乳腺癌术后5年生存率比较2022/10/127医学统计学 腋下淋巴 甲医院
5、=1 第一节 logistic回归一、基本概念logistic回归(logistic regression)是研究观察结果(y)为分类变量与多个影响因素(x)之间回归关系的多变量统计方法。根据因变量(y)取值不同, Logistic 回归又有两分类 Binary Logistic 回归和多分类 Multinomial Logistic 回归方法.2022/10/128医学统计学第一节 logistic回归一、基本概念2022两分类的logistic回归模型 变量的取值(y,x) 应变量(y)为两分类: 自变量(Xi)收集可能与y变量有关因素,称为危险因素(risk factor)或暴露因素,可
6、为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 。 2022/10/129医学统计学两分类的logistic回归模型 变量的取值(y,x)2logistic回归模型 以事件发生(y=1)的概率(p)做应变量,建立 p 和自变量Xi 的函数关系,即概率p与自变量(x)的回归关系是logistic回归模型。 P(概率)的取值波动01范围。概 率函数表达式2022/10/1210医学统计学logistic回归模型 以事件发生(y1. logistic回归模型方程表达形式Logistic回归概率模型方程 Y与一个自变量(x)的logistic回归方程: p(y=1/x): 表示在
7、某暴露因素(x)状态下,事件发生(y=1)的概率(P)模型。概率回归方程,二者等价2022/10/1211医学统计学1. logistic回归模型方程表达形式Logistilogistic回归概率模型方程某暴露因素为有和无(X=1和0)2022/10/1212医学统计学logistic回归概率模型方程某暴露因素为有和无(X=1和logistic回归模型方程的线性表达对logistic回归概率(p)模型做logit变换:截距(常数)回归系数Y(-至+)线性表达形式:2022/10/1213医学统计学logistic回归模型方程的线性表达对logistic回归在有多个危险因素(Xi)时logist
8、ic回归模型方程线性表达:或概率模型公式16-2公式16-12022/10/1214医学统计学在有多个危险因素(Xi)时logistic回归模型方程线性表2.模型中参数的意义0(常数项):暴露因素Xi=0时,个体出现事件(发病)概率与不出现事件(发病)的概率之比的自然对数值(基线值)。 2022/10/1215医学统计学2.模型中参数的意义0(常数项):暴露因素Xi=0时,个体方程中回归系数的含义的含义:某暴露因素存在(x=1)与不存在(x=0)相比,个体发生结果事件(如y=1)优势比的对数值。优势比: 是流行病学上衡量暴露因素(X )与疾病(Y )发生是否有关联及关联程度大小的指标.2022
9、/10/1216医学统计学方程中回归系数的含义的含义:某暴露因素存在(x=1)与不优势比(odds ratio ,OR) 暴露因素优势(odds1) 有暴露因素的个体中,个体出现某事件(y=1)的概率P(y=1)与个体无事件(Y=0)的概率(1-P)的比值,称某暴露因素存在发生某事件的优势。2022/10/1217医学统计学优势比(odds ratio ,OR) 暴露因素优势(o吸烟与肺癌关系的病例对照研究 结果 暴露因素(x) ( y) 吸烟=1 不吸烟 =0 合计 肺癌组(y=1) 688 (a) 21(b) 709 (a+b) 对照组(y=0) 350 (c) 359(d) 709(c+
10、d) 合计 1038(a+c) 380(b+d)1418暴露因素(吸烟的优势)在两组的优势(odds1)同理:非暴露因素的odds0=21/359=0.05852022/10/1218医学统计学吸烟与肺癌关系的病例对照研究 优势比(odds ratio,OR) 定义:暴露因素存在与暴露不存在出现事件(疾病)的优势(odds1)/(odds0)之比,称为事件暴露因素的优势比(odds ratio,OR)公式: 例:2022/10/1219医学统计学优势比(odds ratio,OR) 定义:暴露因素存在与暴优势比(odds ratio,OR) 2022/10/1220医学统计学优势比(odds
11、ratio,OR) 2022/10/920OR值反映暴露因素与事件(疾病)关系OR意义:OR值1,表示有暴露因素的个体出现事件(患某病)的优势大于无暴露因素者,或优势(危险性)增加 。OR值1,表示有暴露因素的人出现事件(患疾病)的优势低于无暴露因素者,或危险性减少。OR值=1,意味无论暴露出现与否,与事件(疾病)无关系.2022/10/1221医学统计学OR值反映暴露因素与事件(疾病)关系OR意义:2022/10Logistic方程的回归系数含义 暴露因素存在(x=1)与不存在(x=0)的个体相比,发生某事件(y=1)优势比的对数值。或 x每增加一个单位发生Y事件的对数优势比.X=1X=02
12、022/10/1222医学统计学Logistic方程的回归系数含义暴露因素存在(x=1) 含义为:在其他变量(x)固定后,某X=1与x=0相比或x每增加一个单位发生Y事件优势比的对数值。 回归系数与OR X与Y关联结论 =0, OR=1 无关 0,OR1 有关,危险因素 0,OR1 有关,保护因子OR值的大小反映暴露因素与事件发生关系的程度。多个自变量(x)回归模型的 概念2022/10/1223医学统计学 含义为:在其他变量(x)固定后,某X=1与x二、logistic回归模型的参数估计1. 模型中的回归系数(i)估计 用最大似然函数 (maximum likelihood estimate
13、, MLE)估计, 公式16-7,由统计软件包完成。, , (16-7)2022/10/1224医学统计学二、logistic回归模型的参数估计1. 模型中的回2. 优势比(OR)及可信区间的估计 如X=1,0两分类,则OR的1-可信区间估计公式为:为回归系数的标准误(公式16-11)回归系数与OR的关系为:2022/10/1225医学统计学2. 优势比(OR)及可信区间的估计为回归系数的标例:讲义表16-1资料 研究吸烟、饮酒与食管癌关系的病例对照设计的资料(886例),试作logistic回归分析。 变量的赋值建立Logistic 回归模型为:2022/10/1226医学统计学例:讲义表1
14、6-1资料 研究吸烟、饮酒与食管癌关系的病吸烟、饮酒与食管癌关系的病例对照资料变量赋值和例数暴露因素(x) (y)例数吸烟 饮酒 病例 对照 0 0 63 136 0 1 63 107 1 0 44 57 1 1 265 151暴露因素 无=0,有=1 2022/10/1227医学统计学吸烟、饮酒与食管癌关系的病例对照资料变量赋值和例数暴露因素经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261, Logistic 回归模型为:控制饮酒因素后,吸烟与不吸烟相比患食管癌的优势比为2.4倍 2022/10/1228医学统计学经logistic回归计
15、算后得Logistic 回归模型为:OR的可信区间估计X1变量(吸烟与不吸烟)OR的95%可信区间:X2变量(饮酒与不饮酒)OR的95%可信区间:2022/10/1229医学统计学OR的可信区间估计X1变量(吸烟与不吸烟)OR的95%可信区三、Logistic 回归模型的假设检验1.检验模型中自变量的j是否对Y有作用。 检验方法:1)似然比检验 (likelihood ratio test)2)Wald检验3)计分检验(score test)2022/10/1230医学统计学三、Logistic 回归模型的假设检验1.检验模型中自变量假设检验的统计量16-12G统计量2,p,认为某变量对回归有
16、统计意义。吸烟(X1)和饮酒(x2)与食管癌关系例子消除饮酒的影响后,10,吸烟与食管癌有关系。1.似然比检验(likelihood ratio test)2022/10/1231医学统计学假设检验的统计量16-12G统计量2,p,认为某变量2.Wald检验(单个变量检验)检验假设:Wald检验统计量公式16-14当 认为某x对y有关系.3.计分检验(score test)2022/10/1232医学统计学2.Wald检验(单个变量检验)检验假设:公式16-14当例表16-1吸烟、饮酒与食管癌资料(SAS软件计算) 1.对建立的整个模型做检验。Testing Global Null Hypot
17、hesis: BETA=0Test Chi-Square DF Pr似然比 68.5457 2 .0001计分检验 67.0712 2 .0001Wald检验 64.2784 2 .00012022/10/1233医学统计学例表16-1吸烟、饮酒与食管癌资料(SAS软件计算) 1.例表16-1资料,对各x的做检验(wald检验)参数 Wald2 Pr常数-0.9099 0.1358 44.8699 .0001吸烟 0.8856 0.1500 34.8625 .0001饮酒 0.5261 0.1572 11.2069 .0008 Odds Ratio Estimates Point 95% Wa
18、ldEffect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303P值2022/10/1234医学统计学例表16-1资料,对各x的做检验(wald检验)参数 四、 Logistic 回归的变量筛选 目的:将回归系数有统计意义的自变量选入模型中,作用不显著的自变量则排除方程外。 变量筛选算法有: 向前逐步法、向后逐步退法 逐步回归检验水准: 进入方程的检验水准为0.05或0.10, 变量保留在方程的水准为0.1或0.15 2022/10/1235医学统计学四、 Logistic 回归的变量筛选 目的:
19、将回归系例:讲义例16-2冠心病与危险因素关系的病例对照研究 设计方法:病例对照研究 病例组:经检查证实为冠心病的26例病人。 对照组:无冠心病和无与冠心病有关疾病的28 例病人为对照。 收集8个可能与冠心病有关危险因素,变量赋值见表16-2。 采用Logistic 回归逐步法做变量筛选。 进入方程=0.10,剔除方程为=0.152022/10/1236医学统计学例:讲义例16-2冠心病与危险因素关系的病例对照研究 设计表16-2 冠心病8个可能的危险因素与赋值 因素 变量名 赋值说明年龄(岁) x1 45=1,45-54=2,55-64=3,65=4高血压史 x2 无=0, 有=1高血压家族
20、史 x3 无=0, 有=1吸烟 x4 不吸=0,吸烟=1高血脂史 x5 无=0, 有=1动物脂肪摄入 x6 低=0, 高=1体重指数 x7 24=1,24-=2,26-=3A性格 x8 是=0, 否=1冠心病 y 病例=1,对照=02022/10/1237医学统计学表16-2 冠心病8个可能的危险因素与赋值 因素 表16-4 逐步回归法进入方程的自变量及参数估计(SAS软件)变量 Sb Wald2 P值 标准 OR常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52高血脂 1.496 0.744 4.04 0.0443
21、 0.406 4.46脂肪摄入 3.136 1.249 6.30 0.0121 0.703 23.06A性格 1.947 0.847 5.29 0.0215 0.523 7.01标准回归系数() 比较各自变量对Y 的相对贡献2022/10/1238医学统计学表16-4 逐步回归法进入方程的自变量及参数估计(SAS软表16-2 冠心病与危险因素关系统计分析结果: 经Logistic回归分析(逐步法)结果见表, 冠心病的危险因素有年龄、高血脂、脂肪摄入 、A性格。 其中危险因素对冠心病的作用大小依次为脂肪摄入 、A性格、高血脂、年龄。 2022/10/1239医学统计学表16-2 冠心病与危险因素
22、关系统计分析结果:2022/10第二节 条件Logistic回归概念: 1. 用配对设计获得病例-对照研究资料,计算的Logistic回归模型为条件Logistic回归。 2.未配对设计的病例-对照研究资料,计算的Logistic回归模型为非条件Logistic回归。两回归模型区别:条件Logistic回归模型无常数项(0)参数;研究目的主要用于寻找危险因素的分析。2022/10/1240医学统计学第二节 条件Logistic回归概念:2022/10/940病例对照的配对设计采用配对设计控制已知的影响因素(配对因素如年龄、性别、生活条件),减少对比较组的影响。如配对组的观察对象为1个病例和1个
23、对照,称为1:1配对研究,或1:2、1:4的配对研究。例:16-6 采用1:2配对的病例对照设计,研究6个可能与喉癌有关的危险因素,共25个配对组,数据见表16-7.2022/10/1241医学统计学病例对照的配对设计采用配对设计控制已知的影响因素(配对因素如例:16-6 采用1:2配对配对病例对照研究喉癌危险因素因素 变量名 赋值说明咽炎 X1 无=1 偶尔=2 经常=3 吸烟史(支/日) X2 0=1 1 -4=2 5-9=3 10-20=4 20=5声嘶史 X3 无=1 偶尔=2 经常=3 摄食新鲜蔬菜 X4 少=1 经常=2 每天=3 摄食水果 X5 很少=1 少量=2 经常=3 癌症
24、家族史 X6 无=0 有=1 是否患喉癌 Y 病例=1 对照=0 表16-8 逐步回归法进入方程的变量和参数变量 回归系数 标准误Sb Wald2 P值 ORX2 1.4869 0.5506 7.29 0.0069 4.42X3 1.9166 0.9444 4.12 0.0424 6.80X4 -3.7641 1.8251 4.25 0.0392 0.02X6 3.6321 1.8657 3.79 0.0516 37.792022/10/1242医学统计学例:16-6 采用1:2配对配对病例对照研究喉癌危险因素1:2配对25对病例对照研究喉癌危险因素配对 应变量危险因素组号iYX1X2X3X4
25、X5X611351110011133001113302113113001113200121320311413200151320014132041141211011133002113205124232001213302022/10/1243医学统计学1:2配对25对病例对照研究喉癌危险因素配对 应变量危险因素第三节 logistic回归的应用及注意问题 一、logistic回归的应用1.危险因素的筛选和分析 用回归系数(i)和OR说明危险因素(x)与事件(疾病)的关系。例:讲义例16-1,16-2,16-3适用的资料: 前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。2022/10/1
26、244医学统计学第三节 logistic回归的应用及注意问题 一、lo2.校正混杂因素,评价实验处理的效应 如实验研究,比较组间存在混杂因素或实验无法控制因素,该法可控制混杂因素,合理评价结果的效应。3.对个体预测与分类 1)预测个体在某因素存在条件下,发生某事件(发病)的概率.为进一步研究提供依据。 2)根据预测的概率,对研究个体进行分类.2022/10/1245医学统计学2.校正混杂因素,评价实验处理的效应2022/10/945医腋下淋巴 甲医院=1 乙医院=0 结转移 病例 生存 生存率% 病例 生存 生存率% 无=0 45 35 77.7 300 215 71.6 有=1 710 45
27、0 63.4 83 42 50.6 合计 755 485 64.2 383 257 67.1例1 变量编码:Y=1 生存,y=0 死亡,x1=1甲医院,x1=0乙医院,x2=1转移.x2=0无转移两医院乳腺癌术后5年生存率比较2022/10/1246医学统计学腋下淋巴 甲医院=1 Logistic回归模型计算结果校正病情因素后,两医院生存率差别有统计意义,甲医院的生存率高于乙医院。病情因素差别有统计意义,淋巴结有转移者生存率低,是无转移患者生存率的43%。2022/10/1247医学统计学Logistic回归模型计算结果2022/10/947医学例2 两种药物对某病疗效的研究性别治疗方法疗效有
28、效 y=1 无效 y=0合计有效率%女X1=1新药(x2=1)2162777.7对照(x2=0)13193240.1男X1=0新药(x2=1)771450.0对照(x2=0)110119.1上表可见,女性无论新药和对照药疗效高于男性问:性别是否与疗效有关,排除性别因素后,两组药物疗效是否有差别? 不考虑性别作用,OR=4.46, P=0.012022/10/1248医学统计学例2 两种药物对某病疗效的研究性别治疗方法疗效有效 y=1Logistic回归模型计算结果 Standard WaldParame Estimate Error Chi-Square Pr 常数 -1.9037 0.598
29、2 10.127 0.0015 性别 1.4685 0.575 6.508 0.0107 药物 1.7816 0.518 11.794 0.0006 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits x1 性别 4.343 1.405 13.421 x2 药物 5.939 2.149 16.4172022/10/1249医学统计学Logistic回归模型计算结果 S结论:性别和药物的回归系数都均有统计意义。女性和用新药的疗效较优。用Logistic的概率模型对个体的疗效做预测 :设如女性病人,x1=1,用新药x2=1,有效的概率p=0.79如男性病人x1=0,用新药x2=1, 有效的概率p=0.46952022/10/1250医学统计学结论:性别和药物的回归系数都均有统计意义。女性和用新药的疗效二、Logistic回归应用的注意问题1.模型中自变量的取值 计量数据有时划为有序组段(如年龄40岁=1、40-50岁=2、50-60岁=3),OR的实际意义更大。例: 表16-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽宁省大石桥市周家镇中学2026年初三临考冲刺(二)英语试题试卷含解析
- 2025-2026学年自贡市重点中学初三下学期小二调考试语文试题含解析
- 2026年江苏省苏州市南环中学初三零诊英语试题含解析
- 新疆维吾尔自治区乌鲁木齐市2025-2026学年初三联合调研考试语文试题试卷含解析
- 生态农业产品生产保障承诺函(3篇)
- 发展成就见证承诺书范文7篇
- 物流仓储管理制度手册货物储存及发货流程规范版
- 制造业生产设备维护保养周期化操作手册
- 地理信息系统应用与数据分析手册
- 新产品上市合规审查函签发(5篇范文)
- 2025年五类人员进乡镇班子结构化笔试及答案
- 炎德·英才大联考湖南师大附中2026届高三月考试卷(五)英语试题(含答案详解)
- 2026年江西生物科技职业学院单招职业技能测试题库含答案详解
- 2018沪G504 钢筋混凝土锚杆静压桩和钢管锚杆静压桩
- 国家事业单位招聘2024中国农业科学院农业环境与可持续发展研究所招聘笔试历年参考题库典型考点附带答案详解(3卷合一)
- 2025年大理州州级机关统一公开遴选公务员参考试题(32人)附答案解析
- 2025+RCOG指南:妊娠甲状腺疾病管理解读课件
- 三国演义三英战吕布课件
- GB/T 42706.4-2025电子元器件半导体器件长期贮存第4部分:贮存
- YY/T 0648-2025测量、控制和实验室用电气设备的安全要求第2-101部分:体外诊断(IVD)医用设备的专用要求
- 手术室药品管理制度
评论
0/150
提交评论