版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/23,医学统计学,1,第十六章 logistic回归分析,第二军医大学卫生统计学教研室 孟 虹,2020/7/23,医学统计学,2,本章的内容,第一节 Logistic 回归* 基本概念、参数估计、假设检验、变量筛选、模型评价 第二节 条件 Logistic 回归 第三节 Logistic 回归的应用和注意问题* *为重点介绍,2020/7/23,医学统计学,3,问题的提出,医学科研中常研究多个影响因素(x)对结果变量(y为分类变量)的关系或作用. 例 冠心病与可能危险因素关系的研究 冠心病结果(y) (x)危险因素 结果记录 有或无 (x1)高血压史 有或无 (x2)高血脂史
2、有或无 (x3)吸烟 有或无,2020/7/23,医学统计学,4,多元线性回归方程,多元线性回归的要求: Y 变量的取值为连续性随机变量。 Y与X间关系为线性关系。 前例采用单因素统计方法? 问题: 1.常采用2检验,但如有混杂因素干扰,导致结果不一定正确。 2.不能回答哪个因素(x)对(y)关系更密切或作用更大?,2020/7/23,医学统计学,5,单因素方法分类变量(y)与影响因素(x)关系,冠心病 危险因素(x1=高血压) (Y) 有 = 1 无= 0 合计 有=1 60(a ) 40( b) 100 无=0 40(c) 60(d) 100 例1 按血脂水平分层分析 血脂高水平 血脂低水
3、平 冠心病 有高血压 无高血压 有高血压 无高血压 有=1 (40) ( 10) (10) ( 40) 无=0 (30) (20) (20) (30),血压与血脂何者对冠心病作用更大?,2020/7/23,医学统计学,6,例2 两医院乳腺癌术后5年生存率比较,比较组 生存数 死亡数 合计 生存率% 甲医院 485 270 755 64.2 乙医院 257 126 383 67.1,2 = 0.167 p=0.683,不考虑病情和其他因素,单因素分析,结论:两生存率差别无统计意义,2020/7/23,医学统计学,7,腋下淋巴 甲医院=1 乙医院=0 结转移 病例 生存 生存率% 病例 生存 生存
4、率% 无=0 45 35 77.7 300 215 71.6 有=1 710 450 63.4 83 42 50.6 合计 755 485 64.2 383 257 67.1,多因素分析作用: 1.可校正混杂因素,正确评价结果的效应.2.回答哪个因素对事件(疾病)作用更大?,考虑病情因素,甲医院生存率高于乙医院.,两医院乳腺癌术后5年生存率比较,2020/7/23,医学统计学,8,第一节 logistic回归,一、基本概念 logistic回归(logistic regression)是研究观察结果(y)为分类变量与多个影响因素(x)之间回归关系的多变量统计方法。 根据因变量(y)取值不同,
5、Logistic 回归又有两分类 Binary Logistic 回归和多分类 Multinomial Logistic 回归方法.,2020/7/23,医学统计学,9,两分类的logistic回归模型,变量的取值(y,x) 应变量(y)为两分类: 自变量(Xi)收集可能与y变量有关因素,称为危险因素(risk factor)或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm 。,2020/7/23,医学统计学,10,logistic回归模型,以事件发生(y=1)的概率(p)做应变量,建立 p 和自变量Xi 的函数关系,即概率p与自变量(x)的回归关系是logi
6、stic回归模型。 P(概率)的取值波动01范围。,概 率,函数表达式,2020/7/23,医学统计学,11,1. logistic回归模型方程表达形式,Logistic回归概率模型方程 Y与一个自变量(x)的logistic回归方程: p(y=1/x): 表示在某暴露因素(x)状态下,事件发生(y=1)的概率(P)模型。,概率回归方程,二者等价,2020/7/23,医学统计学,12,logistic回归概率模型方程,某暴露因素为有和无(X=1和0),2020/7/23,医学统计学,13,logistic回归模型方程的线性表达,对logistic回归概率(p)模型做logit变换:,截距(常数
7、),回归系数,Y(-至+),线性表达形式:,2020/7/23,医学统计学,14,在有多个危险因素(Xi)时,logistic回归模型方程线性表达:,或概率模型,公式16-2,公式16-1,2020/7/23,医学统计学,15,2.模型中参数的意义,0(常数项):暴露因素Xi=0时,个体出现事件(发病)概率与不出现事件(发病)的概率之比的自然对数值(基线值)。,2020/7/23,医学统计学,16,方程中回归系数的含义,的含义:某暴露因素存在(x=1)与不存在(x=0)相比,个体发生结果事件(如y=1)优势比的对数值。 优势比: 是流行病学上衡量暴露因素(X )与疾病(Y )发生是否有关联及关
8、联程度大小的指标.,2020/7/23,医学统计学,17,优势比(odds ratio ,OR),暴露因素优势(odds1) 有暴露因素的个体中,个体出现某事件(y=1)的概率P(y=1)与个体无事件(Y=0)的概率(1-P)的比值,称某暴露因素存在发生某事件的优势。,2020/7/23,医学统计学,18,吸烟与肺癌关系的病例对照研究,结果 暴露因素(x) ( y) 吸烟=1 不吸烟 =0 合计 肺癌组(y=1) 688 (a) 21(b) 709 (a+b) 对照组(y=0) 350 (c) 359(d) 709(c+d) 合计 1038(a+c) 380(b+d)1418,暴露因素(吸烟的
9、优势)在两组的优势(odds1),同理:非暴露因素的odds0=21/359=0.0585,2020/7/23,医学统计学,19,优势比(odds ratio,OR),定义:暴露因素存在与暴露不存在出现事件(疾病)的优势(odds1)/(odds0)之比,称为事件暴露因素的优势比(odds ratio,OR) 公式:,例:,2020/7/23,医学统计学,20,优势比(odds ratio,OR),2020/7/23,医学统计学,21,OR值反映暴露因素与事件(疾病)关系,OR意义: OR值1,表示有暴露因素的个体出现事件(患某病)的优势大于无暴露因素者,或优势(危险性)增加 。 OR值1,表
10、示有暴露因素的人出现事件(患疾病)的优势低于无暴露因素者,或危险性减少。 OR值=1,意味无论暴露出现与否,与事件(疾病)无关系.,2020/7/23,医学统计学,22,Logistic方程的回归系数含义,暴露因素存在(x=1)与不存在(x=0)的个体相比,发生某事件(y=1)优势比的对数值。或 x每增加一个单位发生Y事件的对数优势比.,X=1,X=0,2020/7/23,医学统计学,23,含义为:在其他变量(x)固定后,某X=1与x=0相比或x每增加一个单位发生Y事件优势比的对数值。 回归系数与OR X与Y关联结论 =0, OR=1 无关 0,OR1 有关,危险因素 0,OR1 有关,保护因
11、子 OR值的大小反映暴露因素与事件发生关系的程度。,多个自变量(x)回归模型的 概念,2020/7/23,医学统计学,24,二、logistic回归模型的参数估计,1. 模型中的回归系数(i)估计 用最大似然函数 (maximum likelihood estimate, MLE)估计, 公式16-7,由统计软件包完成。,,,,,(16-7),2020/7/23,医学统计学,25,2. 优势比(OR)及可信区间的估计,如X=1,0两分类,则OR的1-可信区间估计公式为:,为回归系数的标准误,(公式16-11),回归系数与OR的关系为:,2020/7/23,医学统计学,26,例:讲义表16-1资
12、料,研究吸烟、饮酒与食管癌关系的病例对照设计的资料(886例),试作logistic回归分析。 变量的赋值,建立Logistic 回归模型为:,2020/7/23,医学统计学,27,吸烟、饮酒与食管癌关系的病例对照资料变量赋值和例数,暴露因素(x) (y)例数 吸烟 饮酒 病例 对照 0 0 63 136 0 1 63 107 1 0 44 57 1 1 265 151,暴露因素 无=0,有=1,2020/7/23,医学统计学,28,经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2 =0.5261,,Logistic 回归模型为:,控制饮酒因素后,吸烟与不
13、吸烟相比患食管癌的优势比为2.4倍,2020/7/23,医学统计学,29,OR的可信区间估计,X1变量(吸烟与不吸烟)OR的95%可信区间:,X2变量(饮酒与不饮酒)OR的95%可信区间:,2020/7/23,医学统计学,30,三、Logistic 回归模型的假设检验,1.检验模型中自变量的j是否对Y有作用。 检验方法: 1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score test),2020/7/23,医学统计学,31,假设检验的统计量,16-12,G统计量2,p,认为某变量对回归有统计意义。,吸烟(X1)和饮酒(x2)与食管癌关系例子
14、,消除饮酒的影响后,10,吸烟与食管癌有关系。,1.似然比检验(likelihood ratio test),2020/7/23,医学统计学,32,2.Wald检验(单个变量检验),检验假设: Wald检验统计量,公式16-14,当 认为某x对y有关系.,3.计分检验(score test),2020/7/23,医学统计学,33,例表16-1吸烟、饮酒与食管癌资料(SAS软件计算),1.对建立的整个模型做检验。 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr 似然比 68.5457 2 .0001 计分检验 67.071
15、2 2 .0001 Wald检验 64.2784 2 .0001,2020/7/23,医学统计学,34,例表16-1资料,对各x的做检验(wald检验),参数 Wald2 Pr 常数-0.9099 0.1358 44.8699 .0001 吸烟 0.8856 0.1500 34.8625 .0001 饮酒 0.5261 0.1572 11.2069 .0008,Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits 吸烟x1 2.424 1.807 3.253 饮酒x2 1.692 1.244 2.303,P值
16、,2020/7/23,医学统计学,35,四、 Logistic 回归的变量筛选,目的:将回归系数有统计意义的自变量选入模型中,作用不显著的自变量则排除方程外。 变量筛选算法有: 向前逐步法、向后逐步退法 逐步回归检验水准: 进入方程的检验水准为0.05或0.10, 变量保留在方程的水准为0.1或0.15,2020/7/23,医学统计学,36,例:讲义例16-2冠心病与危险因素关系的病例对照研究,设计方法:病例对照研究 病例组:经检查证实为冠心病的26例病人。 对照组:无冠心病和无与冠心病有关疾病的28 例病人为对照。 收集8个可能与冠心病有关危险因素,变量赋值见表16-2。 采用Logisti
17、c 回归逐步法做变量筛选。 进入方程=0.10,剔除方程为=0.15,2020/7/23,医学统计学,37,表16-2 冠心病8个可能的危险因素与赋值,因素 变量名 赋值说明 年龄(岁) x1 45=1,45-54=2,55-64=3,65=4 高血压史 x2 无=0, 有=1 高血压家族史 x3 无=0, 有=1 吸烟 x4 不吸=0,吸烟=1 高血脂史 x5 无=0, 有=1 动物脂肪摄入 x6 低=0, 高=1 体重指数 x7 24=1,24-=2,26-=3 A性格 x8 是=0, 否=1 冠心病 y 病例=1,对照=0,2020/7/23,医学统计学,38,表16-4 逐步回归法进入
18、方程的自变量及参数估计(SAS软件),变量 Sb Wald2 P值 标准 OR 常数 -4.705 1.54 9.30 0.0023 年龄 0.924 0.477 3.76 0.0525 0.401 2.52 高血脂 1.496 0.744 4.04 0.0443 0.406 4.46 脂肪摄入 3.136 1.249 6.30 0.0121 0.703 23.06 A性格 1.947 0.847 5.29 0.0215 0.523 7.01 标准回归系数() 比较各自变量对Y 的相对贡献,2020/7/23,医学统计学,39,表16-2 冠心病与危险因素关系,统计分析结果: 经Logisti
19、c回归分析(逐步法)结果见表, 冠心病的危险因素有年龄、高血脂、脂肪摄入 、A性格。 其中危险因素对冠心病的作用大小依次为脂肪摄入 、A性格、高血脂、年龄。,2020/7/23,医学统计学,40,第二节 条件Logistic回归,概念: 1. 用配对设计获得病例-对照研究资料,计算的Logistic回归模型为条件Logistic回归。 2.未配对设计的病例-对照研究资料,计算的Logistic回归模型为非条件Logistic回归。 两回归模型区别: 条件Logistic回归模型无常数项(0)参数;研究目的主要用于寻找危险因素的分析。,2020/7/23,医学统计学,41,病例对照的配对设计,采
20、用配对设计控制已知的影响因素(配对因素如年龄、性别、生活条件),减少对比较组的影响。 如配对组的观察对象为1个病例和1个对照,称为1:1配对研究,或1:2、1:4的配对研究。 例:16-6 采用1:2配对的病例对照设计,研究6个可能与喉癌有关的危险因素,共25个配对组,数据见表16-7.,2020/7/23,医学统计学,42,例:16-6 采用1:2配对配对病例对照研究喉癌危险因素,因素 变量名 赋值说明 咽炎 X1 无=1 偶尔=2 经常=3 吸烟史(支/日) X2 0=1 1 -4=2 5-9=3 10-20=4 20=5 声嘶史 X3 无=1 偶尔=2 经常=3 摄食新鲜蔬菜 X4 少=
21、1 经常=2 每天=3 摄食水果 X5 很少=1 少量=2 经常=3 癌症家族史 X6 无=0 有=1 是否患喉癌 Y 病例=1 对照=0 表16-8 逐步回归法进入方程的变量和参数 变量 回归系数 标准误Sb Wald2 P值 OR X2 1.4869 0.5506 7.29 0.0069 4.42 X3 1.9166 0.9444 4.12 0.0424 6.80 X4 -3.7641 1.8251 4.25 0.0392 0.02 X6 3.6321 1.8657 3.79 0.0516 37.79,2020/7/23,医学统计学,43,1:2配对25对病例对照研究喉癌危险因素,2020
22、/7/23,医学统计学,44,第三节 logistic回归的应用及注意问题,一、logistic回归的应用 1.危险因素的筛选和分析 用回归系数(i)和OR说明危险因素(x)与事件(疾病)的关系。例:讲义例16-1,16-2,16-3 适用的资料: 前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。,2020/7/23,医学统计学,45,2.校正混杂因素,评价实验处理的效应 如实验研究,比较组间存在混杂因素或实验无法控制因素,该法可控制混杂因素,合理评价结果的效应。 3.对个体预测与分类 1)预测个体在某因素存在条件下,发生某事件(发病)的概率.为进一步研究提供依据。 2)根据预测的概
23、率,对研究个体进行分类.,2020/7/23,医学统计学,46,腋下淋巴 甲医院=1 乙医院=0 结转移 病例 生存 生存率% 病例 生存 生存率% 无=0 45 35 77.7 300 215 71.6 有=1 710 450 63.4 83 42 50.6 合计 755 485 64.2 383 257 67.1,例1,变量编码:Y=1 生存,y=0 死亡,x1=1甲医院,x1=0乙医院,x2=1转移.x2=0无转移,两医院乳腺癌术后5年生存率比较,2020/7/23,医学统计学,47,Logistic回归模型计算结果,校正病情因素后,两医院生存率差别有统计意义,甲医院的生存率高于乙医院。
24、 病情因素差别有统计意义,淋巴结有转移者生存率低,是无转移患者生存率的43%。,2020/7/23,医学统计学,48,例2 两种药物对某病疗效的研究,上表可见,女性无论新药和对照药疗效高于男性,问:性别是否与疗效有关,排除性别因素后,两组药物疗效是否有差别? 不考虑性别作用,OR=4.46, P=0.01,2020/7/23,医学统计学,49,Logistic回归模型计算结果,Standard Wald Parame Estimate Error Chi-Square Pr 常数 -1.9037 0.5982 10.127 0.0015 性别 1.4685 0.575 6.508 0.0107
25、 药物 1.7816 0.518 11.794 0.0006 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits x1 性别 4.343 1.405 13.421 x2 药物 5.939 2.149 16.417,2020/7/23,医学统计学,50,结论:性别和药物的回归系数都均有统计意义。女性和用新药的疗效较优。 用Logistic的概率模型对个体的疗效做预测 :,设如女性病人,x1=1,用新药x2=1,有效的概率p=0.79 如男性病人x1=0,用新药x2=1, 有效的概率p=0.4695,2020/
26、7/23,医学统计学,51,二、Logistic回归应用的注意问题,1.模型中自变量的取值 计量数据有时划为有序组段(如年龄40岁=1、40-50岁=2、50-60岁=3),OR的实际意义更大。 例: 表16-3 年龄(每增加10岁)的OR=2.52 例:如年龄 x1(岁),2020/7/23,医学统计学,52,数据为分类数据赋值形式,1)两分类变量(Binary variable ) 赋值为:有=1,无=0 2)有序变量(Ordinal variable ) 文化程度,赋值为: 文盲=1 , 小学=2 , 中学=3 ,大专及以上=4 3.)多分类无序变量 如血型,化为分类数-1个哑变量(dummy variable),2020/7/23,医学统计学,53,哑变量的赋值与方程,哑变量方程:,血型(X)变量的赋值,2020/7/23,医学统计学,54,哑变量的赋值与方程,方程1:有序变量方程,含义:x每增加1个单位(10岁),发病的概率(优势比)增加1,表16-3 年龄(X)变量的赋值,2020/7/23,医学统计学,55,方程2:哑变量方程 方程系数的解释: 40-岁与40岁相比的对数优势比 50-岁与40岁相比的对数优势比 60-岁与40岁相比的对数优势比,2020/7/23,医学统计学,56,2.样本含量,1)非配对研究的病例和对照组的例数可相等或不等,但接近比较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童抽动障碍共患注意缺陷多动障碍诊断与治疗专家共识重点2026
- 儿童抽动障碍共患多动障碍诊疗共识2026
- 微创三维重建规划手术
- 2026年电力设施检修保养合同二篇
- 2021年BOPP 薄膜行业研究报告
- 幼儿园中班社会教案 -《找朋友》
- 2026沪教版七下【Unit1-4】【专项练习】专题06+单项选择80题(1-4单元词语辨异)
- GBT 3181-2008 漆膜颜色标准
- 任务1.2桥梁的组成和分类
- 任务3.1桥梁墩台构造
- 2026-2030全球及中国氮化镓功率芯片行业前景动态与投资盈利预测报告
- 西藏自治区日喀则市2026届高三第二次模拟考试语文试卷含解析
- 2026年酒店住宿O2O线上线下融合的预订与入住体验
- 中医涂擦疗法外用指南
- 2025秋季《中华民族共同体概论》期末综合考试-国开(XJ)-参考资料
- 2025年贵州省遵义市中小学生“π”节数学思维竞赛初赛ZYMC2数学试卷(六年级)(含解析)
- 2024年湖北省中考地理生物试卷(含答案)
- 网络渗透测试与网络设备安全 课件全套 第1-4章:网络安全基础-常见网络设备安全部署案例
- 团课考试试卷答案
- 整理核电站原理与系统
- 装饰工程施工进度计划横道图
评论
0/150
提交评论