版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,第十六章 logistic回归分析,logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法,.,问题提出:,医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无,.,研究问题可否用多元线性回归方法?,1.多元线性回归方法要求 Y 的取值为计量的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线性关系。 3.
2、多元线性回归结果 不能回答“发生与否” logistic回归方法补充多元线性回归的不足,.,Logistic回归方法,该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动01范围。 基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。,.,一、基本概念,1.变量的取值 logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。 可有m个自变量X1, X2, Xm,.,2.两值因变量的logistic回归
3、模型方程,一个自变量与Y关系的回归模型 如:y:发生=1,未发生=0 x 有=1无=0, 记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。,或,模型描述了应变量p与x的关系,.,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图16-1 Logistic回归函数的几何图形,为正值,x越大,结果y=1发生的可能性(p)越大。,.,几个logistic回归模型方程,.,logistic回归模型方程的线性表达,对logistic回归模型的概率(p)做logit变换,,截距(常数),回归系数,Y(-至+),线性关系,方程如下:,.,在有多个危险因素(Xi)时,多个变量
4、的logistic回归模型方程的线性表达:,或,.,2.模型中参数的意义,0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。,.,的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,.,危险因素 Y x= 1 x= 0 发病=1 30(a) 10( b) 不发病=0 70(c) 90(d) a+c b+d 危险因素 Y x= 1 x= 0 发病=1 p1 p0 不发病=0 1-p1 1-p0,有暴露因素人群中发病的比例,.,反映了在其他变量固定后,X=1与x=
5、0相比发生Y事件的对数优势比。 回归系数与OR X与Y的关联 =0,OR=1, 无关 0,OR1 , 有关,危险因素 0,OR1, 有关,保护因子 事件发生率很小,ORRR。,多元回归模型的的 概念,.,二、 Logistic回归模型,Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归,.,Logit变换 也称对数单位转换 logit P=,.,流行病学概念: 设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。,.,Logistic回归模型 Logistic回归的l
6、ogit模型 Logistic回归模型,.,三、参数估计,最大似然估计法 (Maximum likehood estimate) 似然函数:L=Pi 对数似然函数: lnL=(ln P)=ln P1+ln P2+ln Pn 非线性迭代方法 Newton-Raphson法,.,四、参数检验,似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的分布。,.,比分检验(score test)
7、以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的分布。,.,Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。 Logistic回归系数的区间估计,.,上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,.,五、回归系数的意义,单纯从数学上讲,与多元线性回归分析中
8、回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。,.,流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数Odds=P/(1-P) 比数比OR=P/(1-P)/P/(1-P) 在患病率较小情况下,ORRR,.,Logistic回归中的常数项(b0)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。,.,Logistic回归系数的意义,分析因素
9、xi为二分类变量时,存在(暴露)xi ,不存在(未暴露)xi ,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值即OR=exp(bi)=e (bi),.,分析因素xi为多分类变量时,为方便起见,常用1,2,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。,.,分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,。此时,
10、e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。,.,多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时, Logistic回归系数的解释变得更为复杂,应特别小心。,.,根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为 进而,优势比e(bi)的可信区间为,.,六、 Logistic回归分析方法,基本思想同线性回归分析。 从所用的方法
11、看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。,.,为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。,.,七、条件Logistic回归,对配对/比调查资料,应该用条件Logistic回归分析。 对于配比资料,第i个配比组可以建立一个Logistic回归:,.,假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。 配比设计的Logistic回归模型 其中不含常数项。,.,可以看出此回归模型与非条件
12、Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。 条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。,.,八、logistic回归的应用,1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(i)和OR说明危险因素与疾病的关系。 适用的资料: 前瞻性研究设计、病例对照研究设计、 横断面研究设计的资料。 三类研究计算的logistic 回归模型的意义是一致。仅常数项不同。(证明略),.,2.校正混杂因素,对疗效做评价 在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可
13、控制非处理因素,正确评价疗效。 3.预测与判别 预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。,.,输精管切除术与动脉粥样硬化疾病的研究 1问题的描述 (1)输精管切除术是否与动脉粥样硬化疾病有关? (2)如果存在联系,与其他已知的危险因素相比,输精管切除术的相对重要性有多大? (3)哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大?,九、logistic回归的应用举例,.,研究目的 (1)一般目的 确定输精管切除术与其后因动脉粥样硬化疾病而住院之间是否有因果联系;如果有,则确定输精管切除术与患动脉粥样硬化性疾病的危险性是否因观察对象具有其他冠心病
14、危险因素,如吸烟、高血压和高胆固醇等而增强。,.,(2)特殊目的 A估计输精管切除术及其男性动脉粥样硬化性疾病危险因素的相对危险度(使用单变量分析方法); B估计输精管切除术对动脉粥样硬化性疾病独立的作用(利用条件Logistic回归模型); C检测输精管切除术导致动脉粥样硬化性疾病的可能期限; D检测在输精管切除术、吸烟和高血压之间可能的协同作用。,.,研究变量 (1)按照世界卫生组织标准来诊断动脉粥样硬化性疾病; (2)病人特征:年龄,出生日期,宗教,教育,职业,家庭史,婚姻状况。 (3)生育史:存活子女的数量与性别,妻子的生育情况。 (4)生活方式:吸烟习惯,饮酒量,饮食习惯,食盐量,喝
15、咖啡量,体力活动。 (5)医学史:有无可能导致不育的疾病或手术、高血压、糖尿病或高胆固醇血症。,.,研究设计 抽样: 以完全随机抽样方式确定样本。样本量大小的计算是基于事先确定显著性水平、把握度和打算测知的相对危险度水平。假定样本量确定为病例组500例,对照组1000例。本设计力图避免或减少在病例一对照研究中常见的偏倚与误差。回忆偏倚、选择偏倚和输精管切除术报告偏倚对研究结果的真实性是极其重要的。,.,资料收集: 病例组的选取:调查员审阅每日住院病人情况如果诊断适合研究的范围,将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景
16、资料合格调查人员开始询问并填写调查表每完成5个病例和10个配对对照以后,请研究中心的工作人员对调查表进行评估重复以上步骤。,.,对照组的选取:调查人员评估入院单并选择符合配对标椎和入院诊断合适的对照病例核对病人背景资料是否符合入院标准如对照组成员合格,则进行调查。,.,统计分析: A计算未校正的相对危险比(OR)与95可信限范围,以估计输精管切除术和其他危险因素的相对危险度。 B利用配对的条件Logistic 回归模型计算校正相对危险比,用此比来评价输精管切除术对动脉粥样硬化的独立影响。 C利用动脉粥样硬化作为因变量,输精管切除术后间隔时间作为自变量,用条件Logistic回归模型来检验输精管
17、切除术后时间长短对发生动脉粥样硬化的时间效应。,.,二、Logistic回归应用的注意事项,1.模型中自变量的取值 自变量(X)可为计量数据、分类数据和等级数据。 计量数据常重新划为有序组段,OR的实际意义较大。 例:年龄(岁,x1),十、logistic回归的注意事项,.,数据的几种赋值形式,1)两分类变量,赋值为:有=1,无=0 2)有序变量,赋值;无=0,少=1,中=2,多=3 例;年龄 45=1 45-54=2 55-64=3 65=4 3.)多分类无序变量: 赋值为:哑变量(dummy variable)形式 见例: 注:变量取值不同,方程的系数和符号将发生变化。,.,冠心病可能的危
18、险因素与赋值,.,年龄(X)化为哑变量的赋值,方程1:有序变量方程,含义:x每增加1个单位(10岁),发病的lnOR平均增加1,.,方程2:哑变量方程(哑变量个数=分类数1) 方程系数的解释: 表示40-岁/40岁相比的对数优势比 表示50-岁/40岁相比的对数优势比 表示60-岁/40岁相比的对数优势比,.,哑变量的赋值方法,例2:研究某结果与血型的关系,变量规定某个分类为对照,对照组在哑变量的赋值均为0,式中回归系数表示各对比组与对照组(A型)相比的变化值。,.,变量X4的哑变量的赋值方法 规定治疗11周=X4-1,是=1,否=0 规定治疗21周=X4-2,是=1,否=0 规定治疗1周为对照组。 哑变量的赋值 周 X4-1 X4-2 1 0 0 11 1 0 21 0 1,.,2.样本含量:,1)病例和对照组的例数可相等或不等。 2)样本例数的估计 原则:自变量个数越多,例数越多。各组样本例数(对照组和病例组)至少为自变量个数的5-20倍。,.,3.模型的评价,对所建立的回归方程做拟合优度检验。检查模型估计与实际数据的符合情况。 统计量的概率值P0.05,认为模型拟合较好。,.,4.多分类的Logistic回归,Logistic回归可处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 迪拜展览活动策划方案(3篇)
- 2026兴业银行博士后科研工作站招收备考题库完整答案详解
- 2026广东深圳华润现代服务校园招聘备考题库及答案详解(考点梳理)
- 2026中国人寿保险股份有限公司博尔塔拉蒙古自治州分公司招聘21人备考题库(新疆)及答案详解(易错题)
- 2026年通信网络设备故障排查网络工程师考试题库
- 2026年法律常识普及刑法基本原则题目
- 2026年幼儿教师招聘笔试模拟题教学方法
- 2026年哲学经典及逻辑思维能力拓展问题库
- 2026年医学考研专业题目库生理学与药理学
- 2026年企业战略规划师企业愿景与目标设定笔试题
- 2026重庆高新开发建设投资集团招聘3人备考考试试题及答案解析
- 老年人管理人员培训制度
- 2026四川成都市锦江区国有企业招聘18人笔试备考试题及答案解析
- 特种工安全岗前培训课件
- 2026届福建省三明市第一中学高三上学期12月月考历史试题(含答案)
- (正式版)DB51∕T 3342-2025 《炉灶用合成液体燃料经营管理规范》
- 2026北京海淀初三上学期期末语文试卷和答案
- (正式版)HGT 20593-2024 钢制化工设备焊接与检验工程技术规范
- 肘关节恐怖三联征
- 刀模管理制度
- NB-T 47013.2-2015 承压设备无损检测 第2部分-射线检测
评论
0/150
提交评论