北京大学医学部医学统计学进阶1第3讲 logistic回归_第1页
北京大学医学部医学统计学进阶1第3讲 logistic回归_第2页
北京大学医学部医学统计学进阶1第3讲 logistic回归_第3页
北京大学医学部医学统计学进阶1第3讲 logistic回归_第4页
北京大学医学部医学统计学进阶1第3讲 logistic回归_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归分析北京大学公共卫生学院王海俊副教授LogisticRegression什么是适宜的统计方法?1、与研究目的有关2、与资料类型有关当研究目的为建立某病发生概率与自变量关系的统计模型时,是否可用线性回归模型?为什么?

P某事件发生的概率

X可能与该事件发生有关的因素

P=

α+

1X1+β2X2+β3X3+…+βmXm一、Logistic回归模型Logistic回归是描述一些自变量X和一个分类变量之间关系的数学模型。

应变量:二分类变量,若令应变量为y,则常用y=1表示“发病”,y=0表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。

自变量:可以为分类变量,也可以为连续变量。与线性回归分析的主要区别:应变量为连续计量资料Logistic回归的分类

二分类多分类条件Logistic回归非条件Logistic回归Logistic回归模型

P=P(y=1|x),为发病概率;

0为常数项,

1,

2…..

m分别为m个自变量的回归系数。LogisticfunctionZ=α+

1X1+β2X2+β3X3+…+βmXm

Logisticfunctionf(z)取值0-1,可描述/预测概率,Logistic模型是概率模型

Logisticfunctionf(z)呈S-形曲线,符合流行病学对危险因素与疾病风险关系的认识

Logistic回归模型特点Logit变换(也称对数单位转换)logitP==P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。二、参数估计最大似然估计法(Maximumlikehoodestimate)似然函数:L=

P(y=1|x)P(y=0|x)对数似然函数:

lnL=∑(lnP)=lnP1+lnP2+…+lnPn非线性迭代方法——Newton-Raphson法通过迭代法估计一组参数(

0,

1,

2…..m)使L达到最大。三、回归系数的意义

单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即βi表示xi改变一个单位时,logitP的平均变化量。流行病学一些概念:

设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势或比值(odds),logitP就是odds的对数值。比值

Odds=P/(1-P)比值比

OR=[P1/(1-P1)]/[P0/(1-P0)]比值比OddsRatioOdds=P/(1-P)暴露组:P1=a/(a+b),1-P1=b/(a+b)Odds=a/b非暴露组:P0=c/(c+d),1-P0=d/(c+d)Odds=c/dOddsRatio(OR)患病人数未患病人数暴露组ab非暴露组cd相对危险度(relativerisk):RR=P1/P0

当一种病的死亡率(或发病率)较小,近似于零时,1-P≈1,则有:OR≈RR=P1/P0Logistic回归中的常数项(β0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(βi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。Logistic回归系数的意义分析因素xi为二分类变量时,暴露xi

=1,非暴露xi=0,则Logistic回归中xi的系数βi就是暴露与非暴露优势比的对数值.即,OR=exp(βi)=eβi

βi=0时,OR=1,Xi对疾病不起作用;

βi>0时,OR>1,Xi是疾病的危险因素;

βi<0时,OR<1,Xi是疾病的保护因素。分析因素xi为多分类无序变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。分析因素xi为多分类有序(等级)变量时:

如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,eβi

表示xi增加一个等级时的优势比,e(k*βi)表示xi增加k个等级时的优势比。

如果每个等级的作用不相同,则按多分类无序资料处理。分析因素xi为连续性变量时,eβi表示xi增加一个计量单位时的优势比。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归模型中各自变量与疾病关系的联合作用为乘法模型,回归系数的解释变得更为复杂,应特别慎重。对于自变量(X1,X2),OR12=EXP(

1+

2)=OR1×OR2例:某研究调查胃癌发病的危险因素,得到“有不良饮食习惯”相对于“无不良饮食习惯”的OR=2.6,“喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的OR=2.6×2.4=6.24,得出此结论时需要考虑:从专业知识上是否合理?样本量较大时,Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比OR(ebi)的可信区间为OR的可信区间四、模型检验和评价似然比检验(likehoodratiotest)

通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数的变化来进行,其统计量为G(又称Deviance)。

G=-2(lnLp-lnLk)

样本量较大时,G近似服从自由度为待检验因素个数的

2分布。Wald检验(waldtest)即广义的t检验,统计量为u

u服从正态分布,Sbi即为标准误。同理,Logistic回归系数的区间估计

似然比检验:卡方检验Wald检验:只能对单个b检验;未考虑各因素间的综合作用,在因素间有共线性时结果不如前者可靠。大样本时两种方法结果一致。对模型拟合的优良性评价:(1)拟合分类表(ClassificationTable)根据Logistic回归模型,对样本重新判别分类,符合率越高,模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此法仅作参考。(2)最大似然函数值LSPSS报告:“-2LogLikelihood”报告值越大,意味着回归方程的似然值越小(L1),标志模型的拟合程度越差;

很高的-2L值说明:1)可能Logistic回归不合适;2)可能影响因变量的主要因素未被考虑在内。五、变量筛选基本思想同线性回归分析。从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的统计量之一。

为计算方便,通常向前选取变量用似然比检验,而向后剔除变量常用Wald检验。六、条件Logistic回归对配对调查资料,应该用条件Logistic回归分析。

假设自变量在各配对组中对结果变量的作用是相同的。配对设计的Logistic回归模型其中不含常数项。此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。七、其他Logistic回归模型1、无序多分类应变量2、有序多分类应变量八、Logistic回归的应用危险/保护因素的筛选,并确定其作用大小。预测:预测某种情况下或者某个病例,某特定事件发生的概率。九、注意事项应用条件

1.各观察对象间相互独立;2.logitP与自变量呈线性关系。变量的取值形式:变量采取不同的取值形式,参数的含义、量值及符号都可能发生变化。

二分类变量:0、1(连续性变量或哑变量)多分类无序变量:哑变量多分类有序(等级)变量:连续性变量或哑变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论