Logistic回归-医学统计学_第1页
Logistic回归-医学统计学_第2页
Logistic回归-医学统计学_第3页
Logistic回归-医学统计学_第4页
Logistic回归-医学统计学_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归模型

Logisticregression首都医科大学公共卫生与家庭医学学院流行病与卫生统计学系讲授教师:杨兴华xinghuay@201210/9/20231复习多重线性回归

(multiplelinearregression)

在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。10/9/20232表1多重线性回归分析的数据结构实验对象yX1X2X3….XP

1y1a11a12a13…a1p

2y2a21a22a23…a2p

3y3a31a32a33…a3p

nynan1an2an3…anp

━━━━━━━━━━━━━━━━━━其中:y取值是服从正态分布10/9/20233多重线性回归模型

通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象值,利用最小二乘法原理,建立多重线性回归模型:其中b0为截距,b1,b2…bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位.10/9/20234logisticregressionanalysisLogistic回归分析及其应用10/9/20235(一)基本概念和原理

1、应用背景

Logistic回归模型是一种概率模型,适合于病例-对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二项或多项分类。可用影响结果变量发生的因素为自变量,建立回归方程。10/9/20236

设资料中有一个因变量y、p个自变量x1,x2,…,xp,对实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构10/9/20237表2Logistic回归模型的数据结构实验对象yX1X2X3….XP

1y1a11a12a13…a1p

2y2a21a22a23…a2p

3y3a31a32a33…a3p

nynan1an2an3…anp

━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类10/9/20238

表3肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区111030021014613000351………………30000261

注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。

10/9/20239

表4配对资料(1:1)对子号病例对照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2

10/9/202310Logistic回归

--Logistic回归与多重线性回归联系与区别联系:

用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。区别:

线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。10/9/2023113、Logistic回归模型

令:y=1发病(阳性、死亡、治愈等)

y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:可知,不发病的概率为:

10/9/202312

经数学变换得:定义:为Logistic变换,即:

10/9/202313

4、回归系数βi的意义

流行病学的常用指标优势比(oddsratio,OR)或称比值比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:10/9/202314故对于样本资料OR=exp()95%置信区间为:可见是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数10/9/2023155.假设检验(1)回归方程的假设检验H0:所有H1:某个计算统计量为:G=-2lnL,服从自由度等于n-p的分布(2)回归系数的假设检验H0:H1:计算统计量为:Wald,自由度等于1。10/9/202316(二)Logistic回归类型及其实例分析

1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例对照研究时,可以用非条件Logistic回归。10/9/202317实例1

某研究者调查了30名成年人,记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,‘0’代表否,‘1’代表是;性别中‘1’代表男,‘0’代表女;吸烟中‘1’代表吸烟,‘0’代表不吸烟;地区中,‘1’代表农村,‘0’代表城市。试分析各因素与肺癌间的关系。10/9/202318

表5肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区111030021014613000351………………30000261注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。10/9/202319Datalog1;Infile’log1.dat’;-----------读取数据Inputnyx1-x4@@;-----------指出变量Proclogistic;----------调logistic回归模块

modely=x1;run;-----------作单变量(x1)分析Proclogistic;modely=x2;run;Proclogistic;modely=x3;run;Proclogistic;modely=x4;run;Proclogistic;

modely=x1-x4;run;------------作多变量分析10/9/202320

表6

单因素Logistic回归分析结果

模型号变量系数标准误Wald卡方P值

1X11.70470.80064.53440.03322X22.56490.93647.50290.00623X30.14280.04679.34090.0022

4X4-0.27190.73870.13550.7128

结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.10/9/202321表7多因素Logistic回归分析结果变量系数标准误Wald卡方P值INTERCPT-9.754.095.660.02X12.521.821.920.17X23.981.984.060.04X30.190.085.670.02X4-1.301.580.680.41

由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.10/9/202322SPSS操作步骤:Analyze-----Regression-----BinaryLogistic-----Dependent框(y)-----Covariates框(x1,x2,…)------ok非条件Logistic回归

SPSS操作步骤:10/9/20232310/9/20232410/9/202325

结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.单因素分析的结果10/9/202326多因素分析的结果10/9/20232710/9/202328

由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.10/9/2023292.条件logistic回归分析配对设计的类型:1:1、1:m、n:m(可采用分层COX模型来拟合)。例如:某市调查三种生活因素与胃癌的关系,资料见表5。10/9/202330表5配对资料(1:1)对子号病例对照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,210/9/202331配对Logistic回归SPSS操作步骤:Analyze-----Survival----COXRegression-----Time框(outcome)-----Status框(Status)-----DefineEvent:Singlevalue1:continue-----Covariates框(x1、x2、x3)-----Strata框(id)---Options---atlaststep------ok10/9/20233210/9/20233310/9/20233410/9/20233510/9/20233610/9/20233710/9/20233810/9/2023393、逐步Logistic回归分析(1)向前法(forwardselection)

开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值P(0.05)。10/9/202340(2)后退法(backwardselection)

开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值大于规定的剔除标准Remove,缺省值p(0.10)。

10/9/202341(3)逐步回归法

逐步引入-剔除法(stepwiseselection)

前进逐步引入-剔除法是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。10/9/202342

无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在model后加选项:/selection=forward、backward或stepwise再给出SLE,SLS的界值。

调试法:P从大到小取值0.5,0.1,0.05…,一般实际用时,SLE,SLS应多次选取调整10/9/202343解释

设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。当bi>0时,对应的优势比(oddsratio,记为ORi):ORi=exp(bi)>1,说明该因素是危险因素;当bi<0时,对应的优势比ORi=exp(bi)<1,说明该因素是保护因素。

10/9/202344

Logistic逐步回归结果

ParameterStandardWaldPr>RiskVariableDFEstimateErrorChi-SquareChi-SquareRatio

X211.22180.84102.11070.14633.393

X312.29471.80721.61240.20429.922

采用Logistic逐步回归:Proclogistic;modely=x1-x3/nointselection=stepwisesle=0.3sls=0.3;Run;10/9/202345

在本例中不良饮食习惯X2,取值:0、1,2、3,b=1.2218,OR=3.393,表示不良饮食习惯,每增加一个单位时,发病的可能性提高3.393倍;精神状况X3,取值:0、1、2,b=2.2947,OR=9.922,表示精神状况不良影响发病,精神状况每增加一个单位时,发病的可能性提高9.922倍。10/9/202346SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法Backward:后退法变量移出方程所采取的检验方法:Conditional;LR;Ward

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论