Logistic-回归模型-课件_第1页
Logistic-回归模型-课件_第2页
Logistic-回归模型-课件_第3页
Logistic-回归模型-课件_第4页
Logistic-回归模型-课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归模型赵耐青复旦大学公共卫生学院1ppt课件Logistic回归模型赵耐青1ppt课件数据分析的背景计量资料单因素统计分析对于两组计量资料的比较,一般采用t检验或秩和检验。对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。2ppt课件数据分析的背景计量资料单因素统计分析2ppt课件数据分析的背景单因素的分类资料统计分析,一般采用Pearson2进行统计检验,用OddsRatio及其95%可信区间评价关联程度。考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。3ppt课件数据分析的背景单因素的分类资料统计分析,一般采用PearsoLogistic回归模型按研究设计分类非配对设计:非条件Logistic回归模型配对的病例对照:条件Logistic回归模型按反应变量分类二分类Logistic回归模型(常用)多分类无序Logistic回归模型多分类有序Logistic回归模型4ppt课件Logistic回归模型按研究设计分类4ppt课件基础知识通过下例引入和复习相关概念例如:研究患某疾病与饮酒的关联性患病率P1=a/m1P2=b/m25ppt课件基础知识通过下例引入和复习相关概念5ppt课件基础知识Odds(优势)P越大,则Odds越大;P越小,则Odds越小并且0<Odds<+6ppt课件基础知识Odds(优势)P越大,则Odds越大;P越小,则O基础知识P与Odds一一对应对于两个Odds的比较,一般用它们的Ratio,并称为OddsRatio(OR),其定义如下:其样本估计统计量为7ppt课件基础知识基础知识

故比较两个率<==>比较OR=1?OR>1?OR<1?8ppt课件基础知识8ppt课件(二分类)Logistic回归模型因为0<Odds<+所以-<ln(Odds)<+对ln(Odds)引入类似多重线性回归的表达式9ppt课件(二分类)Logistic回归模型因为0<Odds<+9pLogistic回归模型记:故可以写为也可以写为10ppt课件Logistic回归模型记:10ppt课件回归系数的意义以x1的回归系数1为例固定其它自变量,比较x1与x1+1的ln(Odds)变化。对于x1,对于x1+1,反对数变换得到11ppt课件回归系数的意义以x1的回归系数1为例11ppt课件研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查。实例112ppt课件研究急性心肌梗塞(AMI)患病与饮酒的关系,采用横断面调查实例1饮酒的患病率和Odds分别为不饮酒的患病率和Odds分别为13ppt课件实例1饮酒的患病率和Odds分别为不饮酒的患病率和Odds分实例1的Logistic回归模型患病(Y=1)的概率为x=1表示饮酒,x=0表示不饮酒回归系数0,1是未知参数,通常用最大似然估计的方法。14ppt课件实例1的Logistic回归模型患病(Y=1)的概率为14p实例1:患病与未患病的概率饮酒(x=1),患病概率和未患病概率分别为不饮酒(x=0),患病概率和未患病概率分别为15ppt课件实例1:患病与未患病的概率饮酒(x=1),患病概率和未患病概实例1:最大似然估计本例的似然函数选择0和1使似然函数L达到最大,即最大似然估计。16ppt课件实例1:最大似然估计本例的似然函数16ppt课件实例1:用Logistic模型进行统计分析以上述实例资料用Stata统计软件对回归系数进行最大似然估计,得到回归系数估计为即:17ppt课件实例1:用Logistic模型进行统计分析以上述实例资料用SLogistic模型的单个回归系数检验关键是如果=0,意味自变量X与Y无关联性。由于的估计存在抽样误差,即使=0,其估计值b一般不为0,故需检验=0?H0:=0H1:0=0.05检验统计量可以证明:H0:=0为真时,z近似服从标准正态分布,即:|z|>1.96,P<0.05,拒绝H018ppt课件Logistic模型的单个回归系数检验关键是如果=0,意味实例1:用Logistic模型进行统计分析实例1的回归系数估计为se(b)=0.1780719,z=b/se=2.31,P=0.021<0.05拒绝H0,差异有统计学意义,可认为0。饮酒与患AMI的关联性为OR的95%可信区间为(1.06,2.14)19ppt课件实例1:用Logistic模型进行统计分析实例1的回归系数估应用Logistic模型校正混杂作用实例2:上例没有考虑吸烟情况,故将吸烟作为分层加入,资料如下:20ppt课件应用Logistic模型校正混杂作用实例2:上例没有考虑吸烟实例2:应用Logistic模型

校正混杂作用从分层的资料表述可知:由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联。用x1=1和0分别表示饮酒和不饮酒,用x2=1和0分别表示吸烟和不吸烟,Logistic模型表示如下21ppt课件实例2:应用Logistic模型

校正混杂作用从分层的资料表Logistic模型的似然比检验在多个自变量回归模型中,回归系数检验分为单个回归系数检验和多个回归系数检验。单个回归系数检验表示其它变量均在模型中的情况下,检验某个回归系数i=0,一般用Wald检验(如实例1)。多个回归系数检验要用似然比方法(likelihoodratiotest)22ppt课件Logistic模型的似然比检验在多个自变量回归模型中,回归Logistic模型的似然比检验多个回归系数的检验(以实例2为例)H0:1=2=0H1:1,2不全为0=0.05H0为真时,模型为用最大似然法进行估计,其对数最大似然函数值(似然函数的最大值取对数)记为ln(L0)23ppt课件Logistic模型的似然比检验多个回归系数的检验(以实例2Logistic模型的似然比检验H1为真时,实例2的模型为用最大似然法进行估计,其对数最大似然函数值记为ln(L1)记似然比检验统计量为2ln(L)=2(ln(L1)-ln(L0))24ppt课件Logistic模型的似然比检验H1为真时,实例2的模型为2Logistic模型的似然比检验可以证明:H0为真时,2ln(L)近似服从2分布,自由度为需检验的自变量个数,如在实例2中,自由度为2。如果似然比检验统计量2ln(L)>则拒绝H0。如果对模型中所有的自变量进行检验,则称为模型检验。如实例2,对两个自变量进行检验,故这是模型检验。25ppt课件Logistic模型的似然比检验可以证明:H0为真时,2l实例2应用Logistic模型

校正混杂作用应用Stata软件进行最大似然估计,得到模型拟合的主要结果如下似然函数比为2ln(L)=76.32,df=2,P<0.001,因此拒绝H0:1=2=0,可以认为1和2不全为0。26ppt课件实例2应用Logistic模型

校正混杂作用应用Stata软实例2应用Logistic模型

校正混杂作用应用Stata软件进行最大似然估计,得到回归系数估计的主要结果如下饮酒:27ppt课件实例2应用Logistic模型

校正混杂作用应用Stata软多自变量Logistic模型的OR解释在本例中,对于同为吸烟或不吸烟的对象而言(x2相对固定不变),饮酒(x1=1)的对数Odds为不饮酒(x1=0)的对数Odds为28ppt课件多自变量Logistic模型的OR解释在本例中,对于同为吸烟多自变量Logistic模型的OR解释则饮酒的对数OddsRatio为即:饮酒的意义:对于同为吸烟的对象或者同为不吸烟的对象,其饮酒的故称校正吸烟后OR,而前者未考虑吸烟的单因素OR称为crudeOR29ppt课件多自变量Logistic模型的OR解释则饮酒的对数Odds实例2应用Logistic模型

校正混杂作用饮酒:P=1校正了吸烟因素的情况下,没有足够的证据推断饮酒与AMI患病有关联性。吸烟:P<0.001,校正了饮酒的情况下,可以认为吸烟与患AMI的关联性有统计学意义,并且可以认为吸烟者患AMI的风险更大。30ppt课件实例2应用Logistic模型

校正混杂作用饮酒:30pptLogistic模型中的交互作用实例3:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。用x1=1,0分别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用y=1,0分别表示患肺癌和未患肺癌。31ppt课件Logistic模型中的交互作用实例3:采用病例对照设计研究实例3:Logistic模型的交互作用一般而言,吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用项的Logistic模型。其中x1和x2的乘积项x1x2称为交互作用项32ppt课件实例3:Logistic模型的交互作用一般而言,吸烟和家属史应用Logistic模型分析实例3用Stata软件对实例3的资料拟合上述模型,得到下列结果:3=0.955825,P=0.04,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交互作用。33ppt课件应用Logistic模型分析实例3用Stata软件对实例3的实例3:Logistic模型的交互作用由于本例模型为对于无家属史,x2=0代入模型,得到由回归系数与OR的关系,得到吸烟的:P<0.00134ppt课件实例3:Logistic模型的交互作用由于本例模型为P<0.实例3:Logistic模型的交互作用由于本例模型为对于有家属史,x2=1代入模型,得到有家属史的吸烟OR为35ppt课件实例3:Logistic模型的交互作用由于本例模型为35pp实例3:Logistic模型的交互作用H0:1+3=0H1:1+30=0.05(应用Stata软件可进行下列计算)

当H0为真时,检验统计量2服从自由度为1的2分布,由于本例检验统计量2=40.58>=3.84,故拒绝H0,可以认为1+30,差别有统计学意义,可以认为吸烟者患肺癌的风险更大。36ppt课件实例3:Logistic模型的交互作用H0:1+3=0实例3:Logistic模型的交互作用同理,为了评价家属史与肺癌的关联性,根据下列Logistic模型对于不吸烟x1=0,则上述Logistic模型为家属史的P=0.认为026<0.05,差别有统计学意义,可以认为有家属史的患者患肺癌的风险更大。37ppt课件实例3:Logistic模型的交互作用同理,为了评价家属史与实例3:Logistic模型的交互作用同理,为了评价家属史与肺癌的关联性,根据下列Logistic模型对于吸烟x1=1,则上述Logistic模型为同理可用Stata软件得到相应P=0.007738ppt课件实例3:Logistic模型的交互作用同理,为了评价家属史与Logistic模型中的交互作用实例3小结:吸烟与肺癌患病有关联性,并且对于有家属史的情况下,吸烟与肺癌患病的关联性被进一步加强,且差异有统计学意义。家属史与患肺癌有关联性,并且吸烟会导致家属史与肺癌之间的关联性进一步加强,且差异有统计学意义。39ppt课件Logistic模型中的交互作用实例3小结:39ppt课件病例对照研究与Logistic模型在病例对照研究中,由于分组采样是按病例和对照分别采样的,病例组的人数和对照组的人数均是研究者自己决定的,病例数人与对照人数之比不是人群的比,故不能估计患病率,但可以估计OR。对于病例对照研究的资料,可以用Logistic模型评估各个因素对应变量的OR,但不能估计和预测相应的患病概率。40ppt课件病例对照研究与Logistic模型在病例对照研究中,由于分组Logistic模型中的交互作用例4评价两个药治疗某疾病的疗效,资料如下:定义y=1,0分别为有效和无效,x1=1,0分别为A药和B药,x2=1,0分别为病情重和轻。41ppt课件Logistic模型中的交互作用例4评价两个药治疗某疾病的Logistic模型中的交互作用由于研究设计中考虑了病情重和病情轻的情况,所以应考虑病情轻重和不同药物治疗对疗效的交互作用。用Stata统计软件进行回归模型的拟合,得到下列结果(见下一张幻灯)。42ppt课件Logistic模型中的交互作用由于研究设计中考虑了病情重和Logistic模型中的交互作用对于病情轻x2=0代入模型,得到

43ppt课件Logistic模型中的交互作用43ppt课件Logistic模型中的交互作用药物因素变量x1的回归系数为,P=0.652>0.05,两个药的疗效差异无统计学意义。模型病情重x2=1代入模型,得到44ppt课件Logistic模型中的交互作用药物因素变量x1的回归系数为Logistic模型中的交互作用即:病情重时的药物变量x1的回归系数为对于在病情重的情况下,两个药的疗效是否有差异需检验1+3=0,用Stata软件计算得:检验统计量2=42.16,df=1,P<0.001,说明A药组(x1=1)的疗效大于B药组(x1=0),差异有统计学意义。45ppt课件Logistic模型中的交互作用即:病情重时的药物变量x1的实例4小结在病情轻的情况下,两个药的疗效差异无统计学意义。在病情重的情况下,可以认为A药的疗效优于B药。即:不能简单地称A药优于B药或两个药的疗效差异无统计学意义。请注意:在有交互作用的模型中,其主效应(本例x1)解释应谨慎。46ppt课件实例4小结在病情轻的情况下,两个药的疗效差异无统计学意义。4交互作用的小结交互作用的意义就是不同层(某因素的不同水平)另一个研究因素与应变量的之间的关联程度是不同的。在回归分析和方差分析中,经统计检验得到交互作用项有统计学意义只是统计分析的中间结果,不要简单归结为协同作用或拮抗作用,一般要做进一步分析。47ppt课件交互作用的小结交互作用的意义就是不同层(某因素的不同水平)另交互作用的小结在有交互作用的Logistic模型中,对交互作用项要根据研究目的进行解释,一般应进行分层作简单效应检验,特别很可能某个层有统计学意义而另一个层没有统计学意义。主效应的解释要特别注意,要结合回归模型和变量定义进行谨慎地解释。应用交互作用模型可以比较多个OR。48ppt课件交互作用的小结在有交互作用的Logistic模型中,对交互作多分类无序自变量的处理例5:用横断面调查设计,分析职业与患糖尿病的关联性。职业:用x1=1,2,3分别表示农民,工人和干部(含知识分子)。用x2表示年龄。由于x1是分类无序变量,必须用亚元变量表示。49ppt课件多分类无序自变量的处理例5:用横断面调查设计,分析职业与患糖多分类无序自变量的处理职业变量x1直接引入Logistic模型是不合适的,因为模型中引入x1后,模型为若1>0,导致x1越大,患病概率相对越大;若1<0,则导致x1越大,患病概率相对越小。而x1属于无序多分类变量,x1数值大小是没有背景意义的,仅是指示作用,应引入亚元变量处理。50ppt课件多分类无序自变量的处理职业变量x1直接引入Logistic模多分类无序自变量的处理亚元变量x12和x13的定义如下:相应的Logistic模型为51ppt课件多分类无序自变量的处理亚元变量x12和x13的定义如下:51多分类无序自变量的处理借助Stata软件用最大似然法估计回归系数得到下列结果:x12的回归系数的P=0.401>0.05,即:对于职业为工人与农民而言,其与患病之间的关联性无统计学意义。52ppt课件多分类无序自变量的处理借助Stata软件用最大似然法估计回归多分类无序自变量的处理x13的回归系数P=0.003<0.05,说明干部与农民的职业与患糖尿病有关联,其干部与工人比较,用Stata软件检验12=13,P=0.023<0.05,差异有统计学意义。X2的回归系数P<0.001,说明年龄与患病也有关联,其OR=1.04。53ppt课件多分类无序自变量的处理x13的回归系数P=0.003<0.0引用亚元变量应注意的问题在Logistic模型中,二分类变量是不区分有序和无序的,因为回归系数的正负号能处理两分类变量所对应的概率大小问题。在Logistic模型中,用亚元处理多分类自变量时,对同一个因素的一组亚元而言,必须同时引入模型或同时不引入模型,不能若干个亚元在模型中,其它亚元不在模型中,这样会导致模型的参数意义发生改变以致错误解释参数意义。54ppt课件引用亚元变量应注意的问题在Logistic模型中,二分类变量多分类有序自变量的处理例6:用横断面调查设计,分析肥胖与患糖尿病的关联性。职业:用x1=0,1,2分别表示体重正常,超重和肥胖。用x2表示年龄。x1是有序的分类变量(等级变量)Y=1表示患糖尿病,Y=0表示未患糖尿病。55ppt课件多分类有序自变量的处理例6:用横断面调查设计,分析肥胖与患糖多分类有序自变量的处理有序分类变量可以直接引入Logistic模型,也可以按无序分类变量方式采用亚元变量引入模型,一般视资料而决定。有序分类变量直接引入模型:体重正常x1=0,体重超重x1=1,体重超重与正常的对数OR为56ppt课件多分类有序自变量的处理有序分类变量可以直接引入Logisti多分类有序自变量的处理由体重正常x1=0体重超重x1=1,体重超重与正常的对数OR为作对数反变换,得到体重超重与正常的57ppt课件多分类有序自变量的处理由57ppt课件多分类有序自变量的处理由体重超重x1=1,体重肥胖x1=2,体重肥胖与超重的对数OR为作对数反变换,得到体重肥胖与超重的58ppt课件多分类有序自变量的处理由58ppt课件多分类有序自变量的处理由此可见,如果直接将有序多分类变量引入模型,就是假定相邻两个等级的总体OR相同,并且不难验证:体重肥胖与体重正常的。综合上述,若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类变量引入模型,对于不满足这个条件,则应采用亚元变量引入模型。59ppt课件多分类有序自变量的处理由此可见,如果直接将有序多分类变量引入多分类有序自变量的处理对于多分类有序自变量,可以用似然比检验的方法检验相邻两个等级的总体OR是否相同。在模型1中引入亚元变量,其定义如下:体重正常体重超重体重肥胖x1012X11010x1200160ppt课件多分类有序自变量的处理对于多分类有序自变量,可以用似然比检验多分类有序自变量的处理模型1用最大似然法得到的似然函数值为L1模型2:用最大似然法得到的似然函数值为L2显然两个模型等价意味1=11且21=12似然比检验统计量为2ln(L)=2(ln(L1)-ln(L2))61ppt课件多分类有序自变量的处理模型161ppt课件多分类有序自变量的处理H0:模型1等价于模型2H1:模型1不等价模型2=0.05H0为真时,2ln(L)近似服从自由度为1(自变量的分类数-2)的2分布,即:检验统计量,则拒绝H0,选用引入亚元的模型1。62ppt课件多分类有序自变量的处理H0:模型1等价于模型262ppt逐步回归分析在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。63ppt课件逐步回归分析在多因素统计分析中,多个自变量之间存在相关性,往逐步回归为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。64ppt课件逐步回归为了比较方便地找到最佳预测回归模型,一般采用逐步回归逐步回归逐步回归有4种方式:前进法:最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值<,每引入一个变量,重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。65ppt课件逐步回归逐步回归有4种方式:65ppt课件逐步回归后退法:最开始时,把所有的变量引入模型,然后逐次把P值最大并且P<的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P<为止。66ppt课件逐步回归后退法:最开始时,把所有的变量引入模型,然后逐次把P逐步回归前进逐步回归法最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值<,每引入一个变量,考察模型中是否有P值>的变量,若有将其剔出模型,然后重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。67ppt课件逐步回归前进逐步回归法67ppt课件逐步回归后退逐步回归法最开始时,把所有的变量引入模型,然后逐次把P值最大并且P<的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后考察未在模型中的变量中是否存在P<的变量,若有重新引入模型,然后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P<为止。68ppt课件逐步回归后退逐步回归法68ppt课件实例6:逐步回归例6:采用横断面调查。研究糖尿病与血压、血脂等因素的关系。收集变量如下:69ppt课件实例6:逐步回归例6:采用横断面调查。研究糖尿病与血压、血脂实例6:逐步回归X1=1,0分别表示男和女X2表示年龄,X3表示BMIX4=1,0分别表示有家属史和无家属史X5,X6,X7分别表示总胆固醇,甘油三酯和高密度脂蛋白Y=1,0分别表示患糖尿病和未患糖尿病。先根据逐步回归的思路,人工进行逐步回归,然后用软件进行逐步回归验证。70ppt课件实例6:逐步回归X1=1,0分别表示男和女70ppt课件实例6:逐步回归X1的P值最大并且P>0.05,故剔除X171ppt课件实例6:逐步回归X1的P值最大并且P>0.05,故剔除X1实例6:逐步回归X6的P值最大并且P>0.05,故剔除X672ppt课件实例6:逐步回归X6的P值最大并且P>0.05,故剔除X6实例6:逐步回归X3的P值最大并且P>0.05,故剔除X373ppt课件实例6:逐步回归X3的P值最大并且P>0.05,故剔除X37实例6:逐步回归X7的P值最大并且>0.05,故剔除X774ppt课件实例6:逐步回归X7的P值最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论