Logistic回归模型1.ppt_第1页
Logistic回归模型1.ppt_第2页
Logistic回归模型1.ppt_第3页
Logistic回归模型1.ppt_第4页
Logistic回归模型1.ppt_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医用多元统计分析方法,欢迎学习,Logistic回归模型,主讲:黄志碧,回归分析概述1、根据自变量多少分(1)简单回归(一个自变量)(2)多元回归(多个自变量)2、根据Y的取值分(1)确定型回归(多元线性回归)(2)概率型回归(Logistic回归)3、根据回归图形分线性回归(多元线性回归)非线性回归(Logistic回归),多元线性回归模型,描述Y与X1,X2Xm之间的线性关系。Y:连续变量,呈正态分布。最小二乘法求1,2m,Logistic回归模型,Logistic回归模型概述Logistic回归模型是一种概率模型,它是以某一事件发生与否的概率P为因变量,以影响P的因素为自变量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。,Logistic回归模型适用的资料:Logistic回归模型用于因变量Y为分类的资料,二项或多项分类的资料,Y也可以是计量资料,但主要用于Y为二项分类的资料(0,1资料)。,注意:Y为二项分类的资料不宜用线性回归模型来进行分析,原因是:(1)由于Y的取值仅为0或1,不符合正态分布和方差齐性的假设;(2)用线性回归建立的方程来预报二分类资料,会使Y的预报值超出0,1之外,给结果解释带来困难。,Logistic回归模型的应用Logistic回归模型在流行病学、临床医学研究中有广泛应用。只要事件的结局能表达为发生或不发生两项分类的资料,一般都能用该模型进行分析。常用于病因分析、预后因素分析、鉴别诊断、评价治疗措施的好坏等等。如:非传染性疾病的病因研究资料;影响治疗效果的因素;影响恶性肿瘤复发或远处转移的因素;药物剂量与动物死亡的关系,等等。,病因研究的方法队列研究:按是否暴露于某因素或不同的暴露水平分组,观察各组的发病或死亡情况。可以直接计算相对危险度(RR),说明暴露因素与发病或死亡的联系强度。病例对照研究:选某病患者做为病例组,以健康人或非该病患者做为对照组,收集某些因素暴露的情况。,病例对照研究类型成组的病例对照研究配比的病例对照研究(1:1,1:2,1:3,1:4)计算优势比(Oddsratio,OR),说明危险因素与疾病或死亡联系的强度。优势(Odds):指暴露组或非暴露组发病(或死亡)的概率P与未发病的概率(1P)之比:P/(1-P),称为优势(Odds)。,病因研究资料分析方法单因素分析:传统的经典的分析方法;受混杂因素的影响较大,可在设计时控制,或进行分层分析。如分层较多,需要的样本含量较大,有时难以做到。多因素分析:logistic回归模型进行分析。,Logistic回归模型可分为1、条件Logistic回归模型2、非条件Logistic回归模型。前者适合于配对或配伍设计资料;后者适合于成组设计资料。因变量可以是:两项分类、无序多项分类、有序多项分类等。,第一节多元logistic回归模型基本概念,一、模型结构(一)、logistic分布函数y的取值在之间,函数值F(y)在01之间取值,且呈单调上升的S型曲线。可以将这一特征运用到流行病学和临床医学中描述事件发生的概率与影响因素的关系。,(二)logistic回归模型利用logistic分布函数的特征来表示在自变量X的作用下出现阳性结果或阴性性结果的概率。出现阳性结果的概率记为:P(y=1|x),出现阴性结果的概率为:Q(y=0|x),注意:P+Q=1。,当只有一个自变量时,logistic回归模型:,式中,为回归线的截距,是与X有关的参数,也称回归系数。,(1),(2),(3),当有多个X时,logistic回归模型:,(4),(5),式中,为截距,(j=1,2,p),称偏回归系数。,(6),式(1)或式(4)称为logistic回归模型。,(三)logit变换:将S型曲线转化为直线,(7),(8),(3),(6),对式(3)和式(6)两边取自然对数得:,这就是线性回归方程。说明:(1)ln(P/Q)称为logit(P)变换;(2)P/Q称为事件的优势,在流行病学中称为比值(odds)。因此,优势的对数值与影响因素之间呈线性关系。,(四)优势比(oddsratio),简记OR暴露组的优势(比值)与非暴露组的优势(比值)之比,称优势比(比值比)(OR)。OR用于说明暴露某因素引起疾病或死亡的危险度大小。,(9),对式(9)两边取自然对数得:,(10),P(1)X取1时,为暴露组;P(0)X取0时,为非暴露组。,由上式可见,的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位所引起的优势比(OR)自然对数的改变量,或引起优势比为增加前的exp()倍。,(五)的统计学意义,与优势比OR有密切关系,同时与暴露因素(自变量)的取值有密切关系。1、若为正值,增加使OR增大,是危险因素;若为负值,增加使OR减少,是保护因素。2、当暴露因素X为二水平时(X取0,1),logistic回归模型中X的系数就是暴露与非暴露优势比的对数值。,如果暴露时X=a,非暴露时X=b,则:,此时,不能直接解释为优势比的对数值,因为此时X改变“一个单位”没有实际意义。比如:年龄从50岁变到51岁。,3、当X为等级变量时(0、1、2.),以最小或最大等级为参照组,exp()为增加一个等级时的优势比,exp(k)为增加K个等级时的优势比。4、如果X为连续性变量,如年龄,则将X分段或变为等级资料再分析。如6064岁的人比5559岁的人,有多大的可能性患冠心病,OR为exp(5)。,5、当X为多项分类变量时,用1、2、3.k表示k个不同的分类,分析时转为k-1个指示变量或哑变量。每个指示变量都是二分类变量,都有自己的系数。如血型、民族、职业、工种等。如血型变量X:A、B、AB、O,用1、2、3、4分别表示。此时X仅为分类变量,不是等级变量。,分析时,用D1、D2、D3表示血型x=1时:D1=1,D2=0,D3=0A血型;x=2时:D1=0,D2=1,D3=0B血型;x=3时:D1=0,D2=0,D3=1AB血型;x=4时:D1=0,D2=0,D3=0O血型;分析时,将D1、D2、D3放入logistic回归模型同时分析,得3个参数:。表示A与O的优势比;表示B与O的优势比;表示AB与O的优势比。,(六)标准回归系数用于比较各个自变量对模型贡献大小。,为标准回归系数,bi为第i个自变量的回归系数,Si为第i个自变量的标准差,S为Y的标准差。的绝对值越大,则该自变量对模型贡献越大。,二、logistic回归模型的参数估计与假设检验(一)logistic回归模型的建立Logistic回归分析的过程,就是要根据样本资料,求出各自变量的回归系数。由于logistic回归是一种概率模型,通常用最大似然法(maximunlikelihood,ML)求回归系数的估计值(i=1,2,3,p)。,(二)logistic回归模型的假设检验1、回归系数的假设检验求得回归系数后,还要对回归系数进行检验,目的是检验总体回归系数是否为零。检验方法有:1)、似然比检验(likelihioodratiotest)(1)检验引入的变量对模型有无贡献;(2)对模型回归系数进行整体检验。,似然比检验(likelihioodratiotest):L为方程中包含m(mP)个自变量的对数似然函数值;为增加一个自变量Xi后的对数似然函数值。G服从自由度为1的X2分布。若,则可以认为在检验水准下有统计学意义,Xi可以引入方程,否则不能引入方程。,2)、Wald检验3)、计分检验(scoretest)。似然比检验最可靠,Wald检验和计分检验一致。Wald检验未考虑因素的综合作用,当因素间存在共线性时,所得结果不可靠。,2、logistic回归模型的拟合优度检验检验logistic回归模型预测的理论频数分布是否符合实际的理论频数分布。常用的方法:(1)偏差检验(Deviationtest)(2)Pearson检验(3)Hosmer-Lemesshow检验。,偏差检验、Pearson检验的效果相近,其对样本含量和理论频数要求比较严格。Hosmer-Lemesshow检验用于两分类应变量的Logistic回归分析,当样本含量大,自变量数目多,且有连续型变量引入模型时,检验效果好。模型拟合优度检验:H0设实际频数分布和理论频数分布相符合,即模型的拟合优度较好。,第二节二项分类变量资料非条件logistic回归,二项分类反应变量是最常见的变量类型,又称0、1变量。可用于病例-对照研究,队列研究和横断面研究,其中成组设计的非条件Logistic回归最常见。,例15-1:评价新旧两种降糖药的治疗效果。,变量的赋值方法因素变量名赋值方法研究中心X1甲医院1,乙医院2降糖药X2新药1,旧药2治疗效果Y有效1,无效0,SPSS数据文件建构,数据录入,新旧两种降糖药效果不同,新药疗效是旧药的5.636倍。不同医院疗效无差异。,对模型的检验:X2=0.519,P=0.772。说明模型拟合效果好。,例1:子宫内膜癌与雌激素关系的病例对照研究。,(成组的病例对照研究)赋值方法:对象:病人1,对照0雌激素:用过1,未用过0,OR95可信区间:,用logistic回归模型分析:,回归系数:b=1.311回归系数标准误:S.E.=0.291回归系数检验:Wald=20.278,P=0.000OR:Exp(B)=3.709总体回归系数95%CI:2.0966.562(说明总体回归系数不为0),因为b=1.311,服用雌激素取值为1,故雌激素是子宫内膜癌的危险因素。服用雌激素者患子宫内膜癌的危险性是不服用者的3.709倍。,例2:妇女吸烟和使用避孕药与血栓形成的关系。,变量赋值的方法因素变量赋值方法是否吸烟X1吸烟1,不吸烟0是否用避孕药X2服用1,不用0对象Y血栓病人1,对照0,数据文件结构,数据录入,血栓形成与口服避孕药有关,与吸烟无关,口服避孕药是血栓形成的危险因素,服用者是不服用者7.912倍。,对模型的检验:X2=2.221,P=0.329。说明模型拟合效果好。,第三节多分类结果变量的logistic回归,前面介绍的logistic回归模型的反应变量Y的取值仅有两个(0,1),为二项反应变量。但在实际中经常碰到Y的取值为多个的情况,称多项分类变量。如:某种疾病处于不同的临床期;同一种肿瘤不同的亚型;病例对照研究中,一个病例组,两个或多个对照组,如医院对照和健康人对照。,根据类别之间有无大小顺序,多项分类变量分为:无序(名义)变量(nominal):如血型、民族、职业等有序变量(ordinalvariables):如疗效分为四个等级(无效、好转、显效、痊愈);疾病严重程度分为:轻度、中度、重度等。,对于多项分类反应结果资料,如果两两拆开或合并成二分类资料,用前介绍的两分类logistic回归模型进行分析,会损失部分信息,降低统计效能(降低3050)。对于这种资料应该采用多项分类logistic回归模型进行分析。,一、无序多分类反应变量的logistic回归,(一)、模型结构设Y有K个类别,令第i(i=1,2,K)类的概率分别是P1,P2PK,并满足:P1P2PK1。当K=2时,就是二项分布。令自变量为X,用i,i分别表示第i类的常数项和自变量的参数,则多项分类logit模型为:,(i=0,1,2,K-1),(广义logit模型),该模型需要估计K-1个二项分类logit模型,称广义logit模型。模型左侧为两个类型间的对数优势。模型由K-1个具有各自参数的logit等式组成,即效应反应类别与基线的不同由所改变。当K2时只有一个等式,K3时有二个等式。,任两个类别a,b间模型的估计方法:,反应变量的概率:,说明:对于每一类别k的反应概率Pk,分母相同,且等于每个类别k的分子之和,所以无论以哪一类别做基线,基线所对应的参数均为0。,模型中参数的意义和检验:模型中的参数与二分类logistic回归相似,要注意是哪两类比较;同一变量在不同logit函数中效应可能不一样。,例15-2:分析新生儿体重和产妇妊娠期间疾病对新生儿分娩的影响。,用SPSS进行分析:数据文件:结果:,例6分析产后大出血与孕高症的关系。,用SPSS进行分析:数据文件:结果:,与对照组相比:有孕高症者发生子宫性大出血者,是没有孕高症者的2.435倍;发生胎盘性大出血者,是没有孕高症者的5.909倍。孕高症是产后大出血的一个危险因素。,例7分析产后大出血与孕高症的关系。,用SPSS进行分析:数据文件:结果:,二、有序多分类反应变量的logistic回归,有序多类变量资料用该模型进行分析。(一)、累积logit模型结构有序反应变量为Y,共有K个类别,令第j(j=1,2,.K)类的概率分别是P1,P2PK,并满足:P1P2Pk1。当K=2时,就是二项分布。令自变量为X,用k,k分别表示第k类的常数项和自变量的参数,则累积logit模型为:,对每个可能的类别k,反应变量Yk的概率就是累积概率,第k分类的累积概率为:,(k=1,2,K),有K个反应类,就有K-1个二项分类的累积logit模型。如3,则有2个累积logit模型。,分类方法:1,23;12,3,用累积概率表示累计logit模型:,K=1,2,.K-1),例8分析小学生IQ与母亲文化程度的关系。,0.6373OR=exp(0.6373)=1.89母亲文化程度提高一级,儿童智力提高一个或一个以上等级的可能性增加0.89倍。,累积比数模型的应用条件自变量的回归系数与分割点无关。即:123等;,例8,为探讨营养与智力的关系,某单位从某市3所小学中整群抽取18个班级,测定了学生的智商,以智力等级Y作为结果变量,同时调查了有关营养方面的信息,Y被分成四个等级,即y=1:IQ90;y=2:90IQ110;y=3,110Q130;y4:IQ130。这是一份多分类有序结果资料,现拟采用累积比数logistic回归分析之。,第四节配比设计的条件logistic回归适用于配比的病例对照研究资料(matchedcase-controlstudy),一、配比设计的条件logistic回归模型配比研究设计的目的:控制混杂因素对研究结果的影响。配比因素:影响研究结果的主要的非研究因素(主要的混杂因素);配比变量的类型:分类(属性)变量:性别、民族、病情等(定量变量:年龄、工龄、血压等(配比时按一定波动范围进行配比。如年龄2,血压5mmHg),配比因素不要太多,一般34个。配比因素应该是影响研究结果的主要混杂因素。配比设计可以提高研究效率,提高OR估计的精确度,使方差可缩小1015。用途:主要用于罕见或少见的疾病的病因研究。缺点:配比因素不进行分析。对照数:可以是1个(1:1)也可以是2个(1:2配对),最多4个对照,超过4个不能增加研究的效率。,二、条件logistic回归资料资料表示方法设:共有n个配比组,第i个配比组(i=1n)共有1+m个观察对象,所研究的危险因素共有p个,X1,X2.Xp。(m为对照个数)配比设计资料形式。Xnmin:配比组号(1n),m:组内编号(0m,0代表病例,对照计为j=1m),i:分析因素(自变量,编号i=1p)。X101:(第1个配比组病例的第1个观察指标)X111:(第1个配比组对照的第1个观察指标),用第i个配比组建立的logistic回归模型:模型假设:自变量X在各配比组对研究结果的作用是相同的。i(常数项)为该配比组的各个自变量均为0时的基线风险。i大小对自变量的解析无帮助,在模型中不考虑,条件logistic回归模型如下:,因此,条件logistic回归模型仅用于危险因素的分析,不能用来进行预测。,例4软组织肉瘤与接触苯氧乙酸或氯酚的关系(1:1配对)。原始数据格式:SPSS数据文件:,注意:建立数据文件时,要虚拟一个生存时间,对照的生存时间比病例的生存时间长就可以了。这里生存时间变量用Time表示,病例给1,对照给2。,用SPSS分析步骤:AnalyzeSurvivalCoxRegression(调用Cox回归)Time:Time(指定虚拟生存时间变量)Status:Y(选入生存状态变量)DefineEvent:Singlevalue:1(1表示出现观察结局)Covariate:X;你(选入欲分析的变量)Strata:match(指定分层变量,配比组),上表结果说明回归模型成立的;下表结果指明X1的是个危险因素,接触者患软组织肉瘤是不接触者的4倍。,例15-4分析糖尿病与血压、血脂、家族史、体重指数、职业的关系。(1:1配对研究),结果表明:血压、家族史、体重指数和职业都与糖尿病有关。血压、家族史、体重指数是危险因素,脑力劳动增加糖尿病危险性。,Logistic回归模型的应用条件,1应变量Y必须是二项分类变量,即Y的取值必须是0,1,如果是非0,1变量,可通过变换使其成为0,1变量。例如,生存时间,可令生存时间不满一年为0,满一年及以上的为1。但分析类似这样的生存资料,其效率低于COX模型,最好使用COX模型进行分析。,2Logistic回归模型是建立在事件独立性基础上,即甲的发病与否对乙是否发病的概率没有影响。所以仅适用于非传染病的资料的分析。3Logistic回归模型原则上只适用于发病率较低的疾病,如心血管病、恶性肿瘤等,因为只有发病率低的疾病,该模型计算的OR才近似等于RR,如不需计算RR,则不受此限制。,关于logistic回归的样本含量logistic回归的样本含量比多元线性回归要多,所需样本含量为自变量的20倍;每个自变量至少有10个阳性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论