多元logistics回归分析PPT课件_第1页
多元logistics回归分析PPT课件_第2页
多元logistics回归分析PPT课件_第3页
多元logistics回归分析PPT课件_第4页
多元logistics回归分析PPT课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,多元Logistics回归分析,李忠良华中科技大学同济医学院,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,从数学角度看,logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归分析的缺陷。,因变量y是分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法来解决,其根本原因就在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。,从数学角度看,很难找到一个函数y=f(x),当x变化时,它对应的函数值y仅取两个或几个有限值。,研究者将所要研究的问题转换了一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率p与x的关系。,分析因变量y取某个值的概率p与自变量x的关系,等价于寻找一个连续函数p=p(x),使得当x变化时,它对应的函数值p不超出0,1范围。数学上这样的函数是存在且不唯一的,logistic回归模型就是满足这种要求的函数之一。,.,根据数据的类型,logistic回归分析分为两种:一种是条件logistic回归(conditionallogisticregression),用于分析配对病例对照研究数据。另一种是非条件logistic回归(unconditionallogisticregression),用于分析成组数据或非配对的病例对照研究。非条件logistic回归分析也简称为logistic回归分析。,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,logistic回归模型对变量的要求,Logistic回归分析要求因变量是分类变量,包括顺序变量和名义变量。不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续变量,也可以是顺序型分类变量,如果是名义变量,则需要转换成哑变量来处理。,logistic回归模型的个数,取决于因变量的取值个数。因为logistic回归模型描述的是因变量取每个值的概率与自变量的关系,因此因变量的每一个值都对应一个模型。但是由于概率之和为1,所以当因变量是g值变量时,只需要估计g-1个模型,.,二值因变量的logistic回归模型,假设因变量y是一个取值为1和0的二值变量(binaryvariable),x是一个影响y的危险因子(riskfactor)。令在x条件下y=1的概率是p=p(y=1|x),那么,表达式:,.,多元logistic回归模型,如果对模型的概率p进行logit变换,logistic回归模型的另一种形式,它给出的是变量z=logit(p)关于x的线性函数,.,多值变量的logistic回归模型,pj=p(yj|x),它表示了y取前j个值的累积概率(cumulativeprobability)。,累积概率函数,第一个模型表示了y取第一个值的概率p1与x的关系;第二个模型表示了y取前两个值的累积概率p2与x的关系。这两个模型的常数项不同,回归系数完全相同的。y取第一个值的概率p(1)=p1,y取第二个值的概率p(2)=p2-p1,y取第三个值的概率p(3)=1-p2。它们的截距不同,斜率相同,所以是g-1条平行直线族。多值因变量logistic回归模型要求进行数据的平行性检验。,.,内容,基本原理数学模型方法步骤-参数估计-检验参数-模型检验-平行性检验系数解释条件Logistics分析应用,.,参数估计,在logistic回归分析模型中,回归系数的估计方法通常是最大似然法(MaximumLikelihoodmethod)。最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。,为了得到一个非偏估计(non-biasedestimate),需采用重复递推的方法,将最大似然估计值不断修正。软件系统使用的是重复加权最小二乘递推法(iterativelyreweightedleastsquaresalgorithm)来估计回归系数。,和线性回归分析一样,logistic回归模型的回归系数是自变量对应变量作用大小的一种度量。因为自变量的单位不同,不能用回归系数的估计值来判断哪一个自变量对因变量的影响作用最大。为了要进行比较,需要计算出标准回归系数。计算原理和线性回归分析一样。在标准回归系数估计值中,绝对值最大的标准回归系数对应的x变量对y变量的影响最大。,.,检验参数,统计假设常用的方法是Ward卡方检验。当大于样本对应的Ward卡方值的概率小于0.05时,在统计意义上可以拒绝上述零假设。即,可以认为第j个x变量对y=1的概率p有显著性影响,其犯第一类错误的可能性不超过5%。和线性回归分析一样,当自变量个数较多时,可采用逐步回归分析方法来筛选危险因子。,.,模型检验,logistic回归模型的总体检验常用的方法有:,AIC检验法(AkaikeInformationCriterion)。用于比较同一数据下的不同模型(含自变量个数不同)。AIC值越小,模型越合适。AIC值的计算公式是:,SC检验法(SchwarteCoriterion)。和AIC一样,用于比较同一数据下的不同模型(含自变量个数不同)。SC值越小,模型越合适。SC的计算公式是:,似然比检验法(G=-2logL)。用于检验全部自变量(包括常数项)对因变量的联合作用。它的计算公式是:,计分检验法(Score)。用于检验全部自变量(不包括常数项)对因变量的联合作用。,因变量取值个数,.,平行性检验,当因变量为多值变量时,模型包含多个回归方程。Logistic回归分析要求这多个回归方程中自变量的系数是相等的。因此对于多值变量的logistic回归模型,要求作平行性检验,也称为比例比数假设检验(testfortheproportionaloddsassumption),使用的方法是计分检验法。,当检验结果p0.05时,没有理由拒绝上述无效假设,这时,多值变量的logistic回归模型有统计意义。否则,应当将因变量的某些值合并,减少因变量的取值个数,使得多值变量logistic回归模型的平行性成立。,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。,.,的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。,.,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,.,多元回归模型的的概念,反映了在其他变量固定后,X=1与x=0相比发生Y事件的对数优势比。回归系数与ORX与Y的关联=0,OR=1,无关1,OR1,有关,危险因素1,OR1,有关,保护因子事件发生率很小,ORRR。,.,复习相关概念,相对危险,比数比,相对危险RR表示暴露在危险因子下的发病率与不暴露在危险因子下的发病率的比。例如,如果RR=2.5,那么,暴露下的发病率是非暴露下的发病率的2.5倍。比数比OR表示暴露在危险因子下的发病率与不发病率之比与非暴露在危险因子下的发病率与不发病率之比的比。比较以上公式可以看出,当发病率很低时,ORRR。因此,当发病率很低时,OR=2.5也可以解释为:暴露下的发病率是非暴露下的发病率的2.5倍,或暴露下发病的几率比非暴露下发病的几率高150%。,.,一元logistic回归模型系数的解释,当发病率很低时,ORRR,因此这时eRR,也就是说,e近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。,有哑变量的logistic回归模型系数的解释,每一个组与对照组的相对危险度的估计值。任意两组间的OR=ei/ej,无交互影响的多元Logistic回归模型的系数解释,如果模型中因变量y=1,0分别表示有胃病和无胃病;自变量x1=1,0分别表示吸烟和不吸烟;自变量x2=1,0分别表示饮酒和不饮酒,那么,e1近似地表示消去了饮酒因素的影响后吸烟者患胃病的几率与不吸烟者患胃病的几率之比。e2近似地表示消去了吸烟因素的影响后饮酒者患胃病的几率与不饮酒者患胃病的几率之比。,.,设因变量y取值1和0,分别表示患病和未患病。设自变量x1取值1和0,设自变量x2取值1和0。这样x1和x2的交叉水平有四个,它们是(1,1)、(1,0)、(0,1)、(1,1),建立四个哑变量分别代表这四个水平,记为x11、x10、x01、x00,它们表示了四种不同的方式。将前三个哑变量放进模型,则可以得前三种方式相对于最后一种方式患病的相对危险度。,有交互影响的多元logistic回归模型的系数解释,多值变量的logistic回归模型的系数解释,对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前g-1个模型是相同的。例如,变量x1的OR=5.172,它表示使用第一种的可能性是使用第二种的5.172倍;它也表示使用第一种至少有效的可能性是使用第二种的5.172倍。,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,条件似然函数,共有n个匹配组,1:m配对,p个变量资料的条件似然函数:,再用最大似然法求解参数估计值,由于匹配关系,在模型中不含常数项。,.,数据资料特征,1:3配对,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用,.,Logistic回归分析在医学研究中有着相当广泛的应用价值。归纳起来主要的应用有:1)筛选危险因子。它常用在流行病学的病因学研究中。2)校正混杂因子,校正非研究因素对研究因素的混杂作用。如它可以消除性别、年龄、病情等对治疗效果分析的干扰,消除年龄、职业、收入等对生活嗜好与疾病关系分析的干扰等。3)预测疾病或事件发生的概率。非条件logistic回归模型是一个概率模型,它可以用来预测事件发生的概率,如暴露在某些危险因素下得病的概率,这是其它模型不具有特性。4)将样本进行判别分类。它起的作用和判别分析(第十三章,例13-2)一样,但它对数据的分布没有严格要求,在医学研究中使用很方便。5)logistic曲线的拟和。医学中不少指标变量之间的关系呈现如图7-1所示的logistic曲线形状。例如剂量和反应的关系。根据拟和曲线可以作有效剂量估计,剂量反应的趋势分析等。,.,内容,基本原理数学模型方法步骤系数解释条件Logistics分析应用-实例分析,.,某大学医院外科采用两种不同的绷带(bandage-4-layer和convatee)和两种不同的包扎方式(Granuflex和Na)进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和痊愈。治疗方式和治疗效果列在表7-6中。试分析治疗方法对治疗效果的影响。设因变量y表示治疗效果,0=不愈、1=有效、2=痊愈。设因变量x1表示绷带种类,1=bandage-4-layer、2=convatee。自变量x2表示包扎方式,1=Granuflex、2=Na。,.,dataeg7_6;inputyx1x2wt;cards;000192115run;proclogisticdescending;modely=x1x2;weightwt;run;,【SAS程序】,.,【SAS输出结果】TheLOGISTICProcedureResponseProfileOrderedTotalValueYCountWeight12415.00000021425.00000030459.000000ScoreTestfortheProportionalOddsAssumptionChi-Square=0.7505with2DF(p=0.6871)ModelFittingInformationandTestingGlobalNullHypothesisBETA=0InterceptInterceptandCriterionOnlyCovariatesChi-SquareforCovariatesAIC190.499178.977.SC191.469180.916.-2LOGL186.499170.97715.522with2DF(p=0.0004)Score.14.849with2DF(p=0.0006)AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPrStandardizedOddsVariableDFEstimateErrorChi-SquareChi-SquareEstimateRatioINTERCP11-2.66800.465732.82700.0001.INTERCP21-1.17110.39308.88200.0029.X111.64330.438014.07360.00021.3583355.172X21-0.19030.41890.20630.6496

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论