《医学统计学》教学课件-多重线性回归_第1页
《医学统计学》教学课件-多重线性回归_第2页
《医学统计学》教学课件-多重线性回归_第3页
《医学统计学》教学课件-多重线性回归_第4页
《医学统计学》教学课件-多重线性回归_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五节多重线性回归,有学者认为血清中低密度脂蛋白增高,是引起动脉硬化的一个重要原因。现测量了40名被怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白的含量,资料如下表所示,请对此作分析。,表140名就诊患者血清中载脂蛋白的测量结果(单位:mg/dl),表227名糖尿病人的血糖及有关变量的测量结果,1.人的体重与身高、胸围有关2.人的心率与年龄、体重、肺活量有关3.人的血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史等有关4.射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间有关,表3多元回归分析数据格式,多元线性回归:简称为多元回归,分析一个应变量与多个自变量间的线性关系。,一、多元线性回归模型,一般形式为:,0:常数项,又称为截距1,2,m:偏回归系数(Partialregressioncoefficient)简称回归系数,在其它自变量保持不变时Xi(i=1,2,m)每改变一个单位时,应变量Y的平均变化量。:去除m个自变量对Y的影响后的随机误差,又称残差,多元线性回归模型的应用条件:,1.线性趋势:Y与Xi间具有线性关系2.独立性:应变量Y的取值相互独立3.正态性:对任意一组自变量取值,因变量Y服从正态分布4.方差齐性:对任意一组自变量取值,因变量y的方差相同后两个条件等价于:残差服从均数为0、方差为2的正态分布,多元线性回归的分析步骤:,1.根据样本数据求得模型参数的估计值,得到应变量与自变量数量关系的表达式:,2.对回归方程及各自变量作假设检验,并对方程的拟合效果及各自变量的作用大小作出评价。,此公式称为多元线性回归方程,多元线性回归方程的建立:,利用最小二乘法原理估计模型的参数:(使残差平方和最小),表227名糖尿病人的血糖及有关变量的测量结果,各变量的离差矩阵,4阶线性方程组,建立多元回归方程,方程的求解过程复杂,可借助于SPSS、SAS等统计软件来完成SPSS:AnalyzeRegressionLinearregressiondependent:Yindependent:x1-x5OK,SPSS的结果,列出回归方程为:?,二、多元回归方程的假设检验,回归方程是否成立?各偏回归系数是否等于0?,方差分析法:(所有回归系数均为0),1.多元线性回归方程的假设检验:,1.多元线性回归方程的假设检验:,方差分析法、t检验法,2.偏回归系数的假设检验,方差分析法:,2.偏回归系数的假设检验,各偏回归平方和SS(Xi)及残差的计算,偏回归平方和SS回(Xj),其值越大说明相应的自变量越重要。m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单的在原方程的基础上把bjXj剔除后计算的。,表227名糖尿病人的血糖及有关变量的测量结果,表3多元线性回归的方差分析表,实例计算,回归,t检验,bj偏回归系数的估计值Sbj是bj的标准误,计算较复杂,要用矩阵计算tj服从v=n-m-1的t分布,若tjt0.05/2,n-m-1则在检验水准上拒绝H0,接受H1,认为Y与Xj有线性回归关系,对于同一组资料,不同自变量的t值间可以互相比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。,t检验,3.标准化回归系数,在回归模型中,各自变量的测量单位不同,若单从各偏回归系数的绝对值大小比较是不准确的。应对各数据进行标准化后求得的回归方程即标准化回归方程,其相应的回归系数即标准化回归系数。数据标准化,将原始数据减去相应变量的均数后再除以该变量的标准差,3.标准化回归系数,标准化回归系数和回归系数的关系:,在有统计学意义的前提下,标准化回归系数绝对值的大小可直接进行比较,以衡量自变量对应变量的作用大小。,SPSS的结果,4.复相关系数,复相关系数:multiplecorrelationcoefficient衡量因变量Y与回归方程内所有自变量线性组合间相关关系的密切程度,也即Y与之间的相关。R其值在0与1之间,如果只有一个自变量,此时,R2称为决定系数表明回归平方和在总平方和中所占的比重。R2越接近于1,说明引入方程的自变量与因变量的相关程度越高,Xi与y的回归效果越好。R2受自变量个数的影响,由此又提出校正决定系数,既反映模型的拟合优度,又同时考虑了模型中的自变量个数。,第二节自变量的选择,变量全部选入的缺点:1.变量多,增加了模型的复杂度2.估计和预测的精度下降3.模型应用费用增加,选择最优回归方程的方法,1.最优回归方程:1)对y的作用有统计学意义的自变量,全部选入回归方程。2)对y的作用没有统计学意义的自变量,一个也不引入回归方程。,方法:,1)最优子集回归法:又称全局择优法,求出所有可能的回归模型(共有2m1个)选取最优者2)向后剔除法(backwardselection)3)向前引入法(forwardselection)4)逐步回归法(stepwiseregression),一、全局择优法,根据一些准则(criterion)建立“最优”回归模型.校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优),(一)校正决定系数(Adjusteddeterminationcoefficient),(二)Cp准则的计算公式,应用以上准则如何选择模型?,求出所有可能的回归模型(共有2m1个)对应的准则值;按上述准则选择最优模型,所有回归方程的R2c和CP统计量的值,全局择优法的局限性,如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为21011023个;当自变量数个数为50时,所有可能的回归为25011015个。,二、逐步选择法,1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,(一)前进法,自变量从无到有、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,(二)后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果,(三)逐步回归法,双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法)“先剔除后选入”原则,逐步回归法,自变量回归平方和最大的Xi首先进入方程,在Xi进入方程的基础上计算其余m-1个自变量分别进入回归方程时的偏回归平方和,其中最大者记为SSj,对Xj进行检验,若有意义则进入方程,并重新对Xi进行检验。若Xi退化为无意义,则剔除Xi,同时再对Xj进行检验。若Xj依然有意义则继续选择下一个偏回归平方和最大者并进行检验。重复此过程。,逐步回归法,每引入或剔除一个自变量后都要重新对已进入方程中的自变量进行检验,直到方程外没有有意义的自变量可引入、方程内也没有无意义的自变量可剔除为止。,逐步回归法,“先剔除后选入”原则入出引入变量的检验水准要小于或等于剔除变量的检验水准,小样本检验水准a定为0.10或0.15,大样本把a定为0.05。值越小表示选取自变量的标准越严。,逐步回归法实例(令入0.10,出0.15),逐步回归法实例(第一步),逐步回归法实例(第二步),逐步回归法实例(X4/X1剔除否),逐步回归法实例(第三步),逐步回归法实例(X4/X1/X3剔除否),逐步回归法实例(第四步),逐步回归法实例(X4/X1/X3/X2剔除否),逐步回归法实例(第五步),例15-3的方差分析结果,例15-3的回归系数及其检验,第三节多元线性回归的应用及其注意事项,一、多元线性回归的应用1.影响因素分析:控制混杂因素,2.估计与预测:,预测:由自变量值推出因变量Y的值、容许区间和总体均数的可信区间。新生儿体重(Y)=b0+b1胎儿孕龄(X1)+b2胎儿头径(X2)+b3胎儿胸径(X3)+b4胎儿腹径(X4)心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3),3.统计控制:,利用回归方程进行逆估计,确定Y后控制X。采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径(Y)=b0+b1射频温度(X1)+b2照射时间(X2),模型的应用条件,二、多元线性回归应用的注意事项,二、多元线性回归应用的注意事项,1.指标的数量化应变量Y为连续变量自变量X可为连续、有序分类或无序分类变量(1)连续变量:X(2)有序分类变量:1轻X=2中3重,(3)无序分类变量:化为n1个哑变量,当自变量为分类变量时的赋值方法自变量为二分类变量时自变量为多分类变量时:假定有k类,则用取值为0或1的哑变量(dummyvariables)完整地标记出这些类别。,无序分类变量,无序多分类自变量的哑变量化,原资料,哑变量化,西、中西、中三种疗法,2.样本含量:n至少是X个数m的510倍3.关于逐步回归:不要盲目信任,结合专业知识。4.多重共线性:指自变量之间存在较强的线性关系,多重共线性的主要形式:整个模型的方差分析结果为P。专业上认为应该有统计学意义的自变量检验结果却无统计学意义。自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。增加或删除一个自变量或一条记录,自变量回归系数发生较大变化。多重共线性的危害:使偏回归系数方差加大,系数估计不稳,难以有合乎专业知识的解释。,多重共线性的识别和处理,容忍度:若某变量的容忍度0.1时,说明该变量与其它变量存在严重的多重共线性。,方差膨胀因子(VIF):为容忍度的倒数。VIF10时,存在严重的多重共线性,多重共线性的诊断方法,条件指数:条件指数10,则提示存在多重共线性。,方差比:如两个或多个变量的方差比均0.5,说明这几个自变量之间存在多重共线性,多重共线性的解决方法:,逐步回归主成分回归岭回归路径分析,5.变量间的交互作用:是否考虑交互作用主要靠专业知识6.残差分析检查资料是否符合模型条件,识别方法标准化残差:当,可以肯定该条记录为异常点。处理方法:核对记录是否错误,如不能予以修正,则剔除该条记录。考虑拟合其它形式的模型。进行稳健估计,如加权最小二乘法。可考虑增加样本含量。,异常点的识别和处理,完整的SPSS输出结果,Regression-1(enter)全部进入初步分析,完整的SPSS输结果,Regression-2,对回归模型的评价:复相关系数决定系数校正决定系数,完整的SPSS输出结果,Regression-3*,对整个回归方程是否有意义进行的方差分析,完整的SPSS输出结果,Regression4*,1.各自变量的偏回归系数、标准误和标准化回归系数。对每个变量是否有意义进行的t检验2.有意义变量对整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论