




已阅读5页,还剩123页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多重线性回归与相关,王海俊 北京大学公共卫生学院,主要内容,第一节 偏相关 第二节 多元线性回归,医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。,关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,相关就是用于研究和解释两个变量之间相互关系的。,复习: 直线相关,Linear Correlation,一、相关的类型 二、相关系数 三、相关系数的假设检验,二、相关系数,样本的相关系数用r (correlation coefficient) 相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。 于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。 问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关? 分析问题:总体-样本、 目的、变量、关系,待产妇尿雌三醇含量与产儿体重关系,SPSS计算程序,1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE 2. 相关分析: ANALYZE-CORRELATION BIVARIATE -VARIABLES,从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。,根据资料类型选择不同的方法计算r,Pearson: 连续变量,双变量正态分布资料Kendall: 资料不服从双变量正态分布或 总体分布未知,等级资料。 Spearman:等级资料,问题: 我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?,三、相关系数的假设检验,上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。 因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。 这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:,=n-2,H0 : =0 H1 : 0 =0.05 r=0.61, n=31, 代入公式 t=,=n-2=31-2=29,t=4.14,查t值表,t0.05 (29) =2.045,查t值表, t0.05(29) =2.045, 上述计算t=4.142.045,由t所推断的P值小于0.05 按=0.05水准拒绝?,接受? 认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,另外的例子:,识字数,鞋大小 游泳票与冰激凌销售量 需要排除其它变量的干扰!,例题:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml), 请计算身高与肺活量,体重与肺活量的相关关系。,1、身高与肺活量的简单相关系数,2、体重与肺活量的简单相关系数,3、身高与体重的简单相关系数,第一节 偏相关,一、概念,当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,二、偏相关系数,偏相关系数是用来衡量任何两个变量之间的关系的大小。,当控制一个变量时,偏相关系数的计算公式:,当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。,Analyze-Correlation-Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 点击 Options 点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK,三、SPSS操作步骤,结 果:,身高与肺活量的偏相关系数(体重为控制变量),P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X2 (体重) Y(肺活量) X1(身高) Y (肺活量) 1.0000 .098 ( 0) ( 26) P= . P= .619 X1 (身高) .098 1.0000 ( 26) ( 0) P= .619 P= .,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X1(身高) Y(肺活量) X2(体重) Y 1.0000 .569 ( 0) ( 26) P= . P= .002 X2 .569 1.0000 ( 26) ( 0) P= .002 P= .,肺活量与体重的偏相关系数(身高作为控制变量),在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。 那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢? 这要用直线回归的方法来解决。,一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用,复习: 直线回归,Linear Regression,知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。,但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.,直线回归就是用来描述一个变量如何依赖于另一个变量。 其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。,一、回归方程,简单直线回归(linear regression)是用来描述一个变量依赖于另一个变量的线性关系。,这里两变量的地位是不同的,其中X为自变量,可随机变动亦可人为取值;而Y被视为依赖于X而变化的因变量。,a称为截距(intercept),表示X取值为0时Y的平均水平。 b称为回归系数(regression coefficient)或直线的斜率(slope),表示X每变化一个单位时,Y平均改变b个单位。 b0时,随X的增大而增大; b0时,随X的增大而减小; b=0时,直线与X轴平行,Y与X无直线关系,二、回归系数,在数理统计中,用最小二乘法的原理可求出a、b的计算公式。求解a和b实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。,这就是我们求得的二者关系的回归方程,从公式可求得:,根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。,SPSS程序,ANALYZE-REGRESSIONLINEAR,回归直线的描绘,根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。 回归直线一定经过(0,a ),( )。 这两点可以用来核对图线绘制是否正确。,=2.15+0.061X,是否一定能说明雌三醇与产儿体重之间存在回归关系?,三、回归系数的假设检验,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。 总体的回归系数一般用表示。,回归系数的检验方法有两种: (1) 方差分析 (2) t检验 两种方法是等价的。,(1) 方差分析,因变量Y的变异的分解,Y的分解: 移项: 考虑全部样本: 上式用符号表示:,SS总称为Y的总离均差平方和 SS回称为回归平方和 SS残称为残差平方和或剩余平方和,不考虑回归时,Y的总变异SS总全部视为随机误差;而回归以后,回归的贡献使得随机误差减小为SS剩。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,可计算如下的F统计量:,自由度分别是:回1,残n-2 MS回与MS残分别称为回归均方和残差均方。 求得F值后查F界值表得到P值,最后按所取水准作出总体回归关系是否成立的推断结论。,(2)t检验: H0:=0 H1:0 =0.05 统计量t的计算公式为: 自由度=n-2,例1: H0:=0 H1:0 =0.05,自由度=31-2=29,查t界值表,t0.05(29)=2.045, P0.05,按=0.05检验水准,拒绝H0,接受 H1,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。,对于一元线性回归来说,方差分析与t检验是完全等价的,且有关系式:,利用SPSS实现直线回归:,SPSS操作步骤: Analyze - Regression - Linear dependent: 因变量 independent: 自变量 method: 可选择 enter forward backward stepwise 点击statistics: 出现若干统计选项可供选择 Continue OK,四、直线回归的应用,1. 描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。 2. 利用回归方程进行预测 把自变量代入回归方程,对因变量进行估计,并可求出因变量的波动范围。,3.利用回归方程进行统计控制 利用回归方程进行逆估计,即要求因变量y的容许取值范围,逆向估计X的取值范围。,五、应用直线相关与回归的注意事项,(一)注意事项,1.考虑实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回归分析。,2. 相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。,3. 利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。,4. 变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,超出了这个范围,我们不能得出两变量的相关关系和回归关系。,(二)相关与回归的区别,1. 意义 相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。 回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。,2. 应用 研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。,3. 性质 相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。 回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。,4. 相关系数r与回归系数b r与b的绝对值反映的意义不同。 r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。 b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。,(三)相关与回归的联系,1. 关系 能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。,2. 相关系数r与回归系数b r与b的符号一致。r为正时,b也为正,表示两变量是正相关,是同向变化。r为负时,b也为负,表示两变量是负相关,是反向变化。,r与b的假设检验结果一致。对同一资料,可以证明r与b假设检验的统计量t值的大小相等,因而结果总是相同的。 由于对r进行假设检验的统计量t值计算公式比较简便,而且还可以直接查表。所以,可用r的显著检验代替b的显著性检验。,第二节 多重(多元)线性回归,在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。 多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有效的预测模型。,一、多重线性回归模型,多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回归模型。 这里提及的回归模型中,都只有一个因变量。,总体回归模型: 0为常数项,1 , ,m 称为总体偏回归系数。,样本回归模型:,偏回归系数: b0为常数项,b1,b2,bm为样本偏回归系数。 偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量y变化的平均大小。 残差e:y 的变化中不能为自变量所解释的部分。,线性回归的适用条件: 1.L:线性自变量x与应变量y之间存在线性关系; 2.I:独立性y值相互独立,在模型中则要求残差相互独立,不存在自相关; 3.N:正态性随机误差(即残差)e服从均值为零,方差为的正态分布; 4. E:等方差 对于所有的自变量x,残差e的方差齐。,数据类型要求,因变量必须是数值型变量(连续变量)。 自变量既可以是数值型变量,也可以是分类型变量。但如果是多分类变量,则不能直接进入回归方程,而要先进行哑变量设置(略)。,例2. 某研究者测量了29名儿童血液中血红蛋白(g)、钙(g)、镁(g) 、铁(g) 、锰(g) 、铜(g)的含量。试以血红蛋白为因变量,其它为自变量,建立回归模型。,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直接做线性回归模型。 另外,散点图还有助于发现异常点。,采用最小二乘法(LS)估计回归系数b 即要求残差平方和:,达到最小值。 求解过程需要进行矩阵运算,并要借助计算机完成。,二、回归系数的估计,或写成: Y=XB+E 如矩阵XX的逆存在,则回归系数矩阵B=(XX)-1XY,所有样本点数据代入模型后可写成如下矩阵形式:,SPSS回归分析输出结果,1.对整个方程的检验:,H0: 1 2 m 0,2.对单个回归系数或常数项的检验: H0: i 0,三、方程的显著性检验:,对整个方程的检验:,H0: 回归系数全为零 1=2=m=0 H1: 回归系数不全为零 0.05 FMSreg/MSE26.306 自由度 dfreg5, dfe23, P0.001 拒绝H0, 接受H1,认为此回归模型有意义。,对回归系数进行假设检验: H0: i=0 H1: i0 0.05 t1-1.962 df1=23 p=0.062 t20.023 df2=23 p=0.982 t38.079 df3=23 p t50.672 df5=23 p=0.508 只有铁的偏回归系数有意义。,四、筛选有影响的自变量,选择标准:对各自变量的偏回归平方和进行检验,F值大于预先设定的F,则将此变量选入或保留在方程内。 偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减少的部分。 例如:将本例中钙剔除后,回归平方和从113.26 变为109.94,则钙的偏回归平方和为113.26-109.943.32,自变量的选择方法,1. 强行进入法(Enter):为默认选择项,定义的全部自变量均引入方程。 2. 后退法(Backward):先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。,3. 前进法(Forward):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。 4. 逐步法(Stepwise):它是前进法和后退法的结合。 5. 消去法(Remove):建立回归方程时,根据设定的条件剔除部分自变量。,选用后退法,钙保留下来的原因:后退法的默认剔除标准是0.1,最终回归模型:,以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。,其中x1代表钙,x3代表铁 (方程和偏回归系数的检验略),两个自变量与因变量的拟合面示意图,注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。 1.对因变量确实有影响的,应当选入。 2.不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。 3.所做出的模型不能视为“最佳”模型,而应视为“局部最优”模型,因为所纳入分析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。,五、标准化偏回归系数 由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。 标准化偏回归系数消除了量纲的影响,可以用来直接比较各自变量对因变量作用的大小。,标准化偏回归系数的计算方法: 其中,sy代表因变量的标准差,si代表不同自变量的标准差。,从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比钙要大。,六、回归模型的优良性评价(拟和效果),1.决定系数R2:,0R21 决定系数反映Y的全部变异中能够被回归方程中的全部自变量所解释的比例。R21, 越接近于1,说明模型拟和得越好。,2.复相关系数R:,0R1 复相关系数描述了因变量y与方程中m个自变量的总体相关系数。R越接近于1,说明因变量与自变量的关系越密切,模型拟和得越好。,3.校正决定系数R2adj: R和R2有一个缺陷,随着自变量个数的增加,R2总是增加,造成变量数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系数。,3.校正决定系数R2adj:,MS代表均方,用离均差平方和SS除以自由度得到(详见方差分析): MS残SS残/(n-m-1) MS总SS总/(n-1) 校正决定系数消除了自变量的个数以及样本量的大小对决定系数的影响。,本例显示,自变量个数最多的模型1的复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。,七、残差分析,残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。 一般所说的残差(residual)是指拟和残差,指因变量的实测值与回归方程预测值之差:,由于残差有单位,不适合相互比较,可用标准化残差(Standardized residual)和学生氏残差(Studentized residual)。这两个残差都经过了标准化变换,去除了单位。,1.独立性检查,独立性是指不同观察对象之间的y值相互独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关。 分析方法:Durbin-Watson(D)残差序列相关性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖南张家界市永定区南庄坪街道办事处便民服务中心招聘公益性岗位人员1人模拟试卷有答案详解
- 2025河北唐山幼儿师范高等专科学校选聘工作人员35人模拟试卷有答案详解
- 2025年安徽演艺集团有限责任公司招聘20人模拟试卷及参考答案详解
- 2025河南郑州江山路社区卫生服务中心招聘17人考前自测高频考点模拟试题及答案详解(有一套)
- 2025辽宁沈阳副食集团所属子公司拟聘用人员考前自测高频考点模拟试题及答案详解(夺冠)
- 2025年延安东辰中学教师招聘模拟试卷附答案详解(黄金题型)
- 2025广西玉林市“鬱上英才·创就玉林”人才招聘活动事业单位公开招聘662人模拟试卷及答案详解(全优)
- 2025广东省江门市蓬江区教师招聘23人模拟试卷及答案详解(全优)
- 2025安徽阳光采购服务平台有限责任公司社会招聘1人(第二次)模拟试卷及答案详解1套
- 2025甘肃武威市武威市从小学全科型教师培养计划毕业生中招聘事业单位人员46人考前自测高频考点模拟试题及完整答案详解1套
- 电商行业员工行为规范与工作手册
- 借款合同中国农业银行担保借款合同3篇
- 2025年产业政策调整下人工智能在医疗行业的应用可行性研究报告
- 创新方法大赛理论知识考核试题题库及答案
- 广东省监理从业人员网络继续教育平台题库
- YY/T 1268-2023环氧乙烷灭菌的产品追加和过程等效
- 平地机操作规程
- HY/T 0302-2021沸石离子筛法海水提钾工程设计规范
- GB/T 710-2008优质碳素结构钢热轧薄钢板和钢带
- GB/T 18591-2001焊接预热温度、道间温度及预热维持温度的测量指南
- GB/T 1226-2017一般压力表
评论
0/150
提交评论