医学]北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关.ppt_第1页
医学]北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关.ppt_第2页
医学]北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关.ppt_第3页
医学]北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关.ppt_第4页
医学]北京大学医学部医学统计学进阶1第1讲 多重线性回归与相关.ppt_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归与相关 王海俊 北京大学公共卫生学院 主要内容 第一节 偏相关 第二节 多元线性回归 医学上,许多现象之间都有相互联系,例 如:身高与体重、父亲身高与儿子身高、 体温与脉搏、产前检查与婴儿体重、乙肝 病毒与乙肝等。 在这些有关系的现象中,它们之间联系的 程度和性质也各不相同。 n关系:可以说乙肝病毒感染是前因,得了乙肝 是后果,乙肝病毒和乙肝之间是因果关系;但是 ,有的现象之间因果不清,只是伴随关系,例如 丈夫的身高和妻子的身高之间,就不能说有因果 关系。 相关就是用于研究和解释两个变量之间 相互关系的。 复习: 直线相关 Linear Correlation 一、相关的类型 二、相关系数 三、相关系数的假设检验 n为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。 n它的形状象一块橄榄状的 云,中间的点密集,边沿的 点稀少,其主要部分是一个 椭圆。 一、相关的类型 正相关 负相关 完全正相关 完全负相关 零相关 二、相关系数 样本的相关系数用r (correlation coefficient) 相关系数r的值在-1和1之间。正相关时,r值在0 和1之间,这时一个变量增加,另一个变量也增加 ;负相关时,r值在-1和0之间,此时一个变量增加 ,另一个变量将减少。 r的绝对值越接近1,两变量的关联程度越强,r 的绝对值越接近0,两变量的关联程度越弱。 n一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。 n于是设想,通过测量待产妇尿中雌三醇含量,可 以预测产儿体重,以便对低出生体重进行预防。因 此收集了31例待产妇24小时的尿,测量其中的雌 三醇含量,同时记录产儿的体重。 n问尿中雌三醇含量与产儿体重之间相关系数是多 少?是正相关还是负相关? n分析问题:总体-样本、 目的、变量、关系 编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 编号 (1) 尿雌三醇 mg/24h(2 ) 产儿体重 kg(3) 172.517173.2 292.518253.2 392.519273.4 4122.720153.4 5142.721153.4 6162.722153.5 7162.423163.5 8143.024193.4 9163.025183.5 10163.126173.6 11173.027183.7 12193.128203.8 13213.029224.0 14242.830253.9 15153.231244.3 16163.2 待产妇尿雌三醇含量与产儿体重关系 SPSS计算程序 1.做散点图: GRAPHS-SCATTERT-SIMPLE-DEFINE 2. 相关分析: ANALYZE-CORRELATION BIVARIATE -VARIABLES 从计算结果可以知道,31例待产妇尿中雌三醇含 量与产儿体重之间呈正相关,相关系数是0.61。 根据资料类型选择不同的方法计算r Pearson: 连续变量,双变量正态分布资料 Kendall: 资料不服从双变量正态分布或 总体分布未知,等级资料。 Spearman:等级资料 问题: 我们能否得出结论:待产妇尿中雌 三醇含量与产儿体重之间成正相关 ,相关系数是0.61?为什么? 三、相关系数的假设检验 n上例中的相关系数r等于0.61,说明了31例样本中雌三醇含 量与出生体重之间存在相关关系。但是,这31例只是总体中 的一个样本,由此得到的相关系数会存在抽样误差。 n因为,总体相关系数()为零时,由于抽样误差,从总 体抽出的31例,其r可能不等于零。 n这就要对r进行假设检验,判断r不等于零是由于抽样误差 所致,还是两个变量之间确实存在相关关系。 对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下: =n-2 H0 : =0 H1 : 0 =0.05 r=0.61, n=31, 代入公式 t= =n-2=31-2=29 t=4.14 查t值表,t0.05 (29) =2.045, 查t值表, t0.05(29) =2.045, 上述计算t=4.142.045,由t所 推断的P值小于0.05 按=0.05水准拒绝?,接受? 认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有 正相关关系。 另外的例子: n识字数,鞋大小 n游泳票与冰激凌销售量 需要排除其它变量的干扰! 例题:已知某地29名13岁男童身高X1(cm) 、体重X2(kg)和肺活量Y(ml), 请计算身 高与肺活量,体重与肺活量的相关关系。 1、身高与肺活量的简单相关系数 2、体重与肺活量的简单相关系数 3、身高与体重的简单相关系数 第一节 偏相关 一、概念 当有多个变量存在时,为了研究任何两 个变量之间的关系,而使与这两个变量有联系 的其它变量都保持不变。即控制了其它一个或 多个变量的影响下,计算两个变量的相关性。 二、偏相关系数 偏相关系数是用来衡量任何两个变量之间 的关系的大小。 当控制一个变量时,偏相关系数的计算公式: 当控制多个变量时,偏相关系数的计算公式 较为复杂,此处省略。 Analyze-Correlation-Partial 把分析变量选入 Variable 框 把控制变量选入 Controlling for 框 点击 Options 点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK 三、SPSS操作步骤 结 果: 身高与肺活量的偏相关系数(体重为控 制变量) P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X2 (体重) Y(肺活量) X1(身高) Y (肺活量) 1.0000 .098 ( 0) ( 26) P= . P= .619 X1 (身高) .098 1.0000 ( 26) ( 0) P= .619 P= . P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for X1(身高) Y(肺活量) X2(体重) Y 1.0000 .569 ( 0) ( 26) P= . P= .002 X2 .569 1.0000 ( 26) ( 0) P= .002 P= . 肺活量与体重的偏相关系数(身高作 为控制变量) n在待产妇尿中雌三醇含量和产儿体重之间 的关系中,知道了二者之间成正相关。 n那么,如果我们知道了一位待产妇的尿雌 三醇含量,能推断出产儿的体重吗?或产 儿的体重可能在什么范围内呢? n这要用直线回归的方法来解决。 一、回归方程 二、回归系数 三、回归系数的假设检验 四、直线回归的应用 复习: 直线回归 Linear Regression n知道了两个变量之间有直线相关关系,并 且一个变量的变化会引起另一个变量的变化 ,这时,如果它们之间存在准确、严格的关 系,它们的变化可用函数方程来表示,叫它 们是函数关系,它们之间的关系式叫函数方 程。 n但在实际生活当中,由于其它因素的干扰 ,许多双变量之间的关系并不是严格的函数 关系,不能用函数方程反映,为了区别于两 变量间的函数方程,我们称这种关系式为直 线回归方程,这种关系为直线回归. 直线回归就是用来描述一个变量如何依赖于另 一个变量。 其任务就是要找出一个变量随另一个变量变化 的直线方程,我们把这个直线方程叫做直线回 归方程。 一、回归方程 n简单直线回归(linear regression)是用来描述一个 变量依赖于另一个变量的线性关系。 这里两变量的地位是不同的,其中X为自 变量,可随机变动亦可人为取值;而Y被 视为依赖于X而变化的因变量。 a称为截距(intercept),表示X取值为0时Y的 平均水平。 b称为回归系数(regression coefficient)或直 线的斜率(slope),表示X每变化一个单位时 ,Y平均改变b个单位。 nb0时,随X的增大而增大; nb t20.023 df2=23 p=0.982 t38.079 df3=23 p t50.672 df5=23 p=0.508 只有铁的偏回归系数有意义。 四、筛选有影响的自变量 选择标准:对各自变量的偏回归平方和进行 检验,F值大于预先设定的F,则将此变量 选入或保留在方程内。 偏回归平方和:将某个变量引入方程后所引 起的回归平方和增加的部分;或者,将某个 变量剔除方程后所引起的回归平方和减少的 部分。 例如:将本例中钙剔除后,回归平方和从 113.26 变为109.94,则钙的偏回归平方和 为113.26-109.943.32 自变量的选择方法 1. 强行进入法(Enter):为默认选择项,定 义的全部自变量均引入方程。 2. 后退法(Backward):先建立一个包含全 部自变量的回归方程,然后每次剔除一个偏 回归平方和最小且无统计学意义的自变量, 直到不能剔除为止。 3. 前进法(Forward):回归方程由一个自变量 开始,每次引入一个偏回归平方和最大,且具有 统计学意义的自变量,由少到多,直到无统计学 意义的自变量被引入为止。 4. 逐步法(Stepwise):它是前进法和后退法的 结合。 5. 消去法(Remove):建立回归方程时,根据设 定的条件剔除部分自变量。 选用后退法 钙保留下来的 原因:后退法 的默认剔除标 准是0.1 最终回归模型: 以血红蛋白含量作为因变量y,钙、镁、铁 、锰、铜的含量作为自变量进行多元线性回归分析 ,变量筛选方法为后退法(backward),剔除标准 为p0.1()。最后结果只有钙和铁保留在方程中。 其中x1代表钙,x3代表铁 (方程和偏回归系数的检验略) 两个自变量与因变量的拟合面示意图 注意:自变量的选择不是一个单独的数学问 题,可以放心地交给计算机自动完成,而必 须结合专业知识,综合考察。 1.对因变量确实有影响的,应当选入。 2.不同筛选方法结果不一致时要谨慎,重点 考虑共线性的问题。 3.所做出的模型不能视为“最佳”模型,而应 视为“局部最优”模型,因为所纳入分析的自 变量中常常不能包括全部的影响因素,甚至 是很重要的因素。 五、标准化偏回归系数五、标准化偏回归系数 由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏 回归系数之间不能直接比较。回归系数之间不能直接比较。 标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以 用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。 标准化偏回归系数的标准化偏回归系数的 计算方法:计算方法: 其中,其中,s s y y 代表因变量的代表因变量的 标准差,标准差,s s i i 代表不同自变代表不同自变 量的标准差。量的标准差。 从本例来看,钙和铁的偏回归系数的 绝对值差不多,但铁的标准化偏回归系数 确要大得多,表示铁对血红蛋白的作用比 钙要大。 六、回归模型的优良性评价(拟和 效果) 1.决定系数R2: 0R21 决定系数反映Y的全部变异中能够被回 归方程中的全部自变量所解释的比例。 R21, 越接近于1,说明模型拟和得越好。 2.复相关系数R: 0R1 复相关系数描述了因变量y与方程中m个 自变量的总体相关系数。R越接近于1,说明 因变量与自变量的关系越密切,模型拟和得 越好。 3.校正决定系数R2adj: R和R2有一个缺陷,随着自变量 个数的增加,R2总是增加,造成变量 数目越多,则拟和效果越优良的错觉 。为解决这一问题,可采用校正决定 系数。 3.校正决定系数R2adj: MS代表均方,用离均差平方和SS除以自由度得到 (详见方差分析): MS残SS残/(n-m-1) MS总SS总/(n-1) 校正决定系数消除了自变量的个数以及样本量的大 小对决定系数的影响。 本例显示,自变量个数最多的模型1的 复相关系数和决定系数最大,而最后一个模 型(最优模型)的校正决定系数最大。 七、残差分析 残差分析常用于检验回归模型是否符合 适用条件(如独立性、正态性、方差齐性) ,发现异常点(强影响点)。 一般所说的残差(residual)是指拟和 残差,指因变量的实测值与回归方程预测值 之差: 由于残差有单位,不适合相互比较,可 用标准化残差(Standardized residual)和 学生氏残差(Studentized residual)。这 两个残差都经过了标准化变换,去除了单位 。 1.独立性检查 独立性是指不同观察对象之间的y值相互 独立,没有联系。在模型中,则是要求残差间 相互独立,不存在自相关。 分析方法:Durbin-Watson(D)残差序 列相关性检验。 0D4 D2时,残差与自变量相互独立 符合独立性的推荐取值范围:1D3 2. 正态性检查 残差的正态性是回归模型的假设条件, 在样本量比较大时可以适当放宽。 检查方法:标准化或学生氏残差的直方 图和残差的累积概率图(P-P图)。 3. 残差的等方差性 回归模型中的等方差性,比正态性要重要。 绘制残差图检查等方差性: 以y的预测值为横坐标,学生氏/标准化 残差为纵坐标做散点图,如果残差在零水平 上下均匀分布,没有某种趋势存在,可认为 残差方差齐。 1 2 3 4 y 残 差 2 1 0 -1 02 残 差 2 1 0 -1 02 1 2 3 4 y 残 差 2 1 0 -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论