




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元线性回归分析 在医学 生物学中 许多现象的发生 发展和变化是多种因素在一定条件下相互影响 相互制约产生的共同结果 例如 影响高血压的因素很多 如年龄 性别 精神紧张 劳动强度 吸烟状况 家族史等 在影响血压高低的众多因素中 哪些是主要因素 各因素的作用大小等 是我们关心的问题 回归分析就是研究各变量间在数量上相互关系的一种统计方法 1 它包含下面这些内容 从一组数据出发确定某些变量间是否存在某种相关关系 如果存在 找出适当的定量关系式 对这种关系式的可靠程度进行检验 在许多自变量共同影响一个应变量的关系中 判断哪些自变量的影响是主要的 哪些是次要的 哪些是多余的 利用所求得的关系式对某一过程进行预测或控制等等 2 一 多元线性回归模型在讨论一个应变量与一个自变量之间的关系时 我们介绍了直线回归与相关分析 在那里 我们作了这样的假定 对于自变量的每一个值 有 其中 x为非随机变量 是随机误差 并称 为y关于x的回归直线方程 a b分别是 的最小二乘估计量 3 当考虑一个应变量受多个因素影响时 则需将直线回归分析方法推广到多个自变量的情形 下面 我们来考虑一个应变量Y与多个自变量X1 X2 Xm之间的线性回归问题 多元线性回归 假定对于Y和X1 X2 Xm的每一组值 有 其中 X1 Xm为非随机变量 为随机误差 则称 2 1 为Y关于X1 X2 Xm的线性回归方程 其中 4 b0称为回归截距或常数项 bj j 1 m 称为Y对自变量X1 X2 Xm的偏回归系数 bj的意义为 在其它自变量固定的条件下 Xj改变一个单位而使Y获得的平均改变量 这里b0 b1 b2 bm分别是 0 1 2 m的最小二乘估计量 二 回归方程的建立现在讨论怎样通过样本观测值来建立回归方程 设通过实验或观察得到一组实际资料 5 多元线性回归分析的任务是利用这些样本观测值来确定式 2 中的b0 b1 b2 bm 即求出Y关于X1 X2 Xm的线性回归方程 6 由模型 1 对于每一观测对象所得的样本观测值 xi1 xi2 xim yi i 1 2 n 有 即 我们寻求 0 1 2 m的估计值的原则是 求得的b0 b1 b2 bm 使 达到最小值 即所谓最小二乘准则 3 7 可以证明 由正规方程组 及公式 即可求得满足上述最小二乘准则的估计量b0 b1 b2 bm 从而求得线性回归方程 4 5 8 显然 6 7 其中 Ex 1为推算少年儿童心脏面积 某研究者对33名8岁正常男童测得体重 心脏纵径 胸腔横径及心脏面积等指标的观测值 所得资料如下表 9 33名8岁正常男童生长发育指标的实测值 取体重 X1 心脏纵径 X2 胸腔横径 X3 为自变量 心脏面积 Y 为应变量来建立线性回归方程 10 欲建立回归方程 其步骤为 1 建立正规方程组 1 由表中数据算得各指标均值 2 根据公式 6 和公式 7 可以计算出各lij及liy 11 3 列出回归方程 2 解正规方程组得 再由 5 式 算得 3 按公式 4 列出正规方程组 12 三 多元线性回归方程的假设检验多元线性回归方程的假设检验 它包含两个内容 一是检验线性回归方程是否有统计学意义 二是检验每个自变量对应变量的线性影响是否有统计学意义 1 回归方程的假设检验回归方程的假设检验 即是要检验原假设 H0 1 2 m 0 由平方和分解定理 可将应变量Y的总离均差平方和lyy分解成回归平方和U与残差平方和Q两个部分 即 13 回归平方和 反映了所有m个自变量对应变量Y的总变差的影响 自由度为m 8 9 残差平方和 10 反映了除自变量外 其它随机因素对应变量Y的影响 自由度为n m 1 14 按照方差分析的思想 我们用如下的F统计量来对假设H0作检验 可以证明 当H0成立时 统计量F服从自由度为 1 m 2 n m 1的F分布 若F F m n m 1 则在 水准上拒绝H0 认为这m个自变量作为一个整体对应变量Y有一定影响 但这里并不排除其中有一个或几个自变量对Y并无影响 即可能有某些 j 0 反之 若F F m n m 1 则在 水准上不拒绝H0 即认为所有自变量与应变量Y之间不存在线性回归关系 11 15 上述检验可列成如下的方差分析表 16 由上表得到对回归方程的检验结果 F 61 149 P 0 0001 故在 0 01的水准上拒绝原假设 可以认为体重 心脏纵径 胸腔横径与心脏面积之间存在线性回归关系 对例1已求得的回归方程作假设检验 可得 17 2 各偏回归系数的假设检验若回归方程有统计学意义 则认为所有自变量作为一个整体对应变量Y存在线性影响 但这里并不排除其中有一个或几个自变量对Y并无线性影响 即可能有某些 j 0 为了检验是否每个自变量都对应变量存在线性影响 需要分别对各偏回归系数进行假设检验 即检验假设H0 j 0j 1 2 m 为了检验这个假设 先介绍偏回归平方和的概念 18 偏回归平方和回归平方和U是所有自变量对应变量Y的变差的回归贡献 一般地说 所考虑的自变量越多 回归平方和U的值就越大 因此若在所考虑的自变量中去掉一个 则U的值只可能减少 不可能增加 减少的数值越大 则说明该变量对应变量的影响越大 我们称在原有的m个自变量中去掉一个自变量Xj后 回归平方和减少的数值 为自变量Xj的偏回归平方和 其中U m 表示原来有m个自变量时的回归平方和 U m 1 表示去掉一个自变量Xj后 剩余m 1个自变量时的回归平方和 19 由偏回归平方和的定义可知 Uj的值越大 说明相应自变量Xj对应变量Y的线性影响也就越大 因此 我们用如下的统计量 或 来检验原假设H0 j 0 j 1 2 m 可以证明 当H0成立时 统计量Fj服从F 1 n m 1 分布 tj服从t n m 1 分布 这里 tj2 Fj即在对各偏回归系数作假设检验时 选用tj与Fj作为检验统计量 其结果是等价的 12 13 20 下面是对例1所得回归方程中各偏回归系数的假设检验结果 t1 0 030 P1 0 9766t2 7 149 P2 0 0001t3 0 896 P3 0 3776 故在 0 05的水准上拒绝原假设H0 2 0 而不拒绝原假设H0 1 0及H0 3 0 这就是说 在自变量X1 体重 X2 心脏纵径 X3 胸腔横径 中 只有X2 心脏纵径 与应变量Y 心脏面积 的线性回归关系具有统计学意义 21 四 偏回归系数的标准化前面已经指出 偏回归系数bj的意义是当其余自变量固定时 Xj每改变一个单位时引起Y的变化值 这就意味着 bj的绝对值大小 反映了该自变量对Y的影响程度 但由于各自变量的测量单位不同 因此在回归方程中 欲比较两个自变量Xi与Xj对应变量Y的影响程度时 不能直接比较bi与bj的绝对值大小 这时 需要消除测量单位的影响 即将各偏回归系数进行标准化后再作比较 这种消除测量单位影响后的偏回归系数称为标准化偏回归系数b j 其计算公式为 其中 Sj为Xj的标准差 Sy为Y的标准差 14 22 求得标准化偏回归系数后 一般说来 就可以根据b j的绝对值大小来比较各自变量对Y的影响程度 严格地讲 应对各b j之间的差异进行假设检验 例如 在例1中 对三个偏回归系数进行标准化 可得 这说明在三个自变量X1 体重 X2 心脏纵径 X3 胸腔横径 中 X2 心脏纵径 对Y 心脏面积 的影响最大 23 标准化偏回归系数还可以用下面的方法来求得 先按下式 将原始变量标准化 然后用标准化后的变量来建立回归方程 这样得到的偏回归系数即为标准化偏回归系数 这时得到的回归方程称为标准化回归方程 在用标准化变量来建立回归方程时 需要注意的是 在标准化回归方程中 常数项b 0 0 这是因为标准化后 各自变量与应变量的均数全都为0的缘故 24 五 多元线性相关多元线性相关 即多个变量之间的相关性问题 这里包含两方面的问题 一个变量与其余所有变量之间的线性关系的密切程度 各变量两两间线性关系的密切程度 25 复相关系数设有m 1个正态随机变量X1 X2 Xm Xm 1 Y 可以分析其中任一变量与其余所有变量之间的线性相关性 多元复相关性 反映这种复相关性强弱的量称为总体复相关系数 记为 不失一般性 我们讨论Xm 1与X1 X2 Xm的线性相关性 视Xm 1为应变量Y X1 X2 Xm均为自变量 作Y与X1 X2 Xm的多元线性回归分析 26 统计量R反映了应变量与全体自变量之间线性关系的密切程度 称为Y 即Xm 1 与X1 X2 Xm之间的样本复相关系数 15 由前面的讨论知 所得的回归平方和U在一定程度上反映了应变量Y与全体自变量之间线性关系的密切程度 利用U 可得如下的统计量 27 R具有如下性质 0 R 1 若R 0 则U 0 或Q lyy 即Y的总变异lyy全是由随机误差Q所引起的 而与各自变量无关 即Y与全体自变量在线性意义下呈零相关 若R 1 则U lyy 或Q 0 则意味着Y与全体自变量呈最为理想的线性关系 一般地说 R的值愈接近于1 则Y与全体自变量的线性关系愈密切 但究竟大到什么程度才能认为这种线性关系具有统计学意义呢 这需要进行假设检验 这里 检验假设为总体复相关系数 为零 即H0 0 检验统计量为 28 若F F m n m 1 则在 水平上拒绝H0 认为总体复相关系数 不为0 否则不拒绝H0 认为总体复相关系数 为0 例如 在例1中 可求得应变量与三个自变量之间的复相关系数 16 29 查表可得F0 01 3 29 4 54 故在 0 01水平上拒绝原假设H0 表明总体复相关系数 不为0 可以认为体重 X1 心脏纵径 X2 胸腔横径 X3 与心脏面积 Y 之间存在线性相关性 这里 我们引入一个重要的统计量 R2称为决定系数 coefficientofdetermination 或相关指数 它反映了回归平方和U在总变异lyy中所占的比例 显然 R2愈大 则U亦愈大 说明回归效果愈好 从这个意义上讲 相关与回归是可以相互解释的 17 30 另一方面 可以证明 复相关系数的F检验统计量 与多元线性回归方程的检验统计量 是相等的 这就是说 对复相关系数的检验等价于对回归方程的检验 在例1中 分别用上述两式求得的F值分别为61 151与61 149 略有差异 这是计算误差所致 31 2 偏相关系数复相关系数解决了一个变量与其余所有变量之间的线性相关关系 下面讨论在多个变量同时存在的情况下 任意两个变量之间的相关关系 在只有两个变量 X Y 的情形 其相关系数为 一般说来 在多个变量X1 X2 Xm同时存在的情形 任意两个变量Xi Xj之间的简单相关系数rij就不能正确地反映它们之间的线性相关性了 这是因为有其它变量的干扰存在 为了正确地反映Xi与Xj之间的相关性 需要消除其余变量的影响 32 由偏回归平方和Ui的定义可知 Ui的大小反映了在消除其余自变量影响后 Xi对Y在线性意义下的影响 因此 称 为Xi与Y的偏相关系数 riY 的符号与偏回归系数bi的符号一致 其中 Ui为偏回归平方和 Qi m 1 为去掉Xi后 Y对其余m 1个自变量作线性回归时的剩余平方和 18 33 可以证明 当Qi m 1 0时 riY 有如下性质 关于性质 3 有lyy U Q全部自变量与Y作线性回归lyy Ui m 1 Qi m 1 去掉Xi后 其余m 1个自变量与Y作线性回归当 riY 1 即Ui Qi m 1 时 有lyy Ui m 1 Qi m 1 Ui m 1 Ui U于是得Q 0 34 性质 3 说明 Xi与Y的偏相关系数riY 取值为 1或 1时 等价于剩余平方和Q为零 即此时若把Xi加入回归方程 则Y与全体自变量呈最理想的线性关系 而不管缺少Xi时的回归方程是否有统计学意义 这实际上表明 当riY 取值为 1或 1时 Xi与Y之间呈最理想的线性关系 一般地说 riY 的绝对值愈接近于1 则Xi与Y的线性关系愈密切 但riY 的绝对值与1究竟接近到什么程度才能认为这种线性关系具有统计学意义呢 这需要进行假设检验 35 这里 检验假设为总体偏相关系数 iY 0 即H0 iY 0检验统计量为 或 至于任意两个变量Xi与Xj之间的偏相关系数 只需将Xi与Xj中任意一个视为应变量即可 19 20 36 需要指出的是 偏相关系数的计算比较复杂 通常是利用统计软件来解决这一问题的 由SAS软件算得例1的各偏相关系数及相应的p值为 37 回归变量的筛选 回归变量筛选的意义要注意各自变量的专业背景 不要遗漏要考虑各自变量相互之间的影响 不要重叠 多元共线性 如果多元线性回归方程中 相互影响的自变量太多 不仅导致计算量增大 而且也会使回归方程的参数估计和预测精度降低 38 二 回归变量的筛选方法从统计学的角度讲 自变量的选择方法可分为两大类 全局择优法 以数据对回归模型的拟合优劣为准则局部择优法 根据自变量对应变量的影响程度大小为准则 全局择优法 对于有m个自变量的情形 多元线性回归方程中所包含的自变量的个数可以是m m 1 m 2 1 共有 个 在这些自变量的组合中如何选择一个 最优 组合 衡量 最优 的标准是什么 这是我们需要解决的问题 39 决定系数R2可用来衡量回归模型的拟合效果 一般说来 R2愈大 则回归效果愈好R2值大 也可能是自变量个数较多所引起的 这是因为R2的大小受自变量个数的影响 因此 单纯以决定系数R2作为选择自变量的准则是不合适的 下面给出几个常用的准则 40 准则1 自由度调整的决定系数达到最大 其中 n为样本含量 p 1 p m 为引入模型的自变量个数 R2为决定系数 在一个实际问题中 如果仅从拟合的角度来看 R2a的值愈大 所对应的自变量组合愈优 即所有自变量组合中R2a最大者所对应的回归方程就是 最优 回归方程 21 22 41 准则2 赤池信息量AIC达到最小 AIC的计算公式为 其中 n为样本含量 p 1 p m 为引入模型的自变量个数 Q为残差平方和 在实际问题中 可以根据赤池统计量AIC的大小来确定自变量的选择 AIC的值愈小 所对应的自变量组合愈优 即所有自变量组合中AIC最小者所对应的回归方程就是 最优 回归方程 23 42 准则3 Cp统计量达到最小 Cp统计量的计算公式为 其中 n为样本含量 p 1 p m 为引入模型的自变量个数 MS残 p为包含p个自变量的残差均方 MS残 m为包含m个自变量的残差均方 按此准则 使Cp达到最小的自变量组合为最优组合 相应的回归方程即为 最优 回归方程 24 43 二 局部择优法当自变量个数m较大时 全局择优法的计算量会很大 这直接影响了它的应用 例如 当m 10时 需要考虑的方程个数就达到210 1 1023个 因此 当m很大时 计算量将会很大 下面介绍的局部择优法是从自变量对应变量影响的角度出发 根据自变量的作用大小来决定是否将其引入回归方程 1 向后法先建立包含全部自变量的回归方程 然后按偏回归平方和从小到大的顺序 对各自变量的偏回归系数逐个进行假设检验 一旦发现不具有统计学意义的自变量 便将其从方程中剔除 直到方程中的所有自变量都具有统计学意义为止 44 2 向后逐步回归法该法在从模型中剔除自变量的方法与向后法是相同的 但向后逐步回归在每剔除一个自变量后 需要考察模型外的其它自变量是否能引入回归模型并且有统计学意义 通过反复剔除无统计学意义的自变量和引入有统计学意义的自变量进入回归模型 直到既没有变量可以剔除 也没有变量可以引入模型为止 45 3 向前法此法与向后法相反 此法是按偏回归平方和从大到小的顺序 把对应变量的影响具有统计学意义的自变量逐个引入方程 直到方程外的自变量不能引入为止 向前法有一个重要缺点 由于各自变量之间可能存在多重共线性 计算初期引入的自变量在当时是具有统计学意义的 但随着其它自变量的引入 就可能使得初期引入的自变量失去其统计学意义 即原来某自变量的作用被后来引入的一些自变量的共同作用所代替 因此 在最终所得的方程中仍可能含有不具有统计学意义的自变量 从这个意义上讲 最终得到的回归方程并非 最优 46 4 向前逐步回归法此法的基本思想是对全部自变量按其对应变量的影响程度大小 即偏回归平方和的大小 从大到小地依次把自变量逐个引入方程 每引入一个自变量 就要对它作检验 有统计学意义才引入 而当新的自变量进入方程后 就对方程中当时所含有的全部自变量进行检验 一旦发现不具有统计学意义的自变量 由于引入新自变量而 相形见绌 者 就立即剔除 因此 逐步回归的每一步 引入一个新自变量或从方程中剔除一个自变量 都称为一步 前后都要作检验 以保证每次引入新的自变量前 方程中只含有具有统计学意义的自变量 引入新的自变量后 方程中也只含有具有统计学意义的自变量 如此往复选入 剔除 直至无法剔除方程中的自变量 也无法引入新的自变量为止 47 需要指出的是 在用局部择优法筛选自变量时 重点在于选出对应变量有重要影响作用的自变量 因此 对假设检验的检验水准不必过于苛刻 可以根据具体情况来选择检验水准 如 0 05 0 10 0 15等 选入水准 越小 选取自变量的标准越严 入选自变量的个数相对较少 反之 选入水准 越大 选取自变量的标准越宽 入选自变量的个数相对较多 此外 对选入和剔除 也可以设置不同的检验水准 但选入水准须小于或等于剔除水准 48 例13 3为了研究影响糖尿病患者糖化血红蛋白 HbA1c 的主要危险因素 某研究者调查了在某医院内分泌科就诊的200名糖尿病患者的糖化血红蛋白 年龄 体重指数 总胆固醇 收缩压 舒张压 饮食 运动 服药情况等 并用逐步线性回归分析影响糖化血红蛋白的主要因素 为了简化问题 这里仅取自变量为年龄 X1 岁 体重指数 X2 kg m2 总胆固醇 X3 mmol L 收缩压 X4 mmHg 和舒张压 X5 mmHg 应变量为糖化血红蛋白 Y 随机选取了20例 具体资料见表13 7 试用逐步线性回归分析寻找主要的影响因素 49 20例糖尿病患者调查资料 采用后退逐步回归法 先把所有自变量引入回归方程 然后把无统计学意义的自变量剔除模型 具体情况如下 50 最后的回归方程为 可以认为体重指数X2 总胆固醇X3和收缩压X4是影响糖化血红蛋白的主要因素 体重指数增大1个单位 糖化血红蛋白平均升高0 031 总胆固醇升高1mmol L 估计糖化血红蛋白平均升高0 097 收缩压X4升高10mmHg 估计糖化血红蛋白平均升高0 008 这些差异均有统计学意义 51 多元线性回归的应用及注意事项1 多元线性回归的应用从医学应用的角度看 多元线性回归实际上是对某些因素与某一医学现象间数量关系的一种刻划 这就使得多元线性回归在医学上有着广泛的用途 大致可以归纳为如下两个方面 52 1 预测预报利用一些预报因子和预报对象的实测值建立一个预报方程后 就可以进行一些预测预报 例如根据胃癌患者手术后的病理切片上所观察到的各种形态特征 如癌组织类型 浸润深度 肉芽肿等 可建立由这些特征估算患者存活时间的多元线性回归方程 用此方程 据某胃癌患者手术后的病理切片 就可大致推测术后的存活时间 53 2 因素分析当机体出现某种现象或结果时 导致产生这种现象或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年火锅底料合作协议书
- 2025年电子用高纯气体项目发展计划
- 2025年纳迪克酸酐项目发展计划
- 2025年湖南省国家综合性消防救援队伍消防员招录考试试题【答案】
- 自我生长构建逻辑连贯的学习过程
- 绘本阅读对重度智力障碍儿童沟通行为影响的深度探究
- 2025年全国精准扶贫知识竞赛考试试题(100题)【答案】
- 2025年渔业捕捞养殖机械项目发展计划
- 歌颂祖国演讲稿范文4篇
- 矿区无计划停电应急预案
- 沈阳地铁笔试试题及答案
- 双减政策中的课程改革探索心得体会
- 餐饮服务企业各项管理制度体系
- 2024-2025学年人教版英语七年级下册Unit 5 Here and now Section A 2a - 2e 教案
- 二零二五年度柑橘产业链全程托管销售合同3篇
- 《国防动员实施》课件
- 一维伺服移动工作台设计说明书电子精密机械设计课程设计
- 职工代表选举方案及选票模版(2篇)
- 中国高血压防治指南(2024年修订版)
- 血透室护理安全管理及防范
- 广东发布智慧公路标准体系(2024版)
评论
0/150
提交评论