多元线性回归分析.ppt_第1页
多元线性回归分析.ppt_第2页
多元线性回归分析.ppt_第3页
多元线性回归分析.ppt_第4页
多元线性回归分析.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十五章多元线性回归分析 MultipleLinearRegression 讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项 人的体重与身高 胸围血压值与年龄 性别 劳动强度 饮食习惯 吸烟状况 家族史糖尿病人的血糖与胰岛素 糖化血红蛋白 血清总胆固醇 甘油三脂射频治疗仪定向治疗脑肿瘤过程中 脑皮质的毁损半径与辐射的温度 与照射的时间 例子 目的 作出以多个自变量估计应变量的多元线性回归方程 资料 应变量为定量指标 一定是随机的 自变量全部或大部分为定量指标 可以是随机变动的 也可以是人为选定的 若有少量定性或等级指标需作转换 用途 解释和预报 更精确 第一节多元线性回归 变量 应变量1个 自变量m个 共m 1个 样本含量 n数据格式见表15 1回归模型一般形式 一 多元线性回归模型 表15 1多元回归分析数据格式 条件 两自变量与应变量的散点图 一般步骤 建立回归方程 2 检验并评价回归方程及各自变量的作用大小 二 多元线性回归方程的建立 例15 127名糖尿病人的血清总胆固醇 甘油三脂 空腹胰岛素 糖化血红蛋白 空腹血糖的测量值列于表15 2中 试建立血糖与其它几项指标关系的多元线性回归方程 表15 227名糖尿病人的血糖及有关变量的测量结果 采用最小二乘法建立多元线性回归方程 即寻找适宜的系数b0 b1 b2 使得因变量观测值yi与其回归估计值之间残差平方和最小 求偏导数 一阶 原理最小二乘法 统计软件包 最小 三 假设检验及其评价 1 方差分析法 一 对回归方程 方差分析法可将回归方程中所有自变量X1 X2 Xm 作为一个整体来检验他们与应变量Y之间是否具有线性关系 并对回归方程的预测或解释能力做出综合评价 表15 4例15 1的方差分析表 表15 3多元线性回归方差分析表 SPSS软件输出结果AnalysisofVariance 2 决定系数R2 3 复相关系数 可用来度量应变量与多个自变量间的线性相关程度 亦即观察值与估计值之间的相关程度 Y Y 计算公式 本例 若 m 1 自变量 则有 r 为简单相关系数 二 对各自变量的假设检验与评价指明方程中的每一个自变量对Y的影响 1 偏回归平方和 在其它自变量存在于回归方程中的条件下 考察某一自变量Xj对应变量Y的回归效应 表15 5对例15 1数据作回归分析的部分中间结果 各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到 表15 5给出了例15 1数据分析的部分中间结果 结果 2 t检验法是一种与偏回归平方和检验完全等价的一种方法 计算公式为 结果 结论 对于同一资料 不同自变量的t值间可以相互比较 t的绝对值越大 说明该自变量对Y的回归所起的作用越大 3 标准化回归系数自变量取值的单位及其离散程度是不同的 因此量纲不同的各回归系数之间不能直接比较大小 可对变量进行标准化变换 然后拟合回归方程 这样获得的回归系数称为标准化回归系数 可说明各自变量相对贡献大小 变量标准化是将原始数据减去相应变量的均数 然后再除以该变量的标准差 计算得到的回归方程称作标准化回归方程 相应的回归系数即为标准化回归系数 注意 一般回归系数有单位 用来解释各自变量对应变量的影响 表示在其它自变量保持不变时 增加或减少一个单位时Y的平均变化量 不能用各来比较各对的影响大小 标准化回归系数无单位 用来比较各自变量对应变量的影响大小 越大 对的影响越大 结论 第四节自变量筛选 目的 使得预报和 或 解释效果好 多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的 但在许多回归分析的 应用中 由于没有清晰的理论依据 回归模型所包含的自变量难以预先确定 如果将一些不重要的自变量也引入方程 会降低模型的精度 因此选择有意义的自变量是回归分析的第一步 选择自变量的基本思路是 尽可能将回归效果显著的自变量选入回归方程中 将作用不显著的特别是与自变量有密切线性关系的自变量排除在外 一 全局择优法 目的 根据一些准则建立 最优 回归模型意义 对自变量各种不同的组合所建立的回归方程进行比较 择优选择方法 决定系数R2的缺点 当回归方程中包含有很多自变量 即使其中有一些自变量对解释应变量变异的贡献极小 随着回归方程的自变量的增加 R2值表现为只增不减 例15 2用全局择优法对例15 1数据的自变量进行选择 全局择优法的局限性 如果自变量个数为4 则所有的回归模型有24 1 15个 当自变量数个数为10时 所有可能的回归为210 1 1023个 当自变量数个数为50时 所有可能的回归为250 1 1015个 二 逐步选择法 1 1 前进法 回归方程中的自变量从无到有 从少到多逐个引入回归方程 此法已基本淘汰 2 后退法 先将全部自变量选入方程 然后逐步剔除无统计学意义的自变量 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量 作F检验决定它是否剔除 若无统计学意义则将其剔除 然后对剩余的自变量建立新的回归方程 重复这一过程 直至方程中所有的自变量都不能剔除为止 理论上最好 建议使用采用此法 3 逐步回归法 逐步回归法是在前述两种方法的基础上 进行双向筛选的一种方法 该方法本质上是前进法 1 从不包含任何自变量的模型开始 截距 2 添加具有最大统计学意义的变量进入模型 如p值最小 小于预先给定的进入标准的变量 3 重复第二步 直到没有p值小于预先给定的进入标准的变量 1 从整个模型开始 包含研究所涉及所有自变量及其交互项2 剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量 如p值最大 大于预先给定的剔除标准的变量 3 重复第二步 直到没有p值大于预先给定的剔除标准的变量 1 从不包含任何自变量的模型开始 2 添加具有最大统计学意义的变量进入模型 3 剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量 3 重复第二步和第三步 直到模型外没有可进入的变量或模型内没有可剔除的变量为止 表15 7逐步回归过程 表15 8例15 3方差分析表 最优 回归方程为 结果表明 血糖的变化与甘油三脂 胰岛素和糖化血红蛋白有线性回归关系 其中与胰岛素负相关 由标准化回归系数看出 糖化血红蛋白对空腹血糖的影响最大 表15 9例15 3的回归系数的估计及检验结果 第四节多元线性回归的应用及其注意事项 一 多元线性回归的应用 影响因素分析 控制混杂因素预测 由自变量值推出应变量Y的值控制 指定应变量Y的值查看自变量的改变量 二 应用条件 三 应用的注意事项 一 变量的数量化 二 样本含量 三 统计 最优 与专业的 最优 四 多重共线性 五 交互作用 六 残差图 1 影响因素分析 例如影响高血压的因素可能有年龄 饮食习惯 吸烟状况 工作紧张度和家族史等 在影响高血压的众多可疑因素中 需要研究哪些因素有影响 哪些因素影响较大 在临床试验中 则可能由于种种原因难以保证各组的指标基线相同 如在年龄 病情等指标不一致出现混杂的情况下 如何对不同的治疗方法进行比较等 这些问题都可以利用回归分析来处理 控制混杂因素 confoundingfactor 的一个简单办法就是将其引入回归方程中 与其他主要变量一起进行分析 2 估计与预测 如由儿童的心脏横径 心脏纵径和心脏宽径估计心脏的表面积 由胎儿的孕龄 头颈 胸径和腹径预测出生儿体重等 3 统计控制逆估计 例如采用射频治疗仪治疗脑肿瘤 脑皮质的毁损半径与射频温度及照射时间有线性回归关系 建立回归方程后可以按预先给定的脑皮质毁损半径 确定最佳控制射频温度和照射时间 二 多元线性回归应用的注意事项 1 指标的数量化 分2类 可用一个 0 1 变量 如性别 分k类 k 1个 0 1 变量 如血型 数据格式回归方程 建立回归方程 b1 相当A型相对于O型的差别b2 相当B型相对于O型的差别b3 相当AB型相对于O型的差别 3 等级定量 一般是将等级从弱到强转换为 或 如文化程度分为小学 中学 大学 大学以上四个等级 Y为经济收入 解释 b b1 反映X X1 增加1个单位 增加b个单位 如 500元 表示中学文化较小学收入多500 大学较中学多500 余类推 2 样本含量 n 5 10 m 3 关于逐步回归 对逐步回归得到的结果不要盲目的信任 所谓的 最优 回归方程并不一定是最好的 没有选入方程的变量也未必没有统计学意义 例如 例15 3中若将选入标准和剔除标准定为和选入的变量是 而不是 结果发生了改变 不同回归方程适应于不同用途 依专业知识定 统计 最优 与专业的 最优 不同准则 方法得出的 最优 方程不同不同的引入 剔除标准获得的 最优 方程不同 方程还受数据的正确性 共线性影响研究者应结合问题本身和专业知识及经验来决定 多重共线性 自变量间存在着相关关系 使一个或几个自变量可以由另外的自变量线性表示时 称为该变量与另外的自变量间存在有共线性 collinearity X1 X2 Y 4 多重共线性即指一些自变量之间存在较强的线性关系 如高血压与年龄 吸烟年限 饮白酒年限等 这些自变量通常是高度相关的 有可能使通过最小二乘法建立回归方程失效 引起下列一些不良后果 1 参数估计值的标准误变得很大 从而t值变得很小 2 回归方程不稳定 增加或减少某几个观察值 估计值可能会发生很大的变化 3 t检验不准确 误将应保留在模型中的重要变量舍弃 4 估计值的正负符号与客观实际不一致 消除多重共线性 剔除某个造成共线性的自变量 重建回归方程 合并自变量 采用逐步回归方法 多重共线性的识别与解决办法 筛选自变量用主成分回归岭回归 回归系数的符号与专业知识不符变量的重要性与专业不符R2高 但各自变量对应的回归系数均不显著 方差膨胀因子 VarianceInflationFactors VIF 10 交互作用 当某一自变量对应变量的作用大小与另一个自变量的取值有关时 则表示两个变量有交互作用 interaction 检验两变量间有无交互作用 普遍的做法是在方程中加入它们的乘积项再做检验 如考察X1 X2间的交互作用 可在模型中加入X1X2项 六 残差图 residualplot Spss应用 从菜单选择RegressionLinear Method中的选项 Enter所选自变量强行全部选入方程Stepwise逐步回归法重要的结果R RSquare AdjustRSquare反映模型对应变量变异的解释程度 AdjustRSquare尤其用于自变量个数不等的模型之间的比较 ANOVA方差分析表中的Sig 反映模型是否有统计学意义Coefficients表中B为各自变量系数 回归系数 Beta为标准化回归系数 其绝对值用于说明自变量的重要性 t Sig 检验各系数是否有统计学意义 逐步回归的重要选项Method要选为Stepwi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论