多元线性回归分析.ppt_第1页
多元线性回归分析.ppt_第2页
多元线性回归分析.ppt_第3页
多元线性回归分析.ppt_第4页
多元线性回归分析.ppt_第5页
免费预览已结束,剩余23页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

李国奇安贞医院 多元线性回归 multiplelinearregression 主要内容 第一节 多元线性回归概念及统计描述第二节 多元线性回归假设检验第三节 多元线性回归自变量的筛选第四节 多元线性回归应用第五节 多元线性回归应注意问题第六节 实例分析 SAS 第一节 多元线性回归概念及统计描述 概念 用于分析一个连续型因变量与多个自变量之间的线性关系的统计学分析方法 例 血压值与年龄 性别 劳动强度 饮食习惯 吸烟状况 家族史糖尿病人的血糖与胰岛素 糖化血红蛋白 血清总胆固醇 甘油三脂 多元线性回归数据结构 假定对n例观察对象逐一测定了因变量Y与m个自变量X1 X2 Xm的数值 例号X1X2 XmY 1X11X12 X1mY12X21X22 X2mY23 nXn1Xn2 XnmYn 多元线性回归模型 多元线性回归数学模型 相应的由样本估计而得到的回归模型 其中 表示Y的总体平均值的估计值 b0为常数项 也称为截距 bi为Xi的偏回归系数 表示当方程中其他自变量不变时 自变量Xi变化一个计量单位 反应变量Y的总体平均值的估计值变化的单位数 标准化偏回归系数 因为各自变量都有各自的计量单位以及不同的变异度 所以不能直接用普通偏回归系数的大小来比较方程中各个自变量对反应变量Y的影响大小 需要求出标准化偏回归系数 设 与一般回归系数bi对应的标准化偏回归系数为Bi 则SXi SY分别为Xi和Y的标准差 偏回归系数的估计 最小二乘法 基本思想 利用收集到的因变量和自变量建立线性函数 使得每一个实际测量的Yi与估计的Yi之间的离差的平方和尽可能的小 只有一个自变量时 回归结果为二维平面的一条直线 而有两个自变量时 结果为三维空间的一个平面 有更多的自变量时 回归的结果则是在三维以上空间的 超平面 无法直观图形表达 只能想象 多元线性回归分析前体条件 LINE 1 linear Y与X1 X2 Xm之间具有线性关系 2 independent 各个体观测值间相互独立 3 normaldistribution 在一定范围内 对任意一组自变量X1 X2 Xm值 Y都服从正态分布 4 equalvariance 在一定范围内 不同组自变量对应的Y具有相同方差 残差分析 通过残差分析可以深入了解实际资料是否符合回归模型假设 如正态 方差齐 多元线性回归决定系数 决定系数 回归平方和 SS回 在总平方和 SS总 中比例 R2 SS回 SS总0 R2 1 R2接近1 表示样本数据很好的拟合了所用的线性回归模型 R2反映了线性回归模型能多大程度上解释Y的变异 第二节 多元线性回归假设检验 在多元线性回归模型中 由于变量众多 需要对模型的合理性以及参数的显著性进行检验 一 回归方程的假设检验 F检验 H0 1 2 p 0H1 1 2 p不全为0如果H0成立 认为回归方程不显著 如果拒绝H0 认为回归方程显著 二 回归系数的假设检验 t检验 在F检验中 如果拒绝H0假设 只能说 1 2 p不全为0 还需要进一步检查每个自变量的总体偏回归系数 H0 i 0 H1 i 0 i 1 2 p 如果H0成立 认为偏回归系数 i不显著 如果拒绝H0 认为偏回归系数 i显著 第三节 自变量的筛选 多元回归分析时收集的某些自变量对因变量无影影响或影响甚微 也不敢保证自变量之间是相互独立的 因而在建立多元线性回归方程时 需要使回归方程尽可能包含对解释因变量有较大贡献的自变量 而把贡献不大的或无贡献以及与其他自变量有密切关系的自变量排除 自变量筛选的标准和原则 1 残差平方和 SS残 缩小或决定系数 R2 增大R2 1 SS残 SS总2 残差均方 MS残 缩小或调整决定系数 R2ad 增大MS残 SS残 n p 1 3 Cp统计量减小 自变量筛选的方法 向前选择法建模时没有自变量 逐个加入自变量 并通过F检验加入自变量对模型的影响是否显著 显著则保留此变量 向后删除法建模时加入所有自变量 通过F检验 逐个剔除在当前模型中最不显著的自变量 直到模型的变量都显著为止 逐步筛选法为上述两种方法的综合 即每次首先加入一个变量 如果其对模型影响显著 则保留 然后对当前模型中的所有变量进行检查 剔除不显著的变量 直到没有显著变量加入且没有不显著变量剔除为止 最大R2改进法最小R2改进法R2选择法修正R2选择法Cp选择法 定量的建立一个反应变量和多个自变量之间的线性关系筛选危险因素通过较易测算的变量估计不易测量的变量通过反应变量控制自变量 第四节 多元线性回归应用 第五节 多元线性回归应注意问题 多重共线性除了LINE前提条件外 多元线性回归还需要注意自变量之间的关系 当自变量之间高度相关 则称自变量存在多重共线性 共线性可使回归系数极不稳定 表现为回归系数标准误很大 以至于本来非常重要的自变量无统计意义而不能进入方程 甚至使样本回归系数可大可小 可正可负 专业知识无法进行解释 最简单的处理办法就是删除变量 在相关性较强的变量中删除测量误差较大的 缺失数据多的 专业角度看不是很重要的 也可采用主成分回归法 交互效应当回归模型中有多于2个的自变量 变量之间可能存在交互作用 一自变量对应变量的作用大小与另一个自变量的取值有关 此时可建立包含各自变量及其某些有交互作用的自变量的乘积 X1X2 的回归模型 例如 A B两种药物对帕金森综合症都有作用 而且相信联合用药效果更好 为探讨联合用药可行性 进行了随机对照临床试验 最终的得到的回归方程为 49 2 5X1 1 9X2 0 2X1X2 非同质性资料合并 哑变量设置多元线性回归分析中自变量可以是连续的 年龄 血压 也可以是二分类的 性别 不能把有序变量 高 中 低 和无序多分类变量直接纳入分析 必须先将有序变量或多分类无序变量转换成多个二分类变量 再进行回归分析 通径分析当多元回归自变量较多时 相互间的关系十分复杂 有的自变量并不是直接对反应变量产生影响 而是通过对其他自变量的作用间接地影响反应变量 通径分析是一种在回归基础上的拓展 用以处理这种具有复杂变量关系的方法 例如 回归模型后 自变量X1 X2对Y贡献甚微 但从专业知识考虑X1 X2是通过X3 X4影响Y的 这时就需要通径分析 步骤 1 根据专业知识绘制变量间的通径图 2 按照通径图建立线性方程 3 将各系数添加到通径图上 4 根据通径图计算各变量对Y的直接 间接效应 第六节 实例分析 SAS 为分析各大学附近房屋价格及其相关因素 统计了近期成交房屋售价和基本情况 试用回归分析方法确定哪些因素对价格有明显影响 并建立模型 SAS分析过程 采用REG过程对数据进行多元线性回归分析 编程如下 datahouse 建立数据集house inputlandtaxratiobedroomsroomsareaprice 要输入的变量 cards procregdata house 采用reg过程进行多元回归分析 modelprice landtaxratiobedroomsroomsarea run procregdata house 采用reg过程进行多元回归分析 modelprice landtaxratiobedroomsroomsarea selection stepwise 采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论