商务数据挖掘介绍(教授制作)ln4.ppt_第1页
商务数据挖掘介绍(教授制作)ln4.ppt_第2页
商务数据挖掘介绍(教授制作)ln4.ppt_第3页
商务数据挖掘介绍(教授制作)ln4.ppt_第4页
商务数据挖掘介绍(教授制作)ln4.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归 李保坤老师西南财经大学统计学院 本节内容提要 多元线性回归模型参数估计统计推断变量选择变量转换残差分析多元回归需考虑的其它方面 多元线性回归模型 这种模型要解决的问题里通常有几个预测变量和结果变量 有关系 描述这一关系的线性模型是 多元线性回归模型 参数被称为回归系数 0代表截距 1代表在其它预测变量保持不变的情况下 x1增加1对应的 的变化量对的解释与 1类似 多元线性回归模型 当只有一个预测变量时 该数据可以用一个 维的散点图表示如果有 个预测变量和一个结果变量 就需要 维的散点图表示每一个变量代表一维 多元线性回归模型 假设条件 假设条件 i是随机误差 i独立同分布于N 0 2 参数未知这意味着相互独立服从正态分布N i 2 使用统计软件计算模型系数和统计量2 诊断是否有违反假设条件的情况发生 如果有 需要弥补这些缺陷3 察看模型统计量评价模型是否拟和得好以及是否有用4 如果模型通过评价 需要用模型对系数加以解释并产生预测值 多元线性回归的步骤 参数估计 最小二乘法 目标是最小化 解下列方程组 得到 参数估计 最小二乘法 线性模型 可以表示为 参数估计 几个平方和 误差平方和 SSE总平方和 SST回归平方和 SSR 决定系数 2 Y变化量被模型解释的百分数较高的R2意味着 变化量的大部分归因于 的变化 这是我们期望的特性在简单回归里 R2越高数据点更紧密地排列在一条直线旁边 多大的R2算高 这要具体情况具体分析回归分析者喜欢关注 但这种做法有问题 关注回归模型的 合理性 非常重要不应该只是为了得到虚高的R2而把和 不相干的 变量包括到模型里 决定系数 2 方差分析表 AVOVA 来源模型误差汇总在此 方差分析表 AVOVA F 统计量是检验以下统计假设的统计量检验统计量F是具有k和n 1自由度的F分布 F值大表明零假设是错误的判定零假设对错的标准是p值 如果p 那么H0被拒绝 是指定的一个小数值 通常是0 05或0 01 方差分析表 AVOVA 统计推断 在多元回归里 我们还可以对每一个参数 i进行假设检验 这样我们就可以决定在保持其它预测变量不变的情况下 某一个预测变量xi是否和结果变量y具有显著的因果关系 统计推断 检验以下统计假设的检验统计量是t统计量 其自由度为n k 1 变量选择 给定结果变量y x1 x2 xk 是预测变量的可能集合 为了使得预测目的有用 我们希望模型包括尽可能多的预测变量 为了精炼和节约成本 我们希望模型包括尽可能少的预测变量 变量选择 后向删除前向选择逐步选择 后向删除 使用全部 或剩下的 预测变量拟和模型查看模型中每一个预测变量和y的显著关系挑选具有最大p值的预测变量 如果p 把这个变量从模型中排除掉 返回到第一步否则 终止这一过程 前向选择 使用一个 或更多 预测变量拟和模型查看模型外的每一个预测变量和y的显著关系挑选具有最小p值的预测变量 如果p 把这个变量加入到模型中 返回到第一步否则 终止这一过程 逐步选择 使用一个 或更多 预测变量拟和模型查看模型外的每一个预测变量和y的显著关系挑选具有最小p值的预测变量 如果p 把这个变量从模型中排除掉 返回到第一步否则 终止这一过程 变量转换 结果变量y 和 或预测变量x1 x2 xk可进行转换 目的是为了得到拟和更好的模型 或因为理论上的考量 变量转换 对于只有一个简单预测变量的模型 加入一个二次项 更一般地 多项式回归模型 变量转换 倒数转换或 变量转换 对数转换最后的等式等价于 变量转换 目的是经过转换后预测变量和结果变量可得到线性模型通过转换后模型呈现线性的称为内在线性 否则称为非线性模型除非对y进行的普通的转换使得和所有x呈线性关系 通常应该是转换这些x变量 而y保持不变通常假定在最终模型形式上随机误差有可加性 稳定方差的转换 函数格式限制转换 虚拟预测变量 许多应用涉及到类别型预测变量 例如性别 季节 诊断结果 坏 一般 好 对于有序变量 例如诊断结果 可以使用打分1 2 3对于具有c个类别的名义变量 使用c 1个指示变量 这些指示变量被称为虚拟变量 例如季节 可用X1 1 如果是冬季 否则为0 X2 1 如果是春季 否则为0 X3 1 如果是夏季 否则为0 残差分析 残差的定义 关于残差的假设 2 所有观测记录都独立 残差分析 如果模型正确 残差ei应该展现出符合我们假设的趋势否则 残差可能表明有假设被违反了 残差分析 通常我们会画残差ei对每一个预测变量的散点图 我们还画ei对的散点图 对对对 违反假设的残差图案 残差的方差随水平变量的增加而增加 违反假设的残差图案 模型可能缺少一重要变量 违反假设的残差图案 模型需要一二次项 多元回归需考虑的其它方面 影响大的观测记录和域外点多重共线性缺失值 影响大的观测记录 影响大的观测记录 多重共线性 两个变量之间的精确共线性存在当一个变量的值是另一个变量值的倍数类似地 两个以上变量的精确共线性存在当一个变量可以用其它变量的线性组合构成时两个以上变量的共线性存在当其中一个变量用其余变量回归时可以得到很高的相关系数 多重共线性 多重共线性的结果是参数估计 的方差被膨胀这不是我们期望的 因为它会导致置信区间变大以至于无法解释 它还会导致检验统计量太小以至于很难正确认识该变量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论