多元线性回归实例分析_第1页
多元线性回归实例分析_第2页
多元线性回归实例分析_第3页
多元线性回归实例分析_第4页
多元线性回归实例分析_第5页
免费预览已结束,剩余12页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS 回归 多元线性回归模型案例解析 一 多元线性回归 主要是研究一个因变量与多个自变量之间的相关关系 跟一元回归原理 差不多 区别在于影响因素 自变量 更多些而已 例如 一元线性回归方程 为 毫无疑问 多元线性回归方程应该为 上图中的 x1 x2 xp 分别代表 自变量 Xp 截止 代表有 P 个自变量 如果有 N 组样本 那么这个多元线性回归 将会组成一个矩阵 如下图所示 那么 多元线性回归方程矩阵形式为 其中 代表随机误差 其中随机误差分为 可解释的误差 和 不可解释的误差 随机误差必须满足以下四个条件 多元线性方程才有意义 一元线性方程也一样 1 服成正太分布 即指 随机误差必须是服成正太分别的随机变量 2 无偏性假设 即指 期望值为 0 3 同共方差性假设 即指 所有的 随机误差变量方差都相等 4 独立性假设 即指 所有的随机误差变量都相互独立 可以用协方差解释 今天跟大家一起讨论一下 SPSS 多元线性回归的具体操作过程 下面以教程教程数据 为例 分析汽车特征与汽车销售量之间的关系 通过分析汽车特征跟汽车销售量的关系 建立拟合多元线性回归模型 数据如下图所示 点击 分析 回归 线性 进入如下图所示的界面 将 销售量 作为 因变量 拖入因变量框内 将 车长 车宽 耗油率 车净重等 10 个自变 量 拖入自变量框内 如上图所示 在 方法 旁边 选择 逐步 当然 你也可以选择其它 的方式 如果你选择 进入 默认的方式 在分析结果中 将会得到如下图所示的结果 所有的自变量 都会强行进入 如果你选择 逐步 这个方法 将会得到如下图所示的结果 将会根据预先设定的 F 统计 量的概率值进行筛选 最先进入回归方程的 自变量 应该是跟 因变量 关系最为密切 贡 献最大的 如下图可以看出 车的价格和车轴 跟因变量关系最为密切 符合判断条件的概 率值必须小于 0 05 当概率值大于等于 0 1 时将会被剔除 选择变量 E 框内 我并没有输入数据 如果你需要对某个 自变量 进行条件筛选 可以 将那个自变量 移入 选择变量框 内 有一个前提就是 该变量从未在另一个目标列表中 出现 再点击 规则 设定相应的 筛选条件 即可 如下图所示 点击 统计量 弹出如下所示的框 如下所示 在 回归系数 下面勾选 估计 在右侧勾选 模型拟合度 和 共线性诊断 两个选项 再勾 选 个案诊断 再点击 离群值 一般默认值为 3 设定异常值的依据 只有当残差超过 3 倍标准差的观测才会被当做异常值 点击继续 提示 共线性检验 如果有两个或两个以上的自变量之间存在线性相关关系 就会产生多重共线 性现象 这时候 用最小二乘法估计的模型参数就会不稳定 回归系数的估计值很容易引 起误导或者导致错误的结论 所以 需要勾选 共线性诊断 来做判断 通过容许度可以计算共线性的存在与否 容许度 TOL 1 RI 平方 或方差膨胀因子 VIF VIF 1 1 RI 平方 其中 RI 平方是用其他自变量预测第 I 个变量的复相关系数 显然 VIF 为 TOL 的倒数 TOL 的值越小 VIF 的值越大 自变量 XI 与其他自变量之间存在共线 性的可能性越大 提供三种处理方法 1 从有共线性问题的变量里删除不重要的变量 2 增加样本量或重新抽取样本 3 采用其他方法拟合模型 如领回归法 逐步回归法 主成分分析法 再点击 绘制 选项 如下所示 上图中 DEPENDENT 因变量 ZPRED 标准化预测值 ZRESID 标准化残差 DRESID 剔除 残差 ADJPRED 修正后预测值 SRSID 学生化残差 SDRESID 学生化剔除残差 一般我们大部分以 自变量 作为 X 轴 用 残差 作为 Y 轴 但是 也不要忽略特殊情况 这里我们以 ZPRED 标准化预测值 作为 x 轴 分别用 SDRESID 血生化剔除残差 和 ZRESID 标准化残差 作为 Y 轴 分别作为两组绘图变量 再点击 保存 按钮 进入如下界面 如上图所示 勾选 距离 下面的 cook 距离 选项 cook 距离 主要是指 把一个个案从 计算回归系数的样本中剔除时所引起的残差大小 cook 距离越大 表明该个案对回归系数 的影响也越大 在 预测区间 勾选 均值 和 单值 点击 继续 按钮 再点击 确定按钮 得到如下所示的分 析结果 此分析结果 采用的是 逐步法 得到的结果 SPSS 回归 多元线性回归结果分析 二 最近一直很忙 公司的潮起潮落 就好比人生的跌岩起伏 眼看着一步步走向衰弱 却 无能为力 也许要学习 步步惊心 里面 四阿哥 的座右铭 行到水穷处 坐看云起时 接着上一期的 多元线性回归解析 里面的内容 上一次 没有写结果分析 这次补上 结果分析如下所示 结果分析 1 由于开始选择的是 逐步 法 逐步法是 向前 和 向后 的结合体 从结果可以看出 最先进 入 线性回归模型 的是 price in thousands 建立了模型 1 紧随其后的是 Wheelbase 建立了模型 2 所以 模型中有此方法有个概率值 当小于等于 0 05 时 进入 线性回归 模型 最先进入模型的 相关性最强 关系最为密切 当大于等 0 1 时 从 线性模型中 剔除 结果分析 1 从 模型汇总 中可以看出 有两个模型 模型 1 和模型 2 从 R2 拟合优度来看 模 型 2 的拟合优度明显比模型 1 要好一些 0 422 0 300 2 从 Anova 表中 可以看出 模型 2 中的 回归平方和 为 115 311 残差平方和 为 153 072 由于总平方和 回归平方和 残差平方和 由于残差平方和 即指随即误差 不可 解释的误差 由于 回归平方和 跟 残差平方和 几乎接近 所有 此线性回归模型只解释 了总平方和的一半 3 根据后面的 F 统计量 的概率值为 0 00 由于 0 000 1 所以常数项不具备显著性 所以 我们再看后面 的 标准系数 在标准系数一列中 可以看到 常数项 没有数值 已经被剔除 所以 标准化的回归方程为 销售量 0 59 价格 0 356 轴距 2 再看最后一列 共线性统计量 其中 价格 和 轴距 两个容差和 vif 都一样 而且 VIF 都为 1 012 且都小于 5 所以两个自变量之间没有出现共线性 容忍度和 膨胀因子是互为倒数关系 容忍度越小 膨胀因子越大 发生共线性的可能性也越大 从 共线性诊断 表中可以看出 1 共线性诊断采用的是 特征值 的方式 特征值主要用来刻画自变量的方差 诊断自变量 间是否存在较强多重共线性的另一种方法是利用主成分分析法 基本思想是 如果自变量 间确实存在较强的相关关系 那么它们之间必然存在信息重叠 于是就可以从这些自变量 中提取出既能反应自变量信息 方差 而且有相互独立的因素 成分 来 该方法主要 从自变量间的相关系数矩阵出发 计算相关系数矩阵的特征值 得到相应的若干成分 从上图可以看出 从自变量相关系数矩阵出发 计算得到了三个特征值 模型 2 中 最 大特征值为 2 847 最小特征值为 0 003 条件索引 最大特征值 相对特征值 再进行开方 即特征值 2 的 条件索引为 2 847 0 150 再开方 4 351 标准化后 方差为 1 每一个特征值都能够刻画某自变量的一定比例 所有的特征值能将 刻画某自变量信息的全部 于是 我们可以得到以下结论 1 价格在方差标准化后 第一个特征值解释了其方差的 0 02 第二个特征值解释了 0 97 第三个特征值解释了 0 00 2 轴距在方差标准化后 第一个特征值解释了其方差的 0 00 第二个特征值解释了 0 01 第三个特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论