




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第6章逐步回归分析 多元逐步回归方法的基本思路 自动地从大量的可供选择的变量中选取最重要的变量 据以建立回归分析的预测或者解释模型 变量选取的根据是自变量对因变量作用程度的大小 保留作用程度大的变量 剔除作用小的变量 是否选取一个变量 定量判据之一就是相关系数 假定有m个自变量 1个因变量 用y表示 则全部变量 包括自变量和因变量 之间的相关系数矩阵可以表作 6 1基本原理 根据相关系数定义一个自变量的 贡献 系数 按照贡献系数的大小决定一个自变量的去留 式中Pj表示第j个自变量对因变量的贡献系数 Rjy表示第j个自变量与因变量的相关系数 Rjj表示相关系数矩阵对角线上第j行第j列元素 j 1 2 m 第l步计算的贡献系数表示为 在逐步回归分析过程中 我们不仅要引入贡献最大的自变量 同时要考虑剔除贡献最小的因变量 因此 变量的存留与否又涉及到另一个统计判据 F检验 设定一个显著性水平 查F检验表 找到F检验的临界值F 在第l步计算中 假如第v个自变量的贡献系数最大 数值为 根据F检验来判断该自变量是否应该被引入模型 式中h为尚且没有被引入模型的变量序号 v为选出的变量对应的原始变量序号 v 1 2 m 计算变量引入的F值判断公式如下 式中n为样品个数 l为计算步骤数 为第v个变量第l步的贡献系数 Ryy为因变量的自相关系数 如果Fin F 则在这个显著性水平下 该变量可以被引入模型 否则不要引入 在第l步计算中 如果第v个自变量的贡献系数为 则可以根据F检验来判断该自变量 包括已经引入的变量 是否应该被剔除 计算变量剔除的F值判断公式如下 如果Fout F 则在这个显著性水平下 该变量应该被剔除 否则就要保留 在整个逐步回归计算过程中 变量的引入和剔除在两端同时进行 像这样循环往复地计算 直到所有该引入的变量都被引入 该剔除的变量均被剔除为止 6 2 1数据准备 6 2计算方法 借助一个简单的实例说明逐步回归分析的方法 问题是山东省淄博市旅游业的发展分析 我们想搞清楚哪些因素影响淄博市的旅游总收入 表6 2 1 所能考虑的因素包括 国内游客数量 海外游客数量 第三产业的发展和人均GDP数量 m 4 从1995年到2004年一共10个年份的数据 n 10 这些因素都与旅游业总收入具有明确的关系 而且 作为自变量 它们彼此之间也有很强的关系 如果将这四个变量全部引入模型 就会导致多重共线性的问题 为了得到简约 可靠的模型 需要借助逐步回归分析技术 为了更为有效地说明问题 我们对表6 2 1的变量排列顺序稍作调整 表6 2 2 利用表6 2 2的数据 容易计算相关系数 得到矩阵如下 表6 2 3 逐步回归计算就是从这种相关系数矩阵出发的 将这个矩阵记为 首先设定F统计量的临界值 取显著性水平 0 05 我们有m 4个自变量 n 10个观测值 不妨取回归自由度为4 剩余自由度为n m 1 10 4 1 5的临界值为我们引入变量的F值下限 即取Fc in 5 192 另一方面 假定一个变量被淘汰 则有m 3 我们取显著性水平 0 05 回归自由度为3 剩余自由度为n m 1 10 3 1 6的F临界值为剔除一个变量的上限 即取Fc out 4 757 这一步的计算可以分解为如下几个步骤 6 2 2第一轮计算 1 计算自变量的贡献系数 2 找出最大和最小贡献系数及其对应的变量序号 显然 等于0 98246最大 对应的变量序号v 1 因此 首先考虑引入的变量是国内游客数量x1 等于0 92574最小 对应的变量序号v 4 故这一步可以考虑将人均GDP即变量x4剔除 国内游客数量这个变量是否能被引入模型 还要进行一次F检验 对于我们的问题 n 10 现在计算第l 1步 3 计算变量引入和剔除的F统计量 根据 这个数值远远大于我们设定的临界值Fc in 5 192 因此变量x1可以被引入模型 接下来考虑排除贡献系数最小的变量 但是否排除 要视Fout值而定 根据上述计算结果 0 92574最小 由式下面公式 这个数值高于剔除变量的F临界值4 757 因此第一步不能剔除 作为对比 可以计算出所有变量的F变化值 例如 对于第二个变量 第三产业产值 变量引入和剔除的F值分别为 4 相关系数矩阵变换 将化为 假定第v个变量在第l步被引入 则相关系数矩阵的第v个元素称为主元 矩阵变换是围绕主元进行的 相关系数矩阵的变换公式如下 式中j k分别为相关系数矩阵的行列编号 根据这个公式 第一步应该改变非主元所在的行 列的元素 j v k v 第二步改变主元所在的行的元素 j v k v 第三步改变主元所在的列的元素 j v k v 第四步改变主元本身 j v k v 首先变换非主元所在的行和列的元素 我们的主元在第j 1行 第k 1列 故非主元所在的元素为1行 1列以外的元素 例如 其余计算依此类推 其次改变主元所在行的元素 我们的主元在第j 1行 故改变第1行的元素 例如 再次改变主元所在列的元素 我们的主元在第k 1列 故改变第1列的元素 例如 最后改变主元所在的元素 对于本轮计算 主元实际不变 这样 我们得到矩阵 在这个矩阵中 第1行最后一列的元素可以用于建立一元线性回归模型 如果我们只打算引入一个关系最密切的变量 则在数据标准化的情况下 可以建立如下模型 6 2 3第二轮计算 1 计算自变量的贡献系数 2 找出最大和最小贡献系数及其对应的变量序号 从上面的计算结果可以看出 不考虑已经被引入模型的第一个变量 在剩余变量中0 01305为最大 对应的变量序号v 3 因此 第二次可能引入的变量是海外游客数量x3 同时 0 00043为最小 对应的变量序号v 4 可以考虑将其剔除 3 计算变量引入和剔除的F统计量 海外游客数量能否被引入模型 依然需要借助F检验判决 现在计算第l 2步 因此应有 这个数值大于我们设定的临界值Fc in 5 192 因此变量x3可以被引入模型 当我们引入x1的时候 F值为448 035 现在引入x3 F值在原来的基础上增加了20 359 在没有被引入也没有被排除的变量中 找到最小贡献系数 考虑剔除相应的变量 但是是否剔除 依然要视Fout值而定 根据上面的计算结果 第四个变量 人均GDP 的贡献系数0 00043最小 其Fout值为 因此 这个变量可以被剔除 不再考虑它的引入 作为对比 不妨计算所有变量的F值 例如对于第二个变量 第三产业产值 我们有 为方便比较 给出全部的F变化值 以供判断之用 全部计算结果列表如下 表6 2 6 可以看出 已经引入的x1的Fout值很高 当然不能剔除 4 相关系数矩阵变换 将化为 首先变换非主元所在的行和列的元素 我们的主元在第j 3行 第k 3列 故非主元所在的元素为3行 3列以外的元素 例如 其次改变主元所在行的元素 我们的主元现在在第j 3行 故改变第3行的元素 例如 再次改变主元所在列的元素 我们的主元在第k 3列 故改变第1列的元素 例如 最后改变主元所在的元素 这样 我们得到相关矩阵 6 2 4第三轮计算 基于第二个相关系数矩阵的变换结果计算各个自变量对因变量的贡献系数 方法与前面两轮完全一样 不同的是 每一步计算都是针对新的相关系数矩阵变换结果进行的 计算的贡献系数如表6 2 8所示 这一次第二个变量 第三产业产值 的贡献系数0 00126为最大 但是 Fin值2 33927没有达到被引入的标准 而Fout值1 94939则达到被剔除的标准 如果我们继续引入新的变量 F值的变化将会很小 或者说F值的增加量很不显著 因此 可以考虑中止引入变量的计算 不再在模型中添加其他变量 至于已经引入的变量x1和x3 其Fout值都高于临界值 无需剔除 至此 整个变量引入 剔除的过程可以结束 到此为止 根据我们的选择标准 变量的引入和剔除计算过程可以结束 整个变量引入和剔除的过程可以用框图表示如下 6 2 5参数估计和模型建立 计算模型的回归系数 建立回归分析模型 前面的第一个相关系数变换矩阵最后一列给出了引入一个变量时的标准化回归系数 0 99119 这个数值就是第一个自变量与因变量的相关系数 第二个相关系数变换矩阵给出了引入两个变量时的标准化回归系数 0 63341和0 37558 二者之和接近于1 如果我们需要的仅仅是解释模型而非预测模型 则我们的建模工作可以到此为止 得到模型 如果我们需要预测模型 则需要开展计算工作 将标准化回归参数转换为非标准化的回归系数 计算过程如下 第一步 计算原始数据的协方差 第二步 计算非标准化回归系数 有了协方差矩阵 结合前面的相关系数矩阵第二步变换结果 就可以计算非标准化回归系数 注意我们的计算是从开始的 引入一个变量时 相关系数矩阵变换为 引入两个变量时 相关系数矩阵变换为 此后不再引入变量 因此 计算回归系数需要用到l 2时的相关系数矩阵变换结果 表6 2 7 非标准化回归系数计算公式为 这里b0为截距 bj为第j个回归系数 l为计算步骤的编号数 我们引入两个变量 l 2 为相关系数矩阵第l 2步变换结果的最后一列的第j个元素 对应于第j个被引入的变量 cyy为协方差矩阵对角线上的最后一个元素 右下角 cjj为协方差矩阵对角线上对应于第j个被引入变量的元素 至于未被引入的变量 回归系数以0计算 对于上述问题 我们引进了两个变量x1 国内游客数 x3 海外游客数 可见 j 1对应于国内游客数 j 3对应于海外游客数 于是可得 6 3利用消元法进行相关矩阵变换 利用Gauss消元法对增广矩阵进行消元变换 在相关系数矩阵旁边增加一个并排的 m 1 m 1 5 5单位矩阵主元在第1行第1列 且主元为1 用第1行的元素对其他行进行消元 6 4回归结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泌尿系超声介入技术
- 离婚谈判策略与子女抚养及财产分配协议
- 《涵盖房产、股权、债务处理的夫妻离婚协议》
- 离婚协议书起草与婚后财产分配法律援助合同
- 互联网企业股权转让及大数据应用合作协议
- 军人法律培训课件
- 少年追星指南课件
- 边境管理知识培训课件
- 2025年紧急医疗救援急救技术操作流程考核答案及解析
- 汽车测试技术与实验试题及答案
- 《古建筑构件制作(榫卯、斗拱)》课程标准
- (完整)中医症候积分量表
- 传统建筑的风格与特色
- 中央基建投资绩效目标表
- 电商企业海外中转仓库管理方法与经验
- 高压电气设备试验的基本知识
- 整理我的小书桌(课件)小学劳动二年级通用版
- 激光束传输与变换-第九讲课件
- 时空大数据讲义课件
- 2023年上海国企中远海运(上海)有限公司招聘笔试题库含答案解析
- 管工安全技术操作规程
评论
0/150
提交评论