多元线性回归与最小二乘估计_第1页
多元线性回归与最小二乘估计_第2页
多元线性回归与最小二乘估计_第3页
多元线性回归与最小二乘估计_第4页
多元线性回归与最小二乘估计_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归与最小二乘估计 1 假定条件 最小二乘估计量和高斯 马尔可夫定理 多元线性回归模型 yt 0 1xt1 2xt2 k 1xt k 1 ut 1 1 其中 yt是被解释变量 因变量 xt j是解释变量 自变量 ut是随机误差项 i i 0 1 k 1 是回归参数 通常未知 对经济问题的实际意义 yt与 xt j存在线性关系 xt j j 0 1 k 1 是 yt的重 要解释变量 ut代表众多影响 yt变化的微小因素 使 yt的变化偏离了 E yt 多元线性 回归与最小二乘估计 1 假定条件 最小二乘估计量和高斯 马尔可夫定理 多元线性回归模型 yt 0 1xt1 2xt2 k 1xt k 1 ut 1 1 其中 yt是被解释变量 因变量 xt j是解释变量 自变量 ut是随机误差项 i i 0 1 k 1 是回归参数 通常未知 对经济问题的实际意义 yt与 xt j存在线性关系 xt j j 0 1 k 1 是 yt的重要解 释变量 ut代表众多影响 yt变化的微小因素 使 yt的变化偏离了 E yt 0 1xt1 2xt2 k 1xt k 1决定的 k 维空间平面 当给定一个样本 yt xt1 xt2 xt k 1 t 1 2 T 时 上述模型表示为 y1 0 1x11 2x12 k 1x1 k 1 u1 经济意义 xt j是 yt的重要解释变量 y2 0 1x21 2x22 k 1x2 k 1 u2 代数意义 yt与 xt j存在线性关系 几何意义 yt表示一个多维平面 yT 0 1x T 1 2x T 2 k 1x T k 1 uT 1 2 此时 yt与 x t i已知 j与 ut未知 jk jk TTjT k TkT T k T T k xxxyu xxxyu xxxyu b b b b b b 11111 101 21221 212 11 1 11 1 1 1 1 1 3 Y X u 1 4 为保证得到最优估计量 回归模型 1 4 应满足如下假定条件 假定 随机误差项 ut是非自相关的 每一误差项都满足均值为零 方差 2相同且 为有限值 即 E u 0 Var u E 2I 2 0 0 u u 100 00 001 假定 解释变量与误差项相互独立 即 E X u 0 假定 解释变量之间线性无关 rk X X rk X k 其中 rk 表示矩阵的秩 假定 解释变量是非随机的 且当T 时 T 1X X Q 其中 Q 是一个有限值的非退化矩阵 最小二乘 OLS 法的原理是求残差 误差项的估计值 平方和最小 代数上是求极 值问题 minS Y X Y X Y Y X Y Y X X X Y Y 2 X Y X X 1 5 因为 Y X是一个标量 所以有 Y X X Y 1 5 的一阶条件为 2X Y 2X X 0 1 6 b b S 化简得 X Y X X 因为 X X 是一个非退化矩阵 见假定 所以有 X X 1 X Y 1 7 因为 1 5 的二阶条件 2 X X 0 1 8 b b b b 2S 得到满足 所以 1 7 是 1 5 的解 因为 X 的元素是非随机的 X X 1X 是一个常数矩阵 则是 Y 的线性组合 为线性 估计量 求出 估计的回归模型写为 Y X 1 9 u 其中 是 的估计值列向量 Y X 称为残差列向量 因为 0 1 k b b 1 u Y X Y X X X 1X Y I X X X 1 X Y 1 10 u 所以也是 Y 的线性组合 的期望和方差是u u E E X X 1 X Y E X X 1X X u X X 1X E u 1 11 Var E E X X 1X u u X X X 1 E X X 1X 2I X X X 1 2 X X 1 1 12 高斯 马尔可夫定理 若前述假定条件成立 OLS 估计量是最佳线性无偏估计量 具有无偏性 具有最小方差特性 具有一致性 渐近无偏性和渐近有效性 2 残差的方差 s2 T k 1 13 u u s 2是 2 的无偏估计量 E s 2 2 的估计的方差协方差矩阵是 s X X 1 1 14 Var 3 多重确定系数 多重可决系数 Y X 1 15 u Y u 总平方和 SST Y Y T 1 16 T t t yy 2 1 2 y 其中是 yt 的样本平均数 定义为 回归平方和为yy T t t y T 1 SSR T 1 17 T t t y y 2 1 Y Y 2 y 其中的定义同上 残差平方和为y SSE 1 18 T tt t yy 2 1 T t t u 2 1 u u 则有如下关系存在 SST SSR SSE 1 19 R2 1 20 2 SSRTy SST 2 Ty Y Y Y Y 显然有 0 R 2 1 R 2 1 拟合优度越好 4 调整的多重确定系数 当解释变量的个数增加时 通常 R2不下降 而是上升 为调整因自由度减小带来的损 失 又定义调整的多重确定系数如下 2 R 1 1 1 21 2 R SSE Tk TSSTSSR SST T TkSST 1 1 1 T R Tk 2 1 1 5 OLS 估计量的分布 若 u N 0 2I 则每个 ut都服从正态分布 于是有 Y N X 2I 1 22 因也是 u 的线性组合 见公式 1 7 依据 1 11 和 1 12 有 N 2 X X 1 1 23 6 方差分析与 F 检验 与 SST 相对应 自由度 T 1 也被分解为两部分 T 1 k 1 T k 1 24 回归均方定义为 MSR 误差均方定义为 MSE SSR k 1 SSE Tk 表 1 1 方差分析表 方差来源平方和自由度均方 回归 SSR T 2 Y Y y k 1MSR SSR k 1 误差SSE u u T kMSE SSE T k 总和 SST Y Y T 2 y T 1 H0 1 2 k 1 0 H1 j不全为零 F F k 1 T k 1 25 MSE MSRSSR k SSE Tk 1 设检验水平为 则检验规则是 若 F F k 1 T k 拒绝 H0 0 F k 1 T k t T k 0 t T k F 检验示意图 t 检验示意图 7 t 检验 H 0 j 0 j 1 2 k 1 H 1 j 0 t t T k j jjjj j Var s s b b b bb bb b b b 21 11 X X 1 26 判别规则 若 t t k 接受 H 0 若 t t k 拒绝 H 0 8 i的置信区间 1 全部 i的联合置信区间接受 F X X s2 F k T k 1 27 k 1 X X SST 为维持 SSE SSR SST 迫使 SSR t P t F k 1 T k 拒绝 H0 0 F k 1 T k t T k 0 t T k F 检验示意图 t 检验示意图 7 t 检验 H 0 j 0 j 1 2 k 1 H 1 j 0 t t T k 1 26 1 12 1 j jjj j j sVar s XX 判别规则 若 t t k 接受 H 0 若 t t k 拒绝 H 0 8 i的置信区间 1 全部 i的联合置信区间接受 F X X s2 F k T k 1 27 k 1 X X s2 k F k T k 它是一个 k 维椭球 1 28 2 单个 i的置信区间 i s t k 1 29 i 1 j v 9 预测 1 点预测 C 1 xT 1 1 xT 1 2 xT 1 k 1 1 30 则 T 1 期被解释变量 yT 1的点预测式是 C 0 1 xT 1 1 k 1 xT 1 k 1 1 31 1 T y 2 E yT 1 的置信区间预测 首先求点预测式 C的抽样分布 E E C C 1 32 1 T y Var Var C E C C C C 1 T y E C C C E C C Var C C 2 X X 1C 2 C X X 1C 1 33 因为服从多元正态分布 所以 C也是一个多元正态分布变量 即 C N C 2C X X 1C 1 T y 1 34 构成 t 分布统计量如下 t t T k 1 35 1 11 CXXC s yEy TT 1C XXC CC s 置信区间 C t 2 1 T k s 1 36 1C XXC 3 单个 yT 1的置信区间预测 yT 1值与点预测值有以下关系 1 T y yT 1 uT 1 1 37 1 T y 其中 uT 1是随机误差项 因为 E yT 1 E uT 1 C 1 38 1 T y Var yT 1 Var Var uT 1 2 C X X 1C 2 1 T y 2 C X X 1C 1 1 39 因为服从多元正态分布 所以 yT 1也是一个多元正态分布变量 即 yT 1 N C 2C X X 1C 1 与上相仿 单个 yT 1的置信区间是 C t 2 T k s 1 40 1 1 CXXC 计算举例 见 计量经济分析 第 19 27 页 熟悉矩阵运算 10 预测的评价指标 注意 以下 6 个公式中的 et表示的是预测误差 不是残差 可以在样本内 外预测 3 预测误差 预测误差定义为 et yt t T 1 T 2 t y 4 相对误差 PE Percentage Error PE t T 1 T 2 t tt y yy 3 误差均方根 rms error Root Mean Squared Error rms error T t tt yy T 1 2 1 4 绝对误差平均 MAE Mean Absolute Error MAE T t tt yy T 1 1 5 相对误差绝对值平均 MAPE Mean Absolute Percentage Error MAPE T t t tt y yy T 1 1 6 Theil 系数 Theil Coefficent Theil t 1 2 T T t t T t t T t tt y T y T yy T 1 2 1 2 1 2 1 1 1 以上 6 个式子中 表示预测值 yt表示实际值 Theil 的取值范围是 0 1 显然在 t y 预测区间内 当与 yt完全相等时 Theil 0 当预测结果最差时 Theil 1 公式中的累 t y 加范围是用 1 至 T 表示的 当然也可以用于样本外预测评价 11 建模过程中应注意的问题 0 5000 10000 15000 20000 25000 30000 80818283848586878889909192 GDPGDP f 1 研究经济变量之间的关系要剔除物价变动因素 以上图为例 按当年价格计算 我 国 1992 年的 GDP 是 1980 年的 5 9 倍 而按固定价格计算 我国 1992 年的 GDP 是 1980 年的 2 8 倍 另外从图中还可看出 1980 1992 期间按名义价格计算的 GDP 曲线一直是上 升的 而按不变价格 1980 年价格 计算的 GDP 曲线在 1989 年出现一次下降 可见研究 经济变量应该剔除物价变动因素 2 依照经济理论以及对具体经济问题的深入分析初步确定解释变量 例 我国粮食产量 f 耕地面积 农机总动力 施用化肥量 农业人口等 但根据 我国目前情况 耕地面积 不是 粮食产量 的重要解释变量 粮食产量的提高主要来自 科技含量的提高 例 关于某市的食用油消费量 文革前常驻人口肯定是重要解释变量 现在则不同 消费水平是重要解释变量 因为食用油供应方式已改变 3 当引用现成数据时 要注意数据的定义是否与所选定的变量定义相符 例 农业人口 要区别是 从事农业劳动的人口 还是相对于城市人口的 农业人 口 例 2002 年起我国将执行新的规定划分三次产业 即将农 林 牧 副 渔服务业从 原第三产业划归第一产业 4 通过散点图 相关系数 确定解释变量与被解释变量的具体函数关系 线性 非 线性 无关系 nonli8 5 谨慎对待异常值 不能把建立模型简单化为一个纯数学过程 目的是寻找经济规律 年INV 投资 IMPORT 进口 19912 23 47000 19922 32 29000 19936 63 99000 199415 3760078 75000 199521 31000149 1300 199627 37000113 8100 199741 71000106 1500 199839 78000112 2000 6 过原点回归模型与非过原点回归模型相比有如下不同点 以一元线性过原点模型 yt 1 xt ut 为例 0 不一定成立 原因是正规方程只有一个 不是两个 t u 2 yt xt xt 0 1 2 t u 1 即 xt 0 而没有 0 所以残差和等于零不一定成立 可决系数 R 2有时会得 t u t u 负值 原因是有时会有 SSE SST 为维持 SSE SSR SST 迫使 SSR t P t t t T k 0 t T k F k 1 T k 10 对于多元回归模型 当解释变量的量纲不相同时 不能在估计的回归系数之间比 较大小 若要在多元回归模型中比较解释变量的相对重要性 应该对回归系数作如下变换 j 1 2 k 1 1 41 j j t tj ys xs 其中 s xt 和 s yt 分别表示 xt 和 yt的样本标准差 可用来直接比较大小 j 以二元模型为例 标准化的回归模型表示如下 标准化后不存在截距项 1 2 ut t t ys yy 1 11 t t xs xx 2 22 t t xs xx 两侧同乘 s yt 得 yt 1 xt1 2 xt2 ut s yt y 1 t t xs ys 1 x 2t t xs ys 2 x 所以有 j j 即 j j i 1 2 k 1 tj t xs ys t tj ys xs 既是 1 41 式 11 利用回归模型预测时 解释变量的值最好不要离开样本范围太远 原因是 根 据预测公式离样本平均值越远 预测误差越大 有时 样本以外变量的关系不清楚 当 样本外变量的关系与样本内变量的关系完全不同时 在样本外预测就会发生错误 图 3 10 给出青铜硬度与锡含量的关系曲线 若以锡含量为 0 16 为样本 求得的关系近似是线性 的 当把预测点选在锡含量为 16 之外时 显然这种预测会发生严重错误 因为锡含量超 过 16 之后 青铜的硬度急剧下降 不再遵从锡含量为 0 16 时的关系 青铜硬度 16 锡含量 图 3 9 yt的区间预测的变化 图 3 10 青铜硬度与锡含量的关系 4 6 8 10 12 556065707580859095 LOG TRADE 12 回归模型的估计结果应与经济理论或常识相一致 如边际消费倾向估计结果为 1 5 则模型很难被接受 13 残差项应非自相关 用 DW 检验 亦可判断虚假回归 否则说明 仍有重要解 释变量被遗漏在模型之外 选用的模型形式不妥 14 通过对变量取对数消除异方差 15 避免多重共线性 16 解释变量应具有外生性 与误差项不相关 17 应具有高度概括性 若模型的各种检验及预测能力大致相同 应选择解释变量较 少的一个 18 模型的结构稳定性要强 超样本特性要好 19 世界是变化的 应该随时间的推移及时修改模型 建模案例 1 全国味精需求量的计量经济模型 见 预测 1987 年第 2 期 1 依据经济理论选择影响味精需求量变化的因素 依据经济理论一种商品的需求量主要取决于四个因素 即 商品价格 代用品价格 消费者收入水平 消费者偏好 模型为 商品需求量 f 商品价格 代用品价格 收入水平 消费者偏好 对于特定商品味精 当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别 商品价格 味精是一种生活常用品 当时又是一种价格较高的调味品 初步判断价格 会对需求量产生影响 所以确定价格作为一个重要解释变量 代用品价格 味精是一种独特的调味品 目前尚没有替代商品 所以不考虑代用品价 格这一因素 消费者收入 显然消费者收入应该是一个较重要的解释变量 偏好 由于因偏好不食味精或大量食用味精的情形很少见 所以每人用量只会在小范 围内波动 所以不把偏好作为重要解释变量 而归并入随机误差项 分析结果 针对味精需求量只考虑两个重要解释变量 商品价格和消费者收入水平 味精需求量 f 商品价格 收入水平 2 选择恰当的变量 既要考虑代表性 也要考虑可能性 用销售量代替需求量 因需求量不易度量 味精是自由销售商品 不存在囤积现象 所以销售量可较好地代表需求量 味精商品价格即销售价格 用人均消费水平代替收入水平 因为 消费水平与味精销售量关系更密切 消费水 平数据在统计年鉴上便于查找 收入水平的资料不全 味精销售量 f 销售价格 人均消费水平 用平均价格作为销售价格的代表变量 不同地区和不同品牌的味精价格是不一样的 应取平均价格 加权平均最好 取不变价格的人均消费水平 消费水平都是用当年价格计算的 应用物价指数进行修 正 味精销售量 f 平均销售价格 不变价格的消费水平 3 收集样本数据 抽样调查 引用数据 从中国统计年鉴和有关部门收集样本数据 1972 1982 T 11 定义销售量为 yt 吨 平均销售价格为 x1t 元 公斤 不变价格的消费水平为 x2t 元 相关系数表如下 平均销售价格 x1t 不变价格的消费水平 x2t 味精销售量 yt 0 36710 9771 注 临界值 r0 05 9 0 60 0 10000 20000 30000 40000 50000 60000 11 011 211 411 611 812 012 2 X1 Y 0 10000 20000 30000 40000 50000 60000 100120140160180 X2 Y 4 确定模型形式并估计参数 9 6313 4 x1t 690 4 x2t 1 t y 3 92 2 17 15 32 R2 0 97 DW 1 8 t0 05 8 2 3 回归系数 6313 4 无显著性 x1t与 x2t应该是负相关 回归系数估计值却为正 可见该估计 值不可信 剔除不显著变量 x1t 再次回归 65373 6 642 4 x2t 2 t y 10 32 13 8 R2 0 95 DW 1 5 t0 05 9 2 26 问题 6313 4 为什么检验结果是 1 0 量纲的变化对回归结果会造成影响吗 1 建模案例 2 用回归方法估计纯耕地面积 见 数理统计与管理 1986 年第 6 期 目前对土地的调查大多采用航空摄影 从照片上把各类资源图斑转绘到 1 10000 的地 形图上 然后再从地形图上测绘图斑面积 在处理如何获得实际耕地面积时 关键技术难题是如何将耕地图斑中包含的田埂 土 坎 空隙地 宽度小于 2 米的路 沟 渠等面积从图斑中分离出来 因为它们在航空图片 上的分辨率很低 无法直接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论