计量经济学第三章多元线性回归与最小二乘估计_第1页
计量经济学第三章多元线性回归与最小二乘估计_第2页
计量经济学第三章多元线性回归与最小二乘估计_第3页
计量经济学第三章多元线性回归与最小二乘估计_第4页
计量经济学第三章多元线性回归与最小二乘估计_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 多元线性回归与最小二乘估计3.1 假定条件、最小二乘估计量和高斯马尔可夫定理1、多元线性回归模型:y t = 0 +1x t 1 + 2x t 2 + k - 1x t k -1 + u t (3.1 其中 y t 是被解释变量(因变量 , x t j是解释变量(自变量 , u t 是随机误差项, i , i = 0, 1, , k - 1是回归参数(通常未知 。对经济问题的实际意义:y t 与 x t j存在线性关系, x t j, j = 0, 1, , k - 1, 是 y t 的重要 解释变量。 u t 代表众多影响 y t 变化的微小因素。 使 y t 的变化偏离了 E( y

2、 t = 0 +1x t 1 + 2x t 2 + k - 1x t k -1 决定的 k 维空间平面。当给定一个样本(y t , x t 1, x t 2 , x t k -1 , t = 1, 2, , T 时 , 上述模型表示为 y 1 = 0 +1x 11 + 2x 12 + k - 1x 1 k -1 + u 1,y 2 = 0 +1x 21 + 2x 22 + k - 1x 2 k -1 + u 2, (3.2 .y T = 0 +1x T 1 + 2x T 2 + k - 1x T k -1 + u T经济意义:x t j是 y t 的重要解释变量。 代数意义:y t 与 x t

3、 j存在线性关系。 几何意义:y t 表示一个多维平面。 此时 y t 与 x t i已知, j 与 u t 未知。1(21 1(110 (111222111111 1(21111-+=T T k k k T k T TjT k j k j T T u u u x x x x x x x x x y y y (3.3 Y = X + u (3.42假定条件为保证得到最优估计量,回归模型(3.4应满足如下假定条件。假定 随机误差项 u t 是非自相关的, 每一误差项都满足均值为零,方差 2相同 且为有限值,即E(u = 0 = 00 , Var (u = E(u u = 2I = 2100000

4、01 假定 解释变量与误差项相互独立,即 E(X u = 0假定 解释变量之间线性无关。 rk(X X = rk(X = k 其中 rk ( 表示矩阵的秩。假定 解释变量是非随机的,且当 T 时T 1X X Q其中 Q 是一个有限值的非退化矩阵。3 最小二乘估计最小二乘 (OLS 法的原理是求残差(误差项的估计值平方和最小。代数上是求 极值问题。min S = (Y - X (Y - X = Y Y - X Y - Y X + X X = Y Y - 2 X Y + X X (3.5 因为 Y X 是一个标量,所以有 Y X = X Y 。 (1.5 的一阶条件为:S= - 2X Y + 2X

5、 X = 0 (3.6 化简得X Y = X X 因为 (X X 是一个非退化矩阵(见假定 ,所以有= (X X -1 X Y (3.7因为 X 的元素是非随机的, (X X -1X 是一个常数矩阵,则 是 Y 的线性组合,为线 性估计量。求出 ,估计的回归模型写为Y = X +u (3.9 其中 = (0 1 1-k 是 的估计值列向量, u = (Y - X 称为残差列向量。 因为 u= Y - X = Y - X (X X -1X Y = I - X (X X -1 X Y (3.10 所以 u 也是 Y 的线性组合。 的期望和方差是E( = E(X X -1 X Y = E(X X -

6、1X (X + u = + (X X -1X E(u = (3.11由于:11111( ( ( ( ( ( X X X Y X X X X u X X X X X X X u X X X u-=+=+=+Var( = E( ( = E(X X -1X u u X (X X -1= E(X X -1X 2I X (X X -1 = 2 (X X -1 (3.12 例:3.1(P113略4高斯马尔可夫定理:高斯马尔可夫定理:若前述假定条件成立, OLS 估计量是 最佳线性无偏估计量 。 具有无偏性。 具有最小方差特性。 具有一致性,渐近无偏性和渐近有效性。3.2 残差的方差22tt te e e

7、T kT k=- (3.13 2是 2 的无偏估计量, E(2 = 2。 证明过程如下:11( ( e Y Y Y X Y X X X X Y I X X X X Y -=-=-=-=-记:1( I X X X X -=P容易证明:P 为对等幂矩阵,即 P=P, P 2=P11( ( ( e I X X X X Y I X X X X X u Pu -=-=-+=222var( ( e E ee E Pu Pu E P uu P PE uu P P I P PP P =利用矩阵迹的性质,有:2(tee e tr ee =22212122( ( ( ( ( ( t t t k E e E e e

8、 E tr ee tr E e e tr P tr I X X X X trI trX X X X T trI T k -=-=-=-=-的估计的方差协方差矩阵是 Var ( = 2(X X -1 (3.14 i 的置信区间(1 全部 i 的联合置信区间接受F =k1( - (X X ( - / s 2 F (k , T -k (3.15 ( - (X X ( - s 2 k F (k , T -k ,它是一个 k 维椭球。 (3.16(2 单个 i 的置信区间t = ( j j js -=(j j j j-=- t (T -k i = i t /2(T-k . (3.17 OLS 估计量的分

9、布若 u N (0, 2I ,则每个 u t 都服从正态分布。于是有Y N (X , 2I (3.18因 也是 u 的线性组合(见公式 1.7 ,依据(3.11和(3.12有 N ( , 2(X X -1 (3.19 3.3多元回归模型的检验1. 多重确定系数(多重可决系数Y = X +u=Y +u (3.20 总平方和SST =-T t t y 12 (=+-Tt T t T t t t y y 121122=21122T y y Tt Tt t t +-= Y Y - T 2, (3.21其中 是 y t 的样本平均数,定义为 = T y Tt t / (1=。同理,回归平方和为SSR =

10、-Tt t y12 (= Y Y - T 2 (3.22 其中 的定义同上。残差平方和为SSE =-Tt t t y y 12 (=Tt t u12= u u (3.23 则有如下关系存在,SST = SSR + SSE (3.24R 2=22T T SST SSR -Y Y Y Y-=(3.25显然有 0 R 2 1。 R 2 1,拟合优度越好。 2. 调整的多重确定系数当解释变量的个数增加时, 通常 R 2不下降, 而是上升。 为调整因自由度减小带来的损失(增加方差的无偏估计量 22tt te e e T kT k=-,会系数的置信区间及预测精度降低 , 又定义调整的多重确定系数 2如下:

11、2= 1 -(1(1 1/( /(SSTSSRSST k T T T SST k T SSE -=-= 1 -1(12R kT T - (3.26 对于包含解释变量个数不同的模型,就用调整后的确定系数。3 方差分析与 F 检验与 SST 相对应,自由度 T -1也被分解为两部分,(T -1 = (k -1 + (T - k (3.27 回归均方差定义为 MSR =1-k SSR ,误差均方差定义为 MSE = kT SSE- 表 1.1 方差分析表方差来源 平方和 自由度 均方 回归 SSE =Y Y -T 2 k -1 MSE = SSE / (k -1 误差SSR = u u T -kMS

12、R = SSR / (T -k 总和SST = Y Y - T 2T -1H 0: 1= 2 = = k -1 = 0; H 1: j 不全为零F =MSE MSR= /(1 /( SSE k SSR T k - F (k -1, T -k (3.28设检验水平为 ,则检验规则是,若 F F (k -1, T -k ,接受 H 0;若 F F (k -1, T -k , 拒绝 H 0。 图 3.1 F 检验示意图 图 3.2 t 检验示意图4. t 检验H 0:j = 0, (j = 1, 2, , k -1, H 1:j 0 t = (jj s = t (T -k (3.29 判别规则:若

13、t t (T-k 接受 H 0;若 t t (T-k 拒绝 H 0。5、模型结构的稳定性检验:Chow 检验对于多元回归模型:y t = 0 +1x t 1 + 2x t 2 + k - 1x t k -1 + u t我们可以得到一组大样本,这组大样本 C1-Cn ,可能由于某一原因(时间序列的政 策原因、战争;截面数据如不同地区等 ,分为两组小样本:C1-Ci , Ci-Cn ,对于这两 组小样本,模型结构是否相同,有待检验。方步骤如下:1 、利用大样本对模型回归,得残差平方和:2t e 2利用两组小样本对模型分别进行回归,得残差平方和:21t e 、 22t e 。3构造统计量:(2221

14、212221212/(, 2 /(2 t t t t t e e e kF F k n n k e e n n k -+=+-+- 4给定显著性水平 ,检 F 分布表,得临界值 12(, 2 f k n n k +-5判断:若 F 大于 12(, 2 f k n n k +-,认为方程存在显著差异,即两个样本反映的 两个经济关系显著不同,说模型结构发生了变化;反之,模型结构比较稳定。例 3.3(P129略。3.4多元回归方程预测1、点预测因为 ( f E y= E(0 +1 xf 1 + + k -1 xf k -1= E(y f 所以 f y是 E (y f 的元偏估计值,可以作为 y f

15、和 E (y f 的估计值。 C = (1 x T +1 1 x T +1 2 x T +1 k -1 (3.30 则 T + 1期被解释变量 y T +1的点预测式是,1+T y= C =0 +1 xT +1 1 + + k -1 xT +1 k -1 (3.31 2、 E (y T +1 的置信区间预测 首先求点预测式 C 的抽样分布E (1+T y= E (C = C (3.32 Var (1+T y= Var(C = E(C - C (C - C = EC (- C (- = C E(- (- C = C Var ( C = C 2 (X X -1C = 2 C (X X -1C ,

16、(3.33因为 服从多元正态分布,所以 C 也是一个多元正态分布变量,即1+T y= C N (C , 2C (X X -1C (3.34 构成 t 分布统计量如下t = ( (111C X X C -+-s y E yT T = (1C X X C C C -s t (T -k (3.35置信区间 C t /2 (1, T -k s (1C X X C - (3.36 3、单个 y T +1的置信区间预测y T +1值与点预测值 1+T y有以下关系 y T +1 = 1+T y+ u T +1 (3.37 其中 u T +1是随机误差项。因为E( y T +1 = E(1+T y+ u T

17、 +1 = C (3.38 Var( y T +1 = Var(1+T y+ Var(u T +1 = 2 C (X X -1C + 2 = 2 (C (X X -1C + 1 (3.39 因为 服从多元正态分布,所以 y T +1也是一个多元正态分布变量,即y T +1 N (C , 2C (X X -1C + 1与上相仿,单个 y T +1的置信区间是C t /2 (T -k s 1 (1+-C X X C (3.40 4、预测的评价指标注意, 以下 6个公式中的 e t 表示的是预测误差, 不是残差。 可以在样本内、 外预测。 (1 预测误差。预测误差定义为e t = t y- y t

18、, t = T +1, T +2, 是对单点预测误差大小的测量。(2 相对误差 PE (Percentage Error。 PE =tt t y y y-, t = T +1, T +2, 是对单点预测相对误差大小的测量。(3 误差均方根 rms error (Root Mean Squared Error rms error =-Tt t ty yT 12 (1通过若干个预测值对预测效果进行综合评价。(4 绝对误差平均 MAE (Mean Absolute Error MAE =-Tt t t y yT11通过若干个预测值对预测的绝对误差进行综合评价。(5 相对误差绝对值平均 MAPE (M

19、ean Absolute Percentage Error MAPE =-Tt tt t y y y T11综合运用以上 4种方法,通过若干个预测值对预测的相对误差进行综合评价。以上 5个式子中, t y表示预测值, y t 表示实际值。公式中的累加范围是用 1至 T 表 示的,当然也可以用于样本外预测评价。 0.00.51.01.52.02.53.0123456789101112131415Y F?2 S.E.图 3 EViews 只给出样本内预测评价(前三个指标对应于公式 3, 4, 5 Theil 不等系数的范围是 0, 13.5 建模过程与应注意的问题05000100001500020

20、000250003000080818283848586878889909192GDPGDP(f图 3.41、多元线性回归模型的计算过程 1根据样本写出如下矩阵:12(1 T T y y Y y = 111112122111(111jk j k T Tj T k T k x x x x x x X x x x -=2计算 X X 、 1( X X -、 X Y3计算参数向量 B 的最小二乘估计 B:1( B X X X Y -= 4计算应变量向量 Y 的拟合值:YXB =5计算残差的估计值:22t t t e e e T k T k = -6计算多重决定系数及修正后的决定系数。7计算参数的标准差

21、。8计算统计量 t 与 F 的值,作参数及回归方程显著性检验。9若模型未通过检验,则重新建立模型并重复上述过程;若通过检验,且满足模型 的古典假定,则可用模型进行结构分析或经济预测等实际应用。2、建立模型应注意的问题(1研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算, 我国 1992年的 GDP 是 1980年的 5.9倍,而按固定价格计算,我国 1992年的 GDP 是 1980年的 2.8倍。 另外从图中还可看出, 1980-1992期间按名义价格计算的 GDP 曲线一 直是上升的,而按不变价格(1980年价格计算的 GDP 曲线在 1989年出现一次下降。 可见研究

22、经济变量应该剔除物价变动因素。 (1988、 1989年居民消费价格指数分别为 18.8%、 18%。 (2 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量 = f(耕地面积、农机总动力、施用化肥量、农业人口等 。但根据 我国目前情况, “耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要 来自科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同, 消费水平是重要解释变量,因为食用油供应方式已改变。(3 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于

23、城市人口的“农 业人口” 。例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务 业从原第三产业划归第一产业。(4 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。 (线性、非 线性、无关系 图 3.5(nonli8, 1982-1998(5谨慎对待离群值(outlier 。离群值可能是正常值也可能是异常值。不能把建立 模型简单化为一个纯数学过程,目的是寻找经济规律。 (欧盟对华投资和中国从欧盟进 口年 INV (投资 IMPORT (进口 1991 2.562000 23.47000 1992 2.429700 32.29000 1993 6.712400

24、 63.99000 1994 15.37600 78.75000 1995 21.31000 149.1300 1996 27.37000 113.8100 1997 41.71000 106.1500 199839.78000112.20001020304050607880828486889092949698000204LABOR图 3.6 把 5.1282错输入为 51.28。(6 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模 型, y t = 1 x t + u t ,为例,正规方程只有一个(不是两个 ,12(tu = 2 (y t -1x t (- x t =

25、0即 t ux t = 0,而没有 t u = 0,即残差和等于零不一定成立。 可决系数 R 2有时会得负值!原因是有时会有 SSESST。为维持 SSE+SSR=SST, 迫使 SSR t = , P ( t t = 图 3.7 图 3.8(10 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比 较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变 换j * =j(t tj y s x s , j = 1, 2, , k -1 (3.41 其中 s (x t 和 s (y t 分别表示 x t 和 y t 的样本标准差。 j*可用来直接比较大小。

26、 以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项 ,(t t y s y -= 1* (111t t x s x -+ 2*(222t t x s x -+ + u t两侧同乘 s (y t ,得(y t - = 1*( (1t t x s y s (x t 1 -1 + 2*(2t t x s y s (x t 2 -2 + + u t s (y t 因为均值点必在回归直线上,去掉上式中由均值点构成的方程,则必有y t = 1*( (1t t x s y s x t 1 + 2*( (2t t x s y s x t 2 + + u t s (y t 所以有j *(tj t

27、x s y s = j , i = 1, 2, k -1, 即 j * = j( (t tj y s x s , i = 1, 2, k -1既是 (1.41 式。(11 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。 原因是:根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;F y N (0 + 1 xF , 2(1+T 1+-22 ( (x x t F 从公式看,当 x F =时, F y的分布方差最小,即预测区间最小,预测精度最高。而预测 点 x F 越远离 , F y的分布方差越大,即预测区间越大,预测精度越差。 有时,样本以外变量的关系不清楚。当样本外变量的

28、关系与样本内变量的关系完 全不同时,在样本外预测就会发生错误。图 3.10给出青铜硬度与锡含量的关系曲线。 若以锡含量为 0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为 16%之外时,显然这种预测会发生严重错误。因为锡含量超过 16%之后,青铜的硬度急剧下 降,不再遵从锡含量为 0-16%时的关系。 图 3.9 y t 的区间预测的变化 图 3.10 青铜硬度与锡含量的关系 4681012LOG(TRADE(12 回归模型的估计结果应与经济理论或常识相一致。 如边际消费倾向估计结果为 1.5,则模型很难被接受。 (产出对劳动力的弹性为负值! (13 残差项应非自相关 (用 D

29、W 检验, 亦可判断虚假回归 。 否则说明仍有重要解 释变量被遗漏在模型之外。选用的模型形式不妥。(14 通过对变量取对数消除异方差。 (15 避免多重共线性。(16 解释变量应具有外生性,与误差项不相关。(17 应具有高度概括性。 若模型的各种检验及预测能力大致相同, 应选择解释变量 较少的一个。(18 模型的结构稳定性要强,超样本特性要好。 (19 世界是变化的,应该随时间的推移及时修改模型。建模案例 1:全国味精需求量的计量经济模型 (file:1c021. 依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价 格,消费者收入水平,

30、消费者偏好。模型为:商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好 对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。 商品价格 :味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价 格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格 :味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品 价格这一因素。消费者收入 :显然消费者收入应该是一个较重要的解释变量。偏好 :由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小 范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果, 针对味精

31、需求量只考虑两个重要解释变量, 商品价格和消费者收入水平。 味精需求量 = f (商品价格,收入水平 2. 选择恰当的变量(既要考虑代表性,也要考虑可能性用 销售量代替需求量 。 因需求量不易度量, 味精是自由销售商品, 不存在囤积现象, 所以销售量可较好地代表需求量。 味精商品价格即销售价格 。用 人均消费水平代替收入水平 。因为消费水平与味精销售量关系更密切。消费 水平数据在统计年鉴上便于查找(收入水平的资料不全 。味精销售量 = f (销售价格,人均消费水 平 用 平均价格作为销售价格的代表变量 。 不同地区和不同品牌的味精价格是不一样的, 应取平均价格(加权平均最好 。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行 修正。味精销售量 = f (平均销售价格,不变价格的消费水平 3. 收集样本数据(抽样调查,引用数据从中国统计年鉴和有关部门收集样本数据 (1972-1982, T = 11。数据见下页。 。定 义销售量为 y t (吨 , 平均销售价格为 x 1(元 / 公斤 , 不变价格的消费水平为 x 2(元 。 相关系数表如下:平均销售价格 (x 1t 不变价格的消费水平 (x 2t 味精销售量 (y t -0.3671 0.9771注:临界值 r 0.05 (9 = 0.60。4 确定模型形式并估计参数 y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论