03多元线性回归模型_第1页
03多元线性回归模型_第2页
03多元线性回归模型_第3页
03多元线性回归模型_第4页
03多元线性回归模型_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实用标准文案1.3 多元线性回归与最小二乘估计1 假定条件、最小二乘估计量和高斯一马尔可夫定理 多元线性回归模型:(1.1)yt =0 + ixti +2为2 + + k- ixt k-i + u.其中yt是被解释变量(因变量),xtj是解释变量(自变量),ut是随机误差项,i, i = 0, 1,, k - 1是回归参数(通常未知)。对经济问题的实际意义:yt与xt j存在线性关系,xt j , j = 0, 1,,k - 1, 是yt 的重要解释变量。ut代表众多影响yt变化的微小因素。使 yt的变化偏离了 E( yt) = o +1& + 2xt2 + k- 1 xt k -1决定的k维

2、空间平面。当给定个样本(yt, xt1,Xt2 ,,Xt k -1 ),t = 1,2,T时,上述模型表示为y 1=0 +1x11+2X12 + +k-1X1 k -1 +u1,经济意义xt j是yt的重要解释变量。2=0 +1x21+2X22 + +k-1 X2 k -1+u2,代数意义yt与xt j存在线性关系。几何意义:yt表示个多维平面。y1 T=0 +1X T1 + 2x T 2 +k- 1 X T k -1+ uT,(1.2)此时yt与xt i已知,j与ut未知。y11X11X1jX1k 10u1y21x21X2jX2k 11u2yT(T 1)1Xt1XTjXtk 1(T k)k

3、1(k 1)uT (T 1)(1.3)Y=X+ u5(1.4)为保证得到最优估计量,回归模型(1.4 )应满足如下假定条件。2相同且假定 随机误差项ut是非自相关的,每一误差项都满足均值为零,方差 为有限值,即0100E(u) = 0 =,Var (u) = E( ? ?)=2I =2 000001假定 解释变量与误差项相互独立,即E( X u) = 0假定解释变量之间线性无关。rk( X X) = rk( X) = k其中rk()表示矩阵的秩。假定 解释变量是非随机的,且当T t R时T 1X X t Q其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方

4、和最小。代数上是求极值 问题。精彩文档X(1.5)因为Y X ?是一个标量,所以有 Y X ? = ? X Yo(1.5)的一阶条件为:化简得S = - 2X Y + 2X X ? = 0(1.6)因为(X X)是一个非退化矩阵(见假定),所以有?= (X X)-1 X Y(1.7 )因为X的元素是非随机的,估计量。求出?,估计的回归模型写为(X X)-1x是一个常数矩阵,则?是Y的线性组合,为线性Y = X?+ U?(1.9)其中?= ( ?o ?1为k 1)是的估计值列向量,?= ( Y -X ?)称为残差列向量。因I?= Y - X ? = Y - X (X X)-1XY = IX (X

5、 X)-1 X YX?mi nS = ( Y - X?)( Y - X ?) = Y Y- ?XY - Y X ? + ?X (1.10)所以I?也是Y的线性组合。?的期望和方差是E( ?) = E( X X)-1 X Y = E( X X)-1X ( X + u)(1.11)-1+ (X X) X E(u)=Var( ?) = E()(? - )= E( X X) -1X u u X ( X X)-1=E(X X)-1X 2I(1.12)高斯一马尔可夫定理:若前述假定条件成立,X (XX)-1=(X X)-1OLS估计量是最佳线性无偏估计量。?具有无偏性。?具有最小方差特性。?具有一致性,渐

6、近无偏性和渐近有效性。2. 残差的方差k)2s=I?I?/(T(1.13)s 2是的无偏估计量,E(s 2 ) =。 ?的估计的方差协方差矩阵是Var(XX)-1(1.15)(1.16)(1.14)3. 多重确定系数(多重可决系数)Y = X ?+?=Y?+?总平方和SST=T1(yt y)2= Y Y- Ty2,其中y是yt的样本平均数,定义为T11yt)/T。回归平方和为SSRy)2 F( k-1, T-k),拒绝HdoF检验示意图t检验示意图7. t检验Ho:j _ 0, ( j _ 1,2,k-1), H 1 :j o8 .i的置信区间(1)全部i的联合置信区间接受1()(XX)F (

7、k, T-k)t_以)_?旳(九?j ,s2(XX) 1j 1t (T-k)(1.26)判别规则:若tt k接受Ho;若t tk拒绝H 0o(1.27)?) (XX )(S2 k F(k, T-k),它是一个k维椭球。(1.28)(2) 单个i的置信区间(1.29)点预测C= (1Xt+1 1Xt+1 2 Xt+1 k-1)(1.30)期被解释变量yT+i的点预测式是,?T 1 = C ?= ? 0 +? 1 X T+1 1 + +? k-1 x T+1 k-1(1.31)E(yT+i)的置信区间预测(2)首先求点预测式 C?的抽样分布E( ?t 1) = E(C?) = CVar(T 1)

8、= Var( C?)=E( C?- C)(C?- C )E C( ?-)C ( ?-)=C E(?-) ( ?-) C C Var(? )C=C 2(XX)-1C =2 C (X X )-1C(1.32)(1.33)因为?服从多元正态分布,所以 C?也是一个多元正态分布变量,即?t 1=C? N(C ,2C(X X ) -1C)(1.34)构成t分布统计量如下t =_?t 1_e(?t 1) = C C sJc(XX)叱s. C(XX) 1C(T-k)(1.35)置信区间C ? t /2 (1, T-k) s、. C(XX) 1C(1.36) 单个yT+1的置信区间预测yT+1值与点预测值?T

9、 1有以下关系yT+1 =?t 1 + ut+1(1.37)其中Ut+1是随机误差项。因为E( yT+1)= E( ?T 1 + Ut+1) = CVar(yT+1) = Var( ?t 1) + Var(Ut+1)=2(1.38)2 C ( X X)-1C +(C(XX)-1C1)(1.39)因为?服从多元正态分布,所以yT+1也是一个多元正态分布变量,即N ( C ,2C ( X X ) -1C + 1)yT+1与上相仿,单个yT+1的置信区间是t /2(T- k),C(XX) 1C 1(1.40)计算举例:(见计量经济分析第 19-27页,熟悉矩阵运算)10.预测的评价指标注意,以下6个

10、公式中的et表示的是预测误差,不是残差。可以在样本内、外预测。(1) 预测误差。预测误差定义为et = ?- yt, t = T+1, T+2,是对单点预测误差大小的测量。(2) 相对误差 PE (Percentage Error) 。PE = ?t yt , t = T+1, T+2,yt是对单点预测相对误差大小的测量。(3) 误差均方根 rms error (Root Mean Squared Error)rms error = ,;(?t yt)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是 1980年的5.9倍,而按固定价格计算, 我国1

11、992年的GDP是 1980年的 2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的 GDP曲线一直是上升的,而按不变价格(1980年价格)计算的 GDP曲线在1989年出现一次下降。可见研究经济变量 应该剔除物价变动因素。 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。. T t 1通过若干个预测值对预测效果进行综合评价。(4) 绝对误差平均 MAEMea n Absolute Error)ytMAE=通过若干个预测值对预测的绝对误差进行综合评价。(5) 相对误差绝对值平均MAPE(Mea n Absolute Perce ntage Error)MAPE=T

12、t 11 T综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。以上6个式子中,?t表示预测值,yt表示实际值。Theil的取值范围是0,1。显然在 预测区间内,当 ?t与yt完全相等时,Theil = 0 ;当预测结果最差时, Theil = 1。公式中 的累加范围是用1至T表示的,当然也可以用于样本外预测评价。11 建模过程中应注意的问题例:我国粮食产量 =f (耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自 科技含量的提高。例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。

13、现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口” 还是相对于城市人口的 “农业人口” 例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、畐V、渔服务业从 原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)(5)谨慎对待离群值(outlier )。离群值可能是正常值也可能是异常值。不能把建立模 型简单化为一个纯数学过程,目的是寻找经济规律。年INV (投资)IMPORT(进口)19912.5

14、6200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6)过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt = i xt + ut,为例, * = 0不一定成立。原因是正规方程只有一个(不是两个)(yt -ixt)(-xt) = o ,i?tXt = 0 ,而没有?t = 0。所以残差和等于零不一定成立。可决系数R

15、2有时会得负值!原因是有时会有 SSESST为维持 SSE+SSR=SST迫使SSRt) =, P( t t )=s(xtj)s(yt)(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比 较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换1,2,k-1(1.41)其中s(xt)和s(yt)分别表示xt和yt的样本标准差。勺*可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),yt y= 1* xt1 X1 + 2* & e + + Uts(yt)s(xt1)s(xt2)两侧同乘s(yt),得s(yt)s

16、( yt),(yt-y) =1*- (Xt1 - x1) +2*- (Xt2-x2) + + Ut S(yt)s(Xt1 )S(Xt2 )所以有&)=j,即 j* = j , i = 1,2,s(xtj)s(yt)既是(1.41) 式。(11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;y n(0+1 xf,(i+ 丄+空笃)T(Xt X)从公式看,当XF = X时,?F的分布方差最小,即预测区间最小,预测精度最高。而预测点 XF越远离X,?F的分布方差越大,即预测区间越大,预测精度越差。有时,样本以外变量的

17、关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过 量为0-16%时的关系。16%之后,青铜的硬度急剧下降,不再遵从锡含图3.10青铜硬度与锡含量的关系12(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为 1.5,则模型很难被接受。(13) 残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14

18、) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性,与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较 少的一个。(18) 模型的结构稳定性要强,超样本特性要好。(19) 世界是变化的,应该随时间的推移及时修改模型。建模案例1:全国味精需求量的计量经济模型(见预测1987年第2期)1 依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即商品价格,代用品价格, 消费者收入水平,消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当

19、建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。 所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平)2 选择恰当的变量(既要考虑代

20、表性,也要考虑可能性)用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格 。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f(销售价格,人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。 味精销售量=f(平均销售价格,不变价格的消费水平)3 收集样本数据(抽样调查,引用数据)60000500

21、00400003000020000100000YX111.011.211.411.611.812.012.2从中国统计年鉴和有关部门收集样本数据 (1972-1982, T= 11。数据见下页。)。定义 销售量为yt (吨),平均销售价格为 X1 (元/公斤),不变价格的消费水平为 X2 (元)。相 关系数表如下:平均销售价格(X1t)不变价格的消费水平(x2t)味精销售量-0.36710.9771(屮)注:临界值 ro.05 (9) = 0.606000050000400003000020000X210000100120140160 18004 确定模型形式并估计参数?= -144680.9

22、 + 6313.4 xlt + 690.4 x2( 1)(-3.92)(2.17)(15.32)R = 0.97,DV= 1.8,to.05 = 2.3回归系数6313.4无显著性(x1t与x2t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量 x1t,再次回归,? = -65373.6 + 642.4X2t( 2)(-10.32) (13.8)R2 = 0.95,DW= 1.5,to.05(9)= 2.26问题:?1= 6313.4,为什么检验结果是1 = 0?量纲的变化对回归结果会造成影响吗?建模案例2:用回归方法估计纯耕地面积(见数理统计与管理1986年第6期)目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10000的地形图上,然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分 辨率很低,无法直接勾绘,测算。设一个毛耕地图斑面积用 S表示,其中不能耕种的面积(扣除面积)用S表示,则扣除系数,yi = S / S =(扣除面积)/ (毛耕地图斑面积)。对于每一个图斑,知道精确的扣除系数 yi,就很容易根据毛耕地图斑面积 S计算出纯耕 地面积。现在用回归分析方法, 寻找影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论