计量经济学 第七章 多重共线性.doc_第1页
计量经济学 第七章 多重共线性.doc_第2页
计量经济学 第七章 多重共线性.doc_第3页
计量经济学 第七章 多重共线性.doc_第4页
计量经济学 第七章 多重共线性.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。7.1多重共线性及产生的原因7.1.1非多重共线性假定 如果rk (X X ) = rk (X ) k 或称解释变量是完全共线性相关。在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:7.1.2多重共线性的经济解释 (1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。 (2)解释变量与其滞后变量同作解释变量。 滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。(见下图) (3)解释变量之间往往存在密切的关联度。对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。 7.2多重共线性的后果(1) 当 ,X为降秩矩阵,则 (X X) -1不存在,= (X X)-1 X Y 不可计算。 (2)若 ,= (X X)-1 X Y ,可以计算,仍具有线性、无偏性和最小方差性。如:E() = E(X X)-1 X Y = E(X X) -1X (Xb + u) = b + (X X)-1X E(u) = b.但中的对角元素值将很大。即各共线变量的参数的OLS估计值的方差很大,即估计值的精度很低。可以证明,参数的方差为:其中,是第i个解释变量对其他解释变量辅助回归模型的决定系数,称为方差膨胀因子,记为VIFi,当xi与其他解释变量存在严重多重共线性时,即1,VIF将趋近于无穷。反之,相反。 (3)可能导致在假设检验中舍去重要的解释变量,检验的可靠性降低。当 | X X | 0,Var() = s 2 (X X)-1变得很大。 统计很小,有可能发生弃真误差。(4)回归模型缺乏稳定性从同一总体中抽不同样本估计模型,得到的参数估计值如相差不大,说明模型稳定。当存在多重线性时,估计值极不稳定,样本的轻微变化,就有可能靠成参数估计值很大变化,因而建立的回归模型的可靠性降低。 7.3多重共线性的检验 7.3.1 初步观察。(1)当模型的拟合优度(R 2)很高,F值很高,而每个回归参数估计值的方差Var(bj) 又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。 (2)Klein判别法。计算多重可决系数R2及解释变量间的简单相关系数rxi xj。若有某个| rxi xj | R2,则xi,xj间的多重共线性是有害的。 (3)回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。 (4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重共线性。7.3.2 辅助回归模型检验将每个解释变量对其它解释变量进行回归:检验拟合优度与F统计量是否显著。7.3.3方差膨胀因子检验一般地大于5或大于10(此时,大于0.8或0.9)可以认为存在较严重的多重共线性。7.3.4 特征值检验样本数据阵为: ,当存在多重共线性时,rk (X X ) = rk (X ) k 或,当,若为矩阵的特征值,则有:,这表明至少有一个特征值近似地等于0.构造检验指标:条件指标(病态指标)CN和病态指标CI,定义CN=最大特征值/最小特征值:CI=。一般检验法则是:CI大于10认为存在多重共线性,大于30认为存在严重多重共线线。此外还有其他一些检验方法,如主成分分析法等,很复杂。例:P233略:7.4多重共线性的克服方法7.4.1 直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。 7.4.2 利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt = b0+ b1 xt1 + b2 xt2 + ut (7.20)x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数b1与b2的某种关系,例如 b2 = lb1 (7.21)其中 l 为常数。把上式代入模型(7.20),得yt = b0+ b1 xt1 + lb1 xt2 + ut = b0 + b1 (xt1 + l xt2) + ut (7.22)令 xt = xt1 + l xt2得 yt = b0+ b1 xt + ut (7.23)模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到,然后再利用(7.21)式求出。下面以道格拉斯(Douglass)生产函数为例,做进一步说明。 Yt = K Lta Ctb eut (7.24)其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后, LnYt = LnKt + aLnLt + bLnCt + ut (7.25)因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出a,b的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件 a + b = 1利用这一关系把模型(7.25)变为 LnYt = LnKt + a LnLt + (1- a) LnCt + ut 整理后, Ln () = Ln Kt + a Ln () + ut (7.26)变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型,自然消除了多重共线性。估计出a后,再利用关系式a + b = 1,估计b。 7.4.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。 7.4.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量Yt模型如下, Ln Yt = b0+ b1 Ln Pt + b2 Ln It + ut (7.29)其中Yt 表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。首先利用截面数据估计收入弹性系数b2。因为在截面数据中,平均价格是一个常量,所以不存在对b1的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型(7.29)。得 LnYt = b0+ b1 Ln Pt +Ln It + ut移项整理 LnYt -Ln It = b0+ b1 LnPt + ut变换后的因变量(LnYt -Ln It)用Zt表示,则 Zt = b0+ b1 LnPt + ut (7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出,。这样便求到相对于模型(7.29)的估计式, =+Ln Pt +Ln It其中是用截面数据估计的,,是由时间序列数据估计的。由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时,这种估计方法会带来估计误差。7.4.5逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该变量。7.4.6 主成分回归:略例:P240略案例1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下, Ln y = 24.94 + 2.16 x1 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.9944, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18,R2 = 0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。 下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R 2 = 0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。 Ln y = - 0.39 + 2.06 x1 (- 2.1) (14.3) R2 = 0.9668, F = 204, T = 9 Ln y = - 33.26 +2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9 Ln y = - 18.46 + 70.75 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9 Ln y = - 0.49 + 0.56 x4 (- 2.5) (13.8) R2 = 0.9644, F = 189.7, T = 9 Ln y = - 0.42 + 1.16 x5 (- 2.2) (13.5) R2 = 0.9633, F = 183.5, T = 9之所以取半对数模型,是因为y与x1, x3, x4, x5分别呈指数关系。解释变量的重要程度依次为x2, x3, x1, x4, x5 。(2)以Ln y = - 33.26 - 291 x2为基础,依次引入x3, x1, x4, x5 。首先把x3引入模型,Ln y = - 29.9 + 2.24 x2 + 16.76 x3 (- 6.9) (2.7) (0.8) R2 = 0.988, F = 265.5, T = 9因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。接着把x1引入模型,Ln y = - 33.37 + 2.92 x2 0.007 x1 (- 3.2) (3.2) (-0.01) R2 = 0.9875, F = 237.9, T = 9同理剔除x1引入x4Ln y = - 31.94 + 2.79 x2 + 0.022 x4 (- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9同理剔除x4引入x5Ln y = - 34.97 + 3.06 x2 - 0.062 x5 (- 3.4) (3.4) (-0.17) R2 = 0.9876, F = 238.7, T = 9同理剔除x5,最后确定的模型是 Ln y = - 33.26 + 2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9或者用解释变量之间相关系数值最小的x1和x4同做解释变量与Ln y回归,得Ln y = - 0.48 + 1.08 x1 + 0.28 x4 (- 3.4) (2.7) (2.5) R2 = 0.98, F = 184, T = 9用EViews求相关系数矩阵(1)点击Quick键并依次选择Group Statistics, Correlations,将出现一个要求填写序列名的对话框(Series List),填好序列名后按OK。(2) 在Workfile窗口中用鼠标选中序列名, 点击Show键,OK键,从而打开数据组 (Group) 窗口。在数据组窗口点击View键选择Correlations。)表1 变量 y,x1,x2,x3,x4,x5的数据年电信业务总量y邮政业务总量x1中国人口数x2市镇人口比重x3人均GDPx4人均消费水平x519911.51630.527511.58230.26371.8790.89619922.26570.636711.71710.27632.2871.07019933.82450.802611.85170.28142.9391.33119945.92300.958911.98500.28623.9231.74619958.75511.133412.11210.29044.8542.236199612.08751.332912.23890.29375.5762.641199712.68951.443412.36260.29926.0532.834199822.64941.662812.48100.30406.3072.972199931.32381.984412.59090.30896.5343.143 资料来源:中国统计年鉴2000案例2:(file:B1E4)1998年农村居民食品支出(处理多重共线性)1998年31省市自治区农村居民人均年食品支出(food,元)、人均年总支出(EX,元)和人均年可支配收入(IN,元)见散点图2,food与IN是正相关的(0.89),但估计结果回归系数确是负的。显然与事实不符、与经济理论不符。原因是EX和IN之间的多重共线性(高度相关)所致。从下表可以看出都r(EX, IN) = 0.9537大于可决系数0.9482。按克莱茵判别准则模型存在严重的多重共线性。 图1 图2另外,如果用food只对IN回归,回归系数是正的。与上述二元回归结果中的IN的回归系数相比,符号都是反的。这也说明上述二元回归结果中存在多重共线性。Foodt = 285.5945 + 0.2571 Int (4.7) (10.5) R2 = 0.79, F = 110, T = 31处理方法是用food只对EX回归。效果很好。obsFOODEXIN11215.082873.23952.322911.391976.73395.73616.91298.542405.324592.191056.451858.65867.381577.121981.486898.871702.682579.797799.691471.462383.68805.331464.642253.191775.044206.895406.87101117.012336.783376.78111361.82890.653814.5612732.141333.051863.06131101.642025.092946.3714899.371538.24204815804.641595.092452.8316700.781240.31864.0517918.951699.432172.24181107.231889.172064.85191370.72683.183527.1420808.821414.761971.921767.421246.122018.3122831.081343.351720.4623871.831440.771789.1724757.551094.391334.4625801.991312.311387.2526497.41710.261231.527590.91181.381405.5928556.85939.551393.0529694.621117.791424.7930706.561327.631721.1731713.341450.291600.14资料来源:中国统计年鉴1989。案例3:(file: nonli14)中国私人轿车拥有量决定因素分析(多重共线性特征)1985-2002年中国私人轿车拥有量以年增长率23%,年均增长55万辆的速度飞速增长。考虑到目前农村家庭购买私人轿车的现象还很少,在建立中国私人轿车拥有量模型时,主要考虑如下因素:(1)城镇居民家庭人均可支配收入;(2)城镇总人口;(3)轿车产量;(4)公路交通完善程度;(5)轿车价格。“城镇居民家庭人均可支配收入”、 “城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。“公路交通完善程度”用全国公路里程度量,也可以从统计年鉴上获得。由于国产轿车价格与进口轿车价格差距较大,而且轿车种类很多,做分种类的轿车销售价格与销售量统计非常困难,所以因素“轿车价格”暂且略去不用。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论