计量6多重共线性_第1页
计量6多重共线性_第2页
计量6多重共线性_第3页
计量6多重共线性_第4页
计量6多重共线性_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 多重共线性 在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。由于收入较高的家庭购买商品,一般会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。这样两解释变量I与P之间存在着明显的相关性。 本章的目的与要求 当解释变量之间存在着线

2、性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能出现的一系列状况,就是本章所要讨论的问题。通过本章学习,要求重点掌握的内容是:明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。 本章内容(计划学时 ) 一、多重共线性的性质 1、多重共线性的概念 2、解释变量线性关系的表现形式 3、多重共线性的产生原因 4、多重共线性的性质 二、多重共线性的后果与检测 1、多重共线性的后果 2

3、、多重共线性的检测方法 三、多重共线性的补救措施学习重点 一、多重共线性的性质 二、多重共线性的后果与检测方法 三、多重共线性的补救措施学习难点 一、多重共线性的性质 二、多重共线性的后果与检测方法 三、多重共线性的补救措施第一节 多重共线性的性质 一、多重共线性的概念 多重共线性就是指线性回归模型中若干解释变量或全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有 k 个解释变量的线性回归模型 Y = 0 + 1X1 + 2X2 + + kXk + u (式61.1) 即模型中的各解释变量Xi的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。 (一)完全多重共线性 如

4、果各解释变量的样本观测值之间存在一个或多个如下的关系式: c1X1j + c2 X2 j + + ck Xk j = 0 ( j = 1、2、n ) (式61.2) 其中 c1、c2、ck 是不全为0 的常数,则称这些解释变量的样本观测值之间存在多重共线性。 对于( 式61.2 ) ,如果ci不为0 ,则可写成 (式61.3) 以上表明,某个或某些解释变量的样本观测值可写成其它解释变量的样本观测值的一个精确的线性组合。或表示为 X1i = 2X2 i + 3X3 i + + kXk i ( i = 1、2 n ) (式61.4) (二)高度多重共线性 如果各解释变量的样本观测值之间存在一个或多

5、个如下的关系式: X1i = 2X2 i + 3X3 i + + kXk i + vi ( i = 1、2 n ) (式61.5) 其中 1、2、k 是不全为0 的常数,vi是随机误差项,则称这些 解释变量的样本观测值之间存在高度的多重共线性。 例61 表61X120252835X2120150168210X3122149170213 表中X2与X1的关系为X2 6X1,因此X1与X2之间存在完全多重共线性,且它们的相关系数为1。 而X3与X1之间没有完全多重共线性,但有高度的共线性关系,它们的关系为X3 6X1v,且它们的相关系数为0.9980。 二、解释变量线性关系的表现情形 1、0 ,解

6、释变量间毫无线性关系。事实上这时已不需要做多元线性回归,每个参数i都可以通过Y对Xi的一元线性回归来完成。 2、1,解释变量间完全共线性关系。此时模型参数将无法确定,直观地看,当两个变量呈同一方式变化时,要区别每个解释变量对被解释变量的影响程度是非常困难的。 3、0 1,解释变量间存在着一定程度的线性关系。实际上常遇到的就是这种情形,而且随着共线性程度的加强,会对参数估计值的准确性、稳定性带来许多影响,因此不完全的多重共线性事实上有严重问题。 需要强调的是,解释变量间不存在线性关系,并不意味着不存在非线性关系,当解释变量间存在非线性关系时,并不违反无多重共线性假定。 三、多重共线性可能产生的原

7、因 多重共线性的实质是样本现象。一般认为产生多重共线性主要有以下几个原因: 1、经济变量之间具有共同的变化趋势。 在时间序列资料中,由于许多的经济变量随时间往往存在共同的变化趋势,使得它们之间存在相关性。例如,对于收入、消费、就业率等时间序列数据,在经济上升时期均呈现增长的趋势,而当经济收缩时,又都呈现下降趋势。当这些变量都同时作为解释变量进入模型时,就会带来多重共线性问题。对于截面数据的变量也往往存在共同的变化趋势。例如,在做电力消费对收入与住房面积的回归时,总体中有这样的一种约束,即收入较高家庭的住房面积一般地说比收入较低家庭的住房面积大。因此收入与住房面积同时作为解释变量,必然会带来多重

8、共线性。 2、模型设定 模型设定的问题,可能在模型中引入了多项式或滞后变量:由于模型设定的原因,导致模型中的解释变量间存在普遍的相关关系,这种例子很多。例如,在截面样本例子中,人们通常把居民消费解释为居民收入与居民财产的函数,在观测到的被调查户数据中,居民的财产与其收入有着很强的正相关性,收入多的居民户往往拥有的财产多,而收入少的居民户往往拥有的财产少;再如,在时序数据例子中,如果回归模型引入了可支配收入的滞后变量后,由于当期可支配收入与前期可支配收入高度相关,高度多重共线性就不可避免。面对这样的设计,模型中解释变量之间必然会呈现共线性。 3、样本数据自身的原因 计量经济活动中相关变量观测值的

9、搜集只能在一个有限的时间、空间范围内进行,而无法像物理学那样进行重复试验,直至找到事物间的必然规律为止。也就是说,抽样仅仅限于总体中解释变量取值的一个有限范围,如果解释变量之间事实上并不存在高度的线性相关关系,但是,抽取的样本数据则有可能表现为高度的线性相关。例如,在一个收入、储蓄、气候等因素影响消费的回归模型中,收入与气候、储蓄与气候的关系本不是很密切,但是,如果所抽取的样本数据却偏偏是高度相关的,这时就出现多重共线性。 4、过度拟合的模型 这种情况一般是出现在模型中的解释变量个数大于观测值个数。例如,在某医疗研究中,可能只有少数病人,却要在他们身上搜集大量的解释变量信息。 由于上述原因,实

10、际应用中,解释变量之间总会存在一定程度的线性相关,因此,问题并不是是否存在多重共线性,而是多重共线性的程度到底有多严重。 四、多重共线性的性质 (一)参数估计为不定式 对于一个无截距项的二元线性回归模型: Y = 0 + 1X1 + 2X2 + u (式61.6) 若该模型存在多重共线性,即两解释变量存在相关关系,则存在不完全为 0 的常数 ci ,即 c1X1i + c2 X2i = 0 得 X2i = X1i (式61.7) 令: = a 则 X2 i = a X1i (式61.8) 根据普通最小二乘法计算的二元线性回归模型参数估计值公式: = (式61.9) = (式61.10) 若解释

11、变量X1与X2的样本观测值存在线性关系,即 X2 j = a X1j ,不难看出上式参数估计值公式的分母将等于零,从而无法计算出估计量1与2的值。 实际上,在这种情况下,将(式61.8)代入(式51.6)可得: Yt = ( 1+ a2 )X1t + ui 这表明,我们只能估计出( 1+ a2 ),而无法单独得到1和2的估计值。 (二)参数估计值的方差无限大 在经典假设之下,Var( ui ) = 2 ,因此由和的表达式(式61.9)以及(式61.10)可求出二者的方差分别为: Var() (式61.11) Var() (式61.12)式61.11与式61.12的证明 Var() Var()

12、式中 是X1与X2 、X2与X1的相关系数,两者相等。 由(式61.11)与(式61.12 )可知,如果 X1与X2之间存在线性相关,且相关程度又高,r12 或 r21都接近1,其分母趋于0,这时与的方差将很大,将使回归模型的普通最小二乘估计完全失效。 例62:分析我国居民家庭电力消耗量与居民可支配收入及居住面积的关系,以预测居民家庭对电力的需求量。 表62年份年人均家庭电力消耗量年人均可支配收入指数人均居住面积千瓦小时(Y)1978年100(X1)平方米(X2)1991199219931994199519961997199819992000200120022003 46.9 54.6 61.

13、2 72.7 83.5 93.1 101.8 106.6 118.1 132.4 144.6 156.3 173.7 289.11307.83321.21339.43356.58382.66397.35414.08434.23447.35470.85506.15536.07 17.3417.7719.1618.9219.6420.2721.0021.7722.5323.1723.8525.05 25.78 首先作人均收入对用电量的回归,结果如下: Y 104.34920.5193X1 Se 4.1962 0.0103 t (24.87) (50.37) R 20.9957,D.W1.78, F

14、2537.452 可见,人均收入对用电量有很好的解释作用。若以5(t 0.025,122.179)的显著水平进行检验,显然收入的影响是显著的。 再作居住面积对用电量的回归,结果如下: Y 208.947114.7034X2 Se 10.9750 0.5126 t (19.04) (28.68) R 20.9868,D.W2.26, F822.655 同样,住房面积对用电量也有很好的解释作用,且住房面积的影响也是显著的。 最后看两解释变量对用电量的回归,结果如下: Y 110.03260.4919X10.7842X2 Se 22.6748 0.1079 3.0696 t (4.8526) (4.

15、5573) (0.2555) R 20.9957,D.W1.80, F1160.948 我们发现,在这个二元回归方程中,住房面积的系数已不再是显著的,而是不显著的(0.25552.179);而收入的系数虽然还是显著的,但显著水平已明显下降,其系数也从0.5193下降至0.4919。再且,尽管住房面积的系数在二元回归方程中不显著,但从F检验值看,两解释变量联合对电力消费量还是有着显著的影响的。第二节 多重共线性的后果与检测 一、多重共线性的后果 (注意:对存在多重共线性的回归模型进行OLS估计,其估计量仍然是线性无偏有效的) 1、OLS估计量的大方差与协方差以致难于作出精确的估计 大的方差和协方

16、差可以从其公式看出: (式62.1) (式62.2) (式62.3) 从( 式62.1)、( 式62.2)和( 式62.3)显见,随着r12趋于1,即共线性的增强,两估计量的方差与协方差也增加,在达到极限r121时,方差与协方差为无穷大。 方差与协方差增大的速度可由方差膨胀因子(简记为VIF),定义为: 于是上述方差可表达为 (式62.4) (式62.5) r12 的增大对方差和协方差的影响 表63r12值VIFVar()Cov(,)12340.000.500.700.800.900.950.970.990.9950.999 1.00 1.33 1.96 2.78 5.76 10.26 16.

17、92 50.25 100.00 500.00 A 1.33×A 1.96×A 2.78×A 5.76×A 10.26×A 16.92×A 50.25×A 100.00×A 500.00×A 0.67×B 1.37×B 2.22×B 4.73×B 9.74×B 16.41×B 49.75×B 99.50×B 499.50×B 其中: 2、容易接受本是错误的原假设。 (1)由于多重共线性的存在,置信区间将要宽得多,以致接

18、受原假设更为容易。 由于大的方差,总体参数的置信区间也将是大的。 表64r12值0.000.500.950.990.99995置信区间() 其中: 由此可见,由于大的标准差,有关总体参数的置信区间将随之变大,以致接受原假设的概率也增大。因此,如果原假设是个错误假设,那么,由于多重共线性的存在,就会增加接受错误假设(即第类错误)的概率。 (2)由于有大的方差,回归系数的 t 值倾向于统计上不显著。 从回归系数的 t 值公式 可以看出,如果存在多重共线性,公式分母的标准差迅速增大,t值迅速缩小,与显著水平而查表得出的临界t值相比,我们将会越来越多地接受有关真实总体值为零的原假设。 3、虽然一个或多

19、个回归系数的 t 值在统计上不显著,但总的拟合优度R2仍可能非常之高。 在高度共线性情形下,有可能出现一个或多个的回归系数在t 检验的统计意义上是不显著的,但是,总的拟合优度R2仍有可能高达接近于1,从而根据F检验,就会拒绝 0的假设。这就是多重共线性所产生的一种奇怪的现象,不显著的t值却带有一个高的R2总值。 4、普通最小二乘估计量及其标准差对数据的小小变化非常敏感,也就是说,它们趋于不稳定。 例:分析我国居民家庭电力消耗量与居民可支配收入及居住面积的关系,以预测居民家庭对电力的需求量。(仅稍微改动1993年人均居住面积数据) 表65年份年人均家庭电力消耗量年人均可支配收入指数人均居住面积千

20、瓦小时(Y)1978年100(X1)平方米(X2)1991199219931994199519961997199819992000200120022003 46.9 54.6 61.2 72.7 83.5 93.1 101.8 106.6 118.1 132.4 144.6 156.3 173.7 289.11307.83321.21339.43356.58382.66397.35414.08434.23447.35470.85506.15536.07 17.3417.7719.16改为181618.9219.6420.2721.0021.7722.5323.1723.8525.05 25.7

21、8 原数据的回归结果: Y 110.03260.4919X10.7842X2 Se 22.6748 0.1079 3.0696 t (4.8526) (4.5573) (0.2555) R 20.9957, D.W1.80, F1160.948 数据小小变化后的回归结果: Y 140.34700.3262X15.3514X2 Se 30.3246 0.1615 4.4663 t (4.6282)(2.0192)(1.1982) R 20.9962, D.W1.79, F1319.687 (5显著水平自由度为10的 t 临界值为2.228) 比较方程与方程,很明显,仅仅极小地改变了一个数据,却导

22、致了方程的较大变化。结果是标准差增大,t 检验值变小,以致收入与住房面积对家庭电力消耗量的影响均为不显著,然而F值所表明的影响却是极其显著的;而且住房面积的系数也发生了极大的变化。 为什么会有这一变化呢?方程中X1与X2的相关系数为0.9950,而在方程中X1与 X2的相关系数为0.9980,也就是说,方程中X1与X2的共线性程度提高了,虽然原始数据只作了一点点的变化,但敏感性很强,回归结果却是值得注意的。这正是共线性所引起的后果。 二、多重共线性的检测方法 (一)直观判定法。 1、当增加或删除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较大的变化,回归方程可能存在多重共线性。 2

23、、当R 2较高,而一些重要解释变量的回归系数标准差较大,使得显著的 t 值不多,在回归方程中没有通过显著性检验时,可初步判断可能存在多重共线性。 在例62的二元回归方程中,R 2值为0.9957,且F值也大得足以拒绝1与2为零的原假设,可是住房面积的系数却是统计上显著为零的(0.25552.228);所以可认为X1与X2存在着较高的多重共线性。 3、有些解释变量的回归系数所带正负号与定性分析结果相违背时,很可能存在多重共线性。 (二)简单相关系数检测法 如果两个解释变量的相关系数r比较高,比如在0.8 以上,那么就可认为这两个解释变量之间存在较强的线性关系。 在例62中,对两解释变量进行回归,

24、其结果如下: X1 201.088128.2970X2 Se 18.3308 0.8562 t (10.9700) (33.0486) R 20.9900, r 0.9950, F1092.212 在此,两解释变量的相关系数 r 为0.9950 ,说明相关程度极高,所以可认为X1与X2存在着较高的多重共线性。 (三)辅助回归法 一一作某个解释变量对其他所有解释变量的回归,并求出拟合优度R2值和F检验值,视检验值是否显著,作出判断 。 假设有一个容量为50的随机样本,作每一个解释变量对其余解释变量的回归分析,并计算出了各辅助回归的拟合优度R 2值和F 检验值如下: 方 程R 2值F 值F 值是否

25、显著X1对其他解释变量的回归0.90 79.20是X2对其他解释变量的回归0.18 1.93否X3对其他解释变量的回归0.36 4.95是X4对其他解释变量的回归0.86 54.06是X5对其他解释变量的回归0.09 0.87否X6对其他解释变量的回归0.24 2.87是 如表所示,变量X1、X3、X4、X6与其他变量存在共线性,尽管共线性的程度差别很大。表中数据还说明,看似较低的R 2,比如0.36,却可能是统计显著不为零的。可见,此回归模型存在较高的多重共线性。 辅助回归的一个缺陷就是它的计算较为繁琐,如果一个回归方程包含的解释变量较多,则计算的回归方程也需很多,因此,这种方法实用性不强。

26、不过,如果借助于统计软件,这个问题是容易解决的。 (四)方差膨胀因子检测法 所谓的方差膨胀因子就是将存在多重共线性时回归系数估计量的方差与无多重共线性时回归系数估计量的方差对比而得出的比值系数。 无多重共线性时回归系数估计量的方差: ( i = 1、2、k ) 存在多重共线性时回归系数估计量的方差: Var() ( i = 1、2、k ) 式中的1 /(1-Ri2)就是方差的膨胀因子,表示为 VIF()= 即 VIF()=÷() 所以,如果某个解释变量与其余解释变量都不相关,则其方差膨胀因子为 1 ;如果某个解释变量与其余解释变量存在一定程度的相关性,其方差膨胀因子大于 1 。经验认

27、为,方差膨胀因子若大于 5 ,多重共线性的程度就很严重。 (五)逐步回归检测法 1、由每个解释变量对Y进行回归开始,视解释变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。 2、在逐个引入解释变量的过程中,将不显著的解释变量剔除掉。 3、引入一个解释变量或从回归方程中剔除一个解释变量,为逐步回归的一步。 4、对于每一步都要进行检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。 5、这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。 (六)判定系数增量贡献法 判定系数增量贡献法是从解释变量与被解释变量之间的相关程度来检测多重共线性的。其测度公式为 m = R 2 式中R2为被解释变量Y对所有解释变量X1、X2、Xk的判定系数;Ri2为被解释变量Y对除Xi以外的其余所有解释变量的判定系数。 在此测度公式中(R 2Ri2)就是解释变量Xi 对判定系数R 2的增量贡献。如果Xi与其余解释变量完全线性相关,则此增量贡献为0,如果全部解释变量均不相关,则增量贡献的总和等于R 2,测度值m = 0 。第三节 多重共线性的补救措施 消除或缓解多重共线性,目前也只有一些经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论