第六讲多重共线性_第1页
第六讲多重共线性_第2页
第六讲多重共线性_第3页
第六讲多重共线性_第4页
第六讲多重共线性_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 多重共线性6.1 多重共线性及其产生的原因6.1.1 多重共线性(Multicollinearity)的定义从数学意义上去解释变量之间存在共线性,就是对于变量,如果存在不全为零的常数,使得下式成立 (6.1.1)则称变量之间存在完全共线性。在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(6.1.1)那样的关系,则称这些解释变量之间存在完全的多重共线性。完全多重共线性还可以用矩阵形式加以描述。设解释变量矩阵为= 所谓完全的多重共线性,就是。或者rank()+1,表明在矩阵中,至少有一个列向量可以由其余的列向量线性表示。所谓近似共线性或不完全多重共线性是指

2、对于k个解释变量(t=1,2,3,k),如果存在不全为零的数使得 (6.1.2)成立,其中为随机误差项。如果k个解释变量之间不存在上述完全或不完全的线性关系式,则称无多重共线性。如果用矩阵表示,这时为满秩矩阵,即rank()=k+1。6.1.2 多重共线性产生的原因 根据经验,多重共线性产生的经济背景和原因有以下几个方面:1经济变量之间往往存在同方向的变化趋势2经济变量之间往往存在着密切的关联度3在模型中引入滞后变量也容易产生多重共线性 4在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性6.2 多重共线性造成的影响6.2.1 完全共线性下参数估计量不存在多元线性回归模型的普通最小二

3、乘估计量为如果解释变量之间存在完全多重共线性,由于矩阵的系数行列式,逆矩阵不存在,无法得到参数估计式。例如,对于二元线性回归模型:如果两个解释变量完全相关,如,该二元线性回归模型退化为一元线性回归模型这时,只能确定综合参数的估计值,却无法确定各自的估计值。6.2.2 近似共线性造成的影响1增大最小二乘估计量的方差由于,所以参数估计值仍然可以算出,并且仍然满足线性、无偏性和最小方差性。但是由于,的协方差矩阵: (6.2.1)中的对角线元素的数值将很大。即各共线变量的参数的OLS的估计值方差很大,即估计值的精度很低。可以证明,参数估计值的方差为 (6.2.2)其中:表示第i个解释变量对模型中其他解

4、释变量作辅助回归模型 时的决定系数,当只有两个解释变量、时,则就是变量、的相关系数的平方,即。式(6.2.2)中第二项因子称为方差膨胀因子(Variance Inflating Factor),记成 (6.2.3)则有 (6.2.4)当与模型中其他解释变量存在严重多重共线性时,即,接近于1,共线性程度越强。如果=0,则,此时不存在多重共线性。2参数估计量经济含义不合理3变量的显著性检验和模型的预测功能失去意义在多元线性回归模型中,参数显著性检验的t统计量为由于的方差很大,其标准差亦随之增大,t统计量偏小,这样容易淘汰一些不应淘汰的解释变量,使统计检验的结果失去可靠性。 由于中的对角线元素的数值

5、很大,从而的置信区间很大,使区间估计用于判断参数估计值的可靠性失去意义。变大的方差容易使预测的“区间”变大,从而降低预测精度,使预测失去意义。4回归模型缺乏稳定性 6.3 多重共线性的检验6.3.1 相关系数检验法(Klein判别法) 如果用矩阵表示相关系数,两个不同解释变量与的相关系数记作,那么解释变量之间的相关系数矩阵可以表示为= (6.3.1)其中对角线元素全为1,若,则这两个变量、之间的共线性是较为严重的。EViews软件中可以直接计算(解释)变量的相关系数矩阵: 命令方式 COR 解释变量名 菜单方式 将所有解释变量设置成一个数组,并在数组窗口中点击ViewCorrelations。

6、6.3.2 辅助回归模型检验解释变量之间存在多重共线性可以看做是一个解释变量对其余解释变量的近似线性组合。可以将每个解释变量对其余解释变量进行回归,得到k个回归方程: (6.3.2)分别求出其拟合优度、及统计量、,如果其中最大的一个接近1,显著地大于临界值,则与其余存在多重共线性。6.3.3 方差膨胀因子检验对于多元线性回归模型,参数估计值的方差可以表示成:其中: (6.3.3)为方差膨胀因子,表示第i个解释变量与模型中其他解释变量辅助回归模型的决定系数。度量了与其余解释变量的线性相关程度,越接近于1,就越大,说明与其余解释变量之间多重共线性越强,反之越弱。一般地,当或时(此时>0.8或

7、>0.9),认为模型存在较严重的多重共线性。6.3.4 特征值检验 考察解释变量的样本数据矩阵:=当模型存在完全多重共线性时,rank()+1,;而当模型存在严重多重共线性时,根据矩阵代数知识,若为矩阵的k+1个特征值,则有 (6.3.4)这表明特征值(i=1,2,k+1)中至少有一个近似地等于0。 利用特征值还可以构造两个用于检验多重共线性的指标:条件数(或病态数)CN(Condition Number)和条件指数(或病态指数)CI(Condition lndex)。其指标定义为CN=最大特征值最小特征值 (6.3.5)这两个指标都反映了特征值的离散程度,数值越大,表明多重共线性越严重

8、。一般的经验法则是:CI>10即认为存在多重共线性,大于30认为存在严重的多重共线性。6.3.5 根据回归结果判断 在运用OLS法建立样本线性回归模型时,由EViews软件可直接得到决定系数(或)、F统计量值、t统计量值。如果(或)很大,且F值显著地大于给定显著性水平下的临界值,而发现:(1)系数估计值的符号与理论分析结果相违背;(2)某些变量对应的回归系数t值偏低或不显著;(3)当一个不太重要的解释变量被删除后,或者改变一个观测值时,回归结果显著变化,则该模型可能存在多重共线性。例6.3.1 分析我国居民家庭电力消耗量与可支配收入及居住面积的关系,以预测居民家庭对电力的需求量(具体数据

9、见表6.3.1)。表6.3.1 我国居民家庭电力消耗量与可支配收入及居住面积统计资料年度年人均家庭电力消耗量(千瓦小时)y人均居住面积(平方米)年人均可支配收入指数(1978=100)198521.212.45243.17198623.213.02254.28198726.413.49265.39198831.213.94277.61198935.314.42273.49199042.414.87281.33199146.915.44289.71199254.615.64307.66199361.216.99321.07199472.716.65339.33199583.517.25356.5

10、8199693.117.82383.951997101.818.33399.85首先,作家庭电力消耗量电量与家庭可支配收入的回归模型,结果如下: (6.3.6)t = (-20.36438) (30.27122) DW =1.071197 F =916.3468可见,收入对用电量有很好的解释作用。然后,作用电量与住房面积的的回归方程,结果如下: (6.3.7)t = (-10.15772) (13.61214) DW =1.031819 F =185.2903同样,住房面积对电力也有很好的解释作用。作二元回归方程,结果如下:表6.3.2 回归结果 (6.3.8)t = (-14.98992)

11、(1.74882) (7.189749) DW =1.338435 F =545.4382住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不显著;从F统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。 (1)相关系数检验:数组窗口中点击ViewCorrelations,结果如表6.3.3所示:表6.3.3 相关系数与相关系数高达0.963124,两者高度正相关。图6.3.1 住房面积与收入之间的关系图(2)辅助回归模型检验:将住房面积对收入进行回归:t = (4.271016) (11.87226) DW=0.856038 F=140.9505因此,住房面积与

12、收入之间存在显著的线性关系。(3)方差膨胀因子检验:方差膨胀因子,因此,模型存在存在严重的多重共线性。(4)不显著系数法:从方程可以看出,拟合优度,非常高,F =545.4382,、F值较大,而住房面积的系数在方程(6.3.8)中不显著,说明模型存在多重共线性。6.4 多重共线性的解决方法6.4.1 保留重要的解释变量,去掉次要的或可替代的解释变量6.4.2 利用先验信息改变参数的约束形式根据经济理论或其他信息,找出参数间的某种关系,并将这种关系作为约束条件与样本信息结合起来,进行有约束的最小二乘估计。例如,著名的Cobb-Douglas生产函数中: 劳动投入量L与资金投入量K之间通常是高度相

13、关的,如果已知附加信息:(即规模报酬不变),则有,或者:,记,则C-D生产函数可以表示成:此时二元模型转化成一元模型,当然不存在多重共线性的问题,可以利用OLS法估计A,进而得到6.4.3 变换模型的形式 对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式,一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。例6.4.1 在电力消费量函数中,电力消费量与收入和住房面积之间可能是对数形式的模型,而不是线性模型。我们利用对数模型拟合上述数据,结果如下:表6.4.1 回归结果 (6.4.4)t = (-8.761518) (5.235

14、737) (2.209634) DW =2.193484 F =421.7588与方程(6.3.8)相比,在对数模型中,收入和住房面积系数在统计上都是显著的,回归模型在整体上也是显著的。说明我们原先设计的线性回归模型是有误的。例6.4.2 根据表6.4.2,建立我国进口需求与GNP和消费价格指数之间的关系模型。表6.4.2 我国进口支出与GNP和消费价格指数 (单位:亿元人民币)年份GNP(当年价)进口总额IM消费价格指数CPI19858989.11257.8100.0198610201.41498.3106.5198711954.51614.2114.3198814922.32055.113

15、5.8198916917.82199.9160.2199018598.42574.3165.2199121662.53398.7170.8199226651.94443.3181.7199334560.55986.2208.4199446670.09960.1258.6199557494.911048.1302.9199666850.511557.4328.0199773142.711806.5337.2199878017.811622.4334.5根据表6.4.2中的数据,回归结果如表6.4.3所示。表6.4.3 回归结果t = (-2.062) (0.867) (1.984) DW =0.

16、806121 F =180.5594 回归结果表明,在5%的显著性水平下,收入和价格的系数各自均不是统计显著的。模型通过F检验。我们可以断定方程(6.4.5)中存在严重的多重共线性。为解决这个问题,我们可以用实际进口额对实际收入进行回归,得到如下结果:表6.4.4 回归结果t = (-1.715) (10.245) DW =0.7594 F =104.9688 这表明,实际进口额与实际收入显著正相关。这样,通过将名义变量转换为实际变量,显然削弱了原模型中的多重共线性。6.4.4 综合使用时序数据与截面数据在模型的参数估计中,如果模型利用的是时间序列数据,这时模型又存在多重共线性,可考虑用时间序

17、列数据与截面数据相结合的办法来修正多重共线性对模型的影响。6.4.5 逐步回归法(Frisch综合分析法)从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入剔除引入,直到模型之外所有变量均不显著时为止。这种消除多重共线性的方法称为逐步回归法也称Frisch综合分析法。 具体步骤为 (1)利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。 (2)在一元回归模型中分别引入第二个变量,共建立k-1个二元回归模型(设共有k个解释变量),从这些模型中再选取一个较优

18、的模型。选择时要求模型中每个解释变量影响显著,参数符号正确,值有所提高。(3)在选取的二元回归模型中以同样方式引入第三个变量;如此下去,直至无法引入新的变量时为止。6.4.6 增加样本容量6.4.7 主成分回归 例6.4.2 服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有可支配收入Y、流动资产拥有量L、服装类价格指数和总物价指数。表6.4.5给出了有关统计资料。表6.4.5 服装需求函数有关统计资料年份服装需求Cd可支配收入Y流动资产拥有量L服装类价格指数PC物价总指数P019798.482.917.1929419809.688.021.39396198110.499.925.

19、19697198211.4105.329.09497198312.2117.734.0100100198414.2131.040.0101101198515.8148.044.O105104198617.9161.849.0112109198719.3174.251.O112111198820.8184.753.O112111设服装需求函数为根据以上数据,利用EViews软件,得如下回归结果。表6.4.6 回归结果t = (-1.761428) (3.707635) (0.295116) (-2.204878) (2.239056) DW=3.359692 F=638.3684 给定显著性水平

20、,查F分布表,得临界值5)= 5.19,回归方程显著。1多重共线性检验(1)相关系数检验在命令窗口键入:COR CD Y L PC P0,输出的相关系数矩阵为表6.4.7 相关系数矩阵可见每个因素都与服装需求高度相关,而且解释变量之间也是高度相关的。(2)辅助回归模型检验建立每个解释变量对其余解释变量的辅助回归模型:t = (-3.050175) (-0.801344) (2.386769) (3.544921) DW=2.25151 F=253.242t = (-0.984417) (-0.801344) (3.313063) (1.073073) DW=2.818167 F=144.079

21、8t = (3.953038) (2.386769) (3.313063) (-1.326844) DW=2.612393 F=251.2234t = (0.894373) (3.544921) (1.073073) (-1.326844) DW=1.640034 F=108.9972 从以上辅助回归模型中的、F统计量的数值可以看出,解释变量、之间存在较为严重的多重共线性。(3)方差膨胀因子检验从以上辅助回归模型可知,127.6;55.5;73.0; 126.6明显大于10,解释变量、之间存在较为严重的多重共线性。2消除多重共线性:逐步回归法(1)对服装需求分别关于Y、L、建立一元回归模型:t

22、 = (-3.361814) (42.48604)0.995588 DW=2.638544 F=1805.063t = (-9.16819) (12.53628)0.951562 DW=2.401329 F=157.1583t = (2.585761) (15.30956)0.966994 DW=0.46838 F=234.3827t = (-14.77097) (18.6585)0.977537 DW=2.17201 F=348.1394 根据理论分析,可支配收入应该是服装需求最主要的影响因素,相关系数检验也表明,可支配收入与服装需求的相关性最强。所以,以作为最基本的模型。(2)加入服装价格

23、指数,对服装需求关于Y、建立二元回归模型:表6.4.8 回归结果t = (0.314253) (8.570373) (-0.573229) DW=2.533749 F=826.9501可以看出,加入后,稍为有所减少,参数估计值的符号也正确,并没有影响Y系数的显著性,所以在模型中保留。(3)加入流动资产L,对服装需求关于Y、L、建立三元回归模型:表6.4.9 回归结果t = (0.208468) (5.695997) (-0.679042) (-0.52664) DW=3.162207 F=509.0113加入L后,调整后拟合优度不但没有增加,反而减少,L参数估计值的符号不正确,并且,L和系数均

24、不显著,因此,在模型中略去L,保留。(4)加入一般商品价格指数,对服装需求关于Y、建立回归模型:表6.4.10 回归结果t = (-1.919462) (7.546991) (-2.473848) (2.59190) DW=3.496692 F=1003.869可以看出,加入后,调整后拟合优度有所增加,系数均显著且符号正确,因此,在模型中略去L,保留。6.5 案例分析我国钢材供应量模型通过分析我国19781997年钢材供应量的历史资料,可以建立一个单一方程模型。根据理论及对现实情况的认识,影响我国钢材供应量y(万吨)的主要因素有生铁产量(万吨),原煤产量(万吨),电力产量(亿千瓦小时),固定资

25、产投资(亿元),国内生产总值(亿元),铁路运输量(万吨)。数据详见表6.5.1。表6.5.1 我国19781997年钢材供应量资料obsy19782208.003479.006.182566.00668.723624.10110119.019792497.003673.006.352820.00699.364038.20111893.019802716.003802.006.203006.00746.904517.80111279.019812670.003417.006.223093.00638.204862.4107673.019822920.003551.006.663277.00805

26、.905294.7113532.019833072.003738.007.153514.00885.265934.5118784.O19843372.004001.007.893770.001052.437171.0124074.019853693.004384.008.724107.001523.518964.4130708.019864058.005064.008.944495.001795.3210202.2135636.019874386.005503.009.284773.002101.691l962.5140653.019884689.005943.009.805452.00255

27、4.8614928.3144948.019894859.006159.0010.545848.002340.5216909.2151489.019905153.006635.0010.806212.002534.0018547.9150681.019915638.006765.0010.876775.003139.0321617.8152893.O19926697.008094.0011.167539.004473.7626638.1157627.019937716.008956.0011.508395.006811.3534634.4162663.019948428.009261.0012.

28、409281.009355.3546759.4163093.019958979.809535.9913.6110070.3010702.9758478.1165855.019969338.0210124.0613.9710813.1012185.7967884.6168803.019979978.9310894.1713.7311355.5313838.9674772.4169734.0设模型的函数形式为: (6.5.1)1运用OLS估计方法对式(6.5.1)中的参数进行估计,EViews过程如下:(1)在File菜单中选New项,建立文件库workfile,输入起始与终止时间。(2)直接在光

29、标处键入命令格式:Data y x1 x2 x3 x4 x5 x6回车后即可输入数据。(3)在Quick菜单中选Estimate Equation项,对参数作OLS估计,输出结果见表6.5.2。表6.5.2 回归结果2.分析由F=1078.794>(7,12)=2.91(显著性水平=0.05),表明模型从整体上看钢材供应量与解释变量之间线性关系显著。 3检验 计算解释变量之间的简单相关系数。EViews过程如下:(1)在Quick菜单中选Group Statistics项中的Correlation命令。在出现Series List对话框时,直接输入,变量名即可出现结果(见表6.5.3)。

30、表6.5.3 相关系数 (2)由表6.5.3可以看出,解释变量之间存在高度线性相关。此外,还可以作辅助回归模型检验、作方差膨胀因子检验等,检验结果是类似的,即模型中解释变量存在多重共线性。 4修正(1)运用OLS方法逐一求y对各个解释变量的回归。经分析在6个一元回归模型中钢材供应量y对电力产量的线性关系强,拟合程度较好,见表6.5.4。表6.5.4 回归结果t = (-0.192313) (60.43348) (2)逐步回归。将其余解释变量逐一代入式(6.5.2)得如下几个模型:t = (1.20092) (16.0738) (1.527483) DW=0.93224 t = (0.11875

31、3) (2.258252) (3.716785) (2.353501) DW=0.648255 t = (-0.337101) (1.928386) (2.706663) (1.578267) (0.376901) DW=0.643793 在式(4.5.5)中,对y的影响并不显著,故将删去,得如下模型(见表6.5.5)。表6.5.5 回归结果从表6.5.4可以看出,在删除后,模型的统计检验均有较大改善。考虑截距项t值不显著,将常数项去掉得如下模型见表6.5.6。表6.5.6 回归结果经过上述逐步回归分析,表明y对、的回归模型为较优。最终回归结果如下:t = (2.701647) (3.8649

32、73) (2.834456) 思考与练习1什么是多重共线性?产生多重共线性的经济背景是什么?2多重共线性对模型的主要影响是什么?3简述检验多重共线性与消除多重共线性的方法。4什么是方差膨胀因子(VIF)?根据,你能说出VIF的最小可能值和最大可能值吗?VIF多大时,认为解释变量间的多重共线性是比较严重的?5在用诸如GDP、失业、货币供给、利率、消费支出等经济时间数据进行回归分析时,常常怀疑存在多重共线性,为什么?6对于线性回归模型的最小二乘估计量 (1)当X之间出现不完全共线性时,会出现什么情况?(2)用什么方法检验不完全多重共线性?7建立产出(y)对资本投入(K)和劳动(L)的生产函数模型的

33、过程中,可能遇到的主要问题是什么?8考虑表1一组样本数据:表1 样本数据y-10-8-6-4-20246810x11234567891011x213579111315171921现假定你想用y对x1和x2作一多元回归:请回答下列问题:(1)你能估计出这一模型的参数吗?为什么?(2)如果不能,你能估计哪一参数或参数组合?9表2给出了一组消费支出(y),周收入(x1)和财富(x2)的假设数据。表2 消费支出、周收入和财富数据 (单位:美元)y70659095110115120140155150x180100120140160180200220240260x281010091273142516331

34、8762252220124352686请回答以下问题: (1)估计模型: (2)存在多重共线性吗?为什么? (3)估计模型:,。你从中知道些什么? (4)估计模型:,你从中发现了什么? (5)如果存在严重的共线性,你将舍去一个解释变量吗?为什么?10在研究生产函数时,我们得到以下两种结果: (1)0.878 n=21 (2)0.889 n=21其中:Q=产量;K=资本;L=劳动时数;t=时间(技术指标);n=样本容量。请回答以下问题(1)证明在模型(1)中所有的系数在统计上都是显著的() (2)证明在模型(2)中t和LnK的系数在统计上是不显著的(); (3)可能是什么原因造成模型(2)中Ln

35、K的不显著性; (4)如果t和LnK之间的相关系数为0.98,你将从中得出什么结论?(5)模型(1)中,规模报酬为多少?11.将下列函数用适当的方法消除多重共线性:(1)消费函数为 其中C、W、P分别代表消费、工资收入和非工资收入,W与P可能高度相关,但研究表明。 (2)需求函数为其中Q、Y、P、分别代表需求量、收入水平、该商品本身价格以及相关商品价格水平,P与可能高度相关。12某公司经理试图建立识别对管理有利的个人能力模型,他选取了15名新近提拨的职员,作一系列测试,决定他们的交易能力(x1)、与其他人联系的能力(x2)及决策能力(x3),每名职员的工作情况(y)依次对这三个变量作回归,原始

36、数据如表3。表3 样本数据y807584629275636968879282748062x1505142425945483940554845456159x2727479718573757371808380757570x3181922172517161920303320182015请回答以下问题:(1)建立回归模型:,并进行回归分析。(2)模型是否显著?(3)计算每个的方差扩张因子,并判断是否存在多重共线性?13表4给出了美国1971-1986年期间的年数据。表4 美国19711986年有关数据年度yx1x2x3x4x5197110227112.0121.3776.84.897936719721

37、0872111.0125.3839.64.5582153197311350111.1133.1949.87.388506419748775117.5147.71038.48.618679419758539127.6161.21142.86.168584619769994135.7170.51252.65.2288752197711046142.9181.51379.35.5092017197811164153.8195.31551.27.7896048197910559166.0217.71729.310.259882419808979179.3247.01918.011.289930319818535190.2272.32127.613.731003971

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论