版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、多重共线性的概念二、多重共线性的影响三、多重共线性的检验四、克服多重共线性的方法五、案例
§4.1多重共线性第四章违反基本假设的情况一、多重共线性的概念
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。含义:解释变量的样本向量近似线性相关。多重共线性产生的原因:(1)解释变量x受到同一个因素的影响;例如:政治事件对很多变量都产生影响,这些变量同时上升或同时下降。(2)解释变量x自己的当期和滞后期;(3)抽样方法不当;(抽样对象集中在高度类似的子群体)(4)错误设定(模型包括过多的解释变量等)对于模型其基本假设之一是解释变量是互相独立的。
二、多重共线性的影响的OLS估计量为:完全共线性指的是解释变量中某个变量是其他变量的线性组合,即c1X1+c2X2+…+ckXk=0其中ci不全为0,i=1,…k1、完全共线性下参数估计量不存在如果存在完全共线性,则不存在,无法得到参数的估计量。例:对离差形式的二元回归模型如果两个解释变量完全相关,如x2=x1,则这时,只能确定综合参数1+2的估计值:一个方程确定两个未知数,有无穷多个解。2、近似共线性增大OLS估计量的方差近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为近似共线性指的是解释变量中某个变量不完全是其他解释变量的线性组合,还差个扰动项。即c1X1+c2X2+…+ckXk+vi=0,其中ci不全为0,i=1,…k
由于,引起主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。3、检验的可靠性降低结合前面的结果,可能遗漏重要变量可能发生弃真错误4、回归模型缺乏稳定性如果存在多重共线,当样本观测数据发生微小变化时,会造成模型参数估计值的很大变化。
如果模型中两个解释变量具有线性相关性,例如X2=X1
,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。5、参数估计量经济含义不合理注:除非是完全共线性,多重共线性并不意味着任何基本假设的违背。
多重共线性诊断的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如相关系数检验法、辅助回归模型检验法、逐步回归检验、方差膨胀因子(VIF)、条件数检验法等。
三、多重共线性的检验
(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)对多个解释变量的模型,采用综合统计检验法
若在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。1、检验多重共线性是否存在
如果存在多重共线性,需进一步确定究竟由哪些变量引起。
2、判明存在多重共线性的范围(1)判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归
Xji=1X1i+2X2i+kXki的判定系数较大,说明Xj与其他X间存在共线性。具体可进一步对上述回归方程作F检验:
式中:Rj•2为第j个解释变量对其他解释变量的回归方程的可决系数,若存在较强的共线性,则Rj•2较大且接近于1,这时(1-Rj•2
)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。
构造如下F统计量~
在模型中排除某一个解释变量Xj,估计模型;
如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。
另一等价的检验是:
(2)逐步回归法
以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。
如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。
(3)方差膨胀因子(VIF:VarianceInflationFactor
)VIF指标:Xk与其余变量回归所得的可决系数VIF范围:[+1,+∞)判断:若VIF≥5,则认为多重共线性强,不可接受。(4)条件数(ConditionIndex)解释变量的相关矩阵的最大特征值与最小特征值相比调用数据库neiyun.dta讲解。条件数大于30,认为多重共线严重。corrx1x2求x1和x2简单相关系数stata语句:计算方差膨胀因子(VIF)的stata语句regx1x2scalarR2=0.4074scalarVIF=1/(1-R2)diVIF
找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。
如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。
四、克服多重共线性的方法1、第一类方法:排除引起共线性的变量
时间序列数据、线性模型:将原模型变换为差分模型:
Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。2、第二类方法:差分法
多重共线性的主要后果是参数估计量具有较大的方差,所以
采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量可使参数估计量的方差减小。3、第三类方法:减小参数估计量的方差例1
分析我国居民家庭电力消耗量与可支配收入及居住面积的关系,以预测居民家庭对电力的需求量。数据:我国居民家庭电力消耗量与可支配收入及居住面积统计资料年度年人均家庭电力消耗人均居住面积年人均可支配收入量(千瓦小时)y(平方米)指数(1978=100)198521.212.45243.17198623.213.02254.28198726.413.49265.39198831.213.94277.61198935.314.42273.49199042.414.87281.33199146.915.44289.71199254.615.64307.66199361.216.99321.07199472.716.65339.33199583.517.25356.58199693.117.82383.951997101.818.33399.85首先,作家庭电力消耗量电量与家庭可支配收入的回归模型(1),结果如下:SourceSSdfMS
Numberofobs13
F(1,11)916.35Model8815.15318815.15331
Prob>F0Residual105.8189119.61990238
R-squared0.9881Total8920.97212743.414353
AdjR-squared0.9871
RootMSE3.1016yCoef.Std.Err.tP>t[95%Conf.Interval]x20.5441270.017975130.2700.50456440.5836902_cons-113.8025.588303-20.360-126.102-101.5024然后,作用电量与住房面积的的回归方程(2),结果如下:SourceSSdfMS
Numberofobs13
F(1,11)185.3Model842118421
Prob>F0Residual499.91145.45
R-squared0.944Total892112743.4
AdjR-squared0.939
RootMSE6.742yCoef.Std.Err.tP>t[95%Conf.Interval]
x113.931.023313.61011.6771916.18_cons-16115.878-10.20-196.2335-126SourceSSdfMS
Numberofobs13
F(2,10)545.44Model8839.93724419.96848
Prob>F0Residual81.03528108.1035276
R-squared0.9909Total8920.97212743.414353
AdjR-squared0.9891
RootMSE2.8467yCoef.Std.Err.tP>t[95%Conf.Interval]x12.8085981.6059951.750.111-0.76978056.386977x20.440850.06131657.1900.30422830.577472_cons-125.3538.362493-14.990-143.9858-106.72作二元回归方程(3),结果如下:住房面积的系数在方程(2)中是显著的,在方程(3)中不显著;从F统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。相关系数检验
x1x2x11
x20.96311方差膨胀因子检验VIF:VIF=13.81>5多重共线性的解决方法:变换模型的形式:对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式,一是变换模型的函数形式(取对数);二是变换模型的变量形式(差分);三是改变变量的统计指标(如劳动投入量换成职工人数或工资总额等)。SourceSSdfMS
Numberofobs13
F(2,10)421.76Model3.36276121.681381
Prob>F0Residual0.039866100.003987
R-squared0.9883Total3.402627120.283552
AdjR-squared0.9859
RootMSE0.06314lnyCoef.Std.Err.tP>t[95%Conf.Interval]lnx13.0080580.5745255.2401.7279364.28818lnx21.0035090.4541532.210.052-0.008412.015424_cons-10.0911.15174-8.760-12.6572-7.52474利用对数模型拟合上述数据,结果如下与方程(3)相比,在对数模型中,收入和住房面积系数在统计上都是显著的,回归模型在整体上也是显著的。说明我们原先设计的线性回归模型是有误的。
§4.2异方差(Heteroscedasticity
)
1、同方差假定及异方差定义模型的假定条件给出Var()是一个对角矩阵,Var()=
2I=
2且
的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(无自相关假定),当这个假定不成立时,Var()不再是一个纯量对角矩阵。Var(
)=
2
=
2
2I.
则称随机扰动项具有异方差性。2.异方差的表现
异方差通常有三种表现形式,(1)递增型(2)递减型(3)条件自回归型。递增型异方差见图1和2。图3为递减型异方差。图4为条件自回归型异方差(复杂性异方差)。图1递增型异方差情形
图2递增型异方差
图3递减型异方差
图4复杂型异方差
注:时间序列数据和截面数据中都有可能存在异方差。
经济时间序列中的异方差常为递增型异方差。
金融时间序列中的异方差常表现为自回归条件异方差。无论是时间序列数据还是截面数据。递增型异方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。例如,在研究家庭可支配收入对家庭储蓄的影响模型中,对高收入家庭来说,储蓄的差异较大,低收入家庭的储蓄差异较小。从而使随机误差项的方差出现异方差情况。3.异方差的来源(1)经济行为本身具有的特点;例如,消费结构差异程度随着收入提高而增大。(2)模型的函数形式设定错误;例如,模型设定时丢失了重要变量,那么有该变量解释的部分变异转入模型的误差项,进而引起异方差。又如,用线性模型代替非线性模型等(3)数据的组织形式;样本数据的测量误差例如,用分组资料建立模型时,由于一个组样本量越大,该组的平均值变异越小,这个数据生成过程就体现了异方差。(4)样本数据存在异常值。例如,样本数据采用了极端现象的数据。4.异方差的后果
下面以简单线性回归模型为例讨论异方差对参数估计的影响。
对模型
yt
=0
+1
xt
+ut
(1)当Var(ut)=t2为异方差时(t2是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性,但是回归参数估计量不再具有有效性。以为例
=E()E()=E()=1+
=1Var()=E(-1)2
=E()2=E()==≠上式不等号左侧项分子中的t2不是一个常量,不能从累加式中提出,所以不等号右侧项不等于不等号左侧项。而不等号右侧项是同方差条件下1的最小二乘估计量的方差。因此异方差条件下的失去有效性。5.异方差的诊断
(2)t检验失效参数的区间估计失真,降低预测精度
(1)利用散点图做初步判断。
无异方差有异方差有异方差例2
我国制造工业利润函数。下表列出了1998年我国主要制造工业销售收入与销售利润的统计资料(单位:亿元)。现以此数据资料为例,介绍检验异方差性的一些常用方法。行业名称销售利润y销售收入x行业名称销售利润y销售收入x食品加工业187.253180.44医约制造业238.711264.1食品制造业111.421119.88化学纤维制造81.57779.46饮料制造业205.421489.89橡胶制品业77.84692.08烟草加工业183.871328.59塑料制品业144.341345纺织业316.793862.9非金属矿制品339.262866.14服装制品业157.71779.1黑色金属冶炼367.473868.28皮革羽绒制品81.71081.77有色金属冶炼144.291535.16木材加工业35.67443.74金属制品业201.421948.12家具制造业31.06226.78普通机械制造354.692351.68造纸及纸制品134.41124.94专用设备制造238.161714.73印刷业90.12499.83交通运精设备511.944011.53文教体育用品54.4504.44电子机械制造409.833286.15石油加工业194.452363.8电子通讯设备508.154499.19化学原料制品502.614195.22仪器仪表设备72.46663.68表1我国制造工业1998年销售利润与销售收入情况图1销售利润与销售收入的相关图图2残差与y拟合值的散点连线图图3残差平方和与销售收入的散点图可能存在递增的异方差图4残差平方和与销售利润的散点图可能存在递增的异方差OLS(2)怀特(White)检验White检验的具体步骤如下:
第一步:YXe1,…en检验假设:H0:即,同方差检验异方差,也就是检验随机干扰项的方差与解释变量观测值之间的相关性。第三步:~>第四步:拒绝H0,存在异方差。第二步:ei2原变量、原变量平方、交叉项R2OLS(3)戈德菲尔德-匡特检验的步骤(需要大样本):条件:样本大;方差呈现递增或递减;步骤:先对样本按观测值大小排列;去掉中间约1/4的观
测
值;把剩下的分为两分;用两个子样本回归,算出
K是辅助方程的解释变量个数,不包括常数模型存在异方差。若两个子样方差差别大时F值就大。regyximtest,white怀特(White)检验的stata语句调用数据库hetoro实际操作(4)戈里瑟检验(Glejsertest)和帕克检验(Parktest)
基本原理是通过建立残差序列对解释变量的(辅助)回归模型,判断随机误差项的方差与解释变量之间是否存在着较强的相关关系。戈里瑟提出如下的假定函数形式:帕克提出如下的假定函数形式:3.检验每个回归方程参数的显著性。如果其参数显著地不为零,则存在异方差性,相反,则认为随机误差项满足同方差假定。Glejser检验的特点是:不仅能检验异方差性,而且通过“实验”可以探测异方差的具体形式,这有助于进一步研究如何消除异方差性的影响。************************************************帕克(Park)检验***********************************************regprofitegenr2=r*rregr2e*残差平方与解释变量之间存在统计上的显著地正相关,回归方程存在异方差****************************************************戈里瑟(Glejiser)检验***************************************************regprofitepredicte,residgenabse=abs(e)regprofitabse*残差绝对值与解释变量之间存在统计上的显著地正相关,回归方程存在异方差以上怀特检验、戈里瑟检验和帕克检验方法统称为残差回归检验法。(5)ARCH检验(自回归条件异方差检验)如果在建模分析中所用样本资料是时间序列数据,当存在异方差性的时候,可考虑用ARCH(AutoregressiveConditionalHeteroskedasticity)方法检验。
则ARCH检验的基本步骤如下:
1.运用OLS方法对模型LM=(n-p)R2LM=(n-p)R2LM=(n-p)R2
5.克服异方差的方法
(1)采用GLS估计
Y=X+u
设模型为:其中E(u)=0,Var(u)=E(uu')=
2,
已知
因为
是一个T阶正定矩阵,所以必存在一个非退化TT阶矩阵M使下式成立。MM'=I
TTM'M=
-1
MY=MX+Mu取Y*=MY,X*=MX,u*=Mu
Y*=X*+u*
Var(u*)=E(u*
u*'
)=E(Muu'M')=M
2
M
'=
2
M
M
'=
2
I(GLS)=(X*'X*)-1X*'Y*=(X'M'MX)-1
X'M'MY
=(X'
-1X)-1X'
-1Y
这种方法成为广义最小二乘法(GLS)(2)通过对数据取对数消除异方差。中国进出口贸易额差(1953-1998)
对数的中国进出口贸易额之差(3)加权最小二乘法估计(GLS法的特例)模型检验出存在异方差性,可用加权最小二乘法(WeightedLeastSquares,WLS)进行估计。加权最小二乘法的基本思想:加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。从一个基本的模型开始:Y=工资,X=企业规模假设干扰项的真实方差(i)2
是已知的在模型两边除以标准差:令:1.(i)2已知考察干扰项Var(vi)=E[(vi)2]=E[(ui)2/(i)2]=E(ui)2/(i)2=1因此,vi
是同方差的,对变换后的模型使用OLS会得到参数的BLUE估计
变换后的模型:变换后的模型是一个无常数项回归!对变换以后的模型使用OLS就是加权最小二乘回归(WLS)OLS对所有的观测数据给予了相同的权数(ei)2=(Yi-b0-b1Xi)2加权最小二乘法(WLS)(ei)2=(Yi/i
–b0/i
–b1Xi/i)2=wi(Yi–b0-b1Xi)2其中,wi=1/i2,称为权数注:具有大的方差的数据被赋予较小的权数,反之亦然如果(i)2
是未知的,我们需要对(i)2
进行假设假设异方差的形式为:
2.(i)2未知新模型中,存在
即满足同方差性,可用OLS法估计。在实际中可通过残差平方对解释变量的散点图来,确定的形式。将残差平方对X作散点图,发现一个锥形这表明干扰项方差与X线性相关用X的平方根除以模型,对模型进行变换,变换后的模型具有同方差性。残差平方对X作散点图,发现一个喇叭形
这表明干扰项方差与X的平方成比例在模型的两边除以X,对模型进行变换,变换后的模型具有同方差。注意:
在实际操作中人们通常采用如下的经验方法:不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时。如果确实存在异方差,则被有效地消除了;如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法加权最小二乘法具体步骤1.选择普通最小二乘法估计原模型得到随机误差项的近似估计量2.建立得数据序列3.选择加权最小二乘法,以序列作为权,进行估计得到参数估计量。实际上是以乘原模型的两边,得到一个新模型,采用普通最小二乘法估计新模型。案例--中国农村居民人均消费函数
例2中国农村居民人均消费支出主要由人均纯收入来决定。农村人均纯收入包括(1)从事农业经营的收入,(2)包括从事其他产业的经营性收入(3)工资性收入、(4)财产收入(4)转移支付收入。考察从事农业经营的收入(X1)和其他
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 免疫化疗患者的护理沟通
- 2026年及未来5年市场数据中国梅子酒行业发展前景预测及投资战略咨询报告
- 艾灸疗法的操作流程与护理实践
- 感染科护理新进展分享
- 2026年及未来5年市场数据中国保单质押贷款市场运行动态及行业投资潜力预测报告
- 医院内部审计投制度
- 企业基建审计制度
- 团支部绩效考核制度
- 局内部财务审计检查制度
- 学科教育培训管理制度
- 2026年注册监理工程师(监理工作)考题及答案
- 多个项目合同范本
- 2026年江苏信息职业技术学院单招职业倾向性测试必刷测试卷附答案
- 2026年皖北卫生职业学院单招职业适应性测试题库附答案
- 海事局国考面试题及答案
- 2026年江西电力职业技术学院单招职业技能考试题库及参考答案详解1套
- 妇科肿瘤及早期症状
- 谈话室装修合同范本
- 化肥产品生产许可证实施细则(一)(复肥产品部分)2025
- 骨关节疾病的pt康复教案
- 备战2026年中考语文5年中考2年模拟真题作文探究-【浙江省】(解析版)
评论
0/150
提交评论