




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,2.6多重共线性2.6.1性质2.6.2产生原因2.6.3带来后果(或具体表现)2.6.4多重共线性的检验2.6.5多重共线性的修正,2,多重共线性的性质,含义:原意是指回归模型的解释变量之间存在“完全”或准确的线性关系。如:,现在多重共线性还用来泛指诸X变量之间有交互相关,但又非完全相关:,3,一、多重共线性的两种表现形式,那么就说原模型中存在多重共线性。,则表明原模型中存在完全多重共线性,则表明原模型中存在不完全多重共线性,4,1.完全多重共线性,假设为了研究某种商品的需求函数,收集到一组样本数据,观察两个自变量,它们之间实际上存在下面函数关系,也就是说两个自变量之间存在明确的线性关系,即所谓的完全共线性,5,因而原来的模型变为,这个模型实际上变成了一个一元线性回归模型,我们可以估计出截距系数和斜率系数,在上面的方程组中,有三个未知数,没有办法求出原回归模型中三个参数的唯一解,这就是完全多重共线性的后果,6,2.不完全多重共线性,假设现在收集到另外一组样本数据,在这个样本中,两个自变量之间没有明确的函数关系,但是它们之间的相关系数,说明两个变量之间还是存在线性相关关系,7,在这种不完全多重共线性情况下,可以对模型使用最小二乘估计,得到下面的结果,(-3.4444),(-0.7911),参数是可以估计出来,但是这个模型存在下面两个问题:,1.收入参数的斜率系数符号为负,在现实生活中我们知道随着人们收入的增加,对一般商品的需求应该也是增加的,参数符号应该为正;2.收入参数没有通过t检验,8,二、多重共线性产生的原因,1、经济变量之间的内在联系(对横截面数据),工业生产函数中,,劳动力投入量和资金投入量,产品需求函数中,,商品本身价格和替代品价格,消费函数中,,人们的收入和财产,这些变量之间实际上相互联系,经常会表现出一定的相关关系,2、经济变量共同变化的趋势(对时间序列数据),这些经济变量本身之间可能没有非常密切的联系,但是它们在相同的样本期间内,有着相同变化的趋势,比如在经济繁荣的时期,人们的收入、投资、就业等经济变量都会相同的增长趋势,9,3、模型中引入了滞后变量,比如在消费函数中引入了上一期或者前几期收入,各期收入之间有可能是高度相关的,10,三.多重共线性的后果,多重共线性对多元线性模型的影响,可以从完全多重共线性和不完全多重共线性两个方面进行分析。,(1)参数无法估计(参数无唯一解)前面我们已经通过一个例子说明在完全多线性的情况下,没有办法得到参数的唯一解,实际上我们也可以从二元线性回归模型的参数估计表达式中得出同样得结论,1.完全多重共线性对模型的影响,11,以一个二元线性回归模型的偏斜率系数为例,在完全共线性情况下,若,12,(2)参数估计量的方差无穷大,在多元线性回归模型一章中也给出了参数估计量的方差,13,两个自变量完全共线性时,,14,2.不完全多重共线性对模型的影响,(1)参数估计值的方差增大随着自变量之间的相关性增强,估计参数的方差也随之增大,从刚推导出的方差表达式中也可以看出,15,为此特别定义方差膨胀因子,观察右侧方差增大的趋势表,可以发现当变量之间的的相关系数,方差急剧增大,16,(2)t检验的可靠性降低模型中存在多重共线性时,估计参数的方差增大,因此其标准差也会增大,从而使得t检验值减小,一个或多个自变量可能没有办法通过参数的显著性检验,其检验的可靠性也会降低,(3)难以区分每个自变量对因变量的单独影响正是由于自变量之间的共线性,它们相互影响,因此没有办法分离出每个解释变量对因变量的影响,17,(4)参数估计值及其标准差对数据的微小变化都非常敏感,18,四、多重共线性的检验,多重共线性检验一般要实现下面几个任务,1.检验多重共线性是否存在,2.判断多重共线性问题的严重程度,3.判断多重共线性的具体形式,多重共线性产生的原因比较复杂,在实际的检验过程中没有固定的、确定的方法,只有一些探索性的手段,19,1.利用相关系数检验,通过计算自变量之间的两两的相关系数,可以大体判断出模型中是否存在多重共线性,举例:经过计算,四个自变量两两的相关系数如下,从上面的相关系数矩阵中可以看出这四个自变量两两之间高度相关,因此原模型中存在多重共线性问题,20,2.综合分析普通最小二乘估计的结果,如果最小二乘估计结果的拟合系数和方程总体显著统计量都比较大,而有的自变量的偏斜率系数t检验值较小,无法通过显著性检验,此时模型中可能会存在多重共线性问题,(-1.7614)(3.7076)(0.2951)(-2.2049)(2.2391),21,3.通过辅助回归方程进行检验,这种检验方法通过建立每个自变量和其它自变量之间的辅助线性回归方程来检验模型中是否存在多重共线性,也就是建立形如,如果其中某些自变量通过参数显著性检验,就表明模型中存在多重共线性。,22,不仅能检验是否模型中是否存在多重共线性,而且可以得到多重共线性的具体形式;,这种检验方法具有比较显著的作用:,结合相关和偏相关分析,可以进一步断定模型中哪些自变量引起多重共线性,23,例:,(-3.0501)(3.5450)(-0.8013)(2.3868),(0.8944)(3.5450)(1.0732)(-1.3268),24,(0.9844)(-0.8013)(1.0731)(3.3131),(3.9530)(2.3868)(-1.3268)(3.3131,25,4.通过计算方差膨胀因子和容许度来判断,(1)计算每个自变量对应的方差膨胀因子VIF来判断模型中是否存在多重共线性,一般认为如果方差膨胀因子VIF10,那么模型中的自变量之间是高度共线性的。,26,(2)容许度(tolerance)是方差膨胀因子的倒数,某个自变量的容许度就是其他自变量所不能解释的这个自变量的变动程度。某个自变量的容许度数值越大,其他自变量对该自变量的解释程度越小,那么这个自变量和其他自变量的共线性程度越小;反之则表明这个自变量和其他自变量的共线性程度越大。,27,通过计算可以看出每一个辅助回归方程中的方差膨胀因子都大于10,容许度都比较小,因此原模型中存在比较严重的共线性问题,例4利用例3中的辅助回归方差来计算VIF和Tol,28,方差膨胀因子的有关说明,使用方差膨胀因子来度量模型中的共线性仅仅是一种经验方法,它的使用也受到一些批评。一个较高的方差膨胀因子既不是导致参数估计值较大的标准误差的必要条件也不是充分条件,也就是说一个较高的VIF度量出来的较高的多重共线性不一定会导致参数估计值较高的标准误差。,29,对比模型中每个自变量的方差膨胀因子和参数显著性检验的结果,可以发现第二个自变量的方差膨胀因子是最小的,但偏偏是它没有通过参数的显著性检验,第一个自变量和第四个自变量的方差膨胀因子都是非常大的,但是它们反而都通过了参数的显著性检验,比较例3中的VIF和t统计量,30,课堂练习题,某商品的需求函数为其中Y为需求量,X1为商品价格,X2为收入,现已知两个自变量之间的相关系数为-0.96,需求函数的回归结果为:,(1)计算该模型的方差膨胀因子(2)结合方差膨胀因子和相关的检验统计量,判断该模型是否存在多重共线性,31,五、多重共线性的解决方法,在处理多重共线性问题之前,必须明确两点:,如果建立模型的目的仅仅是为了预测,只要模型的拟合系数较大,而且自变量之间的相关关系在短时间内不会变化,那么多重共线性的影响其实并不太重要;,多重共线性产生最主要的原因是多元线性回归模型中自变量之间的相关性,其根本解决方法是剔除回归模型中的若干自变量,但是这样一来又会带来其他的问题,模型的经济意义不尽合理如生产函数中,劳动力投入和资本投入之间经常高度相关,剔除其中任何一个都不太合适,32,如果剔除的变量是比较重要的,那么将影响回归模型的估计,容易使得模型产生异方差和自相关的问题;,如果自变量剔除不当,还会使得模型设定存在偏差,造成参数估计严重偏误,为了解决多重共线性的问题,我们应该慎重考虑,根据自变量的特点,分别采用直接剔除法和间接剔除法来对多重共线性进行补救,33,1.直接剔除次要或者可以替代的变量,如果模型中有些自变量可能是没有显著影响的,或者它们的影响可以用其他变量来代替,那么可以直接剔除补充案例1:,34,2.间接剔除重要的解释变量,(1)利用已知或者附加的信息(先验信息)前面我们讲到,在柯布道格拉斯生产函数中,劳动力投入L和资本投入K之间常常是高度相关的,如果我们事先知道劳动力投入和资本投入之间是规模报酬不变的,即1,则原来的生产函数可以改写为,对于模型中重要的解释变量,可以利用下面的方法将它们“间接剔除”:,35,36,(2)改变模型的形式,对原来的模型进行适当的改变有时也可以消除或者减少模型中自变量之间的相关程度:,1)改变模型的函数形式,将线性回归模型转为为对数模型或者多项式模型等;,2)改变自变量的形式,使用差分变量、相对数变量;,3)改变变量的统计指标,比如在生产函数中,劳动力投入使用职工工资指标,资本投入采用固定资产或者流动资产指标来进行分析。补充案例2:,37,(3)增加样本容量,多重共线性是一个样本现象,在研究同一个问题的另外一个样本中或许并不存在非常严重的多重共线性,因此增大样本容量也许能够减轻模型中大的共线性程度。,但是在在实际的工作中,社会经济的数据并不是通过实验方法来获得的,要得到新增的数据并不是轻而易举的事情,也许要花费很大的代价。,38,(4)综合使用横截面数据和时间序列数据,比如研究汽车的需求函数,假定收集到车辆出售数量、车辆平均价格和消费者收入的有关数据,并且设定,如果价格和收入之间有高度共线性的趋势,对上面的模型进行回归将会遇到多重共线性问题。为了解决这个问题,a)假设我们能够收集到横截面的数据,我们就能比较可靠地估计收入弹性,因为这些数据都产生在同一时间内,价格不至于发生很大变化,39,需求函数就可以写成,b)再利用时间序列数据,估计价格弹性,这种方法的问题:这种方法解释起来可能有一定的问题,它假定收入弹性的横截面估计值和从纯粹的时间序列分析中得到的估计值完全一致。当横截面估计在不同截面之间没有多大变化时可以考虑使用这种方法。,40,1、向前选择法(Forward),六、多元回归模型中选择自变量的方法,思路:向前选择法从一元线性回归模型开始,找出拟合系数最大的一元线性回归模型和自变量,然后再向模型中增加一个变量,找到拟合系数或F值最大的二元线性回归模型;采用类似方法不停地向模型中增加自变量。当增加的自变量不能使残差平方和明显减少时,结束这一过程。,41,问题:这种方法不能反应引入新的自变量后模型的变化情况,某个自变量开始可能是显著的,但是引入其他自变量后也许会变得不显著了,但是没有机会将它剔除出去,只考虑引入变量,没有考虑剔除的方法是不全面的。,特点:使用这种方法,变量被增加到模型中,就不容许把它从模型中剔除。,42,2、向后排除法(Backward),思路:这种方法和向前选择法相反,它从包含所有自变量的回归模型开始,然后利用准则从模型中剔除变量,使模型的拟合系数减小最小的自变量会被从模型中剔除出去;这样每次只剔除一个变量,直到剔除的自变量使得模型的拟合系数显著减小为止。,特点:使用这种方法,不容许把剔除的变量再增加到模型中。,43,思路:这种方法和向前选择法有些相似,但是在每增加一个变量时,会对模型中的所有自变量进行检验,判断是否需要删除某个自变量。如果增加一个新的自变量以后,先前引入的某个自变量对模型的贡献变得不显著了,那么这个新加入到自变量将会被剔除。,3、逐步回归法(Stepwise),44,特点:这种方法综合了向前选择法和向后剔除法的特点,它不停地向模型中增加自变量并考虑剔除以前引入的自变量的可能性,直到移入的自变量不能使模型中的拟合系数显著增加为止。使用这种方法,前面步骤中被剔除的自变量随后也有可能重新进入模型。,45,案例分析(3例),例:天津市粮食需求模型(1974-1987)y:粮食销售量(万吨/年),x1:市常住人口数(万人),x2:人均收入(元/年),x3:肉销售量(万吨/年),x4:蛋销售量(万吨/年),x5:鱼虾销售量(万吨/年)。,46,案例分析,y=-3.497+0.125x1+0.074x2+2.678x3+3.453x44.491x5(-0.1)(2.1)(1.9)(2.1)(1.4)(-2.0)R2=0.97,F=52.59,DW=1.97,t0.05(8)=2.31,T=14,(1974-1987)R2=0.97,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。,47,把解释变量换成对数形式建模还是存在多重共线性。y=-134.248+0.013x1+33.611Lnx2+34.363Lnx3+27.280Lnx434.906Lnx5(-2.0)(0.1)(1.7)(1.8)(1.3)(-1.6)R2=0.97,F=50.2,DW=1.96,T=14,t0.05(8)=2.31,(1974-1987)用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。,因为其中有两个简单相关系数大于R2=0.97,所以根据Klein判别法,模型中存在严重的多重共线性。,案例分析(3例),48,案例分析(3例),用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。y=-90.921+0.317x1(-4.7)(12.2)R2=0.92,F=147.6,T=14,(1974-1987)y=99.613+0.082x2(15.4)(7.6)R2=0.83,F=57.6,T=14,(1974-1987)y=74.648+4.893x3(9.0)(8.7)R2=0.86,F=75.4,T=14,(1974-1987)y=108.865+5.740 x4(18.3)(6.8)R2=0.80,F=46.8,T=14,(1974-1987)y=113.375+3.081x5(18.7)(6.0)R2=0.75,F=36.1,T=14,(1974-1987)解释变量的重要程度依次为x1,x3,x2,x4,x5。,49,案例分析(3例),(2)以第一个回归方程y=-90.921+0.317x1为基础,依次引入x3,x2,x4,x5。首先把x3引入模型,y=-39.795+0.212x1+1.909x3(-1.6)(4.7)(2.6)R2=0.95,F=114,T=14,(1974-1987)因为R2从0.92增至0.95,且x3的系数通过显著性检验,所以在模型中保留x3。再把x2引入模型,y=-34.777+0.207x1+0.009x2+1.456x3(-1.3)(4.3)(0.5)(1.2)R2=0.96,F=70.8,T=14,(1974-1987)因为x2的引入没有使R2得到明显改善,同时还使各回归系数的t值下降,所以应剔除x2。把x4引入模型,y=-37.999+0.210 x1+1.746x3+0.235x4(-1.4)(4.4)(1.5)(0.2)R2=0.95,F=69,T=14,(1974-1987)同理,应剔除x4。,50,把x5引入模型,y=-40.823+0.211x1+2.145x30.157x5(-1.5)(4.4)(1.6)(-0.2)R2=0.95,F=69,T=14,(1974-1987)同理,应剔除x5。最后确定的模型是y=-39.795+0.212x1+1.909x3(-1.6)(4.7)(2.6)R2=0.95,F=114,T=14,(1974-1987)学生习作案例:,案例分析(3例),51,补充案例1:1998年农村居民食品支出,1998年31省市自治区农村居民人均年食品支出(food,元)、人均年总支出(EX,元)和人均年可支配收入(IN,元)。见散点图,food与EX和IN都是正相关的,,52,补充案例1:1998年农村居民食品支出,建立2元回归模型:,估计结果IN回归系数是负的。显然与事实不符、与经济理论不符。原因是EX和IN之间的多重共线性(高度相关)。,r(EX,IN)=0.9537大于可决系数0.9482。按Klein判别准则模型存在严重的多重共线性。,53,另外,如果用food只对IN回归,回归系数是正的。这也说明上述二元回归结果中存在多重共线性。Foodt=285.5945+0.2571Int(4.7)(10.5)R2=0.79,F=110,T=31处理方法是用food只对EX回归。效果很好。,补充案例1:1998年农村居民食品支出,54,补充案例2:中国私人轿车拥有量决定因素分析,1985-2002年中国私人轿车拥有量以年增长率23%,年均增长55万辆的速度飞速增长。考虑到目前农村家庭购买私人轿车的现象还很少,在建立中国私人轿车拥有量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 10471:2025 EN Glass-reinforced thermosetting plastics (GRP) pipes - Determination of the long-term ultimate bending strain and the long-term ultimate relative ring defle
- 葫芦岛市连山区选调教师考试真题2024
- 道路运输企业主要负责人和安全生产管理人员安全考核试题与参考答案
- 中小学歌曲弹唱知到智慧树答案
- 高危药品管理试题(附答案)
- 茶艺师资格证考试茶艺师培训题库(附答案)
- 2025版瓷砖进出口贸易与物流配送合同
- 2025年版事业单位食品安全管理员岗位聘用合同服务条款
- 2025房地产价值评估与资产定价全面协议
- 2025年度时尚饰品新品试用及销售合同
- 2025年基孔肯雅热和登革热防控知识考试试题及参考答案
- 2025-2026学年第一学期安全主题教育
- 汽车美容承包合同(标准版)
- 管道设计培训课件
- 2025-2026学年新交际英语(2024)小学英语一年级上册教学计划及进度表
- 河北省廊坊市2024-2025学年高一下学期期末考试 数学试卷
- 2025年发展对象考试题库附含答案
- 2025年内蒙古中考数学真题(含答案解析)
- 2025年兵团基层两委正职定向考录公务员试题(附答案)
- 2025至2030年中国铍铜棒线材行业市场深度分析及投资策略研究报告
- 物业公共维修管理课件
评论
0/150
提交评论