第四章 多重共线性.ppt_第1页
第四章 多重共线性.ppt_第2页
第四章 多重共线性.ppt_第3页
第四章 多重共线性.ppt_第4页
第四章 多重共线性.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,放宽古典假定下的 计量经济模型 第四章 多重共线性,2,基本假定的回顾与分析: 零均值假定 (只影响截距项,不影响斜率系数) 同方差假定 无自相关假定 解释变量非随机,或虽随机但与 u 不相关 在单一方程模型中,从重复抽样的角度一般是合理的。 在某些单一方程模型中和联立方程模型中可能会违反。 无多重共线性假定 正态性假定 (不影响OLS估计是BLUE) 根据中心极限定理,样本容量无限增大时,OLS趋于正态分布 结论:需要专门讨论无多重共线性、同方差、 无自相关,违背假定6的情况 在随机误差项不再服从正态分布的条件下,如果建立回归模型的目的仅是估计参数的话,则这一假定是否成立并不重要。但如果

2、利用参数估计对总体进行统计推断,则这一假定不满足将对分析会产生影响。当在大样本情况下,根据中心极限定理,随机误差项应近似地服从正态分布。基于上述描述,对假定6是否成立可弱化看待。 三、对违背假定2、3、4、5讨论的思路 给出违背假定的定义;提出违背假定时对模型的影响后果;对违背假定的各种表现的检验(诊断);修正违背假定的表现(其中假定4的讨论将在第七章第四节、第九章第三节和第十一章第一节介绍)。,5,引子: 发展农业和建筑业会减少财政收入吗?,为了分析各主要因素对国家财政收入的影响,建立财政收 入模型: 其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZ

3、Z建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 。 数据样本时期1978年-2003年(资料来源:中国统计年鉴2004, 中国统计出版社2004年版) 采用普通最小二乘法得到以下估计结果,6,财政收入模型的EViews估计结果,关注:1. 、F统计量;2.t统计量;3.参数估计值.,7,可决系数为0.995,校正的可决系数为0.993,模型拟合很 好。模型对财政收入的解释程度高达99.5%。 F统计量为632.10,说明0.05水平下回归方程整体上显著 t 检验结果表明,工业、农业增加值和总人口对财政收入影响显著,其他因素对财政收入的影响

4、均不显著。 农业增加值和建筑业增加值的回归系数为负数, 农业和建筑业的发展反而会使财政收入减少吗?! 这样的结果显然与理论分析和实践经验不相符。 为什么会出现这样的异常结果呢? 如果模型设定和数据真实性没有问题,问题出在哪里呢?,模型估计检验结果分析:,8,8,8,估计结果: 取 ,查临界值表得 分析: 样本回归方程的 较大,F 检验也十分显著 但是所有斜率系数的t统计量均小于临界值(全不显著!) 肉X4、蛋X5的参数为正,而鱼虾X6的参数为负,如何解释? 为什么出现这种奇怪结果!?,引例2:天津市粮食销售量及影响因素分析,9,第四章 多重共线性,本章讨论四个问题: 多重共线性的实质与产生原因

5、 多重共线性的后果 多重共线性的检测(判断)方法 多重共线性的补救方法,在第三章 多元线性回归模型中,为了对参数采用OLS法进行估计,我们给出了六个假定,其中之一就是假定解释变量之间没有多重共线性(Multi-Collinearity),即假定各个解释变量之间不存在线性关系,或者说各个解释变量的观测值之间线性无关. 现实计量经济研究中,这种无多重共线性的假定往往会被违反.,一、多重共线性的含义,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。,在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包括不完全的多重共线性,或者说不仅包括精

6、确的线性关系,还包括近似线性关系。 对于解释变量 ,如果存在不全为0的 数 ,使得 则称解释变量 之间存在着完全的多重 共线性。,用矩阵表示,解释变量的数据矩阵为,当 时,表明在数据矩阵 中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。,在经济现象中完全多重共线性十分少见。因为,实际数据不会有这么巧的精确的数学关系式。但是个别情况也是存在的,如消费与收入有关,如果用劳动收入和财产收入作为解释变量,还要用总收入作为解释变量,而 总收入=劳动收入+财产收入 这就存在完全多重共线性的危险,在这种情况下,只能得到总收入对消费的影响,而无法区分劳动收入、财产收入各自对消费的影

7、响。因此,在建模过程中需要特别注意。 完全多重共线性只是共线性的一种极端情况,大多数经济现象是下面的不完全多重共线性,怎样表示才符合在经济学中解释的那种变量之间的非精确关系呢?,不完全的多重共线性,实际经济问题中中,完全多重共线性并不多见,常见的情形是解释变量之间存在不完全的多重共线性。,如果k-1个解释变量之间不存在完全或不完全的线性关系,则称为无多重共线性,若用矩阵表示,这时的X是满秩矩阵,即Rank(X)=k. 注意:解释变量之间不存在线性关系,并不是包括不存在非线性关系,即使存在非线性关系,也并不违反多重共线性的假定.,16,能找到不全为0的数 , 使得,(正交变量),完全线性关系,不

8、完全线性关系,完全无线性关系,多重共线性指解释变量间的线性关系,既包括完全的线性关系,又包括不完全的线性关系 注意: 多重共线性有个程度的问题 无多重共线性只排除解释变量间的线性关系,不排 除相互之间的非线性关系,二、产生多重共线性的背景,多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有共同变化趋势。 比如:对于时间序列数据收入、消费、就业率,在经济上升是都呈现出增长趋势,在经济紧缩时有都呈现出下降趋势。如果将这些变量同时作为解释变量进入模型,就可能造成多重共线性问题。 2.模型中包含滞后变量。 比如:模型中引入解释变量的滞后项时,解释变量与滞后变量呈现出高度相关性,也易于导致多

9、重共线性问题。,例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。,3.利用截面数据建立模型也可能出现多重共线性。 利用截面数据建立模型,许多变量变化与发展规模相关,会呈现出共同增长的趋势,这时易于产生多重共线性问题。如生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。 4.样本数据自身的原因。 样本取值局限于一个有限范围,使得变量变异不大,或多个解释变量受总体所限,样本数据之间存在相关关系,这时易于出现多重共线性。,19,第二节 多重共线性产生的后果,从参数估计看,在完全无多重共线性时,各解释变量都独 立地影响被解释变量,多元回归是否

10、还有必要呢? 例如,对于 与 完全不相关时,相关系数 即 此时,对比一元回归时,20,1. 解释变量完全线性相关时 OLS 估计式不确定 从OLS估计式看:此时 可以证明(见108页) 同理 从偏回归系数意义看:在 和 完全共线性时,无法保持 不变,去单独考虑 对Y的影响( 和 的作用不可区分) 2. 解释变量不完全线性相关,但存在高度多重共线性时回归系数虽可以确定,但方差会变得很大,OLS估计式不精确(下面讲),一、存在多重共线性时 OLS估计式变得不确定或不精确,21,二、OLS估计式方差变得很大,标准误差增大,1. 当 和 完全线性相关时OLS估计式的方 差成为无穷大 (证明见P109)

11、 2. 当 和 不完全线性相关时 OLS估计式 的方差会增大,例如在有两个解释变量时,可证明(见P110) 当 增大时,VIF2 增大, 也会增大 , 思考: 当 时 (与一元回归比较),22,例如 例如当 时,引入任意不为0的数 模型变换 估计结果 当 时,所估计的 的参数与真实 的符号可能相反。 还可能造成参数的联合显著性很高(通过F检验),但各个 参数单独的 t 检验却不显著,三、当多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论,23,1. 多重共线性严重时,对总体参数的置信区间趋于增大 因为 (共线性越严重, 和 越大,置信区间也增大) 2. 严重多重共线时,

12、假设检验作出错误判断的概率增大 (A)参数的置信区间扩大,使得接受一个本应拒绝的假设(“以假当真”的第二类错误)的概率增大 (B)因为 ,当方差变大时 会使 t 值减 小,导致使本应否定的“参数为”的原假设被接受,四、区间估计和假设检验会出现错误,24,分析多重共线性后果时应注意: 存在多重共线性时,OLS估计式还是最佳线性无偏 估计式(BLUE) 理解: 无偏性是重复抽样的特性; 最小方差是相对于其他估计方法而言: (相对于其他方法方差最小,并不是说相对于估计量的值就小) “方差变大”是相对于无多重共线性而言 多重共线性的影响程度与解释变量在方程中的 相对“地位”有关,25,如果研究目的仅在

13、于预测Y,而解释变量X之间的多重共线性关系的性质在未来将继续保持(前提条件),这时多重共线性可能并不是严重问题,而应着重于可决系数高,F检验显著。 (理解:出现高度共线性时,虽然无法精确估计个别回归系数,但可精确估计这些系数的某些线性组合。),26,第三节 多重共线性的检验(判断是否严重),一、利用解释变量之间的相关系数去判断 1. 只有两个解释变量时:用二者相关系数 判断 2. 两个以上解释变量时:可用两两变量的相关系数 判断(K个变量可用相关系数矩阵) 判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。 注意:简单

14、相关系数只是多重共线性的充分条件,不是必要条件。在有多个解释变量时,较低的相关系数也可能存在较严重多重共线性,因此,不能简单地依据相关系数进行多重共线性的准确判断。,27,27,二、 直观判断法 (经验方法),以下情况的出现提示可能存在较严重多重共线性: (1)当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化 (2)从定性分析认为一些是重要的解释变量,但其回归系数的标准误差较大,在回归方程中没有通过显著性检验 (3)有些解释变量的回归系数的正负号与定性分析结果违背 (4)可决系数较高,F检验显著,但偏回归系数的 t 检验不显著,28,三、利用解释变量之间的辅助回归及

15、检验判断 辅助回归:逐次将每一个解释变量作为被解释 变量对其它解释变量进行回归 分别估计其参数、计算可决系数、作F检验 若辅助回归的F检验显著,认为该变量与其它变量可能存在较严重的多重共线性 若F检验不显著,认为该变量与其它变 量不存在严重的多重共线性,29,29,四、 方差扩大因子法(容许度),多元线性回归模型中,可分别以每个解释变量为被解释变量, 作与其他解释变量的辅助回归。以 为被解释变量作对其他解 释变量的辅助线性回归的可决系数用 表示。 原回归方程中解释变量 的参数估计值 的方差可表示为 (证明从略) 其中的 VIFj 是变量 所对应参数估计量的方差扩大因子,也称容许度。,其中,30

16、,30,对比,在只有两个解释变量时(如前面的讨论) 当有多个解释变量时,作 对其他解释变量的辅助回 归,并计算可决系数 , 注意: 是多个解释变量辅助回归的多重可决系数, 而相关系数 只是说明两个变量的线性关系 。 (一元回归中可决系数的数值等于相关系数的平方),31,31,由 越大 多重共线性越严重 VIFj越大 VIFj的大小可以反映解释变量之间存在多重共线性的严重 程度。 优点:可从数量上判断多重共线性的程度 (给出了一种经验规则) 经验表明: VIFj 10时,说明该解释变量与其余解释 变量之间有严重的多重共线性,且这种多重共线性可能会 过度地影响最小二乘估计。,方差扩大因子的作用,的

17、计算,以引子为例: .建立以建筑业增加值为被解释变量,其余个解释变量为解释变量的回归方程,即进行回归,并在窗口处将其命名为。 .在主窗口输入命令: /(-.R2) 3.双击中的,在主窗口左下角出现建筑业增加值的方差膨胀因子,33,33,五、 逐步回归检测法,基本思想:将变量逐个的引入模型,每引入一个解释变量 后,都要观察可决系数的变化,进行检验,并对已经选 入的解释变量逐个进行t检验。 (1)当引入新变量后可决系数显著改善,原来的解释变 量的显著性不变化,说明新变量是独立解释变量 (2)当引入新变量后可决系数变化不显著,或使得原来 的解释变量变得不再显著时,说明新变量不是独立解释变 量,则提示

18、很可能引起了多重共线性。 当出现多个解释变量之间高度相关的时候,逐步回归方法 是一种检测多重共线性的方法。,(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 Eviews中直接选用Corr命令 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下,模型的 与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。,一般而言,检验多重共线性是否存在,多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当

19、方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。,第四节 多重共线性的补救,1. 剔除变量法,把方差扩大因子最大者所对应的自变量首先 剔除再重新建立回归方程,直至回归方程中 不再存在严重的多重共线性。 一般而言,在选择回归模型时,应将回归系数的显著性检验、方差扩大因子的多重共线性检验与解释变量经济含义结合起来,通过经济分析确定变量的相对重要性,剔除不重要的解释变量。 注意: 若剔除了重要变量,可能引起模型的设 定误差(第九章)。,37,2、增加样本容量 多重共线性的后果主要是方差变大,在有两个解释变量时 式中 为常数, 确定后,当样本容量越大时, 越大

20、,可使 变小,从而减轻多重共线性 的影响 注意: 增大样本容量只能减轻多重共线性的影响,不能根本解决它,当 时,仍有 增大样本容量有时十分困难,受到数据来源的限制,38,3、利用先验信息 先验信息:在此之前的研究所提供的信息。 利用某些先验信息可把有共线性的变量组成新的变量,从而消除多重共线性 (举例:生产函数,利用规模报酬不变 的先验信息,把有共线性的变量组成新的变量,可避免共线性) ( 与 有多重共线性),39,4、截面数据与时间序列数据的结合 有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性 假定前提:截面数据估计出的参数在时间序列中变化不大 方法:先用截面数据

21、估计出一个变量的参数,再代入原模型 用时间序列数据估计另一个变量的参数 如 (Y商品销售量,P价格,I收入) 先用截面数据估计 (若各截面价格视为相同,即“保持价格不变”), 即 再用时序数据估计,40,5、变换模型的形式 对存在多重共线性的变量,进行对数变换、一阶差分 变换、比率变换等,有时可消除或减轻多重共线性的 影响。 如一阶差分: 注意:一阶差分可能带来新的问题: 虽然 和 都是序列无关的,但 常常是序列相关的,可能会违反无自相关假定. 一阶差分中减少了一个自由度 一阶差分不适于截面数据,因截面数据没有先后顺序,41,6、逐步回归法 基本思想: 用逐步引入变量回归的方法,发现产生共线性

22、的解释变 量,并按一定原则将其剔除,从而减少多重共线性影响。 方法: 这既是判断是否存在多重共线性的方法,又是解决多 重共线性的方法: 基本思路的框图为:(见下页) 注意:逐步回归剔除变量时应非常谨慎,若剔除了重要变 量,可能导致设定误差,而带来更严重的后果。 使用逐步回归剔除变量时要格外小心!,42,将Y对各个 分别回归,计算各,以 最大的作逐步回归的基础,逐个将其他变量 加入模型回归,比较检验新加入 后的模型,改善不显著对 其他变量影响很小,改善显著,多余变量,对先引入的变量 的显著性无影响,使先引入变量参数发生明 显变化或使 t 检验不显著,剔除,可考虑保留此变量,出现多重共线性,经比较

23、剔除对Y影响小的变量,加入新变量,保留最优变量 再加入新变量,7.岭回归方法,基本思想: OLS是最佳线性无偏估计式(BLUE),严重多重 共线性存在的后果主要是估计量的方差变大,能否设法使 参数估计量的方差适当缩小,哪怕稍微牺牲点无偏性呢? 设线性回归模型为 参数的OLS估计为 当有严重的多重共线性时,会有 , 将使 随之增大 方法: 设想给矩阵 加上一个正常数矩阵 ( ) 目的: 使得 的可能性比 的可能性小。,43,岭回归的方法:若 已知 岭回归估计为 其中 称为岭回归估计量, 为岭回归参数 岭回归的性质: 1)当 时, 实际就是OLS估计 2)岭回归估计量是有偏估计 当 时, , 是有

24、偏的. 越大时,偏倚 越大, 越小时,偏倚越小,44,岭回归的方法与性质,对比,45,3)岭回归估计量 的方差比 OLS估计量 的方差小 对比 当 时 可以证明 当 时, 为非负定矩阵,因此 结论:岭回归虽有偏,但方差比OLS估计小,岭回归可以以牺牲无偏性来寻求参数估计量的方差减小。,且当 越大时, 越大,即 越小.,岭回归系数 的确定,岭回归方法必须确定岭回归系数 ,而且岭回归 估计的方差和偏倚都与岭回归系数 有关: 值越大, 的偏倚越大,但其方差越小。 值越小, 的偏倚越小,但其方差越大。 为了兼顾偏倚与方差,可用“最小均方误差MSE 原则”选择 值。,46,47,47,补充:关于均方误差

25、(MSE),模型的设定有时需要对无偏性与有效性进行权衡,偏爱 哪一方取决于模型的研究目的。 为了在无偏性和有效性间加以权衡,可采用均方误差准则 均方误差是参数估计值与参数真实值之差平方的期望: 容易证明 当无法找到无偏估计和最小方差估计时,需要在“较小 偏倚”和“较小方差”间权衡,均方误差是可供选择的 准则。,方差,偏倚的平方,均方误差,48,目前还没有公认的确定岭回归系数的最优方法 经验方法: 实际操作上可用逐步搜索法。 例如选择的 使各参数估计值的方差扩大因子接近1,参数估计值合理并稳定。 但经验方法总是具有主观性,而且缺乏理论依据,这也是岭回归的局限性。,岭回归系数的确定,49,49,第

26、五节 案例分析 案例1:中国国内旅游收入的分析,研究目的:中国国内旅游市场发展迅速,需要定量地研究影响中国国内旅游市场发展的主要原因。经分析,可以旅游收入表示旅游市场发展,除了国内旅游人数和旅游支出外,还可能与旅游基础设施有关。 模型设定: 其中:,第 t年全国旅游收入,国内旅游人数(万人),城镇居民人均旅游支出 (元),农村居民人均旅游支出 (元),公路里程(万公里),铁路里程(万公里),50,50,19942003年的统计数据(教材数据),51,51,OLS回归结果,52,52,结果分析,该模型 , 可决系数很高,F检验 值173.3525,明显显著。但是当 时, 不仅 、 系数的t检验不 显著,而且 系数的符号与预期的相反,这表明很 可能存在严重的多重共线性。,各解释变量的相关系数,各解释变量相互之间的相关系数较高,证实确实存在严重多 重共线性。,53,53,用方差扩大因子法检验,例如作X3对X2、X4、X5、X6的辅助回归得 方差扩大因子为: 由于 ,根据经验,说明X3与其 他解释变量间有严重多重共线性。 其他变量间的多重共线性可用类似方式检验。,修正多重共线性 扩大样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论