




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
三、多重共线性的检验(一) 相关系数检验 利用相关系数可以分析解释变量之间的两两相关情况。在EViews软件中可以直接计算(解释)变量的相关系数矩阵: 命令方式COR 解释变量名 菜单方式将所有解释变量设置成一个数组,并在数组窗口中点击ViewCorrelations.(二) 辅助回归模型检验 相关系数只能判断解释变量之间的两两相关情况,当模型的解释变量个数多于两下、并且呈现出较为复杂的相关关系时,可以通过每个解释变量对其他解释变量的辅助回归模型来检验多重共线性,即依次建立个辅助回归模型: 如果,其中某些方程显著,则表明存在多重共线性,所对应的变量可以近似地用其他解释变量线性表示。 辅助回归模型检验不仅能检验多元回归模型的多重共线性,而且可以得到多重共线性的具体形式;如果再结合偏相关关系检验,还能进一步判定是哪些解释变量引起了多重共线性,这有助于分析如何消除多重共线性的影响。(三) 方差膨胀因子检验 对于多元线性回归模型,的方差可以表示成: 其中,关于其他解释变量辅助回归模型的判定系数,为方差膨胀因子。随着多重共线性程度的增强,VIF以及系数估计误差都在增大。因此,可以用VIF作为衡量多重共线性的一个指标;一般当时,(此时),认为模型存在较严重的多重共线性。 另一个与VIF等价的指标是“容许度”(Tolerance),其定义为: 显然,当与其他解释变量高度相关时,。因此,一般当时,认为模型存在较严重的多重共线性。(四) 特征值检验考察解释变量的样本数据矩阵 当模型存在完全多重共线性时,;而当模型存在严重的多重共线性时,。根据矩阵知识,若为矩阵个特征值,则有: 这表明特征值中至少有一个近似地等于零。因此,可以利用的特征值来检验模型的多重共线性。实际计算时,先对样本数据做标准化处理,这样矩阵转化成解释变量的相关系数矩阵,特征值也减少到个。 利用特征值还可以构造两个用于检验多重共线性的指标:病态数Condition Number)和病态指数(Condition Index);其指标定义为: =最大特征值/最小特征值 这两个指标都反映了特征值的离散程度,数值越大,表明多重共线性越严重。一般当时,认为存在严重的多重共线性。四、多重共线性的解决方法 设定计量经济模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。这样在同时考虑多个影响因素的情况下,很可能产生多重共线性问题。在处理多重共线性之前,首先应该明确以下两点:第一, 多重共线性的主要后果是无法区分每个解释变量的单独影响,因此,如果建立模型的目的是进行预测,只要模型的拟合优度较高(即能正确反映所有解释变量的总影响),并且解释变量的相关类型在预测期内保持不变,则可以忽略多重共线性的问题。但是,如果是应用模型进行结构分析或政策评价,即利用系数分析、比较各个解释变量的单独影响,则需要消除多重共线性的影响。第二, 引起多重共线性的原因是模型中存在相关的解释变量,所以消除多重共线性的根本方法只能是从模型中剔除这些变量。但直接剔除变量可能会产生新的问题:(1)模型的经济意义不合理;例如,生产函数中资金与劳动者人数通常是高度相关的,但从中剔除任何一个要素都不太合适。(2)如果剔除的是重要解释变量。则这些变量的影响将反映在随机误差项中,使模型产生异方差性或自相关性。(3)若剔除不当还会产生设定误差的问题,造成参数估计严重有偏。因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点分别采用直接剔除和间接剔除两种方式。(一) 直接剔除次要或可替代的变量根据经济理论和实际经验设定计量经济模型时容易考虑过多的解释变量,其中有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。所以在估计模型之前,为避免多重共线性的影响,应该从模型中先剔除这些变量。次要变量可以通过被解释变量与解释变量的相关系数检验、相关图分析等统计分析加以鉴别;利用辅助回归模型和特征值检验多重共线性时,又可以提供解释变量之间相互替代性的信息。(二) 间接剔除重要的解释变量对于有重要影响的解释变量,可以通过以下方式将其“间接剔除”:1、 利用附加信息例如,著名的Cobb_Douglas生产函数中 劳动投入量L与资金投入量K之间通常是高度相关的,如果已知附加信息: (规模报酬不变)则 或 记 则C-D生产函数可以表示成: 此时二元模型转化成一元模型,当然不存在多重共线性的问题,可以利用OLS法估计,进而得到。又如,设工业能源需求函数为: 其中,分别为重、轻工业总产值,利用此模型不仅能反映工业经济增长对能源的需求情况,而且可以反映工业结构变化对能源需求的影响。但是重、轻工业发展的共向性,很可能使模型产生多重共线性。由于分别是重、轻工业的单位能耗,如果根据历史统计资料测得重工业的单位能耗(平均来说)是轻工业单位能耗的,即获得以下附加信息: 则工业能源需求函数可以表示成: 其中,模型转化成一元模型,估计出之后,又得到,从而在消除多重共线性影响的情况下得到工业能源需求函数: 2、 变换模型的形式对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式,一是变换模型的函数形式,如将线性模型转换成双对数模型、半对数模型、多项式模型等;二是变换模型的变量形式,如引入差分变量、相对数变量等;三是改变变量的统计指标,如将生产过程中的资金投入量取成固定资金或流动资金(或两者之和),劳动投入量取成职工人数或工资总额,经济增长指标取成GDP、GNP、国民收入等。再如,投资函数: 也可以变换成: 即以收入和收入增长来解释投资的增长情况。3、 综合使用时序数据与横截面数据如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。例如,设某类商品的需求函数为: 其中, 为商品需求量,分别为居民收入和该商品价格,并且已知在时序样本数据中高度相关。为此分以下二步完成:(1) 收集最近一年该商品的销售量和居民收入的统计资料(横截面数据),由于商品价格在一年中的变化幅度不大,所以将需求函数取成: 利用横截面资料估计该模型,得到需求的收入弹性。(2) 原需求函数中的也是需求的收入弹性,所以(此时实际上假设历年的平均收入弹性与近期的收入弹性近似相等),将原模型变换成: 其中,。再利用历年商品销售量、居民收入和价格的统计资料(时序数据)估计模型,得到,从而在消除多重共线性影响的情况下,估计出需求函数: 从上述三种方法的处理过程可以看出,最终还是通过减少模型中解释变量个数的方式(即剔除引起多重共线性的变量)来消除多重共线性的影响,但并不是直接剔除有重要影响的解释变量,模型中还是保留了这些变量的影响,所以称之为“间接剔除)。(三) 逐步回归建立计量经济模型的时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性的变量,选择变量是一个“由多到少”的过程。而逐步回归选择变量时,却是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量,逐步引入剔除引入,直到模型之外所有变量均不显著时为止。许多统计分析软件都有逐步回归程序,但根据计算机软件自动挑选的模型往往统计检验合理,经济意义并不理想。因此,实际应用中一般是依据逐步回归的原理,结合主观分析来筛选变量。具体步骤为:(1) 利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。(2) 在一元回归模型中分别引入第二个变量,共建立个二元回归模型(设共有个解释变量),从这些模型中再选取一个较优的模型。选择时要求:模型中每个解释变量影响显著,参数符号正确,值有所提高。(3) 在选取的二元回归模型中以同样方式引入第三个变量;如此下去,直到无法引入新的变量时为止。例5服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X、流动资产拥有量K、服装类价格指数P1和总物价指数P0。表3-4给出了有关统计资料。表3-4 服装需求函数有关统计资料年份服装需求可支配收入X流动资产拥有量K服装类价格指数P1总物价指数P019791980198119821983198419851986198719888.49.610.411.412.214.215.817.919.320.882.988.099.9105.3117.7131.0148.0161.8174.2184.717.121.325.129.034.040.044.049.051.053.09293969410010110511211211294969797100101104109111111设服装需求函数为: (1) 相关系数检验键入:COR Y X K P0 P1输出的相关系数矩阵为:YXKP0XKP0P10.99770.98340.98870.97550.98830.98770.98040.96950.97000.9918可见每个因素都与服装需求高度相关,而且解释变量之间也是高度相关的。现按照逐步回归原理建立模型。(2) 建立一元回归模型根据理论分析,可支配收入应该是服装需求最主要的影响因素;相关系数检验也表明,收入与服装需求的相关性最强。所以以作为最基本的模型。(3) 将其余变量逐个引入模型,估计结果列入表3-5(其中括号里的数字为统计量值)。XP1P0K0.11790.99500.99560.1262(8.57)-0.0378(-0.57)0.99460.99580.1030(5.67)0.0857(0.83)0.99480.99600.1315(7.03)-0.0388(-0.74)0.99470.99590.1042(7.55)-0.1866(-2.47)0.3132(2.59)0.99700.99800.0978(3.71)-0.1972(2.24)0.3401(-2.20)0.0144(0.30)0.99650.9980从表3-5的估计结果可以看出,在基本模型中引入P1之后,的符号正确,但P1的检验不显著,同时拟合优度提高不多,反而下降,同理再分别引入其他两个解释变量,引入的变量都不显著,但相对来说,模型的拟合优度最高,所以再将该模型作为基本模型,逐步引入其他变量。引入P1之后,模型中各个系数的符号合理,解释变量的t检验也都是显著的,并且拟合优度都有所提高。在此基础上再引入K,其检验不显著,为多余变量。 经过以上的逐步引入检验过程,最终确定服装需求函数为: 从本例的讨论过程可以看出:(1)模型中引入相关性较强的解释变量,会影响系数的估计值和检验值,这正是多重共线性的主要影响。(2) 在模型中增添解释变量,不论其影响是否显著都会使的值上升;但的值却不一定增加,增添不显著的解释变量甚至可能会使的值下降。所以比较不同模型的拟合优度时,取比较合理。 另外,该需求模型还存在两个问题,一是DW值接近于4,可能存在自相关性;二是样本容量太小,却要考虑引入4个解释变量,样本的自由度只有;所以模型的估计结果可能并不可靠,过高的拟合优度也可能提供的是虚假信息。本例只是为了说明多重共线性的处理过程,实际应用中只有在样本容量较大的情况下,才能考虑引入多个解释变量。(四) 主成分回归主成分回归(Principal Components Regression,简称PCR)是根据多元统计分析中的主成分分析原理、用于处理多重共线性模型的一种新的参数估计方法。其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响,并且互不相关。因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。主成分回归的具体步骤为:(1) 对原始样本数据做标准化处理,这样矩阵即为解释变量的相关系数矩阵。(2) 计算个特征值,以及相应的标准化特征向量。(3) 利用特征值检验多重共线性。模型存在多重共线性时,至少有一个特征值近似地等于零,不妨设近似为零,这表明解释变量之间存在着个线性相关关系。(4) 设解释变量(已标准化)个主成分为: 其中,互不相关,并且近似为零。将(标准化的)被解释变量关于个主成分进行回归,得: (5) 根据主成分与解释变量之间的关系式(3-18),将其代入主成分回归方程(3-19)式,求得用标准化数据表示的的回归方程: 系数与原模型中参数之间的关系为: 其中,、分别为和的标准差;由此可以计算出原回归模型中的参数,进而得到: 例6中国民航客运量预测模型,为了研究我国民航客运量的变化趋势及其成因,经分析选择了以下解释变量:居民消费额(亿元)、政府消费额(亿元)、铁路客运量(万人)、来华旅游入境人数(万人)、民航航线里程(万公里),并取中国民航客运量(万人)作为被解释变量。有关统计资料列入表3-6。表3-6 民航客运量及其影响因素的统计资料年份民航客运量居民消费额政府消费额铁路客运量来华旅游人数民航航线里程1978197919801981198219831984198519861987198819891990199119921993199419951996199719982312983434014453915547479971310144212831660217828863383403851175555563057551759.12005.42317.12604.12867.93182.53674.54589.05175.05961.27633.18523.59113.210315.912459.815682.420809.826944.532152.334854.636921.14806146597057708381020118413671490172720332252283034924500598666907852872594858149186389922049530099922106044113530112110108579112479122645113807957129508099693105458108738102745941629257893620180.92420.39570.25776.71792.43947.701285.221783.302281.952690.233169.482450.142746.203335.653311.504152.704368.454638.655112.755758.796347.8414.8916.0019.5321.8223.2722.9126.0227.7232.4338.9137.3847.1950.6855.9183.6696.08104.56112.90116.65142.50150.58(1) 多重共线性检验由于选择的影响因素较多,所以估计模型之前,应该先分析各个因素与被解释变量之间的关系,以及因素之间的相关程度。利用SCAT命令观察了与各个解释变量的相关图之后,再用COR命令进行相关系数检验输出的相关系数矩阵为: 0.9862 0.9869 0.9969 -0.1199 -0.1567 -0.1569 0.9553 0.9377 0.9420 0.0779 0.9878 0.9778 0.9877 -0.1140 0.9569计算结果表明,除铁路客运量之外 ,其他因素与民航客运量高度相关;而且解释变量之间也是两两高度相关的。为了进一步检验解释变量之间的相关关系,利用SPSS软件计算出解释变量相关系数矩阵的特征值为: 此时,即(标准化后的)样本数据矩阵是一个病态矩阵,而且病态(条件)数和病态指数分别为: 因此,模型存在严重的多重共线性。如果此时用OLS法估计模型,将得到以下估计结果:模型中所有解释变量的检验均不显著,并且的系数符号不合理。(2) 主成分回归 现采用主成分回归解决多重共线性问题。根据SPSS软件的计算结果,所对应主成分的累计贡献率(贡献率为:)达到98.77%;对应的标准化特征向量为: 所以两个主成分为:其中,均为标准化后的解释变量。从主成分中各变量的系数值可以看出,第一主成分主要反映了的变化,即综合反映了与民航客运量正相关因素的影响;第二主成分主要反映了客运量的变化,即与民航客运量负相关因素的影响。 在SPSS软件中可以自动生成主成分的样本值(又称为样本得分值),将其转入EViews软件后,先对变量Y进行标准化处理:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出国木工考试题目及答案
- 跨境支付领域区块链技术应用现状与优化策略研究报告
- 成长思维考试题库及答案
- 影视行业新趋势:2025年工业化制作流程与质量控制创新实践研究报告
- 2025年文化创意产业园区品牌战略与产业集聚发展路径优化实践
- 县厨艺大赛活动方案策划
- 固原防静电地坪施工方案
- 车工中级考试题库及答案
- 音量和音调测试题及答案
- 石家庄水下切割施工方案
- 招标及采购基础知识培训课件
- 中国邮政储蓄银行2025年反洗钱知识考试题库(带答案)
- 共情课件的教学课件
- 2025年医院三基三严试题题库(附答案)
- 医院消毒供应中心控感管理规范
- 2025年部编版语文新教材三年级上册第六单元大单元教学及课时教案
- 2025年湖北省中考化学试题深度解读及答案详解
- 贸易安全管理办法
- 疾控中心检验科个人实习总结
- 国企总经理竞聘面试题8套和专业题22问及答案
- 乡镇避孕药具知识培训
评论
0/150
提交评论