版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-7-31第五节第五节 多重共线性的情形及其处理多重共线性的情形及其处理5 .1 5 .1 多重共线性产生的背景和原因多重共线性产生的背景和原因5 .2 5 .2 多重共线性对回归模型的影响多重共线性对回归模型的影响5 .3 5 .3 多重共线性的诊断多重共线性的诊断65.4 65.4 消除多重共线性的方法消除多重共线性的方法65.5 65.5 主成分回归主成分回归65.6 65.6 本章小结与评注本章小结与评注2022-7-32第五节第五节 多重共线性的情形及其处理多重共线性的情形及其处理 如果存在不全为如果存在不全为0 0的的p p+1+1个数个数c c0 0, ,c c1 1,
2、,c c2 2,c cp p , ,使得使得c c0 0+ +c c1 1x xi i1 1+ +c c2 2x xi i2 2+c cp px xipip=0 , =0 , i i=1,2,=1,2,n n (5.15.1) 则称自变量则称自变量x x1 1, ,x x2 2,x xp p之间存在着完全多重共线性。之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的在实际经济问题中完全的多重共线性并不多见,常见的是(是(6.16.1)式近似成立的情况,即存在不全为)式近似成立的情况,即存在不全为0 0的的p p+1+1个数个数c c0 0, ,c c1 1, ,c c
3、2 2,c cp p , ,使得使得c c0 0+ +c c1 1x xi i1 1+ +c c2 2x xi i2 2+c cp px xipip0 , 0 , i i=1,2,=1,2,n n(5.25.2) 称自变量称自变量x x1 1, ,x x2 2,x xp p之间存在着多重共线性之间存在着多重共线性(Multi-collinearity),(Multi-collinearity),也称为复共线性。也称为复共线性。2022-7-335.1多重共线性产生的经济背景和原因多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资当我们所研究的经济问题涉及到时间序列资料时料时
4、, ,由于经济变量随时间往往存在共同的变化趋由于经济变量随时间往往存在共同的变化趋势势, ,使得它们之间就容易出现共线性。使得它们之间就容易出现共线性。 例如例如, , 我们要研究我国居民消费状况我们要研究我国居民消费状况, ,影响居影响居民消费的因素很多民消费的因素很多, ,一般有职工平均工资、农民平一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等率、货币发行量、储蓄额、前期消费额等, ,这些因这些因素显然既对居民消费产生重要影响素显然既对居民消费产生重要影响, ,它们之间又有它们之间又有着很强
5、的相关性。着很强的相关性。 2022-7-345.1多重共线性产生的经济背景和原因多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。存在自变量高度相关的情形。 例如例如, ,我们以企业的截面数据为样本估计生产我们以企业的截面数据为样本估计生产函数函数, ,由于投入要素资本由于投入要素资本K,K,劳动力投入劳动力投入L,L,科技投入科技投入S,S,能源供应能源供应E E等都与企业的生产规模有关等都与企业的生产规模有关, ,所以它所以它们之间存在较强的相关性。们之间存在较强的相关性。2022-7-355.2 多
6、重共线性对回归模型的影响多重共线性对回归模型的影响 设回归模型设回归模型y y=0 0+1 1x x1 1+2 2x x2 2+p px xp p+存在完全的多重共线性存在完全的多重共线性, ,即对设计矩阵即对设计矩阵X X的列向量存的列向量存在不全为零的一组数在不全为零的一组数c c0 0, ,c c1 1, ,c c2 2,c cp p , ,使得使得c c0 0+ +c c1 1x xi i1 1+ +c c2 2x xi i2 2+c cp px xipip=0 , =0 , i i=1,2,=1,2,n n 设计矩阵设计矩阵X X的秩的秩rankrank(X X) p p+1+1,此
7、时,此时|xx|=0|xx|=0,正规方程组的解不唯一,(,正规方程组的解不唯一,(xxxx)-1-1不不存在,回归参数的最小二乘估计表达式存在,回归参数的最小二乘估计表达式 不成立。不成立。y yX XX XX X-1)(2022-7-365.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 对非完全共线性对非完全共线性, , 存在不全为零的一组数存在不全为零的一组数c c0 0, ,c c1 1, ,c c2 2,c cp p , ,使得使得c c0 0+ +c c1 1x xi i1 1+ +c c2 2x xi i2 2+c cp px xipip0 , 0 , i i=1,2
8、,=1,2,n n2022-7-375.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 我们做我们做y y对两个自变量对两个自变量x x1 1, ,x x2 2的线性回归的线性回归, ,假定假定y y与与x x1 1, ,x x2 2都已经中心化,此时回归常数项为零,回归方都已经中心化,此时回归常数项为零,回归方程为程为2211xxy2022-7-385.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 2022-7-395.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 2022-7-3105.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 当给不同的当
9、给不同的r r1212值时值时, ,由表由表6.16.1可看出方差增大的速度。可看出方差增大的速度。 为了方便,我们假设为了方便,我们假设2 2/ /L L1111=1,=1,相关系数从相关系数从0.50.5变为变为0.90.9时时, ,回归系数的方差增加了回归系数的方差增加了295%,295%,相关系数从相关系数从0.50.5变为变为0.950.95时时, ,回归系数的方差增加了回归系数的方差增加了670%670%。2022-7-3115.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 在例在例3.33.3中中, ,我们建立的中国民航客运量回归方程为:我们建立的中国民航客运量回归方
10、程为: =450.9+0.354=450.9+0.354x x1 1-0.561-0.561x x2 2-0.0073-0.0073x x3 3+21.578+21.578x x4 4+0.435+0.435x x5 5其中:其中:y y民航客运量民航客运量( (万人万人),), x x1 1国民收入国民收入( (亿元亿元), ), x x2 2消费额消费额( (亿元亿元),), x x3 3铁路客运量铁路客运量( (万人万人), ), x x4 4民航航线里程民航航线里程( (万公里万公里),), x x5 5来华旅游入境人数来华旅游入境人数( (万人万人) )。 5 5个自变量都通过了个自
11、变量都通过了t t检验,但是检验,但是x x2 2的回归系数是负值,的回归系数是负值,x x2 2是消费额,从经济学的定性分析看,消费额与民航客运量应是消费额,从经济学的定性分析看,消费额与民航客运量应该是正相关,负的回归系数无法解释。问题出在哪里?这正该是正相关,负的回归系数无法解释。问题出在哪里?这正是由于自变量之间的复共线性造成的。是由于自变量之间的复共线性造成的。y 2022-7-3125.3 多重共线性的诊断多重共线性的诊断 一、方差扩大因子法一、方差扩大因子法 对自变量做中心标准化,则X*X*=(rij)为自变量的相关阵。记C=(cij)=(X*X*)-1(6.5)称其主对角线元素
12、VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知,pjLcjjjjj, 1 ,/)var(2其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。2022-7-3136.3 多重共线性的诊断多重共线性的诊断 2022-7-3146.3 多重共线性的诊断多重共线性的诊断 经验表明,当VIFj10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性
13、。当pjjVIFpVIF11远远大于1时就表示存在严重的多重共线性问题。 2022-7-3156.3 多重共线性的诊断多重共线性的诊断当某自变量 xj对其余p-1 个自变量的复判定系数2jR超过一定界限时,SAS 软件将拒绝这个自变量xj进入回归模型。称Tolj=1-2jR为自变量 xj的容忍度(Tolerance) ,SAS 软件的默认容忍度为0.0001。也就是说,当2022-7-3166.3 多重共线性的诊断多重共线性的诊断以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。 Coefficientsa450.909178.0782.532.030.354.0852.44
14、74.152.002.0011963-.561.125-2.485-4.478.001.0011741-7.E-03.002-.083-3.510.006.3153.17121.5784.030.5315.354.000.01855.5.435.052.5648.440.000.04025.2(Constant)X1X2X3X4X5BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependent Variable: Ya. 2022-7
15、-3176.3 多重共线性的诊断多重共线性的诊断二、特征根判定法二、特征根判定法(一)特征根分析 根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式|X XX X|0时, 矩阵X XX X至少有一个特征根近似为零。反之可以证明,当矩阵X XX X至少有一个特征根近似为零时,X X 的列向量间必存在复共线性,证明如下:2022-7-3186.3 多重共线性的诊断多重共线性的诊断 记X X =(X X0 ,X X1,X Xp),其中 X Xi为X X 的列向量, X X0 =(1,1,1)是元素全为1的n维列向量。是矩阵X XX X的一个近似为零的特征根,0c c=(c0,c1
16、, ,cp)是对应于特征根的单位特征向量,则X XX X c c=c c0 02022-7-3196.3 多重共线性的诊断多重共线性的诊断 上式两边左乘c c,得 c cX XX X c c0 0从而有 X X c c0 0即 c0X X0 +c1X X1+cp X Xp0 0写成分量形式即为 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n这正是(6.2)式定义的多重共线性关系。2022-7-3206.3 多重共线性的诊断多重共线性的诊断(二)条件数 特征根分析表明,当矩阵XX有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可
17、以用下面介绍的条件数确定。记XX的最大特征根为m,称p,0,1,2,i ,imik为特征根i的条件数(Condition Index)。2022-7-3216.3 多重共线性的诊断多重共线性的诊断 0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。 用条件数判断多重共线性的准则 2022-7-3226.3 多重共线性的诊断多重共线性的诊断 Collinearity Diagnosticsa5.5781.000.00.00.00.00.00.00.3783.842.00.00.00.00.00.003.745E-0212.
18、205.01.00.00.00.03.194.203E-0336.431.17.00.01.09.50.041.939E-0353.643.72.00.01.66.15.718.080E-05262.762.10.99.99.25.31.06Dimension123456EigenvalueConditionIndex(Constant)X 1X 2X 3X 4X 5Variance ProportionsDependent Variable: Ya. 对例3.2中国民航客运量的例子,用SAS软件计算出特征根与条件数如下: 2022-7-3236.3 多重共线性的诊断多重共线性的诊断 方差比例
19、是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以根据(6.9)式直接从特征向量看出来,只是SAS软件在线性回归模块中没有输出特征向量阵。 把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果6.2的方差比。 再次强调的是线性回归分析共线性诊断中设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。 2022-7-3246.3 多重共线性的诊断多重共线性的诊断 (三)直观判定法 1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计
20、值发生较大变化。 2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。 3.有些自变量的回归系数所带正负号与定性分析结果违背。 4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。 2022-7-3256.4 消除多重共线性的方法消除多重共线性的方法 一、剔除一些不重要的解释变量一、剔除一些不重要的解释变量 在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。 2022-7-3266.4 消除多重共线性的方法消除多重共线性的方法 Coefficientsa450.90917
21、8.0782.532.030.354.0852.4474.152.002.0011963-.561.125-2.485-4.478.001.0011741-7.E-03.002-.083-3.510.006.3153.17121.5784.030.5315.354.000.01855.5.435.052.5648.440.000.04025.2(Constant)X1X2X3X4X5BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDepe
22、ndent Variable: Ya. 2022-7-3276.4 消除多重共线性的方法消除多重共线性的方法 Coefficients695.039264.5252.627.024-5.257E-02.042-.233-1.262.233.01377.546-1.170E-02.003-.134-4.207.001.4312.31932.0374.951.7886.471.000.03033.812.399.080.5174.988.000.04124.469(Constant)X2X3X4X5BStd. ErrorUnstandardizedCoefficientsBetaStandardi
23、zedCoefficientstSig.ToleranceVIFCollinearityStatistics2022-7-3286.4 消除多重共线性的方法消除多重共线性的方法 Coefficients591.876257.7302.296.040-1.037E-02.003-.119-3.934.002.5041.98426.4362.249.65011.754.000.1506.650.317.048.4116.568.000.1178.514(Constant)X3X4X5BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoeff
24、icientstSig.ToleranceVIFCollinearityStatistics2022-7-3296.4 消除多重共线性的方法消除多重共线性的方法二、增大样本容量二、增大样本容量例如, 由(6.3)式和(6.4)式 1121221)1 ()var(Lr2221222)1 ()var(Lr 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。2022-7-3306.4 消除多重共线性的方法消除多重共线性的方法 三、回归系数的有偏估计三、回归系数的有偏估计 消除多重共线性对回归模型的影响是近30年来统计学家
25、们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如: 岭回归法 主成分回归法 偏最小二乘法等。2022-7-3316.5 主成分回归主成分回归 主成分分析(Principal Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵, 就是相关阵。*() rXX2022-7-
26、3326.5 主成分回归主成分回归 以例3.3民航客运量的数据为例 2022-7-3336.5 主成分回归主成分回归 Factor1 Factor2 Factor3 Factor4 Factor5 -1.2894 -1.481 -0.27458 0.42456 1.35596 -1.15466 -1.05109 -0.27713 0.28188 1.04786 -1.0025 -0.57432 0.2561 -0.08416 0.00132 -0.8846 -0.31539 0.27878 -0.61988 -0.88559 -0.79664 0.06441 0.82047 -0.24731 -1.14311 -0.67695 0.60404 0.99481 0.38279 -0.23507 -0.47273 0.94985 0.92127 0.05603 0.64251 -0.23379 1.07489 0.10751 0.19928 0.56835 -0.05087 0.72689 -0.92133 -1.38813 -1.02769 0.23403 0.98323 -0.8562 -2.1089 0.06758 0.59455 1.83545 -1.11974 0.83275 1.61644 2022-7-3346.5 主成分回归主成分回归 现在用y对前两个主成分Fact
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年眉山药科职业学院高职单招职业适应性测试参考题库有答案解析
- 2026年新疆科技职业技术学院高职单招职业适应性测试备考题库有答案解析
- 2026年泉州幼儿师范高等专科学校单招综合素质考试参考题库带答案解析
- 外宾晚宴活动策划方案(3篇)
- 活动策划方案验收结果(3篇)
- 圆桌派活动策划方案(3篇)
- 华润大厦活动方案策划(3篇)
- 2026年辽宁冶金职业技术学院高职单招职业适应性测试备考试题有答案解析
- 吉林省长春市宽城区2026届九年级上学期1月期末考试道德与法治试卷(含答案)
- 2026重庆涪陵区人民政府义和街道选聘4人备考题库必考题
- 2025至2030中国细胞存储行业调研及市场前景预测评估报告
- 《中华人民共和国危险化学品安全法》解读
- 水暖施工员考试及答案
- 2025年省级行业企业职业技能竞赛(老人能力评估师)历年参考题库含答案
- 培养员工的协议书
- 1.1《子路、曾皙、冉有、公西华侍坐》教学课件2025-2026学年统编版高中语文必修下册
- 2025天津中煤进出口有限公司面向中国中煤内部及社会招聘第五批电力人才52人(公共基础知识)测试题附答案解析
- 2025至2030氢过氧化叔丁基(TBHP)行业运营态势与投资前景调查研究报告
- 2026年哈尔滨职业技术学院单招职业适应性考试必刷测试卷附答案
- 通信行业项目经理服务水平绩效考核表
- 副高医院药学考试试题题库及答案
评论
0/150
提交评论