回归模型中多重共线性的情形及其处理.doc

上传人：今*** IP属地：浙江上传时间：2019-06-30 格式：DOC 页数：14 大小：323KB 积分：6 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

潍坊学院本科毕业设计（论文）正文引言多元回归分析是多变量分析方法中最重要、最基础的分析方法。在应用时，其前提是假设各自变量间相互独立，即自变量间不存在直线相关关系，或称多元共线性。如果这一前提不成立，即存在着共线性关系，可使估计系数方差加大，系数估计不稳定，给结果分析带来严重困难。因此对多元共线性的识别与处理在多元线性回归分析中显得十分重要。.多重共线性的数学背景假设有两个变量和，二者高度线性相关，可以近似地表示为：32 （1.1）现若变量Y与、有回归模型Y143我们可以采用因式分解法把上面模型中的4分解成两部分的和，这样可以列出若干种分解方法，我们取其中两种，得到下列两种等价的形式： Y143133 （1.2）Y14318- 43 （1.3）将（1.1）式32分别代入方程（1.2）中的3和方程（1.3）中的4，可以得到以下两个方程： Y1313（32）3712 （1.4）Y18- 4318-（32）378- 9 （1.5）在（1.4）中，的系数为12，表示Y与成正比例关系，即正相关；而在（1.5）中,的系数为- 9，表示Y与成负比例关系，即负相关。如此看来，同一个方程Y143变换出的两个等价方程，由于不同的因式分解和替换，导致两个方程两种表面上矛盾的结果。实际上，根据32式中的与的共线性，约相当于 3，在（1.4）减少了3，即需要用9个来补偿；而在（1.5）增加了4，需要用12个来抵消，以便保证两个方程的等价性，这样一来使得（1.5）中的系数变为了负数。从上述分析看来，由于与的共线性，使得同一个方程有不同的表达形式，从而使得Y与间的关系难以用系数解释。2.对多重线性关系的初步估计与识别如果在实际应用中产生了如下情况之一，则可能是由于多重共线性的存在而造成的，需作进一步的分析诊断。增加(或减去)一个变量或增加(或剔除)一个观察值，回归系数发生了较大变化。实际经验中认为重要的自变量的回归系数检验不显著。回归系数的正负号与理论研究或经验相反。在相关矩阵中，自变量的相关系数较大。自变量回归系数可信区间范围较广等。3.对多重共线性本质的认识多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性)，现在我们集中讨论多重共线性的本质问题。多重共线性普遍被认为是数据问题或者说是一种样本现象。我们认为，这种普遍认识不够全面，对多重共线性本质的认识，至少可从以下几方面解解。3.1 多重共线性是由变量之间的性质引起的这一认识沿袭了传统经济计量学对多重共线性的认识，而现经济计量学否定了这一认识。我们认为这种否定还需斟酌。首先，在完全共线情况下，例如研究消费C与总收入T、工资收入S和非劳动收入N之间的关系，设定模型为: （3.1）式中解释变量T=N十S恒成立。这种共线性的发生与数据取样多少、数据观察有无误差均无关系，因为多重共线性完全是由变量间的性质引起的。其次，在高度相关的情况下，比如研究税收额y与总产值与增加值、税率之间的关系，设定模型为: （3.2）式中，两个重要的宏观经济总量指标，总产值与增加值必定高度相关，因为总产值，增加值，而（为固定资产折旧，为原材料转移价值)，这时不管数据以什么形式取得，数据取样是大是小，都会出现解释变量与高度相关。因此，变量之间的性质是导致多重共线性的重要原因。 3.2 多重共线性是数据问题引起的这是指即使总体诸解释变量没有线性关系，但在具体样本中仍可能有线性关系。以下分两种情况加以说明：情况一，例如当研究只含有两个解释变量与共线时，可将对回归，如样本可决系数很大，则认为和可能存在严重的多重共线性。如果样本可决系数，则认为与可能存在完全多重共线性。之所以说“可能”，因为和样本容量n有关，当样本容量很小时，容易接近于1。如同众所周知的当n=2时，两点总能连成一条直线，即使原本并不存在线性关系的变量与，由于样本数据问题产生了共线性。因此，戈德伯格(Goldberger)构造了微数缺测性的概念与多重共线性概念相对应。按照戈德伯格所说的，准确的微数缺测性（与完全多重共线性相对应)是指样本大小n等于零的情形，这时任何种类的估计都是不可能的。近似微数缺测性则如同近似完全多重共线性，指样本数n刚刚超过待估计参数个数k+l的情形。情况二，若建模所用的解释变量是时序变量，并且是高价单整时序变量，这种时序解释变量之间几乎肯定会出现谬回归，必然导致多重共线性。多重共线性与样本数据有关的另一个佐证是进入20世纪80年代后期，人们开始关注单个或几个样本点对多重共线性的影响。研究表明，存在两类这样的数据点或点群:其一，导致或加剧多重共线性，其二，掩盖存在着的多重共线性。这样的数据点被称为多重共线性的影响点。这是在解释变量不变，样本容量n不变的情况下，讨论个别样本点对多重共线性的影响。显然，剔除这些多重共线性的影响点，或者可减弱多重共线性的程度，或者可显现多重共线性的存在。目前诊断多重共线性影响点的方法有两种：Walker诊断技术和主成分诊断技术。Walker诊断技术的基本思想是：设x为设计矩阵，对设计矩阵x进行奇异值分解，分解的目的是把一个复杂矩阵正规化，即把一个矩阵特征值中为零和不为零的分解开，这就是奇异值分解法。设的特征根为，定义为第k个条件指标值，表示设计矩阵的第i行，表示设计矩阵不包含计算的第k个条件指标值，若,对于都成立r为预先给定的值，则称为多重共线性的影响点。由于Walker诊断法要进行设计矩阵奇异分解，计算不够方便，因此本文提出了主成分诊断法。 3.3 多重共线性是由不适当参数化引起的 Heedry建模法认为，多重共线性是由不适当的参数化引起的。因此，经过再参数化，将模型进行变换可以消除多重共线性。再参数化是通过数据变换实现的，即差分变换和微分变换。以自回归分布滞后模型ADLM为例：（3.3）由于（3.3）式中与为高度相关，和的估计可能不会准确。因此，将（3.3）式有端减加得：（3.4）式中。差分变量与水平变量接近不相关。（3.4）式两端减去得：（3.5）其中。对（3.5）式再进行微分变换，即对不同变量相同时间作减法运算得：（3.6）式中。（3.6）式变形为误差修正模型：（3.7）式中。经过上述差分变换和微分变换，即再参数化，消除了多重共线性。不仅如此，（3.7）式中的参数还能得到很好的经济学解释。由此可见，不适当的参数化可以引起多重共线性。4.对多重共线性的测定在讨论这一问题之前，我们需明确这样下面两个问题：（1）多重共线性是一个程度问题而不是存在与否的问题；（2）由于多重共线性是在假定解释变量是非随机的条件下出现的问题，因而它是样本的特征，而不是总体的特征。这样，我们不仅可以“检测多重共线性”，而且还可以测试任何给定样本的多重共线性程度。但我们并没有多重共线性单一测度方法，因为对于非实验数据，我们无法确定其共线性的性质与程度。我们所具有的是一些经验法则，即在具体应用中能够给我们提供一些有关多重共线性存在与否的线索。比如：（1）R2较高但t值显著的不多。前已述及，这是多重共线性的经典特征。如果R2较高，如超过了0.8，在大多数情况下F检验将会拒绝零假设。但各自的t检验表明，没有或几乎只有部分斜率系数是统计显著不为零的。（2）解释变量两两高度相关。例如，如果多元回归方程包括6个解释变量，计算这些变量两两之间的相关系数，如果有些相关系数很高，比如超过0.8，则可能存在较为严重的共线性。问题是这一标准并不总是可靠的，因为解释变量两两相关系数可能较低，但却有可能存在共线性，因为t值中很少是统计显著的。（3）检验解释变量相互之间的样本相关系数。假设我们有三个解释变量X1、X2、X3，分别以r12、r13、r23来表示X1与X2、X1与X3、X2与X3之间的两两相关系数。假设r12 = 0.90，表明X1与X2之间高度共线性，现在我们来看相关系数r12,3，这样一个系数我们定义为偏相关系数，它是在变量X3为常数的情况下，X1与X2之间的相关系数。假定r12,3 = 0.43，就表明在变量X3保持不变的条件下，X1与X2之间的相关系数仅仅是0.43，但若不考虑X3的影响，两者之间的相关系数却是0.90。这说明，根据偏相关系数，我们无法断定X1与X2之间具有很高的共线性。上述讨论表明，在存在多个解释变量的情况下，不能仅仅依赖两两相关系数来判断多重共线性。偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据，仅仅是检验多重共线性性质的另一个手段。（4）从属或者辅助回归。既然多重共线性是指一个或者多个解释变量是其他解释变量的线性（或接近线性）组合，那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。其中的每一个回归都被称为从属或者辅助回归，从属于Y对所有变量的回归。例如，考虑Y对X1、X2、X3、X4、X5和X6这6个解释变量的回归。如果回归结果表明存在多重共线性，比如说，R2值很高，但解释变量的系数很少是统计显著的，其原因，就在于一个或者多个解释变量是其他解释变量的线性（或接近线性）组合，找出这一组合具体方法是：作Xi对其他剩余解释变量的回归，求出拟合优度Ri2；作X2对其他剩余解释变量的回归，求出拟合优度系数R22；，重复上述步骤，直到作出所有的6个辅助回归。如何判断哪些解释变量是共线性的呢？估计的Ri2值介于0和1之间。如果某个解释变量不是其他变量的线性组合，则该回归方程的Ri2值不会显著不为零。根据方程的F值，我们知道应该如何去检验假设：某个方程的拟合优度显著为零。假定我们想要检验假设：R12=0，也就是X1与其他5个解释变量不存在共线性。根据F与R2定义，我们有：（4.1）其中n是观察值的个数，k是包括截距在内的解释变量的个数。具体说明如下：在这个例子中，假设有一个容量为50的随机样本，对每个解释变量作剩余变量的回归分析。各辅助回归的R2值如下：表4-1检验R2值的显著性方程R2值F值F值是否显著？X1对剩余变量的回归0.9079.20是X2对剩余变量的回归0.181.93否X3对剩余变量的回归0.364.95是X4对剩余变量的回归0.8654.06是X5对剩余变量的回归0.090.87否X6对剩余变量的回归0.242.87是如表所示，变量X1、X3、X4、X5、X6看来与其他变量有共线性，尽管共线性的程度差别很大。由此得出的结论是：“看似”较低的R2，比如0.36，却可能是统计显著不为零。可见，此例中存在较高的多重共线性。辅助回归技术的一个缺陷是它的计算较为繁琐。如果一个回归方程包含若干个解释变量，则我们不得不计算好几个辅助回归方程，因此，这种方法实用性不强。但需要指出的是，现在已经有很多统计软件可以用来计算辅助回归方程。（5）方差膨胀因素。即使模型并未包括太多的解释变量，从各个辅助的回归方程中得的R2值也未必可以用于诊断共线性。以下面的二元回归方程为例Y = b0 + b1X1 + b2 X2（4.2）可以证明参数估计量的方差可写为：（4.3） (4.4)R12是X1和X2之间辅助回归方程的拟合优度。VIF形象地称为方差膨胀因素，因为随着辅助方程拟合优度R12的增加，斜率系数的方差也增加。特别地，如果辅助回归方程的拟合优度为1（即完全多重共线性），斜率系数的方差和标准差没有任何意义。当然，如果R12为零，那么就不存在共线性，VIF的值为1。我们也就不必担心由于方差（标准差）较大而带来的问题。现在一个重要问题是，假设在辅助回归方程中，R12值很高（但小于1），表明存在较高程度的共线性。但是从(10)式可以清楚地看到，斜率系数的方差不仅仅取决于VIF，而且还取决于的误差项ui的方差s2和解释变量Xj的方差。因此，以下的情形是很有可能性的： R12值很高，比如说是0.96，但是s2较低或者较高，或者是两种情况同时出现，以至于斜率系数的方差较低，t值较高。换句话说，较高的R2可能被一个较低的s2较低或者较高的值所抵消。当然，高和低是相对而言的。所有这些都表明，辅助回归方程中的R2可能只是多重共线性的一个表面指示器。如前所述，它并不一定扩大估计量的标准差。更正规的表述为，“辅助回归方程中较高的R2既不是较高斜率系数标准差的必要条件也不是充分条件。多重共线性本身并不一定导致较高的斜率系数标准差。”从上面讨论的各种多重共线性的检验方法中，我们能得出结论：检验多重共线性有多种不同的方法，却没有一种绝对方法。毕竟，多重共线性是一个程度问题，它是一个与样本相关的现象。有时，可以容易地检验出多重共线性，但更多的时候要运用各种手段来诊断这一问题的严重程度。总之，没有一个简单的方法能用来解决这个问题。5.诊断指标与方法5.1容忍值(Tolerance，以下简记为TOL) 在多重回归分析中,设有p个自变量容忍值定义为:TOL=1- （5.1）其中为自变量与其他P-1个自变量间的复相关系数，反映了它们之间的线性相关程度。愈接近于1，线性相关性越强。由式(5.1)可见TOL与只有同样的意义，仅仅是在数值大小上与恰相反。因此，其取值也在01之间，TOL的值越接近于1，说明变量间的线性相关性越弱。由多重共线性的定义可知，TOL很小的变量进入方程后，将导致回归方程的不稳定，偏回归系数的方差，标准误差均增加，影响参数估计的效果。许多统计分析软件的多元回归程序在逐步引入变量的同时进行TOL检验。此时，式（5.1）中的Ri为正在进入方程的自变量与已进入方程的若干个自变量间的复相关系数。因此TOL值反映了它们之间的线性相关程度。通常用户可以预先指定一个TOC的值，否则将用原程序中指定的标准进行检验。然而，对于任意一个给定的TOL值，有时既使是通过了容忍性检验的变量进入方程后仍可导致结果的不稳定，因此容忍性检验在某些情况下并不一定能达到预期的目的。例如P个自变量中除外，其余P-1个变量间均无线性相关，设TOL=T=1-，t= ，与的相关系数为R，与的相关系数为tR，与的相关系数为，那么，与其余P-1个自变量的复相关系数的平方Q为: Q = =*（1-）/（1-T）（5.2） =1-设T=0.01，i=5，那么Q=1-。如果自变量以到到的顺序进入方程，那么的TOL为，将在的水平上通不过容忍性检验而不能进入方程。容忍性检验起到了预期的作用。但是如果自变量以从到的顺序进入方程，那么就可能被引入方程。因此容忍性检验不是保证所有所得模型具有稳定性的唯一可靠的方法。5.2方差扩大因子（Variance Inflation Factor以下简记为VIF）VIF是度量多重共线性程度的又一指标，它表明当自变量间存在共线关系时，用最小二乘法所估计的回归系数的方差线关系时所估计的回归系数的方差比自变量间无共线关系时所估计的回归系数的方差的增大倍数。故Marquardt称其为方差扩大因子。可以证明 VIF=，即VIF=1/ TOL。因此，在多重共线性诊断中，VIF与TOL有相同的作用。VIF的值愈大，说明变量间的复共线程度愈强。如果自变量间彼此完全正交，则=0，TOL=VIF=1。因此VIF值的大小反映了自变量间复共线关系的强弱。有学者建议，当VIF值大于5时，就认为自变量间有严重的共线关系存在。 5.3条件数和特征分析法当自变量的观测值构成的设计矩阵x的列向量间存在某种共线关系时，则xx少有一个特征根近似等于零，通常称x阵呈病态，此时参数估计结果将极不稳定。xx有多少个特征根接近于零，设计阵x就有多少个共线关系存在，并且这些共线关系的系数向量就是接近于零的那些特征根对应的特征向量。特征分析法就是根据这个道理，利用xx阵的特征值和特征向量判断多元共线关系。由于xx的特征值近似等于零是个很模糊的说法，故引入条件数这个概念。xx的条件数定义为: k=（5.3）即最大特征值与其他各特征值之比的算术平方根。如果接近于零，则条件数k将很大。在应用中，如果k30，则认为存在某种共线关系。6.用主分量方法消除共线性消除多重共线性的方法有几种，如逐步回归法、岭回归法、主分量法等，相比而言，主分量法是值得推荐的方法，它既保留了所有变量的信息，计算又简单。假设有多个变量，主分量就是这些变量的线性组合,，即将原来的变量进行线性变换，满足条件：（1），即系数向量为单位向量，即特征向量。（2），即系数向量两两垂直，使主分量之间互不相关。（3），即各主向量的方差递减。主分量是从原始变量变换而得到的综合变量，是将共线性的信息最大程度地压缩到一个变量上，其计算比较复杂，但使用统计软件就非常方便，只要学会如何选择主分量即可。主分量的方法也可以从几何上解释，实际上是经坐标旋转，将共线性程度最高的方向作为第一主分量的坐标方向，依次得到其它主分量方向，所有变量在第一主分量方向上的投影就是第一主分量得分，依次类推。主分量的选择是根据原始变量相关矩阵的特征值大小及累计比率决定的，一般选择特征值大于1且累计比率大于80%特征值所对应的主分量个数，我们可以通过特征值及其累计比率确定。结束语因为大多数经济变量在时间上有共同的变化趋势，所以在建立经济问题的回归模型时经常会遇到多重共线性的诊断和处理。本文从共线性产生的背景谈起，介绍了多重共线性的几种诊断方法，以及如何消除共线性对回归方程的影响。关于消除共线性的方法，有很多种方法，可以说至今如何消除多重共线性仍是研究的热点，仍有许多这方面的问题需要研究，而且已经使用的一些方法还没有哪一个占绝对优势的，从运用的效果还很难说明哪个最优。在运用时，各人根据自己的知识水平和计算机软件的运用水平来选择合适的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

回归模型中多重共线性的情形及其处理.doc

文档简介

温馨提示

最新文档

评论

回归模型中多重共线性的情形及其处理.doc

文档简介

温馨提示

最新文档

评论

相关文档