多元线性回归中多重共线问题的解决方法综述.docx_第1页
多元线性回归中多重共线问题的解决方法综述.docx_第2页
多元线性回归中多重共线问题的解决方法综述.docx_第3页
多元线性回归中多重共线问题的解决方法综述.docx_第4页
多元线性回归中多重共线问题的解决方法综述.docx_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归中多重共线问题的解决方法综述摘 要在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression)、主成分回归(Principal Component Regression简记为PCR)和偏最小二乘回归(Partial Least Square Regression简记为PLS)。关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归引言在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。1、 多元线性回归模型 1.1 回归模型的建立设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,Xp-1和随机因素的影响, 若有如下线性关系 我们对变量进行了n次观察,得到n组观察数据(如下),对回归系数 进行估计 一般要求nP。于是回归关系可写为采用矩阵形式来表示Y称为观测向量,X称为设计矩阵,称为误差向量,称为回归参数。则误差的平方和求参数的估计使得用最小二乘法估计得正规方程:由于X为列满秩,所以 X TX 可逆,由此解得1.2 多重共线性的产生当 时,表明在数据矩阵中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。即不存在,而导致无法估计。1.3多重共线性的产生的原因(1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性。(2)模型中包含滞后变量,变量各期值之间有可能高度相关。 (3)利用截面数据建立模型也可能出现多重共线性。(4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。(5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。(6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性。2 处理多重共线性的方法2. 1处理多重共线性的经验式方法 2. 1.1 删除不重要的共线性变量 最常见的一种思路是设法去掉不太重要的共线性变量。有些应用人员认为,可以采用多元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进行变量的筛选。然而,在理论上,这些变量筛选方法都是针对无共线性的数据而言的。在多重共线性十分严重的情况下,结论的可靠性都要受到一定的影响。由于变量间多重共线性的形式十分复杂,而且还缺乏十分可靠的检验方法,所以,删除部分多重共线性变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增大。 另外,在一些模型中,从理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重共线性。这时采用删除部分共线性变量的做法就不符合实际工作的要求。 2.1.2 增加样本容量 增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响,而且对某些样本数据来说,变量间的多重共线性可能正是由于样本容量过小而造成的。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。 2.1.3 变量转换的方式 在少数情况下,当基于理论背景认为所有的变量都极其重要,但相互之间存在严重的多重共线性时,对方程的变量进行变换有时至少能在一定程度上消除共线性。两种最常用的变换方法为: (1) 构造一个多重共线性变量的组合。此方法就是构造一个新的变量,这一新变量是多重共线性变量的函数,进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量。但要注意的是,只有当新变量本身有意义时,才可以考虑采用组合变量这一方法。(2) 把方程的函数形式转换为一阶差分形式。若把一个方程(或一个方程中的几个变量)从它的常规设定形式转换为一阶差分的设定形式,就很有可能会大大降低多重共线性的程度。由于一阶差分方法损失了一个观测值(即样本数据少了一个),这在小样本的情况下是极不可取的。2.2岭回归根据高斯-马尔科夫定理,在线性回归模型的基本假设满足时,用最小二乘法得到的回归系数估计量是无偏的且具有最小方差。可以证明,即使在高度多重相关的情况下,最小二乘法的回归系数估计量依然是线性无偏的,且具有最小方差。也就是说,多重共线性并不影响最小二乘估计量的无偏性和最小方差性。因此在所有的线性无偏估计中,最小二乘估计仍具有比较小的方差,这并不意味着最小二乘估计量的方差一定是最小的,因为,虽然它在所有的线性无偏估计量中是方差较小,但是这个方差却不一定小。 于是就启发我们,是否可以找到某一个有偏估计,这个有偏估计虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。在许多情况下,我们更愿意选用这个估计量,因为它接近真实参数值的可能性更大。岭回归就是一种基于放弃回归系数一般最小二乘估计的无偏估计性要求的方法。基本思想:当出现多重共线性时,从而使参数的 很不稳定,出现不符合含义的估计值,给 加上一个正常数矩阵,则 等于0的可能性就比的可能性要小得多,再用来估计, 比用普通最小二乘估计的要稳定得多。2.3主成分回归基本思想:如果观察了n个样本点,得到因变量y和p个自变量x1,x2, ,xp 为后续分析方便起见,并且不失一般性,可假设它们都是标准化变量(均值为零方差为1)自变量x0=(x1,x2, ,xp)间的相关数矩阵记为R。用主成分回归方法的第1步,是完全撇开因变量y,单独考虑对自变量集合做主成分提取。其过程是:(1)求R的前m个非零特征值 ,以及相应的特征向量u1,u2, ,um。(2)求m个主成分:Fh=X0uh h=1,2, ,m。可以证明,这m个主成分有如下性质:均值为零:E(Fh)=0,h=1,2, ,m;若方差算子用var()表示,var(Fh)= h=1,2,m 所以有。从这个性质可知,F1之所以被称为第1主成分,是由于它携带了原自变量系统中最多的变异信息也就是说,如果要以一个综合变量来概括原来所有的自变量,并希望数据变异信息损失最小,则第1主成分是最好的选择它对原变异信息的反映精度为第1主成分与所有原变量的相关度可达到最大。即最优化问题:其中r ( ,)为相关系数算子 它的解是,而x0u1=F1。因此,若要寻找一个综合变量,它能和原来所有的自变量最相关,这个变量就是第1主成分F1。主成分F1,F2, ,Fm是彼此无关的变量,即协方差为cov(Fj,Fk)=0 jk。由于主成分之间不再存在自相关现象,这就对解决多重相关性下的回归建模问题给出了某种希望。这种成分提取的思路是十分可取的 问题在于,在上述成分提取过程中,完全没有考虑与因变量y的联系。这样所得到的第1 (或前几个)主成分可能会对自变量系统有很强的概括能力,而对y的解释能力却变得十分微弱。2.4偏最小二乘回归基本思想:(1)若记t1=X0w1,则上述的数学原则可表达成优化问题:(2)分别施行X0和y在t1上的回归:X0=t1p1+X1其中p1为回归系数,p1=X1是残差矩阵。而y=r1t1+y1,其中r1=;y1是残差向量(3)以残差矩阵X1和y1替代X0和y,采用类似于提取t1的方法,可以进行第2个综合变量t2的提取,然后施以回归:X1=t2p2+x2,y1=r2t2+y2如此循环往复,直到提取了A个综合变量t1,t2, ,tA(阶数A的确定目前流行采用“交差有效性”)。做y对成分t1,t2, ,tA的普通多元线性回归,得到而由于每一个th均为x1,x2, ,xp的线性组合(X0=x1,x2, ,xp),因此可以最终写出PLS1回归模型:从PLSR回归的工作过程看,它采取的是一种循环式的信息分解与提取方法它在多变量集合中逐次提取成分t1,t2, ,tA,它们对y的解释能力最强,同时又最能概括X0中的信息而同时,对y没有解释意义的信息则自动地被排除掉了。3.结论岭回归估计量的质量取决于k值的选取,但是k值的确定存在一定的人为因素,所以在确定k值的时候要把定性分析和定量分析有机的结合起来一般认为:在通过岭迹图和方差膨胀因子来选择k值时,其判断方法是选择一个尽可能小的k值,在这个较小的k值上,岭迹图中回归系数已变得比较稳定,并且方差膨胀因子也变得足够小利用主成分进行的回归结果往往不够理想,原因是在对系统中的信息做综合提取的时候,只注重尽可能多地概括自变量系统中的信息而对因变量的解释性不加考虑 偏最小二乘回归也 采用成分提取的方式进行回归建模,但其思路却有很大的不同 它在对自变量进行信息综合时,不但考虑要最好的概括自变量系统中的信息,而且要求所提取的成分必须对因变量有一定的解释性 因此,与主成分回归相比,偏最小二乘回归更具有先进性,其计算结果更为可靠偏最小二乘回归法尤其适用于变量数目巨大的情况下,实例分析中变量的个数不多,偏最小二乘回归的优点在这里没有充分的显示出来。参考文献1C.R.Rao,H.Toutenburg.Linear Models: Least Squares and AlternativesM.Springer Verlag New York Inc.19952C.R.Rao.Estimation of parameters in a linear model J.Annual Statistics,1976,4:1021-10303Birkes,D,and Dodge.Y(1993),Alternative Methods of Regression, New York,wiley:191-1934 Draper NR,Smith H.(1996).Applied Regression Analysis. John wiley&sons inc:71-835Cheng Bo,Wu Xizhi.Assessing Local Influence in PLS Regression by the Second Order ApproachJ.Statistics and Probablity,2001,53:113-1216I.G.Chong,C.H.Jun.Performance of some variable selection methods whenmulticollinearity is presentJ.Chemometrics and Intelligent Laboratory Systems,2005,78:103-1127S.L.T.Lima,C.Mello,R.J.Poppi.PLS pruning: a new approach to variable selection for multivariate calibration based on Hessian matrix of errorsJ.Chemometrics and Intelligent Laboratory Systems,2005,76:73-788 J.P.Gauchi,P.Chagnon.Comparison of selection methods of explanatory variables in PLS regression with application to manufacturing process dataJ. Chemometrics and Intelligent Laboratory Systems,2001,58:171-1939B.Cheng,X.Wu.A Modification of the PLS MethodJ,Advances in Mathematics,1999,28(4):37510Sorenson H W. Parameter Estimation: Principle and Problems. Marcel Dekker, 198011 肖琳,何大卫.PLS回归在消除多元共线性中的作用J.山西医科大学学报,2002,33(3)12 陈希儒,王松桂.近代实用回归分析M.广西人民出版社,198413 高惠璇.处理多元线性回归中自变量共线性的几种方法J.数理统计与管理,2000,20(5):5014 游华.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论