Lasso 与其他变量选择方法的模拟比较.doc_第1页
Lasso 与其他变量选择方法的模拟比较.doc_第2页
Lasso 与其他变量选择方法的模拟比较.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要:目的提出一种基于收缩估计的新的变量选择方法Lasso,并比较其与其他变量选择方法的异同。方法首先给出了几种常见的变量选择方法如逐步回归、AIC、BIC 准则,再通过随机模拟给出了几种方法进行变量选择的结果及相关准确性分析。结果随机模拟结果表明,当模拟次数n=200 时,Lasso 方法的平均错误率已经为0,具有较为明显的优势,随着模拟次数的增加Lasso 方法的平均正确率(0.951)达到了相对较高的水平。结论Lasso估计具有较好的可解释性,在变量选择中有较广阔的应用前景。关键词: 变量选择; Lasso 估计;AIC 准则;逐步回归0 引言多元分析是应用最广泛的统计学分支之一,而变量选择问题又是其中一个尤为重要的问题。对于其不同的用途,对变量选择也有着不同的要求:在描述解释现象时,希望回归方程中所包含的自变量尽可能少一些;在预测时,希望预测的均方误差较小;在控制时,希望各回归系数具有较小的方差和均方误差1。在实际问题中可以提出许多对因变量y有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离;而变量选得太多,使用不便,并且有时也会削弱估计和预测的稳定性,所以变量选择问题是一个值得我们讨论的问题。在回归方程中,预测精度和可解释性是评估回归模型的两个重要指标。传统的变量选择方法当自变量过多而不可避免的出现共线性的问题时通过传统方法删除变量,有时候会使重要的变量不能进入模型,使得模型的解释力度大为降低。Robert2提出的Lasso回归是一种收缩估计方法,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。本文首先对Lasso的建模思路进行了分析,并通过随机模拟比较了逐步回归、AIC准则和LASSO的特征和性能最后对上述模型的适用性进行了总结归纳,并对研究者在实践中中国科技论文在线针对不同的问题选择如何选择合适的模型提出了建议。1 几种变量选择方法回归变量的选择问题在实用上和理论上都是十分重要的,这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准。从不同角度出发,可以有不同的比较准则,在不同的准则下,“最优”回归方程也可能不同。1.1 AIC 准则:选择子集 A,使得AIC(A)-ln(ESS(A)+2l/n= + 达到最小.思路:先找出所有可能的A 的组合,分别计算每种情况下AIC 的值,然后找出AIC 最小的那个A,就是最后的模型中自变量选取情况。其中,如果A=(1,1,1,0,0,0),则表示选取前三个自变量进行回归,即变量选进时对应得A 中相应列的值即为1,否则为0.1.2 BIC 准则选择子集 A,使得BIC(A)-ln(ESS(A)+l ln(n)/n= + 达到最小。选择子集 A,使得BIC(A) ln(ESS(A) l ln(n)n= + 达到最小。思路:先找出所有可能的A 的组合,分别计算每种情况下BIC 的值,然后找出BIC 最小的那组,就是最后的模型中自变量选取情况。其中,如果A=(1,1,1,0,0,0),则表示选取前三个自变量进行回归,即变量选进时对应得A 中相应列的值即为1,否则为0.1.3 逐步回归法(stepwise)逐步回归的基本思想:逐个引进自变量,每次引入对y 影响最显着的自变量,并对方程中的老变量逐个检验,把变为不显着的变量逐个从方程中剔除掉,最终得到方程中既不漏掉对y 的影响显着的自变量,又不包含对y 不显着的自变量。思路:调用 MATLAB 程序中的stepwisefit 函数,对x、y 进行回归,如果某个变量被引进,则输出的inmodel 相应的数值为1,未被引进时相应值为0。如果只有 1 2, 3 x , x x 被引进,则inmodel=1,1,1,.0,0,0。这一输出给了我们判断模型精确程度的指标。1.4 Lasso 方法Lasso(The Least Absolute Shrinkage and Selectionator, Tibshirani(1996)方法是一种收缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它收缩一些系数,同时设定一些系数为零因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0 的回归系数,得到可以解释的模型。2 模拟实例研究首先生成独立同分布的变量,服从 (0, ) 6 X N I i ,由i i y = X + 生成y,其中 = (1,0.8,0.6,0,0), N(0,4) i。然后将y 看作因变量, i X 看作自变量,建立线性回归模型。采用上文提出的变量选择方法(AIC、BIC、Lasso),进行变量选择,比较几种方法的正确率和错误率。重复进行100次随机模拟,若每次选出的变量包含1 2 3 X , X , X 的一个,则正确率(#correct)加一;若每次选出的变量包含4 5 6 X , X , X 的一个,则错误率(#Incorrect)加一。3 模拟结果Lasso 和逐步回归均有较高的准确率,stepwise 中一旦变量在某一步被剔除,将没有机会再次进入模型,这样的准则下自变量选取的好坏应该跟剔除变量的准则和允许变量进入的准则有关3,Hocking(1974)4、Beale(1970) 5和Mantel(1970)6对前进法、后退法以及逐步回归法和一切可能的回归法等进行讨论,认为逐步回归法存在的问题主要是可能遗漏最优方程;而Lasso 在错误率方面有着无可替代的优势,因此综合随机模拟结果可知,Lasso 估计在含有系数为0 的回归估计中有明显优势。4 结论对于分类和回归问题,传统的方法一般用逐步回归结合AIC、BIC 准则来进行最优模型的选择。实践也证明这些方法有一定的实用性。但传统方法也有很多不足 :Breiman(1996)的研究就指出用该方法选择模型相当不稳定。Fan(2001)指出该方法计算过程存在随机误差,其理论性质也难于研究,并且对于大型分类或回归问题,其计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论