(概率论与数理统计专业论文)基于sis权的超高维自适应lasso算法.pdf_第1页
(概率论与数理统计专业论文)基于sis权的超高维自适应lasso算法.pdf_第2页
(概率论与数理统计专业论文)基于sis权的超高维自适应lasso算法.pdf_第3页
(概率论与数理统计专业论文)基于sis权的超高维自适应lasso算法.pdf_第4页
(概率论与数理统计专业论文)基于sis权的超高维自适应lasso算法.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南开大学学位论文使用授权书 j i i i l lii ii ii i iii ii i iiii y 1813 8 5 2 根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位获 得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文 ( 包括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论 文,并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将 公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检 索、文摘以及论文全文浏览、下载等免费信息服务:( 3 ) 根据教育部有关规定,南开大学向 教育部指定单位提交公开的学位论文;“) 学位论文作者授权学校向中国科技信息研究所和 中国学术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文 数据库,通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d e x h u n 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答 辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字: 签置 2 0 年月 日 论文题目 基于s i s 权的超高维自适应l a s s o 算法 姓名 孙晋 学号2 1 2 0 0 7 0 0 4 3 答辩日期 二。一。年五月 论文类别博士口学历硕士硕士专业学位口高校教师口同等学力硕上口 院系,所数学科学学院 专业概率论与数理统计 联系电话1 3 7 5 2 3 3 1 2 6 6e m a i l l o n g b o w n k y a h o o c o r n c i i 通讯地址( 邮编) :天津市南开大学数学科学学院( 3 0 0 0 7 1 ) 备注: 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。 。擎耩审革砚翦毒妊移非塾申鬲箪擅毒¥拦掣俐彰茸砚斟毒妊好非羁 锋固辫莓璺专蒋( 辫丝箪一) 宣剪罢勤甲。萃观珥毒明千逛、千草 肇蚶明甚錾辫雏l l i 罂肆斟群章:罨 显l 茸砚拦髟_ l k 裂排显哥i:璎影 ( l 0 0 0 e ) 倒秦杀性杀鞣秦y 妊掣芈数¥:( 黪卿) 弭骈署甄 婴印当渖 托孵醯谦野识幸辫 l 不每j 酬柔丢性杀壕抬当酬 口二卜逊华奈鹭回 口蛳醵弭掣口弭森而每千瓷 二卜盈幽杀口+ 斟啭椠五观 目圮ns 出0 o ei 晰曰挺嚣l e 驴o o 0 0 乙【乙 l 鲁柔l鼎恍矽耐 歌葫o s s v l 翠娶目彩掣群6 | j 碑s i s 工霉 日妥茸砚 冒毋晕勘萃砚珥毒鬲车地毒¥拦掣 目如z 日j 由口7o e 差扩:右磊y 砰群磊岩勤 。型禺勘s 卜冈i 瞎捌千g 皿甲辑碰擎一盛羁s 二砰群卓。晕群驻丁皋瓤霉刨y 卓 。够口y 牢甲凿g 碍业私朵创业团蹲礁一站即明茸拱卓彗狮与狲乒目茸砚料索明莓鬻 。挺嚣茸砚裂群翟冀智助驹搿罩勘嚼刨f 6 f 隆赤杀y 妊掣母罾茸砚弭杀朝y 卓:崧凄y 卓 。叫i 。x o p u ! 0 0 8 :1 9 i o z 。e i i 趵驯:咖i l :辚豳勘s j j 网辫互萋鬻狲士印笨砚 。茸砚拦刨髟船i 睡砸暂当墨柳暂硼静誓瞠革罄惭刨坐即到f l f 晕 ! ; 茸砚珥杀妊影j j = 。瞠砰朝茸砚擎髯璐灏科茸觋靥哥y 牢脚刨。苗邵冒身如取蟛牲辘圈¥晔嚣r 砚 妇蜜臻茸砚斟杀酗髀y ) ; l 垢列乒砷茸暂茸砚珂杀e 4 j 幽婴犁群萃鬻豫狲田壬砷( 掣咪) 肚聪半 杀国中i 址蚓跖搬曰7 署辑性围士刨弭杀砰群县勤茸砚再赤( 哥) 2 茸砚珥赤明妊孑革蕾珥责晕群 勰望辚掣杀y 土f 掣犁群¥晕僻望磷辫澉( ) :暂硼霄身讵丐蛄獐i 、蕊罐茸弓茸识理询麟 茸、拳弭誉目茸砚静瞥丁回嘲珥翠黎圜甭蛳掣料静普鲻辫盆廖仆网觋僻疆鬃劬茸砚珥嘉朝 监汤琳诵血材奈辅目拇性哇杀醵k ( z ) 5 窜辫壕茸弓茸观母亲千、衄鲥杀¥拦掣y 嘶箕 茸砚珥杀甭延地晕龄秘士滞酉珊并拖由黪、由缮尉酱诵乜料杀( 戮壬印谣卓踏由碧狮群 母) 茸砚珥杀聂群犁群湃彬师岩彩罪珥杀( i ) :d 胃砰e l f 辫茸识珥赤脚即圉鞋罩酶¥5 砰勘鐾 毋晕阱杀y 妊掣。羊群酪易朝附唑i 瞠鞋) ;| i 茸嵌弭杀币延 f ! l - z 晕杀¥妊单蛳上弓宰y 卓 。到壬印翠衅暂卓舀掳覃现珥杀辅y 章革群杀¥妊掣掣彭屏某彭 罪珥奈+ 渔、千斟驯辫驻餮呼蕊舄出唑n 善嚣) ; i 茸砚再杀雨琶拯士¥奈¥妊掣斯科 肆砰群茸觋茸嵌码杀杀¥拦掣 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 盐置 2 0 1 0 年5 月2 5 日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 口限制( 2 年)口秘密( 1 0 年)口机密( 2 0 年) 保密期限 2 0 年月日至2 0年月日 审批表编号批准日期 2 0 年月日 南开大学学位办公室盖章( 有效) 限制2 年( 最长2 年,可少于2 年) 密l o 年( 最长5 年,可少于5 年) 密2 0 年( 最长1 0 年,可少于l o 年) 中文摘要 中文摘要 自适应l a s s o 在参数估计和变量选择领域是一种较流行的技术。在一定 条件下,可以证明该方法满足o r a c l e 性质。但是自适应l a s s o 不能在超高维情 况下使用。本文提出一种修正的自适应l a s s o 算法,该算法使用s i s 权重来代 替o l s 权重。本文将此方法称为s l a s s o 方法。该方法有效的解决了超高维下的 变量选择问题。同时,本文提出迭代s l a s s 0 算法来增强参数选择的速度和精 度。本文最后通过一些数据模拟实例给出了该方法在有限维下的表现。 关键词:s l a s s o :自适应l a s s o ;超高维变量选择;s i s ;l a r s ;b i c ; i s i 。a s s o a b s t r a c t a b s t r a c t t h ea d a p t i v el a s s oi sa p o p u l a rt e c h n i q u ef o rs i m u l t a n e o u se s t i m a t i o na n d v a r i - a b l es e l e c t i o n i th a sb e e ns h o w nt oe n j o yt h eo r a c l ep r o p e r t i e su n d e rc e r t a i nc o n d i t i o n s h o w e v e r ,a d a p t i v el a s s o c a l l tb eu s e dw h e nd i m e n s i o n a l i t yi su l t r a h i g h w ed e v e l o p h e r eam o d i f i e da d a p t i v el a s s oa l g o r i t h m ,c a l l e dt h es l a s s o ,w h e r ea d a p t i v es i s w e i g h t sa r eu s e di n s t e a do fo l sw e i g h t s i tp e r f o r m sw e l li nu l t r a h i g hd i m e n s i o ns i t u - a t i o n s a sam e t h o d o l o g i c a le x t e n s i o n i t e r a f i v es l a s s oi sp r o p o s e dt oi m p r o v eb o t t l s p e e da n da c c u r a c y o fv a r i a b l es e l e c t i o n t od e m o n s t r a t et h en e wm e t h o d sf i n i t e s a m p l ep e r f o r m a n c en u m e r i c a ls t u d i e sa r ep r e s e n t e d k e yw o r d s :s l a s s o :a d a p t i v e - l a s s 0 ;u l t r a h i g hd i m e n s i o np a r a m e t e rs e l e c t i o m s i s :l a r s :b i c :i s l a s s o 目录 目录 中文摘要 i a b s t r a c t 第一章简介 1 第二章模型介绍3 2 1 参数选择方法的由来3 2 2l a s s o 5 2 3 关于自适应l a s s o 7 2 4 超高维下的参数选择8 2 5s l a s s o 9 第三章主要结论1 1 第四章s l a s s o 计算1 3 4 1 参数估计算法1 3 4 2 参数估计准则1 3 4 3 迭代s l a s s o 算法1 5 第五章模拟数例1 7 5 1s l a s s o 算法1 7 5 2s i s 估计效果对s l a s s o 估计的影响1 8 5 3 残差标准差对s l a s s o 估计的影响1 8 5 4 设计阵相关情形1 9 5 5 迭代s l a s s o 算法1 9 第六章讨论2 2 参考文献2 3 致谢2 5 附录2 6 个人简历2 7 m 第一章简介 第一章简介 自线性回归方法发明以来,针对各种不同环境的修改就一直在进行,其中, 对于复杂模型下重要参数的选取一直是一个焦点。在 1 l d p 提出的l a s s o 方法便 是针对这个问题。该方法能同时进行参数选择和参数估计,具有许多优良的性 质。之后,【2 】证明了l a s s o 的渐进性质。与l a s s o 传统的基于约束条件下线 性最优化的算法相比,【3 】所提出的l a r s 算法,使得l a s s o 求解的计算量大为 简化。 之后,在【4 】提出了另一种参数选择方法s c a d ,并且提出了参数估计 的o r a c l e 标准,该标准主要针对参数选择方法的相合性和渐进性。另一方面, 【5 】改进了之前的方法,提出了自适应l a s s o ,该方法满足了【4 】提出的o r a c l e 性 质。 同时,一直以来,这些参数选择方法的理论性研究一直领先于实际运算, 对于压缩参数的选择,一直依赖于常见的c v ,g - c v 方法,【6 】指出了g c v 准则 的不足,并提出了基于b i c 准则的实际操作方法,并且证明了该准则的o r a c l e 性 质。 在这段时间内,很多基于l a s s o 的其他方法也逐渐被提出。比如说【7 】提出 了d a n t z i g 算法,对于超高维的情形( p ,1 ) 有较好的效果。之后 8 】证明了该方 法与l a s s o 方法的等价关系。【9 】更是提出了基于l a r s 算法的d a n t z i g 解法,并 命名为d a s s o 算法,该算法提供了一个更常见的途径去求d a n t z i g 解。 关于将b o o t s t r a p 弓i 入l a s s o 方法的研究也一直在进行。【1 0 】提出b o l a s s o 方 法,通过l a s s o 的本来性质和b o o t s t r a p 的特性在自变量相关的情形下证明了该 算法的相合性。【1l 】提出将b o o t s t r a p 方法引入计算中,使l a s s o 的计算结果能直 接满足o r a c l e 性质,实际上是通过b o o t s t r a p 实现了b i c 的功能。 之后的研究热点逐渐转向对参数个数p 随样本个数1 1 发散的情形。【1 2 】率先 将s c a d 的使用范围扩展到此。【1 3 1 提出了参数发散情形的b i c 方法,并证明了 自适应l a s s o 方法在发散情形下的渐进性质。 最近研究者们开始关注超高维下的参数选择问题,即p n ,同时有效参数 远小于n 。【1 4 1 提出了基于相关性比较的s i s 方法,通过与s c a d 的迭代运算,可 第一章简介 以满足o r a c l e 性质。【1 5 也提出了基于向前回归的算法,也在超高维的情况下有 不错的表现。传统的l a s s o 在超高维情况下基于l a r s 也能运算,不过不具有 o r a c l e 性质,而自适应l a s s o 由于需要最d x - 乘解作权重,只能在低维情况下使 用,暂时还没有超高维的有效算法。 本文则提出基于s i s 权重的自适应l a s s o 算法,并将其称为s l a s s o 算法。 通过将o l s 权重改为s i s 权,使得自适应l a s s o 得以扩展到超高维。在下一章 中将介绍具体模型;在第三章将给出s l a s s o 的主要理论性质;第四章将给 出具体的算法;第五章将就若干模拟数例的结果进行分析;第六章将包含针 对s l a s s o 算法的一些讨论。证明细节将在附录中提供。 2 以简单线性模型为例 y = x l j + e , e ( e ) = o ,c o k e ) = 6 2 , 这里y 为,lxl 维观测向量,x 为nxp 维的设计矩阵。3 为px1 维未知参数向量, 为随机误差,5 2 为误差方差,并有6 2 0 。一般情况下,我们主要考虑未知参 数3 的估计问题。如果心伍) = ,p ,则称为降秩线性模型,否则,称为满秩线 性模型。最小二乘法主要的思想是最小化误差向量= y x f l ,即最小化目标函 数 q ( f 1 ) = 恻1 2 = i l y - x 卢l l z = ( y - x 3 ) 7 ( x - x 3 ) 通过简单计算可得,该线性模型的最小二乘解为 站l s = 噼f x 、) 一x ) 虽然最小二乘解在模型参数估计的精度上,具有诸多优点,然而,最小二 乘方法往往会导致模型的复杂程度大大增加。在实际的应用中会发现,一般模 型中往往包括若干非重要的参数,这些参数对模型的结果影响甚微。然而,简 单运用最小二乘法却不能抛离这些参数。统计学家们开始寻找新的估计方法, 在不大影响模型参数估计精度的同时,尽可能的简化模型,这个问题即称为参 数选择问题。 3 第二章模型介绍 一个比较直观的选择就是修改目标函数为 q ( 卢) = i l y x 3 1 1 2 + 九尸( 卢) 其中,目标函数的左侧部分代表模型估计的精度,右侧惩罚函数p ( t ) 代表模型 的简化程度,a 作为两部分的权重,根据实际情况,通过一定的准则选取。在这 种目标函数下,惩罚函数的选取直接决定了参数选择的性质。 一个较常见的惩罚函数是最优子集选取法的一种变形形式 p p ( 卢) = ,( 卢( f ) o ) i = l 这种方法直接将估计参数中非零参数的个数取为惩罚函数。该方法可视为最优 子集选取的一种变形形式。该方法的优点为易于理解,对于每一种情况所挑选 的参数可直接使用最小二乘方法求解,未挑选的参数直接置零。 最优子集选取方法如图2 1 : 参 数 估 计 值 0l 234 5 6 7 8 9 参数真实渣 图2 1 最优子集 然后,该方法计算步骤较为繁琐,需考虑多种组合的情况,在实际运用计 算量太大。此外,由于最优子集解的形式为离散形式,缺乏稳健性故较少使用。 另外一种方法为岭回归,该方法在经济学问题中较为常使用,其惩罚函数 为 p ( 1 3 ) = ( 卢( f ) ) 2 4 第二章模型介绍 岭回归的优点为该方法估计的参数方差较小,同时因为与最小二乘法的目标函 数形式相接近,可以直接套用最d x - - 乘显示解的表达式。因此易得其解为: 触= 伍丁x + z l p ) - i x r y 当设计阵为正交方阵的情况下,岭回归解可近似为: 1 胁2 南胁 此时,岭回归解的图示如下: 参 数 估 计 值 ol234 蓐678 窖i l 参数真实渔 图2 2 岭回归 通过图示可以看出,岭回归方法只是简单的成比例缩小了最小二乘解,虽 然减少了估计方差,但并不能实现参数选择的目的。 其他参数选择包括桥回归等方法,都因为自身的一些缺陷而较少提及。 2 2l a s s o 稍后,【1 】提出了最小绝对值压缩方法,英文全称3 勾l e a s ta b s o l u t es h r i n k a g e a n ds e l e c t i o no p e r a t o r ,简写为l a s s 0 ,其惩罚函数为 口 p ( 3 ) = i 3 ( i ) 1 1 = l 在设计阵为正交阵的情况下,易得l a s s o 解为 3 l a s s o ( i ) = s i g n ( f l o r a ( i ) ) ( i 3 0 r s ( i ) 卜- 7 j + 5 第二章模型介绍 其中y 由允唯一决定。 其图示如下: 参 数 估 计 值 0l23t58789 参数真实渣 图2 3l a s s o 容易看出,l a s s o 方法对最小二乘解进行了等距的压缩,对于较小的变量 则直接置零,实现了参数选择的作用。同时,由于保证了参数估计的连续性, 使得该方法部分优于桥回归方法。 在【l 】中主要分析了正交情形下的结论,对于其他情况,只给出了一种基 于线性规划的算法。【2 】详细的讨论了l a s s o 的渐进性质,补完了基本理论性 质。通过使用【3 】提出的l e a s ta n g l er e g r e s s i o n 算法,可以大大简化l a s s o 的算 法,并使得l a s s o 成为一种热门的参数选择方法。该算法简记为l a r s 算法。 此外,【4 】提出一种新的参数选择方法s m o o t h l yc l i p p e da b s o l u t ed e v i a t i o n 方 法,简记为s c a d 。更重要的是,针对现有的参数选择方法,该文提出了参数选 择的o r a c l e 准则。该准则主要包括两点 l ,参数选择方法的相合性:即对于所选择的重要参数指标靴n 与真值的重 要参数指标瓤r ,应有l i mp ( a 一= a t ) = 1 ; 2 ,参数选择方法的渐进正态性t 当已知正确的重要参数后,则存在一 个p 维正定阵,使得通过该方法得到的参数估计值反r 与真值卢a r 间应满足: 何( 厥一卢a ) 与n ( 0 ,) 。 当统计学家回头审视过去的参数选择方法时,很遗憾的发现l a s s o 并不满 足上述两条性质中的任何一条,这使得l a s s o 的实际应用始终缺乏有力的理论 6 9 8 7 6 6 4 3 2 l o 第二章模型介绍 支持。 2 3 关于自适应l a s s o 之后,【5 】通过修改l a s s o 算法,漂亮的解决了相关的理论性质。让我们回 头完整的看一遍l a s s o 算法的目标函数: d q ( p ) = i l y - x 3 1 1 2 + 九1 3 ( i ) 1 f = l 在上式中,权重值a 均等的作用于所有卢( f ) 上,并未区分重要参数和次要参数。 基于这个特点,该文提出了白适应l a s s o ,它的目标函数为 p q ( 卢) = i l y - x 3 1 1 2 + a 1 蛾3 ( i ) 1 1 = l 在自适应l a s s o 中,对于不同的f l ( i ) ,铆取值不一样。【5 】中建议使用卿= 1 l 声o h s ( i ) l 。 该方法通过使用不同的权重,区分出了重要参数和次要参数,在一定条件 下,可证明白适应l a s s o 算法满足两条o r a c l e 性质。 在设计阵为正交情况下,该方法的求解图示如下: 参 数 估 计 值 ol23458789 参数寞实馕 图2 4自适应l a s s o 此外,因为 q ( p ) :i l y - 邓1 1 2 + 旯p 铆1 3 ( i ) f = i 7 ( 2 1 ) i = 1_ - l 这可由目标函数将自适应l a s s o 视为下述模型的l a s s o 算法 pp ) ,= e x i j ( i ) + e = 隅衄) ( 纰卢( f ) ) + e f = lf = l 因而只需简单的修改,l a r s 算法即可适用于自适应l a s s o 。这使得只适 用l a s s o 同时具备了较强的理论基础以及实用的算法。 此外,【1 6 】提到的非负g a r r o t t e 方法与自适应l a s s o 也具有类似的渐进性质 自此,一般情况下的l a s s o 理论性质与计算方法基本研究完毕。之后的发 展开始转变为特殊情况下l a s s o 的性质,比如参数数量随样本数发散,部分线 性模型下的l a s s o ,对于设计阵具有相关性的研究等等。 但是,自从参数选择方法诞生以来,部分统计学家始终持有一个观点,参 数选择的核心是对重要参数的选择。对于像l a s s o ,s c a r ) 这种参数选择方法, 核心是软压缩方法,为了同时实现参数选择和参数估计,多少还是牺牲了一部 分估计的精度。与其如此不如直接采用用硬压缩方式,选出重要参数后,再通 过最小二乘法直接选取重要参数,再重新估计,具体可参见【1 7 】。这样两步走即 减小了计算量,也能较好的达到估计的精度。 对于这种观点,本文不多做探讨。不过在下述章节,我们在一个特殊的情 况下考虑参数选择问题。 2 4 超高维下的参数选择 众所周知,在实际的线性模型下,一个基本的条件就是样本的数量需要大 于待估参数的数量,即,l p 。不过,在一些实际的问题中达不到这个要求。比 如说,对于生物学中的一些基因问题,由于成本限制,只能通过少量的实验数 据来估计大量的未知参数。但是,由经验可以判断,排除掉次要参数后,实际 模型中重要参数的个数是远小于样本数量的。这便是一个典型的超高维参数选 择问题。 由于模型具有p ,l 的限制,从而往往无法得到最小二乘法作为初估计,这 样如上一节中讨论的简单方法将不再奏效。事实逼迫我们重新关注常规的参 8 第二章模型介绍 数选择方法。很遗憾的是,虽然l a s s o 可以简单拓展到超高维的情况下,自适 应l a s s o 则因为同样需要最小二乘解作为初估计,无法在超高维的情况下使 用。能否寻找到一个基于超高维下的初估计成为了问题的关键。 幸好,【1 4 】给予了我们的启示。在这篇文章中提出了一种新的超高维参数选 择思路,基于本节所述模型,选取的关键函数为 f 0 - - x r y 记坞为i ( f ) i 中从大到小排列前 枷】个的指标集,与之相对应的j b ( f ) 作为重要参 数。这个参数选择方法称为s i s 方法。 从简单的角度去理解的话,s i s 方法即把自变量和响应变量的相关度作为 指标去衡量参数的重要程度,这是一种典型的硬压缩方法。但是,s i s 方法仅 作为一个参数选择方法运用,不具备参数估计的作用。文中亦建议通过迭代 方法,将模型的参数降低至常规变量选择方法所适用的维度,再进行变量选 择,比较常用的迭代路径为p - - + ,l - - + n l o g ( n ) ,在【1 4 】中称呼这种方法为i s i s ( 迭 代s i s 方法) 。如果假设自变量的方差阵满足= i p 的话,易发现在一定条件下 有c o = ;o l s ,这也为理解s i s 提供了另一种思路。 s i s 方法具有较为简单的形式与计算过程,但是相对的,理论性质却较为缺 乏。因为s i s 重点考虑自变量与响应变量的相关性,因而对设计阵有诸多要求, 一旦自变量存在一定程度的相关性的话,实际模拟效果将会大打折扣。如果自 变量协方差阵未知,使用样本协方差阵代替的话,因为p r l ,会面临广义逆的 问题。在 1 4 1 的理论证明中,基本也只考虑了= 厶已知的情况。在这种情况 下,也没有证明s i s 方法的相合性,更别提o r a c l e 性质第二条的渐进正态性了。 2 5s l a s s o 虽然s i s 方法具有种种不足,不过也给出了超高维参数选择的一个初估 计方法。通过s i s ,不禁让人产生一种想法,如果用s i s 作自适应权,将自适 应l a s s o 扩展到超高维上效果会如何,这便是本文的主要思路。在本文中,将 此模型称为基于s i s 权的自适应l a s s o 方法,简写为s l a s s o ,其基本目标函数 如下 q ( j b ) = i l y - x 3 1 1 2 十九劬l j | b ( 吼 f = l 9 第二章模 其中 鳓= 1 i 伍r y ) j i s l a s s o 方法通过将s i s 值作为自适应权重,使得自适应l a s s o 得以扩展到超高 维的情况上。 在后三章中将详细讨论甚高维情况下s l a s s o 的理论性质,算法与模拟效 果。 1 0 第三章主要结论 第三章主要结论 类似于自适应l a s s o ,s l a s s o 的估计精度主要依赖于权函数的效果,这 里先介绍一些引理。 y = x f l + e , e ( e ) = 0 ,c o v ( ) = 8 2 j 。 假设p l l ,自变量协方差阵已知。诳= l ,2 ,p ) 为模型指标集,诳r = l f p :f l ( i ) o ) 为重要指标集,并记j = l a r l 。之后,定义随机变量z 及其对 应设计阵z z = 一l 2 x ; z :x e 一1 2 易得随机变量z 的协方差阵为易。此外假设原设计阵已经列标准化。 分别用k 擒x ( ) 及( - ) 记矩阵的最大及最小特征值。如果对于矩阵z 的任 何n p 维子矩阵之,存在c ,c t l ,a 0 ,使得 p 九n a x ( 痧一1 兹r ) c lo r 九n i l l ( 庐一1 兹r ) n ,并且存在考( 0 ,1 2 r ) ,使得l o g ( p ) = o ( n g ) ,其中k 由条 件3 定义。 条件2 z 具有对称分布,并且z 具有集中性质,g 一( d ,8 2 ) 。 条件3 。v a r ( y ) = d ( 1 ) ,并且存在k20 及c 2 ,c 3 0 ,使得 。r a m i n r f l ( i ) 昙,。m 钮i n rl c 。v ( j b ( 矿1 l 蕊) l c 3 条件4 存在f o 以及c 4 o r 得 k 戤( ) c 4 n f 条件5 通过适当选取,使得九满足 击叫。力_ o o 第三章主要结论 引理3 1 ( s i s 的估计精度) 当满足条件j f 4 时,如果有2 k + 1 7 1 ,则令0 0 ,且 e ( a rca y ) = 1 一o e x p ( 一c n l - 2 1 l o g ( n ) ) 引理1 来自参考文献【1 4 】它告诉我们,通过适当选取参数,s i s 方法可以在将 模型参数由n 降为d = 枷】= d ( ,1 1 8 ) 1 一o e x p ( 一c n l 2 k l o g ( n ) ) 让我们回顾一下岭回归的性质,如第2 章所言,岭回归的显式解为 届识= ( x 丁x + 九易) - l x 丁弘 其中,当x 丁x 为不可逆矩阵时,岭回归通过加入单位阵提供了一个针对最小 二乘法的改进形式。此时,若有九- - + o ,则同样可证岭回归目标函数级( 卢) 趋近 于q ( f 1 ) 。这种趋近过程,可以视作为对残差最小化的一种渐进路径。在正交设 计情况下,可知岭回归保留了原模型的所有参数。 定理3 2 即证明了,对于s l a s s o 方法中的真实重要参数,同样具有类似于 岭回归的渐进路径性质。从而能够起到保留真实重要参数的作用,即参数的包 含性。 1 2 第四章s l a s s o 计算 第四章s l a s s o 计算 本章将介绍s l a s s o 的实际计算。我们先来回顾下一般情况下的参数选择 计算过程。 一个常规的参数选择计算通常分为两个步骤:首先通过预先假定的压缩参 数值域,挑选出若干个压缩参数 z l ,恐丸】,在每种情况下,通过某种算法得 出一个压缩后的参数估计,记为 反,应反) ;之后再使用一种挑选准则从这k 个 值中挑选出最优解。 本章分算法和挑选准则两步来说明s l a s s o 计算问题,并在本章最后给出 迭代s l a s s o 算法。 4 1 参数估计算法 1 】最早提出了求l a s s o 解的线性规划算法。这个算法主要是解决带有约束 条件下的最小二乘问题,具体可以参见 1 8 】。 除此之外,还包括最优子集选择,二次逼近,向前回归,向后回归等多种 算法都能运用到l a s s o 求解的过程中。 之后,【3 】提出了最小角回归算法( l a r s ) 。通过少量修改,该算法即可 运用于l a s s o 求解。与之前算法相比,l a r s 算法具有两个主要优点:第一, l a r s 算法的计算量较小,便于实际操作;第二,l a r s 算法给出了参数的估计 路径,这样在运用挑选准则时具有很大的便利性。在实际使用中,也被证明是 一种简单有效的方法。 在本文的实际运算中将采用l a r s 算法作为参数估计算法。 4 2 参数估计准则 【l 】建议视情况使用3 种参数挑选准则,包括c v ,g c v 以及一种无偏风险估 计准则,可参见【1 9 】。下面分别解释一下前两种较常用的准则。 1 3 第四章s l a s s o 计算 以【2 0 】中计算为例,交叉验证( c v ) 每次取样本的8 0 用于估计参数声,之 后取 m e = ( 声一3 ) r 义嘉施o ( 声一3 ) 较小者为最优估计。其中x 2 0 为剩下的2 0 样本所组成的子设计阵。 第二种方法为广义交叉验证( g c v ) ,可参见 2 1 1 。因为l a s s o 估计的约束 条件l 房i f 可视为岛2 l 岛i t ,从形式上可视为岭回归。利用岭回归具有显 式解这一特点,从而可以近似得到有效参数个数 p ( t ) = t r ( x r x + a w 一) 一1 x r ) 其中w = d i a g l 蜃j l ,此外再记r s s ( t ) 为估计参数的残差平方和,我们考虑 o c v ( f ) = 丙1 再鬲r s s 刃( t ) 礤 的最小值所对应的估计参数声为最优估计。 长期以来,基于这两种方法的参数选择准则一直是学术界的主流。【6 】证明 l o g g c v a , l o g 萌+ 2 d f a , n = a t c x 其中d 最为广义自由度。由于越c 准则的固有缺陷,他证明了通过g c v 方法选 取的最优参数会产生模型过拟合的问题,即模型变量过多。因此,他提出了通 过b i c 准则作为参数估计准则,即考虑最小化 m c x = l o g 萌+ d f xl o g ( n ) n 来选择最优的压缩参数a 。文中亦证明了b i c 准则的相合性。 对于参数个数随样本数发散的情况,【1 3 】提出了一个修正的b i c 准则 b l c 九= l o go ;t + d f xl o g ( 1 0 9 ( d ) ) l o g ( n ) n 对于超高维情况,可将b i c 修正为如下形式,这时候更多的考虑到d 的影响 b i c z = l o gt 鼋+ d f z ( 2 l o g ( d ) + l o g ( n ) ) n 在本文的计算中将采用这种修正的b i c 准则为参数估计准则。 1 4 确概 法来 数例 因为s l a s s o 解已为稀疏解,即参数估计值有0 存在,从而不能直接作为权 重使用。在涉及稀疏解的迭代算法中,常规的思路有两种,一是在后续迭代中 只考虑该稀疏解的显著部分,二是对稀疏解的非显著部分加上一个小的偏差再 代入迭代。 此处对于非零调整向量的选择将决定迭代解的实际表现。 第一种想法即为i s i s 所用,这是一种“只出不进”的算法,对于每一步挑 选出的非显著部分将再也不能进入显著参数集合j 在实际应用中,i s i s 算法试 图通过较为宽松的选择准则,减少每一次迭代所增加的非显著部分来实现较好 的模拟效果。对于早期的f r 算法,则是相反的使用“只进不出”的准则,逐步 增加显著参数集合。这种思想可以实现较快的压缩速度,但是相对牺牲了估计 的精度,会减少显著参数集合相合概率。 第二种想法在s c a d 的迭代算法中使用过。该迭代算法将所有非显著参数 加上一个极小的常数,使得前一步的稀疏解可以带入后一步使用。该方法只是 简单的解决了稀疏解的迭代问题,在所引用的固定常数选取上较缺乏说服力。 特别是在显著参数较大的情况下,仍使用一个固定参数会导致每一步筛选出的 非显著参数较难重新进入显著解。 对于i s i s 算法,我们将依如下方法选择权重。记l 地l 为s i s 权重,定义q = # n p ,i = 1 ,2 p - ni 之间的一个正数,再代入s l a s s o 算 p 雠) 砒f g i i l f ( 吼 f = l 第四章s l a s s o 计算 通过该步骤,i s l a s s o 算法能实现“边进边出 的实际效果,对于两步之 间的显著参数集不会具有包含关系,并能够一定程度上克月a s l s 解的诸多问题。 相较于第二种想法,i s l a s s o 针对非显著部分的调整向量能实现针对前一步解 的自适应调整效果,较合理的解释了调整向量。 其中,对于迭代参数j u 的选取将决定i s l a s s o 的压缩速度,本文将在下一 章通过模拟给出实际的计算效果。 1 6 第五章模拟数例 第五章模拟数例 本章将介绍几组实例,均基于简单线性模型讨论。前四节中将详细讨 论s l a s s o 在不同条件下的表现;最后一节将给出迭代s l a s s o 的实际效果,并 与s l a s s o 以及常见的l a r s 算法进行比较。 下几例中模型待估参数为p 维,样本数为n 个。假设真实参数指标集a r :0 l ,3 ,6 ) , 且角= 4 ,历= 2 ,风= l 。不作特别说明的话,所有情况均重复1 0 0 次取均值。 相合指估计重要参数指标集等于真实参数指标集;包含指估计重要参数指 标集包含真实参数指标集。 5 1s l a s s o 算法 第一部分,比较s l a s s o 算法的效果,见表5 1 。分别考虑= 1 0 0 ,p = 2 0 0 ) ,= 5 0 ,p = 1 0 0 ) ,( n = 5 0 ,p = 2 0 0 ) ,= 5 0 ,p = 3 0 0 ) ,0 = 3 0 ,p = 3 0 0 ) 五种 情况。其中仃= 1 。 表5 1 s l a s s o 算法 模型参数( n ,p ) 均方误差正确选择概率包含真模型概率平均有效参数 ( 1 0 0 ,2 0 0 ) o 3 90 5 4o 9 23 7 2 ( 5 0 ,1 0 0 ) 1 2 0o 3 30 6 64 0 9 ( 5 0 ,2 0 0 ) 1 8 60 1 70 5 04 6 0 ( 5 0 ,3 0 0 ) 1 7 80 1 70 5 0 3 9 9 ( 3 0 ,3 0 0 ) 3 4 60 o lo 3 0 8 5 2 由表可得,随着样本数的减小或者待估参数个数的增加,s i s 方法的估计效 果会有所下降,其中由于平均有效参数个数的显著增长,将减缓了包含概率的 下降速度;对比第一种及第二种情况,可见在保持样本参数个数比例的情况下, 增大样本数对于参数估计具有显著的效果。 同时由引理i 可得,s i s 算法具有包含性质而不具有相合性质。因而导 致s l a s s o 方法中的正确选择概率和包含真模型概率有较大差别。在下一节中 1 7 第五章模拟数例 我们将通过数例来研究s i s 估计精度对s l a s s o 的影响。 5 2s i s 估计效果对s l a s s o 估计的影响 第二部分,考虑s i s 估计效果对s l a s s o 算法的影响,见表5 2 。其中针对 四种情况分别给出y s l s 和s l a s s o 的效果。其中s i s 相合指s i s 权重前3 位为真 实参数;s l a s s o 相合概率( 宰) 以及s l a s s o 包含概率( 术) 分别指当s i s 解相合时, s l a s s o 解的相合概率以及包含概率。 表5 2 s i s 估计对s l a s s 0 算法的影响 模型参数s l a s s 0 正s l a s s 0 包s i s 正确s l a s s o 相s l a s s 0 包 ( n ,p ) 确选择概率含概率选择概率和概率木含概率宰 ( 1 0 0 ,2 0 0 ) 0 5 40 9 20 2 50 7 6l ( 5 0 ,1 0 0 ) 0 3 3o 6 6o 0 90 6 7 l ( 5 0 ,2 0 0 ) 0 1 60 4 60 0 4o 2 5o 7 5 ( 5 0 ,3 0 0 ) 0 1 70 5 0o 0 11l ( 3 0 ,3 0 0 ) 0 0 l0 3 000o 合计 0 2 40 5 70 0 8o 6 8o 9 8 由表可得,与s l a s s o 相比,s i s 的实际估计效果较差,在样本较大时参数 选择效果会变好,不过效果有限。相比之下,s l a s s o 方法在估计精度以及选 择效果上都较s i s 实用,在对重要参数的m s e 估计上也一致较小。 此外,由表5 2 的后两列可得s l a s s 0 方法对s i s 的估计效果具有较强的依赖 性和继承性。当s i s 估计相合时,s l a s s o 解亦具有较好的实际效果。 5 3 残差标准差对s l a s s o 估计的影响 第三部分,考虑残差标准差对s l a s s o 算法的影响,见表5 3 ,其中考虑仃= 0 1 ,0 5 ,l ,2 ,l o 五种情况。其中,l = 5 0 ,p = 1 0 0 。 由表可得,当。增大时,模型的估计精度直线下降。这是因为当仃较小时, 残差对因变量影响较小造成的。但是此时平均有效参数却会较大,这是受b i c 准 则影响,当估计残差较少时,最终的模型会倾向于引进更多的变量。 1 8 第五章模拟数例 表5 3 残差标准差影响 均方误差正确选择概率包含真模型概率平均有效参数 仃= 0 10 1 8 2o 5 20 9 25 1 3 仃= 0 5o 4 0 3o 4 2o 8 83 7 9 a = l1 0 2 3 o 2 3 o 6 83 5 仃= 23 4 0 3o 1 l0 2 l2 2 6 仃= 1 02 1 1 4o05 9 6 5 4 设计阵相关情形 第四部分,考虑设计阵存在相关时对s l a s s o 算法的影响,见表5 4 。其中 假设设计阵满足p ( x i ,巧) =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论