




文档简介
复旦大学 博士学位论文 分位数回归中的若干问题研究 姓名:唐炎林 申请学位级别:博士 专业:概率论与数理统计 指导教师:朱仲义 20111128 摘要 摘要 变量选择在统计分析中是一个很重要的话题,而删失数据在实际生活中也 十分常见。本文的主要研究是为变系数模型提供系统的变量选择方法,也为固 定删失数据的分位数回归给出一种简单、有效的算法。本文主要工作和结论如 下: ( 1 ) 、基于自适应i 。a s s o 和基函数逼近,为纵向数据的分位数变系数模型提 供了一种新的变量选择方法。本文研究一类自适应舭s s o 惩罚,允许对每组 基函数系数的厶范数进行惩罚,a 之1 。所构造的方法具有变量选择的相合性, 且变系数函数的估计量达到了相同光滑条件下的最优收敛速度。数值模拟和两 个实际数据分析验证了其有限样本性质。 ( 2 ) 、基于双重自适应l a s s o 惩罚和基函数逼近,为变系数模型在最小二乘 回归和分位数回归下构造了统一的变量选择方法,同时解决变系数模型的三类 变量选择问题:( i ) 区分系数为变系数函数和常数的协变量;( i i ) 选择系数为非零 函数的协变量;( i i i ) 选择系数为非零常数的协变量。惩罚估计量在变量选择和 常、变系数区分上都是相合的。此外,得到的变系数估计量达到了同样光滑条 件下的最优收敛速度,而非零常系数的渐近性质和真实模型下估计量的性质一 样。数值模拟和实际数据分析验证了所构造方法的有限样本性质。 ( 3 ) 、基于l a s s o - 型惩罚和基函数逼近,为超高维分位数变系数模型构造了 一种两步方法来进行降维和变量选择。即使在不相关变量个数以样本量的接近 指数级增长时,第一步估计量仍是相合的。该方法可以把模型的维数从超高维 降到与真实模型大小接近的阶,且真实模型被包含在所选模型中。第二步对第 一步之后被选出来的模型采用自适灿s s o 惩罚,具有变量选择的相合性。数 值模拟和实际数据分析被用来验证该两阶段方法的有限样本性质。 ( 4 ) 、固定删失数据的分位数回归已经有很多文献研究,但是现存的方法或 者不够稳定,或者需要包含修整或者光滑的复杂步骤,使得估计量的渐近性质 摘要 很复杂。本文通过对某个子集内的数据进行标准的分位数回归,构造了一个简 单的估计量。证明了只要条件删失概率的相合估计达到某一种非参数收敛速度, 且满足一定的光滑条件,所得系数估计量能达到与p o w c l l 估计量相同的渐近效 率,是在固定删失的情况下对现存方法的进一步简化。大量的数值模拟表明所 构造的估计量稳定且与其他更精致的方法具有可比性。 本文的结论创新之处:一、本文把现有的变量选择方法推广到了分位数变系 数模型之下,丰富了变量选择的结果。二、本文解决了不可导的分位数损失函 数与惩罚函数之间的平衡,证明了自适应l s s o 的变量选择相合性以及非零系 数函数的最优收敛速度。三、在超高维最小二乘回归中存在三个问题:( i ) 误差 要求是次高斯的,伍) 受异常点影响较大,不够稳健,( i 坳只能考虑协变量与条 件均值之间的关系,不够系统。本文所研究的分位数变系数模型避免了上述问 题,并利用线性规划与经验过程等理论证明了l a s s o 可以把模型降维到与真实 模型接近的阶。四、本文在固定删失数据的分位数回归中简化了现存方法,并 证明其估计量达到了p o w c u 估计量相同的渐近效率。 本文方法创新之处:一、利用自适应i 。a s s o 和分位数损失函数的凸性,为 变系数模型,尤其是在分位数回归中,提供了较为系统的变量选择方法。二、 本文先利用l a s s o 对模型进行降维,再用自适应l a s s o 进行变量选择,解决了 超高维分位数变系数模型的变量选择问题。三、本文为固定删失数据的分位数 回归提供了一种简单有效的估计方法。 本文将变量选择方法推广到了分位数变系数模型,同时解决了变系数模型 中的三类变量选择问题:( i ) 区分系数为变系数函数和常数的协变量;伍) 选择系 数为非零函数的协变量;选择系数为非零常数的协变量。本文还解决了超高 维分位数变系数模型的变量选择问题,避免了最小二乘回归的重重限制。本文 的方法和结论丰富了变量选择的方法,将有助于生物、金融、基因切片等各个 领域中重要变量的选取,以精简模型,提高预测精度。本文提供的简单有效的 估计方法,有助于对固定删失数据的特定分位数回归的参数进行估计。 关键词:自适应l a s s o ;渐近效率;b 样条;固定删失;高维;线性规划;分位 数回归;变量选择;变系数模型 中图分类号:0 2 1 1 40 2 1 1 6 2 a b s t r a c t v a r i a b l es e l e c t i o ni sa l li m p o r t a n tt o p i ci ns t a t i s t i c a la n a l y s i s ,a n dc e n s o r s h i pi s a l s oc o m m o ni nt h er e a ll i f e i nt h i sd i s s e r t a t i o n , w ep r o v i d es y s t e m a t i cv a r i a b l es e l e e t i o na p p r o a c h e sf o rv a r y i n gc o e f f i c i e n tm o d e l s ,a n da l s op r o v i d eas i m p l ea n de f f i c i e n t e s t i m a t o rf o rc e n s o r e dq u a n t i l er e g r e s s i o n f o rd e t a i l s ,t h em a i nr e s u l t s0 f 岫s t u d y a r ed e s c r i b e da sf o l l o w i n g ( 1 ) 、b a s e do nac l a s so fg r o u pv e r s i o n so ft h ea d a p t i v el a s s op e n a l t ya n db a s i s e x p a n s i o n , w ed e v e l o pan e wv a r i a b l es e l e c t i o np r o c e d u r ef o rq u a n t i l ev a 吲_ n gc o e f f i - c i e n tm o d e l sw i t hl o n g i t = i l d i n a ld a t a w cs t u d yp e n 蛐gt h e 厶n o r mo ft h ew i t h i n - g r o u pc o e f f i c i e n t s 丽也a 1 w es h o wt h er e s u l t i n gp e n a l i z e de s t i m a t o r sa 托c o n s i s t e n t i nv a r i a b l es e l e c t i o n , a n dt h ee s t i m a t e df u n c t i o n a lc o e f f i c i e n t sa c h i e v et h eo p t i m a lc o n - v e r g e n c em 沱u n d e rt h es a 皿屺s m o o d m c s sc o n d i t i o n s i m u l a t e de x a m p l e sa n dt w or e a l d a t as e t sa r eu s e dt oe v a l u a t et h ef i n i t es a m p l ep e r f o r m a n c eo ft h e p r o p o s e dm e t h o d ( 2 ) 、b a s e do nb a s i se x p a n s i o na n dad o u b l ea d a p t i v e - l a s s o - t y p ep e n a l t y , w e d e v e l o pau n i f i e dv a r i a b l es e l e c t i o na p p r o a c hf o rb o t hl e a s ts q u a r e sr e g r e s s i o na n d q u a n t i l er e g r e s s i o nm o d e l s 丽t t ip o s s i b l yv a r y i n gc o c f f i c i e n m n ep r o p o s e d 附 d u r es o l v e sa l lt h et h r e et y p e so fv a r i a b l es e l e c t i o n p r o b l e m s :s e p a r a t i o no fv a r y i n ga n d c o n s t a n te f f e c t s ,s e l e c t i o no fv a r i a b l e s 丽mn o n z c i ov a r y i n ge f f e c t s ,a n ds e l e c t i o n0 f v a r i a b l e s 耐血n o n z 豇 oc o n s t a n te f f e c t s w es h o wt h a tt h er e s u l t i n ge s t i m a t o ri sc o n s i s t e n ti nb o t hv a r i a b l es e l e c t i o na n dt h es e p a r a t i o no fv m 哆d n ga n dc o n s t a n tc o e f f i c i e n t s i na d d i t i o n , t h ee s t i m a t e dv a r y i n gc o e f f i c i e n t sp o s s e s st h eo p t i m a lc o n v e r g e n c er a t e u n d e rt h es a d i es m o o t h n e s sa s s u m p t i o n ,a n dt h ee s t i m a t e dc o n s t a n tc o e f f i c i e n t sh a v e t h es a m ca s y m p t o d cd i s t r i b u t i o na s 山e j bc o u n t e r p a r t so b t a i n e dw h e nt h e 缸u em o d e li s k n o w n w ei n v e s t i g a t et h ef i n i t es a m p l ep e r f o r m a n c eo ft h ep r o p o s e dm e t h o dt h r o u g h as i m u l a t i o ns t u d ya n dt h ea n a l y s i so ft h ec h i l d h o o dm a l n u t r i t i o nd a t ai ni n d i a 3 ( 3 ) 、b a s e d0 1 1b a s i sf u n c t i o na p p r o x i m a t i o na n dl a s s o t y p ep e n a l t i e s ,w ep r o - p o s eat w o - s t a g ev a r i a b l es e l e c t i o np r o c e d u r ef o ru l t r a - h i g hd i m e n s i o n a lq u a n t i l ev a r y - i n gc o e f f i c i e n tm o d e l s w es h o wt h a tt h ef i r s ts t a g ee s t i m a t o rw i t hl a s s op e n a l t yi s c o n s i s t e n ti ne s t i m a t i o n , e v e l lf ft h en u m b e ro fi r r e l e v a n t c o v a r i a t e sg r o w sn e a r l ye x p o - n e n t i a l l yi ns a m p l es i z e a n di tr e d u c e st h em o d e lf r o mu l n a - h i g hd i m e n s i o nt oas i z e c l o s et ot h et r u em o d e ls i z e ,w h e r et h et r u em o d e li ss e l e c t e da sav a l i ds u b - m o d e l b y a p p l y i n ga d a p t i v el a s s op e n a l t yt ot h er e d u c e dm o d e l ,t h es e c o n ds t a g ee s t i m a t o ri s c o n s i s t e n ti nv a r i a b l es e l e c t i o n t h ef i n i t es a m p l ep e r f o r m a n c e sa r ea s s e s s e dt h r o u g ha s i m u l a t i o ns t u d ya n dt h ea n a l y s i so far e a ld a t a ( 4 ) 、q u a n t i l er e g r e s s i o ni nt h ep r e s e n c eo ff i x e dc e n s o r i n gh a sb e e ns t u d i e de x - t e n s i v e l yi nt h el i t e r a t u r e h o w e v e r , e x i s t i n gm e t h o d se i t h e rs u f f e rf r o mc o m p u t a t i o n a l i n s t a b i l i t yo rr e q u i r ec o m p l e xp r o c e d u r e si n v o l v i n gd 血啦a n ds m o o t h i n g ,w h i c h c o m p l i c a t e st h ea s y m p t o t i ct h e o r yo ft h er e s u l t i n ge s t i m a t o r s w ep r o p o s eas i m p l ee s d - m a t o rt h a ti so b t a i n e db ya p p l y i n gs t a n d a r dq u a n t i l er e g r e s s i o nt oo b s e r v a t i o n si ns o m e s u b s e t w cd e m o n s t r a t et h a tt h ep r o p o s e de s t i m a t o ra c h i e v e st h es r m ea s y m p t o t i c a le f - f i c i e n c ya st h ep o w e l l se s t i m a t o r a sl o n ga st h ec o n d i t i o n a lc e n s o r i n gp r o b a b i l i t yc a l l b ee s t i m a t e dc o n s i s t e n t l ya tan o n p a r a m e t r i cr a t ea n dt h ee s t i m a t e df u n c t i o ns a t i s f i e s s o m es m o o t h n e s sc o n d i t i o n s as i m u l a t i o ns t u d ys u g g e s t st h a tt h ep r o p o s e de s t i m a t o r h a ss t a b l ea n dc o m p e t i t i v ep e r f o r m a n c er e l a t i v et om o r ee l a b o r a t ec o m p e t i t o r s t h ei n n o v a t i o n so f t h ea c h i c v c m e n t si nt h i sd i s s e r t a t i o na l ed e s c r i b e da sf o l l o w i n g f i r s t l y , w ee x t e n dt h ev a r i a b l es e l e c t i o nt oq u a n t i l ev a r y i n gc o e f f i c i e n tm o d e l s ,w h i c h e n r i c h e st h er e s u l t si nv a r i a b l es e l e c t i o n s e c o n d l y , w eb a l a n c et h en o n - d i f f e r e n t i a b l e q u a n t i l el o s sf u n c t i o na n dt h ep e n a l t yf u n c t i o n s ,a n dp r o v et h a tt h ea d a p t i v el a s s op e - t m l i z e de s t i m a t o ri sc o n s i s t e n ti nv a r i a b l es e l e c t i o na n da c h i e v e so p t i m a lc o n v e r g e n c e r a t eu n d e rt h es a x n es m o o t h n e s sa s s u m p t i o n t h i r d l y , t h eu l t r a - h i g hd i m e n s i o n a lq u a n - t i l ev a 咖c o e l i i c i e n tm o d e l sa v o i dt h r e ep r o b l e m si nl e a s ts q u a r e sr e g r e s s i o n :( i ) t h e c i t o ri sn e e d e dt ob es u bg a u s s i a n ;( i i ) t h ee s t i m a t o ri sn o ts t a b l e ,e a s i l yi n f l u e n c e d b yo u t l i c r s ;( 讧i ) o n l yc o n s i d e rt h ec o v a r i a t e se f f e c t0 1 1t h ec o n d i t i o n a lm c a i lo ft h er c s p o n s e ,w h i c hi sn o ts y s t e m a t i c w eu s e r e s u l t sf r o ml i n e a rp r o g r a m m i n ga n de m p i r i c a l p r o c e s s e s t op r o v et h a tt h el a s s o p e n a l t yr e d u c e st h em o d e lt oa s i z ec l o s et ot h et r u e m o d e l a tl a s t , w es i m p l i f yt h ee x i s t i n gm e t h o d si nf i x e dc e n s o r e dq u a n t i l er e g r e s s i o n , 4 a b s t r a c t a n dp r o v et h a tt h er e s u l t i n ge s t i m a t o ra c h i e v e st h es a m ea s y m p t o t i c a le f f i c i e n c ya st h e p o w e l l se s t i m a t o r t h ei n n o v a t i o n so ft h em e t h o d o l o g i e si nt h i sd i s s e r t a t i o na r ed e s c r i b e da sf o l l o w - 趣f x r s f l y , m a k i n gu s eo ft h ec o n v e x i t yo ft h ea d a p t i v el a s s o a n d q u a n t i l el o s sf u n c - d o n ,w ep r o v i d eau n i f i e dv a r i a b l es e l e c t i o na p p r o a c hf o rv a r y i n gc o e f f i c i e n tm o d e l s , e s p e c i a l l yi nq u a n d l er e g r e s s i o n s e c o n d l y , w ea p p l yl a s s op e n a l t yt ot h el l l 廿a b i 曲 d i m e n s i o n a lq u a n f i l ev a r y i n gc o e f f i c i e n tm o d e l sf o rd i m e n s i o nr e d u c t i o n , a n dt h e na p - p l ya d a p t i v el a s s o t ot h er e d u c e dm o d e lf o rc o n s i s t e n tv a r i a b l es e l e c t i o n a tl a s t , b a s e do na ni n f o r m a t i o ns u b s e t w ep r o v i d eas i m p l ea n de f f i c i e n te s t i m a t o rf o rf i x e d c e n s o r e dq u a n f i l er e g r e s s i o n t h i ss t u d yh a sd e v e l o p e dt h et h e o r yo fv a r i a b l es e l e c t i o ni nq u a n f i l ev a r y i n gc o - e f f i c i e n tm o d e l s ,s o l v i n ga l lt h et h r e ev a r i a b l es e l e c t i o np r o b l e m sf o rv a r y i n gc o c f f i - c i e n tm o d e l s :s e p a r a t i o no fv a r y i n ga n dc o n s t a n te f f e c t s ,s e l e c t i o no fv a r i a b l e s 丽m n o n z e r ov a r y i n ge f f e c t s ,a n ds e l e c t i o no fv a r i a b l e sw i l l ln o “姗c o n s t a n te f f e c t s w e a l s os o l v et h ev a r i a b l es e l e c t i o np r o b l e mi nt a t r a - h i g hd i m e n s i o n a lq u a n f i l e 耽i 咖 c o e f f i c i e n tm o d e l s ,w h i c ha v o i d st h er e s t r i c t i o n si nl e a s ts q u a r e sr e g r e s s i o n u n d o u b t - e d l y , t h ea c h i e v e m e n t sa n dm e t h o d o l o g i e se n r i c ht h et h e o r yo fv a r i a b l es e l e c t i o na n d i ta l s oh e l p ss e l e c ti m p o r t a n tc o v a d a t e st os i m p l i f yt h em o d e la n di m p r o v ep r e d i c t i o n a c c u r a c y , i nm a n yf i e l d s ,s u c ha sb i o l o g y , f i n a n c e ,g e n o t y p e ,e t c 。t h ep r o p o s e de s t i m a t o rb a s e do ni n f o r m a t i v es u b s e t sh e l p s p a r a m e t e re s t i m a t i o ni nf i x e dc e n s o r i n gd a t a , a ts p e c i f i cq u a n t i l el e v e l s k e yw o r d s :a d a p t i v el a s s o ;a s y m p t o t i ce f f i c i e n c y ;b a s i ss p l i n e ;f i x e dc e n s o r i n g ; l 王i 曲d i m e n s i o n a l ;l i n e a rp r o g r a m m i n g ;q u a n t i l er e g r e s s i o n ;v a r i a b l e s e l e c t i o n ;v a r y i n gc o e f f i c i e n tm o d e l c l a s s i f i c a t i o nc o d e :0 2 11 40 2 11 6 5 6 插图索引 插图索引 图2 1 艾滋研究中的估计函数曲线:t = 0 2 5 ( 划线) ,下= o 5 ( 实线) 和下= 0 7 5 ( 圈) 。图( a ) ( d ) 显示了基准函数、p r c c d 4 、吸烟与感染时年龄 交互作用、吸烟与p r c c d 4 交互作用的函数曲线。图( c ) 和( d ) 只分 别显示了r = 0 5 和1 = 0 7 5 的曲线,因为交互作用在其他分位数 水平上没有被选到。阴影部分给出的是9 0 逐点置信带,图( a ) ( c ) 是r = 0 5 曲线的置信带,而图( d ) 是励( 职丁,在r = 0 7 5 上的置信 带。2 4 图2 2两个已知且己被实验验证的n 在细胞周期过程中对y 刃的三个四分 位数的时变转移影响:t = 0 2 5 ( 划线) ,f = 0 5 ( 实线) 和f = 0 7 5 ( 空 圈) 。阴影部分是中位数回归系数函数的9 0 逐点置信带。2 7 图3 i估计的变系数:咖1 ( 点) ,仁0 5 ( 实线) 和最小二乘回归( 虚线) 。 阴影部分是最小二乘回归估计的9 0 逐点b o o t s t r a p 置信带,其中 图( e ) 阴影部分对应1 = 0 i 。4 8 图5 1各种估计量在情况1 _ 4 中的根均方误差。实线对应i s u b ,带圈的 实线对应p o w ,点划线对应p o r ,细的划线对应l 像q ,粗的划 线对应3 - $ t e p 。阴影部分表示i su b 的r m s e 的9 5 逐点置信带。9 2 r r 表格索引 表2 1 表2 2 表2 3 表2 4 表2 5 表2 6 表3 1 表3 2 表3 3 表3 4 表4 1 表4 2 表5 1 表5 2 表5 3 表格索引 例2 1 第一种误差下的数值模拟结果。2 0 例2 1 第二种误差下的数值模拟结果。2 1 例2 2 的数值模拟结果2 2 协变量在观测样本和b o o t s t r a p 样本中被选中的频数。2 6 2 1 个已知转移因子被选中的结果。2 8 随机抽取的6 个被g s c a d 选中而被我们的方法错过的t f 的假设检 验结果。2 9 例3 1 凤( ,k = 0 ,1 ,6 被选为常数的频数。4 2 例3 2 的变量选择和估计结果。4 4 例3 3 的变量选择和估计结果。4 5 印度儿童营养不良数据的非零常数估计和标准差( 括号中的数值) 。4 9 例4 1 4 3 在5 0 0 次模拟中的变量选择结果。6 5 误选人造变量的个数和惩罚参数的值。6 7 例5 1 5 4 名义9 0 置信区间的经验覆盖概率( e c p ) 和经验平均长 度( e m l ) 。9 3 例5 5 中各种估计量的平均偏差( b i a s ) 、根均方误差( r m s e ) 和经验 覆盖概率( e c p ) ,置信区间的名义水平为9 0 。9 4 例5 1 5 5 ,信息子集中的观测值个数平均值和标准差( 括号内) 。9 5 i v 主要符号对照表 主要符号对照表 r d 口 l l o l l 4 陋j 夕( ) a 雎s 晶,a 一= o ( 晶) a 却晶,a = o p ( b , ) a n = 玩 a = 唧( 晶) := aab avb b 1 m ,劲 e 0 0 e “) 击维实数空间 线性模型中的参数 秽的厶范数,当a = 0 时,为非零元素个数 集厶a 中的元素个数 变系数模型中的系数函数 a 耳岛有界 a 岛依概率有界 如风以及风a n 磊依概率收敛到零 定义为或记为 a 与b 的最小值 a 与b 的最大值 矩阵雪的转置 均值( 均值向量) 为, z ,方差( 协方差矩阵) 为的正态随机变量( 向量) 随机变量x 的数学期望 随机变量x 在旷域厂下的条件数学期望 示性函数 v 第1 章引言 第一章引言帚一早ji 苗 1 1变量选择 在统计分析中,当人们关心某个变量时,往往借助一些辅助变量对所关心 的变量进行建模、分析。一般称所关心的变量为响应变量,而称辅助变量为协 变量。在实际问题中,为了减小可能存在的模型误差,初始建模时,往往会引 入很多可能相关的协变量。另一方面,为了提高预测精度,增强模型的可解释 性,就需要选择对响应变量有显著影响的重要变量。因此,变量选择是统计分 析中一个很重要的话题。 经典的变量选择方式有两大类:假设检验和信息准则。假设检验的方法包 括前进法、后退法、逐步回归法、最优回归子集法等;信息准则包括m c ( a k a i k c i n f o r m a t i o nc r i t e r i o n ) 准则和b i c ( b a y c s i a ni n f o r m a t i o nc r i t e r i o n ) 准则等。实践中, 当初始模型中协变量个数较少时,用经典方法做变量选择比较常见,但是当协 变量个数较多时,就会存在很多问题。就假设检验的方法而言,存在以下问题: ( i ) 协变量个数多的时候需要做很多次假设检验,计算量非常大;( i i ) 在逐步选取 模型的过程中,会有累积的随机误差,传统的假设检验忽略了这些误差,所以 它们的理论性质就值得商榷;( i i i ) 假设检验缺乏稳定性,详见b 硒m 纽( 1 9 9 6 ) 5 。 用信息准则做变量选择时可能会出现如下问题:( i ) 庞大的计算量令人望而却 步,即使变量个数只有中等数量,比如说p = 2 0 ,就需要计算2 p 1 0 6 个信息量; 伍) 对这些信息量进行排序之后,可能有多个模型的信息量非常接近,很难确 定最优模型;( i i i ) 信息准则对拟合程度和模型的精简程度做了平衡,很难判定 其平衡程度;( i v ) a i c 会导致模型过度拟合,b i c 对每一个模型有一个先验概率, 而这个先验也可能是不合理的( c h c n 与c h c n ,2 0 0 8 1 2 1 ) 。 在最近二十年里面,统计学家们提出了很多正则化的估计方法:用惩罚的 方法同时进行变量选择和系数估计。b i c k l e 与l i ( 2 0 0 0 0 t 4 和f a n - 与l v ( 2 0 1 0 ) 渊在 1 1 变量选择 参数线性回归的框架下,对现有的惩罚方法进行了一些总结,主要包 括:l a s s o ( 1 e a s ta b s o l u t es h r i n k a g ea n ds d e c t i o no p e r a t o r ,t i b s h i m n i ,1 9 9 6 t ) 、 s c a d ( s m o o t h l yc l i p p e da b s o l u t ed e v i a t i o n ,f a n 与l i , 2 0 0 1 【2 1 j ) 、e n c t ( c l a s t i cn e t ) z o u 与h a s d e ,2 0 0 5 t 1 1 1 】) 、m c p ( m i n j m a xc o n c a v ep e n a l t y ,z h a n g ,2 0 1 0 1 0 5 】) 以及 他们的一些推广,如自适应l s s o ( z o u ,2 0 0 6 1 l o b 、窒g l a s s o ( y u a n 与l i n , 2 0 0 6 1 0 4 1 ,w a n g 与l c n g ,2 0 0 8 【8 5 】) 和组s q ( w 缸g ,l i 与h u a n g ,2 0 0 8 t g q ) 等等。 l a s s o 和s c a d 这两种惩罚方法在文献中的研宄是比较全面的,下面我们 在有限维参数线性模型的最小二乘回归下对这两种方法做一个简单介绍。 假设现在有数据f ( x f ,y i ) ,i = 1 ,刀 来自参数线性模型 y i = x ;o o + e i ,( 1 - 1 ) 其中既是独立的随机误差,l i = 瞳n ,) r r p 是p - 维设计向量,1 ) 兰1 , 阮是真实参数向量,且具有稀疏性,即有一部分系数为0 。不失一般性,设如= ( 吒,吆) r ,其中p l o 0 ,0 :2 0 = 0 。 为了同时进行变量选择和系数估计, l i b s h i r a n i ( 1 9 9 6 ) 【踟提出了l a s s o 惩罚 方法,其估计量定义如下: p b ( 以s s o ) = a r g m i n y 一功2 + 砜y , ( 1 2 ) 口 面商 其中厶是非负的惩罚参数。l a s s o 惩罚估计量有以下优点:( i ) 稀疏性,即通 过( 1 2 ) 中第二部分的工1 惩罚把系数向0 压缩,当厶充分大时,会有一部分系数 被压缩为0 ;( i i ) 连续性,即估计量对数据是连续的,具有稳定性,而连续的 压缩平衡了偏差与方差,提高了预测精度;( i i i ) 式( 1 2 ) 是一个凸问题,现存 不少算法都可以对其进行求解,如f u ( 1 9 9 8 ) e 3 1 的s h o o t i n g 算法,e f f o r t , h a s d e , j o h n s t o n e 与t i b s h i r a n i ( 2 0 0 4 ) t 1 8 】的最小角回归( 1 e a s ta n g l er e g r e s s i o n ) 等;( i v ) 在适 当的条件下,l a s s o 惩罚下的参数估计量具有诉相合性( k n i g h t 与f u ,2 0 0 0 5 1 1 ) 。 惩罚估计量也有两个缺点:( i ) 渐近有偏,详见f 纽与l i ( 2 0 0 1 ) 1 2 1 】;( 豇) 变量选择不 具有相合性,即正确模型被选到的概率小于i ,详见l c n g ,l m 与w a h b a ( 2 0 0 6 ) t l 和z o u ( 2 0 0 6 ) 1 1 0 1 。 f a n 与l i ( 2 0 0 1 ) t 2 l 】指出,一个好的惩罚估计量应该满足以下三条性质:1 、 无偏性:当真实的系数较大时,得到的估计量渐近无偏,以避免不必要的模型 偏差;2 、稀疏性:对得到的估计量设置一个阈值,一些小的估计系数自动设 2 第1 章引言 置为0 ,减少模型的复杂程度:3 、连续性:估计量对数据连续,具有稳定性。 由于l a s s o 惩罚估计量渐近有偏,变量选择也不具有相合性,他们提出了一种 新的惩罚方法,$ c a d ,其估计量定义如下: o ( s c a d ) = 申 劬一国2 + n p 厶( i o k l ) ,( 1 - 3 ) 其中厶是非负的惩罚参数。惩罚函数p 厶( ) 关于0 点对称,在如 o 时: i 厶巩若厶, p 厶( 以) = 一熊2 坐( a - 1 ) 盟若厶 艮 2 。【2 1 】通过分析指出,a = 3 7 在贝叶斯风险下接近最优,为了减少计算 量,之后的文章都沿用了这个值。【2 1 】证明了s o 满足上面提到的三条性质, 且进一步具有o r a c l e 性质:1 变量选择具有相合性,即真实模型被选到的概率 趋于1 :2 真实非零系数( 口1 0 ) 的估计量具有渐近正态性,且其渐近性质和真实模 型已知时估计量的渐近性质一致。 s c a d 惩罚估计量的缺点是其目标函数不可导、非凸,直接最小化目标函数 非常困难。【2 1 】对s c a d 惩罚函数进行l q a 0 0 e a lq u a d r a t i ca p p r o x i m a t i o n ,局部平 方逼近) : 删m 棚伽+ 1 2 等( , 然后对目标函数最小化,迭代至收敛。其中为初值,需要满足一定的相合性 条件,一般可选为最小二乘解。 为了弥* f l a s s o 的缺陷,同时又为了保证目标函数的凸性,进而简化计算, z o u ( 2 0 0 6 ) t n o l 提出了自适应l a s s o ,下面简记为a t 丛$ o 。假设舀是0 的一个倔 相合的估计量,一般可以取为最小二乘估计俨。定义权重向量轨= i 舀k l - b ,其 中b 是一个正的常数,则嗵船s o 估计台( a l a s s o ) 由下式给出: 务jso)=argmin)-(yi一d2+砜诹眦0-4)0 扭l筒 在模型和惩罚参数厶满足一定条件时,a l a s s o 具有o r a c l e 性质。 3 1 2 变系数模型 1 2 变系数模型 在实际建模中,参数线性模型指定错误时,会产生很大的偏差。非参数 建模对模型的识别没有做任何假设,但是维数灾难( c u r s eo fd i m c n s i o n a l i t y ) 会使 得当协变量维数较高时无法进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安阳市2024-2025学年八年级下学期语文期中模拟试卷
- 阿拉善盟2025-2026学年八年级下学期语文月考模拟试卷
- 安徽省滁州市南谯区2023-2024学年高三上学期第二次月考化学考题及答案
- PSH的识别与护理课件
- 2025 年小升初清远市初一新生分班考试数学试卷(带答案解析)-(人教版)
- 广东省广州市2025年高中“古诗文积累与阅读竞赛”初赛试题(语文)
- 教师教学2025工作总结
- 社区消防知识培训课件信息
- 2024-2025学年山东省潍坊市寒亭区青岛版五年级下册期中测试数学试卷(含答案)
- 房子首付合同范本
- 人行道及附属工程监理细则
- 主变压器安装施工方案完整版本
- 深度学习教学改进丛书 深度学习:走向核心素养(理论普及读本)
- 人民医院整形外科临床技术操作规范2023版
- 脚手架搭拆施工方案
- 高等教育新论复习提纲-czy
- 汽车风窗刮水器机构设计
- 重庆某广场高边坡喷锚支护施工方案(脚手架设计)
- 用友ERP沙盘大赛推演工具表(模板)
- 传染病学总论(英文稿)
- 教师师德师风专题培训讲座《润物细无声》
评论
0/150
提交评论