(概率论与数理统计专业论文)生存数据模型的变量选择.pdf_第1页
(概率论与数理统计专业论文)生存数据模型的变量选择.pdf_第2页
(概率论与数理统计专业论文)生存数据模型的变量选择.pdf_第3页
(概率论与数理统计专业论文)生存数据模型的变量选择.pdf_第4页
(概率论与数理统计专业论文)生存数据模型的变量选择.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(概率论与数理统计专业论文)生存数据模型的变量选择.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 生存分析是2 0 世纪7 0 年代以来发展起来的数理统计新分支, 着重对生存数据进行统计分析研究的一门学科。在许多学科领域, 如医学、生物学、保险精算学、可靠性工程学、公共卫生学、经济 学以及人口统计学等领域,都存在对某给定事件发生的时间进行估 计和预测的问题。生存分析就是对一个或多个非负随机变量进行统 计分析,即根据观测到的数据对其性能进行统计推断的学科。基于 统计学方法的生存分析的内容以及到目前为止的理论发展可以归纳 如下:基本的数据类型,参数模型和极大似然估计,非参数方法, 半参数模型,删失数据的回归分析、假设检验以及多变量生存分析 等。 对于c o x 模型,经过一个未知的单调变换后等于协变量的线性 函数加上一个随机误差,随机误差可以是已知的也可以是未知的, 即其线性变换模型为g 仃) = 一p z + e 对于这个模型本文先求出变换函数g ( ) 的估计,进而利用l a s s o 方法将生存数据模型系数进行压缩并且使某些系数变为0 ,再利用 a i c 或b i c 准则将为0 的系数截去,从而确定模型的阶数,进而达到 变量选择的目的;并根据改进的f u s e dl a s s o 运用m o n t ec a r l o 方 法确定调整参数,使模型的波动性变小,比较稳定。最后通过模拟 数据和实际数据的运算结果来说明生存数据的变量选择问题,并提 出了有待进一步解决的问题。 关键词生存数据,l a s s o ,变量选择,m o n t ec a r l o 方法,c o x l 匕f f , j 危险模型 a bs t r a c t s u r v i v a la n a l y s i si san e wb r a n c h o f m a t h e m a t i c a ls t a t i s t i cs i n c et h e 2 0 t hc e n t u r y7 0 y e a r s al a r g en u m b e ro fp r a c t i c a li s s u ei sp u tf o r w a r db y m o d e mm e d i c i n e ,b i o l o g ya n do t h e rs c i e n t i f i cr e s e a r c ha n ds oo n a st h e s u b j e c to ft h es u r v i v a ld a t af o rs t a t i s t i c a la n a l y s i sw i t hg r e a te m p h a s i s ,i t i su s e dt oe s t i m a t ea n dp r e d i c tp r o b l e m si n m a n yf i e l d s ,s u c ha s m e d i c i n e ,b i o l o g y , a c t u a r i a ls c i e n c eo fi n s u r a n c e ,e n g i n e e r i n gr e l i a b i l i t y , p u b l i ch e a l t h ,e c o n o m i c s ,a n dd e m o g r a p h ya n ds oo n s u r v i v a la n a l y s i s i st h es u b je c tt oa n a l y s i so n eo rm o r eo ft h en o n - n e g a t i v er a n d o m v a r i a b l e s ,t h a ti s ,t h e o b s e r v e dd a t a a c c o r d i n gt o i t s p e r f o r m a n c e t o c o n d u c ts t a t i s t i c a li n f e r e n c e s t a t i s t i c a lm e t h o d so fs u r v i v a la n a l y s i s b a s e do nt h ec o n t e n ta n dt h e o r e t i c a l d e v e l o p m e n tt o d a t ec a nb e s u m m a r i z e da sf o l l o w s :b a s i cd a t a t y p e s ,p a r a m e t e rm o d e l a n d m a x i m u ml i k e l i h o o d e s t i m a t i o n ,n o n - p a r a m e t r i cm e t h o d , s e m i - p a r a m e t r i cm o d e l ,r e g r e s s i o na n a l y s i so fc e n s o r e dd a t a ,h y p o t h e s i s t e s ta n dm u l t i v a r i a t es u r v i v a la n a l y s i s ,e t c f o rt h ec o x m o d e l , a f t e ra nu n k n o w nm o n o t o n i c t r a n s f o r m a t i o n ,t h em o d e li se q u a lt oal i n e a rf u n c t i o no fc o v a r i a t e sp l u s ar a n d o me r r o r ,a n dt h er a n d o me r r o rc a nb ek n o w no ru n k n o w n ,t h a t i s ,t h ef o r mo ft h e1 i n e a rt r a n s f o r m a t i o nm o d e li sg ( t ) = 一,z + s f i r s t l y ,t h ee s t i m a t e so fl i n e a rm o d e lg ( ) i ss o l v e d ,a n dt h e n l a s s om e t h o di su s e dt oc o m p r e s st h ec o e f f i c i e n to fs u r v i v a lm o d e l ,a n d m a k ec e r t a i nc o e f f i c i e n tb e c o m e0 ,t h e nt h eu s eo fa i co rb i cc r i t e r i o n i su s e dt oa m p u t a t et h ec o e f f i c i e n to foi no r d e rt od e t e r m i n et h eo r d e ro f t h em o d e lt oa c h i e v et h eg o l eo fv a r i a b l es e l e c t i o n ;a n dt h ei m p r o v e d f u s e dl a s s oi su s i n go fm o n t ec a r l om e t h o dt od e t e r m i n et h ea d j u s t m e n t o fp a r a m e t e r s s ot h a tt h em o d e lo ft h ev o l a t i l i t yi sm o r es m a l l e r , r e l a t i v e l ym o r es t a b l e f i n a l l y , a c c o r d i n gt h er e s u l to fs i m u l a t i o nd a t a a n dr e a ld a t at oi l l u s t r a t ev a r i a b l es e l e c t i o np r o b l e m so ft h es u r v i v a ld a t a t h e nt h ep r o b l e m sn e e df u r t h e rr e s e a r c h e di sp r o p o s e d k e yw o i ss u r v i v a ld a t a ,l a s s o ,v a r i a b l es e l e c t i o n ,m o n t ec a r l o m e t h o d ,c o xp r o p o r t i o n a lh a z a r d sm o d e l 硕+ 学位论文 第一章绪论 1 1 引言 第一章绪论 随着现代社会多元化的发展,经济、农业、工业、管理、生物、医学、工 程技术等领域的数据信息的处理利用越来越重要。如何有效地从庞大的数据挖 掘出有用的信息,统计建模【3 0 】无疑是处理这一问题的最有效的方法之一。建立 模型之初,人们为了尽量减少因遗漏重要自变量而出现较大的模型偏差,通常 会尽可能多地选择自变量,但这样也不能达到很好的效果。为了提高模型的解 释性和预测精度,要寻找对响应变量最具有解释性的变量子集即模型选择。线 性模型是现在统计学中理论丰富、应用广泛的一个重要分支。线性模型的建立 要具有好的解释性和预测精度。模型的准确性主要体现在变量的选择和回归参 数5 们的取值。考虑通常的线性模型 咒= 膨+ 乞,毛一( o ,盯2 ) , ( 1 1 ) j - 目- e i 彼此相互独立,我们有数据( 一,乃) ,扛1 ,2 ,n ,这里x 。= ( 薯,薯2 ,1 , 只是第f 个观测值对应的响应变量。使残差平方和达到最小,得到回归参数的最 小二乘估计1 2 1 1 即 f ,、2 1 夕= a r g m i n h 一乃l ( 1 - 2 ) p j 这个有很多好的性质,例如一定条件下关于协方差阵具有稳健性等,但是仍 然不能满足我们的要求。一方面在预测精度问题上,虽然最d - 乘估计的偏较 小,但它的方差却很大;另一方面在模型的可解释性问题上进行大量预测时, 我们往往希望变量集小一些,同时每个变量对响应变量的影响要相对大,为了 预测的准确,当然希望使某些回归系数减小到0 ,这样虽然牺牲了一些偏,但 却减小了预测方差,同时减少了变量,但最d x - - 乘估计达不到这样的要求。简 单的变量选择和岭回归1 2 8 j 是两种对最d , - 乘估计的改进方法,但是简单的变量 选择虽然使模型可解释,却使模型变得不稳定,这是由它的离散型程序决定的, 回归系数要么是被保留要么就是被简单的从模型中抠掉,这就使得观测数据的 一个小的差别就可能导致要选择不同的模型,从而影响了预测的准确性。岭回 归是一个连续的方法,它缩小了回归系数,而且没有简单的抛掉哪个变量,模 型比较稳定,但正是由于它没有使任何一个回归系数减小到0 ,使得模型中变 量太多,模型的解释性不好。t i b s h i r a n i l l l ( 1 9 9 6 ) 提出了一种新的方法:l a s s o ,即 l 硕士学位论文 第一章绪论 l e a s ta b s o l u t es h r i n k a g ea n ds e l e c t i o no p e r a t o r 这种方法使一些回归系数较小,还 有一些干脆就变为0 。这就使得这种方法兼有了简单的变量选择和岭回归的优 点,对于线性模型的改进来讲是一个很大的进步。但它忽略了相邻两个回归系 数间的差异,使之波动性很大。2 0 0 5 年,t i b s h i 础i 【l 】【2 】和s a u n d e r s t 2 】又对此进行 了改进,加入了约束条件l 膨l f 1 ,i 乃一岛一。i ,:控制模型的波动性,称这 个方法为f u s e dl a s s o 。 一 生存分析【6 】【7 】是2 0 世纪7 0 年代以来发展起来的数理统计新分支,是由现代 医学、生物学等科学研究的大量实际问题提出来的,着重对生存数据进行统计 分析研究的一门学科。生存分析的理论和应用受到了世界各国,特别是发达国 家很大的重视。在许多学科领域,如医学、生物学、保险精算学、可靠性工程 学、公共卫生学、经济学以及人口统计学等领域,都存在对某给定事件发生的 时间进行估计和预测的问题。例如,疾病的发生时间、治疗后疾病复发的时间 ( 医学) ,机械及电子器件或系统的失效时间( 可靠性工程学) ,犯人的假释时 间( 犯罪学) ,首次婚姻的持续时间,寻找工作及失业和再就业的时间( 社会学) , 经济危机的爆发时间,发行债券的违约时间( 经济学) ,被保险人的索赔时间( 保 险精算学) 等。 研究事件发生时问规律的问题就是生存分析问题,这类问题的解决通常采 用统计学的理论和方法。所以狭义来讲,生存分析就是利用统计学的理论和方 法解决与特定事件发生时间相关问题的- i j 学科。具体来讲,生存分析主要研 究生存时间,即一件产品可以币常地工作多长时间,人或动物能够维持生命多 长时问等。生存时间常用来表示自然界、人类社会或技术过程中某种状态的持 续时间。这个生存时间常常可以抽象地用一个非负的随机变量来表示。生存分 析就是对一个或多个非负随机变量进行统计分析,即根据观测到的数据对其性 能进行统计推断的学科。可见,生存分析可以广泛地应用于生物医学、工业可 靠性、社会科学和商业等领域。 根据上面介绍的内容,概括的说,生存分析就是在综合考虑相关因素( 内 因和外因) 的基础上,对涉及生物学、医学( 临床、流行病) 、工程学( 可靠性) 、 保险精算学、公共卫生学、社会学和人口学( 老龄问题、犯罪,婚姻) 、经济学 ( 市场学) 等领域中,与事件( 死亡、疾病发生、发展和延缓、失效、状态持 续) 的发生时间( 也叫寿命、存活时间或失效时间,统称为生存时间) 有关的 问题提供相关的统计规律分析与推断方法的学科生物和人的生存时间的评估和 预测时生物学和医学的重要研究对象,这方面的研究涉及基础学科和技术学科 的许多领域,其中数学方法特别是统计方法起着重要的作用,从数学角度来看, 这种研究是对一个或多个非负随机变量( 生存时间) 进行统计研究。生存时间 硕士学位论文第一章绪论 可以广泛地定义为一给定的事件出现的时间,这个事件可以是疾病的发生、一 种处理( 治疗) 的反应、病情复发或死亡。生存时间可以是无肿瘤时间,从一 种治疗开始到有反应的时间,缓解时间的长度或出现死亡的时间。生存数据可 以包括生存时间、对治疗的反应以及与反应、生存及疾病发生有关的病人特征。 1 2 文献综述 b r e i m 锄1 1 3 1 ( 1 9 9 3 ) 基于惩罚最d x - - 乘的想法提出了选择模型的一种新方法 “n o n n e g a t i v eg a r r o t e t i b s h i r a n i 1j ( 19 9 6 ) ,在f r a u 1 l 【2 1 1 ( 19 9 3 ) 提出的“b r i d g e r e g r e s s i o n ”和f i r e m a n l 3 1 ( 1 9 9 5 ) 提出的“n o n n e g a t i v eg a r r o t e ”的启发下提出了一 种称之为l a s s o 的新的变量选择方法,并将其成功应用于c o x 模型【4 2 】的变量选 择。l a s s o 方法用模型系数的绝对值函数作为惩罚来压缩模型系数,使绝对值较 小的系数压缩为0 ,从而同时实现模型参数的估计和模型选择。 与传统的模型选择方法相比,l a s s o 方法很好的克服了传统方法在模型选择 上的不足,但是缺乏有力的算法支持。因此很多学者在算法上进行了研究:先 是f u l 2 3 1 ( 1 9 9 8 ) 提出了“s h o o t i n g 算法,o s b o m e l 4 0 】【4 l 】等发现l a s s o 回归的解是逐 片线性的并提出了相应的算法。e f r o n 5 1 ( 2 0 0 4 ) 等提出了最小角回归算法很好的 解决了l a s s o 的计算问题,使l a s s o 方法广为流行。对l a s s o 回归的理论研究也 同时展开:f a n 和l i t l 7 1 ( 2 0 0 1 ) 舢l a s s o 估计对于绝对值较大的系数压缩过大, 可能会造成不必要的模型偏差,并且推测l a s s o 估计不具有“o r a c l ep r o p e r t i e s ”f 3 l 】, 并给出了一种被称为s c a d t l 2 】新的惩罚函数,并沿用g c v l 2 4 1 方法来选择惩罚参 数。这样得出的估计不仅能同时完成模型参数的估计和模型选择,而且具有 “o r a c l ep r o p e r t i e s 最后还将该方法纳入惩罚似然框架,给出了一种能针对一般 模型同时做到估计和模型选择的方法,并提出了称之为“局部二次近似 的算 法。该方法能比较简便的进行计算。但是该方法和向后逐步回归【3 6 l 一样,一旦 变量在某一步被去掉将不可能再进入模型。h u n t e r 和“【2 9 】通过引入一个微小的 扰动系统研究了该算法的收敛性,并在此基础上提出了m m 算法来解决该问题, 但是该方法在实际操作时需要确定小扰动的值,这无疑给问题的处理增加了难 度,z o u l 5 6 j 和l i 5 6 1 ( 2 0 0 7 ) 系统研究了非凸惩罚函数( 包括s c a d ) ,并提出了 用局部一次近似来代替局部二次近似,这种近似能有效地将非凸惩罚函数转化 为l a s s o 惩罚。这就使某些不适宜做惩罚的凹函数( 比如“b r i d g er e g r e s s i o n ” 中0 刀1 2 0 的情形, 最多只能选择胛个自变量,这种结果往往得到的是过于稀疏的模型。因此很多 研究者也进行研究,见v a nd eg e e r l 4 5 1 和s ,v a l l f 4 5 ( 2 0 0 4 ) ,m e i n s h a u s e n ,n 1 3 9 】和 e b u h l m a n n i l 3 】f m l ( 2 0 0 6 ) c a n d e s e f 1 5 】和t t a o ( 2 0 0 5 ) 。实际上z o u l 5 6 】和 h a s t i e t 2 7 1 ( 2 0 0 5 ) 提出的“e l a s t i cn e t 1 5 7 】便是一种处理该问题相当有效地方法。还 有一种想法就是降维【2 6 1 ,多元分析中的主成分分析就是一种有效降维的方法, 但该方法一般不能进行变量选择。b a i r , e 1 1 4 】等( 2 0 0 6 ) 在主成分的基础上结合 l a s s o 反复方法提出的“有监督的主成分”1 3 5 1 便是一种处理该问题相当好的方 法。实际上针对某些特殊的数据t i b s h i r a n i l 2 j 等( 2 0 0 5 ) 还提出了一种称之为 “f u s e dl a s s o ”的特殊的惩罚结构。l a s s o l 3 3 1 及其相关方法的不仅可以应用于简单 的线性模型,而且可以应用于其它很多模型:广义线性模型( p a r k 和h a s t i e ,2 0 0 7 ) , 4 硕士学位论文 第一章绪论 图模型( y u a n 和l i n ,2 0 0 7 ;m e i n s h a u s e n 和b u h l m a n n ,2 0 0 6 ) ,半参数模型( l i 和 l i a n g l 3 4 i ,2 0 0 7 ) 。l a s s o 和统计学习领域非常热门的方法“b o o s t i n g 【2 5 】 4 5 1 也有相当密切的关系。z h a o 和y u 5 5 1 ( 2 0 0 7 ) 提出的“s t a g e w i s el a s s o ” 就系统的研究了这一问题。以上是国外关于l a s s o 及相关的方法的研究情况, 国内也仅有光华管理学院的王汉生教授展开过研究。 1 3 文章的结构与内容 本文安排如下:第一章是综述,介绍了此学科的历史背景以及课题的研究 前景。第二章先对l a s s o 进行简单的回顾,然后介绍最小角回归算法,在此 基础上又介绍f u s e dl a s s o 的定义及算法。第三章主要介绍生存数据的概念及特 征,几种常见的参数模型以及生存函数的估计方法。第四章介绍了生存数据的 线性模型以及用l a s s o 、f u s e dl a s s o 对参数进行估计。第五章主要指出有待进一 步研究的问题。 硕士学位论文第二章l a s s o 及f u s e dl a s s o 的简介 第二章l a s s o 及f u s e d ia s s o 的简介 2 1l a s s o 的定义 t i b s h i r a n i u j 提出的l a s s o 回归是一种收缩估计方法,基本思想是在回归系数 的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产 生某些严格等于0 的回归系数,得到可以解释的模型。假设数据( ,只) , i = 1 ,2 ,x = ( 一。,:,) 7 为自变量, 为第f 个观测值对应的响应变量, 假设观测变量彼此独立,或者响应变量 在观测值给定的情况下独立,即咒关 于条件独立,同时假设吻是标准化的,也就是专军嘞= o ,专;= l ,令 夕= ( 矗,厦,色) ,l a s s 。估计p 1 为: ( ,夕) = a r g m ;n 姜( m q 一喜廖 2 ) 满足于莩l 层i r c 2 - , 这罩t 0 是调节参数,此时对一切的t ,有口的估计& :歹,不失般性,我们 假定歹= d ,这样就可以省略了口,调和参数f 的控制使得回归系数总体变小, 若令,o = i 属i ,f 就会使些回归系数缩小并趋于0 ,一些系数甚至就等于 0 ,例如,当f = l o 时,粗糙的描述产生的结果就是使不为0 的回归系数的个数 由p 个减少到大约等个,也就是说变量集中不仅一些变量的作用减少,而且起 作用的变量个数也仅大致为原来的一半,实际上,我们选择的调和参数,使得 鼬d 估计中非0 回归参数的个数不超过m i n ( p ,n ) 个,这对于我们p n p 5 1 的问题很有用。 t i b s h i r a n i 1 】提出l a s s o 的动机来源于b r e i m a n l l 3 1 ( 1 9 9 3 ) 的- - 个想法一一 n o n n e g a t i v eg a r o t t e ,即 a r g m i n 荟( y ,一口,一否c ,雳x ,) 2 s t c ,。,莩c , c 2 2 , 硕士学位论文第二章l a s s o 及f u s e dl a s s o 的简介 矽? 为线性回归模型中回归参数的最d , - 乘估计。这种方法从最小二乘估计出 发,通过一些非负因子使回归系数缩小,这些非负因子的和受一个常数控制, b r e i m a n 用大量的模拟得出一个结论:n o n n e g a t i v e g a r o t t e 的误差一致的小,而 且除了真实模型有很多接近0 但非0 的系数外,这种估计比岭估计好,但这种 方法的解与最小二乘估计的符号有关,在过度拟合和高相关性这两类问题上, 由于最d x - - 乘估计做的不好,n o n n e g a t i v eg a r o t t e 受其影响也做的不好。相比较 l a s s o 兼有了简单的变量选择和岭回归的优点,对于线性模型的改进来讲是一个 很大的进步。 2 2 l a s s o 的算法 对于l a s s o 的计算,主要就是调和参数t 的确定和解二次规划问题。确定调 和参数t 的方法有交叉检验、广义交叉检验【1 6 1 等。t i b s h i r a n i t l l ( 1 9 9 6 ) i , 经给出 了详细的描述,这里就省略了证明。若确定了调和参数t ,就只用考虑二次规划 的问题了。要注意的是约束条件i 色l t ,绝对值的存在带来了一定的麻烦。 这里我们可以利用l 色i = 车来进行处理。此时,变量增加到2 p 个, 约束条件变为2 p + r 个线性约束,对午这个问题还有一种较为简单适用的方法, 令4 为( + 1 ,1 ,1 ) 形式的p 维向量,当i = 1 , 2 :,2 p 时,哦取遍所有的可能。 此时显然有 川,铮g b , ( 2 3 ) 这里g 为一个2 p p 的矩阵,它的行取遍莎,这样我们把带有绝对值的不等式 约束化成了简单的线性约束,但是这里也存在一个新的问题,2 p 是一个很大的 数,也就是约束条件很多,直接解这个二次规划问题显然是不可行的。l a s o s o n 和h a n s e n ( 1 9 7 4 ) 弓i 入了顺序不等式约束,找到了满足龙格一库塔条件的可行解, 具体程序如下: i o :取出最小二乘估计的符号,记为4 ,并令e = p ) 即4 = s 咖o ) ,夕。为 最小二乘估计。 2 。:计算夕= a r g m m 兰f ,j ,一兰矽, 2b 。,这里g :8 t a r g m i 。 2 。:计算夕 lj ,一艺矽,l ;t ,这里g = 。 【9 1 户1 j 3 0 :验证是否满足i 色i t ,若满足,则停止,夕即为所求,否则,进行 下面的4 0 。 4 。:添加,到e 中,其中t = j 咖l g = b ,ty 重复2 。,3 0 步。 7 硕士学位论文第二章l a s s o 及f u s e dl a s s o 的简介 这个过程在有限步必收敛,因为每一步将在集合e 中添加一个兀素,所有 元素为2 p 个。但是当我们逐步加入约束条件的时候,这里的t 不免会有重复, 这就使得g 的行数没办法控制,实际编程序的时候,不好确定到底应添加多少 次4 为了解决这个问题,e f r o n 5 1 等( 2 0 0 4 ) 提出的方法l e a s t a n g l er e g r e s s i o n 即最小角回归,用于计算l a s s o 估计路径。其算法步骤为: ( i ) 更新模型入选变量集( a c t i v es e t ) 计算相关系数绝对值: 九= o ;= x 歹一豇) ;色= n a x 更新变量集a ( o , 彳 ) :a ( k 一1 ) + 侈】;彳( o ) = ;夕= a r g m i n 毛i ( i i ) 确定最小角方向0 t ) 令托= 【峭,v l 酬矿 其中s ,:s g n ) ,仇:a k 伍。t 以) 1l ,4 :k 似;x ) - 1l 广一 j 。是所有分量为1 的向量,其长度等于h 计算最小角方向:= x 。( o k ( i i i ) 计算步长 当叠a k , 令口酊= x ;u 女 若h = d ,则九= c 形k 。,算法终止。 碱叫酬水一c 此飞) ,仅峨) t a , 坞) ) ( v ) 预测相应变量 弘,媲杪a 其中,= 一房g ,l 死= 若死 甩时,单纯用该方法往往会得到过于稀 疏的模型。 为方便起见,直接采用b r a d l e ye f r o n l 5 1 等( 2 0 0 4 ) 给出的糖尿病数据( d i a b e t e s ) 为例来说明l a s s o 模型用最小回归求出的解。即为下图2 1 1 b e b 即强) q l 忸i i - 簟屎待戢据摹r 妇惩罚的解路径 图2 - 1 糖尿病数据的解路径 2 3aic 准贝l j 幂口8ic 准贝0 上面得到的是估计值矽的各分量的一个排序,例如可以是 矗,及,从,矽。但是我们希望参数中非零分量少一些,同时每个分量对响应 变量的影响相对大一些,为了预测的准确,我们希望使某些回归系数减小到0 。 因此,必须对得到的排序做一个截断,这里主要介绍a i c 准则和b i c 准则【4 9 1 。 a i c 准则函数定义如下: a c ( q ) - - 一2l o g 做大似然函数) + 2 ( q ) ( 2 4 ) a i c 越小说明模型越准确,这里2 ( 模型最小参数个数) 为惩罚项,由于 惩罚项与样本容量无关。所以在理论上a i c 不能给出相合估计。也就是说,当 ,z 专o o 时,采用a i c 方法给出模型阶数估计值不能依概率收敛到真值。 b i c 准则函数定义如下: b i c ( q ) = 一21 0 9 ( 极大数) + l o g ( n x q )( 2 5 ) 即a i c 准则函数中的2 被l o g ( n ) 所代替,b i c 越小说明模型越准确。 一般地,l o g ( n ) 远远大于2 ,对同一数据序列进行拟合时,用a i c 准则往 往比用b i c 准则确定的阶数高,定义不同的准则函数,其目的是为了拟合残差 与参数个数之间不同的权衡,以体现研究者对残差与阶数两者重要性的不同权 衡。当样本量趋于无穷时,用a i c 准则挑选的最佳模型的阶数往往是过相容 的。也就是说,选定的阶数往往比真实模型的阶数高,具体情况要依据具体要 9 硕士学位论文第二章l a s s o 及f u s e dl a s s o 的简介 求合理的选择不同的准则。 2 4f u s e dia s s o 的简介及算法 与l a s s o 一样,我们依然考虑标准线性回归模型,f u s e dl a s s o 闭估计为: 夕= 删n 胤一一再p 岛嘞卅肝x ,l 晰,驴刮轧协6 , 这里第一个约束缩小了回归系数,并减少了变量的个数,第二个约束使得相邻 两个系数的波动性变小。f u s e d 思想源于l a n d 和f r i e d m a n 2 2 ( v a r i a b l ef u s i o n :a n e wm e t h o do ft h ea d a t p i v e s i g n a lr e g r e s s i o n t e c h n i c a lr e p o r t d e p a r t m e n t o f s t a t i s t i c s ,s t a n f o r du n i v e r s i t y ) ,他们提出一种i 乃一只一1 i 口f 2 形式的惩罚,特别 是口:o ,1 ,2 的情况,但是他们没考虑到型l a s s o 同时运用惩罚y i j 和 1 只一岛一。l f :,尤其是第二个约束,如果把乃看成是的函数,- 那么直观的 说它使得函数变得平坦多了,变化趋势也不是来回大幅地跳跃了。 对于f u s e dl a s s o 的计算,当我们了解了l a s s o 后,这个问题就变得简单多了。 调和参数的确定可以用交叉检验的方法。解二次规划问题时,把变量处理成正 部减负部的形式。设计阵x 为n xp 的,y 和卢分别为维和p 维的列向量时, 令 = + + 一,+ ,一0 , o j = ,一_ 1 ,j 2 ,幺= f l , 令 p ,= 口j 一口i ,9 7 ,口i 0 ,l 是一个p x p 的矩阵,其中l 。= 1 ,l 1 + l ,= - 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论