




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 本文主要研究了a l a s s o 方法在对比例危险率模型和比例优势模型做变量选择时可 以改进的地方本文在a l a s s o 惩罚项权重r 的选择上提出了新的方案,并且根据本文 具体模拟数据针对比例危险率模型的估计进行了讨论和改进另外,在已知的a l a s s o 方 法对比例优势模型做变量选择时,是利用了极大化边际似然函数的方法但模拟中对边际 似然做积分估计时是基于均匀分布进行随机选点的,往往会出现估值不稳、计算速度较 慢的现象本文主要是利用数论选点的方法对其进行改进同时本文利用改进的方法分别 对两个模型的变量选择做了模拟,结果显示改进的效果明显 关键词:g p 集合;边际似然;比例危险率模型;比例优势模型 i 两类生存模型a l a s s o 变量选择方法的改进 i m p r o v e da l a s s om e t h o d sf o rv a r i a b l es e l e c t i o n i nt w ok i n d so fs u r v i v a lm o d e l s a b s t r a c t i nt h i sp a p e r ,w es t u d yt h ep l a c e st h a tc a nb ei m p r o v e dw h e ns e l e c t i n gv a r i a b l e si nt h e p r o p o r t i o n a lh a z a r d sm o d e la n dp r o p o r t i o n a lo d d sm o d e lw i t ha l a s s om e t h o d w eg i v es o m e n e wm e t h o d si nt h ec h o o s i n go fp e n a l t yw e i g h t s 下i nt h i sp a p e r a n da l s om a k ead i s c u s s i o n a n di m p r o v e m e n tf o rt h ee s t i m a t i o no ft h ep r o p o r t i o n a lh a z a r d sm o d e lw i t hc e r t a i ns i m u l a t i o n d a t a i na d d i t i o n ,i nt h ek n o w na l a s s om e t h o d ,i te s t i l a t e dt h ep r o p o r t i o n a lo d d sm o d e l b ym 妇i z i n gt h em a r g i n a ll i k e l i h o o df u n c t i o n ,b u tt h es e l e c t i o no fp o i n t si nt h es i m u l a t i o n o ft h em a r g i n a ll i k e l i h o o dw a sb a s e do nt h eu n i f o r md i s t r i b u t i o nw h i c hm i g h tb ei u s t a b l ea n d s l o w w ei m p r o v et h em e t h o db yu s i n gt h en u m b e rt h e o r yt os e l e c tp o i n t si nt h i sp a p e r w e a l s og i v et h es i m u l a t i o no ft h ev a r i a b l es e l e c t i o nf o rt h et w ok i n d so fm o d e l sw i t ht h ei m p r o v e d m e t h o 凼i nt h i sp a p e r a n dt h er e s u l ts h o w st h a tt h ee f f e c to fi m p r o v e m e n ti so b v i o u s k e yw o r d s :g pc o l l e c t i o n ;m a r g i n a ll i k e l i h o o d ;p r o p o r t i o n a lh a z a r d sm o d e l ;p r o p o r t i o n a l o d d sm o d e l i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工 作所取得的成果尽我所知,除文中已经注明引用内容和致谢的地方外,本论 文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或 其他用途使用过的成果与我一同工作的同志对本研究所做的贡献均已在论 文中做了明确的说明并表示了谢意 若有不实之处,本人愿意承担相关法律责任 学位论文题目:函差生叠撞堕丛5 5 q 建蚴这函邋 作者签名:刘黄 两类生存模型a l a s s o 变量选择方法的改进 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文 工作的知识产权属于大连理工大学,允许论文被查阅和借阅学校有权保留论 文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复 制手段保存和汇编本学位论文 学位论文题目:煎筮垒盘趔丛鱼殳盟选串连商边照 作者签名:塞亟煎 日期: 幽 年鱼月2 王日 作者签名:三薹堑! ! 丝日期:亟年月二2 日 大连理工大学硕士学位论文 引言 生存分析是对一个或多个非负随机变量进行统计分析,即根据观测到的数据对一个或 多个非负随机变量进行统计推断生存分析一个重要课题是研究临床变量z = ( 历,磊) 对病人生存时间的影响例如,在癌症研究中,研究调查希望能得到病人诊断过程中各临 床变量因素与病人生存时间之间的关系,如病人年龄因素、癌症肿瘤大小与数量、病人接 受的治疗方案等与病人生存时间之间的关系这样可以通过研究更好地对疾病进行预测, 得到与生存时间最相关的影响因素,从而通过适当的治疗方案更好地控制影响因素生存 时间的含义并不是单指病人从诊断开始到死亡的时间,它可以表示对一个特定治疗方案 的反应时间,癌症肿瘤复发的时间,或对其他事件的反应时间等 在生存分析中最常用的模型是比例危险率模型 1 设协变量为z = ( z 1 ,磊) t 时, 寿命t 的密度函数为f ( tj z ) ,生存函数为s ( 啦) ,危险率函数是 i 加渊 当z l z 2 时,比值h ( t l z 】) h ( t z 2 ) 与t 无关,则称寿命t 与协变量z 的关系适合比例危险率 模型在该模型中,随时间增加,不同组之间的危险率是成比例的,与时间t 无关生存分析 中另一个常用的模型是比例优势模型在含右删失数据的生存分析中,记磊= r n i n ( 死,g ) , 正为事件发生时刻,q 为观测时刻,瓯= j ( 正g ) 为截尾指标,磊= ( 历1 ,磊p ) 丁为p 维向量,s ( t l z ) 为给定z 下t 的条件生存函数,s o ( t ) 为基准生存函数称寿命变量t 和 协变量z 符合比例优势模型,若对给定的z ,z 的条件生存函数s ( t l z ) 满足 铲= 帮e x p ( 3 t 巩 ( 0 ) 其中p :( 岛,良) t 是回归参数向量比例优势模型具体介绍见下文比例危险率模型 在生存分析中的应用是较广的,但当不同组间的同质性随时间增加时,基准危险率函数不 存在。比例危险率模型将不再适用例如当不同的组的危险率函数收敛到同一极限时,比 例优势模型比比例危险率模型更加适用f 2 1 - f 6 】 所谓模型变量选择是指从临床变量历,磊中挑选出与生存时间最相关或者最能 预测生存时间的变量在生存模型中,变量选择非常关键,一个有效的变量选择会带来一 个好的风险估计和模型解释许多线性回归模型变量选择的方法都可以应用到生存模型 的背景中来,其中包括子集选择法,逐步筛选法,基于评分测试的渐近程序,w a l d 测试和 其他近似卡方的测试程序,引导程序f 7 1 和b a y e s i a n 变量选择f 8 | 9 1 在f 10 1 f 1 1 1 中对这些方法 有很好的介绍但一些方法如逐步筛选程序在计算大型数据集时不太适用,方法也经常会 受数据进行较大变化时的影响,而且这些方法的理论性能通常是不知道的f 1 2 1 近来一些部分似然惩罚的方法,例如l a s s o 1 3 1 和s c a d 方法f 1 2 1 ,被用到了比例危 险率模型中,通过将一些回归系数收缩至零,能有效的选择重要变量并很好的估计回归模 型l a s s o 方法提出时间较早,但l a s s o 方法却不拥有o r a c l e 性质1 4 1 ,相比之下,s c a d 1 两类生存模型a l a s s o 变量选择方法的改进 方法有更好的理论性能s c a d 方法首先是由f a n 和l i 1 5 在广义参数结构中做变量选 择和有效估计的研究中提出来的考虑线性模型 y=x8 + e , 其中p 是p n 1 的回归系数向量,x 是协变量矩阵s c a d 方法与传统的子集变量选择方 法相比有两大优势:其一,s c a d 变量选择是连续的,所以相对于离散的子集选择法更稳 定;其二,s c a d 在高维数据的背景下是可以方便计算出来的的,而传统的子集选择法的 计算在鲰很大时很难实现与l a s s o 估计相比,s c a d 方法有很好的理论性能,但是它 惩罚项的非凸形式使它达到最优化受到影响,而且方法也会受到数据不稳定的影响 除了l a s s o 和s c a d 模型,还有几种惩罚模型被应用到变量选择和估计中,像桥估 计f 1 6 1 和e l a s t i c - n e t 惩罚估计f 17 1 桥估计的研究提出了建立在一般线性模型下的惩罚最 小二乘目标函数 旦 q n ( 卢) = i i v x p + h :f 岛1 1 ,( 0 2 ) j = l 其中k 是一个惩罚参数对任意给定的7 0 ,使( o 2 ) 式取最小值的卢的估计反被叫 做桥估计f 1 6 1 f 1 8 1 它包含了两类重要的特殊情况:一是当7 :2 时,它就是通常的岭估计; 二是当7 = 1 时,该估计就是l a s s o 估计,l a s s o 估计主要介绍了变量选择和压缩方法 k n i g h t 和f 、u 1 9 1 研究了协变量的个数有限时,桥估计的渐近分布他们证明了当0 - y 1 , 参数的真值为0 时,在一些适当条件下,极限分布在0 点的概率很大这个结论为利用桥 估计进行变量选择提供了理论依据f a n 和l if 1 5 1 提出了s c a d 惩罚,研究了s c a d 惩罚 似然方法的渐近性质,这也是在参数个数有限的条件下进行的f a n 和p e n gf 2 1 1 又研究了 参数的个数发散时的情况他们证明了在一定条件下,s c a d 惩罚部分似然最大值具有先 知性质当协变量的个数随着样本容量的增加而趋于无穷时,有一些人研究了回归估计的 性质,例如h u b e rf 2 2 等在给出r 的增加速率的条件下,证明了回归参数的m - 估计的相合 性和渐近正态性但是并没有考虑稀疏模型下的惩罚回归和变量选择h u a n g 和h o r o w i t z f 2 0 1 等研究了稀疏高维情形下,当协变量的个数随样本容量的增加而趋于无穷时,桥估计 所具有的渐近性质他们将k n i g h t 和f u 1 9 1 的结论从有限维推广到了无穷维 如今a l a s s o 方法f 2 3 1 f 2 4 被用于了线性模型中,而且能更有效的估计回归模型相 比l a s s o 和s c a d 方法给回归系数赋相同的权重,a l a s s o 方法是在部分似然惩罚的 基础上给回归系数赋予变动权重,即引入了入声慨1 形式,给不重要的变量赋较大的权 j = 。1 。 重,给重要的变量赋较小的权重与s c a d 方法相比,a l a s s o 方法拥有凸性形式,能够 确保最优值的存在,而且能被标准算法有效解决:与l a s s o 方法相比,a l a s s o 方法有更 好的理论性能因此是更有效的方法本文在a l a s s o 惩罚项权重7 - 的选择上提出了新 的方案并且根据本文具体模拟数据针对比例危险率模型进行了讨论和改进另外,在用 a l a s s o 方法对比例优势模型做变量选择时是引入了极大化边际似然函数的方法但对 边际似然做积分估计时是基于均匀分布进行随机选点的,在模拟中往往会出现估值不稳、 计算速度较慢的现象本文主要是利用数论选点的方法对其进行改进同时本文利用改进 的方法分别对两个模型的变量选择做了模拟结果显示改进的效果明显 2 大连理工大学硕士学位论文 本文的结构如下:第一部分,介绍比例危险率模型及a l a s s o 方法在比例危险率模 型变量选择中的应用,提出并证明了a l a s s o 方法的理论性能,同时提出a l a s s o 方法 在比例危险率模型变量选择中的改进之处;第二部分,介绍比例优势模型及a l a s s o 方 法在比例优势模型变量选择中的应用,并提出a l a s s o 方法在比例优势模型变量选择中 的改进之处;第三部分,介绍本文所用到的算法;第四部分,分别对比例危险率模型和比例 优势模型作了模拟,并将改进方法后的模拟结果与之前结果作了对比;第五部分,介绍了 本文的结论以及本论文值得探讨的地方 3 两类生存模型a l a s s o 变量选择方法的改进 1a l a s s o 方法在比例危险率模型变量选择中的应用及改进 1 1比例危险率模型的介绍 设协变量为z = ( z l ,z p ) t 时,寿命t 的密度函数为,( t l z ) ,生存函数为s ( t l z ) ,危 险率函数是 九( 亡i z ) = 丽f ( t l z ) 若z 1 z 2 时,比值h ( t l z l ) l h ( t l z 2 ) 与t 无关,则称寿命t 与协变量z 的关系适合比例危 险率模型从这个定义知道,对于比例危险率模型,寿命t 的危险率函数有下列形式: h ( t t z ) = h o ( t ) 夕( z ) 在多数实际问题中,g ( z ) 常取参数形式:g ( z ) = g o ( z ,p ) ,这里g o 是已知函数,卢= ( 风,岛) t 是未知参数当g o ( z ,p ) = e x p ( 1 9 7 z ) 时,模型 h ( t l z ) = h o ( t ) 唧( 矿名) 即为c o x 模型 1 2a l a s s o 方法在比例危险率模型变量选择中的应用 在含右删失数据的生存分析中,记互为事件发生时刻,q 为观测时刻,记截尾指标民 为 而= j ( 正g ) , 记 丑= m i n ( t t ,g ) 我们利用如下对数部分似然函数【2 5 估计模型中的p : nn z n ( p ) 兰文垆磊- l o g j ( 岛磊) 唧( 矿乃) ) i = 1 j = l 由【2 5 ,l a s s o 惩罚的对数部分似然为 呼一耘m ( 卢) + a 耋俐, j 5 1 其中入0 为惩罚项系数,控制着收缩的幅度,一般通过g c v 准则【2 6 估计入l a s s o 惩 罚的不足处是所有系数都乘相同的惩罚项系数入当入很大时变量选择可以得到很稀疏 的表示,但也容易使非零系数产生较大的偏差 27 4 大连理工大学硕士学位论文 a l a s s o 方法与l a s s o 方法相比,是在部分似然惩罚的基础上给回归系数赋予变动 权重,即引入了入pi n s l 乃形式,给不重要的变量赋较大的权重,给重要的变量赋较小的 权重相应的a l a s s o 惩罚的对数部分似然为: 唠n 一氧郴) + a 妻蚓勺, 口= 1 其中丁= h ,印) r 可以根据数据适当进行选择由 2 3 - 2 5 ,可以根据卢的n 阶一致 收敛估计选择适当的形式赋给7 - 记m 的极大边际似然估计( m m l e ) 为矽,可以证得 声是一致收敛的 2 8 ,而且它的绝对值能够反应出协变量的相对重要性在【2 5 中,选择了 彳1 = i 岛i ,即a l a s s o 惩罚的对数部分似然为: i i 吾n - 扣( 卅入薹p 酬岛| 如果岛= 0 ,则令岛= 0 当选择相等的权重时,a l a s s o 方法即为l a s s o 方法 1 3a l a s s o 方法的理论性能 我们从两方面研究a l a s s o 估计的渐进性我们先考虑样本为n 的惩罚的对数部分 似然函数: 矾( 卢) = 2 竹( 卢) 一n k 恻吼 ( 1 1 ) j = 1 令参数向量为 岛= ( 硒,踢) t , 其中伤。由q 个零元素构成,筋由其余零元素构成相应的,令使( 1 1 ) 式取得最大值的卢 的估计为 良= ( 鼹,纭) 7 定义 批( 亡) = 民j ( 乃t ) , m ( ) = ,( 壶右) 在这里我们定义协变量z 是与时间t 有关系的,即协变量为z ( t ) ,t 【0 ,1 则f i s h e 搞 息矩阵为: ; z ( n o ) = 卜愉,t ) s ( o ( 风,o h o ( o d 亡, , o 其中 咿= 绷一( 翱) ( 绷一 s ( 知( p ,亡) = e z ( ) 。七y ( t ) e x p 7 t 2 ( 亡) ) ,七= 0 ,1 ,2 两类生存模型a l a s s o 变量选择方法的改进 假设这里满足 2 9 d p 提到的规则条件令i ( z o ) 为基于对数部分似然的f i s h e r 信息矩 阵令 i i ( z l o ) = i n ( z l o ,0 ) , 其中i l l ( z l o ,0 ) 为z ( b o ) 的第一个8 s 子矩阵,庞o = 0 下面介绍 2 5 】中两个定理,由定理 知当k 以适当速率收敛至0 时,反是n 阶一致收敛的 定理1 1 假设( 名1 ,t 1 ,c 1 ) ,( ,死,g ) 是独立同分布的,互和g 在给定旎下是独 立的如果 而k = o p ( 1 ) , 则a l a s s o 估计满足 i i 觑一z o l i = d p ( 扎_ 1 2 ) 当h 选择合适时,a l a s s o 估计拥有o r a c l e 性能【14 也就是说当n 趋于无限时, h _ b a s s o 估计的效果就如同知道了正确子模型下的效果一样好 定理1 2 假设 何h 一0 ,n k _ o o , 在满足定理( 1 1 ) 的条4 牛- f 当收敛概率趋于z 时,a l a s s o 估计良的佗阶收敛一定满足 下面两个条件: ( i ) 岛n = o ; ( 扼) 当钆趋于无限时,何( 麂竹一岛o ) 依分布收敛于n 0 ,i i - 1 ( 尻o ) 】 由于证明中只要求声是1 1 阶一致收敛的,那么岛的任何n 阶一致收敛估计在不改 变a l a s s o 估计渐进性的前提下都可以用来作为惩罚项权重7 1 4a l a s s o 方法的改进 以上介绍了a l a s s o 方法在比例危险率模型变量选择中应用以及理论性能。下面介 绍本文对a l a s s o 方法在模型应用中的改进由于定理( 1 2 ) 的证明中只要求声是n 阶 一致收敛的,那么阮的任何1 1 阶一致收敛估计在不改变a l a s s o 估计渐进性的前提下 都可以用来作为惩罚项权重丁既然r 选择方式不唯一我们可以用很多方法选择丁,并 根据计算效果的好坏对其进行调整在f 2 5 1 中,选择了f 1 :凰| 本论文提出一系列新的 丁的选择方法,例如: l 席二i r 勺= 1 一揣; ( 1 2 ) 巧一桊器; 勺= l 一器; 巧= l 一糕器; 6 ( 1 3 ) ( 1 4 ) ( 1 5 ) 大连理工大学硕士学位论文 勺= 1 一舞器 ( 1 6 ) 等形式( 其中r 0 ) 根据本文对比例危险率模型模拟时选择的数据,本文着重对( 1 2 ) 式 r = 舌,击,( 1 3 ) 式7 = 1 ,( 1 4 ) 式r = 1 的形式进行了讨论即主要对下列4 种方法进行了 讨论: m 卢i n - ! 佗t 删+ 入驴pl ( 1 一器) ; ( 1 7 ) 雩n 一知卅a 驴p | ( 1 一黠) ; ( 1 8 ) 呼一扣( 卅入妻肿_ l o g g i ( 删1 3 4 1 ) ) ;( 1 9 ) 呼一扛枷m 善p 舯一面e x p ( 啊t 3 j ) ) ( 1 1 0 ) 本文在比例危险率模型的模拟部分给出了具体的模拟值,并将计算结果在样本均方 误差m s e 及重要变量回归系数偏差大小方面与原a l a s s o 方法进行了比较可以看出 酌讲后的古浩比厦a t a r r n 方法有了显著撂高 7 两类生存模型a l a s s o 变量选择方法的改进 2a l a s s o 方法在比例优势模型变量选择中的应用及改进 2 1比例优势模型的介绍 在含右删失数据的生存分析中,记磊一m m ( t t ,g ) ,正为事件发生时刻,g 为观测时 刻,民= j ( 正g ) 为截尾指标,磊= ( 磊1 ,) t 为p 维向量,s ( t l z ) 为给定z 下t 的 条件生存函数,s o ( t ) 为基准生存函数称寿命变量f 和协变量z 符合比例优势模型,若 对给定的z ,r 的条件生存函数s ( tj z ) 满足 型铲=常exp(przs(tlz s o ) , )( t ) , 其中p = ( 尻,岛) ? 是回归参数向量比例优势模型( 2 1 ) 式可以等价为 h ( t ) = 一矿z + e , 其中 h ( t ) = i o g l s o ( t ) s o ( t ) 】 e 服从标准l o g i s t i c 分布,即 f ( x ) = p ( e z ) = e x p ( x ) l + 唧 ) ) 记a ( ) ,入( ) 分别为e 的累积危险率函数和危险率,即 a ( x ) = l o g 1 + e x p ( z ) ) , 入( z ) = = ( 1 a ( z ) c b 2 2a l a s s o 方法在比例优势模型变量选择中的应用 ( 2 1 ) ( 2 2 ) 在比例优势模型中,p 的部分似然函数是不易得出的,因此我 l r f f j 极大化边际似然函 数的方法【2 8 来估计模型令丑1 ) 孔k ) 为样本的次序非删失寿终时刻,记 丑o ) = 0 , 互k + 1 ) = 。上( k + 1 ) 2c 记妒为与( 磊,瓯) ( i ;1 ,亿) 相关的正的所有秩向量的集合m 2 s ,得边际似然函数 l n ,m ( p ) 为 其中 k ,m ( p ) = ( 入( 甄) + 3 丁磊) ) 氐e a ( k k i ) + 矿厄i id v ( k ) k ,( 2 3 ) n 。 t = 1 k = l k ) = 日( 丑七) ) ,_ c = 1 ,k 8 k k v i 2 s + 3 且为素数本文模拟时,在竹= 1 0 0 时选择p = 1 0 3 ,在礼= 2 0 0 时选择p = 2 0 3 , 在扎= 3 0 0 时选择p :3 0 7 表4 9 - 4 1 1 给出了原方法和数论选点法两种不同方法下在样 本m s e 和重要变量回归系数偏差大小方面的比较 1 5 两类生存模型a l a s s o 变量选择方法的改进 结论 惩罚项权重r 的选择对a l a s s o 方法来说是非常重要的由于r 选择方式不唯一 我们可以用很多方法选择r ,并根据具体数据对其进行调整本论文主提出了一系列新的 下的选择方案,即提出了开r 次方、取指数运算、取对数运算等方案本文主要根据具体 模拟数据针对比例危险率模型对r 进行了讨论和改进关于r 的选择还有很多方案,例如 还可以将取对数、取指数运算等方案进行组合,并将r 取多个值进行比较等例如,可以 取 n ;】一婴! 婴! ! 丝业 r 4 】1 。 e x p ( e x p ( z 屈) 7 等形式另外,还可以引入加权的思想,将各种方案进行加权组合,例如可以取 勺= 钆( 1 - 器1 2 ( 1 一器) + 一 + c 1 一器褊m 2 zc 1 一器褊, + + 如z ( 1 一器) + p s 2 ( 1 一器) + , 其中 秒1 1 + 口1 2 + + 晚1 + 口2 2 + + 如1 + p 3 2 + 一1 , o ( i ,歹= 1 ,2 ,) ,勺o ( i ,歹= 1 ,2 ,) 在模拟数据合适时,该方案同样可以用在比例优势模型中本文主要有以下结论: ( 1 ) a l a s s o 惩罚项权重r 可以根据不同的数据作不同的选择方案,由于证明中只 要求声是n 阶一致收敛的,那么岛的任何n 阶一致收敛估计在不改变a l a s s o 估计渐 进性的前提下都可以用来作为惩罚项权重r ,并可以根据计算效果的好坏对其进行调整, 本文提出一系列新的选择方法并达到了较好的模拟效果 ( 2 ) 边际似然估计在对复杂积分进行逼近时,可以根据不同数据选择更为合适的选点 方法,本文使用数论选点取代均匀分布随机选点,达到了较好的模拟效果 1 6 大连理工大学硕士学位论文 表4 1m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 1 样本均方误差和重要变量回归系数偏差 表4 2m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 2 样本均方误差和重要变量回归系数偏差 表4 3m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 3 样本均方误差和重要变量回归系数偏差 1 7 两类生存模型a l a s s o 变量选择方法的改进 表4 4m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 4 样本均方误差和重要变量回归系数偏差 表4 5m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 5 样本均方误差和重要变量回归系数偏差 表4 6m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 6 样本均方误差和重要变量回归系数偏差 1 8 大连理工大学硕士学位论文 表4 7m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 7 样本均方误差和重要变量回归系数偏差 表4 8m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 8 样本均方误差和重要变量回归系数偏差 两类生存模型a l a s s o 变量选择方法的改进 表4 9m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 9 样本均方误差和重要变量回归系数偏差 表4 1 0m s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 1 0 样本均方误差和重要变量回归系数偏差 大连理工大学硕士学位论文 表4 nm s ea n db i a sf o rr e g r e s s i o nc o e f f i c i e n t so fi m p o r t a n tc o v a r i a t e s 表4 1 1 样本均方误差和重要变量回归系数偏差 两类生存模型a l a s s o 变量选择方法的改进 参考文献 1 】c o xd r r e g r e s s i o nm o d e l sa n dl i f et a b l e s ( w i t hd i s c u s s i o n ) j j o u r n a lo ft h er o y a ls t a t i s t i c a l s o c i e t y , s e r i e sb ,1 9 7 2 ,3 4 :1 8 7 2 2 0 【2 】p e t t i t ta n i n f e r e n c ef o rt h el i n e a rm o d e lu s i n gal i k e l i h o o db a s e do nr a n k s j 】j o u r n a lo ft h er o y a l s t a t i s t i c a ls o c i e t y , s e r i e sb ,1 9 8 2 ,4 4 :2 3 4 2 4 3 f 3 p e t t i t ta n p r o p o r t i o n a lo d d sm o d e lf o rs u r v i v a ld a t aa n de s t i m a t e su s i n gr a n k s j a p p l i e ds t a t i s - t i c s1 9 8 4 ,3 3 :1 6 9 17 5 【4 】b e n n e t ts a n a l y s i so fs u r v i v a ld a t ab yt h ep r o p o r t i o n a lo d d sm o d e l j s t a t i s t i c si nm e d i c i n e1 9 8 3 , 2 :2 7 3 2 7 7 【5 d a b r o w s k ad m ,d o k s u mk a e s t i m a t i o na n dt e s t i n gi n t h et w o - s a m p l eg e n e r a l i z e do d d sr a t e m o d e l j j o u r n a lo ft h ea m e r i c a ns t a t i s t i c a la s s o c i a t i o n1 9 8 8 ,8 3 :7 4 4 7 4 9 【6 6m u r p h ys a ,r o s s i n ia j ,v a nd e rv a a r ta w m a x i m u ml i k e l i h o o de s t i m a t i o ni nt h ep r o p o r t i o n a l o d d sm o d e l j j o u m a lo ft h ea m e r i c a ns t a t i s t i c a la s s o c i a t i o n ,1 9 9 7 ,9 2 :9 6 8 9 7 6 【7 s a u e r b r e i ,w a n ds c h u m a c h e r ,m ab o o t s t r a pr e s a m p l i n gp r o c e d u r ef o rm o d e lb u i l d i n g :a p p l i c a r t i o nt ot h ec o xr e g r e s s i o nm o d e l j s t a t i s t m e d ,1 9 9 2 ,1 1 :2 0 9 3 1 0 9 【8 f a r a g g i ,d a n ds i m o n ,r b a y e s i a nv a r i a b l es e l e c t i o nm e t h o df o rc e n s o r e ds u r v i v a ld a t a j b i o m e t t i c s ,1 9 9 8 ,5 4 :1 4 7 5 8 5 9 】i b r a h i m ,j g ,c h e n ,m 一h a n dm a c e a c h e r n ,s n b a y e s i a nv a r i a b l es e l e c t i o nf o rp r o p o r t i o n a l h a z a r d sm o d e l s j c a n j s t a t i s t ,1 9 9 9 ,2 7 :7 0 1 1 7 【1 0 h o c k i n gr r t h ea n a l y s i sa n ds e l e c t i o no f v a r i a b l e si nl i n e a rr e g r e s s i o n j b i o m e t r i c s ,1 9 7 6 ;3 2 :1 4 9 【11 m i l l e ra j s u b s e ts e l e c t i o ni nr e g r e s s i o n m l o n d o n :c h a p m a nh a l l ,1 9 9 0 【1 2 f a n ,j a n dl i ,r v a r i a b l es e l e c t i o nf o rc o x sp r o p o r t i o n a lh a z a r d sm o d e la n df r a i l t ym o d e l j a n n s t a t i s t 2 0 0 2 3 0 :7 4 9 9 1 3 t i b s h i r a n i r t h el a s s om e t h o df o rv a r i a b l es e l e c t i o ni nt h ec o xm o d e l j s t a t i s t i c si n m e d i c i n e ,1 9 9 7 ,1 6 :3 8 5 3 9 5 【1 4 d o n o h o ,d l a n dj o h n s t o n e ,i m i d e a ls p a t i a la d a p t a t i o nb yw a v e l e ts 批g e j b i o m e t r i k a ,1 9 9 4 ,8 1 :4 2 5 5 5 1 5 】f a n ,j a n dl i ,r v a r i a b l es e l e c t i o nv i an o n c o n c a v ep e n a l i z e dl i k e l i h o o da n di t so r a c l ep r o p e r t i e s j j a m s t a t i s t a s s o c ,2 0 0 1 ,9 6 :1 3 4 8 6 0 1 6 1f r a n k ,i e a n df r i e d m a n ,j h as t a t i s t i c sv i e wo fs o m ec h e m o m e t r i c sr e g r e s s i o nt o o l s ( w i t h d i s c u s s i o n ) f j l t e c h n o m e t r i c s ,1 9 9 3 ,3 5 :1 0 9 - 1 4 8 【l7 】z o u ,h a n dh a s t i e ,t r e g u l a r i z a t i o na n dv a r i a b l es e l e c t i o nv i at h ee l a s t i cn e t j j r o y s t a t i s t s o c s e t ,2 0 0 5 ,6 7 :3 0 1 - 3 2 0 【1 8 】f u ,w p e n a l i z e dr e g r e s s i o n :t h eb r i d g ev e r s u st h el a s s o j 】j o fc o m p g r a p h s t a t i s t ,1 9 9 8 , 1 9 k n i g h t ,k a n df u ,w j a s y m p t o t i c sf o rl a s s o - t y p ee s t i m a t o r s j a n n s t a t i s t ,2 0 0 0 ,2 8 :1 3 5 6 - 1 3 7 8 2 0 】f a n ,j a n dp e n g ,h n o n c o n c a v ep e n a l i z e dl i k e l i h o o dw i t had i v e r g i n gn u m b e ro fp a r a m e t e r s j a n n s t a t i s t ,2 0 0 4 ,3 2 :9 2 8 - 9 6 1 【2 1 】h u b e r ,p j r o b u s ts t a t i s t i c s m n e wy o r k :w i l e y , 1 9 8 1 【2 2 h u a n g ,j ,h o r o w i t z ,j l ,a n dm a ,s g a s y m p t o t i cp r o p e r t i e so fb r i d g ee s t i m a t o r si ns p a r s eh i g h d i m e n s i o n a lr e g r e s s i o nm e d e l s r t e c h n i c a lr e p o r tn o 3 6 0 ,d e p a r t m e n to fs t a t i s t i c sa n da c t u a r i a l s c i e n c e ,u n i v e r s i t yo fi o w a , 2 0 0 6 2 2 大连理工大学硕士学位论文 f 2 3 】w a n gh ,l ig ,j i a n gg r o b u s tr e g r e s s i o ns h r i n k a g ea n dc o n s i s t e n tv a r i a b l es e l e c t i o nv i at h el a d - l a s s o j j o u r n a lo fb u s i n e s sa n de c o n o m i c ss t a t i s t i c si np r e s s ,2 0 0 7 【2 4 】z o uh t h ea d a p t i v e - l a s s oa n di t so r a c l ep r o p e r t i e s j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业互联网平台安全多方计算在智能医疗诊断数据共享中的应用报告
- 2025年护士入职考试真题及答案
- 2025贷款质押担保合同协议范本
- 2025年眼科专业知识试卷及答案
- 2025云端资源服务续费合同
- 2025年高中仿真物理试卷及答案
- 2025年智能语音语义理解在智能语音助手中的智能问答应用
- 2025年智能语音语义理解技术创新在智能法律咨询中的应用实践
- 2025湖南省生猪采购协议合同
- 2025年农村购房协议合同示范文本
- 消防水系统资料
- 人力资源管理流程手册
- 微生物学第九章 微生物生态
- YS/T 226.12-2009硒化学分析方法第12部分:硒量的测定硫代硫酸钠容量法
- 雪落在中国土地上
- GB/T 29114-2012燃气轮机液体燃料
- GB/T 18690.1-2009农业灌溉设备微灌用过滤器第1部分:术语、定义和分类
- FCI测试试题附答案
- 部编版四年级上册语文全册1-8单元课文思维导图
- 耳部解剖及急慢性中耳炎课件
- 【成都】麓湖生态城地产视角分析总结
评论
0/150
提交评论