(概率论与数理统计专业论文)半参数cox可和模型的变量选取.pdf_第1页
(概率论与数理统计专业论文)半参数cox可和模型的变量选取.pdf_第2页
(概率论与数理统计专业论文)半参数cox可和模型的变量选取.pdf_第3页
(概率论与数理统计专业论文)半参数cox可和模型的变量选取.pdf_第4页
(概率论与数理统计专业论文)半参数cox可和模型的变量选取.pdf_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在许多学科领域,如医学,生物学,保险精算学,可靠性工程学,公共卫生学,经济学以 及人口统计学等领域,都会对某给定时间发生的随机事件进行研究,即研究事件发生时间的规 律,针对这些问题一些研究者提出了许多模型,其中较重要的就是c o x ( 1 9 7 2 ) 的c o x 比例危险 模型该模型是一种半参数方法,模型中允许有“删失( 或截尾) ”数据存在,并且可以同时 分析众多因素对生存时间的影响此模型的应用面很宽,在生存分析中占有特殊的地位在用 c o x 危险比例模型对生存数据进行分析之前,对影响生存时间的所有协变量进行变量选取,以 确定哪些协变量要被引进到模型中来如果不小心将一些没有统计学意义的协变量引进模型 中,不仅增加了计算量,而且降低了模型参数的估计以及预测的准确度 本文要做的工作就是对半参数c o x 可和模型做系数估计,变量选取由于模型中的连续 变量对响应变量的关系是未知且非线性的,我们用三次样条函数来做近似,再对上面模型采用 逐步的方式,估算出其系数,得到我们想要的模型另外将采用p a r k 与h a s t i e ( 2 0 0 6 ) 提出一 种g l m 路径跟踪算法,对这个可和模型进行系数估计,变量选取最后利用计算机模拟,分 析实际的例子,验证算法的灵活性,有效性 关键词g l m 路径一跟踪算法,半参数c o x 可和模型,样条方法 a b s t r a c t t h er e s e a r c ho fr a n d o me v e n t si sd o n eb yd i f f e r e n tr e s e a r c hi nm a n yf i e l d s ,s u c ha sm e d i c i n e , b i o l o g y , a c t u a r i a ls c i e n c e ,r e l i a b i l i t ye n g i n e e r i n g ,p u b l i ch e a l t h ,e c o n o m i c sa n do t h e rf i e l d sa s w e l la sd e m o g r a p h i c ,w h i c ha n a l y z e st h er e g u l a r i t yo ft h ee v e n t s h a p p e n i n gt i m e al o to fm o d e l s h a v eb e e np r o p o s e d ,a n dt h em o s ti m p o r t a n to n ei st h ec o xp r o p o r t i o n a lh a z a r d sm o d e lw h i c hi s p r o p o s e db yc o x ( 1 9 7 2 ) t h em o d e li sas e m i p a r a m e t r i cm e t h o d ,w h i c ha l l o w sc o n t a i n i n gc e n s o r e d d a t a ,m e a n w h i l ea n a l y z e st h ee f f e c to fm a n yf a c t o r so nt h el i v i n gt i m e ,a n di tp l a y sap a r t i c u l a rr o l e i ns u r v i v a la n a l y s i s b e f o r ea n a l y z i n gt h es u r v i v a ld a t a ,a l lt h ec o v a r i a t e so fi n f l u e n c i n gt h el i v i n gt i m es h o u l db e s e l e c t e di no r d e rt od e t e r m i n ew h i c ho n e ss h o u l db ei n t r o d u c e di n t ot h em o d e l i fs o m ei n s i g n i f i c a n t c o v a r i a t e sa r ei n t r o d u c e d ,t h e yw i l ln o to n l yi n c r e a s et h ec o m p u t a t i o n ,b u ta l s or e d u c et h em o d e l p a r a m e t e re s t i m a t i o na n dt h ep r e d i c t i o na c c u r a c ya sw e l l i nt h i sp a p e r ,w ew i l le s t i m a t et h ep a r a m e t e r sa n ds e l e c tc o v a r i a t e sf o rt h es e m i p a x a m e t r i c a d d i t i v ec o xm o d e l f i r s t l y , t h em o d e lc a nb eo b t a i n e db yu s i n gt h ec u b i cs p l i n ef u n c t i o na n d t h es t e p w i s em e t h o dw h i c hi st oe s t i m a t ec o e f f i c i e n t s ,s i n c et h er e l a t i o n s h i pb e t w e e nt h ec o n t i n u o u s c o v a r i a t e sa n dt h er e s p o n s ev a r i a b l ei su n k n o w na n dn o n l i n e a r s e c o n d l y , t h em e t h o do fg l m p a t h - f o l l o w i n ga l g o r i t h mw h i c hi sp r o p o s e db yp a r ka n dh a s t i e ( 2 0 0 6 ) c a nb eu s e dt oe s t i m a t et h e c o e f f i c i e n t sf o rt h es e m i p a r a m e t r i ca d d i t i v ec o xm o d e la n ds e l e c tc o v a r i a t e s f i n a l l y ,t h ea p p r o a c hi s i l l u s t r a t e db yr e a ld a t ae x a m p l e st ov e r i f yt h ef l e x i b i l i t ya n de f f e c t i v e n e s s k e y w o r d s g l m p a t h - f o l l o w i n ga l g o r i t h m ,s e m i p a r a m e t r i ca d d i t i v ec o xm o d e l , s p l i n e s i i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作 所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集 体,均已在文中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定, 即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印 或其它复制手段保存、汇编本学位论文。同意将本学位论文收录到中国优秀 博硕士学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学 位论文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物 形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:益盔茎 日 期:竺掣 电话: 邮编: 菹一玎 喜一产魁半 东北师范大学硕士学位论文 引言 对于回归系数的估计,许多统计学者已经给出了诸多方法,例如,最小二乘估计,岭回归估 计,l a s s o ( e f r o n ,h a s t i e ,j o h n s t o n e 与t i b s h i r a n i2 0 0 4 ) ,s v m 路径算法( h a s t i e ,r o s s e t ,t i b s h i r a n i 与z h u2 0 0 4 ) 等等,这些方法均有各自的优点,并且得到的估计也具有较好的性质,但是他们 都是针对线性模型进行系数估计的与s v m 路径算法不同,g l m 路径跟踪算法不是分段 线性的 r o s s e t ( 2 0 0 4 ) 提出一种路径跟踪算法,通过牛顿循环,改变规划参数值和更新系数估计 这两步来计算系数路径,此算法是在规划参数a 的均匀间隔处计算准确解;z h a o 与y u ( 2 0 0 4 ) 提出b l a s s o 算法,这种算法可以近似出任何凸损失函数的l l 规划路径,在均匀间隔的恻1 1 值处计算准确解,如果这种方法中加入了对数似然损失函数,那么它就可以用来近似工,规划 的g l m 路径p a r k 与h a s t i e ( 2 0 0 6 ) 提出了g l m 路径跟踪算法,比以上两种方法更灵活, 准确,有效,结合凸优化中的预测一修正算法,通过对规划参数a 的确定,沿着要估计系数的 整个路径,逐个求出系数值,同时对行动集进行检验,按照一定的规则选入与剔除合乎要求的 变量,直到行动集不发生变化为止,避免了在每一个a 处都要单独优化的问题,并且对任意一 个参数,规划参数a 的步长不再是固定的均匀变化的值,而是依赖数据,保证了在行动集发生 改变时,求出的系数解是准确的我们还可以延伸g l m 路径跟踪算法中预测修正算法的应 用,将“损失+ 惩罚”函数推广到任何凸的几乎可微的函数上,比如,我们可以找到l 1 规划 的c o x 可和模型的整个系数路径 本文要做的工作就是对半参数c o x 可和模型的系数估计,变量选取如果在实际应用中, 不小心将一些没有统计学意义的变量引进模型中,不仅增加了计算量,而且降低了模型参数的 估计以及预测的准确度,加大分析工作的难度。因此对模型进行变量选取之后,再做相关的统 计分析,将会降低难度,方便快捷,提高准确率半参数c o x 可和模型的应用面很宽,在生存 分析中占有特殊的地位所以对此模型变量选取的问题研究,将对此模型在具体生存数据分析 中的应用提供更方便快捷的方法,使其在医学,生物学,保险精算学,经济学等多领域实践中 有更广泛,更稳定的应用 本文分六个部分对半参数c o x 可和模型变量选取进行研究,第一部分是引言,主要介绍 本论文所要解决的问题,其理论价值与现实意义,结构框架及论文安排第二部分介绍g l m 路径跟踪算法,样条函数的基本思想,算法,为以后的进一步研究做好基础第三部分给出半 参数c o x 可和模型定义及其参数估计,并给出具体的算法第四部分是模拟,第五部分是应用 举例,最后一部分是结论与思考 1 东北师范大学硕士学位论文 1g l m 路径一跟踪算法,样条函数的基本思想,算法 1 1g l m 路径一跟踪算法的基本思想及算法 p a r k 与h a s t i e ( 2 0 0 6 ) 提出的g l m 路径跟踪算法,比r o s s e t ( 2 0 0 4 ) ,z h a o 与y u ( 2 0 0 4 ) 提出的路径算法更灵活,准确,有效,结合凸优化中的预测修正算法,通过对变化的规划参 数a 的确定,沿着要估计系数的整个路径,逐个求出系数3 值,同时对行动集进行检验,按照 一定的规则选入与剔除合乎要求的变量,直到行动集不发生变化为止,避免了在每一个规划参 数入处都要单独优化的问题,并且对任意一个参数p ,规划参数入的步长不再是固定的均匀变 化的值,而是依赖数据,保证了在行动集发生改变时,求出的系数解是准确的 g l m 路径跟踪算法的具体过程如下s 假设将含有p 个因素和1 个因变量的n 组观测记 为_ 【( 兢,玑) :兢r v ,y i r ,i = 1 ,n ) 其中y 服从指数分布,且均值为p = e ( y ) ,方差为 v = v a r ( y ) 通过联系函数g 对p 建模,有 叼= 9 ( p ) = 风+ x p , y 的密度函数为 三( 可;口,) = e x p ( y e 一6 ( 伊) ) 口( ) + c ( y ,咖) ) , 我们的目的是要找到自然参数口的极大似然估计值,来确定3 = ( 3 0 ,卢,) ,随着a 的逐渐减小, 对于每一个确定的a ,我们可以找到3 ,使得下式最小 t ( 3 ,入) = 一: 轨口( p ) 一b ( 卢) t ) ) + a 1 1 3 1 1 1 i - - - - 1 假设3 的分量全不为零,且z ( 3 ,a ) 关于3 可微,我们定义函数日: h ( 3 川= 品一x ,w ( y 刊器跏( 0 , 其中x 是第一列全为l 的扎0 + 1 ) 阶矩阵,w 是仡阶对角阵,对角元素为v r , 1 ( 鬻) ;, ( y p ) 蛊是n 维向量,尽管我们已经假设p 的分量全不为零,但是卢的非零元素组成的集合 随着a 的改变而改变,从而h ( 3 ,入) 必须相应的重新定义算法目的是随着入从无穷变到零, 算出系数的全部解 接下来是该算法的细节部分,预测一修正算法,这种算法是解数值连续性等式的基本方 法之一,利用初始条件可具体找到一列解,并且在当前解的基础上继续找邻近解,具体过程如 下,最初的行动集中只有变量j o = a x g m a x j 瞄b 一雪1 ) | 随着规划参数入的逐渐减小,其他变 量也按照一定规则逐渐加入到行动集中,预测步与修正步交替进行,第k 步迭代如下: ( 1 ) 步长;确定入的减小量,即步长给定沁,近似出使行动集发生改变的下一个最大的 入,即入七+ 1 ( 2 ) 预测步:随着入的减小,p 相应改变,可通过线性近似得到改变后的值,记作伊+ 2 东北师范大学硕士学位论文 ( 3 ) 修正步t 将伊+ 作为初始值,利用入七+ l 找到p 的真实解,记作声+ 1 ( 4 ) 行动集:检验当前行动集是否必须改变,如果是,则用更新后的行动集重复修正步 我们具体来看算法中的细节,在第k 步预测步中,卢( 扎+ 1 ) 近似为 伊= 胪+ ( 址。 ) 筹 = 声七一( a 七+ 1 一a 老) ( x :4 w x a ) 一1s g n ( o ,p 七) w 七和x a 分别为当前权矩阵和当前行动集中那些因素的列向量,上面等式中p 仅由当前 非零系数组成 定义,( a ) = 日( 卢( 入) ,入) ,在当前行动集中,对所有入,( a ) = 0 ,对,关于入求导,得到 八炉芸+ 等筹- o , 于是 箬= 一( x :4 w k x a ) - 1 s g 椰,科 在接下来的修正步中,利用p 知+ 作为初始值,找到p ,使得f ( 卢,入七+ 1 ) 最小,就像前面定义 的一样,只需解日( p ,入七+ 1 ) = 0 即可前面的预测步已经提供了一个很好的开始,得到的参( 庇+ ) 很接近真值声( 七+ 1 ) 修正步不仅在给定a 下找到了真实解,而且也为接下来的预测步得到了 所需的初始值伊+ 每次修正步结束后,都要检验一下行动集a 是否已经改变,r o s s e t 与z h u ( 2 0 0 3 ) a n dr o s s e t ( 2 0 0 4 ) 用了下面检验的步骤,即对坳a 。, i 弓w ( y 一肛) 裳i a 辱a 卜a u 【歹) 用改变后的行动集重复修正步,直到行动集不再扩大为止,然后剔除行动集中那些系数为零的 向量,即, 坳ai 易i = 0 辛小d 卜_ a , 最后来看规划参数入的大小确定,对于步长a k = 扎一入南+ 1 ,算法给出了更有效的方法,选 为使行动集发生改变的中最小的那个作为步长为了得到这个最小步长,我们先来计算一 下加权相关系数,在上一次修正步中,令口是y 的估计值,相应的加权相关系数记为 e = x 啸( y 一豇) 盅, 由上式可知,a 中因素的完全相关系数是a ,而比a 。中类似的a 更小在下一预测步扩展p , 从而当前的相关系数发生变化,a 每减小一单元,相关系数改变的向量记为a , c ( h 、= e 一,扭 = e h x 7 y 矿x a ( x 7 y c x a ) 一1 s g n ( o ,p ) 7 , 3 东北师范大学硕士学位论文 其中h 0 已知,是入的减少量,对于a 中的因素,a 的值就是s a n ( 0 ,声) ,像a 中那样,为 了在a c 中找到和a 中一样的完全相关系数h ,解下面的等式 i e a h ) i = i 白一忍町i = 入一h w a 。 等式给出了步长的一个估计 h = 磐 譬,篙) 另外为了检验a 减小h 前行动集中是否有变量为零,解等式 岛( 元) = 岛+ h ( x a w 七x a ) 一s g n ( o ,胪) = 0 坳a , 如果对坳a ,0 五 h ,则在其他变量进入行动集之前要先去除相应的变量,且下一步长使 用无,而不是h 如果改变行动集的最小步长比估计的步长大,那么行动集不做改变,否则,我们丢失了应 该进入行动集的变量,必须用增加后的a 重复修正步,所以,这种预测一修正算法可精确的发 现改变行动集的a g l m 路径算法可方便的进行模型选取并且找到整个规划路径,最重要的是避免了在不同 的入点进行独立最优化我们还可以延伸g l m 路径跟踪算法中预测一修正算法的应用,将“ 损失+ 惩罚”函数推广到任何凸的几乎可微的函数上,比如,我们可以找到l 1 规划的半参数 c o x 比例危险可和模型的整个系数路径本文就将要运用这种方法对半参数c o x 比例危险可 和模型进行变量选取 但由于模型中的连续变量对响应变量的关系是未知且非线性的,我们用三次样条函数来 做近似,以下就来介绍三次样条函数的基本思想及算法 4 东北师范大学硕士学位论文 1 2样条函数的基本思想及算法 在实际问题中,通常会遇到这样的问题,给定平面上n + 1 个不同点,要求通过这些点作 一条光滑曲线,显然这是一个差值问题,当点很多时,作高次多项式插值是不理想的,采用分 段插值是一种有效的方法但是采用分段线性插值,只能构造一个整体上具有一阶连续微商的 插值函数,且对于实际问题,要知道在节点上的微商值是比较困难,我们希望在只给出节点上 函数值的情况下构造一个整体上充分光滑的函数 所谓样条,原来是在船体,汽车或航天器的设计中,模型设计员使用的弹性均匀的,窄的 木条( 或钢条) 模线员在绘制线时,用压铁压在样条的一批点上,强迫样条通过一组离散的型 值点,当样条取得合适的形状之后,再沿着样条画出所需要的曲线,这将是一条光顺的曲线 样条函数最初就是来源于这样的样条曲线,即按照一定的光滑性要求而连接起来的分段多项 式记t l ,幻为一列给定的节点,且满足一o 。 t l 幻 + o 。,一个p 阶样条函数是 指一( p 一1 ) 阶连续可导的函数,且在每一个区间( 一。,亡1 】,【1 1 ,t 2 ,【t j 一1 ,t j , t j ,+ 】上为p 阶多项式函数,任意一个拥有节点t l ,t ,的p 阶样条函数都可以表示为 其中 , i8 j ( z ) = ( z 一巧) 晕 j f = 1 ,j is j + j ( x ) = _ 1 j = 1 ,2 ,p + 1 所有拥有t x ,t ,的p 阶样条函数组成的空间为j + p + 1 维的线性空间,函数 8 j ( z ) ) 为 基底,删掉其中一项,就相当于删掉一个节点( 可参阅文献 2 4 】) 本文中运用三次样条函数的方法。一个三阶样条函数,且在( 一,t 1 ,【t x ,t 2 ,b ,+ 。o 】 上为三阶多项式,表达式为 其中 i 勺( z ) = ( z 一句) 车 j = 1 ,j i8 j 钾( 。) = 。 歹= 1 ,2 ,3 由上式可知三阶样条函数组成的空间是7 维的,这里我们取一组数据中1 4 ,1 2 ,3 4 分位 点为节点,即j = 3 ,则有 s ( z ) = 叼勺( z ) j = l 用此函数来近似半参数c o x 可和模型中的连续协变量,接下来介绍半参数c o x 可和模型 5 z 勺叼 槲闰 j = zs z 勺哟 褂触 j = zs 东北师范大学硕士学位论文 2 半参数c o x 可和模型定义及其参数估计 2 1半参数c o x 比例危险模型定义及其特征 在许多学科领域,如医学,生物学,保险精算学,可靠性工程学,公共卫生学,经济学以 及人口统计学等领域,都存在对某给定时间发生的随机事件进行研究,即研究事件发生时间的 规律,许多研究者已经提出许多模型对这个问题进行了研究,其中较重要的就是c o x 比例危 险模型 在医学研究中,尤其在临床医学研究中,经常遇到随访资料,研究者从某个给定的时刻开 始对研究对象( 病人) 做随访观察至某种规定时间的发生例如,从疾病的诊断到死亡,症状消 失到复发,治疗开始到死亡,出生到乳牙蒙出,假牙的装入到破损,婴儿的出生到囟门闭合, 乳儿的断奶等这些可通称为生存资料,对生存资料作分析可遇到两个困难,第一,从随访开 始到某事件所发生的时间的分布往往是正偏态的,因而提示研究者先做数据转换,再做分析或 者用非参数的统计方法分析第二,由于种种原因,随访可能终止或者终检,一些对象终检的 原因可能是由于其他原因而死亡了,研究者与病人失去了联系,以及直到对资料做总结时,随 访对象还活着,但尚未发生所规定的事件,由于一小部分人终检”,使得许多常规的统计方法 都不宜应用 c o x ( 1 9 7 2 ) 提出的c o x 比例危险模型是允许资料有“删失( 或截尾) ”数据存在的,可以同 时分析众多因素对生存时间影响的多变量生存分析方法,是一种半参数方法此模型的应用面 很宽,在生存分析中占有特殊的地位自从c o x 提出了参数估计的估计方法之后,许多学者在 这方面作了研究( 如k a l b f l e i s c h 和p r e n t i c e ,1 9 7 3 ,b r e s l o w ,1 9 7 4 ,c o x ,1 9 7 5 ,e f r o n ,1 9 7 7 ) ,该方法 目前已成为处理寿命数据的主要方法之一在应用模型之前,要对影响生存时间的所有变量进 行变量选取,如果不小心将一些没有统计学意义的变量引进模型中,不仅增加了计算量,而且 降低了模型参数的估计以及预测的准确度,加大分析工作的难度 令h ( t ,x ) 为具有危险向量x 的个体在时间t 时的危险率,则c o x 比例危险模型如下: h ( t ,x ) = h o ( t ) e x p ( f l l x l + 危z 2 + + 岛却) 九( t ,x ) 为在时间t 处与x 有关的风险函数,屈 = 1 ,p ) 为回归系数,屈为正时,表示该 变量是危险因子,会增加风险函数值,也就是对生存时间出现负的作用,其值越大,生存时间 越短,屈为负时,表示该变量为保护因子,会减少风险函数值,即延长生存时间h o ( t ) 为基 准风险函数,是全部协变量都为0 或者标准状态下的风险函数是与时间有关的任意函数,函 数形式无任何限定,一般为未知的伪z l + 励z 2 + + 踟z p 称为预后指数,假定每一个个体 的死亡风险成比例,比例系数为 h ( t ) h o ( t ) = e x p ( z l x l + 阮x 2 + + z p x p ) 模型中有参数p ,但基准风险函数h o ( t ) 未有定义,故又称之为半参数模型 6 东北师范大学硕士学位论文 c o x 模型不直接考察生存函数s ( t ,x ) 与变量的关系,而是用风险率函数危( t ,x ) 作为因变 量,并假定 h ( t ,x ) = h 0 ( t ) 唧( p 1 x ) 对c o x 比例危险模型的参数估计是首要问题,英国生物统计学家c o x ( 1 9 7 2 ) 提出通过条 件死亡概率建立偏似然函数厶使对数似然函数l o gl 最大,通过最大似然法的n e w t o n - r a p h s o n 迭代得到参数侥,伤,岛的估计值 偏似然函数构造的基本方法,定义时间如时的风险集为r ( 如) ,它表示在如之前仍处在研 究过程中的所有个体的集合,假若2 ( t ) 中的个个体在时间t i 时死亡,在此前提条件下,具 有协变量观的个体在时间t t 时死亡的条件概率为 p = 专嗡岛, j e r ( q ) 将所有这些死亡时间的条件概率相乘,就得到偏似然函数,有 n l :丌 上上 i = i e x p ( b i x i , + + 岛。伽) e x p ( 卢l x j l + + 岛锄) j e 2 ( t ) 只有非删失个体才有偏似然函数,考虑到有删失数据的存在,加入标识变量反,即 e ) w ( b 。x i )、南 唧( 卢7 巧) j e n ( t ) 其中文= 1 ,第i 个个体死亡,盈= 0 ,第i 个个体删失对数偏似然函数 l o g l ( y ;p ) = l o g h ( i = i n = 蠡z 1 0 9 ( e x p ( z 观) ) 一l o g ( e x p ( p 巧) ) ) i = 1 j e r ( t d t l n = x i 一6 i l o g ( e x p ( 3 巧) ) i = 1i = 1 j e 2 ( t 1 ) 对每一个入,我们估计p ( a ) 对偏似然函数取对数之后关于p 求偏导数,就能得到有效得分函 数,令其等于零,通过解p 个非线性方程,可以求出最大似然估计量 该估计方法的优点在于它是一种多因素分析方法,不考虑生存时间分布,允许有“失访 或者终检现象,即有删失数据,允许影响因素x 是属性资料或者计量资料且有着很好的 稳健性,缺点在于如果已知数据确实来源于某个特定分布,会损失一些效率 7 ,一 n 吼 i l l 彰 东北师范大学硕士学位论文 2 2半参数c o x 可和模型的定义及其参数估计 半参数c o x 可和模型的具体形式如下, h ( t ,x ) = h o ( t ) e x p 汹z 1 + f i 2 x 2 + + 熊z 七十仇+ l + 1 ( x k + 1 ) + + 岛,p ( 唧) ) 其中h o ( t ) 为基准危险率,屈为回归系数我们要做的工作就是对半参数c o x 可和模型中的系 数进行估计,同时进行变量选取由于其中的连续变量五( z ) ( i = k + 1 ,p ) ,对响应变量的 关系是未知且非线性的,我们不能直接应用上述的g l m 路径跟踪算法,而先要将这未知部 分估算出来,然后再对这个模型进行系数估计,考虑到样条函数较好的性质,我们可以用具有 三个节点的三次样条函数来做近似,即: i ( x i ) = o q j s i j ( x ) ( i = k + 1 ,p ) 则模型变为: j = 1 77 h ( t ,x ) = h o ( oe x p ( f l x l + 卢2 x 2 + + f i k x k + a 知+ l j 8 七+ l j ( x k + 1 ) + + 锄( 却) ) 模型中的参数个数由原来的p 个变为现在的7 ( p k ) + k 个为得到系数口a ,我们按照通常的 方法对上述模型中的劢一6 个参数进行估计,即构造偏似然函数,令 u 枷) 掣- o , 得到有效得分函数,通过解劢一6 竞个非线性方程u h ( p ) = 0 ( h = l ,p ) ,可以求出最大似 然估计量对参数进行检验,基本思想为在供选择的变量甄中按其对生存时间影响的作用大 小,即计算x 2 及其p 值,选取作用最大的变量进行显著性检验,如显著则选入回归方程,同 时对已选入的变量计算其x 2 及其p 值,选取作用最小的变量进行显著性检验,如不显著则剔 除该变量,如显著,则再从未选入的变量中挑选,每一步选进或剔除一个变量,直至既没有新 的变量能进入回归,也没有变量可以剔除为止,得到我们想要的啦j 这样,半参数c o x 可和模型中 ( 瓤) = a 巧( z ) ( i = k + 1 ,p ) 就为已知了,就可以 j = l 作为已知条件,代回模型中,构造新的c o x 模型,如下 九( t ,x ) = ,( t ) e x p ( f l x l + 励z 2 + + 觑z 七十觑+ l f k + 1 ( z 七+ 1 ) 十+ 卢p 厶( 勖) ) 接下来我们采用p a r k 与h a s t i e ( 2 0 0 6 ) 提出的g l m 路径一跟踪算法对上面模型进行系数 估计,首先要确定步长,对每一个入,我们估计声( 入) ,使得下面式子达到最小,即 卢( 入) = a r g i e 乒 一l o g 三( 可;p ) + 入| | p l l l ) , d 其中 p ( 入) :0 入,v f a 。,这时我们就考虑加入础,即au z ) _ 啼a , 1 0 ” ;i n 汹 一 甄晚 n 澍 i i c 东北师范大学硕士学位论文 在行动集a 中的变量,其e = 入,而在a c 中的变量,其仑7 0 ,我们要近似出文蔷毒夺改变量,估计下一个厉同 样,我们要看e 的变化,a 每减小一个单元,相应的系数改变量为a ,则有 c ( 允) = 仑一h a = e h x a x a ( x k n _ x a ) 一1 s g n ( 声) 显然有h 0 为入的减小量,为了估计a c 中的h ,只需要解下面的等式: i c a h ) i = i 岛一h a j i = a h 坳a 。, 辄= j 幽e a c + 等,畿1a 1 ) 。l 一口f 7 + 如果改变行动集的最小步长比估计值大,那么行动集不变,如果实际的步长比估计值小, 那么我们丢失了进入行动集的变量,必须用增加后的入重复修正步,所以,这种预测一修正算 法可准确的探测到改变行动集的a 通过以上过程,我们就完成了对半参数c o x 可和模型的参数估计及变量选取 1 1 东北师范大学硕士学位论文 3模拟 为了检验上述算法在半参数c o x 可和模型变量选取中的应用,我们利用r 程序做模拟, 利用计算机产生具有佗个样本,每个样本含p 个变量的多元正态随机数 x = 洲三 其中x ( t ) = ( x i l ,z 亿,z 咖) ,江1 ,礼每个x ( t ) 相互独立与总体同分布,来自于p 1 ( 0 ,n 再产生随机误差项旬= ( 1 ,e 2 ,n ) 来自1 ( o ,n 对于任意给定的卢= ( 风,陡,岛) 7 ,根 据线性模型亡l = 冠p + 最产生t = ( t l ,t 2 ,如) , 由上,我们得到了做模拟的随机数据: t = ( 至) ,x = ( 三引 根据下面模型, 77 危( 亡,x ) = ( t ) 唧( 岛茹l + f 1 2 x 2 + + 凤z 七+ q 后+ 巧s k + l j ( x k + 1 ) + + 。锄呦( 唧) ) j = l j = 1 通过构造偏似然函数的方法,得到其中系数卢= ( 风,仍,凤,q 巧i = 七+ 1 ,p j = 1 ,7 ) 7 的估计同时得到五( 甄) = q 巧s 玎( 鼢) ,i = k + 1 ,p 的系数值 = 1 利用上面的模拟数据及下面的模型 危( t ,x ) = ( t ) e 印( 卢l z l + 伤z 2 - 4 - + 仇z 七- 4 - 仇+ 1 + 1 ( 。磨+ 1 ) - 4 - + 岛厶( 唧) ) 我们可以得到此时系数p = 愉,阮,岛) 的估计,并且按照变量对模型的影响大小进行排 序,用a i c ,b i c 准则进行模型定阶为了便于比较,解释,我们选了1 4 组数据,每组6 个变 量,4 0 或6 0 个样本,并且按照系数大小,样本数,系数中零的个数等规律变化,分别进行1 0 0 0 次以上的模拟试验,使得到的估计值尽可能稳定 具体过程如下: ( 1 ) :由计算机产生随机数据,并将获得的数据标准化 ( 2 ) :用样条函数方法来估算半参数c o x 可和模型中的连续变量 1 2 1 1 】 删删;j i i n组; n 东北师范大学硕士学位论文 ( 3 ) : 利用偏似然函数的思想来估计系数,得到样条函数估算部分的系数 ( 4 ) : 利用g l m 路径算法估算半参数o o x 可和模型的系数,并将按照变量对模型影响的大小 进行排序 ( 5 ) : 根据上步获得的顺序再利用a i c 及b i c 方法进行参数定阶 得到的模拟结果如下: 8 1 ,8 2 ,8 3 ,8 4 ,8 5 ,8 6零个数 , r - - f 4 l 姒模拟次数舡c 截取b i o 截取排序 1 3 , 5 ,0 ,2 ,0 ,4 26 0 1 0 0 00 8 3 20 7 8 90 9 4 9 2 3 , 5 ,0 ,2 ,0 ,4 24 0 1 0 0 00 7 1 50 6 5 80 9 3 8 3 3 , 2 5 ,0 ,2 ,0 ,2 26 0 1 0 0 00 6 8 70 6 4 60 8 9 2 4 3 , 2 5 ,0 ,2 ,0 ,2 24 01 0 0 00 6 0 9 0 5 4 90 8 8 1 5 1 5 ,2 5 ,0 ,1 ,0 ,2 26 0 1 0 0 00 7 8 2 0 7 1 4 0 9 4 7 6 1 5 ,2 5 ,0 ,1 ,0 ,2 24 01 0 0 00 6 4 30 5 8 5 0 9 2 9 7 3 , 0 ,0 ,2 ,0 ,4 36 01 0 0 00 8 4 60 8 1 20 9 8 6 8 3 , 0 ,0 ,2 ,0 ,4 34 01 0 0 00 7 6 30 6 8 70 9 6 9 9 1 5 ,0 ,0 ,1 ,0 ,2 36 01 0 0 00 7 5 20 7 3 90 9 7 1 1 0 1 5 ,0 ,0 ,1 ,0 ,2 34 01 0 0 00 6 3 40 6 1 20 9 3 5 1 1 0 7 5 ,0 ,0 ,0 ,0 5 ,1 36 01 0 0 00 5 5 70 5 4 30 9 0 8 1 2 0 7 5 ,0 ,0 ,0 ,0 5 ,1 34 01 0 0 0o 4 7 60 4 3 70 8 9 3 1 3 3 , 0 ,0 ,0 ,0 ,2 46 01 0 0 00 3 8 10 3 3 11 0 0 0 1 4 1 5 ,0 ,0 ,0 ,0 ,2 46 01 0 0 00 3 4 10 2 1 41 0 0 0 观察上表,可以得到以下结论; ( 1 ) :系数相同:样本数越大,m c ,b i c 截取的准确率越来越高,排序的准确率也越高 ( 2 ) :样本数相同:系数大的,a i c ,b i c 截取的准确率越来越高,排序的准确率也越高 ( 3 ) :零个数由少到多:m o ,b i c 截取的准确率越来低,排序的准确率却非常好 ( 4 ) :系数由大到小,a i c ,b i c 截取的准确率越来低,排序的准确率却非常好 由此可知,当所选系数比较大时,利用g l m 路径跟踪算法的思想可以准确的进行半参数 c o x 可和模型的变量选取,这更说明利用这种方法可以有效的进行变量选取 1 3 东北师范大学硕士学位论文 5应用举例 我们研究肺癌患者的治疗方法以及预后,引用t h es t a t i s t i c a la n a l y s i so ff a i l u r et i m ed a t a ( k a l b f l e i s c h ,j a n dp r e n t i c e ,r 2 0 0 2 ) 中关于肺癌的数据,该数据集是包括6 个变量的1 3 7 个样 本,以及他们的生存时间,删失情况6 个协变量分别是治疗方式,细胞类型,k a r n o f s k y 评 分,研究时间,年龄,预先治疗具体过程如下; ( 1 ) :用样条函数方法来估算半参数c o x 可和模型中的连续变量 ( 2 ) :利用偏似然函数的思想来估计系数,得到样条函数估算部分的系数 ( 3 ) :利用g l m 路径算法估算半参数c o x 可和模型的系数,并将按照变量对模型影响的大小 进行排序 ( 4 ) :根据上步获得的顺序再利用a i c 及b i c 方法进行参数定阶 通过以上运算我们得到的排序为3 ,2 ,1 ,6 ,5 ,4 定阶之后,选其中最重要的因素,计算结 果阶是3 ,第3 个,第2 个和第1 个因素即k a r n o f s k y 评分,细胞类型,规范治疗,是对肺癌治 疗影响最大的因素 由上,我们获得了影响预后情况的主要因素是k a r n o f s k y 评分,细胞类型,规范治疗,即 病人要根据k a r n o f s k y 评分标准,参照自己的情况,给出合适的分数,让医生对你的身体状况 有个基本了解,从而决定你的治疗方案同时针对不同的细胞类型采取不同的治疗方法,更要 采取规范治疗,不规范的治疗会影响病人的病情,甚至加快病人死亡的速度 1 4 东北师范大学硕士学位论文 6结语 关于变量选择的问题,许多学者已经做了很多工作,给出了诸多方法,例如,最小二乘估 计,岭回归估计,l a s s o ,s v m 路径算法等等,这些方法均有各自的优点,并且得到的估计也 具有较好的性质,但是他们都是针对线性模型进行系数估计的与s v m 路径算法不同,p a r k 与h a s t i e ( 2 0 0 6 ) 提出的g l m 路径跟踪算法不是分段线性的在进行变量选择时,较之之前 的方法更灵活,准确,有效该算法结合凸优化中的预测修正算法,通过对规划参数入的确 定,沿着要估计系数的整个路径,逐个求出系数值,同时对行动集进行检验,按照一定的规则 选入与剔除合乎要求的变量,直到行动集不发生变化为止,避免了在每一个a 处都要单独优 化的问题,并且对任意一个参数,规划参数入的步长不再是固定的均匀变化的值,而是依赖数 据,保证了在行动集发生改变时,求出的系数解是准确的 g l m 路径跟踪算法可以应用到很多非线性规划模型中,本文将其应用到l 1 规划的半参 数c o x 可和模型中对半参数c o x 可和模型进行系数估计,变量选取,之后确定模型的阶数, 降低了计算量,提高了模型的预测性 另外,在实际问题中,我们研究多个因素对生存时间的影响,有些因素的观测数据可能要 测量很多次,比如血压,体重等等,对半参数c o x 可和模型的下一步研究,我们可以考虑协变 量为函数型数据,相信这一研究将更有理论价值与实际意义 1 5 东北师范大学硕士学位论文 参考文献 【1 p a r km e ey o u n g ,h a s t i et l 1r e g u l a r i z a t i o np a t ha l g o r i t h m f o rg e n e r a l i z e dl i n e a r m o d e l s j o u r n a lo ft h er o y a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论