(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf_第1页
(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf_第2页
(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf_第3页
(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf_第4页
(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(概率论与数理统计专业论文)混合区间删失资料的非参数分析方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文 混合区间删失资料的非参数分析方法 概率论与数理统计 陈婉清 方积乾 摘要 不完全生存数据源于各个领域的实际问题。在生存分析中,事件发生的时间在某些情况 下并不能精确地记录下来,而只能观测到属于某个区间内。这些数据称为区间删失数据。对 于区间删失数据的处理,还没有很好的方法和方便使用的现成的软件。对于生存数据,一般 很少使用参数方法,除非事先知道其分布。针对不同类型的生存数据,出现了不同的分析方 法。生存分析是个活跃的研究领域,尚有许多问题值得去探索。 第一章是生存数据的概述。第一节陈述了生存数据的基本特征。第二节介绍了区间删失 数据类型与相应的模型,并通过实例对不同类型的区间删失数据进行描述。第三节介绍了区 间删失数据极大似然估计的s e i f c o n s i s t e n t 算法以及该估计具有的一些性质。 第二章着重讨论了一种混合区间删失数据生存函数的非参数估计方法。第一节从经验分 布的思想出发,建立了生存函数,并给出了具体算法。第二节介绍了该估计的收敛性证明。 第三节在特定条件下通过模拟研究,将该估计和s e l f - c o n s i s t c n t 算法求得的极大似然估计进 行比较,得出凌估计的优良性。第四节把新算法和s e l f c o n s i s t e m 算法应用于乳腺癌数据分 析和艾滋病数据分析,然后运用b o o t s 讹p 重抽样方法,显示新算法的稳健性。 第三章提出了两组独立的随机混合区间捌失样本的比较方法。第一节介绍了假设检验的 统计量z 2 ,并举例说明利用z 2 统计量检验两组独立的随机区间删失样本a 第二节通过模 拟给出了该检验方法在不同情形下和不同样本量下的功效。 第四章研究c o x 模型在混合区间删失数据上的推广,分析所研究个体的各个协变量对 生存时间的影响。第一节概述了经典的基于右删失数据的c o x 模型。第二节将c o x 模型 推广到了混合区间删失数据。 关键词:混合区间删失,s e l f c o n s i s t e n t ,b o o t s 仃a p 重抽样,z 2 检验,c o x 模型 中山大学硕士学位论文 n o n p a r a m e t r i ca n a l y s i sm e t h o d s f o rm i x e di n t e r v a l c e n s o r e dd a t a p r o b a b i u 蚵a n dm a t h e m a t i c a ls t a t i s t i c w a n q i n gc h e n j i q i a nf a n g a b s t r a c t i n c o m p l e t ed a t ae 】【i s t i i lm a n yr e s e a r c hn e l d s i ns u r v i v a la n a l y s i s ,o c c u n n c et i m e so ft h e e v e n to fi n t c r e s tc o u l dn o tb eo b s e r v e de x a c t l ya ts o m ec o n d i 廿o n s a n dt h et i m e so n l ya r ek n o w n t oh a v eo c c u n dw i 山i na ni n t e r v a lo ft i m e ,c a l l e di n t c r v a lc e n s o r e dd a t a f o r 洲i v a ld a t a w e s e l d o mu s ep 孤a m e m cm e t h o d v l r i o u sm e t i l o d sa r eu s e df b rd i f r c r e n ti 【i n d so fs u r v i v a ld a t a s u n r i v a la n a l ”i ss 删l h a sg 瑚tv i t 8 l i 节a n dc h a l l e n g ea n dal o co f w o r k sn e e d e d 的b e 腭s e a r c h e d i n t h e f u t 【l r c c h a p 缸1s t a mw i 血锄i n 讯i d u c t i o nt os u r v i v a ld a t a s e c 廿0 n 1 1d c s c 抽e st h eb a s i ca s p e c t s o fs u r v i v a ld a 衄s e c t i o n1 2i n t r o d u c c sd i f f e r e n tc s o r e dd a t at y p e sa n dt l l ec o r r s p o n d i n g m o d c l s s e c t i o n1 3d c s c 曲e st h es e l f c o n s i s t c n ta l g o r i t h l :1 1f b rr n a x i i n i z el i k e l i h o o de s 廿m a t o r ( m l e ) o f i n t e a 1c s o r c d 血t aa n di t sp r o p e n i e s c h a p t e r2d i s c u s s e san o n p a r a m e t r i ce s t i m a t o ro fm i x e di n t e l v a lc e i l s o r e dd a t a s e c t i o n2 1 e s t a b l i s h e san o n p a 姗e i ce s t i m a t o ra r mt h ea l g o 血t l n l ,c o n s i d e r i n g 也ee m p i r i c a ld i s 乜山u t i o n s e c t i o nz ,2s h o w st h ep r d o fo ft h ec o n v e 曜e n c eo ft l l ee s t i m a t o ls e c t i d n23c o m p a r e st h en e w e s t i m t o ra 1 1 dt h cm l eo fs e l f - c o s i s t e n ta l g o r i t l l | mb ys i m u i a t i o n s e c t i o n2 4 印p l i e st h et w o a l r i t f i m st 0t h eb r e 躯tc a n c e rd a t as e t 孤da i d sd a t as e ta t l dl l s e st h eb o o t s 仃a pm e i h o dt os h o w t h es o u d i c yo f t h en e wm e t h o d c h 印t e r3c o 邮i d c r s 血ec o m p a r i s o no ft 、v og r o u p so fi n d e p e n d e n tr a n d o mm i 耻di n t e r v a i c e n s o r e dd a t a t h ec h i 叩咄s t a t i s t i c si si n t m d u c e di ns e c 右o n3 1 - s e c t i o n3 2s h o w st h ep o w e r o f t t l em e t h o dt h o u g hl 盯g en u m b e r so f s i m u l a t i o n c h a p t e 4g e 碍l l 玛st h ec o x sm o d e it ot h em i x 嚣di n t e l 、,a l 璐o r e d 如t 8a n d 鑫n 8 l y z e dt h e i m d a c to fd i f f e r e n tv a r i a b l e st os u r v i v a lt l m e s e c t i o n4 1i n 协砌u c e st h ec l a s s i c a lc o x sm o ( 1 e 1 s e c n o n4 2e x t e n d st t l ec o x sm o d e i t o 山em i ) 【e di n t e r v a lc e n s o r c dd a t a k e y w o r d s :m 故e di n t e r v a lc e n s o 硎,b 0 0 t s t r a p ,s e l f - c d n s i s t e n ta l g o d t h m ,c h j s q u a r e s 诅t i s t i c s c o x sm o d e l i i 中山大学硕士学位论文 第1 章不完全生存数据 在各种应用领域中,常常要通过对观测数据进行分析,为评价所研究的对象 提供依据。生存数据除生存时间准确知道的完全数据外,更多的是在观测数据 时,有时会发生观测目标的消失,或在观测截止日期已到时,所关注的事件仍末 出现,这些现象都会导致观测数据不完全,在作统计推断时,这些数据既不能摒 弃,又不能直接使用。如何通过这些数据获得尽可能多的信息,使所得的分析结 果合理而又充分,在统计学的研究领域里,是重大的课题之一。关于不完全数据 的处理,最早见于寿命表中,如b e r s k 0 ( 1 9 4 2 ) 、b e r s k o n 和g a g e ( 1 9 5 0 ) 、c u l t e r 和e d e r e n ( 1 9 5 8 ) 等写出的寿命表报告。k a p l a n - m e i e r 估计( 1 9 5 8 ) 、c o x 模型( 1 9 7 2 ) 、 a l e n 模型( 1 9 7 2 ) 等的出现,使不完全数据的处理在理论研究与实际应用中都取得 了显著的成绩,研究结果极大地丰富了统计学的内容和方法。到目前为止,针对 不同类型的不完全数据,出现了一些相应的统计分析方法,随着人们对实际问题 理解的深入且为了更好得满足实际应用的需要,对不完全数据的理论和应用研 究,仍在不断细分和深化。 1 1 删失数据的描述 生存数据泛指涉及一定事件的时间数据。事件可以是生命死亡、疾病的发生、 产品的失效、一种处理的反应等等。在医学领域中,事件可以是术后康复;在经 济学中,事件可以是失业工人曾工作的时间;在保险学中,事件可以是投保人的 年龄;在工业应用中,事件可以是某元件的失效等。一般而言,我们要考虑的事 件是从一个状态到另一个状态的转变。死亡是活着到生命丧失的转变,术后康复 是手术开始到完全康复的转变,元件的失效是元件正常工作到不能工作的转变。 事件出现的时间,习惯上被称为生存时间。 设x 是一个随机变量,其累积分布函数为 f o ) = p ( x x ) ( 1 1 ) 中山大学硕士学位论文 生存函数为 s ( 工) = l f ( x ) = p ( j z ) , ( 1 2 ) 生存数据包含精确数据( e x a c td a t a ) 和删失数据( c e n s o r i n gd a t a ) 。在生存分析 的追踪研究中,病人在研究期内被追踪观察某一事件的出现。如果事件的出现时 间被观测到,那么该生存时间t 就被记录为精确数据( e x a c td a t a ) ,且记删失示 性函数艿= 1 :如果在研究结束的时刻,病人的该事件并未出现,则观测到的生 存时间就是右删失( r i g h tc e n s o r e d ) 数据,t 的值就设定为最后一次观察时间,且记 删失示性函数占= o ;如果病人在选进研究之前,该事件已经出现了,那么观测 到的生存时间就是左删失( 1 e rc c n s o r e d ) 数据,t 设定为0 ;如果数据是精确或是 左、右删失,在医学研究中有很多的参数、半参数、非参数方法来估计生存函数、 假设检验和估计协变量对生存时间的影响。很多都可以在软件中实现。 但是,在某些情况下,事件发生的时间可能只知道是属于某个时问区间 l , r 内,其中三f 曼r 。这在医学实验中是经常遇到的,例如,病人是在预先设 定的时间去进行检查的,如果事件在某次检查的时候( l ) 还没有出现,但在下 一次检查的时候( r ) 已经出现了,t 就只知道是属于区间 l ,r ,这就是区间 删失( i n t e “a le e n s o r e d ) 数据“。我们可以把精确数据,左、右删失数据看作是区 间删失数据的特殊情形。l :r 时为精确数据,尺= m 时为右删失数据,= 一m 时 为左删失。 1 2 区间删失的类型与相应的模型 区间删失数据有很多种类型,根据q i q i n g y u 编写的生存分析讲义16 1 ,详细 地描述的区间删失数据的分类,主要有以下四种: 1 2 1第一类区间删失( c a s el i n t e r v a i c e n s o r i n g ) 定义卜1 :若一个数据集只包含右删失和左删失观测值,则称之为第一类区 间删失数据( c ld a t a 或c 唧n ts t a t u sd a t a ) 。 例卜1 :考虑一个动物实验,被抽取的动物在一定时间需要被解剖来检查是 否生成肿瘤。在此情形下,令x 表示肿瘤生成的时间,y 为解剖的时间,则我们 2 中山大学硕士学位论文 只能推断在解剖这一时刻,肿瘤是已经生成,或是仍未生成。 模型:假设 1 y 为一随机观察时间: 2 x 与y 相互独立; 3 可观测的随机向量为 舻 筠黧并 或写成等价形式: 酾,- 筠霎嚣羹 向量( y ,西,其中艿= ,( 。;n 就是第一类区间删失数据。 1 2 2 双删失( d o u b l ec e n s o r i n g ) ( 1 3 ) ( 1 4 ) 定义卜2 :若一个数据集包含右删失和左删失观测值,及精确观测值,但不 包含严格区间删失观测值,则称之为双删失数据( d cd a t a ) 。 例卜2 :在l e i d e 丌n a i l 甜口f ( 1 9 7 3 ) 介绍的一个有关婴儿在出生的第一年学习 爬行所需要的时间的研究中,研究所抽取的婴儿在研究开始的时刻部只出生不超 过6 个月的。在研究开始的时刻,有些婴儿已经学会如何爬行,故他们的观测时 间为左删失;在研究期间有些婴几学会爬行,他们的观测时间就被精确地记录下 来,为精确观测值;在研究结束的时刻,仍有些婴儿未学会爬行,所以他们的观 测时间为右删失。 模型:假设 1 ( z ,y ) 为一随机删失时间,满足p ( z 兰l ,) = l ; 2 x 与( z ,y ) 相互独立; 3 可观测的随机向量为 f ( o 。,z ) ,若x z 犯,r ) = ( ,x ) ,若z l , 或写成等价形式: 中山大学硕士学位论文 i ( ,z ) ,若肖sz 区间,= ( x ,工) ,若z x 兰y ( 1 6 ) i ( 】,c o ) ,若x y ( 1 ,若精确 向量( 阢就是双删失数据,其中u = m a x 忙,m i n ( ,y ) ) ,占= 2 ,若左删失。 1 3 ,若右删失 1 2 3 第二类区间删失( c a s e2i n t e r v a l c e n s o r i n 2 ) 定义卜3 :若一个数据集包含严格区间删失观测值,可以包含右删失和左删 失观测值,也可以不包含,但不包含精确观测值,则称之为第二类区间删失数据 ( c 2d a t a ) 。 例卜3 :在医学研究中,当每个病人有若干次追踪观察的时候,所关注的事 件的发生时间只知道或是在第一次追踪观察之前,或是两次连续的追踪观察之 间,或是在最后一次追踪观察之后。 一个简单的模型:由g m e n e b o o m 与w j l h l e r 在1 9 9 2 年提出的,他们假设: l - u 和v 为一随机观察时间,满足尸( u 矿1 = l ; 2 x 与( u ,v ) 相互独立 3 可观测的随机向量为 ( ,r ) = ( ,u ) 鲫) + ( u ,矿) ,( u 。s r ) + ( 矿,) t ,r ) ( 1 7 ) 一个实际的模型:由s c h i c k 和y u 在1 9 9 9 年提出的混合情形模型。假设: 1 n 为一随机正整数 2 x e 圪 为一随机观察时间 3 x 与 ,r ,f l 相互独立 4 可观测的随机向量为 i ( 一,_ ) ,s e ( ,r ) = ( 一,e + t ) ,i 巧 4 中山大学硕士学位论文 1 2 4 混合区间删失( m i x e di n t e r v a l c e n s o r i n g ) 定义卜4 :若一个数据集包含精确观测值和严格区间删失观测值,或右删失 观测值,或左删失观测值,则称之为混合区间删失数据( m l cd a t a ) 。 一个简单的模型( m i c 模型1 ) :假设: 1 ( u ,v ) 为一随机删失向量,满足p ( u 矿) = 1 ; 2 x 与( u ,v ) 相互独立; 3 可观测的随机向量为 ( 厶r ) : ! 羔,主x 参叠翼:? ( 1 9 ) 一【,矿) ,z ,矿 7 注:实际上,如果为左删失,那么,矿) 为一m 和左删失变量:如果为严格 区间删失,那么( u ,矿) 为两次连续的观察时间;如果为右删失,那么,矿) 为右 删失变量和+ 。o 。此时不满足假设2 。但是这个模型很简单且容易解释。 一个实际的模型( m i c 模型2 ) :由s c h i c k 和y u 在1 9 9 9 年提出的混合情形 模型。假设: 1 n 为一随机正整数; 2 丁,i y 2 1 ) 0 ; 5 可观测的随机向量为 ( 厶r ) = ( x x ) xs t 。虽n = o ( l ) ,z l 且= 0 ( 一,i ) ,y k 且l ( 1 1 0 ) ( r ,i + 1 ) e y 且l 1 3 区间删失数据的s e l f c o n s i s t e n t 估计 记厶,l 为区间删失数据的观察值,设其中有g 个不相同的观察值,这 些数据可被整理成:1 个( 0 ) ,也个( ,2 ,乇) ,和以个( 乞,名) , l + + 。2 。如果对任意的f 和,区间4 ,满足爿,n = m ( 空集) 或4 , 则称爿,为内含区间( i n n e m l o s t i n t e a 1 ) 【4 】。令口,和6 ,分别为4 ,的左右端点。设 4 ,一z ,一。为,- ,j 2 ,。的所有互不相同的内含区间,且满足 qs 6 i 口2 6 2 口。6 。 令嘞= l ( j 酬。 对区间删失数据的广义极大似然估计( g m l e ) ,已有几种数值算法。 p e t o ( 1 9 7 3 ) 给出n e 吼o n - r a p h s o n 算法,n 衄b u l l ( 1 9 7 6 ) 给出s e l f - c o n s i s t e n t 算法 4 】, g r o n e b o o m 和w e l l n e r ( 1 9 9 2 ) 给出c o n v e xm i n o r a n t 算法。其中,1 i l n 】b u l l 的 s e l f - c o l l s i s t e n t 算法( 简称s c 算法) 较容易实现。 p c t o ( 1 9 7 3 ) 指出f 的g m l e 仅将权重分配在内含区间4 ,4 :,爿,上。设分 配权重分别为s i ,j 2 ,s 。( s i + s 2 + + j 。= l ,s ,o ) ,广义似然方程可简写为: = ( 吣) = n 1 岛s l 1 u n b u l l ( 1 9 7 6 ) 给出的g m l e 的s e l f - c o n s i s t e n t 算法h 简述如下: 第一步:设初值,令s ? = l 搬,= l ,磁: 黜叫。喜丢毒杀小b m ; m 当s 6 收敛,即肛“s “1 1 0 足够小时停止迭代。 p e t o 证明了当 一o 。时,s :“收敛到g m l e 。 t 妇l b u 【l ( 1 9 7 4 ) 、c h a n g 和鬏1 9 8 7 ) 、c h a n g ( 1 9 9 0 ) 、g u 和z h a n 酞t 9 9 3 ) 、 1 m 和l i ( 1 9 9 9 ) 建立了s e l f c o n s i s t e n t 估计( s e l f _ c o n s i s t e n te s t i m a t o r :s c e ) 的一致 性和近似正态性【5 j 【9 ,根据上述顺序其所需条件逐渐减弱。 定义f ,= s u p 红:m a x ( s ( z ) ,( x ) ) = i ,r ,= i n f 辟:m j n ( ( x ) ,s ( x ) ) = 0 。 中山大学硕士学位论文 记只( x ) = p z 非删失i = x ,足( 工) = 尸 z x n 。 y u 和l i 在1 9 9 9 年【9 】得出: 如果p x ( q ,f , 硎d 足( 一) = o ) = 0 ,当r ( f ,一) o 且当 f 0 ( f ,) 0 时j p 怛= q o ,则s c e 户满足:l i ms u pi 户( z ) 一r ( x ) o 口且,如 果r ( f ,) = o 且r ( f ,) = 1 ,h es u p i 声( x ) 一r ( z ) 卜。口墨 他们还得出: 如果:z 和y 包含有限多个观察值, q d : 且 o ( 口。) 。时p r 2 r ,) 。,l 。二冬姜措 o 。三者中满足其一,f , r ,且s c e 户是g 池e ,则i ( 户一只) 在 乃,f ,】上收敛到一个高斯( g a u s s ) 过程,而且户是渐进有效( a s y m p t o t i c a l l y e m c i e n 0 的。 中山大学硕士学位论文 第2 章区间删失数据生存函数的非参数估计 本章从经验分布的思想出发,给出在混合区间删失模型( m i c 模型1 ) 1 6 1 ( 见 第一章介绍) 下的区间删失数据生存函数的非参数估计。并且在不同的删失比例 和不同的样本量下,和s e l c o n s i s t e n t 算法求得的极大似然估计比较,得出该估 计的优良性。并把新算法和s e l f c o i l s i s t e m 算法应用于乳腺癌数据分析与艾滋病 数据分析,然后运用b o o 乜t r a p 重抽样方法,显示了新算法的稳健性。 2 1 生存函数的建立 2 1 1 方法描述 设( z 。,4 ) ,( z :,疋) ,( z 。,瓯) 是h 个混合区间删失数据的观察值 z ,= ( t ,) ,谚为区间删失示性函数,意义如( 2 一1 ) 所示: 哦:p 銎兰懋。 ( 2 川 i l ,z ;为严格区间删失数据 。 将该”个数据整理如下:a 口: a 。是所有的和中互不相同的点, f - l ,2 ,n ;令陋t ,l 】= 4 。,( 口,“,+ 1 】= 4 ,;记d ,为a ,出现的频数( 注:由于此 处的嘭并非是整数,文献上一般称为伪频数( p s e u d oc o l l l l t s ) 1 4 1 ) ,记国,为分 配到爿,的权重,- ,= o ,1 ,2 ,m l 。 对每一个观测值z 。= ( ,) ,如果= ,即z i 为精确值,则赋予所在的区 间吉的权重,赋予剩余的区间。的权重;如果 l ,即互为严格区间删失值, 则赋予包含在区间互内的区毗相应的权重为描,其中 f 爿,卜( 口川一口a z ; ( 一) 。然后对每个区间4 ,把每次赋得的权重累加起 中山大学硕士学位论文 来,得到该区间爿,的最终权重哆,则生存函数为 s ,;s ( q ) = :q ,= o ,1 ,2 ,m 。 2 1 2 具体实现步骤: 在刘淑霞提出的具体算法 1 8 1 的基础上,把实现的步骤进一步修改如下: 第。步:令巧o = o ,q = o ,= o ,1 ,2 ,小一1 。 第l 步: 如果,- = ,l ( 称为精确值) ,即4 = 0 ,那么j 一个| j ”,) 爿。令 d :m = l ,d j l l = o ,= o ,l ,七“一1 ,| j 1 + l ,一,m l 。 如果,。 ( 称为严格区间删失值) ,即4 = 1 ,那么j ,:1 a n d ,i ” ( f :1 f 黝,却,爿,f 1 1 + l ,爿,;t ,至z 12 ( ,- ,_ 。 删:= 等,吼= 等孚,俨等半。 彬1 = o ,= o ,l ,一,f j ”一l ,f ? + l ,m l 。 第 步( = 2 ,h ) :如果= ,那么了一个t j 爿,令d 茹= 1 彬帅= o ,= o ,l ,| ”一l ,七 + 1 ,一,竹一l a 直口果矗 珞,习么3f f 年:们( f p f ? ) ,j 爿妒,4 。,彳掣,z 。= ( ,_ ,令d # = 兰;三;尘:,d 筝 + 、= 警, 综上,令 叫“= o ,= o ,1 ,f :”一l ,f i 6 + 1 ,押一1 。 ( 2 2 ) 嘭2 :d 2 :,【4 1 ;i ! ( ( n ,a ,+ - 】( 1 , ) + ( 1 4 ) ,( ( a ,n 一- ) 】 臀 口一 = 嘴 中山大学硕士学位论文 哆= 去嘭,j = o ,1 ,2 ,m 叱 s ;s ( 口) = :q ,j = l ,2 ,m l , s 就是所求的生存函数了。 性质:上述所得的生存函数满足:q = l ,即氐s s ( ) = l 。 证明:设有k 个精确数据,为第f 。,f :,t 个观测值, 贝0 对v f ,f 2 ,一,靠,设口“= ,。,口。= ,贝0 有: ( 2 3 ) ( 2 4 ) :n 。2 :去:, 嗔! 鸶! :( ( 口。,a ,+ 。 ( f j , ) + ( 1 一区) ,( ,f ( 口,a ,+ 。 ) 】 2 去:。:4 之寻,( ( 一酗矧) + 去:( 1 吲m 响脾m = 吉i 啊,。,。:j ! ! :;! ! ( ( 口,口,“】( , ) + 告 = 土( 一膏) + 生 n = l 其中吉:。:( 1 4 ) ,( ,f ( a ,口川 ) 为精确数据属于内含区间的个数,故 为k ,而 “。:! :等( ( 叫鲋川) = 蛳 。f t 志( :( - 一q ) 砥喇酬矧) ) = “一:,一高( 以弘m 一( m 一弘h ( 以酝) + + 口l ( ,( 4 l z 。) 一,( 爿2s z f ) 一日o ,( 4 l z i ) = 蛳如“者州卜0 ) + 叫卜1 m h ( 卜1 们柙_ 1 ) 】 = 嘲矗,。击叫。】 = 。打,。1 从而:1 q = l 。 1 0 中山大学硕士学位论文 2 1 3 例子 例2 一l :设有5 个混合区间删失数据( 2 ,6 , 3 ,3 ,( 3 ,5 】,【5 ,5 ,( 5 ,7 ,分别记为 z l ,z 2 ,z 3 ,z 4 ,z 5 ,显然,所有互不相同的点为2 、3 、5 、6 、7 ,记为口。,d 2 ,口4 ,如。 这5 个点对应的区间为( 2 ,3 ,( 3 ,5 ,( 5 ,6 】,( 6 ,7 】,记为4 。,4 :,彳,a 。 第。步:研= d i o = d p = d p = o 。 第l 步:对z l = ( 2 ,6 】,由于= 2 6 = _ ,则存在f f l l = l 和f f = 3 3 爿,一,4 一) + l ,4 z 1 ,即:4 l ,爿2 ,a 3 量z :! g 二鱼:丝:1 4 , 1 ,1 一,l 6 2 7 鱼= 鱼:垒兰:l 4 1 一,i 6 2 d 1 1 ) :d 1 2 二! ! :旦:1 2 i 一,l 6 2 d :1 1 = o 第2 步:对z 2 = 3 ,3 ,2 = 吒= 3 ,存在七2 = l ,2 4 女。 卅2 = l ,2 = o ,2 = 0 4 ,碰2 = o 。 第3 步:对z 3 = ( 3 ,5 】,3 = 3 5 = 吩,存在p = = 2j 爿,互z 3 。 d f 3 ) = o ,d p = 旦哗:譬:l ,d p = o ,d p :o 。 n 一,) 一j 第4 步:对z 4 = 【5 ,5 】,4 = _ = 5 ,存在a 4 = 2 ,4 爿 。 d :4 1 = o ,d 4 = 1 ,4 = o ,以4 = o 。 第 5 步: 对z 5 = ( 5 ,7 , ,= 5 7 = , 存在 = 3 和 妒= 4 ) 一,彳,p z s 。 研5 = o ,矽= o 础5 2 晋圳z a 一。 旦 当:l 2 , 一止 q = ;= 。d :。= ,4 ,:= ;= 。d p = ,z ,屿= 喜:,d p = s ,z 。,q = 詈:。d p = ,。 中山大学硕士学位论文 则,对应的生存函数为: 墨= s ( 2 ) = :。q = 1 ,s := s ( 3 ) = :q = l 2 + 3 2 0 + l l o = o 7 5 墨= s ( 5 ) = :3 哆= 3 2 0 + l l o = o 2 5 ,s 。= s ( 6 ) = ;:。q = 1 l o = o 1 。 2 2 生存函数的性质 刘淑霞证明了生存函数具有以下的性质m 】: 定理l :( b o r e l 强大数定理) 设五,x :,x 。为相互独立的随机变量,且皆 服从参数为p ( o l 时,危险率随时间的增大 而增大;y 绝对差的均数( d e v ) :分别计算s l 与出s 和s 2 和t h s 在它们跳跃点上 的差的绝对值的均数,即: 伽m 蒋m ,铂驯,删z 2 藕观,枷。i 一z , 显然对于d e v ,较小者相应的生存曲线与理论生存曲线的差别较小,然后 对l 0 0 0 对d e v ,采用t 检验或秩和检验来判断d e v l 和d e v 2 之间是否有显著 性差异。 2 3 3 比较结果 图2 1 至2 9 分别给出了样本量n 为1 0 、2 0 、3 0 、4 0 、5 0 和1 0 0 ,5 0 0 ,l 0 0 0 , 5 0 0 0 时,一次随机抽样试验的结果。本文的模拟研究是使用m a t l a b 进行,附 录给出相应的m a = n a b 程序。其中s 1 为新方法所求得的生存函数,s 2 为s c 算法所求得的生存函数,作为对比,给出理论生存函数m s 。 表2 一l 至2 一1 2 分别给出了样本量n 为2 0 、3 0 、4 0 、5 0 时,y 分别为o 5 , l ,2 时,重复l o o o 次随机抽样试验的结果。其中c o i 墩、a r e a 和d e v 代表 三种比较方法,m e a n 和s t d 分别为在相应条件下l o o o 个c o r r 、a r e a 和d e v 的均数和标准差,p 由对1 0 0 0 对c o i 狡、a 狐和d e v 做t 检验所得。 1 4 中山大学硕士学位论文 图2 1 样本量为1 0 的一次随机抽样中s 1 和s 2 的比较 图2 2 样本量为2 0 的一次随机抽样中s l 和s 2 的比较 图2 3 样本量为3 0 的一次随机抽样中s l 和s 2 的比较 中山大学硕士学位论文 图2 - 4 样本量为4 0 的一次随机抽样中s l 和s 2 的比较 圈2 5 样本量为5 0 的一次随机抽样中s i 和s 2 的比较 图2 6 样本量为1 0 0 的一次随机抽样中s 1 和s 2 的比较 中山大学硕士学位论文 图2 7 样本量为5 0 0 的一次随机抽样中s 1 和s 2 的比较 图2 8 样本量为1 0 0 0 的一次随机抽样中s l 和s 2 的比较 图2 - 9 样本量为5 0 0 0 的一次随机抽样中s l 和s 2 的比较 中山大学硕士学位论文 m e a s u r e ss 1 t h s s 2 & t l s c io f c e n s o r i n g p v a l u e p r o p o m o n e v a l u a h o n m e a n ls t d l m e a l l2s t d 2 m e a n l m e a n 2 c o r r 0 9 8 0 7 90 0 1 4 4 2 20 9 7 7 9 5o 0 1 4 4 7 7 0 0 1 6 7 0 【0 ,0 0 1 2 ,00 0 6 9 】 5 _ 4 5 a r e a 4 2 4 3 5l9 0 3 94 3 4 3 618 9 7 5 0 0 7 0 9 9 【06 3 0 2 ,0 4 3 0 0 】 d e v o 0 7 4 0 0 10 0 3 0 3 30 0 7 5 5 8 300 2 9 9 9 2 0 0 7 1 1 1 【一00 1 0 0 ,0 0 0 68 c o r r o 9 8 0 9 500 1 4 2 4 l0 9 7 8 9 90 0 1 3 9 8 9 0 0 3 2 6 5 【0 0 0 2 0 0 0 0 5 9 】 5 5 0 a r e a 4 1 8 6 71 8 24 3 2 2 71 7 6 2 7 o 0 5 9 1 9 【- 0 6 3 5 7 ,o 3 6 3 6 】 d e v o 0 7 7 0 2 400 3 7 8 9 2o 0 7 8 6 9 600 3 7 6 3 5 o 0 7 5 4 5 【- o0 1 2 2 ,0 0 0 8 9 】 c o r r o 9 8 1 3 70 0 1 4 7 1 309 7 7 0 io 0 1 6 4 9 7 5 3 2 2 7 e 一0 1 0 【0 0 0 3 0 ,0 0 0 5 7 】 5 6 5 a r e a 2 1 0 0 51 1 0 62 4 1 3 61 - 0 7 5 6 1 7 2 1 9 c 0 1 0 【一04 0 8 8 ,- 02 1 7 4 】 d e v o 0 6 5 7 8 900 3 2 0 0 40 0 6 9 5 5 l00 3 1 0 9 1 0 0 0 7 7 【- 0 、0 0 6 5 ,一0 0 0 1 0 c o r r 0 9 8 5 7 2 o 0 1 1 3 8 9 0 9 7 8 4 2 0 0 1 7 1 6 8 0 o0 0 6 0 ,0 0 0 8 6 】 1 5 毒0 a r e a 27 8 3 3l5 7 7 l34 0 0 7l8 1 4 2 8 8 8 1 8 e 一0 1 6 - 0 7 6 6 5 ,- o 4 6 8 3 】 d e v 0 0 6 2 5 3 8o 0 3 1 0 1 l00 6 7 5 0 60 0 2 9 5 5 8 25 2 2 8 e 0 0 4 - 00 0 7 6 ,0 0 0 2 3 】 c o r r o 9 9 0 2 700 0 7 0 1 2 4o 9 7 8 5 400 2 0 3 0 3 0 0 0 1 0 4 ,0 0 1 3 1 1 2 5 9 5 a r e a 23 0 2 4i3 0 9 l2 9 7 4 5i 5 7 3 2 0 0 7 9 9 1 ,一0 5 4 5 3 】 d e v 0 0 5 8 7 5 4o 0 2 6 0 800 6 7 7 2 5 0 0 2 7 0 7 3 67 2 8 0 e - 0 1 4 - 0 们1 3 ,- o0 0 6 6 】 m e a s u r e s s 1 m ss 2 t h sc lo f c e n s o r i n g t o rm e m m e a n p v a l u em e a n l m e a l l s t d l s t d 2 p r o p o m o n e v a l u a t i o n 1 c o r r 0 9 8 7 90 0 0 9 2 3 9 lo 9 8 6 3 300 0 9 5 1 8 9 7 8 0 8 6 e 一0 【o0 0 0 8 ,00 0 2 5 3 3 3 - 4 3 3 3a r e a 7 4 1 9 3 3 t 3 9 0 97 5 6 4 43 3 8 5 6 o3 3 8 6 1 0 4 4 2 2 ,o1 5 2 0 0 5 7 2o 0 2 6 8 0 10 0 5 8 8 500 2 6 5 9 9 0 1 8 8 5 f o 0 0 3 9 ,00 0 0 d e v c o r r o 9 8 8 70 0 0 7 6 0 6 l0 9 8 6 8 70 0 0 8 1 6 6 7 1 2 3 4 2 e 0 【00 0 1 2 ,0 0 0 2 6 33 3 - 4 6 6 7 a r b a 7 4 13 2 3 8 37 5 7 9 13 ,2 2 8 7 0 2 5 5 2 - 04 4 8 2 ,0 1 1 9 d e v 0 0 5 7 1o ,0 2 6 1 9 i 0 0 5 9 0 3o 0 2 6 1 8 4 o ,1 0 2 900 0 4 2 o 0 0 0 c o r r o 9 8 8 8 0 0 0 7 9 3 5o 9 8 6 0 80 0 0 8 9 8 6 9 57 8 4 3 e 0 0 0 0 2 0 ,o0 0 3 5 66 7 一5 6 6 7 a r e a 7 3 4 3 330 4 3 l 77 0 6 30 3 1 8 o 0 0 7 6 - 0 6 2 9 l ,一0 0 9 6 d e v 0 0 s 5 80 0 “1 5 7o 0 5 8 6 200 2 3 9 2 3 0 0 0 9 4 【- 0 0 0 4 9 ,00 0 0 c o r r o 9 9 1 5o 0 0 7 2 9 2 60 9 8 7 8 6o 0 0 9 7 i o 【00 0 2 9 ,0 0 0 4 4 1 33 一7 3 ,3 3 a r e a 7 0 1 3 82 9 5 1 3 77 1 1 7 3 1 1 4 22 9 5 7 3 e 0 【一09 “0 ,- o 4 3 1 d e v o 0 5 2 7o 0 2 3 2 4 1o ,0 5 6 5 70 0 2 3 6 3 8 2 9 2 8 7 e 一0 卜o 0 0 5 9 ,- 00 0 1 c o r r 09 9 5 2o 0 0 5 1 2 5 80 9 9 0 90 0 1 1 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论