(概率论与数理统计专业论文)随机删失数据下常用生存分布的参数估计.pdf_第1页
(概率论与数理统计专业论文)随机删失数据下常用生存分布的参数估计.pdf_第2页
(概率论与数理统计专业论文)随机删失数据下常用生存分布的参数估计.pdf_第3页
(概率论与数理统计专业论文)随机删失数据下常用生存分布的参数估计.pdf_第4页
(概率论与数理统计专业论文)随机删失数据下常用生存分布的参数估计.pdf_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随机删失数据下常用生存分布的参数估计 概率论与数理统计专业 研究生吴耀国指导教师周杰 生存时间可以广泛地定义为一给定状态的持续时间,生存分析则是对生 物的生存时间进行评估和预测的学科从数学角度看,这种研究主要是对一 个或多个非负随机变量进行统计分析由于其统计方法在生物医学、可靠性、 服务系统、社会经济等领域得到了重要应用,生存分析已经成为现代数理统计 学的:罩:要分支 当我们可以假定数据来自某种分布的总体时,我们自然更愿意使用参数 估计方法,然而在实际问题中,常常由于各种原因导致观测的生存时间出现 删失,这使得对生存数据的统计分析产生了一些特殊的问题最常见的数据 删失类型是随机右删失,这时生存时间大于或等于我们观测到的删失时间, 并且数据出现删失的时间是随机的, 删失数据是不完全数据的特殊情形d e m p s t e r 等人在1 9 7 7 年提出的e m 算法可以看作是一种在不完全数据情况下计算极大似然估计铂q 迭代算法,它 可以很好地解决不完全数据情况下的统计分析问题 本文将e m 算法用于随机右删失数据下指数分布、w e i b u l l 分布和对数正 态分布的参数估计中对指数分布,得到的估计表达式与文献 8 中使用其他 方法得到的结果相同;对w e i b u l l 分布,论文证明了参数) ,满足一个非线性方 程,而 则可以直接由含有y 的表达式求出;对对数正态分布,论文给出参数 估讣的迭代算法,这可以看成是w o l y n e t z 博士沦文结果的推广 论文还对w e i b u l l 分布和对数正态分布作了相应的计算机模拟,结果表明 所给参数估计方法是容易施行并且行之有效的 关键词:e m 算法,w e i b u 1 分布,参数估计,对数正态分布,删失数据,生 存分布,指数分布 p a r a m e t e re s t i m a t i o no fc o m m o n l yu s e ds u r v i v a l d i s t r i b u t i o nb a s e do nr a n d o m l yc e n s o r e dd a t a m a j o r :p r o b a b i l i t yt h e o r ya n dm a t h e m a t i c a ls t a t i s t i c s p o s t g r a d u a t e :w uy a o g u o s u p e r v i s o r :z h o uj i e s u r v i v a la n a l y s i si sas u b j e c tt oe v a l u a t ea n df o r e c a s tb i o l o g i cs u r v i v a lt i m e t h a tc a nb eg e n e r a l l yd e f i n e da st h ed u r a t i o no fa na p p o i n t e ds t a t e f r o mt h e m a t h e m a t i c a lp o i n to fv i e w , s u r v i v a la n a l y s i si sat y p eo fs t a t i s t i c a la n a l y s i s t o w a r d so n eo rm o r en o n n e g a t i v er a n d o mv a r i a b l e s b e c a u s ei t sa n a l y s i sm e t h o d i so fg r e a ta p p l i c a t i o n si nm a n yf i e l d s ,s u c ha sb i o m e d i c i n e ,r e l i a b i l i t y , s e r v i c e s y s t e ma n ds o c i o e c o n o m y ,s u r v i v a la n a l y s i sh a sa l r e a d yb e e na ni m p o r t a n tb r a n c h o f m o d e r nm a t h e m a t i c a ls t a t i s t i c s w h e ni tc a r tb ea s s u m e dt h a tt h es a m p l ei sf r o ms o m ed i s t r i b u t i o n ,w ew o u l d n a t u r a l l yl i k et ou s ep a r a m e t e re s t i m a t i o nm e t h o d d u et os o m ep r a c t i c a lr e a s o n s , h o w e v e r , m e a s u r i n gd a t ai sa l w a y sb e i n gc e n s o r e d ,w h i c hw o m d r e s u l ti ns o m e t r o u b l e si ns t a t i s t i c a la n a l y s i s t h em o s tc o m m o nt y p eo fc e n s o r i n gi sr a n d o m l y r i g h tc e n s o r i n g ,i nw h i c hc a s et h es u r v i v a lt i m ei sr a n d o m l yc e n s o r e da n dn of e w e r t h a nt h er i g h tc e n s o r e dt i m e c e n s o r e dd a t ai si n c o m p l e t e t h ee ma l g o r i t h mi n t r o d u c e db yd e m p s t e re ta l i n19 7 7c a nb ev i e w e da sa ni t e r a t i v ea l g o r i t h mt oc a l c u l a t et h em l eb a s e do n i n c o m p l e t ed a t a ,a n di tp e r f o r m sw e l l i nt h i sp a p e r , e ma l g o r i t h mi su s e dt oe s t i m a t et h ep a r a m e t e r so fe x p o n e n t i a l d i s t r i b u t i o n ,w e i b u l ld i s t r i b u t i o na n dl o g n o r m a ld i s t r i b u t i o nb a s e do nr a n d o m l y r i g h tc e n s o r e dd a t a f o re x p o n e n t i a ld i s t r i b u t i o n ,t h ea c q u i r e de s t i m a t ee x p r e s s i o n i st h es a m ea st h er e s u l to b t a i n e db yo t h e rm e t h o di nr e f e r e n c e 8 1 ;f o rw e i b u l l d i s t r i b u t i o n ,t h ea u t h o rp r o v et h a t ,s a t i s f i e san o n l i n e a re q u a t i o na n d i s a f u n c t i o no fy ;f o rl o g n o r m a ld i s t r i b u t i o n ,ai t e r a t i v ea l g o r i t h mf o rp a r a m e t e r e s t i m a t i o ni sp r o p o s e d ,w h i c hi st h ee x p a n s i o no fs o m er e s u l t si nw o l y n e t z sp h d t h e s i s f u r t h e r m o r e ,c o m p u t e r s i m u l a t i o na i m e da tw e i b u l ld i s t r i b u t i o na n d l o g n o r m a ld i s t r i b u t i o ni sp r o c e s s e d ,a n dr e s u l t ss h o wt h a tt h ep r o v i d e dm e t h o di s f e a s i b l ea n de a s yt oi m p l e m e n t k e yw o r d s :c e n s o r e dd a t a ,e ma l g o r i t h m ,e x p o n e n t i a ld i s t r i b u t i o n , l o g n o r m a ld i s t r i b u t i o n ,p a r a m e t e re s t i m a t i o n ,s u r v i v a ld i s t r i b u t i o n ,w e i b u l l d i s t r i b u t i o n 致谢 本文是在我的导师周杰副教授的指导下完成的。周老师淡泊名利、治学 严谨、对数学和科研有着独到的见解。无论在学业还是生活上、在做人还是 做事上,周老师都诲人不倦,他多年来对我的教导、关心、理解和帮助使我 倍感幸运,对我的言传身教也将让我终身受益,大恩不言谢,在此我向周老 师致以崇高的敬意,愿周老师和家人好人常伴好运。 衷心感谢朱允民教授、马洪教授、何腊梅老师给予我在学业和生活上的 诸多建议和帮助a 朱老师良好的工作习惯、严谨的治学态度,马老师开阔的 人生视野、对数学的精辟理解,何老师的和蔼可亲、对科学孜孜不倦的探索, 都给我留下极其深刻的印象,也为我今后的学习和工作树立了榜样。 感谢曾艳、吕王勇同学多年来在各方面给予我关心和照顾。感谢宋恩彬、 翁洋、苏理云和其他与我一起学习讨论过的同学,你们让我明白学无止境。 最后感谢我的家人多年来对我的理解和支持。 第一章引言 对生物和人的生存时间进行评估和预测是生物学和医学的重要研究内容 从数学角度看,这种研究是对一个或多个非负随机变量进行统计分析1 7 世 纪开始出现的寿命表可以看成这种研究的范例事实上,在可靠性工程( 电子 设备的寿命) 、社会学( 首次婚姻的持续时间) 、保险 i k ( m a f 的补偿索赔) 等领 域,都可以找到生存数据的例子到1 9 5 0 年代,由于急需提高工业产品的扫j 靠性,很多统计学家开始研究各种类型的生存时间并发表了大量的论文 如今,这种统计分析已经成为现代数理统计学的重要分支生存分析 ( s u r v i v a l a n a l y s i s ) 基于生存分析概括了很多应用领域( 如医学、可靠性、服务 系统、社会经济) 中的实际问题以及其它一些原因,1 9 8 6 年美国国家科学院委 员会提出的数学发展概况中,曾把生存分析列为六大发展方向之- - 鸭】生存 分析的理论与应用已经受到了世界各国,特别是发达国家很大的重视 由于应用领域的不同,本文对生存时问和寿命、生存分析和可靠性分析、 生存分布和寿命分布等概念不加以区分 1 1 常用生存分布 最常用的生存分布有指数分布、w e i b u l l 分布和对数正态分布本节主要 介绍这些分布指数分布在生存分析中有着极其重要的地位,其密度函数与 分布函数分别为 s o ) = 3 e x p ( 一2 t ) , f ( t ) = 1 一e x p ( a t ) , f 0 r 0 ( 1 1 ) ( 1 2 ) 它是仅含一个参数五的生存分布,其均值和方差分别是l 五和1 兄2 根据产品 的失效规律( 如浴盆曲线) ,当剔除早期失效产品后,余下产品的寿命在进入耗 四川大学硕士学位论文2 损失效期前叫认为是服从指数分布【2 0 】 w e i b u l l 分布町以看作是指数分布的推广,许多生存时间、电子与机械的 元件与设备的寿命都服从w e i b u l l 分布w e i b u l l 分布是由两个参数 和y 表现 其特性的形状参数,决定分布曲线的形状,刻度参数丑则决定分布曲线的刻 度其密度函数与分布函数分别为 r ( t ) = a y t ”le x p ( 一2 t 7 ) ,f 0 ( 1 3 ) f ( f ) = l e x p ( 一2 t 7 ) ,f 0( 1 4 ) 其巾五 o , 0 这里的丑相当于某些文献中的五,【8 形:队参数,, 对w e i b u l l 分布有很大影响当, 1 时,其密度函数呈单峰状;当y 3 时,其密度函数渐 呈对称状,近似正态分布许多产品的寿命、生物的生存时间的形状参数y 都 在0 5 与5 之间 对数正态分布也是及其重要的生存分布,其起源可以追溯到1 8 7 9 年,那 时m c a l i s t e r 在文献 9 中明确地描述了这个分布的理论不少产品( 如二极管) 的寿命、许多病例( 如慢性白血病、癌症) 的生存时间都服从对数正态分布对 数正态分布的密度函数与分布函数分别为 s ( o = 上2 v t ; - te x p - 专( i n t - t ) 2 卜。, ( 1 5 ) ,( r ) = 肌) 础= 。( 孚j , 0 , ( 1 6 ) 其中i n 表示以e 为底的自然对数,o ) 表示标准正态分布函数对数正态分布 适用于生物危险率或者产品失效率开始阶段增大尔后减小的生存模型 1 2 删失数据 生存数据分析的统计方法已经在很多领域得到了重要应用,然而在生存 数据的观测中,常常由于: ( 1 ) 动物的意外死亡、病人转院等原因导致的个体中途退出; 四川大学硕士学位论文一2 损失效期前町认为是服从指数分布 w c i b u l l 分布n 以看作是指数分布的推广,许多生存时可、电子与机械的 元件与设备的寿命都服从w e i b u l l 分布w e i b u l l 分布是由两个参数z 和,表现 其特性的形状参数y 决定分机曲线的形状,刻度参数z 则决定分布曲线的刻 度其密度函数与分布函数分别为 厂( rj = 2 t 7 e x p ( 一z t 7 ) ,t 0( 1 3 ) f ( t ) = 1 一e x p ( 五,) ,o ( 1 4 ) 其巾 0 , 0 这里的 相当于某些文献中的 j 【8 7 膨状参数y 对w e i b u l l 分布有很大影响当y 1 时,其密度函数呈单峰状;当y 3 时,其密度函数渐 旱对称状,近似止态分布许多产品的寿命、生物的生存时间的形:状参数y 都 在0 5 与5 之问 对数正态分布也是及其重要的生存分布,其起源可以追溯到】8 7 9 年,那 时m e a l i s t e r 在文献 9 中明确地描述了这个分布的理论不少产品( 如二极管) 的寿命、许多病例( 如慢性白血病、癌症) 的生存时间都服从对数正态分布对 数止态分布的密度函数与分布函数分别为 ,( r ) 2 丽ie x p - 专( i n t - , u ) 2 ,z 。, ( 1 s ) ,( r ) 2 腓) 讲叫孚j ,舢, ( 1 6 ) 其中i n 表示以e 为底的自然对数,西( ) 表示标准正态分布函数对数正态分布 适用于生物危险率或者产品失效率开始阶段增大尔后减小的生存模型 1 2 删失数据 生存数据分析的统计方法已经存很多领域得到了重要应用,然而在生存 数据的观测巾,常常由于: ( 1 ) 动物的意外死亡、病人转院等原因导致的个体中途退出; ( 1 ) 动物的意外死亡、病人转院等原因导致的个体中途退出; 四川大学硕士学位论文 一3 ( 2 ) 经费问题导致调查研究只能在个有限的时间内进行: ( 3 ) 某些个体总不发生我们所关心的事件; ( 4 ) 被调查者拒绝回答有关调查项目等原l 盍i 导致的无法观测; ( 5 ) 其他原因: 使得在研究期间结束时研究者在某些个体无法观测到我们关心的事件,从而 观测到的生存数据出现删失删失数据使得对生存时间数据的统计分析产生 了一些特殊的问题 删失数据( c e n s o r e dd a t a ) 有三种类型: i 型删失:有时候实验是在一定的时间范围内进行,这样,样品的生存时 间只有小于或等于事先给定的值才能被观测到此时获得的数据被称为是i 型删失或者定时删失 i i 型删失:有时候实验要求在”个被观测的产品中,只要有r 个最小的观 测值被观测到( 1 r 1 1 ) 实验就停止此时获得的数据被称为是i i 型删失或者 定数删失 i i i 型删失:实际中删失的生存数据常常是随机的例如在大多数临床研 究中,研究期间是固定的,病人在此期间的不同时问进入研究,有些人在研究 期间死亡( 他们的确切生存时间是知道的) ,有些人在研究结束之前就退出研 究而不被跟踪观测,还有些人在研究结束时仍然活着此时获得的数据则被 称为是i i i 型删失或者随机删失 t 型和i i 型删失数据都叫做单式删失数据应该注意到,i 型删失数据 中被观测到的生存时间个数是随机的,而i i 型删失数据中被观测到的生存时 间个数是事先就固定了的i 型和i i 型删失数据可以看成是随机删失数据的 特殊情形 所有的这几种删失都是右删失或删失于右如果没有删失观测值,称生 存时间的集合是完全的 1 3 论文思路与内容安排 当适当的模型或分布可用来拟合数据或者可以假定数据来自某种分布的 四川大学硕士学位论文 ,4 总体时,我们自然更愿意使用参数估训方法,而实际问题中常常出现删失数 据删失数据蕴涵了与完全数据不同的信息,删除进而不考虑这部分数据所 带来的信息去做统计分析,可能会造成信息的损失和分析结果的偏颇 计算机科学的飞速发展使得以前很多无法解决的问题变成可能在现代 统计计算理论中,d e m p s t e r 等人在他们的著名沦文3 1 中提出的e m 算法是一 种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法,它可以 很好的解决不完全数据情况下的统计分析问题文献f 1 7 将其用于处理区间 型数据和成败型数据下w e i b u l l 分布的参数估计,而文献 1 0 将其用于逐步增 加的i i 型删失数据下的参数估计 本文的主要工作是将e m 算法用于随机删失数据下常用生存分布的参数 估计中,从而得到一些相应的结果论文余下部分的安排是: 作为预备知识,第二章主要介绍e m 算法及其基础极大似然估计此外介 绍后面章节需要用到的计算机模拟方法,以及对模拟结果的评价方法 指数分布可以看作是w e i b u l l 分布的特例,第三章将e m 算法用于随机删 失数据下指数分布和w e i b u l l 分布的参数估计中得到的随机删失数据下指数 分布的参数估计与已有结果殊途同归,在对w e i b u l l 分布的参数估计中,沦文 证明了参数y 满足一个非线性方程,而 则可以直接由含有y 的表达式求出 论文还对所给结果作了计算机模拟 第四章将e m 算法用于随机删失数据下对数正态分布的参数估计中,并 对所给估计算法作了计算机模拟 第五章对论文进行了总结,对进一步的工作进行了展望 第二章预备知识 e m 算法也许是目前最为流行的统计计算方法,然而e m 算法的本质是极 大似然估讥我们可以这样来描述e m 算法的思想:因为有部分数据出现删失, 所以在作参数估计之前,苗。先我们应该修复那些出现删失的数据,使之尽量 接近真实数据,最好的修复办法就是用该数据的条件期望来代替出现删失的 数据然而这时候参数的估计值仍然未知,我们无法得到该数据的条件期挚 由此,修复数据与参数估亡1 这两个问题之间出现了矛盾,解决这一矛盾的做 法就是迭代 2 1 极大似然估计 在概率统计中,概率密度函数f ( x ;0 1 扮演了很重要的角色当0 已知时, f ( x ;0 1 显示概率密度怎样随x 变化;反过来,当样本工给定后,考虑对不同的 口,概率密度怎样变化,这反映了样本工对参数0 的解释能力这就是极大似 然估计的基本思想极大似然方法是统计中最重要,应用最广泛的方法之 一该方法最早由德国数学家g a u s s 于1 8 2 1 年提出,但未得到重视,r a f i s h e r 在1 9 2 2 年再次提出了极大似然的思想并探讨了它的性质,使之得到了 广泛的研究和应用 设母体具有分布密度族 厂( x ;目) ,0 ,其中0 = ( q ,0 2 ,一,6 ) 是一个,维 参数向量,待估计又设x = ( 五,x 2 ,) 是子样x = ( x ,x :,置,) 的一个观 测值,那么子样x 落在点x 的邻域内的概率是丌,( x ,;出,直观上,我们 j i 。 既然在一次实验中得到了观测x ,那么我们认为子样落在该观测值x 的邻域 内这一事件是较容易发生的,具有较大的概率【l “极大似然方法就是选取使 四川大学硕士学位论文 6 得子样落在观测值x 的邻域内的概率兀f ( x j ;8 胁,达到最大的参数值疹作为 = 1 臼的估引值 一般地,记上( 臼;x ) = 兀f ( x j ;o ) ,称为目的似然函数进一步,若存在统 = 1 计量舀( x ) 使得 上( 西( x ) ;x ) = s u p l ( 0 ;x ) ( 2 1 ) 则称占f z l 为0 的一个极大似然估计,简称m l e 由于概率密度函数大多具有 指数函数形式,采用似然甬数的对数通常更为简便称 l ( o ;x ) = l n l ( o ;x ) ( 2 2 ) 为0 的对数似然函数,( 只刁与l ( o ;x ) 在寻求极大值时是等价的 由于具有很多非常有吸引力的优良性质,极大估计方法应用非常广泛 2 2e m 算法及其性质 2 2 1 e m 算法 在用统计方法处理实际问题时,我们会遇到一些不完全数据,最常见的 - - e o 是部分数据删失的情形假定随机变量r 服从概率密度f ( y ;o ) ,其中 口o 记y = ( y 1 ,y ,) 为观测数据所组成的向量( 为记号方便不区分随机变 量与观测向量) 现假设观测向量y 中某些元素没有被观测到,被观测到的只 是它的一个函数z = z ( y ) ,记为z = ( 毛,z 。) 作为特殊情形,z = y 表示观 测到的就是j ,的本身我们称y 为完全数据,z 为不完全数据 我们的目的是,在得到不完全数据z 的情况下使用极大似然准则估计模 型参数臼,也就是求臼使得 l n f ( y ;o l z ) = m a x ll n f ( y ;o z ) 1 ( 2 3 ) 口 一一 由于数据z 的不完全和,( y ;o l z ) 形式上的复杂,因此采用一般的优化方 法常常使算法变得非常复杂克服这些困难的一个较好的方法是使用e m 算 法d e m p s t e r , l a r i d 和l r u b i n 于1 9 7 7 年首次给出了“期望一极大值”算法的最一 四川大学硕士学位论文 一7 般形式,并将其命名为e m 算法算法强调迭代的两个步骤,即e 步和m 步,并 且要求在e 步和m 步之问不断迭代直到收敛为止 设完全数据y 的密度函数为( y ;o ) 记臼“为第i + 1 次迭代开始时参数目 的估讣值,则第i + 1 次迭代的两步为: e 步,在给定不完全数据和前一次迭代所得到的参数估计的情况下,计算 完全数据对应的对数似然函数的条件期望: q ( 臼l 臼。) 兰e z 1 n f ( y ;o ) i o 。,z , ( 2 4 ) m 步,极大化对数似然函数以确定参数的值,并用于下步的迭代: q ( o “p “) = m ? xq ( 臼i 臼”) ( 2 5 ) 如此形成了一次迭代0 “1 斗0 ( i + 0 e m 算法要求将上述e 步和m 步进行迭 代直至渺”一目l 或者l 睁( 臼“p 。) 一q ( 口“1 p “) l 充分小时停止 值得注意的是,e m 算法绝非通过修正不完全数据来增加信息,所补入的 数据实际上是一种经过加工的估计值,这种估计是对原有数据所带来信息和 先验信息的充分利用 2 2 2e m 算法的- 陛质 e m 算法的主要目的是提供一个简单的迭代算法来计算m l e ,人们自然 会问,如此建立的e m 算法能否达到预期要求,就是说,由e m 算法得到的估 计序列0 “( f = l ,2 ) 是否收敛,如果收敛,其结果是否是f ( y ;o i z ) 的最大值 或局部最大值 下面给出两个定理,其证明参见文献 1 3 记( y ;o l z ) = l n f ( y ;o z ) 定理2 1e m 算法在每一次迭代后均提高( 观测) 后验密度函数值,即 厂( r ;0 “卅i z ) ( y ;口“i z )( 2 6 ) 注2 1 在许多实例计算中发现,l ( y ;o “1 l z ) 一l ( y ;o “i z ) 在迭代的最初 几步( 例如这5 ) 特别的大,尤其是在初始值远离收敛点的时候这一性质说明 e m 算法的迭代区域常常会很快地转移到似然函数的一个局部极值的领域但 是收敛到局部极值的速度还是非常慢的【”1 定理2 2 ( 1 ) 如果f ( y ;o l z ) 有上界,则l ( y ;o “l z ) 收敛到某个f ;( 2 ) 如果 9 ( 刮妒) 关于伊和妒都连续,则在关于l 的很一般的条件下,由e m 算法得到的 四川大学硕士学位论文8 估计序列0 “的收敛值0 是l 的稳定点 注2 2 定理的条件在大多数场合是满足的,定理的收敛性结论是针对后 验密度函数值给出的,而后验密度函数值序列的收敛性比估计序列本身的收 敛性更有意义【i 注2 3 在定理2 2 条件下,e m 算法的结果只能保证收敛到后验密度函数 的稳定点( 鞍点) ,并不能保证收敛到极大值点,事实上,任何一种算法部很难 保证其结果为极大值点如果选取充分分散的几个不同的初值进行迭代 这一问题是可以得到解决的在实际使用e m 算法的时候,也常常推荐取不同 初值这一做法,因为这样可以确定似然函数,或者更一般地确定一个后验密 度是否具有多个峰后者对于统计推断来说是非常重要的问题,因为当后验 密度多峰的时候,只从一个初值出发常常会导致错误的推断【l ” 简洁性、收敛的稳定性和直接检测多峰的可能性,使得e m 算法非常有吸 引力有关e m 算法的更多介绍可参见文献【6 ,1 4 ,1 6 ,1 9 2 3 计算机模拟方法与结果的评价 由于各种生存分布的随机删失实验样本不易获得,本文使用w e a t h e r f o r d 和p o l t 给出的方法产生随机删失样本,他们在文 1 1 中使用该方法模拟产生收 益管理系统中带有随机删失的航空需求数据其产生思路如下: ( 1 ) 对假想的某一批共i 个产品或生物,我们认为其寿命服从某一参数口 的给定分布,为此用计算机产生服从该分布的w 个随机数,记作 y = ( y l , y 2 ,_ ,) ; ( 2 ) 继续用计算机产生服从相同或相近分布的”个随机数,记作 r = ( 1 ,吩,) ,并且把r 看作是对】,的限制; ( 3 ) 我们观测到的删失数据为刁= y j i ( r y ,) + l ,( 1 0 ,y 0 定理3 2 如果观测数据z = ( 2 一,o ,z 玉,z :) 服从w e i b u l l 分布,则由 e m 算法得到的参数估计值满足方程: 尼喜z ;一t 喜z ;t n z ;+ 圭i = 1h z ; ( 善= ; = 。, c ,s , ,= 】,= 1 ,= l 而 则由以下表达式求得 ,c :_ 鼻( 3 9 ) z j 证明:由e m 算法,记、,为第i + 1 次迭代开始时参数的估计值,则 第i + 1 次迭代的两步为: e 步:q ( o i o ) = ”i n 2 + n l n y + ( y 1 ) e ( 1 n y ,i z ,名“,y “) 一兄e ( 杉b ,) ,( 3 1 0 ) 实际上方程组( 3 1 1 ) 的解就是第i + 1 次迭代得到的参数估训值进一步,由于 e ( 一j i z , ,名哆r 。y 7 y 肛le x p ( 一y ) a y y z j + y 二l _ f 一一爿。二暑,e x p ( 一爿”z ) 0 i | 甜z 巧 取 。同 。一可 兄 o 一 | l 0 ” 、, j , 办 埘k加岍 h 酞 。川。川 一 十 胛一一y = l j 阳一规一砂 四川大学硕士学位论文1 3 兰。e(iny,iz)-喜,舭,+妻,;, = ,以及第 i 步估计结果的条件下y ,的条件期望和条件二阶矩,即 。= e b 陟 z ,“) ,盯“) ,b 。= e ( y2 l y z ,“j ,一“1 ) 进一步对i = l ,2 以及,= k + 1 ,一, ,记 ,一中2 - - , t t 0 ) 一 通过一定的积分运算,由( 4 4 ) 容易得到 ( 4 7 ) 簪 刊坐厉 里型查堂堡主兰堡垒l 一二! ! _ 二 一一一一 :。叫f :,) ,= 0 ,叫卜,+ 一产叫! , 贝i i ( 45 1 式可阻相应地写为 ,” ( o + h 2 月一女) + f o1 州扩- - 璺+ l 孔叫,) r q - - ¥l ( i + 1 ) 2 1 ,l ( 1 + i ) 2 i 8 ( h 一女) 舻,2 + ,12 ) t - ,+ “) i o h + t 巾此,对服从对数正态分布的随机删失数据2 ,基t - e m 算法的参数估计 过程可以用下面的算法表示: 算法4 1 : ( 1 ) z := i n 三;初值化参数”,口;i = i :转( 2 ) ; f 2 1 对= t + 1 ,”,o h ( 4 7 1 计算f 由( 4 8 计算,f ”( r “,转( 3 ) ; ( 3 ) 如果1 ( t + 1 ) 一,j 并且1 盯”一盯1c 岛则丘= “、,( ! = 丁“,算 法终止:否则i = i + 1 ,转( 2 ) 值得注意的是,w o l y n e t z 在文献 1 2 中通过其他方法获得了在i 型( 定数) 或i i 型( 定时) 删失数据f 和仃估计的类似结果,本文使用e m 算法将这一结 果推广到更一般的随机删失情形 4 2 计算机模拟 我们只需对正态分布进行模拟,仍然采用2 3 中w e a t h e r f o r d 和p o l t 给 出的方法产生随机删失数据 下面是模拟产生的删失数据所占比例为1 0 的2 0 个服从( o ,1 ) 的随机 数,括号中的斜体数据是在相应位置的删失观测 。o 5 4 1 2 ,一13 3 3 5 ,1 0 7 2 7 ,o 7 1 2 1 ,一o 0 1 1 3 , o ( 0 0 8 0 ,2 4 9 4 ,0 3 9 6 6 ,一0 2 6 4 0 ,。1 6 6 4 0 , 一1 0 2 9 0 ,0 2 4 3 1 ( 一05 8 0 3 + ) ,! 2 5 6 6 ,一0 3 4 7 2 ,一0 9 4 1 4 ( 一4 0 9 5 , 一117 4 6 10 2 1 】,o 4 0 1 7 ,o 1 7 3 7 ,一o i 1 6 1 由y 使用极大似然方法得到的参数估计为( 卢。毋州,) = ( 0 4 5 8 9 ,0 6 8 4 7 ) ,l 丽 。d h 隐情 缸1。 四川大学硕士学位论文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论