(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf_第1页
(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf_第2页
(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf_第3页
(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf_第4页
(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(概率论与数理统计专业论文)非参数bayesian中的右中立过程.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 在非参数b a y e s i a n 中,d i r i c h l e t 过程先验得到了十分广泛的应用,其 主要原因有以下三个: 1 先验比较容易细化,可以由它的参数确定,并且参数有合理的解 释; 2 它是一个共轭先验族,后验容易计算; 3 后验可以表示成先验预测与样本分布的混合,在应用中有好的解 释。 右中立过程作为d i r i c h l e t 过程的一种推广,它是否具有d i r i c h l e t 过程 的一些好的性质和合理解释呢? 如果没有,一些特殊的右中立过程是否具 有呢? 这是本文的出发点。 在第一章,简单地叙述了右中立过程的背景和发展状况。 在第二章,分别就一般的l e v y 过程和累积失效过程介绍了右中立过 程,给出了在可能右删失数据下的后验形式以及后验估计。此外,还给出 了右中立过程的一些基本性质,并对它的支撑问题展开了讨论。 在第三章,主要介绍了几类特殊的右中立过程,包括齐次右中立过 程、b e t a 过程和b e t a - s t a c y 过程,分别讨论了它们的先验细化、后验形 式以及后验估计,并着重讨论了它们的参数的解释问题。特别地,对于 b e t a 过程和b e t a - s t a c y 过程来说,它们的性质以及参数的解释完全可以和 d i r i c h l e t 过程媲美,它们本身也是两个共轭的先验类,具备了d i r i c h l e t 过 程的三条主要性质。最后证明了在考虑非参数b a y e s i a n 的时候,用b e t a 过 程和b e t a - s t a c y 过程作为先验是等价的。 在第四章,简单地介绍了空间右中立过程,它把右中立过程从实数轴 上推广到了一般的p o l i s h 空间上。 总之,右中立过程作为非参数先验类在处理右删失数据时是十分方便 的,用d i r i c h l e t 过程处理的问题,也总是可以考虑用右中立过程来处理。 西南交通大学硕士研究生学位论文第1 i 页 和d i r i c h l e t 过程一样,我们还可以去考虑它的后验相合性以及混合右中立 过程等问题。 关键词:非参数b a y e s i a n ;右中立过程;b e t a 过程;b e t a - s t a c y 过程;空间右 中立过程。 西南交通大学硕士研究生学位论文第1 i i 页 a b s t r a c t i nn o n p a r a m e t r i cb a y e s i a na n a l y s i s ,ac o m m o nc h o i c eo fp r i o ri sd i r i c h l e t p r o c e s s t h e r ea r es e v e r a lr e a s o n s : 1 t h e r ei saf a i rr e a s o n a b l ei n t e r p r e t a t i o no fp a r a m e t r i co fp r i o r ,a n d i t se a s yt os p e c i f yt h ep r i o rg u e s s ; 2 t h ep o s t e r i o ri sm a n a g e a b l ea n a l y t i c a l l y ; 3 t h e r ei saw e l li n t e r p r e t a t i o no fp o s t e r i o rw h i c hc a nb ee x p r e s s e da sa c o m b i n a t i o no fp r i o rg u e s sw i t hs a m p l ef u n c t i o n p r o c e s sn e u t r a lt ot h er i g h ti sag e n e r a t i o no fd i r i c h l e tp r o c e s s ,w h e t h e r i th a st h es a m ea n yp r o p e r t i e sa n di n t e r p r e t a t i o n sa sd i r i c h l e tp r o c e s s ? a n d w h e t h e rt h es p e c i a lp r o c e s s e sh a v e ? t h e r ea r et h eo u t p o i n t so ft h i st h e s i s i nc h a p t e ro n e ,t h eh i s t o r yb a c k g r o u n d sa n dr e c e n ts t u d yw e r ei n t r o - d u c e d i nc h a p t e rt w o ,w ei n t r o d u c e dp r o c e s sn e u t r a lt ot h er i g h tf r o ml e v y p r o c e s sa n dc u m u l a t i v eh a z a r dp r o c e s sr e s p e c t i v e l y , a n df o u n dt h eb a y e s e s t i m a t o r sf o rr e l a t i o nq u a n t i t yb a s e do np o s s i b l yr i g h tc e n s o r e d t h e nw e d i s c u s s e ds o m ep r o p e r t i e sa n dt h es u p p o r to ft h ep r o c e s sn e u t r a lt ot h er i g h t i nc h a p t e rt h r e e ,w ei n t r o d u c e ds e v e r a ls p e c i a lp r o c e s sn e u t r a lt ot h e r i g h t ,i n c l u d i n gh o m o g e n e o u sp r o c e s sn e u t r a lt ot h er i g h t ,b e t ap r o c e s sa n d b e t a - s t a c yp r o c e s sa n dd i s c u s s e dt h e i rp r i o rs p e c i f i e d ,b a y e se s t i m a t o r sa n d t h ei n t e r p r e t a t i o no ft h ep a r a m e t r i co ft h ep r i o r s p e c i a l l y , b e t ap r o c e s sa n d b e t a - s t a c yp r o c e s sh a v et h es a m ep r o p e r t i e sa st h ed i r i c h l e tp r o c e s s t h e n w ep r o v e dt h a t b e t ap r o c e s si se q u i v a l e n tt ob e t a - s t a c yp r o c e s sw h e nt h e y a r ea sp r i o r si nt h en o n p a r a m e t r i cb a y e s i a n i nc h a p t e rf o u r ,t h es p a t i a lp r o c e s sn e u t r a lt ot h er i g h tw a si n t r o d u c e d , i nf a c t ,i ti st h eg e n e r a t i o no fp r o c e s sn e u t r a lt ot h er i g h tf r o mt h er e a lt o t h eg e n e r a lp o l i s hs p a c e 西南交通大学硕士研究生学位论文第1 v 页 t os u m m a r i z e ,p r o c e s sn e u t r a lt ot h er i g h ti sa ne l e g a n tc l a s so fp r i o r s t h a tc a n ,i nt e r m so fm a t h e m a t i c a lt r a c t a b i l i t y ,c o n v e n i e n t l yh a n d l er i g h t c e n s o r e dd a t a a sw i t ht h ed i r i c h l e t ,m i x t u r e so fp r o c e s sn e u t r a lt ot h er i g h t a n dp o s t e r i o rc o n s i s t e n c yr e m a i n e dt ob ee x p l o r e d k e yw o r d s :n o n p a r a m e t r i cb a y e s i a n ;p r o c e s sn e u t r a lt ot h er i g h t ;s p a t i a l p r o c e s sn e u t r a lt ot h er i g h t ;b e t ap r o c e s s ;b e t a - s t a c yp r o c e s s 西南交通大学曲南父迥大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇 编本学位论文。 。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密呀,使用本授权书。 ( 请在以上方框内打4 ) 学位论文作者签名:呷复、延礼 日期:“g 、6 1 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工 作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由 本人承担。 本学位论文的主要创新点如下: 1 对右中立过程先验的支撑展开了讨论; 2 给出了b e t a 过程的一些性质,并说明 b e t a 过程和b e t a - s t a c y 过程先 验的实质是一致的。 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 二十世纪六十年代,非参数统计表现得相当活跃,并取得了较大成 果。与此同时,d a v i db l a c k w e l l 等人提出:如何进行非参数b a y e s i a n 分 析? 对于这个问题,f e r g u s o n 1 】在f r e e d m a n 2 和f a b i u s 3 可数样本空 间上近似b a y e s i a n 估计的基础上,提出了d i r i c h l e t 先验发展了非参数 b a y e s i a n 分析。对于这个先验,如果p 是可测空间影上的概率分布, b 1 ,鼠) 是彤的任意一个有限可测划分,那么( p ( b 1 ) ,p ( b k ) ) 服从d i r i c h l e t 分布,而且给定一组来自p 的独立样本托,p 的 后验分布仍然是d i r i c h l e t 过程( 基于相同的划分) 。对于非参数b a y e s i a n 分 析,f e r g u s o n 提出了两个基本要求: 1 ,在适当的拓扑下,先验分布的支撑要足够大: 对于d i r i c h l e t 过程先验来说,它的支撑是形上的所有离散概率分布 组成的集合( 以概率1 离散) ; 2 ,给定样本以后,后验分布要便于计算。 对于d i r i c h l e t 先验,后验分布是容易计算的,可表示成先验猜测与经 验分布的混合:并且在应用中有较合理的解释。 基于d i r i c h l e t 先验的这些优点,非参数b a y e s i a n 取得了较 快的发展。与此同时,许多b a y e s i a n 学者对d i r i c h l e t 过程进 行了大量研究,得出了它的一些优越性质、构造方式、 后验计算方法j 并讨论了其后验的相合性问题,详细可 见k o r w a ra n dh o u a n d e r 4 1 ,b l a c k w e l l 5 1 ,s e t h u r a m a n 6 1 ,b l a c k w e l la n d m a c r u e e n 7 ,f a b i u s 8 1 ,d i a c o n i s a n d f r e e d m a n 9 等文献。除此以 外,a n t o n i a k 1 0 1 还定义了d i r i c h l e t 过程的混合,并证明:给定样本以 后,其后验分布也是d i r i c h l e t 过程混合。 另外,d o k s u m 1 l 】将c o n n o ra n dm o s i m a n n 1 2 】关于成分向量的完全 中立性的概念扩展到实数轴r 上,定义了右中立过程( p r o c e s sn e u t r a l 西南交通大学硕士研究生学位论文第2 页 t ot h er i g h t ) ,并用它作为先验进行了非参数b a y e s i a n 分析。对于这个 先验,如果p 是r 上的概率分布,对于任意的划分 b l ,鼠) ( 其中 b i = ( 缸一1 ,t t 】,如r ,童= 1 ,k ,且t o = 一o o ,“= 0 0 ,当i 歹时, 有t i 岛) ,尸( 鼠) 与k 1 - i ( 1 一巧) 有相同的分布,其中,k 一,k = 1 是取值于 0 ,1 】相互独立的随机变量。这是右中立过程先验的构造性定义, 选择不同的独立随机变量序列将对应于不同的右中立过程。特别地,如 果一b e t a ( a i ,屈) ,i = 1 ,k 一1 ,且屈= e ,那么对应的右中立 过程正好是r 上的d i r i c h l e t 过程。也就是说,在实数轴r 上,右中立过 程是d i r i c h l e t 过程的一种推广。并且d o k s u m 证明了:如果p 是右中立过 程,那么给定一组样本以后,尸的后验分布仍然是右中立过程。这说明右 中立过程是一个共轭先验族,但是,一般来说,其后验的具体形式是很难 解析给出,在很大程度上制约了右中立过程的应用与发展。除了后验不易 计算以外,另一个受限制的因素就是它是定义在r 上的先验过程,能否将 它推广到一般的p o l i s h 空间( 完备可分的度量空间) 是另一大难题。 尽管d o k s u m 没有给出后验的具体表达形式,但是他给出了一个非常 重要的性质,把右中立过程和独立增量过程联系起来,即r 上任意的右中 立过程f ( t ) ( 相应的累积分布函数) 与缺上的一个l e v y 过程( 事实上这里没 有考虑平稳性( 也不需要平稳性) ,只是要求独立增量,为了和相关文献一 致,还是称之为l e v y 过程) z ( t ) 一一对应。 1 一f ( t ) = e - z ( ) 其中z ( t ) 是一个非降的右连续的独立增量过程,且 h mz ( t ) = 0a s ,l i mz ( t ) = - b o on 8 t 一t - - * - b 0 0 注意:这里我们也可以将右中立过程定义在r + = 【0 ,+ o o ) 上,则相应 的l e v y 过程有l i mz ( t ) = 0a s ,l i r az ( t ) = + o oa 8 t _ 0 十t o 十 如果f ( t ) 连续,则z ( t ) = 一l o g ( 1 一f ( 1 ) ) 正好是相应的累积失效函 数,因此右中立过程可以应用到生存分析中去。于是,从现在起,我们所 讨论的右中立过程都是定义在r + 上。d o k s u m 1 1 1 利用右中立过程的这种 表示,通过一个例子得出了后验估计( 在平方误差损失下) 。由于l e v y 过 西南交通大学硕士研究生学位论文第3 页 程已经比较成熟,因此右中立过程的后验分析都是从l e v y 过程入手的。 对于非降的右连续独立增量过程z ( t ) ,它有至多可数个固定的 不连续点,分别记为t 1 ,t 2 ,( 所有固定不连续点的集合记为m , 即m = 0 l ,t 2 ,) ) ,相应的不连续点处的跳跃s l ,岛,( 最= z ( 岛) 一z ( t i 一) ,i = 1 ,2 ,) 是相互独立的非负随机变量,它们相应的 密度分别记为五, 。,( 关于某个合适的测度) 。 记随机过程 y 0 ) = z ( t ) 一s ;j ( t j ,) ) = z ( t ) 一s j jt j t 则y ( t ) 是非降的独立增量过程,且没有固定不连续点。根据根据f e r g u s o n a n dk l a s s 1 3 1 的l e v y 表示,有: , l o ge e x p ( - o y ( t ) = 一o b ( t ) + ( e 一如一1 ) d l t ( s ) ,0 其中b ( t ) 是非降的连续函数,。l i r a b ( t ) = 0 ,它是y ( t ) 的非随机化部 分;l t ( ) 是连续的l e v y 测度,即vb 纺( r + 上的b o r e l 盯域) ,厶( j e 7 ) 关于t 非降、连续,vt r + ,厶( ) 是勿上的测度,使得 f o o口 上南d l t ( s ) z ( x z ) ,f 的后验分布仍然是右中立过程。 西南交通大学硕士研究生学位论文第4 页 在右中立过程的发展进程中,f e r g u s o n 给出了其具体的后验形式, 解决了计算的困难,而h j o r t 则正式把右中立过程应用到了生存分析 中。在生存分析中,失效率q ( t ) = 舞是一个非常基本的量,但是它 的b a y e s i a n 估计是很困难的( 其密度f 他) 未必存在具体表达式) ,于是 常考虑累积失效函数4 ( 亡) = 后a ( s ) d s 。事实上,当f 连续时,a ( t ) 与 z ( t ) = - l o g ( 1 一f ( 亡) ) 正好相同。但是如果f 没有密度,a ( t ) 将没有定 义。h j o r t 给出了更一般定义( 以后都是针对它来处理) a ( t ) :靼 此时,f ( t ) = 1 一n ( 1 一d a ( s ) ) 。这里n 表示乘积积分,且f 是由 i o ,t l【o ,日 a 唯一确定的,详细可见g i l l 1 6 】o 值得注意的是,当f 离散时,a ( t ) 与 z ( t ) 不再相同。类似于过程z ( t ) ,对f 的非参数b a y e s i a n 估计将围绕a ( t ) 来展开。 对于任意的累积分布函数,相应的累积失效函数a ( t ) 是r + 上的 非负,非降的右连续函数,它并不是一个l e v y 过程。如果假设增量 d a ( t ) ( q ( t ) ) 相互独立,就可以保证a ( t ) 是一个l e v y 过程。另一方 面,有这样一个结论:a ( t ) 是l e v y 过程当且仅当z ( t ) 是l e v y 过程。 因此,当累积失效函数a ( t ) 是一个l e v y 过程时,可以认为它相应的分 布函数f ( t ) 是一个右中立过程,从而将右中立过程先验引入到生存分 析中。由于失效率函数q ( t ) 取值于【0 ,1 】,所以a ( t ) 对应的l e v y 测度 集中在【0 ,1 1 上,即vt r + ,l t ( 1 ,o 。) = 0 ,更进一步,相应的跳跃 岛= a 岛) = a ( 岛) 一a ( t j - ) 将不会超过1 。从这里可以看出,a ( t ) 与z ( t ) 的主要差异就在于它们相应的l e v y 测度的支撑不同,z ( t ) 对应的l e v y 测 度的支撑可以是整个r + ,而a ( t ) 相应的支撑只能是【0 ,1 】,这是为了保证 a ( t ) 是相应的累积失效函数。 假设m = t 1 ,t 2 ,) 是a ( t ) 的固定不连续点集合,相应的跳跃s j = a 【如) 在【o ,1 】上有密度办( s ) 。那么,过程a c ( t ) = a ( t ) 岛没有固定 t j t 不连续点。为了处理方便,不妨设对应的非随机化部分b 兰0 ,则a 。( t ) 西南交通大学硕士研究生学位论文第5 页 的l e v y 表示为: ,1 e e x p - 0 a 。( 亡) ) = 唧 ( e 卅8 1 ) d l t ( s ) ,0 h j o r t 1 7 给出了累积失效函数的l e v y 测度的一般形式,即 1 厶( z ) ,f o ) 是连续的, d l t ( s ) :j 名口( s ;z ) d 日( z ) d s ,t 之0 ,s ( o ,1 ) ; 【0 , s 1 其中日是一个非降右连续函数,且h ( o ) = 0 :a ( s ,z ) 是一个非负、 关于( s ,z ) 连续的函数( 除非z m ) ,且詹s d l t8 ) 。o 。这里可以看 出,a ( t ) 可由m 、 ,厶, 、a ( 8 ,z ) 、h ( z ) 完全确定。h j o r t 针对这种 一般的l e v y 过程,给出了后验更新公式。此外,他还定义了一个丰富的先 验族一b e t a 过程,d a ( s ) 一b e t a ( c ( s ) d a o ( s ) ,c ( s ) ( 1 一d a 0 ( s ) ) ) 。相对于一 般情形来说,q ( s ,z ) = c ( 名) s _ 1 ( 1 - 8 ) 。( :) ,日= ,j c f ( s ) 为b e t a 分布的密 度。于是可以通过选择不同的l e v y 测度,得到不同的右中立过程。w a l k e r a n dm u l i e r s 1 8 1 给出了另一类右中立过程b e t a - s t a c y 过程,并给出了后验 分析。 至此,右中立过程的后验计算问题基本上解决了。对于第二个问题, 右c h , - y - r 在r 上有定义,j a m e s 1 9 2 0 2 1 】将右中立过程的定义给推广到了 任意的p o l i s h 空间影上,定义了空间右中立过程( s p a t i a ln e u t r a lt ot h e r i g h tp r o c e s s ) 。在进行后验分析时,处理方式和右中立基本一致。首先将 过程z ( 亡) 、a ( t ) 推广到空间r + 影上,不同于之前的是,利用p o i s s o n 随 机测度代替了l e v y 测度。类似地,有这样的结论:给定样本以后,p o i s s o n 随机测度的后验仍然是p o i s s o n 测度。于是可以得到相应的随机过程的后验 公式。 本文的出发点是:d i r i c h l e t 过程有许多优良的性质,而且在应用中有 较合理的解释,右中立过程作为它的推广,是否保留了它的一些性质? 是 否也有令人满意的解释? 如果没有,那么某些特殊的右中立过程是否具有 昵? 本文在第二章按照右中立过程的发展进程非常详细全面地介绍了右 西南交通大学硕士研究生学位论文第6 页 中立过程,并给出了他的几个基本性质:t a i l f r e e 性质、共轭性、与独立 增量过程的一一对应并讨论了它的支撑问题,最后给出了相应的后验估 计形式。在第三章,主要给出了几类特殊的右中立过程:齐次右中立过 程、b e t a 过程和b e t a - s t a c y 过程,并讨论了它们的性质,特别是它们的参 数的解释问题。其中b e t a 过程的性质和解释最为合理,和d i r i c h l e t 过程的 一些性质非常贴近。在第四章,介绍了空间右中立过程,这里并没有非常 详细的介绍,只是把它的主要思想和方法给了出来。 西南交通大学硕士研究生学位论文第7 页 第2 章右中立过程 右中立过程是一个非参数b a y e s i a n 先验类,最先由d o k s u m 1l 】提出。 关于中立性这个概念,是c o n n o ra n dm o s i m a n n 1 2 在处理成分向量时提出 来的,d o k s u m 将这一概念推广到了r 上的右中立过程,用它来作为非参 数先验,并证明了:如果先验是右中立过程,那么给定一组样本以后,后 验也是右中立过程。 2 1 右中立过程的定义与基本性质 由于右中立过程主要应用于生存分析,这里我们将它定义在r + 上。 记莎为r + 上所有分布函数组成的集合。对于任意的随机分布函数 f 莎,f ( o ) = 0 ,s ( t ) = 1 一f ( t ) 表示相应于f 的生存函数。为了方 便,相应的概率测度也用f 来表示,即f ( t ) = f ( ( o ,亡】) 定义2 1 1n u 莎上的先验n 被称为是右中立过程,如果在先验 下,vk z + ( 正整数集合) ,0 亡1 “,气乏+ , f ( t t ) 与 1 1 - i ( 1 一k ) 同分布,i = 1 ,k ,其中,k ,k l ,y k = 1 是取值 于【o ,1 】的独立随机变量。 注2 1 :这是其构造性定义,k 的不同选择将对应到不同的右中立过 程。特别地,如果k b e t a ( a t ,展) ,且履= ,那么相应的右中立 过程正好是r + 上的d i r i c h l e t 过程。 由定义2 1 1 , z f ( t t ) ;1 一兀( 1 一巧) j = 1 t l f ( 厶) 一f ( 岛一1 ) = k 兀( 1 巧) 西南交通大学硕士研究生学位论文第8 页 于是k = f ( h ) 一f ( 如一1 ) 1 一f ( t t 一1 ) 注意:这里的等式是指依分布相等,下同。 如果此时分母不为0 ,那么可以通过这个变形给出右中立过程的描述性 定义,有时用这个定义来处理问题显得更方便。 定义2 1 1 7 :矿上的先验被称为是右中立过程,如果在先 验下,vk z + ,0 t 1 t 七,t i r + , f ( 亡1 ) , f ( t 2 ) 一f ( h )f ( t k ) 一f ( t k 一1 ) 相互独立。 注2 2 :为了叙述方便,直接称随机分布函数f 为右中立过程。并规定 3 = l 。 下边给出右中立过程的一些基本性质,首先给出t a i l f r e e ( 自由尾) 的 定义。 定义2 1 2 p 一个随机分布函数f 关于( 8 ,o o ) ,8 r + 是t a i l f r e e , 如果对所有8 = t o t 1 t k ,t t r + ,存在独立于( f ( 亡) :t s ) 取值于【0 ,1 】的非负独立随机变量,k ,使得f ( h ) 与f ( s ) + 【1 一 f ( s ) l 1 一n ( 1 一k ) 】同分布,t = 1 ,k j - - - - 1 定理2 1 3随机分布函数f 是右中立过程当且仅当v8 r + ,f 关 于( 8 ,o o ) 都是t a i l f r e e 。 证明:充分性是显然的; 当8 = 0 时,f 关于( 0 ,o o ) 都是t a i l f r e e ,则f ( s ) = 0 ,由定义2 2 ,有 f ( h ) 与1 一兀( 1 一巧) 同分布,i = 1 ,k 由此得证。 j = l 必要性;因为f 是右中立过程,那么v8 r + ,存在某个正整数7 , 使得t ,= s ,对所有0 t l t r = s t ,+ 1 t l i c ,存在非负独立 的随机变量,k ,有f ( h ) = 1 一兀( 1 一巧) ,i = 1 ,k 。 j = l 显然,当i 7 时,诈+ 1 ,k 与f ( t ) 独立。 西南交通大学硕士研究生学位论文第9 页 当i = r + 1 ,k 时, t f ( h ) = 1 一兀( 1 一巧) j 2 1 = 1 一 兀( 1 一k ) 】【n ( 1 一k ) 】 j = r + l j = 1 = 1 一f ( s ) + f ( s ) 一【n ( 1 一v j ( 1 一f ( s ) ) j = r + l t = f ( s ) + 1 一f ( s ) 】 兀( 1 一巧) 】 j = r + l 于是,由定义2 1 2 ,得证。 注2 3 :该命题说明右中立过程是t a i l f r e e 。另一方面,d i r i c h l e t 过程在 一般的可测空间上都是t a i l f r e e ,而且它不依赖于划分。t a i l f r e e 的概念是 f a b i u s 3 1 定义的,d o k s u m 称之为f n e u t r a l 过程。 f e r g u s o n 要求非参数b a y e s i a n 的后验分析是可行的,d o k s u m 给出了 相应的结果,只是其后验描述相当繁杂。 定理2 1 4i 儿1 假设随机分布函数f 有右中立过程先验,那么给定一 组独立样本x 1 ,k ,后验也是右中立过程。 d o k s u m 给出的证明非常复杂,而且具体的后验形式也并不直观。后来 有人用右中立过程的描述性定义给出了一个比较简洁的证明。 定理2 1 5 【1 1 1 f ( t ) 是右中立随机分布函数当且仅当它与1 一 e x p 一z ( 亡) ) 同分布,其中z ( t ) 是一个非降、右连续的独立增量过程( l e v y 过程) ,a 驾z ( t ) = 0 ,1 i m z ( t ) = + 证明:充分性;f ( t ) = 1 一e x p 一z ( ) ) ,对所有0 t l 如, 令k = 1 一e x p - z ( t i ) 一z ( 岛一1 ) 】) ,i = 1 ,k ,由于z ( t ) 是独立增量过 程,所以k 相互独立。 f ( h ) = 1 一e x p - z ( h ) 】 = 1 一e x p - z ( h ) 一z ( h 一1 ) 】 e x p - z ( t i 一1 ) ) = 1 一( 1 一) e x p - z ( t i 一1 ) ) = l n ( 1 一巧) 西南交通大学硕士研究生学位论文第1 0 页 由此得证f ( t ) 是右中立的。 必要性;因为f ( f ) = 1 一e x p 一z ( t ) 】- ,则z ( t ) = 一l o g ( 1 一f ( 亡) ) 。由 于f ( t ) 是右中立过程,那么对所有0 t 1 z ,f 的后验仍然是右中立过程, 聃,= 捌篙: x 是来自f 的一个 其跳跃处的密度 ( i i ) 给定样本x z ,f 的后验是右中立过程,其跳跃处的密度 驰,= 群篆: 其中c 是正规化常数。 从这个定理可以看出,对于右删失数据来说,当z 是先验的固定不连 续点时,其跳跃的后验形式和其它跳跃点的后验形式没有差异。如果z 不 是先验的固定不连续点,那么它也不是后验的不连续点。从这里可以看 出,它较精确观测样本情形简单得多。 对于一般情形,假设观测数据有三种形式,其中有m 1 个是精 确观测,x 1 = z 1 ,1 = z 仇,有m 2 个“排除”删失,+ 1 z m l + 1 ,1 + m 2 z m l + 仇2 ,有m 3 个“包含删失,l + m 2 + 1 z 仇l + m 2 + 1 ,l + m 2 + m 3 x r n l + m 2 + m 3 ,且m l + m 2 + 仇32t i , 。假设 u l ,u 七是z l ,z n 中不同的数,且u 1 u 2 u 七。假设 6 1 ,以分别表示在u 1 ,u _ i c 处是确切观测的个数;入1 ,扎分别表示 在u 1 ,u 七处是排除”删失的个数;肛l ,纵分别表示在u l ,u 南处 是“包含”删失的个数。因此, kkk 民= 仇1 九= m 2 肌= m 3 i - - - 1i-1讧=l 为了后验表示的方便,先引入一些记号:一 k h j = ( 蠡+ 入+ 胁) 表示在z i 中,大于的个数; 西南交通大学硕士研究生学位论文第1 4 页 歹( t ) 表示在t f 中小于等于t 的个数: g 牡( s ) 表示z ( t ) 在”处的跳跃的先验分布: 矾( s ) 表示给定样本以后,z ( t ) 在钆处的跳跃的后验分布; 舰( 口) = e e - e z ( 。) 是z ( t ) 的矩母函数,m i - ( 口) = l i m 旭( 伊) 。 在平方误差损失( 加权平均损失) 下,f 的后验估计正好是后验均值。 由于e f ( t ) = 1 一e e 以( ) = 1 一舰( 1 ) ,因此要得到后验估计,只需给 出z ( t ) 的一阶矩即可,这里给出了一个更一般的结果,表示出了z ( t ) 的后 验的矩母函数。 定理2 2 4 p 驯假设f 是右中立的随机分布函数,五,k 是来自 f 的一组独立样本,其形式如上述描述,那么给定这些数据以后,f 的后 验仍然是右中立过程,且z ( t ) 的后验矩母函数为 唧酬= 等裂董 朋: + 一1 ) g 。( p + h i + 九,盈) 蚝( 一1 )q 。( h i + 入,5 i ) 兵中,如果u 是z ( t ) 的先验的固定不连续点, 瓯( q ,) = j ( o 。8 - a s ( 1 - - e - a ) 卢d 瓯( s ) ; 如果牡不是z ( t ) 的先验的固定不连续点, c 乙( 。r ,p ) = j e 一口8 1 一;5 卢一1 d 王乙s 箬三三: 为了让f 的后验估计更加简洁,再作一些记号: 脚) = 瓮铲; 嘶捌= 篙并 推论2 2 5 n 5 1 在定理2 2 4 的假设下,在平方误差损失下,f ( t ) 的后 验估计为 醐舭咖) - 1 圳邶口小1 圳酬堑 裂州h ij r 入i , 相应的生存函数s ( t ) 的后验估计e ( s ( t ) l d a t a ) = m t ( 1 l d a t a ) 。 西南交通大学硕士研究生学位论文第1 5 页 尽管后验估计的形式已经给出,但是具体计算还是有困难的,因为后 验的跳跃点的分布矾( s ) 仍然会面临前边的问题。 从绪论中知道,右中立过程可以很好的应用到生存分析中去。在生存 分析中,失效率q ( t ) = 蒜是_ 个非常基奄的量,但是它的b a y 唧估计 是很困难的( 其密度f m ) 未必存在具体表达式) ,于是常考虑累积失效函 数a ( 亡) = 后a ( s ) d s 。事实上,当f 连续时,a ( t ) 与z ( t ) = 一l o g ( 1 一f ( 亡) ) 正好相同。但是如果f 没有密度,a ( t ) 将没有定义。h j o r t l :7 给出了更一 般定义 伽l 器 此时,f ( t ) = 1 一兀 1 一d a ( s ) ) 。这里n 表示乘积积分,且f 是由 a 唯一确定的,详细可见g i u 1 6 】。值得注意的是,当f 离散时,a ( t ) 与 z ( t ) 不再相同。事实上,在生存分析中累计失效过程a ( t ) 比独立增量过程 z ( t ) 有更好的解释。类似于过程z ( 亡) ,下边对f 的b a y e s 估计将围绕a ( t ) 来展开。 对于任意的累积分布函数,相应的累积失效函数a ( t ) 是r + 上的非 负、非降的右连续函数,但不是一个l e v y 过程。如果假设增量d a ( t ) 相互独立,就可以保证a ( t ) 是一个l e v y 过程。另一方面,有这样一 个结论:a ( t ) 是l e v y 过程当且仅当z ( t ) 是l e v y 过程。事实上,如果 岛2a t j ) = a ( 巧) 一a ( t l - ) 表示过程a ( t ) 不连续点处的随机跳跃,取值 于 0 ,1 1 ,那么一l o g ( 1 一岛) 就是过程z ( t ) 相应的随机跳跃,因为 z ( t j ) 一z ( 勺一) = 一l o g 亡耥 = 一1 。g 1 一i r i 【, i t ,j o 。lj = 一l o g 1 一( a ( 岛) 一a ( t j - ) ) 】 因此,当累积失效函数a ( t ) 是一个l e v y 过程时,可以认为它相应的随 机分布函数f ( t ) 是一个右中立过程。由于失效率函数d a ( t ) 是取值于【0 ,1 】 的,所以a ( t ) 对应的l e v y 测度集中在【0 ,1 】上,即vt r + ,l t ( i ,) = 0 ,更进一步,相应的跳跃s 将不会超过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论