已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 在许多学科领域,如医学、生物学、保险精算学、可靠性工程学、公共卫生学、经 济学以及人口统计学等领域,都存在对某给定事件发生的时间进行估计和预测的问题 从得到的数据资料来看,这些数据集往往有一共同特征,即其中的观测结果要么是删失 的,要么是截尾的,特别地当我们只知事件发生在某一给定的时间段内,而不知其确切的 时间点时,称之为区间删失数据 针对区间删失数据的特点、目前,主要集中于生存函数估计的研究,但对区间删失 数据的回归分析研究不多,可利用的工具也不多在本文中,总结了几种利用区间删 失数据的估计值作残差分析的方法,有中点法、g e l 法、建议残差法它们主要运用 了t u r n b u i l 在1 9 7 6 年提出的自相合估计的思想,比较合理,但也存在着一些不足 本文参考了郑祖康老师的生存分析,受其中c l a s sk 方法的启发,主要做了三 项工作:第一,对精确观测到的数据和区间删失数据作统一处理,令矿= 垂l f p ) 岛+ 垂。( “,”) 6 2 + 垂3 ( u ) ( 1 一d 。一如) ,其中( u ,v ) 为y 的随机区间删失变量,以= ,( 口su ) ,而= j ( u 口口) 按照e 旷= 勖原则,找到圣1 、圣2 、圣3 所需满足的条件,把符合这些条件 的_ + 归为类,即得到c l a s sx 方法;第二,证明c l a 8 8x 非空有意义,并从理论上证明可 以按方差最小原则从c i a s sx 中找到y 的一个最优估计,从而得到伪完全数据,进行残差 分析和回归参数的估计,并进步讨论估计的性质;第三,通过模拟来说明c l a s sx 方法 的可取性,同时与其它方法作了比较,从对比中,可以看出c l a s sx 方法在估计上效率更 高,不仅如此,还克服了其它方法在计算上烦琐等不足之处 关键词:| 塞:间删失,自相台估计,e m 算法,c l a s sk 方法,c l a s sx 方法,残差分析 a b s t r a c t i nm a n yb r a n c h e so fl e 甜n i i l g ,s u c ha sm e d i c i n e ,b i o l o g mi n s u r a n c e ,r e l i 曲i l i t ye n 萨 n e e r i n gp r o j e c ts c i e n c e ,p u b l i ch y g i e n e ,e c o n o m i c 8 ,d e l o f a p h i c 8e t c ,e ) 【i s tp r o b l e m so f e 8 t i m a t ea n df o r e c a s tt h et i r n eo fc e r t a i ne v e n t so c c u r f o i nt h eo b t a i n e dd a 七a t h e s e d a t ah a v eac o m m o nc h a r a c t e r i s t i ct h a tt h er e s u l t 80 fs l l r v e y i n ga r ee i t h e rc e n s o r e do r t r u n e a t e d ,e s p e c i a l l yc 8 l li ti n t e r 词一c e n s n r e dw h e nw eo n l yk n o wt h ee v e n th a p p e n si n c e r t a i n “m ea r e a a st ot h ec h a r a c t e r i s t i co fi n t e r v a 卜c e n s o r e dd a t a ,n o w a d a y st h er e s e a r c ho fi n t e r v a 卜 c e n s o r e dd a t am a j n l yf o c l 】sq nt h ee s t j j n a t j o no f8 u r v j v 出f u n c t j o nw i t ht h j sk j n dd a t a b yc o n t r a s t ,t h e r ea r e1 e s sr e s e a r c l lo nr e s i d u a la n m y s i sa n dr e g r e s s i o np 盯锄e t r i ce 8 t i m 加 t i o n ,t h e r e f o r ef e wm e t h o d sa r eo nh 8 n d i nt h i 8p a p e r ,w ec o n d u d es e v e r 以m e t h o d st o e s t i m a t et h ei n t e r v 出一c e 璐o r e dd a t aa n dd or e s i d u a la n 柚y 8 i s ,s u c ha 8m i d p o i n tr e 8 i d u a l s , g e i r e s i d u a l sa n dp r o p 0 8 e dr e s i d u a l s ,m a i n l yu 8 et h ei d e ao s e l f - c o n s i s t e c yw h 淌w a s s u g g 阳t e db y1 、l m b u ni n1 9 7 6 ,b u ta l io f 亡h e s em e t h o d sa r ec o m p 】i c a t ei nc o m p u t i n g a f t e rs t u d y i n gt h es u r v i v a la n a l ) r s i 8w r i t t e nb yz h e n gz u k a 血g ,8 u g g e s t e db y 廿l ei d e a o fc l a s 8km e t h o d i h a v em a i l yd o n et h r e et a 8 l c s :f i r 8 t ,d e a l1 ;i ,i t ht h ee x a c t i t u d eo b s e r v e d d a t aa n di n t e r v 甜一c e n s o r e dd a t a ,l e t 可+ = 西l ( 耵) 6 1 + 垂2 ( 让, ) 如+ 垂3 ( 口) ( 1 一以一如) ,w h e r e ( l l ,v ) i st h er a n d o mi n t e r v a l c e i l s o r e dv a r i 8 b l eo fy ,占1 = ,( ) ,如= ,( 钍 可剧) a c c o r d i n gt h er u l eo fe 扩= e 掣,f o u n dt h ec o n d i t i o i l sw h i c h 由1 、垂2 、垂3n e e ds a t i 8 鼽 p u tt h o s es a t i s f i e di no n e8 p e c i e s ,t h a ti sc l a s sxm e t h o d ;s e c o n d ,c l a s sx w a 8p r o 、,e d n o te m p t ya n dm e a n i g f u l ,a n df o u n dt h eb e s te 8 t i m a t i o no fyi 1 1c l a 8 8k a c c o r d i n g1 e 船t v a r i a n c er u l ef o r mt h e o r y ,g o tp s e u dd a t a ,b a s e do nt h i sd or e s i d u a l8 肌a l y s i s8 n dr e g r e s s i o n p 壮a m e t e re s t i m a t i o na n dd i s c u s st h ec h 缸a c t e r i s t i co fe s t i m a t i o n ;t h i r d ,b yi m i t 她i n gt o p r o v et h i sm e t h o da n dc o m p a r ew i t ho t h e rm e t h o d 8 ,f o u n dt h a tt h em e t h o dp r o p 0 8 e d i nt h i sp a p e rw 8 sm o r ee m c i e n to ne s t i m a t i n g ,a 1 1 do v e r c a m et h ed i 8 a d 、r a n t a g e so fo t h e r m e t h o d si nc o m p u t i n g k e y ,0 r d s :i n t e r v a l c e i l s o r e d ,s e 擤c o i l s i 8 t e n c ye 8 t i m a t e ,e m m e t h o d ,c l a s sk m e t h o d ,c l a s sxm e t h o d ,r e s i d u 出a 肌a l y s i s l l l 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成 果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰 写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中作了明确 说明并表示谢意。 作者签名:日期: 学位论文使用授权的说明 御6 - r w 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位论 文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学校论文 的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出版。保留的 学位论文在解密后适用本规定。 作者签名: 日期: 塑兰兰 6 、j - w 导师签名- j 拗笔,导师签名:j 型1 2 f 日期占型鳓 第一章绪论 第一章绪论 1 1 区间删失数据的定义 由于在获得生存数据的试验设计中,观测时间的局限,以及观测对象在进入或退出 试验时的个体差异等方面的原因,与我们所关注事件的发生时间相关的数据有着多种不 同的表现形式( 即类型) 由此导致了在分析这些数据的过程中,会产生一些特殊的问 题,根据观测对象进入或退出观察的时间的差别,生存分析经常遇到的数据有删失和截 尾两种类型, 有种很常见的删失类型,仪知道存活时间存在莱一区间内,称为区间删失 、对临床试验或纵向研究中的患者进行周期性的跟踪研究,且仪知道感兴趣事件的 发生时间位于某区间陋,r 】内( l 为左删失端点,r 为右删失端点) 时,产生区间删 失区间删失也存在于对设备是否正常工作进行周期性检查的工作试验中,有的动物肿 瘤试验也具备这一特征, 例1 :在n 啪i n g h 啪1 心脏研究中,通常记录了研究对象第一次患冠心病( c h d ) 的精神年龄,但是第一一次发生心绞痛的年龄则可能只知道是在两次临床检查之间,大约 相隔2 年( o d e u 等,1 9 9 2 ) 这样的观测即为区间删失观测 侧2 :在比较对早期乳癌患者采用放射性疗法及放射性与辅助性化疗相结合两种方 法的美容效果最初每4 个月6 个月检查一次,但随着患者逐渐康复,两次检查之间的 时问闸断加大研究事件是首次出现胸部形体恶化( 中度萎缩或严重萎缩) 研究者只 知道患崭胸部开始萎缩的时间在两次检查之间( 区间删失) 或在患者最近一次检查之 后( 右册0 失) 显然,在一项研究中,左删失、右删失和区间删失可以以任何组合形式出现当然, 区间删失是左删失、右删失概念的扩展因为,当区间删失的左端点为o ,右端点为c 时,即为友删失;当左端点为c ,右端点为无限大时,即为右删失 在这样的实际背景下,本文针对区间删失数据的特点,利用c l a s sk 方法,得到了估 计区间删失数据的c l a s sx 方法,并且作了具体的分析和讨论正文结构安排如下:第一 部分为绪论,简要引出区间删失数据的实际背景及已有的三种残差分析方法;第二部分 主要得到了g 】a s sx 方法,在此基础上给出了四个应用例子,并论证得到一类最优估计的 要求,在第二部分还讨论了在区间删失数据下,回归系数的渐近性质,得到了残差分析的 第四种方法:第三部分主要讨论四种在日未知下如何对区间删失数据作回归分析的方 法:第四部分为模拟,先通过模拟从例2 、例3 、例4 这三个不同的替换中选出最好的作 1 一 1 ,2 模型与分析 为进入下一个模拟的代表,再比较本文提出方法与其它方法的优劣;第五部分为结论,一 方面总结全文,另一方面给出了进一步探讨研究的方向 1 。2 模型与分析 设牛存时间是y ,观测时间是( u , ) ,心 ) ,观测结果是( 以,如,u , ) ,其中6 l = ,( y “) ,d 2 = ( “ y ) ,设y 的分布函数是f ( y ) ,( u ,口) 的联合分布函数是日,其 巾f ( ) 未知,日已知,考虑简单的线性回归: 1 2 1 中点残差法 歇= 口+ 卢以+ 矗i = l ,一,扎 r e b e k l ( at o p p 和g u a d 越u o eg 6 m e z 1 8 提到了中点残差法:对 = l ,n 定义响应 变量区问( u ;,饥】的中点为目。i d j = ( 地+ 吨) 2 ,设a 和p 是模型( 1 1 ) 中参数a ,卢的最小 二乘估计,则第i 个个体的中点残差就定义为: a 。“d ,= 3 h 。d ,一a b 一扁。z t = 1 ,n( 1 2 ) 如果模型假设正确,则州对d f 的残差图在原点附近里云雾状,搿鲕正i 与反= a 拈+ 廓。以应近似于一直线,虽然中点残差法,在计算方面比较简单,并且在删失 度较高,没有大量样本下,中点残差法有定的优势,但a 。斌;一般不能反映出模型误差 的正态分布性质,不管的分布如何,简单地取区间的中点作为g 的估计值,特别当区 间长度比较大,的真值落在靠近端点的情况下,用中点残差法,会有较大的偏差,实际 上,无论信息量多少,中点残差法都默认g 服从均匀分布,是一种常规的无信息处理法 1 2 2g e l 残差法 把g 6 m e ze t 甜【4 中协变量x 的区间删失推广到因变量y 的区间删失,在模型( 1 1 ) 中增 加的潜在分布w ,来估计参数o ,卢,口2 g e l 残差法是由g 6 m e z 、e s p i n d 和l a g a k o s 三 人提出的,为简便起见,称为g e l 残差法此法利用极大似然原理:根据已知信息得到似 然函数 l ( 彬a ,p ,。2 ) = ,( 阪血,卢,a 2 ) d ( t ) ( 1 3 ) t = l 。” 说明:这里采用极大似然法,故增加因变量y 的潜在分布w ,( 1 3 ) 中的t 为积分变量, 通过最大化( 1 3 ) 来求参数( d ,p ,口2 ) 的估计和因变量y 的分布函数w 的估计,主要运 2 第一章绪论 刚了丁“r n 她“的e m 条件算法:当w 固定时,根据估计等式得到( 乜,反矿) 的估计;当 ( n ,卢,矿) 固定时,对w 最大化似然方程 具体操作如下: e 步:固定w ,求偏导,使得粤兰:o ,罢警:o ,要尝:o ,从而解得口,崩。2 u “u uu 口一 m 步:剧定o ,p ,盯2 ,对w ( t ) 最大化似然方程( 1 3 ) , 重复上述两步,不断调整估计值,直至估计值收敛到预期的精度,最后 为( 彬,a ,声,毋) ,这样得到磁= ( y h ,咄) ,i = 1 ,n 我们可以发现中点残 差法实际上是g e l 残差法的一种特殊情况,即可的分布w 设定为均匀分布显然理论上 它比中点法要好,因为它利用了更多的现有信息,在实际操作上,计算比较繁,而且反复 运片j 迭代,对参数估计的性质也不容易分析 1 2 3 建议残差法 这是r e b e k k at o p p 和g u a d a i u o eg 6 m e z 【1 9 ) 提出的残差分析法,跟前两种方法的估计 思想是完全不同的,已知回归模型( 1 1 ) 中误差的分布,把口的删失区间范围转化到误 差的删失区间范围,设所求的残差的表达式如下:甾= 文毛+ ( 1 一盈琉,其中岛表示轨 在没有删失情况下的残差,氟表示仉在区间删失情况下的残差,第i 个个体的反映变量 在 啦,吡1 内,则昆= 扯一a p 在区间【a ,段1 中,其中a = 让;一a 一致,鼠= 仉一q 一廊;, 矗是i i d 且共同分布为( o ,口2 ) 所以有 g。c茁,=pcqzi矗rat,鼠,=嘲,让薹, 得到酬= 箍糕a 其中西是标准正态分布的分布函数,l p 是标准正态分布的密度函数 令魄= e ( 墨) 当诉为区间删失时,残差龟= 善蓦号耥占 这里矗,口,a 由。e m 算法得到建议残差法是直接从残差入手,但需要知道模型误 差的分布情况才能运用,有一定的局限性,而且在计算上也很繁琐,不容易得到n ,p ,。2 估计的些性质 一3 一 第二章讨论区间删失下的基本问题 52 1 区间删失数据的估计方法 2 1 1 c 1 a s sx 方法 在引出c l a s sx 方法前,先介绍1 下c l a 5 sk 方法 c 1 a s sk 方法最先是在处理截断数据中提出的 考虑线性模型玑= 口+ 卢+ 矗, = 1 ,n ,i i d ,正= 0 ,具有共同的连 续分布函数f ,截断随机变量t “, i d ,非负,具有共同的连续分布函数g ,而且与矗 独立,我们仅观察到互= m 溉,“;) ,磊= ,s 讹) 一个自然的想法是:当挑被截 断时,我们应对它作一些补偿;而当玑未被截断时,也要作一些调整,这就使得我们 用佻+ = 盈圣1 ( 磊) + ( 1 一瓯) 圣2 ( z i ) 代替执,再用最小二乘法估计出a ,芦,此处垂1 ,垂2 为 连续函数,且满足 ( a )【1 一g ) 1 西1 ( g ) + 口圣2 0 ) d g o ) = 口 ( b )圣l ,西2 与g 的分布函数f 无关,但可能依赖于g 函数对 1 ,圣2 ) 满足上述条件时,称它属于c l a s sk ,记为归。,中2 ) 足,可以验证: “1 ( 圣l ,垂2 ) k 时,e ( 旷) = e ( 口) ,而且k 非空,如当垂1 ( 。) = 丁;:而,圣2 ( z ) = o 时, ( 中l ,西2 ) 就满足条件( n ) ,( 吐 c l a s sk 的统计思想是很简单的,在截断数据中,我们得不到佻的确切值,只能观 察到截断随机变量讹,这部分信息是不能丢弃的,如何利用讹得到玑的估计,处理的 方法为:当虮被截断时,对它作一些补偿,而当非未被截断时,作一些调整,这样我们 以虮+ = 文中1 ( 五) + ( 1 一瓯) 吼( 五) 代替鼽,而垂1 ,垂2 的选取由e ( 圹) = e ( 可) 为原则来 确定 根据c 1 a s 8k 的思想方法,可以对区间删失数据作类似的处理 假设当矾su t 时,即在左删失端点之前,驰可以精确观测得到;当u i 饥时,矾也观测不到,这样对观测不到确切值的玑和观 测到的姚作综合考虑,找一个合理的肌。代玑,条件数学期望就不失为一种好的方法 设玑+ = 玑巧1 t + e j 札 甜) ( 1 6 1 i 一如t ) ,善e 中巧“= ,( 玑s “;) ,如= ( 。 聃饥) ,( “,地 为随机区问变量,独立同分布于联合分布函数日( “, ) = ,。九( s ,t ) d s 出,( 口) ,i = 1 ,n 边际密度函数h u = 口。o h ( u , ) 如,k = 仁。h ( u ,口) d u 4 一 第二章讨论区间删失下的基本问题 简便起见,不妨省略下标 : 所以有 = 渺( 蜘。也+ 嘞k 秽s 啪( “川删册+ 鼬眇m 舻d ” = e v 厂岫叭脚 ”) z + ”d f 如 = e 卵一蚰) ) d f 十脚 睁叩) z ”黜如 + h ”( 1 一f ( ”) ) r _ = = _ ;丽d f d ” f 七。f + f t n = 9 d f 一”日:( 口) d f + g 。d d f j 一j 一 j o 。j o o 十砘k 啪( u ,州即) 一脚) ) 删” = b nb 蚴叭d 酗d f + ( f ( 旷脚) ) m ,”) 丽柄d f 砒如 = 昏n 臣酗叭昏喇叭昏l 卜呐札幽 : l 厂佃d f 一厂”风( ) d f + 厂”,或( ) 羽+ 厂+ ”掣( 风( ) 一凰( ”) ) 护 j 一j o 。j 一 ,十 = lu d f = e g 其中 m ,州让扎= 厂讹,岫如 = ( 厂m 川咖一z 。忡舭 = 碱一小刚脚 一5 一 2l 区间删失数据的估计方法 进一步,若j 辩= 口2 ,则 其中 :眦) 一厂 ”m 批 j 一j 一 = 龇卜k 如 = 乙( ) 一王l ( ) 栉矾砒+ 酬“ 口 水瓶托= c 南( 泅2 碱 ”“ s 亡靠l :,d f f 呐 = 可2 d f 。d u j 一j = 簪2 ( 1 一日。( 暂) ) d f j 一 :厂“:一广f 。兄( 可舻 刚鲥m m 抛批= 揣( z ”删批 s i 揣。t 徊、t t d n 蛐 = m ,”) z ”批删” = e ”2 讹,州础扭 第二章讨论区间删失下的基本问题 2 上。! ,2 ( 风( 掣) 一风( 妙) ) d f ,十 这样 酬例炉姗曲= e 高( 厂舻m 胁 si 蠢f 4 徊r 汛。幽 :厂+ 。f + 凸。矿d f h 。a ” = ? :二帆嗡d f 凹( v 甲s ,:y 2 护一z ? s ,2 风( 鲈) 护+ z ? v 2 鼠( 可) 卯+ z ? 以凰( 计一凰( 枷护 = e 矿 也就是说:v n r ( 矿) y r ( ”) = 盯2 根据上面的分析,虽然矿比较理想,但由于f 未知,仍无法得到e ( 可i u u ) 结合c l a s sk 方法,现在我们要考虑的问题是在区间删失模型下是否有类似的结论, 当然区间删失数据比截断数据要复杂的多 【u ,地】为随机区间变量组,缸;s 地,当聃 陆对此,解决的思路为:当弘在【t l ,口0 中区间删失 时,我们给一个修正的值;当瓠在【0 ,u 或( 矾,+ o 。) 中时也作适当的调搀 设y 。= 垂1 ( 聃) 巧n + 垂2 ( u 。,叫) 6 2 i + 垂3 ( 地) ( 1 一万i f 一如,) 其l i 中l ,圣2 ,中3 满足 西1 ( 玑) ( 1 一日。( 玑) ) + 西2 ( ,) ( 地,仇) d u d + 劈 。( 仇) 垂3 扣) d 钟= 鼽 ( 2 1 ) “t 矾 垂。,圣2 ,圣3 可能与日( “,口) , ( 钍,f ) ,k ,有关,但与f 无关 ( 2 _ 2 ) 函数组( 圣1 ,西2 ,垂3 ) 满足上述条件时,我们称它属于c 1 a 8 8x ,记为( 圣1 ,圣2 ,圣3 ) x 容易看出,当渖1 ,圣2 ,圣3 ) x 时 一7 一 2 ,1 区间删失数据的估计方法 e 诉 = e 【j 1 i 中1 ( 玑) + 如垂2 ( u ;, ;) + ( 1 一占1 i 一以i ) 西3 ( 仇) 】 = 州删只( 跏。( 札洳“+ 划啪( 地) 如捌只( 挑) 叭茎u 0 ,在c 1 8 s sx 中选取垂1 ( 可) = 口, 嗽沪觜,酬= ”+ 掣 所以 f ,6 1 = 1 , 萨 锴, l ”+ 掣,南= 如= o 通过计算得到 醋= z “z 佃纸,+ z + 巡嗡告严f + 厂小+ 静删嘞, 2 1 区间删失数据的估计方法 = z “器删+ z ”禹删”妒 = w + 门捣比如+ 各吖阢, 例4 :对非区间删失数据的值和区间删失的值,作一些调整,若日有连续联合密 度 ( “, ) o ,边际密度 ” o ,k o ,在c l a s sx 中选取中1 ( 可) = 南风( 们, 啡扯揣,吲沪。所以 通过计算得到 以= 帮白l 羔。 骈:z ”厂高研枷卅z + 疆南f = 厂潞删+ z “捣d 砒扭 锄2 + 门禹抛+ 尚砷盹, 以上4 个例子进步说明,c l a s sx 非空有意义,当然我们希望在c 1 8 s sx 中找到一个 力差最小的g + 为了说明这一”+ 的存在,以定理的形式给出 定理2 ,1 口”( 矿) 2m 。蒜。1 。x p 甜( 们 其中可+ = 西l ( z ) j l + 圣2 ( :) 如+ 垂3 ( z ) ( 1 一d l 一如) 这里垂1 ( 2 ) = 垂2 ( z ) = 奶( 。) ,其中: 而z = _ 厂( u , ) 表示z 由u 和v 的函数确定 1 0 ” 坼v l n 可 可 u 、, 秽 ”嵋u , _l_-fl_l_i = z 第二章讨论区间删失下的基本问题 证明:所选取的垂l ,西2 ,垂3 在c l a s sx 中,因此旷是v 的某种无偏估计( f y = e 0 ) 这样我们只需要最小化二阶矩, a = e 陋l 圣l + 如西2 + ( 1 一d 1 一如) 西3 】。 = e 【垂;+ 壬;+ 中劲 = 嘞。砒卯+ 哆撕,恤捌f + 啪蝴 = i :圣2 ( 1 一巩t 朔a f + e 垂; ( u ,”,a u 如卵+ z :z 。k 咖d f 根据( 1 ) 可知:西l = ( 1 一风) 一1 ( 一圣2 ( ,口) ( “,口) 砒咖一片 。圣3 ( 口) 如) ”! ” 代入可得: a = e ( - 一时b 一啡m 州础一厶酬钟d f + c 嘞岫+ c z ”嘞删f = e | ( 1 _ 时b 一啦幽一小谢+ 嘞也幽+ 小叫d f p + = ( 1 一风) - 1 口d f 由于f 是任意的,最小化a 等价于最小化b b = b ( 圣。,垂a ) = b 一圣。 ( 缸,”) 如咖一z ”k 圣。( ) 如】2 u y s o + ( 1 一风) 圣弘砒咖+ ( 1 一风) z ”嵋如 u o ( 否则砖= o 对所有) f 的极大似然估计为: lo , p ( z ) : 。+ 岛+ l1 , i k q l , + 南,i f 功 z p 。 在。b ,功】处无定义,因此,描点时,p 包括一系列m + 1 垂直线,在高度上递增, 顺增加的方式是随机的,非零 s j ) 的方差和协方差由l 关于( s i 。s 2 ,一1 ) 的二阶 导数矩阵的逆给出,所以p ( z ) 的方差的估计可以计算 3 2 残差法 r e b e k k at o p p 和g u a d a i u o eg 6 m e z 1 8 l 研究了协变量x 为区间删失时的残差分析,在 本节,把这+ 方法推广到区间删失变量为因变量矿已知因变量玑是区间删失的,对 应的删失区间为 “。饥】,由矗= 玑一d p 筑,得到残差的区间【a ,鼠】,其中a = t “一一踟。,最= 一口一触。,记g 。( z ) 为模型误差在【a ,最1 条件下的条件分布,考 虑到和独立,且服从正态分布,故有: g “。) = p 忙t 曼引矗 a “取】) 2i 掣 f o , 其中圣是标准正态分布的分布函数 设m ( z ) 为模型误差在陋t ,最】条件下的条件密度函数,则有 z 鼠 fo ,z 鼠 硝习31 丽高,圳如埘 其中妒是标准正态分布的分布函数 由概率论定理,分布函数为g t ( 。) 的随机变量z 的期望值: 砥向弓r z 去e 一筚如 一丽渤a f 去e 芬d ( - 嘉)2 一砑曰万j 丽而”厶。而一”叭一j 口2 一1 9 3 3 基于删失区间数据估计联合分布圩 击e 一鬃一去e g :一查! :二查! : 垂( b 口) 一垂( a a ) = 箍耥a西( 且盯) 一中( a ,口) 。 定义因变量9 在【u “仉 区间删失时,个体的第i 个残差为: 色:! i 拿型二丛孥生子 垂( 旦疗) 一圣( a 占) 即我们用删失模型误差分布的均值代替观察不到的残差南值 p 鼢,西:= 珧一a 一触。通过计算得到每个个体的残差甾0 1 拟合值劣= 矗+ 声玩+ 茸 其中a = 一a n ) ,则第个个体的 53 3 基于删失区间数据估计联合分布h 在这里,主要把一维情况下的经验分布函数的方法【2 9 】推广到二维 定义3 ,l 设( q ,b ,垆) ”为重复抽样结构,对每个样本( i ,口1 ) ,( ,) ) 印 由f k ( 让,u ) = 三,( 啦s 让,地口) 所确定的( q ,b ) 上的分布称为联合经验分布,对每 + 个样本观察值来说,三k ( 钍,”) 是一个联合分布函数,称为联合经验分布函数,对每个固 定的( “, ) r 2 ,王k ( “, ) 是样本( u 1 , 1 ) ,( 。,u 。) 的一个函数,故上k ( u , ) 又是一 个随机变量 由于可把诸示性函数,( u i 批,仇 ) ,i = 1 ,礼看作是独立同分布,仅取。 或l 的随机变量,故有 e ( 嘶) = :喜眺“蝼”) ;:喜脚阳,呸”, = 日( 让,u ) 哳酬嘉娄u 渤雕蝴 = ;旧( u ,“) 】 1 一日( u ,”) 】 一2 0 第三章讨论h 未知下的区间删失问题 ( 三 o 总有p ( i 王k ( 札,u ) 一日( u , ) l e ) 一o 一o 。) 这表明,只要礼愈来愈大,样本的联合经验分布函数三k ( u ,口) 可以愈来愈接近总体 联合分布函数日( u , ) ,因此可以用王k ( “, ) 的可阶矩( 如样本均值,样本方差,样本相 关系数,样本协方差阵等) 研究统计结构( q ,b ,妒) “的某些特征 关于联合经验分布日。( n , ) ,还有更强的结论,即格里汶科定理 定理3 1 对任意给定的自然数他,设( 1 ,”1 ) ,( “。,) 是取自总体联合分布函 数日( “,u ) 的一个样本观察值,日;( “, ) 为某联合经验分布函数,记 d 。=s u pl 强。( ,口) 一日如, ) i 一( u 则有p ( 1 i mz ) n = o ) = 1 这个定理表明,在n 无限大时,对于所有的z 值,k ( u ,口) 与日( 拙,u ) 之差的绝对值 是敏地愈来愈小,这个事件发生的概率为1 当然估计h ( u ,v ) 的方法不止经验分布估计, 还有参数估计、半参数估计、贝叶斯估计等多种方法得到区间删失变量的联合分布函 数h ( u ,v ) 的估计后,就可以采用c i a s sx 方法作回归分析等 3 4 最大似然估计法 陈家鼎教授在生存分析与可靠性学术研讨会邀请报告中提到了最大似然估计法如 何得到随机向量序列( 札。q ) 的分布函数日( 牡,”) 是一个难题,我们也可以从f ( z ) 出 发去估计区问删失变量的值设生存变量是r ,观测时间是( , ) ,( u o f ( 巩) ) o :死= 如 = o 时,( 1 一f ( ) ) o ( 否则f n l ( f ) = 一。) 注意:d l t = 1 时,丑s 阢从而k 时 刻不必要观测;d “= 如= 0 时,五 k ,从而以时刻的观测对似然函数无影响,用表示 有用的观测时刻,只有厶中的点才可能对似然函数起作用设厶由( 1 ) ,t ( 。) ( 从小 到大) 组成,z = ( f ( 屯。) ) ,一,f ( o ( 。) ) ) ( f 是任一分布函数,f ( 0 ) = o ,垂( z ) = 一f 羁l ( f ) ) , 找z 使垂( z ) 在s 上达到最小 一2 l 一 记k ( 茁) = ( 。( ) + ( 。一。( 剐,v 曲( z ( 七) ) + ;( z z ( ) d k ( z 一口( ) 耻l 唠= 警 用凸弱算法找垂( ) 的最小值点z ( + ” 这方法中的收敛速度及r 的渐近分布都还没得到彻底解决 一2 2 第四章模拟 第四章模拟 首先我们通过模拟来分析第二章给出的例2 、例3 、例4 ,根据各个拟合的优劣程 度,在这三个不同的替换中选出最好的,作为进入下一个模拟的代表简单起见,区间删 失变量服从联合均匀分布h ,设h 为【0 ,5 】【o ,5 】上的联合均匀分布其中: 0 联合密度函数 危( ,口) = 轰 ( ( u , ) o ,5 】【o ,5 】且( u ) ) q 边际密度函数 。( “) = 轰( 5 一) ( ( “, ) 【o ,5 】【o ,5 且缸 u ) ) o 边际密度函数 k ( ) = 轰 ( ( u , ) 【o ,5 】【o ,5 】且( u 口) ) 。2 边际分布函数隔,( ) 一丧 ( ( ,口) o ,5 o ,5 】且( u ) ) _u 假设自变量茁服从某个分布,因变量分满足线性回归方程;虢= 1 + 2 + 岛其 白服从标准正态分布,这样玑为真实值,它在区间变量【”t ,仇】上可能区间删失,所以 1 jz 。表示最后我们得到的值,当然蔬因选择的替代方式不同而各异,我们的目标是选出 某种替代方式使得魏最能接近真实值轨,这里采用最小二乘距离原则 爰1 按例2 取值,即 z 2 按例3 取值,即 z :3 按例4 取值,即 一巨曼 z = 霄,羞。 据 z = l 羞。 模拟1 :自变量。服从均值为2 的指数分布,产生n 组随机区间删失数据 、( “一鼽) 。、( 4 ”一弘) z( 0 3 ) 一玑) 。 礼= 1 0 02 9 6 6 9 73 6 2 6 1 l5 7 5 7 4 3 n = 2 0 0 4 8 1 1 6 44 6 7 0 6 38 3 ,7 0 3 2 礼= 3 0 05 8 9 7 3 86 1 4 1 0 01 0 3 5 1 2 1 n = 4 0 07 1 0 8 6 56 3 7 1 0 01 1 9 5 9 9 5 札= 5 0 0 7 6 8 9 5 67 9 7 3 6 11 5 0 ,2 0 6 5 模拟2 :自变量卫服从参数为;和;的威布尔分布,产生凡组随机区间删失数据 ( n 一玑) :、( 妒一玑) 。、( 孔一龇) 。 凡= 1 0 03 1 3 7 3 13 2 5 6 7 06 2 0 8 2 4 n = 2 0 04 5 9 7 6 9 4 8 9 4 7 99 9 9 4 5 9 凡= 3 0 0 6 1 5 3 7 66 0 5 3 0 81 2 0 ,0 0 5 8 n = 4 0 0 6 9 2 7 1 27 0 0 0 8 71 4 0 7 5 5 8 亿= 5 0 08 l ,6 1 5 27 6 1 9 0 7 1 6 3 9 4 2 1 模拟3 :自变量z 服从均值为1 5 ,方差为l 的正态分布,产生n 组随机区间删失数 ( ”一鼽) 。( 0 甜一玑) 。、( i 3 ) 一挑) 。 n = 1 0 01 7 3 8 9 81 4 1 4 8 33 9 8 2 9 7 n = 2 0 02 4 2 2 7 8 2 1 4 0 5 55 9 5 0 5 8 礼= 3 0 03 0 9 4 3 l2 6 2 8 4 87 4 8 9 5 3 扎= 4 0 03 6 2 5 6 9 3 1 5 2 2 99 1 2 6 6 4 n = 5 0 04 0 1 2 3 83 6 5 0 8 39 5 3 9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年普通高中学校教育科研管理制度
- 查房神经外科脑出血微创治疗难点专项|手把手教学规避临床失分点
- 2026年二建法规安全生产责任划分真题题库(含答案及解析)
- 2026年哈密地区哈密市中小学编制教师招聘笔试参考题库及答案详解
- 2026年承德市双滦区中小学编制教师招聘考试备考题库及答案详解
- 2025年自贡市贡井区事业编单位人员招聘考试试题及答案详解
- 2026年蚌埠市蚌山区中小学编制教师招聘笔试参考题库及答案详解
- 2026年沧州市新华区中小学编制教师招聘笔试备考题库及答案详解
- 2026年江苏省南通市中小学编制教师招聘笔试参考题库及答案详解
- 2026年娄底市娄星区中小学编制教师招聘考试模拟试题及答案详解
- 《铁路技术管理规程》(普速铁路部分)
- 控制错装和漏装配件-副本
- 都兰县创盛矿业有限责任公司直沟铅锌矿矿山地质环境保护与土地复垦方案
- DB43-T 2891-2024 中医特色护理技术规范 灸法类
- 23秋国家开放大学《液压气动技术》形考任务1-3参考答案
- 标准化厂房施工进度计划
- 武钢体育中心初步设计说明
- 血液净化中心应急预案及处置流程
- 林业地形图使用基础
- 高压防护架搭设方案
- 钻镗专用机床液压系统设计
评论
0/150
提交评论