




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成 果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发表或 撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明 确说明并表示谢意。 作者签名:凌塾 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位 论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学位 论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出版。 保密的学位论文在解密后适用本规定。 导师签 日 摘要华东师范大学硕士论文1 摘要 在很多学科领域的研究中,如现代工业,农业,医学,经济学,保险 精算学,可靠性工程学以及生物科学等,我们为进行统计推断与假设检验 分析所获得的数据往往是不能被精确观测的。这些观测数据或者己知落在 某一个特定观测区间内,或者已知大于或小于某一个观测时间点,这样的 数据我们称为删失型或者截尾型数据。近几年来,删失型数据的研究逐渐 得到了统计学家们的重视,尤其是对区间删失型数据的研究,广泛的出现 在各个学科领域中。 在对区间删失型数据的研究中,回归模型的研究占据了很重要的组成 部分,统计学家们提出了丰富,有效的统计推断方法,并进行了广泛的深入 研究。但这些研究考虑的情形往往限制在因变量为区间删失型数据的基础 上,而对于自变量为删失型数据的情况所作的研究并不多。在此方面作出 较大贡献的当数g u a d a l u p eg 6 m e z ,这从他已发表的一些研究成果中可以看 出。然而,虽然对解释变量为区间删失型数据的回归模型的研究并不多, 这种研究却是必要的,也是迫切的。 本文即立足在g u a d a l u p eg 6 m e z 已作出的理论成果上,进行更深入的讨 论。在g u a d a l u p eg 6 m e z 的论文中,主要讨论了自变量的观测值为区间删失 型数据,而因变量观测值为精确观测值情况下的参数估计问题。本文将继 续讨论自变量为删失型数据的简单线性回归模型,但是这里将因变量的数 据类型进行了扩展,假定因变量的观测数据是右删失的,在此基础上建立 模型,进行参数估计。并对文中的估计算法进行模拟验证。 关键词:区间删失型数据,回归模型,自相合算法,极大似然估 计,b u c l 【l e y - j 锄e s 估计,拟合优度检验 华东师范大学硕士论文2 a b s t r ,a c t i nm a n ya r e 鹤0 fs t u d y s u c h 嬲t h em o d 锄i n d u s t 观a g r i c u l t u r e ,m e d i c i n e , e c o n o m i c s ,a u c t u 撕a ls c i e n c e ,b i o l o 西c a ls c i e n c e 缸dr e l i a b i l i t y 明g i i l e e r i n g ,t h e d a t af b rs t a l t i s t i c 越i n f b r e n c e 眦df o rn 屺c o n d u c t0 fl 卵o t h e s i st e 8 t i n ga n da n 出 y 8 i s ,o f t e nc 缸n o tb eo b s e r v e da c c u r a t e l y t h 嚣eo b s e r v a t i o nd a t ah 蠲b e e n k n o w ne i t h e rf 砒1 8i nac e r t a i ni n t e l v a l ,o rk n o w nt o ,b el a r g e ro rs m a l l e rt h 蛐 ac e r t 洳o b r 、馈t i o nt 血ep o i n t ,w ec a nt h 鹤ed a 七ac e 璐o r e do rt r i m c a t e d i n r e c e n ty e a 培,t h er e s e 甜c ho ft h ec e n s o r e dd a t ai 8p a i d 口e a ta t t e n t i o nb ys t a t i s t i c i a 璐,箦p e c i a u yt h er e 跆a r c ho nt h ei n t e r v 反1 c 明s o r e dd a t a ,i sa p p e 甜i n gi nm 锄y a 舱ao fs t u d yw i d e i y i nt h es t u d yo fi n t e r v 翟d - c e 璐o r e dd a t a ,t h es t u d yo fr e g r e s s i o nm o d e lt a 玉。胬 v e 巧i m p o r t a n tp a r t t h es t a t i s t i c i a i l sm a k ev a d e d ,e 珏t i v em e t h o d s0 fs t a t i s t i c 缸i n f e r e n c e8 t u d yd e e p l y 踟1 dw i d e l y h o w e v l 玎,t h e s es t u d i e s 踟- eo f c e nb a s e d0 n t h ea s s u m p t i o nt h a tt h ed e p e n d e n tv a - r i a b l ei si n t e r v a 1 ( i e n 8 0 r e dd a t a ,w h i l et h e i n d e p e n d e i l tv u i a b l ei so b s e r 姐a c c ? a t e l y t h ec o n d i t i o 瑚t h a tw h e nt h ei n d 争 p e n d e n tv a r i a b l ei sc e 璐o r e di sn o t8 t u d i e d 皿【uc :hb yo u rs t a t i s t i c i 8 n s g u a d “u p e g 6 m e zm a d eg ,e a tc o n t r i b u t i o 璐t ot h i sa r e a ,w h e r eh eh a sp u b l i 8 h e dan l l n l - b e ro fr e a r c hr e s u l t s a l t h o u g ht h er e s e a r c ho nt h e 唧l a n a t o r y 丽a b l ef o r i n t e r v 小c e n s o r e dd a t ar e 斟e 鹃i o nm o d e li sn o ti n u c h ,s u c has t u d yi sn e c e 鹃a 珂 a n du r g e n t 髓j sp 印e ri 8b 鹪e d0 ng u a d a l u p eg 6 m e z st h e o r e t i c a lr e s u l t sa n dt r y i n gt o m a k ed e e p e rd 矗沁u 蹈i o n i ng u a d a l u p eg 6 m e z sp a p e r s ,h eh a dm a i n l ye o n c e n - t r a t e do nt h ec o n d i t i o nt h a tt h ei n d e p e n d e n tv 甜i a b l ew 鹪i n t e r v a i - c e n s o r e d ,a n d t h ed 印e n d e n tv a r i a b l e 嗍o b s e r v e dp r e c i s e l y i nt h i sp a p e r ,i 奶1 lc o n t i i l u et o d i 8 c u s sw h e nt h ei i l d e p e n d e n t 血a b l e s 躯ec e n s o r e df o ra8 i m p l en n e a rr e g r e 船i o n m o d e l ,b u te x p e n dt h ed a t at y p e0 ft h ed e p e n d e n ta n di n d e p e n d e n t 谢a b h , a n a l y z et h es i t u a t i o nw h e nt h ed e p e n d e n t 、w i a b l ei sr i 醢tc e n s o r e d ,t h e nd ot h e s i m u l a t i o nt e s tt ov e r i 移t h em o d e l k e y w o r d s :i n t e n ,a l lc e 璐o r e dd a t a ,r e 铲e s s i o ni n o d e l ,s e l f 二c 0 璐i s t e n c y a l g o r i t h m ,m a 菇m u ml i k e l i h o o de s t i m a t e ,b u c h e y - j a m e s e s t i m a t e ,g o o d n e 鹪0 f 丑t , 第一章绪论华东师范大学硕士论文3 第一章绪论 1 1区间删失型数据研究的背景与现状 近年来,随着科学技术的不断发展与统计学科学的广泛应用,对删失型数据 ( c e n s o r 甜d a t a ) 的研究也得到了迅速的发展。 在很多科学研究领域中,由于受客观条件的限制,人们往往得不到精确的观测数 据,如可靠性工程学中对于组件寿命的研究,临床医学中对于器官与人的寿命的研 究,等等,只能够判断真实的寿命数据出现在某一个特定的时间范围之内。此时,我 们就得到了删失数据。删失数据的研究有着广泛的实际应用背景,并慢慢成为统计学 一项重要而且迫切的议题。 出现删失数据的主要原因无非在于两种:观测时问的局限,以及进入试验中个体 自身的差异。当对临床试验或纵向研究中的患者进行周期性的跟踪研究,这时只知道 感兴趣事件的发生时间位于某一区间陋,捌内( l 为左删失端点,冗为右删失端点) ,就 产生了区间删失数据。当知道发生时间位于区间啤,+ ) 时,则产生了右删失数据。类似 地,发生时间位于区间( 0 ,纠时则产生了左删失数据。 例如,在对于艾滋病的临床医学研究中,我们想了解h i v 感染的具体时间,这些观 测数据在一般情况下是不会被精确观测到的,我们能够观测到的只是,感染时问具体 落在哪两次具体的临床检查之间,或者是在第一次检查之前就已经感染了h i v ,或者是 在最后一次临床检测之后仍然没有被h i v 感染。这三种不同的数据类型就分别代表了 三种不同的删失类型:区间删失型数据( i n t e r v a jc e n s o r e dd a t a ) ,左删失型数据( l e 能 c e n s o r e dd a t a ) 以及右删失型数据( 磁g h tc e l l s o d e dd a t a ) 。 事实上区间删失数据是左删失与右删失数据的扩展。当区间删失数据的左端点 为0 ,右端点为刷对,即为在冗处删失的左删失数据;当左端点为厶右端点为无限大 时,即为在工处删失的右删失数据。 当随机变量为区问删失数据时,人们比较关注的问题主要集中在两个方面:一是 如何通过这些区间删失数据去分析该随机变量的一些统计特征,如均值,方差及分布 函数等;另一方面则是在于如何通过这些区问删失数据去分析该变量与其它量之间的 关系,如相关性分析,回归分析等等。本文则将主要考虑第二个方而的问题,即区间 删失型数据在回归模型中的应用研究。 在现代统计学的发展中,对于因变量为区间删失型数据的线性回归模型的研究, 统计学家提出了丰富,有效的统计推断方法,并进行了广泛深入的研究。但是,对于自变 量为区间删失数据的回归模型所作的研究却并不多。对于自变量为区间删失,而因变 量也同为删失数据的研究就少之又少了。然而,这些数据删失情况在实际应用中却有 着广泛的应用背景。所以对于这种类型的数据建立各种统计模型进行分析,以研究删 失变量之问的关系就很有必要了。 区间删失数据常出现的临床试验研究之中,而伴随着现代医学的进步与发展,临 第一章绪论华东师范大学硕士论文4 床试验数据可能出现的类型也将更纷繁复杂。尤其是在艾滋病的临床实验研究中,有 时需要对于一种治疗方法作出有效性及安全性的评估。这时,我们可以建立以艾滋病 潜伏时间( 通常观测值是区间删失型数据) 为自变量,以判断疗效水平的某项生命体 征为响应变量的回归模型。这时的模型即为自变量为区间删失型数据的线性回归模 型。 1 2 本文的目的与结构 对于自变量为删失型数据的回归模型的研究中,作出较大贡献的当数g u a d 甜u p e g 6 m 眩,他发表了很多相关的学术著作,并提出了很多具有建设性意义的方法和算法 来讨论区间删失型变量与其他变量之间的联系。同时,s t 印h e nw l a g a k 0 8 ,a l l n ae 8 - p i n a l 等人也进行了一些相关的研究。但是他们的研究范围往往限制在只有自变量的观 测值为区间删失数据,因变量观测值为可以精确观测情形的回归模型。并且,往往是 借助于计算机软件来对极大似然方程求解的方法来获得参数的估计,所提出的算法并 不多。并且,对于自变量,因变量同时删失情况的讨论则少之又少。 2 0 0 3 年,g u a d a l u p eg 6 m e z 【7 】在他的论文中提出了一种借助于n r n b u n 自相合算法 的迭代算法来对自变量观测值为区间删失数据的回归模型中的参数进行估计,这种算 法跟其他算法相比,具有收敛速度快,统计意义明显,易于用统计软件进行实施等特 点。 本文的讨论旨在g u a d 越u p eg 6 m e z 所提出算法的基础上,对因变量的数据类型进行 进一步扩展,主要讨论了自变量为区间删失情形,而因变量为右删失情形的回归模型 参数估计问题。 本文同样借助了t u r n b u l l 自相合算法,对自变量为区间删失变量的简单回归模型按 因变量的不同类型,可精确观察的因变量和右删失型的凶变量分别进行了讨论。 本文共分为四章。 第二章,主要介绍了g u a d a l u p eg 6 m e z 提出的算法,即自变量为区问删失型数据 而因变量为可以精确观测数据的回归模型。全章共分为六个小节,先对于本文的基 础t u r n b u u 自相合算法进行了简单的介绍。然后分别就在该删失情况下,模型的建立, 参数估计以及算法步骤等方面进行了讨论。 第三章,则讨论了自变量为区间删失型数据而因变量为右删失型数据的回归 模型。全章共分为6 个小节,在模型的背景之下,建立简单的线性回归模型,通 过n m b u l l 自相合估计来对自变量边际分布列进行估计再通过b u e k l e y j a m e s 估计,来 建立对于回归参数的估计,从而构造两步的迭代算法步骤。再通过统计分析软件s a s 来 对估计量进行模拟论证,并对模型进行拟合检验。 第三章中讨论的因变量数据类型实际上是第二章因变量数据类型的一个扩展。反 过来说,第二章为第三章所讨论问题的特例。 第四章,对全文的讨论进行总结,并提出未讨论的,但值得进一步讨论的问题。 第一章绪论华东师范大学硕士论文5 本文的所有讨论都是基于自变量为离散型变量的,对于自变量为连续型的变量没 有讨论,虽然基于的假设条件具有合理性,但连续型自变量情形还是值得继续讨论 的。 所以,本文的主要贡献在于,对于g u a d a l u p eg 6 m e z 所提出的算法进行了进一步的 推广。基于此算法,对于自变量与因变量同时删失的简单线性回归模型的参数估计, 拟合检验等问题进行了讨论。 第二章因变量为精确观测值情形的讨论华东师范大学硕士论文6 第二章因变量为精确观测值情形的讨论 在开始对模型进行讨论之前,我们先来介绍一下该模型的一个实际应用背景。 a i d s 临床试验组织( a c t g ) 3 5 9 研究是一个最早用来评估先前进行蛋白酶抑制剂印 地那韦治疗失败的h 感染病人用抗逆转录药物联合治疗效果的试验之一。印地那韦失 败被定义为在进行印地那韦治疗的过程中,病毒浓度在经过初始的降低过程之后又出 现了反弹。假定我们用协变量z 来定义患者从印地那韦失败到开始进行抗逆转录药物联 合治疗的时间。要进行研究的问题是z 与年龄x 及y ( l o g 以1 0 为底的以开始进行抗逆 转录药物联合治疗时病毒的浓度) 的关系。这里z 之所以另人感兴趣是因为在那些开始 进行抗逆转录药物联合治疗的患者中,很早就经历了印地那韦失败的那些人跟刚刚经 历失败的那些人可能会发生显着性的不同。由于印地那韦失败的观察时间是区间删失 的,而抗逆转录药物联合治疗开始的时间又是被精确观察的,所以这里z 是区间删失型 变量。 对于这一类问题的研究,比较简单的处理方法是利用a dh o c 方法,例如取区间删 失数据的中点值或者是端点值来代替区间删失数据,然后再应用一般情况下的最小二 乘估计进行统计分析。但是这种方法在通常情况下是不可靠的,而且会出现很大的偏 差。所以本文这里先介绍一下g u a d a l l l p eg 6 m e z 等人【7 】提出的一种算法,这种算法利 用了极大似然方法和两步的条件算法来同时得到对回归系数和自变量边际分布函数的 估计。 2 1t u r i l b u u 自相合算法 在开始介绍模型之前,有必要先对n r n b u u 自相合算法作以介绍。这是本文讨论的 基础;1 9 7 6 年,t l l m b u l lb w 【1 7 】提出了当变量的观测值为删失型数据时,对于其经验 分布函数的进行估计的算法,也就是自相合算法。这个算法基于了极大似然性与自相 合性是等价的。通过自相合算法得到的估计,即是我们所需要的极大似然估计。由于 该算法便于实施,在直观上也比较容易理解,所以在处理删失数据,尤其是区间删失 数据时,多被人们采用。 下面,我们看一个特殊的例子,以观察该自相合算法是如何运作的。 定义随机变量为x ,我们有一组x 的观测数据( 托。,h ) ,i 一1 ,n ,x 的支撑 为( z l ,z 仇) 。从数据上来看,我们知道x 是区间删失的。 特殊的情形是,当托。= 一o 。时,表明x 在处被左删失:当地= + o o 时,表 明x 在拖。处被右删失;当拖。= 是则表明x 是被精确观测的。 定义指示变量q 玎= j 【托。,】) 。 这里,啦f = 1 时,表示第i 条记录的观测区间包含z ,;啦f = 0 时,表示第z 条记录 的观测区间不包含z 。 第二章因变量为精确观测值情形的讨论华东师范大学硕士论如 这时,对于的自相合方程为: n 嘶= 詈盟 其中哟= p ( x = 巧) ,j = 1 ,m 。 该等式左边的意义是n 条观测记录中实际观测值取o 的期望条数。右边的意义是在 实际观测值的条件下,竹条观测记录中实际观测值取的期望条数。即 佗p ( x = ) = p ( 五= l 拖。,拖) 为得到的分布列嘶= p ( x = 吻) 的估计,我们就采用了,i 、蛐b u u 迭代算法。 该算法步骤主要有三步构成: a 定义迭代过程的初始值为t ,( o ) :( 叫 ,嘏) 。 b 利用自相合方程得到叫的改进估计值 掣= 熹砉矗,川,m c 循环迭代b 步,直至w 的估计稳定下来为止。 2 2模型表示 令y 为连续型的因变量,z 为离散型的自变量。z 与y 具有线性关系。 建立简单线性回归模型:y = a + p z + e 。 这里是服从( o ,矿2 ) 的连续型随机变量,与z 独立,伊= ( 口,p ,矿2 ) 是未知参数向 量。 记给定z = 名时,】厂的条件分布密度函数为,( 秒i z ;p ) ,并且记z 的累计分布函数 为彤( 名) 。 我们观察到的每一条记录都具有形式( y ;玩,) ,其中玩与z r 为随机变量且使 得p ( z 【玩,z 翻) = 1 。这样,因变量y 即为精确观察到的,而自变量z 则是区 间删失的,具有形式【玩,】。记礼条) ! ! l l 测记录为 慨,钇;,讯) ,i = 1 ,扎) ,z 的支撑 为s = ,歹= l ,m ) 。 则得到似然函数为: n l ( 伽,口) = n 厶( 叫,p ) 扛= 1 = 五( 执,钇;,弛;p ) = l nm = ,( 犰i s j ;口) 嘶 第二章因变量为精确观测值情形的讨论 华东师范大学硕士论文8 这里= ( 伽l ,t ) ,吻= p ( z = 勺) 且= j 勺阮。,讯】) 2 3 参数估计 我们这里的统计目标是在z 的分布埘未知的条件下来估计参数口。 这个时候,我们希望同时令极大似然函数l ( 叫,p ) 中的叫和p 极大化,从而来得到p 的 极大似然估计。 这里,所用的算法是一个类似于e m 的条件算法,在a 步与b 步之间进行迭代, 直至估计值趋于稳定为止。这时,我们就得到了极大似然估计。a 步为固定口时,关 于叫极大化;b 步则为固定时,关于p 极大化。 记极大似然估计为( 西,蚕) 。则西即为被估计的z 的分布函数。我们可以注意到,极 大似然函数中一共有( m 1 ) + 3 个位置参数。 下面来讨论一下具体的估计过程。 a 步:在p 已知的条件下对于伽的非参数估计。 当p 为已知时,这时似然函数可被记作厶l ( 叫) ,以用来强调我们是通过求伽的估计 来使得似然函数最大化。这时在给定z = s f 的条件下,y 的条件分布密度函数可以表示 为: , 地k 吲2 舻) _ l 归唧愕( 勺一字) 2l 在这一步中,我们的目标即最火化似然函数 训伽,= 垂薹q 巧c 2 舻) - 1 胆唧 一磊( 一宇) 2 吻 这里( 口,p ,盯2 ) 均为已知的。 下面借助n m b u l l 曾经提出的一个自相合算法来求叫的估计值从而使得似然函数极 大化。 对于t = 1 ,钆,歹= l ,m ,令岛= , 磊= ) ,则在给定观测数据的条件 下,岛的条件期望为 ( t t ,护) = e ( 岛l m = 鼽,名厶,弛) = p ( z := s j i m = 犰,z 厶,z r ) :塑幽兰塑丝 m 啦知,( 犰i s 知;p ) 叫七 缸= l 如果我们将该式看作是观测到的,而并非是期望频率,则所有观测记录对应的自 变量值为的比例为 咖= 掣 第二章因变量为精确观测值情形的讨论 华东师范大学硕士论文9 这个时候我们就得到了在口已知条件下的自相合方程: 嘶= 勺m ,口) , j = 1 ,m 注意到此时有关系式e ( 乃( 叫,p ) ) = 哟成立,但是勺,p ) 并不是嘶的估计量,因 为它依赖于某些未知量。 自相合方程的解而即是给定p 下的叫的非参数极大似然估计。 但如果要证明西是极大似然估计还需要一个前提条件,即在任何的情况下都 有吗( 加) o 。其中略) 是1 0 9 似然函数的方向微分。详细的证明可参见【7 】a p p e n d i ) 【a 。 b 步:在彬已知的条件下对于p 的参数估计。 现在来考虑当硼固定时关于口来极大化似然函数。同样的道理,此时可将似然函数 记为如( p ) 。 则 l 2 ( p ) = q 嵇,( 犰l 彤;口) i = lj = l 我们通过对似然方程求导的方法来得到极大似然估计。 令 掣:o a a 。 掣:o a 口 。 掣;o a 盯2 。 这时,该方程组可以改写为: ( 玑一q ) = p e t ( 伽,p ) t = l i = l ( 玑一q ) e t ( 伽,口) = p ( ( 伽,p ) + 谚( 叫,p ) ) m 2 2 善南萎邓劝2 州 其中 e = e l ( 叫,9 ) = e ( z i y = 玑,钇。,名风) 谚= 谚( 伽,口) = e ( ( z e i ) 2i y = 犰,乱;,名冗) 通过计算得到口的极大似然估计为: p = 乏鬻南 a = 雪一百 n 毋= :,慨一a ) 2 一p 2 :。( 谚+ e ;) 第二章因变量为精确观测值情形的讨论华东师范大学硕士论文1 0 2 4算法步骤 根据上述的求参数估计的过程,我们可以通过以下的算法来得到的极大似然估 计。 这里需要先对砌和口赋予迭代的初始值,然后在两步算法之间进行循环迭代。直至 新得到的估计值与旧的估计值的差值足够的小为止。 具体的算法实施步骤如下: a 步:估计加。 a l :设定p 的初始值为铲= o ,矿,碚) 。其中 扩= 雪一等自 棚:1 ( 玑一雪) 反 肛i 霄封葛洳:,( 砰一) 一( 1 n ) ( :,反) z n 仃0 2 = ( 认一q 。) 2 一( 伊) 2 ( 谤+ 哥) 这里 自= ( 钰+ z 风) 2 ,谤= ( ( 钇。一反) 2 + ( 讯一色) 2 ) 2 a 2 :为设定一个初始值,一般情况下我们可以设为:q = 去。 a 3 :得到( 口,叫o ) 。 这时,我们可以用到( 9 ,叫) 的定义: ( 口,叫) = p ( 磊= 勺l k = 玑,z 厶,狐) :竺型竖剑塑剑丝 啦蠢f ,( 轨l 勺;口) 】姚乙啦蠢l ,i 轨i 勺;秽爿t 乇 将嘶用o 来替换就得到了( 口,训o ) 的值。 这时,利用勺( 9 ,t l ,) 的定义勺( 护,伽) = 丢( 秒,t 7 ) 就可以得到勺( p ,锄o ) 的值。 a 4 :令叫= 乃( 口,护) 就可以得到改进的伽的估计叫,歹= l ,仇。 a 5 :返回至上述的a 3 步,用础1 取代叫o 。 a 6 :重复进行步骤a 3 至a 5 步,直至伽1 的估计的变动不是很明显为止。这时我们 就得到了叫的第一次迭代的估计值。 b 步:估计口。 b 1 :通过a l 步骤的方法来设定口的初始值p o 。 b 2 :通过 龟= e ;( 彬,= e ( z i 犰,z 厶,诋) = 紫 谚= 谚( 加,= e ( ( z e t ) 2i 犰,2 k ,讯) = 至皆一【e t ( 叫,p ) 】2 第二章因变量为精确观测值情形的讨论 华东师范大学硕士论文1 l 来估计龟p ,1 ) 和砰p ,石1 ) 。这里只需将萨,1 代入上式中即可求得。 b 3 :通过p 估计的定义公式得到的估计。这里只需将白( p ,叫) 和谚( p ,伽) 用e t ( 6 y d ,1 ) 和砰( 矿,彬1 ) 代替即可。 b 4 :返回到b 1 步中,用p 1 来取代6 y o 。 b 5 :从b 1 到b 3 步反复迭代计算。直至口1 和p o 之间的差足够的小为止。这时我们定 义最后一次迭代的到的结果为口1 的估计p l 。 总体上来说,算法的执行步骤如下: i :执行a 步。 h :执行b 步。 :返回至a 3 步,用p 1 取代矿,驴取代t u o 。 :迭代运算i 步至步,直至口和伽收敛到稳定的值为止。 2 5拟合检验 这里我们可以用一般线性回归模型中的拟合检验方法来从图形上大致的估计模型 拟合的优劣。 首先,我们来定义残差。 在简单线性回归模型中,残差被定义为如= 玑一6 f 一声么,i = 1 ,佗。 但在我们的讨论中,由于z 的观测数据为区间删失型。所以要用旎的估计值来代 替盔。g 6 m e zg 等【7 】提出的名的一个估计量为:磊= 墨佴( z i 钇。,讯) 。其中,坼为基 于观测区间【钇;,z 冗1 所得到的z 的估计n r n b u h 分布。这个时候我们就得到了该模型的 残差:唬= 饥一& 口磊。注意到,这个时候,磊是完全由【钇;,弛】决定的,所以它们不 依赖于a ,p 。 如果该模型成立,我们就可以得到分别以噍,磊为横纵坐标的点应该以云雾状分布 在原点周围。而分别以饥和豌= a 一声磊为横纵坐标的点则应呈一条直线状。从这两方 面,就可以大致地看出我们的观测数据是否可以用该模型米进行拟合了。 2 6小结 本章首先介绍了本文的理论基础n r n b u l l 自相合算法。进而介绍基于该自相合算 法的g u a d a l u p eg 6 m e z 算法。 虽然删失数据的研究已经越来越引起统计学家的注意,对于自变量为区间删失数 据的回归模型的研究在当今统计学的研究中仍然比较匮乏。而g u a d a l u p eg 6 m e z 所提出 的基于自变量观测值为区间删失型数据下,参数估计的迭代算法则给人们以耳目一新 的感觉。 该算法借助于1 1 u m b u l l 自相合算法与极大似然的方法对于自变量观测值为区间删 失型数据的回归模型进行了参数估计,给出了具体算法,并讨论了进行拟合检验的方 第二章因变量为精确观测值情形的讨论华东师范大学硕士论文1 2 法。 该算法的优点是显然易见的。首先,在实施上比较容易,其次,从直观上也非常 易于解释。在b 步中所得到的参数的估计经过验证具有一般极大似然估计的性质,即具 有相合性与渐近正态性,这可以为我们以后进行的参数区间估计,假设检验与统计推 断等等建立很好的理论基础。 第三章因变量为右翮失型变量情形的讨论华东师范大学硕士论文墙 第三章因变量为右删失型变量情形的讨论 上一节中,我们所讨论的问题是集中在自变量为区间删失型数据,而因变量是可 以精确观测数据的简单线性回归模型。然而,在现实生活中,我们获得的数据往往是 自变量和因变量同时删失的。 例如,大部分的吸毒者都会因为毒品注射而感染艾滋病。西班牙的b a d 如n a 市 的某项研究就以此为研究对象。该研究的主要目的在于探求从第一次注射毒品到感 染h i v 的时间长度与接下来的艾滋病潜伏时期可能存在的联系。 通常来说,h 的感染时刻是不能被精确观测到的,我们只能知道它发生在某一个 时间区间内,因此h i v 的感染时间是区间删失型数据。又由于艾滋病发生的时间是右删 失型数据,因为有的h i v 感染患者在进行临床试验的过程中被确诊为艾滋病,这时它可 以被精确观测的:而有的h 感染者,直至临床试验结束也没有爆发艾滋病,或者是直 至死亡也没有爆发艾滋病,这时的观测数据就是右删失的。所以从h 感染的时刻起到 艾滋病发生的潜伏时间就是一个双边删失型数据。当个事件发生时期的起点删失, 终点也删失的时,我们就称之为双边删失型数据。 k l a n g o l l r 等 1 2 】对于因变量是双边删失数据,自变量为区间删失数据下的l o g 线 性生存模型进行了讨论,他们同样是先建立基于该观测值下的似然函数,然后通过极 大化该似然函数的方法来得到极大似然估计,从而得到了模型参数的估计。这里计算 极大似然估计的方法并不是通过求出估计量的表达式或者是通过某种算法得到,而是 通过数学编程语言a m p l 直接得到似然函数的极大似然估计的。 我们这里研究的因变量不考虑这种双边删失的复杂情形,而把问题简化为因变量 是右删失型变量的情形。例如在刚才的实际例子中我们进行研究的是从第一次注射毒 品到h i v 感染的时间与从第一次注射毒品到艾滋病爆发时刻的关系。这里讨论问题的数 据类型即为自变量为区间删失型数据,而因变量为右删失型数据。 这里用一个简图来刻画自变量与因变量之问的关系。 鹾些当 善五黼蒿 感染m 时间 椰爆发时问 第三章因变量为右删失型变量情形的讨论j 垡东师范大学硕士论文u 3 1模型表示 本章的变量记号仍然沿用第二章的记号,以便更清楚的阐述。 我们仍然建立简单的线性回归模型。当然,变量之间的关系也可能是其它的参数 模型,如:生存模型,c 0 x 比例风险模型等等,但模型的选择并不对我们所要讨论的问 题产生实质性的影响。讨论的思路是相同的。 令y 为连续型因变量,z 为离散型的自变量,支撑为s = 彤j = 1 ,m ) 。y 与z 具 有线性关系。 建立简单的线性回归模型:y = 口+ p z + s 这里是服从( o ,矿2 ) 的连续型随机变量,与z 独立,p = ( 口,p ,口2 ) 是未知参数向 量。记给定z = 名时,y 的条件分布密度函数为厂( 暑i z ;p ) ,并且记z 的累计分布函数 为w ( 名) 。 我们观察到的每一条记录都具有形式( g 瓦玩,磊) ,其中玩与为随机变量且使 得p ( z 【玩,孙】) = l 。当6 = 1 时,y = c ,即y 为精确观测的:当6 = o 时,y c ,这时y 在c 处为右删失的,从这里我们可以看出第二章所述数据类型实际上是本章 数据类型的一个特例,即取,6 = 1 的特殊情形。这样,响应变量y 即为右删失型的, 具有形式( c ,6 ) ;而解释变量z 则是区间删失的,且具有形式( 玩,) 。 记礼条观测记录为 ( q ,文,钇。,弛) ,i = l ,佗) 。 首先,我们来建立似然函数: l ( 伽,护) = 厶( 叫,口) = l 其中厶( 叫,口) 为第n 条观测记录的似然函数,= ( 彬1 ,叫m ) ,嘶= p ( z = 彤) 且= j 彤阮,狐】) ,t = 1 ,n ,歹= 1 ,m 。 下面我们来计算厶( 伽,口) : 厶( 钮,秒) = p ( q ,蠡,纭,诋;p ) = q 巧p ( c ,瓯,z = s j ;p ) j = 1 = q 巧p ( q ,况i z = 勺;p ) p ( z = 彤) j = 1 = q 巧【,( q i 勺;口) 严【1 一f ( q i 勺;臼) 】1 一氐屿 这时,我们就得到了极大似然函数: l n ( 叫,p ) = q 巧【,( 龟i ;p ) 产【1 一f ( c i 岛;p ) 】1 _ 氐鸭 = lj = 1 第三章囱变量为右删失型变量情形的讨论华东蛹塾太学殛论文嫣 3 2参数估计 我们的统计目标同样是在z 的分布t u 未知的条件下来估计参数p 。这里也采用基 于,工、l m b u l l f l7 】自相合算法的思想,同时令极大似然函数中的钮,秽极大化即得到了秽的 极大似然估计。该算法的主要思想在上一章中已经加以说明,所以这里就不再重复论 述。 下面来讨论一下具体的估计过程。 a 步:p 己知的条件下对于叫的非参数估计。 当口为已知时,仍然沿用记号三l ) 来表示似然函数。 这时,在给定z = s j 的条件下,y 的条件分布密度函数为: 地删_ ( 2 ) - l 肛唧隅( 勺一字) 2 y 的条件分布函数为 砘删_ ( 2 卅叫2 夕唧隅( 勺一宇) 2 卜 f ( 耽i 勺;p ) = ( 2 7 r c r 2 ) 。1 胆唧l 一磊( 勺一罕) 旧 在这一步中,我们的目标即最大化似然函数 三l ( 叫) = 【,( q 1 ;p ) 严【1 一f ( c 1 ;p ) 】1 魂哟 这里,( q ,卢,盯2 ) 均为已知的。 下面即借助n m b u l l 所提出的自相合算法来求叫的估计值从而使得似然函数极大 化。 对于i = l ,礼,歹= l ,m ,令岛= j z i = s j ) 为指示函数,则在给定观测数据的 条件下,五j 的条件期望为 ( 叫,p ) = e ( 岛i q ,瓯,弛,讯) = 户( z j = c ,盈,z 厶,讯) :竺堑! ! 曼l 生! 旦2 竖i ! 二! ! 鱼l 垒i 盟! :竺丝 m q 伽【,( q i 勺;口) 】d l 【1 一f ( 臼i 勺;p ) 】卜o 删知 七= 1 如果我们将该式看作是观测到的,而并非是期望频率,那么所有观测记录对应的 自变量值为勺的比例为 咖= 掣 这个时候我们就得到了在p 已知条件下的自相合方程: = 乃( 加,口) , j = l ,m 第三章因变量为右删失型变量情形的讨论华东师范大学硕士论姐6 注意到此时有关系式e ( 乃,p ) ) = 叻成立,但是勺扣,p ) 并不是q 的估计量,因 为它依赖于某些未知量。 自相合方程的解西即是给定p 下的叫的非参数极大似然估计。 但要证明西确实是极大似然估计还需要一个前提条件,即在任何的情况下都 有嘞( 伽) so 。其中由m ) 是喇然函数的方向微分。详细的证明可参见【7 】a p p e n d i 】ca 。 证明中只需将f 1 ( 叫) 的表达式换成该情况下的似然方程即可。 b 步:假设叫已知的条件下对于的参数估计。 现在来考虑当叫固定时,关于p 来极大化似然函数。同样的道理,此时可将似然函 数记为三2 ( 口) 。则: nt n 如( 伽) = 扩( q f 彩;口) 产f l f ( c ;1 ;口) 】1 一函嘶 i = lj = l 这时我们运用相同的思路,通过求导的方法来得到口的极大似然估计。即令 a l i l 三2 ( 口) n 刁i 一一u 坌垫垒鲤:o a 8 a l nl 2 ( p ) n 石;广一u 为求解这个方程组,我们先来重新表示一下似然函数。 令岛( p ) = ( 2 7 r 盯2 ) - 1 2 唧卜刍如一口一p 彤) 2 】,表示】厂的条件分布密度函数。 令( 口) = 片向( p ) 如,表示y 的条件生存分布函数。 令砌( 口) = 口巧f 南( 口) 产【勘( 口) 】1 _ 魂哟,表示了第i 条记录对于( q ,& ,勺) 的贡献。 令c :f ( p ) = 銎l 黝( 口) ,表示了第i 条记录对于似然函数的贡献。 这时,上述方程组可以改写为: n r 上 缸酝( p ) t = j n r 上 q ( 一) l = 1 n r ! 色g ( 一) l = = l 为了对该方程组求解,我们先引入b u c k l 呼j a m e s 估计的概念。 在对因变量为右删失型数据( 犰,瓯) 的简单线性回归模型的讨论中,注意到该因 变量的删失类型与本章模型因变量的数据类型相同,即当磊= l 时,纨为真实观测 值;瓯= 0 时,玑为真实值在鼽处右删失了。 对于该回归模型的处理,b u d d e y 和j a n 瑚( 1 9 7 9 ,1 9 8 4 年) 建议先用贫= 犰瓯+ e ( 玑l 纨 地) ( 1 一蠡) 来对因变量的真实观测值进行估计,再运用最小二乘的方法来进 l i 勺 o 他 0 = 妫 =1t, 一 坫6 & 一 脚币 o i + l s 血勋 纠揣嗡卅 + 心 p 力 船 劝 s , 9 舭 侧 硝 一 口 卜 甜 一 吨 一 q i ,i ,1 她 各q盈护 rl sr【 p p 肋 聊 黝 m触m博m触 第三章因变量为右删失型变量情形的讨论华东师范大学硕士论文u 行回归参数估计。用菇对犰进行估计的理由是e ( ) = e ( ) 。在y 的分布未知的情况 下,我们并不能得到醒,但如果y 的分布已知,我们就可以得到蝣。 例如,简单的线性回归模型:y = q + p z + g 。其中,服从( 0 ,盯2 ) 。我们得到 的观测值是( 甄,q ,盈) ,主= l ,n ,则可以得到 ,o i = 垒= 旦兰i 、 e ( 矾l 挑 q ) = q + 触+ 矿芒菁呙 带入贫的表达式中,就得到了坊。 将b u c k l e y j 锄髑估计应用到本章的模型中,在k 服从缸+ 触,盯2 ) 的条件下,对 于犰的估计为 螗嘞”卅( q 慨+ 矿嫦) 将该式代入到似然方程组中。 原似然方程组可以写为: 令 甄2 饥2 z 犰= 谚= n r 上 # 一g ( 日) := 上 竹 r 土 三q ( p ) i 孟= 1 n r ! # 三q ( d ) i := 工 e t ( 伽,= e ( z i q ,瓯,钇。,讯) = 群 e 鼽( 钮,= e ( y l q ,瓯,名厶,诋) = 至详 e 圳刚脚矧舶阮川= 紫 帕叫( z 刊2 钆= 紫制删2 我们就得到了: ( 玑一a ) = p 翰 =1扣=1 nnn z 玑一q = p z ;+ 谚 。 如 i i 1。j。一=i小叫姚 臃 一 p 一 岛 一 q 、,、j r , 黝 黝 m皿。仇m触。 o l i 盯 瓯 n :l 一 玑 z n :l p 一 珧 n 甜 口一 犰q 竹僦 第三章因变量为右删失型变量情形的讨论华东师范大学硕士论文蟪 这时,遁过计算即得刽p 的檄大1 以然估计: 台z 砉爨鹅 & = 雪一声孟 庐;显巡童餐半璺 其中, 甄= e 戤( ”,回= e ( z l q ,文,钇。,讯) = 群 欢= e 鼽( t t ,= e ( y l c ,z 厶,讯) = 至群 z 献= e 酬叫郴( 孙舰川= 学 霹= u z ;( 伽,刃= e ( ( z 一戤) 2l c ,& ,钇。,讯) = 紫一【e 鼢( 伽,口) 】2 由该参数估计式我们也可以看出,第二章所讨论的情况实际上是第三章的一个特 例。即对所有的观测数据都有瓯= 1 ,鼽= c 。 通过此算法得到的估计具有极大似然估计所有的性质相合性与渐近正态性,具体 的证明可以参考g 饥e 名f 8 1 中的证明方法。 这些良好的统计性质为我们以后依据模型进行参数区间估计,假设检验与统计推 断等建立了很好的理论依据。 3 3算法步骤 为求得参数的极大似然估计,我们可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年金融产品居间推广法律文件模板合同
- 2025年度拆迁安置房个人购房合同(含车位及绿化)
- 2025年文化产业园产业集聚与服务体系中的文化产业发展与区域文化产业发展战略报告
- 2025版智能门锁零部件定制采购合同规范文本
- 2025年石膏板原材料采购与质量保证合同
- 2025年国际贸易担保借款合同
- 2025年度船舶节能减排运输合作协议书
- 2025版婚内反家暴教育与法律支持服务协议
- 2025年防盗门工程预算编制及合同
- 2025电商企业年度客户关系管理与运营合同
- 关于财富的课件
- 2025-2030中国汽车工程服务外包(ESO)行业现状调查与前景趋势研究报告
- 华为荣誉激励管理办法
- 2025至2030全球及中国实验室PH电极行业发展趋势分析与未来投资战略咨询研究报告
- 相控阵超声检测技术及应用
- 第四单元整本书阅读《红岩》课件 2025-2026学年统编版语文八年级上册
- 特色小吃街商业运营与管理合作协议
- 金提炼过程中的贵金属综合回收利用考核试卷
- 三级安全教育试题及答案
- 房屋市政工程生产安全重大事故隐患排查表
- 2025建筑工程设计合同(示范文本)GF
评论
0/150
提交评论