




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
m a s t e rt h e s i so f y e a r2 01o u n i v e r s i t yi d :10 2 6 9 s t u d e n ti d :51 0 7 0 6 0 5 0 1 6 e a s tc h i n an o r m a l u n i v e r s i t y al i n e a rr e g r e s s l o nm o d e lw i t hac o n t i ni i o u s 11 o。 i n t e r v a l c e n s o r e dc o v a r i a t e s c h o o la n dd e p a r t m e n t :s c h o o lo ff i n a n c ea n ds t a t i s t i c s m a jo r :p r o b a b i l i t yt h e o r ya n d m a t h e m a t i c a ls t a t i s t i c s r e s e a r c ha r e a :m a t h e m a t i c a ls t a t i s t i c s s u p e r v i s o r :d i n gb a n g j u na s s o c i a t ep r o f e s s o r a u t h o r :x uy u h a n g f i n i s h e d ,a p r i l ,2 010 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文连续型协变量区间删失时的线性回归模型,是 在华东师范大学攻读领芷博士( 请勾选) 学位期间,在导师的指导下进行的研究工作及 取得的研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰 写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明 并表示谢意。 作者签名:日期:加f o 年岁月堋 华东师范大学学位论文著作权使用声明 连续型协变量区间删失时的线性回归模型系本人在华东师范大学攻读学位期间 在导师指导下完成的颇生博士( 请勾选) 学位论文,本论文的研究成果归华东师范大学 所有。本人同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相 关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论 文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、 缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文幸, 于年月日解密,解密后适用上述授权。 () 2 不保密,适用上述授权。 导师签名。1 缈) 么专本人签名赞! 皇叠篁 徐宇航硕士学位论文答辩委员会成员名单 姓名职称单位备注 张日权教授华东师范大学主席 张应山教授华东师范大学 徐进副教授华东师范大学 摘要 在医学研究中,经常会遇到区间删失数据,因为我们感兴趣的事件常常不能 被精确观察到,而仅知道它所处的区间。在区间删失数据的研究方面已经有了很 多成果。然而,据我们所知,实际上所有这些方法考虑的都是响应变量是区间删 失的,一个例外是由g 6 m e z 等人给出的。在2 0 0 3 年,基于对一个a i d s 临床试 验的研究,他们考虑了具有一个离散的区间删失协变量的线性回归模型。然而, 他们的方法不能被推广到协变量是连续型随机变量的情形中。 在这篇文章中,我们引入了两种方法来对具有一个连续型区间删失协变量的 线性回归模型进行统计分析。第一,我们采用无偏转换方法对文中模型进行了分 析并且证明了模型中回归系数的估计的无偏的、相合的和渐近正态的。第二,我 们运用m c m c 方法对模型中的参数进行贝叶斯估计并且得到了在文中模型下进 行g i b b s 抽样的步骤。在模拟研究中,我们对三种方法的结果进行了比较,结果 说明无偏转换方法和m c m c 方法在不同的情况下各有其优势。最后,我们运用 这两种方法对一个来自于a i d s 临床试验中的数据集进行了分析。 关键词:线性回归模型,区间删失,g i b b s 抽样,无偏转换 a bs t r a c t i nm e d i c a ls t u d i e s ,i n t e r v a l c e n s o r e dd a t aa r eo f t e ne n c o u n t e r e db e c a u s et h ee x a c t t i m eo fo u ri n t e r e s t e de v e n tc a nn o tb eo b s e r v e db u ti ti sk n o w nt ol i ei na ni n t e r v a l t h e r eh a v eb e e nm a n ys t u d i e sf o rt h ea n a l y s i so fi n t e r v a l - c e n s o r e dd a t a t h o u g h ,t o o u rk n o w l e d g e ,v i r t u a l l ya l ls u c hm e t h o d sc o n s i d e rs i t u a t i o n sw h e r ear e s p o n s e v a r i a b l ei ss u b j e c tt oi n t e r v a lc e n s o r i n g o n ee x c e p t i o ni sg i v e nb yg 6 m e ze ta 1 【7 】 m o t i v a t e db yas t u d yo fa na i d sc l i n i c a lt r i a l ,t h e yc o n s i d e r e dal i n e a rr e g r e s s i o n m o d e lw i t had i s c r e t ei n t e r v a l - c e n s o r e de x p l a n a t o r yv a r i a b l ei n2 0 0 3 h o w e v e r t h e i r a p p r o a c hc a nn o tb ee x t e n d e dt ot h es i t u a t i o nw h e r et h ei n t e r v a l - c e n s o r e de x p l a n a t o r y v a r i a b l ei sc o n t i n u o u s i nt h i s p a p e rw ei n u o d u c et w ok i n d so fm e t h o d sf o rt h ea n a l y s i so fal i n e a r r e g r e s s i o nm o d e lw i t hac o n t i n u o u si n t e r v a l - c e n s o r e de x p l a n a t o r yv a r i a b l e f i r s t , t h e u n b i a s e dt r a n s f o r m a t i o nm e t h o dw a sa d o p t e df o rt h ea n a l y s i so ft h i sm o d e la n d e s t i m a t o r so fr e g r e s s i o nc o e f f i c i e n t sw e r ep r o v e dt ob eu n b i a s e d ,c o n s i s t e n ta n d a s y m p t o t i cn o r m a l l yd i s t r i b u t e d s e c o n d ,t h em c m cm e t h o dw a su s e dt oo b t a i n b a y e s i a ne s t i m a t i o no fp a r a m e t e r si nt h em o d e la n dt h ep r o c e d u r ef o rt h eg i b b s s a m p l i n gi nt h i sm o d e lw a sd e r i v e d i nt h es i m u l a t i o ns t u d y , w ec o m p a r e dt h r e ek i n d s o fm e t h o d sa n dt h eu n b i a s e dt r a n s f o r i l l a t i o nm e t h o da n dt h em c m cm e t h o dh a dt h e i r a d v a n t a g e si nd i f f e r e n ts i t u a t i o n s a tl a s t ,t h et w om e t h o d sw e r eu s e df o rt h ea n a l y s i s o fad a t a s e tf r o ma na i d sc l i n i c a lt r i a l k e yw o r d s :l i n e a rr e g r e s s i o nm o d e l ,i n t e r v a lc e n s o r i n g ,g i b b ss a m p l i n g , u n b i a s e dt r a n s f o r l t l a t i o n 目录 摘里荽i a b s t r a c t i i 第一章引言l 1 1 区间删失数据的定义及研究现状l 1 2 模型的提出与分析2 1 3 本文的主要工作3 第二章连续型协变量区间删失时的线性回归模型的参数估计4 2 1 连续型协变量区问删失时的线性回归模型4 2 2 无偏转换方法及其应用5 2 3m c m c 方法及其应用l3 第三章模拟和实例分析1 8 3 1 模拟18 3 2 实例分析2 l 附蜀龟2 4 参考文献2 6 致谢一2 9 i i i 第一章引言 1 1 区间删失数据的定义及研究现状 在生存分析和可靠性研究中,常常因为客观条件的限制,我们无法得到准确 的生存时间或者失效时间,只能观察到感兴趣的时间所处的区间,统计学中一般 称这类数据为区间删失数据( i n t e r v a lc e n s o r e dd a t a ) ,简称区间数据。下面是几个 实际例子: 例1 在临床试验研究当中,病人的发病时间往往是我们感兴趣的量,但是 由于人力物力的限制,往往只知道病人的发病时间位于两次检测的区间以内,而 观察不到具体的发病时间,这样得到的便是一批区间删失数据。 例2 在医药统计的研究当中,需要研究药物的毒性。为了找到实验者在不 出现不良反应的前提下所能承受的最高剂量,实验中采用以下做法:先选一个实 验者可以承受的最高剂量,然后逐渐地降低剂量,直到实验者在观察一段时间以 后不出现不良反应为止。这样我们所感兴趣的量便落在一个区间以内,得到的是 区间删失的数据。 例3 在产品寿命研究当中,由于客观条件的限制,只能观测到产品寿命所 处的区间而观测不到真实值,这样也将得到一批区间删失数据。 综上所述,区间删失数据有着广泛的应用背景,因此有必要对其进行深入的 研究。 假设我们感兴趣的变量z 落在区间【乙,乙】之间,则我们称z 被区间删失。 区间删失的特例是左删失和右删失。如果z r = + 0 0 ,则称z 在z ,处右删失;如果 z ,= 硼,则称z 在乙处左删失。 一般为了处理上的方便,将区间删失数据分为两类。第一类称为c a s ei i n t e r v a lc e n s o r i n g 或称为当前状态数据( c u r r e n ts t a t u sd a t a ) ,这种情况下我们观 测到的是( y ,万) ,这里y 表示“检查”时间,万= ( z y ) ,这里,( ) 表示示性函数, 即我们只能观察到真值相对于观察值所处的位置。第二类我们称之为c a s ei i i n t e r v a lc e n s o r i n g ,这种情况下我们观察到的是,矿,4 ,晚) ,其中4 = ( z u ) , 磊= ,y 矿) ,即我们只能观察到真值相对于随机区间( u ,矿) 所处的位置。 由于在诸多领域的研究中,经常会遇到随机变量是区间删失的情形,因而国 第章引言华东师范大学硕士论文2 内外许多学者都对区间删失数据问题做了大量的研究,但研究工作主要集中在两 方面。一方面是区间删失情形下分布函数的非参数估计,这方面前期主要的研究 工作是t u r n b u l l 2 4 给出的任意分组的,删失的或截断的数据的经验分布函数估 计,为了得到此估计,t u r n b u l l 2 4 还提出了自相容算法( s e l f - c o n s i s t e n t a l g o r i t h m ) :这方面工作的研究与进展可见于丁邦俊 2 8 、郑祖康和丁邦俊【31 】。 另一方面的工作是研究因变量( 区间删失数据) 与协变量之间的关系,在这方面, h u a n g 1l 】对比例危险模型( p r o p o r t i o n a lh a z a r d sm o d e l ) 的估计问题的研究,l i 和 z h a n g 1 7 对响应变量区间删失情形下的线性回归模型的参数估计问题的研究, 郑祖康【2 5 】对区间删失数据的线性回归模型做了一系列的研究工作,郑祖康 2 6 】 提出了一种无偏转换( u n b i a s e dt r a n s f o r m a t i o n ) 的方法,称为c l a s sk 方法,并将 其运用于响应变量为右删失情形下的线性回归模型当中,郑祖康【2 7 】推广了c l a s s k 方法并将其运用于一般的响应变量为区间删失情形下的线性回归模型中。有关 删失数据的统计研究方法的详细介绍可见于l e e 和w a n g 1 6 1 2 模型的提出与分析 对于含有区间删失随机变量的线性回归模型的研究,前人的工作基本上考虑 的都是响应变量为区间删失的情形,然而对于协变量为区间删失的线性回归模型 却缺乏相应的研究。2 0 0 3 年,基于一个对越d s 临床试验的分析,g 6 m e z 等人 7 】 首次考虑了协变量为区间删失的线性回归模型的参数估计问题。 g 6 m e z 等人考虑了线性回归模型y = 口+ p z + e ,这里】,是连续的响应变量, z 是离散的协变量,占是一个连续的n ( o ,盯2 ) 随机变量且与z 独立。0 = ,盯2 ) 是一个未知的参数列向量。给定z = z 的条件下,我们将j ,的条件密度函数写作 f ( yz ;o ) 。在不引起混淆的前提下,文章中其它地方涉及到的条件密度的形式 与此处写法类似,不再做特别地说明。 假设z 是区间删失的并且落在【乙,磊】之间,这里乙和磊是两个随机变量, 满足尸( z l z z r ) = 1 。假定删失是无信息( n o n i n f o r m a t i v e ) 的,即满足如下两 个无信息删失条件,对于任意满足毛z z 2 的2 1 ,z ,z 2 ,有 p 【z = zi 乙= z l ,磊= z 2 】= 尸【z = z p 乙z z 2 】 和 f ( yz = z ,乙= 毛,z r = z 2 ) = f ( yiz = z ) 假设观察到的数据集为 ,z 厶,z 焉) ,f = 1 ,刀 ,z 支撑为s = p ,_ ,= 1 9o 0 9 m ) , 第一章引言华东师范大学硕士论文3 于是可得似然函数成正比于 z ( w ,o ) = 兀c t , j f ( y is j ;0 ) w j , i = 1j = l 其中w = ( 嵋,) ,= p ( z = ) ,a , j = i ( s je z z , ,】) 。 为了得到参数0 和w 的极大似然估计,需要极大化上式,g 6 m e z 等人提出了 一种两阶段条件算法。这种算法是基于自相容算法与极大似然的等价性。具体步 骤为: a 步:固定0 ,利用自相合算法,关于w 极大化l ( w ,o ) ; b 步:固定w ,利用自相合算法,关于0 极大化l ( w ,0 ) ; 然后,在a 步和b 步之间进行迭代,直到要估计的参数的相对范数差小于 给定的容忍值为止。 然而,g 6 m e z 等人的方法却具有一定的局限性。首先,只能假设协变量z 是 离散型的随机变量,然而实际应用当中很可能z 是连续的,这样g 6 m e z 等人的 方法便不能使用;其次,该算法是一种迭代算法,而且涉及到两重迭代,计算量 非常庞大,而且对于迭代初值的选取比较敏感;再次,此方法必须假定误差项有 已知的参数分布类型。 为了克服上述后两个局限性,何其祥 2 9 】去掉了误差项服从正态分布的条件, 利用无偏转换的方法,研究了协变量是c a s eii n t e r v a lc e n s o r i n g 情形下的线性回 归模型的参数估计问题,不过文中对于协变量中参数没有进行估计,因此方法的 实用性不强。而且文中没有研究c a s ei ii n t e r v a lc e n s o r i n g 情形下的线性回归模型 的参数估计问题。 1 3 本文的主要工作 对于协变量是区间删失的连续型随机变量时的线性回归模型的参数估计问 题,我们给出了两种解决方法。第一种方法是无偏转换方法,我们利用无偏转换 方法对回归系数进行了估计,并证明了得到的估计量是无偏的,相合的和渐近正 态的。第二种方法是m c m c 方法,文中得到了g i b b s 抽样的步骤,借助w i n b u g s 软件我们得到了模型中参数的贝叶斯估计。在最后一章中,我们先通过模拟,比 较了中点法,无偏转换方法和m c m c 方法这三种方法的优劣;最后,我们利用 文中提出的方法对一个a i d s 的临床数据进行了研究。 第二章连续型协变量区间删失时的线性回 归模型的参数估计 2 1 连续型协变量区间删失时的线性回归模型 基于g 6 m e z - 等人【7 】考虑的一元线。i 生 n n 模型y = 口+ 解+ s ,s 是一个连续 的n ( o ,盯2 ) 随机变量且与z 独立。这里我们进行一点推广,我们假定z 是连续的, 并且记它的密度函数为w ( z ,0 z ) ,这里o z 是未知参数向量,记模型未知参数列向 量为0 = ,0 20 z ) 。另外,我们假定区间【z l ,乙】唯一提供的信息是它包含z , 即满足无信息删失条件。在连续情形下即对于任何满足条件毛z z r 的 z lz ,z r ,有 m 忆枷庐而w ( z ;o z ) 和 f ( yz ,z l ,z 只;0 ) = f ( yz ;0 ) 假设所得到的观察值为( 只,气,气) ,i = 1 ,刀,定义d = “气,气】) ,i = 1 ,刀, y = ( y i ,) ,根据无信息删失条件,我们有 m 嘛咿坞甚严 于是我们得到似然函数为 :坦苎! 兰:丝:垒竺丛兰:丝:垒竺垒 f ( z t , ,;0 ) l ( 咒l 刁;o ) 厂( 刁,z 厶,气;o ) 幺 := :j ! j :j 一 f ( z l ,z 焉;0 ) i 厂( 咒h o ) 厂( 乙h ,z r ;o ) ( 气,气;o ) d z , = ;二_ _ _ _ - _ _ _ - _ _ _ _ _ _ _ - - _ _ _ _ _ _ _ _ _ _ _ _ - - - _ - - - - _ - - - _ - - _ _ _ _ _ _ _ - _ - i _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 一 f ( z t , ,z r ;0 ) :竺竺坐竺竺 心o z ) a z 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范人学硕士论文5 。rw ( z 扣z ) 厂( 咒lz f ;o ) d z f 以o | y ,d ) 2 珥l 丽面- 这里,根据上述模型的表达式,我们有 f ( y , iz , ;o ) = ( 2 舸2 ) - 1 2e x p 一虿1 ( 只一口一f l z ,) 2 】 容易看到,一般情况下,即使是只含有一个区间删失协变量的一元线性回 归模型的参数的极大似然估计的求解也是非常的困难的。为了解决这个问题,本 文将引入两种估计未知参数的方法,第一种是无偏转换方法,第二种是m c m c 方法。下面我们将先介绍第一种方法。 2 2 无偏转换方法及其应用 2 2 1 无偏转换方法简介 对于响应变量为右删失时的简单线性回归模型的参数估计问题,b u r k l e y 和 j a m e s 3 最早提出了无偏转换方法的思想。他们建议对响应变量】,的观察值进行 修改以代替原来的z ,即使用 r = r , 4 + e ( rr 巧) ( 1 - 4 ) 来代替被删失的随机变量r ,这里r 被k 干扰,4 = ,( r 形) 。容易证明 e 【r 】= e 【r 】= 口+ t , 所以这种替换方法是无偏的,这样再用最小二乘方法来估计出未知参数口,即 舀= 歹一夕i ,夕= 黼 理论上来说,z 虽然理想,但是其表达式和z 的分布函数有关,特别是和回归 系数有关,而这些都无法通过观测得到,因此,在具体实施过程中常采用迭代法。 然而,b u r 心e y j a m e s 估计面临一个很大的问题,那就是迭代过程可能不收敛。 j a m e s 和s m i t h 1 2 对b u r k l e y j a m e s 估计的相合性进行了研究,但是算法的收敛性 问题仍未能得到很好的解决。 为了解决这个问题,k o u l ,s u s a r l a 和v a nr y z i n 1 5 考虑了另一种无偏转换方 法,这种转换只依赖于干扰随机变量的分布函数g ( ) 。具体地说,采用 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文6 弘高尚巧 来代替z 。他们建议在g 未知时,用其k a p l a n m e i e r 估计 1 3 】来代替。在一定的 条件下,他们还证明了回归系数的相合性和渐近正态性,从而使无偏转换方法在 不完全数据模型中的应用达到了理论上的高度。 在前人的基础上,郑祖康 2 6 】在数据是右删失的情形下,提出了一类无偏转 换方法,并将其命名为c l a s sk 方法。这种方法的主要思想是:当y 被删失时,应 该对它作一些补偿;当z 未被删失时,也对它作一些调整。具体地,用 r = z + = 万办( z ,) + ( 1 4 ) 织( z f ) 代替z 。这里,我们设办,珐是连续函数,且满足条件 【1 一g ( j ,) 】办( y ) + l :# 2 ( t ) d g ( t ) = y 这里f 6 i ,欢与只的分布函数无关,但是可能依赖于g ( ) 。当函数对( 办,改) 满足上 述条件时,我们就称它属- = c l a s sk 。容易看出,当取破( z ) = z 1 - g ( z ) ,欢( z ) = 0 时,这就是k o u l s u s a r l a v a nr y z i n 估计。郑祖康【2 6 还在很一般地条件下,证明 了由c l a s sk 的一些子集提供的回归系数的估计具有相合性和渐近正态性。郑祖 康 2 7 】将上述结果推广到一般的区间删失数据的情形下,从而为区间删失情形下 无偏转换方法的运用奠定了基础。 最近几年,何其祥和郑i 明 1 0 1 把无偏转换方法运用到响应变量是区间删失情 形下线性回归模型的经验似然统计推断问题中。何其祥【2 9 】又将无偏转换方法运 用到协变量是c a s eii n t e r v a lc e n s o r i n g 的离散随机变量的线性回归模型的参数估 计问题当中,并得到了估计的无偏性和相合性。 2 2 2 无偏转换方法在协变量区间删失时的线性回归模型中的应用 下面,我们将把无偏转换方法运用到本文模型当中,用于解决协变量是区间 删失的线性回归模型的参数估计问题。 根据文中模型的假设,我们考虑c a s ei ii n t e r v a lc e n s o r i n g 的情形。假设z 是 非负的独立同分布的随机变量,并且记它的密度函数为w ( z ,0 ,) ,具有有限的期 望。( z 厶,毛) 是非负的独立同分布的随机向量,且具有连续的密度函数g ( ,) , 这里os z 4 o o ,a s 。另外,假设序列 z n 。和序列 ( 乞,z r ) ) :l 是独立的, 并且观察值是( z 厶,z 焉,谚) ( f = l ,2 ,刀) ,这里4 的定义如下 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文7 4 = 0 ,z i z l 1 ,z h s z ts z r j 2 ,z 免 z t 也就是说,对于每个固定的f ,( 乙,毛) 都将区间( o ,o o ) 切分成了3 个部分,即 o ,乙) ,【z 厶,毛】,( ,o o ) 。本文中,我们将使用如下转换,它是c l a s sk 类中的一 个特例,即 互= e ( z fz l 乙) 根据上面得到的无偏转换z ? ,我们可以得到回归系数的估计如下: 舀= 歹一夕三,夕= 黼 同样地,对于误差项方差的估计,我们有 子= ( i - d - 应( n - 2 ) 在实际应用当中,由于我们不知道协变量z 的真实分布,所以先要对z 的分 布函数进行估计。在本文中,由于我们假设z 是参数的,所以只需先估计出z 中 包含的参数,然后即可进行无偏转换的操作。在估计z 中包含的参数0 时,我们 使用的是0 的极大似然估计,它使下面的似然函数极大化 即) = 兀e 训刁,o ) d z , 注意到,上述极大化上面的似然函数是一个非线性函数的最优化问题,本文 模拟中采用的是n e l d e r - m e a d 方法 2 0 1 ,它是直接搜索方法( d i r e c ts e a r c hm e t h o d s ) 中的一种 1 4 】,这一点和网格搜索( g r i ds e a r c h ) 方法相同,即不需要依赖于目标 函数的分析性质( 如:导数,梯度,单调性等等) 。n e l d e r - m e a d 方法是一种基于单 纯形的方法,比如我们要极小化的目标函数为f :彤- - - ) , r ,当栉= 2 时,一个r 2 中的单纯形是一个三角形;当玎= 3 时,一个r 3 中的单纯形是一个四面体,如下 图1 所示。 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文8 x 0z l x o 图1 单纯形 在通过一定方法构造出初始的单纯形后,经过不断地变换直到终止准则满足为 止,于是就完成了目标函数极小化问题。 2 2 3 估计量的一些性质 假设协变量z 中所包含的参数列向量为0 ,它的密度函数为w ( z ,0 ) 。首先, 我们定义如下一些量: ( 1 ) z = e d z , i z ,毛】_ ez w ( z ,o ) 比e 以z ,o ) 出全g ( 乙,毛,o ) ,显然,这里 z 是独立同分布的。 ( 2 ) 记彳的方差为v a r o ( z ;) ,z 与z 的协方差为c o v 。( 彳,z ) 。 另外,我们还假定反 彳】2 和乓【彳e 】有限。 引理i 乓【彳】= e o 【z f 】,e o 【z fiz 】= 彳 证明:第一条性质的证明直接由重期望公式即可。关于第二条性质,我们注意到, 根据z 的定义,显然有盯( 彳) c 盯( 气,毛) ,于是,根据条件期望的平滑性及彳 的定义,我们有 岛 z ,i 彳】= e o 晶【z fi 乙,毛】i 彳】_ e o 彳l 彳】- 彳 证毕。 引理2 磊 i - , z - p z ;】= 0 e o 【( 髟一口一z ? ) 彳】= o 证明:对于第一式,根据引理1 ,我们有 第二章连续型协变量区间删失时的线性回归模型的参数估计 华东师范大学硕士论文9 晶 r , - g - p z ;】_ 扇【乓【r 一口一互i 彳 = 磊【磊陋+ z f - 口- p z , lz 】 = 毛 晶 五iz 卜彳】 = 0 同样,对于第二式,我们有 磊 ( r 一口一z ) 彳】- 岛 毛【( z 一口一彳) 彳lz 】 = 日【岛 似+ z f o ! - p z , ) 彳iz 】 = 毛【z 晶 z jz 卜( 彳) 2 】 = o 证毕。 根据最小二乘法的思想,我们可以得到正则方程组 i :。( i 一口一解) = 0 i :。( y j - 口一解) 彳= o 由引理2 ,可以解得 夕= 一 & = 孓一舀艺1 y = n 。1 i ”- - ! r ,乞= 以。1 ”i - - 1 乏 - 一 j7 _一 定理1 西,矽均为o l ,的无偏估计,即日【舀】= 口,乓 】= 证明:首先,我们证明夕的无偏性,下面第三个等号运用了引理1 的结论, 磊 甸= 磊【磊 夕i 彳,z 】 吲邈鑫等盟, 吲避幕铲, 。,。:。( 乏一万) z , 喝够笔篆并1 = 口 第二章连续型协变最区间删失时的线性回归模犁的参数估计华东师范大学硕士论文l o 对于西的无偏性,我们采用同样的处理方法。注意到,根据引理1 和引理2 ,我 们有 乓【r 】= 口+ 磊【z ? 】 因此,显然有 e o y = n 。1 :。w r 】 = y l - i ”i = l 缸+ 毛 彳】) z 一 、, 口llj 7 = a + p e o z 】 根据这个结论,我们有 e o a = e o 7 一夕乞+ 】 = a + z e o z 卜毛【夕三 = a + z e o z 卜磊【日【夕乞l 彳,z 】 = 口+ 磊 乞卜e o z 乓 夕i 彳,z 】 = a + p e , z 卜z e o z 】 = 口 其中第五个等号用到了证明彦的无偏性时的结论。 证毕。 定理2 西,均为口,的相合估计,即盘专口,j pp 证明:首先,我们证明夕的相合性。为此,我们先要证明下面几个结论: ( a ) 1 - i :。彳2j 毛【彳2 】; ( b ) 乞专毛 彳】; ( c ) 刀。1 :。彳zj 磊 彳k 】 上面的结果直接由弱大数定律即可得。 根据上面的结果,于是我们就得到下面两条结论: ( d ) ? l - l :。( z ;- z ) 2 专l - 啪( 彳) ; ( e ) 刀。1 :。( z ;- z ) r3 c o v 0 ( 彳,i ) 对于( d ) 的证明,我们运用( a ) 和( b ) ,有 第二章连续型协变鼍区间删失时的线性回归模型的参数估计 华东师范大学硕士论文l l 刀一:。( z ;- 2 ) 2 = 刀卅:。z 2 一( 三) 2 专磊 z 2 卜( 磊 彳】) 2 = v ( 互) 对于( e ) 的证明,我们运用( b ) 和( c ) 以及s l u t s k y 定理,有 刀一:。( 彳一乞) z = 刀。1 二z ;r , - z 罗 寸乓【彳k 卜毛 彳】晶【巧】 = c o v o ( 彳,五) 另外,根据c o v 。( 彳,r ) 的定义,我们可以得到下面的结论: ( f ) c o v 。( 彳,z ) = f l v a r d z ;) 此结论的证明如下: c o y 。( 彳,z ) = e d ( z 一日 彳】) ( r 一研l 】) 】 = 磊【( 彳一磊 彳】) r 】 = 厶 岛 ( 彳一岛 彳】) zi 彳】 = 磊 ( 彳一日 彳 ) e d a + p ki 彳】 = 岛【( z 一岛【彳】) + z ) 】 = 岛【( 彳一磊 彳 ) z j = v ( 彳) 根据( d ) ,( e ) ,( d 及依概率收敛的基本性质,我们不难得到 夕= 一 一”_ :。( 彳一乞。) l 刀叫:。( 彳- 2 ) 2 三等( 辞z 1 钮; j 由此,我们得到了夕的相合性。根据夕的相合性,引理1 以及上面的结论( b ) , 我们可以证明在的相合性,我们有 & = 譬一声艺 & r - p e d z ; = a + p e d z , l - , s e d z ;】 证毕。 第二章连续型协变量区间删失时塑垡堡旦塑塑型塑窆墼堡盐 竺查堕堕奎堂塑兰皇! ! ! j 三 二二二一。 定理3 石( 夕一) 乌( o ,2 呱1 【z :】) 磊( 舀一口) 乌( o ,2 霹 z l 】v 嘶1 【彳】) 证明:首先,我们证明夕的渐近正态性,不失一般性,我们假设岛【z i 】= 0 。容 易看到z 互独立同分布,且有 e 0 【z 互】- 日 & 【z :z jiz 】 = 磊【z 晶【互l 彳】 = e 0 【乏2 】 根据定理2 中的( d ) ,我们有 石c 夕一,= 万 ! 二主;群一 :石i 焦缮p 斗似。 :石区1 【彳2 p 。( 乏一乞) z f l f d z 7 2 】 + o p o ) = 万1 互2 】i 以1 :,( 彳一乞) z f 一日【彳2 】j + o p ( 1 ) = 凇写1 【互2 】l 1 - 1 z t _ - 。彳z j 一层 彳2 】i + o p ( 1 ) 旦一( o ,2 区1 【彳2 】) 因此,我们有 二( 彦一) 兰一( o ,2v 啄1 【z :】) 关于& 的渐近正态性,我们有 石( 盘一口) :石歹一声z 。一岱1 :石f 乞一弦1 = 一乞刀l - , 8i + o p o ) f - 一p 1 屿( o ,2 曰【z i 】v 啄1 【彳】) 证毕。 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文1 3 2 3m c m c 方法及其应用 2 3 1m c m c 方法简介 众所周知,积分运算在贝叶斯统计学中扮演着重要角色。例如,随机向量 x r p ,且它的先验密度为p ( x ) ,随机变量y 的条件似然函数为l ( ylx ) ,由贝 叶斯定理( b a y e s st h e o r e m ) , 万( xiy ) o o l ( yix ) p ( x ) , 这里厅( xiy ) 是后验密度,比例常数为 i l ( yx ) p ( x ) d x 另外,我们可能对x 的某种形式的后验期望感兴趣,如 e a ( x ) ly 】= i 目( x ) 万( xy ) d x 以上两式都需要计算积分,然而对这两个积分的直接计算常常是非常困难 的。一般地,我们必须借助一些数值积分的手段,如s r n i t l l 【2 2 】中介绍的数值积分 方法和分析逼近方法等。m c m c 方法为解决类似的积分计算问题提供了另一种 途径,它通过直接从后验分布中抽样,从而得到感兴趣的量的估计。 m c m c 抽样的思想最初i 丰i m e t r o p o l i s 1 9 等人为了有效的模拟晶体结构中原 子的能级而引入,后而h a s t i n g s 9 对其进行了修改并将其运用于解决统计问题, 其后越来越多的统计学家才开始对m c m c 方法进行研究,现在它已成为一种非 常流行的统计计算方法。有关m c m c 方法的详细论述,可参见b r o o k s 2 和茆诗 松等 3 0 1 。 为了介绍m c m c 方法,我们先简单回顾一下最基本的马尔可夫链( m a r k o v c h a i n ) 理论。一条马尔可夫链是一列随机变量,记为 以;,l 0 ,e r ,且转 移概率满足 p ( 以+ 。ai ,以) = k ( 以,么) , 即马尔可夫性( m a r k o vp r o p e r t y ) ,这里彳是状态空间的任一可测子集。k 的分 布称为马尔可夫链的初始分布。在托条件下,疋的条件分布为 尸( 以al 五) = k ”( 托,彳) , 这里k ”表示刀次运用k 。我们称密度函数x ( x ) 是这条马尔可夫链的不变分布 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文1 4 ( i n v a r i a n td i s t r i b u t i o n ) ,如果它满足 万( 彳) = i k ( x ,a ) 7 r ( x ) d x , 并且万( x ) 还是这条马尔可夫链的平稳分布( e q u i l i b r i u md i s t r i b u t i o n ) ,如果它还满 足 l i mk ”( x ,彳) = 刀( 4 ) 马尔可夫链理论的一个基本定理是:如果一条马尔可夫链具有不变分布,并且这 条链是非周期不可约的,那么它的不变分布具有唯一性且这个不变分布也是它的 平稳分布。这个定理也是m c m c 方法的基础。 首先,m c m c 方法确定一条非周期不可约的马尔可夫链,它以我们所感兴趣 的分布,即目标分布( t a r g e td i s t r i b u t i o n ) 作为其不变分布。然后,我们通过模拟 产生一条或多条马尔可夫链,这样在一定条件下,每条链上的实现值将会形成一 个来自于目标分布的相依的样本。最后,我们使用这些相依样本进行统计推断。 在适当的条件下( 见r o b e r t s 和s m i t h 2 1 】) ,有如下著名的渐近结果 z ( ) - x z r ( x ) 当,jo 。时, 和 办( x o ) e , 办( x ) 】 当,专o o ,口思 i 持l 第一个结果告诉我们如果f 变得很大,那么x ( 可以近似地被看作是抽自目 标分布的一个随机数。而且,我们还可以根据这个结果得到近似的来自于目标分 布的独立样本,只要对每条马尔可夫链我们每隔k 个数取一个实现值,这里需要 合适地选取k 并对得到的样本的独立性进行检验。 第二个结果告诉我们如果h 是x 的任意一个刀可积的实值函数,那么这个函 数对实现值取平均,即函数的遍历均值( e r g o d i ca v e r a g e ) ,几乎处处收敛于目标 分布下的期望。实际应用当中,为了减少初值选取对结果的影响,常常抛弃前 1 0 0 至1 0 0 0 个值。 现在,一个令人感兴趣的问题便是如何构造一条恰当的马尔可夫链,它以我 们感兴趣的目标分布作为其平稳分布,下面介绍的g i b b s 抽样方法便是完成这项 工作的一种非常简单和流行的方法。 第二章连续型协变量区间删失时的线性回归模型的参数估计华东师范大学硕士论文1 5 2 3 2g i b b s 抽样 g i b b s 抽样是一种特殊的m c m c 方法,是一种非常简单和流行的方法。它最 初由g e m a n 和g e m a n 6 在研究图像存储问题时引入,后来g e l f a n d 和s i i l i t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025重庆綦江区三江街道公开招聘公益性岗位2人备考考试题库附答案解析
- 2025年宿州灵璧师范学校秋季学期公开招聘教师备考考试题库附答案解析
- 2025下半年浙江金华市兰溪市市属国企人才引进招聘19人备考考试题库附答案解析
- 2025年安徽建筑大学管理及教学助理招聘11名备考考试题库附答案解析
- 2025江西天然气管道设备安装工程有限公司面向江投集团内部招聘2人备考考试题库附答案解析
- 2025上海市崇明区交通运输事业发展中心 公开招聘非在编人员备考考试题库附答案解析
- 2025年泉州发展集团有限公司(第二批)人才引进招聘29人备考考试题库附答案解析
- 有机农业赢销之道
- 阅读的魅力与价值
- 基于移动互联网的智能家居服务机器人系统架构设计-洞察及研究
- GB/T 44757-2024钛及钛合金阳极氧化膜
- 2024-2025学年广东省深圳市宝安区富源学校九年级(上)第一次月考数学试卷(含答案)
- 红领巾爱祖国 星星火炬耀成长主题班会2
- 中国地级市经纬度-精确版
- 07SG111-1 建筑结构加固施工图设计表示方法
- DB44-T 2474-2024 自然教育标识设置指引
- 2022年高考全国Ⅰ卷语文真题及参考答案-全国Ⅰ卷
- 2024年成都温江兴蓉西城市运营集团有限公司招聘笔试冲刺题(带答案解析)
- 天津市普通高中学业水平考试英语词汇表
- Wagstaff低液位自动控制铸造-课件
- 锂电池安全培训课件
评论
0/150
提交评论