




已阅读5页,还剩80页未读, 继续免费阅读
(概率论与数理统计专业论文)数据缺失下的分布函数估计问题.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据缺失现象普遍存在:做随机调查时某些个体拒绝提供相关信息;工业 过程出现故障没有获得数据:经济或商业活动中的某些数据有意或无意地遗 漏;病人没有如期拜访医生;临床实验中各种主客观因素导致记录的数据不完 整等等。 如果记随机变量y 为数据的来源变量,在数据缺失下的统计分析就是分析 和推断随机变量y 的特征,如均值,分位数,分布函数等等。由于分布函数是 对随机变量最全局最深入的刻画,本论文就研究这个问题:在数据缺失下,如 何估计随机变量y 的分布函数。显然,该问题的解决不仅有重大的理论意义, 而且有广阔的应用背景。 文献中,一直在进行着对此问题的探索。当数据缺失机制有确定的函数 形式且待估的分布函数是参数型时,分布函数的估计有比较成熟的方法,参 阅l i 托l e & r u b i n 【1 4 1 和其中的文献,当数据缺失机制已知时h u & l a w l e s s f 1 1 】获得了分布函数的非参数极大似然估计,当数据缺失机制函数形式 已知但包含一个一维未知参数p ,所关心的分布是无确定形式的一维分 布f ( ! ,) 时,l e i g h1 1 3 1 得到t ( e ,f ( 暑) ) 的半参数极大似然估计。 然而,该问题还有很多方面没有解决,其中,当y 为多维随机向量且其分 布无确定形式,数据缺失机制未知而且不能仅仅由一维参数决定时,对y 的分 布函数估计工作更是空白。 由于数据缺失机制本性上的复杂,很难获得统一的分布函数估计方法,往 往只能就该问题的某些方面给出相应的估计方法。本论文就文献中未曾解决的 以下方面的问题进行研究: 第二章考虑二维随机向量( x ,y ) 在非随机数据缺失下的联合分布函数估 计,此时假定只有随机变量y 的数据缺失,数据缺失机制的函数形式已知,但 包含多维未知参数口。本章证明了未知参数p 的估计量口的相合性和渐近正态性, 也证明了分布函数f ( z ,y ) 的估c t t z ( z ,掣) 的相合性和渐近正态性。 第三章问题如下:假定可以知道缺失的数据是否属于本章条件指定的某 些区间中,在此前提下,对一维随机变量y 的分布函数f ( 口) 作估计。此时,仍 然假定数据缺失机制形式已知,但包含某未知多维参数p 。本章证明了未知参 数日的估计量自的相合性和渐近正态性,也证明了分布函数f ( y ) 的估计量户( ! ,) 的 一i 一 摘要 相合性和渐近正态性。 第四章研究数据缺失机制形式未知时如何对离散随机变量y 的分布函数作 估计,此时假定有一个与y 相关的辅助变量x 的数据可以完全观察到,本章证 明了所构造的估计量的相合性 第五章研究的内容是数据随机缺失时的联合分布函数估计。本章构造的估 计量是强相合的,且服从渐近正态分布 第六章研究在数据缺失机制形式未知时,通过两步抽样得到了分布函数的 相合的估计量,且该估计量是渐近正态的。本章假设第二次抽样时的数据缺失 机制与第一次抽样时的数据缺失机制有一个一维未知参数的差别。 关键词:数据缺失机制,可识别性,分布函数。 一一 a b s t r a c t a b s t r a c t t h em i s s i n gd a t ap h e n o m e n o ni su n i v e r s a l :r e s p o n d e n t si nah o u s e h o l ds u r v e y m a y r e f u s et or e p o r tp r i v a t ei n f o r m a t i o n ,i na ni n d u s t r i a lp r o c e s ss o m er e s u l t sa r em i s s i n gh e c a l l s eo fm e c h a n i c a lb r f a k d o w r s ,s o m ed a t aa l em i s s i n gw i t ho rw i t h o u ti n t e n - t i o ni ne c 伽o m i co rc o m m e r c i a la c t i v i t i e s ,p a t i e n t sd on o ts h o w 印s c h e d u l e ,t h e r e c o r d e dd a ma r en o tc o m p l e t ei nc l i n i c a le x p e r i m e n t sd u et os u b j e c t i v eo ro b j e c t i v e f a c t o r a n ds oo i l l e tyd e n o t e st h er a n d o mv a r i a b l ea s s o c i a t e dw i t ht h ed a t a , t h ea i mo fs t a t i s t i c a l a n a l y s i su n d e rm i s s i n gd a t ac i r c u m s t a n c ei st oi n f e rt h ec h a r a c t e r i s t i c so ft h ev a r i a b l e y s u c ha sm e 姐,q u a n t i l e ,d i s t r i b u t i o nf u n c t i o n f j c s i n c ed i s t r i b u t i o nf u n c t i o ni st h e m o s tc o m p r e h e n s i v ea n dt h o r o u g hf e a t u r eo ft h ev a r i a b l ey ,t h i sd i s s e r t a t i o ni sd e v o t e dt o 翻= i l d yt h i sp r o b l e m :h o wt oe s t i m a t ead i s t r i b u t i o nf u n c t i o nw i t hm i s s i n gd a t a o b v i o u s l y , s o l u t i o nl ot h ep r o b l e mw i l ln o to n l yb eo fg r e a tt h e o r e t i c a ls i g n i f i c a n c e , b u ta l s ob eo f e x t e n s i v ea p p l i c a t i o nb a c k g r o u n d t h e r eh a v eb e e ne x p l o r a t i o no nt h ep r o b l e mi nt h el i t e r a t u r ea l lt h ew a y i ft h e m i s s i n gd a t am e c h a n i s mi sk n o w nu pt os o m eu n k n o w np a r a m c t 日sa n dt h ed i s t r i b u t i o nf u n c t i o ni sa s s u m e do fp a r a n t e rm o d e l ,t h e r eh a v eb e e nm o d e r a t em a t u r e s o l u t i o nt ot h ep r o b l e m ,s e el i t t l e r u b i n 【1 4 】a n dt h ee s s a y sc i t e dt h e r e i ft h e m i s s i n gd a t am e c h a n i s mi sk n o w n , 日钍l a w l e s s 【i1 】i n t r o d u c e dam e t h o dn a m e d n o n p a r a m c t r i c a lm a x i m u m l i k e l i h o o de s t i m a t i o nt oe s t i m a t et h eu n d e r l y i n gu n s p e x i f l e dd i s t r i b u t i o nf u n c t i o n i ft h em i s s i n gd a t am e c h a n i s mi sk n o w nu pt oau n k n o w n s c a l a rp a r a n 抡t e ra n dt h ed i s t r i b u t i o nf u n c t i o ni su n s p e c i f i e d ,l e i g h 【1 3 】o b t a i n e das o c a l l e ds e m i - p a r a m e 砸c a lm a x i m u ml i k e l i h o o de s t i m a t i o n h o w e v e r , m a n y 硒p c c t so ft h ep r o b l e mi su n s o l v e d , e s p e c i a l l y , t h e r ei sa b l a n k w h e nt h er a n d o mv a r i a b l eyi sam u l t i d i m e n s i o nr a n d o mv e c t o rw i t hu n s p e c i f i e dd i s t r i b u t i o na n dt h em i s s i n gd a t am e c h a n i s mc a l ln o tb ed e t e r m i n e dv i aas c a l a rp a r a m e t e r d u et ot h ec o m p l e x i t yi nn a t u r eo ft h em i s s i n gd a t an l e c h a n i s ni ti sh a r dt os e e k 柚u n i f o r mw a yt os o l v et h ep r o b l e m t h i se s s a ys t u d i e st h e s ea s p e c t so ft h ep r o b l e m w h i c hh a v en o ty e tb e e ns o l v e d t h e ya l e : i nc h a p t e rt w o ,w ei n t r o d u c eap r o c e d u r et oe s t i m a t et h eu n d e r l y i n gd i s t r i b u t i o n 一一 a b s t r a c t f u n c t i o n o f a t w o - d i m e n s i o nr a n d o m v e c t o r ( x ,y ) ,w h e r e t h e m i s s i n g d a t a m e c h a n i s m i sk n o w nu pf oak - d i m e n s i o nu n k n o w np a r a m e t e r0 ,e s t i m a t o r so ft h ep a r a l n e _ t c r a n dt h eu n d e r l y i n gd i s t r i b u t i o n 批c o n s u u c t e d , a n dt h eo s y m p t o t i c a lp r o p e r t i e so ft h e e s t i m a t o r sa r es m d i c d i nc h a p t e ri h r e e w ea s $ 1 1 1 1 把w ec a nk n o wf o rs t l l w h e t h e rt h em i s s i n gd a t ab e - l o n gt o $ o l n ep r e s c r i b e di n t e r v a l so rn o la n dt h em i s s i n gd a t am e c h a n i s mi sk n o w n u pt oak - d i m e n s i o nu n k n o w np a r a m e t e r0 ,w b & r i v et h ee s t i m a t o r sa n ds t u d yf f a c i r a s y m p t o t i c a lp r o p e r t i e s w eo b t a i nac o n s i s t e n te s t i m a t o ro ft h eu n d e r l y i n gd i s t r i b u t i o no fad i s c r e t et a l l d o r av a r i a b l ey i nc h a p t e r f o u r , o nt h ep r e m i s eo fs o m ei n f o r m a t i o nc a r r i e db ya n o t h e r r a n d o mv a r i a b l exa s s o c i a t e dw i t ht h ev a r i a b i ey w h e nt h em i s s i n gd a t am e c h a n i s mi sm a rb u tu n s p e c i f i e d ,w ei n t r o d u c ea m e t h o dt oe s t i m a t et h eu n d e r l y i n gd i s t r i b u t i o nf u n c t i o nf ( z ,= ,) i nc h a p t e rf i v e c h a p t e rs i xp r e s e n t sat w o - w a v e ss a m p l i n gm e f l l o dt oe s t i m a t ead i s t r i b u t i o nf u n c - t i o no fad i s c r e t er a n d o mv a r i a b l ey w h e r ew ea s s u i i l et h et w om i s s i n gd a t am e c h a - n i s m si sa l i j i nf u n c t i o n a lf o r ma n dad i s t i n c t i o no fau n k n o w ns c a l a rp a r a m e t e ri s a l l o w e db e t w e e nt h et w om i s s i n gd a t am e c h a n i s m s k e yw o r d s :m i s s i n gd a t am e c h a n i s m ,i d e n t i f i c a t i o n d i s t r i b u t i o nf u n c t i o n i v 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或其他机构已经发表或撰写过 的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的 声明并表示了谢意。 作者签名: 论文使用授权声明 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分 内容,可以采用影印、缩印或其他复制手段保存论文。保密的论义在解密后遵 守此规定。 作者签名:拦塑鱼一导师签名: 、 日期一翌至型 第章介绍 1 1 问题的提出 第一章介绍 分布函数估计问题是概率统计学中最基本的问题。对于随机变量而言,知 道了它的分布函数也就是知道了它全部的统计性质,因此,随机变量的分布函 数估计是数理统计理论和实际数据统计分析中一项重要的内容。 我们知道,在经典的统计分析中,即在能够得到完全数据的情况下,经验 分布理论完美地解决了分布函数估计问题。经验分布估计有我们所希望的大样 本性质,我们可以通过样本的增加保证估计的精度达到要求。在一些只能观 察到某种形式的不完全数据情况下,诸如随机截断,随机截尾抑或是区间数 据等等,我们也有行之有效的分布函数估计方法,例如处理随机右截断数据 的k a p l a n m e i e r 估计【1 2 ,w o o d r o o f e 【2 8 对随机截尾( t r a u c t i o n ) 时的分布 函数估计工作,以及g r o e n e b o o m w e l l n e r 【6 】关于区间数据的分布函数估计方 法等等。这些方法也有良好的大样本性质,已经成为处理相应问题的标准方 法。 但有时,在实际统计分析工作中,经常会遇到某些数据缺失的情况,如在 抽样调查时可能有一些个体不予配合,不愿意提供某些数据;设计好了的临床 实验中部分患者不遵守日程安排,导致一些数据没有获得;经济或商业活动中 的某些数据有意或无意地遗漏;工业制造过程出现故障没有获得数据等等。总 之,现实社会中各领域内的统计数据或多或少地包括部分数据的缺失。然而事 实即使如此,实际的概率统计工作中仍然希望对随机变量的分布函数有所了 解,也仍然会提出分布函数估计这一要求。 如果有部分数据缺失了,则上述文献中的方法都不能直接用于分布函数的 估计。数据的缺失和不完全数据的性质是不样的,因而对于缺失数据情况下 的处理也和不完全数据下的处理不同。这点可以通过缺失数据和随机右截断数 据相比较而明晰。我们知道,如果我们感兴趣的随机变量为y ,与之作随机右截 断的变量为z 。通常我们得到如下的观察量:如果y 大于z ,观察到z ,反之观 察到y 。即我们总知道数据是来自于我们感兴趣的变量还是来自于作截断的变 量并且我们每次的观察都没有落空,即每次都能获得一个数据r a i n ( y z ) 。而 在数据缺失情况下,则不是如此。若把数据缺失机制类比为随机截断变量的作 第章介绍 用,这样,我们总可以知道数据究竟有没有缺失,这和随机截断时我们总可以 知道数据的来源一样,但是此时数据缺失,即某些次的观察没有得到数据。如 果我们通过别的途径知道了,我们就可以利用这个数据来估计导致数据缺失的 机制,正如我们可以用来自于截断变量的数据来估计截断变量的分布一样,进 而可以得到我们关心的分布函数的估计。所以。数据缺失下的分布函数估计是 一个新的问题,而在数据缺失下的分布函数估计必须寻求新的方法。 一般而言,部分数据缺失可能导致所关心的分布函数不可识别。举一个 简单的例子,某随机变量x 眼从两点分布,p r 畔= 0 ) = p r ( x = 1 ) = 0 5 , 某缺失机制使得当x = 0 时该值出现在样本中的概率为0 4 ,当x = 1 h ;j 该值 出现在样本中的概率为0 9 ,通过简单计算知道,出现在样本中的0 占样本量 的2 0 6 5 ,样本中的1 占4 5 6 5 ,且样本量占所作抽样的比例为6 5 l o o 。随机变 量y 也服从两点分布,p r ( y = 0 ) = 0 2 5 ,p r ( y = 1 ) = 0 7 5 ,另一缺失机制使 得当y = o 时该值出现在样本中的概率为0 8 ,当y = 1 时该值出现在样本中的概 率为0 6 ,则出现在样本中的0 也是占样本量的2 0 6 5 ,样本中的1 占4 5 6 5 ,且样 本量占所作抽样的比例同样为6 5 l o o 。即在两种情况下,得到的观察量的分布 完全一样,因此无法分别出究竟数据是来自变量x 还是来自变量y ,当然也无 法分别出数据缺失机制是哪一个,事实上有无穷个组合可以在最终观察量的分 布上表现一致。不可识别的原因在于此时从观察所获得的信息不足以能够唯一 地还原到原始数据所含的信息。实际观察值的分布由我们感兴趣的随机变量的 分布函数和数据缺失机制以某种联合的方式共同决定,两者共同作用的结果可 以通过最后的观察而被我们感知,然而两者是如何联合作用的这一方式却可能 难以确定。 从上段论述中可知,对于最一般的情形,即随机变量】,的分布函数f ( 暑r ) 无 确定形式,数据缺失机制也无确定形式时,此时分布函数f ( ) 是不可识别的, 因此,试图获得与随机右截断下的k a p l a n m e i e r 估计类似的估计是不可能 的。本文并不考虑这种最一般的情况。本文从常见的数据缺失类型着手,在一 定的条件下,保证在虽然有数据缺失且数据缺失机制未知的情况下,我们感兴 趣的随机变量的分布函数仍然是可以识别的。在此前提下对分布函数f ( ) 作出 了估计,并证明了估计量的大样本性质。 1 2 数据缺失机制的定义 对于数据缺失的相关问题的研究中,数据缺失机制,即导致数据缺失的 一2 一 第- 章介绍 机制是很重要的一个概念,处理数据缺失的各种方法都依赖于相应的数据 缺失机制的性质,特别需要关心的是某数据的缺失是否与该数据有必然的联 系。融觑n 【2 l 】通过考察一个指示数据是否缺失的随机变量m 的分布提出了数据 缺失机制这一概念,使得数据缺失问题的研究有了一个正确的起点。 不妨举例说明,设完全数据y = ( ) 和实际观察到的数据如下:其 中m ,k ,k 分别表示随机变量y 的三个分量, y o ,i = 1 ,2 ,3 ,4 ,j = 1 ,2 ,3 ,表 示对变量巧的第t 次观察。 完全数据 m m蚝 y l l玑2y 1 3 z ,2 l勉物 9 3 1y 3 2 y 3 3 玑1 4 2y 4 3 实际数据 m砼b 讥1y 1 2讥3 抛l ? 物 珈1纰 ? 蛐1 77 其中,记号? 表示对应的数据缺失。对于观察到的实际数据,定义一个缺失数据 指示矩阵m = ( r e , j ) ,m 为一随机矩阵变量。如果数据蜥缺失,令仃坼= 1 ,否 则为o 。数据缺失机制就定义为给定随机变量y 后随机变i m f i l 勺条件分布,不妨 记为f ( m i y , o ) ,其中口为未知参数。根据条件分布,( m iy 口) 的性质,可以将数 据缺失机制分类。如果数据的缺失不依赖于随机变量y ,即若 f ( m i y , o ) = f ( m l o ) 对所有的y ,0 , 则此时数据缺失机制称为完全随机缺失( m c a r ) 。记y ,幽为随机变量y 观察到的 部分,如随机变量y 的某些观察到的分量,在上例中k ,幽= ( b 1 ,y 南) ,k 加= ( 蚝l , 扔) ,k 幽= k 1 ,记k 晌为随机变量y 缺失的部分,如果数据的缺失仅仅 依赖于y k 项,即若 f ( m i y , o ) = f ( m i y 幽,0 ) 对所有的k m ,0 3 一 第- 章介绍 则此时的数据缺失机制称为随机缺失( m a r ) 。如果数据的缺失还依 赖于x 自项,则此时的数据缺失机制称为非随机缺失( n m a r ) 。r u b i n 1 2 1 1 ,l i t t l e r u l r i n 1 4 1 进而指出:若对随机变量y 的分布作似然估计时, 在m c a r 和m a r 两种数据缺失机制下,作似然估计时可以忽略数据缺失机制的 影响。原因在于此时的似然函数为 五= ,( k ,m i a ,口) = ,( y 幽,f a ) f ( m i y 幽,d = ,( 矧y 咖,口) f f ( y 山,啪 = ,( ,k i a ) ( m i y , “, 其中,未知参数a 是感兴趣的随机变量l ,的分布中包含的参数,随机变量y 的 分布函数或是密度形式已知。这里假定两个参数a 和p 是互相不影响的,即联 合参数( a ,口) 所在的参数空间q x e 是a 所在参数空间q 与口所在参数空间q 口的积, 即,q 口= q 。从而极大化似然函数l 等价于极大化,( 1 k l a ) 。若随机变 量y 的分布函数形式不确定,作非参数极大似然估计时也同样可以把似然函数 分为两项的乘积,从而极大化我们感兴趣的一项。鉴于此,以后的文献中,也 称m c a r 和m a r 两种数据缺失机制为可忽略的( i g n ) ,而称为n m a r 型数据缺 失机制为不可忽略的( n i g n ) 。当然,m c a r 和m a r 两种数据缺失机制视关心的 问题的不同也有所区别,有时m c a r 和m a r 两者是等价的( 如随机变量y 为一维 变量,且随机变量k 为独立同分布变量时) 。 1 3 相关文献与处理方法 一:参数极大似然估计 对于参数模型,即随机变量y 服从参数分布,数据缺失机制f ( m i y , 口) 中的 函数,的形式已知,参数p 未知时,可以直接写出似然函数的表达式,极大化 似然函数后,即可以得到随机变量y 的分布函数f ( v ,口) 中的未知参数o t 和数据 缺失机制中的未知参数口。此时,无论随机变量y 是否是多维,也无论未知参 数日,口是否是多维,均可以用参数极大似然函数估计方法。参阅l i t t l e & r u b i n 1 4 1 和其中的文献。 二:非参数极大似然估计 一a 一 第章介绍 当一维随机变量y 的分布f ( ) 无确定形式,数据缺失机制,( m i y ) 不包含未 知参数g f ( m i y ) 的函数形式已知时,即数据缺失机制已知时,h u & l a w l e s s 【l l 】在假定随机变量y 为离散随机变量且其支撑集有限时,得到了分布函 数f ( ) 的极大似然估计。 三:半参数极大似然估计 当一维随机变量y 的分布f ( ) 无确定形式,数据缺失机制f ( m i y , 口) 中的未 知参数0 为一维参数,且,( m ly 0 ) 的函数形式已知时,l e i g h 【1 3 1 ,厶g a n g 【5 】用半参数极大似然估计的方法,获得了未知参数0 和分布函数f ( 可) 的估计, 并证明了参数0 的估计量口的强相合性质,计算了口的渐近方差。由于其主要的 目标是估计未知参数0 ,这两篇文献并没有讨论估计量p ( ) 的渐近性质。l e i g h 1 1 3 文中的数据缺失机制为p r ( m = o l k 口) = 唧( 一0 y ) ,似然函数为 l = 1 亘:e x p 训删) 1 一z 。计咖删r m s 挪 而未知参数口的估计d 由如下估计方程求解 其中,n 为实际观察到的样本数,而j 、r 为总样本数。 四:估计方程方法 ( 1 ,3 2 ) 估计方程方法一般用于求解未知参数,如回归参数,分布的某泛函如 均值等等,一般没有直接用来估计未确定的分布函数。通过建立关于未 知参数的无偏估计方程寻找估计量。对于随机变量y 的均值的估计可参 阅h o r v i t z 【l o 构造的h o r v i t z 型估计量,以及s c h a r f s t e i n ,e a t 叫【2 3 的c w 方 法和s c h a r f s t e i n ,e t a 1 【2 2 1 ,r o t n i t z h y ,e t 耐【1 9 1 ,b a n g r o b n s 【3 冲的估 计。对于回归系数的估计可参阅r o b n s ,e t a 【1 8 1 和r o t n i t z k y ,e t 0 2 【2 0 1 。如 对于未知参数p = e ( y ) 的估计,由于有 刚郴( 揣) 一5 一 = 挑 口 “ 瓴 一:i 第。章介绍 所以,构造其估计量为 垂皇善i = n 是n 筠 n s 渤 主i + n ( 脱= o 阢卯 其中,对于p 中( m = o l y ,8 ) 项中的未知参数铂q 估计,则视具体情况再用似然方 法估计或是寻求其它估计方程求解。 五:拟似然方法 假定数据缺失机制与随机变量x 无关,l i l l ( m i 五y ) = f ( m i y ) ,其中,函 数,的形式未知,t a n g ,e t a 1 2 4 1 在假定条件密度s v t x ( z ,! ,e ) l l t y l 参数模型的 前提下,用拟似然方法对未知参数p 作出了相合估计。 1 4 本文解决的问题 从上节可以看出,数据缺失时的分布函数估计还有很多问题没有解决。其 中,当y 为多维随机向量且其分布无确定形式,数据缺失机制未知且不能仅仅 由一维参数决定时,对y 的分布函数估计工作更是空白。 由于数据缺失机制本性上的复杂,很难用统一的分布函数估计方法,往往 只能就该问题的某些方面给出相应的估计方法。本论文就文献中未曾解决的以 下方面的问题进行研究: 本文第二章考虑二维随机向量( 五y ) 在非随机数据缺失下的联合分布函数 估计,此时假定只有随机变量y 的数据缺失,数据缺失机制的函数形式已知, 但包含多维未知参数p ,本章的估计方法是首先寻求关于参数p 的估计方程,之 后,再应用加权方法赋予每个观察到的数据合适的权重构造分布f ( x ,们的估 计,本章证明了如此构造的估计户( z ,) 是相合的,且有渐近正态性质。 第三章问题如下:在非随机数据缺失下,对维随机变量y 的分布函 数f ( f ) 作估计。此时,假定数据缺失机制形式已知,但包含某未知多维参数口, 且我们知道那些缺失的数据是否属于某些确定的区闻。在此前提下,本章构造 了估计量户( 可) ,并证明了估计量的大样本性质,如相合性和渐近正态性。 第四章研究数据缺失机制形式未知时的随机变量y 的分布函数估计问题, 这时假定我们还观察到了一个协变量x 。本章只对变量y 的分布函数感兴趣, 变量y 只是辅助变量。此时我们只研究离散型随机变量y 。本章证明了分布函 数的估计户( 掣) 的相合性。我们会说明在数据缺失机制无明确的形式下,连续型 一6 一 第章介绍 的随机变量的分布函数是不可以识别的。 第五章研究的内容是数据随机缺失时对二维随机向量( x ,y ) 的联合分布函 数f ( x ,! ,) 作估计。尽管在数据随机缺失时用似然方法估计时可以忽略数据缺失 机制的作用,但是用似然方法估计多维随机向量的联合分布函数时仍然会有困 难。本章直接构造分布函数f ( x ,! ,) 估计量,并证明了估计量的相合性和渐近正 态性质。 在第六章,我们研究在数据缺失机制形式未知时,进行两步抽样也能够得 到分布函数的相合估计。本章假设第二次抽样时的数据缺失机制与第一次抽样 时的数据缺失机制的函数形式相似,但允许两者有一个一维未知参数的差别。 本章证明了估计量的相合性和渐近正态性。 一1 一 第二章数据非随机缺失时的联合分布甬数估计 第二章数据非随机缺失时的联合分布函数估计 2 1 引言 本章讨论如下问题:我们对某二维随机向量( x ,y ) 的分布函数感兴趣,于 是做了样本量为的随机抽样,我们本来希望得到完全数据,即想得到个 观察数据,但是出于某些并不为我们知道的原因,我们只得到了n 个完全数 据 ( 五,m ) ,i = 1 ,n ,其余一价数据 x j ,j = 1 ,一凡 是不完全 的,其中,数据 y j ,j = 1 ,一n ) 缺失。这时,来自于随机变量x 的数据 完全观察到,只是随机变量y 的某些数据缺失。出现这一现象的原因可能是随 机变量,所反映的问题是有些人所忌讳的,所以不大可能没有例外地得到反 馈,而随机变量x 所反映的问题是一些基本信息,不至于是需要特别保密的。 此时,我们也可以视随机变量x 为基准变量,或是协变量。我们知道,在非 随机数据缺失下,如果仅仅用n 个完全数据 ( 五,m ) , = 1 ,n 来作推断, 特别是要对于随机向量( x ,y ) 的分布函数f ( z ,暑,) 作出没有系统偏差的推断, 是不可能的,原因在于数据缺失是非随机的,在没有弄清楚数据缺失机制之 前是不能作出正确推断的。而仅仅只靠得到的这n 个数据在很多情况下又不可 能对数据缺失机制本身作出正确的推断。为此,我们还必须充分利用n n 个 数据 x j ,j = 1 ,一n 所包含的信息。本章的目标就在于如何充分利用 所有观察到的数据 ( 五,m ) ,l = 1 ,佗) 和 x j ,j = 1 ,一n ) ,对随机向 量( x ,y ) 的联合分布函数f ( z ,) 作出估计。 用数学语言可以这样说:关于随机向量( x ,y ) 的观察数据为 五k k 五1 7 x r i + 2 7 x n ( 2 1 1 ) 其中,记号”? 表示对应的数据缺失,各次的观察相互独立,即, ( 五,m ) ,t = 一8 一 第二章数据非随机缺失时的联合分布甬数估计 1 , 相互独立。引用甩觑n 2 h 的i g 号,由于此时只有随机变量y 的数据 缺失,可以只用一个随机变量m 来指示是否有数据缺失。如果k 被观察到,即 出现在样本中,则记飓= 0 ,如果m 没有被观察到,即缺失,则记= 1 由 于 a 毛,i = 1 ,总是可知的,所以,现在总的观察量为 假定数据缺失机制如下: x 1m尬= 0 k = 0 x 叶17 + 1 = 1 五件27 肘 2 = 1 ? m x = 1 ( 2 1 2 ) p r ( m , = 0 1 磁= q ,k = 玑,口) = g ( x l ,玑,口) ,( 2 1 3 ) 其中,函数g 的形式已知,口为未知参数,o - 以是多维。此时不妨认为函数g 关 于未知参数p 连续且对口的微分也连续。具体的细致的条件在下文列出。显然 这一数据缺失机制是非随机数据缺失,即此时不能指望忽略它的作用而单纯 地仅用( 2 11 ) 式中的数据来作出无偏差的推断,而必须考虑随机向量( x ,y ) 和 变量 f 的联合分布,用( 2 1 2 ) 式中的数据来做推断。我们的目标是估计随机向 量( x ,y ) 的联合分布函数,还有未知参数口,即需要估计( 口,f ( z ,”) ) 2 2 对未知参数目的估计 首先,给出本章的基本条件。 a 1 ( x ,y ) 为取值于( u ,v ) rxr 的二维随机向量,其分布函数f i 2 y g f ( x ,可) 。 随机变量x l 勺2 k 一2 阶绝对矩有限,即要求e ( i x l 驰- 2 ) i x ) 。其中,七为 未知参数目的维数,k 已知。 a 2 未知参数p 所在的参数空间e 为r 中的开集,参数口的真值记为如。 a 3 数据缺失机制中的函数9 ( z ,y ,对于变量z ,涟续,对于参数0 - 次连续可 9 第二章数据非随机缺失时的联合分布函数估计 微,在其定义域内满足 0 0 , ( 2 2 2 ) 其中,g 为某一确定常数。邻域b ( 如,6 0 ) 皇( 0 l p :l i o o o l l 南) ,范数 记号0 见条件a 4 。 a 4 本章中出现的范数记号0 i i 均指欧氏空间r 的基本范数,即:对任意 的霉= ( z 。,x n ) l p ,令l l z l l = 、虿干霹了_ 再。若是对一维变量 取范数,则就是取绝对值,如果对于矩阵或是多维数组取范数,可以视为 先将其拉直成向量后再取范数。 a 5 存在真值如的某邻域b ,使得函数9 ( z ,y ,0 ) 在( u ,v ,b ( o o ,6 ) ) 内,对于 任意的t 1 ,”,j 1 ,埘,满足条件l 她( z ,玑口) is 1 ( z ,! ,) , 和l 纸岛( ,y ,o ) 1 圯( z ,! ,) 。其中她表示对巩求导数,鲍。岛表示分别 对仇和毋求导数。要求函数危l ( z ,) , 2 ( z ,) 满足条件 。 研( z ,y ) + 矿4 d f ( z ,f ) 。 0 ,使得 恕- s 跏u p 西( 悔c 旷巩c 驯1 ) ) 一 固 证明: 恕( s u p 如同( 愉一巩c 州) 熙( 妒:巍州鳓i | | | l i ) ) 舰b “恸删垴 其中,纽于线段o o z 间由条件a 5 可知,经过一些代数 计算后可知,数组懿( 5 ) 中的每一个元素都可以被与p ,无 关的函数h ( 五,m ,k ) 和也( 置,m ,k ) 的某线性组 合,( ( 托,m ,墨,k ) ,( 置,m ,x n ,k ) ) 所控制,注意到亩_ ( 旬 一1 2 一 第二章数据非随机缺失时的联合分布雨赞估计 为一样本均值形式,但不是独立的随机向量和的样本均值,不能直接应用大数 定律,但,( 危l ( x l ,m ,墨,k ) ,h 2 ( x l ,m ,k ) ) 是独立的随机向量和 的样本均值,于是,( l ( x l ,m ,五。,k ) , 2 ( x l ,m ,五。,k ) ) 服从大数定 律所以 l i m ( 妒s u p ( m 咖) a l i r a 。( f ( h l ( x l ,m ,碥) ,h 2 ( x l ,m ,) ) ) x6 。e ( ,( l ( x ,y ) ,h 2 ( x , ”) ) 五 条件a 5 保证了0 e ( f ( h 1 ( x ,y ) ,( x ,y ) ) ) ,从而,若取6 取习永夏氕碌丽,即可以完成引理2 2 的证明。 下面的定理是关于估计量口的存在唯一性质的。 定理2 1 :在条件a 1 a 7 下,估计方程( 2 2 7 ) 在条件”指定的邻域内有解口,且 在该邻域内解唯一,并且6 是未知参数口的强相合估计,自一。岛。若方程 ( 2 , 2 ,7 ) 在条件a 5 指定的邻域之外还有解,则此解不会是相合的。 证明:由于b ( o o ) 垒1 i m 一口( o o ) = 0 ,而日是估计方程8 ,( 口) = o 的解。主 要的证明过程是反函数定理的运用。条件a 7 保证函数8 ( 日) 在真值如的某邻域 内渐近可逆,引理2 :保证了函数b n ( d ) 在条件a 5 指定的邻域内关于p 一致收敛 到e ( 亩( 口) ) ,条件a 6 相当于似然函数估计h e s s i a n 矩阵为负定。对于此定理 的细致证明,可参阅估计方程理论和参数似然函数估计理论,如h e y d e 【9 1 , 和f o u t z 4 1 。本章的条件a 6 是与h e y d e 【9 】第十二章中( 1 2 4 ) 式等价的但是更加 直观的条件,也类似于f o u t z 【4 】文中条件( b ) 。 现在证明估计量p 的渐近正态性质,注意到p 是估计方程( 2 2 7 ) 的解,我们 首先证明( 既( ) ) r = ( b l ( 如) ,巩( 如) ) r 的联合渐近正态性。即需证明如下 引理。 引理2 3 :在条件a 1 a 4 下,、,何( b 1 ( ) ,鼠( ) ) t 渐近服从一联合正态分 布,即 、( b l ( 如) ,- ,b k ( 如) ) 1 一om v n ( o ,e b ) , ( 2 2 9 ) 其中,协方差b 的具体表达式在下文中给出记号嘴向量的转置。 一1 3 第二章数据非随机缺失时的联合分布函数估计 证明:由于 马( ) ,j 1 ,七) ) 都是某独立同分布随机变量和的平均值,因 此可以直接应用多变量中心极限定理,从而其联合渐近正态性质成立。其中, 协方差矩阵b 可以直接计算得出,其具体表达式为 由条件a 1 一a 4 不难得到,e ( x 驰一2 + ( 赢一1 ) ) ,由删d e r 不等式可 知,矩阵占的各个元素均为有限值。 于是,有如下定理 定理2 2 :在条件a i a 7 t ,估计量自服从渐近正态分布,即 何( d 一0 0 ) 一。m v n ( o ,) , 其d e ,协方差矩阵e 为 = ( e ( 虱( ) - 1 xe b x ( ( e ( 氨( ) 。) r , - ) 其中,e ( 宣 ,) ) 的表达式见( 2 2 4 ) 式,记号t 表示矩阵的转置。 证明:因为定理2 i 已经证明了估计量6 的强相合性,口气。o o ,从而可以将函 数日v ( 自) = ( b 1 ( a ) ,鼠( 6 ) ) 在如处作泰勒展开得 0 = 马v ( a )( 2 2 1 2 ) = b ( 如) + 台_ ( ) ( 6 0 0 ) + ;( 一c o ) t 氐( ) ( 自一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年民航维修考试题库及答案
- 中职导游实务试题及答案
- 2025年航空器维修工程师考试题及答案
- 机务的面试问题及答案
- 外汇质押人民币借款合同(样式一)
- 总工程师面试题库及答案
- 高速公路路道施工合同(3篇)
- 超高清传输协议-洞察及研究
- 安徽导游资格证面试题及答案
- qc精益基础知识考试试题及答案
- 2025年志愿者服务日知识竞赛考试指导题库150题(含答案)
- K3ERPwise老单开发手册
- 诊断学黄疸课件
- 体积单位间的进率(说课稿)-2024-2025学年六年级上册数学苏教版
- 孕期营养管理如何兼顾宝宝和妈妈营养天津市职业病防治院营养科讲解
- 篮球场围网施工方案
- 办公设备供货服务方案
- 快递柜租赁合同
- 智能计算系统:从深度学习到大模型 第2版课件 6、第六章-面向深度学习的处理器原理
- 2024年小学教师继续教育工作计划范例(3篇)
- (2024)河南省公务员考试《行测》真题及答案解析
评论
0/150
提交评论