已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
y 、7 7 坶 中文摘叠 中文摘要 对于“数据缺失问题”,我们设d 维随机向量x 为协变量。y 为 受影响的反映变量,j 为指示变量在实践中,我们通常可以得到 这样一组不完全的随机样本( 置,k ,文) ,其中所有的置都是被完全观 测到的,m 是有缺失的,当缺失时区一0 ,否则,盈= 1 ,且有 ,) ( 6 = l i kx ) = 尸( d = l l x ) ,即y 是随机缺失( m a r ) 的本文我们将 在上述假设下对线性回归模型中y 的均值日进行估计,我们将插补方 法与加权方法相结合定义了几个不同的估计量,如边际均值估计量,加 权估计量等,证明了它们都是渐近正态的,并用j a c k k n i f e 方法得到它们 方差的相合估计,对它们的效率进行了比较我们还发展了经验似然方 法,得到了渐近于标准x 2 分布的调整的经验似然 关键词:线性回归反映变量数据缺失随机缺失 经验似 然 外文摘要 a b s t r a c t i nt h i sp a p e r md e v e l o pi n f e r e n c et o o l si nal i n e a rr e g r e s s i o nm o d e l n 7 ilh m i s s i n gr ( 1 8 p o n s ed a t al e txb ead - d i m e n s i o n a lv e c t o ro ff a c t o r s $ 1 1 1 dh tyb car e s p o n s ev a r i a b l ei n f l u e n c e db yx i np r a c t i c e ,o n eo f t e n o b ia i n sar a n d o n ls a m p l eo fi n c o m p l e t ed a t a ( 置,k ,文) ,w h e r ea l lt h e 置s a leo b s ( v v e da n d 函= 0i fki sm i :;s i n ga n d 盈= 1o t h e r w i s e t h r o u g h o u t t h i sa r ti e l e ,w ea s s n m et h a tyi s m i s s i n ga tr a n d o m ( m a r ) t h em a r a s s i l l n p | i o ni m p l i e st h a t6a n dya r ec o n d i t i o n a l l yi n d e p e n d e n tg i v e nx t h a ii s ,p ( 5 = ll x ) = p ( 6 = 1 x ) ac l a s so fe s t i m a t o r si sd e f i n e d t h a ii n c l u d e sa ss p e c i a lc a s e sal i n e a rr e g r e s s i o ni m p u t a t i o ne s t i m a t o r ,a n m r g i n a la v e r a g ee s t i m a t o r ,a n dap r o p e n s i t ys c o r ew e i g h t e de s t i m a t o r w es h o wt h a ta n yo fo u rc l a s so fe s t i m a t o r si sa s y m p t o t i c a l l yn o r m mw e s h o v et h a tt h ej a c k k n i f em e t h o dc a l lb eu s e dt oc o n s i s t e n t l ye s t i m a t et h e a s y m p l ( ) t i cv a r i a n c e t h ee m p i r i c a ll i k e l i h o o dm e t h o di sd e v e l o p e d a n a , l j u s l e de m p i r i c a ll o g l i k e l i h o o dr a t i o ,w h i c hi sa s y m p t o t i c a l l ys t a n d a r d h i s q u a r e d ,i so b t a i n e d b a s e do nb i a s e sa n ds t a n d a r de r r o r s ,ac o m p a r i s o n i sm a d eb ys i m n l a t i o nb e t w e e nt h ep r o p o s e de s t i m a t o r sa n dt h er e l a t e d e s t j l l l a i o r s k e y w o r d s :l i n e a rr e g r e s s i o nr e s p o n s ev a r i a b l em i s s i n gd a t a l i s s i n ga t , r a n d o m e m p i r i c a ll i k e l i h o o d i i 第1 章绪论 第1 章绪论 1 1 关于数据缺失 数据缺失一直都是实际中经常出现的问题例如,在问卷调查中, 由于被调查者不愿意提供某些信息会造成调查结果的缺失;在医疗研究 中,一些病人不愿就治疗效果而接受调查或由于统计者的疏忽而使效果 数据遗漏都造成数据缺失;在医学和物理学研究领域中,一个重要的问题 是影像恢复,这实际上是另一种处理数据缺失的问题,以脑电图为倒,在 脑电图形成过程中,我们无法直接观察辐射的光电子而使用电子辐射断 层摄影术,不但这种方法本身就产生数据缺失,而且光电子通过人体组 织后减弱或不能干任何检波器相遇而遗漏也使我们面临数据缺失问题 总之,数据缺失普遍发生在民意调查,市场调研,邮寄问卷调查,社会 经济研究,医药研究及生物遗传等科学试验中,而且在现实生活中,无 论人们付出多大的努力数据缺失总是不可避免的 实际生活和研究中一个最基本的问题是评估某些因素( 协变量) 对 一个人们感兴趣的量( 反映变量) 的同时影响,对此回归模型提供了一个 很好的框架关于回归模型的统计推断理论已经有了较为全面的发展, 但在上述的数据缺失情况下,已有的理论并不能被直接应用,这样我们 就需要寻找新的方法来解决这一问题本文中我们将主要讨论线性回归 模型中反映变量有缺失的情形下反映变量均值的估计 设d 维随机向量x 为协变量,y 为受x 影响的反映变量,6 为指 示变量在实践中,我们通常可以得到这样一组不完全的随机样本 ( 墨,k ,刚i = i ,2 ,n 其中所有的置都是被完全观测到的,k 是有缺失的,当m 缺失时 文= 0 ,否则,文= l ,且有p 似= l f x ) = p 妲= 1 ) ,即 ,是随机缺 失f m a r ) 的本文我们将在上述假设下对y 的均值0 进行估计 黑龙江大学硕士学位论文 1 2 “数据缺失问题”的研究 近些年来,随着统计科学的发展,“数据缺失问题”受到了众多统计学 者的广泛关注最早提出的解决“数据缺失问题”的方法为c o m p l e t e c a s e 方法,它是将所有含缺失数据的项目剔除,再对余下的数据用常规方法进 行统计推断然而,1 9 8 7 年l i t t l e 和r u b i n 1l 指出这种方法会去掉很多 有价值的信息,而且若数据缺失不是随机的情况下,应用c o m p l e t e c a s c 方法所得到的估计量往往是有偏差的,因此,提高效率和减少偏差就成 了我们对“数据缺失问题”的研究重点 目前,最常用的处理反映变量缺失的方法是插补法,它是将缺失的数 据用替代值来填补,然后将所有数据做为完全数据来分析,可见r a o 和 s h a o 2 ,l i p s i t z 3 ,b a r n a r d 和r u b i n 4 ,r o b i n s 和w a n g 5 j 等的文章通 常的关于反映变量缺失的插补方法包括h e a l y 和w e s t m a c o t t 6 1 的线性 回归插补, c h e n g f 7 的核回归插补, r a o 8 】的比率插补等等在他们 中, c h e n g 7 应用核回归插补方法对y 的均值口做出了估计,得到8 的估计量 1 三 日c = 考芝二 函k 十( 1 一也) 峨( 墨) ) 。i = l 其中存k ( ) 是基于所有使文= 1 的( 置,k ) 得到的n a d a r a y a w a t s o n 核 估计量, c h e n g 7 】建立了以的渐近正态性,并得到了其渐近方差的一 个相合估计 1 9 9 6 年r a o 8 用比率播补法对调查中出现的无回答数据 进行修正,来研究方差估计 2 0 0 2 年w a n g 和r a o 9 】应用非参数核回 归插补机制发展了反映变量均值的经验似然理论 w a n g 1 0 1 利用辅助 信息定义了一个经验似然估计量,而且得到了一个渐近妒分布的经验 对数似然 在r o s e n b a u m 和r u b i n i 1 1 1 9 8 3 年文章的影响下,人们得到了另 外一个被广泛应用的方法,基于倾向得分( p r o p e n s i t ys c o r e b a s e d ) 的方 法,它尤其被应用于医学上测量某种治疗效果的试验中更多此方法的应 2 第1 章绪论 用可见s c h a f e r 和s c h e n k e r 1 2 :p e p e ( 1 9 9 2 ) 1 3 ,p e p e ( 1 9 9 4 ) 1 4 ,f i t z m a u r i c e f l5 j 1c h e n 1 6 等的文章h e c k m a n ,i c h i m u r a 及t o d d 17 】在对某个 社会问题进行估价中也用到了这一方法 1 9 9 8 年h a h n 1 8 1 基于倾向得 分p ( x ) 构造了口的估计量,并得到了其半参数的效率边界 然而,在实践中c h e n g 7 1 的非参数核回归插补估计量表现得并不 好,因为若x 的维数过高就可能会出现维数祸根现象,见s t o n e 1 9 1 尽 管l i n t o n 2 0 1 提出维数祸根的情况不会影响一阶的渐近理论,但它仍会 出现在高阶的渐近问题中,更重要的是维数祸根现象会持续影响估计量 的实际表现,类似问题也会发生在实际问题中反映变量本身就依赖于很 多协变量的情形下 在本文中我们将讨论线性回归模型( 1 1 ) ,用不同的方法得到几个关 = 砰卢+ 矗( 1 1 ) 于0 的估计量,分别来讨论它们的渐近性质,并用j a c k k n i f e 方法得到它 们方差的相合估计然后再对这几个不同估计量的效率加以比较,得到 了很好的结果当线性模型假设不正确时,估计量是有偏的,文中描述了 它们偏差的特性,其中个估计量有s c h a r f s t e i n ,r o t n i z k y 和r o b i n s 2 1 1 提出的双重稳健性此外,我们还发展了被调整的经验似然w a n g 和 r a o f 2 2 1 发展了线性模型中回归系数的经验似然理论,在这里我们将建 立关于9 的调整的经验似然理论 介绍 1 3 本章小结 在本章中,我们给出了数据缺失问题以及这一问题研究现状的简单 3 黑龙江大学硕士学位论文 第2 章数据缺失时均值目的估计及其性质 2 1 估计方法及估计量 这一节中,我们定义下面所要讨论的估计量为了估计反映变量的 均值口,我们首先来估计回归模型( 1 1 ) 中的未知参数口用指示变量文 左乘模型( 1 1 ) 的两端有 文= 文砰卢+ 文矗( 2 1 ) 移项整理可得 文矗= 盈k 一瓯霹卢( 2 2 ) 然后对( 2 2 ) 式应用最小二乘法,使左端的误差项达到最小,即所求卢 的估计量应满足 睁也陇一f ) 2 ( 2 3 ) 容易求得卢的估计量 磊= 匹文墨砰r 1 文置 ( 2 4 ) 显然我们所得到的风是由所有使也= 1 的( 咒,k ) 求得的,即由可以 被完全观测到的数据得到的最f j 、z 乘估计 完成了参数卢的估计,下面我们来讨论反映变量均值p 的估计我 们将插补方法与加权方法相结台来定义具有一般形式的估计量口如下: 一= = :喜赢刍斗:喜e 一;可,霹席 c zs , 其中黑( o ) 是以概率密度p ( z ) 为极限的连续函数 可见,只要将( 2 8 ) 中的焉扛) 取不同的值,我f f 目1 1 可以得到不同 的估计量下面就来讨论它取几个特殊值时目的估计量 4 第2 章数据缺失时均值。的估计及其性质 l 、当焉( z ) ii 时,0 的估计量为: ,_ : k + ( 1 一民) 矸鼠) ( 26 ) 此时我们称o t 为回归插补估计量 2 、当r ( z ) = o 。时,0 的估计量为: 自村一= ;矸反 ( 2 7 ) 此时我们称眇煳为边际均值估计量,显然它仅仅是对我们估计所得的回 归函数做了一个平均 3 、当g ( z ) = p ( z ) 时,o 的估计量为 知= :喜怒+ :喜c 一志,砰色 c 。脚 其中 文肖( 学) 户( 。) = 粤! l 一妻k ( r c - 。x i k ( ) 是核函数,h 。是窗宽序列 此时我们简称0 ,为加权估计量 观察前两个估计量,它们都是被显式定义的,且只依赖于一维运算, 这两个性质在统计学观点被认为是可取的其中插补估计量0 1 和边际均 值估计量8 m 不依赖于任何其他估计,因此在理论上要求更少插补估 计量以还有一个特别的好处,当y 的观察值增加时,可以将它们直接 增加到计算公式中,便于计算 4 、当臻= 戽( 。) 时,即假设关于尸( z ) 我们还有一个参数或者半参数的 模型b ( z ) ,其中r 可能是维数有限或无限的参数,只( z ) 可以用p 亍( z ) 来估计,此时。的估计量为: 珏磊1 n 怒+ 元1 善n ( ,一志孵反 。) 5 黑龙江大学硕士学位论文 在这种情况下,可能会出现高维运算,而且获得f 的步骤可能会很复杂, 【习为它通常包含有非线性的函数,若它还含有非参数的估计量,那我们 所得到的估计量口一的性质可能会非常可怜,故在此我t f j j g x 4 它做更多 讨论 2 2 估计量的渐近正态性 在这一部分中,我们分别来叙述昂( 。) 取1 ,0 0 及p ( z ) 等不同值时 口的估计量口的渐近性质,并给出其方差的相合估计 令p 0 ) = p = 1 f = z ) ,m ( x ) = x 7 ,矿扛) = e ( ( y x 7 启) 2 x = $ ) ,= e ( 6 x x 7 ) 为方便引出下面定理,我们首先列出如下假设条件: ( c p ) ( 1 ) p ( z ) 有直到( d ) 阶的有界偏导数 ( 2 ) i n f p ( 茹) o ( c m ) m ( x ) 也有直到( d ) 阶的有界偏导数 ( c y ) s u p e 【y 2 f x = 叫 d ( c h 。) ( 1 ) n 挈l o g n 。o o ,且n 挚- 4 0 ( 2 ) 对于( cf ) 中的町n ,有镌n d l o g n = d ( 1 ) ,且 。镌= 0 0 ) ( c e ) e e 2 。 ( c x ) e | 1 x 胪 ) sp ( s l z p j 五( ) 一,2 ) l ;,k ) o ( 2 。4 1 ) 由条件( c h 。) 和( c f ) 知 j p ( 元i r 舞i e ) p ( u ,( 墨) s ) 5p ( 昱等焉,( 墨) ) 一0 ( 2 4 2 ) 综合( 2 ,3 9 ) ,( 2 4 0 ) ,( 2 4 1 ) 和( 2 4 2 ) 可知 r 4 = o p ( n 一;1 ( 2 4 3 ) 类似的我们可以证得 r 4 = o p ( i 。一;) ( 2 ,4 4 ) 综合( 2 2 s ) ,( 2 3 3 ) ,( 2 3 7 ) ,( 2 3 8 ) 及( 2 , 4 3 ) 可证得 耻:喜竺攀幽+ ;喜锵砌 ( 24 5 ) 黑龙江大学硕士学位论文 耻:喜型尝n 堂 + 三f 堕! ! i2 :苎堑 ”鲁。p 2 ( x d 厶( x i ) 争( 糊叫剐( 学) 一弘_ p ( 剐( 警蚓) 当n 磷- 4 , 0 时 日) + o p m i ) ( 2 5 0 ) 注意到 f 墨等( m ( x ) 一印1 = e e ( 型铲( m ( x ) x 】 三f 【( y m ( x ) ) ( m ( x ) 一一) lx 】) = 0 再由中心极限定理即可证得引理2 2 3 墨 。爿群。旦。 第2 章数据缺失时均值目的估计及其性质 引理2 2 4 在( c p ) ( ck ) ,( c e ) ,( cx ) 和( ck ) 的条件下,有 ;娄( ,一志懈耻咖啕 ( 25 1 ) 证明显然 ;喜( - 一志) 砰氏= ;喜c - 一志,矸卢 + 娄监掣砰声 对于如有 工2 = 二f n _ + 志) 霹( & 卅 十喜妞蒜产砰c 岛 一娄憋p 墼( x i ) p 铲( x i 嘏鲁 2 ) “” = l 1 + l 2 + 三3 + l 4 十l 5 ( 2 5 2 ) 盈 ( n 蟛) 。1 ( 白 j = l 呐肛( 学) ) p 2 ( x ) ( 墨) x 了卢 ,。矾( 咧r n ( p p ( 础k ( ) + 土f 生,硭序 ”鲁p 2 ( x d a ( x i i ) = :毫( 屯叫( 硼 。苎坚! 望! 翌生 鲁p 2 ( 置) ,陇) 黧肛 译 竺 黑龙江大学硕士学位论文 + ;壹 + ! n o 6 。 ( n 。d ) n ( 如 ,= l 聃舭( 学) ) p 2 ( 玉) ( x i ) ,( x :) d 。 ( n 硼) 。( p ( x j ( ,( 砭) 一z ,( x ,) ) x , 吣肛( 半) p 2 ( x d ( x d y ( x ij = l 2 1 + 如2 + l 2 3 + l 2 4 类似于( 2 3 8 ) ,可得 ( ,( 噩) 一 ( 置) ) x 卢 ( 2 5 3 1 b = j 娄锵f m 撕z 幻( 2 s a ) 由w a n g 和r a o 9 中( a 7 ) ,在i = 2 的情况下有 l 2 2 = m 一 )( 2 5 5 ) 类似于( 2 3 2 ) ,可得 工2 3 = ( 札一;)( 25 6 ) 由条件( c p ) ,类似于( 2 4 7 ) 可得 ;娄丽器蛸“扣驴删e 等, s o ( 磷) + d p m ) 又由 可知由n 擎一0 有 j l 2 4 ss u p f ( z ) 一 一0 一 泓 一鬻一 第2 章数据缺失时均值0 的估计及其性质 = o p mj )( 25 7 ) 综合( 2 5 4 ,( 2 5 5 ) ,( 2 5 6 ) 及( 2 5 7 ) 可得 l l + l 2 = o p ( n ;)( 2 5 8 ) 注意到 e ( 1 一p ( - - - 斋) x = e f e 【( 1 一p - 高x ) ) x x = 。 由条件( c ,x ) 和( c p ) 可得 i i 磊1 善n ( 1 一志川觚( n _ ) ( 25 9 ) 又易得 风一p = 0 ,一i )( 2 6 0 ) 从而由( 2 5 9 ) 和( 2 6 0 ) 可得 l 3 = 0 p ( n 。)( 2 6 1 ) 显然 “:骞亟装尸圳锣肌m ,l :砉蹴f 叫- , 再由( 2 6 0 ) 可得 l 4 = d p ( n 一 )( 2 6 2 ) 类似于上述方法可证得 l 5 = o p m 一;)( 2 6 3 ) 因此,综合( 2 s 2 ) ,( 2 5 8 ) ,( 26 1 ) ,( 2 6 2 ) 及( 2 6 3 ) 即证得 元1 n ”志) 砷i r ;叫n 一 黑龙江大学硕士学位论文 定理225 在2 2 节列出的所有假设条件下,有以( 一0 ) 与 n ( o ,y p ) ,其中 耻e f 篙) + v a t ( 榔” 证明由引理2 2 3 和引理2 24 即可证得 观察以上三个估计量,若要得到它们各自渐近方差的估计量,就必 须要先对p ( x ) 及a 2 ( 。) 进行估计,然后再应用“p l u gi n ”方法来估计方 差但这种方法一般在x 的维数较高时会产生维数祸根现象,除非p ( x ) 及口2 ( z ) 分别用合适的指示变量和残差平方和所代替因此,下面我们 来介绍一种新的方差估计法:j a c k k n i f e 方差估计法 设目一为由样本( ( x j ,巧,而) 硝i = 1 ,2 ,馆所得到的口的估计 量,定义 i 为j a c k k n i f e 伪值 厶,= n o 一( n 一1 ) 讲- i )i = 1 ,2 ,n 这样j a c k k n i f e 方差估计量定义为 玩,= ( 厶一元) 2 n 一 其中了n = 一1f 厶; ”_ 一 一 = l 定理2 2 6 在定理2 2 2 2 2 5 的假设下,有k j 与y 证明以0 ,为例证明如下: 耻;喜+ ( 1 刊霹鼠) 靠k 五1 壹( 岛巧+ ( 1 一每) 碍磊 矗;= 盈k + ( 1 一文) 霹赢 亿,= :喜他m 十( 1 “) x 瑰一:壹j = l 岛巧+ ( 1 一曲) 矸鼬) 2 第2 章数据缺失时均值自的估计及其性质 = ;塾c m 一:喜州,泓,2 q - o 一 其中”( d ,x ) = 1 十e ( 1 6 x 7 ) ( e 6 x x 7 ) 1 1 x 如+ m ( x ) 从而得 亿j 马v ( p a 其它可类似证得 由定理2 2 4 ,我们可以得到置信水平为1 一口的置信区间 p 土厮,一舭,此处u 。一叩为标准正态分布的1 一。2 分位数 2 3 估计量的有效性 在线性模型假设为正确的情况下,我们得到了以上估计量若不做 任何模型假设可得到一般估计量0 一= :喜青斋+ :砉c t 一毒,氟, 其中确。( 墨) 为y 关于x 的非参数核回归估计量,如下 一鬻n - x k t ,- 目的渐近方差为 儿e f 黑j + v a t 【m ( 圳 下面我们将上节所得方差与之比较,即可得到效率比较的结果 定理2 3 1 假设是服从标准正态分布的,且矿( ) = 0 2 ,其中d 为常数,则有 f 1 ) v m a v 。 f 2 ) 睁v 证明( 1 ) 在定理假设条件下有 i 亿 = e f ( f x t - 1 x ) 2 p ( x ) 0 2 ) 十y n r ( m ( x ) ) 2 1 黑龙江大学硕士学位论文 = 0 2 e ( e x 7 ) 。x x 7 e 。1 ( e x ) 尸( x ) + v a t ( r e ( x ) ) = 盯2 e x t o 。1 e x + v n r ( m ( x ) ) v 8 = e 【南】斗哳( m ( x ) ) = 一2 f 【丽1 】+ v a r ( m ( x ) ) 矿肼2 e ( 志“x ) 一“( 志剐艇) ( 2 6 4 ) 竺壶竺5 坚型生, 江。, 吲而s ) 一 、。 a 2 e x r a = e ( a x x r ) - a 2 e x 0 , i = 1t = ll = l = 1 ,2 ,n ( 3 1 ) 在凰:0 = 0 0 的假设下,k ( 口) 渐近于自由度为1 的x 2 分布,当然得 到这结果的必要条件是( 3 1 ) 中的k 应是独立同分布的随机变量然 而,模型( 1 1 ) 中的卢并不是已知的,因此k ( 目) 就不能直接被用来做0 的推断为了解决这一问题,很自然的想到用卢的估计量来替代卢,特 别的,令= 文k + ( 1 一蠡) 墨7 岛,这样卢未知时关于0 的经验对数似 然比就被定义为 ( 口) = 一2 s u p l o g ( m ) i p i = 口,p l = 1 ,p i 0 , i = 1l = 1 i = 1 i = 1 ,2 ,n )( 3 2 ) 应用l a g r a n g e 乘数法,当r a i n l 。e 。 0 m a x l , ne n 以概率i 成 立时,t ( 日) 可以表示为 n ( 口) = 2 l o g ( a + a ( 磁。一目) ) ( 3 3 ) t = 1 2 4 怒 第3 章调整的经验似然 因为t 。不是相互独立的,所以,t 1 ( p ) 不能渐近标准的x 2 分布,实际 上,k ( 目) 渐近于带有未知系数的) ( 2 ( 1 ) 分布 定理3 1 1 在定理2 2 1 225 的条件下,在h o :日= 日。的假设下, 有 ) 与黑x ; 其中x 是自由度为1 的标准x 2 分布,v ( o ) 是定理2 2 11 2 25 中的方 差,矿( 日) = e p ( x ) a 2 ( x ) 1 + v a r ( x 7 口) 证明对于( 3 3 ) 式应用t a y l o r 展开,且由 取。) 一日= o p ( 西i ) 及 k = 0 p ( 意) 可得 n ( p ) = 2 ( e 。一口) 一枷。( 一目) 】2 ) + 唧( 1 ) ( 3 5 ) 对于( 3 4 ) 式应用t a y l o r 展开得 a 。( 一目) = 蹦气一哪+ 唧( 1 ) ( 36 ) 且有 ( e 。一们 扣磊i = 1i + 唧丽1 3 7 ( 或。一日) 2 。 综合( 3 5 ) 一( 3 7 ) 式可得 。( 或。一目) ( e 。目) 乙( 口) = f t 旦 + 即( 1 j 。1 ( e 。一目) 2 = 1 黑龙江大学硕士学位论文 再由 即证得 :垫型, = 三兰一一+ f 1 ) 磊in陬_一p严opi = 瓦b 【击喜( 或n 一吲2 q - o p ( 1 ) ( s 8 ) 去霎( 或。叫与( 0 ,v ) ) 与器x ; 3 2 调整的经验似然 根据定理3 1 1 ,在凰:日= 如的假设下有 ,y ( p ) t ( 目) sx ; ( 3 9 ) 可见,如果我们能定义一个关于7 ( p ) 的估计嚣( p ) ,则可定义一个如 下的以( 口) 为调整因子的经验对数似然比 t 州= ( 目) l ( 目) ( 3 1 0 ) 很容易得到在假设h o :口= 如下 j 竹m d ( 乳) 与x ; 7 ( 。) 的一个相合估计可以被定义为( 目) :善掣,其中亿,见第二章中 y n , 定义,吃( 目) 定义如下 讫( 驴石1 善r * ( 或n 叫2 第3 章调整的经验似然 需要特别指出的是这里我们保留口而不用估计僵来代替是为,提高效 童 定理3 2 1 在定理3 11 的条件下,在日o :p = 舶的假设下有 t 州( ) 与薪 证明由删( 0 0 ) 的定义及( 3 8 ) 式易得 u 护去售岽 2 + o p ( 1 ) ( 3 圳 再由皖与矿( 目) 即可证得定理3 2 1 根据定理3 21 ,我们可以立即得到p 的置信水平为1 一a 的置信区 间 口:州( 目) sx ,。) ,其中x 。是x 分布的上。分位数 3 。3 本章小结 本章中,我们给出了被估计和调整的经验似然,得到了一个效果较 好的置信区间 黑龙江大学硕士学位论文 第4 章模拟试验结果 这一章中我们对本文中的几个估计量日m ,日,及目p 在给定样本容 量的前提下进行模拟计算将模型( 11 ) 中的x 取为一维的,并且取值为 期望与方差均是1 的正态分布所产生的随机数,g 取值为由标准芷态分 布所产生的随机数,卢取j ,i l l 时,核函数( ) = ( 1 5 1 6 ) ( 1 一铲) 2 , 否则,( ) = 0 ,k 取值为n 一在m a r 假设下,我们考虑以下三种 缺失情况: ( 1 ) p ( 5 = lx = 。) = 0 8 十o 2 i x l l 当l x l lsl 时 p ( 6 = 1 | x = z ) = m a x 一o 0 5r x 一1 ,o ) 其它 ( 2 ) p ( 5 = 1x = x ) = 0 9 + o 2 i z 一1 j当i z 一1 l 4 5 时 p 0 = 1x = z ) = 0 1 其它 ( 2 ) p ( 5 = 1i x = z ) = 0 6 对于所有的x 在上述三种情况下,我们分别以n = 3 0 ,6 0 和1 0 0 为样本容量产生5 0 0 0 个m o n t ec a r l o 随机样本用这些样本我们分别来计算得到估计量的偏 差和标准差,如下表所示: 偏差标准差 第4 章模拟试验结果 从表中的数据结果可以看出。与知的估计效果都没有自,好 因为在偏差大小差不多时,钆,与站的标准差都要比,大 黑龙江大学硕士学位论文 结语 本文主要考虑了反映变量有缺失时线性回归模型k = x ,卢+ 岛的 统计推断理论, 对于不完全的随机样本( 五,k ,文) i = l ,2 ,n 在m a r ( 随机 缺失) 假设下,我们将插补方法与加权方法相结合,定义了几个新的估 计量,证明了它们都是渐近正态的对于所定义估计量的方差,我们给 出了一个更加简便的估计方法,并且这种方法可以避免较为常见的维数 祸根现象此外,我们还讨论了估计量的稳健性与有效性 本文还发展了经验似然理论,应用估计值对经验对数似然比进行了 凋整,使得调整后的似然比渐近于标准的妒分布,从而得到了更好的置 信区间 最后,对所得到的估计量我们进行了模拟计算,通过模拟计算的结 果我们可以很直观的比较出估计量的优良性 3 0 致谢 致谢 作者自2 0 0 3 年底起,在导师王启华教授指导下,开始了“数据缺失 问题”的学习经过一年多的努力,取得了一些成果,现将其汇编成册作 为毕业论文 值此研究生生活即将结束之时,我谨向我的导师王启华教授表达最 诚挚的谢意感谢王启华教授给予了多方面的关怀和精心指导壬老师 言传身教,他严谨的科研作风和勤奋忘我的工作态度永远激励我不断进 步 感谢理学院诸多老师及同窗好友在学习中给予我的关心和帮助是 他们用爱心和无私奉献给予我知识,教会我做人 在此,我向所有给予我关怀和帮助的老师、同学和朋友致以真诚的 谢意 3 1 黑龙江大学硕士学位论文 参考文献 1 l i t t l e ,r j aa n dr ,s t a t i s t i c a la n a l y s i sw i t hm i s s i n gd a t a ,n e wy o r k 1 9 8 7 2r a o ,j n k a n ds h a o ,j a c k k n i f ev a r i a n c ee s t i m a t i o nw i t hs u r v e yd a t a u n d e rh o td e c ki m p u t a t i o n ,b i o m e t r i k a ,7 9 :8 1 1 8 2 2 ,1 9 9 2 3l i p s i t z ,s r ,z h a o ,lp a n dm o l e n b e r g h s ,as e m i p a r a m e t r i em e t h o do f m u l t i p l ei m p u t a t i o n ,j r s t a t i s ts o c b ,6 0 :1 2 7 - 1 4 4 ,1 9 9 8 4b a r n a r d ,j ,a n dr u b i n ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026首都机场集团校园招聘备考笔试参考题库及答案解析
- 水库水资源提质增效及生态治理项目竣工验收报告
- 2026年考研医学试题解析及答案
- 2026年疾病控制(副高)考试历年高频考点真题及答案
- 2026年广东省东莞市高职单招职业技能考试题库含答案解析
- 生态旅游度假区建设项目使用林地可行性报告
- 2026公务员新人面试题及答案
- 农业水资源高效利用项目水资源论证报告书
- 2025四季度浙商银行嘉兴分行社会招聘笔试历年典型考题及考点剖析附带答案详解
- 2025友利银行成都分行社会招聘笔试历年典型考题及考点剖析附带答案详解2套
- 严谨回复:医学期刊审稿意见的逐条解析策略
- 护理科研思维在PDAC个案管理中的实践
- 神经系统疾病编码课件
- 移动式操作平台(盘扣式)专项施工方案(品茗验算通过可套用)
- 《成人间歇性经口至食管管饲技术要求》
- 药用植物学野外实习汇报
- 【教学评一体化】Unit 1My Dream Job 第7课时Reading for Writing公开课一等奖创新教学设计
- 2025年职业资格碳排放管理员碳排放交易员-碳排放咨询员参考题库含答案解析
- 正常分娩指南解读
- 男生贾里读书汇报
- 第14课-每天除了上课-还做什么(口语)
评论
0/150
提交评论