（应用数学专业论文）数据缺失时线性回归统计推断.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：37 大小：568.87KB 积分：14 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

y 、7 7 坶中文摘叠中文摘要对于“数据缺失问题”，我们设d 维随机向量x 为协变量。y 为受影响的反映变量，j 为指示变量在实践中，我们通常可以得到这样一组不完全的随机样本( 置，k ，文) ，其中所有的置都是被完全观测到的，m 是有缺失的，当缺失时区一0 ，否则，盈= 1 ，且有，) ( 6 = l i kx ) = 尸( d = l l x ) ，即y 是随机缺失( m a r ) 的本文我们将在上述假设下对线性回归模型中y 的均值日进行估计，我们将插补方法与加权方法相结合定义了几个不同的估计量，如边际均值估计量，加权估计量等，证明了它们都是渐近正态的，并用j a c k k n i f e 方法得到它们方差的相合估计，对它们的效率进行了比较我们还发展了经验似然方法，得到了渐近于标准x 2 分布的调整的经验似然关键词：线性回归反映变量数据缺失随机缺失经验似然外文摘要 a b s t r a c t i nt h i sp a p e r md e v e l o pi n f e r e n c et o o l si nal i n e a rr e g r e s s i o nm o d e l n 7 ilh m i s s i n gr ( 1 8 p o n s ed a t al e txb ead - d i m e n s i o n a lv e c t o ro ff a c t o r s $ 1 1 1 dh tyb car e s p o n s ev a r i a b l ei n f l u e n c e db yx i np r a c t i c e ，o n eo f t e n o b ia i n sar a n d o n ls a m p l eo fi n c o m p l e t ed a t a ( 置，k ，文) ，w h e r ea l lt h e 置s a leo b s ( v v e da n d 函= 0i fki sm i ：；s i n ga n d 盈= 1o t h e r w i s e t h r o u g h o u t t h i sa r ti e l e ，w ea s s n m et h a tyi s m i s s i n ga tr a n d o m ( m a r ) t h em a r a s s i l l n p | i o ni m p l i e st h a t6a n dya r ec o n d i t i o n a l l yi n d e p e n d e n tg i v e nx t h a ii s ，p ( 5 = ll x ) = p ( 6 = 1 x ) ac l a s so fe s t i m a t o r si sd e f i n e d t h a ii n c l u d e sa ss p e c i a lc a s e sal i n e a rr e g r e s s i o ni m p u t a t i o ne s t i m a t o r ，a n m r g i n a la v e r a g ee s t i m a t o r ，a n dap r o p e n s i t ys c o r ew e i g h t e de s t i m a t o r w es h o wt h a ta n yo fo u rc l a s so fe s t i m a t o r si sa s y m p t o t i c a l l yn o r m mw e s h o v et h a tt h ej a c k k n i f em e t h o dc a l lb eu s e dt oc o n s i s t e n t l ye s t i m a t et h e a s y m p l ( ) t i cv a r i a n c e t h ee m p i r i c a ll i k e l i h o o dm e t h o di sd e v e l o p e d a n a , l j u s l e de m p i r i c a ll o g l i k e l i h o o dr a t i o ，w h i c hi sa s y m p t o t i c a l l ys t a n d a r d h i s q u a r e d ，i so b t a i n e d b a s e do nb i a s e sa n ds t a n d a r de r r o r s ，ac o m p a r i s o n i sm a d eb ys i m n l a t i o nb e t w e e nt h ep r o p o s e de s t i m a t o r sa n dt h er e l a t e d e s t j l l l a i o r s k e y w o r d s ：l i n e a rr e g r e s s i o nr e s p o n s ev a r i a b l em i s s i n gd a t a l i s s i n ga t , r a n d o m e m p i r i c a ll i k e l i h o o d i i 第1 章绪论第1 章绪论 1 1 关于数据缺失数据缺失一直都是实际中经常出现的问题例如，在问卷调查中，由于被调查者不愿意提供某些信息会造成调查结果的缺失；在医疗研究中，一些病人不愿就治疗效果而接受调查或由于统计者的疏忽而使效果数据遗漏都造成数据缺失；在医学和物理学研究领域中，一个重要的问题是影像恢复，这实际上是另一种处理数据缺失的问题，以脑电图为倒，在脑电图形成过程中，我们无法直接观察辐射的光电子而使用电子辐射断层摄影术，不但这种方法本身就产生数据缺失，而且光电子通过人体组织后减弱或不能干任何检波器相遇而遗漏也使我们面临数据缺失问题总之，数据缺失普遍发生在民意调查，市场调研，邮寄问卷调查，社会经济研究，医药研究及生物遗传等科学试验中，而且在现实生活中，无论人们付出多大的努力数据缺失总是不可避免的实际生活和研究中一个最基本的问题是评估某些因素( 协变量) 对一个人们感兴趣的量( 反映变量) 的同时影响，对此回归模型提供了一个很好的框架关于回归模型的统计推断理论已经有了较为全面的发展，但在上述的数据缺失情况下，已有的理论并不能被直接应用，这样我们就需要寻找新的方法来解决这一问题本文中我们将主要讨论线性回归模型中反映变量有缺失的情形下反映变量均值的估计设d 维随机向量x 为协变量，y 为受x 影响的反映变量，6 为指示变量在实践中，我们通常可以得到这样一组不完全的随机样本 ( 墨，k ，刚i = i ，2 ，n 其中所有的置都是被完全观测到的，k 是有缺失的，当m 缺失时文= 0 ，否则，文= l ，且有p 似= l f x ) = p 妲= 1 ) ，即，是随机缺失f m a r ) 的本文我们将在上述假设下对y 的均值0 进行估计黑龙江大学硕士学位论文 1 2 “数据缺失问题”的研究近些年来，随着统计科学的发展，“数据缺失问题”受到了众多统计学者的广泛关注最早提出的解决“数据缺失问题”的方法为c o m p l e t e c a s e 方法，它是将所有含缺失数据的项目剔除，再对余下的数据用常规方法进行统计推断然而，1 9 8 7 年l i t t l e 和r u b i n 1l 指出这种方法会去掉很多有价值的信息，而且若数据缺失不是随机的情况下，应用c o m p l e t e c a s c 方法所得到的估计量往往是有偏差的，因此，提高效率和减少偏差就成了我们对“数据缺失问题”的研究重点目前，最常用的处理反映变量缺失的方法是插补法，它是将缺失的数据用替代值来填补，然后将所有数据做为完全数据来分析，可见r a o 和 s h a o 2 ，l i p s i t z 3 ，b a r n a r d 和r u b i n 4 ，r o b i n s 和w a n g 5 j 等的文章通常的关于反映变量缺失的插补方法包括h e a l y 和w e s t m a c o t t 6 1 的线性回归插补， c h e n g f 7 的核回归插补， r a o 8 】的比率插补等等在他们中， c h e n g 7 应用核回归插补方法对y 的均值口做出了估计，得到8 的估计量 1 三日c = 考芝二函k 十( 1 一也) 峨( 墨) ) 。i = l 其中存k ( ) 是基于所有使文= 1 的( 置，k ) 得到的n a d a r a y a w a t s o n 核估计量， c h e n g 7 】建立了以的渐近正态性，并得到了其渐近方差的一个相合估计 1 9 9 6 年r a o 8 用比率播补法对调查中出现的无回答数据进行修正，来研究方差估计 2 0 0 2 年w a n g 和r a o 9 】应用非参数核回归插补机制发展了反映变量均值的经验似然理论 w a n g 1 0 1 利用辅助信息定义了一个经验似然估计量，而且得到了一个渐近妒分布的经验对数似然在r o s e n b a u m 和r u b i n i 1 1 1 9 8 3 年文章的影响下，人们得到了另外一个被广泛应用的方法，基于倾向得分( p r o p e n s i t ys c o r e b a s e d ) 的方法，它尤其被应用于医学上测量某种治疗效果的试验中更多此方法的应 2 第1 章绪论用可见s c h a f e r 和s c h e n k e r 1 2 ：p e p e ( 1 9 9 2 ) 1 3 ，p e p e ( 1 9 9 4 ) 1 4 ，f i t z m a u r i c e f l5 j 1c h e n 1 6 等的文章h e c k m a n ，i c h i m u r a 及t o d d 17 】在对某个社会问题进行估价中也用到了这一方法 1 9 9 8 年h a h n 1 8 1 基于倾向得分p ( x ) 构造了口的估计量，并得到了其半参数的效率边界然而，在实践中c h e n g 7 1 的非参数核回归插补估计量表现得并不好，因为若x 的维数过高就可能会出现维数祸根现象，见s t o n e 1 9 1 尽管l i n t o n 2 0 1 提出维数祸根的情况不会影响一阶的渐近理论，但它仍会出现在高阶的渐近问题中，更重要的是维数祸根现象会持续影响估计量的实际表现，类似问题也会发生在实际问题中反映变量本身就依赖于很多协变量的情形下在本文中我们将讨论线性回归模型( 1 1 ) ，用不同的方法得到几个关 = 砰卢+ 矗( 1 1 ) 于0 的估计量，分别来讨论它们的渐近性质，并用j a c k k n i f e 方法得到它们方差的相合估计然后再对这几个不同估计量的效率加以比较，得到了很好的结果当线性模型假设不正确时，估计量是有偏的，文中描述了它们偏差的特性，其中个估计量有s c h a r f s t e i n ，r o t n i z k y 和r o b i n s 2 1 1 提出的双重稳健性此外，我们还发展了被调整的经验似然w a n g 和 r a o f 2 2 1 发展了线性模型中回归系数的经验似然理论，在这里我们将建立关于9 的调整的经验似然理论介绍 1 3 本章小结在本章中，我们给出了数据缺失问题以及这一问题研究现状的简单 3 黑龙江大学硕士学位论文第2 章数据缺失时均值目的估计及其性质 2 1 估计方法及估计量这一节中，我们定义下面所要讨论的估计量为了估计反映变量的均值口，我们首先来估计回归模型( 1 1 ) 中的未知参数口用指示变量文左乘模型( 1 1 ) 的两端有文= 文砰卢+ 文矗( 2 1 ) 移项整理可得文矗= 盈k 一瓯霹卢( 2 2 ) 然后对( 2 2 ) 式应用最小二乘法，使左端的误差项达到最小，即所求卢的估计量应满足睁也陇一f ) 2 ( 2 3 ) 容易求得卢的估计量磊= 匹文墨砰r 1 文置 ( 2 4 ) 显然我们所得到的风是由所有使也= 1 的( 咒，k ) 求得的，即由可以被完全观测到的数据得到的最f j 、z 乘估计完成了参数卢的估计，下面我们来讨论反映变量均值p 的估计我们将插补方法与加权方法相结台来定义具有一般形式的估计量口如下：一= = ：喜赢刍斗：喜e 一；可，霹席 c zs ，其中黑( o ) 是以概率密度p ( z ) 为极限的连续函数可见，只要将( 2 8 ) 中的焉扛) 取不同的值，我f f 目1 1 可以得到不同的估计量下面就来讨论它取几个特殊值时目的估计量 4 第2 章数据缺失时均值。的估计及其性质 l 、当焉( z ) ii 时，0 的估计量为：，_ ： k + ( 1 一民) 矸鼠) ( 26 ) 此时我们称o t 为回归插补估计量 2 、当r ( z ) = o 。时，0 的估计量为：自村一= ；矸反 ( 2 7 ) 此时我们称眇煳为边际均值估计量，显然它仅仅是对我们估计所得的回归函数做了一个平均 3 、当g ( z ) = p ( z ) 时，o 的估计量为知= ：喜怒+ ：喜c 一志，砰色 c 。脚其中文肖( 学) 户( 。) = 粤! l 一妻k ( r c - 。x i k ( ) 是核函数，h 。是窗宽序列此时我们简称0 ，为加权估计量观察前两个估计量，它们都是被显式定义的，且只依赖于一维运算，这两个性质在统计学观点被认为是可取的其中插补估计量0 1 和边际均值估计量8 m 不依赖于任何其他估计，因此在理论上要求更少插补估计量以还有一个特别的好处，当y 的观察值增加时，可以将它们直接增加到计算公式中，便于计算 4 、当臻= 戽( 。) 时，即假设关于尸( z ) 我们还有一个参数或者半参数的模型b ( z ) ，其中r 可能是维数有限或无限的参数，只( z ) 可以用p 亍( z ) 来估计，此时。的估计量为：珏磊1 n 怒+ 元1 善n ( ，一志孵反。) 5 黑龙江大学硕士学位论文在这种情况下，可能会出现高维运算，而且获得f 的步骤可能会很复杂，【习为它通常包含有非线性的函数，若它还含有非参数的估计量，那我们所得到的估计量口一的性质可能会非常可怜，故在此我t f j j g x 4 它做更多讨论 2 2 估计量的渐近正态性在这一部分中，我们分别来叙述昂( 。) 取1 ，0 0 及p ( z ) 等不同值时口的估计量口的渐近性质，并给出其方差的相合估计令p 0 ) = p = 1 f = z ) ，m ( x ) = x 7 ，矿扛) = e ( ( y x 7 启) 2 x = $ ) ，= e ( 6 x x 7 ) 为方便引出下面定理，我们首先列出如下假设条件： ( c p ) ( 1 ) p ( z ) 有直到( d ) 阶的有界偏导数 ( 2 ) i n f p ( 茹) o ( c m ) m ( x ) 也有直到( d ) 阶的有界偏导数 ( c y ) s u p e 【y 2 f x = 叫 d ( c h 。) ( 1 ) n 挈l o g n 。o o ，且n 挚- 4 0 ( 2 ) 对于( cf ) 中的町n ，有镌n d l o g n = d ( 1 ) ，且。镌= 0 0 ) ( c e ) e e 2 。 ( c x ) e | 1 x 胪 ) sp ( s l z p j 五( ) 一，2 ) l ；，k ) o ( 2 。4 1 ) 由条件( c h 。) 和( c f ) 知 j p ( 元i r 舞i e ) p ( u ，( 墨) s ) 5p ( 昱等焉，( 墨) ) 一0 ( 2 4 2 ) 综合( 2 ，3 9 ) ，( 2 4 0 ) ，( 2 4 1 ) 和( 2 4 2 ) 可知 r 4 = o p ( n 一；1 ( 2 4 3 ) 类似的我们可以证得 r 4 = o p ( i 。一；) ( 2 ，4 4 ) 综合( 2 2 s ) ，( 2 3 3 ) ，( 2 3 7 ) ，( 2 3 8 ) 及( 2 , 4 3 ) 可证得耻：喜竺攀幽+ ；喜锵砌 ( 24 5 ) 黑龙江大学硕士学位论文耻：喜型尝n 堂 + 三f 堕! ! i2 ：苎堑 ”鲁。p 2 ( x d 厶( x i ) 争( 糊叫剐( 学) 一弘_ p ( 剐( 警蚓) 当n 磷- 4 , 0 时日) + o p m i ) ( 2 5 0 ) 注意到 f 墨等( m ( x ) 一印1 = e e ( 型铲( m ( x ) x 】三f 【( y m ( x ) ) ( m ( x ) 一一) lx 】) = 0 再由中心极限定理即可证得引理2 2 3 墨。爿群。旦。第2 章数据缺失时均值目的估计及其性质引理2 2 4 在( c p ) ( ck ) ，( c e ) ，( cx ) 和( ck ) 的条件下，有；娄( ，一志懈耻咖啕 ( 25 1 ) 证明显然；喜( - 一志) 砰氏= ；喜c - 一志，矸卢 + 娄监掣砰声对于如有工2 = 二f n _ + 志) 霹( & 卅十喜妞蒜产砰c 岛一娄憋p 墼( x i ) p 铲( x i 嘏鲁 2 ) “” = l 1 + l 2 + 三3 + l 4 十l 5 ( 2 5 2 ) 盈 ( n 蟛) 。1 ( 白 j = l 呐肛( 学) ) p 2 ( x ) ( 墨) x 了卢，。矾( 咧r n ( p p ( 础k ( ) + 土f 生，硭序 ”鲁p 2 ( x d a ( x i i ) = ：毫( 屯叫( 硼。苎坚! 望! 翌生鲁p 2 ( 置) ，陇) 黧肛译竺黑龙江大学硕士学位论文 + ；壹 + ! n o 6 。 ( n 。d ) n ( 如，= l 聃舭( 学) ) p 2 ( 玉) ( x i ) ，( x ：) d 。 ( n 硼) 。( p ( x j ( ，( 砭) 一z ，( x ，) ) x ，吣肛( 半) p 2 ( x d ( x d y ( x ij = l 2 1 + 如2 + l 2 3 + l 2 4 类似于( 2 3 8 ) ，可得 ( ，( 噩) 一 ( 置) ) x 卢 ( 2 5 3 1 b = j 娄锵f m 撕z 幻( 2 s a ) 由w a n g 和r a o 9 中( a 7 ) ，在i = 2 的情况下有 l 2 2 = m 一 )( 2 5 5 ) 类似于( 2 3 2 ) ，可得工2 3 = ( 札一；)( 25 6 ) 由条件( c p ) ，类似于( 2 4 7 ) 可得；娄丽器蛸“扣驴删e 等， s o ( 磷) + d p m ) 又由可知由n 擎一0 有 j l 2 4 ss u p f ( z ) 一一0 一泓一鬻一第2 章数据缺失时均值0 的估计及其性质 = o p mj )( 25 7 ) 综合( 2 5 4 ，( 2 5 5 ) ，( 2 5 6 ) 及( 2 5 7 ) 可得 l l + l 2 = o p ( n ；)( 2 5 8 ) 注意到 e ( 1 一p ( - - - 斋) x = e f e 【( 1 一p - 高x ) ) x x = 。由条件( c ，x ) 和( c p ) 可得 i i 磊1 善n ( 1 一志川觚( n _ ) ( 25 9 ) 又易得风一p = 0 ，一i )( 2 6 0 ) 从而由( 2 5 9 ) 和( 2 6 0 ) 可得 l 3 = 0 p ( n 。)( 2 6 1 ) 显然 “：骞亟装尸圳锣肌m ，l ：砉蹴f 叫- ，再由( 2 6 0 ) 可得 l 4 = d p ( n 一 )( 2 6 2 ) 类似于上述方法可证得 l 5 = o p m 一；)( 2 6 3 ) 因此，综合( 2 s 2 ) ，( 2 5 8 ) ，( 26 1 ) ，( 2 6 2 ) 及( 2 6 3 ) 即证得元1 n ”志) 砷i r ；叫n 一黑龙江大学硕士学位论文定理225 在2 2 节列出的所有假设条件下，有以( 一0 ) 与 n ( o ，y p ) ，其中耻e f 篙) + v a t ( 榔” 证明由引理2 2 3 和引理2 24 即可证得观察以上三个估计量，若要得到它们各自渐近方差的估计量，就必须要先对p ( x ) 及a 2 ( 。) 进行估计，然后再应用“p l u gi n ”方法来估计方差但这种方法一般在x 的维数较高时会产生维数祸根现象，除非p ( x ) 及口2 ( z ) 分别用合适的指示变量和残差平方和所代替因此，下面我们来介绍一种新的方差估计法：j a c k k n i f e 方差估计法设目一为由样本( ( x j ，巧，而) 硝i = 1 ，2 ，馆所得到的口的估计量，定义 i 为j a c k k n i f e 伪值厶，= n o 一( n 一1 ) 讲- i )i = 1 ，2 ，n 这样j a c k k n i f e 方差估计量定义为玩，= ( 厶一元) 2 n 一其中了n = 一1f 厶； ”_ 一一 = l 定理2 2 6 在定理2 2 2 2 2 5 的假设下，有k j 与y 证明以0 ，为例证明如下：耻；喜+ ( 1 刊霹鼠) 靠k 五1 壹( 岛巧+ ( 1 一每) 碍磊矗；= 盈k + ( 1 一文) 霹赢亿，= ：喜他m 十( 1 “) x 瑰一：壹j = l 岛巧+ ( 1 一曲) 矸鼬) 2 第2 章数据缺失时均值自的估计及其性质 = ；塾c m 一：喜州，泓，2 q - o 一其中”( d ，x ) = 1 十e ( 1 6 x 7 ) ( e 6 x x 7 ) 1 1 x 如+ m ( x ) 从而得亿j 马v ( p a 其它可类似证得由定理2 2 4 ，我们可以得到置信水平为1 一口的置信区间 p 土厮，一舭，此处u 。一叩为标准正态分布的1 一。2 分位数 2 3 估计量的有效性在线性模型假设为正确的情况下，我们得到了以上估计量若不做任何模型假设可得到一般估计量0 一= ：喜青斋+ ：砉c t 一毒，氟，其中确。( 墨) 为y 关于x 的非参数核回归估计量，如下一鬻n - x k t ，- 目的渐近方差为儿e f 黑j + v a t 【m ( 圳下面我们将上节所得方差与之比较，即可得到效率比较的结果定理2 3 1 假设是服从标准正态分布的，且矿( ) = 0 2 ，其中d 为常数，则有 f 1 ) v m a v 。 f 2 ) 睁v 证明( 1 ) 在定理假设条件下有 i 亿 = e f ( f x t - 1 x ) 2 p ( x ) 0 2 ) 十y n r ( m ( x ) ) 2 1 黑龙江大学硕士学位论文 = 0 2 e ( e x 7 ) 。x x 7 e 。1 ( e x ) 尸( x ) + v a t ( r e ( x ) ) = 盯2 e x t o 。1 e x + v n r ( m ( x ) ) v 8 = e 【南】斗哳( m ( x ) ) = 一2 f 【丽1 】+ v a r ( m ( x ) ) 矿肼2 e ( 志“x ) 一“( 志剐艇) ( 2 6 4 ) 竺壶竺5 坚型生，江。，吲而s ) 一、。 a 2 e x r a = e ( a x x r ) - a 2 e x 0 ， i = 1t = ll = l = 1 ，2 ，n ( 3 1 ) 在凰：0 = 0 0 的假设下，k ( 口) 渐近于自由度为1 的x 2 分布，当然得到这结果的必要条件是( 3 1 ) 中的k 应是独立同分布的随机变量然而，模型( 1 1 ) 中的卢并不是已知的，因此k ( 目) 就不能直接被用来做0 的推断为了解决这一问题，很自然的想到用卢的估计量来替代卢，特别的，令= 文k + ( 1 一蠡) 墨7 岛，这样卢未知时关于0 的经验对数似然比就被定义为 ( 口) = 一2 s u p l o g ( m ) i p i = 口，p l = 1 ，p i 0 ， i = 1l = 1 i = 1 i = 1 ，2 ，n )( 3 2 ) 应用l a g r a n g e 乘数法，当r a i n l 。e 。 0 m a x l ， ne n 以概率i 成立时，t ( 日) 可以表示为 n ( 口) = 2 l o g ( a + a ( 磁。一目) ) ( 3 3 ) t = 1 2 4 怒第3 章调整的经验似然因为t 。不是相互独立的，所以，t 1 ( p ) 不能渐近标准的x 2 分布，实际上，k ( 目) 渐近于带有未知系数的) ( 2 ( 1 ) 分布定理3 1 1 在定理2 2 1 225 的条件下，在h o ：日= 日。的假设下，有 ) 与黑x ；其中x 是自由度为1 的标准x 2 分布，v ( o ) 是定理2 2 11 2 25 中的方差，矿( 日) = e p ( x ) a 2 ( x ) 1 + v a r ( x 7 口) 证明对于( 3 3 ) 式应用t a y l o r 展开，且由取。) 一日= o p ( 西i ) 及 k = 0 p ( 意) 可得 n ( p ) = 2 ( e 。一口) 一枷。( 一目) 】2 ) + 唧( 1 ) ( 3 5 ) 对于( 3 4 ) 式应用t a y l o r 展开得 a 。( 一目) = 蹦气一哪+ 唧( 1 ) ( 36 ) 且有 ( e 。一们扣磊i = 1i + 唧丽1 3 7 ( 或。一日) 2 。综合( 3 5 ) 一( 3 7 ) 式可得。( 或。一目) ( e 。目) 乙( 口) = f t 旦 + 即( 1 j 。1 ( e 。一目) 2 = 1 黑龙江大学硕士学位论文再由即证得：垫型， = 三兰一一+ f 1 ) 磊in陬_一p严opi = 瓦b 【击喜( 或n 一吲2 q - o p ( 1 ) ( s 8 ) 去霎( 或。叫与( 0 ，v ) ) 与器x ； 3 2 调整的经验似然根据定理3 1 1 ，在凰：日= 如的假设下有，y ( p ) t ( 目) sx ； ( 3 9 ) 可见，如果我们能定义一个关于7 ( p ) 的估计嚣( p ) ，则可定义一个如下的以( 口) 为调整因子的经验对数似然比 t 州= ( 目) l ( 目) ( 3 1 0 ) 很容易得到在假设h o ：口= 如下 j 竹m d ( 乳) 与x ； 7 ( 。) 的一个相合估计可以被定义为( 目) ：善掣，其中亿，见第二章中 y n ，定义，吃( 目) 定义如下讫( 驴石1 善r * ( 或n 叫2 第3 章调整的经验似然需要特别指出的是这里我们保留口而不用估计僵来代替是为，提高效童定理3 2 1 在定理3 11 的条件下，在日o ：p = 舶的假设下有 t 州( ) 与薪证明由删( 0 0 ) 的定义及( 3 8 ) 式易得 u 护去售岽 2 + o p ( 1 ) ( 3 圳再由皖与矿( 目) 即可证得定理3 2 1 根据定理3 21 ，我们可以立即得到p 的置信水平为1 一a 的置信区间口：州( 目) sx ，。) ，其中x 。是x 分布的上。分位数 3 。3 本章小结本章中，我们给出了被估计和调整的经验似然，得到了一个效果较好的置信区间黑龙江大学硕士学位论文第4 章模拟试验结果这一章中我们对本文中的几个估计量日m ，日，及目p 在给定样本容量的前提下进行模拟计算将模型( 11 ) 中的x 取为一维的，并且取值为期望与方差均是1 的正态分布所产生的随机数，g 取值为由标准芷态分布所产生的随机数，卢取j ，i l l 时，核函数( ) = ( 1 5 1 6 ) ( 1 一铲) 2 ，否则，( ) = 0 ，k 取值为n 一在m a r 假设下，我们考虑以下三种缺失情况： ( 1 ) p ( 5 = lx = 。) = 0 8 十o 2 i x l l 当l x l lsl 时 p ( 6 = 1 | x = z ) = m a x 一o 0 5r x 一1 ，o ) 其它 ( 2 ) p ( 5 = 1x = x ) = 0 9 + o 2 i z 一1 j当i z 一1 l 4 5 时 p 0 = 1x = z ) = 0 1 其它 ( 2 ) p ( 5 = 1i x = z ) = 0 6 对于所有的x 在上述三种情况下，我们分别以n = 3 0 ，6 0 和1 0 0 为样本容量产生5 0 0 0 个m o n t ec a r l o 随机样本用这些样本我们分别来计算得到估计量的偏差和标准差，如下表所示：偏差标准差第4 章模拟试验结果从表中的数据结果可以看出。与知的估计效果都没有自，好因为在偏差大小差不多时，钆，与站的标准差都要比，大黑龙江大学硕士学位论文结语本文主要考虑了反映变量有缺失时线性回归模型k = x ，卢+ 岛的统计推断理论，对于不完全的随机样本( 五，k ，文) i = l ，2 ，n 在m a r ( 随机缺失) 假设下，我们将插补方法与加权方法相结合，定义了几个新的估计量，证明了它们都是渐近正态的对于所定义估计量的方差，我们给出了一个更加简便的估计方法，并且这种方法可以避免较为常见的维数祸根现象此外，我们还讨论了估计量的稳健性与有效性本文还发展了经验似然理论，应用估计值对经验对数似然比进行了凋整，使得调整后的似然比渐近于标准的妒分布，从而得到了更好的置信区间最后，对所得到的估计量我们进行了模拟计算，通过模拟计算的结果我们可以很直观的比较出估计量的优良性 3 0 致谢致谢作者自2 0 0 3 年底起，在导师王启华教授指导下，开始了“数据缺失问题”的学习经过一年多的努力，取得了一些成果，现将其汇编成册作为毕业论文值此研究生生活即将结束之时，我谨向我的导师王启华教授表达最诚挚的谢意感谢王启华教授给予了多方面的关怀和精心指导壬老师言传身教，他严谨的科研作风和勤奋忘我的工作态度永远激励我不断进步感谢理学院诸多老师及同窗好友在学习中给予我的关心和帮助是他们用爱心和无私奉献给予我知识，教会我做人在此，我向所有给予我关怀和帮助的老师、同学和朋友致以真诚的谢意 3 1 黑龙江大学硕士学位论文参考文献 1 l i t t l e ，r j aa n dr ，s t a t i s t i c a la n a l y s i sw i t hm i s s i n gd a t a ，n e wy o r k 1 9 8 7 2r a o ，j n k a n ds h a o ，j a c k k n i f ev a r i a n c ee s t i m a t i o nw i t hs u r v e yd a t a u n d e rh o td e c ki m p u t a t i o n ，b i o m e t r i k a ，7 9 ：8 1 1 8 2 2 ，1 9 9 2 3l i p s i t z ，s r ，z h a o ，lp a n dm o l e n b e r g h s ，as e m i p a r a m e t r i em e t h o do f m u l t i p l ei m p u t a t i o n ，j r s t a t i s ts o c b ，6 0 ：1 2 7 - 1 4 4 ，1 9 9 8 4b a r n a r d ，j ，a n dr u b i n ，

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）数据缺失时线性回归统计推断.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）数据缺失时线性回归统计推断.pdf

文档简介

温馨提示

最新文档

评论

相关文档