(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf_第1页
(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf_第2页
(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf_第3页
(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf_第4页
(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(概率论与数理统计专业论文)缺失数据下半参数回归模型的二阶段估计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文研究在响应变量带有缺失而协变量被完全观测的情形下半参数回归 模型中参数分量和非参数分量的估计问题 借鉴柴根象等1 9 9 5 年提出的二阶段估计方法,本文给出了基于缺失数据 的兴趣参数的二阶段估计基本思想是在缺失数据下将半参数回归模型转变 成线性模型,利用最小二乘法得到p 的第一阶段的估计成;然后将基于完全 个体的半参数回归模型中的卢由佛代替得到新模型,并且由新模型结合一般 的非参数权函数方法得到g ( ) 的估计甄( 亡) ;最后将饥( 亡) 代回基于完全个体 的半参数回归模型,再次运用最小二乘法得到p 的第二阶段的估计量良在 适当的假设条件下,证明了成的强相合性和渐近正态性以及饥( t ) 的强相合 性及一致强相合性,同时证明了风的强相合性和渐近正态性,并且用数据模 拟结果说明了本文所得到的估计量的有限样本性质 本文有如下两个特点: ( 1 ) 对于缺失数据半参数回归模型,现有文献大都是在随机设计点列的情 况下进行研究的本文研究的是一协变量为固定设计点列同时响应变量带有 缺失的情况下的半参数回归模型中参数分量和非参数分量的估计问题 ( 2 ) 本文研究的缺失数据半参数回归模型,综合二阶段方法、完整个体方 法以及一般的非参数核估计方法构造了半参数回归模型中参数分量的最小二 乘估计和非参数分量的核估计本文估计方法获得的估计量都具有显式表达 式且有较好的大样本性质 关键词:缺失数据;半参数回归模型;二阶段估计;强相合性;渐近正态性 a b s t r a c t t h ea i mo ft h i st h e s i si st os t u d yt h ee s t i m a t o r so ft h ep a r a m e t n ca n dn o n p a r a m e t r i cc o m p o n e n t si nt h es e m i p a r a m e t cr e 伊e s s i o nm o d e lw h e nt h er e s p o n s e v a r i a b i e sa r em i s s i n ga n dt h ec o v a a t e sa r ec o m p l e t e l yo b e r v e d b yu s i n gt h et w o s t a g ee s t i m a t i o nm e t h o dp r o m o t e db yc h a ig e n x i a n g ( 19 9 5 ) , w ec o n s t r u c tt h et w o s t a g ee s t i m a t o r so f p a r a m e t e r so fi n t e r e s tu n d e rm i s s i n gd a t a t h eb a s i ci d e ai sa l sf o 】1 0 w s t h es e m i p a r a m e t r i cr e g r e s s i o nm o d e l i st r a n s f o n n e d i n t ot h el i n e a rm o d e lw i t hm i s s i n gd a t a ,a n dw eg a i nt h e6 r s ts t a g ee s t i m a t o ro f pb yu s i n gt h el e a s ts q u a r ee s t i m a t i o nm e t h o d a r e rpi sp l a c e db y 成i nt h e s e m i p a r a m e t r i cr e g r e s s i o nm o d e lb a s e do nt h ec o m p l e t e c a s e ,w eg e tan e wm o d e l c o m b i n e dw i t ht h ec o m m o nk e m e lw e i g h t e dm e t h o d ,t h ee s t i m a t o ro f9 ( ) f r o m t h en e wm o d e li so b t a i o n e d a tl a s t ,w ep u tt h ee s t i m a t o ro f9 ( ) i n t ot h es e m i - p a r a m e t cr e g r e s s i o nm o d e lb a s e do nt h ec o m p l e t e c a s e ,a n dg a i nt h es e c o n ds t a g e e s t i m a t o ro fp b yu s i n gt h el e a s ts q u a r em e t h o da g a i n i nt h i sp a p e r ,w ep r o v et h a t t h e s ee s t i m a t o r sh a v en i c el a 唱es a m p l ep r o p e n i e s t h es t r o n gc o n s i s t e n c ya n dt h e u n i f b ms t r o n gc o n s i s t e n c yo fe s t i m a t o ro fga r ep r o v e du n d e rt h es u i t a b l ec o n d i t i o n s 】e a n w h i l e ,w eg e tt h es r o n gc o n s i s t e n c i e sa n dt h ea s y m p t o t i cn o m a l i t i e so f t w oe s t i m a t o r so f 卢as i m u l a t i o ns t u d yi sc o n d u c t e dt oc o m p a r et h ef l n i t es a m p l e b e h a v i o ro ft h ep r o p o s e de s t i m a t o r s i nt h i sp a p e r ,o u rs t u d i e sh a v et h ef o l l o w i n gt 、v oc h a r a c t e r i s t i c s ( 1 ) f o rt h es e m i p a r a m e t n cr e g r e s s i o nm o d e lw i t hm i s s i n gd a t a ,t h ea u t h o r si n t h ec u r r e n tl i t e r a t u r eg e n e r a l l ya s s u m et h a tt h ev a r i a b l e sa r er a n d o md e s i g n s t h i s t h e s i ss r u d y st h e e s t i m a t o r so ft h ep a r a m e t r i ca n dn o n p a r a m e t r i cc o m p o n e n t su n d e r i i i 北京工业大学理学硕士学位论文 右x e dd e s i g n ( 2 ) t h et h e s i sg i v e st h el e a s ts q u a r ee s t i m a t o r so ft h ep a r a m e t r i cc o m p o n e n t a n dt h ek e m e le s t i m a t i o no fn o n p a r a m e t r i cc o m p o n e n t sb yc o m b i n i i l gt h et w o s t a g e e s t i m a t em e t h o d ,t h ec o m p l e t e c a s em e t h o da n dt h ec o m m o nn o n p a r a m e t r i ck e m e l w e i g h t e de s t i m a t em e t h o d i na d d i t i o n ,a nt h ee s t i m a t o r si nt h i st h e s i sh a v ee x p l i c t e x p r e s s i o n sa n dh a v en i c el a 唱es a m p l ep r o p e r t i e s k e y w o r d s :m i s s i n gd a t a ;s e m i p a r a m e t r i cr e g r e s s i o nm o d e l ;m o - s t a g ee s t i m a t i o n ;s r o n gc o n s i s t e n c y ;a s y m m p t o t i cn o 肌a l i t y 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意 签名:浆霪鱼日期:2 1 望:皇:兰2 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 第l 章绪 论 第1 章绪论 回归模型是数理统计中发展较早,理论丰富而且应用性较强的统计 模型自f g a l t o n 于l8 8 6 年首次提出回归模型以来,回归模型一直受到人 们的重视在过去的几十年里,回归模型被广泛地应用于工业,农业, 气象,地质,经济管理以及医药卫生等各个领域,取得了丰富的理论和 应用成果同时,由于实际应用的需要,为了更加接近现实,更好地解 释数据,回归模型也一直处于不断发展进步之中,其模型由初期的参数 回归模型发展到非参数回归模型,八十年代以来又兴起了半参数回归模 型,该模型既含有参数分量,又含有非参数分量,综合了参数与非参数的 信息,较单纯的参数模型或非参数模型在实际应用中更接近真实情况, 可以概括和描述众多实际问题 目前所取得成果中大多数是基于完全数据下的讨论,人们对半参数 回归模型在缺失数据下的研究较少缺失数据在实际领域中有非常广阔 的应用背景,诸如在抽样调查、生存分析、可靠性寿命试验、临床试验和 医药追踪试验中,由于各种人为或其它不可知因素产生了大量的缺失数 据本论文研究缺失数据下的半参数回归模型,对缺失数据下半参数回 归模型中有关参数估计的统计性质进行讨论具有很重要的实际意义 1 1 半参数回归模型 半参数回归模型在实际应用与理论研究上都得到了许多统计学者的 关注,并已经有力地解决了一批实际问题且还有不断扩展的趋势,深信 随着半参数回归模型在理论上和方法上的日益成熟,对经济、医药、工农 业生产等方面将起着更重要的作用因此,研究半参数回归模型具有重 要的意义 北京工业大学理学硕士学位论文 半参数回归模型发展至今,人们已经提出了许多类型的半参数模型 在此主要考虑一类半参数回归模型半参数回归模型 玑亍z :p + 9 ( t i ) + e i ,t = l ,2 ,n ( 1 1 ) 其中协变量( z :,i ) 是随机或固定设计点列,盈是p 维的,屯是1 维 的,p 是p 维未知参数向量,夕( ) 是定义在闭区间 o ,1 上的一元未知函 数,e i 是随机误差,e ( e i ) = o ,e ( e :) = 盯2 。o 对于半参数回归模型的研究一般都是融合了参数回归中常用的方法 和近些年来发展起来的非参数方法,但也并非这两类方法的简单叠加 半参数回归模型是一个尚在发展中的领域对于半参数回归模型的研究 目前仍集中在大样本性质上研究的基本问题大致有以下几点: 1 回归参数p 的相合估计 其一是什么条件下,给定的估计是相合的? 其中特别感兴趣的是: 什么条件下给定估计的收敛速度为0 ( 1 何) ? 其二是什么条件下,参数 存在相合估计? 2 回归参数p 及误差方差盯2 估计的渐近行为 这主要包括收敛速度,渐近分布,b e n y e s s e e n 界限等等渐近分布 是研究什么条件下,所构造的估计是渐近正态的所谓的b e h y e s s e e n 界 限实质是具有渐近正态的估计量,其向正态逼近的速度极限特别是能 否达到o ( 1 办) 这一理想界 3 回归参数p 估计的稳健性 这是h u b e r 提出的一个重要概念直观上说,当假设模型与实际相符 时具有良好的性质:而当与实际少许偏离时,其性能所受影响也较小; 在与实际严重偏离时,其性能也还过得去 2 第l 章绪论 4 回归参数p 估计的置信域 要想获得估计p 的置信域,通常需要考虑参数估计p 的渐近正态性, 而往往要求我们得到回归参数估计的渐近方差 5 非参数回归函数夕的估计量雪的收敛速度 非参数回归函数g 在选取具体的非参参数方法,例如核估计法、近邻 估计法、局部多项式估计等方法下,构造得到的估计量雪的收敛速度, 主要是最优收敛速度礼一南( r 表示夕的光滑度) 它的条件是什么? 对于半参数回归模型,目前所得的结果中,大多是基于完全数据下 的研究结果,在缺失数据下的研究结果还很少;大多是在( z :,如) 或q 是 随机设计点列的请况下进行讨论的,( z :,t i ) 或是固定设计点列的成果 相对较少,而非随机设计点列并不是随机设计点列情形的特例,随机设 计点列的情况下的结果往往并不能简单地推广到非随机设计情形,二者 的处理方法和假设条件也有区别 1 2 半参数回归模型研究现状 对于半参数回归模型( 1 1 ) ,最早由e n g l e 等【1 】提出,当时他们利用此 模型来研究气象条件对电力需求的影响这一实际问题该模型并不是参 数模型与非参数模型的简单叠加,其参数分量p 和非参数分量夕的估计, 文献中一般都是融合了参数回归中常用的方法和近些年来发展起来的非 参数方法 r o b i n s o n 【2 】和s p e c i a n 3 】独立地研究了当( ) = e ( z 1 j i t = t ) 关于 满足0 :阶l i p s c h i t z 条件,且在非参数分量9 ( ) 取p a r z e n r o s e n b l a t t 核估计 时,构造了参数分量p 的加权最小二乘估计p 和非参数分量夕( ) 的估计 ( ) ,在一些正则条件下,研究了估计p 的渐近正态性及p 和( ) 的弱收 敛速度 3 一 北京工业大学理学硕士学位沦文 s p e c i ( m a n 【3 j 将此模型的研究应用于漱口水实验采用参数化形式w 7 7 逼近非参数分量9 ( ) ,其中为某个给定的n q 的满秩矩阵,7 是附加的 q l 的未知参数向量半参数回归模型( 1 1 ) 可以用矩阵形式表示为: y = x 口+ w 7 + e ( 1 2 ) 其中y = ( 可1 ,) 丁,x = ( z 1 ,z 竹) 丁,e = ( e 1 ,e n ) 丁考虑同时极小 y x p w r i l 2 = m i n ! ,p 俨,r 彤, 可得p 的估计在适当的条件下,s p e c a n 研究了该估计量的渐近行 为由于在p 估计的构造上已经消除了。对z 和的影响,因此的估计 是渐近无偏的 g r e e n 和s i l v e 姗a n 等【4 j 提出可以用任一光滑矩阵s ( 不必为投影阵) 替 代( 1 2 ) 式中的w ,由此可得p 的估计 声= ( x t ( 一s ) x ) 一1 x t ( ,一s ) v( 1 3 ) 由于这种估计是由g r e e n 等提出的,因此也称之为g j s 估计g r e e n 和 s i l v e 兀n a n 等【4 】给出了该模型的一个应用实例,比较了他们所提出的方法 要优于以前传统的方法 h e c l ( n l a n 【5 l 提出了光滑样条的估计方法,使用光滑样条方法定义了p 和g ( ) 的惩罚估计量为极小化 嘉 玑一z 阳一9 ( 坩+ a 9 ( 让) 胁 ( 1 4 ) 的解,其中a 是一个惩罚参数,它起到在拟合程度与光滑程度之间的平 衡作用这种方法既考虑到估计量同数据的拟合,又顾及到非参数分量 估计的光滑性 h e c k m a n 5 j 研究了在甄和i 相互独立,且9 ( ) 的估计取 4 第l 章 绪论 一类样条估计时,p 的加权最小二乘估计风的相合性和渐近正态性 鼬c e 【6 i 研究了在( 玩,屯) 是固定设计,且夕( ) 的估计取一类样条估计时, p 估计的协方差函数的渐近性质w h a b a 【7 j 和e u b a n k 等 9 l 也使用光滑样 条方法定义了p 和夕( ) 的惩罚估计量,分别在不同的条件下对估计的大 样本性质进行了研究 g r e e n 等【8 】提出了补偿最小二乘的准则下的偏样条估计为 y t p y + ( 2 s n ( t ) 2 出= m i n ,( 1 5 ) 其中s ( t ) 是三次样条函数,称其为光滑样条补偿最小二乘估计 h a m i l t o n 和t r u o n g 【1 0 l 采用局部线性回归构造了参数和非参数分量的 估计,并证明了估计量的渐近正态性m a m m e n 和v a nd eg e e r 【1 1 l 应用 经验过程理论构造了惩罚拟似然估计,并证明了该估计的渐近性质 s c h m a l e n s e e 和s t o k e r l l 2 l 使用半参数回归模型分析了美国家用汽油的消费 和需求问题 m a ,c h i o u 和n w a n g 【1 3 l 研究了异方差的半参数回归模型,通过对加 权估计方程进行修正得到p 的相合估计p 在适当条件下,证明了该估计 具有渐近正态性 我国学者在半参数回归模型的研究上也作了大量相当深刻的工作 柴根象等基于半参数回归模型( 1 1 ) 的可加性,提出了新的二阶段估计 方法在z i 为固定设计点列,厶为随机设计点列的情形下,得到p 和9 ( ) 的估计p 和蚕( ) ,并且证明了互( ) 的强相合性和一致强相合性,其一致强 收敛速度可达到非参数回归函数估计的最优一致强收敛速度( 佗1l o g 几) , 同时得到了p 的强相合性和渐近正态性钱伟民等【1 5 1 在翰为固定设计 点列,i 为随机设计点列的情形下,基于近邻权函数利用柴根象等【1 4 1 提 出的二阶段估计方法得到了p 和夕( ) 的核权函数形式的估计量,并且证 5 北京工业大学理学硕士学位论文 明了它们具有很好的大样本性质薛留根等【1 6 l 在孔和以为随机设计点 列的情形下,基于近邻权函数利用柴根象等【1 4 l 提出的二阶段估计方法研 究了p 、夕( ) 和盯2 的估计,在适当条件下证明了它们的渐近正态性,并 给出了非参数回归函数估计的最优敛速度 s h i 【1 7 l 利用分块多项式逼近方法得到了p 和夕( ) 的稳健m 估计卢和 ( ) ,在一定条件下证明了p 具有渐近正态性,并得到了p 和口( ) 的弱收 敛速度薛留根【1 8 l 将随机加权方法应用于半参数回归模型中参数的随 机加权m 估计,在一般的条件下证明了用随机加权统计量的分布逼近原 估计量误差的分布的强有效性,并给出了估计量的最优强收敛速度 高集体等【1 9 2 1 】分别研究了当夕( ) 的估计取一类非参数权函数估计 时,p 的最小二乘估计和加权最小二乘估计的强相合性、渐近正态性、收 敛速度、b e n y e s s e e n 界限以及重对数律等方面的大样本性质“a n g 【2 2 l 系统地研究了多种场合下p 的渐近有效估计的构造,“a n g 【2 3 1 研究了 ( 戤,如) 为固定设计点列时的最小二乘估计下的误差e t 的密度,( u ) 的估计 ( u ) 的收敛速度、渐近正态性陈明华【2 4 1 2 5 l 讨论了p 和夕( ) 的估计的强 相合性、p 2 ) 阶平均相合性和收敛速度在适当条件下得到了p 和 盯2 的估计p 和磅的精确收敛速度,即重对数律王启华【2 6 2 7 】在截断样本 下研究了p 和9 ( ) 的估计的强相合性、p 2 ) 阶平均相合性和渐近正 态性 薛留根【2 8 】研究了在固定设计点列下模型中参数估计的误差分布的随 机加权逼近问题,构造了参数估计的随机加权统计量在适当条件下, 证明了用随机加权统计量的分布去逼近原估计量的误差分布的精度可达 到d ( 仃一) 薛留根【2 9 3 0 j 综合最小二乘法和局部线性光滑发研究了参数回 归模型中参数估计的误差分布的的估计,在适当的条件下证明了磋的 b e 可e s s e e n 界达到0 ( n 一) 和非一致收敛速度 一6 第1 章绪论 近些年来,对半参数回归模型的研究是统计学界的研究热点之一, 其研究不断向各方面有所发展关于半参数回归模型方法的详细讨论可 进一步参考著作 3 l ,3 2 1 3缺失数据和缺失机制及其研究现状 缺失数据是指由于各种原因应该得到而没有得到的数据在调查研 究中,缺失数据也被称之为无回答( n o l l r e s p o n s e ) 统计学上,将含有缺失 数据的记录称为不完全观测 数据缺失普遍发生在民意调查、市场研究、邮寄问卷调查、社会经 济研究、医药研究及生物遗传等其它科学研究中数据缺失的表现形式 分为单元缺失与项目缺失两种: 1 单元缺失( u n j tm i s s i n g ) 指发放的调查表中完全没有收回的部分 如艾滋病相关知识的流行病学调查中,选特殊行业观察对象1 2 0 0 名, 按要求条件发出调查问卷1 2 0 0 份,但最后只收回4 0 0 份,未收回的8 0 0 份,有些可能是因为调查对象不熟悉或不愿意回答调查问卷中的内容而 造成,这就有可能使调查到的内容与研究事物现象特征之间产生较大的 差异,从而使分析结果失真 2 项目缺失( i t e mm i s s i n g ) 指在收回的调查表中某些变量的观测结果 有缺失例如,不同治疗方案治疗高血压病疗效研究的多中心试验中, 在服药后2 周、4 周、6 周、8 周和1 0 周重复测量血压值,在前2 次测量 后,总体上看测量结果有随时间下降的趋势,但在第6 周以后出现不同 程度的缺失数据,其中有的观察对象可能认为所服药物没有多大作用而 不再继续治疗,有些可能是因为血压控制得很好而不再继续服药与检测 等,这不仅给分析带来困难,而且也可能给分析结果带来偏差 7 北京工业大学理学硕士学位论文 无论缺失数据在表现形式上是单元缺失还是项目缺失,l i t t j e 和 r u b i n 专著中对缺失数据定义了3 种缺失机制 1 随机缺失( m i s s i n ga tr a n d o m ,m a r ) 指数据的缺失仅仅依赖于完全 变量一个变量是否为随机缺失,不是由这一变量本身所决定,而是由 数据集中与此变量有关的其他变量来决定如果在某变量的缺失与未缺 失数据之间,与该变量有关的其它变量间不存在差异,那么这一变量的 缺失为随机缺失 2 完全随机缺失( m i s s i n gc o m p l e t e l ya tr a n d o m ,m c a r ) 指数据的缺失 与完全变量和不完全变量都是无关的它是缺失数据问题中最简单的一 种它指缺失现象是随机发生的,既某一变量的缺失与非缺失数据之间 不存在任何系统差异,数据集中与其有关的其他变量,在该变量的缺失 与非缺失分组之间也不存在任何差异,可以说,缺失数据和观测都是总 体的一个随机样本统计分析中,若将含有缺失的记录删除,估计结果 不会有偏或偏差很小,其检验效能只能与样本量的大小有关,在分析时 所用到的推断模型都是可忽略模型( i g n o r a b l em o d e l ) ,但实际资料分析中 符合完全随机缺失的情况非常少见 3 非随机缺失( m i s s i n gn o ta tr a n d o m ,m n a r ) 指不完全变量中的数据 缺失依赖于不完全变量本身,这种缺失是不可忽略的非随机缺失是缺 失数据中处理起来最麻烦的一种 在实际问题中,响应变量常常是不能被完全观测的,一些响应变量 的缺失是由设计( 在两步研究中) 或由偶然事件引起的例如,响应变量 y 测量很昂贵,并且仅有部分y 是有效的又如y 代表一系列问题的响 应,并且一些样本个体拒绝提供所需信息事实上,响应变量缺失在市 场研究调查、邮寄咨询、社会科学调查、医学研究和其它科学实验中很 常见 8 第l 章绪论 有缺失数据存在时该如何进行处理,怎样才能充分利用资料信息, 更准确地反映研究群体的特征,并进行预测、预报,达到预期的研究目 的,已成为信息社会统计分析研究的一个难点与热点问题 缺失数据中有相当一部分是m a r ,因此对m a r 进行统计分析具有很 重要的实际意义常见的m a r 是考虑如下不完全随机样本 ( x ,况) ,i = 1 ,几) ,( 1 6 ) 其中x 都可观测到,若缺失则瓯:o ,否则瓯= 1 且假设y 满足m a r 条 件 p ( 6 = 1 i x ,y ) = p ( 6 = 1 i x ) = p ( x ) ( 1 7 ) ( 1 7 ) 式表明y 是否缺失与y 的取值无关,仅与相应的协变量有关 在社会调查资料中,最为常见的问题就是数据缺失缺失数据或不 完全观测对调查研究的影响是很大的所以在统计学中,为了能够更加 充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提 出了自己独到的见解来挽救有缺失的调查数据,以保证研究工作顺利进 行 早在二十世纪三十年代,英国统计学家y a t e s f 教授在进行肥料、温 湿度、土壤与产量等关系的拉丁方实验研究中,由于某一实验单位出现 数据丢失( 或得到的数据不准确) ,导致实验数据无法按传统的分析方法 进行处理y a t e s 【3 4 l 对随机区组和拉丁方设计资料方差分析( a n a l y s i so f v a r i a n c e ,a n o v a ) 的缺失数据进行了估算和研究,采取填充缺失变量的 最小二乘估计的处理方法并取得了较为满意的结果在方差分析a n o 、,a 中针对缺失数据的经典的和标准的方法一般认为是y a t e s ( 1 9 3 3 ) 给出的 b a r t l e t t 【3 5 】给出了一个般的非迭代方法,对缺失值填充猜定值,然后进 行协方差分析 9 北京工业大学理学硕士学位论文 缺失数据模型( 1 6 ) 最早是在n e y m a n 【3 6 l 著名的两阶段抽样过程中提 出来的,而后r o s e n b a u m 【3 7 l 和c o c l l r a n f 3 8 l 做了更进一步的补充研究在人 口统计和经济分析等研究领域中,用两阶段抽样法可以很好地弥补实际 样本缺失的损失,例如在估计y 的均值时,使用该方法大大地提高了估 计的精度 w i l k s 首先提出了关于缺失数据下多元正态模型的极大似然估计 此后,y a t e s 【3 4 j 和b a r t l e t t 【3 5 】与a n d e r s o n 【4 0 l 等对此问题做了大量的研究, 并提出在对缺数据进行方差分析和协方差分析的过程中,采取填充缺失 变量的最小二乘估计的处理方法 此后,随着研究的不断发展,人们对缺失数据提出很多新的处理方 法:最早利用的方法是删除法,删除法常用的有列表或个案删除( l i s t w i s e o rc a s ew i s ed a t ad e l e t i o n ) ,配对删除( p a i rw i s ed a t ad e l e t i o n ) 这种方法简单易 行,在被调查对象出现多个变量的缺失,并且被删除的含缺失的数据量 在整个数据集中的数据量占的比例非常小的情况下,是非常简单而有效 的但这一方法却有很大的局限性它是以减少原始数据来换取数据集 信息的完备,丢弃大量隐藏在被剔除对象中的信息如果数据集中本来 包含的对象很少,删除少量对象就足以严重影响到数据集信息的客观性 以及结果的正确性,从而会造成资源的大量浪费 在1 9 7 2 年,o r c h a r d 和w 6 0 d b u 口率先提出了缺失信息的概念;随 后,许多研究学者对缺失数据进行了进一步的研究,充分利用了缺失信 息d e m p s t e r ,l a i r d 和r u b i n 【4 2 1 等人在1 9 7 6 年首次提出了著名的缺失之 估算的e m 算法1 9 7 7 年,r u b “4 3 】对e m 算法作了进一步阐述后来 短短十年间,很多理论模型的e m 算法,不断充实、完善并得以迅速发 展;后来又有人提出了利用预测值或各种估计值填充缺失值等方法填 补方法的基本思想是辅助信息,为每个缺失值寻找代替值填补法主要 1 0 第1 章绪论 用于项目无回答情况根据所构造的替代值的个数,可以分为单一填补 和多重填补 在l i t t l e 和r u b i n 专著中,l i t t l e 和r u b i n 对一般线性模型、混合效应 模型、广义线性模型等多种方法的e m 算法,从理论上作了详尽的讨论并 提出用不同的单一估算方法对缺失值只估一次,因为填补的数据都只是 唯一的,所以经过填补后的数据集不能表现出原有数据集的不确定性,因 此所得结果会产生较大误差在分析核算法优缺点后,r u b i n 【4 5 j 首次提出 了近年来应用较为广泛、且实用性较强的缺失值多重填补方法( m u l t i p l e i m p u t a t i o n ) 方法,以b a y e s i a n 理论为基础,应用马尔科夫链蒙特卡罗方法 ( m a vc h a i nm o n t ec a r l o ,m c m c ) 及数据增广( d a t aa u g m e n t a t i o n ,d a ) 算法 对缺失值进行多重估算但由于该方法数据估算的复杂性,计算机技术 发展的限制与处理缺失时结果的不唯一性,在应用方面发展非常缓慢 九十年代后,包括r u b i n 教授本人在内的许多研究者,对缺失值估计 理论的应用作了不懈的努力,后来经过m e n g 【4 6 1 和s c h a f e r 【4 7 4 9 l 等人不 断的完善和综合已经形成了一个比较系统的理论s c h a f e r 【4 7 “4 9 】不仅对 不断出现在新模型中的e m 算法进行了仔细而深入地探讨,而且对多重 估算方法的应用作了有益的研究 上述对缺失数据的研究一般都是利用了参数推断方法相对而言, 在缺失数据下对半参数回归模型的研究较少 t i t t e i n g t o n 【5 0 】基于多元二进制数据用核方法对非参数回归进行了推 断t i t t e r i n g t o n 和m i l l 在m a r 下讨论了非参数模型下多元密度函数 的估计w a n g 和z h a o 与o u 等【5 3 】研究了当协变量随机缺失时的广义线 性模型的估计方法,利用加权拟似然估计方程方法估计模型中的未知参 数,给出了估计的渐近性质 w a n g 等【5 5 】将f a n 等【5 7 j 研究的广义非参数模型的估计问题推广到协 北京工业大学理学硕士学位论文 变量随机缺失的情形,他们利用完整个体及局部加权拟似然方法估计模 型中的非参数回归函数不论选取概率是已知的还是估计的,所得到的 局部加权估计的方差相同,但偏差不同、a n g 等【5 5 】给出了局部加权拟 似然方法估计的渐近正态性,并给出渐近方差的相合估计进一步,从 有限抽样性质来看,当选取概率被估计时,所得到的估计要比已知选取 概率时的估计更加稳定,效率也更高 当响应变量随机缺失时,仅有协变量被完全观测,这对所估计的量 提供的信息是不够充分的,此时仅基于完整个体的估计方法提供了一个 有益的尝试p a i k 【5 8 】在他的论文中指出当缺失数据类型正确指定时,利 用完整个体估计未知回归参数,再利用估计的模型借补缺失的响应值, 然后再对全部数据进行估计的方法,要比完整个体方法有效的多,此种 方法称之为借补估计方法c h e n 和f a n 等【6 7 l 在响应变量随机缺失下研 究了广义非参数模型的估计问题,提出了三类估计方法:仅用完整个体 的局部拟似然估计,局部加权拟似然估计和利用借补缺失值方法的局部 拟似然估计有限抽样模拟表明,利用借补方法的局部拟似然估计要比 另外两个估计好的多这个结果与p a i k 【5 8 】在参数模型框架下所得的结果 相一致 在较大的数据集中处理缺失数据的通常方法是填补法,即对缺失数 据借补( 即填充) 一个合理的值,然后将所有数据作为完全数据进行分析 常用的借补缺失响应值的方法有,线性回归借补( y a t e s ,b a n l e t t 【3 5 】,h e a l y 和、s t m a c o t t 【5 9 】) ,核回归借补( c h e n g 【5 6 】) ,比率借补( r a o 【6 0 j ) 等许多方法 y a t e s ,b a r t l e t t 【3 5 j 采用线性回归补足方法对方差和协方差进行分析 h e a l y 和w 色s t m a c o t t 【5 9 1 提出了估计一个缺失值的非迭代方法,同时他建议 对多于一个的缺失值应使用迭代 c h e n g 【5 6 】应用核回归借补估计对y 的均值p 作出了估计首先利用核 1 2 第l 章绪论 回归估计借补每个缺失的响应变量值,然后应用下式估计臼= e y 舀= 三妻怆k + ( 1 山腕( 剐, ( 1 8 ) 其中腕n ( z ) 为基于完整个体的非参数回归函数的n a d a r a y a 、v a t s o n 核估 计当响应变量随机缺失时,c h e n g 给出了舀的截断型估计的渐近正 态性,并给出其渐近方差的相合估计实际上c h e n g 【5 6 l 的估计亦是渐近 有效的r a o 【6 0 1 使用比率借补法对调查中出现的无回答数据进行修正来 研究方差估计 在r o s e n b a u m 和r u b i n 【5 2 1 1 9 8 3 年文章的影响下,人们得到了另一种被 广泛应用的方法,基于倾向得分( p r o p e n s i t ys c o r b a s e d ) 的方法,它尤其被 应用于医学上测量某种治疗效果的实验中w a n g 和r a o 【5 4 1 利用非参数 核估计方法给出了口= e y 的借补经验似然方法并构造了目的置信区间 h e c a n ,i c h i m u r a 及t o d d 【6 2 1 在对某个社会问题进行估价中也用到了这一 方法h a h n 【6 2 】基于倾向得分尸( x ) 构造了p = e y 的估计,并得到了半 参数有效界 w a n g 和r a o 【6 3 ,6 4 】考虑了线性回归模型的估计问题,他利用线性回归 借补填充所有缺失的响应值,进一步来估计p = e y w a n g 等研究了 半参数回归的响应变量均值的各种倾向得分加权估计,讨论了估计的渐 近性质,并利用经验似然方法给出了p = e y 的置信区间w a n g 和s u n 【6 6 】 使用半参数回归替代方法和逆边缘加权方法得到了回归系数和非参数函 数的估计,同时讨论了所有得到的回归系数估计的渐近正态性,并且证 明了非参数函数的估计能够达到最优收敛速度 c h e n 等【6 7 1 讨论的模型估计方法是w a n g 等人【5 5 l 的方法的补充c h e n 等【6 7 l 关于广义非参数回归模型利用借补方法和加权借补方法构造出了 1 3 北京工业大学理学硕士学位论文 6 i = e y 的借补估计及加权借补估计,并在适当条件下,研究了所得估计 的渐近正态性 1 4 本文主要研究内容,结构及特点 本文研究了缺失数据半参数回归模型主要做了如下几个方面的工 作:在一协变量为固定设计点列同时响应变量随机缺失下,综合二阶段 方法、完整个体方法以及一般的非参数核估计方法构造了半参数回归模 型中参数分量的最小二乘的估计和非参数分量的核估计,并且研究了这 些估计具有优良的大样本性质 具体结构安排如下: 第二章研究了在一协变量为固定设计点列同时响应变量随机缺失下 研究了缺失数据半参数回归模型,构造了半参数回归模型中参数分量的 最小二乘估计和非参数分量的核估计,在适当条件下,得到了参数分量 的强相合性和渐近正态性,非参数分量的的强相合性和一致强相合性 第三章则旨在用数据模拟结果来说明本文所提出的统计推断方法的 优良性研究表明,我们的估计方法在有限样本情形下有良好的表现, 因此我们的估计方法是可行的 本文研究工作具有以下特点:本文研究的统计模型是一种非常重要 的统计模型:半参数回归模型;考虑的是其响应变量随机缺失同时协变 量被完全观测的情况;对于缺失数据半参数回归模型,现有文献大都是 在随机设计点的情况下进行研究的;本文研究的是一协变量为固定设计 点列同时响应变量带有缺失的情况下的半参数回归模型中参数分量和非 参数分量的估计问题;本文研究的缺失数据半参数回归模型,综合二阶 段方法、完整个体方法以及一般的非参数核估计方法构造了半参数回归 1 4 第l 章绪论 模型中参数分量的最小二乘估计和非参数分量的核估计,且本文估计方 法获得的估计量都具有显式表达式;在适当的条件下,证明了本文所得 估计具有良好的大样本性质 1 5 第2 章在缺失数据下半参数回归模型的估计 第2 章在缺失数据下半参数回! j j 模型的估计 2 1前言 考虑半参数回归模型 玑= z :p + 9 ( 如) + e i ,i = 1 ,2 ,礼, ( 2 1 ) 其中响应变量犰未被完全观测,协变量( z :,如) 都被完全观测,z i 是p 1 维固定设计点列,屯是1 维i i d 随机设计点列,具有密度函数,( ) p 是 p 1 维未知参数向量,夕( ) 是定义在闭区间【o ,l 】上的一元未知回归函 数e i 是随机误差,假定e i 与岛相互独立,误差e i ,i = 1 ,2 ,n 是i i d 随机变量,e ( e t ) = o ,o e ( e ;) 三盯3 对于模型( 2 1 ) ,有 也= 假设玑是随机缺失的,随机缺失( m a r ) 表示瓯和玑在给定岛条件下 是条件独立的,即 p ( 反= 1 l 玑,屯) = p ( 瓯= 1 恢) = 7 r ( t i ) , 称丌( ) 为选取概率在本文中,我们考虑选取概率p 三7 r o 且是已知的情 况 。 17 失 它 缺 其 玑 0 1 ,、l 北京工业大学理学硕士学位论文 2 2 估计方法 本文借鉴半参数回归模型二阶段估计方法来对( 2 1 ) 中参数分量和非 参数分量进行估计在( 2 1 ) 式两边同乘观测值的示性函数,模型( 2 1 ) 转 变为 瓯玑= 盈z :p + 文9 ( 如) + 瓯e t ,i = 1 ,2 ,九 ( 2 2 ) 我们假定e i 与民相互独立令q = e 9 ( t 1 ) ,岛= 夕( 岛) 一q + e i ,i = 1 ,2 ,亿 则上述模型( 2 2 ) 转变为 盈玑= 文q + 瓯z :p + 魂毛,t = 1 ,2 ,礼( 2 3 ) 其中e 1 ,n i i d ,并假定矗( i = 1 ,2 ,n ) 与文( i = 1 ,2 ,n ) 相互独 立,且 e 1 = o ,o 盯2 = e e ;= v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论