(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf_第1页
(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf_第2页
(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf_第3页
(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf_第4页
(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(概率论与数理统计专业论文)缺失数据下局部线性回归光滑.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在许多实际问题中,诸如生存分析、可靠性寿命试验、医药追踪试验等都 产生大量的缺失数据近年来,缺失数据问题在应用领域越来越引起人们普遍 的关注,因此,对缺失数据的统计性质进行讨论具有很重要的实际意义 本文的研究内容包括以下三个方面: 第一,由于非参数回归模型的回归函数形式可以任意,而且对随机变量的 分布限制较少,因而在实际中有广泛的应用背景因此,本文利用局部线性拟 合方法给出了非参数回归函数的三个估计;完整数据的局部线性估计;加权估 计和估计的加权估计在适当的条件下,证明了三个估计量具有相同的渐近偏 差和渐近方差,且三个估计量都渐近服从正态分布;并证明了它们都是弱相合 的模拟研究演示了它们的有限样本性质,并得出了估计的加权估计优越于完 整数据估计和加权估计,而完整数据估计和加权估计基本一致 第二,在第一部分的基础上,改进了局部线性最小二乘方法的不稳健性, 给出了三个局部线性m - 一估计:完整数据的局部线性m 一估计;加权m - 一估计 和估计的加权m 一估计证明了三个m 一估计有相同的相合性和渐近正态性 模拟研究演示了它们的有限样本性质,并得出了估计的加权m 一估计优越于估 计的加权估计 第三,由于半参数回归模型既有参数分量,又含有非参数分量,兼顾了参 数回归模型和非参数回归模型的优点,比单纯的参数回归模型或非参数回归 模型有更大的适应性和更强的解释能力因此,本文研究了半参数回归模型, 利用局部线性回归拟合方法建立了缺失数据下半参数回归模型参数分量和非 北京工业大学理学硕士学位论文 参数分量的局部线性估计,并基于参数估计量构建了方差的估计量在适当的 条件下,证明了参数估计量和方差估计量的渐近正态性,并证明了非参数估计 量的最优弱收敛速度 本文有如下特点: ( 1 ) 研究对象是缺失响应变量的不完全数据,且满足m a r 缺失机制 ( 2 ) 研究了两个重要的统计模型:非参数回归模型和半参数回归模型 ( 3 ) 本文采用了性质较好的局部线性拟合方法,为了提高稳健性,又给出 了局部m 估计方法 关键词:非参数回归,局部线性回归光滑,渐近正态性,缺失数据,半参数回 归模型 i i a b s t r a c t a b s t r a c t i nm a n yp r a c t i c a lp r o b l e m s ,t h e r ea r el o t so fm i s s i n gd a t a ,f o re x a m p l e , t h es u r v i a la n a l y s i s ,t h et r i a lo fr e l i a b i l l t yl l f e t l m ea n dt h et r i a lo fm e d i c a t i o n t r a c i n ga n ds oo n i nr e c e n ty e a r s ,p e o p l ep a i da t t e n t i o nt ot h ep r o b l e mo f m i s s i n gd a t ai nt h ed o m a i no fa p p l i c a t i o n s ow ed i s c u s ss t a t i s t i c a lp r o p e r t y u n d e rm i s s i n gd a t aw i 七hs i g n i f i c a n c eo fp r a c t i c e i nt h i sp a p e r ,o u rs t u d i e sh a v et h ef b l l o w i n gt h r e ep a r t s f i r s t ,n o n p a r a m e t r i cm o d e li sw i d e l yu s e di nt h ep r a c t i c a lp r o b l e m s ,t h e r e a s o ni st h a tt h ef o r mo ft h er e g r e 8 s i o nf u n c t i o ni nt h en o n p a r a m e t r i ci sf r e e , a n dt h el i m i t st ot h er a n d o mv a r i a b l ea r ef e w e r s ow ed e r i v et h r e ee s t i m a 七o r s o f o n p a r a m e t r i cr e g r e s s i o nf u n c t i o nb yu s i n gl o c a l l i n e a r 丘t 恤1 9 :t h el o c a l l i n e a re s t i m a t o t ;t h ew e i g h t e de s t i m 吼叫a n dt h ee s t i m a t e dw e i g h t e de s t i m a t o t u n d e rs o m ec o n d i t i o n s ,t h e s ee s t i m a t o r sh a v eb a s i c a l l yt h es a m ea s y m p t o t i c b i a s ea n d 、吼r i a n c e s ,a n dt h e yh a et h es a m ea s y p t o t i cn o r m a ld i s t r i b u t i o na n d t h es a m ew e a kc o n s i s t e n cy f i n i t e s a m p l ep e r f o r m a n c ei se x a m i n e dv i as i m u l a t i o ns t u d i e s s i m u l a t i o n sd e m o n s t r a t et h a tt h ee s t i m a t e dw e i 曲t e de s t i m a t o r i sb e t t e rt h a nt h el o c a ll i n e a re s t i m a t o ra n dt h ew e i g h t e de 8 t i m a t o r ,a n dt h e l o c a l l i n e a re s t i m a t o ra dt h ew e i 曲t e de s t i m a t o ra r ei d e n t i c a l s e c o n d ,b a s e do nt h e 丑r s tp a r t ,w ei m p r o v eo nt h er o b u s t n e s sw i t ht h r e e l o c a ll i n e a rm e s t i m a t o r s :t h ec o m p l e t e c a s ed a t am e s t i m a t o r ;t h ew e i g h t e d m _ e s t i m a t o ra n dt h ee 8 t i m a t e dw e i g h t e dm e s t i m a t o r ,a n dw ed e r i v e 七h r e e m e s t i m a t o r so fn o n p a r a m e t r i cr e g r e s s i o nf u n c t i o a n d8 h o wt h e i ra s y m p t o t i c n o r m a l i t i e sa n dc o n s i s t e n c i e s f i n i t e - s a m p l ep e r f o r m 柚c ei se x a m i n e dv i a i i i 北京工业大学理学硕士学位论文 s i m u l a t i o ns t u d i e s s i m u l a t i o n sd e m o n s t r a t et h a tt h ee s t i m a t e dw e i g h t e dm e s t i m a 七o ri sb e t t e rt h a nt h ee s t i m a t e dw e i g h t e de s t i m a t o r t h r e e ,b e c a u s eas e m i p 艄a m e t r i cr e g r e 8 8 i o nm o d e li n c l u d e sn o to n l y a p a r a m e t e rc o m p o n e n tb u ta l s oan o n p a r a m e t e rc o m p o n e n t i th a st h ea d v a n t a g e so ft h ep a r a m e t r i cr e g r e s s i o nm o d e la n d t h en o n p a r a m e t r i cr e g r e s s i o n m o d e l i th a st h em o r ei m p l e m e n t sa n ds t r o n g e re x p l a n a t i o n st h a nt h ep u r e p a r a m e t r i co rn o n p a r 锄e t r i cm o d e l s ow ec o n s i d e rt h es e m i p a r a m e t r i cr e g r e s s i o nm o d e l w ed e r i v et h ee s t i m a t o r 8o ft h ep a r a m e t e r a n dn o n p a r a m e t e r c o m p o n e i y 晦i ns e m i p a r a m e t r i cr e g r e s s i o nm o d e lb yu s i n gl o c a l1 i n e a r6 t t i n g w ea l s oo b t a j nt h ee s t i m a t o ro f 、m i a n c eb yu 8 i n gt h ee s t i m a t o ro fp a r a m e t e r w e8 h o wt h ea s y m p t o t i cn o r m 以i t i e so ft h ee s t i m a t o ro fp a r a m e t e ra n dt h e e s t i m a t o ro f 、m ,r i a n c e ,a n do b t a i no p t i m a l 、v e a kc o i e r g e n c er a t eo ft h ee s t i m a t o ro fn o n p a r a m e t e r 。 t h ef e a t u r eo ft h i sp a p e ra sf 0 1 1 0 w 8 : ( 1 ) w ef o c u so nt h ec a s ew h e r et h er e s p o n s ev a r i a b l em a yb em i s s i n ga t r a n d o m ( m a r ) ( 2 ) w es t u d yt w oi m p o r t a n tm o d e l :t h en o n p a r a m e t r i cr e g r e s s i o na n d t h e s e m i p a r a m e t r i cr e g r e s s i o nm o d e l ( 3 ) w e u s et h el o c a ll i n e a r6 t t i n g ,a n du s et h el o c a li i n e a rm 一矗t t i n gi n o r d e rt oi m p r o v eo nr o b u s t n e s s k e y w o r d s :n o n p a r a m e t r i cr e g r e s s i o n ,1 0 c a ll i n e a rs m o o t h e r ,a s y m p t o t i c n o r m a l i t y ,m i 8 s i n gr e s p o n s ed a t a ,8 e m i p 缸a m e t r i cr e g r e s s i o nm o d e l - i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表和撰写过的研究成果,也不包 含为获得北京工业大学或其他教育机构的学位或证书而使用过的材 料,与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 签名 弘峰啉碰铲 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:哗导师签名:儆日期:蝉彦愿 第1 章绪论 1 1 引言 第l 章绪论 非参数回归或半参数回归在完全数据下的统计理论已经发展的较为完善, 不少学者在各种误差条件下分别研究了统计量的相合性和渐近正态性及其收 敛速度相对而言,基于缺失数据下的统计性质的分析是一个历史不长、不断 发展的领域目前所取得成果中大多数是基于完全数据下的讨论,人们对非参 数回归或半参数回归在缺失数据下的研究较少由于缺失数据在实际领域中 有广阔的应用背景,诸如抽样调查、生存分析、可靠性寿命试验、医药追踪试 验中都产生大量的缺失数据因此。对缺失数据下的非参数回归函数和半参数 回归模型的统计性质进行讨论具有很重要的实际意义本论文主要讨论缺失 数据下非参数回归和半参数回归模型的统计性质 回归模型是数理统计中发展较早、理论丰富且应用性较强的重要模型 在过去的几十年里,回归模型被广泛地应用于工业、农业、气象、地质、经济 管理以及医药卫生等各个领域,取得了较好的应用成果同时由于实际应用的 需要,回归模型也在不断发展,其模型从最初的参数回归模型发展到非参数回 归模型,从非参数回归模型叉发展到半参数回归模型对数据的处理也由完全 数据到删失数据再到缺失数据等随着回归分析的理论研究不断深入,回归 分析越来越深刻地应用于实际 二十世纪七十年代以来,非参数回归日渐兴起非参数回归模型的特点是 回归函数的形式可以任意,解释变量x 和响应变量y 的分布的限制很少,因 而有较大适应性 1 2 非参数回归及常用估计方法 非参数回归的基本目标就是基于数据( 。;,玑) 坠1 估计非参数回归函数m ( z ) 并进行统计推断非参数方法对模型的结构假设很少,尽量让数据为自己说 并进行统计推断非参数方法对模型的结构假设很少,尽量让数据为自己说 北京工业大学理学硕士学位论文 话,因此非参数方法具有稳健的优点但相对参数模型,非参数模型需要的样 本容量大,计算更复杂可如今飞速发展的计算技术,以使昔日不可能的计算 变得容易,因此非参数方法近来受到人们的普遍关注 由于非参数回归中,回归函数的形式可以任意,而且对( x ,y ) 的分布限制 较少,因而在实际应用中有广泛的适应性也正是因为如此,自s t o n e 1 】于1 9 7 7 年提出了一种非参数回归估计的权函数方法以来,统计研究工作者对非参数 回归方法的研究作出了很大努力,取得了许多优秀的研究成果,如n a d a r a y a - w a t s o n 估计,g a s s e 卜m u l l e r 估计,局部多项式回归估计,光滑样条估计, 小波估计等下面对一些常用的参数回归方法作些简单介绍 一核估计 核估计已有广泛的应用,比较典蛩的核估计有n a d a r a y 护w a t s o n 核估计, g a s s e r m u l l e r 核估计 n w 核估计t 选定核函数( ) 及窗宽k ,定义权函数 嘲班k ( 等) 宴k ( 等) 卢,n 称 眠 ( z ) ) 为权函数,其相应的权函数估计如下 喇= 喜耳( 等) k 喜k ( 等) 从定义可见n w 估计的优点是有一个明确的关于。的核权函数表达式, 从而便于计算,但由于其分母是随机变量,所以给理论处理带来了困难对此 g a s s e 卜m u l l e r 在固定设计下提出了如下核估计 雄,= 窑寺,k ( 等) 删, 其中乳;堕之导丛,i = o ,1 ,礼一1 ,跏:一o 。,z 。:o 。 - 2 第1 章绪论 由上逸表达式可以看出估计的权和为1 ,因此解决了分母为随机变量的问 题,对这一估计m u l l e r 于1 9 8 8 年进行了详细讨论 无论n w 核估计还是g m 核估计,实际上都是局部常数拟合,事实上 是对m ( ) 作局部常数近似为日,再利用局部加权最小二乘回归求得m ( z ) 的估 计 危( z ) = 。r 9 叩慨一目) 2 叫产叫t k 吩 i = li = 1 j = 1 若札= 去k ( 等) 俐僦豁一去c 。k ( 等) d u 则得到g m 估计 关于上述两种估计,n w 估计在回归函数有较大导数的地方存在较大的 偏差,即使在回归曲线为线性时w 估计的偏差也会很大;而g m 估计虽 然有较小偏差,却增大了方差;并且无论n w 故计还是g m 估计,在估计 曲线的边界点上都存在较高的偏差,即所谓的边界效应,对于边界效应问题, 有些文献提出了反射方法或边界核修正方法来解决这一问题,然而效果并不 理想近年来一种新兴的方法一一局部多项式回归方法,在解决边界效应问题 上取得了较好的效果关于这一点在f a n 【2 】的一书中有详细的论证在实际应 用中,局部线性拟合已经有了非常好的性质下面来介绍局部线性回归估计 二局部线性回归估计 假定m ( z ) 在x = 。处二阶偏导数存在,我们要估计m ( 茁) ,为此,先将 m ) 在x = 。处进行t a l o y e r 展开 m ( x ) m ) + m 。) ( x 一。) 兰。+ 6 ( x z ) 这个局部线性模型可用核加权最小二乘法进行局部线性拟合即求。和6 以 最小化 缳一n b ( 五一z ) ) 2 ( 五一z ) ,( 1 1 ) 3 一 北京工业大学理学硕士学位论文 其中硒。( ) = h - 1 k ( ) ,( - ) 是一个核函数, = k 是一个收敛于。的正 数序列,称为窗宽记鑫一觑( 茹) 和b = 剜( 。) 为( 1 1 ) 最小化的解,则m ( z ) 的估计为 胤( z ) = 叫i k 蛳 # l j = 1 其中 毗= 玩( 咒一。) 限,2 一( 五一z ) & ,1 】, n 晶,f = 虬( 五一z ) ( 五一z ) 2 ,f = o ,1 ,2 t = 1 关于局部线性拟合与局部常数拟合的比较在c h u 与m a r r o n 吼f a n 【2 和 h a s t i e 与l o a d e r 【4 】中都有较详细的讨论m a c k 与m u l l e r 5 】和c h u 与 m a r r o n 3 】的研究表明- 当解释变量是随机变量时,n w 核估计的方差与局 部线性回归估计的相同,但偏差多了一项f a n 【6 】【7 l 和f a n 与g 袖e 1 8 【8 】发现 局部线性拟合不必进行边界修正,他在边界的偏差自动与内部的偏差有相同 的阶而且证明了无论在边界点还是内点都是最佳线性估计,从而局部线性回 归比n w 核估计和m g 估计有更好的性质因此,本论文中采取局部线性 回归方法对回归函数进行估计 此外对于非参数函数的估计方法还有光滑样条估计,b 样条估计,小波 估计等方法应该指出的是,参数回归模型和非参数回归模型都有其各自的适 用范围,离开了各自的适用范围就无法评价它们的优劣程度对它们的研究无 论是理论方法还是实际应用都仍在不断的发展之中 由于参数回归模型对回归函数提供了大量的额外信息( 通常由经验和历史 资料提供) ,因而当假设模型成立时,其推断有较高的精度,但也是由于提出了 假设,使得这一模型存在着适用性小,稳定性差的缺点;非参数回归由于回归 函数形式自由,具有适应性广,稳健性较好的优点,但由于利用信息少,缺乏 针对性,往往估计精度不够高,会明显降低模型的解释能力为了发挥参数回 归模型与非参数回归模型各自的优点,研究者把回归模型分为参数部分和非 一4 第l 章绪论 参数部分,提出了半参数回归模型下面我们简单来介绍半参数回归模型的发 展和研究现状 1 3 半参数回u j 模型简介 在研究气候条件对电力需求的影响这一实际问题中,为充分利用已知的 信息,以弥补非参数回归模型的不足和发挥参数回归模型的优点,礅c e 9 和 e n g l e 【1 0 等提出了半参数回归模型( 文献中亦称偏线性回归模型,混合回归模 型,部分线性模型等等) 将回归函数分解成参数和非参数结构,“半参数” 的含义体现的更为清楚和最富现实意义半参数回归模型是二十世纪八十年 代发展起来的统计模型此模型介于参数回归模型和非参数回归模型之间 可以设想,在不少实际问题中,它可能是一个更接近于真实,更能充分利用数 据中提供信息的提法在理论上,处理这种模型的方法融合了参数回归中习用 的方法和较近发展起来的非参数方法但也并非这两类方法的简单叠加总的 看,可以认为其复杂性和难度,都超过了单一性质的回归模型在应用上,模 型较单纯的参数模型或非参数模型有更大的适应性因而可以说,它实在是一 个在实用上有重要意义且在理论上富有挑战性的领域应指出的是,参数回归 模型,非参数回归模型和半参数回归模型这三种类型各有其适应范围离开各 自的适应范围就无法评价这些模型的优劣因而这些模型在其适用范围内都 是十分有用的它们的理论和方法都在不断发展之中 半参数模型无论在实际应用中还是理论研究上,它都受到了许多统计学 者的关注这主要是因为;第一,半参数模型既包含了参数信息,又包含了非 参数信息,处理了参数与非参数之间的许多模型它一方面解决了单纯线性回 归模型与非线性回归模型难以解决的问题,增强了模型的适应性;另一方面克 服了非参数方法信息损失过多的问题第二,它是一套解决实际问题的工具, 使得原先在参数情形下使用的工具无力解决的问题,找到了新方法而且丰富 了统计推断工具第三,它已经有力地解决了一批实际问题而且还有不断扩张 一5 北京工业大学理学硕士学位论文 的趋势 对半参数模型的研究,自e n 9 1 e 【1 玛在研究气候条件对电力需求影响这一 实际问题提出以来,目前文献已有一大批研究成果在( 孔,屯) 是i i d 随机子 样的情况,文献中已出现研究就此模型参数分量卢和非参数分量g 的估计问 题的文章,大都是综合了参数和非参数的方法其中参数的方法多为最小二乘 法,所不同的是非参数方法,h e c k m a n | 1 1 】、r i c e 【9 1 、c h e n 1 2 和g a o 【1 3 等 学者先后讨论了当9 的估计分别取样条估计、核估计、近邻估计时卢的渐近 正态性和最优收敛速度 半参数回归是一个历史不长,尚在发展中的领域目前所取得的成果中, 有一些还不是最终的,而且都是基于完全数据下的结果,在缺失数据下的研究 结果还很少并且本领域的研究主要属大样本性质,所得到的结果也属大样本 结果对于估计的小样本性质的研究很少,这也是半参数回归模型研究的新 课题再则对大样本统计的一些基本问题,如相合性和渐近正态性,目前的研 究已具有一些深度,但有些基本问题还没有解决或最后解决由于半参数回归 模型的复杂结构,可以预料,还有不少困难要克服 半参数回归这一模型兼顾了参数回归和非参数回归模型的优点,模型具 有较强的解释能力因而在实际中有着更为广阔的实用背景深信随着半参数 回归模型在理论和方法上的日益成熟,对经济、医药、工农业生产等方向将起 着更重要的促进作用因此,对缺失数据下半参数回归的理论研究具有十分重 要的意义 1 4 缺失数据和缺失机制及研究现状 在大规模抽样调查中。不可避免的会遇到大量数据中的不完全样本,这些 带有缺失数据的样本从缺失机制与方式上分可将分为随机缺失、完全随机缺 失和非随机缺失 1 随机缺失( m i s s i n ga tr a n d o m ,m a r ) 是针对已获取的调查表中某一变 6 一 第l 章绪论 量而出现的项目缺失一个变量是否为随机缺失,不是由这一变量本身所决 定,而是由数据集中与此变量有关的其他变量来决定如果在某变量的缺失与 未缺失数据之间,与该变量有关的其它变量间不存在差异,那么这一变量的缺 失为随机缺失 2 完全随机缺失( m i s s i n gc o m p l e t e l ya 乞r a n d o m ,m c a r ) 它是缺失数据 问题中最简单的一种它指缺失现象是随机发生的,既某一变量的缺失与非缺 失数据之间不存在任何系统差异,数据集中与其有关的其他变量,在该变量的 缺失与非缺失分组之间也不存在任何差异,可以说,缺失数据和观测都是总体 的一个随机样本统计分析中,若将含有缺失的记录删除,估计结果不会有偏 或偏差很小,其检验效能只能与样本量的大小有关,在分析时所用到的推估模 型都是可忽略模型( i g i l o r a b l em o d e l 可忽略缺失原因) ,但实际资料分析中符 合完全随机缺失的情况非常少见( 即一般的缺失都是有原因的) 3 非随机缺失( m i s s i n gn o ta tr a n d o m ,m n a r ) 如果数据不满足以上两 种缺失方式则称为非随机缺失或非完全随机缺失,这是缺失数据中最麻烦的 一种 近年来,缺失数据问题在应用领域越来越引起人们的普遍的关注,由于实 际问题( 诸如生存分析、可靠性寿命试验、药品追踪试验) 中产生大量的不完 全数据,其中有相当一部分是m a r ,因此对m a r 的统计性质进行研究具有 很重要的实际意义常见的m a r 是考虑如下不完全随机样本 ( 五,k ,以) ,忙1 ,礼( 1 2 ) 其中五都可观测到,若缺失则文= o ,否则最= 1 且假设y 满足m a r 条 件 p = 1 1 x ,y ) = p = 1 i x ) = p ( x )( 1 3 ) 简单的缺失数据模型( 1 2 ) 最早是在n e y m a n 【14 j 著名的两阶段抽样过程 中提出来的,而后r ,0 s e 【1 5 】和c o c h r a n 【1 6 】做了更进一步的补充研究在人口 一7 北京工业大学理学硕士学位论文 统计和经济分析等研究领域中,用两阶段抽样法可以很好地弥补实际样本缺 失的损失,例如在信计y 的均值时,使用该方法大大地提高了估计的精度 人们对缺失数据的分析研究已有近7 0 年的历史:w i l k s 1 7 年首先提出了 关于缺失数据下多元正态模型的极大似然估计,此后y a t e s 1 8 ,b a r t l e t t 【1 9 】和 a n d e r s o n 【2 0 1 等人对此问题做了大量的研究,并提出在对缺数据进行方差分析 和协方差分析的过程中,采取填充缺失变量的最小二乘估计的处理方法此 后,随着研究的不断发展,人们对缺失数据提出很多新的处理方法:最早利用 的方法即是简单地成对删除,但这一方法的缺点在于损失信息量,减少了估计 结果的精度在1 9 7 2 年,o r c h a r d 与w o o d b u r y 率先提出了缺失信息的概 念;随后,d e m p s t e r ,l a j r d 与r u b i n 等人又提出了著名的e m 算法;后来又 有人提出了利用预测值或各种估计值填充缺失值等方法这些对缺失数据的研 究一般都是利用的参数推断方法,并且,l i t t l e 与r u b i n 【2 3 】于1 9 8 7 年较完整地 提出了基于缺失数据下一般参数统计推断的基本原则和方法相对而言,在 缺失数据下对非参数回归模型和半参数回归模型的研究较少 t i t t e i n g t o n 【2 4 】 用核方法对非参数回归进行了推断,t i t t e r i n g t o n 与m i l l p 5 】在m a r 下讨论 了非参数模型下密度函数的估计c h e n g 与w j i 【2 6 】和c h e n g 【2 7 1 , 2 8 讨论了 m a r 数据下均值函数口= e y 的统计性质c h e n g 和c h u 【2 9 在m a r 下 对y 的分布函数进行了估计 c h u 【3 0 】在缺失数据下讨论了简单局部线性回 归光滑( s l l s ) 和估算局部线性回归光滑( i l l s ) 的性质并给出了比较 w h g 与r a o f 3 1 】 3 2 在缺失响应变量下对线性回归模型用经验似然方法进行了 推断然而线性模型不能完全反映响应变量和协变量的关系因此w a n g 与 o l i v e r 【3 3 1 在m a r 缺失响应变量下对半参数回归模型进行了讨论,得到了响 应变量l ,的均值的估计和它的大样本性质w a n g 与w a n g 【3 4 j 在协变量缺失 下讨论了加权半参数估计的性质w a n g 【3 5 1 利用f a n 与w a n g 【3 6 1 在完全数 据下的方法研究了缺失响应变量数据下的广义线性模型在此基础上,c h e n 与e 1 a n 3 7 】又考虑了缺失数据下的半参数回归模型,提出了三种估计量和均值 8 第l 章绪论 的估计量,并得到了它们的大样本性质 l i a n g 与、v a n g 4 0 】在缺失协变量下 对部分线性回归模型进行了讨论 1 5 本文主要研究内容 在许多实际问题中,常常遇到大量的缺失数据本文首先研究对象是一组 缺失响应变量y 的缺失数据 ( x i ,m ,民) ) 坠l ,其中x t 完全观察;当k 被观 察时文= 1 ,否则以= 0 ,且满足缺失机制条件 p p = 1 l x ,y ) = p = l i x ) = p ( x ) 本文基于上面的缺失数据考虑了非参数回归模型 k = m ( x t ) + e 。,1s t s 凡 其中m ( 函) 为未知实值函数,瞵,y ) 为r r 值的随机变量,e i y l o 。, ( x 1 ,m ) ,( ,k ) ,( 五。k ) 为取自( x ,y ) 的i i d 的样本,自为随机误 差,e ( 矗 墨) = o ,e ( g 五= 。) = 仃2 扛) 。 第二章用局部线性回归方法估计了回归函数m ( z ) ,给出了缺失数据下 m ( z ) 的三种估计,并在一定条件下证明了它们有相同的渐近分布、均方误 差( m s e ) 和相合性。模拟研究证明了它们的有限样本性质第三章在第二章 的基础上,改进了局部线性最小二乘方法的不稳健性,给出了三个局部线性 m 一估计量,证明了三个m 一估计量有相同的相合性和渐近分布模拟研究演 示了它们的有限样本性,并得出了估计7 毳( z ) 优越于开矿( 。) 的优点 其次第四章考虑了半参数回归模型 m = 冠p + 9 ( 正) + 旬,1 i 扎 其中 哳,五,正) ,1sis 扎) 是来自总体( e x ,t ) 的i - i d 随机样本, ( 置,正) r o ,1 ,卢r 是未知参数,9 ( ) 是定义于 o ,1 】上的未知函 数, 岛,1 sn ) 为i i d 的随机误差,曰( 自i 五) = o ,f ( 引五= g ) = 9 一 北京工业大学理学硕士学位论文 口2 ( z ) 。,且 圆,五) ,1 i n ) 与 矗,l i 佗) 相互独立在完全 数据下,许多文献已对卢、盯2 和9 进行了估计并讨论了它们的渐近正态性 和最优弱收敛速度但在实际中,数据常不能完全被观测,即有i i d 样本 ( 五,互,函 銎l ,其中 五,正) 各1 全部被观测;当也= 1 时,k 被观测, 疋= 0 时,】,缺失,且满足缺失条件( m a r ) p ( 6 = 1 l x ,t ,y ) = p ( 6 = 1 x ,? ) = p ( x ,t ) 主要基于i i d 样本 五,正,k ,魂) 利用局部线性拟合方法,估计给出了卢、 盯2 和9 的估计量在一定条件下证明了它们的大样本性质 1 6 本文结构 由于本文中研究的模型有着广泛的应用背景,因此我们在第一章前半部 分,简单介绍了非参数回归和半参数回归模型的基本知识、近年来的研究方向 以及所用统计分析方法第一章的后半部分,我们介绍了缺失数据的机制及其 发展状况这两部分主要是作为正文的预备知识而出现的,所以我们只是做了 简略介绍 第二章主要是讨论缺失数据下非参数回归模型的大样本性质第一节介 绍了所要研究的统计模型和估计方法,并给出了三个估计量,第二节是对给出 的估计进行了渐近正态性、均方误差( m s e ) 和相合性的证明第三节给出了 模拟研究讨论了估计量的有限样本性质 第三章主要在第二章的基础上改进了局部线性方法的不稳健性,第一节 给出了三个局部线性m 一估计。第二节证明了三个m 一估计有相同的相合性 和渐近分布第三节给出了模拟演示了估计量的有限样本性质 第四章主要是讨论缺失数据下半参数回归模型的大样本性质第一、二节 介绍了所要研究的统计模型和估计方法,第三节证明了所得估计的渐近正态 性和弱收敛速度 1 0 第2 章缺失数据下非参数回归函数的局部线性光滑 第2 章缺失数据下非参数回u j 函数的局部线性光滑 2 1非参数回归的三个局部线性估计 设( x ,y ) 为r r 值的随机变量,e l y l o 使得e 叫2 竹i x = 。 在的邻域里有界,其中e = y m ( x ) 为给出本章节的主要结果,首先给出几个引理 引理2 1 假设,( ) j p ( ) 和布( ) 为有界函数且在z 点连续,z 是,( 。) 的支撑集的内点,并且l i ms u pl k ( u ) u i 。,f = o ,1 ,2 ,则当仃k _ 。o 时有 去喜彤( 等) 她晒砒 = ;九3 m ”( $ ) ,o ) p ( z ) k ( u ) u 。+ 2 d ( 1 + 唧( 1 ) ) , 1p 十o o 1 3 一 肛 。芦 k肛 。汹 = z何 北京工业大学理学硕士学位论文 其中r ( 玛) = m ( 玛) 一m ( 茁) 一m 7 ) ( 玛一。) 证明;此引理的证明可类似于文献【8 引理3 的证明而得到,证明略 引理2 2 假设,( ) ,p ( r ) ,l ( ) 和s ( ) 为有界函数且在。点连续,。是,( 。) 的支撑集的内点,并且l i ms u pl l ( “) 让i o 。,f = o ,1 ,2 ,则当礼k _ o 。时 有 去娄岛l ( 等) 隅叫 = 1 s ( 。) ,( z ) p ( 。) j := l ( u ) u 。d u ( 1 + o ,( 1 ) ) 证明t 此引理的证明可类似于文献 8 引理4 的证明而得到,证明略 引理2 3 假设,( ) ,p ( ) 和m ”( ) 为有界函数且在z 点连续,$ 是,( z ) 的 支撑集的内点,并且l i ms u pl ( u ) “2 + 4 i ,f = o ,1 ,2 ,则当n k - + o 。时 有 ;娄k ( 等) 她脶叫志 = ;a 拿3 耐,( 笛) k ( “) 钍如( 1 + 唧( 1 ) ) , 其中r ( 玛) = m ( 玛) 一m 0 ) 一m 扛) ( 玛一。) 证明。此引理的证明可类似于文献f 8 引理3 的证明而得到,证明略 弓l 理2 ,4 假设,( ) ,p ( ) ,工( ) 和s ( ) 为有界函数且在。点连续,。是,( z ) 的支撑集的内点,并且l i ms u pl 上( u ) 让m l o 。,f = o ,1 ,2 ,则当礼k - 。 时有 :宴高l ( 等) 眠脶刊 = 坩1 s ( z ) ,( 。) ,芸工( u ) u d u ( 1 + 唧( 1 ) ) 证明:此引理的证明可类似于文献f 8 】引理4 的证明而得到,证明略 一1 4 第2 章 缺失数据下非参数回归函数的局部线性光滑 引理2 - 5 假定条件( i ) ( v ) 成立,令 = 熹挚( 等) 白, 则瓜矗是渐近正态的,且佩厶与( o ,d ( z ) ) ,其中 d ( 。) = ,( z ) 盯2 ( z ) p ( z ) k 2 ( ) d u ,十 j 一 证明: 矗= 志妾勺k ( 等) 。= 壶塾 易知厶是均值为o ,方差为瑗的独立同分布随机变量和,其中 骆去e 卜2 ( 等) 酲) 利用文献【8 中引理4 的方法或文献【7 】中定理3 的一些方法思想可以获得 磁的渐近表达式为 砩2 去,( 。m z 炉( z ) 上? 2 ( “) 如( 1 + 唧( 1 ) ) ( 2 司 使用条件( v ) 容易验证l y a p o u n o v 条件 丽壶两f 蚶押叶o ( n 。醌) 2 + r - 二一。h 川7 ” 成立从而厶为渐近正态的,由( 2 3 ) 知 佤 与( o ,d 忙) ) 其中d ( z ) = ,0 ) 口2 ( 。) p ( 。) 茗k 2 ( u ) d 引理2 6 假定条件( i ) 一( v ) 成立,令 五2 去喜勺( 等) 志, 1 5 北京工业大学理学硕士学位论文 则、,丽石五是渐近正态的,且 元瓦五与( o ,d + ( 。) ) ,其中 = 器矿e 舻( 汕 证明:同引理2 5 的证明思路一样可证明成立,这里证明略 引理2 7 在条件( i ) 一( v ) 下,若还有,( ) ,( ) 为有界函数且,( z ) 满足 一阶l i p c h i t z 条件,则当k = c 礼,o 警) ( 孚) e ( 一明t + 一e ( 一w ( 1 眠一i 警) 垒a 。+ b 。 1 7 北京工业大学理学硕士学位论文 由( 2 6 ) 及1 ,的定义有 咐岛+ 礼一2 一形= 生两厂一p ( z ) ,2 ( z ) s 。 - p ( 晰2 ( 咖:。,( 去) 所以如= o ( 1 ) ,而且由t 礼叫可得 壤妣争骗州州= 。( ( 针去) 件4 ) 当r 足够大时,有鼠= o ( 1 ) ,这样证明了( 2 7 ) 式由( 2 5 ) 和( 2 6 ) 有定理 成立得证 引理2 8 在条件( i ) ( v ) 下,若还有当礼叶。时,有扎碟一。和 凡 :l o g ( 1 。) o o ,贝0 骝b 刊矿赤喜q k ( 等) l 刮嘏瑚醐蛳枷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论