(概率论与数理统计专业论文)缺失数据下非参数回归函数加权核估计的强相合性.pdf_第1页
(概率论与数理统计专业论文)缺失数据下非参数回归函数加权核估计的强相合性.pdf_第2页
(概率论与数理统计专业论文)缺失数据下非参数回归函数加权核估计的强相合性.pdf_第3页
(概率论与数理统计专业论文)缺失数据下非参数回归函数加权核估计的强相合性.pdf_第4页
(概率论与数理统计专业论文)缺失数据下非参数回归函数加权核估计的强相合性.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 莅许多实际问题中,常常会遇到大量的不完全数据本文研究的对象是一组 缺失响应变量的不完全数据: ( 蕾,m ,4 ) :f = 1 ,2 ,” t 此处所有葺是可观测的, 而如果 是缺失的,则t = 0 ;否则,点= 1 论文基于这样一类服从任意分布 的缺失响应变量的数据,考虑了一类非参数回归模型儿= g ( 蕾) + ,i = l ,n , 由于事先未知描述该数据的缺失机制的模型以及相应的联合分布,文中利用了非 参数回归的统计方法,构造出缺失数据下未知回归函数g ( ) 的若干加权核估计 量,证明了估计量的大样本性质 沦文中所有的结论是在响应变量满足随机缺失的假设( 即:m a r 条件) 下 证明的,由于在许多实际问题中,我们遇到的自变量是非随机设计点列,即固定 设计点列的情形,因而本文在自变量为固定设计点列下将随机缺失条件进行了相 应的修改 针对缺失概率函数未知的情况,本文利用非参数的方法构造了缺失概率的估 计量,替换原有估计式中未知的缺失概率函数,得到了回归函数的新估计量并 且在较弱的条件下证明了新统计量的完全收敛性和强相合性,这就大大地扩大了 定理的应用范围 此外,论文在随机误差序列q ,乞,毛为硼序列的情况下,讨论了g ( ) 的 若干估计量的大样本性质,得到了与独立情形相应的结论 关键词:缺失数据:非参数模型;加权核估计;强相合性;完全收敛性 a b s t r a c t i nm a n yp r a c t i c a ls i t u a t i o n s ,i ti sc o m m o nt oo c c u rl a r g en u m b e r so f i n c o m p l e t e d a t a 1 nt h i sa r t i c l e ,w e f o c u so nt h e c a s ew h e r es o m e y v a l u e si nas a m p l eo fs i z e m a yb em i s s i n ga n da l l x v a l u e sa r e o b s e r v e dc o m p l e t e l y ,t h a ti s ,t h e d a t ac o n s i s t o ft h ei n c o m p l e t e o b s e r v a t i o n s ( 一,y , - ,4 ) ,1 蔓i 以,西= 1 b a s e do na s e to fd i s t r i b u t i o nf r e e v a r i a b l e su n d e rm i s s i n g r e s p o n s ed a t a ,t h i s a r t i c l ec o n s i d e r st h e n o n p a r a m e t r i cr e g r e s s i v e f u n c t i o n ,t h a t i s 片= g ( x i ) + , i = 1 ,n f o rt h i sm o d e la b o v e ,w i t h o u tp a r a m e t r i cm o d e l i n go ft h em i s s i n gm e c h a n i s m o rt h ej o i n td i s t r i b u t i o n ,w e i g h t e dk e r n e lr e g r e s s i o ne s t i m a t o r s a r e c o n s t r u c t e dt oe s t i m a t eu n k n o w nr e g r e s s i v e f u n c t i o n s t h r o u g h n o n p a r a m e t r i ce s t i m a t i o no ft h em i s s i n gp a t t e r n a s o 。s o m el a r g es a m p l e p r o p e r t i e sa r ep r o v e ni n t h i sp a p e r ag e n e r a l i z a t i o no ft h em e t h o do ft h i sp a p e ri sv e r i f i e du n d e rt h e a s s u m p t i o no fm i s s i n ga tr a n d o m p a r t i c u l a r l y ,b a s e d0 1 1 as e to ff i x e d d e s i g nv a r i a b l e s u n d e ri n c o m p l e t ed a t a ,t h i sa s s u m p t i o nw a sm o d i f i e d f u r t h e r aa d j u s t e dv e r s i o no ft h ew e i g h t e dk e r n e lr e g r e s s i o ne s t i m a t i o nw a s d o n eb yu s i n gn o n p a r a e t r i ce s t i m a t o rt od e s c r i b et h em i s s i n gp r o b a b i l i t y a sf o rt h en e wv e r s i o no ft h ee s t i m a t o r ,s t r o n gc o n s i s t e n c ya n dc o m p l e r e c o n v e r g e n c e a r eo b t a i n e du n d e rs u i t a b l ee o n d i t i o n s t h u si t g r e a t l y e x t e n d st h ea p p l i e df i e l do fr e l a t i v et h e o r i e s f u r t h e r m o r e ,a sas t r a i g h ta n du s e f u le x t e n s i o n ,a l ir e s u l t sa b o v e a r ea l s o p r o v e n i nt e r m so fd i f f e r e n tc o n d i t i o n so fr a n d o me r r o r v a t j a b 】e s k e yw o r d :m i s s i n gd a t a ;n o n p a r a m e t r i cr e g r e s s i o n f u n c t i o n w e i g h t e dk e r n e le s t i m a t o r :s t r o n gc o n s i s t e n c y ;c o m p l e t e l yc o n v e r g e n c e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 北京工业大学或其它教育机构的学位或证书丽使用过的材料与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意 签名 蓝慧 日期 御牛5 j d 关于论文使用授权的说明 本人完全了解北京工业大学有关保留,使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印缩印或其他复制手段保 存论文 ( 保密的论文在解密后应遵守此规定) 签名:垒整= 导师签名;落曼么日期 聊沁5 、j d 第1 章综述 1 1前言 在客观世界,普遍存在着变量之间的关系变量之间的关系一般来说分为确 定性和不确定性两种确定性关系是指变量之间的关系可以用某函数关系来表 达而变量之间的不确定性关系,一般称为相关关系事实上。在许多实际问题 中,对象y ( 响应变量) 同影响y 的因素x ( 解释变量) 之间存在着某种相关关 系,而如何确定并描述这种相关关系,也成为人们研究的重点响应变量y 与解 释变量之间存在着某种相关关系,即意味着当j 取一定值时,虽然不足以确 定y 的值,但却能确定响应变量y 的条件分布y 对x 取值的依赖关系,是最广 泛意义下的回归关系 回归分析是数理统计学中最常用的统计方法例如在各种预报预测中,习惯 上称预报对象这个随机变数为因变数,称与此有关的非随机变数为自变数( 或预 报因子) ,需要建立因变数( 或预报对象) 与一组自变数( 或一组预报因子) 之 间的数学关系式又如在寻求生产过程的工艺最优化问题中,先要寻找工艺的最 优化区域,在还不完全了解生产过程的物理、化学、生物等原理及经验的条件下, 用回归分析来解决生产过程的工艺最优化问题是一个比较有效的数学方法这 种方法的基本思想很类似于控制论中的“黑箱”理论在控制论中“黑箱”是这 样一个系统,它的输入和输出都是可以知道的,但它的内部结构是不清楚的在 我们的问题中,生产过程视为一只“黑箱”,输入就是一组回归因子,输出就是 预报量( 一个或若干个需要最优化的工艺指标) ,事先并不知道黑箱的内部结构, 而输入和输出的因子都是可观察或试验的对这些观察或试验的数据,应用回归 分析方法建立输出与输入之间的数学关系式,从而了解“黑箱”的结构 对于诸如经验公式的求得、因子分析、产品的质量控制;水文、气象、虫害 及地震等方面的预报;自动控制中及某些新标准的制定等,回归分析往往是一种 行之有效的数学工具 一般地,回归是指在给定了一组数据( x iy 1 ) ,( x 2 ,y 。) ,( ,只) 之后,希望 找到一个解释变量爿和相应变量y 之间的关系,使得 y i = m ( x i ) 十t i = 1 ,2 ,n 其中,m ( x ) = s ( y i x = z 1 为回归函数,q 为随机误差回归分析就是研究具有 相关关系的变量之间的统计规律性 自f g a l t o n1 8 8 6 年首次提出回归模型以来,在过去的几十年来,该模型被 广泛应用于工农业、气象、经济管理以及医药卫生等领域同时由于实际应用的 需要,回归模型也在不断发展,其模型从最初的参数回归模型发展到非参数回归 模型,从非参数回归模型又发展到半参数回归模型随着回归分析的理论研究不 断深入,回归分析越来越深刻地应用于实际 回顾回归分析研究的历史,大致在二十世纪七十年代以前,重点在于参数回 归模型,尤其是线性回归模型的研究在参数回归模型中,总体的分布形式或分 布族往往是给定的,或者是假定了的,回归函数除了有限个参数未知以外,其余 都是已知的因而模型容易处理,而且对此研究已有相当长的历史,已形成一套 比较成熟的理论和方法但无论从理论还是应用方法,仍然在不断深化,向纵深 方向发展参数回归模型对回归函数常常有基本假设,提供了大量的额外信息, 这些信息通常由经验和历史资料提供因而当假设模型成立时,其推断有较高精 度然而,在实际生活中,对总体的分布的假设并不是随便作出的有时,数据 并不是来自所假定分布的总体;或者数据根本不是来自各总体;还有可能,数据 因为种种原因被严重污染这样,当参数假定与实际性背离的情况下,用参数回 归模型进行推断,拟合情况很差,甚至会引起无法预料的错误这种情况促使人 们寻找一种不假定总体的分布,尽量从数据本身获取所需信息的道路 二十世纪七十年代以来,非参数回归f :;j 渐兴起非参数回归模型是针对那些 总体分布不能用有限个实参数来刻画,而只能对其作一些诸如分布连续、有密度、 具有某阶矩等一般性假定的统计问题其特点是回归函数的形式可以任意,解释 变量和响应变量】,的分布的限制很少,因而有较大的适应性由于对总体分布 的假定要求的条件很宽,因而使得针对这种问题而构造的非参数统计方法,不至 于因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性 自s t o n e l 2 i j 于1 9 7 7 年提出非参数回归估计的全函数估计方法后,s t o n e 的方法引 起广泛的重视近几十年来,权函数方法如近邻估计、核估计、局部多项式估计 2 等等方法不断发展完善,非参数回归的理论和应用取得了较大的进展但在非参 数回归模型中,各个解释变量对响应变量的作用的差别往往被忽略,而且正是因 为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低 这在实际问题中对此未提供任何信息时,是不可避免的;但若有根据( 经验或历 史资料等) 认为某些解释变量对响应变量y 的影响较显著时,使用非参数回归模 型则没有充分利用已知的信息,会明显降低模型的解释能力 随着这一领域研究的不断深入和发展,在研究气候条件对电力需求的影响这 一实际问题中,为充分利用已知的信息,以弥补非参数回归模型的不足和发挥参 数回归模型的优点,r i c e 4 2 j ( 1 9 8 2 ) ,e n g l e 4 1 1 ( 1 9 8 6 ) 等人提出了半参数回归模型, 将回归函数分解成参数和非参数结构,“半参数”的含义体现得更为清楚和最富 实际意义由于此模型介于参数回归模型和非参数回归模型之问,因此在不少实 际问题中,为我们提供了一个更接近于真实,更能充分利用数据中信息的方法 应该指出的是,参数回归模型,非参数回归模型和半参数回归模型这三种类 型各有其适应范围,离开各自的适应范围就无法评价这些模型的优劣,因而这些 模型在其各自的适用范围内都是十分有用的,而且它们的理论及方法都在不断发 展和完善之中本论文主要讨论的一类非参数回归模型,在缺失数据背景下的统 计性质为此,我们先来了解缺失数据的研究状况和应用情况 1 2 非参数回归模型的几种估计方法和研究结果简介 在实际问题中,我们通常感兴趣的是变量x 与y ( 均可为多维) 由某种相关 关系。即当给定x = z 时,虽然还不足以确定y 的值,但y 的条件分布由x 所确 定,通常我们称z 为自变量,y 为响应变量例如x 是某种农作物单位面积的 施肥量和播种量,此时j 为二维的自变量,而y 为该作物的亩产量,】,的值当然 同之取值有关但还未达到由它所完全确定的程度,因为y 还收到诸如管理水 平、气候变化及其它大量因素的影响但需要注意的是,在许多实际的问题中, 可以在取值一定的情况下,确定y 的条件分布,而这种联系即是最广意义下的 回归关系 在经典的回归分析中,常常假定( x ,y ) 服从正态分布f ,盯2 1 ,在此假定 下,当给定x :x 时,y 的条件分布仍为多元正态y 的条件期望为 m ( x ) “- e ( y x = x ) = ( r l x ) , 其中州( x ) 常被称为( y 对x 的) 回归函数,它描述了y 的条件期望随x 值变化的情 况如果已知一组来自( x ,y ) 的随机样本 ( 五,i ) ,( 以,匕) ,则可基于该样 本作出回归函数的最小二乘估计在过去的理论和实践中,都已证明了在上述j 下 态回归模型下,最小二乘估计具有很多优良的性质。然而在很多实际阔题,正态 性不一定成立,于是人们便开始寻找其他办法去估计回归函数e ( y l j ) 及其他有 意义的量,诸如条件方差r ( y l x ) 等等后来的研究发现,有时可通过直接估 计y ( 在给定x = j 之下) 的条件分布来达到这目的例如考虑这样一种特殊 情况:对给定的z ,在五,置,五中有若干个( 数目较大) 五恰好等于x 譬 如,设置= x ,- ,= 1 ,2 ,k ,则可用 c ( y 阱妄孰一y 来估计给定x = x 时,y 的条件分布函数f ( _ y 卜) ,然后,用 税( x ) 皇皿( y 阱去妻誓 作为回归函数m ( z ) 的估计但一般说来,对给定的x ,上述作法就行不通了因 而,学者们便开始必须寻找- - g e 普遍适用的估计条件分布的方法另外,如果从 另一角度考察这一问题即试图找到一种方法估计( 厂( y ) 卜) ,其中厂为任一实 函数,则当,( y ) = , y a 】( a 是某个区间) 时,就能估计条件概率;而当 厂( y ) = y 或厂( y ) = y e ( r l z ) 2 时,即得条件均值及条件方差的估计从而诸 多条件量的估计问题可以归结成估计回归函数e ( 厂( y ) j z ) 的问题 s t o n e 在1 9 7 7 年提出了一种非参数回归估计的权函数方法,并在理论上论证 t i g $ 方法的优良性( 主要是大样本性质) s t o n e 的方法迅速应起了广泛的重 视,而后的一段时间内,这一方向取得了很大进展 4 权函数法的主要思想是:考虑来自总体( x ,y ) 的n 机r 4 本( x i ,) l - l ,2 ,”,于是给出n 个形如睨。( x ) 皇形( x ;z 】,一,x 。) 的权函数来构造估计 函数;又如果暇。b ) 还满足 ,( x ) o ,1 i n n ;以,( x ) = l , f = 1 则定义 吼,( z ) ) 为概率权函数于是对给定的权函数 呒,( z ) ) ,定义回归函数 掰( x ) 的估计为 h ( z ) = 睨,( 工) 誓, 从而( z ) 也成为m ( x ) 的一个权函数估计 从构造的过程中可以看出:一个权函数估计完全由给定的权函数 比,( x ) ) 所 确定,而权函数的分布只同x 的分布有关样本( 五,z ) 对聊。( 耳) 的贡献,除本 身之值外,还取决于权,( x ) 因而权;( x ) 表示在估计m ( x ) 时,样本( x ,誓) 所起的作用的“大小”因而如何构造并选取权函数,称为非参数回归中最重要 的问题而目前最常见的两种构造权函数的方法是近邻权方法和核权方法 近邻权方法的直观思想是,对给定的样本置,五,瓦及x e r l ,虽然可能 没有一个z 恰好等于x ,但可将“等于x ”的要求降低为“与x 接近”依每个 置对给定x 的距离重新排序,与x 距离越近的其重要程度越大譬如选用欧氏距 离”将样本置,x 2 ,以依在距离l i 的意义下排序: | l 一x i i - u 以2 一z 忙i k x 并且选定h 个常数g ,e :,e 。,满足条件 g 。e :0 ,e ,= 1 , 用 g t 作为权的大小的计量因爿 与x 最接近,赋予权q ,其次一个是x 岛, 赋予权e ,等等,最后可定义权函数为 r ( z ) = e ,i = l ,2 ,” 如果有1 f o o ; ( z z z ) m z w r ( 彳) 与o 这一结论在直观上很容易得以解释和说明,条件( ,) 可理解为对于与工距离超过 某种限度的那些样本墨,其权的总和很小,因而在估计m ( x ) 时,主要依据最接 近x ( 即在此限度以内) 的那些样本条件( 上h ) 意味着,作为单独的一个样本点 置,不论它与x 的距离多么接近,所起的作用总是很小的这正如概率论中的中 7 心极限定理,单个样本的作用小,但其总和随着”增大,其作用也随之增大这 些要求是与构造权函数的基本思想一致,因而是合理的 若k 为月4 上具有紧支撑的有界概率密度, 。( x ) 为以k ( ) 为核的核权函 数,d e v r o y e 和w a g n e r 得到了核权函数 形,( x ) 的矩相合的充分条件,即满足 九- 0 ,n 群。c 。( 月一。) 该结论提供了一个简单明了的对相合性的判断方 法,但是缺点在于对核函数x f 1 的要求太强了,具有一定的局限性 此外,在文献中,对于近邻权函数也给出了 ,( x ) 矩相合的相应的充分条 件即: ( ,) ! 鳃e ,= o ,对任何的。 o ; ( ) l i m e ,= 0 权函数估计方法作为非参数回归分析的主要方法,非常广泛地应用于许多领 域的研究例如在条件二阶矩估计、条件分位数估计、预测以及非参数判别分析 方面,都有非常重要的应用但是对于权函数的选区和构造,依然存在理论难度 和一定的局限性当将该方法应用于实践会发现,由于本身对总体分布的限定很 少,模型所容许的分布族大,自然而然能够用于描述更多的问题,因此具有适用 面广、稳健性强等优点;但也正是由于其自身的特点,使得绝大多数常用的非参 数统计方法,都是基于有关统计量的某种极限理论,因此非参数统计更多地依赖 于大样本方法而这也就是非参数统计方法迄今为止,在应用上未能真正推开, 更谈不上在相当的程度上代替传统的参数统计方法此外,非参数统计方法对解 决一些特殊问题,特别是如果针对某种特定的参数模型适合该问题,且针对该参 数模型存在着一种统计方法,则于后者比,非参数统计方法般效率较低,所以 在理论上进一步发展也是十分必要的 1 3 缺失数据的研究简况 在大规模抽样调查中,不可避免的会遇到大量数据中的不完全的样本 ( n o n r e s p o n d e n t ) 这些带有缺失数据的样本可以大概分成两类:如果一个样本 所有的数据都缺失,此样本被称为完全缺失的样本( 咖打n o n r e s p o n d e n t ) ;如果 一个样本有一部分数据缺失而又有一部分数据完全,此样本被称为不完全样本 ( 1 t e mn o n r e s p o n d e n t ) 由于完全缺失的样本无法提供任何关于总体的信息,因 此在作统计分析以前,这样的样本( 或者问卷) 不可避免的被当作无效闯卷而忽 略掉但是,如果简单地将不完全数据作无效问卷也忽略掉,会产生两个问题: 第一,导致基于完全数据的估计量精度下降;第= ,如果数据的缺失与否与数据 本身相关,基于完全数据的统计分析是有系统偏差( b i a s l 的,完全有可能产生和 事实相差甚远的结论因此如何合理使用不完全的样本,是抽样调查中研究的一 个重要问题 近年来,缺失数据问题在应用领域越来越引起人们的普遍的关注,由于实 际问题( 诸如生存分析、可靠性寿命试验、药品追踪试验) 中产生了大量的不完 全数据,其中有相当一部分是缺失数据,因此,对缺失数据的统计性质进行讨论 具有很重要的实际意义 缺失数据问题通常是指,对总体进行抽样的过程中,在完全观测到因变量的 情况下,样本的某些响应变量缺失,对原问题如果仍然用完全数据情况下的结论 处理,会导致结果较大的偏差缺失响应数据问题的研究一般都基于以下一组随 机不完全数据: x l ,y i ,刚:i = 1 ,2 ,h 1 ( 1 1 ) 此处所有的气是可观测的,而如果* 是缺失的,贝j j 8 , = 0 ;否则,嗔= i 简单的缺失数据模型( 1 1 ) 最早是在n e y m a nf 1 9 3 8 ) 著名的两阶段抽样过 程( d o u b l p 。rt w o - - s t a g e s a m p l i n gs c h e m 8 ) 中提出来的,而后天e ( 1 9 4 3 ) 1 及 c o c h r a n ( 1 9 6 3 ) 【4 5 】做了更进一步的补充研究在人口统计研究和经济分析等研究 领域中,用两阶段抽样法可以很好地弥补实际样本缺失的损失,例如在估计y 的 均值时,使用该方法大大地提高了估计的精度 人们对缺失数据的分析研究已有近6 0 年的历史:1 9 3 2 年,w i l k s 4 6 】首先提 出了关于缺失数据下多元正态模型的极大似然估计,此后y a t e s f l 9 3 3 ) 4 “、 b a r t l e t t ( 1 9 3 7 ) m 、a n d e r s o n ( 1 9 5 7 ) 等人对此问题作了大量的研究,并提出在 对缺失数据进行方差和协方差分析的过程中,采取填充缺失变量的最d 一- - 乘估计 的处理方法,这种方法迅速获得广泛的认可并极大地推动该领域研究的发展 此后,随着研究的不断发展和深入,人们对缺失数据提出了很多新的处理方 法:最早利用的方法即是简单地成对删除,但这一方法的缺点在于损失信息量, 减少了估计结果的精度;在1 9 7 2 年,o r c h a r d 与w o o d b u r y 4 8 】率先提出了缺失信 息的概念:随后,d e m p s t e r ,l a i r d 和r u b i n ( 1 9 7 7 ) 等人又提出了著名的e m 算 法i 后来又有人提出了利用预测值或各种估计值填充缺失值等方法这些对缺失 数据的研究一般都是利用的参数推断方法,并且,l i t t l e 和r u b i n 5 。】于1 9 8 7 年较 完整地提出了基于缺失数据下一般参数统计推断的基本原则和方法 此外,在过去的研究过程中,人们对缺失数据处理时通常提出一些简单的假 设,以便更好的研究其统计性质其中最常用的是l i t t l e r u b b i nr 1 9 8 7 ) 提出 的“随机缺失假设”f l v l a r 假设1 例如在参数估计方法的似然推断中 ( l i k e l i h o o d b a s e d i n f e r e n c e ) ,m a r 假设要求厂( 占 y ,x ,妒) :厂( 6 i e 。x ,y ) ,这 里的艺。表示可观测到的y ,而用妒来描述缺失机制而在非参数统计推断中, 由于没有任何关于( j ,y 1 联合分布的参数模型,一个较为简便的方法即:在x 给定的条件下,假定占与y 是条件独立的这种假设就是所谓的“强显著性m a r 假设”( s t r o n g l y i g n o r a b l e m a r ) ,最早是由r o s e n b a u m 和r u b i n h 于1 9 8 3 年提出 简而言之,该假设即 p ( x ) “- p ( 6 = l i t ,x ) = p ( 占= 1 i x ) ( 1 2 ) 事实上,假设( 1 1 ) 和( 1 2 ) 在实验中很容易被证实,尤其是在可以推测 缺失的】,变量主要依赖于协变量x 时,通过对p o ) 的经验估计,可以用这种依 赖性来进行统计推断沿用该思想,c h e n g 和w e i ”】在1 9 8 6 年用非参数方法讨论 了缺失数据平均值方程的统计性质,在文献中用著名的形统计量 1 0 ( n e d a r a y a - w a t s o n k e r h a l r e g r e s s i o n 西f f m n f j 。月) 提供了一个关于参数0 = e ( y ) 的估计相对而言,基于缺失数掘下的非参数方法的研究较参数方法发展更晚, 而且该领域研究成果远远不如前者对完全随机缺失数据,人们通常利用缺失部 分的经验估计作非参数统计推断对比简单地成对删除数据或其它的线性回归 估计,非参数方法得到的估计从偏差和方差的角度来说,具有更优良的性质 1 4 基于缺失数据下的非参数回归模型的发展前景 非参数回归模型在完全数据下的统计理论已经发展的较为完善,不少学者在 各种误差条件下分别给出了统计量的强相合性、渐近j 下态性的讨论;相对而言, 基于缺失数据下的统计性质的分析是一个历史不长,尚在发展中的领域目前所 取得成果中大多数是基于完全数据下的讨论,人们对非参数回归模型在缺失数据 下的研究较少,特别是对不完全数据的一些大样本统计的基本问题讨论较少 由于缺失数据在实际领域中有很强的应用背景,诸如在生存分析,可靠性寿命试 验,医药追踪试验中产生大量不完全的数据,因此随着此模型在理论和方法上的 日益成熟,对经济、医药、工农业、生产等方面将起着更重要的促进作用 第2 章本论文的估计方法和研究目标 2 1 估计方法 f 如上章所述,目前对非参数回归模型在缺失数据下的研究所见到的结果还 不多,对于基本研究问题相合性的研究结果则更少本文在适当条件下,研究了 非参数回归模型在固定设计下的相合性 因为在实际问题中,我们遇到的多为固定设计点列,故本文对工在固定设计 点列的前提下迸行讨论 考虑回归模型 咒= g ( 一) + t ,i = 1 ,h , ( 2 1 ) 这罩g ( x ) 是定义在【0 ,1 】上的未知回归函数,y t ,咒,h 是一维设计变量爿在 固定点,x :,x 。的”个观察值毛,岛,。是均值为零的随机误差变量序列 且满足e ( ) = 0 ,0 仃2 v q r ( e i ) 占) o ) 阶l i p s c h i t z 条件,且e k ) d u = 1 , 1 9 北京了:业人学理学颀十论文 e f k ( “) u 0 ) v 介l i p s c h i t z 条件 ( c ) 在m a r 条件下,假设有 o 白。i n f ;,p ( x ) s 恶p ( 并) 6 2 1 m 注2 :上述假设是合理的,容易从直观上加以理解,即不存在某石,随机变 量y 以p ( x ) = 1 ,或p ( x ) = 0 不缺失 定理1 。设基本条件( n ) 、( 6 ) 、( c ) 成立,给出g ( x ) 的加权核估计形如 ( 2 3 ) ,其中p ( j ) 已知,取以垒氍j ( 一曩。) = 。( 去) ,吃= ”一,且 。 , m i n 坟,f ,圭) ,在印岛,毛独立同分布的情况下,且满足s ? m ,则 垂。( x ) 一g ( x ) 一0 , 嬲 定理2 设基本条件( 。) 、( 6 ) 、( c ) 成立,给出g ( x ) 的加权核估计形如估计 式c z 4 ,中,耿心皇僻c t 一蠢,= 。( 去) ,= n ,且。 , r n j n a ,南,圭) , 在s ,岛,e n 独立同分布的情况下,且满足e 砰 。o ,则有 色( z ) 一g ( 工) 0 , n s 定理3 在定理1 的条件下,考虑对于固定设计点列 墨:1 f s n ,观察值 y ,:1 - 0 ,有e x p - a h u 。 s * 定理6 在定理4 的条件下,如果 日:江l ,2 , 为m 相依序列,若其他条 件保持不变,则同样的有:l ( x ) 完全收敛于g ( x ) 2 北京工业大学理学硕士论文 3 3 预备引理 在定理证明之前,先给出几个引理。 引理1 设,x :,咒是独立同分布的随机变量,肼? 0 和c 1 ,n 1 均成立 则 证明:证明可参见 1 】 目 不垒d 。五o 引理2 。设基本条件( 。) 成立,并且满足: ( 1 ) 当n _ 时,h 。叶0 ,“斗0 , ( 2 ) 当_ 时,土f 丝丫斗。 h 。lh 。j 则 f 】k ( “) 陋z e ( o ,1 ) 喜孚l 足( 寻h 酬如 = 喜学i 足( 寻 jf l 可刊幽 垒s n , 由条件( 4 ) 易知i k 0 ) j 也满足阶l i p s c h i t z 条件,利用积分中值定理 3 0 谚 1 ( i = 1 ,h ) ,使 黧 卟陲学f 吖等卜f l d t x - - u 州 告半 d 寻h 刮文寻删 = 陲生产f 吖寻棒兰产f 足( 气半圳 喜f 学愀寻朴 芋圳 哳1 z 氓 再由条件( 2 ) ,知 故引理结论得证 时 l i m e = 0 引理3 设基本条件( a ) 、( b ) 成立,“m a x 。( x - 窗宽,并且满足条件: ( 1 ) 当n 斗0 0 时,h oj 0 ,以哼0 , c z ,当n - m 时,去 ( 等 4 + 群 呻。, 低2 喜* 学k 等卜胁权核黼 e g ( x ) 一音( x ) 斗0 ,a s 。( 书 0 0 ,有k 卜) 【 0 时非降,当“ 0 ,有 p 峥1 s 卜p 卜r 荟骈) 证明:证明可参见【3 】 事实上,引理5 的结论在 工;:i 1 j 独立情形下,也有类似的结论,即 引理5 设 墨:i 2 1 为独立序列,e x i = 0 ,i 五i d i ,“j ( f = 1 ,2 ,) , t 0 为实数,且满足t m a x d ,1 ,则v f 0 ,有 p 唯一i 占 一p 卜r 2 喜脚 此处在独立情形下引入这个有用的b e r n s t e i n 型不等式是为了讨论独立误差 序列下的加权核估计的完全收敛性质。其证明方法跟引理5 完全类似,只需直接 用到独立性即可证明 引理6 设 置:i 1 满足以下任一种情况:( 1 ) 独立序列:( 2 ) n a 相依 并且满足毯= 0 且存在非负函数( ”) ,使 m 。a 。x x i = o ( 卢( ) ) y 。, e x 7 = o ( ( ”) ) , 且v 加0 , e x p 一琐芦( n ) ) s z 善e x p 一衫( 一) 。 引理7 设基本条件( a ) 、( 6 ) 、( c ) 成立,且窗宽满足o 颤_ o , 以垒懋c 。吡球射州卜,则:回归函数的加权核估计 北京工业大学理学硕上论文 g 。( z ) = 形,( x ) y ,完全收敛于g ( z ) 证明:证明可参见【1 9 】 3 4 定理的证明 定理1 的证明 经过计算可得 引小静“半 世 等协c ) 由于在m a r 条件下,西与m 相互独立,故 从而 e ( 4 y i ) = e 4 e y , = e y i p ( x , ) 刚栌钟c 俐 竿t h 等协c t ,州l l 一 7 0 l 营( x ) 一占( 工) = 季。( 工) 一点喜。( x ) + 互。( ,) 一g ( x ) 2 善x ) ( 咒4 一e ( 儿洲p ( 一) ) + 形。( x ) e ( y f 4 ) p ( 葺) 一g ( x ) = 彬,( z ) g ( ) ( 4 一e t ) p ( - ) + 喜,( z ) q 4 加( _ ) + 喜呒,( z ) 嘞一g ( x ) 垒i ,l + i ,2 十j 。3( 3 4 ) 、j誓,-、 尹 , 、) x ,1 嗔m 。h 皇一 瓢 、j卜 。h = ( 1 ) 先证1 寸0 ,a s 不妨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论