




已阅读5页,还剩48页未读, 继续免费阅读
(概率论与数理统计专业论文)缺失数据半参数回归分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 半参数回归模型是二十世纪八十年代发展起来的种重要的统计模型 由于该模型综合了参数和非参数信息。比般的参数模型或非参数模型有更 强的解释能力在理论上,处理该种模型可以融合这两类单性质的模型的处 理方法但并非两类模型的简单叠加 在许多实际问题中。诸如临床试验和医药追踪试验等。由于各种人为或其 它不可知因素,都容易导致大量的缺失散据的产生近年来,缺失数据问题在 实际应用中越来越引起人们的普遍关注 本文考虑响应变量随机缺失的部分线性模型在文献中,对缺失数据的 处理往往采用简单的成对删除加汉或借补的方法而对于半参效模型中参 数卢的处理往往采用最小= 乘方法,对于非参数部分“) 的估计大多采用核 估计样条估计或近邻估计等本文将经验似然推断方法与缺失数据处理的 c o m p l e t e - c a s e 方法相结合。基于完全记录单元,针对部分线性模型,给出了参 数的经验似然比统计量。并在一定条件下证明了该统计量具有渐近卡方性,这 就为进行大样本的假设检验及构造参数的置信域莫定了基础随后本文还研 究了参数的极大经验似然估计的渐近正态性质。并用模拟结果证明,由我们的 方法得到的参数的置信域有较大的区间覆盖概率并有较小的区间长度 本文的特色主要体现在以下两个方面t ( 1 ) 本文研究的是响应变量随机缺失的数据,且其满足m a r 缺失机制 ( 2 ) 本文采用性质较好的经验似然方法来处理半参数回归模型中参数部分 北京工业大学理学硕士学位论文 的估计问题 关键词一缺失效据。部分线性模型经验似然。卡方分布渐近正态性,m o m e c a r l o 模拟 摘要 a b s t r a c t s e m i p a r m - n e t r i cr 删m o d e lh a 8b e e nd e v e l o p e d 鸽柚i m p o r t a n t s t a t i s t i c sm o d e l 幽1 9 8 0 s ,i th a sb e e nu s e dw i d e l yi nm a n y f i e l d s ,b e c u s et h i s f i n do fm o d e lc o n c l u d e sn o to n l yt h ep a r a m e t r i cp a r t , b u ta l s ot h en o n p a r a - m e t r i cc o m p o n e n t ,i ta l s oh a ss t r o n g e re x p l a u a t i o n s t h c o m t i c a l l y , m e t h o d s o fd e a l i n gw i t ht h i sm o d da r em o r ec o m p l i c a t e dt h a nt h ep u r ep a r a m s t r i c0 1 n o n p a r a m e t r i cr e g r e s s i o nm o d e l i np r a c t i c e ,o f t e nn o ta l lx m - - i a b l e sm a yb ea 棚d l a b l ef u rv a l j o u sr e 锄o d s s u c ha su n w i l l i n g a e 翻s o m es a m p l e du n i t s 肌喇睁t h ed s s h 埘i n f o r m a t i o n ,l o s s o fi n f o r m a t i o nc a u s e db yu n c o n t r o l l a b l ef a c t o r s f 赶l u r e t h ep a r to fi n v e s - t i g a t o rt og a t h e rc o r r e c ti n f o r m a t i o n a n d o n r e c e n t l y , e t a t i s t i c a u sp a i d m o r ea t t e n t i o nf o rd e 也n g 莉t ht h ep r o b l e ma b o u t 口i 目衄d a t a i nt h i sp a p e r w ec o n s i d e rt h ep a r t i a l l yl i n e a rm o d e l 莉t hr a n d o mm i m - i n gl - p o n s e i nc u r r e n tl i t e r a t u r e t h e r e 眦m a n ym e t h o d st od e a u n gw i t h m i s s i n gd a t a ,s u c h c o m p l 蛐,i m p u t a t i o n ,a n de of o r t h b a s e do i lt h e c o m p l 咖,w ec o n s t r u c t et h e 锄叫蒯l i k e l i h o o dr a t i oc o n f i d e n c er e g i o n f o rt h ep a r a m e t r i cc o m p o n e n ti nt h ep a r t i a l l yl i n e a rm o d e l ,w h i c hp 舶咖t an e ww a yt ot r e a tt h i sm o d e l u n d e rq u i t eg e n e r a lc o n d i t i o n s 帆p r o v e t h ee m p i r i c a ll i k e l i h o o dr a t i os t a t i s t i ci sa s y m p t o t i c a l l yc h 蛔u x ed i s t r i b u t i o n t h e r e f o r e , t h ee m p i r i c a ll i k e l i h o o dr a t i oc o n f i d e n c er e g i o nc a l lb ec o n s t r u c t e d m 北京工业大学理学硕士学位论文 a c c o r d i n g l y i na d d i t i o n , bs i m u l a t i o ns t u d yi sc a r r i e do u tt oc o m p a r et h e p r o p o s e dm e t h o dw i t ht h en o r m 矗la p p r o x i m a t i o n - b a s e dm e t h o d s i ti ss h o w n t h a t ,t h ec o n f i d e n c er e g i o nc o n s t r u c t e db ye m p i r i c a ll i m 山0 0 dh a sh i g h 盯c o n - k e y w o r d s :m i 蹈i n gd 日土b ,p a r t i a l l yl i n e a rm o d e l ,e p i r i c a ll i k e l i h o o d ,c h i - s q t t r ed i s t r i b u t i o n ,a 日y m p t o t j cn o r m a l i t y , m o n t e - c a r l os i m u l a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果尽我所知,除了文中特别加以标注和致谢的地 方外。论文中不包含其他人已经发表和撰写过的研究成果,也不包 含为获得北京工业大学或其他教育机构的学位或证书而使用过的材 料,与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意 关于论文使用授权的说明 本人完全了解北京工业大学有关保留,使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文 ( 保密的论文在解密后应遵守此规定) 签名:垫垂绰导师签名:童l 蔓红日期;独堂 :b 第1 章绪论 第1 章绪论 1 1 引言 在客观世界中普遍存在着变量之间的依赖关系在许多实际问题中,往 往需要考察对象y ( 响应变量) 同影响y 的因素x ( 解释变量) 之问的关系若 两者之间存在着某种相关关系,即当x 取一定值时。不足以确定y 的值,但 能确定y 的条件分布y 对x 取值的依赖关系是最广意义下的回归关系 回归是指在给了一组数据( 五,m ) ,( 蜀,k ) 之后。希望找到个解释 变量x 和响应变量y 之间的关系,使 k = m ( 五) + 旬,i = 1 ,2 ,b , 其中m 0 ) = e ( y i x = 动为回归函数。t 为隧机误差回归分析就是研究 具有相关关系的变量之间的统计规律性 回顾回归分析研究的历史,大致在二十世纪七十年代以前,重点在于参数 回归模型尤其是线性回归模型的研究。参数回归模型中。总体的分布形式残分 布族往往是给定的,或者是假定的,回归函数中除了有限个参数未知以外,其 余都是已知的,因而模型容易处理,而且对此研究已有相当长的历史。巳形成 了一套比较成熟的理论和方法。参数回归模型对回归函数常常有基本假设, 提供了大量的额外信息,这些信息通常由经验和历史资料提供,因而当假设模 型成立时,其推断有较高的精度然而,在实际生活中,对总体分布的假设并 不是i 瞳便作出的有时数据并不是来自所假定的总体;或者数据因为种种原因 被严重污染,这样。当参数假定与实际相背离的情况下,用参数回归模型进行 推断,拟合情况很差,甚至会引起无法预料的错误在这种情况的驱使下,人 们不得不寻求一种不假定总体分布,尽量从数据本身获取所器信息的道路。 北京工业大学理学硕士学位论文 = 十世纪七十年代以来,非参数回归日渐兴起非参数回归模型的特点是 回归函数的形式可以任意,解释变量x 和响应变量y 的分布限制的很少因 而有较大的适应性自s t 0 1 硝1 l 于1 9 _ 7 7 年提出非参数回归估计的权函数估计 方法后,该方法引起统计学者的广泛关注近十几年来权函数方法如近邻估 计核估计、局部多项式估计等等方法不断发展完善,非参数回归的理论研究 和应用取得了较大的进展但在模型中。各解释变量对响应变量的作用的差别 往往被忽略这在实际问题中对此未提供任何信息时,是不可避免的;但若有 根据( 经验或历史资料等) 认为某些解释变量对响应变量的影响较显著时使 用非参数回归模型则没有充分利用巳知信息。这样就会明显降低模型的解释 能力 在研究气候条件对电力需求的影响这实际问题中。为充分利用已知的信 息,以弥补非参数回归模型的不足和发挥参数模型的优点,彤c e 阁和e n g l e 嘲 等人提出了半参数回归模型,将回归函数分解成参数和非参数结构,半参 数。的含义体现的更为清楚和最富现实意义可以设想,在实际问题中,它可 能是个更接近真实,更能充分利用致据中提供的信息的方法从理论上处 理这种模型的方法融合了参数回归中常用的方法和较近发展起来的非参数方 法,但也并非该两类方法的简单叠加总的来看,可以认为其复杂性和难度都 超过了任单性质的回归模型在应用上,该模型较单纯的参数模型或非参 数模型有更大的适应性因而可以说,该模型是个在应用上有重要意义耳在 理论上富有挑战性的领域应当指出的是,t 述三种模型各有其适应范围,离 开各自的适应范围就无法评价这些模型的优劣 回归模型是数理统计中发展最早,理论丰富且应用性较强的重要模型 过去的几十年里,回归模型已经被广泛用于工农业气象、经济管理以及医药 - 2 - 第1 章绪论 卫生等领域同时由于实际应用的需要,回归模型也在不断发展,其模型从最 初的参数回归模型发展到非参数回归模型,从非参数回归模型又发展到半参 数回归模型随着回归分析的理论研究的不断深入,回归分析越来越深刻地应 用于实际 上述三种模型在完全数据下的理论已经发展的较为完善,不少学者在各 种误差条件下分别讨论和研究了兴趣参数估计量的相合性和渐近正态性,以 及收敛速度等相对而言,基于缺失数据下估计量的统计性质的研究分析是一 个历史不长。并且不断发展的领境目前所取得的成果大多致是基于完全数据 的讨论,人们对非参效回归或半参数回归在缺失数据下的研究较少由于缺失 数据在实际领域中有广阔的应用背景,诸如抽样调查、生存分析、可靠性寿命 试验、医药追踪试验中都产生大量的缺失数据因此对缺失数据下半参效回归 模型的统计性质的研究具有很重要的实际意义本文主要讨论缺失数据下部 分线性半参数回归模型的统计性质 1 2 半参数回归模型简介 半参数回归模型发展至今。在解决实际问题中,实际工作者和学者们提出 了许多类型的半参数回归模型,下面主要介绍部分线性半参数回归模型,这类 模型具有重要的实际意义。 若影响y 的因素( 解释变量) 可分为两个部分,即z l ,唧及t l ,岛( 舛 口= 女) 根据经验或历史资料可以认为因素王1 ,却是主要的,而且y 与 l ,却是线性的;面t l ,岛则是某种干扰因素( 或者看作是协变量) ,它 同y 的关系是完全未知的,而且没有理由将其归为误差项部分线性回归模 型 孰= p + g 心) + 8 幻 = 1 ,2 ,n , - 3 北京工业大学理学硬士学位论文 其中而= ( 知,知,) 7 ,卢= 慨,岛,纬) r ,( p 1 ) 白,白) 是i d d 随 机设计或固定设计点列。向是i i d 的随机误差。且e ( e ) = 0 ,e ( 碍) = 矿 2 ) 阶平均相 合性和收敛速度 1 9 9 5 年,柴根象m 基于此半参数回归模型的可加性。提出了二阶段估 计方法。并在 甄,1 s n 为固定设计点列下,研究了口0 ) 的核权函致形 式的估计量,得到很理想的结果2 0 0 1 年,薛留根悯在 飘,1 i m 为 隧叭受计点列下,研究了最近邻权函数形式的估计量,在通常的条件下获得了 蟊( t ) 反和磅的渐近正态性和最优收敛速度且定理的基本条件和研究非 参数回归函数估计的收敛速度所施加的条件相致,乱( d 的一致弱收敛速度 达到了非参数回归函数估计的最优收敛速度 半参数回归这模型兼顾了参效回归和非参数回归模型的优点,模型具 有较强的解释能力因而在实际中有着更为广阔的实用背景深信随着半参数 回归模型在理论和方法上的目益成熟。对经济、医药、工农业生产等方向将起 着更重要的促进作用因此,对缺失效据下半参数回归的理论研究具有十分重 要的意义下面介绍些缺失数据的研究现状 1 3 缺失数据缺失机制及研究现状 在大规模抽样调查中。不可避免的会遇到大量数据中的不完全的样本。 这些带有缺失数据的样本从缺失机制与方式上可分为随机缺失、完全l 尉几缺 失和非随机缺失三类 1 随机缺失( m i 皤i n gs tr a n d o m , m a r ) 是针对已获取的的调查表中某一 变量而出现的项目缺失个变量是不是随机缺失,不是由这一变量本身所决 定。而是由数据集中与此变量有关的其他变量来决定如果在某变量的缺失与 未缺失数据之间。与该变量有关的其它变量闻不存在差异,那么这变量的缺 一6 - 第1 章绪论 失为随机缺失 2 完全随机缺失( m i s s i n gc o m p l e t e l ya tr a n d o m ,m c a r ) 它是缺失数据 问题中最简单的一种它指缺失现象是随机发生的。既某变量的缺失与非缺 失数据之间不存在任何系统差异。数据集中与其有关的其他变量,在该变量的 缺失与非缺失分组之间也不存在任何差异。可以说,缺失数据和观测都是总体 的个随帆样本统计分析中,若将含有缺失的记录删除,估计结果不会有偏 或偏差很小,其检验效能只能与样本量的大小有关,在分析时所用到的推估模 型都是可忽略模型( i g n o r a b l em o d e l 可忽略缺失原因) 。但实际资料分析中符 合完全随机缺失的情况非常少见( 即一般的缺失都是有原因的) 3 非随机缺失佃i 皤j n gn o ta tr a n d o m , m n a a ) 如果数据不满足以上两 种缺失方式则称为非随机缺失或非完全随机缺失这是缺失数据中最麻烦的 种 近年来,缺失数据问题在应用领域鲢来越引起人们的普遍的关注,由于实 际问题( 诸如生存分析可靠性寿命试验药品追踪试验) 中产生大量的不完 全效据,其中有相当一部分是m a r 因此对m a r 的统计性质进行研究具有 很重要的实际意义常见的m a r 是考虑如下不完全随机样本 ( 墨,x ,酗i = 1 ,对 其中五都可观测到。若m 缺失则五= 0 ,否则而= 1 且假设y 的缺失满足 m a r 条件,即 p ( 6 = is x , y ) = p ( 6 = l l x ) = p ( x ) 人们对缺失数据的分析研究已有近7 0 年的历史。w i l k s i l q 年首先提出了 关于缺失数据下多元正态模型的极大似然估计,此后y a t e s i ”,b a r t l e t t i s , 7 北京工业大学理学硕士学位论文 a i i d 啪皿【埘等人对此问题做了大量的研究。并提出在对缺数据进行方差分 析和协方差分析的过程中采取填充缺失变量的最小二乘估计的处理方法 但是部分缺失数据的分析方面的文献是比较新的回顾的文章包括a f i f i 和 e h s h o 删,h a r t e l y 和h o c k i n g 2 1 ,o r c h a r da n dw o o d b u r y 嘲,l i t t l ea n d r u - b i n 嘲,l i t t l e 和s c h a n 洲,l i t t l e 篮 ,以及d e m p s t 日,l a i r da n dr u b i n l 舅 ( 1 9 7 7 ) 等人又提出了著名的e m 算法;后来又有人提出了利用预测值或各种估计值 填充缺失值等方法这些对缺失数据的研究般都是利用的参数推断方法 并且,l i t t l ea n d i 矧于1 9 8 7 年较完整地提出了基于缺失致据下般参 数统计推断的基本原则和方法这些文章中的方法可归结成下面几类,这几类 不是相互排斥的 1 基于完全记录单元的方法。也即c o m p l e t e - c a s e ,简记为c c 方法当 一些变量对某些单元没有记录时。简单的权宜之计是简单的地丢弃未完全记 录的单元,仅分析有完全记录的单元通常这很容易实现,在少量缺失数据时 也是可行的然而这样会导致严重的偏。通常借补是很有效 2 加权方法由于上述方法容易导致偏差。于是在1 0 7 2 年,o r c h a r d 和 w o o d b u r y 矧率先提出了缺失信息的概念在无不响应的抽样调查数据的随 机化的推断中通常用它们的设计权加权抽取的单元 3 基于借补的方法缺失值被填充,对产生的完全数据用标准的方法进 行分析常用的借补方法包括- 热平台借补均值借补,回归借补等其中的 回归借补是指单元的缺失值用该单元的已知变量回归得到的预测替代 4 基于模型的方法一般对观测数据定义个模型,然后在模型下基于 似然或适当的分布作推断,模型可带有用最大似然估计的参数这方法的优 势是灵活;回避特殊个案的方法,在模型假定基础上,产生的方法可以进行推 8 一 第1 章绪论 演和评价;以及考虑数据不完整性时方差分析的可用性 1 4 经验似然推断的研究现状 经验似然是o w e n r t l 在完全样本下提出的一种非参数统计推断方法,它 有类似于b o o t s t r a p 的抽样特性,这一方法与经典的或现代的统计方法比较 有很多突出的优点,如用经验似然方法构造置信区间除有域保持性变换不 变性及置信域的形状由数据自行决定等诸多优点外。还有b a r t l e t t 纠偏性及 无需构造枢轴统计量等优点正因为如此,这方法引起了许多统计学家的兴 趣,他们将这一方法应用到各种统计模型及各种领域。如。啦芦7 篇捌由对 总体均值的推断提出经验似然并随后将其应用到线性回归模型的统计推断; k o l a c z y k l 3 0 l 应用经验似然于广义线性模型;w a n g 和j i n g p q 发展了部分线 性模型的经验似然;c h 和q m 【嘲发展了非参数回归的经验似然;c h u a u g 和c h a n 矧发展了自回归模型的经验似然方法iz h o n g 和r 醐应用经验 似然于抽样调查问题的研究ik i t a m u r a l 3 叼等应用经验似然到经济模型的研 究等。更值得注意的是,近年来些统计学家又将经验似然方法应用到不完全 数据大统计分析,如缺失数据随机删失数据,测量误差数据等,发展了所谓 的被估计的经验似然。调整的经验似然及b o o t s t r a p 经验似然应该指出,经 验似然的思想至少可以追溯到t h o m a s 和g 期m 1 锄e i d a a i 通过分舞生存函数 为条件概率的乘积,使用乘积约束条件下的随机删失非参数似然比方法构造 了生存概率的置信区间估计 o w e n 将其思想方法应用到完全独立同分布样 本下总体均值这一氲单面重要情形的统计推断由于其使用线性约柬条件, 从而表明这方法有非常般的应用鉴于此,许多统计学家将完全数据下的 经验似然方法推广到不完全数据下的统计推断对于缺失数据下的经验似然 推断,主要是w a n g 和r 8 0 嘲和r a o i 3 s ,3 口 分别在线性借毒卜和非参数核 9 北京工业大学理学硕士学位论文 回归借补下发展了反映数据缺失时的经验似然推断,除此之外未见有任何其 他研究 那么什么是经验似然呢? 设五,恐,五j 矽有独立共同的累积分布f ,则f 的非参数似然是 二( f ) = i i f ( 五) ) 这里的f ( 五 ) 是分布f 在五处的概率质量。其中i = 1 ,2 ,亿大家知 道五,恐,】0 的经验累积分布函数晶= n - 1 使t 式达到最 大,其中( a ) = f i x a 】,也就是r 是f 的非参数极大似然估计 在参数推断中,人们利用参数似然比进行假设检验与置信区间估计类似 地。在分布完全未知的情况下非参数似然比 州= 怒 也可用于统计推断不象参数似然比非参数似然比中不包含未知参致个 自然的问题是如何使用它对参数作统计推断,注意到一些参数口是总体分布 的瑟函,即日= t ( f ) r p ,其中t ( ) 是分布f 的某泛函。f 属于某分布类 ,如总体均值及分位点等就是有上述形式泛函的例子为了对t ( f ) = 口作检 验。o 嘞定义如下经验似然比统计量 冗( 口) = s u p r ( o ) l t ( f ) = 日,f 毋 很显然,经验似然比实际上是一种截面非参数似然比函数,它要求f 在 满足约束条件t ( 功= 口下使非参数似然比达到最大( 在无约束条件下非参数 极大似然比为1 ) ,而参散口由这一约束条件引入这一极大似然比中,从而得 到关于参数口的极大截面非参数似然比函数,用这一非参数似然比作假设检 - 1 0 - 第1 章绪论 验、区间估计或进行其它统计推断,这方法就是所谓的经验似然方法假如 冗 r o ,经验似然假设检验拒绝凰:t ( 刃= e o ,而似然置信域为 p :冗r o ) 其中r o 为某临界值 注意到冗( 是关于非参数似然比在限制条件下关于f 求极大,这种形 式的定义显然不利于计算下面给出与上边定义等价但利于计算的形式由 冗( p ) 的定义,注意到只有那些在观察值点有正概率质量的离散分布类中求极 大,我们首先假设数据没有”结”( 当有。结”时,根据伪咖,所求的经验似 然是相同的) ,在没有”结”时,我们设分布f 为昂,即弓= e a 口噩,注意 到二( 昂) = n 一因而 冗( 口) = s u pn )n一一 暑 z , t ( f , ) f f i e “ 显然l a g r a n g e 乘子法可用于计算冗( 经验似然用于推断的另一个问题是如何确定临界值r o ,这一问题实际上 归结为求冗( 的渐近分布本文重要定理之一就是证明了似然比统计量的渐 近卡方性质,这特性就形成了经验似然推断的基础 经验似然推断在总体均值推断线性模型推断、分位致推断,估计方程推 断及利用辅助信息进行推断等几中重要的推断中有着广瑟的应用。是一种重 要的统计推断方法 1 b 本文主要研究内容 本文讨论的是缺失数据下部分线性模型中参数的估计问题模型为 巧= w p + g ) + 旬,1s f s m 1 1 北京工业大学理学硕士学位论文 其中m 为实值响应变量( 五,正) 是取值于留x 【0 ,1 】上的可观测随机变量, 卢r p 为未知参数向量。,( ) 是定义于【o ,l 】上的未知函数, 缸。1 i s n ) 为i i d 的随机误差e ( e t ) = o ,v a t ( e , ) = 矿 ,且 ( 丑,五) ,1 i n 与b ,1 i n ) 相互独立本文讨论如下样本,即 五,k ,死民翟1 ,其中 噩,t , 】;n l 被完全观测;若k 被观测则记民= 1 ,否则记而= 0 ,且满足随 机缺失( m a r ) 条件。即 p ( 焉= 1 i 强,正,m ) = p ( 民= 1 i 五,正) = p ( 五,正) 从中可以看出,烈五,正) 是关于五,正的函数,如果是设计缺失,那么p ( x ,丑) 的形式是巳知的,否则我们可以根据观测到的数据估计出p ( 五,正) ,因此不妨 假设是设计缺失。即p ( 五,五) 巳知 上述模型在非线性模式下对缺失数据的分析是特别有用的直以来,有 许多学者都致力于研究缺失数据问题,提出了很多分析方法,如c c 方法,借 补方法和加权估计方程等,而对于半参数模型研究的文献中,般用最b - - 乘 方法估计参数分量卢,并由此构造其置信区间,而非参数分量g 的估计问题大 多采用样条估计核估计近邻估计等本文采用处理缺失数据的( 2 c 方法与 对数经验似然结合的方法定理2 1 证明了所构造的经验似然比统计量的渐 近性质,这为构造参数卢的置信区间提供了论据实践证明经验似然置信 区间较最小二乘方法有更精确的区间覆盖率及更小的区间长度 用经验似然推断方法来构造模型中参数的置信域或进行假设检验是o w e n i r 0 在1 9 8 8 年提出的,它主要是由样本经验分布是总体分布的非参数极大似然估 计这一思想的启发。从而构造了个似然比统计量近年来,国内些学者也 作了相关方面的研究,如秦永松1 4 q 对类固定设计下的半参数模型进行了研 1 2 第1 章绪论 究,得到了对数经验似然比统计量的渐近性质w 啦【3 1 】和s h i 阻】等也用经 验似然方法对半参效楱盟硅行了深入的研究更值得注意的是。近年来一些统 计学家又将经验似然方法应用到不完全敦据的统计分析。对于缺失敦据下的 经验似然推断。主要是w a n g 和m 旧m ,w a n g 和r a o 【靼- 3 9 1 分别在线性借补 和非参数核回归借朴下发展了反映数据缺失时的经验似然推断,除此之外未 见有任何其他研究 本文具体方法如下首先假设模型中的参数分量口是已知的。利用完全 观测数据可定义非参数分量9 ( ) 的估计口( ) ,再将其带入原模型,则模型即转 化为线性模型,于是在给出些基本假设条件后,我们提出个对敦经验似然 比统计量,并通过极大化,得到了参数的极大经验似然估计本文证明了对数 似然比统计量的重要统计性质一渐近卡方性。这为构造参数的置信区间奠定 了基础同时本文在定理2 2 也证明了参数极大经验似然估计具有浙近正态 性最后对于有限样本的情形用模拟方法进行了比较研究 1 6 本文结构 由于本文中研究的数据及模型有着广泛的应用背景,因此我们在第一章 的第一、二两部分,分别概括介绍了半参数回归模型与缺失数据的基本知识及 近年来研究方向等;第一章第三部分介绍了经验似然推断的发展状况。包括了 此类推断产生的原因,对典型统计模型中推断的影响等,此主要是作为正文的 预备知识而出现的,所以我们只作了简略介绍 本文第二章主要是缺失数据下部分线性半参数回归模型的统计推断理论, 第一,二节介绍了所要研究的统计致据类型模型及方法的实施过程。最后两 节是对模型中参数的统计推断及其理论性质的证明 第三章则旨在用数值模拟结果说明本文提出的统计推断方法的优良性 1 3 - 北京工业大学理学硕士学位论文 研究表明,即使在有限样本的情形下本文提出的统计推断方法在区间覆盖率 及平均区间长度上均具有一定的优越性 一1 4 第2 章主要方法及结果 第2 章主要方法及结果 2 1 前言 半参数回归模型是近年来提出的个重要统计模型由于这种模型综合 了参数回归模型与非参数回归模型的特点,所以在不少实际问题中,它是个 更接近于真实、更能充分利用数据信息的方法在应用中,该模型较单纯的参 数或非参数模型有更大的适应性;在理论上。处理这种模型的方法包括了参数 回归中常用的方法,也包含了较近发展起来的非参数方法。但也并非两类方法 的简单叠加可以认为其复杂性和难度都超过了单性质的回归模型,因此可 以说,它的确是个实际中有重大意义且在理论上富有挑战性的统计模型 对于半参数回归模型 y = x 7 p + 9 ( 即+ ( 2 1 ) 其中y 为实值响应变量伍,是取值于伊【o ,1 】上的可观测随机向量。 彤未知参数向量,岔( - ) 是定义于闭区阃【o ,1 1 上的未知函数模型误差 与( 墨研相互独立,且e e = 0 ,v s r ( ) = 矿 o o 在完全数据下,已经有 若干研究模型中参数分量卢和非参数分量g 的估计问题的文献,其中大都综 合了参数和非参数方法。参数方法主要是最吐c 乘法。但是基于此方法得到的 估计不稳健故s h i 与l i l 4 2 利用多项式逼近得到了卢和g 的一类稳健的m 估计口和如,并在一定条件下证明了p 的渐近正态性薛留根在定条 件下构造了声的随机如权m 估计量矿,并证观了用再( 矿一国的分布逼近 元一卢) 的分布是渐近有效的,该结果可用于构造卢的大样本置信区间和 进行卢的假设检验而非参数方法大多采用核估计1 2 1 、样条估计h 近邻估 计暇和经验似然方法1 3 1 删等, - 1 5 - 北京工业大学理学硕士学位论文 但是实际中数据常不能被完全观测,即有d i d 样本 五,m ,正,氏) 岛,其 中 五,正) 冬l 被完全观测l 当函= 1 时。k 被观测,当时最= 0 ,k 缺失, 且满足条件( m a r ) p = l i 五,正,k ) = p ( 盈= 1 i 五,正) = p c x , ,互) 本文主要基于i i d 样本 五,k ,正,氐) 冬l ,利用o w m 阢矧提出的经验似然方 法构造模型( 2 1 ) 中未知参敦的置信域在置信域的构造方面经验似然方法是 个有效的方法。因为经验似然方法在构造置信域方面有许多突出的优点 许多统计学者已经将经验似然方法应用到处理各种数据的问题,如w m m g 与 r a o p “”1 以及w a u g 与l i n t o u 等人阀在随机缺失的情况下构造了响应变 量y 的均值函数的经验似然置信区间本文在响应变量随机缺失的条件下。 利用经验似然方法构造了模型( 2 1 ) 中未知参数的经验似然比统计量。并在一 定条件下证明了所提出的统计量具有渐近p 分布,并利用所得结果构造了参 数的置信域,同时也得到了未知参数的极大经验似然估计,并证明了其具有渐 近正态性质另外,通过模拟研究说明了经验似然方法在参数的置信域精度及 其覆盖概率大小方面优于l s 估计 2 2 方法与主要结果 设 五= ( ,x i ,) 7 ,正,m ,丑) 二l 是来自模型( 2 1 ) 的组独立同分 布的随机样本即 m = 写卢+ 9 亿) + e ,( 2 2 ) 其中旬是相互独立的模型误差,且e ( ) = o ,v 缸他) = 矿 ,= i ,2 ,7 1 在模型( 2 2 ) 中首先假设卢是已知的,用观测指示变量氐左乘( 2 9 - ) 式可 - 1 6 - 第2 章主要方法及结果 得 氐k = 魂写芦4 - 6 辔( 忍) 4 - 6 阵,1 i s l l i ( 2 3 ) 然后在给定t 的条件下取条件期望有 从b 可得 因此有 e 限k 陬= q = e 嗡墨i t , = 司芦+ e 限陬= t g ( o , g ( t ) = 珈( t ) 一吼( t ) v ,( 2 4 ) 酬= 蒜旨,卯= 器料 4 瞰一卯( 正) 】气五d 0 一m ( 丑) 】节+ q ,( 2 5 ) 为此我们可以基于观测数据以及毋( ) ,j = 1 ,2 的估计的基础上来构造统计 量 令耳( ) 是个非负函数,称为核函数,宙宽7 l = k 是个收敛于0 的 常数列,我们定义权函数 吲归嚣6 j h - ( 警) j = l 1 rn 目p z - , 蠡n ( 0 = 西矸勺( t ) 玛,耍( t ) = 国矸锄( 巧分别是卯( t ) 和卯( t ) 的 ,= 1j = l 相合估计从( 2 4 ) 式可得g c t ) 的估计 甄( ) = 蠡( d 一z ( 矿多。( 2 。6 ) 记 北京工业大学理学硕士学位论文 n 需= m 一毋( 正) 巧, ,兰l n 孟= 五一6 j w 可( t , ) x j j e l 现在我们引入个辅助随机变量 磊) = x - , i f , 一田一蟊) 】民= 孟( 弦一露所民( 2 7 ) 当卢是真实参数时。e ( 磊) ) = 0 假设n ,h 是列非负数。其和为1 , 则定义经验对数似然比函数为 rn nn 、 冗( 卢) = m x l o g c , - , p , ) i p , x o ,a = 1 ,鼽历= o ,( 2 8 ) 利用l s g r a n g e 乘子法。令 g = l o g + n l o g ( n ) + t ( 1 一a ) 一拼) a 五( 所,( 2 9 ) 由篆= 。及言p t 誓= 。得 a 2 一1 + a ( p ) z t ( f 1 ) 所以 l = 1 ,n ,( 2 1 0 ) 冗( 所= 一l o g ( 1 - 4 - , x ( f 1 ) , z i ( f 1 ) ) , ( 2 i l ) 其中a ) 为l a f a n g e 乘子,满足 元1 若m 褊- o ( 2 1 2 ) 竹备1 + ”) 五) 一 ”。一7 极大化冗( 卢) 可得卢的极大经验似然估计( m e l e ) 由l v m l ep 及( 2 6 ) 式 可以定义g ( ) 的估计为 雪( 力= f i ( t ) 一豇o ) 7 卢( 2 1 3 ) 1 8 - 第2 章主要方法及结果 记m t j ( 句= e ( x 舀i 五= t ) ,咐= h 一,r l i ,( t ) 1 s is ,l ,1 j p 对 任何向量d ,用u o u 表示其在毋中的欧氏距离,令a ( t ) = p ( 6 = l i t = 磅 类似于v 哪田定理,o 帆的对数经验似然比统计量渐近于p 分布,因此我 们也希望冗( p ) 也厘- 个渐近) ( 2 分布为此我们做以下的一些假设 c 1 t 1 在 0 ,l 】上有毽续密度函数( t ) ,且o 莲1 7 ( t ) s 罂( t ) c 2 记舶o ) = e ( m = t ) 。1 sj a 对t 【0 ,1 】,有9 和均满 足一阶l i p s c h i t z 条件 c 3e0 噩l 【2 o o ,且e = e p ( 墨,丑) l 墨一e ( 墨陬) l 阢一刀( 噩m ) 1 7 是正定阵 c 4 嘲 0 ,使得 朋j ,( i u i p ) 蔓j - f ( t ) s 肘;j ( 1 训p ) , 且耳( ) 在【- p ,纠上有界变差 c 6n 胪l o g n _ ,砌j _ + 0 现在给出主要的定理 定理2 1 假设条件c 1 c 6 成立。如果p 是参数真值,则 一2 冠( 卢) 瑶, 其中。表示依分布收敛 基于定理2 1 ,可以定义参数卢的置信坑即对任给的0 口 龟) = 则 毛= 妒殍l - 况s 岛) 一1 9 北京工业大学理学硕士学位论文 为参数口的具有渐近置信水平1 一a 的置信域 定理2 2 在定理2 1 的条件下。对参数真值风有 铜p 一8 0 ) 三n ( o ,矿e 一1 ) 由此渐近正态结果也可以用来构造参数卢的置信域 2 3 几个引理 为了方便,下文中的思要简记为峄,以c 表示个正常数,其值不同 处可不同 下面先给出几个基本的引理 引理2 1 假设条件o l 、c 5 和c 6 成立若函数日满足一阶l i p 日出舵 条件,则有 黪岫一言也c 媚c 功l 刊一, 仁均 一一l 扫耳l l 证明简单计算可得 而i ( 五) 日( 五) 一日( 正) = 1 去= 1 莲;器c 日c 丑,一日c 丑, c 2 1 5 , = 去娄删旦懈m ( 驯p l ( 跏( 聃印n - i 其类似证明可参见文献【4 5 】由( 2 1 5 ) s n 条件c l 知,要证( 2 1 4 ) 式只需证 明 z 垒嬲k 言删警黼m 卜n q ,) 2 0 第2 章主要方法及结果 以f 记正的分布函数,f 忭记噩,矗的经验分布函数,则 j 磊n 峄善n 耳( 警) j 丑一五l = 等峄足( 字m 删以 = m f 二9 k ( u ) i 錾i a f ( t , 一讷) 坳m f f j 厂耳d 汹一曲) 一f 一训) l + 聊平i 耳( 羽( 正一刮 g 呼限( 丑) 一f ( t d l + 坳叩j 耳( 咖一叫血i 由于n h 2 l o g n _ 0 0 及n 舻_ 0 ,可知o ( ( n 一1 z o g t o g n ) t ) h = “砷= 0 0 1 ,| ) 因此,( 2 1 4 ) 式成立 引理2 2 假设条件c 1 ,c 6 成立。则有 i i 1 皇盟l 西叫= o p ( n - 坍) , ( 2 1 6 ) 一一l f f i li 黪藩最暇圆溉l - 印扩岭 ( 2 t 1 7 ) 证明记= e d ( 1 c z i w 4 ) ,= 旬一爿,e = 一e ,矿= 盯一e 醪,1 2 n 于是有 巩嬲j 言南c 让;| + l 一_ i _ z 坍) + k 壹e i 甜io p ( n 一1 ,) 、。 另方面,对固定的1 t n ,记钿= 而( 正) 审,1 s l n ,则在给定 的f 。= 死1 i n ) 的条件下,磊l ,z k 相互独立。e ( z “i n ) = 0 , 且 i z o l = i 而啊4 伍) | sb n l l 4 , w r ( 6 , w , l l ( t d e f i f 1 ) s 矿慨( 正) ) 2 矿k = o p ( n - m ) 由b e m s t e t u 不等式( 见文献1 4 6 】) ,对任给的f 有 p 一) :唧 丽石等杀丽) = 。唧 两毒黟卜。( 一毗 故由b o r e l - c a n t e l l i 引理( 参见文献【4 7 】) 得 由(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论