




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 相对于参数模型,非参数回归模型的假设更宽松更自由,其最主要的优点 是模型具有稳健性当回归变量是一维变量时,使用常用的非参数估计的方法 一般都能得到很好的估计但当回归变量为多维变量时,估计非参数回归函数 需要大量的数据,并且估计极不稳定,人们把这种现象称为“维数祸根”变 系数模型是近年来高维数据回归的一个新的发展方向变系数模型既部分保 留了非参数回归稳健性的特点,又具有结构简单、容易解释等优点 在许多实际问题中,诸如抽样调查、临床试验等,由于各种人为或其他不 可知因素,都容易导致缺失数据的产生因此,缺失数据问题越来越引起人们 的普遍关注 本文研究了响应变量随机缺失下变系数模型本文基于缺失数据处理的 完全记录单元方法和借补估计方法,分别给出了系数函数的经验似然比统计 量,并在一定条件下证明了该统计量具有渐近卡方性,从而构造了系数函数的 逐点置信区间模拟研究通过系数函数的逐点置信区间,比较了提出的两种经 验似然方法 本文的特色主要体现在以下两个方面: ( 1 ) 对于变系数模型,现有文献大都是在纵向数据下研究的本文研究的 是响应变量随机缺失的变系数模型 ( 2 ) 本文采用性质较好的经验似然方法来处理变系数模型中系数函数的估 计问题 关键词:缺失数据,变系数模型,经验似然,置信区间,借补方法 a bs t r a c t c o m p a r e dw i t hp a r a m e t r i cm o d e l s ,n o n p a r a m e t r i cm o d e l sh a v et h ea d v a n t a g e o fm o r er o b u s t n e s sa n dl e s sh y p h o t h e s i s i ng e n e r a l ,t h en o n p a r a m e t r i cr e g r e s s i o n f u n c t i o ni sw e l le s t i m a t e db yt h ec o m m o nm e t h o d sw h e nt h ec o v a r i a b l ei so n ed i m e n s i o n b u tt h em u l t i v a r i a b l en o n p a r a m e t r i cr e g r e s s i o nf u n c t i o nc o u l dn o tb ew e l l e s t i m a t e db yt h el o c a le s t i m a t o rb e c a u s et h e r ei sal i t t l ed a t ai nt h el o c a lf i e l d so f t h eh i 曲d i m e n s i o nr e g r e s s i o nv a r i a b l e t h i sp h e n o m e n o ni ss a i dt ob e t h ec u r s e o fd i m e n s i o n v a r y i n g c o e f f i c i e n tm o d e lh a sb e e nd e v e l o p e da sa nn e wd i r e c t i o n o ft h eh i g h d i m e n s i o n a ld a t ar e g r e s s i o n i tr e t a i n st h ec h a r a c t e r i s t i c so fr o b u s t n e s s , b u ta l s oh a st h ea d v a n t a g eo fs i m p l i f y i n gs t r u c t u r ea n dm e a n i n g f u li n t e r p r e t a t i o n i np r a c t i c e ,o f t e nn o ta l lv a r i a b l e sm a yb ea v a i l a b l ef o rv a r i o u sr e a s o n ss u c h a su n e i l l i n g n e s ss o m es a m p l e du n i t ss u p p l yt h ed e s i r e di n f o r m a t i o n ,l o s so fi n f o r - m a t i o nc a u s e db yu n c o n t r o l l a b l ef a c t o r s ,f a i l u r eo nt h ep a r to fi n v e s t i g a t o rt og a t h e r c o r r e c ti n f o r m a t i o n ,a n ds oo n r e c e n t l y , s t a t i s t i c a n sp a i dm o r ea t t e n t i o nf o rd e a l i n g w i t ht h ep r o b l e ma b o u tm i s s i n gd a t a i nt h i sp a p e r , e m p i r i c a ll i k e l i h o o d - b a d e di n f e r e n c ef o rv a r y i n g - c o e f f i c i e n tm o d e l sw i t hr a n d o mm i s s i n gr e s p o n s ei si n v e s t i g a t e d b a s e do nt h ec o m p l e t ec a s ea n d i m p u t a t i o nm e t h o d ,c o m p l e t e - c a s ee m p i r i c a ll i k e l i h o o da n di m p u t i o ne m p i r i c a ll i k e - l i h o o da r er e c o m m e n d e d t h ew i l k s p h e n o m e n o ni sp r o v e do ft h ee m p i r i c a ll i k e - l i h o o dr a t i of u n c t i o nf o rt h ec o e f f i c i e n tf u n c t i o n sa n dt h ec o n f i d e n c er e g i o n sa r e c o n s t r u c t e d as i m u l a t i o ns t u d yi su n d e r t a k e nt oc o m p a r et h ep r o p o s e dm e t h o d si n t e r m so ft hc o n f i d e n c er e g i o n s k e y w o r d s :m i s s i n gd a t a ,v a r y i n g c o e f f i c i e n tm o d e l ,e m p i r i c a ll i k e l i h o o d ,c o n f i d e n t r e g i o n s ,m e t h o do fi m p u t a t i o n i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意 马同红 签名:兰竺塑日期:竺乏:! :2 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 签名量- 事孓导师签名:e t 期: 知q 、6 。 第1 章绪论 第1 章绪论 非参数回归一般假定回归函数属于某一个函数类,通常假定回归函 数是一个光滑的函数,因此非参数回归对模型的假设很少,最主要的优 点就是模型具有稳健性非参数回归作为现代统计分析的主要方法之 一,得到广泛的应用对于非参数回归人们提出了许多估计方法,如核 估计,局部多项式估计,光滑样条估计,级数估计等这些方法本质上 讲都是局部估计或局部光滑当回归变量x 是一维变量时,对非参数回 归函数使用这些方法一般都能得到很好的估计但当回归变量为多维向 量时,由于x 的局部邻域包含很少的数据,用这些估计方法,很难估计 出一般的多元非参数回归函数 从上面的统计方法可以看出,常用的非参数估计的方法估计多元非 参数回归函数,需要大量的数据,并且估计极不稳定,人们把这种现象 称为“维数祸根”( t h ec u r s eo f d i m e n s i o n ) 可是实际中我们经常遇到的是 高维数据,因此高维数据分析是人们一直关心的问题,近年来人们提出 了许多统计分析方法,总的来说可以分为两类:一类称为函数近似,如 可加模型,部分线性模型,变系数模型;另一类为降维,如投影追踪回 归,s i r ( s l i c e di n v e r s er e g r e s s i o n ) 回归等 1 1 变系数模型 变系数模型的一般形式为 y = a l ( u 1 ) x l + a 2 ( u 2 ) x 2 + + ( 郎) 却+ s ,( 1 1 ) 其中y 为响应变量,x = ( x l ,x 2 ,却) 丁和“= ( u l ,d 2 ,坳) r 为回归变 量,s 为随机误差,e ( 0 = 0 ,e ( ,) = 一,町( 蜥) ,j = 1 ,p 为未知的光滑 北京工业大学理学硕士学位论文 函数u l ,1 t 2 ,通过未知的函数a a u j ) ,j = 1 ,p 来改变x l ,x 2 ,却 的系数,o l j ( u j ) 暗含了巧和哟的一种特殊的交互关系,u j 可能互不相 同,也可能相同,也可能是某个x ,特别地,当“,u 2 ,“p 均相同时,不 妨记为u ,则模型( 1 1 ) 变为 y = a “) 而+ s ( 1 2 ) 相对于一般的多元非参数回归,变系数模型对回归函数的结构提出了一些 限制可是,尽管变系数模型看起来比较具体,实际上它是一个非常一般 的模型,许多模型如可加模型,部分线性模型,线性模型等都可以看作是 变系数模型的特殊情形例如,在模型( 1 1 ) 中,若a j ( u j ) = 卢,j = 1 ,p , 则模型( 1 1 ) 就是通常的线性模型;若o r j ( u ,) = p ,j = 1 ,p 一1 ,昂= l , 则模型( 1 1 ) 就是通常的部分线性模型 变系数模型是由h a s t i e 和t i b s h i r a n i 1 】提出的,它既部分保留了非参 数回归稳健性的特点,又具有结构简单,容易解释等优点广泛应用到 生物、医药、环境、经济、金融等诸多领域 变系数模型的研究现状 对于变系数模型,主要兴趣在于根据不同的数据类型,如独立数据、 相依数据和纵向数据等,用各种方法对模型中的变系数函数进行估计和 检验 假定模型( 1 2 ) 中所有系数函数具有相同的光滑度,h a s t i e 和t i b s h i r a n i 【1 】基于惩罚最小二乘方法给出系数函数的光滑样条函数估计c l e v e l a n d 和 g r o s s e 与s h y u 2 】给出系数函数的局部最小二乘估计,c a i 和f a n 与l i 【3 】基于 最小二乘局部多项式方法研究了具有连续函数的一类变系数模型中系数 2 - 第1 章绪论 函数的估计问题,并建立了这些估计的渐近正态性当q ( “) ,u = 1 ,p ) 具有相同的光滑度时,c l e v e l a n d 和g r o s s e 与s h y u t 2 给出的系数函数的局 部最i j , , - - 乘估计在最优收敛速度意义下是最优的,达到的最优收敛速度 为o ( n 一;) 但是,当哟( “) u = 1 ,p ) 具有不相同的光滑度时,c l e v e l a n d 和g r o s s e 与s h y u 2 】给出的估计,称之为一步估计,将达不到最优收敛速 度为此,f a n 和z h a n g 4 】研究了变系数模型中系数函数具有不同光滑度 时的统计推断问题,提出了估计系数函数的两步估计方法,弥补了一步 估计方法的不足唐庆国和王金德【5 】利用不同阶的多项式来逼近不同光 滑度的未知函数的办法,提出了另一种估计系数函数的一步估计法,得 到的估计量也达到最优收敛速度c h i a n g 和r i c e 与w u 6 】使用样条方法 估计了系数函数 c h e n 和t s a y 7 】及c a i 和f a n 与y a o 8 】把变系数模型应用于非线性时间 序列变系数模型也适用于函数数据分析( r a m s a y 和s i l v e r a m n 9 1 ,b r u m b a c k 和r i c e 1 0 1 ) ,变系数模型在金融时间序列中的应用可参见h o n g 和l e e 1 1 】, h u a n g 和s h e n 1 2 1 纵向数据下变系数模型的研究相对较多,它可以用于分析协变量对 响应变量的影响随着时间的变化w u 和c h i a n g 与h o o v e r ”】通过局部最 小二乘准则得到变系数函数的局部核估计量,并由估计量的渐近正态性 得到系数函数的逐点置信区间c a i 和f a n 与“【4 】研究了广义变系数模 型,利用局部多项式给出了系数函数的局部线性极大似然估计x u e 和 z h u t ”】首先提出系数函数的自然经验似然比统计量的渐近卡方性,但由 于自然的经验似然比统计量取不到最优窗宽,进一步利用两种纠偏的方 法,提出了均值调整经验似然和残差调整经验似然 罗羡华等【1 6 】研究了删失数据下变系数回归模型,通过数据变换,利 用局部多项式方法,给出了系数函数的局部加权最i j , , - 乘估计,证明了 3 北京工业大学理学硕士学位论文 该估计的渐近偏差和渐近方差,同时获得了该估计的渐近正态性 在缺失数据下变系数模型的研究较少,李志强和薛留根 1 7 1 研究了响 应变量随机缺失时广义变系数模型,综合借补缺失值的方法和一般的非 参数权函数估计方法,分别构造了模型中函数系数的几个拟似然借补估 计量,然后利用加权方法及倾向得分加权方法构造出了响应变量均值的 估计,并证明了它们的渐近正态性 缺失数据的研究现状 在各种数据的统计分析,比如抽样调查、临床试验、多元分析等中, 不可避免的经常会遇到数据缺失问题,所以对缺失数据的统计分析是一 个非常重要的问题 缺失数据的模式主要有五类:( 1 ) 单一变量缺失数据,缺失仅限于单 个变量( 2 ) 调查中单元或项目的不响应,全部观测或缺失都在同样的 个体集合上( 3 ) 纵向研究中的单调型缺失数据,纵向研究中收集数据 时,在研究结束前有个体离开并不再返回,这时适当排列变量,在任一 j = 1 ,k 一1 ,巧缺失时,h l ,一,k 全都缺失( 4 ) 变量数据的无交集 缺失,两个变量之间从未一起观测到过( 5 ) 无特殊结构的缺失数据: 关于缺失数据,另一个重要的问题是缺失数据的机制问题,因为缺 失数据方法的性质强烈依赖这些机制中相依关系的特征缺失机制的重 要作用曾被大大忽视,一直到r u b i n 1 8 】的理论中才构造了明确的概念, 使用了缺失数据指示变量的简单设置 这些带有缺失数据的样本从缺失机制与方式上可分为随机缺失、完全 随机缺失和非随机缺失定义完全数据y = 秒玎) ,缺失指示矩阵m = ( m ) , 缺失数据机制由给定y 时m 的条件分布刻划,记为八m z ) ,其中妒是未 4 第1 章绪论 知参数令匕撕记y 的已观测部分,妇记y 的缺失部分 1 完全随机缺失( m i s s i n gc o m p l e t e l ya tr a n d o m ,m c a r ) 缺失不依赖数 据y 的值( 缺失的或观测的) ,即 八m iz 驴) = 八m l 妒) ,对一切k 妒( 1 3 ) 它是缺失数据问题中最简单的一种统计分析中,若将含有缺失的记录 删除,估计结果不会有偏或偏差很小,其检验功效只与样本量的大小有 关,在分析时所用到的推断模型都是可忽略模型( i g n o r a b l e m o d e l ) ,但实际 资料分析中符合完全随机缺失的情况非常少见( 即一般的缺失都是有原 因的) 2 随机缺失( m i s s i n ga tr a n d o m ,m a r ) 缺失仅依赖y 的观测部分,不 依赖y 的缺失部分,即 八ml 妨= 八m l 圪扭妒) ,对一切妇,( 1 4 ) 3 非随机缺失( m i s s i n gn o ta tr a n d o m ,m n a r ) 如果m 的分布依赖y 的 缺失值,这样的机制称为非随机缺失这是缺失数据中处理起来最麻烦 的一种 近年来,缺失数据问题在应用领域越来越引起人们的普遍关注,由 于实际问题( 诸如市场调查、临床试验和药品追踪试验) 中产生大量的缺 失数据,其中有相当一部分是m a r ,因此对m a r 进行统计分析具有很重 要的实际意义常见的m a r 是考虑如下不完全随机样本 ,k ,鳓,江1 ,z ) ,( 1 5 ) 其中蜀都可观测到,若k 缺失则6 f = 0 ,否则4 = 1 且假设y 满足m a r 条 件 p ( 5 = 1 y ) = p = 1 = p ( 1 6 ) 5 北京工业大学理学硕士学位论文 ( 1 6 ) 式表明y 是否缺失与y 的取值无关,仅与相应的协变量有关 缺失数据模型( 1 5 ) 最早是在n e y m a n 1 9 】著名的两阶段抽样过程中提出 来的,而后r o s e n b a u m 2 0 】和c o c h r a n e 2 1 】做了更进一步的补充研究在人口统 计和经济分析等研究领域中,用两阶段抽样法可以很好地弥补实际样本缺 失的损失,例如在估计l ,的均值时,使用该方法大大地提高了估计的精度 随着缺失数据研究的深入,缺失数据的分析方法也越来越多如基 于完全记录单元的方法、加权方法、基于借补的方法、基于模型的方法 等每个方法都有各自的优缺点,要根据实际问题去选择 l i r l e 和r u b i n 2 2 】于1 9 8 7 年较完整地提出了基于缺失数据下一般参数 统计推断的基本原则和方法 在响应变量随机缺失时,c h e n g t 2 3 】应用核回归借补估计响应变量的 均值,并证明了估计的渐近正态性w a n g 和r a o 2 4 , 2 s 考虑了线性回归模 型,并利用线性回归借补缺失的响应值c h e n 等【2 6 】研究了广义非参数 模型的估计问题提出了三类估计方法,即仅用完整个体的局部拟似然 估计,局部加权拟似然估计和利用借补缺失值方法的局部拟似然估计 c h e n 等【2 6 】指出在响应变量随机缺失的框架下,所提出的三种估计具有 相同的渐近方差和偏差,但有限抽样模拟表明,利用借补方法的局部拟 似然估计要比另外两个估计好得多 q i n 和z h a n g 2 7 】在响应变量随机缺失假设下,提出用经验似然寻找响 应变量均值的约束经验似然估计的方法 在缺失数据下对变系数模型的研究较少李志强【2 8 】具有响应变量 随机缺失下研究了半参数变系数部分线性模型,综合借补方法和一般的 截面核估计方法,分别构造了模型中参数分量和非参数分量的几个估计 6 第1 章绪论 量,然后利用加权方法构造出了响应变量的均值的估计,并证明在一定 的条件下估计量的渐近正态性,给出了估计量渐近方差的相合估计 1 4 经验似然方法简介 经验似然是o w e n 2 9 】在完全数据下提出的一种非参数统计推断方法 关于经验似然及其它的应用问题,王启华【3 0 】做了系统的总结 设置,置,墨r d 有独立共同的累积分布f ,则f 的非参数似然是 三( 叼= 1 - i f - l 这里的f ) 是分布f 在五处的概率质量,其中f = 1 ,2 ,”众所周知 墨,恐,墨r d 的经验累积分布函数r = j 冬l 以;使上式达到最大, 其中叽似) = l x 彳】也就是r 是f 的非参数极大似然估计 在参数推断中人们利用参数似然比进行假设检验与置信区间估计 类似地,在分布完全未知的情况下非参数似然比 酮= 怒 也可以用于统计推断不像参数似然比,非参数似然比中不包含未知参 数一个自然的问题是如何使用它对参数作统计推断,注意到一些参数0 是总体分布的泛函,即0 = 丁( 一r p ,其中r ( ) 是分布f 的某泛函,f 属 于某分布类z ,如总体均值及分位点等就是有上述形式泛函的例子为了 对r ( d = 0 作检验,o w e n 2 9 】定义如下经验似然比统计量 欠( 功= s u p 尺( 一i 丁( d = 0 ,f z ) f 很显然,经验似然比实际上是一种截面非参数似然比函数,它要求 ,在满足约束条件丁( d = 0 下使非参数似然比达到极大( 在无约束条件 7 北京工业大学理学硕士学位论文 时,极大非参数似然比为1 ) ,而参数日由这一约束条件引入这一极大似然 比中,从而得到关于参数目的极大截面似然比函数,用这一非参数似然 比作假设检验、区间估计或进行其他统计推断,这一方法就是所谓的经 验似然方法如果欠 0 ,f ( u ) 为l i p s e h i t z 连 续; 在; 条件2 :存在常数r 0 使得elx1 2 + 7 ,el 1 2 + 7 0 ,r 0 ,可得 p m 心a 卿x i 忪咖脚忆善e 1 l r ,川2 】 ( 删 】2 c e l + ,( u lh - u o ) 一志 c 赤一。 因此可得罂。a x ,i i t i i l l = ( 飘 i s l s 门 结合引理2 1 ,类似上式可证明m 1 亟a x 。l i t 2 r i i2 ( 螺) 引理得证 引理2 4 假设定理2 1 的条件成立,则有 a 叫居 证记a = p o , 其中p 0 ,1 10l l - 1 令 厨= 三喜m ( a ( ) , = m ,亟a x 。i i 必( a ( 们川 代入( 2 5 ) 式,得 0=睦羔1 l=l匆n喜愁1,itm。(04uo)ih 备+ l r m ( a ( 咖) ) ll 。鲁+ i = l 三日丁 妻i = lm c 口c “。,一p 喜尘手 ! 掣昌群 i 三曰丁喜竺手笔写糟目一圭lp丁s扭。micac“。, 币p o rv 丽( u o ) o 一驴宝i = 1 脚,l 1 6 ( 2 1 2 ) 第2 章基于完全记录单元的经验似然 其中v ( u o ) = 冬。m ( 口( 甜o ) ) 妒( a ( “o ) ) 贝0 有 1 + p m m i n e i g 而p o rv ( 莎u o ) o 矿圃 由引理( 2 1 ) 和( 2 1 1 ) 式得 = ( 办) ) ,o r m = o p ( ( n h ) 一 ) 简单计算, 有 p m i n e i g 以“o ) + o p ( 1 ) = o p ( ( n h ) 一) 所以五= p = q ( :) 定理2 1 的证明: 在( 2 4 ) 式中,利用t a y l o r 展开式,并利用引理2 3 和引理2 4 尺( 口( 甜o ) ) = 2z t = 1l o g ( 1 + , t r 必( a ( “o ) ) ) - 2 ,必( m 0 ) ) 一妒m ( 嘶0 ) ) ) 2 + o a l ) ( 2 1 3 ) i = 1 。 o 一喜蔫 = 喜必c 口c “。, ,一五r 必c a c “。,+ 享鲁等笃差揣】 。= 喜m c 嘶一,喜m c 出湖聊c 嘶砌+ 喜丝哗篝焉老篆产 由引理2 3 和引理2 4 可知 喜糕1 a r m ,( a ( u 氇旮+o ) ) 印r , 1 7 - 北京工业大学理学硕士学位论文 从而 a 7 m ( 口( ) ) = ( 五r 必( 口( 蜘) ) ) 2 + 唧( 1 ) i - - l f = l 五= 喜m ,懈c 口c , 一喜必c 乜c 砧,+ 畎玎- ) ( 2 1 3 ) 式结合( 2 1 4 ) ,( 2 1 5 ) 式可得 尺( a ( ) ) = ,m ( 口( ) ) 珥( 口( 蜘) ) a + 郎( 1 ) i - - l ( 2 1 4 ) ( 2 1 5 ) = 以主i = 1 獬砌m 喜懒聃n 捱主i = 1 懒砌, 再由引理2 1 和引理2 2 定理即可得证 2 4 本章小结 本章在响应变量随机缺失的情况下利用样本中的完全观测数据,构 造了变系数模型中系数函数的一个经验似然比统计量,之后证明了该统 计量的渐近卡方性质,从而得到了系数函数的逐点置信区间 18 _ 第3 章基于借补数据的经验似然 第3 章基于借补数据的经验似然 上一章我们讨论了基于完全记录单元的方法,这种方法简单的丢弃 没有完全记录的单元,仅利用有完全记录的单元进行统计分析通常这 很容易实现,在少量缺失数据时也是可行的然而这样会导致严重的偏 差,常常不是很有效处理缺失数据问题,借补是一个常用且方便的方 法 3 1 方法与结果 对给定点u 0 及 0 邻域中点u 用线性函数逼近哟( ) ,即町( “) a y + b :( u 一 蜘) ,易见a j = a a u o ) ,b y = b a u o ) ,记a = ( 口l 一,郎) r ,b = ( b l ,) ,对点“ 邻域中的奶,可用名l ( 乃+ b a u , 一“) 娲来逼近名l 哟( 阢) 定义 她6 ) = k 一 a j + b j ( u ,- - u ) ) 2 k h ( u i - u ) 6 “ ( 3 1 ) i = l j = l 其中砀( ) = h - 1 取h ) ,k ( ) 为核函数,h 是带宽最小化q ( a ,b ) 得到口,b 的 完整个体局部加权最b - - 乘估计a ,占,则 ( 铲,舻) r = ( d 。r , 矾。h d , ) d 。r , 矾,h e ( 3 2 ) 其中矾,j l = d f a g ( k h ( u l 一“) 6 l ,k h ( 己厶一“) 6 。) ,d 。 = 则a ( u ) 的局部线性估计可定义为a ( u ) = a ( “) - 1 9 - 砭半礤。 l一1 霹 u 2 - u l y t 碡竿碌。 北京工业大学理学硕士学位论文 定义 z i n = 西y ;+ ( 1 一国l 蟹& ( u ) 引入辅助随机向量 o i ( 嘶) ) = b 一霹嘶) - ( 1 也) ( 仓( o ) 一嘶) ) 弦局( 矾叫 f = l ,一,玎( 3 3 ) 当口( “) 为真实参数时,有e d ,( 口( “) ) 】= 0 0 ) 可构造口( “) 的经验对数似然比统计量 c 砌= 一2 m a x 喜- 咄印咖,。,喜p r = ,喜p a c a c 砌= 。) c 3 q 利用拉格朗日乘子法,可得 ,( a ( “) ) = 2 1 。g ( 1 + 允7 d f ( a ( “) ) ) , ( 3 5 其中五为下述方程的解 从而 ( 3 6 ) ( 甜) ) = 2 i 。g ( 1 + a 7 d 舡( 蝴 ( 3 7 ) 为了得到经验似然比的渐近分布在证明,引入记号 舻j r 一足( t ) d t ,y 产f t i k ( t ) d t ,m ) = 研丌( x , u ) x x r i u 列出所需条件 c i u 有有界支撑,且u 的密度函数f ( u ) 0 ,f ( u ) 为l i p s c h i t z 连续; 2 0 “一n蒜 。斟 第3 章基于借补数据的经验似然 c 2 :矩阵研7 r t o x x r l 叼非齐异,e 丌u ) x x t i 明,e z r ( x , u ) x x r l 叼1 均为l i p s c h i t z 连续; c 3 :核函数板) 为有有界支撑的对称概率密度函数,且2 阶矩存在; c 4 :口( ) ,f 1 ,p 有连续的二阶导数; c 5 : 存在,_ 0 ,使得eix1 2 + r 0 ,可得 p m a xi i j 2 l f i i e ( 玎办) ) ye i i j 2 1 f i l 2 i i + 7 e ( ,z 呐2 + , 1 s l s 月。一 c 二h 2 柑_ 0 ( n h ) i 7 p m1 f | | ( 玎办) 1 l l f p 7 ( 刀办) ; 2 a x i i ae i i j z i i n_ c 二_ h 4 + 2 7 0 ( 玎厅) , 因此可得恶答| l 五r l | = 。p ( 挣 类似引理2 3 可证明m 1 亟a x 。1 1 - 1 1r | | 2 ( 锕,m l 韭a x 。i i j 3 f i i = ( 橱 引理得证 引理3 4 在引理3 1 的条件下,有 a = o p ( ( n h ) 一;) ( 3 1 3 ) 2 5 北京工业大学理学硕士学位论文 证记五= p o ,其中p 0 ,i i 钏= 1 令 d = i 1 冬1d i ( o z ( u ) ) ,d m a n 旧舡( “) ) i i j s l s 珂 代入( 3 6 ) 式,得 睦i揣r喜端=1 1 k 厶1 + a 7 d f ( a ( “) ) l f 。台1 + a 7 d f ( 口( “) ) i 三日丁 喜。r c 口c “,一p 喜三等譬芋鬻 l p - ,o r 主扭。d i ( 。a 尸( u 。) ) 一d ,r i 、。( 。z 、( 。u ,) ,) _ 目一去l p r 喜。,c a c “, 币p o t v 丽( u ) o 一妒抽i = 1 l 其中y ( “) = ;叁1d r ( 口( 甜) ) d j ( a ( “) ) 贝0 有 硒p 而p o t v 而( u ) o 旧 由引理( 3 3 ) 和( 3 1 3 ) 式得口= ( ( 玎厅) ) ,臼7 6 = o p ( ( n h ) 一 ) 简单计算,有 p 以“) + ( 1 ) = o p ( ( n h ) 一;) 所以a = p = o p ( ( n h ) 一 ) 定理3 1 的证明: 在( 3 7 ) 式中,利用t a y l o r 展开式,并利用引理3 3 和引理3 4 ,( 口( “o ) ) = 2 :ll o g ( 1 + 2 r d f ( 口( “o ) ) ) = 2 扑) ) - 妒州砌) ) 2 州1 ) ( 3 1 4 ) 2 6 第3 章基于借补数据的经验似然 0 _ f = 1 d i ( a ( u 、。o ) 、) 面 = ;| ;。,( 口( 掰。) ) 1 - h r d i ( 口( “。) ) + j 1 墨+ 二墨, t r 垒d 熊i ( a ( u o ) ) 1 f = l 。= 喜。r ( 口( “。) ) 一a r 妻。r ( 口( “。) ) d ;( 口( “。) ) + 喜墨望鱼写当宝霎掣 由引理3 1 和引理3 4 可知 f=1-1(a。rdi(a(uo)31 2 t d i ( c r ( u o ) 一) = 。胁 i 一1 。 。p 忖 从而 h玎 允r d t ( a ( “。) ) = ( a 丁d r ( 口( 甜。) ) ) 2 + 。p ( 1 ) ( 3 1 5 ) a : 主蹦劬0 ) ) 砚砌0 ) ) 。1 主d f ( m 0 ) ) + 咖- ;) ( 3 1 6 ) 结合( 3 1 4 ) 式,有 l ( a ( u o ) ) = ,d f ( a ( 蜘) ) d 融蜘) ) a + ( 1 ) = ( 刀脚一5 喜d f ( a ( 岫) n ( ”脚。喜d f ( 口( ) 。;( 口( 岫) 】- 1 ( 刀脚一5 喜d f ( 口( ) + ( 1 ) 再由引理3 1 和引理3 2 ,定理得证 3 3 本章小结 本章在响应变量随机缺失的情况下利用样本中的完全观测数据,对 变系数模型中的变系数函数进行局部线性估计,并利用此估计对响应变 量进行了借补然后利用借补后的完整数据构造了变系数模型中系数函 数的一个调整经验似然比统计量,之后证明了该统计量的渐近卡方性 质从而得到了系数函数的逐点置信区间 2 7 北京工业大学理学硕士学位论文 第4 章数值模拟 本章我们利用统计模拟的方法来说明本文所获得的完全观测数据经 验似然比和借补数据经验似然比在有限样本情况下的实际表现 为实施模拟,我们由如下模型产生数据 k = s i n ( z r u + e i , 我们按如下方式产生数据x = e i l + e i 2 + e i 3 ,u i = e i l + e i 2 ,这里e i l ,e i 2 ,e i 3 相 互独立,e i l ,e i 2 都服从( 一1 ,1 ) 上的均匀分布,e i 3 服从均值为0 ,方差为1 的 正态分布这样产生的数据满足x ,u 具有一定的相关性岛n ( 0 ,0 3 2 ) ,k 由模型产生 关于选取概率,分别取如下三种情况来代表响应变量的不同缺失水 平: 。 7 r 1 0 ,“) = 丌2 0 ,甜) = 丌3 ,甜) = 0 8 5 + 0 1 ( i 甜i + i x l ) ,i t l + i x l 1 , 0 9 ,其它 o 6 5 0 1 ( i 甜l + i x l ) , i 圳+ 协i 1 , 0 6 ,其它 0 2 + 0 1 ( 1 u i + i x l ) , i 训+ i x l 1 , 0 3 ,其它 这时选取概率并非已知,但从随机缺失条件( m a r ) 中可以看出,它是关 于( x ,u ) 的函数,因此我们可以通过( x ,u ) 来估计出选取概率的值 关于上述模型,样本容量1 3 分别为5 0 ,1 0 0 ,进行5 0 0 次模拟在具体操 作中,核函数取为e p a n c h n i k o v 核函数k ( t ) = 0 7 5 ( 1 一t 2 ) + 2 8 第4 章数值模拟 窗宽的选取可以采用欠光滑( u n d e r s m o o t h i n g ) 方法,做法如下:首先, 用“去一个体”交叉核实法选择窗宽h o p ,由此得到的窗宽办。= o ( n 一;) ,然 后用玎一南乘以h o p ,即得到所选择的窗宽h = h o p ,门,此时h = o ( n 一 ) 满 足本文对窗宽的要求 对于变系数函数a ( 力,我们用完全观测数据经验似然( c c e l ) 和借补 数据经验似然( i e l ) 比较a ( 力的逐点置信区间实线为真实曲线,置信水 平取为9 7 5 从模拟结果,我们可以得到如下结论: ( 1 ) 在相同的置信水平下,当缺失概率较小时,两种方法得到的置信 区间相差较小;随着缺失概率的增加,置信区间的差距越来越大,而且 由借补数据得到的置信区间比完全数据得到的置信区间要窄 ( 2 ) 随缺失概率的减
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《记承天寺夜游》板书设计
- 建筑设计电脑出图排版标准
- 2025西交利物浦大学辅导员考试试题及答案
- 2025辽宁兵器工业职工大学辅导员考试试题及答案
- 2025潍坊科技学院辅导员考试试题及答案
- 新生儿贫血护理要点解析
- 毕业设计实训答辩
- T/ZBH 022-2023薄膜太阳能电池用FTO导电玻璃
- 河南投资集团工程管理有限公司招聘笔试题库2025
- 小学生健康卫生知识讲座
- 2023-2024学年四川省南充市嘉陵区五年级数学第二学期期末统考模拟试题含解析
- 大众汽车整车开发标准流程
- 教科版五年级下册科学期末测试卷含答案
- DL-T5169-2013水工混凝土钢筋施工规范
- 水暖、电气施工方案
- 单元三 防火防爆技术 项目三 点火源控制 一、化学点火源
- 原神游戏介绍PPT
- JTT663-2006 公路桥梁板式橡胶支座规格系列
- 学生退学家长委托书
- 高速公路投诉培训课件
- 交通劝导员上岗培训课件
评论
0/150
提交评论