




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
污染线性模型的参数和非参数估计的研究 摘要 线性模型是数理统计学中发展较早,理论丰富且应用性很强的一个重要分 支,过去的百余年,线性模型不仅在理论研究方面甚为活跃,获得了长足的发 展,而且在工农业、气象地质、经济管理、医药卫生、教育心理学等领域的应 用也日渐广泛,作为线性模型前沿科学研究的一部分,污染线性模型由于在实 际生活中的广泛存在,越来越受到关注,具有很高的应用价值。 本文研究了污染数据下线性回归模型的参数与非参数估计。论文第一部分 是绪论,在这部分首先介绍了有关污染线性模型的发展历史,并对整篇论文做 了简要的概括。论文的第二部分与第三部分是这篇论文的主体部分。在这两个 部分,从三个不同的角度给出了在绪论中提出的三种不同污染线性模型的讨论 结果。第二部分,利用矩估计和极大似然估计两种不同的统计方法,给出了模 型i 和模型i i 的参数估计。第三部分,对于污染线性模型i i i :弘= p x , + 日, 扣1 , 2 ,行,设误差序列 q 是平稳的口一混合序列,f ( x 1 为其公共的未知密度 函数。讨论了基于残差的f ( x ) 核估计的相合性及其收敛速度。并构造了污染系 数f 及回归参数b 的非参数估计,证明了估计量的强相合性和强收敛速度。 论文的第四部分是论文的主要应用。在这部分中,通过三个不同的实例分 析了污染线性模型的实际应用价值。这几个实例分别讨论了污染线性模型的最 小二乘估计、污染线性模型的非参数拟合和污染系数的模拟结果。 关键词:污染数据线性回归模型污染系数非参数估计 强相合性 r e s e a r c ho np a r a m e t e ra n dn o n - p a r a m e t e r e s t i m a t eo fc o n t a m i n a t i o nl i n e a rm o d e l a b s t r a c t l i n e a rm o d e li so n eo ft h em o s ti m p o r t a n tb r a n c h e so ft h es t a t i s t i c s ,w h i c h d e v e l o p se a r l i e ra n dc o n c l u d e sp l e n t i f u it h e o f i e si nm a t h e m a t i c a ls t a t i s t i c s d u r i n gt h e p a s ts e v e r a lh u n d r e dy e a r s ,l i n e a rm o d e li sn o to n l ya c t i v ei nt h e o r e t i cr e s e a r c ha r e a sb u t a l s oa p p l i e sw i d e l yi ns o m ef i e l d ss u c h 勰i n d u s t r ya n da g r i c u l t u r em e t e o r o l o g ya n d g e o l o g y ,e c o n o m i c a lm a n a g e m e n t ,m e d i c a la f f a i r s ,e d u c a t i o n a lp s y c h o l o g yg r a d u a l l y a s am o s tp o p u l a rp a r ti nt h es c i e n t i f i cr e s e a r c hi nt h el i n e a rm o d e l 。c o n t a m i n a t e dl i n e a r m o d e li st h ef o c u sb e c a u s eo ft h ew i d e s p r e a de x i s t e n c ei na c t u a ll i f ea n dh a st h ev e r y h i g hv a l u ei nt h ea p p l i c a t i o n t h et h e s i si sar e s e a r c ho nn o n - p a r a m e t e re s t i m a t eo fc o n t a m i n a t i o nd a t af o rs i m p l e l i n e a rr e g r e s s i o nm o d e l i nt h ef i r s tp a r to ft h i sp a p e r ,w es u g g e s tt h eh i s t o r ya b o u tt h e p r o g r e s so ft h ec o n t a m i n a t e dl i n e a rm o d e la n dg i v eab r i e fs u m m a r ya b o u tt h ew h o l e p a p e r t h es e c o n dp a r ta n dt h i r dp a r to ft h i sp a p e ri st h em a i nb o d y w es u g g e s tt h r e e d i f f e r e n td i s c u s s i o nr e s u l t sa b o u tt h et h r e ed i f f e r e n tc o n t a m i n a t e dm o d e l sw h i c hh a v e b e e nb r o u g h tu pi nt h ep r e f a c e i nt h es e c o n dp a r t ,w eg i v et h ee s t i m a t i o na b o u tt h e p a r a m e t e r so fm o d e lia n dm o d e l1 1w i t hb o t ht h em o m e n tm e t h o da n dt h em a x i m u m l i k e l i h o o dm e t h o d i nt h et h i r dp a r t ,w ec o n s i d e rt h ec o n t a m i n a t e dl i n e a rm o d e l : 咒= 如+ e i ,i = 1 ,2 ,n l e tt h ee r r o r ss e q u e n c e t i sas t a t i o n a r yw i t hu n k n o w n d e n s i t y ( x ) w eo b t a i nc o n s i s t e n c y t h ek e r n e le s t i m a t i o no f f ( x ) b a s e d o nt h e r e s i d u a l s t h e nw ee s t a b l i s hn o n p a r a m e t r i ce s t i m a t i o ni nc o n t a m i n a t e dc o e f f i c i e n t 口 a n dr e g r e s s i o np a r a m e t e rf 1 w ep r o v et h es t r o n gc o n s i s t e n c ya n dc o n v e r g e n c er a t e a l m o s ts u r e l yo ft h ee s t i m a t o r s t h ef o u r t hp a r to ft h i sp a p e ri st h ea p p l i c a t i o n s i nt h i sp a r tw ea n a l y z et h ea c t u a lo f t h ec o n t a m i n a t e dm o d e lb yt h r e ed i f f e r e n te x a m p l e s t h e s ee x a m p l e sd i s c u s st h em l eo f t h ec o n t a m i n a t e dm o d e l ,t h en o n - p a r a m e t r i cf i t t i n go ft h ec o n t a m i n a t e dm o d e la n dt h e s i m u l a t i o no nc o e f 矗c i e n to fc a n t a m i n a t i o n k e yw o r d s :d a t ao fc o n t a m i n a t i o n ;l i n e a rr e g r e s s i o nm o d e l ;c o e f f i c i e n to f c o n t a m i n a t i o n ;n o n - p a r a m e t e re s t i m a t e ;s t r o n g l yc o n s i s t e n c y ; l i 表格清单 表1 1m c k e n d r i c k 问题的真实数据与拟合值l 表4 1随机误差模型计算结果3 5 表4 2均值移动模型计算结果“3 6 表4 3模型参数估计量的均值及其标准差3 7 表4 5第一种数列选取方法的模拟结果3 8 表4 6第二种数列选取方法在n = 5 0 0 的模拟结果3 8 表4 7第二种数列选取方法在n = 1 0 0 0 0 的模拟结果3 8 v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得 金胆王些太堂 或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签字:7 刁帮鲈字日期御年6 月6 日 学位论文版权使用授权书 本学位论文作者完全了解 金胆至些太堂 有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘。允许论文被查阅或借阅。本人 授权 金胆王些盘堂 可以将学位论文的全部或部分论文内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存,汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名: 饧访堀 导师签名: 签字日期:叼年6 月6 日签字日期:2 矽年月日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 致谢 光阴荏苒,三年的学习时光很快结束了,回首这三年美好的时光,留给我 许多值得珍藏的记忆。在此之际,我要衷心地感谢我的导师惠军副教授,惠老 师那渊博的学识,严谨的治学态度,谦虚的为人将一直激励我更加勤奋踏实地 学习、工作,催我奋进,是他不断的鼓励与亲切的指导给了我信心并帮我指引 了研究方向,进而顺利完成了论文写作,使我终生受益。 在学习期间和论文的撰写过程中,受到了凌能祥教授、杜雪樵教授、朱士 信教授等老师所给予的关心、支持和帮助。他们的教学思想、作风和高尚品德 都给我留下了深刻的印象,同时也是我学习的楷模,在此我十分感谢与敬佩他 们! 三年的学习中,胡小文、周金明、范国良等同学给了我很多的支持与帮助。 大家共同学习,度过了三年难忘的时光,在此也感谢他们。 再次,感谢我的夫人多年来的鼎力相助,使我能全身心投入到学习工作中 去,为按时完成学业提供了必要的保证! 感谢评阅、评议硕士论文和出席硕士论文答辩会的各位专家学者,感谢他 们在百忙中给予的批评指正和宝贵意见。 l l i 作者:何帮强 2 0 0 7 年5 月 第一章绪论 1 1 研究背景 m c k e n d r i c k 1 1 ( 1 9 2 6 ) 叙述了这样一个例子:2 0 世纪初,某印第安居住地的 居民受到霍乱的感染,在该居住地抽查了2 2 3 户居民,其中有1 6 8 户居民尚未受 到感染,而其他居民家庭都或多或少地受到感染,他们被感染的情况见表1 i 第二行 表1 i :m c k e n d r i c k 问题的真实数据与拟合值 家庭中受感染的成员数x 0l2342 5 总数 家庭数 1 6 83 21 66102 2 3 p o i s s o n 分布拟合值 1 5 l - 6 45 8 4 81 1 2 81 4 5o 0 0o 0 12 2 3 混合分布f 的拟合值 1 6 8 o l3 2 5 21 5 8 15 1 21 2 50 2 92 2 3 一个自然的想法是用p o i s s o n 分布来拟合这些数据,记分布参数为五,则五的 极大似然估计为互= ;= 三罗而从拟合值来看( 表1 1 的第三行) ,效果很不理想, 以百 其z 2 p e a r s o n 统计量为3 6 7 5 ,不能接受参数分布为p o i s s o n 分布的假设。如果计 算一下样本矩,可得到一阶、二阶原点矩为: 互:= ;= 去芝五= o 3 8 6 ,互= 三芝# = o 。7 7 4 ,l - ij - l 若它们来自p o i s s o n 分布,应有五= 岔+ 五,但五。2 + 厄= 0 5 3 5 和五:相差很 大,也说明p o i s s o n 分布的假定不合理。通过进一步研究m c k e n d r i c k 发现,2 2 3 户居民有部分家庭可能从未饮用带有霍乱病菌的井水,也就是说他们并没有暴 露于感染霍乱的风险中,而那些暴露于霍乱风险的家庭的感染情况确实符合 p o i s s o n 分布。从抽样来看,可把总体分成两个子总体:暴露于霍乱感染风险的家 庭和没有暴露于霍乱感染风险的家庭。每个抽到的个体都可能来自这两个不同 的子总体,假定来自前者的概率为l s ,来自后者的概率为占。对于前者,家 庭中感染霍乱的人口数符合p o i s s o n 分布,记其分布函数为巧( x ) ;而后者,感 染系数恒为零,是个单点分布,记其分布函数为五( x ) 。这样,家庭中感染霍乱 的人口数z 服从的分布1 1 7 j 为 分布列为 f ( x ) = ( 1 一占) 墨( 工) + 乏( x ) , o s s l 雄叫书1 - 叫g ) e 鲁- + g , 当j i = 0 当i = 1 ,2 ,3 。 岔和a 一样是待估参数。m e n g ( 1 9 9 7 ) 用e m 算法给出了s 和五的极大似然估计, s = 0 4 0 0 ,五= 0 9 7 2 。分布拟合的结果见表1 1 的最后一行,其效果是十分理想的。 m c k e n d r i c k 问题的出发点是希望建立暴露于霍乱风险的人群中家庭成员 感染数的模型,但得到的数据中混入了未暴露于霍乱风险的人群的数据,使得 推断发生了偏差。或者说数据受到了污染 1 s l ( c o n t a m i n a t e ) ,此时总体分布表现 为两个分布的混合分布f o ) = ( 1 一p ) 墨( 工) + f 最( 工) 。在以上闯题中,墨( x ) 是未 知的参数分布,也是我们主要关心的,占未知,而e ( x ) 是已知的。这类问题的 一般表述为,试验所观察到的数据以概率1 一占来自分布月( x ) ,以概率占来自分 布e ( x ) ,通常我们更关心,认为数据本应服从该分布,但却受到了来自分布的 数据的污染,占也称为污染系数p l 。 在实际应用中,随机变量受到污染的现象是很常见的,类似于m c k e n d r i c k 的例子,在卫生统计和医学试验中,当考察正常个体的生理指标的分布时,会 混入一些患病的个体,反过来,当考察患病个体的生理指标的分布时,会误诊 混入一些正常的个体;在生产制造过程中,由于生产条件的突发性变化,而使正 常产品中混入了少量劣质产品;或者同一批产品来自几个生产条件有较大差异 的车间。事实上,一般观察到的数据都或多或少地受到污染,没有污染的数据 可以看成是占= 0 的特例。 在生物学、医学以及电子信息学方面的研究中还经常会遇到类所谓的污 染数据,污染数据也是某种程度上的不完全数据。早在上世纪6 0 年代,在研究 统计方法的稳健性的时候,就提出了污染分布模式,并且建议用h u b e r 分布作为 解,所谓污染分布模型,即是主体分布未知或者至少部分未知,由于污染源的 随机干扰,试验获得的观察数据是已经受到污染的数据,在这里通常假设污染 源来自另一个与主体独立的其分布可以为已知也可以为未知的总体。我们主要 感兴趣的是污染系数的估计。d a v i s 2 j 注意到在寿命试验中,元件寿命分布函数 可能是两个分布函数的混合。 例如:五,x 2 ,毛为一列非负独立同分布随机变量,具有分布函数f ( x ) 。 r ( x ) = ( 1 一占) 巧( 工) + s e ( 工) 。其中,f 【o ,l 】,一( 工) ,e ( j ) 都是分布函数,试验 所得到的元件寿命以概率i - 占来自分布e ( x ) ,以概率g 来自分布e ( 曲对于分 布e ( 工) 与e ( 工) ,我们更关心厩( 善) ,认为数据本身应该服从e ( 膏) ,但却受到 少量来自ex ) 的数据的污染,我们称f 为污染系数p l ,它衡量了数据受污染的 程度。另一类污染数据具有形式: 毛z ( 1 一) 0 0 + 蜀嗥 即在观察随机变量置时,受到随机变量q 的干扰,使观察数据受到污染,在希 望可观察到的数据毫o 来对置的分布及其特征作出统计推断,在这里一般都假 设# 是独立同分布,并且随机序列 z ,f 1 ) 与随机序列 q ,f 1 ) 相互独立 2 l - 2 主要研究内容 本文讨论的三种污染线性模型是: 模型i已知非污染的线性回归通过如下模型表示: 舅= 口+ 肛而+ q f = l ,2 , - - 玎 ( 1 2 1 ) 其中q 为来自随机变量互所有可能取得值且相互独立,服从o ,砰) ,若协 受 到另一串与之独立的随机变量r 的干扰,t 为取自t 的所有可能取得值,相互独 立,服从( o ,露) 。砰,刃均已知,通过实验观察到的数据为 一 ,且吖满足下 式: 并= ( 1 一占) 弗+ 硝 i = i ,2 ,“- , n ( 1 2 2 ) 其中s ( o f 1 ) 是未知的污染系数 设口= ( 1 一f ) 口,b = o - f ) p ,毛= ( 1 一f ) 岛+ 硝,1 s i s 臻此时( 1 2 2 ) 可表示为 咒- - a + 6 薯+ 毛 i = 1 ,2 ,月 ( 1 2 3 ) 此时毛,乞,气,l i d奶= o ,厨= ( 1 一占) 2 砰+ 司f 2 。 模型i i 在非污染的线性模型( 1 2 1 ) 中, 是受污染影响的,而“ 是 一组污染变量序列,这样我们只能观察到污染数据组 ,而且 两 的分布可 如下表示: 易( y ) f f i ( 1 一f ) 吒( y ) + p ( y ) f = 1 州2 ” ( 1 2 4 ) 其中己( j ,) 和气( y ) 分别是咒和的分布函数,o 占 三 o s 占 j l ,上式中取负号,于是 。二i 一8 占 :o :- :! i + ;i2 ;! - o i ! o j i t 鼍矿- y # 片 1 墨丌一甩薯片 1 弘麓带去l - f 2 麓菏去l - s 。f 窆鼍 2 一胛窆# “。 f 窆而 2 一万窆# “ 模型i i 在非污染的线性模型( 2 1 1 ) 中, 咒 是受污染影响的,而“ 是 一组污染变量序列,这样我们只能观察到污染数据组 吖 ,而且 片 的分布可 ( y ) = ( 1 一f ) 气( j ,) + 占( y ) i = l 川2 叫 ( 2 2 1 ) 其中( y ) 和曩( y ) 分别是咒和的分布函数,0 ,故取与 同号。若砰已知时,直接解上面的方程组 而 8 m 。m 砰 3 + 彳 。 乃 。 一 5+ # 。m 。所 一 勘 擎 函一刮刘鬻喜而 占= l 一2 i l s 劬i 号一| i 且百产而 五i 薯奶# 百 - l li - ij l j t l j - i ( 2 2 1 1 ) 当彳未知时,将( 2 2 1 0 ) 式代人( 2 2 9 ) 式,得到一个关于砰的一元二 次方程; 其中 则 a 吠+ 8 武+ c = o 删瓣乒静套 三三 矿 。 拈。6 w j - i 乒街“。驴 l - i f , ti “l c = - e y , ”, 扣i 薯f 妊前( 剥2 月h 彳= 3 乃( 5 3 k ) ,b = 2 咒“( 5 - 3 k ) ,c - - j l- i 考虑判别式 = 曰2 4 彳c 9 f i l k - 乃” ( 2 2 1 2 ) 1f叫j 。m 耖 珥了艺 一 一乃 妒了m 。f 厶_ | 缸i 。 忉 = 得到 月 = 4 ( 5 - 3 k ) 2 ( 疗) 2 + 1 2 z y ;( s - 3 k ) j = 1) - i 5 ( 巧3 ) 2 - 3 ”巧5 = 4 ( 5 3 足) 2 生1 毫 = l :耖( 5 - 3 k ) 毛压 盯l = 型f 二 3 矿( 5 - 3 k ) ( 妒) 2 。 j i :- e 9 5 h 巧 一1 因为0 v 1 ,再由( 2 2 1 3 ) 式,容易看出:当( 5 3 k ) f 1 3 司o 时, j - i 式中取负号,当( 5 - 3 k ) p ,窆巧 o 时,岔的计算公式中取正号, j = l ( 2 2 1 3 ) 仃- 计算公 因为与 片_ n e s ,故当( s - 3 k ) ( z 巧_ ) # o 时, j - i,j - ij - ii1 - 1j - ! :窆班一3 k ) 一昙妪 o l = 型广二一 3 巧0 - 3 ( ) 1 = 1 当( 5 3 k ) ( 窆窆_ ) 窆刁 o 时,n r t i ( 2 2 1 1 ) 式,计算出多与;。 2 3 污染线性模型i i 一般情形的参数估计 此时在不假设口= o 的情形下,当彳,霹均已知时,参数口, 占的估计。首先讨论砰= o l 的情况, - i n 出如下方程组 丢喜一= ( - 一占) 吉喜( 叶如) 丢喜存( t 叫丢喜 喜( 盯+ 鲥卜2 三喜- ( i 叫丢喜 喜( 口+ 硝+ 。喜( 口训盯2 设,2 芳,上述方程组等价于 l o 去妻 = ( 一占) ( ,+ _ ) 去喜萨办( - 一北+ 撕+ 可) 2 去砉一i 3 0 2 善n 吖= ( - 一北诎_ 十3 f + 可) 其中i 毒缸毒酗n 可= 丢豁 设彤:警,:7 车芸霎妥,则有c ,2 一:万一i 2 ,则上 述方程组等价于( 2 - 3 t 1 ) 丢喜f = ( 1 一占) 雌 言喜萨扛( 1 一p ) 2 2 去喜旷一等喜 = ( 卜s ) ( 噬) 3 + s ( 万一i 2 ) + ( 万一。丽+ 2 - 3 ) 由( 2 3 1 ) 得 ( 吉喜萨盯2 ) 2 :! 墅竺! :! f 三二至:坦竺:【三二! 至呈:! 至1 3 帕s ¥+ 警 聊= 鬻代入上式得 瞧一等喜并) 话1 n 咒* ( 昙喜萨口2 2 3 + 2 昭 ;x 了_ 3 = x x = 2 + r 2 i 3 ) 2 一1 ) , ( _ - _ 2 ) 3 一一 若设4 = ( 吉喜萨盯2 ) 2 肛霄, 则上面关于的一元四次方程为 时一s 晖+ 孵等+ 等等+ :西a 2 = 。( 2 3 2 ) 从愀暇,再州= 麓解岍代入可蝴。 去:寺瓷( 一辩 口= 二l 一j 阪一兰l 。 以昙喜f l j 占= 1 一 两2 一仃2 1 由f 表达式及方程知o ( 1 一甜) 霹,将( 2 4 3 ) 中一r s s4 弋a ( 2 4 5 ) ,若要使( 2 4 5 ) 成为恒 等式,( 2 4 5 ) 中的根号应取前面的正号;同理当耐 0 - u l l 一时,( 2 4 5 ) 中 的根号应取前面的负号。于是,得到如下的定理。 定理2 1 l ”1 对于上述讨论的污染模型i ,若砰和西已知,则和甜的 极大似然估计分别为 一l 移u = 札p , 竺2 业2 詈2 芋- - :旦22 ,材砰 击, o g 1 。我们观察值为: 簖l 一占 剪= ( i - 占) m + = ( 1 一f ) ( 而+ q ) + 啊 = ( 1 一占) ( 薯) + ( 1 一占) q + = ( 1 一占) ( t ) + 弓 f = 1 ,2 ,玎 其中毛为取自随机变量z 的值,服从n ( 0 ,( 1 一f ) 2 砰+ 占z 司1 分布, 现记肛( 1 一占) ,先用最,j 、二乘法求解。令 三= 缸”而 ,由詈= o 最 而片 后解+ 的估计孱。鼍- 一。 # 本章采取非参数方法估计模型i i i 中参数占,。先构造基于模型i i i 的残差 q 估计误差密度l ( 工) ,假设误差岛是口一混合序列,得到残差分布估计的相合 性。然后,使用可识别条件建立占的非参数估计【“,讨论了占,估计的强相 定义3 1 称过程 以 为口一混合的,如果存在一非增正常数口( 玎) , 恕盯( 打) = 0 ,对于任意自然数玎,f :彳耳,口既,有 哿。善i p ( 爿占) 一p ( 彳) 户( 曰) b ( 竹) , ( 3 1 1 ) 1 7 其中e = 盯 五,u i e 4 唧 _ 巾景砸弓椰c 町1 ) + 4 景巾, m , 其中 d ( 删) - 。s u p 。e f 譬五s d ( 小) - 一。e l 。不五j 朋轨 a a b = m i i l ( 口,6 ) 引理3 2 1 2 1在线性模型l l i 中,设误差序列 是口一混合序列,满足 妻口( 门) o o ,又设如= o o l 有 多:一矿:d f 0 ( 1 0 9 n ) 6 i1 a s ( 3 1 3 ) 。一矿= d i 片2 (i a s 【 ) 引理3 3 在线性模型i i i 中,设误差序列豫 是平稳的1 1 - 混合序列,满 足艺口o ) ,有公共密度厂o ) ,又设j m o ,使k l s m ,i - l 幺n s := d ( 去 ,则 o 1 ) 时,对w e 足1 有 1 8 + x 3 。斗o 。) 其中x c ( f ) , 们用c 表示一个同分 布及n 无关的绝对正常数,同一个c 出现在不同的地方可表示不同的值。 证明; 由引理3 2 ,对某个艿 1 ,有色一p :d f 玎 ( 1 。g 刀) 呜 a 。 , 记吒= 形矧, n 2l o g n l2 则对v s 0 ,使当厅充分大时,有 p ( p 占州去乳一肘睁0 f ,l 庶一卅 吒) + p ( 厶 ,0 庶一叫i 玩 ,月 s 占+ p f z i ( a 口o + 工一j j l 碱 6 r l g l n 6 l l - l 利用m a r k o v 不等式及( x 1 的连续性,有 ( 3 1 4 ) 鲥去尸a a + x - 慨 o 口0 ) = o ( 拧”) ,2 3 。则对垤c ( 力,有厶- - o , a s 。0 专) 其中 l = 去喜小一吖陪0 哪”x 知( 一m ) 证明 记睇= 雅一j ( 1 0 9 n ) ”, 1 9 ( 3 1 4 ) 我 彳 f 吓 旷钏合 一。 集陋点 m 续 一 胜 以 f 卜r 是 。 。一是毫c s 卢 一 有陋 时9大卜 分砂 充 唱 片n :一 当,旷 使r 引l o 、,p 玎 = 节 j o占v 对故 1 竺黧,兰专:于分大时陪,卜 故有:当糟充分大时, ” 。 ,( _ + j 一肘0 庶一p l q 4 + 工) ,( 4 口一+ x 一 船c 巳 彳口一+ 工) , 她 面l 善n ,( 4 + x m 忪一p l q 彳+ 工) 垒甜 碰2 去p ( 缸+ 善一j , s b : e l a + 善) = 等巾) ( ( 1 ) ) 舢( 一叫 o 一s 去善巾一碱 e j a + x ) 一日( 彳毛一心 譬 墨4 e x p - c 以o 酬1 ) + 4 号m ) 蜴鸭, 显见 乙 o 及r 3 有妻n - i 乙: 3 ,则有矾j p k ( 工) 一f ( x ) i = d ( 行。l o g l o g 月) ,口j 艇 引理3 6 u l 设 墨,i = l ,2 , 是一个平稳的g - 混合序列x e 砭,l ,聪,这 里e = 盯 置,”s f s 嵋,且i x l a c , ,i r l s c , ,那么 i f - x y - e , x e y i 3 贝q s u p l 夕。( x ) 一( x ) f 专。舢 ( 疗一) il 证见 1 2 【2 5 定理3 4 在定理3 3 的条件下,若满足l i p s c h i t z 条件,且核函数k ( x ) 满 足:j | x 医( x ) 疵 1 ) ,则有 s u p l zc x ,一,c 工) i = 。( 疗;c b g 行,; ,口s ,c 疗,。, 证见u 2 1 2 1 3 2 污染分布的可识别条件与判别分析 假定我们得到五,五,瓦为来自f ( x ) = ( 1 一占) 互( 石) + 鸩( 工) 的样本,以下 我们将讨论这样的问题:e ( 工) 己知,而占和巧( x ) 未知。在没有参数假设的条件 下,对手和五( 苫) 作出估计。 一般情况下,a p ef ( x ) 也己知,也不一定能唯一确定占和巧( x ) 。假定占和 e ( x ) 满足f ( x ) = ( 1 一g ) e ( 工) + 占e o ) ,则对任意口( o ,占) ,有: f ( 工) = ( 1 占) e ( x ) + 占最( x ) = ( 1 一f ) e ( x ) + 口e ( x ) + ( 5 一口) e ( x ) = ( 1 一f + 瑾) i _ :害磊 ( 1 一占) e ( x ) + 口e ( ) + ( e 一口) e ( 。 = ( 1 - g ) ,。( x ) + 占+ e ( x ) 这里8 * - - - - f - - 口, e ( x ) = i 磊1 ( 1 一) e ( x ) + 盯五( x ) ,容易验证e ( x ) 是分布 函数。让口在( o ,占) 中变化,从而可得无穷多组s + 和e ( 工) 满足 ,( x ) = ( 1 一f ) 巧( x ) + s e ( x ) 。为保证e ( x ) 和f ( x ) 都己知时,s 和巧( x ) 能够唯 一确定下来,将引进一个定义,对我们讨论的范围作一个限制。本章将在此条 件下,构造出占和巧( x ) 的相合估计。 定义3 2 吨假定e ( 工) 、e ( x ) 为分布函数,占【o ,1 】。称e ( x ) 关于e ( x ) 在 污染分布中是可识别的,若对v 占 o ,1 】,不存在占e 【o ,l 】,占 占及分布函数 e ( x ) ,使得:( 1 一占) 只( x ) + 占e ( x ) = ( 1 一占+ ) f 。( x ) + 占五( x ) 我们将简称“e ( x ) 关 于e ( x ) 在污染分布中可识别”为“五( x ) 关于五( x ) 可识别”。 以下我们将在e ( 工) 关于e ( 工) 可识别的前提下对s 和e ( x ) 作推断。事实 上,若巧( 工) 和e ( 工) 都己知,我们就只须寻找满足f ( x ) = ( 1 一s ) 巧( 工) + s e ( 工) , 2 2 并且使占达到最大的那一对( 占,巧( ,) ) 。在实际问题中,则可以用经验分布函 数来代替f ( x ) 。 下面两个引理给出f i ( x ) 关于最( x ) 可识别的两个等价条件,这两个条件可 方便我们在实际问题中对可识别性进行判别。 引理3 7 巧( 工) 关于e ( x ) 可识别的充要条件是不存在b e ( o , 1 ) ,使 e ( x ) - b 五( x ) 为单调上升的。 i i e n 斐j :先证充分性,反证:设某个占【o ,1 】,存在g 【o ,l 】,f 占及分布函 数墨( x ) ( 此时g 一定小于1 ) ,使得:( 1 一) 互( x ) + s 磊( x ) = ( 1 一g ) f + 。( x ) “最( x ) ,可得:e ( x ) 一鲁e ( x ) = l l - 一e g * f , ( 工) 上式左端是个单调上升函数,这和引理的条件矛盾。 再证必要性,同样反证,假定存在b e ( o ,1 ) ,使曩( x ) 一峨( x ) 为单调上升的, 任取f 【o ,1 1 ,我们令s = ( 1 一) 6 + 耳( 工) = 芒石( 只o ) 一峨( 石) ) , 容易验证 1 9 1 占【o ,1 】,占 占,e ( x ) 是分布函数, 且使得 o f ) 五( x ) + 占五( 工) = ( 1 一f + ) f 。( x ) + 占磊( x ) 。 证毕。 以下引理3 8 从密度函数意义上解释可识别条件。 引理3 8 若e o ) ,e ( x ) 的密度函数石( x ) ,五( x ) 存在,则e ( x ) 满足可识别 性的充要条能蝴i n f ) 器- o 这里s ( e ) 表示最( x ) 的支撑集,即s ( e ) = s ( e ) = x :石( x ) o 。 证明:必要性: 反证: 。i n ( f 五) 丢潜= 6 。,则z ( 工) 一蜣( x ) 。,所以 f t ( x ) - b f :( 工) 为单调上升的函数,矛盾。 充分性:同样反证:假设存在b 0 ,使e ( x ) 一b f 2 ( x ) 为单调上升函数,则 z ( x ) 一妖o ) o ,与题设矛盾a 此引理说明,若巧( x ) ,e ( x ) 的密度函数石( x ) ,石( x ) 存在,则e ( x ) 关于 e ( 工) 可识别的充要条件是:对任意小的正数b ,彳( x ) 都不能覆盖鞔( 工) 理论 上讲,可识别条件局限了问题讨论的范围,很多常见的污染分布问题都是满足 可识别条件的。 3 3 污染线性模型的非参数统计量的强相合性 本节先在可识别条件下,用两种方法建立污染模型的非参数估计,然后 讨论了占和的估计占和的强相合性。 令誓。) 五2 ) s 雄) 是来自总体f c x ) 抽出的样本五,墨,鼍的次序统 计量,e ( 工) 为其经验分布函数e ( x ) = i 1 乙。nk ,】( 置) 。从两不同角度,我们各 自定义p 和e ( x ) ,第一种方法:令实数c ( 疗) = 以咱( 其中。 c ( 疗) 乙= m i i l 五e ( 置) 一e ( z ,一。) c ( 厅) ) 如果乙 s u p x , l - f ,( x ) c ( n ) ,删除乙最后得到点列z 1 ,z 2 ,乙。依 据e ( x ) 定义两个函数f ”o ) 和f :”o ) : 凡( 工) = o e ( 乙一) e ( z 卅) 1 x z l 互一is x 乙,k = 2 ,- , m 乙x 2 z 工2 z f 0 啡) - 捌 【1 我们估计占: x z l 互一ls 善 。:只c x ,一丘。o ,是非降函数 在给出占的基础上,用占和f ”( x ) 表示基于样本大小n 的占和e ( x ) 的估计。 定义巧o ) 的估计:j 。o ) :墨皇尘二! 当兰盟,是容易验证i 。o ) 是一个分布函 i f 数。 定理3 5 若f ( x ) = ( 1 一占) e ( x ) + 占e ( 工) ,耳( x ) 和e ( x ) 是连续分布函数,占和 f nx ) 如上的定义,e ( 工) 是严格单调函数,五,五,以是来自分布f ( x ) 的口一 混合样本,则当栉j m 时, ( 1 ) 占专占,a s 唧。啦吲x ) 卜o ,a s 为证定理3 5 ,我们需要下面几个引理。 引理3 9 m 令f ( x ) 是一维连续分布函数,五,五,以是来自分布f ( x ) 的 5 - 混合样本,f 一( 工) 如上定义,则 。l i m ( s 。u p 脚1 7 叫工归a s1 蚓( x ) 廿( 工) i j 却,a 8 证明; 令玩= # 置:置 乙互+ 。) ,因此由互的定义,对所有的k ,令 玩2 矿c ,c 为正常数,| = l ,2 ,肌。因此舰丢删找屯热三譬= o a s 由定理3 3 我们得到 ( 骤卜( 工) 一f ( x ) 1 ( 骝卜( 善) 一只( j ) i ) + ( 骤i e ( x ) 一f ( x ) i ) 行m a x 。+ 、s u p l f o ( x ) 一f ( x ) 1 ) 寸o ,口j 坍一蛾 引理3 1 0 令e ( x ) 是连续严格单调分布函数,则 熙( 翟陋小嘶j ) 一o ,a s 熙旧卜( x ) 一最( 。栌o ,a s 证明:令z 0 = 嘲,瓦+ l = 2 z ,z 卅+ 2 = 佃,则当互一l s 工 乙七= 1 ,2 ,册+ 2 时, i f 有p z 一( 工) 一最( x ) l e ( 互) 一e ( z o - ) 因此有s u p ,l 声:。( x ) 一最( x ) l m a x e ( 乙) 一e ( 互- 1 ) ,i = l ,2 ,卅+ 2 因e ( x ) 是严格单调函数,所以f ( 了) = ( 1 一占) 墨( x ) + s 磊( x ) 严格单调函数,因而 f 。( x ) 存在因而e f 。是【o ,1 】上一致连续函数, s u p 。l f ( 五) 一f ( 互一i ) l = l e ( 乙) 一f ( 乙) 一( 只( z h ) 一f ( 乙一) ) 一( e ( 互) 一e 一。( 乙一。) ) 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 500MW风力发电项目商业计划书
- 2024安全员考试考前冲刺测试卷【典型题】附答案详解
- 2025银行岗位真题(研优卷)附答案详解
- 2024银行岗位经典例题学生专用附答案详解
- 2025年电力施工安全合同2篇
- 2024施工员模考模拟试题含答案详解(精练)
- 2024-2025学年监理工程师测试卷附答案详解【巩固】
- 2024银行招聘真题【培优B卷】附答案详解
- 绿色金融市场政策支持体系完善路径研究报告(2025年展望)
- 2025年汽车维修技师水平评定考试试题及答案
- 2.1 认识平均分(课件)数学苏教版二年级上册(新教材)
- 半导体器件专用设备零部件制造项目可行性研究报告
- 2025年中国铁路总公司校招笔试备考手册
- 地坪承包合同范本3篇
- 中学校长在2025年秋季学期开学典礼上致辞:六个“成长关键词”耕耘当下遇见未来
- (2025年标准)猪场租赁协议书
- 交通规划中智能交通信号控制技术应用2025年研究报告
- 公共空间设计培训课件
- 2025年公安部交管局三力测试题库及答案
- 2025年肇庆市怀集县卫生事业单位招聘考试笔试试卷【附答案】
- 2025年邮政集团招聘考试复习资料与预测题
评论
0/150
提交评论