(概率论与数理统计专业论文)多个污染分布的非参数推断研究.pdf_第1页
(概率论与数理统计专业论文)多个污染分布的非参数推断研究.pdf_第2页
(概率论与数理统计专业论文)多个污染分布的非参数推断研究.pdf_第3页
(概率论与数理统计专业论文)多个污染分布的非参数推断研究.pdf_第4页
(概率论与数理统计专业论文)多个污染分布的非参数推断研究.pdf_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学硕士学位论文多个污染分布的非参数推断研究 中文摘要 摘要 女 本文讨论当观察数据来自污染分布f ( x ) = ( 1 一,) ( x ) + ,f ( x ) k lj = l k 2 时的非参数推断问题。第一章绪论介绍了该问题的起源、发展和应用背景。 第二章是本文的主要部分,将讨论这样的问题:当:2 时,即 ,0 ) = ( i 一届一岛) ( x ) + 。( x ) + :疋( x ) ,其中只( x ) 、吒( x ) 已知,而屈、:、 f o ( x ) a v o n ,在非参数条件下,如何对届、反、f o ( x ) 做出估计。第三章,则为 tt 当k 2 时,( x ) = ( 1 一屈) ( 曲+ 屈f ( 工) ,其中f ( j ) ,i = l ,j i 已知,屈, 忙1 i = l i = l ,女及f 0 ( x ) 未知的非参数条件下,对屈,i = l ,女 f o ( x ) 做出了相合性 估计。第四章,对笫二章和第三章中列举的例子进行了随机模拟,从中分析得出 相应的统计规律。 关键词:污染分布、非参数推断、可识别性、相合估计。 i 复旦大学硕士学位论文多个污染分布的非参数推断研究英文摘要 a b s t r a c t t h i sd i s s e r t a t i o ns t u d i e st h en o n p a r a m e t r i ci n f e r e n c ep r o b l e mw h e n t h eo b s e r v a t i o n a ld a t ac o m ef r o mt h ec o n t a m i n a t e d d i s t r i b u t i o n kk ,( x ) = ( 1 一e ,) ) + 届f ( x ) ,w h e n k 2 ,;jj = f c h a p t e ro n ei st h ep r e f a c et h a ti n t r o d u c e st h eo r i g i n ,d e v e l o p m e n t a n da p p l i c a t i o nb a c k g r o u n do ft h ep r o b l e m a n dt h em a i np a r to ft h i s p a p e ri sc h a p t e rt w o ,i nw h i c ha n a l y z e ss u c hq u e s t i o n :w h e nk = 2 , f ( x ) = ( 1 一l 一2 ) f o ( z ) + 属e ( x ) + 2 ( x ) ,鼻( 工) a n de ( x ) a r et h e d i s t r i b u t i o n st h a ta r ek n o w n ,w h e r e a s , 6 1 、厦a n d f o ( x ) a r et h ee l e m e n t s w h i c ha r eu n k n o w n o nc o n d i t i o nt h a tt h e r ea r e o n l yn o n p a r a m e t r i c s u p p o s e s ,h o wc a nw ee s t i m a t e , 6 1 、2a n df o ( x ) i nc h a p t e rt h r e e ,w h e n b 2 ,( z ) = ( 1 ) ( x ) + f ( x ) , f ( z ) ,i = 1 ,k a r e k n o w n , i = 1 ,。一,ka n df o ( x ) a r eu n k n o w n ,i tg i v e st h ec o n s i s t e n c ye s t i m a t i o n t h e l a s tc h a p t e r , c h a p t e rf o u r , g i v e st h er a n d o ms i m u l a t i o na c c o r d i n gt ot h e e x a m p l e si nc h a p t e rt w o k e y w o r d s :c o n t a m i n a t e d d i s t r i b u t i o n ,n o n - p a r a m e t r i ci n f e r e n c e , d i s c e r n a b l i t y , c o n s i s t e n c ye s t i m a t i o n 1 i 复旦大学硕士学位论文多个污染分布的非参数推断研究第一章 第一章绪论 1 1引言 本节是问题的背景叙述,主要援引王巍( 1 9 9 9 ) 的文献。 m c k e n d r i c k ( 1 9 2 6 ) 叙述过一个以2 0 世纪初,某印第安居住地的居民受到 霍乱感染的抽样调查的实例。在此印第安居住地抽查了2 2 3 户居民,其中有1 6 8 户居民未受到感染,而其他居民家庭都或多或少地受到感染,它们被感染的情况 见表1 的第二行。 表1 :m c k e n d r i c k 问题的真实数据与拟合值 家庭中受感染成员数x 01234 5 总数 家庭数 1 6 83 21 66102 2 3 p o i s s o n 分布拟合值 1 5 1 6 45 8 4 81 1 2 81 4 5 0 0 0 0 0 l 2 2 3 混合分布下的拟合值 1 6 8 o l3 2 5 21 5 8 15 1 21 2 50 2 9 2 2 3 首先想到的是用p o i s s o n 分布来拟合这些数据,从拟合值来看( 表1 的第三 行) ,效果很不理想。:) 己论从z2 一p e a r s o n 统计量( 其值为3 6 7 5 ) 方面考虑,还 是从样本的一阶、二阶原点矩的关系丘- 2 牙2 寺善置= 0 3 8 6 , 丘z2 吉善? = 0 7 4 4 。若它们来自p 。i s s 。n 分布,应有z2 ? + ,但 ? + a = 0 5 3 5 和乜相差很大) 方面考虑,都不能接受参数分布为p o i s s o n 分布 的假设。 通过进一步研究,m c k e n d r i c k 认为应该把2 2 3 户居民这个总体分成两个子 总体:暴露于霍乱感染风险的家庭和没有暴露于霍乱感染风险的家庭。每个抽到 的个体都可能来自这两个不同的子总体,假定来自前者的概率为1 一口,来自后 者的概率为口。对于前者,家庭中感染霍乱的人口数符合p o i s s o n 分布,记其分 布函数为( x ) :而后者,感染数恒为零,是个单点分布,记其分布函数为( x ) 。 复旦大学硕士学位论文 多个污染分布的非参数推断研究 箜二芏 这样,家庭中感染霍乱的人口数服从的分布为:f ( x ) = ( 1 一口) e ( x ) + 峨( x ) 。 分布列为: i ( 1 一口) p “+ d ,当 = 0 以拈埘= 1 ( 卜口) 鲁,靶l ,2 _ 3 a d 口和a 一样,是待估参数。此分布拟合的结果见表1 的最后一行,其效果 是十分理想的。 m c k e n d r i c k 问题的出发点是希望建立暴露于霍乱风险的人群中家庭成员 感染数的模型,但得到的数据中却混入了未暴露于霍乱风险的人群的数据,这就 使得推断发生了偏差。或者说,数据受到了污染( c o n t a m i n a t e ) ,此时总体分布 表现为两个分布的混合,f ( x ) = ( 1 一a ) e ( x ) + 峨( x ) 。在这个问题中,e ( x ) 是 未知的参数分布,也是我们主要关心的,a 未知,而疋( x ) 是已知的分布。 此类问题的一般表述为:试验所观察到的数据以概率1 一a 来自分布( x ) , 以概率a 来自分布f a x ) 。通常我们更关心e ( x ) ,认为数据本应服从该分布,但 却受到了来自分布f 2 ( x ) 的数据的污染,口称为污染系数。 在实际的应用当中,随机变量受到污染的现象是很常见的。类似于 m c k e n d r i c k 的例子,在生产制造过程中,由于生产条件的突发性变化,而使正 常产品中混入了少量劣质产品;或者同一批产品来自几个生产条件有较大差异的 车间;在卫生统计和医学试验中,当考察正常个体的生理指标的分布时,会混入 一些患病的个体,反过来,当考察患病个体的生理指标的分布时,会由于误诊混 入一些正常的个体。事实上,一般观察到的数据都或多或少的受到污染,没有污 染的数据可以看成是口= 0 的特例。污染分布在实际问题中是经常会遇到的问题, 因此有必要对其展开进一步研究。 1 2 污染数据的早期研究 早期对污染数据的研究,主要是从稳健性估计的角度出发。d a v i s ( 1 9 5 2 ) 提出 在寿命试验中,元件寿命可能为两个分布函数的混合,即我们的一些简单分布的 复旦大学硕士学位论文多个污染分布的非参数推断研究 第一章 假定是不一定成立的。h u b e r ( 1 9 8 1 ) 在著作中提出了“被污染的丁f 态分布族”,并讨 论了参数的稳健估计。h u b e r 还定义了分布的占污染邻域( c o n t a m i n a t i o n n e i g h b o r h o o d ) : e ( 瓦) = f l f = ( 1 一s ) r + 占h ,h m ) 其中m 是某分布族。 设瓦是基于观察构造的估计量,在总体分布为f 时,假定l 满足 上哼r ( f ) ,”( 疋一7 1 ( f ) ) 上兮( o ,a ( f ,d ) 则对该估计量稳健性的两个常用度量是: 最大偏差( m a x i m u m b i a s ) :b 1 ( 占) = s u p | t ( f ) 一r ( ) i , f 只 最大方;晕( m a x i m u mv a r i a n c e ) :v i ( 占) = s u p a ( f ,t ) 。 f e 0 s i m o n o v a ( 1 9 8 0 ) 考虑了对来自分布f a x ) = ( 1 一e ) f o ( x ) + 占g ( x ) 的样本 ,x :,x 。的位置参数的稳健性估计的问题。这里 o ,1 】,f a x ) 是对称的 分布,g ( x ) 是未知的污染分布,属于一个有一个固定分位数的对称分布族: 互( 七) = g i g ( - x ) = 1 一g ( x ) ,g ( - k ) = f o ( 一七) , 其中k 0 是一个固定实数。 估计由以下方程的解来定义: w ( x ,一f ) = 0 t = l 甲是一个奇函数,满足一组条件以保证估计的唯一性和渐近正态性。文章 求出了函数的一个形式,使方程能给出一个稳健估计。 讨论污染数据的文献有些侧重于讨论污染系数的估计,通常假定f ( x ) 、 五( x ) 都是已知的,比较有代表性的是f r o m ( 1 9 8 9 ) 和y u ( 1 9 9 1 ) 的文章。 f r o m ( 1 9 8 9 ) 讨论了曩( x ) 、e ( x ) 均为参数已知的指数分布的情形,给出了利 用样本分位数得到的估计。 v u ( 1 9 9 1 ) t , 提出了几种估计污染系数的方法,有矩方法,后验均值的迭代法, 最大似然法等。 复旦大学硕士学位论文多个污染分布蝗! ! 查墼塑堑堑窒 苎二主 湛敏( 1 9 9 0 ) 讨论了分布函数完全已知的条件下,基于截断数据的污染系数的 估计,主要用矩估计方法来求解。 王巍( 1 9 9 9 1 研究了非参数情况下污染分布的统计推断问题,主要讨论了在 ( x ) 、吒( x ) 至多只有一个已知的条件下,如何给出污染系数和未知的分布函 数的估计,其主要内容如下: 假定我们得到x ,x :,x 。为来自分布f ( x ) = ( 卜a ) 鼻( x ) + 幔( x ) 的i i d 样本,f a x ) 已知,而口、e ( x ) 未知。设工( 1 ) x ( 2 ) x ( 。) 为样本的顺序统 计量,e ( x ) 为由样本构造的经验分布函数,取f ( 。,;) ,d = m ;“】, : _ n - 1 】+ 1 ,令 d z 女= x ( ( 圳,= 1 ,2 ,m , 在非参数条件下,给出一个合理的“可识别性”条件,继而构造出了a 和鼻( x ) 的估计: ! + f 吐j 西:l 一, m a x g ( z i ) 一( z ) :k = 2 ,脚) 最( 石) = 二紫,一o o 0 ,2 + = 2 一s 2 0 , ( 加巧丢石m 咱喝) 聃) 州卅粥( 圳 容易验证巧( 石) 是分布函数。 则f ( x ) = ( 1 一所一:) f o ( x ) + ? e ( x ) + :( x ) 。 让q 和s z 在( o ,m i n ( f l 。,:) ) 中变化,从而可得到无穷多组所,以和f o ( x ) 复旦大学硕士学位论文多个污染分布的非参数推断懊窒苎三主 满足f ( j ) = ( 1 一l l - 历) 瑶( x ) + 江( x ) + 历五( x ) 。 为保证在f ( x ) 、( x ) 和,( x ) 都已知时,届、:和f o ( x ) 能够唯一确定 下来,2 2 将引进一个定义,对我们讨论的范围做一个限制。本章将在此条件 下,构造出届、:和y o ( x ) 的相合估计。以下2 2 给出构造届、:和f o ( x ) 的 估计的基本方法及说明,2 3 中证明估计的相合性。 2 2 对届、:和f o ( x ) 的估计 一、基本假定 定义2 1 : 假定f o ( x ) ,e ( x ) ,( x ) 为分布函数,属,屈 0 ,1 ) 且 0 。+ : 1 。称f a x ) 关于e ( x ) 及( z ) 在污染分布中是可识别的,若对 v 屈,殷【o ,1 ) ,0 届+ 2 卢:及分布函数巧( x ) ,使得: ( 1 一? 一:) ( x ) + j e ( x ) + 厉( x ) = ( 1 一一:) r ( x ) + 。e ( x ) + 卢:五( x ) 。 ( 2 1 ) 我们将简称“r ( x ) 关于曩( x ) 及f d x ) 在污染分布中是可识别的”为 “f o ( x ) 关于只( x ) 及疋( x ) 可识别”。以下我们将在f a x ) 关于鼻( 石) 及f a x ) 可 识别的前提下对屈、履和气( 了) 作推断。事实上,若e ) 、五( j ) 和,( j ) 都 已知,我们就只需寻找满足f ( x ) = ( 1 一声。一:) 民( x ) + 崩e ( z ) + :( x ) ,并且 使届、:都达到最大的那一组( 届,:,f a x ) ) ,即 ( l ,2 ) = ( ( m a x l ,m a x # 2 ) :f ( x ) = ( 1 一l 一2 ) r ( x ) + 届鼻( x ) + 2 ( x ) ) 。 在实际问题中,我们则可以用经验分布函数来代替f ( x 1 。 下面两个引理给出f o ( x ) 关于e ( z ) 及( x ) 可识别的两个等价条件,这两 个条件可方便我们在实际问题中对可识别性进行判别。 墨呈查兰堡兰堡垒查 兰全堕鲞坌查塑! ! 查墼坚堑竺壅! ! 三兰 引理2 1 :r ( x ) 关于e ( x ) 及疋( x ) 可识别的充要条件是不存在6 、b :( o ,1 ) 且 0 6 、+ 6 : l ,使f o ( x ) 一b ,只( x ) 6 :( x ) 为单调上升的。 证明:先证充分性,反证:设对某届、:【o ,1 ) ,0 。+ f 1 2 :及分布函数巧( z ) ,使得: ( 1 一声;一声i ) 巧( x ) + p ? ( x ) + 声;( x ) = ( 1 一声。一z ) 矗( x ) + 卢( x ) + f l f d x ) , 葛羞聃k 驰,+ 击驰, = 聃,+ 毒蕞驰,+ 毒驰, 葛羞聃一篇枷端獬 令6 、= 。一f l 届;- 一f l , :,6 := t 竺专亍, 三= 鲁 鲁r 。) = r ) 一6 、o ) 一如丘 ) , 上式右端是个单调上升的函数,这和引理的条件矛盾。 再证必要性,同样反证:假定存在b ,6 2 ( 0 ,1 ) 且0 b l + 6 2 1 ,使 凡( x ) 一b ,e ( x ) 一b 2 疋( x ) 为单调上升的。任取届,z 0 ,1 ) 且o 崩+ f 1 2 :,巧( x ) 是 分布函数,而且有: ( 1 一卢? 一卢:) 巧( x ) 十卢i e ( x ) + 卢;( x ) 多个污染分布的非参数推断研究第二章 - 【i 柏一腹_ ( 1 咱惧) ( b i + b 2 ) 】( 而与) 吲x ) - b i 驰) - b 2 驰) + 【,+ ( 1 一。一:) b l 】曩( x ) + 2 + ( 1 一,一:) b :】r ( x ) = 【( 1 一一一卢z ) ( 1 - b , - t h ) 】( 了二i _ i ( x ) 一6 _ ( x ) 一6 z 五( x ) 】 + 届+ ( 1 一属一2 ) 6 】,j ( x ) + 殷+ ( 1 一1 一2 ) 6 2 】( x ) = ( 1 一声,一:) ( x ) b l ( x ) 一b 2 ( x ) 】 + 卢t ( x ) + ( 1 一卢。一声:) b l e ( x ) + 2f 2 ( x ) + ( 1 一声一:) 6 :e ( x ) ( 1 一届一:) o ) + 届e ( x ) + 卢:f 2 ( x ) 与前提条件矛盾! 证毕。 以f 引理2 2 从密度函数蒽义上解释了可识别条件。 引理2 2 :若分布函数( x ) ,( x ) ,f a x ) 的密度函数 ( x ) ,z ( x ) , ( x ) 都存在, 则f o ( x ) 满足可识别性的充要条件是:x c v r 0 ,有 i n f 趣! l :0 ,( 2 2 ) 。z ( x ) + y ( x ) 这里= 缸:z ( x ) o r f a x ) 0 。 证明:必要性,反证:对v y 0 。i n 。f 俐f + o ( ,x 丽) = 6 。 。,则 f a x ) 一b z ( x ) 一b z ( x ) 0 ,其中b 2 = b 1 7 0 ,则r ) 一b 。e o ) 一b :( x ) 为单 调上升函数,因此r ( x ) 不可识别,矛盾! 充分性,同样反证:假设存在b 。 0 ,b : 0 ,使( x ) 一b 。f ( x ) 一b 2 疋( x ) 为单 调上升函数,则五( x ) - b , f ,( 曲- b :f d x ) 0 。与题设矛盾。 此引理说明,若,j ( x ) ,e ( x ) ,( x ) 的密度函数 ( x ) ,一( x ) , ( x ) 都存在,则 f a x ) 关于鼻( z ) 及( x ) 可识别的充要条件是对任意小的正数6 ,、b :,f o ( x ) 都 不能覆盖6 i ) + 6 :以( x ) 。 理论上讲,可识别条件局限了问题讨论的范围,但从以下例子来看,很多 墨兰查兰堡主鲎堡堕墨 兰全望塞坌查竺斐叁墼坚堑! 查! 三兰 常见的污染分布问题都是满足可识别条件的。 修02 1 : ( 1 ) ( x ) = m ( x - r , u ) ,( x ) = m ( 专芋) ,( x ) = 中i x - # ) ,仃 o 。可以验证 。 盯j 盯 o d f o ( x ) 关于一( z ) 及吒( x ) 可识别。见图2 1 a 。 说明:在图2 1 a 中,f o ( x ) = m ( x ) ,e ( 工) = ( ;) ,( x ) = m ( 言) ,6 - = o - 6 , b := 0 3 ,两条曲线分别为f o ( x ) ,b i f a x ) + 以( x ) 。 ( 2 ) 聃) 叫学) ,坼) 州半) ,碘) 叫孚) ,盯 帅0 0o oo 可以验证f o ( x ) 关于曩( x ) 及e ( x ) 可识别。见图2 1 b 。 说明: 在图2 1 b 中,( x ) = 一1 ) ,e ( x ) = 巾 + 1 ) ,( x ) = 巾 + 2 ) , b 。= 0 6 ,b := 0 3 ,两条曲线分别为f o ( x ) ,b l ( 曲+ 6 : ( x ) 。 ( 3 ) ( x ) = 1 - e x p ( 一言) ,( x ) = l - e x p ( 一言) ,f 2 ( x ) - l e x p ( 一麦) , 0 0 , 0 。,0 : 0 。当疗: 0 , 吼时,可以验证r ( x ) 关于只 ) 及r ( x ) 可识别。见 图2 1 c 。 说明:在图2 1 c 中, f o ( x ) = i e x p ( 一x ) ,e o ) = 1 - e x p ( 一= x ) , f 2 ( x ) = l e x p ( 一i x ) , 6 1 2 0 6 , 6 :20 3 ,两条曲线分别为,o ( x ) , 6 l :( x ) 十6 2 ( x ) 。 ( 4 ) 聃) 却( x 仃- 。u ) ,胁) _ l q x p ( 一言) ,驰) = ! - e x p ( 一言) 邝。 0 , 仃n1, 0 1 , 0 : 0 。可以验证f o ( x ) 关于曩( x ) 及e ( z ) 可识别。见图2 1 d 。 说明:在图2 1 d 中,f j ( x ) = 中( x 一5 ) ,( x ) = 1 一e x p ( 一x ) ,五( x ) = 1 一e x p ( - 喜) , b = 0 6 ,b ,= 0 3 ,两条曲线分别为矗( x ) ,b 一( x ) + b ,厂,( x ) 。 1 0 复旦大学硕士学位论文多个污染分布的非参数推断研究 第二童 v v 7 - 1 0 - 505 图2 1 a v , i 八 如- 4- 20246 图21 b 墨兰查芏壁主堂堡垒圭 兰全堕鲞坌查塑! ! 查墼竖堂! 坐l ! ! 三主 12 08 06 04 02 0 08 0 7 o6 05 04 03 02 01 0 0123 45678 91 0 图21 c 0123 45 6 7891 0 图2 l d 1 2 多个污染分布的非参数椎断研究 第二章 、对f l , ,屈和民0 ) 的估计 以下我们讨论如何估计满足f ( x ) = ( 1 一屈一:) 瓦( x ) + 鼠f ( x ) 十:( x ) 并 且关于f ( x ) 及e ( x ) 可识别的( z ) 及相应的届,:的方法。 对于分布函数,( x ) = ( 1 一屈一:) ( x ) + 屈( x ) + :吒( x ) ,将其前两项合 并,得: f ( x ) = ( 1 一声:) 巧( x ) + 卢:吒( x ) , ( 2 3 ) 其中, ( 1 一岛) e ( x ) = ( 1 一。一2 ) f a x ) + f l , f , ( x ) , 咖一矗胤卅尚驰) 。 ( 2 4 ) 假定我们得到的x 。,z :,x 。为来自,( x ) = ( 1 一卢:) 巧( 曲+ f l :( z ) 的i i d 样本,记x 五:) 兰x ( 哪为样本的顺序统计量,f a x ) 为由样本构造的经验 分布函数即驰) = 吉喜私,纠。取州哇) ,州扎,吲孚, 令 z 女= x ( ( ) ) ,k = 1 ,2 ,m , ( 2 5 ) 由 乙 的定义可知 只( 乙) ,| i = 1 , 2 ,珊) 、 e ( 乙) ,t = 1 , 2 ,聊) 都是单调上 升序列。 由 z 。,k = 1 , 2 ,m ,我们构造两个函数( x ) 和( x ) : f 0 , f ,( x ) = g ( z 。) , i g ( z 。) , 1 0 , f 2 ( x ) = f 2 ( z “) , l g ( z 。) , 当x z , 当z 女一l x z 女, 当x z 。 当z 0 ( z 。) 一:g ( z 。) ,k = 1 ,2 ,朋) 为单调上升序列) ( 2 9 ) 为使该序列为单i g t 上y + 序列,只需让该序列的差分序列为非负序列即可,故 等价地口:又可定义为: 声:= m a x f 1 2 0 :g ( z ) 一只( z 。) - p 2 ( 五( z 。) 一g ( z ) ) o ,k = 2 ,州) ( 2 1 0 ) ! 由于( z 。) 一f o ( z 。) :幽,:2 , 3 ,。,所以声:最简单的定义为: ! + 。 呸_ l 矽:,2 盂面五万瓦戋可i 西丽。( 2 1 1 ) 最后,基于厦的估计历,定义巧( x ) 的估计为: 声( x ) :塑尘幽,一。 x 0 。此时有: 声? ( x ) = ( 1 一口) ( x ) + 口e ( x ) 在( 2 1 5 ) 式中,碍( x ) 、曩( x ) 是已知的分布函数 未知的分布函数。使用前述方法,同理可得: ( 2 1 4 ) ( 2 1 5 ) 口是未知的系数,f 0 ( x ) 是 t 4 复旦大学硕士学位论文 多个污染分布的非参数推断研究 笙三主 玎2】 一+ 5 2 盂币雨了i 凌了i 丽m a x ( z ) 一( z 1 ) :七= 2 ,3 ,用 矗= 立皆,- - 0 0 x 0 0 , 其中万( o ,= 1 ) ,( 21 6 ) 其中彪( x ) 是由样本构造的定( x ) 的经验分布函数。 由( 2 1 4 ) 式,可以得到屈的估计: = 西( 1 一:) 。 ( 2 1 7 ) ( 2 1 8 ) 2 3 证明矗,p :和冗( x ) 的相合性 此节我们将证明矽。,厦和忘( x ) 的相合性,首先叙述两个经典的结果,并通 过它们来得到两个有用的推论。 引理3 1 ( g l i v e n k o ) :设一个一维总体有连续分布函数f ( x ) ,z ,:,。为自 这个总体中抽出的样本。以( x ) 记x ,z :,x 。的经验分布函数,则有: l i m ( s u p1 ( 叻一f ( x ) f ) = 0 ,a s 由此引理可得如下推论。 推论:只( x ) 如上节( 2 6 ) 式所定义,则 ! i m ( s u pl e ( x ) 一f ( x ) j ) = 0 ,a s ( 3 - 1 ) 一 。 证明:由只o ) 的定义, f = 0 ,当一0 0 x z 1 i e ( x ) 一f a x ) i ( z 。) 一只( z 。一。) ,当z 。一。x z 。,女= 2 ,3 ,珊 i 1 一只( z 。) ,当x z 。 ! + ,! + 。 显然,f a z 。) 一f o ( z 。) :幽,1 一f a z 。) 幽,所以 s u pl 元( z ) 一f ( z ) 1 复旦大学硕士学位论文多个污染分布的非参墼楚堑堑塞苎三主 ! s u pl c ( x ) 一( x ) l + s u pl f ,( x ) 一f ( x ) l 当7 - - - 9o o 。 证毕。 引理3 2 ( d v o r e t z k y - k i e f e r - w o l f o w i t z 公式( 1 9 5 6 ) ) :条件同引理3 1 p s u pl ( x ) 一f ( x ) l 2 n2 m e x p ( - 2 , a 2 ) 其中0 0 ,s 0 ,有: 】 l i m p ( s u p | f a x ) 一f ( x ) l c ,z 一产) = 0 ( 3 2 ) 一“ 证明:记见= s u pi f a x ) 一f ( x ) i , 对固定的r 0 ,当i r 时, 一! + r l i m p ( d 。c t l2 ) 令r 专o o ,即得证。 l i m p ( 见2c 胛2 r 5 ) , l i mm e x p ( 一2 c2 r2 5 1 m = m - e x p ( 一2 c 2 r 2 5 、 引理3 3 :丘( 工) 如上节( 2 7 ) 式所定义,若f a x ) 为连续分布函数,假定f ( x ) 的 支撑集为连续区间,则 l i m ( s u pi 疋( x ) 一e ( x ) i ) = 0 ,a s ( 3 3 ) 一。 证明:由丘( x ) 的定义,若记z 0 = 一。,z 。= 0 0 ,则: j 丘( x ) 一五( z ) i 疋( 乙) 一吒( z h ) ,当z h x 0 ) ,因为f ( x ) 是分布函数, 所以f ( x ) 是严格单调的,记f1 ( x ) 表示f ( x ) 在其支撑集上的逆函数, g ( z 。) 一g ( z 川) = 6 f _ 1 ( f ( z 。) ) 一f 。1 ( ,( z 川) ) ( 3 5 ) 而 f ( z 。) 一f ( z 。一。) 2s u pi f a x ) 一f ( x ) i + ( z t ) 一f o ( z t 一,) ! + , :2s u p1 只( 。) 一f ( x ) l + 竺( 3 6 ) 一 0 , p u 。 c 十回寸o ,当n j 。 有了以上的准备1 作,就可来证明p 。,夕:和瓦( x ) 的相合性了。为记号不致 混淆,以后我们用p 。,分:。,艺( x ) 和或。( x ) 来表示基于x 。,x :,x 。得到的届, 度,e ( x ) 和或( x ) 。 定理2 1 :若f ( x ) = ( 1 一层一屈) 民( x ) + 届( x ) + :疋( x ) ,其中f o ( x ) 、e ( x ) 及 e ( x ) 都为连续分布函数,f o ( x ) 关于e ( 工) 及五( x ) 在污染分布中是可识别的, f ( x ) 的支撑集为连续区间,则有: i 夕。与。,夕:。乌:,当盯_ o 。时; i i s u pl 或。( x ) 一r ( x ) i 山o ,当n 寸o 。时; 0 , l i m p 。:。一:i 毋= o ,为此,我们分别证明! i r a p 9 2 。 织+ d = o 和 复旦大学硕士学位论文多个污染分布的非参数推断研究第二章 ! 一i m p f 1 2 。 p 2 0 ,则由 匦小蹦2 u 匦度” ” 所以,必存在占 0 ,使得 p 甄度。 屈+ 万) 0 , 对于 爱分:。 屈+ 6 ) ,一定有 矽:。) 的子列 度。) ,满足 ! 受矽:。:+ j ,当足够大,由p :。的取法, 户。( 矿( 反+ 詈) 丘( 加丘( 矿度、丘( 卅【夕:。一( 3 2 + 害) 丘( 班 当k jo 。时,上式左边,由引理3 1 的推论和引理3 3 ,一致收敛到 f ( x ) 一( :+ 害) 吒( x ) ;等式右边是两个单调上升函数的和,其极限仍为单调上升 函数,而由( 2 3 ) 式,得: f ( 工) 一( 厦+ 享) 疋( x ) = ( 1 一厦) 巧( x ) 一夏喾高吒( 瑚, 将( 2 4 ) 式代入上式,得: f ( x ) 一( 岛+ 霎) e ( x ) = ( 1 _ 屈) ( 1 一r 瓮) ( z ) 一面耋易鼻( x ) 一面主矗疋( x ) 】+ ( 届+ 害) e ( z ) 移项,得: m ) _ ( 1 刚( 1 一矗胤沪高聊) 一焘碘) + ( 届+ 弘( x ) + ( 厦+ 要) e ( x 瞰) 2 ( 1 咱一屈巧) ( 杵) ( 1 一南胤圹赤胁) 一j 石 5 ( x ) 】) + ( ;+ 害) e ) + ( :+ 害) 五( x ) 复旦大学硕士学位论文多个污染分布的非参数推断研究 第j - 章 令屏= 届+ 享,:= a + 害,使历,历e o ,1 ) ,。 l + 历 1 ,由此可知 0 6 o ,! 鳃p p :。 :j = o 。设爿。= 伽:度。 要【e ( z 。) 一e ( z 。一,) 】 惹 1 0 ) ( 3 1 0 ) 式左端2s u pi e ( x ) 一f ( z ) i ,由引理3 2 的推论, p t p 2 n ( p 2 6 = p ( x ,) 叫2 8 u p f 州矿m 她蒜2 ( f l o ,勤一。 1 :一三如 故p :。山:,当n 一时成立。 ( 3 1 1 ) 墨兰查堂翌主兰堡垒查 ! 全堕鲞坌查塑! ! 垒墼整堑竺塞j ! 兰 蝴峨炉互警,所以 1 艺一咖) 卜去【i ( x ) - f 一艳旧卅删) 】 去【| 驰( x 州夕z 一喝1 1 e h g l 理31 及声:。的p 收敛性,即得: 一:罂。i 彪( x ) 一巧( x ) i 山o ,当n 一。时。 ( 3 1 2 ) 南r 节r 21 4 、式,知: 口,:卫 1 一: 此时有: e ( x ) = ( 1 一口) r ( x ) + 口e ( x ) 同理可以证得: 与口,当n 0 0 时; 及s u p1 或。( x ) 一f o ( x ) 1 山o ,当”m 时。 由上节( 2 1 8 ) 式,知:a = 盎( 1 一矽:) ,从而: 阮一。l = l a :( 1 一声:。) - a ( 1 一反) i = l 在:一西:夕:。+ 舀:历一& :厦一口+ a 猡:l i 西:一口i + 西:i 矽:。一卢:l + :i & :一口i 与o ,当n o 。时。 所以,p 。山屈,当门斗o 。时。 证毕。 2 0 墨呈垄堂翌主兰堡堡查 ! 全望鲞坌查竺韭查塾垫塑竺墨! 三兰 第三章含有多个污染分布的非参数推断 本章将讨论总体分布为f ( 。) :( 1 一k ,) r ( 。) + 圭屈f ( x ) , 2 时的非参 数推断问题。条件是假定f ( x ) ,i = 1 ,2 ,k 是k 个已知的污染分布 ,i :1 ,2 ,k 是未知的污染系数,f o ( x ) 是未知的真实分布。本章在一个合理的 条件f ,构造出了,i = 1 , 2 ,k 和f o ( x ) 的相合估计。 3 1 引言 本章我们将考虑这样的问题,假定我们得到的x 。,:,x 。为来自 f ( x ) :( 1 一k 厉) r ( x ) + 壹屈f ( x ) , 2 的i i d 样本,f ( x ) ,f = 1 ,2 ,女是女个 i = 1,= l 已知的污染分布,屈,f _ 1 ,2 ,k 是未知的污染系数,f o ( x ) 是未知的真实分布。 在非参数条件下,对,i = 1 , 2 ,k 和f o ( x ) 做出估计。 这个问题的一个实际例子是,假定我们得到了一批产品,已知产品应该来自 某一个新建生产车间,但是在产品运送过程中,却混入了其它原有的k 个生产车 间的产品。我们已经知道那些原有的生产车间生产的产品的指标的分布,却不知 道来自原有车间的产品所占的比例,也不知道新的生产车间产品的指标的分布 现在希望对这些未知的量做出估计。 另一个类似的例子是,假定我们要调查某一个新兴城市居民受某种流行病感 染的感染比例,该指标能一定程度上反映城市的卫生状况,但由于人口流动现象 十分普遍,使得得到的数据中同时包含了众多周边旧城区的居民的感染状况数 据。我们只是知道各旧城区大致的感染比例,但不知道它们在采样中所占的比例。 在这种情况下,要求估计出此新兴城市的流行病感染比例。 复旦大学硕士学位论更多个污染分布的非参数推断研究 第三章 一般情况下,即使f ( x ) 也已知,也不一定能唯一确定屈,i = 1 , 2 ,k 和 瓦( z ) 。为保证在f ) ,i = 1 , 2 ,k 和f ( x ) 都已知时,i = 1 , 2 ,k 和民( x ) 能 够唯一确定下来,3 2 将引进一个定义,对我们讨论的范围做一个限制。本章 将在此条件下,构造出屈,i = 1 ,2 ,k 和f o ( x ) 的相合估计。以下3 2 给出估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论