(概率论与数理统计专业论文)污染分布的统计推断.pdf_第1页
(概率论与数理统计专业论文)污染分布的统计推断.pdf_第2页
(概率论与数理统计专业论文)污染分布的统计推断.pdf_第3页
(概率论与数理统计专业论文)污染分布的统计推断.pdf_第4页
(概率论与数理统计专业论文)污染分布的统计推断.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 续际观察到的各类数据都或多或少地受到污染,被污染数据的 分布表现为多个分布的混合对污染分布的研究有着十分重大的意 一 义j 本文主要研究了对污染分布的非参数统计推断首先我们对污 染分布的背景及历史上的研究做了一个简单的回顾,接着针对污染 源分布已知而本来分布未知的情况,在一个合理的假定下,构造了 污染百分比及原始分布的估计,证明了其相合性,并做了随机模拟 随后我们由此进一步讨论了污染百分比的估计的相合性,给出了相 应的相合收敛速度最后我们粗略讨论了污染百分比的检验问题, 给出一个大样本检验法则 a b s t r a c t t h eo b s e r v e dd a t af r o mt h er e a lw o r l da r eu s u a l l yc o n t a m i n a t e dm o r eo r l e s s s i n c et h ed i s t r i b u t i o no ft h ec o m t a m i u a t e dd a t ai st h em i x t u r eo fm o r e t h a no n es i n g l ed i s t r i b u t i o n ,i ti so fg r e a ti m p o r t a n c et os t u d yt h ec o n t a m i n a t i o nd i s t r i b u t i o n i nt h i st h e s i st h em a i nf o c u s e sa r eo nt h en o n p a r a m e t r i c i n f e r e n c eo fc o n t a m i n a t i o nd i s t r i b u t i o n f i r s t ,w eb r i e f l yr e t r o s p e c tt h eb a c k g r o u n da n dt h eh i s t o r i c a ll i t e r a t u r eo ft h ec o n t a m i n a t i o nd i s t r i b u t i o n ,t h e nf o r t h ec a s et h a to n l yt h ec o n t a m i n a t i n gd i s t r i b u t i o ni sk n o w nw i t ht h en a t u r a l d i s t r i b u t i o nu n k o w n ,w eg i v et h ee s t i m a t o r so ft h ec o n t a m i n a t i n gp r o p o r t i o n a n dt h eu n k o w nd i s t r i b u t i o nu n d e rar e s o n a b l ea s s u m p t i o n i na d d i t i o n ,t h e c o n s i s t e n c yo ft h ee s t i m a t o ro ft h ec o n t a m i n a t i n gp r o p o r t i o na n dt h er a t eo f t h ec o n v e r g e n c ei sd i s c u s s e d a tl a s tw er o u g h l yc o n s i d e rat e s t i n gp r o b l e m a b o u tc o n t a m i n a t i n gp r o p o r t i o na n dp r o p o s eal a r g es a m p l et e s t i n gt e c h n i q u e 致谢 这篇论文是在我的导师缪柏其教授的悉心指导及系里各位老师、 同学的关心和鼓励下诞生的,借此机会,谨向他们表示深深的谢意 首先要感谢尊敬的缪老师进入研究生学习两年多以来,一直承 蒙缪老师的无私指导和严格要求,他严谨的治学态度和渊博的学识 都将使我一生受益这篇毕业论文的写作过程中,始终渗透了缪老 师热情的帮助和殷切关怀,在此,向缪老师致以崇高的敬意和忠心 的感谢 同时,我有幸得到赵林城教授、苏淳教授、韦来生教授等老师的 教导和帮助另外,统计与金融系各位在读博士生及硕士生也给予 我不少建议和鼓励本文的完成与他们的帮助也是分不开的借此 机会向诸位老师和同学表示我的感激之情 在统计与金融系学习的这段e t 子是令人难忘的,我深深感受到 系里浓厚的学术气氛和同学之间团结互助的精神,这必将对我今后 的学习和工作产生深刻的影响再次对所有帮助和关心我的老师和 同学们表示最由衷的感谢 第一章污染分布问题的概述 1 1 问题简介 混合分布( m i x t u r e ) 的统计推断问题是统计学上最古老的课题之一这类问 题的一般表述为:设有取值于样本空间爿的随机变量x ,实验所观察到的数 据分别以概率q 来自分布弓( z ) ,j = 1 ,q 0 ,e q = 1 于是总体分 布f ( 。) 表现为k 个分布的混合,f ( 。) = e 譬l 乃乃( z ) ,。疋其中,乃及 毋( z ) ,j = 1 ,k 都可能是已知或未知的乃( z ) 称为组成分布,而q 称为组成 分布局( z ) 的权重统计学家的任务是根据已知的信息利用抽样噩,f = 1 ,n 对未知的参数进行估计和判断 混合分布模型在许多领域都有着广泛的应用它的一个主要应用是:当我们 要研究一个总体中的分类情况,而该分类的直接特征难以测量时,我们可以通过 研究另一容易测量且与该分类有关的特征的分布来研究它在渔业研究( 鱼的长 度可知而它的性别结构未知) ,岩石学( 一种沙石中所种植玉米大小分布可知而 沙石中不同矿物的组成结构未知) ,医学推断( 病人的临床测量可知而他们属于 哪种疾病类型未知) 中都可以找到其应用下面举一个典型的例子 例1 表1 1 给出2 5 6 条金鱼的长度频数其直方图见图1 1 图中明显有众 数5 和7 ,再迸一步有众数3 及9 i 金鱼是哪年出生的可以作为一个年龄分 类图中混合密度的不同组成密度就表征了不同年龄的鱼的长度分布混合系数 则表明了总体的年龄分布长度的分布暗含了一些难以测量特性的信息,如上面 提到的年龄及性别等我们可以通过研究长度混合分布对其它特性进行研究,比 如通过估计混合系数来估计总体的年龄分布情况 表1 1金鱼的长度频数 轰藏 2 4 1 8 1 2 6 24681 0 1 2 长度( i n c h ) 图1 1 金鱼长度频数直方图 混合分布的另一个重要应用是污染分布假设数据本应服从分布f 1 ( 。) , 但由于受到了来自分布f 2 ( z ) 的污染,则受污染的数据表现为混合分布f ( z ) = ( 1 一a ) f d x ) + a f 2 ( 。) 这里。通常我们更关心f l ( z ) ,它是数据的本来面貌, o t 称为污染系数实际中观察到的数据或多或少地受到污染,没有污染的情况, 即o t = 0 的特例是很少见的在生产制造过程中,常常由于生产条件的突变,工 2 学:。 暇町搿撒 塑。:。贼虿警妾n丽虿醒莩;。矿羹 人的误差或检验的误差,使正常产品中混入了少量劣质产品;在医学统计和试验 中,当考察正常个体的某生理指标的分布时,会混入一些患病的个体,而考察患 者个体的生理指标时,也会由于误诊混入正常个体m c k e n d r i c k 例子是一个典型 的例子 表1 2m c k e n d r i c k 问题的真实数据与拟合值 例2 m c k e n d r i c k ( 1 9 2 6 ) 研究了这样一个例子:2 0 世纪初,某印第安居住地 的居民受到霍乱的感染在该居住地抽查了2 2 3 户居民。他们被感染的情况见表 1 2 的第二行一个自然的想法是用p o i s s i o a 分布来拟合这些数据从拟合值来 看( 表1 2 的第三行) ,效果很不理想通过进一步研究m c k e n d r i c k 发现,2 2 3 户居民有部分家庭可能并未饮用带有霍乱病菌的井水,也就是说他们并没有暴 露于感染霍乱的风险中,而那些暴露于霍乱风险的家庭的感染情况也许确实符合 p o i s s i o n 分布从抽样看,可把总体分成两个子总体t 暴露于霍乱感染风险的家庭 和没有暴露于霍乱感染风险的家庭前者家庭中感染霍乱的人口数符合p o i s s i o n 分布,记其分布函数为f l ( z ) ,而后者,感染数为零,为单点分布,记其分布函 数为屁( z ) 每个抽到的个体以1 一a 的概率来自前者,以o t 的概率来自后者 这样,家庭中感染霍乱的人口数x 服从的分布为f ( ) = ( 1 一口) f 1 ( 。) + n f 2 ( $ ) 分布拟合的结果见表1 2 的最后一行,其效果十分理想 3 1 2 混合分布研究中的统计方法 p e a r s o n ( 1 9 8 4 ) 讨论了正态混合分布p c x l 妒) = r 咖( x l t - l ,口1 ) + ( 1 一 ) 庐( $ i p 2 ,0 2 ) , 其中0 0 为五个参数,用矩方法对参数进行了估 计,这就是早期对混合数据研究的开端一个世纪以来出现了大量文献,其中主 要的成果在参数估计方面,即假设f 1 ( z ) 与易( z ) 已知或其参数形式已知,对未 知的参数及权重作出估计9 0 年代以前,主要运用的是传统统计方法,这些方 法各有利弊下面简单介绍几种方法 一画图法 在计算机出现之前,画图法是进行粗略估计简单有效的方法大多数的文献考 虑的是正态混合分布和对数正态混合分布一个简便有效的方法是h a r d i n g ( 1 9 4 9 ) 提出的正态q q ( q u a n t i l e - q u a n t i l e ) 图法单变量情况下,设f ( ) 为混合分布的累 积分布函数,西( ) 为标准正态分布,画出f _ 1 ( p ) 对西_ 1 ( p ) 的二维图单一正态分 布中抽取的样本应产生一条直线,而偏离则意味着某种混合的特征通过图中拐 点的位置可估计出各成分的权重对两个正态分布的混合,f o w l k e s ( 1 9 7 9 ) 构造出 一种样本分位数关于标准正态分位数的拟合函数y = n l + 0 2 写+ 百面去兰矗硼, 其中a 2 ,a 3 ,a 4 ,a 5 0 ,他讨论了怎样估计a i 及怎样利用该函数进行混合分布 参数的估计 二矩方法 假设我们得到一总体的一个样本大小为1 2 的i i d 样本,该总体的概率模型 含r 个参数i p 设皿( 妒) 表示r 个独立矩的向量,m 为相应的样本矩向量,则参 数的估计驴满足方程 皿( ) = m( 1 1 ) 4 矩方法的原理虽然简单,但在运用时存在着许多理论上的问题如( 1 1 ) 式的解 可能不存在显式表达,解可能非唯一也可能无解,甚至解出来的值不在实际问题 的定义域内此外,通过矩方法得出的估计量不一定渐近有效虽然矩方法有诸 多的理论困难,但由于混合分布的参数估计问题实际难以找到较理想的方法, 实际例子证明,矩方法的失效较少发生,因而它仍是研究者们青睐的一种方法 d a y ( 1 9 6 9 ) 和c o h e n ( 1 9 6 7 ) 对正态混合分布,c o h e n ( 1 9 6 5 ) 对波哇松混合分布, r i d e r ( 1 9 6 2 ) 对威布尔分布,c r a i g m i l e 和t i t t e r i a g t o n ( 1 9 9 7 ) 对均匀混合分布等都 有对矩方法的详细讨论b r o w n i e ,h a b i c h t 和r o b s o n ( 1 9 8 3 ) 则考虑了正态分布和 另一任意分布的半参数模型 三极大似然法 设混合密度函数为, ) = 磷:1 ,( 。协) ,x 1 ,x 。为i i d 样本则似然函 数为l o ( v ) = h ;nl 【整1 ,( 耳l 易) 】一定条件下,使l o ( v ) 达到最大的i p 值p , 即为p 的估计,即9 满足d o l o ( 驴) = 0 对极大似然法的讨论,主要集中在三 个方面:一求p 的算法极大似然法的一大难点是型掣= 0 不一定有显式 解d e m p s t e r ,l a i r d 和r u b i n ( 1 9 7 7 ) 提出e m ( e x p e c t m a x i m u m ) 算法r e d n e r 和 w a l k e r ( 1 9 8 4 ) 将e m 算法运用到正态混合,并将e m 与m s ( t h em e t h o do fs c o r i n g ) 或n r ( n e w t o n - r a p h s o n ) 算法结合起来e m 数值算法是如今广泛应用的一种算 法;二运用极大似然法的理论可行性及性质这方面的工作可参考r e d n e r 和 w a l k e r ( 1 0 8 4 ) ,k i e f e r ( 1 9 7 8 a ) 及l e h m a n n ( 1 9 8 3 ) 的文献;三极大似然法与其它 方法的比较f r y e r 和r o h e r t s o n ( 1 9 7 2 ) 及h o s m e r ( 1 9 7 3 a ,b ,1 9 7 8 b ) 的文献得出,总 的来说,大样本情形下,极大似然法较矩方法更有效计算机的发展一定程度上 弥补了极大似然法计算的繁杂性 四最小距离法 5 最小距离法的思想很简单,即用距离来描述理论值与实际观察之间的相近 程度,选择参数估计使总体特征与样本特征最接近,距? g g t l , 设混合分布函数 用f ( i 妒) 表示,令g ( t i 妒) = e g ( t ,。) = f g ( t ,。) d f ( z l i p ) o t 及分布函数目 ) ,使得( 1 一矿) 目( 。) + f 2 ( 。) = ( 1 一d ) f l ( 。) + a f 2 ( z ) ,则称f l ( 。) 关于f 2 0 ) 在污染分布中是可识别的,简称 “目( z ) 关于f 2 ( 。) 可识别”虽然从理论上讲,可识别条件局限了讨论的范围, 但实际很多常见的污染分布问题都是满足可识别条件的 令墨1 ) sx ( 2 ) x ( 。) 为样本x 1 ,的次序统计量,r ) = ;e 翟l i ( - c o , 司( x t ) 为样本的经验分布函数,e ( o , ) ,d = 卜 + 5 】,m = 【咛1 + 1 , 8 玩= x 泓一1 ) d + 1 ) ,k = 1 ,m 在可识别条件下给出的n 的估计a 为m d z 忙 0 :( f n ( 磊) 一n f 2 ( 磊) ,k = 1 ,m 2 单调上升序列) 基于n 的估计a ,定义 n ( z ) 的估计为矗( 。) = 鼬l 尘- & 旦盥本章在同样的条件下改进了a 和矗( 。) , 并证明了其强相合性,最后作了随机模拟 2 2 主要结论及证明 对任意满足( 2 1 ) 式的o ,所有( 0 ,0 中的值同样满足( 2 1 ) 但对a a , 目缸) = 亡矿【( 1 一n ) f l ( 。) + 一0 ,) f 2 ( z ) 1 则不一定是分布函数,因此可能存在 一个最大的a 满足( 2 1 ) 定义o t 0 = m a x t 3 :f ( 2 ) 一p 易( z ) 为非降函数) ,可识 别的条件实际等价于对任意a ( 0 ,1 ) ,有n o = n ,这便是我们构造估计n 的直 接依据从密度函数意义上解释可识别性有下面引理,它也是可识别性一个简单 直观的判定定理 引理2 1 :若f 1 ( 岳) 、毋( 。) 的密度f l ( x ) 、,2 ( 岳) 存在,则f l ( z ) 满足可识 别性的充要条件是t i n f 。s ( f 2 ) 渊= 0 这里s ( 如) 表示f 2 ( z ) 的支撑集,即 f ( 最) = 扛:,2 ( z ) o ) 令序列9 ( n ) 满足譬鬻- + o o 和最奇- + 。,d = 卜 9 m ) ,m = 【咛】+ 1 , 磊= 丑佧一1 ) d + 1 ) ,七= 1 ,m 为叙述方便,下面定义两个分段函数矗( z ) 和 虎( 。) : r0当o z 1 r ( z ) = b ( 磊一1 ) 当磊一isz 级,k = 2 ,m 【晶( z k ) 当。2 r0当。 0 :r ) 一卢忘扛) 为非降函数) r ( 玩) 一晶( 玩一。) :生驾皿,:2 ,。 ( z - 3 ) a 最终可表示为 o 2 而瓦霸磊f 瓦赢n l 习g ( n j ) i i 而 n _ 1 l 令 f 。( f 2 ( 霞( z ) 当z 2 1当o 2 忌( 。) 当。 0 , 有p s u p = l v n ( f ( x ) 一f ( 茹) ) l r ) c e 一2 ” 见【2 1 】,第1 2 8 页 定理2 1 的证明: i 为证明a 。粤d ,只需证 asl i m i n f n _ + a n “m s l 【t p h _ + a n o t ,a 8 首先,如果能证得w 0 ,e 。o o :l p ( 如 口一6 ) o o ,则有asl i m i n f 。_ + o 。a 。,o s 令a 。= u :& 。 坐趔 一 2 ( a 一 ) 礼 坐2 型n f ( z k ) 一f ( z k 一1 ) 一( f n ( 磊) 一f n ( 磊一1 ) ) 2 s u p 。l f , , ( z ) 一f ( x ) 。m ) 一酬坐4 型n p ( 靠 a 一6 ) = p ( a 。) s 即刚圹酬掣) :p ( s 印胡眦m i 掣) 一叫蜊,。 1 3 上式倒数第二个不等号由引理2 4 得到 所以甚l p ( a n a + j ) = 0 采用反证法假设存在6 0 ,使得p ( 1 i m s u p n _ + o 。a 。 a + 6 ) 0 ,对 ( 1 i m s u p n _ + o o a n o t + d ) ,存在序列n 七= n k ( w ) ,使l i m k - - 0 0 0 t 。女 a + 6 当k 充 分大时,有a 。 a + ,由 赢。( z ) 一( a + ;) 岛( 。) = 矗。( z ) 一a 。岛( z ) - t - 。一一十:) 】岛( z ) 由引理2 2 和引理2 3 ,当k 叶o 。时,对每一个固定的z ,上式左边一致收敛 到f ( 。) 一( a + g ) f 2 0 ) 而等式右边是两个非降函数之和,因而其极限也为非降 函数,所以f ( z ) 一( a + ) f 2 ( 。) 也为非降函数,这与条件o t o = o t 矛盾 所以假设不成立1 i m s u p n - - + o o o t 。o t ,a , 8 i i 由 l 矗。( z ) 一f d z ) l :i ! ! f 型二垒! ! ! ! 苎! 一f ( z ) - a f 2 ( x ) i 1 一a n1 一o t 坚二型亟盟二! 剑二堕二塑匦盟二墨剑二型! 二! ! 匝堕二墨剑 ( 1 一a n ) 【1 一o t ) ! ! 二垒1 21 1 11 竺2 = ! ! 苎! ! ! ! 竺二垒! ! 垒! f ! 二1 21 要! ( 竺2 = 墨! 兰! j ( 1 酩) ( 1 一o t ) i f n ( 。) 一f ( 。) f 2 i n 一i a 。i _ 2 ( z ) 一兄( 甸i 1 o t ( 1 一a 。) ( 1 一o t ) 1 一瓯 根据引理2 2 ,引理2 3 及i 的结论,即知s u 阮r i 矗。( 。) 一f 1 ( z ) i - + 0 ,o s 1 4 2 3 随机模拟 我们对 3 1 】中的两个例子f ( x ) = ( 1 一口) 圣( $ ) + a 西( ) 及f ( z ) = ( 1 一a ) 垂扛+ 1 ) + a 垂忙一1 ) 来做随机模拟f 3 1 】中的模拟结果,是本章中9 ( n ) = 矿的特例, 为了对比,将其中部分结果一并列出表a 和表b 的第二行和第三行摘自【3 1 中的结果,第四行及第五行是我们的结果值得一提的是,我们抽取样本时,不 是直接从f ( 。) 中抽取样本x ,而是根据污染分布的实际背景,从f 1 ) 中抽取 ( 1 一a ) n 个样本,从而( z ) 中抽取a n 个样本,将这( 1 一o ) n 十n n 个样本混合, 就得到混合样本x l ,h 对o t 的不同取值和不同的样本大小,我们都重复多 次实验,m 表示重复实验次数表格内的两个数据,分别是重复实验得到的o t 的平均值和样本标准差 例3 1 :f l ( z ) = 西 ) ,f 2 ( z ) = 圣( i ) g ( n ) o t = 0 3a = 0 5a = 0 7 几o 。”50 2 9 1 9 0 0 3 1 20 4 3 7 10 0 3 8 10 5 8 4 4 0 0 4 9 1 佗u l o0 3 2 5 7 0 0 3 3 90 4 8 4 2 0 0 4 1 20 6 2 6 20 0 5 7 5 o 8 ( 1 0 9 n ) o 5 1 0 3 2 2 70 0 2 1 50 4 9 8 0 0 0 3 7 60 6 5 2 7 0 0 4 6 0 表3 1an = 1 0 0 0 ,m = 5 0 g ( n ) q = 0 3a = 0 5o t = 0 7 n 0 l u0 2 9 2 60 0 1 2 90 4 6 5 10 0 1 5 70 6 3 9 7 0 0 1 9 3 n p 叫0 3 1 8 00 0 1 0 10 4 9 7 5 0 0 1 5 70 6 8 2 10 0 1 7 7 o 8 ( 1 0 9 n ) o 5 1 0 2 9 4 10 0 1 1 00 4 7 1 2 0 0 1 4 90 6 4 5 40 0 1 8 7 l o g n 0 3 6 2 3 0 0 0 5 10 5 0 1 50 0 1 4 10 7 0 2 80 0 1 5 1 表3 1bn = 1 0 0 0 0 ,m = 2 0 j9 ( 川 口= 0 3o = 0 5o t = 0 7 0 8 ( i o g n ) ”5 1 0 2 9 0 50 0 0 3 90 4 7 5 70 0 0 7 00 6 5 8 0 0 0 1 2 9 l o g n 0 3 0 0 10 0 0 4 00 4 9 5 9 0 0 0 4 50 6 8 9 0 0 0 0 7 3 表3 1cn = 1 0 0 0 0 0 ,m = 2 0 例3 2 ;毋 ) = 垂 + 1 ) ,毋( 。) = 圣 1 ) 1 5 g ( n ) o t = 0 3o = 0 5o t = 0 7 n 1 t l b0 2 9 7 60 0 3 1 70 4 4 6 20 0 3 9 50 5 7 7 70 0 3 6 9 i u0 3 2 1 2 0 0 2 9 70 4 6 8 50 0 3 7 6 0 6 2 1 30 0 3 2 7 o 8 ( 1 0 9 n ) ”5 1 0 3 2 4 60 0 3 2 50 4 8 5 40 0 3 2 8 0 6 3 1 30 0 3 3 9 l o g n 0 4 9 8 70 0 2 7 30 5 4 7 30 0 2 4 3 0 7 0 9 70 0 3 1 5 表3 2an = 1 0 0 0 ,m = 5 0 9 ( n ) o t = 0 3n = 0 5 a = 0 7 n u i o 0 3 0 4 3 0 0 1 1 70 4 7 2 00 0 1 2 30 6 4 1 20 0 2 2 5 佗u 驯 0 3 1 4 70 0 1 4 50 5 0 5 30 0 1 8 7 0 6 8 0 60 0 1 8 5 0 8 ( 1 0 9 n ) o + 5 1 0 2 9 8 1 0 0 1 1 80 4 7 5 10 0 1 4 2 0 6 5 0 1 0 0 1 5 1 l o g n 0 3 5 6 70 0 0 8 20 5 1 3 30 0 1 4 20 6 9 8 60 0 1 3 5 g ( n ) o t = 0 3 a = 0 5 a = 0 7 0 8 ( t o g , o “ 0 2 9 5 20 0 0 5 50 4 7 8 5o 0 0 7 4 0 6 6 4 00 0 0 9 4 l o y n 0 3 0 8 50 0 0 3 0 5 0 0 90 0 0 5 0 0 6 9 4 00 0 0 6 0 从模拟结果我们可以看出一些规律一,从表a 与表b 来看,我们的结果优 于1 3 1 】的结果二,对比表a ,表b 与表c ,估计的好坏与9 ( n ) 的选择很有关 系从表c 来看,9 ( n ) 取得越大,估计越好,表中9 ( n ) = l o g n 时的结果已相当令 人满意了但9 ( n ) 取得越大,磊和z 一l 的间隔越大,有用的样本数越少,信 息损失越厉害如何找到最优的9 ( n ) 是个很困难的问题从表中的数据显示, 9 ( n ) 的最优选取与n 有关,在n 较小时与a 也有一定关系,但与岛( 。) 的具体 性状关系不大原则上来说,g m ) 只要满足笔第_ o o 和最高- + 0 0 ,则构造的 估计都是相合估计但9 ( n ) 的选取影响相合速度第三章讨论了估计的相合速 度,指出一定范围内,9 ( n ) 取得越大,相合速度越快,但相合速度的阶不会超过 ( 1 0 a n ) 因此g ( 礼) 不可能取得太大若9 ( n ) 取矿,虽然仍得到强相合估计, 但相合速度已不存在 1 6 第三章污染系数估计的收敛速度 3 1 引言 本章的目的,是进一步研究第二章中污染系数a 的估计a 的收敛速度仍 然用a 。表示基于大小为n 的样本的估计a ,我们希望能找到一个趋于零的序列 伽,使l i r a 。- + o 。,y i l i 魏一a l = 0 ,o ,即i a 。一o l | 至少有伽的收敛速度 本章沿用第二章中的记号a 。= m a x p 0 : r ( 反) 一p f 2 ( 玩) ,k = 1 ,m ) 为非降序列) ,而由可识别的定义,有 o t = o t 0 = m n z 卢 0 :f ( x ) 一屈b ( z ) 为非降函数) a 。与o t 形式相同,且r ( z ) 相对于f ( x ) 有一定的收敛速度但a 。是对一个有 限长序列取最大值,n 却对连续直线上的点取最大值如何找出二者相近的速度 呢? 我们定义了一个中间序列a := m a x p 0 : f ( 玩) 一卢f 2 ( 反) ,k = 1 ,- ,m 为非降序列) ,分别研究f 如一簖f 和f 一a f 的收敛速度,从而得到f 靠一a f 的 收敛速度 3 2 主要结论 n :与a 。都对同样长度的序列取最大值,f a 。一a :i 的收敛速度可能与j f n ( 。) 一 f ( z ) i 的收敛速度及磊间的问距有关为证明我们的主要结果,需要如下三个引 理 引理3 1 :( s m i r n o v1 9 4 4 ,c h u n g1 9 4 9 ) 假设f ( x ) 连续,设r ( $ ) 为f ( x ) 的经验 分布函数,则 胁s u p n - + o o ( 去) 5 s 嘞一眦) _ f ( 圳_ 1 们 见f 2 i j ,第1 5 7 页 1 7 根据引理3 1 ,我们找出i a 。一a :f 的收敛速度,即下面的引理3 2 引理3 2 :令a := m o z 妒 0 : f ( 磊) 一3 f 2c z k ) ,k = 1 ,m 为非降序列) , ( 。) 2 趋 t - o 。的慢变函数,h = ( z 叼f d g n ) i 1 ( n ) g ( n ) ,则 l i r a 。_ 。1 i 1i a 。一n :l = 0 ,a 8 给定g ( n ) ,存在h ( n ) 使h _ 0 , ( n ) 趋于。的速度越幔,h 趋于零的 速度就越快,i a 。一a :l 收敛速度就越快但是a :一a i 是否也能达到的收敛 速度呢? 在一定条件下答案是肯定的下面的引理3 3 需要可识别性的判定条件 i n ,;s ( f 2 ) 渊= 0 ,见第二章引理2 1 引理3 3 :o t 、a :、定义如前, ( z ) 与,2 ( z ) 分别为分布函数f 1 ( 。) 、 f 2 ( $ ) 的密度函数,其中f 2 ( z ) 是严格单调上升的选择h ( n ) 使得当n - 。时 斗0 且7 n l o g n _ o 。 假设1 。存在z 。月,使得甜碧= 伽,。躺= 0 ,且躺是l i p s c h i z 连续 的; 假设2 。i , f f 。躺仅在z o = 十o o 或一o 。或士o o 达到,且存在m 0 ,c l 0 ,c 2 0 ,2 使得黼,且当。 m 时f 2 ( 。) 的尾巴概率p 2 ( i y i 。) = 1 一昂( z ) + 乃( 一。) 2c l e 一。z ”,这里y 的分布函数为毋( z ) 在假设1 。或2 。成立时,筲1 i a :一d 譬0 ,( n 叶o 。) 这里勰要满足的条件是合理的,许多常见的污染分布都满足,如容易验证 正态混合及指数混合都满足2 。有了引理3 2 和引理3 3 ,再注意到p ( 筲1 f a n a i e ) p ( t z lj 魏一以j ) + 尸( 筲1j 以一o tj ) ,立即得到本章主要定理 1 8 定理2 :设9 ( n ) 与_ i l ( ,1 ) 满足引理3 2 及引理3 3 ,则l i m n - 0 0 筲1 i 如一口l = 引理3 3 中要求l o g n _ o 。,可见 i n 的阶不会太高,不超过( t o g n ) 一 7 n 的形式繁杂,为直观起见,我们举一个例子选择9 m ) = l o g n ,则笔鬻_ o o 且 尚一+ 。,令 ( n ) :( 1 0 9 f 卵竹) ,o 2 6 ) = 0 用反证法令a = l i r a 。- + 。筲1 l a 。一畦i 2 6 ) ,假设存在d 0 使p ( a ) 0 ,则 对u a ,当n 足够大时, 1 i 1 i a 。一n :l 6( 3 1 ) 由引理3 1 ,可推出 l i m , - , , o o i _ 三等万8 啦r i r ( z ) 一f ( x ) i = 0 f ( x ) i , 而面丽8 啦6 r 州叫一3 “8 从而当n 充分大时,有 服- f ( 刮 。因此对 u a b ,当n 充分大时,( 3 1 ) 、( 3 2 ) 成立由( 3 1 ) ,得 或 以一d a 。 a 。一6 h 吐 1 。若( 3 3 ) 成立,由a 。的定义,存在2 和m 之间的正整数k ,使得 则 ( 3 3 ) ( 3 4 ) r ( 磊) 一f ( z k 1 ) 一( a :一6 ) 【f 2 ( 磊) 一f 2 ( z k 一1 ) 】 华掣 r ( z k ) 一r ( z k 一1 ) :丝必 ( 3 6 ) f ( z k ) 一f ( z k 一1 ) o 。i z ) 一f 2 ( z k 一1 ) 】 ( 3 7 ) i f ( 磊) 一f ( z 七一1 ) 一 r ( 磊) 一r ( 磊一1 ) 2j f 2 ( z k ) 一f 2 ( z k 1 ) 】 掣 一j(togtoan);h(n)丛必 9 ( n ) n 再注意到( 3 2 ) ,有 5 ( 1 0 9 l o g n ) ( n ) 2 n f ( 磊) 一f ( 磊一1 ) 一【晶( 磊) 一f n ( 玩一1 ) 】 掣1 掣 即扣掣因为南( 。) _ 十o 。,当。充分大时,上不等式显然不成立这 与假设矛盾 2 。若( 3 4 ) 成立,由a 。的定义,有 f n ( 玩) 一凡( 磊一1 ) a n f 2 ( z k ) 一f 2 ( z k 一1 ) 】,2 k m 所以 f 2 c z k ) 一e 2 ( z k 1 ) s f n ( z k ) _ - - f n ( z k 一_ 1 ) a n 注意到a 。 一一5 ( 1 0 9 l o g n ) h ( n ) + 业唑芈1 型拦剑 一 2 扎i9 ( 扎j 竹 = 华蒙 。咖脚堋 0 ,2sk m 这与a :的定义矛盾 2 1 掣 因此假设不成立,引理得证 i 引理3 3 的证明: 。:。伊:f ) 一p f 2 。) 为非降函数,= l n ,。r 簧笛 o :m n z 卢:f f ( 磊) 一# f 2 ( z k ) ,k = 1 ,一,m ,为非降序列) = m t m ;( z k ,) - f ( z k ,- 1 ) 矿= 2 ,m )2 ”“,i 一“”u 由柯西中值定理,存在磊一1 0 ,令= 禹,假定1 。下, 即存在l o ,i 删一渊l h = d 0 一n e 1 h c 器一器 “艇m m ) = 勰f 2 ( 。k 一渊hc x o 禹1 训哪m ) 一 、) 7 一口”。”一j = 锱一揣 m 。t m )一i ,2 ( 缸) ,2 ( z o ) 7 。”。2 j c l l 靠一x o i e 1 h ,2 m ) = i 靠一。o ,2 s m ) 若存在使f h z o f 。+ 1 ,注意到 z 1s 如玩磊。一1 靠o 嚣,k = k o 一1 ,k o + l 中,更包含在事件 i 置一2 0 i “伽,x i 罾( z k 。一l ,磊。+ 1 ) ,i = 1 ,n ) 中而 p ( i x i z o i c ,j 掣( z k 。一l ,z i 。+ 1 ) ,i = 1 ,1 ) ) = p ( i x i x o l c e m ,溉掣( 盈( 。一2 ) d + 1 ) ,x ( k 。d + 1 ) ) ,i = 1 ,一,n ) ) p ( m - 3 ) 4 ( 引x x o l c e ) ) 因此, p ( “靠一茁o i 芘h ,2 k m ) ) p ( m 一3 ) 4 ( i x z o l ,) ( 3 8 ) 如果不存在使“。 x o 酷伽,置| z 2 ,z m ) 剩下一种情况是z o 靠,这时有 i f k z o i c e h ,2 k m ) c i 砥一x o i c e l h ,x i ( z l ,z m l 】) 对以上两种情况,易得( 3 8 ) 式同样成立 当n 充分大时,可以推出( m 一3 ) d 因此, p i 器诵f ( x 训o ) i e ) p ( m - 3 ) 4 ( i x 一$ o i h ) p ( i x 一。o i c e ,h ) = 【i p ( z o c e y n 0 ,对任意z ( x 0 1 ,x 04 - 1 ) ,有,2 ( z ) m 0 注意到_ + 0 ,因此 当n 充分大时,有( x 0 一c e 3 n ,x 04 - c e t n ) c ( x 0 1 ,x 04 - 1 ) ,所以,2 ( 一) m 从而 f ( x ) = ( 1 一a ) f l ( x ) + o 丘( 一) a m 又因为当n 充分大时,有2 c e ,y n ,( 一) ) ) 【1 2 c f n f ( x ) 】 e “n o 盯h ” e - - c e o 。m ” “_ 。) ) = 。 令x 的分布是f ( x ) ,y 的分布为f 2 ( z ) ,在假设2 。下,可以推出 s p ( 渊- - i n ,。器 禹钳t sm ) = p ( 勰 z m m ) p ( 糕 e ) s p ,2 f d ( 6 靠“) ) e 伽,k 。l m ) + p ( 1 m l m ) = p ( 1 知 ( ) 一 ) 十p ( i m ) p ( i x i 0 ,$ r 因此p ( i x j m ) 0 ,从而p ( i x l m ) 1 ,所以黑1 p ( 1 x i m ) ( s ) 一o ) 】2 = 卜a p 2 ( i y i ( s h ) 一 ) j 2 e 印 一;n 马( 1 y i ( e 伽) 一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论