(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf_第1页
(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf_第2页
(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf_第3页
(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf_第4页
(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(概率论与数理统计专业论文)有限正态混合模型的参数估计与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 混合模型的历史可以追溯到约1 0 0 年前的k p e a r s o n 时代第一篇关于混合模型 的论文是k p e a r s o n ( 1 8 9 4 ) 用矩估计方法来估计如下两成分正态混合模型的参数: ,( z ,7 r ,p l ,6 1 2 ,口1 ,c r 2 ) = 7 r 妒( z ;p l ,盯;) + ( 1 一丌) 妒( z ;如,仃;) 对于上述模型的5 个独立参数,p e 盯s o n 给出了5 个矩方程,然后通过求解这个方 程组,得到参数的估计值 有限正态混合模型无疑是最重要的一类混合模型几乎可以说,正态混合模型的 发展历史其实也就是混合模型的发展历史比较有趣的是,关于正态混合模型,个 最基本的统计问题,即如何估计模型中的参数,一直未得到圆满的解决 p e a u r s o n ( 1 8 9 4 ) 提出的矩方法需要求解非线性方程组,并且模型的阶数( 成分数) 越高,方程组越复杂,计算上非常困难随后的理论研究更指出,从渐近性质来看, 矩估计不如极大似然估计 但d a y ( 1 9 6 9 ) 指出正态混合分布的似然函数无界,这为极大似然方法的应用投 下了阴影到目前为止,统计学家通过对参数空间添加约束,使得似然函数在约束的 参数空间上有界,来对付d a y ( 1 9 6 9 ) 指出的问题但这些方法在应用时并不能保证 约束后的参数空间一定包含参数真值 我们将用基于惩罚似然函数的方法讨论正态混合模型的参数估计不改变参数 空间,而是通过对似然函数添加一个惩罚项,来消除似然函数无界性的影响,从本质 上避免了约束参数空间方法的不足但如何找到合适的惩罚项,并证明所得的惩罚最 大似然估计( p m l e ) 有理想的性质,则一直没有进展 c i u p e r c ae ta 1 ( 2 0 0 3 ) 声称 找到了合适的惩罚函数,并能证明所得的p m l e 的强一致性以及渐近正态性但我 们发现,他们的证明中有本质的错误 通过分析d a y ( 1 9 6 9 ) 指出的似然函数无界的现象,我们发现,理解这个问题的 关键在于估计当盯很小时, s u p 舟 :o k 一目 口 i 摘要 的大小我们证明了,在一个与一无关的零测集外,当n 一。o 时,总有 。州训 卜礼酬) 曼| 4 ( 1 昭n ) 2 叭蜓击 。 l8 + 8 且f n 盯i l o g 盯f ,击 盯 旬 其中m ,c o 是正常数这是本论文第个主要结果 在这个估计的基础上,我们证明了,当惩罚项 p ( g ) 一n 1 ( 善参蜒( o ,1 】e 2 l 。 时,惩罚似然函数的最大值点( p m l e ) 是模型参数的强致估计,也是浙近正态估 计,并且渐近效率为1 这是本论文第二个重要结果,据我们所知,这是一个首创性 的结果 我们进一步发现,在s u 非o :o 五一口 i 口1 0 9 ( 口) 1 ) 的估计的基础上,我们 可以判别什么样的惩罚函数是合适的,从而可以设计出新的惩罚函数作为特例,戎 们提出了如下的惩罚函数: p ( g ) 一n ( 蚤麦) 善固,吒( 0 1 这个惩罚函数下得到的p m l e 不但仍有强一致性以及渐近正态性( 渐近效率为1 ) , 而且还是位置尺度变换下的同变估计这是本论文第三个主要结果 正态混合模型的应用非常广泛,我们相信,本论文的理论成果将有巨大的应用潜 力作为示例,我们分析了一组来自分子生物试验的数据 关键词;有限混合模型,正态混合模型,可识别性,e m 算法,极大似然估计,惩罚 极大似然估计,同变估计,b e r n s t e 血不等式,w d 方法,强一致性,渐近正态性 学科分类号:0 2 1 2 _ 5 a b s t r a c t t h eh i s t o r yo f6 n i t em 没t u r em o d e l sg o e sb a c kt om o r et h a no n eh u n d r e dy e a r s a g o ,t h et i m eo fk a r lp e a r s o n t h ef i r s tc l a s s i cp a p e ro nm i x t u r em o d e ld u et o p e a r s o n ( 1 8 9 4 ) ,p r o p o s e dt h em o m e n tm e t h o dt oe s t i m a t et h ev a r i o u sp a r a m e t e r s i nt h ef o u o w i n gt w 伽c o m p o n e n tn o r m a l1 1 1 i ) ( 乞u r em o d e l : ,( z ,7 r ,口l ,如,以,c r 2 ) = 7 r 妒( z ;p l ,盯;) + ( 1 7 r ) 妒( z ;如,透) f o rt h e 丘鹏p a u r 锄1 e t e r si na b o v em o d e l ,p e 卸s o n sm e t h o dl e a d st o 丘v en o n l i n e a u r m o m e n te ( 1 u a t i o 璐a n dt h es o l u t i o 璐0 ft h e 8 ee ( 1 u a t i o 璐a r et h em o m e n te s t i m a t o r s o ft h e s ep a r a m e t e r s f i i l i t e1 1 0 r m a lm i ) ( t u r em o d e l sa r eo b 啊o u s l yt h em ti m p o r t a n to n e s 锄o n g a uf i n i t ei i l i x 七珈呛m o d e l s :e b u g 勘峨w ec a n8 a yt h a tt :b el l i s t o f yo f 矗n i t em i 斌u r e m o d e l si sju s tt h eh i s t o r yo f6 n i t en o r m a lm i ) ( 七u r em o d e l s h 帆伧v e r ,o n eo ft h e m o s te s s e n t i a l l yb a s i cp r o b l e m s h o wt oe s i m a t et h ev 甜i o u sp a r a m e t e r so ff i n i t e n o r m 越m i 斌u r e sr e a s o n a b l y _ i ss t i l lu i l s o l v e d t h em o 功【e n tm e t h o dp r o p o s e db yp e 踟篙o nn e e d st os o l v eas e to fc o m p l e xn o n - 1 i n e a re q u a t i o 璐w h i c h ,i ng e n e r 址,i sc o m p u t a t i o n a :u yi b a s i b l e f 恼t h e r m o r e ,s o m e t h e o r e t i c 址r e a r c h e si n d i c a t et h a t ,a 玛,m p t o t i c “i y e s t i m a t o r 8b a s e do nm a 函i n u m l i k e h h o o da l r es u p e r i o rt ot h o s ed e r i v e df r o mt h em o m e n tm e t h o d h o w e v e r ,d a y ( 1 9 6 9 ) p o i n t so u tt h a tt h el i k e l i h o o df u n c t i o no fn o 珊a 1m i x - t u r e si su n b o l l n d e d0 v e rt h ep 孙a m e t e rs p a u c e ,w l l i c hm e a n st h em 越m u m1 i k e l h o o d e s t i m a t o rd o e s1 1 0 t 商8 ti n d e e d t l l i sf 如tc a s ts h a d o wo nt h ed i r e c t 印p l i c a 血o n o fm a 硒m 1 1 mh k e l i h o o dt on o r m a l lm i 贰u r 昭i no r d e rt o8 0 l v et h i sp r o b l e m ,s q m e s t a t i s t i c i a 璐p r o p o s et oc o n s t r a j n t h ep 缸a m e t e rs p a u c es ot h a t t h el i k e l i h o o df u n c t i o n i sb o u n d e do nt h er e 8 t r i c t e dp a r a m e t e rs a p c e h o w r e v e r ,t h e r ei 8ac o m m o nd r a 卅 b a c ki nt h e i rm e t h o d s :t h e r ei sn og u r a n t e et om a k es u r et h a tt h et r u ep a r a m e t e r i si n c l u d e di nt h ec o n s t r a j n e dp 盯a m e t e rs p a c e s 1 l l a s t i t a c i 、 w ep r o p o s et h er n e t h o db a s e do np e n a l i z e dl l i 难l i h o o dt oe s t i m a t et h ep a r a i n e c e r so f6 i l i t en o r m a lm i x t u r em o d e l s ,w h i l ew i t h o l l ta l t e r i n gt h ep a r a m e t e rs p a c e t h em 越nn l e r i to ft h i si d e ai st h a ti tw i l ln o t “t e r 乞h eo r i g i l l a lp a r 锄e t e rs p a c ea n d t m s i o dt h er i s k1 1 1 e n t i o n e di nt h el a s tp a r a g r 印hh o w e v e r ,t h e r ei sn ob r e a k 一 恤r o u 曲i n 矗n d i i l ga na p p r o p r i a t ep e n a l t ya n dv e r i f y i n gt h er e q u i r e da s y m p t o t i c p r o p e r t i e so ft h ec o r r e s p o n d i n gp e i l a l i z e dm a 血m u ml i k e l i h o o de s t i i n a t o r ( p m l e ) c i u p e r c ae ta i ( 2 0 0 3 ) c l a i m e dt h e yh a v ep r o v e d 乞h a tt h ep m l e w a ss t r o n g l yc o n - s i s t e n ta n da sac o n s e q u e n c yw a sa s y m p t o t i c a ln 叫m a li fo n l yt h ep e h a l t yt e r m s a t i s f i e dc e r t a i nc o n d i t i o n s a w e v e r ,w ef o u n da ne s s e n t i a le r r o ri nt h ep r o o fo ft h e d i v o t a lt h e o r e mi nc i u p e r c ae t 址,( 2 0 0 3 ) ,w h i c hm a k e st h i 8p 印e re i l t i r e l yw r o n g a 代e ra n a l y z i n gt h ep h e o m e n ap o i n t e do u tb yd a y ( 1 9 6 9 ) ,w eb e l i e v et h a tt h e k e yt os 0 1 v et h ep r o b l e mi st oe x t i m a t e 七h ea i i l o u n to f s u p 社 i :o 墨一口 l 盯l o g ( 盯) 1 ) f o rs i n a u 仃w ep r d v et h a t ,e x c e p tf o raz e r o - m e a s l l r es e ti n d e p e n d e n t0 f 仃,a n d 咿爪帅酬,砖:恻,i 妻; 口iq lq j ,r i 曼一,r b a s e do nt h i se s t i m a t e ,w ec a np r o v et h a t ,i ft h ep e n a l t yf u 眦t i o ni ss e tt ob e 烈g ) 一n 1 ( 若嘶( 0 ,1 ,k = 1 乞h ep m l ei sa8 t r o n g l yc o n s i 8 t e n t 嘶i i n 且t o rt ot h eg e n u i n ep a r 锄e t e r ,a n di ti sa 】s 0 f u r 七h e 珊o r e ,o n t h e b a s i s o f t h ee s t i m a t e o f s u 轷 i :o 2 时,l r t 渐近收敛于个截尾高斯过程的上确界,而不再有w i l l ( 8 ( 1 9 3 8 ) 中那样的简练优美 的结果 事实上,对于一般的混合模型,而不仅仅是上述的混合二项分布,类似的检验 问题( 即:检验样本是来自单一总体还是混合总体) ,都会碰到边界现象以及识别性问 题,从而导致一些经典的统计结果不再适用,可以说,这两个现象是混台模型许多特 殊性质的根源在这里,特别值得一提的是c h e n ( 1 9 9 5 ) 中的结论,c h e n ( 1 9 9 5 ) 指 出当成分数未知时,混合模型的参数估计的收敛速度最多只能是n 一 阶的,而不是 当成分数已知时可以达到的n i 阶 1 1 2 混合模型的应用 混合模型的特殊性质引发了许多深刻的理论问题,并吸引着理论统计工作者的 兴趣而另一方面,混合模型的巨大应用潜力则进一步推动了相关理论的研究混合 1 1 一般混台模型 7 模型的应用非常广泛,究其本质,是因为混合模型提供了一种灵活方便且更贴近现实 的建模方法以下我们列举4 个例子 例1 鱼的体长分布与鱼年龄( 或性别) 结构 生物学家往往对某个水域的鱼群的年龄( 或性别) 结构感兴趣,但测量鱼的年龄 ( 或性别) 很不容易,相对而言,测量鱼的体长则简单得多如果不同年龄( 或性别) 的鱼的体长有不同的分布特点( 事实上正是这样) ,则未按年龄( 或性别) 分类的鱼的 体长的分布是一个混合分布,这个混合分布的混合律g ( ) 则指示了鱼群的年龄( 或 性别) 结构 鱼群研究可以说是混合模型的一个经典的应用领域,相关的文章很多,如h a l l ( 1 9 8 1 ) ,c a s 8 i e ( 1 9 5 4 ) ,m a c d o n a l da dp i t d l e r ( 1 9 7 9 ) 以及h o s m e r ( 1 9 7 3 ) 例2 蛋白质电泳( e 1 e c t r 叩h o r e s i s ) 电泳指带电粒子在电场中向与自身带相反电荷的电极移动的现象由于不同类 的蛋白质分子质量不同,或带有不同的电荷,在合适的电泳环境里,同类蛋白质将以 相同的速度向相同的方向移动,不同类的蛋白质的有不同的运动速度从而可以通过 电泳把某种蛋白质混合物中的不同类的蛋白质分离出来这样,蛋白质电泳后能得到 一个图形:其横轴是与初始位置的距离,指示着不同的蛋白质种类,纵轴是蛋白质的 聚集度 由这个图形分析出蛋白质混合物中蛋白质的种类以及所占的比例是电泳的主要 目标之一很自然地,这个图形可以看作是一个混合模型的概率密度,从而上述问题 可以转换为一个用混合模型拟合分布密度的问题 关于应用混合模型分析电泳数据的文献也较多,如n o b l e ,h a 冰8a n de d e n ( 1 9 5 9 ) 以及n a s e ra n ds 1 l z l l k i ( 1 9 6 6 ) 例3 切换同归( s w i t c h i n gr e 掣e s 8 i o n ) g 0 l d f e l da n dq u a n d t ( 1 9 7 3 ) 讨论了如下的处于不均衡状态的住房市场模型: i y 一妒e + 、 ie 一( o ,矿) 其中x 是解释变量,y 是新住房的开工量,数据按月统计 不均衡分两种情形:供大于求( 卖方市场) 和供不应求( 买方市场) ,在不同的失 第一章概述 衡状态下,目的值应该不同,即认为,在供大于求时,日= 9 1 ,而在供不应求时, 目= 如但某个月究竟处于哪种不均衡状态是不容易测定的,而如果为简单计,进一 步假定各月的失衡状态( 随机变量) 是相互独立的,则我们事实上遇到了如下的一个 混合模型: n ( j 亭仉,一;) + ( 1”) ( x d 。一;) 当然,更符合经济理论的情形是,各月的失衡状态不是独立的,比如假设服从一 个马氏链,这种情形在b a u ma n de a g o n ( 1 9 6 7 ) 有过考虑 上述切换回归模型另一个典型的应用场合是市场营销( m a r k e t i n g ) 中的市场细 分( s e g e i n e n t a t i o n ) 研究在市场细分问题中,y 表示个体对某商品的消费量,x 是解释变量,但如果还有潜在的影响y 的变量没有被考虑到,或无法观测,例如, 个体的性别会影响y 但没有放到x 里,则我们也得到了一个切换回归模型 例4 遥感( r 1 0 t es e n s i n g ) 在农业资源诃查中,人造卫星遥感数据被用来估计不同作物的种植面积收集 遥感数据的大致原理是:人造卫星接收到地面上辐射的电磁波,地面上每个区域电磁 波的能量被分解到四个波段,这些区域最后对应到卫星图片的某个或某些象素点 通常,某些区域( 已知植被覆盖情况) 的数据被用来作为参照,用来估计未知区域的 作物情况这样,未知区域的的数据可以看作服从个混合模型,而混合律则指示了 各种作物在那个区域的覆盖比例应用混合模型于遥感数据分析的文献有:1 恤b s a dc o b e r l y ( 1 9 7 6 ) 和s c l o v e ( 1 9 8 3 ) 等 t i t t e r i n 对o n ( 1 9 8 5 ) 中有一个关于混合模型应用的列表,从那里可以看到,在那 个时期,混合模型的应用领域就已经包括了医药、渔业、遗传学、医药,经济学、心 理学等等,而l a n d ( 2 0 0 1 ) 则总结了混合模型在社会学中的应用 1 1 3 混合模型的分类 一般根据混合模型中子成分的分布型来对混合模型进行分类,我们仅列出常用 的几类混合模型 离散分布的混合 顾名思义,这类混合模型中的子成分的分布都是离散型的,最常用的是离散二项 1 1 一般混合模型 9 分布和离散泊松分布,就象单一的二项分布和泊松分布是离散分布中最重要的一样 p 成分混合二项分布的定义如下: p p ( z ;7 r ,目) = 尸f x = z ) = 町弓( z ;岛) ,z = o ,l ,2 ,m , j = 1 其中弓 ;毋) = ( :) 鳄( 1 一如) ,o 臼1 易 1 , o 巧 1 ,j = 1 ,妒容易看到,其子成分的分布为二项分布b 泓,岛) ,j 一1 ,p t e i c h e r ( 1 9 6 3 ) 考虑了混合二项分布族的可识别性,他指出,仅当m 芝2 c l 时,上述混合二项分布形成的分布族是可识别的,或者说,由不超过 学】个成分 混合得到的混合二项分布族是可识别的c h e r n o f f ( 1 9 9 5 ) 以及l e m d n ia n dp o n s ( 1 9 9 7 ) 应用混合二项分布讨论遗传学中的问题 p 成分泊松分布的定义如下: p f x 其中毋( z ;砖) = ! 。 ,o a 1 k ,o 吩 1 , j 一1 ,p 容易看到, 其子成分的分布为泊松分布p o ( a ,) ,j = 1 ,p 混合泊松模型最典型的应用是在保险学中比如,在分析诸如汽车保险中的事 故次数时,用混合泊松分布来刻画事故次数的分布规律非常合适,并且混合模型各 参数有符合现实的解释;即投保人群事实上是不同质的,某些人的事故率比另一些 人要高( 或低) 得多,而对于同质的人群,其事故发生数很自然地可以用单一泊桧分 布来描述,在无法对投保人群分类时,用混合? 自松模型来描述总投保人群的事故发 生次数则是非常自然的选择在保险学中,混合泊松模型也常被称为复合泊松模型 ( c o i i l p o u n dp o i s s o i lm 。d e i ) t e i c h e r ( 1 9 6 3 ) 指出,有限混合泊松分布构成的分布族是可识别的关于混合泊 松模型可以参考h a s s d b l a d ( 1 9 6 9 ) ,k “sa n dx e k 出a k i ( 2 0 0 1 ) 等 连续分布的混合 单一连续分布中最重要的,也是应用最广的自然是正态分布,同样的,正态混合 分布是混合连续分布中最重要的模型正态混合模型的定义以及性质将在下一节介 绍,在这里,我们介绍另一种常见的混合连续模型:混合指数模型, b扛弓q ,博 i f 1 z 1 ( )第一章概述 单一指数分布是我们常见的分布型,在可靠性理论中常用于描述系统失效时间 的分布规律而在更现实的情形下中,系统的失效往往不是仅由某一种原因造成的, 而是有许多类型的原因,d a v i s ( 1 9 5 2 ) 指出,大多数系统的失效是人员和设备的原 因综台造成的不同的原因,由于发生的频率不同,会对应不同参数的指数分布,因 此,用混合指数模型来描述系统失效时间会更合乎现实 有限指数混合分布密度的定义如下: ,( z ;7 r ,卢) 壹q 去。南 o ) j = l 一 ,0 巧 o ,2 l 凡= l t e i d l e r ( 1 9 6 3 ) 证明了,由有限正态混合分布构成的分布族是可识别的 与正态模型在单分布模型中的地位相似,正态混合模型可以说是最重要的混 合模型其应用非常广泛,比如上一节我们所提到的4 个例子,就都是正态混合模 型的应用 正态混合模型有许多特殊的现象,我们以两成分正态混合模型为例,列举以下三 个方面的特征 分布密度的图形 下面给出两个两成分正态混合分布密度的图形: 以上说明,两成分正态混合分布的密度并不一定是双峰( 或单峰) 的事实上,我们 1 2第一章概述 卜j 川 f ; f 图12 左:o 7 ( o ,1 ) + o 3 ( 15 ,o 3 )右:o 8 5 ( o ,1 ) + o 1 5 ( 2 ,o 5 ) 知道如下结论:当1 日1 一如i ;瑟时,存在z ( o ,1 ) ,使得正态混合密度的图形是双峰的 似然函数 设独立同分布的样本x ,来自某一两成分正态混合分布,0 :g ) ,关于混 合律g 的对数似然函数的定义如下: z 。( g )7 r ) 妒( 五,如,如) ) 若令目l x l ,口1 _ o ,则有2 。( g ) _ o 。 这说明似然函数k ( g ) 在参数空问上无界,从而不存在最大值这意味着,在参 数空间9 上。关于g 的最大似然估计m l e 不存在这个现象最早由d a y ( 1 9 6 9 ) 明 确指出 似然比统计量 h a r t i g a n ( 1 9 8 5 ) 讨论了如下检验问题: 日o :( o ,1 ) h 日1 :7 r ( 0 ,1 ) + ( 1 一丌) ( 曰,1 ) 若使用似然比统计量 a 。= 2 ( s u p f 。( 丌,口) 一f 。( o ,1 ) ) 畦r 、”f 0 ,1 1 + 盯日托 妒何昭 。日 l3 文章安排 作为检验统计量,其中 f 。( ,目) = l 。g 7 r 妒( x 。,o ,1 ) + ( 1 一”) 妒( 五,目,1 ) l = 1 h a r t 培a n ( 1 9 8 5 ) 证明在乇成立时,以下结论成立: a 。三o 。当n _ o 。 并猜测, 。= o ;( 川两1 i 香五) ,后来b i c k l ea n dc h e r n o f f ( 1 9 9 5 ) 以及l i ua n ds h a 0 ( 2 0 0 4 ) 证明了( 1 0 9 l o g n ) 一a 。的渐近分布是个极值分布 这是个非常有趣的事实,它说明,即使对于如上的最简单的关于正态混合模型成 分数的检验问题,其似然检验统计量的性质也是非常复杂,非常不寻常的, c h e na n dc h e n ( 2 0 0 3 ) 进一步考虑了h a r t 培a n ( 1 9 8 5 ) 问题的如下推广:检验 上而:( 口,盯2 ) h 皿: 7 r ( 口l ,矿) + ( 1 7 r ) ( 如,盯2 ) 其中方差口2 未知c h e na 丑dc h e n ( 2 0 0 3 ) 证明了,当一m 目,口1 ,如 m 喊 l r t 依分布收敛于某个截尾高斯过程的上确界 上述所列的现象说明,正态混合模型有其特殊性质,应用经典统计理论时需要注 意是否适用 1 3 文章安排 本论文后续各章节的安排如下t 第二章是后面各章的铺垫在那里,我们界定了本论文要研究的问题,然后简单 回顾了几类研究方法,其中包括了我们将使用的基于似然的方法鉴于e m 算法以 及w a l d 的极大似然估计理论在本论文中的重要性,我们在这一章里对这两个内容做 了必要的阐述对c i u p e r c a ( 2 0 0 3 ) 工作的介绍与评价放在了这一章的最后一节里 为了能把主要的思想叙述得更清晰,我们在第三章仅讨论两成分正态混合模型 的p m l e 的性质在那里,我们先对问题做了个全新的分析,揭示出使似然函数 无界的本质原因,从而指出突破的关键在给出一个关键引理后,我们基于w a l d 定 理的证明思想,证明了一种p m l e 的强一致性 第一章概述 第四章讨论成分数p 大于2 时p m l e 的性质,我们将看到,直接运用第三章的 方法,就可以证明出一般p 之下p m l e 的一致性在本章的最后一节里,我们讨论 了p m l e 的渐近正态性及其渐近效率, 第五章包含了本论文的第二个主要结果,我们提出了另一种惩罚方法,使得所得 到的p m l e 具有位置尺度变换下的不变性,并同时保持强一致性以及渐近正态性 在那里,我们还指出,这个新的惩罚项不满足c l u p e r c ae t 猷( 2 0 0 3 ) 里的惩罚项必 须满足的约束,这进一步表明c i u p e r c ae ta 1 ( 2 0 0 3 ) 的证明是错误的 最后章先讨论了计算方面的问题,我们发现,e m 算法同样适用于求p m l e , 随后我们给出了一些模拟结果,以印证理论分析作为新方法的一个应用,在最后一 节我们分析了一组来自分子生物试验的实际数据 在后记里,我们指出了一些值得进一步研究的工作 第二章有限正态混合模型的参数估计问题以及研究现状 本论文讨论的是成分数已知的一元正态混合模型的参数估计我们在第一节里 清晰地界定了要研究的问题,并明确了相关记号后面各节分别介绍这个问题的研究 历史、现状我们的方法将是基于最大化惩罚似然的,因此在本章里,我们也介绍了 最大似然方法的相关内容,如:e m 算法、w 甜d 的m l e 理论在本章最后,我们 评述了c i u p e r c ae ta l ( 2 0 0 3 ) 的工作,他们和我们考虑的是同个问题,但我们将指 出,他们的工作中有严重的错误,这导致他们的结论无效 2 1 有限正态混合模型的参数估计问题 我们考虑有p 个成分的正态混合分布,并假设p 是已知的,这个正态混合分布 的分布密度函数为: 其中 ,( e g )妒( z ;口,盯) d g 吣仉) = 去唧卜掣_ 1 卯 是正态分布密度, ( 2 1 ) 是正态混合分布的混合律特别地,我们还假定如果i 则( 吼,矾) ( 如,q ) ,这 样,保证有p 个不同的成分,从而避免参数的不可识别性 以后我们把混合律g 视为正态混合模型的参数,并定义如下的参数空间: 9 = g 1 5 1 一o 。 一 盯 靠 一 p r【 r巩 ,h g l = 矾 , 0 矾 n , l 一 臼 hn , 1 6第二章有限j f 态混合模型的参数估计问题以及研究现状 对应于上述混合律g 的组成的集合9 ,我们可以定义如下3 p + 1 维空间: 9 = 卜钆,队吣喜一,一。 咏。 并且若i j ,则( 以,晚) ( 町,如) ) 、 其中“_ ”表示字典序,即 ( 口。,_ ( q ,岛) 甘口。 或吼一o ,仇 0 容易看出,混合律组成的空间g 与印+ 1 维向量空问e 有着对应的关系 以后,在不引起误会的情况下,对于 中的元素,我们也记为g 假设我们已得到一组独立同分布样本 p x ”m ;g 。) = 丌0 妒( ,) ,g o g , = 1 其中g 0 未知,我们的目的是:根据样本墨,j ,竹估计g o ,或等价地,估计( 丌0 k ,) ,k = 1 ,p 正态混合模型的参数估计问题最早由p e a r s o n ( 1 8 9 4 ) 提出,这也是第一篇关于混 合模型的文章现在,正态混合模型的参数估计依然吸引着统计学家的注意,一则是 由于正态混合模型的应用价值,另一则是因为它引出了特殊的理论上的问题 2 2 现有的方法及评述 目前对于正态混合模型参数的估计的方法可以分为五类; 1 图形方法 在计算工具缺乏的时期,图形法是重要的统计分析手段,而在计算技术发达的现 在,图形方法也仍是重要的辅助手段,常用来对模型的参数做一个粗略的估计 在估计正态混合模型的参数时,常用的图形是:样本直方图,q q 图,具体细 节参见h a r d i n g ( 1 9 6 4 ) 以及卧龇t h a r y a ( 1 9 6 7 ) 但基于图形方法所得的统计推断主观、经验的成分多,往往对于同一个图,不同 人会有不同的见解,而且只能得到粗略的推断关于图形方法的不足,m u r p h y ( 1 9 6 4 ) 中提供了一些有趣的例子 22 现有的方法及评述 2 矩方法 p e a i s o n ( 1 8 9 4 ) 最早提出用矩方法估计两成分正态混合模型的参数p e a r s o n 的 方法简述如下: 设样本x 一五。来自两成分正态混合模型 ,( z ;g ) 一”( 目- ,一;) + ( 1 一”) v ( 如,a ;) 记 k = :喜c 五固7 一s , 为前5 阶样本中心矩,以及定义 扫= e ( x ) = 7 r 目l + ( 1 一丌) 如, 民= 巩一目= l ,2 为了估计两成分正态混合模型中的5 个参数( ,0 1 ,口l ,如,观) ,p e a r s o n ( 1 8 9 4 ) 给 出了如下5 个矩方程: 7 r 占l + ( 1 7 r ) 如= 0 , ”( a ;十砰) + ( 1 一”) ( 口;+ 霹) = k , ”( 3 6 。一;+ d ;) + ( 1 一”) ( 3 如+ 霹) = k , w ( 3 露+ 6 a ;碍+ d ;) + ( 1 7 r ) ( 3 口;+ 6 司霹+ 避) = k , 7 r ( 1 5 口;以+ 1 0 口:砰+ 罐) + ( 1 一”) ( 1 5 霞如+ 1 0 司磋+ 磋) = k 经过复杂的代数运算后,p e w s o n ( 1 8 9 4 ) 把上述方程组的求解转换为一个9 次多项 式的求根问题,其中的细节可参考c o h e n ( 1 9 6 7 ) 可以想象,成分数p 越大,用矩方法估计模型参数将需要求解更复杂的非线性 方程组,这在应用时是严重的障碍 t a na n dc h a n g ( 1 9 7 2 ) 比较了矩方法与极大似然方法得到的估计的渐近效率, 他们的结论是,对于估计正态混合模型的参数,极大似然估计的效率在所有情形下都 优于矩估计 3 极大似然方法 第二章有限止态混合模型的参数估计问题以及研究现状 本论文使用基于似然函数的估计方法,相关介绍放在下一节,这里不再重复 4 贝叶斯方法 贝叶斯方法应用于混合模型在近年逐渐受到关注,其中代表性的工作有d i e b o l l a n dr o b c r t ( 1 9 9 4 ) 以及b e n s m a ie ca 1 ( 1 9 9 7 ) 讨论成分数已知时,如何为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论