




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 i i i 摘要 在工程技术、生物医学以及其它许多实际领域中,存在一些不可直接观测 的变量。因为由于自然环境或者问题本质的限制,这个变量的观测值通常带有 误差。如果需要从这个变量的观测数据来推测相关问题的性质时,采用反褶积 模型来估计这个变量的分布或密度函数显的尤为重要。本文的做法是将这一 未知分布函数设为高斯混合分布的形式,对其中参数进行估计,以解决这一变 量的分布的估计问题。本文对这一问题采用b o o t s t r a p 模拟方法得出分布函数 的估计,并进一步建立该分布函数的非参b o o t s t r a p 百分位区问在数值试验 中将我们的处理方式与传统的e m 算法得到的分布估计和正态逼近区间作比 较,数值结果表明用b o o t s t r a p 模拟方法得到的准确度更好,数值效果更理想。 关键词:反卷积;混合分布模型;e m 算法;b o o t s t r a p 英文摘要 i v a b s t r a c t t h e r ea r em a n yu n o b s e r v a b l ev a r i a b l e si ns o u l ep r a c t i c a lf i e l d s ,f o rt h i s ,d e - c o n v o l u t i o na n dn l i x t u r ed i s t r i b u t i o nh a sb e e nd e v e l o p e da n dm o s tw i d e l yu s e d i n t h i sp a p e r ,w ec o l l s i d e rt h ee s t i m a t i o no fad i s t r i b u t i o nf u n c t i o nw h e no b s e r v a t i o n s f r o mt h i sd i s t r i b u t i o na r ec o n t a n f i n a t e db ym e a s u r e m e n te r r o r t h ea p p r o a c hf o r u s i n gm i x t u r ed i s t r i b u t i o n sa n db o o t s t r a p s i m u l a t i o n si su s e dt os o l v et h i sp r o b l e m , f o rt w op a r t s ,d i s t r i b u t i o nf u n c t i o na a dc o n f i d e n c ei n t e r v a l ,ms h o wt h a to u rr e s u l t i sm u c hb e t t e rt h a nc l i f r o r d ,b c k e yw o r d :d e c o n v o l u t i o n ,m i x t u r ed i s t r i b u t i o n ,e x p e c t a t i o n - m a x i m i z a t i o na l g o - r i t h m ,b o o t s t r a p 。 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研 究成果。本人在论文写作中参考的其他个人或集体的研究成 果,均在文中以明确方式标明。本人依法享有和承担由此论 文而产生的责任。 声明人( 签名) :弱眠 加年f 月刁日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( 影 ( 请在以上相应括号内打“4 ”) 作者签名:搦影凡 导师签名: 1 2 1 期:沙占年f 月力日 , 日期:年月 曰 第一章引言 第一章引言 在实际问题中,常常需要通过获得一个随机变量x 的观测值来考察它的 相关性质,最基本的是通过x 的观测值推断它所服从的分布函数f x ( x ) 或者 相应的密度函数a ( z ) 但在现实中由于测量设备或自然环境等因素的影响, x 的真实值不可能直接获得,所观测髓机变量x 的值通常带有误差。事实上, 所测得的值的形式为y = x + f ,这里f 是表示测量误差的随机变量。 这类情况大量存在于生物医药、工程技术和经济金融等实际领域例如在 a i d s 试验中,需要测得某种病毒从感染到症状开始出现所需时间,但实际上 得到的数值则是从感染到症状已出现后某一点的时问,而真实的值不可能直 接测得。对这一问题的解决,需要用到反褶积模型“。 下面给出反褶积的定义。 设置,矗是一组从未知分布取中独立抽取实值随机变量,考虑以下 形式的观测值 k = 五十矗,i = 1 ,n ( 1 ) 这里岱,i = l ,n ) 称为误差变量,是服从分布尽的独立随机变量,且与 墨:i = 1 ,n ) 相互独立此时,k 的分布函数可以表示为 , 。f y ( z ) = f x ( x u ) d 墨( “) ( 2 ) j 且 若的密度函数存在,则相应的密度褶积为 r f r ( z ) = 矗扣t z ) f s ( u ) d u j r 反褶积模型要解决的问题之一,也是本文的基本任务:就是由这组独立观 测值h ,k ,以及褶积分布形式a ( z ) ,来估计随机变量x 的分布y x ( x ) , 并保证一定的相合性和收敛性。 第一章引言 2 反褶积的另外一个应用是在非参回归问题中【3 】设( x ,z ) 是一个随机变 量对,考虑回归函数m ( x ) = e ( z l x = m ) 的估计问题在实际观测中,应变 量z 与自变量x 的值都可能受到误差干扰,比如所观测的值不是所期望的 ( x ,z 1 ) ,( ,乙) ,而是陬,z 1 ) ,( 碥,乙) ,其中k 具有式( 1 ) 的形式。如 何利用这组数据建立一个非参回归函数的估计俄( z ) ,使它既具备一般回归函 数的性质,又可以体现出变量带有误差,解决这一问题也要用到反褶积的知 识。由于此内容不是本文讨论的重点,这里就不在详细论述 二研究框架 本文的结构框架如下: 第二章是文献回顾部分,是对下一章将要讨论的内容做铺垫和提供理论基 础,可分为三块内容。第一节主要介绍反褶积模型的估计方法如核估计,小波估 计等以及它们的收敛性问题,并引出有限混合分布模型第二节着重介绍了有 限混合分布模型的两种处理方法:贝叶斯( b a y e s ) 估计和极大似然估计( m l e ) 等,b a y e s 部分侧重于后验分布估计以及m c m c ( m a r k o vc h a i nm o n t ec a r l o ) 算法的介绍,而极大似然估计则重点介绍了e m 算法( e x p e c t a t i o nm a x i m u m a l g o r i t h m ) 和它的收敛率问题第三节介绍了b o o t s t r a p 的发展概况和基本应 用,包括标准差的参数和非参估计和几种置信区间的建立等。 第三章是全文的主体,反褶积问题的处理采用的是高斯混合正态分布模 型,主要内容是反褶积模型的混合分布估计及其b o o t s t r a p 百分位置信区间。 第一节首先对高斯混合分布模型给出简介,并针对这个模型提出适合的e m 算 法估计混合比例这一参数,进而得到未知分布的估计取;然后回顾了c l i f f o r d b c 在文【3 1 】中提出的关于& 的正态渐进区间。第二节提出对第一节e m 算法采用b o o t s t r a p 进行参数估计,得到更为准确的分布函数的估计j k ,并进 第一章引言 3 一步讨论如何建立晟的b o o t s t r a p 百分位置信区间第三节是数值模拟,首 先产生一组符台要求的数据,通过比较两种分布函数的估计和两种置信带的 模拟结果,证明应用b o o t s t r a p 的优势,然后用一个实际数据证实了本文提出 方法的精确性。最后一节给出了全文的总结,并提出本文方法对解决随机系数 回归模型问题的可能性 本文程序用s 语言编写,分析图则由s - p l u s 画出 第二章文献回顾 第二章文献回顾 第一节反褶积模型 反褶积模型所要解决的是一类有关测量误差的变量问题,因其广泛的实 际背景和适用范围,吸引许多学者注意并加以深入研究。这些研究工作和成果 主要集中在两个方面:x 的分布密度估计& ( z ) 以及它的相合性和收敛性。下 面简单回顾这两方面的研究成果。 4 一核密度估计 对未知分布密度估计最广泛的方法是核密度估计 4 l 【5 】,自然反褶积分布估 计研究问题较常用的方法也是核密度估计。它的基本思想是将a ( z ) 先作核密 度估计,然后运用傅立叶( f o u r i e r ) 变换来处理方程( 2 ) 。c a r r o l lh a l l ( 1 9 9 8 ) 6 ,f a n ( 1 9 9 1 a ) 7 等对这一估计问题进行了深入研究,下面仅给出f a n 的估计思想。 ( 1 ) 将x 的分布密度记为 f x ( z ) = ( 1 2 n ) je x p ( 一i t z ) 。 妒y o ) o ) ) 出, 其中咖y 与艇分别为】,与f 的特征函数,是误差变量。 ( 2 ) 由于y 分布未知,通常用它的经验特征函数元( t ) = 1 加釜oe x p ( i t y ) 或它的核估计密度西( 9 ) = ( 1 n ) 冬ok 0 一蚝) ) 来代替,这里k ( - ) 为核 函数。 ( 3 ) 对( 2 ) 中核函数k ( ) 做傅立叶变换,得到妇( - ) ,即c k ( t ) = ,e z p ( 髓z ) k ( x ) d x 。 ( 4 )变量x 的分布密度核估计就可以写为: & ( z , ) = o n h ) g ( 一v j ) _ l 柚) 第二章文献回顾 其中 r g ( x ,h ) = ( i 2 _ j t ) e x p ( 一i t x ) - 咖k ( t ) e h ) 出, j h 是核函数k ( ) 的参数,称为窗宽或带宽。 同时f a n 得出结论,如果步骤( 3 ) 中傅立叶变换的核函数所选带宽范围是 有限的,也就是核函数的支撑是有界的,则x 的核密度估计函数矗( 。,h ) 在 点和域上的收敛率都可以达到渐进最优, 二收敛性问题 影响非参反褶积分布密度估计收敛速率 9 1 1 0 的因素很多,其中误差变量 的分布是最一个重要的影响因素,如f a n 在文 7 】中研究了两种不同的误差 分布下的收敛率。他指出,随机误差变量分布的平滑度影响了这个估计的收 敛性以及非参反褶积估计的难度。 根据平滑度,可以将分布分为两类:一般平滑和超平滑,它们定义如下 称随机变量q 具有p 阶超平滑分布,如果它的特征函数( t ) 满足; d o l l f l 。e x p ( 一r t l 一8 r ) 兰。o ) j d l i t l 口t e x p ( 一l t r 4 r ) , 其中d o ,d l ,履f 为正的常数,z o ,卢1 为常数; 称随机变量q 具有p 阶一般平滑分布,如果它的特征函数( t ) 满足; d o 川一9 曼i ( t ) l 茎d f l t l , 其中d 0 ,d 1 ,口为正的常数 根据定义,在常见的分布中,正态分布、混合正态分布和柯西分布等属于 超平滑分布,伽玛分布、双指数分布以及对称伽玛分布则是一般平滑分布。如 超平滑分布 fn ( 0 ,1 ) 卢:2 , i ”一1 ( 1 + x 2 ) 一1 ( g n u c g ( o ,1 ) ) p = 1 5 第二章文献回顾 一般平滑分布 f 。妒r ( px p - l e a z ( g a m m a ) 卢= p , l2 - 1 e - ( d b l ee 印o n e n t i 0 1 ) 卢= 2 文 7 1 认为根据随机误差分布两种不同的平滑程度,也存在两种不同类型 的最优收敛率。但一般平滑性越高,收敛速度越缓慢,非参反褶积分布估计问 题越困难。 三其它方法 l 小波( w a v e l e t ) 估计 小波展开式也是估计未知分布的一种重要方法。简单介绍它的定义( 更详 细的定义参见文献 8 】, 9 】) :设妒( ) l 2 ( r ) 与妒( ) l 2 ( r ) 表示对应于多分辨分 析假定下的尺度函数和母小波函数,则 ,k ( z ) = 2 j 2 妒( 分z 一) ;女= 0 ,土l ,) 与 咄( z ) = 2 。,2 妒( 2 。z 一) ;l j ,k = 0 ,土1 ,) ( 任意j = o ,土1 ,) 构成了 l 2 ( r ) 的一组标准正交基。即任意函数f ( x ) l 2 ( r ) 都可以分解为 ,( z ) = a j ,k 吻,k ( z ) + b l ,k 妒l ,k ( z ) , ( 3 ) k e zk e zz = k 这里系数a j ,k ,b l , k 分别为a j ,= j = :吩,( 。) f ( x ) d x ,b l , k = ,咖k ( z ) f ( x ) d x , m a r i a n n a p 1 0 l 等应用它来估计非参反褶积密度。他的基本思想是将待估 函数j x ( t 1 写为m e y e r - w a v e l e t 展开式的形式,然后由反褶积算法来估计展式 的系数,从而得到x 的w a v e l e t 分布密度估计f z ( t ) 。同时证明了w a v e l e t 估计 对误差变量超平滑分布在m i s e ( t ) = e r ( ,一,) 2 以+ 0 的意义下非参反褶 积密度估计有较高的收敛率。 2 混合分布模型 6 第二章文献回顾 7 m a r i t z 和l w i n ( 1 9 s 9 ) 1 1 】提出可以用有限混合分布模型估计非参反褶积分 布问题。混合分布模型自上个世纪初被提出后,由于它有着广泛的实际应用 背景而备受关注,相关的理论研究也较为健全。所谓混合分布,是将分布函数 f ( z ) 记为 f ( z ) = w k 见( z ) k = l 其中,f ( “) 称为成分分布; u k ,k = 1 ,m 称为混合比例,满足w k 0 ,乏l w k = 1 ;m z 。 混合分布模型与反褶积分布估计问题结合起来,使得二者都有了更广阔 的发展空间 2 1 1 1 2 1 本文将对此作进一步讨论,在下一节中将对混合分布模型 的发展概况和已存在的经典结论进行简单回顾和总结 第二节有限混合分布模型 一模型概述 有限混合分布模型 1 3 j 在近2 0 年来越来越受到统计学家的重视。首先它 不仅为有关总体差异质性如何建立模型提供了一个自然的研究框架,并建立 其与聚类判别分析等之间的紧密联系。更重要的,它的出现去除了束缚在未知 分布形状上的种种限制,为那些不能由任何单个参数分布族逼近的未知分布 估计问题提供了一种异常灵活有效的途径。因而,它成为分布估计的一种重要 方法。 为以下叙述方便,给出有限混合分布模型的基本定义。1 ,z 。为一组 独立同分布的随机变量,设它们的概率密度函数形式为 ”t ,( 。) = w k f k ( x ) ( 4 ) k = l 这一形式就称为有限混合分布模型。其中 u k k = 1 m ) 是混合比例,满足 w k 0 e m 括1 “k = 1 。 第二章文献回顾 a 是混合成分分布对应的密度函数,它一般分为两种情况:( 1 ) 九是已知 的分布;( 2 ) 血形式已知,但其中参数未定,即已知a 属于某个特定分布族, 但分布组参数靠随k 不同而变化这种情况下, 常记为m z l o k ) ,例如我们 常见的两个成分的对数正态混合分布可以写为: 其中 ( x ) = u ( z ) + ( 1 一w ) 如( z ) ,0 us 1 ( z ) = ( 瓜风) 一1e x p 一( i n x n t ) 2 2 货】,i = 1 ,2 这里啦和成分别为第i 个成分分布中h z 的期望和标准差。 通常,在m 未知的情况下,混合分布模型的估计问题多采用b a y e s 相关的 理论和m c m c ( m a r k o vc h m nm o n t ec a a - l o ) 方法解决;在固定的m 值下,人 们也常用极大似然估计( m l e ) 的相关理论以及以此为基础的e m ( e x p e c t a t i o n m a x l a f i z a t i o n ) 算法来处理。 二b a 辨s 理论的应用 自从1 9 9 4 年d i e b o l t 和r o b e r t 在文 14 】中对模型( 4 ) 采用g i b b s 抽样算 法在已知条件下估计参数o = ( u k ,o k ;k = 1 ,m ) 以来,b a y e s 方法在 处理混合分布模型问题上有着显著的发展而接下来的工作大多集中在混合 分布的成分个数m 的研究,这其中包括两个重要的方向,一是采用假设检验 凰: mv sh 1 : m + 1 来推断m 的最优取值;另外一种途径是通过给m 和参数。赋予合适的先验分布,通过边际似然等过程得到m 的后验分布,从 而总结它的不确定性【l 目【圳。 m 的推断问题说到底就是如何在一堆有竞争力的模型中选择最合适的一 个,而应用b a y e s 方法处理此问题,其优点不仅是可以挑选出一个最优的模型, 它同时还是综合不同模型结果的一致途径。以至于p e t e rg r e e n 等在文f 17 1 中 8 第二章文献回顾 9 宣布b a y e s 方法处理混合分布模型问题是非常适合与有效的,尤其是对成分的 个数未确定的情况。在b a y e s 框架下处理混合模型的估计问题尽管理论上相对 简单,它的计算推导却是相当复杂的。但所幸m c m c 1 7 | 【1 8 】算法的不断刨新和 发展,和”r e v e r s i b l ej u m p 叫1 q 【1 9 】等概念的提出,以及它们在b a y e s 分析中广 泛而日益成熟的应用,解决了这一难题,并且使得混合分布模型的b a y e s 分析 向着更深更完善的层次发展。 下面简单介绍有关m 的后验分析的基本思想,详细内容和推导过程参见 文献【1 5 】等 在b a y e s 分析中,当模型( 4 ) 中a 未知时,三组未知的量,u ,0 均被看成 是适当的分布中抽取的,即给它们各自赋予赋予先验分布。通常,u = u ,= 1 ,n 被认为是服从d i r i c h e l e t 分布,即u d ( 5 l ,) ;钆的先验分布为 靠屯k ( 咖) 渺为参数,分布吼( 妒) 的形式根据具体情况选择,比如在混合正态 分布中,通常所选的先验分布为n 一( e ,h - - 1 ) ,a i 2 r ( “,卢) ) ;而m 的先验 分布形式记为( k ) 这样 f ( x ,0 9 ,u ,m ) = ( ) ( u ,回,0 l m ,“) n ( o l m ,) ,( z l m ,g ,p ) ( 5 ) 其中,9 = 0 1 ,g n ) 定义如下:g i 的取值表示第i 个样本x i 是从第几个成分 分布中产生的,例如,若第5 个样本z 5 是由第3 个分布生成,则9 5 = 3 。 最后经过推导运算,就可以得到m 的后验分布n ( m l x ) 的形式。 三极大似然估计( m l e ) 与e m 算法 在模型( 4 ) 中,确定m 的值后,混合分布问题就转化为参数0 = ( w k ,钆,k = 第二章文献回顾 1 0 1 ,m ) 的估计问题许多方法被相继提出或运用到此问题的解失上来,这其 中就包括著名的极大似然估计理论。尤其1 9 6 0 年以来计算机技术的普及和高 速发展,使得极大似然估计对混合分布参数估计问题的重要性越来越显著。 1 极大似然 首先来回顾极大似然估计的定义。 设p ( 。i o ) 为一密度函数,0 为它的参数,而) ( = ( ,z ) 是从这个分 布中随机抽取的样本,即它们是独立同分布于分布密度p 的。因此x 的密度 就可以表示为 p ( ) ( i e ) = p ( x | f i o ) = 上( o 盼 i = 1 函数l ( o i x ) 就称为基于数据x 的参数似然,简称似然函数。注意这里x 是给 定的样本,因而l ( o i x ) 是参数0 的函数极大似然估计所要解决的问题是找 出一个0 的值使l ( o i x ) 达到极大。通常为了推导方便,将l ( ) 做对数变换, 得到 n f ( e f x ) = l o g ( l ( o i x ) ) = l o g p ( x i i o ) ( 6 ) i = 1 问题也就转化为求出0 + 满足0 。= a r gm a x ol ( o i x ) = a r gm a 。x ot ( o l x ) 。极大 似然估计问题的难易程度根据p ( 。l e ) 的具体形式而定,比如简单的情况,如果 p ( z i o ) 是一元正态分布密度函数,这时要估计的参数为o = ( i t , 一) 。就可以通 过令t ( o l x ) 的偏导数为0 来直接求解o 的极大似然估计估计。然而对于更多 的问题,却不可能获得( ) 或其偏导数的分析表达式,这就要求借助于更多复 杂而精密的技巧。 2 e m 算法 e m 算法就是这样一个复杂而精密的技巧。它由a l d ( 1 9 7 7 ) 2 0 l 首次提出, 而后又得以不断改进和完善。e m 算法是针对不完全或有缺失数据所属分布中 参数的极大似然估计的一种广泛而有效的处理方法。它主要应用在以下两个 第二章文献回顾 1 1 方面,第一种情况是由于观测过程的问题或限制,这些数据) ( 中真的存在缺失 值;另一种情况是指当似然函数l ( o x ) 或对数似然e ( o l x ) 极大化过程在数学 推理和分析上变得非常复杂,而若假定有附加的但是观测不到的( 或隐藏的) 参数或数据存在并给它赋值后,这个极大似然问题就变得十分简单。混合分布 模型的极大似然问题就属于后者。 如上节中内容所述,设数据x 是从分布p ( x l o ) 中抽取的样本,并认为它 是不完备数据,又假设完备的数据集存在为z = ( x ,y ) ,并且它们的联合密度 函数也存在,记为 p ( z l e ) = p ( x , 9 ) = p ( ke ) p ( x l e ) 对应地定义相应的函数p ( x ,y l e ) = l ( o i z ) = l ( e i x ,y ) 称为完备数据集的似 然函数。而l ( o i x ) 则称为不完备的似然函数。 注1 y 的含义在下面给出。 注2 由于这个附加的信息y 是未知的随机的,因而l ( o i z ) 只是y 的随 机变量。可以理解为l ( o i z ) = h x ,。( y ) ,其中 。( ) 函数中x ,0 为常数,y 是 随机变量。 e m 算法分为e 步骤和m 步骤 e 步骤;定义 o ( o ,o 1 ) - e ( 1 0 9p ( x ,:v i e ) i x ,o ) ( 7 ) 其中。一是用来计算这个期望值的上一步的参数估计值,足一个常数;e 则 是使q ( ) 极大化的参数变量;y 是一个随机变量,由分布j ( y l x ,0 ”1 ) 来决定。 因而( 7 ) 式右端可以改写为 r e ( 1 0 9 p ( x ,y l o ) l x ,e 4 1 ) = l o g p ( x :t l o ) f ( y l x ,0 一1 ) d ( 8 ) j y e t 这里f ( y x o “) 是未观测到变量3 2 的条件边际分布,t 是y 的取值范围。 第二章文献回顾 1 2 m 步骤;使e 步骤中定义的函数q ( o ,0 一1 ) 极大化,即寻找o 。满足 0 = a r g m o a x q ( ,0 一1 ) - 两步交替迭代,直到达到预先的收敛标准为止。 为扩大算法的应用范围或提高算法的收敛速率等,根据具体情况,可对e 步骤和m 步骤做不同的改动,这样发展出几种改进的e m 算法,有c e m ( c o m p e t i t i v e e m ) 、s e m ( s t o c h a s t i ce m ) 和g e m ( g e n e r a le m ) 等,如在有的情况下,m 步骤 是也可以改成:寻找0 ;满足 q ( o ,o 。) q ( o ,o 1 ) 这就是推广的e m 算法,即g e m 算法。文【2 1 给出了e m 和g e m 收敛性以 及参数估计值的相合性的讨论。 3 混合分布密度参数估计的e m 算法 混合密度的参数估计问题是e m 算法计算机模式识别上应用最广泛的领 域。为叙述方便,在这里将模型( 4 ) 改为 p ( x l e ) = w k p k ( x l o k ) ( 9 ) k = l 参数e = ( u 1 ,u 。,目1 ,口。) ,这里乏1 u k = 1 。这样由不完备数据x 得到 的关于密度参数0 的对数似然表达式为 nnm e ( e l x ) = l o g ( l ( e l x ) ) = l o gi i p ( x l e ) = l o g ( u 舰( ) i = 1i = 1k = l 这个表达式由于包含和的对数项,因而使它极大化非常困难。依照上一节中 的处理方法,假设数据集x 是不完备的,并且假定未观测到的数据项y = ( 口1 ,y n ) 存在( 通过y 的取值可以得知_ ) ( 中第i 个观测值x i 由哪一个成分 产生1 ,那么似然函数的形式将大大简化。也就是说,假设y i 1 ,m ) ,对 第二章文献回顾 任意的i ,如果x 中第i 个样本如由第个混合成分生成,则玑= k 若已知 y 的取值。似然函数就可以写为 n n ( o l x ,y ) = l o g p ( x ,r i o ) = l o g ( p ( x d y | 1 ) p ( y ) ) = l o g ( w m p u , ( z t l o m ) ) ( 1 0 ) i = i i = 1 在这个表达式中,只要给出分布密度p ( ) 的具体形式,通过一些技巧,就可以 使似然函数极大化。但问题是,混合分布模型( 4 ) 中y 是未知的,需要将它看 作是随机变量。为使推导进行下去,首先需要求出y 的分布形式。先给定参数 o 一个合适的初值o g = ( u ;,碥,0 a ) 。由b a y e s 理论, 咖淞删= 案胖= 藿糍翳 而 p ( u l x ,0 9 ) = p ( v i l z i 0 9 ) l = l 有了以上的表达式,就可以写出e m 算法的两个步骤的具体形式。 e 步骤:通过假设隐变量的存在,需要的边际密度p ( u l x ,e 9 ) 已获得。( 7 ) 式可以写为 o ( o 0 9 、 = l o g ( l ( o x ,y ) ) p ( y l x ,e 9 ) y e t 其中p ( q z t 0 9 ) = 嚣:1 翟:1 5 t ,m 品+ 。也肌兀墨1 p ( 蜥o g ) 1 y i = 。1 , ( 1 1 ) 1 3 g 0z “ n 口 p恤曜 :im +伊 茁 k u 昭 试m m | | 第二章文献回顾 1 4 m 步骤:在式( 1 1 ) 中含有u = ( “1 ,“。) 与口= ( p l ,) 的两项是 分开的,因而可使两项独立极大化。 如要求得的表达式,只考虑( 8 ) 式右端中第i 项,以及它的限制条件 墨。u = l ,引入拉格朗日算子a ,构造以下方程 毛【善三1 0 咖加川戤,伊) + a ( 莩_ 1 ) 】_ 0 化简后得 妻知啪讣a _ 0 ( 1 2 ) 按照下标f 将( 1 2 ) 式相加,得方程 mn , 若薹和秽h 以。0 解之得到a = 一,代入式( 1 2 ) ,得到 , n = 寺p ( 。9 ) r 对目= ( 口,) 的估计,则需要知道目的具体形式,处理起来比较有难 度,这里仅以d 一维正态混合分布为例简单说明,这时第k 个成分分布的密度 函数为 p k 。i u k , e k ) = 丽嘶1 e 印与1 ( z 一掰i 1 ( x - 肛k ) ) ,( 1 3 ) 参数为 = ( 卢,) ,k = 1 ,m ) 。由于推导过程过于烦琐,这里就不再详 细列出,只是给出相应结果,具体过程可参见文献【2 2 】。 罐”= 专薹船k 、。 。竺】x i p ( k l z t ,印) 以2 惫蠢1 蠢爵m ,、i _ 一, 第二章文献回顾 1 5 胖。一圣i :! 丝堕竺! 些二些i = ! ! 丛= 壁! ! :! 三 一 墨1 p ( kj z ,9 9 ) 注意上述三个方程是把e 步骤和m 步骤同时进行迭代,把每一步得到的参数 估计值代入方程右端,进行下一轮迭代。随着计算机技术的发展,针对混合分 布模型的e m 算法也有很大的改进,详细内容参见文献f 2 3 】,1 2 4 镧。 定理: 设和,x n 是从高斯混合分布模型( 9 ) 中随机抽取的样本,其 参数为0 = u k ,肛k ,k ;k = 1 ,m ) ,并且参数的真值0 + 满足以下三个条件: 1 存在一个常数0 3 0 0 ,使得u u o ,k = 1 ,m ; 2 存在常数p 0 ,对所有成分分布中的协方差阵k ;= 1 ,m 它们 所有的特征根都满足雕( o + ) sa i k a ( o + ) ,其中i = 1 ,2 ,d ; 3 成分分布中的均值向量满足v d 。( 伊) 茎d 。讥( 0 8 ) o ; 假设e 是由这些样本得到的参数e 的相合解,即l i m | v 一。e = o + ,这 时只要e ( e 4 ) 足够小,充分大,则存在o 的闭邻域n ( e ) ,使得对任意一 个初值o o n ( e ) ,e m 算法总会收敛刭0 。 其中e ( o ) 的定义过程如下: 设也( z ) = 獭,i 乩,m , 7 0 ( x ) = ( 一( z ) ) ,t ,j = 1 ,m ,( 为k r o n e c k e r 函数) , e l i ( o + ) = j 玉1 7 d x ) l p ( z l e + ) d x , e ( e + ) = m a x i # j e u ( + ) 。 详细的证明过程参见文献 2 5 第三节b o o t s t r a p 的发展和应用 一b o o t s t r a p 的发展概况 第二章文献回顾 1 6 b o o t s t r a p 方法的系统研究开始于1 9 7 9 年e f r o n 的一篇重要论文【2 6 ,它的 概念为经由资料( 即样本) 的重薪抽样来得到统计量的仿真分布借于现代计 算机技术来处理传统理论中过于复杂的计算作为支撑,它迅速发展成为处理 某类统计推断问题的新方法,如点估计、统计推断、曲线拟合以及构造置信区 间等,为更好的适用于某种统计推断问题,b o o t s t r a p 抽样的方式也有很大的改 进,出现了如b l o c kb o o t s t r a p ,f a s tb o o t s t r a p ,w i l db o o t s t r a p 和b a y e s i a nb o o t s t r a p 等新的抽样方法。以下是b o o t s t r a p 的基本应用1 2 7 。 二标准差的b o o t s t r a p 估计 假设现在面临着一般的数据分析情景:从一个未知的概率分布f 中抽取 的一个简单随机样本x = ( 巩,。) ,希望从x 的观测值估计参数0 = t ( f ) 。 为此,从x 中计算一个估计虿= s 瞵) 。对于一个一般形式的统计量,如何得到 万的标准差或其估计。 1 标准差的非参b o o t s t r a p 估计的算法 ( 1 ) 由样本x 中独立抽取b 个b o o t s t r a p 样本x “,x “,x 柏( 对于标 准差的估计,b 通常取值于2 5 2 0 0 ) 每个b o o t s t r a p 样本抽取方法如下:设户是是经验分布,取到每个观测值 i = 1 ,n 均为l n 的概率。一个b o o t s t r a p 样本定义为从f 中抽取的一个 样本容量为n 的随机样本,即 芦一x 4 = ( z i ,。;,z :) 也就是b o o t s t r a p 数据z i ,屹,z :是从有n 个对象x 1 ,z 。中有放回抽取 出的容量为n 的一个随机样本。如在一个容量为7 的b o o t s t r a p 样本可能的结 果是x + = ( 2 :7 :r 3 :,。3 ,z 4 ,z 2 ,。1 ,z 5 ) 。 第二章文献回顾 ( 2 ) 估计b o o t s t r a p 样本对应的b o o t s t r a p 复制, 萨( 6 ) = s ( x 。6 )b = 1 ,2 ,b 例如,s ( x ) 若是样本均值季,则s 暖+ ) 为b o o t s t r a p 数据集x + 的均值,即 = 坠。;加 ( 3 ) 由b 个b o o t s t r a p 样本得到的标准差8 e f ( 幻的估计为 b 垂b = 眵( 6 ) 一萨扫) 2 ( b 1 ) ) 1 2 , ( 1 4 ) b = l 其中萨0 ) = 丞,g * ( b ) b 。事实上,8 e f ( 两理想的b o o t s t r a p 估计应该是从经 验分布f 中随机抽取的样本容量为n 的数据的万的标准差,记为s e ( 萨) 。但 对于一般情形,即当口没有一个整齐的表达式时,就无法来求它的理想的标准 差估计。而事实上,b 趋于无穷大时彘b 的极限,就是s e f ( 两的理想估计。即 0 骢建。2s e 庐2s e 卢( 9 8 ) r ( 1 5 ) 由于s e i ( 萨) 和它的近似蠡b 依赖于总体f 的非参估计f ,因而称它们为 非参b o o t s t r a p 估计。 2 标准差的参数b o o t s t r a p 估计 当有现成的公式可以用时,使用再抽样的算法来估计标准差看起来很奇 怪,事实上,b o o t s t r a p 方法可以有参数性来实现,此时结果与经典的标准差公 式紧密联系。 参数b o o t s t r a p 标准差估计的形式记为s e 免。,( 萨) 。其中昂。是从参数模 型推出f 的数据估计量比如,我们可以设总体f 是服从一元正态分布形 式,它的均值和方差可以由样本的估计量给出。这样就把这个总体的估计记为 丘。一,这就是总体f 的参数估计。因而对于虿标准差的参数b o o t s t r a p 估计估 计可记为s e 露( 萨) 。 1 7 第二章文献回顾 1 8 同非参情况,仍然用b o o t s t r a p 的抽样估计去逼近理想的参数b o o t s t r a p 估 计所不同的是,在第1 个步骤抽取样本时,是从总体的参数估计元。,中抽 取b 个容量为n 的样本,即 f l p 。r + ( z i ,茁;,z :) 产生这些样本之后,就可以重复非参b o o t s t r a p 算法的第2 和第3 步骤: 计算每个统计样本的统计量的值,再求这b 个样本统计量的标准误差。 三b o o t s t r a p 置信区间 以上内容主要针对标准差的估计,b o o t s t r a p 另外一个重要的作用是用来 建立置信区间来考察估计的精度。事实上,标准差通常用来计算近似计算感兴 趣参数0 的置信区间。比如给出一个估计万和它的一个标准差估计s e ,通常目 的9 5 置信区间是 万士1 6 4 5 s e ( 1 6 4 5 是从一个正态表格中得来的) 。上式就称为口的一个区间估计,区间估计 比一个点估计万更有用。把二者合在一起,能够更好的解释目的最佳估计是什 么以及这个估计离真实值在方差意义下相差多少。 1 正态区i 司 从一未知分布f 中随机抽取一个样本x = ( z 1 ,x 2 ,。) ,感兴趣的参数 为口= t ( f ) ,虿= t ( p ) ,矗是虿标准差的一个合理估计。一般地,随着样本容量n 的增大,万的分布是渐进正态的,以口为均值,彘为标准差,即虿n ( o ,庇2 ) 或 警一n ( o ,1 ) 令# ( 。) 表示标准正态分布n ( o ,1 ) 的第1 0 0 d 的分位数,由此给出 一个正态分布表,。( 0 2 5 ) = 一1 9 6 0 ,z ( 0 5 ) = 一1 6 4 5 ,z ( 9 5 ) = 1 6 4 5 ,z ( 0 9 7 5 ) = 1 9 6 0 等。这样, p r o b f z ( “茎掣墨z ( 1 一) :1 2 “ s e 第二章文献回顾 称区间 矽一z ( 1 - a ) 靠,萨一z m ) 剥 为置信水平1 0 0 - ( 1 2 n ) 标准区间 2 s t u d e n t t 区间 当n o o 时,渐进正态的假定才使成立的。对于有限的样本特别是小样 本的情况,1 9 8 0 年,g o s s e t 对亭:面得到了一个更好的近似, z :掣。i 这里t 。一l 是自由度为n - 1 的s t u d e n t t 分布。使用这一近似,可以得到区间 矿一f t 。o 一- l a ) 靠萨一t 2 l ;叫 这就是置信水平为1 2 “的s t u d e n t t 区间。 3 b o o t s t r a p t 区间 b o o t s t r a p 的优点就在于它可以屏弃对参数或分布形式上的假设,纯粹从 样本来推断参数的估计和其它一些相关性质。b o o t s t r a p - t 区间是s t u d e n t t 区 间的推广和改进,它直接从样本的数据上来估计z = 譬的分布。首先产生四 个b o o t s t r a p 样本x “,x “,x ”,对每个样本,计算 邢) = 丽o * ( b ) - o 其中萨( b ) = 4 x 袖) 是b o o t s t r a p 样本x 岫中估计萨的取值。叠+ ( 6 ) 则是对样本 x 拈中驴( b ) 的标准差的估计。定义虱a ) 为z ;( b ) ,b = 1 ,2 ,b 的n 分位数, 可以用下式表示 社 z + ( 豇。) b = 1 ,2 ,b ) b = ( 1 6 ) 例如,如果b = 1 0 0 0 ,5 分位点的估计就是所有z + ( b ) 中第5 0 个大的值。 1 9 第二章文献回顾 置信水平为l 一2 0 的b o o t s t r a p - t 区间就定义为 注意若b 。不是整数,不妨设 0 5 ,令女= f ( b + 1 ) 】来代替 4 b o o t s t r a p 百分位区i 司 b o o t s t r a p 百分位区间不同于标准正态理论产生的置信区间,它是基于统 计量的b o o t s t r a p 分布的百分位数的一般化的区间。它的基本原理是,从经验 分布声中产生b o o t s t r a p 数据集x 4 ,计算得到b o o t s t r a p 复制驴= s ( x + ) ,令 舀为萨的累积分布函数。则虿的1 2 a 分位数区间可以用百的分位数定义: 瞰,f 。,该,一= 同一1 ( a ) ,0 1 ( 1 一o ) j ( 1 7 ) 由定义舀一1 ( n ) = 伊( n ,故分位数区间可以改写为 【堍如酝,。1 = 【伊( ,矿( 1 一。 然而这个区间只是理想的b o o t s t r a p 区间。在实际中,只能产生有限( b ) 个 b o o t s t r a p 复制,无法得到a 因此,只能采用b o o t s t r a p 逼近。具体做法如下; 首先产生b 个b o o t s t r a p 样本x ”,x “,x ”,计算 删= 篱,。口 令程“是驴( b ) 值的1 0 0 a 经验分布函数,即b 个萨复制中第1 0 0 ,a 大的值 ( 若b - n 不是整数,可与b o o t s t r a p t 区间做相同的处理) ,同样的,令磋1 - 。) 是1 0 0 ( 1 一a ) 经验分位数。则1 2 a 分位数区间近似形式为 【或如,酰,一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家事业单位招聘2025海洋出版社有限公司招聘应届毕业生岗位笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国地质科学院岩溶地质研究所招聘拟聘用人员笔试历年参考题库附带答案详解
- 四川省2025年四川省减灾中心招聘编外工作人员(第二批)笔试历年参考题库附带答案详解
- 商品混凝土员工安全培训课件
- 北京市2025北京市金融发展促进中心招聘2人笔试历年参考题库附带答案详解
- 2025青海西矿稀贵金属有限公司招聘38人笔试参考题库附带答案详解
- 2025湖南高速工程咨询有限公司招聘专业技术人员22人笔试参考题库附带答案详解
- 2025浙江杭州市建德市林业总场下属林场招聘10人笔试参考题库附带答案详解
- 2025河南洛阳市新安县龙潭大峡谷荆紫仙山景区招聘23人笔试参考题库附带答案详解
- 2025广东省广晟控股集团校园招聘2025人笔试参考题库附带答案详解
- DBJT15-147-2018 建筑智能工程施工、检测与验收规范
- 华为鸿蒙课件
- 全站仪使用课件
- 中国心房颤动管理指南(2025)解读
- 2025年成人高考专升本民法真题及答案
- 2024年云南省公务员考试行测真题参考答案详解
- 初中普法主题教育
- 多发骨折病人疑难病例讨论
- 草果种植技术课件大全
- 2025年水利A证考试题及答案
- 新疆就业政策课件
评论
0/150
提交评论