(概率论与数理统计专业论文)boosting方法在混合模型选择中的应用.pdf_第1页
(概率论与数理统计专业论文)boosting方法在混合模型选择中的应用.pdf_第2页
(概率论与数理统计专业论文)boosting方法在混合模型选择中的应用.pdf_第3页
(概率论与数理统计专业论文)boosting方法在混合模型选择中的应用.pdf_第4页
(概率论与数理统计专业论文)boosting方法在混合模型选择中的应用.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在模式识别这个领域中,混台模型是统计模式识别最主要的模型之一。混合 模型的估计方法有很多,其中研究最多并且为人们所熟知的是e m 算法。然而局 部优化的e m 算法可能会遇到一些问题,比如初始模型参数的选取,有时该算法 还可能表示出不同的收敛速度,另外最困难就是模型阶数( 模型的成分个数和维 数) 的确定。在混合模型中一个越来越重要的任务就是模型选择问题,即选择模 型的成分个数和维数。目前的研究方法有m c m c 还有变分法等等,但是解决的 效果都不是很好。本文主要是利用b o o s t i n g 算法的思想得出的一个估计混合模 型的递归式算法。该算法可以相对精确地估计出混合模型中成分的个数,同时还 可以得到模型中参数的估计。b o o s t i n g 算法的主要思想是根据训练数据目前的 权重调用某些基础分类算法从而更新i j i i 练数据的权重,不断这样迭代,最终得到 这些基础分类器的加权组合。这个最终的分类器的效果明显高于那些基础的分 类器的效果。最近许多专家把b o o s t i n g 解释为是一种寻找最小化损失函数的分 类器组合的梯度下降算法。m a s o n 等人在他们的一篇文章中提出在分类器空问 中寻找与损失函数的负梯度内积最大的分类器做为新的迭加的分类器这样的思 想。既然b o o s t i n g 可以理解为一个熟悉的优化问题,我们就可以把这一思想用到 混合模型的建模中去,其中损失函数取为负对数似然。我们给出适当的停止规则 就可以估计出一个模型的理想成分的个数。在算法具体的执行中我们将b a g g i n g 这样的方法用到其中可以使我们的算法产生较为理想的停止规则。从而避免了 的成分数的选择和其他方法存在的某些问题而且固为它以迭代的方式来估计参 数的,因此该算法也适用于复杂密度的混合。我们的模拟实验也证明了它的上述 特点。 关键词:模型选择混合模型峰 b o o o s t i n ge m 算法b a g g i n g a b s t r a c t i v l i x t u r em o d e li so n eo ft h em a i nm e t h o d so fs t a t i s t i c a lp a t t e r n r e c o g n i a t i o ni n t h ef i e l do fp a t t e r nr e c o g n i a t i o ne s t i m a t i o no fm i x t u r em o d e l sh a sr e e e v i e ds i g n i f i c a n ta t t e n t i o no v e rt h ep a s tt h i r t yy e a r se m a l g o r i t h mi sp r o b a b l yt h eb e s tk n o w n a n dt h em o s ts t u d i e dm e t h o df o rn f i x t u r ee s t i m a t i o n w h i l el o c a l l yo p t i m a l ,t h ee m s o l u t i o nm a ys u f f e rf r o mt h ec h o i c eo fi n i t i a lm o d e p a r a m e t e r s ,t h ee s t i m a t i o no ft h e m o d e l so r d e rw h i c hi st h em o s td i f f i c u l ta n ds o n l e t i m e se x h i b i t i n gt h ev a r y i n gr a t e s o fc o n v e r g e n c e m o r e o v e r ,i tm a yb ep r o h i b i t i v e l ye x p e n s i v ef o rc o m p l e xk e r n e l s u n t i ln o wt h es o l u t i o n so ft h es e l e c t i o no fm o d e l so r d e rf i f em c m ca n dv a r i a n t a n ds oo n ,h o w e v e rt h er e s u l t sa r en o tv e r ys a t i s f i e d o u rp a p e ru s et h ei d e ao ft h e b o o s t i n gw h i c hi sm i m p o r t a n tc l a s s i f i c a t i o nm e t h o dt oe s t i m a t et h em i x t u r em o d e l b o o s t i n gw o r k sb ys e q u e n t i a l l ya p p l y i n gac l a s s i f i c a t i o na l g o r i t h mt or e w e i g h t e dv e r , s i o n so ft h et r a i n i n gd a t aa n dt h e nt a k i n gaw e i g h t e dm a j o r i t yv o t eo ft h es e q u e n c e o fc l a s s i f i e r st h u sp r o d u c t e dt h ep e r f o r m a n c eo ft h ef i n a lc l a s s i f i e ri sb e t t e rt h a n t h cw e a l 0 使 得讯7 ,于是训练误差的一个上界为r 一2 t 1 2 即训练误差以指数的速度下降。 第二章混合模型、b o o s t i n g 方法1 0 实际上,a d a b o o s t 算法是一个寻找基础分类器的线性组合的一个过程,目 的是最小化 莩e x p ( 咄“珀) 2 莩唧( 一虮莩毗扛t ) ) ( 。) 从本质上说,在每一步迭代过程中,a d a b o o s t 通过调用基础学习器选取h t ,然 后计算n 。,再把它们得乘积累加到前面迭代得到得分类器组合中去,用这样得方 式使得上述指数和最小化。换句话说,a d a b o o s t 是一种最小化( 2 2 ) 式的梯度下 降的搜索过程b o o s t i n g 的这种观点及其推广在有些文章中已经有详细的介绍 f h i e d m a n ,1 9 9 9 a ) ( f r i e d m a n ,1 9 9 9 b ) ( b r e i m a n ,1 9 9 6 ) ( m a s o n e ta 1 ,1 9 9 9 ) ( d u 匆和 h e h n b o l d ,2 0 0 0 ) 在研究和设计一个算法时,我们关心的是它对于训练样本以外的检验样本的 效果也就是它的推广误差。与上面不同的是我们假定每个样本,包括训练样本和 检验样本,都屉独立同分布地来自z y 上的一个未知分布推广误差指的是对 一个新样本错误分类的概率,而检验误差是在一个新的检验样本集上的错误分类 比率,因此推广误差是检验误差的期望。为了简单起见,我们仍讨论两类问题。 由s c h a p i r e 和f r e u n d 在其九七年的一篇问文中证明了推广误差的上界,此上界 与训练误差、样本的个数n 、基础分类器所在空间的v c 维数d 还有b o o s t i n g 迭 代的次数t 有关。他们运用b a u m 和h a u s s l e r 在文章( b a u m 和h a u s s l e r ,1 9 8 9 ) 里的技术证明了推广误差至多足 a g ( 、等) 这里尸r 1 表示训练样本的经验概率。 2 2 2a n y b o o s t 目前,不论是在理论上还是在实验上,产生组合分类器的算法已经受到人们 的广泛重视。这一节我们就来介绍一下寻找使损失函数最小化的分类器的线性组 合与凸组合的抽象算法。这些算法主要是利用了对损失函数进行梯度下降的优 化方法的思想。 第二章混合模型、b o o s t i n g 方法 首先我们来介绍一些概念我们假定样本( z ,) 随机的产生于 y 上的一个 未知分布口,这里x 是一个测度空间( 一般z 佗) ,y 是一个类标空问( y 通常足 一个冗的离散集合或者子集) 。给定一个样本集s 一 ( z ,) ( 7 7 。,。) ,( z w ,) ) 其中这n 个有标签的样本足根据分布口产生的。我们希望构造一个分类器的加 权组合形如: f ( z ) 丁 咄 ( z ) i = 1 使得户务 s g n ( f ( z ) ) ) 最小。也就是说f ( x ) 对一个任意随机样本的错误分类 概率要很小因为口是一个未知的分布并且我们只给出了训练样本集s ,所以我 们用某个损失函数的样本平均来代替上面的概率也就是说对给定的训练样本 集,要寻找一个f 来最小化损失函数的样本平均 ( ? ( ,) = 万1l ;n1 f ( 玑尸( 巩) ) , 其中损失函数足e :冗一亿 产生一个分类器的加权组合使得c ( f ) 最小化的一种解决方法就是在函数空 间利用梯度下降的思想。这个想法首次由b r e i m a n 在其1 9 9 8 年的一篇文章中提 出的( b r e i m a n ,1 9 9 8 ) 。在这里我们给出一个更加抽象的算法a n y b o o s t ,并且可 以证明a d a b o o s t 可以看做是在一个适当的内积空问上的梯度下降。 我们假定基础分类器,并且它们的组合f 是一个内积空间( ,( ) ) 中的 元素。在这种情形下,是一个函数线性空间,并且包含f 咖( f ) ,其中l i r a ( f ) 表 示的是户中的函数的所有线性组合构成的集合。我们定义内积为 1 :2 寺f ( 甄) g ( 孔) 其中任意的fg l i n ( y ) 假设我们已经有了一个函数f f 溉( ,) ,现在我们想找一个新的函数, 把它加到f 上后使得损失函数c ( f + e ) 下降,其中e 是一个很小的值即 c ( f + c f ) 0 ,那么损失函数就会下降。一旦新的函数被选定,那 么确定系数e 足通过最小化损失函数 c ( f + t ) 而确定的。将此过程继续下去,直到( 一v c ( f ) ,) 0 ,这时损失函数c ( f ) 将 不再下降。我们将抽象的算法概括为如下算法2 2 2 : a n y b o o s t 算法能产生基础分类器集合中元素的一个任意线性组合。下面我 们介绍另一个算法是寻找基础分类器的凸组合的一个算法a n y b o o s tl 1 ,其中发 生变化的足停止规则,a n y b o o s tl 1 的停止规则是( ,t 一鼠。,- v c ( r 一1 ) ) 0t h e n u c = a r g m i n c ( ( 1 一u ) r 一1 + u ) 丘= ( 1 一岫) e 一1 + 岫 重新估计前面的所有的参数,f e n di f e n df o r 第三章混合模型的估计 这一章我们就来介绍估计混合模型的一种新方法,这是一种递归式建模方 法,其方式是混合成分每次迭代以递归的方式添加,直到最好的拟合数据,从而 选择出一个理想的混合模型。新的方法不依赖于模型阶级数( 比如混合成分数) 的穷几搜索。这种方法独立的调整余下的混合成分的参数估计,因此可以解决复 杂核问题。与传统的基于e l v l 算法的参黼昆合建模方法和非参数的核密度估计相 比,该方法有许多优点。下面分节来叙述如何用我们这种方法来估计常见的两种 混合模型:g & l l s s i o n 分布混合模型和t 分布混合模型。 3 1g a u s s i o n 混合模型的估计 假定我们得到一组独立同分布的d 维观测数据z ,x 2 ,一,z ,现在我们要估 计该分布的参数模型,( 。) 对于g a u s s i o n 混合模型,每个成分的概率密度是一 个正态密度即: ( z l 口。) = ( 2 丌) 一;i ,i 一;e x p 2 这里哦= ( ,圯。) 在分类问题中b o o s t i n g 是依次混合分类器,每次添加的分类 器减小分类误差,利用这种思想,我们这里依次添加混合成分来最小化数据的负 对数似然 假定我们已经得到一个关于数据的混合密度估计r ( z ) ,现在要寻找一个新 的正态成分 + ,( z ) 使 其中 于是我们可计算得列 ,( f ) = 一1 1 1 ,1 = 而1 竺。j ( f ( x 。) ) v j ( f ) 2 寺 1 4 、j 肛一 v 忡”= ,窆 由我们前匦介绍的算法a n y b o o s tl l ,我们仍然令内积为如下定义 := 嘉喜酬删 利用前面介绍的a n y b o o s tl 1 算法,那么 + ,( z ) = n r g w x ( 一只,一v ,( r ) ) = 哪弩x ( 去,一r ) 5 ”9 “丽1x 臼- 面矿 “,( 乳) 一只( ) 另外相应地 w t + 1 = a r g r a i n j ( ( 1 一叫) 只+ w f t + 1 ) 在估计 + ,( z ) 和讪+ ,时可阻把上面两步合并为一步来估计,我们可以对式子 ( 3 1 ) 利用e m 算法来同时估计a + l ( z ) 和u 州,下面我们给出同时估计这两个参 数的计算步骤。 在实际问题中我们用数据的似然和来 c ( ) = 墨,l n ( 1 一u ) r ( z 。;b ) + u ,( z 而目) ) , 代替对数似然的期望 ( ) = e l n ( 1 一u ) r ( z 。;吼) + 。,( z 。;8 ) ) , 一般来说,我们不可能获得观测数据集最大对数似然( 下式) 的显示解 c ( ) = 2 。l n ( ( 1 一u ) 只( 巩) + w m n j 目) ) , 第三章混合模型的估计 1 6 其中 = ( u 、p ) 因而,我们需要利用e m 算法来估计模型的参数。这个问题可 以看作两个成分的e m 算法估计问题。令 于是我们得到完全数据的对数似然 n r 2 、 厶( ) 2 薹m 黔a ( 咿。j 这里o = ( 日) “= 1 ,2 ) 。其中引入 。) 用来表示数据点来自于那个部分 的二元变量 ) 。当z 。来自于第i 个时,南。取值为1 ,否则取0 。这里的损 失数据就足潜在二值变量 碥) 。记p ( x 。z n i ) = ”i p ( x ,。;日) 为观测变量和潜在变 量的联合分布,其中,p ( z 。;p ) 是给定z n i = 1 时向量( x n ;日) 的密度函数,也就 足某个类的密度函数,如果我们忽略所有的下标,完全数据的对数似然为 n2 c ,( ) = 1 n i i t 嘲p ( 口) p ) n = 1e = 1 = i nm p ( 晰口) h ”。p z ( 铽口) p ) n = 1 - l n ”l p ( 吲p ) + ( 1 一铀) i n ( 1 一”,) p 。( 口) ) = 1 f l n u m 。;p ) + ( 1 一,) l n ( 1 一u ) r ( 吼) 】) n = 1 e m 算法的每一次迭代,模型参数 = ( u 目) ( 其中8 = ( 肛,) ) 的旧值通过两步e 步和m 步被更新到新值画:( 苗,动,( 其中歹= ( 百、亘) ) ppp g 。h。d 第三章混合模型的估计1 7 e 步:求c 1 关于在给定观测变量h 的条件下,。的后验分布的期望 q ( 画; ) = 既。, ( c 1 ( 由) ) m 步:找一个能最大化q ( ; ) 的函数o = e ( o ) ,这里,q ( ;0 ) 足 的函数,把 视为常数。 对于c a u s s i o n 分布, f ( x 。;目) = p lx 。;口) = ( 2 ”) 一g i s 下面我们给出g a u s s i o n 混合模型中参数估计 1 e s t e p : q ( 舀, ) = e :。i 。( c 。( 6 ) ) 这里 ( z 。一肛) t _ 1 ( z 。 2 p ( 如1 _ x x n ,p ,) 1 n 【西m 而皿,妻) n = 1 v + - _ 尸( d = o i z 。,p ,) 1 i ( 1 一o ) 尻( 茁。;0 。) ,;= 1 nn r l n p m 。;豇,妻) 】+ ( 1 一r ) 1 n ( 1 一。) r ( 州巩) n = 1n = 1 r = p ( z “= 1 1 z 。,0 ) p ( z 。i 1 = 1 ) u = - 。一 p ( x 。) f ( x 。;目) u ( 1 一u ) r ( z 。;0 t ) + “,( z 。;0 ) 2 m s t e p :为了更新参数0 ,我们最大化q ( 国, ) 于是得到下面的更新公式 、l, 曲一 第三章混合模型的估计 即 1 。= 专r 1 8 ( 32 ) ( 33 ) 莹:墨坐唔掣生型 ( 3 4 ) 墨。r 。 由此我们得到一个新的正态成分,将这样的过程继续下去,我们知道当 ( ,一只,一v j ( r ) ) 1 ,肛是均值向量;当” 2 一v ( v 一2 ) 是协方差阵当v 一。时,正态分布( v ,) 就变成了t 分布。我们这里假定 所有的成分有相同的自由度v 第三章混合模型的估计 2 0 为了生成一个t 分布向量z 。先从f ( g ( 2 ,2 ) ) 分布中抽取一个,样 本。g ( n ,d ) 分布的密度函数为: 北) - p 邢) = 箭唧z ) 得到r 之后,对正态分布n ( t ,r ) 再抽样就得到了向量z 。( p ,r ) 的条 件密度为 p ( z r ) = i 五靠e x p ( 一百7 - ( z 。一p ) 7 一1 ( z 。一芦) ) 我们容易证明 p ( x 。;“,e ,p ) p ( z 。i 丁) p ( 丁) d 7 j 0 在我们的算法里,损失数据包括二值变量 z n 。) ( 当z 。来自于第i 个时, 取值为1 ,否则取0 。) 和g a m m a 分布随机向量。表示生成第i 个成分的r 分 布( 江1 ,2 ) 记 f ( x g n ,;) = 仉。( x 。,h 。) 为观测变量和潜在变量的联合分布,其中,f ( x 。l 。) 是给定。= l 时向量 ( xn 丁礼i ) 的密度函数,也就是某个类的密度函数,如果我们忽略所有的下标,完 全数据的对数似然为 v c 。( ) = l n “f ( x 。阳;口) + ( 1 n = l 其中 = ( u ,目) ,0 = ( 肛,) 下面我们就利用e m 算法来估计新成分中的参数和 这个成分的权重。 第三章混合模型的估计 e 步: q ( 园, ) 2 邑礼h ,| e ( c 。( 6 ) ) 这里 1 j z n ,日) 1 1 1 0 + p ( z m = o x 。,口) l n ( 1 一o ) , + _ 出。, p ( 1 = 1 1 1 。,口) i n f ( x 。,1 ,目) 、n = 1 + j d ( 锄= 。k ,日) l n r ( 吲吼) 、 p n l n ( = + ( 1 一r ) l n ( 1 一。) n = 1 q 1 ( o ;0 ) + n ,。 n = 1 l q 1 ( 0 ;e ) 心) l n r ( ;以) l e r 1 n m 鼎,t i ) + ( 1 一驯n 脚捌t ) ) 2 1 + 姜卜剐+ r x n ,t n l , i n i n f ( i x 叫 + ( 1 一只) r ( z 。;仇) + ) ,( 一。,。, ) d , n = l 、 。 , r = p ( 1 = l l 。日) ,) ( f 。z n l = 1 ) u p ( z 。) ( 1 一。) r ( z 。;巩) + u ,( z 。,7 i 1 zp 。d + 口 # n r“ ,、l 。d + 第三章混合模型的估计 上式中 2 2 i l n 他捣,o ) f f f n ,帆, = l n ,( 蚓,町( 功) ) ,( 训训帆 = 小n m 一功,h 帆1 ) ) 帆,h ) 帆, = l n ( 2 一匐- :2e x p ( 一等刊7 p 刊) ) 瓶加棚) 帆, + 卜 篇音:e x p c 小嘲,踟r , = 八一:i n 2 7 r + :i n t n :- - 产1 闯一t t n l _ 露) 噔1 ( 矿勐) 瓶出捌妣 + 仆z ,( 篇) + c 却- 呱t 一一k 舡捌凤t = 一;l n 2 7 r - 知n ( 器) ) + ;1 n 铂一百t n l ( 刊蟹1 ( 妒卅( ;_ 1 ) l n - v 地,m ) 帆- = 一! i n 2 7 :- 尹1 鼬n ( 糕) ) + ( ;+ ;- 1 ) 卜“( 训酬 一 ;( z ,。一丘) 7 莹一1 ( z 。一面) 一v i 厂h ,( _ z n ,目) d t , 。f _ d 。i n 2 ,r 一如n ( 篇) ) + ( i d + ;一1 ) e ( 1 n h ,z 。口) 一 ;( z 。一声) 7 莹一1 ( z n 一犀) 一v e ( ,i z n ,p ) 由于 z 。i 吒( p :z r 。) 第三章混合模型的估计 我们可知h i x 。日一r ( ,卢) 其中 由上我们可知道 d + o3 _ 卢:虹型些挚业 2 + d 一 ( z ,。一卢) t e 一1 ( z 。一卢) + = 3 f o ”i n 7 n j ,( h - i z n ,口) d , = 咖( 半) 乩。刊7 e 。( x n - - 2 ) + ” 2 3 其中t f ,( a ) 定义如r 帅,= 掣掣= 器 m 步:通过最大化q ( 6 ,e ) ,我们得到如下t 分布的参数的更新公式: 。n = _ 。= 寺p ( 铀= l p ,) ( 35 ) “= p ( 铂= 1 k ,肛,) 面罚趟葺而;z n ,1 = n ep ( 钔= ,肛,) 面珂岩最而 n 2 v p ( z n l = l 肛、) 瓦罚嗤毪而而( z n 一面) ( z n n = j n 2 v p ( 锄1 = 1 1 x n ,p ,e ) n 5 l 皿) 丁 ( 36 ) f 37 ) 和正态混合模型相似,利用前面提到的停止规则,我们得到如下混合t 一分 布模型的估计算法3 2 1 第三章混合模型的估计 2 4 1 b o o s t i n g 算法3 2 基于 的混合t 分布模型的估计算法 输人:as e to fs a m p l e ss = z 1 ,x 2 ,z ,) 输出:a na d d i t i v em o d e lf = e 咄 给定” 令,0 = t ( z ;应o ,o ,) 风= 专z 。 0 _ 丙1 ( 矾一凤) 2 岫= l 蜀= ,o 岛= c ( f o ) f o r i = l ,2 ,d o 令u o = 并且随机的选取枷和o 然后利用e m 算法来确定新成分的参数 f o r i = l ,2 ,一d o 利用式子( 3 4 ) ,( 35 ) ,( 36 ) 来估计参数直到收敛 e n d f o r 得到参数觑,觑, 令,t = t ( z ;风,) i f 南塞耸抖 o t h e 。 最= ( 1 一咄) 只一1 - t - 咄 e n d i f 利用e m 算法重新估计前面所有成分的参数u ,肚, e n d f o r 3 3 利用b a g g i n g 方法加速算法 到目前为止我们已经介绍了利用b o o s t i n g 方法来估计混合正态模型和混合 t - 分布模型的估计算法,这种方法是迭代式的添加混合成分。就象我们在第二章 中介绍的一样,如果b o o s t i n g 方法不加检验的进行下去的话将有可能出现过度 拟合。在密度估计中将会导致每个数据是一个成分。迭代的数目需要固定从而使 估计量的方差超过偏差的减少。另外我们上面提到的停止规则也有可能出现过 度拟合的现象。在这里我们提出一个b a g g i n g 方法的变形,它可以减少方差的同 第三章混合模型的估计2 5 时同时给出一个自动化准则来停止算法。并且对于大量数据的情形,我们使用 b a g g i n g 方法可以提高算法的运算速度,并且不会影响到算法的效果。 b a g g i n g 方法最初的执行足由b r e i m a n 在1 9 9 6 年提出来的( b r e i m a n ,1 9 9 6 ) , 一个简单的执行就屉用一半数据来拟合模型而不用b o o t s t r a p 数据。所得结果和 单独一个模型相比,具有一样的偏差,但是具有低的方差。在1 9 9 9 年,b r e i m a n 提出一种混合的b a g g i n g - b o o s t i n g 过程( b r e i m a n ,1 9 9 9 ) ,实验证明这样可以提高 b o o s t i n g 的效果,并且可以阻止过度拟合现象受b r e i m a n 的启发,我们将这种 策略用到我们目前的这个问题中,那么在b o o s t i n g 算法的每步迭代中从n 个数 据样本中随机抽取i n 个观测值作为迭代的样本。e m 算法将会利用这一半数据 来搜索最优的成分添加到原来的混合模型中在实际中,这样减少了e m 算法的 输入数据,同时也提高了模型估计的效率。 仅仅使用一半的观测数据来估计每个成分用剩下的一半数据用来得到似然 增量的近似无偏估计。我们可以使用这些“o u t o f b a g ”观测数据来计算密 度估计的对数似然增量,( ( 1 一n ) f + n ,) 一j ( f ) 的无偏估计当e m 算法收敛 时我们用下式来计算j aj= 2 。9 ( ( 1 一a ) f ( x ,) 十a ,( ) ) 1 0 9 ( 1 ( z t ) ) =fdg(1-m怒)ism l t - - o f - - b a g 、。77 当成分十分接近时,j 将为负的。此时,我们将不在添加新的成分。这样阻止 了过度拟合的现象,除非数据真的能保证。一般的来说,当混合成分累积时,i , 会变的很小,有时可能为负值。估计的性质对于这种在迭代次数上的微小变化不 足很敏感。当几步迭代之后,为负的时,我们将停止b o o s t i n g 过程。一些多余 的迭代是不会影响密度估计的,但是我也不希望浪费计算时间 我们可以看到,算法中有些部分是随机的。我们已经随机抽取了e m 迭代中 参数的初始值,另外b a g g i n g 步骤又增加了算法的随栅陛。这就意味着重复运行 算法会生成不同的密度估计。 第四章模拟实验的结果 这一章中我们利用z i 模拟数据来展示新算法的效果,我们就混合正杰摸 型做了一系列实验,现将结果比较分析如下。下面我们来分析一下以下的各种结 果。 其中第一个实验里我们选用两个一维正态成分的原始模型生成两千个数据 点,原始模型的参数足肛l = 一2 ,o - 1 = 1 ,“1 = 0 5 ;口2 = 2 ,口2 = l ,u 2 = 0 5 ;其中图 4l 是训练数据的直方图,图4 2 是估计出来的模型的混合密度曲线,图4 3 足真 实密度和估计模型的比较图。从两图的比较中我们可以看出成分的个数和参数 的估计足具有一定的精确度的。 图4 1 :一维正态混合密度真实分布的直方图 另外我们还针对两个成分比较接近的模型做了一个实验。这个实验里我们 选用两个一维正态成分的原始模型生成两千个数据点,原始模型的参数足肛,= 一2 ,口 = 2 ,u 1 = o 矗舰= 2 ,面= 2 ,u 2 = o 5 ;图4 4 是原始数据的直方图,接着图 4 5 给出的足利用我们的算法估计出来的密度曲线,图4 6 显示的是真实密度和 估计曲线的比较图。从这些图形上我们可“看出估计的精确程度。 第三个实验里我们选用三个一维正态成分的原始模型生成三千个数据点, 原始模型的参数是“1 = - 2 6 0 ,o - 1 = 4 9 ,u 1 = 02 ;f 地= - 2 0 ,d 2 = 4 9 ,“2 = o 4 ;肛3 = 2 6 0 ,o - 3 = 4 9 ,u 3 = 0 4 其中图4 7 是训练数据的直方图,图4 8 是估计出来的模 2 6 第四章模拟实验的结果 图42 :一维正态混合密度的估计曲线 型的混合密度曲线,从两图的比较中我们可以估计的精确性 第四个实验里我们选用三个比较接近的一维正态成分的原始模型生成三干个 数据点,原始模型的参数是p 1 = 一2 6 0 ,口1 = 7 0 ,u 1 = 0 2 ;肛2 = 一2 0 ,o - 2 = 7 0 ,u 2 = 0 4 ;脚= 2 6 0 ,c r a = 8 0 ,u 3 = 0 4 其中图4 9 是训练数据的直方图,图4 1 0 是估计 出来的模型的混合密度曲线,图4 1 l 是真实密度和估计模型的比较图。从图中 我们可以看出在这种情形下估计仍然具有一定的精度。 第四章模拟实验的结果 图43 一一维正态混合密度的比较图 图4 4 :一维正态混合密度真实分布的直方图 2 8 第五个实验里我们选用四个一维正态成分的原始模型生成一万千个数据点, 原始模型的参数是“1 = 一2 6 0 ,0 - 1 = 4 9 ,u l = 0 2 ;“2 = 一2 0 ,0 - 2 = 3 9 ,岫= 03 ;m = 1 6 0 ,0 - 3 = 3 9 ,u 3 = 0 2 ;肛4 = 2 6 0 ,0 - 4 = 3 9 ,u 4 = 0 3 其中图41 2 是训练数据的直方 图,图4 1 罩足估计出来的模型的混合密度曲线,图4 1 4 屉真实密度和估计模型 的比较图。利用我们的算法估计出的模型和真实模型还是很接近的。 第六个实验里我们选用五个一维正态成分的原始模型生成一万个数据点, 原始模型的参数是p l = 一2 6 0 ,0 - l = 4 9 u 1 = o 2 ;p 2 = 一2 0 ,0 - 2 = 4 9 ,o j 2 = o2 j p 3 = 1 6 0 ,0 - 3 = 3 0 ,u 3 = 0 3 ;p 4 = 3 6 0 ,0 - 4 = 2 0 ,t j 4 = 0 2 ;p 5 = 4 6 0 ,o - 5 = 2 0 ,o j 5 = 0 1 其中 第四章模拟实验的结果 1 3 日3 3 9 5 0 4 a 2 0 2 5 3 ( y + w 5 9 5 1 8 1 5 1 7 9 9 8 13 6 8 5 2 4 e ) l p 图45 一维正态混合密度的估计密度曲线 2 9 图41 s 是训练数据的直方图,图4t 6 是估计出来的模型的混合密度曲线,我们 发现最后两个成分从图形上看合成了一个成分,出现这种现象是由于两个成分 十分接近,而且最后一个成分的权重个其他成分相比较而言很小。我们做了另外 一个实验,其中把第五个成分的权重加大,并且让它和第四个成分的距离拉远发 现还是可以精确的估计出混合模型的峰的个数。 第四章模拟实验的结果 图4 ,6 :一维正态混合密度的比较图 图4 7 :一维正态混合密度的数据直方图 第四章模拟实验的结果 6 4 5 2 1 h b e 2 3 0 3 p * ”1 1 h d o “一1 岫( ”1 0 0 3 1 ,h 图4 8 :一维正态混合密度的估计曲线 图4 9 :一维正态混合密度的直方图 3 1 第四章模拟实验的结果 d 6 日7 6 0 0 0 0 日x “0 f ” h l y - 3 1 7 6 1 1 0 8 5 吲4 9 0 w b 7 9 9 3 0 2 2 1 0 8 1 2 p 图41 0 :一维正态混合密度的估计曲线 图41 1 :一维正态混合密度的比较图 3 2 第四章模拟实验的结果 图41 2 :一维正态混合密度的数据直方图 1 7 2 m 1 w a q 5 时f + 7 4 m b 2 1 0 2 6 删8 1 d 7 4 口7 1 0 5 5 6 + 1 4 一w 5 0 9 5 1 7 舢b 1 “ 图41 3 - 一维正态混合密度的估计曲线 第四章模拟实验的结果 图41 4 一维正态混合密度的比较图 fi t 。j l ji溘 图41 5 :一维正态混合密度的数据直方图 第四章模拟实验的结果 图41 6 :一维正态混合密度的估计曲线 图41 7 :一维正态混合密度的比较图 第五章结论和进一步的问题 5 1 结论 本文提供了一种解决混合模型估计问题的方法,尤其是针对模型选择问题。 算法的简单易行是它的明显的特点。算法主要是利用分类方法中的b o o s t i n g 算 法的思想得出的。这个递归算法利用函数梯度优化的思想来寻找混合成分的凸 组合。在估计参数的同时可以相对精确地估计出模型的成分个数本文得出的算 法可以分为几个阶段,每个阶段都可以适应大量数据的应用问题。在这里我们提 出用一半的数据来选择似然函数下降最快的方向也就足用来选择新的成分,而 剩下的一半用来检验估计。对于大量的数据在e m 算法中选取一半的数据来计 算参数不会使算法的效果下降。在这里我们仅仅希望能够使似然得函数增加, 因此我们不需要迭代到e m 算法收敛。另外从第四章的模拟结果可以看出,对于 一维,二维的混合模型我们可以通过图形直观地看出模型成分的个数,但是对于 高维问题的处理上还存在一定的问题。其中一点就是对于算法的输出参数的合 并,这个合并的准则目前还是基于经验的,这是该算法的不足之处。利用这种梯 度下降的思想早在过去就有有人提出,m a s o n 等人在1 9 9 9 年一篇文章( m a s o n c ta l ,1 9 9 9 ) 中将这种方法用在可加分类问题中,还有f r i e d m a n 在1 9 9 9 年的文章 ( f r i e d m a n ,1 9 9 9 ) 中也将这样的方法用在回归问题中。在某些方面相类似的算法 最近由v e r b e e k 等人提出( v e r b e e k ,v l a s s i s 和k r 6 s e ,2 0 0 3 ) 。在他们的文章中, 作者也试图解决同样的混合模型的估计问题。而他们没有直接解决 ,( ( 1 一“) r + u + 2 ) ,( e ) 的优化问题,而是用了一种探试性的搜索 5 2 进一步的问题 由于算法具有的随机性,有时会使得我们的结果有不太理想,甚至误差很 大。对于这个问题我们仍然要继续研究怎样使该算法具有很好的稳定性。在这方 3 6 第五章结论和进一步的问题 3 7 面研究中仍然有大量的工作需要做。本文关于混合模型中的模型选择问题的工 作仍然有些方面有待进一步完善。下面的几个问题还是值得注意的。 1 在文章中每个成分的维数是一样的,我们没有考虑对于不同的成分具有不同 维数的情形下算法应该怎样的问题。 2 在算法的停止规则中,我们除了使用b a g g i n g 方法外还可以使用常用的k l 距离来判断似然函数的收敛状况,从而决定是否停止, 3 最后,我们这个算法既然可以用在混合模型的模型选择上,那么在因子分析 模型中是否也有类似的效果呢? 致谢 首先感谢我的导师江其保副教授。本文是在江老师的悉心指导下完成的。从 本文的选题、文献的收集到论文的写作以及最终定稿,无不倾注着导师的心血和 汗水。江老师渊博的知识,严谨的治学态度,敏锐的洞察力,坦荡的胸襟,让我 耳濡目染,受益终生。研究生学习期间,江老师为我的学习、研究提供了一切优 越的条件、环境、发展空间与机会;生活上无微不至的关怀更足让我感到温暖。 在此,谨向我的导师致以最崇高的敬意和衷心的感榭! 感谢东南大学数学系的悉心培养。在研究生学习期间,数学系的领导和老师 们给予了诸多帮助,对他们表示谢意。 感谢韦博成教授,朱道元教授,薛星美副教授,潘平奇教授和胡跃清副教授 等为我的专业学习打下了扎实的理论基础。 在论文的写作过程中,我的导师江老师还为我提供了大量难得的资料;另外 还得到了我的师兄赵建华和谢锋昌和我的同学霍静波的热心支持;谢谢你们! 参考文献 1 】j i a n h u az h a n dq i b a oj i a z l g ( 2 0 0 2 ) p r o h a b i l i s t i cp c af o rtd i s t r i b u t i o n p r e p u i n t s u b m i t t e dt oe l s e v i e rs c i e n s c 阁a n i lkj m n ,f e l l o w ,r o b e r tpw d u i n ,a n dj i a n e h a n gm a o ( 2 0 0 0 ) s t a t i s t i e m p a t t e r nr e c o g n i t i o n :av i e wi e e 目t r a n s a c t i o n so np a t t e r na n a l y s i sa n dm a c h i n e i n t e l l i g e n c e ,2 2 :4 - 3 7 【n 】3 r o b e r te $ c h a p i r e ( 1 9 9 0 ) t h es t r e n g t ho fw e a kl e a r n a b i l i t ym a c h i n el e a r n i n g ,5 1 9 7 - 2 2 7 4 】y o a vl * e u n d ( 1 9 9 5 ) b o o s t i n gaw e a kl e a r n i n ga l g o r i t h mb ym a j o r i t y i n f o r m a n d c o m p u t ,1 2 1 :2 5 6 2 8 5 5 1 y o a vf r e n n da n dr o b e r tes c h a p i r e ( 1 9 9 6 ) e x p e r i m e n t sw i t han o wb o o s t i n ga l g o r i t h m m a c h i n el e a r n i n g :p r o c e e d i n g so ft h et h i r t e e n t hi n t e r n a t i o n a lc o n 扛f e n c e : 3 2 5 3 3 2 【6 】y o a vp r e u n d a n dr o b e r tes c h a p i r e ( 1 9 9 7 ) ad e c i s i o n - t h e o r e t i cg e n e r a l i z a t i o no f o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论