（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-05 格式：PDF 页数：44 大小：800.09KB 积分：12 举报 版权申诉

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf_第2页

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf_第3页

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf_第4页

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf_第5页

已阅读5页，还剩39页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要在模式识别这个领域中，混台模型是统计模式识别最主要的模型之一。混合模型的估计方法有很多，其中研究最多并且为人们所熟知的是e m 算法。然而局部优化的e m 算法可能会遇到一些问题，比如初始模型参数的选取，有时该算法还可能表示出不同的收敛速度，另外最困难就是模型阶数( 模型的成分个数和维数) 的确定。在混合模型中一个越来越重要的任务就是模型选择问题，即选择模型的成分个数和维数。目前的研究方法有m c m c 还有变分法等等，但是解决的效果都不是很好。本文主要是利用b o o s t i n g 算法的思想得出的一个估计混合模型的递归式算法。该算法可以相对精确地估计出混合模型中成分的个数，同时还可以得到模型中参数的估计。b o o s t i n g 算法的主要思想是根据训练数据目前的权重调用某些基础分类算法从而更新i j i i 练数据的权重，不断这样迭代，最终得到这些基础分类器的加权组合。这个最终的分类器的效果明显高于那些基础的分类器的效果。最近许多专家把b o o s t i n g 解释为是一种寻找最小化损失函数的分类器组合的梯度下降算法。m a s o n 等人在他们的一篇文章中提出在分类器空问中寻找与损失函数的负梯度内积最大的分类器做为新的迭加的分类器这样的思想。既然b o o s t i n g 可以理解为一个熟悉的优化问题，我们就可以把这一思想用到混合模型的建模中去，其中损失函数取为负对数似然。我们给出适当的停止规则就可以估计出一个模型的理想成分的个数。在算法具体的执行中我们将b a g g i n g 这样的方法用到其中可以使我们的算法产生较为理想的停止规则。从而避免了的成分数的选择和其他方法存在的某些问题而且固为它以迭代的方式来估计参数的，因此该算法也适用于复杂密度的混合。我们的模拟实验也证明了它的上述特点。关键词：模型选择混合模型峰 b o o o s t i n ge m 算法b a g g i n g a b s t r a c t i v l i x t u r em o d e li so n eo ft h em a i nm e t h o d so fs t a t i s t i c a lp a t t e r n r e c o g n i a t i o ni n t h ef i e l do fp a t t e r nr e c o g n i a t i o ne s t i m a t i o no fm i x t u r em o d e l sh a sr e e e v i e ds i g n i f i c a n ta t t e n t i o no v e rt h ep a s tt h i r t yy e a r se m a l g o r i t h mi sp r o b a b l yt h eb e s tk n o w n a n dt h em o s ts t u d i e dm e t h o df o rn f i x t u r ee s t i m a t i o n w h i l el o c a l l yo p t i m a l ，t h ee m s o l u t i o nm a ys u f f e rf r o mt h ec h o i c eo fi n i t i a lm o d e p a r a m e t e r s ，t h ee s t i m a t i o no ft h e m o d e l so r d e rw h i c hi st h em o s td i f f i c u l ta n ds o n l e t i m e se x h i b i t i n gt h ev a r y i n gr a t e s o fc o n v e r g e n c e m o r e o v e r ，i tm a yb ep r o h i b i t i v e l ye x p e n s i v ef o rc o m p l e xk e r n e l s u n t i ln o wt h es o l u t i o n so ft h es e l e c t i o no fm o d e l so r d e rf i f em c m ca n dv a r i a n t a n ds oo n ，h o w e v e rt h er e s u l t sa r en o tv e r ys a t i s f i e d o u rp a p e ru s et h ei d e ao ft h e b o o s t i n gw h i c hi sm i m p o r t a n tc l a s s i f i c a t i o nm e t h o dt oe s t i m a t et h em i x t u r em o d e l b o o s t i n gw o r k sb ys e q u e n t i a l l ya p p l y i n gac l a s s i f i c a t i o na l g o r i t h mt or e w e i g h t e dv e r ， s i o n so ft h et r a i n i n gd a t aa n dt h e nt a k i n gaw e i g h t e dm a j o r i t yv o t eo ft h es e q u e n c e o fc l a s s i f i e r st h u sp r o d u c t e dt h ep e r f o r m a n c eo ft h ef i n a lc l a s s i f i e ri sb e t t e rt h a n t h cw e a l 0 使得讯7 ，于是训练误差的一个上界为r 一2 t 1 2 即训练误差以指数的速度下降。第二章混合模型、b o o s t i n g 方法1 0 实际上，a d a b o o s t 算法是一个寻找基础分类器的线性组合的一个过程，目的是最小化莩e x p ( 咄“珀) 2 莩唧( 一虮莩毗扛t ) ) ( 。) 从本质上说，在每一步迭代过程中，a d a b o o s t 通过调用基础学习器选取h t ，然后计算n 。，再把它们得乘积累加到前面迭代得到得分类器组合中去，用这样得方式使得上述指数和最小化。换句话说，a d a b o o s t 是一种最小化( 2 2 ) 式的梯度下降的搜索过程b o o s t i n g 的这种观点及其推广在有些文章中已经有详细的介绍 f h i e d m a n ，1 9 9 9 a ) ( f r i e d m a n ，1 9 9 9 b ) ( b r e i m a n ，1 9 9 6 ) ( m a s o n e ta 1 ，1 9 9 9 ) ( d u 匆和 h e h n b o l d ，2 0 0 0 ) 在研究和设计一个算法时，我们关心的是它对于训练样本以外的检验样本的效果也就是它的推广误差。与上面不同的是我们假定每个样本，包括训练样本和检验样本，都屉独立同分布地来自z y 上的一个未知分布推广误差指的是对一个新样本错误分类的概率，而检验误差是在一个新的检验样本集上的错误分类比率，因此推广误差是检验误差的期望。为了简单起见，我们仍讨论两类问题。由s c h a p i r e 和f r e u n d 在其九七年的一篇问文中证明了推广误差的上界，此上界与训练误差、样本的个数n 、基础分类器所在空间的v c 维数d 还有b o o s t i n g 迭代的次数t 有关。他们运用b a u m 和h a u s s l e r 在文章( b a u m 和h a u s s l e r ，1 9 8 9 ) 里的技术证明了推广误差至多足 a g ( 、等) 这里尸r 1 表示训练样本的经验概率。 2 2 2a n y b o o s t 目前，不论是在理论上还是在实验上，产生组合分类器的算法已经受到人们的广泛重视。这一节我们就来介绍一下寻找使损失函数最小化的分类器的线性组合与凸组合的抽象算法。这些算法主要是利用了对损失函数进行梯度下降的优化方法的思想。第二章混合模型、b o o s t i n g 方法首先我们来介绍一些概念我们假定样本( z ，) 随机的产生于 y 上的一个未知分布口，这里x 是一个测度空间( 一般z 佗) ，y 是一个类标空问( y 通常足一个冗的离散集合或者子集) 。给定一个样本集s 一 ( z ，) ( 7 7 。，。) ，( z w ，) ) 其中这n 个有标签的样本足根据分布口产生的。我们希望构造一个分类器的加权组合形如： f ( z ) 丁咄 ( z ) i = 1 使得户务 s g n ( f ( z ) ) ) 最小。也就是说f ( x ) 对一个任意随机样本的错误分类概率要很小因为口是一个未知的分布并且我们只给出了训练样本集s ，所以我们用某个损失函数的样本平均来代替上面的概率也就是说对给定的训练样本集，要寻找一个f 来最小化损失函数的样本平均 ( ? ( ，) = 万1l ；n1 f ( 玑尸( 巩) ) ，其中损失函数足e ：冗一亿产生一个分类器的加权组合使得c ( f ) 最小化的一种解决方法就是在函数空间利用梯度下降的思想。这个想法首次由b r e i m a n 在其1 9 9 8 年的一篇文章中提出的( b r e i m a n ，1 9 9 8 ) 。在这里我们给出一个更加抽象的算法a n y b o o s t ，并且可以证明a d a b o o s t 可以看做是在一个适当的内积空问上的梯度下降。我们假定基础分类器，并且它们的组合f 是一个内积空间( ，( ) ) 中的元素。在这种情形下，是一个函数线性空间，并且包含f 咖( f ) ，其中l i r a ( f ) 表示的是户中的函数的所有线性组合构成的集合。我们定义内积为 1 ：2 寺f ( 甄) g ( 孔) 其中任意的fg l i n ( y ) 假设我们已经有了一个函数f f 溉( ，) ，现在我们想找一个新的函数，把它加到f 上后使得损失函数c ( f + e ) 下降，其中e 是一个很小的值即 c ( f + c f ) 0 ，那么损失函数就会下降。一旦新的函数被选定，那么确定系数e 足通过最小化损失函数 c ( f + t ) 而确定的。将此过程继续下去，直到( 一v c ( f ) ，) 0 ，这时损失函数c ( f ) 将不再下降。我们将抽象的算法概括为如下算法2 2 2 ： a n y b o o s t 算法能产生基础分类器集合中元素的一个任意线性组合。下面我们介绍另一个算法是寻找基础分类器的凸组合的一个算法a n y b o o s tl 1 ，其中发生变化的足停止规则，a n y b o o s tl 1 的停止规则是( ，t 一鼠。，- v c ( r 一1 ) ) 0t h e n u c = a r g m i n c ( ( 1 一u ) r 一1 + u ) 丘= ( 1 一岫) e 一1 + 岫重新估计前面的所有的参数，f e n di f e n df o r 第三章混合模型的估计这一章我们就来介绍估计混合模型的一种新方法，这是一种递归式建模方法，其方式是混合成分每次迭代以递归的方式添加，直到最好的拟合数据，从而选择出一个理想的混合模型。新的方法不依赖于模型阶级数( 比如混合成分数) 的穷几搜索。这种方法独立的调整余下的混合成分的参数估计，因此可以解决复杂核问题。与传统的基于e l v l 算法的参黼昆合建模方法和非参数的核密度估计相比，该方法有许多优点。下面分节来叙述如何用我们这种方法来估计常见的两种混合模型：g & l l s s i o n 分布混合模型和t 分布混合模型。 3 1g a u s s i o n 混合模型的估计假定我们得到一组独立同分布的d 维观测数据z ，x 2 ，一，z ，现在我们要估计该分布的参数模型，( 。) 对于g a u s s i o n 混合模型，每个成分的概率密度是一个正态密度即： ( z l 口。) = ( 2 丌) 一；i ，i 一；e x p 2 这里哦= ( ，圯。) 在分类问题中b o o s t i n g 是依次混合分类器，每次添加的分类器减小分类误差，利用这种思想，我们这里依次添加混合成分来最小化数据的负对数似然假定我们已经得到一个关于数据的混合密度估计r ( z ) ，现在要寻找一个新的正态成分 + ，( z ) 使其中于是我们可计算得列，( f ) = 一1 1 1 ，1 = 而1 竺。j ( f ( x 。) ) v j ( f ) 2 寺 1 4 、j 肛一 v 忡”= ，窆由我们前匦介绍的算法a n y b o o s tl l ，我们仍然令内积为如下定义：= 嘉喜酬删利用前面介绍的a n y b o o s tl 1 算法，那么 + ，( z ) = n r g w x ( 一只，一v ，( r ) ) = 哪弩x ( 去，一r ) 5 ”9 “丽1x 臼- 面矿 “，( 乳) 一只( ) 另外相应地 w t + 1 = a r g r a i n j ( ( 1 一叫) 只+ w f t + 1 ) 在估计 + ，( z ) 和讪+ ，时可阻把上面两步合并为一步来估计，我们可以对式子 ( 3 1 ) 利用e m 算法来同时估计a + l ( z ) 和u 州，下面我们给出同时估计这两个参数的计算步骤。在实际问题中我们用数据的似然和来 c ( ) = 墨，l n ( 1 一u ) r ( z 。；b ) + u ，( z 而目) ) ，代替对数似然的期望 ( ) = e l n ( 1 一u ) r ( z 。；吼) + 。，( z 。；8 ) ) ，一般来说，我们不可能获得观测数据集最大对数似然( 下式) 的显示解 c ( ) = 2 。l n ( ( 1 一u ) 只( 巩) + w m n j 目) ) ，第三章混合模型的估计 1 6 其中 = ( u 、p ) 因而，我们需要利用e m 算法来估计模型的参数。这个问题可以看作两个成分的e m 算法估计问题。令于是我们得到完全数据的对数似然 n r 2 、厶( ) 2 薹m 黔a ( 咿。j 这里o = ( 日) “= 1 ，2 ) 。其中引入。) 用来表示数据点来自于那个部分的二元变量 ) 。当z 。来自于第i 个时，南。取值为1 ，否则取0 。这里的损失数据就足潜在二值变量碥) 。记p ( x 。z n i ) = ”i p ( x ，。；日) 为观测变量和潜在变量的联合分布，其中，p ( z 。；p ) 是给定z n i = 1 时向量( x n ；日) 的密度函数，也就足某个类的密度函数，如果我们忽略所有的下标，完全数据的对数似然为 n2 c ，( ) = 1 n i i t 嘲p ( 口) p ) n = 1e = 1 = i nm p ( 晰口) h ”。p z ( 铽口) p ) n = 1 - l n ”l p ( 吲p ) + ( 1 一铀) i n ( 1 一”，) p 。( 口) ) = 1 f l n u m 。；p ) + ( 1 一，) l n ( 1 一u ) r ( 吼) 】) n = 1 e m 算法的每一次迭代，模型参数 = ( u 目) ( 其中8 = ( 肛，) ) 的旧值通过两步e 步和m 步被更新到新值画：( 苗，动，( 其中歹= ( 百、亘) ) ppp g 。h。d 第三章混合模型的估计1 7 e 步：求c 1 关于在给定观测变量h 的条件下，。的后验分布的期望 q ( 画； ) = 既。， ( c 1 ( 由) ) m 步：找一个能最大化q ( ； ) 的函数o = e ( o ) ，这里，q ( ；0 ) 足的函数，把视为常数。对于c a u s s i o n 分布， f ( x 。；目) = p lx 。；口) = ( 2 ”) 一g i s 下面我们给出g a u s s i o n 混合模型中参数估计 1 e s t e p ： q ( 舀， ) = e ：。i 。( c 。( 6 ) ) 这里 ( z 。一肛) t _ 1 ( z 。 2 p ( 如1 _ x x n ，p ，) 1 n 【西m 而皿，妻) n = 1 v + - _ 尸( d = o i z 。，p ，) 1 i ( 1 一o ) 尻( 茁。；0 。) ，；= 1 nn r l n p m 。；豇，妻) 】+ ( 1 一r ) 1 n ( 1 一。) r ( 州巩) n = 1n = 1 r = p ( z “= 1 1 z 。，0 ) p ( z 。i 1 = 1 ) u = - 。一 p ( x 。) f ( x 。；目) u ( 1 一u ) r ( z 。；0 t ) + “，( z 。；0 ) 2 m s t e p ：为了更新参数0 ，我们最大化q ( 国， ) 于是得到下面的更新公式、l，曲一第三章混合模型的估计即 1 。= 专r 1 8 ( 32 ) ( 33 ) 莹：墨坐唔掣生型 ( 3 4 ) 墨。r 。由此我们得到一个新的正态成分，将这样的过程继续下去，我们知道当 ( ，一只，一v j ( r ) ) 1 ，肛是均值向量；当” 2 一v ( v 一2 ) 是协方差阵当v 一。时，正态分布( v ，) 就变成了t 分布。我们这里假定所有的成分有相同的自由度v 第三章混合模型的估计 2 0 为了生成一个t 分布向量z 。先从f ( g ( 2 ，2 ) ) 分布中抽取一个，样本。g ( n ，d ) 分布的密度函数为：北) - p 邢) = 箭唧z ) 得到r 之后，对正态分布n ( t ，r ) 再抽样就得到了向量z 。( p ，r ) 的条件密度为 p ( z r ) = i 五靠e x p ( 一百7 - ( z 。一p ) 7 一1 ( z 。一芦) ) 我们容易证明 p ( x 。；“，e ，p ) p ( z 。i 丁) p ( 丁) d 7 j 0 在我们的算法里，损失数据包括二值变量 z n 。) ( 当z 。来自于第i 个时，取值为1 ，否则取0 。) 和g a m m a 分布随机向量。表示生成第i 个成分的r 分布( 江1 ，2 ) 记 f ( x g n ，；) = 仉。( x 。，h 。) 为观测变量和潜在变量的联合分布，其中，f ( x 。l 。) 是给定。= l 时向量 ( xn 丁礼i ) 的密度函数，也就是某个类的密度函数，如果我们忽略所有的下标，完全数据的对数似然为 v c 。( ) = l n “f ( x 。阳；口) + ( 1 n = l 其中 = ( u ，目) ，0 = ( 肛，) 下面我们就利用e m 算法来估计新成分中的参数和这个成分的权重。第三章混合模型的估计 e 步： q ( 园， ) 2 邑礼h ，| e ( c 。( 6 ) ) 这里 1 j z n ，日) 1 1 1 0 + p ( z m = o x 。，口) l n ( 1 一o ) ， + _ 出。， p ( 1 = 1 1 1 。，口) i n f ( x 。，1 ，目) 、n = 1 + j d ( 锄= 。k ，日) l n r ( 吲吼) 、 p n l n ( = + ( 1 一r ) l n ( 1 一。) n = 1 q 1 ( o ；0 ) + n ，。 n = 1 l q 1 ( 0 ；e ) 心) l n r ( ；以) l e r 1 n m 鼎，t i ) + ( 1 一驯n 脚捌t ) ) 2 1 + 姜卜剐+ r x n ，t n l , i n i n f ( i x 叫 + ( 1 一只) r ( z 。；仇) + ) ，( 一。，。， ) d ， n = l 、。， r = p ( 1 = l l 。日) ，) ( f 。z n l = 1 ) u p ( z 。) ( 1 一。) r ( z 。；巩) + u ，( z 。，7 i 1 zp 。d + 口 # n r“ ，、l 。d + 第三章混合模型的估计上式中 2 2 i l n 他捣，o ) f f f n ，帆， = l n ，( 蚓，町( 功) ) ，( 训训帆 = 小n m 一功，h 帆1 ) ) 帆，h ) 帆， = l n ( 2 一匐- ：2e x p ( 一等刊7 p 刊) ) 瓶加棚) 帆， + 卜篇音：e x p c 小嘲，踟r ， = 八一：i n 2 7 r + ：i n t n ：- - 产1 闯一t t n l _ 露) 噔1 ( 矿勐) 瓶出捌妣 + 仆z ，( 篇) + c 却- 呱t 一一k 舡捌凤t = 一；l n 2 7 r - 知n ( 器) ) + ；1 n 铂一百t n l ( 刊蟹1 ( 妒卅( ；_ 1 ) l n - v 地，m ) 帆- = 一! i n 2 7 ：- 尹1 鼬n ( 糕) ) + ( ；+ ；- 1 ) 卜“( 训酬一；( z ，。一丘) 7 莹一1 ( z 。一面) 一v i 厂h ，( _ z n ，目) d t ，。f _ d 。i n 2 ，r 一如n ( 篇) ) + ( i d + ；一1 ) e ( 1 n h ，z 。口) 一；( z 。一声) 7 莹一1 ( z n 一犀) 一v e ( ，i z n ，p ) 由于 z 。i 吒( p ：z r 。) 第三章混合模型的估计我们可知h i x 。日一r ( ，卢) 其中由上我们可知道 d + o3 _ 卢：虹型些挚业 2 + d 一 ( z ，。一卢) t e 一1 ( z 。一卢) + = 3 f o ”i n 7 n j ，( h - i z n ，口) d ， = 咖( 半) 乩。刊7 e 。( x n - - 2 ) + ” 2 3 其中t f ，( a ) 定义如r 帅，= 掣掣= 器 m 步：通过最大化q ( 6 ，e ) ，我们得到如下t 分布的参数的更新公式：。n = _ 。= 寺p ( 铀= l p ，) ( 35 ) “= p ( 铂= 1 k ，肛，) 面罚趟葺而；z n ，1 = n ep ( 钔= ，肛，) 面珂岩最而 n 2 v p ( z n l = l 肛、) 瓦罚嗤毪而而( z n 一面) ( z n n = j n 2 v p ( 锄1 = 1 1 x n ，p ，e ) n 5 l 皿) 丁 ( 36 ) f 37 ) 和正态混合模型相似，利用前面提到的停止规则，我们得到如下混合t 一分布模型的估计算法3 2 1 第三章混合模型的估计 2 4 1 b o o s t i n g 算法3 2 基于的混合t 分布模型的估计算法输人：as e to fs a m p l e ss = z 1 ，x 2 ，z ，) 输出：a na d d i t i v em o d e lf = e 咄给定” 令，0 = t ( z ；应o ，o ，) 风= 专z 。 0 _ 丙1 ( 矾一凤) 2 岫= l 蜀= ，o 岛= c ( f o ) f o r i = l ，2 ，d o 令u o = 并且随机的选取枷和o 然后利用e m 算法来确定新成分的参数 f o r i = l ，2 ，一d o 利用式子( 3 4 ) ，( 35 ) ，( 36 ) 来估计参数直到收敛 e n d f o r 得到参数觑，觑，令，t = t ( z ；风，) i f 南塞耸抖 o t h e 。最= ( 1 一咄) 只一1 - t - 咄 e n d i f 利用e m 算法重新估计前面所有成分的参数u ，肚， e n d f o r 3 3 利用b a g g i n g 方法加速算法到目前为止我们已经介绍了利用b o o s t i n g 方法来估计混合正态模型和混合 t - 分布模型的估计算法，这种方法是迭代式的添加混合成分。就象我们在第二章中介绍的一样，如果b o o s t i n g 方法不加检验的进行下去的话将有可能出现过度拟合。在密度估计中将会导致每个数据是一个成分。迭代的数目需要固定从而使估计量的方差超过偏差的减少。另外我们上面提到的停止规则也有可能出现过度拟合的现象。在这里我们提出一个b a g g i n g 方法的变形，它可以减少方差的同第三章混合模型的估计2 5 时同时给出一个自动化准则来停止算法。并且对于大量数据的情形，我们使用 b a g g i n g 方法可以提高算法的运算速度，并且不会影响到算法的效果。 b a g g i n g 方法最初的执行足由b r e i m a n 在1 9 9 6 年提出来的( b r e i m a n ，1 9 9 6 ) ，一个简单的执行就屉用一半数据来拟合模型而不用b o o t s t r a p 数据。所得结果和单独一个模型相比，具有一样的偏差，但是具有低的方差。在1 9 9 9 年，b r e i m a n 提出一种混合的b a g g i n g - b o o s t i n g 过程( b r e i m a n ，1 9 9 9 ) ，实验证明这样可以提高 b o o s t i n g 的效果，并且可以阻止过度拟合现象受b r e i m a n 的启发，我们将这种策略用到我们目前的这个问题中，那么在b o o s t i n g 算法的每步迭代中从n 个数据样本中随机抽取i n 个观测值作为迭代的样本。e m 算法将会利用这一半数据来搜索最优的成分添加到原来的混合模型中在实际中，这样减少了e m 算法的输入数据，同时也提高了模型估计的效率。仅仅使用一半的观测数据来估计每个成分用剩下的一半数据用来得到似然增量的近似无偏估计。我们可以使用这些“o u t o f b a g ”观测数据来计算密度估计的对数似然增量，( ( 1 一n ) f + n ，) 一j ( f ) 的无偏估计当e m 算法收敛时我们用下式来计算j aj= 2 。9 ( ( 1 一a ) f ( x ，) 十a ，( ) ) 1 0 9 ( 1 ( z t ) ) =fdg(1-m怒)ism l t - - o f - - b a g 、。77 当成分十分接近时，j 将为负的。此时，我们将不在添加新的成分。这样阻止了过度拟合的现象，除非数据真的能保证。一般的来说，当混合成分累积时，i ，会变的很小，有时可能为负值。估计的性质对于这种在迭代次数上的微小变化不足很敏感。当几步迭代之后，为负的时，我们将停止b o o s t i n g 过程。一些多余的迭代是不会影响密度估计的，但是我也不希望浪费计算时间我们可以看到，算法中有些部分是随机的。我们已经随机抽取了e m 迭代中参数的初始值，另外b a g g i n g 步骤又增加了算法的随栅陛。这就意味着重复运行算法会生成不同的密度估计。第四章模拟实验的结果这一章中我们利用z i 模拟数据来展示新算法的效果，我们就混合正杰摸型做了一系列实验，现将结果比较分析如下。下面我们来分析一下以下的各种结果。其中第一个实验里我们选用两个一维正态成分的原始模型生成两千个数据点，原始模型的参数足肛l = 一2 ，o - 1 = 1 ，“1 = 0 5 ；口2 = 2 ，口2 = l ，u 2 = 0 5 ；其中图 4l 是训练数据的直方图，图4 2 是估计出来的模型的混合密度曲线，图4 3 足真实密度和估计模型的比较图。从两图的比较中我们可以看出成分的个数和参数的估计足具有一定的精确度的。图4 1 ：一维正态混合密度真实分布的直方图另外我们还针对两个成分比较接近的模型做了一个实验。这个实验里我们选用两个一维正态成分的原始模型生成两千个数据点，原始模型的参数足肛，= 一2 ，口 = 2 ，u 1 = o 矗舰= 2 ，面= 2 ，u 2 = o 5 ；图4 4 是原始数据的直方图，接着图 4 5 给出的足利用我们的算法估计出来的密度曲线，图4 6 显示的是真实密度和估计曲线的比较图。从这些图形上我们可“看出估计的精确程度。第三个实验里我们选用三个一维正态成分的原始模型生成三千个数据点，原始模型的参数是“1 = - 2 6 0 ，o - 1 = 4 9 ，u 1 = 02 ；f 地= - 2 0 ，d 2 = 4 9 ，“2 = o 4 ；肛3 = 2 6 0 ，o - 3 = 4 9 ，u 3 = 0 4 其中图4 7 是训练数据的直方图，图4 8 是估计出来的模 2 6 第四章模拟实验的结果图42 ：一维正态混合密度的估计曲线型的混合密度曲线，从两图的比较中我们可以估计的精确性第四个实验里我们选用三个比较接近的一维正态成分的原始模型生成三干个数据点，原始模型的参数是p 1 = 一2 6 0 ，口1 = 7 0 ，u 1 = 0 2 ；肛2 = 一2 0 ，o - 2 = 7 0 ，u 2 = 0 4 ；脚= 2 6 0 ，c r a = 8 0 ，u 3 = 0 4 其中图4 9 是训练数据的直方图，图4 1 0 是估计出来的模型的混合密度曲线，图4 1 l 是真实密度和估计模型的比较图。从图中我们可以看出在这种情形下估计仍然具有一定的精度。第四章模拟实验的结果图43 一一维正态混合密度的比较图图4 4 ：一维正态混合密度真实分布的直方图 2 8 第五个实验里我们选用四个一维正态成分的原始模型生成一万千个数据点，原始模型的参数是“1 = 一2 6 0 ，0 - 1 = 4 9 ，u l = 0 2 ；“2 = 一2 0 ，0 - 2 = 3 9 ，岫= 03 ；m = 1 6 0 ，0 - 3 = 3 9 ，u 3 = 0 2 ；肛4 = 2 6 0 ，0 - 4 = 3 9 ，u 4 = 0 3 其中图41 2 是训练数据的直方图，图4 1 罩足估计出来的模型的混合密度曲线，图4 1 4 屉真实密度和估计模型的比较图。利用我们的算法估计出的模型和真实模型还是很接近的。第六个实验里我们选用五个一维正态成分的原始模型生成一万个数据点，原始模型的参数是p l = 一2 6 0 ，0 - l = 4 9 u 1 = o 2 ；p 2 = 一2 0 ，0 - 2 = 4 9 ，o j 2 = o2 j p 3 = 1 6 0 ，0 - 3 = 3 0 ，u 3 = 0 3 ；p 4 = 3 6 0 ，0 - 4 = 2 0 ，t j 4 = 0 2 ；p 5 = 4 6 0 ，o - 5 = 2 0 ，o j 5 = 0 1 其中第四章模拟实验的结果 1 3 日3 3 9 5 0 4 a 2 0 2 5 3 ( y + w 5 9 5 1 8 1 5 1 7 9 9 8 13 6 8 5 2 4 e ) l p 图45 一维正态混合密度的估计密度曲线 2 9 图41 s 是训练数据的直方图，图4t 6 是估计出来的模型的混合密度曲线，我们发现最后两个成分从图形上看合成了一个成分，出现这种现象是由于两个成分十分接近，而且最后一个成分的权重个其他成分相比较而言很小。我们做了另外一个实验，其中把第五个成分的权重加大，并且让它和第四个成分的距离拉远发现还是可以精确的估计出混合模型的峰的个数。第四章模拟实验的结果图4 ，6 ：一维正态混合密度的比较图图4 7 ：一维正态混合密度的数据直方图第四章模拟实验的结果 6 4 5 2 1 h b e 2 3 0 3 p * ”1 1 h d o “一1 岫( ”1 0 0 3 1 ，h 图4 8 ：一维正态混合密度的估计曲线图4 9 ：一维正态混合密度的直方图 3 1 第四章模拟实验的结果 d 6 日7 6 0 0 0 0 日x “0 f ” h l y - 3 1 7 6 1 1 0 8 5 吲4 9 0 w b 7 9 9 3 0 2 2 1 0 8 1 2 p 图41 0 ：一维正态混合密度的估计曲线图41 1 ：一维正态混合密度的比较图 3 2 第四章模拟实验的结果图41 2 ：一维正态混合密度的数据直方图 1 7 2 m 1 w a q 5 时f + 7 4 m b 2 1 0 2 6 删8 1 d 7 4 口7 1 0 5 5 6 + 1 4 一w 5 0 9 5 1 7 舢b 1 “ 图41 3 - 一维正态混合密度的估计曲线第四章模拟实验的结果图41 4 一维正态混合密度的比较图 fi t 。j l ji溘图41 5 ：一维正态混合密度的数据直方图第四章模拟实验的结果图41 6 ：一维正态混合密度的估计曲线图41 7 ：一维正态混合密度的比较图第五章结论和进一步的问题 5 1 结论本文提供了一种解决混合模型估计问题的方法，尤其是针对模型选择问题。算法的简单易行是它的明显的特点。算法主要是利用分类方法中的b o o s t i n g 算法的思想得出的。这个递归算法利用函数梯度优化的思想来寻找混合成分的凸组合。在估计参数的同时可以相对精确地估计出模型的成分个数本文得出的算法可以分为几个阶段，每个阶段都可以适应大量数据的应用问题。在这里我们提出用一半的数据来选择似然函数下降最快的方向也就足用来选择新的成分，而剩下的一半用来检验估计。对于大量的数据在e m 算法中选取一半的数据来计算参数不会使算法的效果下降。在这里我们仅仅希望能够使似然得函数增加，因此我们不需要迭代到e m 算法收敛。另外从第四章的模拟结果可以看出，对于一维，二维的混合模型我们可以通过图形直观地看出模型成分的个数，但是对于高维问题的处理上还存在一定的问题。其中一点就是对于算法的输出参数的合并，这个合并的准则目前还是基于经验的，这是该算法的不足之处。利用这种梯度下降的思想早在过去就有有人提出，m a s o n 等人在1 9 9 9 年一篇文章( m a s o n c ta l ，1 9 9 9 ) 中将这种方法用在可加分类问题中，还有f r i e d m a n 在1 9 9 9 年的文章 ( f r i e d m a n ，1 9 9 9 ) 中也将这样的方法用在回归问题中。在某些方面相类似的算法最近由v e r b e e k 等人提出( v e r b e e k ，v l a s s i s 和k r 6 s e ，2 0 0 3 ) 。在他们的文章中，作者也试图解决同样的混合模型的估计问题。而他们没有直接解决，( ( 1 一“) r + u + 2 ) ，( e ) 的优化问题，而是用了一种探试性的搜索 5 2 进一步的问题由于算法具有的随机性，有时会使得我们的结果有不太理想，甚至误差很大。对于这个问题我们仍然要继续研究怎样使该算法具有很好的稳定性。在这方 3 6 第五章结论和进一步的问题 3 7 面研究中仍然有大量的工作需要做。本文关于混合模型中的模型选择问题的工作仍然有些方面有待进一步完善。下面的几个问题还是值得注意的。 1 在文章中每个成分的维数是一样的，我们没有考虑对于不同的成分具有不同维数的情形下算法应该怎样的问题。 2 在算法的停止规则中，我们除了使用b a g g i n g 方法外还可以使用常用的k l 距离来判断似然函数的收敛状况，从而决定是否停止， 3 最后，我们这个算法既然可以用在混合模型的模型选择上，那么在因子分析模型中是否也有类似的效果呢? 致谢首先感谢我的导师江其保副教授。本文是在江老师的悉心指导下完成的。从本文的选题、文献的收集到论文的写作以及最终定稿，无不倾注着导师的心血和汗水。江老师渊博的知识，严谨的治学态度，敏锐的洞察力，坦荡的胸襟，让我耳濡目染，受益终生。研究生学习期间，江老师为我的学习、研究提供了一切优越的条件、环境、发展空间与机会；生活上无微不至的关怀更足让我感到温暖。在此，谨向我的导师致以最崇高的敬意和衷心的感榭! 感谢东南大学数学系的悉心培养。在研究生学习期间，数学系的领导和老师们给予了诸多帮助，对他们表示谢意。感谢韦博成教授，朱道元教授，薛星美副教授，潘平奇教授和胡跃清副教授等为我的专业学习打下了扎实的理论基础。在论文的写作过程中，我的导师江老师还为我提供了大量难得的资料；另外还得到了我的师兄赵建华和谢锋昌和我的同学霍静波的热心支持；谢谢你们! 参考文献 1 】j i a n h u az h a n dq i b a oj i a z l g ( 2 0 0 2 ) p r o h a b i l i s t i cp c af o rtd i s t r i b u t i o n p r e p u i n t s u b m i t t e dt oe l s e v i e rs c i e n s c 阁a n i lkj m n ，f e l l o w ，r o b e r tpw d u i n ，a n dj i a n e h a n gm a o ( 2 0 0 0 ) s t a t i s t i e m p a t t e r nr e c o g n i t i o n ：av i e wi e e 目t r a n s a c t i o n so np a t t e r na n a l y s i sa n dm a c h i n e i n t e l l i g e n c e ，2 2 ：4 - 3 7 【n 】3 r o b e r te $ c h a p i r e ( 1 9 9 0 ) t h es t r e n g t ho fw e a kl e a r n a b i l i t ym a c h i n el e a r n i n g ，5 1 9 7 - 2 2 7 4 】y o a vl * e u n d ( 1 9 9 5 ) b o o s t i n gaw e a kl e a r n i n ga l g o r i t h mb ym a j o r i t y i n f o r m a n d c o m p u t ，1 2 1 ：2 5 6 2 8 5 5 1 y o a vf r e n n da n dr o b e r tes c h a p i r e ( 1 9 9 6 ) e x p e r i m e n t sw i t han o wb o o s t i n ga l g o r i t h m m a c h i n el e a r n i n g ：p r o c e e d i n g so ft h et h i r t e e n t hi n t e r n a t i o n a lc o n 扛f e n c e ： 3 2 5 3 3 2 【6 】y o a vp r e u n d a n dr o b e r tes c h a p i r e ( 1 9 9 7 ) ad e c i s i o n - t h e o r e t i cg e n e r a l i z a t i o no f o

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf

文档简介

温馨提示

最新文档

评论

（概率论与数理统计专业论文）boosting方法在混合模型选择中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档