已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)基于进化计算和模糊聚类技术的多分类器联合研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东师范大学硕士学位论文 摘要 多分类器联合,又称多分类器组合、多分类器集成,在模式识别研究中,该技术可 以显著地提高模式识别的性能,受到研究人员的极大关注。研究人员已经提出了很多分 类器集成方法,且成功应用于多个领域。 多分类器集成旨在充分发挥每个成员分类器在各自分类性能上的优势,获得比单个 成员分类器都要高的分类识别率。多分类器集成利用了不同分类器之间的互补性,提高 集成后分类器的性能。一般通过两种手段达到提高多分类器集成性能的目的:提高成员 分类器的分类性能;增加成员分类器的多样性。传统获得多分类器集成多样性的方法仍 然存在如下缺陷:其一,在创建成员分类器时,没有充分挖掘训练样本的分布特征所蕴 藏的有价值信息;其二,没有很好的选择标准选取成员分类器。研究表明,个体分类器 的性能与集成分类器的性能之间没有必然的联系。另外,在选择成员分类器时必须同时 考虑分类器的准确度和多样性,但这两者之间通常是相互矛盾的;其三,各成员分类器 在多分类器集成中所承担的角色是固定的,并不根据数据集的不同采用不同的集成方式。 这样处理可能对某一类数据集提高了识别率,而对另一类起到相反作用。为实现集成分 类器的最佳性能,需要根据识别对象挑选适当的成员分类器,同时也需要根据不同的识 别对象采用不同的集成方式。 本文研究在保证单个分类器高性能的情况下,如何实现成员分类器的多样性。在实 现多样性方面充分考虑利用训练样本集分布特征,达到既提高成员分类器性能,又实现 多样性的目的。本文的创新性研究成果主要有: 1 、提出了一种自适应策略梯度算法( a p g ) 。该算法将进化策略中的自适应偏转变 换技术应用于进化博弈论,在寻找到一个纳什均衡以后,对目标函数进行偏转,再次搜 索,实现获得多个纳什均衡的目的。在g a m b i t 实例集包括的一系列基准博弈问题上进 行验证,并与协方差矩阵适应性进化策略( c m a ) 和粒子群优化( p s o ) 算法进行对比, 结果表明a p g 算法能够对博弈的所有纳什均衡进行有效、快速的搜索。 2 、提出一种基于模糊聚类的多分类器集成算法( f u z z y b o o s t ) 。将模糊聚类技术应 用于训练样本集,学习训练样本分布特征,提出信息熵的概念,并依据信息熵对训练样 本采样,生成多样性训练样本集,从而实现成员分类器的多样性,提高分类性能。我们 以w 宅k a 软件作为平台实现了算法,并在2 0 个特征不同的数据集上进行实验,结果表明, f u z z y b o o s t 与a d a b o o s t 和b a g 西n g 算法相比,具有更高的分类准确性和更好的泛化能力。 3 、提出了一种自适应f u z z y b o o s t 分类器集成算法( a d a p t i v e f u z z y b o o s t ,记为6 曲) 。 受a p g 算法的启发,本算法利用自适应偏转技术获得训练样本集的多个分布特征,应用 到f u z z v b ( m s t 中,显著地增加了成员分类器的多样性。我们在w e k a 软件平台上实现了 a f b 算法,并在2 0 个数据集上测试,结果表明a f b 具有比f u z z y b o o s t 更高的分类准确 性和更好的泛化能力。 l 山东师范大学硕士学位论文 关键字:分类器集成;模糊聚类;多样性;样本分布特征;自适应偏转 分类号:t p 3 9 1 l l 山东师范大学硕士学位论文 a b s tr a c t c l a s s i f i e r sc o m b i n a t i o nc a na l s ob ec a l l e dc l a s s i f i e r se n s e m b l e i np a t t e mr e c o 譬皿i t i o n , c l a s s i f i e r se n s e m b l e t e c h n o l o g y a t t r a c t s g r e a t a t t e n t i o no f r e s e a r c h e r s , b e c a u s ei tc a n r e m a r k a b l yi m p r o v et h ep e 渤m a n c eo fp a t t e mr e c o g n i t i o n t h er e s e a r c h e r sh a v ep r o p o s e d m a n yc l a s s i f i e r se n s e m b l em e t h o d s ,w h i c hh a v ea c h i e v e d 星万e a ts u c c e s si nm a n yf i e l d s t h ep u 叩o s eo fc l a s s i f i e r se n s e m b l ei st om a k e 如l lu s eo ft h ea d v a n t a g eo fe a c hc o m p o n e n t c l a s s i f ! i e ri nt h e i rr e s p e c t i v ec l a s s i f i c a t i o np e m r m a n c e ,a n do b t a i nh i 曲e r r e c o g i l i t i o nr a t em o r e t h a na n vs i n g l ec o m p o n e n tc l a s s i f i e r c l a s s i f i e r se n s e m b l et e c h n i q u em a k e su s eo ft h e c o m p l e m e n t a r i t i e sa m o n g s td i f f e r e n tc l a s s i f i e r st oi m p r o v et h ep e 怕咖a n c eo fc l a s s i f i e r sa f t e r c o m b i n a t i o n g e n e r a l l v ,t h e r ea r et w om e t h o d st oi m p r o v et h ep e r f o m a n c eo fc l a s s i f i e r s e n s e m b l e :i m p r o v i n gt h ec l a s s i f i c a t i o na b i l i t yo fe a c hc o m p o n e n tc l a s s i f i e ra n di n c r e a s i n gt h e d i v e r s i t va m o n gt h ec o m p o n e n tc l a s s i f i e r s b u tt r a d i t i o n a lc l a s s i f i e r se n s e m b l em e t h o d ss t i l l h a v es o m ed i s a d v a n t a g e s :f i r s t l v ,t h e vd on o tf u l l ym i n et h ev a l u a b l ei n f b m a t i o nc o n t a i n e di n t h es a m p l ed i s t r i b u l i o nw h e ng e n e r a t i n gac l a s s i f i e r ;s e c o n d l y ,t h e r ei sn o tag o o ds e l e c t i o n c r i t e r i o nt os e l e c tt h ec o m p o n e n tc l a s s i f i e r s r e s e a r c h e ss h o wt h a tt h ep e r f o r m a n c eo f i n d i v i d u a lc l a s s i f i e rd o e sn o tc o n n e c tw i t ht h ep e r f b 肿a n c eo fc l a s s i f i e r se n s e m b l e i na d d i t i o n , w em u s tt a k ei n t oa c c o u n tb o t ht h ea c c u r a c ya n dd i v e r s i t yo fc o m p o n e n tc l a s s i f i e r si nt h es a m e t i m e , b u tu s u a l l yt h e yc o n t r a d i c tw i t h e a c ho t h e r ; t h i r d l y , t h er o l eo fe a c hc o m p o n e n t c l a s s i f i e ri nc l a s s i f i e r se n s e m b l ei sf i x e d ,t h a ti s ,a l ld a t a s e t su s et h es a m ee n s e m b l em e t h o d 1 1 1 i sm e t h o dc a nn o tw o r kw e l li na uk i n d so fd a t a s e t s i no r d e rt oa c h i e v et h eb e s t p e r f b m a n c eo fc l a s s i f i e r se n s e m b l e ,w es h o u l ds e l e c tt h ep r o p e rc o m p o n e n tc l a s s i f i e r sf o r c o m b i n a t i o na c c o r d i n gt ot h et a r g e td a t a s e t ,a n du s ed i f ! i e f e n te n s e m b l em e t h o d sa c c o r d i n gt o t h ed i f f e r e n tt y p e so fs a m p l e t h i sd i s s e r t a t i o ns t u d i e sh o wt 0a c h i e v et h ed i v e r s i t y0 fc o m p o n e n tc l a s s i 矗e r si nt h e c o n d i t i o no fa s s u r i n gt h ep e r l b n n a n c eo ft h ec o m p o n e n tc l a s s i f i e r s i i lt h ea s p e c to fa c h i e v i n g t h ed i v e r s i t y ,w ef u l l yc o n s i d e rh o wt ou t i l i z et h et r a i n i n gs a m p l ed i s t r i b u t i o nt oi m p r o v et h e p e r l o 肌a n c eo fc l a s s i f i e r se n s e m b l ea n di n c r e a s et h ed i v e r s i t yo ft h ec o m p o n e n tc l a s s i f i e r s t 1 l em a i nc o n t i b u t i o n so ft h j sd i s s e n a t j o na r es u m m a r i z e da sf i o n o w s : f i r s t l y ,a na d a p t i v ep o l i c yg r a d i e n ta l g o r i t h m ( a p g ) i sp r o p o s e da n di m p l e m e n t e d 弛e a l g o r i t h md e n e c t st h eo b j e c t - f u n c t i o nt h r o u g ha p p l y i n gad e n e c t i o nt e c h n o l o g ya f t e rh a v i n g s e a r c h e do n en e ,i no r d e rt ol e a ma l lt h ee x j s t i n gn ef o raf i n i t es t r a t e 舀cg a m e a p gi s e v a l u a t e do nt h eb e n c hm a r kg a m e sp r o b l e m si n c l u d e di ng a m b i t c o m p a r e d w i t h c o v a r i a n c em a t r :i xa d a p t a t i o n ( c m a ) e v o l u t i o ns t r a t e 百e sa n dp a r t i c l es w a 肌o p t i m i z a t i o n ( p s 0 ) a l g o r i t h m ,t h ee x p e r i m e n t a lf e s u l t ss h o wt h a ta p g c a ns e a r c ha un a s he q u j l i b r i u mo f g a m e sm o f ee f f i c i e n t l y s e c o n d l y ,ac l a s s i f i e r se n s e m b l ea l g o r i t h mb a s e do nf u z z yc l u s t e n g ( f u z z y b o o s t ) i s p r o p o s e d w eg e tt h ed i s t r i b u t j o nc h a r a c t e r i s t i c so ft h et r a i n i n gs a m p l e st h r o u g ha p p l y i n g i l i 山东师范大学硕士学位论文 f u z z yc m e a n s ( f c m ) i n t oc l a s s i f i e r se n s e m b l ea l g o r i t h m t h ed i f f e r e n tt r a i n i n gd a t a s e t sa r e s a m p l e da c c o r d i n gt ot h ep r o p o s e dc o n c e p to fi n f o r m a t i o ne n t r o p yt oa c h i e v ed i v e r s e c o m p o n e n tc l a s s i f i e f s ,r e s u l t i n gi nt h ep e r f o 姗a n c ei m p r o v e m e n to ft h ee n s e m b l ec l a s s i f i e r s w ei m p l e m e n tt h i s a l g o r i t h mo nt h ew 酞ap l a t f o 咖,a n dc o m p a r et h er e s u l t sw i t ht h a to f a d a b o o s ta n db a g g i n g t h ee x p e r i m e n t a lr e s u l t so n2 0d a t as e t ss h o wt h a tf b z z y b o o s th a s h i g n e ra c c u r a c ya n db e t t e rg e n e r a l i z a t i o na b i l i t y t h i r d l y ,a na d a p t i v ef u z z y b o o s ta l g o r i t h m ( a f b ) i sp r o p o s e d i n s p i r e d b ya p ga l g o r i t h m , a f b g e t sm u l t i p l ed i s t r i b u t i o nc h a r a c t e r i s t i c so ft r a i n i n gs a m p l e su s i n gt h ea d a p t i v ed e f l e c t i o n t e c h n o l o g y ,a n dt h e na p p l yt h e mi n t of u z z y b o o s ta l g o r i t h m t h i sm e t h o dr e m a r k a b l ei m p r o v e s t h ed i v e r s i t yo ft h ec o m p o n e n tc l a s s i f ! i e r s w ei m p l e m e n ta f bo nt h ew 酞ap l a t f 0 姗,a n dt e s t o n2 0d a t as e t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h i sm e t h o dh a sh i g h e rc l a s s i f i c a t i o na c c u r a c v a n db e t t e rg e n e r a l i z a t i o na b i l i t yt h a nf b z z y b o o s t k e y w o r d :c l a s s i f i e r se n s e m b l e ;f u z z yc l u s t e r i n g ;d i v e r s i t y ;d i s t r i b u t i o no fs a m p l e s ;a d a p t i v e d e f l e c t i o n c l a s s m c a t i o n :t p 3 9 1 l v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得( 注:如没有其他需要特别声 明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:专乏送 导师签字: 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权趁可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:s 蕾 签字日期:2 0 0r 年j 月孑d 日签字日期:2 0 0x 年j 月gd 日 导师签字: 签字日期:2 0 0g 年如3 d 日 山东师范大学硕士学位论文 1 1 选题背景及研究意义 第一章绪论 分类、识别是人类最重要的基本活动之一,在人类的日常生活、社会活动、科研生 产以及学习、工作中无时无处不在进行分类识别。用专用术语“模式”来称呼被分类识 别的对象,这种分类识别技术就是模式识别技术。模式识别技术使人们在影响因素很多 的情况下仍能对众多信息进行方便的处理,利用计算机技术对数据进行总结,寻找目标 与众多因子之间的某种联系或目标的优化区域、优化方向,对解决实际问题具有指导意 义和应用价值。 分类器技术是模式识别及机器学习的重要研究领域,已形成了内涵丰富的理论体系, 产生了一系列有效的技术手段,在图像识别、文本分类、数据挖掘、智能决策、w e b 挖 掘、入侵检测等领域有重要的应用,产生了巨大的效益,取得较大的成功。目前已有的 分类器算法有决策树、神经网络、k 一近邻、s v m 、b a y e s 分类等。分类准确性是评价分 类算法好坏的最重要的指标。针对同一分类决策问题,不同的分类器算法分类性能各异, 而对于不同分类决策问题,同一分类器算法的分类性能差别也可能很大,很难找到对所 有的应用问题性能俱佳的分类器算法。随着科学的发展,新的分类问题不断产生,而旧 有的识别问题也变得越来越复杂。为了应对这些问题,人们不断改进传统的算法,提出 新的算法。传统单个分类器的不足主要在于,当先验知识不充分时,通常很难确定最优 分类器。由于最优分类器的选取尚缺乏统一的理论指导,寻求广义上提高分类性能的方 法成为分类算法的一个研究方向。某些模式识别问题,通常有多个特征可用于表征和识 别模式,如果特征之间的差异太大,单一分类器很难对其做出有效的决策:另外,基于 不同理论的各种分类算法之间存在互补信息,充分利用多个分类器之间的差异可以显著 提高分类性能。为此,s u e ne ta l l l l1 9 9 0 年提出了集成多分类器的概念。 研究发现由于各个分类器所使用的特征不同,或者基于的原理和方法不一样,或者 训练过程使用的样本不尽相同,可以认为各个分类器之间是相互独立的,因而各个分类 器之间具有良好的正交性和互补性。如果能充分地利用这一特性,尽可能发挥各个分类 器的优点,就有可能在保持较高可靠性的前提下获得较高的正确识别率【2 j 。根据这个特 点,一些学者对分类器的集成进行了研究,提出了各种各样的分类器集成方法,并通过 实验证明它们的识别正确率要高于单个分类器的识别正确率,而且计算复杂度也不是很 高。但是还没有成熟的理论分析为什么并且在什么条件下一种集成方法会好于另一种集 成方法。 显然,由已有的理论可知,对于识别问题而言,分类器集成比单一分类器更有优势。 本文在对已有分类器集成技术充分分析的基础上,尝试结合进化计算技术和模糊聚类技 术研究一种新的分类器集成方法,以期提高分类器的性能。 山东师范大学硕士学位论文 1 2 多分类器集成的产生和现状 8 0 年代初期,模式识别方法,还仅局限于统计模式识别与结构模式识别这两大类。 8 0 年代后期和9 0 年代,迅速发展的模糊数学深入到模式识别的许多环节,并出现了模糊 模式识别这样的提法。随着模糊数学和模式识别结合得越来越紧密,模糊模式识别成为 了模式识别方法中的另一个大分支,与此同时,随着人工智能、神经网络的发展,一些 智能方法也被应用在模式识别上,从而形成具有智能的模式识别方法。 对于模式识别问题,其最终目标是得到尽可能好的识别性能。为了实现这一目标, 传统的模式识别方法对于目标问题,分别采用分类器实现,然后选择其中一个最好的分 类器作为最终的解决方法【3 j 。研究发现,尽管其中一个分类器有着较好的性能,但是不 同分类器产生的误分类集合是不重叠的,这表明不同的分类器对于分类的模式有着互补 信息,可以利用这种互补信息来提高识别性能【z j 。 这种研究发现激发了人们对多分类器集成的研究兴趣1 4 j ,即把多个分类器连接起来 用于模式识别。ie ta l ( 1 9 9 5 ) 【5 j 手旨出当各个分类器有着显著不同时,分类器集成的作用 更为明显,如采用不同的特征1 6 j 、不同的训练计划,这样由于不同的分类器采用的分类 曲面族不一样,所用的特征也可以不同,具备相当的互补性。也就是说,不同的识别方 法对于待识别样本可能存在着互补信息。这是由于不同性质的特征往往反映事物的不同 方面,在一种特征空间很难区分的两种模式可能在另一种特征空间上很容易区分开;而 对应于同一特征的不同分类器又从不同的角度将该特征映射在结果集合上,因此,利用 反映数据不同性质特征的多个不同分类器的集成就可能全面反映出一个模式,从而得到 一个较好的分类结果,这是多个分类器有机集成后可以提高总体识别性能的原因。1 9 9 1 年y i z h a k 和c h e v a l i e r 分别对多种识别器集成的系统结构做了探讨并得出了一些结论。 j o s e f 磁t t l e r 等【3 j 对多分类器集成框架进行了分析,并给出了集成理论框架,建立了基 于贝叶斯理论的融合框架,指出当各个分类器具有显著差异时,合适的融合算子能使它 们扬长避短,使总体识别率达到相当的精度。因此,对于一个分类问题,如何让系统综 合权衡来自多个不同分类器的识别输出,发掘出问题的更多隐含信息,就成为研究的一 个重点,并且,随着研究的深入,越来越多的融合模型被提出,从简单的分类器选择、 投票融合,到基于知识的模糊积分、证据理论等。d y m i l rr u t a ( 2 0 0 5 ) 【7 】等修订了成员 分类器选择方法学,并通过多数投票方法评估多样性测量在分类器集成系统中的适用范 围。还提出一些搜索算法,以及它们与一些选择准则( 多数投票错误等) 和各种多样性 方法如何协调工作。分类器集成通常使用如下方法设计:独立训练每个分类器,每个成 员分类器独立决策,然后对结果进行融合。n a v e rm w a n a s ( 2 0 0 6 ) 1 8 j 等研究了分类器集 成中融合技术的架构和方法,着重讨论了如何选择更适合的融合方法。作者提出一种新 的结构,利用问题的特征引导决策融合处理。通过使用特征和分类器输出,鉴定出不同 分类器的识别能力和弱点,用这个信息来提高整个系统的整体泛化能力。此外,还提出 一种合作训练算法,它允许用最后的分类结果来决定是否应该在分类器集成体系结构的 2 山东师范大学硕士学位论文 成员上做进一步训练。g i a n l u i g if o l i n o ( 2 0 0 6 ) 吲将细胞数据分类的遗传编程( c g p c ) 引入分类器集成的方法,通过在整体训练数据集的子集上训练单个分类器,实现对大数 据集的处理。该方法不但获得了更好的分类精度,而且具有更低的计算代价。 国内,研究者在多分类器的融合方法上做了大量的工作,将进化计算、神经网络、 隐马尔科夫模型、小波变换、支持向量机等先进的机器学习技术引入到分类器融合技术 中,提出一些有效的改进方法,大大提高了分类器的分类性能。有些研究者在手写字符 识别、人脸识别、时间序列预测、传感器故障容错、入侵检测、知识发现、医疗诊断、 遥感图像识别和场景分析、地震预测以及军事上的自动识别等应用领域中取得了一定成 果。 1 3 本文的主要研究工作 本文讨论了进化计算和模糊聚类技术在分类器集成算法中的应用,实现了提高多分 类器性能的目的。主要工作如下: 一,基于对进化计算的研究,提出一种自适应策略梯度算法( a d a p t i v ep o l i c yg r a d i e n t a p g ) 。算法将进化策略中的自适应偏转技术应用到策略梯度博弈算法中,解决了寻找博 弈中所有纳什均衡点的问题。 二,基于对模糊聚类技术的研究,发现f u z z yc m e a n s ( f c m ) 算法的模糊隶属度能 够有效描述数据集的样本分布特征。提出一种新的多分类器集成算法f u z z y b o o s t ,应用 f c m 产生的样本分布特征学习具有不同分类偏好的成员分类器,实现成员分类器的多样 性。提出一种将f c m 算法应用到含有n o m i n a l 类型属性数据集的方法。 三,受a p g 的启发,提出a d a p t i v e f u z z y b o o s t ( a f b ) 算法,将自适应偏转技术应用 到f u z z y b o o s t 算法中,学习到训练集的多个样本分布特征,增加成员分类器的多样性。 四,在相应的软件平台上实现了提出的三种新算法( a p g 、f u z z v b o o s t 、a f b ) ,对 实验结果进行了分析,表明我们提出算法的有效性。 1 4 本文的内容安排 第一章是选题背景和多分类器集成的产生和现状。 第二章对多分类器集成系统的学习过程做了详细描述,包括成员分类器的生成,实 现成员分类器多样性的各种方法,度量成员分类器多样性的各种技术及多分类器的融合 方法。 第三章详细介绍了自适应策略梯度算法( a p g ) 的思想,给出了实验结果和分析。 第四章详细介绍了基于进化计算和f c m 的多分类器集成算法f u z z y b o o s t 和a f b 的 具体思想和实现方法。 3 山东师范大学硕+ 学位论文 第五章给出了实验使用数据集的简介,f u z z y b o o s t 和a f b 算法在2 0 个数据集上的 分类效果以及与a d a b 0 0 s t 和b a g 百n g 算法性能比较的详细分析。 4 第六章是总结和下一步工作。 山东师范大学硕士学位论文 第二章多分类器集成基础理论 多分类器集成通过利用多个成员分类器之间的差异性,提高系统的泛化能力。理论 和实践证明在很多分类决策问题的求解上,多分类器集成性能要超过其中的任何单个分 类器的性能。为提高分类器集成预测精度,一方面需要提高成员分类器的分类准确度, 同时又要保持成员分类器的多样性。k m 曲e ta l 【1 0 j 证明对于单数据点,集成分类器的分 类误差平方不大于各成员分类器分类误差平方的加权平均,而且各成员分类器的差异性 越大,集成分类器的误差就越小。 分类器集成包括两个过程:成员分类器的设计及成员分类器分类结果的融合。设计 分类精度高且具多样性的成员分类器直接影响分类器集成系统的最终的分类性能;同时 在训练好成员分类器后,融合成员分类器的输出对最终分类性能影响很大。为此,研究 如何产生具有多样性的成员分类器和分类器融合方法近年来受到极大关注。在度量成员 分类器的多样性方面,k u n c h e v a 做了大量的工作并提出了多种方法【1 1 l 。在分类器选择方 法和准则、搜索算法方面,d y m i t rr u t a 等人做了详细的归纳【。在多分类器的融合方法 和差异性度量方面,刘文瑶等作了详细的归纳【1 引。 2 1 成员分类器设计方法 在成员分类器的学习中,部分方法显式地实现了分类器的多样性,部分方法隐含地 实现了分类器的多样性。已提出很多成员分类器生成技术,主要可分为以下几种类型: ( 1 ) 用相同的训练样本训练不同类型的成员分类器【1 3 1 4 l 。如用训练数据分别训练决策 树、神经网络、b a y e s 分类器,然后将这些不同类型的分类其作为成员集成分类器。对于 基于相同的训练样本数据集训练产生的各分类器,它们的分类侧重和效果有差别,且它 们对模式分类结果的输出表示方法各不相同,集成分类结果时需要迸一步整理。 ( 2 ) 从训练样本取样,生成不同的训练样本集合,训练多个同类型分类器【1 5 ,1 6 ,1 7 1 。通 过采取可重复的随机取样、按照分类难易程度分布赋予不同的权重并据此取样及根据样 本的模糊隶属度取样,生成多个训练样本集,分别训练成员分类器,从而实现成员分类 器之间的多样性。 ( 3 ) 根据样本的属性特征,将训练样本数据集分拆成不同的数据子集,然后在采用相 关技术训练成员分类器,实现分类器的多样性 1 8 ,19 1 。将一个大的特征向量空间划分为几 个较小的特征空间,在每个小特征空间上构造一个分类器,再将这些分类器集成为一个 较大的分类器,比在整个特征空间构造一个分类器在空间、时间上的效率高。同时,通 过集成几个性能较差、结构较为简单的成员分类器可以得到分类性能优于复杂结构分类 器的集成分类器。 5 山东师范大学硕+ 学位论文 f 4 ) 通过调整训练样本的标记属性,生成不同的分类样本集,用于训练成员分类器 【2 0 ,2 1 1 。一方面可以改变训练样本的标记属性,同时亦可以向训练样本标记属性增加噪声, 这种调整训练样本标记属性的手段亦可实现数据成员分类器多样性。 ( 5 ) 合并类别标号【2 2 1 。对于训练数据总体类别数较大的,将多个类别随机的划分为两 个子集,将同一子集中的训练数据合并为一类。对合并后的两类训练数据集用拟合算法 来生成成员分类器。这样重复随机合并类别多次,生成多个成员分类器。 文献【2 3 ,2 4 】分别给出的产生分类器多样性的综述分析。国内这方面的研究工作主要集 中于集成分类器技术的应用及各成员分类器分类结果的融合算法研究【2 5 2 6 ,2 7 1 ,鲜见有如 何进行多样性分析或分类器差异性度量的研究。 2 2 成员分类器选择准则 根据2 1 中提供的训练样本取样方法,采用传统分类器学习算法生成成员分类器。从 这些分类器中选择出适用于进行最终分类器集成的成员分类器,以特定的融合方法进行 集成,获得更高性能的分类器。 在选择成员分类器时,如果成员分类器数目较少,可以用详尽搜索的方法彻底找出 最优集成。但是这种搜索方法具有指数复杂性,不适合应用于大的系统。需要一定的选 择准则和搜索算法保证多分类器集成的实用性。基本的选择原则包括成员分类器的高精 确度、高效率和高多样性。多分类器集成中最困难的问题是成员分类器很难同时满足高 精确性和高多样性。 分类器选择技术有静态分类器选择和动态分类器选择。静态分类器选择( s t a t i c c l a s s i f i e rs e l e c t i o ns c s ) ,就是由训练集学习到固定的最优选择方案,应用于未知模式的 分类。而动态分类器选择( d v n a m i cc l a s s i f i e rs e l e c t i o nd c s ) 方法的选择过程是在线进行 的,它根据分类过程中的训练性能以及未知模式的各种参数来进行分类器的选择。还有 一种介于s c s 和d c s 之间的方法,称为聚类选择法( c l u s t e ra n ds e l e c tc s ) :开始,通过 训练数据的聚类将输入空间划分成不关联的区域,然后识别出对每一个聚类群最好的分 类器来给属于它所在区域的新模式进行预测分类。这种方法依赖新样例所属的输入空间 区域来动态选择分类器,但区域本身是静态的,是在训练过程中预先设置好的。实际应 用中,动态和静态选择方法的混合使用会取得很好的效果。 用简化的二分类问题来说明各种选择方法,下面对用到的一些表示方法进行描述。 给定一个有m 个成员分类器的集成分类系统d = d 1 ,巩) ,y ;= 【y n ,y 肼r 表示一 个系统中第f 个多维输入样例置的集成输出,其中y 讨表示第i 个输入样例在第f 个分类器 的输出。用二进制表示,y 玎= 0 表示输出为正确的,) ,玎= 1 为错误的。q = 【q ,】f 表示一个权向量,其中对于每一个当珊。= 1 时表示在决策融合中包含第f 个分类器, 当。:0 时表示不包含。一个权向量;实际表示一个特定的分类器集成。对于两个分类 6 山东师范大学硕士学位论文 器d ;,d ,令4 6 ( 口,6 = 0 ,1 ,奉) ) 表示d f 输出结果为a ,d ,输出结果为b 的输入样例的数 量,星号表示任意输出:木= 0d r1 ,= ”。另外令肌o 。) 表示分类器在输入样例t 上 产生错误的数量,可以用下面公式表示: 朋瓴) = y 錾 2 _ 1 最后令e = 专:。y f 表示第,个分类器的错误率,相应的集成平均错误率通过下面公式 定义: ;= 吉旷 2 2 g = e i z z m 龟j 2 2 1 集成分类器性能准则 最直接的选择准则就是:将一个成员分类器加入到已选定的分类器组中后,整个分 类器集成的性能会提高。这种准则是精确的,有意义的,与分类器的数量和个体性能无 关,不同分类器子集允许一致的比较。但是,因为这种准则的评定是基于训练集的类别 标签己知条件下的。对于训练集有最优性能的集成,不能保证对未知数据集的最优性。 所以这种准则有过度拟合的问题,降低了集成分类器的泛化性能。 具体的方法有: 1 、m i n i m u mi n d i v i d u a le h d r ( m i e ) :使用这个方法,即是选择个体分类器中拥有最小 错误率的分类器作为成员分类器。使用上面的表示方法,m l e 用简单的形式定义为: 刎e = m i n ( f ) 2 3 2 、m e a ne h 0 r ( m e ) :这种方法是选择所有集成中分类器错误率平均最小的作为最 优集成。其表示形式等同于公式2 2 中定义的平均错误率。 3 、m a j o r i t yv o t i n ge n o r ( m ) :一种简单的多数投票错误率方法。每个个体分类 器对所有样本的输出用下面公式进行输出, y y 一 1 ,矿 0 ,矿 然后用下面公式计算分类器组的错误率 一= 专耋y y 2 - s n 妇“ 4 、m a j o r i t yv o t i n gi m p r o v e m e n t ( m v i ) :用集成分类器性能与个体平均分类器性能 7 42 2 m 一2 i p m 2 。 2 8 n 咱n 世 mm q l i 惫埘 、 3 、t h eqs t a t i s t i c s ( q 2 ) :q 的取值在1 和1 之间,用来作为一对儿带有二进制输 出的分类器之间的依赖标记,其中1 表示完全否定依赖,+ 1 表示完全肯定依赖。当q = o 时表示两个分类器之间独立。用下面公式定义: = 黑爿筹, 孬2 而b 荟舅2 妒 2 - 9 4 、t h ed i s a 伊e e m e n tm e a s u r e ( d 2 ) :它采用分类器之间输出不一致的采样数量与所 有采样的数量的比率来决定两个分类器的差异,这可以写成: = 号等,历= 志u 器2 盯 2 加 5 、t l l ed o u b l e f a u l tm e a s u r e( f 2 ) :这种方法被用来为选择最少相关分类器创建一 个成对信赖的矩阵。为一对分类器估计或然概率方法是: = 等,瓦= 志叫髻2 玎 2 m 6 、n e e n t r o p ym e a s u r e ( e n ) :计算一组分类器的输出的不一致程度的公式为: 山东师范大学硕士学位论文 e :三竺垫! 竺! 兰! :丝二! ! 兰! 1 2 1 2 智 肘一i m 2i 这个方法在最高的不一致时获得它的最大值( e n = 1 ) ,它是观察带有同样值( o 或1 ) 的 弘2 j 投票和带有替代值的m 一【m 2 j 情况。如果所有分类器输出是一样的会得到最低 值( e n = 0 ) 。 7 、弧em e a s u r eo f d i f f i c u l t y ( d i ) :假定m 分类器的离散错误分布为 z ;瞄:( 0 ) ,p :( m ) 】。p :( ) 表示第_ 个分类器的分类错误概率。这种方法的差异性度量 定义为: 1 ;i , 2 拼3 吉乏( p z ( j ) 他) 2 1 3 8 、k o h a v i w b l p e r t v a r i a n c e ( k w ) :这个方法从每个分类器输出的二项式分布测 量平均变化。方法可以用下面公式简单计算: 删= 嘉薹k 似一毗) ) 】 2 - 1 4 可以证明,对于独立的分类器k 形;m 饼,它从集成的二项式分布的变化定义中得出。 9 、i n t e r r a t e ra g r e e m e n t m e a s u r e ( n ) :使用上面的表示法可以表达为: 盟;1 一:! 堕! 坐二堕塑 2 - 1 5 肼( m 一1 ) p ( 1 一e ) 1 0 、f a u l tm a j o r i t ym e a s u r e ( f m ) :这个方法用有偏的错误分布( p a r t i a le n o r d i s t r i b u t i o n sp d e d ) 来表示每一个分类器对不同集成错误机率等级影响的程度。这种方 法只将那些能够为被考虑的分类器子集提供多数投票错误( 即错误机率至少有阻2 1 错 误而且来自陋2 1 个局部最优分类器) 的p d e d 元素相加。形式上,该方法定义为: 肌。,蔫, 2 6 ,。仍2 1 岛一 其中索引f 宰表示根据他们的磊的值的为固定机率等级_ 排序的分类器。 1 1 、g e n e r a l i z e dd i v e r s i t y ( g d ) :假设k 个随机分类器同时失败的概率为p ) 。在 一个随机输入上,m 个分类器中失败k 个的确切概率p ( 七) 进一步表示为: p 阶荛舌篇嵩p , 2 舶 p ,表示第j 个分类器的分类错误概率。这样,对于一个随机分类器对,当一个分类器的 失败总是伴随着另一个分类器正确的输出( p ( 2 ) = 0 ) 时观测到最大多样性。而两个任 意分类器同时输出错误( p ( 2 ) = p ( 1 ) ) 时观测到最小多样性。基于这些假设,提出一个 9 山东师范大学硕士学位论文 简单方法: g d ;旦堡! 二翌( 兰! :1 一兰堕
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设计方案比较与选择报告
- 园林古建筑材料选用与保护方案
- 咖啡生产车间布局与优化方案
- 垃圾焚烧厂绿色施工技术及管理方案
- 建筑垃圾处理厂废弃物减量化处理方案
- 养猪场废水处理技术应用方案
- 电力线路施工材料采购与管理方案
- 建筑防水施工环境影响与应对方案
- 研学基地信息化建设方案
- 2026年西安医学高等专科学校单招职业技能测试必刷测试卷及答案1套
- 开展医养结合促进行动实施方案
- 《运动相关心血管事件风险筛查技术规范》
- 市政管道工程项目突发公共事件应急预案
- 完整道德经全文电子版下载
- 2025年上海教师考试真题及答案
- 施工员的考试题目及答案
- 2025年化妆品市场拓展策略研究可行性报告
- 2025-2030多动症非药物干预方法临床效果与市场接受度调查
- 2025至2030全球及中国电子级六氟乙烷行业发展趋势分析与未来投资战略咨询研究报告
- GB/T 191-2025包装储运图形符号标志
- 行测5000题电子版2025
评论
0/150
提交评论