




已阅读5页,还剩118页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
:r 、( i 、 摘要 如何通过有限样本的学习尽可能地提高学习系统的泛化能力,一直是机器学 习研究的中心问题之一。集成学习算法通过训练多个弱分类器并将其结论进行合 成,可以显著地提高学习系统的泛化能力,因此,被视为一种具有广泛应用前景 的工程化分类识别技术,已成为机器学习的一个研究热点。本文从理论分析、实 现方法及辐射源识别应用等几个方面对多分类器集成进行了探讨和研究。 辐射源识别是面向区域的电子战的一个重要组成部分,是对后续的平台识别 和态势估计的基础。在现代化战争中雷达、制导、通信等方面的电子侦察传感器 越来越多,电磁环境将越来越复杂,产生了大量的难于识别的待处理数据,这就 需要快速准确地进行目标身份识别。本文首先以a d a b o o s t 算法为多分类器的集 成学习算法,对算法的训练误差和推广性进行详尽分析,给出在多类情况下 a d a b o o s t 训练误差收敛性证明,然后,分析了多分类器集成用于雷达辐射源识别 的可行性,给出了雷达辐射源多分类器集成分类识别方法和实验结果。 通过对决策边界和错分区域的研究,分析了多分类器集成分类性能与分类器 之间相关性的关系。给出了分类器七种差异性测度函数的形式化描述,对 a d a b o o s t 算法产生的多分类器进行了差异性测试,从而得出该集成学习中多分类 器之间差异性随着分类器数目的变化规律。 根据分类器间分类行为的差异性,改进了基于聚类方法的集成分类器约减方 法及分类器投票权值的分配算法,从而获得分类器子集划分及相应的权值分配。 在近似分类精度的前提下,尽量减少集成中的分类器数目,以减少存放分类器所 需的内存空间和集成分类时间,提高分类系统的实时性。 提出权重自适应调整的多分类器集成方法。该方法能够针对不同待测样本选 择不同的分类器组合及调整相应的权重。利用样本集上的统计信息来指导分类结 果的集成判决,最终从整体上提高了分类性能。 结合多分类器集成学习算法和进化策略,提出一种基于进化策略的模糊分类 规则迭代学习算法。在集成训练算法的每轮的迭代中,根据当前训练样本的分 布,利用进化算法对规则前件进行优化,产生分类规则。由于在规则学习的适应 度函数中引入训练样本的分布,使得模糊分类规则在产生阶段就考虑相互之间的 协作,从而减少整体规则的分类误差。 对论文中提出的算法,在u c i 数据仓库的几个公共数据集和雷达辐射源仿真 数据集上进行了实验和验证。 关键字:集成学习多分类器集成a d a b o o s t 算法雷达辐射源识别 分类 a b s t r a c t h o wt oo b t a i nl e a m i n gs y s t e m sw i t hg e n e r a l i z a t i o nb yf i n i t el e a r n i n ge x a m p l e sa s p o s s i b l ei ss t i l lo n em a i np r o b l e mo fm a c h i n el e a r n i n g e n s e m b l el e a r n i n gt e c h n i q u e s t h a tt r a i naf i n i t en u m b e ro fw e a kc l a s s i f i e r sa n dc o m b i n et h e i rr e s u l t sc a l li m p r o v e g e n e r a l i z a t i o n o ft h e l e a r n i n gs y s t e mo b v i o u s l y s oi t i s r e g a r d e da se n g i n e e r i n g c l a s s i f i c a t i o nt e c h n i q u ew i t hw i d ea p p l i c a t i o nf o r e g r o u n da n di sa n i n v e s t i g a t i n g h o t s p o t t h e o r ya n a l y s i s ,i m p l e m e n tw a ya n da p p l i c a t i o ni nr a d i a lp o i n tr e c o g n i t i o no f t h em u l t i p l ec l a s s i f i e re n s e m b l ea r ed i s c u s s e da n dr e s e a r c h e di nt h i sp a p e r r a d i a lp o i n tr e c o g n i t i o ni sa ni m p o r t a n c ep a r to fe l e c t r i c a lw a rf a c e dt od i s t r i c t , a n di saf o u n d a t i o no ft h ep l a tr e c o g n i t i o na n ds i t u a t i o ne s t i m a t i o n i nm o d e r n i z e dw a r t h e r e a r em o r ea n dm o r ee l e c t r i c a ld e t e c t i v es e n s o r si nr a d a r s ,n a v i g a t i o n sa n d c o m m u n i c a t i o n s ,s ot h ee l e c t r o m a g n e t i s mc o n d i t i o ni sg o i n gt og e tm o r ec o m p l e x t h e m o r et h en u m b e ro fd e t e c tt a r g e t si s ,t h em o r et h en u m b e ro ft r a n s a c t i n gd a t ai s b e c a u s ean u m b e ro ft r a n s a c t i n gd a t at h a ta r eh a r dt oi d e n t i f ya r ep r o d u c e d ,i ti s n e c e s s a r yt of i n daf a s t e ra n dm o r ea c c u r a c yw a yt op r o c e s st h e s ed a t ai no r d e rt o c o m p l e t eo b j e c tr e c o g n i t i o n f i r s t l y , t h et r a i ne r r o ra n dg e n e r a l i z a t i o no fa d a b o o s t a l g o r i t h mw h i c hi st h ee n s e m b l el e a r n i n gf o rc l a s s i f i c a t i o ni si n v e s t i g a t e di nd e t a i l e d a n dc o n v e r g e n c eo ft h et r a i ne r r o ra b o u ta d a b o o s ta l g o r i t h mi sp r o v e d 弱m u l t i p l e c l a s s e s s e c o n d l y , t h ef e a s i b i l i t yo fm u l t i p l ec l a s s i f i e re n s e m b l e su s i n gf o rr a d i a lp o i n t r e c o g n i t i o ni sa n a l y z e d ,a n dt h er e s u l t so fe x p e r i m e n t a t i o na r ep r e s e n t e d b yi n v e s t i g a t i n gd e c i s i o nb o u n d a r ya n de r r o rc l a s s i f i c a t i o nr e g i o n ,t h er e l a t i o n b e t w e e nt h ep e r f o r m a n c eo fm u l t i p l ec l a s s i f i e re n s e m b l e sa n dt h ec o r r e l a t i o nb e t w e e n c l a s s i f i e r si sd i s c u s s e d s e v e nd i v e r s i t ym e a s u r ef u n c t i o n st h a ta r eu s e dt om e a s u r et h e d i v e r s i t yo fc l a s s i f i e r sc r e a t e db ya d a b o o s ta l g o r i t h ma r ep r e s e n t e d t h er e g u l a t i o n o ft h ed i v e r s i t yi nc l a s s i f i e re n s e m b l ev a r y i n ga st h en u m b e ro fc l a s s i f i e r sc a nb eg o t t e n a na d v a n c em e t h o df o r p r u n i n g c l a s s i f i e rf r o me n s e m b l e sb a s e do na n u n s u p e r v i s e dc l u s t e r i n ga p p r o a c h i s p r e s e n t e db ym e a n so ft h ed i v e r s i t yo ft h e c l a s s i f i e r sc l a s s i f i c a t i o nb e h a v i o r f o rc l a s s i f i e r sp r u n e d ,am e t h o do fd i s t r i b u t i n g c l a s s i f i e r sv o t i n gw e i g h t si si m p l e m e n t e ds ot h a tp a r t i t i o n sa n dv o t i n gw e i g h t so f c l a s s i f i e r sc a l lb e g o t u n d e rs i m i l a rc l a s s i f i c a t i o na c c u r a c yt h e r e a lt i m eo f c l a s s i f i c a t i o ns y s t e mc a nb ei m p r o v e db ye l i m i n a t i n gt h er e d u n d a n tc l a s s i f i e r sa s p o s s i b l e ,a n dt h em e m o r y t h a ti su s e dt os t o r ec l a s s i f i e r sc a nb ed e c r e a s e d a na p p r o a c ht o d y n a m i ce n s e m b l eo fc l a s s i f i e r s b a s e do n a d a p t i v ew e i g h t a d j u s t i n gi sp r e s e n t e dw h i c hc a ns e l e c ta d a p t i v ec l a s s i f i e r s t oc o m b i n ea n da d j u s t c l a s s i f i e rw e i g h t sa c c o r d i n gt ot e s ti n s t a n c e s d e c i s i o no fm u l t i p l ec l a s s i f i e re n s e m b l e s i sm a d eb ys t a t i s t i c a li n f o r m a t i o na b o u tt r a i nd a t a s e t , a n dt h ef i n a lp e r f o r m a n c eo f c l a s s i f i c a t i o ni si m p r o v e d a ni t e r a t i v el e a r n i n gm e t h o da b o u tf u z z yc l a s s i f i c a t i o nr u l ei sp r e s e n t e db a s e do n c o m b i n i n ge n s e m b l el e a r n i n gw i t he v o l u t i o n a r ys t r a t e g i e s d u r i n ge a c hi t e r a t i o nf u z z y c l a s s i f i c a t i o nr u l e sa r ec r e a t e db yo p t i m i z i n ga n t e c e d e n t so ff u z z yc l a s s i f i c a t i o nr u l e s b a s e do nd i s t r i b u t i o no ft r a i n i n gi n s t a n c e s b e c a u s eo fa d d i n gt h ed i s t r i b u t i o ni nf i t n e s s f u n c t i o n s ,t h ec o l l a b o r a t i o no fr u l e si st a k e ni n t oa c c o u n td u r i n gp r o d u c i n gr u l e sp h a s e 5 0t h a tt h ep e r f o r m a n c eo ft h ec l a s s i f i e rb a s e do nt h ef u z z yr u l e si si m p r o v e d a l le x p e r i m e n t sa b o u ta l g o r i t h m sp r e s e n t e di nt h i sp a p e ra r eo p e r a t e do ns e v e r a l d a t a s e t so ft h eu c im a c h i n el e a r n i n gr e p o s i t o r ya n dt h ed a t a s e to fr a d a rs i m u l a t i o n k e y w o r d s :e n s e m b l el e a r n i n g a d a b o o s ta l g o r i t h m m u l t i p l ec l a s s i f i e re n s e m b l e s r a d i a lp o i n tr e c o g n i t i o nc l a s s i f i c a t i o n 目录 目录 第一章绪论l 1 1 引言l 1 1 1 机器学习及其研究概况l 1 1 2 集成学习3 1 2 构造多分类器集成方法研究4 1 2 1 集成中基分类器的生成4 1 2 2 分类器集成方法研究6 1 2 3 多分类器集成中一些研究的问题7 1 3 多分类器集成学习在雷达辐射源识别中的应用8 1 3 1 数据融合中的目标综合识别8 1 3 1 1 目标识别概述8 1 3 1 2 辐射源识别8 1 3 2 目标识别的主要技术9 1 3 3 集成学习技术在辐射源识别中的意义和作用1 0 1 4 论文的主要工作和研究内容1 2 1 5 论文的组织和结构1 3 第二章基于a d a b o o s t 的辐射源集成分类识别1 5 2 1 两个代表性的集成学习方法1 5 2 2a d a b o o s t 的基本原理1 6 2 2 1a d a b o o s t 的基本思想1 8 2 2 2a d a b o o s t 两分类算法1 8 2 2 3a d a b o o s t m 1 算法1 8 2 3a d a b o o s t 训练误差分析1 9 2 3 1 训练误差分析1 9 2 3 2b o o s t i n g 和s v m 的联系2 2 2 4 多类问题的a d a b o o s t 收敛性分析2 2 2 5 基于多分类器集成的辐射源识别2 6 2 5 1 辐射源识别模型2 6 2 5 2 特征提取与选择2 7 2 5 3 雷达辐射源型号识别分类器3 0 2 5 4 雷达辐射源型号识别3 l 2 5 4 1 神经网络分类器中重要参数的确定3 2 2多分类器集成及其在辐射源识别中的应用 2 5 4 2 样本的选取和处理3 3 2 5 4 3 雷达型号仿真识别结果及分析3 4 2 6 小结3 8 第三章多分类器集成中差异性分析3 9 3 1 分类器间的相关性与集成性能分析4 0 3 1 1 多分类器集成的性能分析4 0 3 1 2 决策边界与错分区域4 0 3 1 3 相关分类器的集成分析4 3 3 2 集成中分类器差异性分析4 5 3 2 1 差异性测度定义4 5 3 2 1 1 明确的不一致性测度4 5 3 2 1 2 不一致性测度4 6 3 2 1 3q 统计测度4 6 3 2 1 4 相关系数4 7 3 2 1 5k a p p a 差异性测度4 7 3 2 1 6 熵值测度4 8 3 2 1 7k o h a v i - w o l p e r t 差异测度4 8 3 2 2 差异性测度间的关系5 l 3 3a d a b o o s t 算法产生的集成分类器差异性分析5 3 3 4 结论5 8 第四章多分类器集成约减5 9 4 1 关于b o o s t i n g 的约减方法6 0 4 2 集成分类器约减的理论分析6 l 4 3 待解决的关键问题6 2 4 4 改进的多分类器子集划分6 3 4 4 1 分类器子集的划分6 3 4 4 2 分类器行为分析及距离函数6 4 4 4 3 基于聚类算法的分类器划分6 5 4 5 分类器约减6 6 4 5 1 多分类器约减算法6 6 4 5 2 基于分类器差异性的投票权值分配6 8 4 6 实验分析6 8 4 7 辐射源数据实验分析7 l 4 8 小结7 2 第五章多分类器动态集成7 4 目录 5 1 多分类器的动态集成的引入7 4 5 2a d a b o o s t 集成方法中分类器权值分析7 5 5 3 动态集成中局部分类准确率确定方法分析7 7 5 4 多分类器行为分析及有效邻域确定7 8 5 4 1 多分类器行为分析7 8 5 4 2 基于多分类器行为分析的有效邻域确定7 9 5 5 基于有效邻域的多分类器动态集成8 1 5 5 1 动态分类器选择算法d s g 8 1 5 5 2 选择性动态投票算法d v s g 8 2 5 6 实验分析8 4 5 7 小结8 5 第六章基于集成模糊分类规则的雷达体制分类器8 7 6 1 前言8 7 6 2 基于模糊规则的分类系统8 8 6 3 模糊分类规则的进化学习8 9 6 4 改进的模糊分类规则集成学习9 2 6 4 1 分类规则的覆盖产生算法9 2 6 4 2 模糊分类规则集成学习算法9 3 6 4 3 模糊分类规则的集成9 4 6 5 雷达体制识别实验验证9 5 6 6 小结9 6 第七章结论与展望9 8 7 1 本文研究工作的总结9 8 7 2 进一步研究的展望9 9 致谢1 0 l 参考文献1 0 2 在读期间的研究成果1 1 3 第一章绪论 第一章绪论 1 1 引言 传统统计学框架下设计学习机器以及推断的学习算法大多是在有无穷多样本 的假设下进行的,因此,很难保证系统对于有限样本也有同样好的性能表现。如 何通过有限样本的学习尽可能地获得好的推广能力,一直是机器学习研究的主要 问题之一。一种传统的学习过程就是追求训练误差最小,结果是,对于具有微小 扰动的样本,学习机器便很难认为是所属类的一个近似,而把它错误地划分到其 它类中去,这就导致了所谓的过学习,推广性差。因此,如何利用计算机强大的 计算能力,结合人类的学习能力,从而使计算机拥有一定的智能,帮助人类解决 各种问题,已经成为人工智能的一个重要研究领域,即机器学习。而集成学习是 近1 0 年来发展起来的一种新的机器学习技术,其目的是通过对简单学习技术的 集成,生成性能较好的学习技术。由于在实际应用中表现出来的优越性,集成学 习已成为当前人工智能领域的一个研究热点。 1 1 1 机器学习及其研究概况 机器学习作为一个人工智能和统计学的结合物,已被证明是一个富有成效的 研究领域。在未来,计算机能从医疗记录中学习,获取治疗新疾病最有效的方 法:个人软件助理可以跟踪用户的兴趣,并为其选择最感兴趣的在线早间新闻, 等等。同时,对计算机学习的成功理解将会开辟出许多全新的应用领域,如果理 解了机器学习的内在机制,理解它们是如何根据经验自动提高,那么影响将是空 前的。目前,人们还不知道怎样使计算机具备和人类一样强大的学习能力,然 而,一些针对特定学习任务的算法己经产生,关于学习的理论认识己开始逐步形 成。人们开发出很多实践性的计算机程序来实现不同类型的学习,一些商业化的 应用也己经出现。例如,对于语音识别、人脸识别,到目前为止,基于机器学习 的算法明显胜过其他的方法。在数据挖掘领域,机器学习算法被用于从设备维护 记录、借贷申请、金融交易、医疗记录等此类信息的大型数据库中发现有价值的 信息【。随着对计算机认识的发展,机器学习必将在计算机科学和技术中扮演越 来越重要的角色。 2 多分类器集成及其在辐射源识别中的应用 目前,计算机已经能够成功地识别人类的讲话、预测疾病、检测信用卡的欺 诈、在高速公路上自动驾驶汽车等。己有很多理论成果能够对训练样本数量、假 设空问大小和己知假设中的预期错误这三者间的基本关系进行刻画。人们j 下开始 获取人类和动物学习的原始模型,用以理解它们和计算机的学习算法间的关系。 在过去的十年中,无论是应用、算法、理论,还是生物系统的研究,都取得了令 人瞩目的进步。 机器学习的目的是根据给定的训练样本获得对某系统输入输出之间依赖关系 的估计,使它能够对未知输出做出尽可能准确的预测【2 5 1 。可以描述为:变量y 与 x 存在一定的依赖关系,机器学习问题就是根据1 1 个独立同分布观测样本 ( x l , y 1 ) ,( x 2 ,y 2 ) ,( ,y 一) ,在一组函数 f ( x ,) 中求出一个最优的函数 f ( x ,m ) 对依赖关系进行估计,使得期望风险f l ( y ,f ( x ,w ) ) d f ( x ,少) 最小。其 中, f ( x ,w ) 称作预测函数集,w 为函数的广义参数,l ( y ,f ( x ,w ) ) 表示用 f ( x ,们对y 进行预测而产生的损失。预测函数也称作学习函数、学习模型或学 习机器。 基本的机器学习问题有三类:模式识别、函数逼近和概率密度估计【3 】【4 4 1 。 ( 1 ) 对于模式识别问题,输出y 是类别标号,两类情况下) ,= 0 ,1 ) 或 l ,一1 ,其损失函数可定义为: 坳舶w 炉f l o , , 豫凳: 使风险最小,即b a y e s 决策中使错误率最小。 ( 2 ) 对于函数逼近问题,y 是连续变量,采用最小平方误差准则,损失函数 可以定义为: l ( y ,f ( x ,w ) ) = 一f ( x ,忉) z ( 3 ) 对于概率密度估计问题,学习的目的是根据训练样本确定x 的概率密 度,设估计的密度函数为p ( x ,川,则损失函数可以定义为: 三( p ( x ,w ) ) = 一l o g p ( x ,叻 第一章绪论 1 1 2 集成学习 机器学习的一种研究问题是通过机器对样本的学习,产生样本之间的联系规 则。当有新的待测定样本出现时,机器可以通过已获得的规则,产生待测定样本 的判定,实现类似人类的学习能力。 近些年来,出现了很多机器学习方法,神经网络技术就是一种具有代表性的 方法。通过模仿人脑神经元结构建立信息处理的能力,应用于各种应用问题。 h o m i k 等人证咧3 9 j ,具有一个非线性隐层的前馈神经网络就能以任意精度逼近任 何有理函数。但是,神经网络的应用效果与使用者的经验关系密切【3 9 】,网络的设 置、参数配置以及训练完全取决于使用者,因此,对于具体应用问题,往往需要 经过大量耗时费力的实验才能获得适合的神经网络模型、算法以及参数设置。对 于不同的操作者,即使采用相同的方法解决同样的问题,其结果也可能出现差 异,很大程度上同使用者具有的经验和先验知识有关。因此,对普通的应用技术 人员来说,希望有一种不需要过多依赖先验知识和操作者经验又能产生良好效果 的方法。近几年出现的集成学习技术就是能实现这一希望的一种方法。 什么是集成学习( e n s e m b l el e a r n i n g ) ,目前没有一个统一的定义。目前,相 关的概念有:多模型系统、委员会学y - - - j ( c o m m i t t e el e a r n i n g ) 、模块化系统、多分 类器系统等等【4 】【5 】【6 】【7 1 。在模式识别领域,很多的人称为多模型系统( m u l t i m o d e l s y s t e m ) ,意思是对于某个分类问题,针对不同的特征,产生多个分类模式,然 后,对这些模式进行集成,以形成最终的分类器。这些概念相互之间联系紧密, 但还是存在区别。集成学习有一个非常重要的性质:个体学习器是对同一个问题 进行学习,“分而治之 是把问题分解为若干个子问题,然后个别求解以获得问 题的整体解,这两者是不一样的峭j 。集成学习学习的难点在于获得具有差异的个 体学习器 9 1 ,它的每个个体都能解决整个问题;而“分而治之 的难点在于问题 的分解上,其个体旨在解决一个子问题。多专家混合常常偏向于后者,委员会学 习与集成学习比较接近。多分类器系统包含多个单独的分类器,这些分类器的性 能可能不是非常好,但通过一定融合策略把它们集成起来,就能获得好的集成结 果。这些方法的最终目标实际上是一样的,但由于途径不同,所以研究重点也不 一样。 我们倾向的集成学习定义为:用有限个学习器对同一个问题进行学习,对某 个输入样本的输出,由构成集成的各学习器在该样本下的输出共同决定,以提高 系统的推广能力。集成学习方法试图连续地调用简单的学习算法,通过改变学习 样本获得不同的个体学习器,然后将个体学习器组合起来,最终构成一个复杂 的、可以达到要求精度的学习器。 l 多分类器集成及其在辐射源识别中的应用 1 2 构造多分类器集成方法研究 在设计模式识别系统时,目的是对于所遇到的识别任务达到尽可能好的识别 性能,因此,对于实际遇到的某种识别任务,不同的分类器不断地被开发出来。 在解决具体问题时,往往根据试验的结果,在这些不同的方案中,选择一个性能 最好的作为最终的解决方案。但是以往的研究经验表明,虽然采用最佳分类器能 够具有比其他分类器都好的识别性能,但是,不同的分类器所产生的误分类集合 不一定相同,因此,那些并非最佳的分类器有可能对所要完成的识别任务提供有 用的补充信息,可以进一步提高整体分类性能。这样组合分类器实现一个集成分 类器就有望提高整体识别性能。 集成的思想源远流长,例如“取长补短”就是一种集成。集成的思想在人工 智能领域尤其显得重要,在模式识别中,集成技术也成了近年来研究的热点之 一。多分类器集成的研究问题主要由两个部分构成:参与集成的基分类器 ( c o m p o n e n tc l a s s i f i e r ,也称子分类器或分量分类器) 生成方法的研究,以及基分 类器输出的集成方法研究【7 】,这两个部分是相辅相成的。一个好的分类器集成应 满足下面几个原则: ( 1 ) 参与集成的基本分类器精确度要高,否则集成分类器的精度强度也不会 太高。 ( 2 ) 产生的基本分类器应具有差异性。对于同样的测试样本,如果集成中各 个基本分类器具有很高的错误一致性,这样的分类器组合很难对精确度有所提 高。 多分类器集成中最困难的问题是如何获得既具有差异性又有一定精确性的分 类器。因为,对于一般的测试样本,精确度很高的分类器通常不会发生分类错 误,对于测试样本集中难于分类的样本,精确性很高的分类器可能发生错误,而 且在这样的测试样本上可能会出现同时发生错误分类的现象【9 1 1 0 l 。那么,如何平 衡分类精确度以及分类器间差异性的关系是多分类器集成的主要研究问题之一, 即如何衡量分类器间的差异性,评价分类器间的相关程度或互补程度,以获得一 个有效的多分类器集成。 1 2 1 集成中基分类器的生成 集成中基分类器的生成方法主要有以下几种: ( 1 ) 集成学习算法 集成学习算法是集成中多分类器生成的重要的方法,b o o s t i n g 第一章绪论 ( b o o t s t r a p p i n g ) 算法 1 1 1 1 1 2 】【1 3 】和b a g g i n g ( b o o t s t r a pa g g r e g a t i n g ) 算i :去 1 4 1 是目前集 成学习中具有代表性的两种方法。这两种方法均是对训练数据集进行重复取样以 获得许多新的训练集,在这些训练集上生成相应的分类器,经多数投票法表决获 得最终的分类结果。实验表明这些分类器具有较高的差异性,并能有效地提高分 类器的集成分类准确率【1 5 】【16 1 。 ( 2 ) 处理各分类器的输出结果 1 9 9 5 年,d i e t t e r i c h 和b a k i r i 提出错误纠正输出码( e r r o r - c o r r e c t i n go u t p u t c o d i n g ) 方法【l 。假设总的类别数1 1 1 较大,随机地将m 类划分成两个子集a ,、 e 。输入的数据按照以下规则进行标号,在彳。中的类别被标号为l ,在b i 中的类 别被标号为0 。对这些被重新标号的数据进行拟合,构成一分类器死。该过程重 复l 次,产生不同的子集a ,、b ,以获得参与组合的分类器h z ,h ,h ,。对于 待测样本x ,用l 个分类器厅l ,h 2 ,h 对其进行分类;如果h ,( 石) = 1 ,则所有在 4 中的类别均得到一票:如果h i ( 工) = 0 ,则所有e 中的类别均得到一票。当所有 l 个分类器都进行投票后,获得最多票数的类别作为分类器集成的最终预测结 果。 ( 3 ) 处理输入特征。 当输入特征向量中存在着高度相关的特征时,可以获得不同的特征向量子空 间,在这些子空间上运行拟合。例如:为了分析来自金星的图像,c h e r k a u e r 1 8 1 运 用了不同的预处理方法,其中包括主成分分析和傅立叶分析,获得了1 1 9 个侯选 输入特征。在此基础上,获得8 个不同的特征子集。采用神经网络做分类器,采 用4 种不同的隐层节点数以及基于这8 个不同的特征子集,产生3 2 个神经网络 分类器。利用这3 2 个分类器的组合分类器识别火山,其性能可与人类专家相 似。 ( 4 ) 对拟合过程进行随机处理。 在神经网络的训练中,初始权值通常被设为较小的随机数。通过设置不同初 始权值可以获得不同拟合效果的神经网络。p e r r o n e 和c o o p e r 采用此方法获得多 个网络,并对其结果进行加权投票,在回归问题处理上取得了较好的结果【1 9 】。 k o n g 和d i e a e f i c h 提出了c 4 5 的变体 2 0 1 ,即在前2 0 个最好的候选分裂中随机选 择一个进行分裂,这种方法在一些分类的性能上可与b a g g i n g 方法相媲美。 此外,还存在多种基分类器生成方法。例如,有些研究者使用交叉验证技术 来产生集成中的个体【2 1 】;有的研究者利用遗传算法进化出的神经网络种群作为集 成中的个体【2 2 】。 上述几种方法均是生成同一类型的分类器。实际上,方法( 3 ) 较容易用来 生成不同类型的分类器,但这方面理论上的研究不多。 6多分类器集成及其在辐射源识别中的应川 1 2 2 分类器集成方法研究 分类器的集成方法在多分类器集成研究中占有重要地位。集成方法随着分类 器输出信息的形式不同而不同【2 3 】【2 钔。分类器输出的信息可以总结为三个级别,抽 象级别、秩级别以及测度级别1 6 儿功j 。 ( 1 ) 抽象级别:分类器的输出为单一的模式类别号,来表示输入样本所属的 类别。 ( 2 ) 秩级别:分类器的输出为类别号的有序排列,即将分类器认为最有可能 的类别号放在最前面,可能性最小的类别号放在最后面。 ( 3 ) 测度级别:分类器给每个类别赋予一个测度值,通常是介于 o ,l 】之间的 值,表明待识别样本属于这个类别的程度。 在这三个不同的级别中,测度级别包含最多的信息量,而抽象级别包含最少 的信息量。根据赋给每个类别号的测度值,可以按某种排序规则对类别号排序, 形成候选类别号队列。通过选择队首的类别号,或者,通过直接选择具有最大或 最小测度值的类别号,可以对待识样本输出一个唯一的类别。大多数分类器可以 在测度级别提供输出信息,例如,贝叶斯分类器提供的后验概率,b p 神经网络 分类器的归一化输出,还有基于距离的分类器( 例如k n n 分类器等) 所提供的 输入样本x 与每个类别模型的距离的倒数也可以作为样本x 属于各类别的程度。 基于以上三种不同的分类器输出信息级别,分类器集成方式也可以相应地归 结为三类:基于抽象级别输出信息的分类器集成、基于秩级别输出信息的分类器 集成以及基于测度级别输出信息的分类器集成【3 引。 多分类器集成常根据基分类器输出投票产生最终结果。投票法采用的是少数 服从多数的原则,常用的投票法分为绝对多数投票法和相对多数投票法,当且仅 当将超过半数的基分类器的输出类别作为最终分类结果的方法称为绝对多数投票 法;将大多数基分类器认同的那个类别作为最终分类结果的称为相对多数投票 法。理论分析和大量的实验证明【4 2 1 ,后者优于前者。 此外,还存在多种结合方式,例如, 统,通过学习来对多个预测进行结合【4 3 】; 有些研究者利用神经网络这样的学习系 有些研究者通过对一组子网进行进化, 使得各子网都可以较好地处理一个输入子空间,从而一步步地进行结合h 5 1 ;还有 一些研究者采用随着基分类器输出的确定程度变化的动态权值来产生最终的分类 结果。 第一章绪论 1 2 3 多分类器集成中一些研究的问题 多分类器集成方法在模式识别的多个应用方面,如目标识别、字符识别、文 本分类等领域,已获得了较好的应用效果 3 3 1 【3 4 】【3 5 】。f r o u n d 和s c h a p i r e 将集成算 法应用于u c ib e n c h m a r k 数据集,同时还应用于文本识别。s r i n i v a sg u t t a 等将该 方法用于性别、种族起源和人脸姿态识别,d r a k ep r 等将该方法用于木质胶合板 图像分类与识别,等等。由于多分类器集成方法操作简单且效果明显,因此,该 技术已在很多领域中得到了成功的应用。1 9 9 2 年,h a n s e n 等人【3 6 j 利用由相对多 数投票法结合的神经网络分类器集成进行手写体数字识别,实验结果表明,集成 的识别率比最好的单一神经网络识别率高出2 0 2 5 。此后,s c h w e n k 和b e n g i o 将a d a b o o s t 与神经网络分类器结合进行手写体字符识别,也取得了很好的效果 【3 7 】 o 目前,多分类器集成的研究已经取得一定的成果【2 7 】【2 引,但是仍然存在着很多 问题有待研究,它们主要是: ( 1 ) 现有研究成果表明,当集成中的基本分类器差异较大时,集成的效果较 好,但如何获得差异较大的基分类器,以及如何评价多个分类器之间的差异性和 互补性,目前仍没有较好的方法。如果能找到这样的方法,将极大地促进多分类 器集成技术在应用领域的发展。 多分类器集成中较困难的问题是如何获得既具有差异性又有一定精确性的分 类器。因为,对于一般的测试样本,精确度很高的分类器通常不会发生分类错 误,对于测试样本集中难于分类的样本,精确性很高的分类器可能发生错误,而 且会出现在这样的测试样本上同时发生错误【l 们,尤其对神经网络分类器,在训练 时会出现过训练现象【9 】。那么,如何平衡分类精确度和分类器之间差异性的关系 是多分类器集成的主要研究问题之一,即如何衡量分类器间的差异性,评价分类 器间的相关程度或互补程度,以获得一个有效的多分类器集成。 ( 2 ) 即使确定了分类器之间的差异性评价函数,如何构造或选择使此评价函 数达到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校校服厂管理制度
- 学校配电间管理制度
- 学生对班级管理制度
- 学院各科室管理制度
- 安全品牌部管理制度
- 安息堂人员管理制度
- 安装充电桩管理制度
- 完善总资产管理制度
- 实验室收费管理制度
- 客户更衣区管理制度
- 胸痛健康教育课件
- 2025年合肥城建发展股份有限公司及所属子公司招聘17人(二批次)笔试参考题库附带答案详解
- 【上料机械手结构中的真空系统的设计计算案例1100字】
- 西方美术史试题及答案
- 七年级数学下学期期末测试卷(1)(学生版+解析)-2025年七年级数学下学期期末总复习(北师大版)
- 医院员工手册管理制度
- 校园短剧创作与演出指导行业跨境出海项目商业计划书
- 泉州水务集团有限公司招聘考试真题2024
- 【7历期末】安徽省合肥市包河区2023-2024学年部编版七年级下学期期末历史试卷
- 2025年人教版小学数学三年级下册期末考试卷(带答案)
- 山东省济南市历城区2023-2024学年七年级下学期期末语文试题(解析版)
评论
0/150
提交评论