




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)分类器的选择性集成及其差异性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
m a s t e ro fe n g i n e e r i n g c o m p u t e ra p p l i c a t i o nt e c h n o l o g y i n t h e g r a d u a t es c h o o l o f l a n z h o u u n i v e r s i t yo ft e c h n o l o g y s u p e r v i s o r a s s o c i a t ep r o f e s s o rw a n gy a n m a y , 2 0 1 1 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:王镌霞日期:刀f 庠6 月 拿日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同 时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据 库,并通过网络向社会公众提供信息服务。 作者签名: 导师签名: z 秀霞 立蒸 日期:劢f 年6 月谬日 日期:2 e l f 年多月日 j 争,j 、 ,4 - i l _ 1 2 国内外研究现状2 1 3 本文的主要工作4 1 4 本文的内容安排5 1 5 本章小结5 第2 章分类器集成的理论基础7 2 1 集成学习的概念7 2 2 集成学习的主要组成部分9 2 2 1 个体学习器组合方式9 2 2 2 个体学习器生成方式1 0 2 3 集成学习的主要算法:1 2 2 3 1b o o s t i n g 算法及算法的理论基础1 3 2 3 2b a g g i n g 算法及算法的理论基础1 4 2 4 集成学习中存在的问题1 5 2 5 本章小结1 6 第3 章分类器选择集成1 7 3 1 分类器集成1 7 3 2 选择性分类器集成1 7 3 3 选择性分类器集成的依据和策略1 9 3 3 1 选择性分类器集成的依据1 9 3 3 2 选择性分类器集成的策略2 0 3 4 选择性分类器集成的主要算法2 l 3 4 1 基于遗传算法的选择性方法g a s e n j 2 l 3 4 2 基于互信息的选择性集成算法m i s e n 2 2 3 5 本章小结2 3 第4 章一种结合特征分割和差异性度量的分类器选择集成算法2 4 4 1 算法思想2 4 4 1 1 集成学习中特征提取技术2 5 分类器的选择性集成及其差异性研究 4 1 2 特征提取方法一主成分分析技术2 6 4 1 3 集成学习中差异度量方法2 7 4 1 4 差异性度量方法一双误选择策略3 1 4 2 分类器选择集成算法的整体框架设计3 3 4 3 本章小结3 3 第5 章试验及结果分析3 5 5 1 试验数据集3 5 5 2 算法试验及结果分析3 5 5 3 本章小结3 6 总结与展望3 7 参考文献3 8 致谢4 3 附录a 攻读学位期间所发表的学术论文4 4 经深入到很多的领域,比如在语音识别、人脸识别、情感识别、文本分类、数据 挖掘、游戏、遥感图像分类、医疗诊断等,在这些方向上受到了广泛应用。分类 器集成利用不同分类器之间的互补性,提高集成后分类器的性能,并且在各自分 类性能上分类器集成充分发挥了每个成员分类器的优势,得到比单个成员分类器 都好的分类识别率,其目的是通过对多个互补的分类器识别结果的集成来得到一 个高性能的识别系统。具有很大的研究价值,并且也具有很广的实际应用前景。 分类器的差异性和准确性是集成学习的两个充分必要条件,也是选择性集成 学习的主要依据,通过提高成员分类器的识别率,增加成员分类器的差异性,来 达到提高分类器集成系统性能的目的。但是,在体现分类器的多样性方面分类器 集成方法存在着很多不足。为了实现分类器集成系统的最优性能,需要生成具有 高准确性和差异性的分类器进行集成,二者必须兼顾,同时也需要考虑针对不同 类别的样本采用不同的集成方式。就分类器集成学习中如何提高分类器的准确 性,如何提高分类器的差异性这些研究问题进行研究。分析并研究了成员分类器 的准确性和差异性的产生,提高集成分类器的识别性能。 本文的工作主要是:分别从集成学习的两个阶段( 个体分类器的生成阶段和 个体分类器的组合阶段) 入手,进行了有关集成学习的两个阶段的优化处理,来 生成具有高准确率和差异性的分类器。在分类器的生成阶段,为了生成具有准确 率较高的分类器,采用了对原始训练数据集进行特征分割的方式,产生较优的分 类器,充分考虑训练样本集的分布特征,在保证单个分类器高性能的情况下,达到 成员分类器多样性的目的。在分类器的组合阶段,组合这些分类器的分类结果来 达到理想的效果,利用合理的差异度量公式选择出具有差异性的分类器,使得分 类器的两个必要性都得到保证,得到平衡,有利于提高集成学习的识别性能。 关键词:集成学习;分类器选择集成;特征提取;差异性度量; 分类器的选择性集成及其差异性研究 a bs t r a c t e n s e m b l el e a r n i n gi so n eo ft h ef o c u s e so fm a c h i n el e a r n i n ga n di tc o m b i n e san u m b e r o fd i f f e r e n tm o d e l si n t oo n es i n g l em o d e lw h i c ha i m st ou s et h ed i f f e r e n c eb e t w e e nt h e s e i n d i v i d u a lm o d e l st oi m p r o v et h eg e n e r a l i z a t i o np c r f o r m a n e o ft h em o d e l t h a ti sd e s i g n e d t og i v ef u l lp l a yt oe a c hm e m b e ro ft h ec l a s s i f i e r si nc l a s s i f i c a t i o np e r f o r m a n c ea n dg e t s h i g h e rc l a s s i f i c a t i o nr a t et h a ni n d i v i d u a lm e m b e re l a s s i f i e r hr e c e n ty e a r s ,c l a s s i f i e rs e l e c t i v e e n s e m b l et e c h n o l o g yh a sb e e nw i d e l ya p p l i e di ns p e e c hr e c o g n i t i o n , f a c er e c o g n i t i o n , i m a g e r e c o g n i t i o n , d a t am i n i n g , m e d i c a ld i a g n o s i s ,g a m e s ,h a n d w r i t t e nc h a r a c t e rr e c o g n i t i o n , r e m o t e s e n s i n gi m a g ec l a s s i f i c a t i o na n dm a n yf i e l d sa n di ts h o w sag r e a td e a lo fr e s e a r c hv a l u ea n d r e a l i s t i cp r o s p e c t s 田托p u r p o s eo fc l a s s i f i e re n s e m b l ei s t ou s ed i f f e r e n tc o m p l e m e n t a r i t yb e t w e e n c l a s s i f i e r st oi m p r o v ec l a s s i f i c a t i o np e r f o r m a n c ea r e ri n t e g r a t i o n u s u a l l y , b yi n c r e a s i n gt h e r e c o g n i t i o np e r f o r m a n c eo fm e m b e rc l a s s i f i e ra n di n c r e a s i n gt h ed i f f e r e n c eo fm e m b e r c l a s s i f i e r st oa c h i e v et h ea i mo fi m p r o v i n gp e r f o r m a n c eo fc l a s s i f i e re n s e m b l e ,n l et r a d i t i o n a l m e t h o do fc l a s s i f i e re n s e m b l eh a ss o m ed e f i c i e n c yt os h o wt h ed i v e r s i t y i no r d e rt oa c h i e v e t h eo p t i m u mp e r f ;o r m a n c eo fc o m b i n e dc l a s s i f i e r , i tn e e d st og e n e r a t ean u m b e ro fc l a s s i f i e r s w i t hh i g ha c c u r a c ya n dd i f f e r e n c e , a n da l s on e e dt oc o n s i d e rd i f f e r e n tt y p e so fs a m p l e sf o rt h e i n t e g r a t i o no fd i f f e r e n tw a y s t h i sp a p e rp r o p o s e , t h eo p t i m i z a t i o no ft w o - s t a g e ( t h eg e n e r a t i o ns t a g ea n dt h e c o m b i n a t i o ns t a g eo ft h ei n d i v i d u a lc l a s s i f i e r ) a b o u te n s e m b l el e a r n i n ga n dh a v eo p t i m i z a t i o n f r o mt h eg e n e r a t e ds t a g et oa s s e m b l yp h a s e i nt h eg e n e r a t i o np h a s eo fc l a s s i f i e r , i no r d e rt o g e n e r a t eh i g h e rc l a s s i f i c a t i o na c c u r a c y , w eu s et h ew a yo ff e a t u r es e g m e n t a t i o nf o ro r i g i n a l t r a i n i n gd a t as e t ;i nt h es t a g eo fc o m b i n a t i o no fc l a s s i f i e r , w eu s ear e a s o n a b l ed i f f e r e n c e m e t r i cf o r m u l at os e l e c t t h ec l a s s i f i e rw h i c hh a sad i f f e r e n c e , s ot h e s et w on e e d sa l e g u a r a n t e e da n db a l a n c e d , i tw i l l i m p r o v et h er e c o g n i t i o np e r f o r m a n c eo fe n s e m b l e l e a r n i n g t h ea i mi st oa c h i e v et h ep u r p o s eo ft h ed i v e r s i t yo fm e m b e rc l a s s i f i e r si nc a s eo f e n s u r i n gh i g h - p e r f o r m a n c eo fs i n g l ec l a s s i f i e r k e yw o r d :e n s e m b l el e a r n i n g ;c l a s s i f i e rs e l e c t i v ee n s e m b l e ;f e a t u r ee x t r a c t i o n ;d i v e r s i t y m e a s u r e m e n t 图4 1 分类器选择集成方法3 3 u l 表4 2 表4 3 表5 1 表5 2 表5 3 分类器d j 与仇之间的关系2 8 分类器彳和五的一致性误差概率3 1 实验数据集分析3 5 b a g g i n g 算法数据集准确率( ) 3 6 本文算法数据集准确率( ) 3 6 i v 硕+ 学位论文 曼曼量曼曼曼曼曼曼皇曼蔓曼鼍曼曼曼曼皇曼! 曼曼皇曼曼曼曼量曼曼皇曼蔓曼量曼曼曼曼曼曼曼蔓曼! 蔓曼毫曼曼皇i 一一 i 皇曼量量曼皇曼鼍曼曼曼曼量 1 1 研究背景与意义 第1 章绪论 随着科技的快速发展,软件新技术发展的重要趋势是智能化技术,而机器学 习是实现智能化的重要途径之一。机器学习是计算机科学中研究让机器具有学习 能力的分支。集成学习是机器学习的研究热点之一,是机器学习的一种新的范式。 机器学习方法在生产、科研和生活中有着广泛应用,目前,已经在科学研究、手 写识别、人脸识别、语音识别、数据挖掘、游戏、情感识别等领域之中得到应用 【l 】。随着机器学习方法的普及,集成学习的研究也越来越热门。 数据挖掘技术作为统计学中的一个新的研究热点在机器学习中得到了统计 学界广泛的关注。著名统计学家c r r a o 2 】指出统计的未来在于数据挖掘。在 1 9 9 7 年,国际机器学习界的权威t g d i e t t e r i c h 3 】把集成学习列为机器学习四大研 究方向的首要问题。机器学习中的一大研究方向是通过集成方法提高学习精度。 经过几十年的发展,集成学习中研究的比较深入的有两大经典算法b a g g i n g 算法和b o o s t i n g ,b a g g i n g 是由b r e i m a n 4 提出的一种方法;a d a b o o s t 是f r e u n d 【5 】 和s e h a p i r e 6 】提出的一种方法。这两种方法的集成方式不一样,前者是一种并行 方式,后者是一种串行方式。除此之外还有很多算法,如a r c i n g 、r a n d o m f o r e s t 引、g a s e n 9 1 算法等。 集成学习( e n s e m b l el e a r n i n g ) 是机器学习的一种新的范式,是使用多个同质 或非同质的学习器来解决同一个问题的一个学习系统,通常是使用同质的多个学 习器来解决同一个问题,它能够显著的提高学习系统的泛化能力,所以成为近年 来机器学习界一个重要的研究方向,国际上有很多学者都已经加入到相应的研究 行列之中,并且研究出了不少有用的理论和应用成果。目前仍然存在许多问题需 要解决。如何设计出更加有效的方法,如何有效的设计出分类器集成系统来提高 整个学习器的泛化能力,将这些理论成果应用到实际应用中去,这些都是集成学 习中需要研究的热点问题【l 叭。 当学习模型具有较高的正确率和具有较大的差异性时,则模型具有明显的集 成效果,集成学习也就是组合这些具有明显效果的多个不同的个体模型,目的是 利用某个融合方法把这些个体模型组合成一个理想的模型。因此,研究人员提出 了生成具有差异性模型的集成方法。这些算法可分为基于特征提取的集成学习算 法、采用不同的技术优选模型的集成算法、基于差异度量的集成算法、在线或者 增量式集成算法、小规模数据集的集成学习算法,大规模数据集的集成学习算法 分类器的选择性集成及其差异件研究 等。总之,分类器集成学习的难点就是研究如何生成具有差异性的分类器及分类 器的各种融合方法l l 卜1 2 】。 差异性是集成学习算法提高性能的一个重要因素【l3 1 ,可以说没有差异性就 没有提高,增加集成的差异性可以提高集成学习的泛化性能,d i e t t e r i c h 3 】也指出, 分类器集成的正确率高于任何一个个体分类器正确率的充分必要条件是这些个 体分类器具有较高的正确率且具有差异性。目前对于具有差异学习模型的生成, 尤其是如何产生具有差异性的模型研究的相对较少。本文针对这个问题研究了如 何生成较高准确率且具有差异性的学习器的集成方法,并且结合数据集的特性进 行特征提取生成差异学习器,然后,利用差异度量法在生成的分类器中选择具有 较大差异性的分类器来集成。算法的性能依赖于数据集的特性以及产生差异性的 方法等因素【1 4 】,个体的差异性被认为是影响算法的一个关键因素。因此,增加 分类器的差异性是集成学习中需要解决的关键问题。 集成学习算法通常是对所有的基学习器进行组合,但z h o u 9 】等人提出了“选 择性集成学习”的概念,选择性集成的思想是通过从原有的学习器中选择一部分 差异性大,泛化能力强的分类器进行集成,就能得到效果更好的模型。周志华从 理论上证明了在执行分类或回归任务时,当训练出多个基学习器之后,这多个基 学习器有可能存在相同或相似的,或者存在预测精确度差的分类器,因此从中选 择一部分彼此差异大且预测精度高的基学习器进行集成,可望比使用所有基学习 器进行集成更好,这就是分类器的选择性集成。 集成学习中特征提取是对原始数据集的特征分布进行研究和选择的方法,其 研究成果已被广泛地应用于提高单个学习器的泛化能力。我们对b a g g i n g 方法产 生的数据子集采用特征选择技术,目的是利用这些选择出来的有用的特征训练分 类器的生成,使生成的分类器具有准确性和差异性。 1 2 国内外研究现状 对于集成学习的研究已经有相当长的历史了,是多学习系统的一大研究点, 在过去的研究中,主要研究如何组合( 融合) 每个学习机的输出结果,也就是结 论生成方式。研究最早出现在上个世纪7 0 年代b o r d a ”】的计算方法中;后来针对 在多学习机系统的模式识别问题中,k a l l a l 1 6 】又指出模式识别并不存在单一的模 型和单一的技术应用到所有的模式识别问题当中,而所需要的是很多工具或方式 方法的结合【1 7 】。这一说法的提出,就出现了人工智能界使用多种不同的方式去 处理一个问题,认为我们应该在一个较高级的组织下工作,发现并利用各自优点, 以避免每种方法所具有的局限性。 1 9 8 8 年,k e a m s 和v a l i a n t 提出了在p a c ( p r o b a b l ya p p r o x i m a t e l yc o r r e c t ) 学习 模型【l8 】中的弱学习器的概念和强学习器的概念。要获得仅比随机猜测好的学习 2 硕十学位论文 器是很容易,但是要获得强的学习器一般来说是比较困难的。如果弱学习器跟强 学习器可以相互转换的话就可以很容易解决问题,后 s c h a p i r e t 6 1 在19 9 0 年提出 了一种方法对该问题进行了证明,结果证明多个弱学习器通过一定的集成方法可 以集成为个强学习器,由此便开始了集成学习的研究。这就是有名的b o o s t i n g 算法的雏形。紧接着f r e u n d 5 】又提出了一个“b o o s t b y m a j o r i t y ”算法,但是他跟 s e h a p i r e 的b o o s t i n g 算法一样,就是必须知道学习算法的正确率的下限,这在实 际中很难做到。 在1 9 9 5 年,f r e u n d 和s c h a p i r e 又提出了a d a b o o s t 算法【5 】,不需要知道学习算 法正确率的下限,a d a b o o s t 算法是b o o s t i n g 家族最具代表性的算法,之后出现的 各种b o o s t i n g 算法都是在a d a b o o s t 算法的基础之上发展而来的。后来在1 9 9 6 年, b r e i m a n l 4 1 提出了b a g g i n g 技术。b a g g i n g 与b o o s t i n g 不同的是个体学习器可以并行 生成,并且学习器之间不存在很强的依赖关系,而a d a b o o s t 的个体学习器是串行 生成的,并且学习器之间存在着很强的依赖关系。 集成学习不但在国外取得了这么多的成就,而且在国内也有很多学者进行研 究,并做出了很大贡献,并且在理论上证明了经过选择后集成学习的模型的性能 要明显优于利用所有的学习器集成的模型的性能,这个理论的提出就是南京大学 的周志华等人在其基础上提出的“选择性集成学习【9 】的概念,并且在后来构造 了一个基于遗传算法的选择性集成神经网络算法g a s e n t 9 】来验证了理论的正确 性,其结果在国内外引起了很大的反响。 分类器的选择性集成提出后,研究人员就分类器选择进行了研究,选择分类 器始终以分类器的准确性和差异性为必要条件,提出了一些度量分类器之间的差 异性的方法,比如:q 统计法、双误选择策略d f 、不一致度量法等等,这些方 法大致可以分为成对差异度量法和非成对差异度量法。 另外,在多个个体学习器的生成阶段,为了生成具有准确性和差异性的分类 器,研究人员也提出了许多算法。基于聚类算法进行选择性集成的方法,应用聚 类算法对扩大了的数据集进行聚类,针对小规模数据集国内外研究者又提出人工 添加噪声数据来进一步提高差异性的方法【2 2 1 ,将随机生成的一定量的人工数据 加入到原始数据集中从而增加了数据集的多样性,对于大规模数据集国内外研究 者又提出了一种适合大规模数据集的集成方法。在不同的样本空间中利用特征相 似性选择特征,提出了基于b a g g i n g 选择性组合算法来提高算法稳定性,等等。 基于理论的不断发展,分类器集成学习在很多领域内获得了很好的应用。 2 0 0 2 年g r e g t l 9 应用b o o s t i n g 和b a g g i n g 用来解决数据量很大、有噪声的、高维的 数据集的密度估计问题。周志华利用c 4 5 和神经网络集成的方法进行药物检测 【2 0 】,试验也取得了良好的效果。除此之外,周志华等人还将分类器选择应用于 多实例学习【2 1 1 ,非监督学习和不均衡数据集问题【2 2 1 ,均取得很好的效果。 3 量的分类器选择集成算法,分别从分类器的生成和分类器的组合这两个阶段都进 行了优化选择。首先采用b a g g i n g 算法生成若干特征子集,然后利用特征提取的 方法对生成的每个特征子集进行主成分分析,去除一些冗余特征和噪声特征,使 得特征子集维数降低,大大增加学习和训练的时间和空间复杂度,提高分类精度, 生成较优的分类器,这样保证分类器在整体上是最优的,并且具有简单、通用、 准确的优点。然后根据分类器的分类准确率选择出分类准确率较高的分类器。 在分类器的准确性得到保证的同时训练出的分类器并不一定都具有差异性, 4 硕士学位论文 分类器的准确性和差异性之间并没有严格的单调正相关关系,因此,我们再次从 分类器的差异性方面考虑,在分类器组合之前将度量方法一改进的双误选择策略 应用到分类器集成中来,从而选择出具有差异性的分类器。本文提出的该方法既 保证了分类器的准确性又保证了分类器的多样性,使其二者之间得到了一定的平 衡。 1 4 本文的内容安排 第一章绪论。首先介绍了集成学习是机器学习的研究方向之首,进一步介绍 了研究背景和意义,其次分析并总结了国内外的研究现状,并提出了目前存在的 问题,针对问题介绍了本文的主要工作,最后介绍了本文的内容安排。 第二章主要介绍了集成学习基本概念以及理论基础和主要算法。还介绍了主 要组成部分,各组成部分的生成方式,主要算法中对b a g g i n g 和b o o s t i n g 两大算法 族的理论基础进行了详细的分析和比较,最后指出集成学习中存在的问题。 第三章介绍集成学习的一个热门分支一分类器的选择性集成学习,介绍了选 择性集成学习的概念及主要的算法,主要算法中对基于遗传算法的选择性集成方 法和基于互信息的选择性集成算法的理论基础进行了详细的分析和比较,然后介 绍了选择性集成学习的思想和理论,另外分析了当前选择性集成学习的不足。 第四章提出了一个结合特征分割和差异性度量的分类器选择集成算法的构 想。介绍了算法的基本思想、整体框架设计和实现过程;还介绍了集成学习方法 中q 统计法,双误选择策略f d ,一致度量法等的概念,对于本文的新的算法的 实现做好准备。然后详细介绍了算法的设计过程。 第五章算法试验及数据分析,介绍了采用的试验数据,并在u c i 数据集上的 实验,利用m a t l a b 平台上实现了该算法,最后与b a g g i n g 算法做了比较,证明 该算法在预测准确率上优于b a g g i n g 算法,是一个有效的学习算法。 最后一部分总结与展望。对目前的集成学习和选择性集成学习的研究成果进 行总结,指出目前研究的不足,并在此基础上对集成学习的发展进行展望,并提 出未来研究的方向。 1 5 本章小结 集成学习是机器学习的一个研究方向,可以把集成学习简单的解释为如何去 组合多个分类器的过程,其思想是通过组合一些单个模型来获得最后模型的一个 方法,要求这些单个模型必须具备准确性和差异性这两个特性,这样能够提高整 个集成学习的整体泛化性能,它跟以往的单一的模型相比具有很多优势,它在预 测准确率和稳定性上都有所提高。通过介绍了集成学习的理论,并为后来的选择 5 分类器的选择性集成及其差异性研究 性集成学习算法的构造奠定理论基础。最后通过目前集成学习的研究情况,指出 了目前集成学习存在的不足,指明了其未来的发展方向。 6 硕+ 学位论文 第2 章分类器集成的理论基础 2 1 集成学习的概念 集成学习的概念可以从多角度去理解,我们可以简单的理解为多个分类器的 一种组合方式,也就是多个分类器共同参与问题的解决。集成学习是机器学习的 研究热点之一,并在很多领域得到广泛的应用,比如在数据挖掘领域、模式识别 领域、文本分类方面、游戏等获得了广泛应用。在模式识别领域,其中分类技术 得到广泛应用。对模式识别的研究主要集中在以下几个方面:神经网络、模糊模 式、遗传算法等,以及多种智能方法融合识别研究,近年来也有应用于情感识别 的研究当中。模式识别中分类技术的流程图如下: 图2 1 模式识别框图 集成学习是在对新的实例进行分类的时候,把若干个单个分类器集成起来, 通过对多个分类器的分类结果进行某种组合来决定最终的分类【3 6 1 ,以取得比单 个分类器更好的性能。 集成学习相当于在原始数据集中进行自助法重采样( b o o t s t r a p ) ,产生多个样 本子集或特征子集,并利用这些样本子集或特征子集生成多个基学习器,把这些 基学习器集成起来【3 7 】。分类器集成学习前提是产生多个分类器,然后把这多个 分类器通过某种方法集成起来,以取得比通过单个基学习器都更好的性能。分类 器集成可以解决单个分类器局部性和单一性的问题,但是我们不难发现,在实际 应用中很容易会使用数以百计个分类器,学习器的数目不是越多越好,也不是越 少越好,因为越来越多的分类器会增加更多的时间和内存耗费,其次越来越多的 分类器很难保证他们之间的差异性,这与提倡的“准确率高,差异性大的个体 学习器相矛盾,所以从总体上来说,并不能取得好的效果,相反会取得负面影响。 就这一问题,研究人员提出了“选择性集成的概念 ,从此有了一个研究的热门 分支,在此之后出现了很多选择集成的算法,在很大程度上促进了集成学习的发 展。基学习器主要有人工神经网络【9 1 、决策树、朴素贝叶斯分类器【3 8 1 、k 近邻方 法等等。 图2 2 表示了集成的基本思想。图2 2 中的集成分类器包括了个单一的人工 7 分类器的选择性集成及其差异性研究 曼曼罾量曼曼曼曼曼曼曼曼曼! 鼍曼曼曼皇曼曼曼曼曼曼曼曼曼曼曼曼量量曼皇曼曼曼量曼皇曼曼曼皇曼曼曼曼曼曼曼曼皇曼i i i i 曼曼曼曼曼曼曼寰曼暑曼曼皇皇曼曼曼曼曼曼曼皇曼曼曼舅 神经网络分类器,对于同样的输入,个人工神经网络分别给出各自的输出, 然后这些输出通过整合以后得到集成分类器整体的输出结果作为最终分类。 t 兮 图2 2 集成学习的基本思想 另外,集成学习【3 卅( e n s e m b l el e a r n i n g ) 的概念可以分成狭义和广义两方面。 目前,集成学习的概念从狭义的概念转变为广义的概念,随着概念的转变,研究 的重点也转向了广义的研究范畴,而且被越来越多的学者所接受。从广义方面来 看,就是利用多个同质或不同质的学习器来解决同一个问题。需要解释的是这里 的同质学习器可以都是是神经网络,也可以都是决策等同一种学习器,不同质的 学习器是指神经网络和决策树的混合,或者其他算法的混合等。广义的定义比狭 义的定义具有更大的优势性,原因是同一个概念之下把不同质的学习器概括起 来。从狭义方面来看,集成学习一般是指利用多个同类的学习器来对同一个问题 进行学习,同样这里的同类指的是同一种类型的学习器。p s o l l i c h 和a k r 0 9 1 l 对 神经网络集成作了狭义的定义m 】,后来o p i t z 和m a e l i n 3 之对集成用了广义的定义 【4 1 1 。现在其应用的领域越来越广泛,集成学习为这些领域的更深入的研究和应 用提供了便利。 集成学习之所以能够比单个学习器具有更好的性能,其根本原因是它解决了 学习算法中的许多问题,比如单个分类器所面临的三个问题:计算上的问题,统 计上的问题,表示上的问题【5 1 1 ,这些问题集成学习都能够克服。计算上通过把 多个假设集成起来能够使得最终的结果更加接近实际的结果;统计上把多个假设 集成起来能够降低风险;表示上,集成学习如果假设空间在某种集成运算下不封 闭,那么我们通过把假设空间中的一系列假设集成起来就有可能表示出不在假设 空间中的目标假设。因此,这些问题更加有力的说明了它的优势。 从组成部分看,一般包含两个阶段,即个体学习器生成阶段和个体学习器合 并阶段。不同的个体生成方式和个体合并方式会得到不同的集成系统。 在个体学习机生成阶段,利用不同的个体生成方式产生不同的学习机;在学 硕士学位论文 习中我们知道了两种最著名的个体学习器生成方法:b a g g i n g 和b o o s t i n g 方法。 b a g g i n g 方法是使训练集同时生成多个学习器,而b o o s t i n g 方法是逐一得到多个学 习器,基本b o o s t i n g 方法有许多不同的变形,其中最流行的一种就是a d a b o o s t 方 法,也就是自适应增强的方法。 在个体学习机合并阶段,研究者采用投票或者平均等方式将学习机进行合 并。例如在个体学习器的结合阶段,其中一种方法就是采用的一种基于权值的选 择性投票策略,利用互信息来表示个体标记向量的权值。 2 2 集成学习的主要组成部分 通常,集成学习主要由两部分构成( 生成个体学习器和组合个体学习器) ,下 面就从这两个部分进行分析。分别介绍了这两个部分所用到的方式方法。如下图 所示: 学 习 阶 段 图2 3 集成学习的组成 2 2 1 个体学习器组合方式 个体学习器的组合方式在整个组成部分中占有很重要的地位。预测的情况有 两种,一种是分类问题,一种是回归问题。针对于分类问题我们经常用的组合方 法是投票法。它通常包括多数投票法或者相对多数投票法。针对于回归问题,通 常使用的结论生成方法为加权平均的方式和简单平均方式。通过理论和实践证 明,相对多数投票法要优于多数投票法,加权平均方式在通常情况下都要优于简 单平均方法【4 卜4 2 1 。但是,如果过分的优化权值的话可能会导致一种现象,叫过 度拟合现象,甚至可以降低整体泛化能力。 9 分类器的选择性集成及其差异性研究 b a g g i n g 方法是:假设有,1 个学习器,通过训练预测后学习器的输出目标向 量为d = ( d l ,一,d 。) 7 ,d , c ic :,c 。,) ,所以我们可以定义如下的函数来表示。 a j ( c i ) = 三如嚣q 亿, 所以对于一个新的实例x ,如果第j 个学习器的输出d ,等于期望输出c , 则a ,( c ;) 等于1 ,也就是第j f 个学习器对类别c ,投了一票。b a g g i n g ! 靼的结论集成 方式通常是通过投票法进行,但是这种单纯的投票法的缺点是它的划分指标是比 较硬性的,然而大部分学习系统采用的是软划分的指标,如将划分为某一类用一 个o l 之间的概率来表示,这样可以考虑借鉴模糊集理论将某一样本归到概率高 的类中。 通常有三种情况:第一种情况是设置一个常数w ,当数目超过学习器数目的 w 倍投票给一类时,就认为最终的结果为这一类。第二种情况是所有学习器如果 都投票给一类,那么就认为最终的结果就是这一类。第三种情况是加权平均法 【4 3 】。前两种情况是把每个个体学习器看成是地位相等的个体,但是有时候情况 不是这样的,因此就用简单平均和加权平均。这两种都属于是线性组合的方式, 简单的平均可以用以下公式展示: ,x :二xj 乞 ( 2 2 ) 其中共有个个体学习器,x 表示的是最终的输出,而置表示的第i d 个体 学习器的输出。有时各个学习器的输出重要性是不一样的【4 3 1 ,因此我们利用加权 平均的方式来实现。对于有个学习器的加权平均,我们可以定义如下权重: 心= l ,0 k = l ,n k = l ( 2 3 ) 因此最终的加权平均如公式( 2 4 ) : p ,o ) = w k p ,七印,( 功+ w k s t t ( 功= n ( x ) + q ( z ) 在这里毛( 工) 表示的是集成的估计误差。 2 2 2 个体学习器生成方式 1 特征提取方法 集成学习中特征选择是当前机器学习中的又一大研究热点,其研究成果已被 广泛地应用于提高单个基学习器的泛化能力。特征选择在模式识别领域中扮演着 一个极其重要的角色。一是用大量特征来设计学习器无论是从计算开销还是从学 l o 硕士学位论文 习器性能来看都不合理;因此,必须选择部分特征来设计分类器的生成;二是特 征和学习器性能之间实际上并不存在线性关系。 基于特征选择方法的思想是通过构造不同的特征子集或样本子集,并且与目 标类非常相关的特征属性,然后用它们来训练不同学习器的生成。当特征数量超 过一定数量时,会导致分类学习器泛化性能降低。因此,特征选择成为模式识别 中进行正确有效的必须要解决的问题。在这方面研究人员提出了利用随机子空间 来搜索特征子集,利用随机选择的方法选择出不同的特征集,再在此特征集上训 练个体学习器的生成,最后通过一定的集成方法集成最后的模型。在大量数据条 件下特征选择尤为重要。 目前,国内外有不少学者对此进行了研究,提出了许多方法;在国内这方面 研究还不很充分,多数情况下仍采用实验比较来选取特征。理想的特征获取是经 过严格筛选,选择尽量少的、最佳的、最有影响的特征子集,实现最简单方便的 学习方法。最初研究人员在数据集上做过实验表明,去掉不相关的特征【4 4 1 ,保 留那些有用的信息,单个基学习器的性能都可能受到影响。研究人员又提出了 a b ( a d a b o o s t ) 4 5 】算法,该算法是利用特征选择生成特征子集。该算法对特征 进行随机扰动,最后得到了很好的性能。但是,基于特征子集的方法还需要进一 步的研究,研究怎么样能找到合适的方法来得到差异性大且信息量多的样本子集 和特征子集。由于此方法只适合数据集的特征空间有很多冗余特征的情况,所以 这方面的研究较少。 在集成学习中个体学习器生成阶段,需要生成具有差异性的个体学习器,在 基于聚类集成的集成学习算法中,聚类集成问题就是对给出的数据集的多个聚类 进行组合以便找出更好的一个聚类。聚类集体生成采用添加人工噪声数据构造差 异性聚类集体,聚类集体结合应用基于n m i 的差异性度量方法度量聚类之间的差 异性。然后把这些个体学习器作为聚类的对象聚成n 类,生成差异性个体的方法 是采用添加人工噪声数据的算法获得,然后挑选出具有代表性的个体学习器进行 集成。为了提高聚类集成的鲁棒性及稳定性,与有监督集成学习方法一样,对于 聚类集成中各个划分同样需要具有一定的差异,首先,聚类集体生成采用添加人 工噪声数据构造差异性聚类算法的方法获得这种差异性,其次,聚类集体结合采 用基于n m i 的差异性度量方法度量聚类之间的差异性,最后,根据差异度选择出 差异成员构成一个更小而且差异性更大的聚类集体。基于聚类的选择性集成及其 差异性通过m a t l a b 进行一些仿真实验,进步做方法之间的比较,跟传统的集成 方法b a g g i n g 、a d a b o o s t 、g a s e n 等等这些方法在u c i 实验数据上的比较,实验其 合理性和准确性。基于聚类的选择性集成方法能够比b a g g i n g 、a d a b o o s t 方法能 取得更好的准确性,主要是因为集成算法通过聚类技术提高了学习器之间的差异 度,进而提高了集成算法的泛化性能。 1 1 s c h a p i r e 构造的b o o s t i n g 算法,这个算法的影响最大,后来出现了一些改进的变 种,如a d a b o o s t 系列最具代表性;另外就是在1 9 9 6 年由b r e i m a n 提出的b a g g i n g 算 法。这两个算法簇研究的最为深入,目前已经应用到机器学习等很多领域,发挥 了极其重要的作用。构建基学习器的过程是【4 7 】: 1 构造训练集,通过原始数据集构造一个训练集,大小可以跟原始训练集相 同或者从原始训中随机抽取。 2 用训练集训练分类器的生成,再在测试集中测试每个基学习器的识别率。 3 组合训练出来的分类器。针对不同的问题采用不同的组合方法。 具体算法如下: 表2 1 集成学习组合方法 1 2 i 皇些丝鲨兰一 i 面药聂甄纛i 1 再i 丽环瓦f 一 f o ri ;1t okd o 构造训练子集 e n df o r f o rx td o 日+ ( x ) = v o t e ( h i ( 石) ,h 2 ( 工) ,h 女( x ) ) e n df o r 2 3 1b o o s t i n g 算法及算法的理论基础 1 9 9 0 年f r e u n d 和s c h a p i r e n 6 】提出b o o s t i n g 算法,该算法是通过学习误差来修 改训练集的分布,此方法是学习中比较困难的部分。b o o s t i n g 算法中s c h a p i r e 构 造了一个过程,通过这个构造过程来证明弱学习算法能变换为强学习算法,证明 了经过一定的集成弱学习器可以转换成强学习器。19 9 5 年f r e u n d 和s c h a p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度大型养殖场种羊采购及配套技术服务合同
- 2025年度智能酒店客房管理系统软件开发与运营服务合同
- 2025年度智能工厂安全与环境风险评估及应急预案编制合同
- 2026届浙江省温州市第五十一中化学高二第一学期期末达标测试试题含答案
- 六一儿童节校园广播稿
- 2024长春市宽城区群英街道社区工作者招聘考试试题
- 2024韶关市仁化县闻韶镇社区工作者招聘考试试题
- 连锁药店行业2025年扩张战略与药店连锁品牌形象研究报告
- 农业经理人考试题库及答案2025解析
- 动物遗传育种学期末试题及答案
- 制造业智能化生产线改造方案提升生产效率
- 输变电工程施工质量验收统一表式附件1:线路工程填写示例
- 人教版五年级上册美术全册教学设计
- 2024年4月自考05424现代设计史试题
- 水利安全生产风险防控“六项机制”右江模式经验分享
- 2023版马原专题课件:专题一马克思主义观;专题二辩证唯物主义世界观
- 单侧双通道UBE手术
- 成年女性压力性尿失禁护理干预试题及答案
- 人教版八年级下学期期末考试英语试题(附听力原文及答案解析)
- 数智治水系统平台建设需求
- 工艺流程的可靠性与稳定性分析
评论
0/150
提交评论