(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf_第1页
(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf_第2页
(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf_第3页
(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf_第4页
(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf_第5页
已阅读5页,还剩127页未读 继续免费阅读

(控制理论与控制工程专业论文)多支持向量机融合算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多支持向量机融合算法研究 摘要 统计学习理论系统地研究了小样本情况下的机器学习问题。2 0 世纪9 0 年代,在这一理论基 础下提出的支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 较好解决了小样本、过学习、“维数灾”、 局部极小等问题,具有很强的泛化能力。 多分类器融合作为信息融合、模式识别、机器学习等领域交叉形成的一个分支,近年来成为 一个新的研究热点。对于多个两分类s v m 分类器融合方法及应用方面的研究还不完善,而对于 多个多分类支持向量机( m u l t i c l a s ss v m ,m s 、徂订) 分类器融合的研究更是刚刚起步。 本文对多个s v m 分类器融合和集成方法及应用进行了系统深入的研究。主要工作包括以下 几个方面: 介绍了机器学习、统计学习的理论基础,在此基础上详细介绍了s v m 方法的概念和特点, 全面系统地阐述了s v m 、信息融合、多分类器融合的研究进展和现状,分析了s v m 分类器融合 方法的研究发展趋势和存在的不足。 针对如何通过分类器融合提高决策分类性能,同时保持低的计算复杂性和占用较少存储资源 的问题,提出了一种基于粗集理论构造s v m 集成分类器的新方法。首先利用基于粗集理论的属 性约简算法删除冗余和次要属性,得到最优特征子集,并根据最优特征子集来构建相应的输入子 空间。然后对于每个输入子空间,训练相应的s v m 子分类器。具有较高分类性能的s v m 子分类 器被挑选出来用于建立s v m 集成分类器。最后通过医疗诊断数据集进行了仿真验证,并与其他 分类器集成方法进行了比较分析。试验结果验证了所提方法的有效性。 针对多信息源、多分类问题,提出了几种基于m s v m 的集中式和分布式融合策略和方法, 并对现有方法的不足提出了改进的辅助决策函数。分别采用一对一( o n e a g a i n s t o n e ) ,一对多 ( o n e - a g a i n s t - a 1 1 ) 和有向无环图( d i r e c t e da c y c l i cg r a p h ,d a g ) 方法合并多个两分类s v m 分类 器来构造m s v m 。所提的融合策略充分利用了m s v m 的特性:一是通过构造并合并几个两分类 s v m 子分类器建立m s v m ;二是通过寻找具有最大间隔的最优分类耀平面来训练两分类s v m 子 分类嚣。裁矮多豪柴淫辍靛故障诊鼗数据集对嚣挺方法遴孬了验强,撵翅分辑晓鞍了器静聚食方 法的傀缺点、适用范围以及三种m s v m 分类器的性能差异。 提出了多分类概率嶷持向量机( m u l t i - c l a s s p r o b a b i l i t ys v m ,m p s v m ) 方法,并给出了多个 m p s v m 分类器熬委时j 爹 _ 熬台募法。蒺予o n e - a g a i n s t - a l l 茨咯努释多分类惩嚣,调练多令嚣分类 s v m 结合挤压函数产擞具有后验概率输出的支持向量机( p r o b a b i l 耐s v m ,p s v m ) 并进行组合, 构造出m p s v m ,分别采用均值和中德贝叶斯方法来融合多个m p s v m 分类器。仿舆实验说明了 该冀洼静蠢效蛙。 提出了m p s v m 在证据理论搬架下的基本概率分配函数,证据理论支待向量机 ( d e m p s t e r - s h a f e r t h e o r y b a s e d m s v m , d s m s v m ) 构造算法,多个d s m s v m 融合算法。通过设 诗羹本襁率分配匪数,测矮涯据舍莠溉剿合莠m p s v m 提供懿证据,芽仅对单元素集瘦角最太嫠 任准则,建立了d s m s v m 。这种类型的学习机器能够提供更多的用于后续处理的信息。在此基 础上用多个d s m s v m 分类器融合来解决分布式的多债息漾、多分类问题。针对每个源建立相 应弱d s m s v m 分类器,然岳翻瘸谨援理论台著燕英鼙邂孪亍努类器证据融台,最终决镱遥过最大信 任决策凇则给出。将所撮方法应用于紫油机的分布式故障诊断,获得了比传统方法熙好的性能, 提高了诊断的准确率和蛰棒性。 撬瘵了基予模翻苏分豹m p s v m 融合算法。弱辩考虑了每个m p s v m 提供匏谨据帮它在藏合 过程中的经验重要度,缭出了两种根攒识别率来计算m p s v m 分类器在融合过程中霞要度的方 法:一种是利用每个m p s v m 的整体识别率;另一种是利用每个m p s v m 对于每一类的识别率。 酝提算法豹有效瞧在繁潍瓿的努商式鼓障诊断中遗行了仿真验证。 针对非线性系统的辨识与控制问磁,提出了基于s v m 的逆学习方法。充分利用了s v m 的 小样本绒计学习、泛化& 力强的特点,采用s v m 回归 鞋好地逼近来知强非线性对象,对于受噪 声污染煞数据具毒趣好瓣适应麓力,势在仿真中餐戴了有效验证。 狂 关键诵:税器学习,统诗学习理论,支持商量枫,狺息融合,分类器融合,多类分类 本文的研究获得国家“9 7 3 ”计划项目( 编号:2 0 0 2 e b 3 1 2 2 0 0 ) 资助,以及国家“8 6 3 ”计划 项目( 编号:2 0 0 2 a a 4 1 2 0 1 0 ) 和国家自然科学基金项目( 编号:6 0 1 7 4 0 3 8 ) 的部分资助。 i i i l 曦s e a r c 珏o nt 珏ef u s l o na l g o r r i h mo fm u if t l p l e s u p p o r 罩v e c t o rm a c h ”幔s a b s t r a c t t h es t a t i s t i c a ll e a r n i n gt h e o r ys y s t e m i c a l l yr e s e a r c h e st h em a c h i n el e a r n i n gp r o b l e mw i t hs m a l l n u m b e ro fs a m p l e s 。i n1 9 9 0 s ,s u p p o r tv e c t o rm a c h i n e ( s v m ) a san o v e lp o w e r f u ll e a r n i n gm a c h i n e w i t hs o u n dg e n e r a l i z a t i o ni s d e v e l o p e db a s e do nt h es m t i s f i c a ll e a r n i n gt h e o r y i tc a no v e r c o m et h e p r o b l e m ss u c ha ss m a l ls a m p l e s ,o v c tl e a r a i n g , c n r s eo f d i m e n s i o n a l i t y , a n dl o c a lm i n i m a a sac r o s sb r a n c ho fp a t t e mr e c o g n i t i o n ,i n f o r m a t i o nf u s i o n ,m a c h i n el e a r n i n g , e t c ,f u s i o no f m u l t i p l ec l a s s i f i e r si sd e v e l o p i n gr a p i d l ya n db e c o m i n gan e wa c t i v er e s e a r c ha r e a t h er e s e a r c ho n f u s i o no fm u l t i p l eb i n a r y c l a s ss v m si s b e c o m i n gp o p u l a ri nr e c e n ty e a r s ,a n dt h es t u d yo ff u s i o no f m u l t i p l em u l t i - c l a s ss v m s ( m s v m s ) i sa l s ou n d e r w a y i nt h i sd i s s e r t a t i o n ,t h er e s e a r c hf o c u s e so nt h e a l g o r i t h ma n da p p l i c a t i o no ff u s i o no fm u l t i p l e s v mc l a s s i f i e r s t h em a i nw o r ki sc o n c i s e l yd e s c f b e da sb e l o w : t h eb a s i ct h e o r yo fm a c h i n el e a r n i n ga n ds t a t i s t i c a l l e a r n i n g i s i n 廿o d u c e d ;s v ma n di t s d e v e l o p m e n ta r ed e s c r i b e d ;t h ea d v a n c e so fi n f o r m a t i o nf u s i o na n dm u l t i p l ec l a s s i f i e rf u s i o na s n n l m a r i z e d t h em e t h o do fc o n s t r u c f i n gs v m e n s e m b l ec l a s s i f i e rm m gr o u g hs e t si sp r o p o s e df o ri m p r o v i n g t h ec l a s s i f i c a t i o np e r f o r m a n c ew i t hl o w c o m p u t a t i o n a lc o m p l e x i t ya n dm e m o r yo c c u p a t i o n t h eo p t i m a l f e a t u r es u b s e t so b t a i n e db y a p p l y i n ga t t r i b u t er e d u c t i o nb a s e do nr o u g hs e tt h e o r ya r eu s e dt 。c r e a t em e 。o r r e s p o n d i n gf e a t u r es u b s p a e e s s v ms u b - c l a s s i f i e ri st r a i n e di ne v e r ys u b s p a e o t h es v m c l a s s i f i e r s “地b e 惭p 确r m 觚c ea r es e l e c t e dt oc o n s t r u c tas v me n s e m b l ec l a s s i f i e r t h e s ei n p u t s u b s p a c e sa r e d i f f e m n ta n dc a no f f e rc o m p l e m e n t a r yi n f o r m a t i o n ,w h i c hi sh e l p f u lf o ri m p r o v i n g t h ep e r f b 抛a n c e t h em e t h o d p r o p o s e di sd e m o n s t r a t e do nt h ed a t as e tf o rm e d i c i n ed i a g n o s t i cd e c i s i o n m a k i n g a n dt h e v c o m p a r i s o nw i t hs e v e r a lp o p u l a rc l a s s i f i e rf u s i o nm e t h o d si sd o n e t h ee f f e c t i v e n e s so ft h ep r o p o s e d m e t h o dl sd e m o n s t r a t e d 。 i nt h er e a lw o r l d ,t h ep r o b l e mo f m u l t i - c l a s sc l a s s i f i c a t i o ni su b i q u i t o u s t h e r e f o r e ,i ti si m p o r t a n t t or e s e a r c ht h ef u s i o no fm u l t i p l em s v m n e wd a t af u s i o ns t r a t e g i e sf o rm s v m s ,i n c l u d i n gt h e c e n t r a l i z e da n dd i s t r i b u t e df u s i o ns c h e m e s ,a r ep r o p o s e d t h e s es t r a t e g i e sc a l lw e l lh a n d l et h ep r o b l e m o f d i s t r i b u t e d ,m u l t i p l es o u r c ea n d m u l t i c l a s sc l a s s i f i c a t i o nb yf u s i n gm u l 邱l em s v m s t h r e ep o p u l a r m s v m m e t h o d s , i e 。,o n e - a g a i n s t - a l l ,o n e - a g a i n s t w o n ea n dd i r e c t e da c y e l i cg r a p hs v m ( d a g s v m ) , w h i c ha l la p p l yt h ed e c o m p o s i t i o ns t r a t e g yo fc o n s t r u c t i n ga n dc o m b i n i n gs e v e r a lb i n a r y - c l a s ss v m , d i s c u s s e da n d e v a l u a t e d , r e s p e e t i v e l y t h ep r o p o s e df u s i o ns t r a t e g i e st a k ei n t o l c c o n n tt h es p e c i a l t y o f m s v m s o n ei st h ed e c o m p o s i t i o ns c h e m e ,a n o t h e ri st h ef a c tt h a tb i n a r y - c l a s ss v mc l a s s i f i e r sa r e t r a i n e db ys e a r c h i n gt h eo p t i m a lc l a s s i f i c a t i o nh y p e r p l a n ew i t hm a x i m a lm a r g i n t h ef u s i o ns t r a t e g i e s a r ea p p l i e df o rf a u l td i a g n o s i so fam u l t i - c y l i n d e rd i e s e le n g i n e t h ea d v a n t a g ea n dd i s a d v a n t a g e , a p p l i c a b i l i t yo ft h e s es t r a t e g i e sa r ed i s c u s s e d t h ep e r f o r m a n c eo ft h em s v mc l a s s i f i e r si nf u s i o ni s c o m p a r e da n da n a l y z e d , t h em u l t i - c l a s sp s v m ( m p s v m ) u s i n go n e a g a i n s t - a l l s t r a t e g y i sp r o p o s e d ,a n dt h ef u s i o n a l g o r i t h mb a s e do nb a y e s i a nt h e o r yi sd e v e l o p e d + b yd e c o m p o s i n gt h em u l t i c l a s sp r o b l e mb a s e do n o n e - a g a i n s t - a l ls t r a t e g y , t r a i n i n gm u l t i p l ep r o b a b i l i t ys v mf f s v m ) c l a s s i f i e r st h a tm a ps t a n d a r ds v m o u t p u t s 幻p o s t e r i o rp r o b a b i l i t i e sb ya p p r o x i m a t i n gas i g m o i df u n c t i o na n dt h e nc o m b i n i n gt h e s el e a r n e d p s v m s ,m p s v mi sc o n s t r u c t e d t of u s em u l t i p l em p s v mc l a s s i f i e r s ,t w ob a y e s i a nm e t h o d s ,a v e r a g e a n dm e d i a n ,a r ea p p l i e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h ep e r f o r m a n c ei si m p r o v e du s i n gp r o p o s e d f u s i o nm e t h o d + t h eb a s i cp r o b a b i l i t ya s s i g n m e n ti nt h es e n s eo fd se v i d e n c et h e o r yi sd e s i g n e d ,a n dt h en o v e l d - se v i d e n c et h e o r yb a s e dm s v mf o s m s v m ) i sp r o p o s e d t h ef u s i o n a l g o r i t h mo fm u l t i p t e d s m s v m si sa l s og i v e n b yu s i n gt h ee v i d e n c et h e o r yt oc o m b i n ea l lt h ee v i d e n c e sp r o v i d e db ye v e r y p s v i v li nm p s v m , a n dt h e na p p l y i n gt h em a x i m a lb e l i e f r u l eo n l yt ot h ec l a s s e sc o r r e s p o n d i n gt ot h e s i n g l e t o n sf o ro b t a i n i n gt h ef i n a ld e c i s i o no u t p u t , w ec a nc o n s t r u c tt h ed s m s v m , w h i c hp r o v i d e sb u l k o f u s e f u l i n f o r m a t i o n f o r p o s t - p r o c e s s i n g f u s i o n o f m u l t i p l e d s m s v m s i s u s e d t os o l v e t h e p r o b l e m o f v l d i s t r i b u t e d , m u l t i p l es o u r c ea n dm u l t i c l a s sc l a s s i f i c a t i o n d s m s v mc l a s s i f i e rc o r r e s p o n d i n gt oe a c h i n f o r m a t i o ns o m - c ei st r a i n e d t h e nt h el e a r n e dm u l t i p l ed s m s v m sk r ec o m b i n e db yu s i n gt h e c o m b i n a t i o nr u l eo f e v i d e n c et h e o r y , a n dt h ef i n a ld e c i s i o ni sg i v e na c c o r d i n gt ot h em a x i m a lb e l i e f r u l e 。 t h ep r o p o s e dd s m s v ma n df u s i o na l g o r i t h ma r ed e m o n s t r a t e dw i t ht h ed i s t r i b u t e df a u l td i a g n o s i so f a d i e s e le n g i n e ,a n dt h ed i a g n o s t i cp e r f o r m a n c ei si m p r o v e d t h ea l g o r i t h mo ff u s i n gm u l t i p l em p s v mc l a s s i f i e r sb a s e do nf u z z yi n t e g r a li sp r o p o s e d t h e m e t h o dp r o p o s e dc o n s i d e r sb o t ht h ee v i d e n c ep r o v i d e db ye a c hm p s v ma n dt h ee m p i r i c a li m p o r t a n c e d e g r e eo f t h e s em p s v m si nf u s i o np r o c e s s 。t od e t e r m i n et h ei m p o r t a n c ed e g r e eo f m p s v mc l a s s i f i e r , t w or e c o g n i t i o nr a t eb a s e dm e t h o d sa r eg i v e n o n em e t h o di s u s i n gt h er e c o g n i t i o nr a t eo fe a c h m p s v m ,a n da n o t h e ri su s i n gt h er e c o g n i t i o nr a t eo fe v e r ym p s v mf o re a c hc l a s s t h ea l g o r i t h mi s a p p l i e dt od i s t r i b u t e df a u l td i a g n o s i so f ad i e s e le n g i n ea n di t se f f e c t i v e n e s si sd e m o n s t r a t e d t os o l v et h ep r o b l e mo fi d e n t i f i c a t i o na n dc o n t r o lo fn o n l i n e a rs y s t e m s ,t h em e t h o do fi n v e r s e l e a r n i n gc o n t r o lb a s e do ns v mi sp r o p o s e d :t h ea l g o r i t h mf u l l yu t i l i z e dt h ec h a r a c t e r i s t i co fs v m ,s u c h a sh i 曲g e n e r a l i z a t i o na n dl e a r n i n gw i t hs m a l ls a m p l es e t s v mf o rr e g r e s s i o ni su s e dt oa p p r o x i m a t e t h en o n l i n e a ro b j e c t , a n di sa d a p t i v et ot h ed a t aw i t hn o i s e t h i si sd e m o n s t r a t e db yt h es i m u l a t i o n k e yw o r d s :m a c h i n el e a r n i n g ,s t a t i s t i c a l l e a r n i n gt h e o r y , s u p p o r t v e c t o r m a c h i n e , i n f o r m a t i o nf u s i o n , c l a s s i f i e rf u s i o n ,m u l t i c l a s sc l a s s i f i c a t i o n t h i s p a p e ri ss p o n s o r e db yt h en a t i o n a lk e yf u n d a m e n t a lr e s e a r c hp r o g r a mo fc h i n a ( 2 0 0 2 c b 3 1 2 2 0 0 ) ,a n di np a r tb yt h en a t i o n a lh i g ht e c h n o l o g yr e s e a r c ha n dd e v e l o p m e n tp r o g r a mo f c h i n a ( 2 0 0 2 a a 4 1 2 0 1 0 ) a n dt h en a t u r a l s c i e n c ef o u n d a t i o no f c h i n a ( 6 0 1 7 4 0 3 8 ) v i i c o n c l u d i n gp a :p e r s 上海交通大学学位论文答辩决 发展方向,扎实掌握本学科的基础理论和专门知识。 论文主要完成了以下凡方丽有价僮的研究工作:研究提渤了基于糨集理论构造s v m 集 成分类器的算法;提出了几种基于多分类s v m ( m s v m ) 的榘中式和分布式数据融台策略 及算法:提出了基予一对多策旗的多分类概率支持囱薰枕( m p s v m ) 、以及m p s v m 的贝 叶斯融合算法;研究了m p s v m 在证据理论框架下的基本概率分配方法提出了证据理论 多分类s v m ( d s m s v m ) 构造算法,以及多个d s m s v m 的融合算法;提出了基于模糊积 分的多个m p s v m 分类器融合算法;针对非线性系统的辨识与控制问题,提出了基于s v m 网归的逆学习方法。 论文翕新觅解,戒栗较突出。论文结构合理、规范,条理清楚,层次分明,文字通颓, 理论分析严谨,数据翔实,结论正确。答辩中叙述清楚,能正确回答答辩委员们提出的问题。 表明作者已掌握了本学科坚实宽广的基础理论襄系统深入的专门知识,具旁独立扶事科研工 作的能力。 经答辩委员会认真讨论并进行秃记名投票,一致嗣意通过胡中辉犀学的媾士学使论文 2 一l 驾p 月,l ,网 熙书汉 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关僳黧、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据摩进行检索,可以采用影印、缩印或扫 描等复制手段保存秘汇编本学术论文。 保密口,在一年懈密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“、”) 学位敝储繇删辱指导教师懿影 日期:年月曰 日期:年月e j 上海交通大学 学位论文原创性声明 本人郑重声明,所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 珥日 牟爵 名签者 年 作文论 : 位 期 学 日 1 1 引言 第一章绪论 人类智慧的一个重要方面是从已有知识或经验进行学习的能力。学习是人类智能的主要标志 和获得知识的基本手段。因此。学习能力无疑是人工智能研究上最突出和最重要的一个方面( 蔡 自兴,1 9 9 6 ) 。在人们对机器智能的研究中,希望能够用机器( 计算机) 来模拟这种学习能力,这 就是所说的基于数据的机器学习问题,或者称作机器学习问题( v a p n i k ,1 9 9 5 ) 。 学习是一个有特定目的的知识获取过程,其内部表现为新知识结构的不断建立和修改,而外 部表现为性能的改善。机器学习也可以定义为一个系统自我改进的过程( m i t c h e l l ,2 0 0 3 ) 。该系 统能够通过对已知数据实例的学习,找到数据内在的相互依赖关系,从而对未知数据进行预测或 对其性质进行判断。可见,一个良好的学习系统,不但要有好的学习能力,即从已知数据实例学 习并获取知识的能力,而且更重要的是,还要有良好的推广能力,即利用学习得到的知识,不但 可以较好地解释已知的实例,而且能够对未知的数据做出正确的预测和判断的能力。虽然基于数 据的机器学习是一种重要的机器学习方法,但目前并没有统一的理论框架。具体实现方法有基于 经典统计学的估计方法、启发式经验方法等。 统计学在机器学习中起着基础性的作用,主要研究的是当数据样本趋向于无穷多时的统计性 质。但是,经典统计学需要数据的先验分布的局限性导致难以建立具有良好推广能力的学习系统。 在实际问题中,待处理的数据样本数目通常是有限的。研究在样本较少时也能有较好表现的 理论和算法是很有意义的。人们对解决此类问题进行了不懈努力。2 0 世纪7 0 年代建立的统计学 习理论系统地研究了有限样本情况下的统计学习问题。在这一理论基础下研究提出的支持向量机 能够解决小样本学习问题,具有很强的泛化能力。这一方法表现出了许多优良特性,并在不少领 域取得了成功的应用,如语音识别、数据挖掘、信息融合等。 上海交通大学博士学位论文 1 2 机器学习的发展和研究现状 1 2 1 机器学习的发展概述 机器学习是人工智能中最具智能特征、最前沿的研究领域之一。机器学习的发展历程大致可 以分为四个阶段。 ( i ) 第一个学习机器的建立。计算机的产生和发展,使机器学习的实现成为可能。1 9 世纪 6 0 年代r o s e n b l a t t 提出了第一个学习机器的模型,称作感知器,这标志着人们真正开始对学习过 程进行数学研究。1 9 6 2 年,n o v i k o f f 提出了关于感知器的第一个定理,这个定理是学习理论的开 始。该定理不但证明感知器能够将训练数据分开,而且在一定意义上将导致机器具有推广能力的 原因和最小化训练集上的错误数的原则联系了起米。这个时期对学习过程的研究分化为两个分 支,即对学习过程的应用分析和对学习过程的理论分析。 ( 2 ) 学习理论基础的创立( 1 9 世纪6 0 一7 0 年代) 。这个时期提出了一些其他类型的学习机 器,如m a d a l i n e 自适应学习机、学习矩阵、隐马尔可夫模型、基于逻辑的归纳学习机等。这些方 法都立足予解决现实中的实际问题,没有涉及到对一般学习现象的研究。相对于应用分析学派来 言,理论分析学派取得了较大的进展。这一时期提出了统计学习理论中核心的y c 熵和阳维的概 念、发现了泛函空间的大数定律、得到了关于收敛速率的非渐近界的主要结论、提出了结构风险 最小化原则、并把这些针对指示函数集的结论推广到了实函数集:其他提出的还有解决不适定问 题的理论( t i k h o n o v , 1 9 6 3 ) 、算法复杂度的思想、最小描述长度( m i n i m u md e s c r i p t i o nl e n g t h , m d l ) 归纳推理等。 ( 3 ) 神经网络的创立( 2 0 世纪8 0 年代) 。1 9 8 6 年提出的后向传播技术可以同时寻找多个神 经元的权值开创了学习机器研究的新篇章,神经网络在机器学习领域开始广泛应用。神经网络 虽然在许多领域的应用中取得了重要成果,但对一般的学习理论并没有大的促进作用。1 9 8 4 年提 出的可能近似( p r o b a b l ya p p r o x i m a t e l yc o r r e c t ,p a c ) 模型使人们认识到在学习问题研究中统计 分析的重要作用。在这一时期的研究中,人们还通过采用正则化技术来防止过学习。机器学习研 究呈现出复兴的趋势( 蔡自兴,1 9 9 6 ) 。1 9 8 0 年在美国卡内基梅隆大学召开了第一次国际机器学 习专题讨论会。1 9 8 4 年,由s i m o n 等二十多位人工智能专家共同撰文编写的机器学习文集 2 第一章绪论 河世,标志着枧器学习的研究发展到一个掰的阶段。1 9 8 6 年,国隧凇杂志 m a c h i n el e a m i n g 创刊。 ( 4 ) 神经潮络的替代方法研究( 2 0 世纪9 0 年代) 。随着统计学习理论研究的不断发展和成 熟,人们把很大糖力放在对神经网络替代方法的研究上。小样本情况下机器学习的规律、结构风 险最小化溅列、最小描述教发原则等成为分辑辨究的热点。该时期握如了支持向量机这一具有是 好特性的叛的道用学习方法。统计学习理论森完成对学习过程的一般分析后,开始了关于对任意 数嚣妁观测样本都能褥至4 最好翦接广能力约爨优薄法合成躲研究。这时期形成了关于学习翔题 的一张新的方法论锗形:实用的方法是由对统计学界限深入的理论分析所得到驰结果,两不是发 骧新的聪明的启发式方法的缨果。 1 2 2 支持向量梳的主要磷究方向 统计学习理论堂到步入2 0 避纪9 0 年代才逐渐得銎l 重视,基于该理论提出的支持向量机具有 嶷蟋静泛亿能力,自提出以来得到了广泛的磷究。作为嵇新兴的通用学习方法,支持囱量枫在 r 淫谂郄应用等方瑟都有待进一步深入研究,尤其集中在以下几个方瑟。 。 g 、 。( 1 ) 榱霹数酌选择方法投其核参数嚣调整方法研究。核函数粒选择楚支持向量桃的难点所 在。尽管人垂】馓了一些基于先验知识豹核函数选择方法,迄今为止,对于给定闼题蛇最优核丞数 选择方法仍是一个公开的研究阉题( b u 喀嚣,1 9 9 8 ;s c h 6 1 k o p f , 1 9 9 8 ;b u s e s ,1 9 9 8 b ) 。核参数的调 整习魏巍还没有完罄静方法,并且挟参数的骥整避程霹对俘菹着选择按函数的比较避程。最筠棼 的方法是采用依赖予设计者经验的手二 诵整,惶得鳓的结果缺乏可靠性。支持辩量机把维的羿 盈然楚较橙的,但能够绘如核参数的大致颈颡4 傻。其他觌范位的方法鸯交叉验证技术、确认集方 法、基予赛的方法和统计的方法。 ( 2 ) 提高支持向量帆的诩练速度翻测试速泼,以投降祗存储资源需求的算法研究。b u s e s ( 1 9 9 6 ) 很大程度上解决了支持向量机溅试阶段的速度问题。研究学者提出了虚拟支持向量( b u r g e s , 1 9 9 7 ;s e h 6 1 k o p f , 1 9 9 6 ) 、约蒋集( b u r g e s ,1 9 9 6 ,t 9 9 7 ) 等方法来撬嵩支持向量税的性能。对于规 模匿大的数据集,如何构造快速的训练算法仍是个没解决的问题。 ( 3 ) 番l 朔寓教数据训练构造支持扁量橇的闯题。虽然通过会理的尺度交接已经可以褥到较 3 上海史通太擎博士学虢论文 好的结果,但有待进一步研究( b u r g e s ,1 9 9 8 :j o a c h i m s ,1 9 9 7 ) a ( 4 ) 撬离支持趣量瓿雄广麓力戆改遽舞法臻究。 ( 5 ) 多分类支持向赞机算法的研究。 ( 6 ) 支持向量机在不同领域的应嗣研究。 2 3 支持商量视算法的研究觋状 ( 1 ) 几何方法。支扮向量机方法具肖较强的几何含义,可以采用经典的几何方法米解决支 持囊量撬熬训练润愿( 零建民,2 0 0 3 ;b i ,2 0 0 1 ) 。支持趣嚣撬饶讫翊聪鹩求簿等蛰手求艇特薤空 间中两类训练样本形成的两个凸包或者缩小的凸包之间的距离( b e n n e t t , 2 0 0 0 ) 。k e e r t h i ( 2 0 0 0 ) 对传统的最嫒点( n e a r e s tp o i n t ) 算法进行改进来求解支持向量机分类阀题。张玲( 2 0 0 1 ) 将优 匏翔题隶鬃转换舞一个矗秘闯蔻,蒡磐秘予迭钱单缝形箨法( i t e r a t i v e s i m p l e x a l g o r i t h m ) 来求簿。 y a n g ( 2 0 0 0 ) 提出卫向量( 支持向量的个小的超集,可以通过求解一缀线性规划问题得到) 的 概念,通过在卫向量集上求勰支持向量机丽使计算复杂性太大降低。z h a n g ( 1 9 9 9 ) 提出了利用 类中心淘鬣稻支持翔量豹中心支持商量瓿舞法,对剥缀襻本中静“野餐”秽噪声有较强的鲁棒往。 ( 2 ) 分块算法( c h u n k i n g ) 。v a p n i k 掇出了求解支持向量机三次规划( q p ) 问题的分块方法 ( b o s e r , 1 9 9 2 ;p l a t t , 1 9 9 8 ) 。基于l a n g r a g e 乘予为零的j e 支持向量不影响q p 问题的髂的事实, 可戳把大静q p 薅嚣努解为一系列夺静q p 勰题来解。嚣先把数据集避纷分块,陡枫象出一个子 集进行训练,保留具有非零l a n g r a g e 乘子的支持向量,并加入下一个子集构成新的训练子集重新 进行训练。这样,最后一步求解q p 闯题的子集包含所露的支持向量,从丽可以得到擞终解。该 方法降低了求解薅静存赣秘计募资源需敷,煎斑不能解决丈蕊模样本训练趣题,因为菠歪约篱螽 的样本子集构成的矩阵仍然需要难以承受的存储需求。 ( 3 ) 工作集算法( w o r k i n gs e t ) 。o s u n a ( 1 9 9 7 ) 掇出的工作集分勰算法不冠于c h u n k i n g 算 法之箍在予,每次求解q p 子阚蘧静朝练子集( 工诈集) 大小是不变的,即每次鼠工佟榘孛副除 和加入相同数目的样本。o s u n a 建议每次更换一个样本。恩然这样做的效率并不高。在解决实际 超题时,人们常采用启发式躲方法来确定簿次进出工作集瓣样本数。该方法可强对大规模敬数摄 集迸李亍弼练,组仍需要鼗缀q p 隶辩算法。 4 第一章绪论 ( 4 ) 序剜最小优化算法( s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ) 。s m o 算法的基本思想楚把大规 模的q p 求解问题分解为一系列尽可能小的q p 予问题( p l a t t , 1 9 9 8 ) 。s m o 算法每次对只包含两 个样本豹两l a n g r a g e 乘子q p 闰题迸彳亍优化。这种策略的优点是可以获得解析解,从而避免了数 值q p 求解的不稳定和计算复杂性大的问题。此外,s m o 算法不需要矩阵算法,不需要额外的矩 阵存储,其内存需求与训练集大小成线性关系。这些优点使得s m o 能够i i l 练太蕊模样本集,并 且不用摁心数值精度问题。s m o 算法可以分为内、外循环两个部分,在选择待优化的l a n g r a g e 乘子的过程辛采用艏发式策蝰大大提离了解韵收敛速度。p l a t t ( 1 9 9 9 ) 提出的改进一方蔼是乖j 翔 收缩的思想,缩小工作集的搜索范围

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论