




已阅读5页,还剩113页未读, 继续免费阅读
(应用数学专业论文)支持向量机及半监督学习中若干问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着信息技术的飞速发展,在信息收集和处理的过程中,人们面临的各种数 据信息规模越来越大,构成也越来越复杂,这使得机器学习日益受到人们的关注, 成为目前研究的热点问题之一由v a p n i k 提出的统计学习理论为机器学习问题提 供了理论基础,着重研究有限样本的统计规律及学习性质,使用结构风险最小化 原则,有效地提高了算法的推广能力支持向量机是统计学习理论的最新发展, 它具有全局最优、适应性强、推广能力强以及解的稀疏性等优点,能较好地解决 小样本、非线性、过学习、维数灾难和局部极小等实际应用中的难题,是机器学 习领域的又一里程碑,从而广泛应用于模式识别、回归估计、函数逼近以及密度 估计等领城近年来,受支持向量机的这些优势的启发,有学者提出了一些支持 向量机的推广算法,比如最小二乘支持向量机,中心支持向量机,超球支持向量 机( 也称为支持向量域描述) ,基于一个球的模式分类方法等,分别从不同的方面 对支持向量机进行了完善和补充许多机器学习问题中,大量可获得的数据中仅 有一小部分容易获得类别标签,而另一相对大量的部分由于各种原因( 不容易获得 类别标签或者获得标签的代价较大) 而未能获得标签,同时利用这些样本( 包括已 标签样本和未标签样本) 进行学习的问题被称为半监督学习本文主要研究支持向 量机及其几种推广方法与半监督学习中存在的若干问题,主要工作如下: 1 研究了大样本条件下,提高支持向量机学习速度和精度的问题针对支持向量 机中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出基于壳向量 和中心向量的支持向量机算法其基本步骤是:首先分别求取每类样本点的壳向量 和中心向量;然后将求出的壳向量作为新的训练集进行标准的支持向量机训练得 到超平面的法向量;最后利用中心向量更新法向量以减少野点的影响得到最终的 分类器实验表明采用这种学习策略,不仅加快了训练速度同时提高了分类精度 2 研究了支持向量机的两种推广方法( 最小二乘支持向量机和基于_ 个球的模式 分类方法) 对不平衡数据集的分类问题针对最小二乘支持向量机对不平衡数据集 的分类问题,同时考虑各类样本的数量和样本分散程度的不同,对分离超平面进 行调整该方法克服传统算法只考虑样本数量不平衡的不足,提高了最小二乘支 持向量机的泛化能力针对基于个球的模式分类方法对不平衡数据的分类问题, 通过引入两个参数来分别控制两类错分率的上界,不仅提高了不平衡数据集的分 类和预测的性能,而且大大缩小了参数的选择范围实验表明我们的方法可以有 效提高不平衡数据的分类性能 3 本文从以下两条途径研究了半监督学习中的直推式学习方法,一是,针对c h e n 提出的渐进直推式支持向量机学习算法存在的诸如训练速度慢、回溯式学习多、 学习性能不稳定等缺点,提出两种改进的渐进直推式支持向量机分类学习算法它 们继承渐进直推支持向量机渐进赋值和动态调整的规则,同时利用支持向量的信 息或者可信度选择新标注的无标签样本点,结合增量支持向量机或支持向量预选 取方法减少训练代价实验结果表明所提算法不仅能较大幅度地提高算法的速度, 而且在一般情况下能提高算法的精度二是,针对支持向量机的一种推广算法一 基于一个球的模式分类方法提出了其直推式学习策略,即通过一个超球面将两类 数据以最大的分离比率分离,同时利用有标签样本点和无标签样本点来建立一个 超球分类器的渐进直推式学习算法,这种算法在没有足够的有标签样本的信息时 利用了无标签样本所提供的额外的信息,获得了更好的分类性能实验结果表明 该算法确实具有更好的性能 4 本文研究了在已知少量有标签样本点和大量无标签样本点条件下的半监督野点 探测问题野点( 也称离群点) 探测问题一直是机器学习的一个难题,在许多实际问 题中,野点往往是人们更感兴趣的更重要的样本点,比如在网络的入侵检测、故 障诊断、疾病诊断等领域中本文将粗糙集和模糊集理论应用于半监督野点探测 问题中,提出了模糊粗糙半监督野点探测方法这个方法是在少量有标签的样本 点和模糊粗糙c 均值聚类算法的帮助下,通过一个目标函数,同时最小化聚类平 方误差、有标签样本点的分类误差和野点的个数每个聚类用一个中心、一个清 晰的下近似和一个模糊边界来表示,只对位于边界的样本点进一步讨论其是否为 野点的可能性实验结果表明所提的方法能在一般意义下提高野点探测精度,减 少误警率,还能减少需要进一步讨论的候选野点的个数 关键词:统计学习理论支持向量机最, b - - 乘支持向量机超球支持向量机大规 模样本集不平衡分类半监督学习直推式学习野点探测 a b s t r a c t w i t ht h ef l y i n gd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g i e s ,d u r i n gt h ec o u l o f c o l l e c t i n ga n dp r o c e s s i n gi n f o r m a t i o n , t h es i z eo fd a t as e t sc o n f r o n t i n gh u m a n b e c o m e s l a r g e ra n dl a r g e r , a n dt h ec o n s t i t u t i o no fd a t as a m p l e sa l s ob e c o m e sm o r ea n dm o r e c o m p l i c a t e d t h e s ef a c t sh a v em a d em a c h i n el e a r n i n gr e c e i v e dm o r ea n dm o r ea t t e n t i o n a n db e c o m eo n eo ft h eh o tt o p i c so fr e s e a r c h s t a t i s t i c a ll e a r n i n gt h e o r y ( s l t ) p r o p o s e db yv a p n i kp r o v i d e sat h e o r e t i c a lb a s i sf o rm a c h i n el e a r n i n g s l tc o n c e r l 鸠 m a i n l yt h es t a t i s t i c a ll a w sa n dl e a r n i n gp r o p e r t i e sw h e ns a m p l e sa r el i m i t e da n dc a n e f f e c t i v e l yi m p r o v et h eg e n e r a l i z a t i o na b i l i t yo fa l g o r i t h mw i t hu s i n gt h ep r i n c i p l eo f s t r u c t u r a lr i s km i n i m i z a t i o n ( s r m ) a st h el a t e s td e v e l o p m e n to fs l t ,s u p p o r tv e c t o r m a c h i n e ( s v m ) h a sm a n ya d v a n t a g e ss u c h a s g l o b a lo p t i m i z a t i o n ,e x c e l l e n t a d a p t a b i l i t ya n dg e n e r a l i z a t i o na b i l i t y , a n ds p a r s i t ys o l u t i o n i tc a ns o l v em a n yp r a c t i c a l a p p i c a t i o n r o b l e m ss u c ha ss m a l ls a m p l e s ,n o n l i n e a rl e a r n i n g , o v e rf i t t i n g ,c u r s eo f d i m e n t i o m l i t y , a n dl o c a lm i n i m aa n di san e wm i l e s t o n ei nt h ef i e l do fm a c h i n el e a r n i n g s os v mh a sb e e nw i d e l yu s e di np a t t e r nr e c o g n i t i o n , r e g r e s s i o ne s t i m a t i o n , f u n c t i o n a p p r o x i m a t i o n , d e n s i t ye s t i m a t i o n , e t e r e c e n t l y , i n s p i r e db yt h ea b o v ea d v a n t a g e so f s v m ,s o m er e s e a r c h e r sp r o p o s e de x t e n da l g o r i t h m so fs v m ,w h i c hi n c l u d el e a s t s q u a r e ss u p p o r tv e c t o rm a c h i n e s ( l s s v m ) ,c e n t e rs u p p o r tv e c t o rm a c h i n e ( c s v m ) , h y p e r s p h e r es u p p o r tv e c t o rm a c h i n e s ( a l s oc a l l e ds u p p o r tv e c t o rd o m a i nd e s c r i p t i o n ( s v d d ) ,s p h e r es p h e r e - b a s e dp a t t e r nc l a s s i f i c a t i o n ( s s p c ) ,e t c t h e s ea l g o r i t h m s i m p r o v ea n dc o m p l e m e n ts v mf r o md i f f e r e n ta s p e c t s i nm a n ym a c h i n el e a r n i n g p r o b l e m s ,al a r g ea m o u n to fd a t ai sa v a i l a b l e ,b u to n l yaf e wo ft h e mc a l lb el a b e l e d e a s i l ya n do t h e r sr e l a t i v el a r g ea m o u n to fd a t ac a nn o tb el a b e l e db e c a u s eo fa l lk i n d so f r e a s o n s ( n o te a s yo rf a i r l ye x p e n s i v et oo b t a i n ) t h ep r o b l e m ,c o m b i n i n gu n l a b e l e da n d l a b e l e dd a t at o g ,ether t ol e a r n i n gt h el a b e l so fu n l a b e l e do n e si sc a l l e ds e m i - s u p e r v i s e d l e a r n i n gt h i st h e s i sf o c u s e so ns o m ep r o b l e m se x i s t e di ns v m ,s e v e r a le x t e n s i o n so f s v m ,a n ds e m i s u p e r v i s e dl e a r n i n g t h em a i nw o r k so f t h et h e s i si sa sf o l o w s : i s t u d yh o wt oi m p r o v et h el e a r n i n gs p e e d sa n dc l a s s i f i c a t i o na c c u r a c i e so fs v m u n d e rt h ec o n d i t i o no fl a r g es c a l es a m p l es e t s s v mt a k e sv e r yl o n gt i m ew h e nt h es i z e o f t r a i n i n gd a t ai sl a r g ea n dt h ep r e c i s i o no f c l a s s i f i c a t i o ni se a s i l yi n f l u e n c e db yo u t l i e r s , a n dw ep r o p o s ea l ls v m a l g o r i t h mb a s e d o nh u l lv e c t o r sa n dc e n t r a lv e c t o r s f i r s t l y , w e f i n do u tc o n v e xh u l lv e c t o r sa n dc e n t e rv e c t o r sf o re a c hc l a s s s e c o n d l y , t h eo b t a i n e d c o n v e xh u l lv e c t o r sa r eu s e da st h en e w t r a i n i n gs a m p l e st ot r a i ns t a n d a r ds v ma n dt h e n o r m a lv e c t o ro f h y p e r p l a n ei so b t a i n e d f i n a l l y , i no r d e rt ow e a k e nt h ei n f l u e n c eo ft h e o u t l i e r , w eu t i l i z ec e n t e rv e c t o r st ou p d a t et h en o r m a lv e c t o ra n do b t a i nf m a lc l a s s i f i e r e x p e r i m e n t ss h o wt h a tt h el e a r n i n gs t r a t e g yn o to n l yq u i c k e n st h et r a i n i n gs p e e d , b u t a l s oi m p r o v e st h ec l a s s i f i c a t i o na c c u r a c y 2 s t u d yi m b a l a n c ed a t a s e tc l a s s i f i c a t i o np r o b l e mf o rt w ov a r i a t i o n so fs v m ,i e , l s s v ma n ds s p c f o rt h ep r o b l e mo fl s s v mo ni m b a l a n c ed a t a s e tc l a s s i f i c a t i o n p r o b l e m , w et a k et h en u m b e ro fs a m p l e sa n dt h ed i s p e r s e dd e g r e eo fe a c hc l a s si n t o c o n s i d e r a t i o n a n da d j u s ts e p a r a t i o nh y p e r p l a n ei ns t a n d a r dl s s v m i to v e r c o m e s d i s a d v a n t a g e so ft r a d i t i o n a ld e s i g n i n gm e t h o d sw h i c ho n l yc o n s i d e rt h ei m b a l a n c eo f s a m p l e ss i z ea n di m p r o v e st h eg e n e r a l i z a t i o na b i l i t yo fl s s v m a sf o rs s p c ,w e p r o v i d et h ef a c i l i t yt oc o n t r o lt h eu p p e rb o u n d so ft w oc l a s s e se r r o rr a t e sr e s p e c t i v e l y w i t ht w op a r a m e t e r s a ss u c kt h ep e r f o r m a n c eo fc l a s s i f i c a t i o na n dp r e d i c t i o no f i m b a l a n c ed a t as e t sc a nb ei m p r o v e d ,a n dt h er a n g eo fs e l e c t i o no fp a r a m e t e r sc a nb e g r e a t l yn a r r o w e d e x p e r i m e n t a lr e s u i t ss h o wt h a tt h em e t h o dc a ne f f e c t i v e l ye n h a n c e t h ec l a s s i f i c a t i o np e r f o r m a n c eo ni m b a l a n c ed a t as e t s 3 i nt h i sp a p e r , w es t u d yt h et r a n s d u c t i v el e a r n i n gi nt h ef i e l do fs e m i s u p e r v i s e d l e a r n i n gv i at h ef o l l o w i n gt w ow a y s f i r s t l y , p r o g e r s s i v et r a n s d u c t i v es u p p o r tv e c t o r m a c h i n e s ( p t s v m ) p r o p o s e db yc h e nh a v e o b v i o u sd e f i c i e n c i e ss u c ha ss l o w e r t r a i n i n gs p e e d , m o r eb a c kl e a r n i n gs t e p s ,a n du n s t a b l el e a r n i n gp e r f o r m a n c e i no r d e rt o o v e r c o m et h e s es h o r t c o m i n g s ,w eg i v et w oi m p r o v e dp r o g r e s s i v e 仃a n s d u c f i v es u p p o r t v e c t o rm a c h i n ea l g o r i t h m s t h e yi n h e r i tt h ep t s v m sp r o g r e s s i v e l a b e l i n ga n d d y n a m i ca d j u s t i n ga n du t i l i z et h ei n f o r m a t i o no fs u p p o r tv e c t o r so rr e l i a b i l i t yv a l u e st o s e l e c tf l e w u n l a b e l e ds a m p l e st ol a b e l , a n da l s oc o m b i n e 、i t hi n c r e m e n t a ls u p p o r t v e c t o rm a c h i n e so rp r e - e x t r a c t i n gs u p p o r tv e c t o ra l g o r i t h mt or e d u c et h ec a l c u l a t i o n c o m p l e x i t y e x i p e r i m e n t a lr e s u l ss h o wt h ea b o v ep r o p o s e dl e a r n i n ga l g o r i t h m sc a n o b t a i n e ds a t i s f a c t o r y l e a r n i n gp e r f o r m a n c e s e c o n d l y , w ep r o p o s e dt r a n s d u c t i v e l e a r n i n gs t r a t e g i e sf o rae x t e n da l g o r i t h mo fs v m - - s s p c t h ep r o p o s e da l g o r i t h m s s e e kah y p e r s p h e r et os e p a r a t ed a t aw i t ht h em a x i m u ms e p a r a t i o nr a t i oa n dc o n s t r u c tt h e c l a s s i f i e ru s i n gb o t ht h el a b e l e da n du n l a b e l e dd a t a t h i sm e t h o du t i l i z e st h ea d d i t i o n a l i n f o r m a t i o no ft h eu n l a b e l e ds a m p l e sa n do b t a i nb e t t e rc l a s s i f i c a t i o np e r f o r m a n c ew h e n i n s u f f i c i e n tl a b e l e dd a t ai n f o r m a t i o ni sa v a i l a b l e e x p e r i m e n tr e s u l t ss h o wt h ep r o p o s e d a l g o r i t h mc a ny i e l db e t t e rp e r f o r m a n c e 4 i nt h i sp a p e r ,w es t u d ys e m i - s u p e r v i s e do u t l i e rd e t e c t i o n ( s s o d ) u n d e rt h es i t u a t i o n o ft h ef e wl a b e l e dd a t aa n daw e a l t ho fa v a i l a b l eu n l a b e l e dd a t a t h ep r o b l e mo fo u t l i e r d e t e c t i o nh a sa l w a y sb e e nad i f f i c u l tt a s k i nm a n ya p p l i c a t i o n s ,s u c ha s ,n e t w o r k i n t r u s i o nd e t e c t i 0 玛f r a u dd e t e c t i o n , m e d i c a ld i a g n o s i s ,o u t l i e r st h a td e v i a t es i g n i f i c a n t l y f r o mm a j o r i t ys a m p l e sa l em o r ei n t e r e s t i n ga n du s e f u lt h a nt h ec o m m o ns a m p l e s f u z z y r o u g hb a s e ds e m i s u p e r v i s e do u t l i e rd e t e c t i o n ( f r s s o d ) i sp r o p o s e d ,w h i c ha p p l i e st h e t h e o r yo fr o u g ha n df u z z ys e t st os s o d w i 也t h eh e l po ff e wl a b e l e ds a m p l e sa n d f u z z yr o u g hc m e a n sc l u s t e r i n ga l g o r i t h m , t h i sm e t h o di n t r o d u c e sa no b j e c t i v ef u n c t i o n , w h i c hm i n i m i z e st h es 岫s q u a r e d 咖ro fc l u s t e r i n gr e s u l t sa n dt h ed e v i a t i o nf r o m k n o w nl a b e l e de x a m p l e sa sw e l la st h en u m b e ro fo u t l i e r s e a c hc l u s t e ri sr e p r e s e n t e d b yac e n t e r ,ac r o pl o w e ra p p r o x i m a t i o na n daf u z z yb o u n d a r ya n do n l yt h o s ep o i n t s l o c a t e di nb o u n d a r yc a nb ef u r t h e rd i s c u s s e dt h ep o s s i b i f i t yt ob er e a s s i g n e da so u t l i e r s e x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o d , o na v e r a g e ,k e 印,o ri m p r o v et h e d e t e c t i o np r e c i s i o na n dr e d u c ef a l s ea l r l 如r a t ea sw e l la sr e d u c et h en u m b 氅o f c a n d i d a t eo u t l i e r st ob ef l l r t h e rd i s c u s s e d k e y w o r d s :s t a t i s t i c a ll e a r n i n gt h e o r y , s u p p o r tv e c t o rm a c h i n e s , l e a s ts q u a r e s s u p p o r tv e c t o rm a c h i n e s ,h y p e r s p h e r es u p p o r tv e c t o rm a c h i n e s , l a r g e s c a l e s a m p l es e t s , i m b a l a n c ec l a s s i f i c a t i o n s , s e m i - s u p e r v i s e dl e a r n i n g , t r a n s d u c t i v e l e a r n i n g ,o u t f i e rd e t e c t i o n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:至鲢 日期竺虹芏 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权 保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分 内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业 后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:整煎盘。 导师签名到雹l r 期塑1 3 :仝:生 r 期兰皿 第一章绪论 第一章绪论 本章首先介绍s v m 的研究背景及研究现状,其中包括机器学习的发展概述、 s v m 的理论基础一统计学习理论及s v m 的原理及研究现状和主要成果,其次介 绍半监督学习的研究背景和现状,最后说明本文的研究内容和全文的结构安排 1 1 引言 人学习的过程一般是“认识一抽象一再认识”的过程,即首先认识眼前的客 观事物,然后抽象出一般规律,再利用这些规律认识现有的世界,对未知的事物 做出尽可能正确的判断学习是人获得知识的基本手段,也是人类智能的主要标 志随着计算机技术的发展,人们企图使用计算机来实现人所具备的学习能力, 即用机器模拟人的智能一人工智能,或者说使机器具有学习能力一机器学习【1 捌具 体的说,机器学习就是利用计算机通过对已知事实的分析,然后总结其内在规律, 从而对未来的不能直接观测的或无法观察的现象做出合理正确的预测和判断在 这种学习过程中,重要的是学习得到的规律要具有“泛化能力”或“推广能力”, 即要能够举一反三,利用学习得到的规律,不仅可以较好的解释已知的事实,还 能够对未来的现象或无法观测的现象做出正确的预测和判断大量甚至海量的客 观事实在计算机上的最终表现都是数据,数据也是数字化信息化时代必不可少的 研究对象,所以要实现机器学习,其核心就是实现基于数据( 样本) 的机器学习,简 称机器学习机器学习的目的是根据给定的数据( 训练样本) ,来求解或估计某系统 输入输出之间的依赖关系,即其中存在的规律,使它能够对未知输入做出尽可能 准确的预测,其最终目的是使得机器具有推广学习能力机器学习是人工智能最 前沿的研究领域之一,是计算机具有人工智能的根本途径,目前已经发展成为一 门新兴交叉学科 基于数据的机器学习方法根据数据的标签特征可以分为监督学习( s u p e r v i s e d i 舶r n i n g ) 方法,无监督学习c o n s u p e r v i s e dl e a f i n g ) 方法,以及介于二者之间的半 监督学习( s e m i - s u p e r v i s e dl e a r n i n g ) 方法如果研究对象的样本数据的输出( 所属的 类别或者回归函数值) 全都已知或者类条件总体概率密度函数的形式为已知的,而 标识概率密度函数的某些参数是未知的,针对这类样本的学习就是监督学习,或 2 西安电子科技大学博士学位论文:支持向量机及半监督学习中若干问题的研究 称有教师的学习,比如模式分类,监督回归,密度估计中的参数估计而如果研 究的对象的样本数据所属的类别全是未知的,其分布密度也是未知的,但可以做 适当的假设,学习的目的是从这组数据中提取有意义的特征或某种内在的规律性, 这类学习就称无监督学习又称无教师的学习,比如聚类分析而如果研究对象的 数据中只有一少部分的输出是已知的,而另一相对大量的部分的输出是未知的, 当然分布密度也是未知的,但这部分大量的样本还是隐藏有大量可用信息,如何 将这部分样本用来辅助学习,即如何将这些已知输出的样本和未知输出的样本有 机地结合起来,利用这些样本之间的内在联系与领域知识来推测未知输出的样本 的输出,将未知输出的样本转化为有输出的样本,从而训练出一个效果好的分类 器,使学习机的性能更优异,这就是半监督学习问题,比如半监督分类,半监督 回归等 1 2s v m 研究背景及现状 s v m 是一种比较新的机器学习方法,是在统计学习理论基础上发展而来的, 具有坚实的理论基础,而且使用核函数,可以将学习样本从低维空间映射到高维 h i l b e r t 空间,使非线性问题能够转化为线性问题,具有全局最优,非线性,解的稀 疏性,推广能力强等优点下面我们首先介绍机器学习的发展历程,然后介绍作 为s v m 的理论基础的统计学习理论,最后介绍s v m 的原理及研究现状 1 2 1 机器学习的发展概述 机器学习从现代科学技术到社会经济等领域中都有着十分重要的应用 从本 质上讲,机器学习综合和吸收了统计学、人工智能、哲学、信息论、神经生物学、 认知科学、计算复杂性和控制论等学科的成果和概念,是一个多学科交叉的领 域伴随着相关领域的发展,机器学习的理论和方法已经逐步趋于成熟,大体经 历了以下三个发展阶段 ( 1 ) 基于传统统计学的机器学习方法 基于传统统计学的机器学习方法,即经典的( 参数) 统计方法这个方法的理论 基础为大数定理和极大似然估计法【3 1 ,但存在很大的局限性首先,它需要先验知 识,即已知样本分布形式,这需要花费很大的代价,而且在大多数情况下,我们 是不知道样本的分布形式的;另一方面,传统统计学研究的是样本数目趋于无穷 大时的渐进理论,但在实际问题中,样本数目往往是有限的,因此一些理论上很 第一章绪论 3 优秀的学习方法的实际表现却可能不尽人意 ( 2 ) 以感知机定理为基础的经验非线性方法棚 1 9 5 7 年,r o s e n b l a t t f 提出了感知机【5 1 1 9 6 2 年,n o v i k o f r a 证明了关于感知机 的第一个定理【6 】,这一定理开创了真正的机器学习理论感知机提出了最小化训 练误差的决策准则,将经验风险最小化准$ i j ( e m p i r i c a lr i s km i n i m i z a t i o n ,简称e r m ) 应用于机器学习在此基础上,建立了人工神经网络系统( a r t i i i c a ln e u r a ln e t w o r k , i 糯a n n ) t 7 0 1 人工神经网络利用已知样本建立非线性模型,对于逼近实数值、 离散值或向量值的目标函数提供了一种稳定性很好的方法,克服了传统参数估计 方法的困难,而且不需要了解黑箱模型的先验知识,具有良好的解决黑箱问题的 能力但是,这些非线性方法缺乏统一的数学理论基础,使得研究者们难以对各 种神经计算模型的性能及其适用范围进行理论分析;隐层节点数的确定,网络结 构的选择,权重的设定仍然需要借助经验;得到的模型通常是局部最优,而不是 全局最优;存在维数灾难和过学习现象这些缺陷已经对神经计算的进一步发展 造成了极大的阻碍 ( 3 ) 以小样本的统计学习理论为基础的s v m 为了克服基于经典统计学的机器学习方法和神经网络等的经验非线性方法中 存在的瓶颈,也因为神经网络等学习方法在理论上缺乏实质性进展,v a p n i k 与 c o r t e s 1 1 - 1 3 经过多年研究,提出了一种新的机器学习理论一统计学习理论 ( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 【l 1 4 】以及在此理论基础上发展起来的新的机器学 习方法一支持向量机( s v m ) s l t 是一种专门研究有限样本即小样本情况下机器学 习规律的理论,它建立了一套小样本统计问题的理论体系,不是使用经验风险最 小化原则( e r m ) ,而是提出结构风险最小化原则( s t r u c t u r a lr i s km i n i m i z a t i o n , s r m ) ,其统计推理规则不仅考虑了对渐进性能的要求,而且追求在现有有限信息 的条件下得到最优结果它对有限样本情况下机器学习中的一些根本性问题进行 了系统研究,在很大程度上解决了模型选择与过拟合问题,非线性与维数灾难等 问题s v m 是以统计学习理论为基础的机器学习方法,其中引入了软间隔超平面 的概念,实现了经验风险和置信范围的同时调整,即结构风险最小化原则与传 统的人工神经网络相比,s v m 具有坚实的理论基础,不需要了解黑箱模型的先验 知识,使用核函数,从低维空间映射到高维h i l b e r t 空间,使非线性问题能够转化为 线性可分问题,保证了凸性和解的稀疏性,没有局部最优解,能够用很少的样本 4 西安电子科技大学博士学位论文:支持向量机及半监督学习中若干问题的研究 进行训练,训练的结果只与支持向量有关,非支持向量不会影响训练结果,能很 好解决有限样本的高维模型的构造问题和具有良好的泛化性能下面我们分别介 绍统计学习理论和支持向量机 1 2 2s v m 的理论基础统计学习理论 统计学习理论( s l t ) 是s v m 的理论基础,是一种专门研究小样本情况下机器 学习规律的理论,它发展了学习过程的一致性理论,v c 维概念,推广性的界以及 结构风险最小化原则等一系列关于统计学习的重要结论下面我们按照统计学习 理论发展的过程来逐步的介绍这一新的机器学习理论 ( 1 ) 学习问题的表述 学习问题的一般表示为:给定,个独立同分布( i n d e p e n d e n t i d e n t i c a l l y d i s t r i b u t e d , i i d ) 的观测数据 ( 而,咒) ,( 屯,咒) ,o p ( 而,乃) ( 1 一1 ) 和预测函数集:f = u ( 工,口) ,口人 ,f ( x ,a ) 为预测函数,口为函数的广义参数观 测数据服从联合概率分布f ( x ,y ) 学习问题就是从给定的函数集,中选择一个最 优函数f ( x ,口) ,使期望风险 尺 ) = i l ( y ,f ( x ,o t ) ) d f ( x ,j ,) ( 1 - 2 ) 最小其中l o , ,f ( x ,口) ) 是预测误差损失函数,简称损失函数,它与y 和口有关学 习问题的这种表示涉及面很广,不同类型的损失函数【”】就对应不同的学习问题, 最基本的学习问题包括三类,即模式分类、函数逼近( 回归估计) 和概率密度估 计本论文主要研究模式分类问题,对其他机器学习问题不作详细的讨论对于 模式分类问题,y 只取有限个值,特别的对于两类模式分类问题,y 只取两个值, + l 或一1 损失函数采用如下的“o 1 ”损失函数 地瑚础,户 0 舅嚣:竺;( 1 - 3 , 这样,对于模式分类问题来说,学习问题就是根据已知的观测样本,在概率 分布f ( x ,y ) 未知的情况下,从函数集中寻找最优的预测函数f ( x ,口) ,使得风险函 数( i - 2 ) 最小 ( 2 ) 经验风险最小化原则 第一章绪论 5 对于未知的概率分布f ( x ,y ) ,最小化风险函数( 1 2 ) ,只有样本( 1 1 ) 的信息可 以利用,这导致( 1 - 2 ) 式定义的期望风险无法直接计算和最小化因此传统的学习 方法中采用了所谓经验风险最小化( e r m ) 准则,即采用已观测到的样本定义的经验 风险 1, r 。, v ( c o = ,f ( x i 口) ) ( 1 - 4 ) i f f i l 作为期望风险( 1 - 2 ) 的估计,设计学习算法使( 1 4 ) 最小化神经网络和其他经典的 统计推理学习算法( 例如函数回归的最小二乘法、概率密度估计的最大似然法等) 都是建立在经验风险最小化归纳原理基础上的对分类问题的损失函数,经验风 险就是训练样本错误率;对于回归估计问题的损失函数,经验风险最小化准则通
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家秘密考试题库及答案
- 2025【合同范本】贸易合同大全
- 2025年电力安规考试题库及答案
- 2025年游泳池水质安全应急预案制定合同
- 2025年食品安全知识竞赛考试复习题库(答案+解析)
- 2025年全面质量管理知识竞赛题库(附答案)
- 2025深圳互联网行业劳务合同范本
- 2025年药品管理法培训考核试题(附答案)
- 2025年机械工程师试题及答案
- 2025年第二季度疾控包测试题(附答案+解析)
- 工商业分布式屋顶光伏项目投资分析
- 保安节前安全培训课件
- 临床运动处方实践专家共识(2025)解读 3
- 用户侧储能系统调度平台创新创业项目商业计划书
- 药厂生产管理培训课件
- 2021-2025年高考地理真题知识点分类汇编之地球的运动
- 2025海南国考时政试题及答案
- 小学数学课堂教学提问的教学策略讲座稿
- 2025年医院院感科医院感染试题及答案
- 2025年邮储银行招聘笔试试题及答案(可下载)
- 线束变更管理办法
评论
0/150
提交评论