(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf_第1页
(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf_第2页
(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf_第3页
(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf_第4页
(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf_第5页
已阅读5页,还剩132页未读 继续免费阅读

(控制理论与控制工程专业论文)基于神经网络的半监督学习方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 传统监督学习方法需要利用大量有标记的样本进行学习。然而在实际应用中,标记 样本的采集和整理工作费时费力,标记样本不足已经成为制约监督学习方法的瓶颈之 一。无监督学习虽然不需要标记样本,但是缺乏先验知识的有效引导,模型的准确性难 以保证。半监督学n ( s e m i s u p e r v i s e dl e a m i n g ) i e 是近年来涌现出的一种综合利用标记样 本和未标记样本进行学习的理论。目前,半监督学习理论尚处于发展阶段,在结构自适 应调节、增量式训练和提升标记样本序列的利用效率等方面仍有待完善。为解决上述问 题,本文提出几种基于神经网络的半监督学习方法,力图借助神经网络在结构动态调整、 可逆学习以及知识提取与整合等方面的优势提高半监督学习方法的性能。本文的研究可 概括为以下三个方面: 1 ) 提出半监督贝叶斯a r t m a p ( s e m i s u p e r v i s e db a y e s i a na r t m a p ,s s b a ) 网络,s s b a 实现了b a y e s i a na r t m a p 网络与e m 算法之间的优势互补。s s b a 采用b a y e s i a n a r t m a p 的学习框架,具有根据标记样本和未标记样本的分布状况自适应生成网络 节点的能力,可以克服e m 算法必须预先设定高斯成分数目的局限。另一方面,s s b a 利用e m 算法调节网络参数避免了“胜者为王,( 即每次只更新获胜节点参数) 的硬性 调整方式,使得网络能够更加充分地考虑到未标记样本类别归属的不确定性,进而 可以有效学习未标记样本中的类别特征信息。仿真实验表明,s s b a 的泛化能力明 显优于b a y e s i a na r t m a p 网络和e m 算法,是性能可靠的静态半监督学习方法。 2 ) 提出一种增量式半监督学习方法,命名为三重可逆极端学习机( t e r n a r yr e v e r s i b l e e x t r e m el e a m i n gm a c h i n e , t r e l m ) 。当前多数半监督学习方法均为静态训练模式, 它们的共同特征是重复训练,即算法需要重复学习所有的标记样本和未标记样本多 次才能保证精度要求。重复训练导致运算量巨大、半监督学习速度缓慢等问题。本 文提出的t r e l m 将三个可逆极端学习机作为其内部的基学习器,它只需要利用新 扩充的样本和新检测出的无效记样本即可完成半监督训练任务,有效避免了重复训 练带来的不利影响。仿真实验表明t r e l m 可以降低半监督学习过程中的重复性运 算并且显著提升半监督学习的泛化成绩和训练速度。 3 ) 提出一种广义半监督学习系统一基于a r t m a p 网络的范例推理( c a s e - b a s e d r e a s o n i n g , c b r ) 分类系统,并将其应用于遥感图像序列的分类问题。多数半监督学 习方法仅着眼于学习同一时刻的标记样本和未标记样本,缺乏对以前获取的样本序 列的挖掘和整合。本文所提分类系统将a r t m a p 网络作为知识的提取器,并按照 c b r 框架进行知识的管理操作,可实现遥感样本数据的合理储备、优化组合和重复 基于神经网络的半监督学习方法研究 利用;在一定程度上拓展了半监督分类方法的样本选择范围,提高了数据序列的利 用效率。 关键词:半监督;神经网络;极端学 - - j 机;可逆学习;范例推理 大连理工大学博士学位论文 r e s e a r c ho nn e u r a ln e t w o r k s b a s e ds e m i s u p e r v i s e dl e a r n i n gm e t h o d s a b s t r a c t t r a d i t i o n a ls u p e r v i s e dl e a r n i n gm e t h o d sg e n e r a l l yr e q u i r eal o to fl a b e l e ds a m p l e st o a c c o m p l i s ht h e i rt r a i n i n gt a s k s h o w e v e r , i np r a c t i c a la p p l i c a t i o n s ,t h ec o l l e c t i o no fl a b e l e d s a m p l e si sv e r yd i f f i c u l ta n dw a s t eo f t i m e t h el a c ko f l a b e l e ds a m p l e si so n e o f t h eb o t t l e n e c k s f o rs u p e r v i s e dl e a r n i n gm e t h o d s a l t h o u g hu n s u p e r v i s e dl e a r n i n gm e t h o d sd on o tr e q u i r e l a b e l e ds a m p l e s ,t h e ya r el a c ko ft h ee f f e c t i v eg u i d ep r o v i d e db yp n o r ii n f o r m a t i o na n d c a n n o tg u a r a n t e et h ea c c u r a c y i ti sav a l u a b l ei s s u et oa p p r o p r i a t e l yu t i l i z eb o t hl a b e l e da n d u n l a b e l e ds a m p l e st oi m p r o v et h el e a r n i n gp e r f o r m a n c e s e m i - s u p e r v i s e dl e a r n i n gi st h en e w l y p r o p o s e dt h e o r y t h a tf o c u s e so nl e a r n i n gb o t hl a b e l e da n du n l a b e l e ds a m p l e s c u r r e n t l y ,s o m e p r o b l e m so fs e m i s u p e r v i s e dl e a r n i n ga r es t i l lu n d e rr e s e a r c h , s u c ha st h ea d a p t i v ea d j u s t m e n t o fs t r u c t u r e s ,t h er e v e r s i b l ei n c r e m e n t a ll e a r n i n ga n dt h ee x p l o r a t i o no fs e r i e so fl a b e l e d s a m p l e s t oa d d r e s st h ep r o b l e m so fs e m i - s u p e r v i s e dl e a m i n g , t h i sd i s s e r t a t i o np r o p o s e s s e v e r a ls e m i s u p e r v i s e dl e a r n i n gm e t h o d sb a s e do nn e u r a ln e t w o r k s t h ec o n t e n to ft h i s d i s s e r t a t i o nc a l lb es u m m a r i z e da sf o l l o w s 1 ) s e m i s u p e r v i s e db a y e s i a na r t m a p ( s s b a ) i sp r o p o s e dt oi n t e g r a t ea d v a n t a g e sb e t w e e n b a y e s i a na r t m a p ( b a ) a n de x p e c t a t i o nm a x i m i z a t i o n ( e m ) a l g o r i t h m s s b aa d o p t s t h et r a i n i n gt 莹a m e w o r ko fb a y e s i a na r t m a p ,w h i c hm a k e ss s b aa d a p t i v e l yg e n e r a t e c a t e g o r i e st or e p r e s e n tt h ed i s t r i b u t i o no fb o t hl a b e l e da n du n l a b e l e dt r a i n i n gs a m p l e s w i t h o u ta n yu s e r si n t e r v e n t i o n o nt h eo t h e rh a n d ,s s b ae m p l o y se m a l g o r i t h mt oa d j u s t i t sp a r a m e t e r s ,w h i c hr e a l i z e st h es o f ta s s i g n m e n to f t r a i n i n gs a m p l e st oc a t e g o r i e si n s t e a d o ft h eh a r da s s i g n m e n ts u c ha sw i n n e rt a k e sa 1 1 t h eu t i l i z a t i o no fe ma l g o r i t h mm a k e s s s b aa d e q u a t e l yc o n s i d e rt h eu n c e r t a i n t ya n de f f e c t i v e l yl e a r nt h eu s e f u li n f o r m a t i o n c o n t a i n e di nu n l a b e l e ds a m p l e s e x p e r i m e n t a lr e s u l t so nb e n c h m a r ka n dr e a lw o r l dd a t a s e t si n d i c a t et h a tt h ep r o p o s e ds s b aa c h i e v e ss i g n i f i c a n t l yi m p r o v e dp e r f o r m a n c e c o m p a r e dw i mb a a n de m - b a s e ds e m i s u p e r v i s e dl e a r n i n gm e t h o d ;s s b ai sar e l i a b l e b a t c hs e m i s u p e r v i s e dl e a r n i n gm e t h o d 2 ) m o s ts e m i - s u p e r v i s e dl e a r n i n gm e t h o d sa r eu n d e rt h eb a t c ht r a i n i n gm o d e ;t h e i re o m m o r l c h a r a c t e ri st h er e t r a i n i n gs t r a t e g y , i e r e t r a i n i n gl e a r n e r sw i t ha l ll a b e l e da n du n l a b e l e d s a m p l e sa g a i na n da g a i n t h er e t r a i n i n gs t r a t e g yl e a d st oa l o to fr e d u n d a n tc o m p u t a t i o n s w h i c hd e l a yt h el e a r n i n gs p e e do fs e m i s u p e r v i s e dl e a r n i n gm e t h o d s t oo v e r c o m et h e l i m i t a t i o no ft h e r e t r a i n i n gs t r a t e g y , t h i s d i s s e r t a t i o n p r o p o s e s a l li n c r e m e n t a l s e m i s u p e r v i s e dl e a r n i n gm e t h o d , n a m e dt e r n a r yr e v e r s i b l ee x t r e m el e a r n i n gm a c h i n e ( t r e l m ) w h i c h d o e sn o tr e l yo nt h er e t r a i n i n gs t r a t e g y t r e l me m p l o y st h r e er e v e r s i b l e i i i 基于神经网络的半监督学习方法研究 e x t r e m el e a r n i n gm a c h i n e s ( r e l m ) a si t sb a s el e a r n e r sa n dt r a i n st h er e l mw i m e x t e n d e d ( o rd e t e c t e d ) s a m p l e si ne a c hl e a r n i n gr o u n d e x p e r i m e n t a lr e s u l t si n d i c a t et h a t t r e l ms i g n i f i c a n t l yr e d u c e st h er e d u n d a n t ( r e p e t i t i v e ) c o m p u t a t i o n sa n di m p r o v e st h e l e a r n i n gs p e e da n dg e n e r a l i z a t i o np e r f o r m a n c e 3 ) m o s ts e m i s u p e r v i s e dl e a r n i n gm e t h o d sf o c u so nl e a r n i n gt h el a b e l e da n du n l a b e l e d s a m p l e so b t a i n e da tt h es a m et i m e ,t h e yr a r e l ye x p l o r ea n di n t e g r a t et h ev a l u a b l e i n f o r m a t i o nc o n t a i n e di np r e v i o u ss a m p l es e r i e s t os o i l y et h i sp r o b l e m ,t h i sd i s s e r t a t i o n p r o p o s e st h ec a s e - b a s e dr e a s o n i n gc l a s s i f i c a t i o ns y s t e mb a s e d0 1 1a r t m a pn e t w o r k ( c b r - a r t m a p ) ,w h i c he x t e n d st h ec a p a b i l i t yo fs e m i s u p e r v i s e dl e a r n i n gm e t h o d s c b r a r t n 重a pe m p l o y sa r t m a pn e t w o r kt o e x t r a c tt h ek n o w l e d g ec o n t a i n e di n s a m p l e sa n du t i l i z e sc b r t oi m p l e m e n tk n o w l e d g em a n a g e m e n t c b r a r t m api s a p p l i e dt ot h ec l a s s i f i c a t i o nt a s ko fr e m o t es e n s i n gi m a g e s ,a n di tp r o v i d e sm u l t i p l e s o l u t i o n st or e m o t es e n s i n gs a m p l e s ,s u c ha sr e a s o n a b l er e s e r v e ,o p t i m a lc o m b i n a t i o na n d e f f e c t i v er e u t i l i z a t i o n c b r a r t mape x t e n d st h es e l e c t i o nr a n g eo fs e m i s u p c r v i s c d l e a r n i n gm e t h o d sa n d r a i s e st h eu t i l i z a t i o ne 伍c i e n c yo fs a m p l es e r i e s k e yw o r d s :s e m i s u p e r v i s e d ;n e u r a ln e t w o r k s ;e x t r e m el e a r n i n gm a c h i n e ;r e v e r s i b l e i n c r e m e n t a ll e a r n i n g ;c a s e - b a s e dr e a s o n i n g i v 全文缩略语归纳 a d p 一一- - l rn, n l a d a p t i v er e s o n a n c et h e o r y 一一。一 c b r e l m c a s e - b a s e dr e a s o n i n g e x t r e m el e a r n i n gm a c h i n e e e l me v o l u t i o nc x t r c m el e a r n i n gm a c h i n e e m e x p e c t a t i o nm a x i m i z a t i o n g c v g e n e r a l i z e dc r o s sv a l i d a t i o n l b d l a n c z o sb i d i a g o n a l i z a t i o n o s e l mo n l i n es e q u e n t i a lc x t r c m cl e a r n i n gm a c h i n e p l e l m p a r t i a ll b d - b a s e de l m p t s v m p r o g r e s s i v et r a n s d u c t i v es v m r b f r a d i a lb a s i sf u n c t i o n s s b a s e m i s u p e r v i s e db a y e s i a na r t m a p s s e l m s e m i s u p e r v i s e de x t r e m el e a r n i n gm a c h i n e s v d s i n g u l a rv a l u ed e c o m p o s i t i o n + s v r s u p p o r tv e c t o rr e g r e s s i o n t - e l m t r u n c a t e de x t r m el e a r n i n gm a c h i n e t r e l m t e r n a r yr e v e r s i b l ee x t r e m el e a r n i n gm a c h i n e t s v dt r u n c a t e ds i n g u l a rv a l u ed e c o m p o s i t i o n t s v m t r a n s d u e t i v es u p p o r tv e c t o rm a c h i n e v i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:基王益经圆终数坐鳖督堂翌友洼珏究 作者签名:廑监 日期:劢z :年l 月l 日 大连理工大学博士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 作者签名 导师签名 :房姒 : 熏垒题 日期:王坐年月上日 日期:竺! ! 年二l 月j l 日 大连理工大学博士学位论文 1绪论 本章首先回顾了半监督学习的研究背景和研究现状;在此基础上,总结出半监督学 习研究中存在的三个主要问题,并提出利用神经网络解决上述问题的思路,最后给出本 文的内容概述和结构安排。 1 1半监督学习的研究背景 机器学习的研究主旨是使用计算机模拟人类的学习活动,而从数据中学习是机器学 习研究的核心问题之一【1 1 。从数据中学习就是研究如何从一些观测数据( 样本) 出发得 到目前尚不能通过原理分析得到的规律,然后利用这些规律对未来数据进行预测和分 析。基于数据的机器学习主要包括三种方式:监督学习、无监督学习和半监督学习。在 传统的监督学习中,学习器通过对大量有标记的训练样本进行学习,进而建立相应的模 型用以处理测试样本。这里的“标记”( 1 a b e l ) 是指样本所对应的目标向量。随着数据收集 和存储技术的飞速发展,收集大量未标记( u n l a b e l e d ) 样本己相当容易,而获取大量有标 记的样本则要困难得多,因为获得这些标记往往需要耗费大量的人力物力【l 2 j 。例如, 在遥感影像分类问题中,遥感影像的地物类别样本需要实地考察后才能确定,然而遥感 影像覆盖区域大、实地考察困难且考察周期长,上述原因导致标记样本极为有限。 如果仅使用少量的有标记样本训练学习器,往往导致学习器的泛化能力低下;如果 缺乏对大量未标记样本的利用,会造成数据资源的极大浪费。因此,在有标记样本较少 情况下,如何利用大量的未标记样本来改善学习性能已成为当前机器学习研究中最受关 注的问题之一【3 棚。随着机器学习的不断发展以及利用未标记样本这一需求的日渐强烈, 半监督学习在近年来逐渐成为一个研究热剧9 。3 0 】。半监督学习的前提假设较少,理论基 础较完善,在实际应用中的优势更加明显【3 h 6 。 半监督学习思想开始于自学习( s e l f l e a n l i i l g ) 方、法【了7 3 8 】的提出。自学习方法实质上是 一种反复迭代的监督学习方法,首先以标记样本训练学习器,之后对未标记样本进行迭 代分类。每次迭代中都将一部分置信度较高的未标记样本转化为标记样本,再利用扩充 后的标记样本集重复训练学习器。自学习方法的最大不足是如果前面迭代中对未标记样 本的类别做出了错误的判断,则这种错误将传递到后面的迭代中且逐步增强最终导致学 习器的训练结果越来越差。为了弥补这一缺陷,b l u m 等人【3 9 】在1 9 9 8 年提出了标准协同 训练方法。标准协同训练方法假设样本集有两个充分并且冗余的视图,基于这两个视图 可以训练得到两个分类器;在协同训练过程中,每个分类器从未标记样本中挑选出若干 置信度较高的样本进行标记,并把标记后的样本加入另一个分类器的已标记训练集中以 基于神经网络的半监督学习方法研究 方便对方利用这些新标记的样本进行学习。此过程不断迭代进行,直到满足终止条件。 w w a n g 等x t 删从理论上证明了即使使用单个视图,只要两个基分类器的初始学习效果 有一定差异,协同训练算法也同样有效。半监督学习的另一个重要思路是以生成式模型 为分类器,将未标记样本属于每个类别的概率视为一组缺失参数,然后采用e m 算法来 进行标记估计和模型参数估计。 直推式支持向量机( t r a n s d u c t i v es u p p o r tv e c t o rm a c h i n e ,t s v m ) 4 1 - 4 3 】是最具代表性的 直推式学习方法,它是支持向量机( s v m ) 方法在未标记样本上的一种扩展。对二分类问 题而言说,s v m 仅利用已标记数据在样本空间中寻找一个最优超平面使两类样本间的分 类间隔最大,而t s v i 则同时利用己标记样本和未标记样本来寻找最优分类边界,使其 包含的分类间隔能最大地分隔原始己标记样本和未标记样本。 m i l l e r 并t l u y a r i 删在理论上证明出只要能够合理建立未标记样本分布和目标之间的联 系,就可以利用未标记样本来辅助提高学习性能。在m i l l e r 等人研究m 】中,这一联系是 通过对生成式模型( g e n e r a t i v em o d e l ) 参数的估计来体现的,但在更一般的情况下需要在 某些假设的基础上来建立未标记样本和目标之间的联系。目前,在半监督学习中有两个 常用的基本假设:聚类假设( c l u s t e ra s s u m p t i o n ) 和流形假设( m a n i f o l da s s u m p t i o n ) 。 聚类假设是指处在相同聚类( c l u s t e r ) 中的样本有较大的可能拥有相同的标记。根据该 假设,决策边界就应该尽量通过数据较为稀疏的地方,从而避免把稠密聚类中的数据点 分到决策边界两侧。在这一假设下,大量未标记样本的作用就是帮助探明样本空间中数 据分布的稠密和稀疏区域,从而指导学习算法对利用有标记样本学习到的决策边界进行 调整,使其尽量通过数据分布的稀疏区域i l 2 】。聚类假设简单、直观,常以不同方式直 接用于各种半监督学习算法的设计中【2 】。例如,j o a c h i m s l 4 3 】提出的t s v m 算法,在训练 过程中,该算法不断修改s v m 的划分超平面并交换超平面两侧某些未标记样本的可能标 记,使得s v m 在所有训练数据( 包括有标记和未标记样本) 上最大化间隔( m a r g i n ) ,从而 得到一个既通过数据相对稀疏的区域又尽可能正确划分有标记样本的超平面;l a w r e n c e 和j o r d a n 4 5 j 通过修改高斯过程( g a u s s i a l lp r o c e s s ) q b 的噪声模型来进行半监督学习,该方 法在正、反两类之间引入“零类”,并强制要求所有的未标记样本都不能被分为零类,从 而迫使学习到的分类边界避开数据稠密区域;g r a n d v a l e t 和b e n g i o 4 6 】以信息熵作为正则 化项进行半监督学习,由于最小化熵仅与模型在未标记样本上的输出有关,因此,最小 化熵的直接结果就是降低模型的不确定性,迫使决策边界通过数据稀疏区域。 流形假设是指处于一个局部邻域内的样本具有相似的性质,因此其标记也应该相 一2 一 大连理工大学博士学位论文 似。这一假设反映了决策函数的局部平滑性。和聚类假设着眼整体特性不同,流形假设 主要考虑模型的局部特性。在该假设下,大量未标记样本的作用就是让数据空间变得更 加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策函数能够更好地进行数 据拟合 1 , 4 7 - 4 9 。 流形假设也可以容易地直接用于半监督学习算法的设计中。例如,z h u 等人【5 0 】使用高斯随机场以及谐波函数进行半监督学习,首先基于训练例建立一个图,图 中每个结点就是一个( 有标记或未标记) 样本,然后求解根据流形假设定义的能量函数的 最优值,从而获得未标记样本的最优标记;z h o u 等人【5 l 】根据样本相似性建立图后,让样 本的标记信息不断向图中的邻近样本传播,直到图模型达到全局稳定状态。 研究证明【l 】流形假设和聚类假设本质上是一致的。由于聚类通常比较稠密,满足流 形假设的模型能够在数据稠密的聚类中得到相似的输出。然而,由于流形假设强调的是 相似样本具有相似的输出而不是完全相同的标记,因此流行假设比聚类假设更为一般, 这使其在聚类假设难以成立的半监督回归中仍然有效【2 】。 1 2 半监督学习的研究现状 根据半监督学习方法的工作方式,可以将现有的半监督学 - - j ( 含直推学习) 方法归为 四种类型,即t s v m 、基于e m 算法的半监督学习模型、基于图和流形的半监督学习方 法和协同训练方法。下面对这四种类型的半监督学习方法做进一步介绍。 1 2 1 直推式支持向量机 直推式支持向量机( t s v m ) 是最早出现的处理半监督问题的s v m 扩展算、法【l1 4 , 4 3 , 其将直推式学习与s v m 算法相结合实现了s v m 对未标记样本的学习。对二分类问题 而言说,标准型s v m 利用己标记数据在样本空间( r k i - i s 空间) 中寻找一个最优超平面使 两类样本间的分类间隔最大,t s v m 则同时使用已标记样本和未标记样本寻找最优分类 边界,使其包含的分类间隔能最大地分隔原始的己标记样本和未标记样本( 经t s v m 学 习后其标记将变为已知) ,新找到的最优分类边界应该满足对原始的未标记样本的分类 具有最小的泛化误差。 由于成功地把未标记样本中所隐含的分布信息引入支持向量机的学习过程中, t s v m 算法比单纯使用有标记样本训练得到的分类器在性能上有了显著提高。但是 t s v m 算法本身仍然存在着一些不足和值得进一步改进的方面。例如,在t s v m 算法 执行之前必须人为指定待训练的未标记样本中的正标记样本数k ,而在一般情况下很难 对k 值做出比较准确的估计。在t s v m 算法中通常采用一种简单的方法估算k 值,即 根据有标记样本中正标记样本所占的比例来估计相应未标记样本中正标记样本的比例, 进而估计出k 值。不难看出,这一方法在有标记样本数较少的情况下很容易导致较大的 一3 一 基于神经网络的半监督学习方法研究 估计误差,一旦事先设定的k 值和实际的正标记样本数相差较大,将会导致学习机性能 的迅速下降。在有标记样本中正、负标记各占一半的情况下,t s v m 算法即假定未标记 样本中也是正负标记各占一半并据此设定k 值。但是实际应用中的样本在两个类别中的 分布可能是完全不平衡的,很可能是某个类别中的样本数要数倍于甚至数倍于另一个类 别中的样本数。这种分布的不平衡性虽然往往在大数量的未标记样本中有所体现,但是 对于训练算法而言却是未知的。由于t s v m 算法错误地估计了k 值,将导致训练算法 产生一个不能正确描述样本分布特征的学习器。这一缺陷在很大程度上限制了t s v m 算 法的实用价值。为解决这一问题,陈毅松等人【5 2 】提出了渐进式直推式支持向量机算法 ( p r o g r e s s i v et r a n s d u e t i v es v m ,p t s v m ) ,其主要思想是:考虑到有标记样本往往不是 随机获得的而是人工处理后的有一定代表性的样本,所以没有理由将其标记分布作为估 计整个样本中正负标记大致比例的根据。而且,即使有标记样本是随机获得的,由于直 推式学习中的有标记样本数量往往很少,以其估计整个样本中正负标记大致比例常常是 相当不准确的。因此,对于p t s v m 算法,在训练开始之前,不对未标记样本的分布特 征做任何估计。而在训练的过程中,一次选择一到两个对后续训练过程有可能产生较大 影响的未标记样本,并赋予当前状态下最可能的标记值,然后,将其加入到有标记样本 中,并进行新一轮的训练。一般说来,加入新样本将会影响新一轮训练的过程,并导致 当前分割平面的少量偏移。在这一过程中,可能会发现部分先前的标注是不合适的,一 旦发现这种情况,则取消这些不合适的标注,使其恢复为未标记样本。近年来学术界对 t s v m 的研究日益增多,t s v m 已逐步发展为半监督学习的代表性方法之一【l 】。例如, b r u z z o n e 等【1 7 】将t s v m 从二值分类推广到多值分类,并应用t s v m 成功解决了复杂遥 感影像的分类问题。z h a n g 等【l5 】提出了最小二乘t s v m ,该方法将传统t s v m 的目标函 数由非凸函数转换凸函数,使得t s v m 求解过程更为便利,性能也得到了一定提高。 l i 和g u a n 2 9 】在t s v m 基础上发展出一种迭代式半监督s v m 方法,该方法采用特征重 提取技术,有效避免了半监督学习过程中对未标记样本判断误差逐级递增的问题。l i 等【5 3 】将半监督s v m 用于人脑计算机交流的研究工作,有效地减轻了传统训练方法对先 验样本的依赖程度。a d a n k o n 和c h c r i c t 5 4 】利用遗传算法对t s v m 的非凸目标函数进行 优化,提高了t s v m 的分类精度。此外,很多研究尝试将多种优化技术引入t s v m 以 提高其半监督学习的性能【1 ,5 5 ,5 6 1 。例如,局部组合搜索( 1 0 c a lc o m b i n a t o r i a ls e a r c h ) 4 3 1 、梯 度下降( g r a d i e n td e s c e n t ) ,7 1 、延拓技术( c o n t i n u a t i o nt e c h n i q u e s ) 5 8 、凸凹过程 一4 一 大连理工大学博士学位论文 ( c o n v e x c o n c a v ep r o c e d u r e s ) 5 9 1 、半正定规划( s 酬d e f i n i t ep r o g r a m m i n g ) 1 1 、确定性退火 技;术( d e t e r m i n i s t i ca n n e a l i n g ) 删和不可微分方法( n o n d i f f e r e n t i a b l em e t h o d s ) 6 1 1 等。 1 2 2 基于e m 算法的半监督学习模型 e m 算法是最常见的半监督学习方法之一,在很多领域得到成功应用。例如,d o n g 和b h a n u t 6 2 1 将半监督e m 算法用于图像内容检索系统,降低了对用户反馈信息的依赖程 度,同时提升了图像检索的精度;在此基础上,这两位研究者又将进化遗传规划算法 ( c o e v o l u t i o n a r yg e n e t i cp r o g r a m m i n g ) 与e m 相结合,进一步提高了半监督图像检索的精 度和鲁棒性【6 3 1 。t i a n 【删等将核方法与e m 算法相结合为针对图像等大数据量半监督学习 提供了一个可行的解决方案。 标准e m 算法通常是利用最大似然准则对泛化模型进行参数估计。设数据集 彳= 五,吃,h 中的每个分量都是通过对特定分布p ( z i 矽) 进行独立同分布采样获得, 则似然函数可定义为 n p ( x l e ) = 兀p ( x , o ) - - 三( o l x ) ( 1 1 ) i = 1 其中,p 表示样本分布的参数向量。 最大似然准则是寻找满足: 矿= a r g m a x l ( o l x l ( 1 2 ) 占 的模型参数。为便于计算,往往利用对数似然函数l o g ( ( 口l x ) ) 进行求解和优化。 e m 算法是处理数据缺失情况下的参数估计问题的有效手段【6 5 - 7 0 1 。设数据集z 包含 已观测数据集x 和未测数据集y ,则集合z = ( x ,y ) 与集合x 分别被称为完整数据集和 未测数据集。 根据上述定义可得到如下关系式: p ( za ) = p ( x ,y l o ) = p ( y l x ,o ) p ( xo ) ( 1 3 ) 定义完全数据似然函数为三( o l z ) - - z , ( ox ,r ) - - e ( x ,】,i 臼) ,则公式( 1 1 ) 中的l ( a i x ) 称为不完全数据似然函数。可以将完全数据似然函数t ( o l x ,】,1 看作数据集y 的函数 7 1 1 1 ( ox ,y ) = f ( y i x ,秒) ( 1 。4 ) 其中,f ( r l x ,秒) 表示在给定已观测数据集x 和参数向量目的条件下,未测数据集y 的 边缘分布函数。 一5 一 基于神经网络的半监督学习方法研究 在上述定义基础上,可将e m 算法处理未测数据的过程概括如下。 e s t e p 计算下式给出的完全数据对数似然函数 q ( p ,0 0 - 0 ) = e ll o g p ( x ,ro ) x ,0 0 。1 ) = 。l 。g p ( x ,j ,i 乡) 厂( y l x ,0 ( , - 0 ) 砂 一 其中,卜”表示( t - 1 ) 时刻的参数估计值,q 表示缺失变量y 的取值范围。 m s t e p 通过最大化公式( 1 5 ) 中的期望值q ( 护,0 0 - i ) ) ,求取,时刻的参数估计值 = a r g m a x q ( o ,0 ( 卜1 l ( 1 6 ) 0 、7 通过迭代执行上面的e s t e p 和m s t e p ,e m 算法可寻找到参数护的局部最优值【_ 7 2 】。 对于半监督问题而言,通常将未标记样本属于每个类别的概率视为一组缺失参数,然后 采用e m 算法进行标记估计和模型参数估训3 1 ,进而实现利用未标记样本提升学习器性 能的目的。 s a i n t j e a n 和f r e l i c o t 7 3 】利用聚类算法去除损害半监督学习的奇异点,并对e m 算法 的初始设置进行优化,使半监督数据结构发掘的准确度得到显著提高。a m i n i 和 g a l l i n a r i t 2 1 1 提出一种扩展型e m 半监督学习方法,该方法在学习未标记样本的同时对半 监督学习过程中的误差进行估计,同时将误差估计值也作为学习器参数调整的依据。 c o m e 掣2 3 】通过引入广义b a y e s 理论提出了改进的半监督混合模型方法,混合模型的参 数则采用e m 算法进行调节。c o n s t a n t i n o p o u l o s 和l i k a s t 7 4 】提出一种概率r b f 网络,这 种网络在每次迭代过程中均进行基于e m 算法的半监督学习,与监督型神经网络相比, 概率r b f 网络达到了更理想的学习效果。 1 2 3 基于图和流形的半监督学习方法 半监督图模型通常先根据训练样本及某种相似度度量建立一个图,图中结点对应 ( 有标记或未标记) 样本,边的强度为样本间的相似度。将半监督学习问题定义成一个基 于图的正则优化问题,包括定义所需优化的目标函数以及使用决策函数在图上的光滑性 为指导定义正则项,最后通过解决优化问题以求取最优模型参数,使得模型的决策函数 具有两种性质:( 1 ) 决策函数在未标记样本上的输出尽量与已知标记一致;( 2 ) 决策函数 在图上具有光滑性。光滑性的要求源于流行假设,即处于一个很小的局部领域内的样本 具有相似的性质,因而其类别标记也应该相似。在流行假设下,大量未标记样本的作用 大连理工大学博士学位论文 就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策 函数能够更好地拟合数据。 近年来,学术界涌现出大量基于图的半监督学习方法,主要包括m i n c u t 方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论