已阅读5页,还剩53页未读, 继续免费阅读
(通信与信息系统专业论文)基于图模型的半监督svm分类算法研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于图模型的半监督s v 1 分类算法研究与应用 摘要 支持向量机算法是在结构风险最小化基础上发展起来的,它避免了以往神经网络学习 过程中出现的过拟合、易陷入局部极值和维数灾难等诸多问题,目前在许多领域得到了很 好的运用。经典的支持向量机算法是分类算法中发展较早的一个,但是它对标识样本的数 量有较强的依赖性,然而在实际工作中,由于标识样本的代价较大,因此只有少数样本是 被标识的,大多数是未标识的。 现如今,一种新颖的半监督学习算法,因其能够将已标识和未标识样本提供的聚类信 息有机结合起来,与已往的监督分类算法相比,对标识样本的数量要求不高,而且在实际 运用中获得了更好的效果,因为这个优势,这种半监督学习方法吸引了越来越多研究者的 眼球。当前对半监督支持向量机算法的改进主要集中在利用一些约束函数将未标识样本的 信息加入到优化过程中,但这种模拟在不同程度上都存在对噪声过于敏感和本身算法的优 化难题。从处理这些问题的角度出发,本文提出一种基于两阶段学习的半监督支持向量机 分类算法,利用图模型给未标识样本赋予伪标识,接着为了削弱噪声样本的影响,采用惫近 邻图去除噪声样本,然后将标识样本和伪标识样本作为整个训练样本集,运用s v m 算法 进行训练学习,使得s v m 算法在训练时能充分利用未标识样本带来的结构信息,提高分 类器的分类精度。同时本文从构建图模型的角度出发,还提出了一种基于高斯混合模型核 的半监督支持向量机分类算法。通过构造高斯混合模型核向s v m 分类器提供未标识样本 信息,使得s v m 算法在学习标识样本信息的同时,兼顾着整个训练样本集合的聚类假设。 结果证明本文提出的两种算法在拥有较少标标识样本训练的情况下分类性能也有所提高 且具有较高的可靠性。 本课题首先在理论上对本文提出的两阶段学习模型和高斯混合模型的可行性进行论 证,然后利用人工合成样本集和u c i 样本集分别对两种算法的分类性能进行测试,并与已 有的半监督支持向量机算法进行实验比较,验证了本文所提模型的优势。本课题还利用两 阶段学习模型算法对轴承故障样本集进行检测性能测试,实验结果表明该模型的检测性能 较其他几种算法好,并测试算法中重要参数对算法性能的影响。 关键词:半监督支持向量机;高斯混合模型核;图模型;故障检测 、 a bs t r a c t s u p p o r tv e c t o rm 孙l l i n ea l g o r i t h m i sd e v e l o p e do nt h es n l l c t u i a lr i s km i i l i m 泣a t i o n n a v o i d st h eo v e r - f i t t i n g ,e ! a s yf a l l i n 幻l o c a lm i l l i m aa i l dd i m e n s i o nd i s a s t e rp r o b l e mi np r e v i o u s n e 删n e 咖r kl e a h l i n g i th a sb e e n 、i d e l yu s e di nm 觚ya r e a s t h ec l a s s i c a ls v ma l g o m i 廿ni s ae 砒yd e v e l o p e da l g o r i m mi ns u p e r v i s e dc l a s s i f i c a t i o na l g o r i h t m b u ti tr e l y sh e a v e l yo nt h e n 啪b e ro fl a b e l e ds 锄p l e s w b j l eo n l ym i n o r i 够s 锄p l e sh a v eb e e nl a b e l e da i l do t h e rs 锄p l e s a r eu 1 1 l a b e l e di np r a c t i c e n o wan e ws e m i s u p e r v i s e dl e a l l i n ga j g o r i t h mi sb e c o m i n gt h ec u r r e n th o tr e s e a r c ho f m a c l l i n el e a r i l i n ga r e a b e c a u s ei tc a i lc o m b i n et h ec l u s t e ri 疵衄a t i o np r o v i d e d b yl a b e l e d 趾d u i l l a b e l e ds 锄p l e s ,a l l dc a l ls o l v ep r a c t i c a lp r l b l e m s b e t t e rt h a i lt r a d i t i o n a lc l a s s i f i c a t i o n a 1 9 0 r i t h m t h ec u l l r e n ti m p r o v i n ga l g o r i t h mo ns e m i s u p e i s e ds v m f o c u sm a i n l yo na d d i n gt h e u 1 1 l a b e l e ds 锄p l ei m f o 咖a t i o nt ot h eo p t i m a z i t i o n 胁c t i o n b u ts u c hs i 舢l a t i o n sa r es e i l s i t i v et o t h en o s i ys 锄p l e sa n de n c o 吼t e ro p t i m a z i t i o np r o b l e m i i lo r d e rt os o l v et h e s ep r o b l 锄,t l l i sp a p e r p r o p o s e s t h e s e m i s u p e n ,i s e ds u p p o r t v e c t o rm a c l l i n ec l a s s i f i c a t i o na l g o r i t h mb a s e d o n t 、) 的s t a g e 1 e 锄i n t bp r o v i d ei i l i t i a lp s e u d ol a b e l sf o rt h eu n l a b e l e ds 锄p l e s ,t h e 伊a p hm o d e l i s u s e d a j l dk n e a r e s tg r a p hi sa p p l i e dt od i s t i n g u i s h i n ga 1 1 dr e m o v i n gm ep o s s i b l en o i s ys a r i l p l e s t l l e nt h ed e n o i s e ds 锄p l e sa r ei n p u 牡e dm on l es u p p o r tv e c t o rm a c h i n e ( s v m ) a sl a b e l e d s 锄p l e s ,s ot h a tt h eg l o b a li n f o m a t i o no f t h ew h o l es 锄p l e sc a nb eu t i l i z e d b ys v m w h e ni ti s u s e di nt h et r a i n i n gt oi m p r o v em ec l a s s i f i c a t i o na c c u r a c y m e a n w h i l e ,w ep r o p o s e t h e s e i i l i s u p e i s e ds u p p o r tv e c t o rm a c h i n ec l a s s i f i c a t i o na 1 9 0 r i m mb a s e d o ng a u s si i l i x t u r em o d e l k e m e l t h eu n l a b e l e dd a t ai n f o m l a t i o ni si n c o 叩o r a t e di n t ot h eg a u s sm i x t u r em o d e lk e m e l i n o r d e rt oi i i l p r o v et l l es v ma l g o r i t h m sc l a s s i f i c a t i o np e m n n a n c eu n d e rf e w1 a b e d e ds 锄p l e s t 1 l i si sa c l l i e v e db yn o to m yl e a n l i n gt h el a b e l e ds 锄p l e ,b u t a l s oc o n s i d 舐n gt h ec 1 戚翻n g i n f o m l a t i o no ft h ew 1 1 0 l et r a i n i n gs 锄p l e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e d m e 也o dc a i ln o to n l yi m p r o v ec l a s s i f i c a t i o np e 渤m a u l c eo fs v m i nf e w 妇1 1 i n gs 锄p l e s ,b u t a l s oi n c r e a s et h eo v e r a l lc l a s s i f i c a t i o nr o b u s tp e r f 0 咖a 1 1 c e 1 1 1 i sp a p e rf i r s n yp r o o f st l l ef e a s i b i l i 够o fm o d e l s 丘o mm e o 吼t h e nu s e t l l es 弘l t h e s i z e da i l d u c is 锄p l es e t st o t e s tt l l ec l a s s i f i c a t i o np e r f o 珊a i l c eo ft h ea 1 9 0 r i m m ,a 1 1 dc o m p a r e t l lm e 哈尔滨工程大学硕士学位论文 e x i s t i n g o t h e r s e m i - s u p e i s e ds u p p o r tv e c t o rm a c l l i n ea l g o r i t h m t h er e s u l t s v e r i 匆 t h e a d v a n t a g eo fm em o d e l s a t l a s t ,w eu t i l i z et h ea i g o r i t l l i i lt o t e s tt h eb e a r i n g l u l td e t e c t i o n p e d o 胁a n c ea n dt h ee 航e to fm ei m p o r t a n tp a r 锄e t e r so nt h ea l g o d t h m sp e r f - o r n l a l l c e t h e e x p e r i m e n t sd e m o n s t r a t et h a tt h ep r o p o s e dm o d e l s d e t e c t i o np e 墒m a i l c ea r eb e t t e rt h a no m e r a l g o d m m s k e yw o r d s :s e m i s u p e r v i s e ds v m ;g a u s sm i x t u r em o d e lk e m e l ;g r a p hm o d e i ;f a u l td e t e c t i o n 第1 章绪论 1 1 研究背景 第1 章绪论 在日新月异的今天 ,特别是在机器学习领域,人们利用计算机统计和处理样本的能 力越来越强【l 】,能在第卜时间收集到自己关注方向的足够的样本信息。然而这些样本名 目繁多,随机性太大,f 如何甑别这些外来样本,找寻出对我们处理问题有用的却是一个 非常困难的问题。支持 向量机算法作为一种经典的监督学习方法,因其完备的理论分析 和大量的可行性论证,已被广泛的应用于处理诸多现实分类问题【2 】,然而支持向量机算 法需要一定数量且属于 不同类别的样本才能对所给样本集进行正确分类。而现实中我们 采集到的样本信息往往 是未标识的,若人工给他们进行标识,将付出大量的人力物力1 3 j , 而且需要有专业知识的专家进行监督指导,这个过程无疑是不太可行的。比如我们用计 算机实时记录机械装备运转时轴承的工作状态,轴承工作一个周期,计算机统计出的工 作样本特征将是多维跳变的,这个样本是非常复杂的,给这些样本进行人工标识正常或 故障,需要专业的工作 人员依据统计学的理论外加大量的实验,而且这个过程涉及到庞 大的数学计算,投入的忱销巨大。再比如在灾害预警方面,采集到的将是不同地理位置, 不同经纬度,不同温温度下的气象信息,这些统计样本如果依靠有专业素养的气象学家 来分门别类,进而用乘预测某个区域未来的气象特征,将是个非常庞大的工程。而现实 中这种标识样本少,采标识样本多且交易获得的想象是普遍存在的,可是已知的少量的 标识样本又不足于支持监督学习的训练,且不一定是有价值的标识样本,大量的未标识 样本又都处于闲置状怼,那么能不能用某些准则人为的将未标识样本加入训练样本中, 充分发掘样本集合整体聚类信息,利用未标识样本提供的信息来改善分类器的学习能 力,从而给后绪的监督学习提供更多更准确的有利用价值的样本,来改善算法的分类性 能昵。在一思想的启发下,人们提出了半监督学习算法,区别于监督学习只利用标识样 本和无监督学习只利用未标识样本,它能利用标识样本和未标识样本蕴含的信息睁7 。, 充分利用资源,而不用太多的人工干预,通过迭代学习,来训练出具有较强分类能力的 分类器。半监督学习因其特有的优势,从其被发现以来,受到了越来越多机器学习领域 科学工作者的青睐,并正在成为当下的研究热点。人们正不断将其应用于实践,达到了 降低研究成本并且提高学习效率和精度的目的,从这个角度来说,半监督学习是非常值 得研究的。 哈尔滨工程大学硕士学位论文 1 2 国内外研究现状 机器学习推陈出新,是模式识别领域一个非常有研究价值的方向,其理论付诸实践 的运用已经大大改善了机器的自主“学习”能力,在工作中能自行按照程序设计进行运 作,极大的减少了人工干预,节约了运营成本。随着人们对其的广泛应用,多数是关系 到人们和企业的切身利益,这就对理论衍生的产品的安全性和可靠性提出了相当大的挑 战。 1 2 1 支持向量机研究 目前,支持向量机在机器学习领域是广为人知的一种分类方法,它的研究最早可追 溯到上世纪九十年代,它以统计理论为先导,在结构风险最小化基础上建立学习方法 【5 7 】,其完善的理论论证使其成功地解决了机器学习中经常遇到的易陷入局部极值和高 纬度处理瓶颈难题,并且具有良好的泛化能力和鲁棒性,其己被人们运用于诸多科学领 域,方便人们的生产生活,比如将其运用于农业中的病虫害预警和土地质量监测,医学 中肿瘤细胞的探测,工业中器械的故障诊断,商业中的风险统计和预算。因着支持向量 机潜在的巨大效用,众多的科学研究者对其投入了大量的精力,不断思考改进传统的算 法,让其能训练出具有更好泛化能力的分类器。经收集分析可知,目前的改进方向,算 法层面主要通过新增约束项或者惩罚因子等方法使公式能适应于新的应用环境【6 】,衍 生出能解决特殊情况的新方法,如c h a p l l e 等人在文献【9 】中尝试从公式本身入手,引入 平滑项来近似表征正类样本标识,通过计算未标识样本的软标识再转化到真实标识,提 出了v s v m 算法;s i n d h w a n j 等人在文献 1 0 】中利用决策退火策略,起先从简单的凸优化 目标函数入手,逐渐迭代处理使最终的优化函数为凸优化问题;c o l l o b e i r t 在文献 1 1 利 用凹凸优化流程( c c c p ) 来直接处理非凸优化问题,利用新的约束因子使算法能更好 的模拟出样本的真实分布,使算法能得到全局最优解;f u n g 等人在文献 1 2 】中提出的渐 进支持向量机( p s v m ) 以及l e e 等人在文献 1 3 】中提出的约简支持向量机( r s v m ) 等, 均从处理特殊样本集情况出发,逐步演变出不失一般性的改进策略。由于支持向量机算 法的求解是一个寻找最优解过程,可供选择的余地较大,一些科研人员也想到了从其入 手,针对具体情况选定最适合的优化理论和方法,如c h a p e l l e 等人在文献 1 4 】中巧妙的 使用优化技巧,减少了原有算法的计算复杂度,从线性情况出发,然后尝试将其推广到 非线性情况,来应对实际应用。 虽然支持向量机有其较完备的理论推导做后盾,使其在处理大部分情况时能体现自 2 第l 苹绪论 己的优势,具有良好的泛化能力。但是通过实际应用,我们可以发现,它的推广还存在 几个方面的问题,需要经行进一步改进。总结一下大致存在如下需要深入探讨的问题: ( 1 ) 如何确定算法模型和参数。对于未知的样本集,采用何种模型才能更准确的 体现样本集问的特征,加支持向量机模型中参数的权值向量和阈值如何确定。 ( 2 ) 如何处理标识样本较少情况下分类精度下降的问题。当训练样本中已标识样 本较少时,不能很好的段征样本集的特征信息,致使训练出的分类界面误差较大,到底 标识样本和未标识样本i 的比例有多大时,算法的分类效果最佳。 ( 3 ) 如何将算法选用于大样本集的分类。s v m 的优点在于处理小样本的学习和分 类问题,我们知道s v 姚算法只依赖于支持向量样本,但是在实际中获得的标识样本不 一定位于理想的分类边【界附近,致使训练出的分类器性能不够好。尽管现存的改进支持 向量机算法解决了大剖分实际情况,但面对样本数较多的情况,标识样本的缺乏使其在 泛化处理时力不从心,因此如何处理大样本集的分类问题非常值得研究。 1 2 2 半监督学习研究进展 半监督学习的研究【,最早可以追溯到2 0 世纪9 0 年代中期,最开始s h a l l s h a h 锄和 l a i l d g r e b e 等人【”】提出如何利用未标识样本的信息来解决实际问题,区别于监督和无监 督学习,此学习过程逐j 渐演变为半监督学习,核心为研究如何充分发掘未标识样本所蕴 含的整体样本集的信启l ,来训练出更好的学习器。到目前为止一些较成熟的方法【l6 】包括: 生成式模型,自训练,协同训练,基于图的方法。 生成式模型1 1 7 】假设给定的样本集的类条件概率服从一定的分布,比如服从高斯分 布,然后利用期望值最大化( e m ) 、算法来确定算法中的参数,最后利用贝叶斯公式来 计算未标识样本的标谀。此类算法对假设模型的依赖性较大,若假设的概率分布与实际 分布出入过大,分类剃果将很差。现如今,对于生成式模型算法的改进大部分专注于如 何使设计出来的分布逼近真实样本集的分布,例如n i g 锄【1 8 】等人利用e m 算法构建多个 混合模型模拟真使样琳分布,来处理文本分类,通过实验发现如此构建分布模型后,算 法性能要优于将它运威于人脸方向识别。f 哂i n 0 【1 9 】通过在算法中加入偏差校正项和使用 期望熵最大化原则选挥有代表性的样本进行训练来拓展生成式模型,取得了不错的效 果。 自训练方法【2 0 1 是由前研究较成熟的一种方法。此学习方法起先选取部分已标识样 本,训练出一个分类器,然后根据此分类器计算周围未标识样本的标识。随后将计算得 出的未标识样本中置信度较大的连同其标识加入到训练集中,如此反复,不断增加标识 3 哈尔滨工程大学硕士学位论文 样本的数目,直到使最终的分类精度达到预期的设想即可。此方法不足之处在于,自学 习过程中如果哪一步出现错分,那么这种错误会在后续的学习中进行累加,致使最终的 错分率会很大,一些改进算法尝试设置置信度阈值,若某些样本的预测置信度低于这个 阈值,就在下一步的迭代训练中剔除此样本进行学习,如此来尽量减小每一步的训练错 误。自训练学习较早时候在语音信号处理方面得到了运用。如y 加w s k y 担1 j 等人在文献 中使用自训练来区分文本中的敏感词汇,取得了不错的效果。耐1 0 一2 2 j 等人在文献中使 用它来区分形容词和名词。m a e i r e i z o 【2 3 】等人将其运用到两个分类器中对识别人们的对话 是否属于情感类的。随后自训练思想被人们运用于语义分析和机器翻译,如r o s e n b e r g 【2 4 】 等人将其运用到图像中进行目标探测,结果发现自训练的半监督模式效果还是比较可观 的。 协同训练学习【2 5 j 较早是b u l m 和m i t c h e u 等人提出来的,主要思想是其假设样本集 可以根据样本特征划分为两个子样本集,且遵循两个条件:每一个子样本集都具备训练 学习分类器的能力;两个子集间服从条件独立分布,相互不受影响。实现过程为:对两 个子样本集独立训练学习,得出两个分类器;根据分类器,分别区分并标识周围的未标 识样本;对于新标识出来的样本,我们甑选出高置信度高的,把他当做标识样本融合到 另一个子分类器中,这样可以人为增加两个学习器的训练样本,相互之间完成协同训练。 n i g 锄和g h a i l i 等人【2 6 j 对一些先验的实例,综合运用基于e m 算法的生成式模型和协同 训练模型,结果发现,当条件独立分布在给定样本集中符合时,协同训练模型的分类效 果要优于前者。c o l l i n s 和s i n g e r ,j o n e s 等人【2 7 】使用协同e m 算法来处理文本信息。z h o u 和“等人【2 列将协同训练衍生成三个学习器之问的协同训练,如果前两个学习器对于某 个未标识样本的标识已知,就将其赋给第三个学习器。b a l c a i l 等人【2 9 】在假设条件中加入 一个扩张条件,让此方法对样本集的条件要求宽泛一些。血l d o 和z h a n g 等人【3 0 】提出了 利用双面模型来降低条件独立分布的要求。协同训练对假设条件依赖性较大,如何分割 和提取子样本集,如何处理实际样本集不满足条件独立同分布情况是需要深入研究的问 题。 基于图的方法1 3 l j 的核心是构建一个图模型,用标识和未标识的样本点代表图中的顶 点,边代表样本点间的相似度。此种学习方法一般假定模型满足两个条件:局部和全局 一致性假设。局部一致性表示图中距离较近的样本点间具有相同的标识,全局一致性假 设表示图中同一个流行结构内的样本具有相同的标识。基于图的方法可被视为在图中估 计一个标识函数,该函数应同时满足两个条件:对于已知的标识样本,由此函数估计出 的标识应和给定的一致;在全图中,此函数必须是平滑的,即应有连续的一阶和二阶偏 4 第1 章绪论 导数。目前一些较成熟的基于图的方法的不同之处主要在损失函数和规划项的选取上。 如b 1 u m 和c h a w l a 等人阎提出的最小图切割法( g r a p hm i n c u t ) ,g h a b r a m a l l i f 3 3 】等人提出 的离散马尔可夫场方法,z h u 【3 4 1 等人提出的高斯随机场和调和函数,z h o u f 3 5 】等人提出的 正规化拉普利斯算法,l b e l h n 【3 6 】等人提出的拉普拉斯流行规划方法。此方法也存在一些 需要改进的地方,如选墩什么样的图模型,图中的参数如何确定等等。 1 2 3 半监督支持向建机研究发展 支持向量机目前发i 展较成熟,对于小样本的学习效果较好,半监督学习思想对于缺 乏标识样本的情况比铡有效。那能不能将两者结合,充分发挥二者优势来解决现实普遍 存在的缺少标识的情况【呢,如此半监督支持向量机【37 j 的思想应运而生。它主要是通过半 监督学习技巧对样本剿进行预处理,获取尽量多的样本集信息,然后输入到s v m 算法 中实现分类。较早提出| 的结合算法有s e e g e r 等提出的直推式支持向量机算法( t s v m ) 【3 8 1 ,将未标识样本信息蚁新的约束项加入到算法优化函数中,引导分类界面从低密度区 穿过,从而得到最优刽类超平面,随后被应用于文本分类取得了不错的效果。此后不断 有新的改进算法提出,查阅文献发现,算法层面主要将如凹凸优化法、梯度下降法、连 续优化方法,半正定删划法等加入到算法的全局最优求解中。样本层面主要是用半监督 学习思想如图模型、流行规化、局部和全部一致性等方法【3 9 j 来对样本集合进行预处理, 将标识样本的信息以一 定的假设传播到周围的未标识样本,如此人为增加标识样本的数 目,从而使s v m 训练耐能利用到更多的信息,最终提高分类精度。当前此方向的研究 热点主要集中在对现有算法的改进以提高运算速度1 4 0 1 ,研究人员也在考虑用更贴切的优 化方法来求解其中的优化问题。半监督支持向量机可以说是监督学习和半监督学习相结 合的范例,它集二者之l 长,所生成的算法训练阶段计算复杂度小,测试阶段能迅速对新 来的未标识样本进行标识。目前众多科研人员开始着手这方面的研究,从国内外数据库 的关键词搜索结果可猷明显发现,相应的文献呈非常快的上升趋势【4 i 书j 。 1 3 论文的目的和意义 现如今,国内外杌【器学习领域的研究者对支持向量机和半监督学习算法的研究正如 火如茶进行着,不论硅理论改进还是在实践运用的革新中,都不断有新的方法和途径提 出。如文献【4 6 】提出一1 种基于随机游走的半监督学习方法,该算法是基于谱图马尔克夫 模型理论的,受谱图参政设置及噪声影响较大t i n g 等人在文献【4 7 】中提出了f s v m 算法, 给未标识样本以某种模糊度赋予初始标识,将其做为标识样本列入到训练样本中,从而 5 哈尔滨工程大学硕士学位论文 增强算法的分类精度,但其受噪声影响很大,m i k l l a i l 等人在文献 4 8 提出了l a p s v m 算 法从考虑样本集的内部结构出发,尝试发掘整体样本集合的聚类信息,但是由于半正定 优化问题导致其易陷入局部解。 由于半监督支持向量机潜在的巨大利用价值,人们对其投入了大量的精力来钻研 他,但是尽管当前半监督支持向量机算法的研究进度迅猛,在样本信息的获取和预处理 阶段还是存在新的难题。因此对半监督支持向量机算法进行完善和改进还需要再接再 厉。 半监督学习中,已知标识的样本数较少在现实中是普遍存在的,仅利用这些样本提 供的信息不能有效的训练出好的符合要求的分类界面,人为加入未标识样本,使用某种 准则将其假设为标识样本来提高算法的分类能力,在算法的优化处理阶段又存在半正定 优化和非凸优化难题【4 9 1 ,这就造成不少优秀的分类算法在使用时效果不尽理想。同时当 前一些改进的半监督支持向量机算法在加入未标识样本信息时,容易将对分类起负面影 响的样本,比如边界处所属类别较模糊的样本引入到算法中,如此就给算法引入了噪声 信息,最终导致算法在后续的分类阶段出现大的错分。因此,如何在缺少标识样本的条 件下,运用半监督学习方法来充分发掘整体样本集的信息,且让算法尽量小的受到噪声 样本的干扰,是一个亟待解决的问题。 鉴于此,本文提出基于两阶段学习模型和基于高斯混合模型核模型的半监督学习方 法,两阶段学习模型先利用标识传递算法将标识样本信息传递到周围的未标识样本,然 后将这些新标识的样本列入到标识样本中,从而使支持向量机算法在训练时时能得到尽 可能多的标识样本,如此使支持向量机能最大程度的得到支持向量样本,最终得出较准 确的分类界面。高斯混合模型旨从学习模型的改进出发,通过构造高斯混合模型核向 s v m 分类器提供未标识样本信息,使得s v m 算法在训练时能兼顾整个训练样本集合的 聚类假设。总之,本文主要是对现有的半监督支持向量机算法存在的问题进行探索,寻 找预处理样本集的有效方法,使得输入s v m 算法的样本特征信息尽量多,让s v m 在 训练时能充分兼顾整体样本集的信息,得出更准确的分类界面,拓展支持向量机的分类 能力,将其运用于实际,更好的服务于人类的生产生活。本文拟将此方法运用于故障检 测领域,来实验本算法在故障检测中的分类效果。 1 4 论文所完成工作 在半监督支持向量机算法中,目前可搜索的改进算法大多是从优化函数或者约束条 6 第1 苹绪论 件出发,使其对特定的样本集合训练,取得了一定的成果,但是从整体样本集合信息的 研究出发还是比较少见【的,而大量的未标识样本蕴含了非常有价值的信息,因此,利用 一定的学习模型和可行 性假设条件来充分挖掘样本集合的聚类信息是非常值得研究的。 为了克服目前的算法商临的非凸优化和半正定优化难题,且使算法不受噪声信息的影 响,本文提出了基于两阶段学习模型和基于高斯混合模型核模型的半监督支持向量机算 法,训练阶段分别用基手图和基于高斯混合模型核的半监督学习方法充分探索样本集合 潜在的内部结构信息,燃后利用一定的去噪方法,剔除可能是噪声的样本,最后利用得 到的新标识样本集合来练s v m 分类器,以实现凸优化和抗噪的目的,最终提高s v m 分类器的分类精度。 本文的创新点是从l 如何充分利用起未标识样本蕴含的潜在信息,为s v m 算法训练 提供尽可能多的样本特征信息,最后通过将此方法同其他半监督学习算法进行对比实 验,验证本文算法的债【越性。全文的细节内容展示如下: 第一章为绪论,主【要阐述了本课题的研究背景,国内外研究现状,以及研究的目的 和意义,结尾部分简要列出论文的布局。 第二章为支持向量机算法概述,主要说明了该算法的模型构建,优化函数和分类界 面的形成,参数的优化求解,简要探讨了算法中参数的选择及核函数的应用。 第三章为基于图酬半监督学习算法,讨论了基于图的半监督学习算法的来源,图模 型的构建方法,算法的假设条件,标识传递算法的基本过程。 第四章为基于两阶段学习的半监督支持向量机分类算法,首先介绍了现存的算法存 在的弊端,然后讨论席 文算法的具体过程,接着通过实验测试本文算法同其他算法的性 能比较,最后将本文对法运用到轴承故障检测领域,论证本文算法的应用价值。 第五章为基于半监督高斯混合模型核的支持向量机分类算法那,分别介绍了较少标 识样本对支持向量机算法的影响,高斯混合模型核的构建,算法的具体流程,计算复杂 度分析,实验部分将席 文方法同其他半监督学习方法经行对比测试,验证本文算法的实 用性。 7 哈尔滨工程大学硕士学位论文 第2 章支持向量机简介 作为经典的监督学习算法,支持向量机起源于最小化结构风险原则,并且是在线性 可分情况下对分类问题找寻最优分类面提出来的,核心思想是优化损失函数,得到最优 分类面,使此分类界面和距离其最近的两类样本之间的距离最大化( 即支持向量和分类 界面之间的距离最大化) ,使最终训练出的分类器具有较强的泛化能力【l j 。支持向量机性 能优于以前的神经网络方法,区别于神经网络,其在处理分类问题时训练出的分类界面 不是随机生成的,它既保证了所得分类界面位于两类之间,又使两类之间的界限范围尽 量大,从而使对于新来的样本能尽可能将其f 确分类。考虑到现实中遇到的问题大部分 是非线性情况,支持向量机引入了核函数思想,通过核映射,将低维不可分情况转变为 高维线性可分情况【2 - 5 | ,从而得以广泛的应用于处理实际问题。 2 1 构造最优分类界面 支持向量机( s v m ) 算法是从分析线性可分情况衍生出来的。本节中,我们从样本 集线性可分条件下开始研究,进而衍生成线性不可分条件下的处理方法。 对于二分类情况,我们假定训练样本集线性可分,即存在线性分类界面来区分样本 集中的两类,易知这样的分类界面是有无限多个的。我们用支持向量机所期望训练出的 是这样一个分类界面,它要符合两个要求:正确的区分两类不同样本;保证距离分类界 面最近的两类样本与分类界面之间的距离最大。如图1 所示。 d 矗f 册雠= 2 圳w f 图2 1 二维线性可分最优分类面 8 第2 章支持向量机简介 上图中空点圆和实i 心圆分别代表类别1 和类别2 样本,m 为我们期望得到的最优分 类界面,m 。和m :分别的过距离分类界面最近的点所构成的直线,且平行于分类面。作 为最优分类界面,就是既要求分类界面将两类样本正确区分开来,又要使两类之间的分 类间距最大,使其泛化能力最强。从风险理论角度来看这个思想【1 5 】,条件1 是为了使 执行分类时付出的经验风险尽量小,条件2 使分类界面对于新来的类似样本被正确区分 的可能性尽量大,使测腻阶段中付出的真实风险尽量小。 设给定的二分类训陈样本总数为”个,线性可分样本集合为( 葺,y ,) ,f _ 1 ,2 ,行,一 为d 维向量代表样本的侈个特征信息,y ,= 1 为类别标识。我们定义w 为权值向量,阈值6 , 易得,线性判别函数的i 一般表达式为g ( x ) = w x + 6 ,则判决规则为: ,x + 6 :0( 2 1 ) 为了便于理解,我们可以将判别函数做归一化处理。令所有样本的判别函数都满足 i g ( x ) i l ,等号代表距离分类界面最近的样本满足i g ( x ) l = l ,即所谓的支持向量。如此可 得分类问距,如上图中j m 。和m :之间的距离就等于2 f 1 ,从公式可以看出,要使分类间 距最大,只需使或者2 最小。综上所述,要求分类界面正确区分所有样本,即要求 分类界面满足下式: y i 【( w 薯+ 6 ) 】一1 0 ,f = 1 ,2 ,挖 ( 2 - 2 ) 两类样本中距离分类界面最近的,且处于超平面m 。和m :上的训练样本点就是使式 ( 2 2 ) 临界条件成立的那些样本。因为它们在塑造最优分类面过程中起到了举足轻重 的作用,我们称之为支持向量。如图2 1 中的a 、b 、c 、d 样本点所示。 接下来我们需要剁用优化方法来从理论上求解最优分类面方程。依据上述分析,求 解最优分类面可以描述成下述限定优化求解问题。 ( ,) = 去0h ,0 2 = 去,t , ( 2 - 3 ) 我们采用拉格朗e | 法求解优化问题,具体操作为我们令函数: 工( ,6 ,a ) = ,t w 一a 。 片( ,薯+ 6 ) 一l 】 ( 2 - 4 ) f - l 其中,a i o 为拉悟朗日乘子,控制约束条件的影响程度。从而求解可以转化为上 式对,和6 求极值。 将上式分别对w 和6 求偏导数,令它们等于o ,原问题转化成如下较易理解和求解 的对偶优化问题,在卞述约束条件下: y ,i a ,:o ( 2 5 a ) a i o ,f = 1 ,z ( 2 - 5 b ) 9 哈尔滨工程大学硕士学位论文 寻找下列函数的最大值: q ( a ) = 伉,一去j a ,只乃x 。_ ( 2 - 6 ) ,- l 。f ,j = l 令:为所得最优解,可得出最优权向量为: w + = a 鼍 ( 2 7 ) f - l 我们可以直观的看出,权向量矩阵是所给训练样本标识和特征信息的线性组合。 根据k t t 条件,最终的最优解必须满足下式: a i y i - ( w 鼍+ 6 ) 一l 】= 0 ,f = 1 ,刀 ( 2 8 ) 因此,大多数样本对应的拉格朗日乘子a :必须为o ,不为。的a :对应于使式( 2 2 ) 临界条件成立的样本即我们所谓的支持向量,它一般是整体样本集中的一少部分,支撑 了最优分类面的形成过程。 通过求解上述优化问题,可得最终分类器的判决函数为:, 厂( x ) = s g n ( w + x ) + 明= s 印( a x ,x + 6 + ) ( 2 - 9 ) # 1 其中s g n 为符号函数。最优阈值6 4 可由一个支持向量用式( 2 2 ) 求得。 2 2 衍生广义最优分类面 上一小节在线性可分条件下讨论了最优分类面的形成流程,此处将其拓展到非线性 情况。当样本集线性不可分时,从公式上来理解,就是一些训练样本满足不了式( 2 2 ) 的线性条件,我们可以尝试在式( 2 2 ) 中新增一个松弛项g ,o ,来调整对不同样本执 行不同的错分惩罚程度,从而式( 2 2 ) 扩展为: 乃【( w 誓+ 6 ) 】一1 + 。o ,j = 1 ,2 ,刀 ( 2 1 0 ) 我们的目的是让分类界面错误划分样本数尽量少,从极限角度来分析,对于足够小 的6 o ,只要使下式最小就能达到要求 b ( s ) = ( q ) 6 i = l 接着,对应线性情况下,需要使分类间距最大, 束条件更新为 ( 2 1 1 ) 此处我们可引入新的约束想,则约 2 ( 2 1 2 ) 在约束条件( 2 - 1 0 ) 和( 2 1 2 ) 下,求解式( 2 1 1 ) 的极小值,很容易得出非线性 情况下的最优分类面,我们通常称之为广义最优分类面。为了简化计算,我们取6 :l 继 1 0 第2 章支持向量机简介 续分析。 新增约束项后,优忱问题转变为求下列优化函数的极小值: ( m ,s ) = 寺w t w + c 毛,f = l ,2 ,刀 ( 2 一1 3 ) j _ l 其中c 为某个指剜的常数,为我们熟知的惩罚因子。 求解最优分类面方 法同2 1 节一样可以样得到一个二次函数极值问题,其结果与式 ( 2 5 ) 至( 2 9 ) 类似,l 不同之处在于条件式( 2 5 b ) 变为: o a ,c ,f = l ,聆 ( 2 - 1 4 ) 为了说明广义最优【分类面的含义,我们人工选用如下图所示的样本情况进行解释, 在样本密度较稀疏区域,每类包含了一个不同类的样本,运用上述过程对此非线性样本 集进行分类,得出的广义最优分类面如图所示,此分类界面错分了两个样本,如此可以 看出简单的将线性情况l 推广到非线性情况,会造成一定的误判,对于处理有些问题是不 可取的。 i l ,0 图2 2 二维非线性可分广义最优分类面 2 3 构建多维空间忭的最优分类面 类面 通过分析我们可味发现,2 1 节和2 2 节简述的最优和广义最优分类界面,通过优化 求解,得出的分类判决函数式( 2 9 ) 只含有内积运算( x 一) ,后续求解过程利用的式( 2 6 ) 到式( 2 9 ) 中也只涉| i j 积运算。从而我们可以这样认为,要处理分类问题,我们只需 要利用到样本空间中的内积运算就足够了。 回忆前述我们在分析广义最优分类面时说到,如果样本空间是线性不可分的,我们 可以利用特征向量将此空间映射到高维空间中,使其线性可分,进而解决问题。例如对 哈尔滨工程大学硕士学位论文 于向量j ,= 1 ,x ,x 2 1 ,我们可以采取g ( y ) = 口t j ,的映射方式得到g ( x ) = 印+ c l x + c 2 x 2 的判别 函数,而我们所谓的广义权向量就是口= c o ,c 。,c :】t 。我们发现只需要获取它们的内积运 算即可。 实际上,我们在处理计算技巧时只需要关注映射后的内积运算表达式,而不用关注 映射细节。根据统计学习理论的观点,如果一种运算满足m e r c e r 条件,我们可以将其 作为内积运算在算法中加以运用。 假设我们有一任意函数眉( x ,x ,) ,它满足对称条件,那么它可以被作为内积运算使 用的充要条件是,对于任意给定的咖( x ) o ,若其满足能量有限条件,即有i 2 ( x ) 出 o ( 2 1 5 ) 如果用内积算子置( x ,x ,) 代替分类面求取过程中的乘积运算,就等价于将原始空间 映射到新的空问中,使的一些线性性质在此空间中能加以利用。从而使式( 2 6 ) 表述 的优化函数变更为: q ) = a ,一去仪,”乃k ( 薯,_ ) ( 2 1 6 ) # 1 f ,= l 对应的判决函数,式( 2 9 ) 也更新为: ( x ) = s g n ( a j 乃五( 为,x ) 十6 + ) ( 2 - 1 7 ) p l 上述即是应对非线性可分情况的一种有效措施,综上所述,我们可以这样理解支持 向量机的执行流程:利用非线性变换方式( 常用的为内积运算) 将原始空间映射到高维 空间中,使其线性可分,然后在高维空间中利用优化策略求取最优解。 支持向量机从函数形式上来理解,我们可以认为它近似于一个神经网络,输入结点 为给定的样本特征信息,隐层结点对应于输入结点与支持向量的内积运算,输出结点是 一些隐层结点内积运算的线性组合,如图2 3 所示。 输出判决函数:少= s 铲( a 置( 誓,x ) + 6 ) f = 1 基于5 个支持向量的非线性变换( 核运算) 输入向量x = ( x 1 ,x 2 ,x d ) ,样本维数为d 维 图2 3 支持向量机形成示意图 1 2 第2 章支持向量机简介 2 4 核函数的选择 核函数在支持向量机中起着非常重要的作用,因为它的引入,将低维不可分问题映 射到高维使其可分,从而使分类器克服了维数灾难等难题。目前人们在处理实际问题时, 研究出来常用的内积函数形式主要有三种1 3 1 。 ( 1 ) 多项式内积函数,表达式为: 五( x ,薯) = ( x ,鼍) + 1 】g ( 2 1 8 ) 由此训练出的支持向量机为多项式分类器,阶数为g 。 ( 2 ) 高斯核函数,表达式为: 1 2 置( x ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 博物馆文创 IP 运营师考试试卷及答案
- 患者满意度导向的康复服务优化
- DB31∕T 1693-2026 水产养殖尾水监测技术规范
- T∕AOPA 0010-2026 轻小型民用航空器驾驶员头盔安全技术规范
- 河南省许昌市2026年高三适应性练习(一)化学试题试卷含解析
- 2026届山西省太原市重点中学高三第二次质量考评化学试题试卷含解析
- 检验数据技术在临床诊疗中的未来趋势
- 2025~2026学年浙江省湖州第五中学上学期九年级英语模考试卷
- 2026监理证考试题及答案
- 2026护士考试昨天考试题及答案
- 2025年贵州省委党校在职研究生招生考试(政治经济学原理)历年参考题库含答案详解(5卷)
- 心理健康接纳自己课件
- 癫痫共患偏头痛诊断治疗
- 江西省农发种业有限公司招聘考试真题2024
- 储备土地巡查管理办法
- JJG 688-2025汽车排放气体测试仪检定规程
- 【15万吨日供水量水厂设计中反应沉淀池设计计算过程案例2300字】
- 《铁路线路养护与维修》课件 2.1.5垫板修正作业
- T/CNCA 014-2022改性镁渣基胶凝材料
- 2025年安徽铜陵港航投资建设有限责任公司招聘笔试参考题库附带答案详解
- 1完整版本.5kw机器人专用谐波减速器设计
评论
0/150
提交评论