(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf_第1页
(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf_第2页
(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf_第3页
(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf_第4页
(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(机械电子工程专业论文)基于支持向量机的多类分类算法研究及在滚动轴承故障识别中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于支持向量机的多类分类算法研究 及在滚动轴承故障识别中的应用 摘要 上世纪九十年代,在统计学习理论的基础上发展出了一种新的机器学 习算法支持向量机。由于其具有良好的理论基础和推广能力,并解决 了机器学习领域存在的一些问题,因而受到了人们普遍的重视。然而,支 持向量机本身是针对两类分类问题的算法,而实际生活中广泛存在着的是 多类别的分类问题,因此,研究如何利用支持向量机实现多类分类,具有 十分重要的意义,也成为当前研究的一个热点问题。国内外学者在此领域 作了大量的研究工作,提出了多种基于支持向量机的多类分类算法,达到 了利用支持向量机实现多类分类的目的,这些算法有着各自的优点,但还 存在一定的缺陷,还有很多问题需要得到进一步的解决。总体上看,基于 支持向量机的多类分类算法的研究还处于一个不断探索的阶段,有着广阔 的发展空间。 本文全部研究工作的着眼点主要集中于以下几个问题:现有的几种支 持向量机多类分类器在算法结构和分类机理上彼此有什么共同点,能否将 它们归结为几种类型;如何确定多类分类器的算法结构以提高分类器的推 广能力;核函数的变化对多类样本经过映射后所有两类间的可分性对比关 系究竟有什么影响;能否直接在高维特征空间中对多类样本所有两类的可 太原理工大学硕士研究生学位论文 分性对比关系进行估计;能否提出新的支持向量机多类分类算法,并且使 其具有较好的推广能力。 针对以上问题,本文主要做了以下几个方面的研究工作,第一,从算 法结构和分类机理的角度对“一对一”、“一对多”、基于二叉树结构的支持 向量机多类分类算法及d a g s v m 进行了分析,并将其分别归结到两种利用支 持向量机实现多类分类的算法设计思路之中,为从算法结构和分类机理的 角度研究支持向量机多类分类算法提供了一种参考;第二,进行了滚动轴 承的故障实验,分别采集了滚动轴承在五种工作状态下的振动信号,并通 过小波包变换进行特征提取,得到了对应于滚动轴承五种工作状态的五类 样本;第三,对类间可分性的几个相关问题进行了研究,并通过将核函数 引入到类间可分性度量算法当中,实现了对高维特征空间中所有两类样本 可分性的度量与对比;第四,对不同的核函数及同一种核函数的不同参数 对多类样本在高维特征空间中所有两类间的可分性及其对比关系的影响进 行了研究和总结;第五,提出了基于类间可分性度量的二叉树结构生成算 法,并利用得到的二叉树结构构造支持向量机多类分类器,通过实验证明, 利用本文提出的算法所确定的二叉树结构使得到的多类分类器的分类性能 有所提高;第六,分别提出了基于两类可分性最大原则的支持向量机多类 分类算法和基于类间可分性度量的“一对二”支持向量机多类分类算法, 并将它们分别应用于对滚动轴承五种工作状态的识别,取得了较好的效果。 本文通过以上工作,主要对确定支持向量机多类分类算法的结构、发 展新的支持向量机多类分类算法、多类样本所有两类间的可分性对比关系 及其与核函数的联系等几个方面进行了研究,并将所提出的一些方法应用 太原理工大学硕士研究生学位论文 于对滚动轴承五种状态的识别,取得了较好的效果。总的来讲,基于支持 向量机的多类分类算法的研究主要立足于如何用较好的方法构造出性能更 为优良的多类分类器,其中许多问题的解决还有待于广大研究者的进一步 探索。 本课题是山西省自然科学基金项目“统计学习理论与支持向量机在故 障诊断中的应用”中的研究内容,基金项目批准号:n o 2 0 0 6 0 1 1 0 5 6 关键词:支持向量机,多类分类,类间可分性,小波包,特征提取,故障 识别 太原理工大学硕士研究生学位论文 a n a l g o r l 7 删r e s e a r c ho nm u 【,( 】,as sc l a s s 唧c 觚o n b a s e do ns u p p o r tv e ( o rm r a c h 卧i e a n d sa p p i i c 觚o n 斟f a u l td 卧唧c 衄0 n a b s t r a c t i n19 9 0 s ,an e wa l g o r i t h mo fm a c h i n el e a r n i n g n a m e d s u p p o r tv e c t o r m a c h i n ew a sb r o u g h tf o r w a r db a s e do ns t a t i s t i c a ll e a r n i n gt h e o r y i ta t t r a c t e d m u c ha t t e n t i o nf o ri t s t h e o r ya n dg e n e r a l i z a t i o na b i l i t y , a n ds o l v e ds o m e p r o b l e m si nt h ef i e l do f m a c h i n el e a r n i n g h o w e v e r ,s u p p o r tv e c t o rm a c h i n ec a n o n l yb eu s e df o rc l a s s i f i c a t i o nb e t w e e nt w oc l a s s e s i ti sv e r yi m p o r t a n tt ou s e s u p p o r tv e c t o rm a c h i n ef o rm u l t i c l a s s i f i c a t i o nf o rt h e r ea r ea l w a y sm u l t i p l e c l a s s e sn e e d e dt ob ec l a s s i f i e di np r o j e c t s m a n ys c h o l a r sa th o m ea n da b r o a d h a da s s u m e dl a r g ea m o u n to fs t u d y i n gi nt h i sf i e l da n dd e s i g n e dv a r i o u s m u l t i c l a s sc l a s s i f i c a t i o na l g o r i t h mb a s e do ns u p p o r t i n gv e c t o rm a c h i n e b a s e d o nt h i s ,t h e ya c h i e v e dt h ep u r p o s eo fm u l t i c l a s sc l a s s i f i c a t i o nb a s e do ns u p p o r t v e c t o rm a c h i n e h o w e v e r , t h e s ea l g o r i t h m sh a v es o m ed e f e c t sr e s p e c t i v e l ya n d m u c hp r o b l e mh a st ob es o l v e df u r t h e r g e n e r a l l y , t h ea l g o r i t h mr e s e a r c ho n m u l t i c l a s sc l a s s i f i c a t i o nb a s e do ns u p p o r tv e c t o rm a c h i n ei si nas t a g ep r o b i n g u n c e a s i n g l y v 太原理工大学硕士研究生学位论文 a l lr e s e a r c hj o b sf o c u so nt h ef o l l o w i n gp r o b l e m sm a i n l y f i r s t ,w h i c h c o m m o ng r o u n dd ot h e yh a v eo na l g o r i t h ms t r u c t u r ea m o n gt h ea v a i l a b l e m u l t i c l a s sc l a s s i f i e r sb a s e do ns u p p o r tv e c t o rm a c h i n e ? c a nw ed i v i d et h e m i n t os o m ec a t e g o r i e s ? s e c o n d ,h o wt od e s i g nt h ea l g o r i t h ms t r u c t u r eo ft h e m u l t i c l a s sc l a s s i f i e rf o ri m p r o v i n gi t sg e n e r a l i z a t i o na b i l i t y ? w h a te f f e c td o e s t h ek e r n e l f u n c t i o nh a st ot h es p a c ed i s t r i b u t i o no ft h es a m p l e so fm u l t i p l e c l a s s e s ? c a nw ee s t i m a t et h es p a c ed i s t r i b u t i o no ft h es a m p l e so fm u l t i p l e c l a s s e sd i r e c t l yi nt h ef e a t u r es p a c e ? c a nw ed e s i g nn e wa l g o r i t h mo fm u l t i c l a s s 。 c l a s s i f i c a t i o nb a s e do ns u p p o r tv e c t o rm a c h i n ea n dl e ti th a sg o o dg e n e r a l i z a t i o n a b i l i t y ? f o ra l lt h ea b o v ep r o b l e m s ,t h ef o l l o w i n gr e s e a r c hj o b sa r ed o n e f i r s t l y , t h ea n a l y s i sj o bo fs e v e r a la l g o r i t h m ss u c ha so n ea g a i n s tr e s t ,o n ea g a i n s to n e , m u l t i c l a s sc l a s s i f i e rb a s e do nb i n a r yt r e ea n dd a g s v mi sd o n ei nt h i sp a p e r t h e ya r ed i v i d e di n t ot w oc l a s s e sa c c o r d i n gt ot h e i rs t r u c t u r e s s e c o n d l y , t h e e x p e r i m e n to fr o l l i n gb e a r i n g sf a u l td i a g n o s i si sd o n ea n dt h ef i v ek i n d so f r o l l i n gb e a r i n gv i b r a t i o ns i g n a l sa r er e c o r d e d f i n a l l y , t h ef i v es a m p l es e t sa r e g a i n e db yf e a t u r e e x t r a c t i o nu s i n gw a v e l e tp a c k e t t h i r d l y , s o m ep r o b l e m s r e l a t e dt oc l a s s i f i a b i l i t yb e t w e e nt w oc l a s s e sa r er e s e a r c h e d t h ec l a s s i f i a b i l i t y b e t w e e nt w oc l a s s e si sm e a s u r e di nh i g hd i m e n s i o n a lf e a t u r es p a c eb yu s i n g k e r n e lf u n c t i o n f o u r t h l y , w h a te f f e c t sd i f f e r e n tk e r n e lf u n c t i o n sa n dd i f f e r e n t p a r a m e t e r sh a v et ot h ec l a s s i f i a b i l i t yb e t w e e nt w oc l a s s e si nh i g hd i m e n s i o n a l f e a t u r es p a c ei sa n a l y z e da n dc o m p a r e d b a s e do nt h i s ,ac o n c l u s i o ni sm a d e v i 太原理工大学硕士研究生学位论文 f i f t h l y , an e wm e t h o do fd e s i g n i n gt h eb i n a r yt r e ei sp u tf o r w a r di nt h i sp a p e r a n d t h e y a r e p r o v e dg o o d i nt h e e x p e r i m e n to fr o l l i n gb e a r i n g f a u l t i d e n t i f i c a i t o n s i x t h l y , t w on e wa l g o r i t h m so fm u l t i c l a s sc l a s s i f i c a t i o nb a s e do n s u p p o r tv e c t o rm a c h i n ea r es u g g e s t e da n dt h e yp e r f o r m a n c ew e l li nt h er o l l i n g b e a r i n gf a u l ti d e n t i f i c a t i o n t h em e t h o do fd e s i g n i n gt h eb i n a r yt r e eo ft h em u l t i c l a s sc l a s s i f i e rb a s e d o ns u p p o r tv e c t o rm a c h i n e ,n e wa l g o r i t h m so fm u l t i c l a s sc l a s s i f i c a t i o nb a s e d o ns u p p o r tv e c t o rm a c h i n e ,e o m p a r a t i o no fc l a s s i f i a b i l i t yb e t w e e na n yt w o c l a s s e sa n di t sc o n n e c t i o nw i t ht h ek e r n e lf u n c t i o na r ed i s c u s s e dm a i n l yi nt h i s p a p e nt h ef i v ew o r k i n gc o n d i t i o n so ft h er o l l i n gb e a r i n ga r er e c o g n i z e db y a p p l i n gt h en e w m e t h o d st ot h ea l g o r i t h m so fm u l f i c l a s sc l a s s i f i c a t i o nb a s e do n s u p p o r t v e c t o rm a c h i n e g e n e r a l l y , t h e a l g o r i t h mr e s e a r c ho fm u l t i c l a s s c l a s s i f i c a t i o nb a s e do ns u p p o r tv e c t o rm a c h i n ef o c u s e so nd e s i g n i n gb e t t e r c l a s s i f i e ru s i n gs i m p l em e t h o d s ,a n di ti ss t i l lt ob es o l v e df o rm a n y p r o b l e m so f t h er e s e a r c hf a c i n gu s t h ep r o j e c ti st h es t u d yc o n t e n to ft h es h a n x ip r o v i n c en a t u r a ls c i e n c e f o u n d a t i o n s t a t i s t i c a ll e a r n i n gt h e o r ya n ds u p p o r tv e c t o rm a c h i n ea n di t s a p p l i c a t i o n i nf a u l t d i a g n o s i s o fm a c h i n e f o u n d a t i o n p r o g r a m n u m b e r : 2 0 0 6 0 1 1 0 5 6 k e y w o r d s - s u p p o r t v e c t o rm a c h i n e ,m u l t i c l a s sc l a s s i f i c a t i o n ,c l a s s i f i a b i l i t y b e t w e e nt w oc l a s s e s ,w a v e l e tp a c k e t ,f e a t u r ee x t r a c t i o n ,f a u l ti d e n t i f i c a t i o n v i i 太原理工大学硕士研究生学位论文 符号 r ( w ) 符号说明 名称 期望风险 ( w ) 经验风险 量纲 无 无 r归一化样本向量 无 特征空间两类样本间总平均平方距离无 特征空间两类样本类内总平均平方距离无 特征空间两类样本可分性度量值无 x i i i 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体。均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 逝堕墅 日期: t a 0 7 j 玎 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:i 置堕里日期: 导师签名:立塑三! 堕日期: 加7 j 珂 加7 汗 太原理工大学硕士研究生学位论文 1 1 课题研究的背景和意义 第一章绪论 基于数据的机器学习是研究如何从观测样本出发去挖掘其内在规律,并通过这些规 律对未来的或者无法观测的样本进行预测,当前,它已经成为现代智能技术中的一个重 要方面【l 】。以模式识别和人工神经网络为代表的一些机器学习方法,其共有的理论基础 之一是统计学。传统统计学的基本内容是样本在无限大基础上的渐进理论,然而,许多 实际问题中所能得到的样本数往往是有限的。因此,尽管有些机器学习算法在理论上十 分优秀,但在实际应用上性能却难以令人满意。于是,发展出一种适用于小样本机器学 习问题的理论成为迫切需要解决的问题。在此情况下,从上世纪六七十年代开始, v v a p n i k 等人开始就该问题进行研究,从而发展出了专门针对小样本学习问题的统计 学习理论。并以此为理论基础,于上世纪九十年代中期,发展出了一种新的机器学习算 法一支持向量机【甜( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 。该算法一经提出,即在 很多方面表现出十分优异的性能,例如它以统计学习理论为基础,更适合于解决现实中 普遍存在的小样本的学习问题;它对目标函数的优化最终归结为一个凸二次规划问题, 从而避免了陷入局部极小点的问题;核函数的引入,则使它成功地解决了“维数灾难” 和非线性带来的问题;它基于结构风险最小化原则,从而在避免“过学习”和“欠学习” 的同时,进一步提高了学习机器的推广性能等。同时,在人工神经网络的研究热潮中, 由于理论上缺乏实质性的进展以及其它一些难以克服的困难,使得统计学习理论和支持 向量机受到越来越广泛的重视,并且正在成为继人工神经网络之后新的研究热点。然而, 支持向量机是用于解决两类分类问题的机器学习算法,可实际中的许多分类问题往往包 含多个类别,于是,如何将支持向量机应用于多类别的分类问题,具有非常重要的现实 意义 太原理工大学硕士研究生学位论文 1 2 课题研究的现状和前景 在基于支持向量机的多类分类问题的研究上,国内外的许多学者做了大量的工作, 并先后提出了一些多类分类算法,这些算法各自都有某些方面的优点,同时也都存在着 一定的不足,总体上看,基于支持向量机的多类分类算法的发展还处在一个不成熟的阶 段,许多理论上和实际应用上的问题还有待于得到进一步的解决。, 目前利用支持向量机实现多类分类基本上是基于以下两种思路:一种是通过构造多 个支持向量机二值子分类器,并按照一定的规则将其进行组合,以实现多类分类;另一 种是直接在一个优化公式中同时考虑所有类别的参数优化,从而构造出一个能进行多值 分类的支持向量机分类器。其中,后者在求解最优化问题的过程中所用到的参量远远多 于前者,并在训练速度和分类精度上也不能令人满意,当训练样本数量非常大时,以上 问题更加突出。下面对目前提出的几种主要的支持向量机多类分类算法进行简单的介绍 ( 第三章将详细讨论) : w e s t o n 提出了用支持向量机实现多类分类的一次性求解算法。这个算法在经典支 持向量机理论的基础上,直接在目标函数上进行改造,即通过s v 方法对新模型的目标 函数进行优化,重新构造多类分类模型,建立多分类支持向量机,实现多类分类。该算 法的优点是支持向量少,训练速度快;它的一个缺点是选择的目标函数过于复杂,导致 其计算复杂度高 3 1 。 v a p n i k 提出了o n ea g a i n s tr e s t 算法( 又称为“一对多”算法) ,对于k 类分类 问题( k 2 ) ,该算法构造k 个支持向量机二值子分类器,其中,第i 个子分类器用第i 类作为作为正类,将剩余的k - 1 个类别作为负类进行训练,最后将所有支持向量机子分 类器输出为最大的那一类作为待分样本所属的类别。该算法的训练时间与类别的数量成 正比,它并未考虑多个分类器对测试错误率的影响,当训练样本较大时,训练较为困难, 同时,它存在误分和不可分区域,并且其泛化能力比“一对一”方法差i 4 , 3 6 j 。 k r e s s e l 提出了o n ea g a i n s to n e 算法( 又称为“一对一”算法或“投票法”) ,该 算法在k 类训练样本中所有可能的两类间构造支持向量机二值子分类器,结果共构造 k ( k 一1 ) 2 个子分类器,在分类阶段,采用类似投票法的思想,将待分样本输入所有的 子分类器并统计其输入结果,得票最多的那一类即判别为待分样本所属的类别。该算法 的缺点是子分类器数目随着类别数的增加而迅速增加,从而使分类速度变慢,另外,它 2 太原理工大学硕士研究生学位论文 存在误分和不可分区域,但是已有的研究表明“一对一”算法往往具有较高的分类精度 1 7 8 1 。 p l a t t 等提出了一个针对o n ea g a i n s to n e 算法的新的学习架构:决策有向无环图 ( d d a g ) 。在k 类分类问题中( k 2 ) ,对所有可能的两类进行训练得到k 术( k 一1 ) 2 个二 值子分类器,在对这些子分类器进行组合的过程中,引入了图论中有向无环图的思想, 并形成了有向无环图支持向量机分类器( d a g s ) ,在分类阶段,待分样本从根节点输入, 并根据其输出决定下一个要输入的节点,重复上述步骤,直到达到某叶节点为止,完成 分类过程。该算法只需要经过k - 1 个子分类器的分类过程,即可以得到最终分类结果, 因此相对“一对一”算法,其分类速度有所提高,也不存在误分和不可分区域,同时由 于其特殊的结构,因而具备一定的容错能力,分类精度比一般的二叉树方法要高些 o , g a o ! 。 o 基于二叉树结构的支持向量机多类分类算法。该算法通过对k 类样本中第i 类作 为正类和剩余其它类进行训练,得到第一个支持向量机子分类器,当待分样本不属于第 i 类时,在剩下的其它类别中挑选某一类作为正类与其它类构造第二个子分类器,依此 类推,直到判别出待分样本所属的类别。该算法中的各个子分类器形成一个二叉树结构。 它不存在不可分区域,对于k 类分类问题( k 2 ) ,需要构造k - 1 个支持向量机子分类器, 训练和测试过程中用到的数据较多 1 1 , 1 2 1 。 层次分类法。该算法把k 类数据( k 2 ) 按某种规则分类两个大类,并对其进行训 练构造支持向量机子分类器,当待分样本的分类结果属于某一大类时,则将该大类再分 为两个次级大类,再构造子分类器,直到最后判别出所属的类别。该算法类似于“二分 法”的思想,但训练和测试过程中用到的数据量较大。该算法本质上也属于基于二叉树 结构的多类分类算法,但为与上述算法区别,通常称之为层次分类法 1 3 , 1 4 】。 e c 0 cs v m s 算法。e c o c 即纠错输出编码,在k 类分类问题中( k 2 ) ,对每个类进 行长度为l 的二迸制编码,就把k 类分类问题转化为l 个两类分类问题,由于每个码位 上的分类器只需要做两类分类,所以可以采用支持向量机子分类器作为码位分类器。对 于一个新样本,l 个支持向量机子分类器的分类结果构成一个码字s ,k 个编码中与s 汉 明距离最小的码字所代表的类别就是这个新样本所属类别。该算法的在训练速度上相比 “一对多”算法有所改进,但在码本的确定等问题上有待进一步研究,另外,其分类效 3 太原理工大学硕士研究生学位论文 果受错误码的相关性影响很大吣“。 。 除以上算法之外,还有其它一些支持向量机多类分类算法,不再列举。 目前,在支持向量机多类分类算法的研究上,模型选择、推广能力的估计和提高、 子分类器的构造与组合、新算法的设计等方面成为人们关注的重点。总之,基于支持向 量机的多类分类算法作为一种新颖的多类分类手段,具有广阔的应用前景,目前它已经 成功地应用在文本分类、语音识别等方面。然而,在取得一定成果的同时,还应该认识 到它的不足之处,考虑到实际工程应用的需要,对支持向量机多类分类算法的进一步研 究就具有十分重要的意义。 1 3 本文的主要工作、创新点及全文结构 1 3 1 主要工作及创新点 本文的研究工作主要围绕以下几个问题展开,首先,当前人们对几种基于支持向量 机的多类分类算法进行对比研究时,更多是集中于对各种算法在训练阶段的计算复杂性 和在测试阶段的分类准确率的比较上,而从算法的结构和分类器的分类机理等角度去进 行分析研究的相关文献则不多见。那么如果从上述角度对几种主要的分类算法进行研究 以揭示出其中的某些规律,从而为支持向量机多类分类算法的进一步研究起到一定的启 示作用,就具有比较现实的意义;第二,目前许多关于支持向量机多类分类算法的文献, 多着眼于利用支持向量机多类分类算法实现对实际多类分类问题的解决,而对所采用的 多类分类算法的具体结构则重视不够,相关的研究报道也比较少。人们针对实际问题训 练支持向量机多类分类器时,往往采用的是任意确定的算法结构1 1 7 ,但算法结构的不 同会导致得到的多类分类器不同,从而其分类性能就不同【l ”,因此,就有必要对多类 分类算法结构的生成原则进行研究,以有利于提高分类器的性能:第三,目前有些文献 在估计多类样本空问分布的相互关系时,往往以在输入空间中得到的结果去近似代替在 高维特征空间中的估计结果,由于对多类样本求解最优分类超平面往往是在经核函数映 射后的高维特征空间中进行的,而最优分类超平面的求解则直接受到多类样本空间分布 相互关系的影响,考虑到核函数的映射往往为非线性映射,其相互关系在经过核函数映 射之后就会产生变化,因此,就需要在特征空间中去考察其空间分布的相互关系。另外, 4 太原理工大学硕士研究生学位论文 核函数是当前的一个研究热点,但人们对它的研究多集中于优化核函数参数及发展新的 核函数等方面,而对不同的核函数及同一类核函数的不同参数对多类样本经过核函数映 射后在高维特征空间中空间分布的相互关系的影响情况则研究的较少:第四,在对几种 现有的支持向量机多类分类算法进行研究的同时,还应该对新的分类算法进行探索,同 时尽可能提高其分类性能。只有不断地尝试着去发展出新的多类分类算法,并进行反复 的检验和探讨,才能取得新的突破,使支持向量机多类分类算法逐步得到完善。 针对以上几个问题,本文所做的主要工作及创新点如下: 1 对当前已经提出的几种主要的支持向量机多类分类算法及其性能进行研究。 2 从分类器的算法结构、分类机理、算法设计的思路等角度重点对“一对多”、“一 对一”、基于二叉树结构的支持向量机多类分类算法及d a g s w 进行深层次的分析,最终 将其分别归纳到两种算法设计思路之中,在为进一步的研究作好铺垫的同时,也为从算 法结构及分类机理的角度研究支持向量机多类分类算法提供了一种参考。 3 进行滚动轴承的故障实验,并进行特征提取,获得了滚动轴承五种工作状态下 得到的五类样本。 4 对类间可分性涉及到的几个问题进行了研究,并提出了通过引入核函数实现在高, 维特征空间中对类间的可分性进行度量,之后对滚动轴承故障实验得到的五类样本的可 分性进行度量、对比和分析,同时,对不同核函数以及同一核函数的不同参数对类间可一 分性的影响进行了对比研究。 5 提出了基于j b j w 类间可分性度量的二叉树结构生成方法,并在此基础上构造出 基于二叉树结构的支持向量机多类分类器,将其应用于对滚动轴承五种工作状态的识 别,实验结果表明,通过本文算法确定的二叉树结构有利于多类分类器分类性能的提高。 6 提出了基于两类可分性最大原则的支持向量机多类分类算法,说明了分类器的构 造步骤及算法的特点,并利用它实现对滚动轴承五种工作状态的识别,取得了较好的分 类效果。 7 提出了基于类间可分性度量的“一对二”支持向量机多类分类算法,对其性能特 点进行了分析和比较,并将其应用于对滚动轴承的状态识别,取得了较好的分类效果。 1 3 2 全文结构 本论文的全文结构如下: 5 太原理工大学硕士研究生学位论文 第一章绪论部分介绍了支持向量机多类分类算法研究的背景和意义,并对当前的研 究现状进行了介绍,最后对其未来的发展前景进行展望;第二章介绍了机器学习的基本 概念,并对统计学习理论和支持向量机的主要内容进行了阐述;第三章对当前已有的几 种支持向量机多类分类算法进行了分析,对四种主要的支持向量机多类分类算法从分类 机理、结构特点、设计思路等几方面进行分析,并最终将其分别统- n 两种设计思路之 中,为从算法结构的角度研究支持向量机多类分类算法提供了一种参考:第四章主要介 绍了课题研究过程中进行的滚动轴承故障实验;第五章对小波分析和小波包变换技术进 行叙述,之后介绍了通过小波包变换对实验数据进行特征提取的步骤;第六章到第八章 是本论文的核心部分。其中第六章集中对类别可分性涉及到的几个问题进行了分析,选 择j b j w 判据作为类间可分性的度量手段,对实验得到的输入空间中的五类训练样本每 两类间的可分性进行度量和对比,在此基础上,提出了通过引入核函数实现在高维特征 空间的对类间可分性进行度量的方法,然后根据该方法对实验中的五类训练样本在高维 特征空间的可分性进行了度量和分析,并对不同核函数及同一核函数的不同参数对类间 可分性及其对比关系的影响情况进行了研究;第七章提出了基于类间可分性度量的二叉 树结构生成方法,并依据该方法对滚动轴承实验中的五类训练样本构造出基于二叉树结 构的支持向量机多类分类器,对五类测试样本进行分类,经分析可知,本文论述的方法 有利于提高多类分类器的推广能力,同时,提出了基于两类可分性最大原则的支持向量 机多类分类算法,并通过它对滚动轴承的五种工作状态进行识别,取得了较好的效果; 第八章在综合分析了基于二叉树结构的支持向量机多类分类算法和d a g s v m 的基础上, 提出了一种基于类间可分性度量的“一对二”支持向量机多类分类算法,并利用它实现 对滚动轴承的故障识别,取得了较好的效果;第九章是对全文研究工作的总结,并指出 了进一步努力的方向。 6 太原理工大学硕士研究生学位论文 第二章统计学习理论与支持向量机 2 1 机器学习问题 2 1 1 机器学习问题概述【1 1 基于数据的机器学习问题主要是研究如何在已有观测数据的基础上去找到某些规 律,并能够利用这些规律对未知数据已经无法进行观测的数据进行预测,就其实现方法 而言,大致可以分为三种,第一种是经典的( 参数) 统计估计方法;第二种是经验非线 性方法,例如人工神经网络;第三种即是后面要介绍的统计学习理论。 机器学习问题的研究最早可以追溯到上世纪五十年代,1 9 5 7 年f r o s e n b l a r t t 提出 了称为感知器的学习机器的模型,它标志着人们对学习过程的数学研究的真正开始。 1 9 6 2 年,n o v i k o f f 证明了感知器的第一个重要定理,这个定理成为学习理论的开端。 1 9 8 6 年,完成了构造一般性学习机器的研究工作,它即是所谓后向传播技术。基于后 向传播技术的人工神经网络的创立在很多的实际应用中取得了良好的效果,在此同时, 发展出了经验风险最小化原则的理论,解决不适定问题的理论以及算法复杂度的思想。 统计学习理论的研究开始于上世纪六七十年代,到九十年代中期,人们的研究重点逐渐 从神经网络转移到统计学习理论上来。它是专门研究小样本情况下机器学习规律的理 论,统计学习理论以及在此基础上发展起来的新的学习机器支持向量机逐渐受到越 来越广泛的重视。 2 1 2 学习问题的表述 机器学习的目的是根据给定的训练样本求解系统输入输出之间的关系。其中,输出 变量y 和输入变量x 之间按照某一未知的概率测度f ( x ,y ) 存在着某种未知的相互依赖 关系。对于给定的一组共,个独立同分布的观测样本:( x 1 ,1 y ) ,( x :,y :) ,( 一,y ,) ,在一个 函数集 f ( x ,w ) 中求出一个函数f ( x ,w o ) ,该函数使得期望风险 r ( 们= p ( ) ,( x ,们) d p ( x ,y ) 最小。其中, ( 五w ) 为预测函数集,w 为函数的广义参 7 太原理工大学硕士研究生学位论文 数。l ( y ,f ( x ,) 为损失函数,它与f ( x ,们有关。 机器学习的目的是实现期望风险的最小化,按照上面期望风险的计算公式可知,实 现期望风险最小化,首先必须知道概率测度f ( x ,y ) ,但实际上由于f ( x ,y ) 无法得知, 在已知信息只有上述,个独立同分布的观测样本的基础上,传统的学习方法采用了称为 1f 经验风险最小化的准则。即对r 。( 叻= 三( ”,f ( x jw ) ) 实现最小化,并以它对期望 t - 1 风险r ( 们进行近似的估计。经验风险最小化原则在回归问题中的最小二乘法、极大似 然法以及人工神经网络的学习方法上都得到了应用。值得注意的一个闯题是,用经验风 险最小化去近似代替期望风险的最小化的做法在理论上并没有得到足够的论证,就该方 法本身而言,即使可以假定当已知观测样本数,趋向于无穷大时,经验风险的确趋向于 期望风险,但在很多实际问题中已知的样本数量也无法满足接近无穷大的条件,尽管存 在这些问题,但经验风险最小化原则多年来一直在机器学习方法的研究中占据了主要地 位。 经验风险最小化原则应用于神经网络时产生的一个问题称为过学习问题,即人们发 现减小训练误差并不一定能得到好的预测效果,有时反而会导致推广能力的下降,因而, 一味的降低经验风险,不一定能相应地降低实际风险,有时反而会导致实际风险的增加。 对于一个有限的训练样本集,当采用十分复杂的模型对其进行拟合,此时经验风险可以 收敛到很小甚至为零,但很可能会丧失其推广能力,这一点说明了有限样本情况下学习 机器的复杂性和推广性能相互的矛盾。另外,已有一些学习机器是建立在统计学理论的 基础上的,它是在样本数量无穷大情况下以任意精度对任意非线性系统的逼近理论,但 当实际可获得的样本有限时,基于该理论构造起来的学习机器的应用就受到了很大限 制,在此背景下,就需要有一种在小样本情况下建立有效的学习和推广方法的理论,统 计学习理论的产生、发展和完善为此问题的解决提供了坚实的理论基础。 2 2 统计学习理论 统计学习理论是专门研究小样本情况下机器学习问题的理论, v n v a p n i k 等人从 上世纪六七十年代开始致力于此方面的研究,到九十年代中期,该理论逐渐发展成为较 8 太原理工大学硕士研究生学位论文 为成熟的理论体系。在此同时,人们关于人工神经网络的研究在理论上却缺乏实质性的 进展,因而统计学习理论逐渐受到重视。 统计学习理论所提出的结构风险最小化归纳原理包括了学习过程的一致性、边界的 理论和结构风险最小化原理等部分,结构风险最小化学习过程克服了经验风险最小化的 缺点,在实际问题上获得了更为良好的效果。以下就该理论的主要内容进行介绍。 2 2 1v c 维 为了研究学习过程中一致收敛的速度和推广性,统计学习理论定义了一系列有关函 数集学习性能的指标,其中最重要的一个概念是v c 维。它是指:对一个指示函数集, 如果存在h 个样本能够被函数集中的函数按所有可能的2 “种形式分开,则称函数集能 够把h 个样本打散,函数集的v c 维就是该函数集所能打散的最大样本数h ,如果对任 意的样本数都有函数集中的某个函数能将其打散,则函数集的v c 维是无穷大的。对于 实函数集来说,其v c 维的定义如下:设a q ( z ,口) s b ,口a 是一个以常数a 和b 为 界的实函数集合( a 可以是一o o ,b 可以是+ o o ) ,其指示器集合为: l ( z ,口,) = o q ( z ,口) 一) , 口ea ,( a ,b )( 2 一1 ) 其中口( 力是阶跃函数 盼 2 ) ,“一对多”算法构造出k 个支持向 量机二值子分类器,其中第i 个子分类器将k 类中的第i 类样本标为正类,除第i 类以 外的其它n - 1 类样本标为负类,在测试阶段,将未知样本数据分别输入k 个子分类器中, 计算其决策函数值,并将输出函数值最大( 即决策函数值为正) 的子分类器对应的正类 作为未知样本的所属类别。其中,对第i 个子分类器的训练构成以下最优化问题的解决: 叫m i n ,z l - - ( w ) r w + c 善彰 ( 3 _ 1 ) j ,( w ) r 声( ) + 6 l 一彰,i f 乃= f ( w ) r ( ) + 6 s l + 彰,矿y ,f 彰0 , 1 = l , 通过解决以上最优化问题,即得到k 个决策函数如下: z ( x ) = ( w 1 ) r ( 石) + 6 1 ,厶( 工) = ( w 2 ) r 矿( x ) + 6 2 ,z ( x ) = ( w ) r 妒( x ) + 6 , 五( 力= ( w ) 7 矿( 力+ 6 ( j = 1 , 2 ,七) 以上第i 个决策函数即对应第i 个支持向量机二值子分类器。 该算法的优点是:它只需要训练k 个二值子分类器,对于每个待分类样本,只需计 算k 个决策函数值即可得到分类结果,因此,其分类速度相对较快;其缺点是:每个子 分类器的构造都是将全部k 类样本数据作为训练样本使用,并且随着训练样本数量的增 加使得每个支持向量机的训练速度显著变慢,因而,该算法对于k 个子分类器的训练时 间较长;该算法在分类阶段存在误分和不可分区域,同时,由于每个子分类器解决的是 一类样本对其余多类样本的两类分类问题,其中的正负两类样本数量明显很不对称,这 也成为该算法的存在的问题之一。 1 7 太原理工大学硕士研究生学位论文 3 2 “一对一”多类分类算法【

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论