(系统工程专业论文)基于SVM的柴油机机械故障诊断研究.pdf_第1页
(系统工程专业论文)基于SVM的柴油机机械故障诊断研究.pdf_第2页
(系统工程专业论文)基于SVM的柴油机机械故障诊断研究.pdf_第3页
(系统工程专业论文)基于SVM的柴油机机械故障诊断研究.pdf_第4页
(系统工程专业论文)基于SVM的柴油机机械故障诊断研究.pdf_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于s v m 的柴油机机械故障诊断研究 摘要 统计学习理论是在传统统计学基础上发展起来的一种具有坚实理论基础的 机器学习方法,自2 0 世纪9 0 年代以来,自身形成了一个较完善的理论体系统 计学习理论,提出了新的模式识别方法一支持向量机( s ) 。支持向量机作为 机器学习领域若干标准技术的集大成者,它在解决小样本、非线性和高维的机器 学习问题中表现出了许多特有的优势。 随着现代工业及科学技术的迅速发展,现代设备的结构越来越复杂,功能 越来越完善,自动化程度越来越高,不仅同一设备的不同部分有互相关联,不同 设备之间也存在着紧密的关系,设备维护和监测诊断的难度相应增加。更重要的 是,有些情况下人难以到达现场,如航空,航天,深水作业等,这些都对工程诊 断的智能化提出了迫切的要求。电子技术,尤其是计算机技术的发展,为智能诊 断提供了必要的技术基础。智能诊断己成为工程诊断的一个重要的研究方向和必 然趋势。 论文在介绍支持向量机的原理基础上,分析了s v m 中核函数、核参数及惩罚 参数c 的影响,介绍了三种s v m 参数选择方法,并讨论了其优点和不足:论文总结 了现有主要的支持向量机多类分类算法,系统地比较了各类算法的训练速度、分 类速度和推广能力,并分析它们的不足和有待解决的问题。在此基础上,研究了 多类支持向量机在柴油机多故障分类中的应用。试验结果证明支持向量机具有很 强的分类能力。 关键词:统计学习理论;支持向量机;故障诊断 基于s v m 的柴油机机械故障诊断研究 a b s t r a c t s t a t i s t i c sl e a m i n gt h e o r y ( s e t ) i sam a c h i n el e a r n i n gm e t h o db a s e do ns o l i d t h e o r y , w h i c hi sd e v e l o p e df r o mt r a d i t i o n a ls t a t i s t i c sa n dt u r n st ob es o p h i s t i c a t e d s y s t e mi n t o - s t a t i s t i c sl e a r n i n gt h e o r ys i n c e9 0 si n2 0c c n t u l o g s l tp r o v i d e sa n e wp a t t e mr e c o g n i z i n gm e t h o d - s u p p o nv e c t o rm a c h i n e ( s v m ) s v mi sa p r o m i s i n gd i r e c t i o ni nt h ef i e l do fm a c h i n el e a r n i n g ,w h i c hi n t e g r a t e do t h e rc r i t e r i o n t e c h n o l o g i e so fm a c h i n el e a r n i n ga n di so fu n i q u ea d v a n t a g e i ts h o w se x c e l l e n t p e r f o r m a n c ei ns i t u a t i o n sw h e r et h es a m p l es i z e sa l es m a l l t h es a m p l ed i m e n s i o n sa l l i g ha n dt h ep r o b l e m sa r en o n l i n e a r w i t ht h ef a s td e v e l o p m e n to fi n d u s t r ya n dt e c h n o l o g y , t h ec o n s t r u c to ft h e m o d e m e q u i p m e n tb e c o m em o r ea n dm o r ec o m p l e x t h e r ea l ec l o s er e l a t i o n sa m o n g d i f f e r e n t e q u i p m e n t s i tb r i n ge x i g e n tr e q u e s t t o e n g i n e e r i n gd i a g n o s i s t h e d e v e l o p m e n to fe l e c t r o nt e c h n o l o g y , e s p e c i a l l yo ft h ec o m p u t e rt e c h n o l o g y , o f f e r s e s s e n t i a lt e c h n i q u ef o u n d a t i o nt oi n t e l f i g e n td i a g n o s i s i n t e l l i g e n td i a g n o s i sb e c o m ea i m p o r t a n ta s p e c to fe n g i n e e r i n gd i a g n o s i s t h ep a p e rr e v i e w st h ep r i n c i p l e so fs v m ,a n ds t u d yt h ei n f l u e n c e so ft h ek e r n e l p a r a m e t e r sa n d e r r o rp e n a l t yp a r a m e t e ro ns v m g e n e r a l i z a t i o na b i l i t y t h e nt h ep a l e r i n t r o d u c et h r e ek i n do f m e t h o df o rs e l e c t i n gt h ep a r a m e t e r so f s v m ,a n dd i s c u s s e st h e a d v a n t a g e sa n ds h o r t c o m i n g s t h ep a p e rp r e s e n t sag e n e r a lo v e r v i e wo fe x i s t i n g r e p r e s e n t a t i v em e t h o d sf o rm u l t i - c a t e g o r ys u p p o r tm a c h i n e sa n ds y s t e m a t i c a l l y c o m p a r e st h e i rp e r f o r m a n c e s ,i n c l u d i n gt r a i n i n gs p e e d , c l a s s i f i c a t i o ns p e e d a n d g e n e r a l i z a t i o na b i l i t y t h ed i s a d v a n t a g ea n du n s o l v e dp r o b l e mo ft h e s em e t h o d sa r e a l s og i v e n a tl a s t ,t h ep a p e rs t u d i e st h ea p p l i c a t i o no fm u l t i c a t e g o r ys u p p o r t m a c h i n e si nt h ef a u l td i a g n o s i so fd i e s e le n g i n e t h er e s u l to fe x p e r i m e n ts h o w st h a t t h es v mm e t h o dh a sg o o dc l a s s i f i c a t i o na b i l i t ya n dh i 曲e f f i c i e n c yf o rm u l t i - f a u l t c l a s s i f i c a t i o ni nm e c h a n i c a ls y s t e m s k e yw o r d s :s t a t i s t i c sl e a r n i n gt h e o r y ;s u p p o r tv e c t o rm a c h i n e ;f a u l t d i a g n o s i s 4 第一章绪论 1 1 统计机器学习的发展 第一章绪论 机器学习是人工智能研究的最早的也是最前沿的研究课题之一,一个不具 备学习功能的系统不能被认为是有智能的系统。通常大家认为,机器学习可以分 成两种类型:基于符号的机器学习和基于连接的机器学习。前者如a q l l 、i d 3 等,近期研究比较多的是r o u g hs e t s 。后者如b p 网络、h o p f i d d 网络等,近期 研究较多的是统计学习理论和s v m 。 在1 9 9 5 年,v a p n i k 在其著作中将统计机器学习的研究历史划分成四个阶段 【l 】,即:r o s e n b a l l t t 的感知机阶段,学习理论的创立阶段,神经网络阶段,返回 感知机阶段。 下面,我们先来回顾一下每个阶段发生的重大事件: ( 1 ) 6 0 年代( r o s e n b l a t t 的感知机) 。这是学习机器的第一个模型,也标志 着对学习过程的数学分析从此真正开始了。从概念上来看,感知机并不是一个新 的概念,在神经生理学中已经讨论了很多年。早在4 0 年代初,神经生物学家 m c c u l l o c h 与青年数学家p i t s 合作,从人脑信息处理观点出发,采用数理模型的 方法研究了脑细胞的动作和结构及其生物神经元的一些基本生理特性,提出了第 一个神经计算模型 2 1 ,即神经元的阀值元件模型,简称肝模型,为计算神经行为 的某方面提供了可能性。随着计算机技术的发展,1 9 5 8 年,r o s e n b l a t t 做了一件 很不寻常的事情,他将这个模型描述为可以在计算机上执行的程序,并通过简单 的实例演示了这个模型可以推广p 】。 ( 2 ) 6 0 一7 0 年代( 学习理论基础的构建) 。随着感知机的广为人知,其他 模型的学习机器又陆续产生了,如w i d r o w 的m a d a l i n e ,s t e i n b u c h 的学习矩阵。但 是,相对于感知机而言,这些学习机器从一开始就被看成是解决现实问题的工具, 而非机器学习的一个基本的模型,还有一些计算机程序,如最初用于专家系统的 决策树。语音识别中的隐马尔可夫模型,这些程序同样没有对一般的学习机制的 研究产生深远的影响。1 9 8 6 年的b p 网络标志着学习机器的又一个新纪元。在感 基于s v m 的柴油机机械故障诊断研究 知机( 1 9 6 0 ) 和b p 网络( 1 9 8 6 ) 之间的这段时间里,除了发展了统计学习理论 外,没有其他重要的事件。 ( 3 ) 8 0 年代( 神经网络) 。1 9 8 2 年,美国加州工学院h o p f i e l d 提出h o p f i e l d 神经网络模型,开创了把神经网络用于联想记忆和优化计算的新途径。1 9 8 5 年, h i n t o n 和s e j n o w s k y 等人提出了玻耳兹曼机模型,首次采用了多层网络的学习算 法,在学习中采用统计热力学模拟退火技术,保证整个系统趋于全局稳定点。1 9 8 6 年r e m e 蝴m c l l e l l 锄d 等人提出了并行分布处理的理论,同时,w e r b o s 和p a r k e r 独立发展了多层网络的b p 算法,这是目前最普通的网络,广泛用于实际问题求解 嗍。b p 网络的产生可以认为是感知机的第二次生命。十年过去后,从概念的角度 来看,这第二次生命并不如第一次那么重要。尽管使用神经网络在某些特定的应 用中取得了重要的成就,但是,所得到的理论结果本身并没有对一般的学习理论 产生多少的贡献。而且,神经网络的实验中也没有发现任何新的有趣的学习现象。 所以,实际上,十年来神经网络的研究并没有很多地推动我们对学习过程本质的 理解。 ( 4 ) 9 0 年代之后( 返回感知机阶段) 。在历史上,机器学习基本上是在经 验范畴内进行研究的,随意性相当严重阁。其一,机器学习往往受某个自然科学 的原理启发,特别是认知心理学的原理,认知心理学研究的那种随意性也带入了 机器学习的研究之中;其二,对学习解的选择涉及搜索策略,使用什么样的搜索 策略往往没有一般的原则可循;其三,对学习结果的评价没有可以描述的标准, 因此,对不同学习算法难以比较它们的优劣。这种现状是不能接受的,自2 0 世 纪9 0 年代以来,一些数学家试图改变这种状况,其中统计机器学习理论是一个 典型例子。这个理论可以在不增加计算复杂性的条件下,描述统计机器学习已有 的主要算法。由于这个理论有坚实的数学基础,因此大大减少了算法设计的随意 性,并且使已有的各种机器学习算法有了理论基础。 现在,统计学习理论的先进之处越来越吸引了更多的注意,尤其是结构风 险最小化理论和最小描述长度理论更是成为了分析研究的热点。对于小样本理论 f 的讨论,与逼近理论比起来,似乎更加引人注意。看起来好像一切又回到了它的 基础。而且,统计学习理论目前在学习过程的一般性分析方面,也扮演着口益重 要的角色,结合最优化算法的研究也相继出现。本文基于这一出发点,仔细研究 第一章绪论 了支持向量机理论、方法及应用。 。2 往复机械故障诊断技术研究现状及发展 从整个机械设备故障诊断的情况来看,经过了多年的发展,旋转机械故障诊 断技术的理论和方法已经日臻完善,在实际应用中取得了非常大的经济效益。而 对于柴油机等往复机械,虽然也经历了十几年的发展,但对其故障机理及诊断方 法的研究却不如旋转机械。 这主要是因为往复机械有一组高速动转运动质量,使其运动学、动力学形 态比旋转机械复杂许多,因而对故障诊断的难度也就更大。我们通过对往复机械 中最有代表性的设备柴油来进行分析。 柴油机故障通常分为机械故障和性能故障两大类。相应的诊断研究也分为 两类:针对柴油机的性能故障,主要采用的是性能参数诊断;针对柴油机的机械 故障,主要采用油液监测技术和振声信号分析方法。基于振声的柴油机故障诊断 经历了以下几个阶段的发展: 7 0 年代后期,国外开始用振声诊断技术来研究柴油机的故障诊断。1 9 8 0 年, 1 l h l y o n 教授和美国麻省理工学院( m i t ) 的其他学者开始在发动机上做实验并把 结果与理论相结合来开发新的处理方法。1 9 8 7 年研制出柴油机状态评价系统 n e u c e ,n e u c e 系统应用高级信号处理方法,从汽缸外部机体上的加速度传感器采 集的振动信号中提取信息,从而得到接近于振源发出的信号。该系统使用了快速 傅墨叶变化( f f t ) 技术,能够分析燃烧压力及柴油机和其他零部件的冲击。t 9 9 2 年,g e 公司运输系统部开始使用d e u c e 技术的专家系统,该系统把温度、压力、 转速等传感器技术与d e u c e 的振动信号处理技术结合在一起。目前,已经能够诊 断气阀与阀座冲击、燃油喷射故障以及活塞环断裂或过度磨损。c o m m i n s 发动 机公司的工程师主要在应用气缸实验法以及应用测功器和转速检测器来检测发 动机的工作状态。 我国在柴油机故障诊断方面的研究工作大约在8 年代初在振声诊断技术发 展的基础上开始的。首先是海军工程学院利用气阀在开启和关闭时产生的冲击振 动信号对气阀间隙异常与漏汽的故障进行实验研究。主要采用加速度计、测振仪、 电荷放大器和光线示波器记录振动信号,但由于条件的限带4 仅做了时域分析。根 基于s v m 的柴油机机械故障诊断研究 据振动信号出现早晚、振幅大小、延续时间长短来诊断气阀故障:在柴油机故障 及振声诊断方法的研究领域,工作比较突出的是武汉交通科技大学,周轶尘教授 等大约从1 9 8 5 年开始研究。主要研究了小型柴油机缸套传递特征,柴油机气缸 套振动特性及激励分析,在不考虑相邻气缸间振动信号影响的情况下,利用加速 度计、电荷放大器、磁带记录仪、信号分析仪等仪器设备,对柴油机气缸套、机 体等的振动特性进行了研究,达到利用表面振动信号诊断发动气缸的技术状态, 提出了若干判断内燃机气缸套磨损及由于间隙过小造成的拉缸的方法。如利用振 动加速度总振级或时域信号的均值、方差、四阶矩等特征量来判断发动机工作状 态的变化;利用频域信号如功率谱密度函数某些频率上幅值的变化来判断机器的 工作状态的变化。另外还对柴油机其他零部件如气阀、主轴承、主轴颈的状态判 别做了研究。西南交通大学谭达明等对柴油机工作过程故障的振动诊断进行了基 础研究工作,讨论了柴油机缸盖振动信号的时间特征和循环波动性,提出从缸盖 振动信号中提取燃烧激振力及排气门落座响应的频率特征,认为将综合性故障诊 断与零部件故障诊断相结合是可行的方法。山东大学的耿遵敏等在他们对1 9 0 系 列柴油机振动诊断的实践的基础上,从信号处理、非平稳信号分析方法、故障分 类等进行了讨论,提出用a r s t p 短时谱分析方法和基于a r 模型的w j g n e r 时频 分析方法对配气、供油等机械系统及相关的工作过程故障进行有效的评价。此外, 其它一些研究单位如天津大学、华中理工大学、吉林工业大学、浙江大学等也作 过利用机体或缸盖振动信号恢复气缸压力等方面的研究。 另外,还有不少单位在发动机基本理论和技术方面做了许多工作,如上海 内燃机研究所对柴油机燃油燃烧过程喷射系统的研究;长春汽车研究所、上海船 用柴油机研究所等利用发动机机体传递特性对发动机噪声声源的识别做了很有 意义的实验研究。这些工作对柴油机故障机理及故障诊断技术的发展有较大的促 进作用。 最近,陈怡然和周轶尘等又开始探索用分形理论研究发动机的机械故障状 态,计算了气阀在不同机械状态下的广义r r e n y i 维数谱,指出缸盖振动为确定 、 性混沌振动,并对气阀漏气做了判断,为柴油机的振动推断探索了一条新途径。 十几年来,经过同行们的不懈努力,柴油机的振声诊断研究已经取得了很 多成果,但利用振声信号进行柴油机故障诊断,基本上还处在实验室研究或中问 第一章绪论 实验研究阶段,虽然发展很快,但距实际应用还有一定距离。在柴油机故障诊断 方面已有的研究工作表明,柴油的振声信号中包含了关于柴油机工作状态的大量 有用信息,只是需要更加有力的信号处理手段,因而振声诊断成为目前柴油机故 障诊断领域研究的重点和熟点。 1 3 本文主要内容及创新点 ( 一) 主要内容 论文主要分为五章: 第一章绪论,主要介绍了机器学习的发展与现状、国内外对往复机械故障 诊断研究的历史与现状,并简要介绍了本文的主要内容及创新点。 第二章统计学习理论和支持向量机,简要介绍了统计学习的有关理论,重 点介绍了支持向景机的基本理论。 第三章支持向量机在多值分类问题中的推广,介绍了当前常用的多类支持 向量机,并进行了对比分析。 第四章柴油机机械故障诊断研究,将支持向量机应用于柴油机故障诊断并 进行了仿真实验,论证了其可行性。 第五章总结与展望。 ( 二) 论文主要宅g 新点 本文深入分析研究了支持向量机的基本理论及多类支持向量机算法,并将 其应用于柴油机故障诊断,相对于以往的研究,主要创新之处在于: ( 1 ) 采用人工智能的方法一支持向量机,具有良好的学习和泛化能力, 更具有一般推广性。 ( 2 ) 针对当前支持向量机中参数选择这一难点问题,进行了深入研究,并 对几种常用参数选择方法进行了对比分析。 ( 3 ) 进一步研究了支持向量机在多值分类问题中的应用,并将其应用于柴 油机故障诊断。 基于s v m 的柴油机机械故障诊断研究 第二章统计学习理论和支持向量机 机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识 和技能,并不断地改善性能。基于数据的机器学习是智能技术的重要方面,研究 从观测数据出发寻找数据之间的规律,利用这些规律对未来的数据或无法观测的 数据进行预测。包括模式识别,神经网络等在内,现有机器学习方法的理论基础 之一是统计学,主要基于经验风险最小化原则( e 砌v 1 ) 上,理论表明,当训练 样本趋于无穷多时,经验风险收敛于实际风险。因此,经验风险最小化原则实际 上使用了样本趋于无穷大的假设条件。但在实际问题中,样本数目往往总是有限 的,使得一些理论上很优秀的学习方法在实际中却表现得不近人意。 与传统的统计学习相比,统计学习理论是一种专门研究小样本情况下的机 器学习规律的理论。它建立在坚实的理论基础之上,为解决有限样本学习问题提 供了一个统一的框架。它能将很多现有的方法纳入其中,有望帮助解决原来难以 解决的问题,比如神经网络结构选择问题和局部极小点问题,同时,在这一理论 基础上发展了一种新的学习机器一支持向量机( s u p p o r tv e c t o rm a c h i n e ) 。它 已初步表现出比现有方法优越的性能,统计学习理论和支持向量机正成为继神经 网络之后的一个热点,并将有力地推动机器学习的理论和技术的发展【6 j 。 本章简明地介绍了机器学习的基本问题和方法、统计学习理论的基本内容 以及支持向量机的基本原理,为后两章支持向量机的应用提供了理论上的依据。 2 1机器学习的基本问题和方法 2 1 1 基本问题和经验风险最小化原则 机器学习问题可以形式化地表示为:己知变量y 与输a x 之间存在一定的未 知依赖关系,即存在一个未知的联合分布f ( x ,y ) ( x 署i l y 之间的确定关系可以看作 是一个特例) ,机器学习就是根据,个独立同分布观测样本 ( ,m ) ,( x 2 ,y 2 ) ,- ( ,m ) ( 2 - 1 ) 在一组函数 ,( x ,) ) 中求一个最优的函数f ( x ,w o ) ,使预测的期望风险 6 第二章统计学习理论和支持向量机 d = p ( y ,( x ,w ) ) d f ( x ,y ) ( 2 2 ) 最小。其中 f ( x ,w ) 称作预测函数集,w e q 为函数的广义参数,三 ,厂瓴叻) 为 由于用f ( x ,w ) 对y 进行预测而造成的损失。) i 同类型的学习问题有不同形式的 损失函数。预测函数通常也称为学习函数,学习模型或学习机器。 有三类基本的机器学习问题,它们是模式识别、函数逼近和概率密度估计。 a 模式识别问题中的损失函数( 以两类情况为例) 可以定义为 上肥蝴一 ? 耋;i 畿w ) 协, b 函数拟合问题中的损失函数可以定义为 三( y ,f ( x ,w ) ) = ( j ,一f ( x ,w ”2 ( 2 - 4 ) c 概率密度估计问题,学习的目的是根据训练样本确定x 的概率分布。记估 计的密度函数为e ( x ,w ) ,则损失函数可以定义为 l ( p ( x ,w ) ) = - l o g p ( x , w ) ( 2 - 5 ) 显然,要使式( 2 - 2 ) 定义的期望风险最小化,必须依赖关于联合概率密度 f ( x ,y ) 的信息,在模式识别中,就是必须已知类先验概率和类条件概率。但在 实际的机器学习问题中,我们只能利用样本式( 2 - 1 ) 的信息,期望风险无法直接计 算和最小化。因此人们根据概率论中大数定理的思想,采用算术平均代替式中的 数学期望,用 l , r 。,( 川= 上,( ,w ) ) ( 2 - 6 ) i = l 来逼近式( 2 2 ) 定义的期望风险。由于r 。( w ) 是用己知的训练样本定义的,因 此称作经验风险。用经验风险r 。( w ) 的最小值代替期风险胄( w ) 的最小值,就是 所谓的经验风险最小化( e i u 讧) 原则。 仔细研究经验风险最小化原则和机器学习问题中的期望风险最小化要求, 可以发现,使用经验风险代替期望风险并没有可靠的理论依据。只是直观上想当 基于s v m 的柴油机机械故障诊断研究 然的做法。多年来,经验风险最小化原则作为解决模式识别等机器学习问题的基 本思想,几乎统治了这个领域内的所有研究。大部分的研究者们把注意力集中在 如何更好地逼近最小化经验风险的最优解。 2 1 2 复杂性和推广能力 我们先设想一个简单的例子,假设有一组实数样本( x ,y ) ,x 分布在实数内 y 取值在【1 ,1 】之间,那么无论样本是依据什么模型产生的,只要用函数 f ( x ,口) = s i n ( a x ) 去拟合,总能找到一个a 使训练误差为零,但显然得到的最优函 数并不能正确代表真实的函数模型。究其原因,是试图用一个十分复杂的模型去 拟合有限的样本,导致丧失了推广能力,即模型对未来输出进行正确预测的能力。 同样,在神经网络中,一味地追求训练误差r 。最小并不是总能达到好的预测效 果,某些情况下,还会出现过学习的问题。之所以出现过学习的现象,一是因为 学习样本不充分,二是学习机器的设计不合理。 由此可以得出,在有限样本的情况下,经验风险最小并不意味着期望风险 最小,学习机器的复杂性应该要和有限数目的样本相适应,才会有好的推广能力。 2 2 统计学习理论的基本内容 统计学习理论是一种能够指导我们在有限样本情况下建立有效的学习和推 广方法的理论1 7 。主要内容有:v c 维的概念,学习机器推广能力的界和结构风 险最小化准则。 2 2 1vc 维 v c 维概念是v a p n i k 和c h e r v o n e n k o 提出的,它描述了学习机器的容量,反 映了学习机器学习能力。模式识别中v c 维定义为:对一个指示函数集,能对空 间中任意给定的最多h 个样本进行所有可能( 2 “种) 的划分,则该函数集的v c 维就 是h 。如果总存在任意数目的样本集合可以被函数集完全划分,则该函数集的v c 维就是无穷大。 第二章统计学习理论和支持向量机 例如,二维平面上的线性函数集合,其v c 维等于3 。这是因为平面中的直线 可以将三个任意给定的点按照所有可能的方式( 2 3 种) 划分。 v c 维是统计学习理论的核心概念,但是,目前尚没有通用的计算任意函数 集的v c 维的理论,只对一些特殊的函数集知道其v c 维,例如在n 维实空间的线 性分类器和线性实函数的v c 维n + l 。 2 2 2 学习机器推广性的界 统计学习理论中关于经验风险和实际风险之间关系的重要结论,称作推广 性的界。对于两类分类问题,指示函数集中的所有函数,经验风险。“w ) 和实 际风险戳w ) 之间至少以1 一玎的概率满足下面的关系: r ( w ) s i k 删p + h ( 1 n ( 2 1 1 h ) + 1 1 ) - l n ( ? 4 ) ( 2 - 7 ) 式中,f 为训练样本数目,h 表示函数集的v c 维,1 - 圩表示置信水平,r e m p 为 经验风险,堕垫堕坠堕芋幽为置信风险。 在( 2 7 ) 式中,不等式右边第一部分为经验风险,第二部分称作置信风险 ( c o n f i d e n c ei n t e r v a l ) ,它和学习机器的v c 维h 及训练样本数,有关,( 2 7 ) 式可 以简单地表示为: r ( w ) r 。,( w ) + 中( ) ( 2 8 ) 黄信风险中随的变化趋势如图2 1 所示。当较小时( 比如小于2 0 ,此 时可以说样本数较少) ,置信风险m 较大,此时用经验风险近似期望风险就会出 现较大误差。如果较大,则置信风险就会较小,经验风险最小化的最优解就 会接近实际的最优解。 基于s v m 的柴油机机械故障诊断研究 ,- 训练样本数,i l - 学习机器的v c 维,巾( ) 一置信风险 图2 1 置信风险的变化趋势 对于一个特定的问题,其样本数,是固定的,此时学习机器的v c 维越高( 复 杂度越高) ,则置信风险越大,导致真实风险与经验风险之间可能的差就越大。 这就是为什么在一般情况下选用过于复杂的分类器或神经网络往往得不到好的 效果的原因。因此,机器学习过程中不但要使经验风险尽可能小,还要使v c 维 尽可能小,以缩小置信风险,才能使实际风险最小,从而对未来的样本有较好的 推广性。 2 2 3 结构风险最小化原则 上面的结论告诉我们,在有限样本情况下需要同时考虑经验风险和置信风 险,经验风险最小化原则( e r m ) ,只考虑了经验风险,因此小样本情况下,单单 使用e r m 准则是不合理的。实际上,在传统方法中,选择学习模型和算法的过 程也就是调整置信风险的过程。如果模型比较适合现有的训练样本( 相当于值 适当1 ,通过学习训练最小化经验风险,则可以取得比较好的效果。但因为缺乏 理论指导,这种选择只能依赖先验知识和经验,造成了神经网络等方法对使用者 “技巧”的过分依赖。 统计学习理论提出了结构风险最小化准则( s t r u c t u r e m s k m i n i m i z a t i o n 或 s r m ) 。首先把函数s = f ( x ,w ) ,w 叫分解为函数子集序列, s jc 岛c 瓯c s ( 2 - 9 ) 1 0 第二章统计学习理论和支持向量机 使各个子集能够按照中的大小,也就是v c 维的大小排列,即有; 啊曼- 鸣兰h( 2 - 1 0 ) 这样在同一个子集中置信风险就相同;在每一个子集中寻找最小经验风险, 通常它随着子集复杂度的增加而减小。选择最小经验风险与置信风险之和最小的 子集,就可以达到期望风险最小,这个子集中使经验风险最小的函数就是要求的 最优函数,这种思想就称之为结构风险最小化原则。图2 2 给出了结构风险最小 化示意图。 风 险 l 一风验上再,2 - - 置信范围3 - - 经验风险 sc s tc s 函数子集,扛s + h - 相应子集的v c 维 图2 2 结构风险最小化示意图 2 3 支持向量机 支持向量机( s u p p o r tv e c t o rm a c l l i n e 或s v m ) 是基于统计学习理论发展出的 一种新颖的学习机器,具有优良的推广性能,其核心内容是9 0 年代提出的f 3 4 0 】, 目前正在得到广泛的应用。本节主要讨论支持向量机如何解决两类的模式识别问 题,这是支持向量机解决多分类问题的基础。 基于s v m 的柴油机机械故障诊断研究 2 3 1 最优超平面 s v m 方法是从线性可分情况下的最优超平面( o p t i m a lh y p e rp l a n e l 发展起 来的。考虑图2 3 所示的二维两类线性可分的情况,图中实心点和空心点分别表 示两类的训练样本,( x l ,y 1 ) ,( x 2 ,儿) ,( t ,只) ,扛1 ,x er 2 , _ y + l ,一1 ) 为样 本的类标。h :( x ) + 6 = 0 ,b r ,为把两类没有错误的分开的分类线, i x , :( w 砷+ 6 = + l ,皿:( w x ) + 6 = 一1 分别为过各类样本中离分类线最近的点且 平行分离线的直线。q 与h 2 之间的距离叫做两类的分类间隔,记为a ,通过简 单的几何变换得2 赢。 i h h i 呜 、。 ; 、 j 。每文一, 。 y o j 。气 、i 、 一 、 一 一分类超平面拊一分英愿的辕矢量,厶一分共同踽 且4 一与曰平行丑过过两类样本中离胃鼍蛭的赢的超平疆 图2 3 线性可分情况下的分类超平面 图2 _ 3 所示的训练数据是完全可分的情况,有很多直线都可以对数据进行无 错误的划分,经验风险最小值为零。因此,线性可分情况下最小化( 2 7 ) 式的风险 上界,实际上就等于最小化置信风险,可以转化为最大化分类间隔。所谓的最优 分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类间隔最 大。推广到高维空间,最优分类线就成为最优分类超平面,也是最大间隔超平面。 因此,线性可分情况下,在结构风险最小化原则下的最优分类超平面可以 通过最小化下面的泛函得到 第二章统计学习理论和支持向量机 中( w ) = 扣w i l 2 = 圭( w w ) s t ( w 一) 一b 1 ,i = l , ( 2 1 1 ) ( 2 1 2 ) 符号s t 为s u b j e c t t o 的缩写,表示约束条件。 这个二次规划问题有极,可以通过求如下的拉格朗日泛函的最小值获得: 上( w ,以口) = ( w w ) 一l ( w x ) + 6 】m 一1 ( 2 - 1 3 ) i = 1 上式中a t 为拉格朗日乘子,满a t o , v i = 1 ,a 令该泛函对w 和6 的导数分别为零,可以将原来的二次规则问题转化为比较 简单的对偶问题;在约束条件 q m = o a i o ( 2 1 4 ) 之下对瑾求解下面泛函的最大值: ,1f w ( d ) = q 一寺q q * ”( 一) ( 2 - 1 5 ) j - 1二,= l 若a o 为最优解,则有: w a = 掣y 。x i ( 2 1 6 ) b 0 = 1l w o r ( 1 ) + w 。r ( 一1 ) ( 2 - 1 7 ) 其中工( 1 ) 形式表示属于第一类的任意一个支持向量,而x ( 一1 ) 表示属于另 一类的任意一个支持向量2 1 。可以证明,对多数样本辞取值为0 ,取值不为0 的 印对应的样本薯就是支持向量( s u p p o r tv e c t o r 或s v ) 。 于是最优超平面方程为 钟咒( 蔫x ) + 矿= o ( 2 - 1 8 ) * e w 最优判别函数为 y = s g n 酽m ( 砷+ 明 ( 2 - 1 9 ) s g n ( 1 为符号函数。 基于s v m 的柴油机机械故障诊断研究 为 对于线性不可分的情况,可以在条件( 2 - 1 2 ) 中增加一个松驰项毒0 ,成 以 ( p t ) + 6 卜l + 茧0 , i = 1 ,一, ( 2 2 0 ) 这样,泛函就从( 2 1 6 ) 式变成 撕护扣”+ c ( 喜毒) ( 2 - 2 1 ) 其中c 为某个指定的常数,控制对错分样本的惩罚,实现在分类间隔和错误率 之间的折衷,盏表示容许一定的错分情况。最优分类面的对偶问题与线性可分情 况下几乎完全相同,只是条件( 2 1 4 ) 改为 0 珥c ,i = l , 2 3 2 支持向量机 ( 2 2 2 ) 对于非线性问题,可以通过非线性映射x 寸妒( 功转化为某个高维空间的线 性问题,再在变换空间求最优分类超平面,该超平面实际对应着原始空间中的非 线性分类面。实际上不用知道妒( 工) 的确切表达式,因为在上面的对偶问题中, 只涉及了训练样本的内积运算( _ ) ,在高维空间也只需进行内积计算 y ( ) 妒( 工,) a 而根据泛函的有关理论,只要一种核函数量( x ,) 满足m e r c e r 条 件,它就对应某一变换空间的内积妒( 薯) ( _ ) 。 因此,采用适当的核函数k ( t ) 就可以实现某一非线性变换后的线性分 类,而计算的复杂度却没有增加,此时,式( 2 1 5 ) 中的优化问题变为 吣) = q x a i a j y y j k ( x x j ) ( 2 2 3 ) ,;lt 卢_ 而非线性支持向量机的决策函数变为 y = s g n 辞片k ( x ) + 6 0 】 ( 2 2 4 ) 简单地说,支持向量机就是首先通过内积核函数将输入空间变换到一个高 维空间,然后在这个空问求广义最优分类面。 第二章统计学习理论和支持向量机 2 4 核函数 常见的核函数: ( 1 ) 多项式核,称 和 x ( x ,工 = ( ( 石,x i ,t t ,d ( 2 2 5 ) k ( x ,x ) = ( x ,x 。) 4 ( 2 2 6 ) 球朋= e 硪一呼( 2 - 2 7 ) m 朋= 州一紫) ( 2 - 2 8 ) x ( x ,x = t a n h ( p ( 工,z ) + c ) ( 2 2 9 ) s i n ( n + 言x x x 1 x ( x ,x 3 = j 一 ( 2 - 3 0 ) s 咄o 一工 2 4 1 核函数作用及核参数的影响 核函数,映射函数以及特征空问是一一对应的,确定了核函数k ( x ,y ) ,就隐 基于s v m 的柴油机机械故障诊断研究 含地确定了映射函数和特征空间f 。核参数的改变实际上隐含地改变映射函 数从而改变样本数据子空间分布的复杂程度( 维数) 。数据子空间的维数决定了 能在此空间构造的线性分类面的最大v c 维,也就决定了线性分类面能达到的最 小经验误差。同时,每一个数据子空间对应唯一的推广能力最好的分类超平面, 如果数据予空间维数很高,则得到的最优分类面就可能比较复杂,经验风险小但 置信风险大:反之亦然。这两种情况下得到的s v m 都不会有好的推广能力,只有 首先选择合适的核函数将数据投影到合适的特征空间,才可能得到推广能力良好 的s v m 分类器。 2 4 2 支持向量机中参数c 的影响 误差惩罚参数c 的作用是在确定的数据子空间中调节学习机器置信风险和 经验风险的比例以使学习机器的推广能力最好,不同数据予空间中最优的c 不同。 在确定的数据子空间中,c 的取值小表示对经验误差的惩罚小,学习机器的复杂 度小而经验风险值较大;反之亦然。前者称为“欠学习”现象,而后者则为“过 学习”。每个数据子空间至少存在一个合适的c 使得s v m 推广能力最好。当c 超过一 定值时,s v m 的复杂度达到了数据子空问允许的最大值,此时经验风险和推广能 力几乎不再变化。然而,目前还没有一个统一的方法来决定c 的最佳取值,一般 的方法是试凑,通过不断实验来得到满意的结果。 2 4 3 参数选择方法分析 1 、试凑法( 穷举法) 该方法是在模型( s v m 、核函数) 选择以后,首先为常数c 和核函数固有的参 数赋一初始值,然后开始实验测试,根据测试精度重复调整参数值,直至得到满 意的测试精度为止。研究人员通过实验比较,认为使用试凑法调整参数具有一定 的规律可循。实验表明【1 2 1 ,随着c 的增加,测试精度首先增高,超过一定值以后, 精度开始下降。嗣时,1 随着c 的增加,支持向量的个数严格减少,处于边界值的 支持向量的个数迅速减少,直到为0 。文献【1 1 】指出,通过实验比较认为,c 参数的 值对训练结果有很大影响,但它的最佳取值与具体问题有很大的关系,一般来说, 用于训练的数据量越大,训练结果对c 的变化越不敏感;如果训练数据很少,c 1 6 第二章统计学习理论和支持向量机 的较大取值很容易使模型过拟台训练数据。于是建议在各类样本数目不平衡的情 况下,对于样本较少的类别施加较大的错分惩罚系数,惩罚系数的大小应该与各 类样本数成反比。 试凑法是目前比较常用且非常行之有效的方法,但基本是凭经验调整,缺 泛足够的理论依据,对不同的核函数,不同的样本其调整方法可能不同,因此在 参数调整过程中带有一定的盲目性,且当需要调整幅度较大时调整次数较多,实 验比较复杂。 2 、最优化方法 从前面的分析知道,求解一个支持向量机分类器是通过求解使式( 2 2 3 ) 最 , 大化时的解n 和b 后确定的,印求解出使“口) = q 去q q m 乃x ( t x j ) 取最 t l i ,j = l 大值时a 和b 的值即可确定一个支持向量机分类器。选择常数c 和核函数固有参数 ( 核参数) 就是最优化推广能力的估计值。所以,参数选择就是在最大化式( 2 2 3 ) 并在解的基础上最优化推广能力的估计值,由此可以得到选择s v m 参数的最优化 方法。 ( 1 ) 为常数c 和核函数固有参数赋初值: ( 2 ) 最大化式( 2 2 3 ) ,得到n 和b ; ( 3 ) 更新常数c 和核参数,最优化推广能力的估计值; ( 4 ) 如果估计值满足要求结束运算;否则重复( 2 ) 。 步骤( 3 ) 中的推广能力是指学习机对未知数据进行测时的分类性能,主要 有留一法( 利用错分类率评估分类性能) 、支持向量计算法( 利用支持向量数与 训练样本总数之比评估分类性能) 1 2 1 。 该方法可以使用已有的优化工具来实现,但问题的难点是步骤( 3 ) ,如何 更新常数c 和核参数。因为无法得到推广能力的估计值与这些参数的显式表达式, 丽且变化不连续,所以不能使用常用的最陡梯度法、牛顿法等方法。 3 、改进的最优化方法【1 2 1 _ _ 该方法主要针对最优化方法步骤( 3 ) 进行改进。由2 3 中提到的泛函 妒( ) = 去( | ) + c 毒 ( 2 3 1 ) 基于s v m 的柴油机机械故障诊断研究 可知,惩罚因子c 控制的是训练错误率与模型复杂度间的折衷,从式( 2 1 5 ) 可知,惩罚因子c 并没有出现在式( 2 3 1 ) 的w o l f e 对偶式中,而是改变了l a g r a n g e 系数的取值范围,因此,对于一个s v m ,如果无限制地增大惩罚因子c ,当s v m 中 没有边界支持向量时,c 的改变不会再影响分类性能。 由图2 3 和式( 2 3 1 ) 可知s v m 是最大化间隔算法,以径向基核为例,根据式 ( 2 - 2 3 ) 和式( 2 - 2 4 ) 经适当变换后可得 i i d l 2 :2 妻噶一圭q q j ”e ,驴( 7 4 再一_ f ) ( 2 3 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论