已阅读5页,还剩86页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于支持向量机的非线性系统建模与预测控制.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的非线性系统建模与预测控制 万莉( 控制理论与控制工程) 指导教师:于佐军( 副教授) 摘要 传统统计学研究的是假设样本数目趋于无穷大时的渐近理论,现有 的机器学习理论都是基于这个假设;而统计学习理论研究的是小样本情 况下的机器学习理论,这对于实际系统来说是有利的。支持向量机( s v m ) 就是在这一基础上发展起来的新一代学习算法,它由v a p n i k 等人于1 9 9 2 年在计算机学习理论会议上提出。支持向量机具有训练样本小、拟合精 度高、全局最优、泛化性好等特点,但将其用于控制方面的研究还是起 步阶段,故本文考虑将支持向量机用于预测控制方面的研究。 本文详细地介绍了统计学习理论和支持向量机基本原理,阐述了支 持向量机回归的实现过程;研究了支持向量机回归建模:并且对采用支 持向量机建立的模型进行预测控制。具体内容可以概括如下: 首先利用支持向量机进行系统建模研究;阐述了支持向量机回归原 理,并且研究了采用支持向量机的系统建模以及建模过程中存在的问题, 分析了影响模型精度的几个因素;其次,本文研究了支持向量机改进学 习方法。由于常规的支持向量机算法对于样本数目较大时,训练时间较 长。本文根据现有的方法,仿真研究了几种改进学习算法,如增量法和 分块算法。实验证明这些方法在训练时间上大大缩短了;再次,本文提 出支持向量机在线学习方法。由于在线建模最重要的特征是实时性,常 规的支持向量机学习方法训练时间长,不能满足实时性的要求。本文根 据增量学习方法提出了在线学习方法,通过仿真研究,证实了在线学习 1 i 方法的有效性;最后,本文将支持向量机用于预测控制研究。利用支持 向量机具有很好的非线性建模特性,本文采用支持向量机对p h 中和过 程进行建模并进行预测控制;在预测控制过程中,采用变优化权值的方 法,取得了较好的控制效果。 关键词:统计学习理论,支持向量机,结构风险最小化,预测控制,核 函数 1 1 1 m o d e l i n ga n dp r e d i c t i v ec o n t r o lo fn o n l i n e a rs y s t e m b a s e do ns u p p o r tv e c t o rm a c h i n e w a nl i ( c o n t r o lt h e o r ya n dc o n t r o le n g i n e e r i n g ) d i r e c t e db yp r o f e s s o ry uz u o _ j u n a b s t r a c t t r a d i t i o n a ls t a t i s t i c st h e o r yi sb a s e do nt h ea s s u m p t i o nt h a ts a m p l e sa r e i n f i n i t e a n dm o s to fc u r r e n tm a c h i n el e a r n i n gm e t h o d sa r eb a s e do nt h i s t h e o r y h o w e v e r , s t a t i s t i c a ll e a r n i n gt h e o r y ( s l t ) i s at h e o r yt h a t s p e c i a l i z e di nm a c h i n el e a r n i n gw i t hf i n i t es a m p l e s ,a n d i ti su s e f u lf o r p r a c t i c a ls y s t e m s u p p o r tv e c t o rm a c h i n ei s am a c h i n el e a r n i n gm e t h o do f n e wg e n e r a t i o nb a s e do ns l t i tw a si n t r o d u c e db yv a p n i ka tt h em a c h i n e l e a r n i n gt h e o r yc o n f e r e n c ei n19 9 2 ,a n di th a sb e e na n e wm e t h o df o rd a t a m i n i n g s u p p o r tv e c t o rm a c h i n e ( s v m ) h a st h ec h a r a c t e r i s t i c so fr e q u i r i n g s m a l lt r a i n i n gs e t ,h i 曲r e g r e s s i o na c c u r a c y , g l o b a lo p t i m i z a t i o n ,a n dg o o d g e n e r a l i z a t i o ne t c b u tt h ea p p l i c a t i o no fs v m i nt h ec o n t r o lf i e l d si ss t i l la t a ni n i t i a ls t a g e t h i sp a p e rp r e s e n t st h eb a s i ct h e o r yo ft h es l t , s v ma n dt h es v m r e g r e s s i o nr e a l i z a t i o np r o c e d u r ei nd e t a i l c h a p t e r2d e s c r i b e st h ep r i n c i p l e a n dm e t h o do fs v mr e g r e s s i o n t h ep r e d i c t i v ec o n t r o ls c h e m ea d o p t sp r e d i c t i v e m o d e lb a s e do nt h i sr e g r e s s i o nm e t h o d ,t h em a i nr e s e a r c hw o r ki sa sf o l l o w s : t h et h e o r yo fs v mi si n t r o d u c e di nt h i sp a p e rf i r s t l y t h i sp a p e ra l s o d i s c u s s e st h es y s t e mm o d e l i n ga n dr e l a t e dp r o b l e m sd u r i n gt h em o d e l i n gp h a s e u s i n gs v m s e c o n d l y , t h ec o n v e n t i o n a ls v mn e e d sl o n gt i m ef o rt r a i n i n g w h i l et h es a m p l es e ti s v e r yl a r g e ,t h i sp a p e ri n t r o d u c e ss o m ei m p r o v e d a l g o r i t h m s ,s u c ha si n c r e m e n t a ll e a r n i n ga l g o r i t h ma n dc h u n k i n ga t g o r i t l t m s i m u l a t i o nr e s u l t ss h o wt h a tt h e s ea l g o r i t h m sr e d u c et r a i n i n gt i m e t h i r d l y , a s v mo n l i n et r a i n i n gt h e o r yi sd e v e l o p e di nt h i sp a p e r t h ec o n v e n t i o n a ls v m n e e d sl o n gt r a i n i n gt i m e ,s oi tc a nn o tb eu s e di no n l i n em o d e l i n g t h i s p a p e r p r e s e n t sa no n l i n et r a i n i n ga l g o r i t h mb a s e do ni n c r e m e n t a ll e a r n i n ga l g o r i t h m s i m u l a t i o nr e s u l t ss h o wt h a tt h es v mo n l i n e m o d e l i n g h a s p r o m s i n g p e r f o r m a n c e f i n a l l y , b e c a u s eo ft h es v m sa d v a n t a g ei nm o d e l i n go ft h e n o n l i n e a rs y s t e m ,t h ep r e d i c t i v ec o n t r o ls c h e m ei nt h i sp a p e ra d o p t st h e m o d e lt r a i n e db ys v m i nt h ec o n t r o ls c h e m eo fap h p r o c e s s ,b yc h a n g i n gt h e w e i 曲t s o ft h e o p t i m i z a t i o n f u n c t i o nf o rd i f f e r e n t s e t p o i n t ,p r o m i s i n gc o n t r o l p e r f o r m a n c ei sa c h i e v e d k e yw o r d s :s t a t i s t i c a ll e a r n i n gt h e o r y ( s l t ) ,s u p p o r tv e c t o rm a c h i n e ( s v m ) ,s t r u c t u r er j s km i n i m i z a t i o n ( s r m ) ,p r e d i c t i v ec o n t r o l ,k e r n e l f u n c t i o n v 独创性声明 本人声明所里交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国 石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名:互麴勿石年 s 月& d 日 签名:垄苤勿石年 s 月 & d 日 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许沦文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名 导师签名 互麴 弘 乒一,年5 月2 0 日 勿f 年5 月二口f 1 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 支持向量机( s v m ) 是在统计学习理论的基础上发展起来的新一代机 器学习算法,该算法已经在文本分类、手写识别、图像分类、生物信息 学等领域中获得了较好的应用,它是由v a p n i k 等人于1 9 9 2 年在计算机 学习理论会议上介绍提出,之后受到广泛关注。在2 0 世纪9 0 年代中后 期得到了深入的研究和发展,现已成为机器学习和数据挖掘领域的新型 方法。随着理论的不断完善,支持向量机的应用逐渐成为各国学者的研 究重点。目前,支持向量机算法在模式识别、回归估计、概率密度估计 等方面都有广泛应用。但是将支持向量机应用于工业领域相对较少,这 是一个非常有应用前景的领域。它为故障诊断、过程建模、系统辨识、 非线性控制等领域提供了广阔的研究空间。 1 1 统计学习理论与支持向量机的发展历程 统计学习理论起源于2 0 世纪6 0 年代晚期【1 】,但在1 9 9 0 年以前,它仅仅 是进行函数估计的理论分析工具。到了9 0 年代中期,人们提出了理论严 谨的结构风险最小化原理,并在此基础上创造性地产生出了一种新的机 器学习算法s 咂,s v m 的近期发展及成功应用使得统计学习理论已 成为研究估计高维函数算法的理论和实用工具。 目前所有的机器学习方法大体上可以分为两大类即人工智能的方法 ( 符号处理法) 和数学方法。机器学习不仅要从数据中学习得到规律,从得 到的规律中较好地解释已知的实例,而且更重要的是对未来的现象或无 法观测的现象做出正确的预测和判断,也即具有推广能力。 传统的统计学研究的主要是渐近理论,即当样本趋向于无穷大的极 限特性,其性能才有理论上的保证。在传统的统计模式识别中,用经验 风险月最小化代替实际风险最小化,但是存在着两个问题:经验风 险r 。只有在大数定理的保证下才能与期望风险r 在概率上保持一致, 而如前所述,实际上我们得到的样本是有限的。反之,即使能得到保 中国石油大学( 华东) 硕士论文第1 章前言 证在样本数无穷大时一定趋近r 的r 。,也不能保证在样本数有限时仍 然能得到好的结果。 然而统计学习理论较好地解决了这一问题,它是研究基于有限样本 的情况下的机器学习问题。近年来,在有限样本情况下的机器学习理论 研究逐渐成熟起来,形成了一个较为完善的理论体系统计学习理论 ( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 。2 0 世纪9 0 年代,在这一理论框架下发 展出了一种新的模式识别方法支持向量机( s u p p o r tv e c t o rm a c h i n e 简称s v m ) 这一新的通用机器学习方法。支持向量机从其产生到现在的 这1 0 多年里,无论是其理论和应用都得到了很快的发展,取得了重要的 成果,显示了其优越性。 1 1 1 机器学习与统计学习理论发展的历程 支持向量机是一种新式机器学习方法,综合机器学习理论的发展, 根据v a p n i k 的 t h en a t u r eo f s t a t i s t i c a ll e a r n i n gt h e o r y 可以分为四个阶 段: 第一个阶段为第一个学习机器的建立;这一阶段主要是在6 0 年代。 其主要成果是:1 9 5 7 年r o s e n b l a t t 提出了感知器模型,这是第一个学习 机器的模型,这标志着对学习过程进行数学研究的真正开始;1 9 6 2 年 n o v i k o f f 证明了关于感知器的第一个定理,这一定理实际上是学习理论 的开始。 第二个阶段是机器学习理论基础的建立;这一阶段主要是在6 0 年代 和7 0 年代,其主要成果是统计学习理论的发展。1 9 6 0 年s o l o m o n o f 提 出了算法复杂度的思想;1 9 6 2 年t i k h n o v 等发现解决不适定问题的正则 化理论方法;1 9 5 7 年r o s c n b l a t ,1 9 6 2 年p a r z e n 等提出了几种密度估计 的非参数统计学方法:1 9 6 8 年v a p n i k 和c h e r v o n e n k i s 提出了统计学习理 论的核心概念c 维的概念;1 9 7 4 年v a p n i k 和c h e r v o n e n k i s 提出了结构 风险最小化归纳原则理论:1 9 8 2 年,v v a p n i k 进一步提出了具有划时代 意义的结构风险最小化原理,为s v m 的研究奠定了直接的、坚实的理论 基础。 第三阶段是神经网络的建立;这一阶段主要成果是8 0 年代提出来 中国石油大学( 华东) 硕士论文第1 章前言 的;1 9 8 6 年,l ec u n ,r u m e l h a r t 等独立地提出了后向传播的神经网络 思想。 第四个阶段是神经网络替代方法的建立。这一阶段主要是在9 0 年 代。其主要成果为:神经网络改进方法的研究,例如径向基函数模型 的研究;支持向量机的出现,1 9 9 2 年,b b o s e r ,g u y o n 和v a p n i k 提 出了最优边界分类器,由此形成了s v m 的雏形。s v m 的提出被认为是 机器学习的一个重要革新。 1 1 2 支持向量机发展历程 支持向量机集成了最大间隔超平面、m e r c e r 核、凸二次规划、稀疏 解和松弛变量等多项技术,它的前身可追溯到6 0 年代在前苏联发展起来 的广义肖像算法( g e n e r a lp o r t r a i t a l g o r i t h m ) ,其理论上是以统计学习理论 ( 即v c 理论) 为坚实基础的。绕计学习理论是针对有限样本的学习理 论,与处理大量样本的经典方法有着显著的不同。对于有限样本的学习, 过去的方法基本上是基于e r m 的原则( e m p i r i c a lm s km i n i m i z a t i o n 经验 风险最小化) ,它在训练数据上最小化训练误差( 即经验风险) ,然而这 样追求训练误差最小化会导致过学( o v e r f i t t i n g ) ,即为了满足训练误差 最小化,从而使得测试集的误差反而很大。v a p n i k ,c h e r v o m e k i s 等人应 用概率统计和统计学习理论,提出了s r m 原则( s t r u c t u r er i s k m i n i m i z a t i o n 结构风险最小化) ,s r m 原则最小化误差的上界,有效地解 决了过学习现象。根据此基础上发展起来的支持向量机算法( s v m ) 将实 际问题建模变为一个凸优化问题,从而避免了神经网络学习中经常遇到 的局部最小化问题。 支持向量机出现以后,其理论的发展和应用非常快,其主要的成果 有:在b b o s e r 等提出最优边界分类器后,1 9 9 5 年,c o r t e s 和v a p n i k 进 一步探讨了非线性最优边界的分类问题;1 9 9 5 年,v a p n i k 出版 t h en a t u r e o f s t a t i s t i c a ll e a r n i n gt h e o r y ,系统地阐述了统计学习理论及s v m 的概 念和分类方法;1 9 9 7 年,v v a p n i k ,s g o k o w i c h 和a s m o l a ,发表论文 “s u p p o r tv e c t o rm e t h o df o rf u n c t i o na p p r o x i m a t i o n ,r e g r e s s i o ne s t i m a t i o n , a n ds i g n a lp r o c e s s i n g ”,详细介绍了基于s v m 方法的回归算法和信号处 中国石油大学( 华东) 硕士论文第1 章前言 理方法;1 9 9 7 年,m f i l l e r 等采用s v m r 进行时间系列建模的研究,拓宽 了支持向量机的研究领域,此后许多学者进行了这方面的研究;1 9 9 8 年, s m o l a 在他的博士论文中系统地研究了s v m 学习的机理及在分类中的应 用,为进一步完善s v m 非线性算法做出了重要的贡献;2 0 0 1 年s u y k e n s 等采用了s v r 进行优化控制的研究,佼支持向量机的研究向控制领域发 展,不仅开创了智能控制的新方向,而且进一步拓宽了支持向量机的研 究领域。近几年出现了许多发展和改进的s v m 算法,如张学工的 c s v m ,s c h 6 1 k o p f 的v - s v m ,j o a e h i m s 提出的s v m l i g h t ,h s u 等提出 的b s v m ,这些算法主要是对支持向量机训练算法的改进。s v m 正日 益引起广泛的关注,尤其值得提的一个事件是i e e e 于1 9 9 9 年在( i e e e t r a n s a c t i o n so nn e u r a ln e t w o r k s ) 出版了专辑( 见( i e e et r a n s a c t i o n so n n e u r a ln e t w o r k s ) ) ( 1 9 9 9 ,1 0 ( 5 ) ) ,这对于推动s v m 的发展起了重要的作 用。 1 1 3 国内的统计学习理论与支持向量机研究现状 在我国,早在八十年代末期,边肇祺等就注意到统计学习理论的基 础成果,但之后较少研究。进入9 0 年代末期,特别是近两年,一些学者 已认识到这个领域的重要性,越来越多的学者、研究人员和科研机构正 积极地从事这方面的研究。如清华大学闻芳等将s v m 用于剪接位点的识 别;清华大学卢增祥、李衍达提出交互支持向量机学习算法并将起其应 用于文本信息过滤问题的研究;中国科学技术大学陶卿博士和中国科学 院合肥智能所方廷健研究员发表了关于支持向量机的综述文章;清华大 学的张学工博士发表了关于统计学习理论和支持向量机【2 】的论文;安徽 大学的张铃教授研究了s v m 理论与神经网络规划算法的关系,并指出, 基于s v m 的算法与其1 9 9 4 年提出的神经网络的基于规划的算法是等价 的。中国科学技术大学范劲松与中国科学院合艏智能机械研究所的方廷 健研究员将统计学习理论应用于遗传算法的研究。统计学习理论和支持 向量机的重要性已经在国内外许多领域越来越受到重视。 s v r ( s u p p o r tv e c t o rr e g r e s s i o n ) 是支持向量机在实函数域的研究内 容。近些年来,有关s v r 的新理论和新方法不断涌现,其应用领域也在 中国石油犬学( 华东) 硕士论文第1 章前言 不断扩大。从时间序列的建模到学习前馈控锘l l ( l e a r n i n gf e e d f o r w a r d c o n t r 0 1 ) 、优化控制等方面的研究,充分显示了这种算法的优越性。随着 支持向量机研究的深入,支持向量机的研究不仅在理论和应用方面得到 发展。此外,支持向量机与其他计算方法结合的研究,例如j i n t s o n g 等 将支持向量机与模糊逻辑结合的研究:j a y a d e v a 等将支持向量机与神经 网络结合的研究;s t r a u s s 等将支持向量机与小波进行结合研究。 将支持向量机用于预测控制的研究是近两年才开始,王宇红、王定 成、张浩然【1 2 】 1 4 】分别研究了基于支持向量机的非线性预测控制技术,证 明了支持向量机用于非线性预测控制的正确性和有效性,为非线性控制 提供了一种新的控制思想。 1 2 支持向量机回归与控制的研究现状与存在的问题 支持向量机回归是支持向量机在实函数域的研究。近些年来,有关 支持向量机回归的新理论、新方法、新应用不断涌现。从时间序列的建 模到优化控制的研究,充分显示了这种算法的优越性。但是支持向量机 作为一种新的机器学习方法,它还存在着一些问题,以下几章主要介绍 支持向量机回归的学习方法以及存在的问题。 目前,将支持向量机用于预测控制的研究还不成熟,对于训练数据 中存在噪声以及噪声不稳定的情况不能很好地预测和控制:而且目前的 研究主要针对离线状态,对于在线基于支持向量机预测控制的研究仍然 处于研究状态。而在采用支持向量机方法求解回归估计问题中,需要求 解二次规划问题,样本数较小时,可以采用解析的方法计算解析解,随 着样本数的增加,优化变量也相应地增加,已无法采用解析的方法求解 二次规划问题,尤其是时间序列问题,样本数不断增加,运行时间及计 算内存是大样本数求解s v m 的主要瓶颈,对于基于支持向量机的非线性 预测控制研究产生了阻碍。 中国石油大学( 华东) 硕士论文第1 章前言 1 3 智麓控制的研究现状与面临的挑战 1 3 1 控制理论发展概述 控制理论与量子理论、相对论一起被称为2 0 世纪上半叶科学发展的 三大飞跃,经过几十年的发展,其应用和影响已经深入到社会生活的各 个方面,使人类大大突破了自身能力的发展。控制理论的发展大致上可 以分为经典控制理论、现代控制理论和智能控制三个阶段【3 】。 自动控制理论可以追溯到上一世纪,从1 9 3 2 年奈奎斯特发表有关反 馈放大器的稳定性开始。n y q u i s t 稳定判据、b o d e 图在自动控制中就起 到重大作用。在5 0 年代,著名的学者钱学森的工程控制论1 4 1 1 5 1 _ _ 书 发表后,在国内外引起很大反响,它开创了自动控制理论的先河。至今, 这学科已经历了几十年的发展。其中,前3 0 年为经典控制理论的成熟 和发展阶段。经典控制理论主要研究对象是单输入、单输出系统,系统 的数学模型是传递函数,其分析和综合方法基于根轨迹法和频率法。其 主要贡献是将p i d 调解器用于控制系统中。到了6 0 年代,由于计算机技 术的成熟和发展,以及实际系统的复杂性增加,使得控制理论由经典控 制理论向现代控制理论过渡。现代控制理论以庞特里亚金( p o n t r y g i n ) 的极 大值原理、贝尔曼( b e l m a n ) 的动态规划、卡尔曼( k a l m a n ) 的线性滤波及其 能控性、能观性理论为基石,形成了以最优控制( 二次型最优控制,h o 。 控制等) 、系统辨识和最优估计,自适应控制等为代表的现代控制理论和 设计方法。现代控制理论是对经典控制理论的精确化、数学化和理论化, 它克服了经典控制理论仅能分析s i s o 系统的局限性,是研究多变量线性 控制系统的有利方法。 1 3 2 智能控制理论发展概述 随着工业和自动化技术的发展,控制理论的应用日趋广泛,所涉及 的控制对象亦日益复杂化,而且对控制性能的要求也越来越高。经典控 制理论和现代控制理论研究的都是线性时不变系统的控制问题,而实际 系统多数是非线性的,这使得经典控制理论和现代控制理论对非线性时 中国石油大学( 华东) 硕士论文第1 章前言 变系统不能达到很好的控制目的。智能控制是以更接近人脑思维方式的 一种控制理论,它是以知识信息为基础进行学习和推理的,用启发式方 法来引导求解过程,适合含有复杂性、不确定性和模糊性的求解过程。 智能控制最早由美籍华裔科学家z u i n gs u n 6 1 教授于1 9 6 5 年提出, 他在论文中把人工智能的启发式推理用于学习系统,迈出了智能控制研 究的第一步。早期的智能控制系统采用一些比较低级的智能方法,如模 式识别等,而且智能控制的发展缓慢。1 9 8 7 年1 月,在美国费城召开了 第一届i e e e 智能控制国际会议,从此智能控制作为- - j , - j 独立的学科被正 式建立起来。进入9 0 年代,智能控制的静类不断增多,各种人工智能控 制,如遗传算法控制、小波控制、专家控制、神经网络控制等相继出现。 智能控制应用范围也大大扩展,并且取得了较好的效果。 神经网络控制具有对复杂不确定性问题的自适应和自学习能力;它 利用实际可以测量的输入输出数据来辨识模型,被证明是建立非线性过 程模型的有效方法。神经网络通过一个连接模型将输入空间映射到输出 空间,这个网络模型能以任意精度逼近非线性函数。因此,基于神经网 络的非线性预测控制在很大程度上解决了控制模型难以建立的问题,并 取得了很多成果。尽管神经网络可以作为一种通用的函数逼近器,可以 以任意精度逼近任意非线性函数和动态系统,但仍然有一些不易解决的 问题,如难以确定神经网络的隐层节点数、存在过学习现象、训练过程 中存在局部极小点问题等。 为解决这些问题,v a p n i k 提出支持向量机( s u p p o r tv e c t o rm a c h i n e ) , 即一种依据统计学习理论和结构风险最小化原理的新型学习机。与神经 网络相比,它在训练算法中不存在局部极小点的问题,可以自动设计模 型复杂度,不存在维数灾难问题,泛化能力强。s v m 最近已被成功地用 来解决函数估计和分类问题,然而将支持向量机用于非线性模型预测控 制技术还只是起步阶段。目前的研究主要为离线的控制研究,在线基于 支持向量机控制研究仍然处于不成熟状态;且支持向量机自身存在的部 分问题对其在控制领域的应用都产生了阻碍。 中国石油大学( 华东) 硕士论文第1 章前言 1 4 研究的目标 支持向量机是统计学习理论的重要组成部分,虽然统计学习理论在 研究小样本情况下表现出极好的性能,但支持向量回归算法是一个新的 算法,同其他任何新的算法一样,也需要不断的完善;同时,由于专家 系统等智能控制理论存在一定的缺陷,传统的神经网络智能控制理论又 存在诸如模型结构的选取、算法的收敛性、解的唯一性等问题。支持向 量机回归具有好的推广特性和非线性建模的能力,因而适合解决非线性、 大时延以及不易建模的系统的控制问题。因此,本文着重对基于支持向 量机的系统建模问题,以及预测控制展开研究。 本文的研究目标旨在通过对支持向量回归的研究学习,提高支持向 量机训练精度和训练速度,使其能够更适合用于在线学习和预测控制中。 1 5 研究的内容和刨新点 本文首先介绍了支持向量机这种新型机器学习方法理论,以及支持 向量回归的实现过程;分析回归实现过程所面临的问题:参数、训练集、 回归项选择等;并且将支持向量机回归与其他经典回归方法进行了比较。 本文根据支持向量机学习存在的问题:训练时间随着样本数目的增加而 增加,考虑在相同的拟合效果下,将常规支持向量机算法简化。根据目 前仅有的文献资料,对支持向量机在线学习进行尝试和学习。并将支持 向量机用于预测控制方面,利用支持向量机对系统进行建模,并用于p h 模型的预测控制中。具体内容安排如下: 第1 章前言 简述统计学习理论、支持向量机以及控制理论的发展历史和研究现 状;综合论述以后各章节主要内容。 第2 章统计学习理论和支持向量机原理 本章首先介绍了机器学习的基本问题、统计学习理论及其相关内容 的概念;阐述了统计学习理论和传统的统计学的区别,并且重点介绍了 支持向量机和支持向量回归的基本原理和支持向量机的物理解释意义。 第3 章支持向量机回归研究 中国石油大学( 华东) 硕士论文第1 章前占 这一章是本文的重点,主要围绕支持向量机回归建模问题。分别讨 论不同情况下支持向量机的建模,并且研究了几个可能影响回归精度的 因素。除此之外,还讨论了支持向量机的几种简化学习方法。 第4 章支持向量机在线建模的研究 本章根据第三章的增量学习算法提出的在线建模方法,并且通过仿 真研究,证实了这种在线学习的正确性。 第5 章支持向量机预测控制研究 本章将支持向量机用于预测控制系统中建立预测模型。文中采用高 度非线性系统p h 中和过程,对p h 模型采用单步和多步优化,取得 了较好的控制效果。 第6 章结论 本章为全文的结论,对论文所做工作进行了总结报告。并通过前面 的学习研究,分析了支持向量机这种新式机器学习方法存在的问题以及 以后发展的方向。 中国石油大学( 华东) 硕士论文第2 章统计学习理论与支持向量机原理 第2 章统计学习理论与支持向量机原理 2 1 前言 传统的统计学是基于样本数目趋于无穷大的渐近理论,而实际问题 中样本数目往往是有限的。统计学习理论克服了这一不足,是一种专门 研究小样本情况下的机器学习理论。 支持向量机是基于统计学习理论发展起来的一种新型机器学习方 法。目前,支持向量机已经被成功地应用于分类和函数拟合方面。 本章主要系统地介绍统计学习理论、支持向量机和支持向量回归的 基本概念和基本理论。 2 2 机器学习的基本问题 所有的机器学习方法大体上可以分为两大类,即人工智能的方法( 符 号处理法) 和数学方法。数学方法中基于统计的学习方法,近年来得到 蓬勃发展,在解决“从数据中学习”上取得了很大的成功,这不能不归 功于美国学者v a p n i k 等人在发展统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y 或s l t ) j 2 的创造性贡献。与传统的统计学相比,统计学习理论 也称v c 理论( v a p m k c h e r v o n e n k i s ) 是一种专门研究小样本情况下机 器学习的理论,它建立在一套较坚实的理论基础之上,为解决有限样本 学习问题提供了一个统一的框架。尽管v c 理论作为数学理论已出现了 二十多年,但人们还没有充分体会到它的理论和实际价值,近期的研究 已经表明该理论可以改善各种神经网络学习算法。下面将仔细介绍机器 学习的基本问题。 2 2 1 问题的表示 机器学习的目的是根据给定的训练样本求出某系统输入、输出之间 的依赖关系,使其对未知的输出做出尽可能准确的预测。对n 个相互独 中国石油大学( 华东) 硕士论文第2 章统计学习理论与支持向量机原理 立并服从统一分布的观测样本0 :y ) ,( x :,y :) ,( ,y 。) ,假定系统在给 定输入为石的情况下输出为y ,且y 与工之间存在未知依赖关系,即遵循 未知的联合概率魄力。机器学习的问题就是根据观测样本在函数集 ( 恁t ( 1 ,) ) 中找出一个最优的函数a x , 。) 对工和y 的依赖关系进行估计,使 得学习机器的期望风险月= 陋( y ,厂0 ,硼d f ( x ,y ) 最小。其中,阮) ) 称作预测函数集,为函数的广义参数,l f y , 舷口) ) 称为损失函数,不同 类型的学习问题可以采取不同的损失函数。损失函数的类型将在第3 2 2 节介绍。 机器学习一般有三类方向:模式识别、函数逼近和概率密度估计。 对模式识别问题,输出y 是类别标号,在两类情况下,y = 0 ,1 ) 或者 l ,1 ) 。 此时,损失函数可以定义为 三,( 毫) ) = 1 0 矿i f y y = - r f ( ( 五x , c o ) ) 使风险最小就是b a y e s 决策中使错误率最小。在函数逼近问题中,y 是连续变量。对单值函数,损失函数采用最小平方误差准则,可定义为: 三( y ,厂b ,m ) ) = ( y f ( x ,叻) 2 对于概率密度估计问题,学习的目的是根据训练样本确定工的概率 密度p o ,) ,则损失函数可以定义为上机( x ,硼= - l o g ( p ( x ,c o ) ) 。 2 2 2 经验风险最小化原理( e r m ) 在前面的问题中,学习的目的就是为了使期望风险( 真实风险) 最 小,为达此目的,必须依赖于联合概率f ( t 力。但是,在实际的机器学习 问题中,这一条是未知的,只能利用已知训练样本的信息,因此期望风 险无法直接计算和进行最小化。为此,在实际应用中,一般根据大数定 理即采用算数平均来代替,利用求经验风险r 。,0 ) = ( y , ,国) ) ,i = l 的最小值来代替求期望风险的最小值,即为经验风险最小化原则 ( e m p i r i c a lr i s km i n i m i z a t i o n ,e r m ) 。 事实上,用经验风险代替期望风险,这样做并没有经过充分的理论 中国石油大学( 华东) 硕士论文第2 章统计学习理论与支持向量机原理 论证,但这种思想却在多年的机器学习研究中占据了主要地位,根据概 率理论,在一般情况下,当训练样本珂趋于无穷大时均值收敛于期望值, 但并不能说使经验风险r 。 ) 最小的( d ,同时也会使期望风险霞) 最小, 即使可以假定当月趋向于无穷大时,如哗 ) 趋近于r ) ,在很多问题中 的样本数目也离无穷大相去甚远。 2 2 3 复杂性和推广性能 用前面所说的e r m 准则代替期望风险最小化是根据当样本趋向于 无穷大时,经验风险趋向于实际风险。但是实际的学习过程中,样本的 数目远远达不到无穷大,如神经网络学习就是采用经验风险最小化原理。 在神经网络学习中发现,训练误差小,并不能导致好的预测效果。在某 些情况下还可能导致过学习现象。 之所以会出现过学习现象是因为试图用一个非常复杂的模型去拟和 有限的样本,从而导致丧失了模型的推广能力。学习机器的复杂性和推 广性是一对相互矛盾的因素:模型的复杂度越大,则模型的精度越高。 但是,这势必会影响到模型的推广性能。例如,文献【7 恰出一个实验: 在有噪声条件下用模型y = x 2 产生l o 个样本,分别用一个一次函数和一 个二次函数根据e r m 原则去拟合。结果显示,虽然真实模型是二次, 但由于样本数有限且受噪声的影响,用一次函数预测的结果更好。同样 的实验进行了1 0 0 次,7 1 的结果是一次拟合好于二次拟合。 由此可看出,有限样本情况下,经验风险最小并不一定意味着期 望风险最小:学习机器的复杂性不但应与所研究的系统有关,而且要 和有限数目的样本相适应。因此,需要一种能够指导我们在小样本情况 下建立有效的学习和推广方法的理论,即它能根据有限的样本信息在模 型的复杂性和学习能力之间寻找最佳折中,以期获得最好的泛化能力。 2 3 统计学习理论 统计学习理论就是研究小样本统计学习的理论,包括以下几个基本 概念:结构风险最小化原理、v c 维、以及推广性,以下从这几个方面说 中国石油大学( 华东) 硕士论文第2 章统计学习理论与支持向量机原理 明统计学习理论。 2 3 1 统计学习理论与传统统计学习理论的区别 传统的统计学所研究的是渐近理论,也就是当样本数目趋向无穷大 时的极限特性。但是在实际应用中,该前提一般无法满足。因此些理 论上很成熟的学习方法在实际中的表现却可能不尽如人意。神经网络存 在着网络结构需要确定、过学( o v e f i t f i n g ) 现象、局部极小点等问题,从 本质上说就是因为理论上需要无穷样本与实际中样本有限的矛盾造成 的。 与传统统计学的方法不同,v a p n i k 等人提出了一个较完善的基于有 限样本的理论体系统计学习理论。统计学习理论是一种专门研究小 样本情况下机器学习规律的理论,它试图从本质上研究机器学习问题, 从而克服了神经网络的缺陷。 2 3 2v c 维 模式识别中v c 维 8 】的直观定义是:对一个指示函数集,如果存在厅 个样本能够被函数集中的函数按所有可能的矽种形式分开,则称函数集 能够把h 个样本打散,函数集的v c 维就是它能打散的最大样本数目h 。 若对任意数目的样本都有函数能将它们打散,则函数集的v c 维是无穷 大。v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂,所 以v c 维又是学习机器复杂程度的一种衡量。 2 3 3 推广性的界 统计学习理论系统地研究了对于各种类型的函数集的经验风险和实 际风险之间的关系,即推广性的引8 1 。对于两类分类问题,结论是:对 指示函数集中的所有函数( 包括使经验风险最小的函数) ,经验风险 尺。 ) 和实际风险r ) 之间以至少1 - 的概率满足如下关系: 酬芦掣 ( 2 _ s - 1 ) 中国石油大学( 华东) 硕士论文第2 章统计学习理论与支持向量机原理 其中五是函数集的v c 维,n 是样本数,满足0 s r s 1 。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的: 一是经验风险( 训练误差) ;另一部分称作置信范围,它和学习机器的 v c 维及训练样本数有关。可以简单地表示为: r 妇) r 。,协) + c d ( h n ) ( 2 3 - 2 ) 右端第二项可知,咖o n ) 随砌大而增大。 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) , 则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就 是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最 小,还要使v c 维尽量小以缩小置信范围,才能取得较小的实际风险,即 对未来样本有较好的推广性。因此,v a p n i k 提出了结构化风险最小原理: 为了达到期望风险最小,设法使上式右边两项同时最小,i i i j v c 维h 和经 验风险r 。,) 同时最小。 2 3 4 结构风险最小化原理( s r m ) 从上面的结论看到,e r m 原则在样本有限时是不合理的,我们需要 同时最小化经验风险和置信范围。其实,在传统方法中,选择学习模型 和算法的过程就是调整置信范围的过程,如果模型比较适合现有的训练 样本( 相当于h n 值适当) ,则可以取得比较好的效果。但因为缺乏理论 指导,这种选择只能依赖先验知识和经验,造成了如神经网络等方法对 使用者“技巧”的过分依赖。 实现s r m 原则可以有两种思路f 2 】,一是将函数集分成若干子集,在 每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和 最小的子集。但是这种方法比较费时,当子集数目很大甚至是无穷时不 可行。因此有第二种思路,即把函数集s = 厂如国) ,( - 0 q ) 构造为一个函 数子集序列:墨c s :c ac - - 最c a s ,使各个子集按照v c 维的大小( 亦 即中的大小) 排列,即:h 。s h :a h 。 。这样在同一个子集中的置 信范围就相同,然后在每个子集中寻找最小经验风险,通常它随着子集 的复杂度增加而减小。然后在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浆染联合机挡车工设备安全技术规程
- 激光加工设备装调工设备技术规程
- 公司农作物种植技术员工艺作业技术规程
- 水电安装施工组织设计
- 四年级儿童心理导航
- 广东省湛江市雷州市四校2025届九年级下学期中考三模数学试卷(含解析)
- 非金属及其化合物(讲义)-高考化学二轮复习
- 2025福建漳州市龙海区嘉达出行服务有限公司招聘10人笔试历年参考题库附带答案详解
- 2025下安徽省水利水电勘测设计研究总院股份有限公司校园招聘笔试历年参考题库附带答案详解
- 2025湖南高速工程咨询有限公司招聘劳务派遣员工12人笔试历年参考题库附带答案详解
- 高考作文论证方法之对比论证的运用-课件
- CE 认证培训教材课件
- 《数据科学导论》教学大纲
- 大会-冠脉微循环障碍课件
- JB∕T 7301-2017 手持式凿岩机
- 绝缘手套试验报告(安全工器具试验报告)
- 少儿美术课件-《阿拉丁神灯》
- 废气处理专业设备酸雾净化塔技术方案书
- 健康饮食益处多(教案) 小学一致二年级体育
- 外科手术学教案-运动系统慢性损伤
- GB3956-97电缆的导体
评论
0/150
提交评论