基于支持向量机的锅炉水位研究毕业论文_第1页
基于支持向量机的锅炉水位研究毕业论文_第2页
基于支持向量机的锅炉水位研究毕业论文_第3页
基于支持向量机的锅炉水位研究毕业论文_第4页
基于支持向量机的锅炉水位研究毕业论文_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

支持向量机在发电厂锅炉建模的预测研究摘要支持向量机SUPPORTVECTORMACHINE,SVM是CORINNACORTES和VAPNIK等于1995年首先提出,它建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力的一种算法。本次研究的目的将支持向量机理论的算法引入发电厂再热汽温预测之中,在汽温允许的范围内通过支持向量机算法构造出发电厂再热系统模型,运用回归运算的方法对发电厂再热系统的汽温进行预测。支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合建模等其他机器学习问题中。因而我们将发电厂再热汽温的预测问题看作是一种多影响因子的非线性函数关系的逼近问题,使得发电厂锅炉建模问题大大简化。关键词支持向量机;锅炉汽包水位;机器学习;统计学习理论。THEPREDICTIONRESEARCHOFSUPPORTVECTORMACHINEINTHEPOWERPLANTBOILERMODELINGABSTRACTFORTHEFIRSTTIMETHESUPPORTVECTORMACHINESUPPORTVECTORMACHINE,SVMWASPROPOSEDBYCORINNACORTESANDVAPNIKIN1995THESUPPORTVECTORMACHINEISANALGORITHMBASEDONTHETHEORYOFVCOFSTATISTICALLEARNINGTHEORYANDTHETHEORYONTHEBASISOFSTRUCTUREOFMINIMUMRISKACCORDINGTOTHELIMITEDSAMPLEINFORMATIONITCANCHOOSETHEBESTPARAMETERSBETWEENTHECOMPLEXITYOFTHEMODELTHATISSTUDYACCURACYOFTHESPECIFICTRAININGSAMPLEANDLEARNINGABILITYIETHEABILITYOFCORRECTTORECOGNITIONANYSAMPLE,SOASTOGETTHEBESTPROMOTIONABILITYTHEPURPOSEOFTHISSTUDYTHESUPPORTVECTORMACHINEALGORITHMTOINTRODUCEINTOTHEPREDICTIONOFPOWERPLANTREHEATSTEAMTEMPERATURE,ANDBYTHESUPPORTVECTORMACHINEALGORITHMCONSTRUCTTHETEMPERATUREOFTHEPOWERPLANTREHEATSTEAMSYSTEMTOCONTROLINTHEEXTENTPERMITTED,ANDTOPREDICTTHETEMPERATUREOFTHEPOWERPLANTREHEATSTEAMSYSTEMSUPPORTVECTORMACHINESVMTHATTOSOLVETHEPROBLEMSOFTHESMALLSAMPLE,NONLINEARANDHIGHDIMENSIONALPATTERNRECOGNITIONHAVEMANYUNIQUEADVANTAGES,ANDITCANPROMOTETHEAPPLICATIONOFTHEFUNCTIONFITTINGINOTHERMACHINELEARNINGPROBLEMSTHUSTHEPOWERPLANTBOILERREHEATSTEAMPROBLEMCANALSOBESEENASANAPPROXIMATIONPROBLEMOFNONLINEARFUNCTIONTHATITWASINFLUENCEBYMANYINFLUENCEFACTORS,ANDITMAKEGREATLYSIMPLIFIEDFORPOWERPLANTBOILERMODELINGPROBLEMKEYWORDSSUPPORTVECTORMACHINESVMBOILERDRUMOFWATERMACHINELEARNINGSTATISTICALLEARNINGTHEORY目录绪论5背景及意义5论文的主要内容5第一章统计学习理论原理及凸最优解的基本理论711统计学习理论原理7111基于数据的机器学习问题建模7112经验风险最小化8113学习过程的复杂性8114推广性界的问题9115VC维理论10116结构风险最小化1112凸最优解的基本理论12121最优化问题12122最优性条件13123对偶理论1513本章小结16第二章支持向量机与支持向量回归机1721支持向量机的基础17211支持向量机理论17212核函数21213支持向量机的经典分类问题2222支持向量机回归问题27221SVM的回归原理27222LIBSVM软件使用2923本章小结31第三章发电厂锅炉系统概论3231发电厂锅炉系统32311发电厂的基本生产过程32312发电厂动力部分系统简介32312发电厂锅炉的基本概念3432发电厂锅炉再热汽温系统35321再热汽温的特性35322影响再热汽温变化的因素36323传统再热汽温的调节方法3733本章小结37第四章支持向量机在发电厂锅炉的预测研究3941支持向量的训练过程39411训练数据的选取39412SVM数据的归一化处理40413核函数的手动测试4142实验结果4343本章小结46致谢47参考文献48附录部分49附录A外文翻译原文部分49附录B外文翻译译文部分53附录C支持向量机在发电厂锅炉建模的相关应用代码56附录D软件的安装说明及使用说明58绪论背景及意义基于数据的机器学习是现代智能技术中的重要方面,是人工智能具智能特征、前沿的研究领域。其主要模型是利用采集到的样本数据(输入输出数据)拟合样本模型的特征函数,再通过这些特征函数对未来数据或无法观测的数据进行预测。其主要形式包括模式识别、神经网络、智能控制等。由于传统统计学研究的是样本数目趋于无穷大时的渐近理论,而大多数现有学习方法也都是基于假设。但在实际问题中,样本数往往是有限的,因此一些理论上能快速决策和预测的学习方法在实际中却并不适用1。然而在实际应用中,大多数系统都是非线性、时变、强耦合的多变量系统,传统的控制方法会给系统带来很大的超调量1。虽然随着智能控制研究的发展,人工神经网络、专家系统、模糊逻辑以及模糊神经等非线性系统模型,也不断应用到分类和预测中,并且这些非线性模型具有更快的响应和更小的超调,而且对过程参数也具有一定的鲁棒性,但仍有一些难以克服的缺陷,如优化过程可能陷入局部极值,神经网络采用的经验风险最小化准则泛化能力不强,无法控制其收敛以及收敛速度1。直到1995年CORINNACORTES和VAPNIK提出基于统计学理论的通用学习方法支持向量机(SUPPORTVECTORMACHINE或SVM)才使得以往困扰机器学习的模型选择、非线性、高维数和局部极小点等诸多问题,在一定程度上可得以解决。支持向量机由于其完整的理论框架和在实际应用中取得的很多好的效果,在机器学习领域受到了广泛的重视1。并且它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题2。此外,它具有坚实的理论基础,简单明了的数学模型,因此,在模式识别、回归分析、函数估计、时间序列预测等领域都得到了长足的发展,并被广泛应用于文本识别、手写字体识别、人脸图像识别、基因分类及时间序列预测等2。本次研究的意义在于发电厂锅炉是一种能量转换设备,其利用燃料燃烧释放的热能或其他热能加热水或其他工质,生产规定参数温度、压力和品质的蒸汽、热水或其他工质,再利用这些生产出来的工质的推动作用带动汽轮机转动,通过连杆将汽轮机旋转的机械能转化为电能7。因此发电厂锅炉系统是一种非线性、时变大、强耦合的多变量系统,传统的数学建模方法使得我们对发电厂锅炉再热汽系统的建模造成困难,因此我们将支持向量机理论的算法引入发电厂锅炉再热汽温的预测之中,通过支持向量机算法构造出发电厂锅炉再热汽温的输出预测在允许的范围内变化,并运用回归运算的方法对发电厂锅炉再热系统的汽温进行预测。论文的主要内容(1)熟悉发电厂锅炉的相关构造,认识电厂锅炉过热,再热汽温对机组安全,经济运行的重要性;(2)了解统计学习理论原理及凸最优解的基本理论;(3)掌握支持向量机相关理论基础,结合结构风险最小化原则和VC维理论知识,建立满足高精度和强泛化能力的支持向量机模型,用于对数据群的分类和回归预测;(4)分析支持向量机在发电厂锅炉再热汽温预测的问题通过改变影响再热汽温的变量,得到有关发电厂锅炉再热汽温相关数据。将数据进行归一化处理。比较多个核函数建立的支持向量机模型,选取最优核函数。通过改变核函数相关参数和优化函数惩罚因子,得到最优预测效果。利用选取好的最优支持向量机模型,对测试数据进行预报。(5)完成用MATALAB编写的支持向量机在发电厂锅炉再热汽温预测的实现程序,并进行调试。数据产生器G训练器S学习机器LM第一章统计学习理论原理及凸最优解的基本理论11统计学习理论原理111基于数据的机器学习问题建模机器学习的基本定义机器通过模拟人的学习行为获取新知识和新技能的一种行为。机器学习的研究目标是利用给定有限数量的训练样本求对某系统输入输出之间特征函数的估计,使它能够对未知输出作出尽可能准确的预测。基于数据的机器学习问题的基本模型可以用图11表示。XYY图11基于数据的机器学习问题基本模型步骤1我们通过输入输出的对应关系获取参数模型的特征函数。步骤2我们通过已得到的学习机器通过输入X获取估计值YG数据产生器,从未知概率分布函数独立产生随机向量X,,FXYNRS训练器,根据联合分布抽取个独立分布构成训练样本。LLM学习机器,选择最优解Y去逼近训练响应Y的函数。机器学习问题一般可以表示为变量Y与X存在一定的未知依赖关系,即遵循某一未知的联合概率(X和Y之间的确定性关系可以看作是其特例),机器学习问题,F就是根据N个独立同分布观测样本212NXYXY(,),(,),(111)在一组函数的集合中估计一个最优的函数,使的期望,FXW0,FW0,FX函数值最接近实际2RW,FY(11RLFXDFXY,2)其中,称为最小风险泛函,称作预测函数集,W为函数的广义参数。RW,FX衡量机器学习问题损失和错误程度的函数称为损失函数,用表示,,LYFXW为对Y进行预测而产生的误差大小,即采用最小平方误差准则。其,LYFX,FX表达式42,YFXYFX(113)概率密度估计问题,学习的目的是根据训练样本确定X的概率密度,估计的概率密度函数为,即采用最大自然拟然估计法,求概率密度函数为,则损失函X,WP,PXW数可以定义为4(11,LOG,LPXWPX4)图11所给出的基于数据的机器学习问题的基本模型通常包涵三类典型问题模式识别,回归估计和概率密度估计4。112经验风险最小化所谓的经验风险最小化问题是指我们用有限样本在前人经验算法的帮助下,求取最接近真实值的特征函数,风险就是指估计输出的值与真实值之间的误差。而基于数据的机器学习问题的经验风险最小化目标在于使期望风险达到最小化,RW但是由于我们可以利用的信息只有样本,所以(111)(112)式的连续期望风险是无法计算的,因此,传统的学习方法中采用了所谓经验风险最小化(ERM)准则,即用样本定义经验风险泛函41151,LEMPIIRQZ()在回归估计中,我们以广泛采用的最小二乘法和密度估计的最大拟然法来介绍ERM原则。在模式识别系统模型的估计中损失函数,经验风险最小化等同于训练样本错误率;而在函数逼近中损失函数,经验风险就是最小二乘法。而采用概率密度估计的损失函数的ERM准则就等价于最大拟然估计方法4。仔细研究经验风险最小化原则和基于数据的机器学习问题中期望风险最小化要求可以发现,从期望风险最小化到经验风险最小化并没有完全可靠的理论依据,我们往往是采用前人或专家的技巧与经验,只是主观上人为认定的近似结果。即使有办法使这些条件在数目无穷大时趋近于真实值,也无法保证在同等条件下的经验风险最小化方法在数目有限的情况下任能得到较好的结果4。尽管经验风险最小化有上述的多种问题,但经验风险最小化原则作为解决模式识别等基于数据的机器学习问题的基本思想统治了这一领域几乎所有的研究4。人们多年来将大部分注意力集中到如何更好地最小化经验风险上,而实际上,在很多问题中的样本数目也离无穷大相差甚远,那么如何在有限样本下通过ERM准则得到真实风险较小的结果我们通过下面章节进行论述4。113学习过程的复杂性学习过程的复杂性相当于是对系统建模的复杂性的判定,在系统建模中往往考虑因素越多系统模型越复杂,当样本数目不断增加趋近于连续时,系统建模的经验风险最优值能够收敛到真实风险的最优值,就是经验风险最优值和真实风险能够保持一致性。例如设是对给定的独立同分布观测数据集使经验风险泛函式,LQZ12,LZ(115)最小化的函数,如下面两序列概率收敛于同一个极限,即4INFPLLRR,(11INFPEMPLLR6)则称ERM原则对函数集,和概率分布函数是一致的。其中,,QZFZ为实际可能的最小风险,即式(111)的下界或最小值。INFR经验风险最优值和真实风险的最优值的关系可以用图12表示。INFRLREMPL图12经验风险最优值和真实风险的最优值的关系示意图实际测试中却很难达到上述关系,但也存在一种可能,就是预测函数集中包涵某个特殊的函数,使上述条件得到满足。若从函数集中去掉这个函数,则这些条件就不再满足。保证一致性是所研究的学习方法的性质,而不是有函数集中的个别函数导致,于是要使一般的函数满足一致性要求我们提出了非凡一致性的概念,即要求是对预测函数的所有子集都成立,只有非凡一致性才是实际上有意义的,因此,后续章节所提及的一致性均是非凡一致性3。对于有界损失函数,经验风险最小化学习的一致性的充分必要条件是经验风险式在(116)的条件下一致的收敛于真实风险LIMSUP0,LPR(117)其中,P表示概率,和分别是个数据样本下的经验风险和对同一个R()EMP()L下的真实风险,这一定理将统计学中学习问题的一致性转化为式(117)的最优值一致性问题3。114推广性界的问题ERM准则推广失败是神经网络的过学习问题,其主要原因是当我们拿到样本的输入输出数据将全部注意力都集中在如何使最小,而达到预测输出的Y能快速跟踪上EMPRW实际Y值的输出。但很快就发现,训练误差小并不总能导致较好的预测效果。某些情况下,训练误差过小反而会导致推广能力的下降,即真实风险的增加,这就是过学习问题。之所以出现过学习现象,一是因为样本不充分,二是学习机器设计不合理。究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致丧失了推广能力。在神经网络中,其自身通过过强网络学习能力将每个样本记住,而使得经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测2。推广性的界即经验风险和实际风险之间的关系,关于两类分类问题,结论是对指示函数集中的所有函数(包括使经验风险最小的函数),经验风险和实际风险EMPRW之间以至少的概率满足如下关系4RW12LN1L4EMPHR(118)其中H是函数集的VC维,N是样本数这一结论从理论上说明了学习机器的实际风险是由两部分组成的一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的VC维及训练样本数有关。可以简单地表示为4EMPHRN(119)(118)表明,在有限训练样本下,学习机器的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习现象的原因,机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性4。需要指出,推广性的界是对于最坏情况的结论,在很多情况下是较松的,尤其当VC维较高时更是如此,研究表明时这个界肯定是松弛的,当VC维无穷大时这个界037HN就不再成立。而且,这个界只在对同一类学习函数进行比较时有效,可以指导我们从函数集中选择最优的函数,在不同函数集之间比较却不一定成立。实际上,寻找更好地反映学习机器能力的参数和得到更紧的界是学习理论今后的研究方向之一4。115VC维理论VC维(VAPNIKCHERVONENKISDIMENSION)的概念是为了研究学习过程一致收敛的速度和推广性,是对由学习机器能够实现的分类函数族的容量或表达力的测度2。传统的定义是如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大,VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)4。分类函数集的VC维特点是能被机器对于分类函数的所有可能二分,FXWW标志无错学习的训练样本的最大数量度量。假定有一个包含N个点数据集,我们无法用一条线性规划对其每一个元12,LZ素划分,因此我们引用VC维理论,VC维代表的是分类点可以被划分的情况,如下图13(C)其平面直线的VC维等于3划分情况为8个。由于分类点个数的不同,划分方式也不同,如图13(A)所示,其分类点能打散3个向量而不能打散4个向量,而如图13(B)图所示,向量分类点不能和划分开来,24,Z1,Z2Z121Z2Z3Z3Z0(A)0(B)1Z1Z(C)图13多维函数的线性分类器和线性实函数的VC维对于线性函数而言VC维等于自由参数的个数,而总体而言VC维,在一定程度上指代的是系统的复杂程度,对于任意包含个训练样本的样本集,我们对样本集中的元素进L行划分的各种情况,也就是所谓的打散成个,并用打散样本集的个数来衡量样本的复2H杂度。24Z116结构风险最小化从上述的结论可以看出,ERM原则在有限样本条件下是很难做到和实际系统的参数模型保持良好的一致性,但实际上我们对系统的建模,又需要同时满足最小化经验风险和置信范围两个条件。而在传统方法中,选择学习模型和算法的过程就等同于调整置信范围的过程,相当于值的样本点X输入系统模型中可以得到准确无误的Y,而一旦输入HN实验样本点就会产生于实际值偏离交大的误差。于是由于缺乏理论指导和较大误差的情况下,我们只能依赖先验知识和经验,造成了如神经网络等方法对使用者技巧与经验过分的依赖,而造成局部最小点最优,推广到全局时使用性能变差,无法控制其收敛以及收敛速度6。统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小(亦即的大小)排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小,如图14所示。这种思想称作结构风险最小化即SRM准则4。函数过分追求函数模型的推广过分追求函数模型与样本数据的一性函数而使得该函数模型经验致性而使得该函数模型推广到其他风险与损失函数变大数据能力变差风险欠学习过学习真实风险置信范围支持向量机的目的在于获取介于过学习与欠学经验风险习间的最优值HS1S2S3函数集子集S1S2S3VC维H1H2H3图14有序风险最小化示意图结构化风险经验风险置信风险;经验风险分类器在给定样本上的误差;置信风险分类器在未知文本上分类的结果的误差;置信风险因素样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。提高样本数量,降低VC维,降低置信风险7。以往机器学习的目标是经验风险最小化,要降低经验风险,就要提高分类函数的复杂度,导致VC维很高,VC维高,置信风险就高,导致结构风险也高,以至于所求得的预测模型在训练样本输入时能较好的跟踪,但是一旦有实验样本输入时,预测模型输出值与真实值偏差较大。实现SRM原则可以有两种思路,一是在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。显然这种方法比较费时,当子集数目很大甚至是无穷时是不可行的。因此有第二种思路,即设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。支持向量机算法实现实际上就是融合经验风险最小化和置信范围择中寻优的具体实现,通过SRM准则对传统的机器学习方法问题进行改进的问题4。12凸最优解的基本理论121最优化问题什么是最优解在数学中是指寻找一个多变量函数最小值问题,常规方法有,求导,求条件极值等。在曲线拟合问题中最优值是指CAB(121)其中A,B,C是未知参数,假定现在实验测得的组数据,L选择适当A,B,C参数使尽可能靠近所以的实验点12,LCAB,如图15所示7。II图15曲线拟合示意图此问题用最小二乘法求解,即选择适当A,B,C参数,(122)使偏差平方和取最小值。(1221,LCII2)就如同支持向量机最优化条件是求经验风险最小化是一样的,通过寻找一个最大间隔分类的最优分类线,使得该最优分类线在保证分类精度的同时,能够使最优分类线两侧内的空白区域最大化。前者保证了经验风险最小化,后者分类间隔最大化实际上就是使推广性界中的置信范围最小化,从而保证真实风险最小化。于是我们可以得出下述章所讲述的支持向量机最优化求解问题7。122最优性条件我们解决一个问题时,如果将该问题表示为一个函数,最优化问题就是求该函FX数的极小值。通过高等数学知识可以知道,如果该函数连续可导,就可以通过求导,计算导数为零的点,来求出其极值。但现实问题中,如果不是连续可导的,就不能用F这种方法了,所以求非连续可导最优解的问题可以分为两种无约束最优问题有约束最优问题无约束最优算法可以表达为。可以用数值计算方法中的牛顿法、最速梯度MINXF下降法等,通过多次循环,求得一次近似的最优解。有约束问题,一般表达为(12IN0,1,2,NXIJFXESTGIMHJL3)而支持向量机的算法最后归结为求解二次规划的问题,对于二次规划的问题约束极值及最优性条件充分必要条件KUHNTUCKER条件如下等式约束性问题的最优性条件考虑(12MIN0FXSTH4)回顾高等数学中所学的条件极值问题求极值,在的条件下。,ZFXY,0XY即(12MIN,FST5)引入LAGRANGE乘子(12,LXYFXYXY6)若是条件极值,则存在,使得,XY(12,0,0XXYYF7)推广到多元函数情况,可得到对于等式约束的情况分量形式(12MINST0,1,2JFXHJL8)若X是其最优解,则存在使RL(12LJJXHXF109)几何意义如下图16所示,考虑一个约束的情况最优性条件即8(12LJJXHXF110)图16最优性条件几何意义这里最优,与共线,而非最优与不共线。XFXHXFHX123对偶理论4在约束问题解的最优性条件中,不仅包含解的向量,而且包含一个对应的LAGRANGEX乘子向量。如果事先知道这个LAGRANGE乘子向量,常常会减少求解原来约束问题的困难,这导致求解约束问题的一个新途径;首先求出与解相应的这个LAGRANGE乘子,然后据此求出约束问题。显然这里有两个问题需要解决4X能否构造一个以LAGRANGE乘子向量为变量的最优化问题,使得该问题的解正好是与解相应的LAGRANGE乘子。从与解相应的LAGRANGE乘子出发,能否很快得到原约束问题的解而以上问题可以通过对偶理论得以解决对偶问题概念任何一个线性规划问题都有一个与之相对应的线性规划问题,前者称为原始问题,后者就称为“对偶”问题。对偶问题是对原问题从另一角度进行的描述其最优解与原问题的最优解有着密切的联系,在求得一个线性规划最优解的同时也就得到对偶线性规划的最优解7。支持向量机最优分类面的求解问题中,我们可以将上述问题转化为凸二次规划寻优问题的对偶问题,将支持向量机的分类模型转换为凸二次规划模型,使得在凸函数中仅有一个最优值,省去了曲线函数中的多极值的干扰,但表达式中还存在对应的LAGRANGE乘子向量使参数变量过多而使得计算困难如(126)所示6。11MAX20,NNIIJIJIJIJILIIYXSTLY(1211)我们通过求条件极值,将用代替大大减少计算参数个数如(127)所示W1LIIIYAX,(121LJIIJIBYX12)使得决策表达式变为使得支持1SGNSGN,LIIIIFXWXBYXB向量机最优分类面凸二次规划寻优问题的预测系统中的未知参数个数减少为和。W13本章小结本章通过论述统计学基本理论,为以下章节的概念论述作理论基础,第一节通过简单论述统计学习原理、机器学习建模、经验风险最小化、学习过程的复杂性、推广性界、VC维理论、结构风险最小化等相关理论。之后我们讨论经验风险最小化和推广性自身存在的矛盾,并运用支持向量机通过结构风险最小化达到经验风险最小化和推广能力同时达到最优理论结构,经验风险最小化是衡量系统模型的输出函数与真实值的误差,复杂性是对系统建模函数复杂度判定,而VC维是衡量系统建模推广度。第二节通过进一步论述支持向量机的最优化问题、优化极值条件、对偶问题,进一步完善回归和拟合的问题。系统回归和拟合问题的初衷在于与期望产生的输出的误差最小化,而最小化则更靠近二次规划寻优的问题,求最优值问题就要牵扯到约束条件和无约束条件,通过一定约束条件求解,我们要进一步简化问题的解,就希望减少未知参数个数,因此我们又需要对偶定理做为铺垫。第二章支持向量机与支持向量回归机21支持向量机的基础211支持向量机理论(1)SVM的基本思想SVM是从样本集合点线性可分情况下最优分类平面发展而来的,其基本形式如图21所示。SVM的机理是寻找一个最大间隔分类的最优分类线,使得该最优分类线在保证分类精度的同时,能够使最优分类线两侧内的空白区域最大化。前者保证了经验风险最小化,后者分类间隔最大化实际上就是使推广性界中的置信范围最小化,从而保证真实风险最小化。推广到高维空间,最优分类线就成了最优分类面,如果不去精确高维空间的具体维数我们将最优分类面统称为超平面。表示样本点1X表示样本点2XSVM的机理在于寻找一个最大间隔分类的超平面将两个样本分类1X图21SVM的原理示意图实际上,一个线性函数是一个实值函数(即函数值是连续的实数),而我们的分类问题是需要输出一个离散数值,于是我们用1表示某一类别,而用0表示示某一类别1C,这时我们再在这个实数函数的基础上附加阀值,就可以通过分类函数执行得到大于2C还是小于这个阀值的类别归属。例如我们现有一个分类函数,当取阀值为0时,通过这样一个分类函0WXB数对样本进行判断,若,就判断为类,若,就判断为类,等于时就暂0GX1CGX2C缓判断,于是我们可以得出一个的决策函数,即()SNFXX(211)实际上很容易看出,中间的分类直线并不是唯一的,我们稍微将其旋转一下,只要不要将两类数据分错,任然可以达到上面所说的效果。因此就涉及到一个问题,对同一问题存在多种分类时,哪一个效果最好,于是我们用最大间隔作为衡量分类效果的指标。现再将W和B归一化处理,即用和分别代替原来的W和B,那么间隔可以|W|B写成也就是解析几何中点到直线的公式,推广到超平面也就是到的距|GXD0GX离,这种几何间距所表示的正是点到超平面的欧式距离,其基本实现可以图22所示的二维情况说明。且延长线与Y轴交于BW为分类线的范数也就是D的长度GXWB()图22SVM的最优分类平面我们之所以求取几何间隔最大化,是因为几何间隔与样本的误分次数存在对应关系误分次数(212NRW2)其中为样本点中向量最长值,因此有上式可以看出,误分次数MAX|,1,IRL的上界与几何间隔有关。又由于凡是求解最大化的问题我们可以用最小化解决,因此我们得出求最优分类线表达式21MINW(213)当给定目标后,我们需要加上约束条件,我们将最小间隔定为1,所以按照间隔定理,满足下面的式子总是成立的。10,IIYWXBIL(214)于是支持向量机的原理的基本表达式写成2,MIN,1,WBIISTYXBIL(215)(2)最优分类面4因此我们用拉格朗日函数优化分类面,得到如下定义(211,|12LIIIILWBYWXB6)由条件极值得110001LIIILIIIILWYXBLYXB(217)可以将上述最优分类面的求解问题可以转化为凸二次规划寻优问题的对偶问题11MAX20,NNIIJIJIJIJILIYXSTLY(218)据此求出(最优解,算法另述)后1LIIIWYAX,(211LJIIJIBYX9)是分类阀值,有约束条件求解,最优分B1,|12LIILBWYXB类面函数为1SGNSGN,LIIIIFXXBYXB(2110)上式为SVM的一般表示形式。(3)广义的最优分类面上述的方法为了保证训练样本被正确分类的前提下,通过最大分类间隔获得最好的推广性能。当最优分类平面不能把两类点完全分开时,希望在经验风险和推广性能之间求取某种平衡,则可以通过引入松弛因子,允许错分样本的存在,此时分类平面满足40WXBIXIX核函数1,IIIYWXBL(2111)该式考虑了最小化错分样本数和最优推广能力,目标函数改为4(2121|,CLI12)式中,C是一个正数,称为惩罚因子,式(2110)可通过如下的二次规划来实现4(21111MAX20,2,LLJIJIJIJJIJLIIIYXSTYCIL13)支持向量机的原理是基于线性划分的。但是可以想象,并非所有数据都可以线性划分。如二维空间中的两个类别的点可能需要一条曲线来划分它们的边界。支持向量机的原理是将低维空间中的点映射到高维空间中,使它们成为线性可分的,再使用线性划分的原理来判断分类边界2。在高维空间中,它是一种线性划分,而在原有的数据空间中,它是一种非线性划分。但是讨论支持向量机的算法时,并不是讨论如何定义低维到高维空间的映射算法(该算法隐含在其“核函数”如图23中),而是从最优化问题(寻找某个目标的最优解)的角度来考虑的4。低维数据空间高维数据空间图23SVM基本思路示意图因而线性不可分问题映射到高维空间变成线性可分问题,因而无论是寻找目标函数,还是寻找最优分类面,都只涉及到点积的运算。而我们只用关注优化问题而不用IXY考虑对应关系。因此目标函数变为112LLJIJIJIJJIJQYKX(2114)分类函数也变为1SGN,LIIIYYKXB(2115)所以SVM分类函数可以类似于一个神经网络,输出的每一个线性组合的每一个中间节点都对应一个支持向量机,如下图24所示。Y1Y2YSY图24SVM基本分类示意图由于最终的判别函数中实际只包含未知向量与支持向量内积的线性组合,因此,在模式识别时要计算特征函数的复杂度取决于支持向量的个数。概括的说,支持向量就是首先通过用内积函数定义的非线性变化将输入空间变换到一个高维空间,然后在这个空间中求广义的最优分类面4。212核函数根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题8。而最大的障碍则是在高维特征空间运算时如(2116)存在的“维数灾难”,而这种问题最有效的解决办法是运用核函数技术。核函数将M维高维空间的内积运算转化为N维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础2。1SGN,LIIKXB1,KX2,X,SKX1XNX2X(2111MAX20LLIIJIJIJIJLIWYXSTY16)核函数是这样定义的对所有训练样本而言,而,若函数K满足YZXR,则称函数K是核函数。其中是从输入空间X到内积,IJKXYX,KXY特征空间的映射,表示内积。单从核函数的定义,我们并不能很容易的选择和确定核函数,但可以通过MERCER定理从理论上去确定核函数并了解其特性,事实上任何一个函数只要满足MERCER条件,就可用得到原输入空间中对应的非线性算法。目前研究最多的核函数主要有三类多项式核函数,1QIIKXX径向基函数2|,EPIISIGMOID核函数,IIKXSVXC其中由于径向基核函数对应的特征空间是无穷维的,有限的样本在该特征空间中肯定是线性可分的,因此径向基核是最普遍使用的核函数。213支持向量机的经典分类问题(1)线性可分的二分类问题4线性可分的二分类问题是指训练样本可以用一条直线(如果数据只有二维)或一个超平面划分开。用一个多维空间中的超平面将数据分隔为两个类有三种基本方法平方最近点法用两类点中最近的两点连线的平分线作为分类线(面);最大间隔法求分类面,使分类边界的间隔最大。分类边界是值从分类面分别向两个类的点平移,直到遇到第一个数据点。两个类的分类边界的距离就是分类间隔。分类平面表示为。注意,X是多维向量。分类间隔的倒数为。0WB21W所以该最优化问题表达为(2117)2,1MIN,1,WBIISTYXBIL其中的约束是指要求各数据点到分类面的距离大于等于1。其中,为数据,IIY的分类。线性支持向量分类机分类面要求,0WXB(21111MIN,20,2,LLIJIJIJJIJJLIIYXSTCL18)据此求出(最优解,算法另述)后1LIIIWYAX,(211LJIIJIBYX19)说明线性支持向量机是基于最大间隔法的,该问题是一个二次规划问题,使用拉格朗日函数合并优化问题和约束,再使用对偶理论得到上述的分类优化问题。(2)线性不可分问题4线性软间隔分类机基本思路由于样本线性不可分,原来对间隔的要求不能达到。引入松弛变量,I使约束条件弱化为1IIIYWXB(2120)但是,我们仍然希望该松弛变量最小化(如果,则就是原线性硬间隔分类机)I0I。于是,在优化目标函数中使用惩罚参数C来引入对最小化的目标。这样,该分类机I的模型为分类面要求0WXB(212,1MIN,1,LIWBIIICSTYXBL21)以此为原问题,其对偶问题为11111MIN,20,2,LLIJIJIJJIJJLIILLIIJIIJYXSTCWYAXBYX(2122)通过对偶理论的条件极值计算方法减少系统参数,若系统的方程参数的矩1LIIIYAX阵形式其未知数为个,运用上述方法系统的方程参数减少为时,使系统方程参数大大IW减少。非线性硬间隔分类机4基本思路是可以将低维空间中的曲线(曲面)映射为高维空间中的直线或平面。数据经这种映射后,在高维空间中是线性可分的。设映射为,则高维空间中X的线性支持向量机模型为分类面要求0WXB11MIN,20,12,LLIJIJIJJIJJLIIYXSTCL(2123)需要注意的是,由于数据被映射到高维空间,的计算量比大得多。IJXIJX此时引入了所谓核函数,IJIJKX(2124)由上式可见,核函数的作用是,在将X映射到高维空间的同时,也计算了两个数据的在高维空间的内积,使计算量回归到的量级。IJ非线性软间隔分类机(C支持向量分类机)非线性硬间隔分类机虽然将训练数据映射到高维空间中,但核函数的选择只有几种,它们并不能保证在任何情况下都可以将训练数据映射到足够高的维度,以使它们成为线性可分的。因此,有理由在此基础上引入线性软间隔分类机中的松弛变量。这样,原问题为映射1,LTXYXY其中II分类面0WXB2,1MIN,1,LIWBIIICSTYXBL(2125)其对偶问题为111MIN,20,2,LLIJIJIJJIJJLIIYKXSTCL(2126)1,SGN,LJIIJIIIBYKXFXYB所谓的软间隔,通过引入错误分类样本,以增大间隔距离,并用一定的松弛度去衡量容错样本个数,非线性软间隔分类机的工作原理如图25所示。H1H2H2/|W|图25非线性软间隔分类机的工作原理支持向量机分类机C支持向量机中有两个相互矛盾的目标最大化间隔和最小化训练错误。其中的常数C起着调和这两个目标的作用。定性地讲,C值有明确的含义选取大的C值,意味着更强调最小化训练错误。定量地讲,C值本身并没有明确的意义,所以C值的选取比较困难。为此人们提出支持向量机分类机的模型,用另一个参数代替参数C,而参数有一些直观的意义4。支持向量机分类机的原始问题,如(2127)所示2,11MIN0,LIWBIIIIISTYXBL(2127)其对偶问题为111MIN,20LIJIJIJIJLIILIIYKXSTL(2128)有解使得1,TIL(211LIIIWAYX29)(2111,22LLKKIJIKIKIKBYXYKXX30)其中,。ISJ1|0,|,IIIISYLL(2131)则非线性支持向量机的执行步骤如下4A设已知样本点,其中,。,IJXY1,ILDIXR1,JYB选取适当的参数和核函数K,构造并求解如下的最优化问题(2111MIN,20LIJIJIJIJLIILIYKXSTL32)求得最优解。1,TILC选取,计算|0,1IIJSYL1|0,IIKSYL(211,2LIIJIKIBKXX33)D)构造决策函数(211SGN,LIIIFXYKXB34)而且当数据样本个数,以1的概率渐近于支持向量机的个数和数据样本点L个数之比,所以参数有实际的意义。22支持向量机回归问题221SVM的回归原理在支持向量机用于函数回归中,其思路与在分类思想很相似,我们目标都是要找出一条能将分类点分类的直线,但我们要最终得到的回归线是一条可以预测的特征函数曲线,于是将非线性回归函数近似于一维线性回归,也就是相当于我们将曲线无限放大时,曲线接近于直线是一样道理,然后我们得出一条分类直线,通过一定的松弛因子使得在最小的范围内上下平移分类直线,使所形成线性回归不敏感带将采样点都包含在其中,如图26A所示,其输出损失如图26(B)所示。YXDD损失Y(A)(B)图26线性支持向量回归机原理从观测数据中学习归纳出系统规律,并利用这些规律对未来数据或无法观测到的数据进行预测,是进行数据挖掘一直关注的问题。回归分析是预测方法之一,其目的是找出数值型变量间的依赖关系,用函数关系式表达出来。回归分析可以进行因果预测,模型仅仅依赖于要预测的变量与其他变量的关系12。模型是否能提供合理的预测,主要在于自变量和因变量的分布是否符合模型。一般地,在建立回归方程时,将会考虑多种可能的自变量的集合,保证回归方法预测的准确性。回归分析中的变量有两类自变量和因变量。根据自变量的个数,回归分析分为一元回归和多元回归。根据自变量和因变量的函数关系,分为线性回归和非线性回归,其中非线性回归又包括不同类型4。SVM方法最早是针对模式识别问题提出来的,随着VAPNIK对不敏感损失函数的引入,SVM己推广到非线性系统的回归估计,并展现了极好的学习性能。支持向量机方法在非线性系统辨识、预测预报、建模与控制的潜在广泛应用,使得对其研究显得非常重要5。支持向量机首先考虑线性回归,设样本为N维向量,某区域的K个样本及其值表示为(221,LNXYXYR1)线性函数设为(22FXWB2)并假设所有训练数据都可以在精度下无误差地用线性函数拟合,即(221,IIIIWXBYIKY3)考虑到允许拟合误差的情况,引入松弛因子和,则变成0II(221,0IIIIIIIIYWXBYL4)回归估计问题转化为在约束条件(224)下最小化误差为(22211MIN,|LIIIRWWC5)上面式(225)和(224)是一个凸二次优化问题,其对偶问题为(221111AX,21,20LIIJJIJIJLLIIIIIILIIIILXYILSTC6)我们再通过非线性映射从输入空间X到内积特征空间的映射,此,KXYY时,所得回归估计函数为(221KIIIJJFXKXYB7)并通过(227)式输入一定量的测试样本,获取我们所需预测输出。222LIBSVM软件使用4(1)LIBSVM软件包简介LIBSVM可以解决分类问题(包括CSVC、NUSVC)、回归问题(包括SVR、NUSVR)以及分布估计(ONECLASSSVM)等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。(2)LIBSVM使用方法简介LIBSVM是以源代码和可执行文件两种方式给出的。如果是WINDOWS系列操作系统,可以直接使用软件包提供的程序,也可以进行修改编译;如果是UNIX类系统,必须自己编译4。LIBSVM在给出源代码的同时还提供了WINDOWS操作系统下的可执行文件,包括进行支持向量机训练的SVMTRAINEXE;根据已获得的支持向量机模型对数据集进行预测的SVMPREDICTEXE;以及对训练数据与测试数据进行简单缩放操作的SVMSCALEEXE。它们都可以直接在DOS环境中使用4。(3)LIBSVM使用的一般步骤是4按照LIBSVM软件包所要求的格式准备数据集;对数据进行简单的缩放操作;考虑选用RBF核函数;采用交叉验证选择最佳惩罚函数C与核函数参数G;采用最佳参数C与G对整个训练集进行训练获取支持向量机模型;利用获取的模型进行测试与预测。(4)LI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论