支持向量机算法介绍_第1页
支持向量机算法介绍_第2页
支持向量机算法介绍_第3页
支持向量机算法介绍_第4页
支持向量机算法介绍_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

支持向量机算法介绍众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用。但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模型,遂成为模式识别研究领域内的一个难点,即所谓小样本难题”。支持向量机(supportvectormachine,简称SVM)算法已得到国际数据挖掘学术界的重视,并在语音识别、文字识别、药物设计、组合化学、时间序列预测等研究领域得到成功应用。1、线性可分情形SVM算法是从线性可分情况下的最优分类面(OptimalHyperplane)提出的。所谓最优分类面就是要求分类面不但能将两类样本点无错误地分开,而且要使两类的分类空隙最大。设线性可分样本集为(土,约),i=L・,设线性可分样本集为(土,约),i=L・,・,n,xeRd,ye{+1,-1},d维空间中线性判别函数的一般形式为gG)=wtx+b分类面方程是wTx+b=0,我们将判别函数进行归一化,使两类所有样本都满足IgG)〉1,此时离分类面最近的样本的|gG)=】,而要求分类面对所有样本都能正确分类,就是要求它满足y(wtx+b)-1>0,i=1,2,…,n。(4)式(4)中使等号成立的那些样本叫做支持向量(SupportVectors)。两类样本的分类空隙(Margin)的间隔大小:Margin=2/W(5)因此,最优分类面问题可以表示成如下的约束优化问题,即在条件(4)的约束下,求函WII2=1(wTw)(6)A的最小值。为此,可以定义如下的Lagrange函数:L(w,b,a)=—wtw-£a[y(wtx+b)-1]⑺i=1其中,ai-0为Lagrange系数,我们的问题是对w和小求Lagrange函数的最小值。把式(7)分别对w、b、a,求偏微分并令它们等于0,得:—=0nw=£ayxdwiiii=1竺=0n乙y=0dbiii=1QL-—=0na[y.(wtx+b)-1]=0i以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题:maX^a—^XEaayy^xtx)i2ijijiji=1i=1j=1<s.ta>0,i=1,,n(8)Xay.=0

11

li=1这是一个不等式约束下二次函数机制问题,存在唯一最优解。若a*为最优解,则iw*=Xa*yx(9)i=1a*不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。i

》*可由约束条件a[y(wTx+b)-1]=0求解,由此求得的最优分类函数是:iiia*yx*xb*)(10)iii+i=1f(x)=sa*yx*xb*)(10)iii+i=12、线性不可分情形当用一个超平面不能把两类点完全分开时(只有少数点被错分),可以引入松弛变量&,(&.^0,i=1,-,n),使超平面wTx+b=0满足:y(wtx+b)>1-&.(11)当0<匚<1时样本点了.仍旧被正确分类,而当匚31时样本点x被错分。为此,引入以下目标iiii函数:V(w,&)=LWTW+C工&(12)i=1其中C是一个正常数,称为惩罚因子,此时SVM可以通过二次规划(对偶规划)来实现:maEa-=E£aayy^xtx)i2ijijiji=1i=1j=1<s.t0<a<C,i=1,...,n(13)j=0i1li=13、支持向量机(SVM)的核函数若在原始空间中的简单超平面不能得到满意的分类效果,则必须以复杂的超曲面作为

分界面,SVM算法是如何求得这一复杂超曲面的呢?首先通过非线性变换①将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的核函数(内积函数)实现的,令:K3,X.)=(①3.).①3.)}(14)用核函数K(x,X)代替最优分类平面中的点积xtx,就相当于把原特征空间变换到.jij了某一新的特征空间,此时优化函数变为:Q(a)=乙-1£&ayyK(X,x)(15)/=1j=12i/=1j=1而相应的判别函数式则为:f(x)=sgn[(w*)r4(x)+b*]=sgn(才a*yK(x,x)+b*)(16)i=1其中X.为支持向量,X为未知向量,(16)式就是SVM,在分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络,如图1y=sgy=sgn,一,、、£a.y.K(x.,x)+bS个支撑向量机的非线性变换图1支持向量网络预报未知样本类别的示意图Fig.1Thesketchmapofsupportvectornetworktopredictanunknownsample由于最终的判别函数中实际只包含未知向量与支持向量的内积的线性组合,因此识别时的计算复杂度取决于支持向量的个数。目前常用的核函数形式主要有以下三类,它们都与已有的算法有对应关系。⑴多项式形式的核函数,即K(x,xt)=k{)+J,对应SVM是一个q阶多项式分类器。(2)径向基形式的核函数,即K(2)径向基形式的核函数,即K(x,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论