版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、07101048张丽敏支持向量机算法理论与算法研究摘要 支持向量机是建立在统计学习理论 VC维理论和结构风险最小化原理基础上 的机器学习方法。它在解决小样本、非线性和高维模式识别问题中表现出许多特 有的优势,并在很大程度上克服了 “维数灾难”和“过学习”等问题。此外,它 具有坚实的理论基础,简单明了的数学模型,因此,在模式识别、回归分析、函 数估计、时间序列预测等领域都得到了长足的发展,并被广泛应用丁文本识别、 手写字体识别、人脸图像识别、基因分类及时间序列预测等。标准的支持向量机学习算法问题可以归结为求解一个受约束的二次型规划 问题。对丁小规模的二次优化问题,利用牛顿法、内点法等成熟的经典最
2、优化算 法便能够很好的求解。但是当训练集规模很大时,就会出现训练速度慢、算法复 杂、效率低下等问题。目前一些主流的训练算法都是将原有大规模的QP问题分解成一系列小的QP问题,按照某种迭代策略,反复求解小的 QP问题,构造出原 有大规模的QP问题的近似解,并使该近似解逐渐收敛到最优解。但是如何对大 规模的QP问题进行分解以及如何选择合适的工作集是当前训练算法所面临的主 要问题,并且也是各个算法优劣的表现所在。另外,现有的大规模问题训练算法 并不能彻底解决所面临的问题,因此,在原有算法上进行合理的改进或研究新的 训练算法势在必行。本文首先对支持向量机的理论进行系统的介绍,进而对当今 SVWH练算法
3、进行综述,并对未来的研究方向进行展望。关键词 模式识别;支持向量机;支持向量分类;支持向量回归1统计学习理论(SLD简介131.1背景现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,如何从一些 观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,进而利用这些规律 预测未来的数据,这是统计模式识别(基丁数据的机器学习的特例)需要解决的问 题。统计是我们面对数据而乂缺乏理论模型时最基本的(也是唯一的)分析手段。 Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,但这些研 究长期没有得到充分的重视。近十年来,有限样本情况下的机器学习理论逐渐成熟起 来,形成
4、了一个较完善的SLTff系。而同时,神经网络等较新兴的机器学习方法的研究 则遇到一些重要的困难,比如如何确定网络结构的问题、过拟合与欠拟合问题、局部 极小点问题等。在这种情况下,试图从更本质上研究机器学习的SLM系逐步得到重视。1992 1995年,Vapnik等在SLT勺基础上发展了 SVlMf法,在解决小样本、非线性 及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其它机 器学习问题。很多学者认为,它们正在成为继模式识别和神经网络研究之后机器学习 领域中新的研究热点,并将推动机器学习理论和技术有重大的发展。神经网络研究容 易出现过拟合问题,是由丁学习样本不充分和学习机器
5、设计不合理的原因造成的,由 丁此矛盾的存在,所以造成在有限样本情况下:1)经验风险最小不一定意味着期望风险最小;2)学习机器的复杂性不但与所研究的系统有关,而且要和有限的学习样本相 适应。SLM系及其SVMJ法在解决“小样本难题”过程中所取得的核函数应用等方面 的突出进展令人鼓舞,已被认为是目前针对小样本统计估计和预测学习的最佳理论。1.2原理Vapnik的SL"勺核心内容包括下列四个方面:1)经验风险最小化原则下统计学习一致性的条件;2)在这些条件下关丁统计学习方法推广性的界的结论;3)在这些界的基础上建立的小样本归纳推理原则;4)实现这些新的原则的实际方法(算法)。设训练样本集为
6、(y,X1 ),(yn,Xn )xw Rm,y w R ,其拟合(建模)的数学实质是从函数集中选出合适的函数 f(x),使风险函数:R f = X Y (y - f (x)2P(x, y) dxdy(1)为最小。但因其中的几率分布函数P(x, y)为未知,上式无法计算,更无法求其极小。传统的统计数学遂假定上述风险函数可用经验风险函数Rempf代替:Remp f =3 f 3) 2(2)根据大数定律,式(2)只有当样本数n趋丁无穷大且函数集足够小时才成立。这实际上是假定最小二乘意义的拟合误差最小作为建模的最佳判据,结果导致拟合能力过强的算法的预报能力反而降低。为此,SLT用结构风险函数 Rhf
7、代替Rempf,并证明了Rh f 可用下列函数求极小而得:. «|h(ln 2n/h+1)ln(5/4):一、msnRemp f + 寸-j(3)此处n为训练样本数目,S为VC维空间结构,h为VC维数,即对函数集复杂性 或者学习能力的度量。1- c为表征计算的可靠程度的参数。SLT要求在控制以VC维为标志的拟合能力上界(以限制过拟合)的前提下追求拟 合精度。控制VC维的方法有三大类:1拉大两类样本点集在特征空间中的间隔;2缩小两类样本点各自在特征空间中的分布范围;3降低特征空间维数。一般认为特征空间维数是控制过拟合的唯一手段,而新理论强调靠前两种手段可以保证在高维特征 空间的运算仍有
8、低的VC维,从而保证限制过拟合。对丁分类学习问题,传统的模式识别方法强调降维,而SVM与此相反。对丁特征空间中两类点不能靠超平面分开的非线性问题,SVM采用映照方法将其映照到更高维的空间,并求得最佳区分二类样本点的超平面方程,作为判别未知样本的判据。这样, 空间维数虽较高,但 VC维仍可压低,从而限制了过拟合。即使已知样本较少,仍能有 效地作统计预报。对丁回归建模问题,传统的化学计量学算法在拟合训练样本时,将有限样本数据 中的误差也拟合进数学模型了。针对传统方法这一缺点,SVR采用“8不敏感函数”,即对丁用f (x)拟合目标值y时f(x)=wTx+b,目标值yi拟合在yi-wTx-b&
9、时, 即认为进一步拟合是无意义的。这样拟合得到的不是唯一解,而是一组无限多个解。SVR方法是在一定约束条件下,以|w|2取极小的标准来选取数学模型的唯一解。这一求 解策略使过拟合受到限制,显著提高了数学模型的预报能力。2支持向量分类(SVC算法2.1线性可分情形SV嗷法是从线性可分情况下的最优分类面(Optimal Hyperplane )提出的。所谓最优分类面就是要求分类面不但能将两类样本点无错误地分开,而且要使两类的分类 空隙最大。d维空间中线性判别函数的一般形式为g(x)=wTx十b ,分类面方程是wTx+b=0,我们将判别函数进行归一化,使两类所有样本都满足|g(x忙1 ,此时离分类面
10、最近的样本的g(x = i,而要求分类面对所有样本都能正确分类,就是要求它满足1Yi (wT为 +b) 一1 N0,i =1,2,n。(4)式(4)中使等号成立的那些样本叫做支持向量( Support Vectors )。两类样本的分 类空隙(Margin)的间隔大小:Margin=2/ w(5)因此,最优分类面问题可以表示成如下的约束优化问题,即在条件(4)的约束下,求函数2 = 1 (wTw)2(6)的最小值。为此,可以定义如下的 Lagrange函数:1 T ,TL(w,b, : ) w w-' :.yjw Xi b)-12 i4nw =、- i yi Xi i日n' :
11、iYi =0i -1其中,ai N0为Lagrange系数,我们的问题是对 祐日b求Lagrange函数的最小值。把式 (7)分别对w、b、皿求偏微分并令它们等丁 0,得:;:L八 =0 =:wL 八二0 =:LT=0= : J yi (w xi b) T = 0 二i以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题:n 1 n n maxW ai Z Z 砰口 j Yi Yj (x:Xj ) i=12 i=1 j =1« s.tai N 0, i =1" ,n(8)nZ aiYi =0 J这是一个不等式约束下二次函数机制问题,存在唯一最优解。若*为最优解,
12、n *w*=,aiYiXi(9)i =1 %*不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组 合。b*可由约束条件c(iyi (wTx +b) -1 =0求解,由此求得的最优分类函数是:n * T . * 一 *、fx=sgn(w)x b ) = sgn广 ai yixix b )(10)sgn()为符号函数。2.2非线性可分情形11当用一个超平面不能把两类点完全分开时(只有少数点被错分),可以引入松弛变量岩(上> 0, i=i;H),使超平面wTx+b = 0满足:yi(wTx +b) X(11)当0<4<1时样本点Xi仍旧被正确分类,而当 匚i
13、»1时样本点Xi被错分。为此,引入以下 目标函数:(12)其中C是一个正常数,称为惩罚因子,此时SVMT以通过二次规划(对偶规划)来实1 n nmax M ai:jyiyj Xi Xj2 i 4 j 4现:i 4(13)s.t0 笠 ai C,i =1, , nn'、' aiyi =0i 43支持向量机(SVM的核函数若在原始空间中的简单超平面不能得到满意的分类效果,则必须以复杂的超曲面 作为分界面,SVMJ法是如何求得这一复杂超曲面的呢?首先通过非线性变换 将输入空间变换到一个高维空间,然后在这个新空间中求 取最优线性分类面,而这种非线性变换是通过定义适当的核函数(
14、内积函数)实现 的,令:K(x“xj)=仲3) Wxj)(14)用核函数K(x,xj)代替最优分类平面中的点积 x/xj ,就相当丁把原特征空间变换 到了某一新的特征空间,此时优化函数变为:n 1 n nQ(a )=£ % £ ajyiyjK( ,xj(15)i 12 i w j w而相应的判别函数式则为:nf x;=sgn(w )T (x) b =sgn。ai yiK(xi,x) b )(16)i 2其中xi为支持向量,x为未知向量,(16)式就是SVM在分类函数形式上类似丁一个神 经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应丁输入样本与一个支持向量的
15、内积,因此也被叫做支持向量网络,如图 1y =sgnS个支撑向量机的非线性变换图1支持向量网络预报未知样本类别的示意图Fig.1 The sketch map of support vector network to predict an unknown sample由丁最终的判别函数中实际只包含未知向量与支持向量的内积的线性组合,因此 识别时的计算复杂度取决丁支持向量的个数。目前常用的核函数形式主要有以下三类,它们都与已有的算法有对应关系。 多项式形式的核函数,即 K(x,x )= fxTxJ+1q,对应SVM是一个q阶多项式分类 器。 径向基形式的核函数,即K(x,Xj )=exp-住旦,
16、对应SVM是一种径向基函数分CT类器。S形核函数,如 K(x,xi )= tanh(v(xTx)+c),贝U SVM实现的就是一个两层的感知器神经网络,只是在这里不但网络的权值、而且网络的隐层节点数目也是由算法自动确定的。4支持向量回归(SVR方法SVR算法的基础主要是 &不敏感函数(z -insensitive function)和核函数算法。若将拟合的数学模型表达为多维空间的某一曲线,则根据谷不敏感函数所得的结果就是包络该曲线和训练点的“ E管道”。在所有样本点中,只有分布在“管壁”上的那一部 分样本点决定管道的位置。这一部分训练样本称为“支持向量” (support vector
17、s)。 为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。此法 诚然有效,但由此增加的可调参数未免增加了过拟合的风险。SVR采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能 作非线性回归。与此同时,引进核函数达到了 “升维”的目的,而增加的可调参数却 很少,丁是过拟合仍能控制。4.1线性回归情形设样本集为:(y1,x广,&,为)x。Rn,y亡R,回归函数用下列线性方程来表示,f x = wTx b (17)最佳回归函数通过求以下函数的最小极值得出,(18)(19)WYM)二卜十厂|虫十文履)1=1 )其中馄设定的惩罚因子值
18、,、 为松弛变量的上限与下限。Vap nik提出运用下列不敏感损耗函数:I 0 forf|/(x)f| e otherwise通过下面的优化方程:nijxfrla.n' |=Ctjtf4"点*(20)在下列约束条件下:求解:r,-、1 1 -ZZ 2 i A j=argmin l-、:ii(J yj 一时)XiTXj) rIl-Vi +£ (%¥ ,(21)由此可得拉格朗日万程的待定系数 电和% ,从而得回归系数和常数项: lw = : i - : i Xii =1b = -W kr - xs 12 r s(22)4.2非线性回归情形类似丁分类问题,一个非
19、线性模型通常需要足够的模型数据,与非线性svCf法相同,一个非线性映射可将数据映射到高维的特征空间中,在其中就可以进行线性回 归。运用核函数可以避免模式升维可能产生的"维数灾难",即通过运用一个非敏感 性损耗函数,非线性SVR勺解即可通过下面方程求出:(24)(25)其约束条件为:0<< i = LJ0 < a; < C. i= 1t L fi=l由此可得拉格朗日待定系数 «i和当 ,回归函数f(X)则为:/&)= £氐-矿人hq)SV.5 ChemSVMZ用软件介绍SVM模块的应用软以解决化学化工上问题为目的,我们参照国
20、际文献自编了包含件一一“ ChemSVM,其中SVM算法涉及到凸二次规划的求解,采用了序贯极小优化(Sequential Minimal Optimization ) 算法20。由丁 SVM算法在应用上不够方便的地方主要是核函数及其参数如何选取的问题, 为此,“ ChmSVM针对该问题上作了一些改进,即一方面在程序的操作界面上提供各 种核函数及其参数,给用户自由选择和研究的方便;另一方面,程序可用单纯形优化方法自动选出待选的核函数及其参数,并根据数据集留一法预报正确率最高的目标来 确定最终计算用核函数及其参数,从而建立推广能力强的数学模型。以软件使用上的 方便性、算法上的先进性和解决具体问题的
21、有效性为目的,“ChemSVM软件将不断地发展和完善。“ChemSVM软件提供了通用的支持向量机算法。在具体应用问题上,还可以将其 与数据库(含分门别类的数据表)、知识库(含数据挖掘规则等)、原子参数(由系 统自动采集)及其它数据挖掘方法有机地集成起来。比如,“ChemSVM已与熔盐相图智能数据库相融合,使 SVM算法成为熔盐相图智能数据库的有效的数据挖掘手段。这 方面应用成果已另文报导在本刊有关 SVM应用的系列论文中21,22。6应用前景SLT和SV相法之所以从20世纪90年代以来受到很大的重视,在丁它们对有限样 本情况下模式识别中的一些根本性问题进行了系统的理论研究,并且在此基础上建立
22、了一种较好的通用学习算法。以往困扰很多机器学习方法的问题,比如模型选择与过 拟合问题、非线性和维数灾难问题、局部极小点问题等,在这里都得到了很大程度上 的解决。而且,很多传统的机器学习方法都可以看作是SVM算法的一种实现,因而 SLT和SVM被很多人视作研究机器学习问题的一个基本框架。一方面研究如何用这个新的 理论框架解决过去遇到的很多问题;另一方面则重点研究以SVM为代表的新的学习方法,研究如何让这些理论和方法在实际应用中发挥作用。SLT有比较坚实的理论基础和严格的理论分析,但其中还有很多问题仍需人为决 定。比如结构风险最小化原则中的函数子集结构的设计、SVM中的内积函数(包括参数)的选择等
23、。尚没有明确的理论结果指导我们如何进行这些选择。另外,除了在监 督模式识别中的应用外,SLT在函数拟合、概率密度估计等机器学习问题以及在非监督 模式识别问题中的应用也是一个重要研究方向。我们认为,SLT和SVMB法(包括SVCffi SVR有可能在化学化工领域得到深入和 广泛的应用,以往用人工神经网络、传统统计模式识别和线性及非线性回归等数据挖 掘算法研究和处理的化学化工数据都可能在应用SVM算法后得到更好的处理结果23。特别是样本少、维数多的“小样本难题”,应用SVM算法建模会特别有效。可以预计,将来在分析化学的数据处理、化学数据库的智能化、有机分子的构效关系(QSAR,QSPR)分子和材料
24、设计、试验设计、化工生产优化、以及环境化学、临床化学、地质 探矿等多方面都有可能展开 SLT和SVMJT法的应用研究,并取得良好效果。参考文献1. Domine D., Devillers J., Chastrette M., Karcher W. Non-linear mapping for structure-activity and structure-property modeling. Journal of Chemomatrics 1993, 7: 227-2422. Wang Ziyi, Jenq-Hwang, Kowalski Bruce R., ChemNets: Theor
25、y and Application, Analytical Chemistry, 1995, 67(9) :1497-15043. Ruffini R. et al., Using neural network for springback minimization ina channel forming process, SAE Trans. J. Mater. Manufacture, 1998, 107, 654. Fukunaga K. Introduction to statistical pattern recognition. Academic.New York; 19725.
26、Chen Nianyi (陈念贻), Qin Pei (钦佩), Chen Ruiliang(陈瑞亮), LuWencong (陆文聪), Application of Pattern Recognition in Chemistry and Chemical Engineering(模式识别在化学化工中的应用), Peking (北京),Science Publisher(科学出版社),20006. Chen Nianyi, Lu Wencong, Chemometric Methods Applied to IndustrialOptimization and Materials Opti
27、mal Design, Chemometrics and intelligent7.8.9.10.11.12.13.14.laboratory systems, 1999, 45, 329-333Chen Nianyi, Lu Wencong, Software Package "MaterialsDesigner” andits Application in Materials Research, IPMM 99, Hawaii, USA, July, 1999LU Wencong, YAN Li-cheng,CHEN Nian-yi,PatternRecognition and
28、ANNSApplied to the Formobility of Complex Idide,Journal of MolecularScience, 1995,11(1): 33Liu Liang (刘亮), Bao Xinhua (包新华),Feng Jianxing (冯建星),Lu Wencong (陆文聪),Chen Nianyi (陈念贻),Molecular Sieving ofPinacolone (or 1-Arylethanone) Containing 1H-1,2, 4-Triazole Group andTheir Reduced Products ( a - 口坐
29、基-a -芳氧烷基频哪酮(芳乙酮)及其醇式衍生物 抗真菌活性的分子筛选), Computer and Applied Chemistry (计算机与应用化 学),2002, 19(4) : 465Lu Wencong (陆文聪), Bao Xinhua (包新华), Wu Lan (吴兰), Kong Jie (孔杰),Yan Licheng (阎立诚),Chen Nianyi (陈念贻),Studies onHierarchical Projection Method Applied to Regularities of Formation ofBinary Complex Compound in MBr- M Br2 System (二元漠化物系(MBr-M B2) 中间化合物形成规律的逐级投影法研究), Computer and Applied Chemistry(计算机与应用化学),2002, 19(4) : 474Lu Wencong (陆文聪),Feng Jianxing (冯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年母婴保健助产技术考试考点速记配套试题及对应答案
- 2021教科版三年级科学第二单元《水》期中模拟卷 尖子生满分冲刺专用
- 2024安平志臻小升初历年真题+押题卷答案解析
- 华峰重庆氨纶2025招聘笔试必考题型及对应答案
- 2024年省市属市政院笔试原题及逐题解析
- 2026年九年电功率测试题及答案
- 2026年云南特岗生物短期备考专用模拟题及超详答案解析
- 家庭自治协议书受保护
- 消防与中国石油联勤协议书
- 早恋错误反省协议书
- 2026广东中山市人民政府五桂山街道办事处所属事业单位招聘事业单位人员11人笔试参考题库及答案解析
- 2026届安徽省示范高中皖北协作区高三下学期第28届联考(高考一模)数学试题
- 2026年物业工程维修人员试题及答案
- 江苏省南通等七市2026届高三下学期第二次调研考试数学试题(含答案)
- 2026重庆邮政集团春季招聘笔试模拟试题及答案解析
- 鹿茸菇项目可行性研究报告
- 2026校招:山东新动能基金管理公司笔试题及答案
- GB/T 47067-2026塑料模塑件公差和验收条件
- 苏州银行校园招聘笔试真题
- 电厂采制化安全课件
- 政府项目招投标流程培训课件
评论
0/150
提交评论