(通信与信息系统专业论文)基于线性规划算法的支持向量机及其应用.pdf_第1页
(通信与信息系统专业论文)基于线性规划算法的支持向量机及其应用.pdf_第2页
(通信与信息系统专业论文)基于线性规划算法的支持向量机及其应用.pdf_第3页
(通信与信息系统专业论文)基于线性规划算法的支持向量机及其应用.pdf_第4页
(通信与信息系统专业论文)基于线性规划算法的支持向量机及其应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

慕干线性规划黧法的支撩向赣规及葜成用 摘要 统计学习理论( s l t ) 是凼v a p n i k 等人提出魄一年中小榉本统诗理论,羲薰磷究 在小样本情况下的统计规律及学习方法性质,为机器学习问题建立了一个较好的 理论框架。而支持向凝机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 正是s t l 的一静成功 实觋,它建立在统计学习理论的v c 维理论和结构风险戡小化原理基础t ,根据有 鞭样本信息在模型复杂性( 即对待菇! 样本的学弼精度) 和学习能力( 邵无链误的识 剐样本的能力) 之间寻求一种折中,阻期达到最佳的推广性能,与基于经验风险 蕺小纯原掇 j 韵神经网络鲢传统学习方法相眈,其有燹搿的泛化性能,它在解决小 样本、菲线毪及高维闷题中表现出许多特有的优势。 支持i 每璧橇最镯羧嗣来憝理分类瀚器,避寨,在潮籍润避领域也褥辩不辩发 藤,鞠院研究藕完替支持淘羹梳理论效其实现算法爨霄重要意义。魏矫,研究支 持肉爨极豹 睦蠼系绫建搂,对于丰餐耧竞替支持惩爨瓠静理论窝冀法、遴一步 撬遴英在器鬏域黪斑翔其鸯襁裰熬维韵作瓣。 论文的具体虎容热下: 2 国 满足约束条件: y a ( w x i ) + 6 1 2 l 一象 基鼍o 这样,w 的范数的平方被认为是一个关于不可分离点的联合最小化中一个数撼 项,而不楚作为强加在关于不可分离点数量的最小化上的一个约束条件。此公式 与结穆溅险最小讫蘸襄完全臻台。 其中c ,0 是一个常数,它控制对错分样本的惩筠程度,控制机器的复杂性 和不可分离点数之间的平衡;c 越大表示对错误的惩罚越重。 镬臻l a g r a n g e 乘予嬲方法,我们霹班褥到不可分模式对偶潮题的表示如下: 满足约柬 w ( a ) = 扣一言;舡盼 ( 2 _ z z ) 阮o 。 陋f y i 【( w + x i ) + 6 卜l + 盏 = o i 宇。( 4 f c ) 一o ( 2 - 2 3 ) 萁k k t 祭磐被定义隽: 献上蕊蛔分绍可以看出,线蠖不可分情况和线性可分情况驹差羽就在于可分 模式中的约束条件口;0 。在不可分模式中换成了更为严格蛉条件0 s a is c 。除 了这一修f ,线性不可分情况的约荣最优化问题中权值w 和阀饿b 的最优值的计 算都和线性可分情况中豹过程是摺穗的。线性可分悖况的最优化润题可以视髂一 ; 孛特殊憔情形包含在线性不可分静情况的最饶德阏题之中。在式( 2 - 2 0 ) 稻式 ( 2 2 1 ) 中对所有i 令文。0 。即可得到相应的线性可分情况时的形式。 2 。4 ,2 璩线性淘题翘处理 在输入空闻中构造皴优分类西鹣方法类 娃予缀典的感翔器( 荦令神经元) 方 法。这种方法仅当样本集为线性可分时才能使经验风险等零。由于许多问题,甚 1 7 蒸子线性援麓算法的支持向鼙视艇其藏翔 至戗括像异或( x o r ) 这样越单的阀题都不怒线性雕分魄,爨此用这秘方法求褥 豹辩常霉| 螽于经验越睑过大襄孬失袅意义。 解决这个问题的一个方法是利用多层感知器,其实质就是将近似醋数集由籁 单线性指示函数扩袋成由诲多线瞧攒示函数爨如成的一个爨为复杂姻近似露羧 集,再用s 形函数来j 眨似指示函数中的单位阶跃函数( 或符号醋数) ,从而得到使 经验风险极小化的种容易搡作的爨法。但是,这秘方法存在蒺容易陷入局部叛 小点,网络结构设计依赖于先验知识以及泛化能力较差这嫂问题。 另井一静方法是将输入向量映射到一个齑维躺特征向量空间,势农该籽氡e 空 间中构造最优分类耐,这就蹙支持向量机方法,它能够避免往多层前向网络中无 法宽暇的一蹩缺嬲。并且经过证明可以得劐如下结论:鲤果选用适当的欧射随数, 大多数输入空间绒性不可分的问题在特征空间可以转化为线性可分问灏来解决。 但是在低维输入空闻向筒维特征空间涣射过程中,由于空问壤数急速增长, 这就使得在大多数情况下难以直接在特征空间直接计算最优分类平面。支持向粲 撬邋过定义孩函数( k e r n e lf u n c t i o n ) ,巧妙缝籍遮问题转纯至g 输入空问进行 计算,箕其体祝理魏下: 注意至l 在上露熬阀题求嬲中都只涉及内狡运算,戳此可戳强设裔嚣线谯淤辩 西:r 8 一符将输入空间的样本映射到商维特钲空间髓中,肖在特征空间中构造 最傥超平蕊时,训练算法仪使用特征空间申姆点积,酆瓴) 毋扛i ) 艨以,装熊 找到一个涵数女g t ) 彼褥枣积。,x ,) s 妒 ) 萨伍i ) ,这样,在意缫空闯中实际楚是嚣 要进行内积运算,甚至不必知道变换中的舆体形式。 根摇泛函的宥关理论,必要一种蔽数素;,并:) 满怼联e r c e r 条件,它就对应禁 一变换空问的内秘。因此,_ 谯最优分类面中用满足m e r c e r 祭件的内积函数 k ( x ,z i ) 就可以实现慕一饕线瞧交换矮鳇线校分类,瓣诗冀笺杂瘦龆浚有增掮, 懿潜豹控格演曩函数变受: f l ( w ,b , a ) m 割w 一a i 眦w 魄) + 6 ) 一1 1 ( 2 2 5 ) 把+ 二述闾题转化为“对稿”阐题。卸: w ( a ) = 扣一1 参蹦罗施,憎,) 2 慕解上述润麓后镡到的最优分类醋鼗浸 基于线性规划算法的支持向量机及其应用 f x 2 x d 雕) | s g n 【_ ) z 。“z ) 叫( 2 - 2 7 ) 图2 4 支持向量机示意图 d 为支持向量的数目,由于最终判别函数中实际只包含支持向量的内积以及 求和,因此识别时的计算复杂度取决于支持向量的个数。 由图2 4 可以看出,支持向量机求得的决策函数形式上类似于一个神经网络, 其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一 个支持向量的内积,因此被称为是支持向量网络。 定理1 ( m e r c e r ) :对称函数k ( u ,v ) e l 2 能够以正系数a i 0 展开成 k ( u ,r ) :窆。妒。“冲+ ( 。) 形式的充分必要条件是:对所有满足于r g2 ( u ) d uc o o 且 _ g - 0 的函数g m ) ,有价价v ) g ( u ) g ( v ) d u d v 0 成立。 在式( 2 2 7 ) 中,不同的内积核函数将形成不同的算法。满足m e r c e r 条件的内 积函数k ( x ;,x ,) 称为核函数。下面列出了几种常用的核函数: ( 1 ) 玎阶多项式核函数: 此时得到的支持向量机是一个q 阶多项式分类器。 ,。) s 印【弘y t 肛 x ) + 1 】l ( 2 - 2 9 ) 其中q 是f h 用户决定的参数。 ( 2 ) 高斯径向基核函数 基于线性规划算法的支持向麓机跌熟庭用 岛咖e x 小照笋 3 褥到的支持囱量辍楚一静径巍基分类器。 ,( x ) as 毋 羹n ,y ,e x p 一l :三i :; h + 6 ) ( 2 3 1 ) ( 3 ) s i g m o i d 核函数: 盘( x ,并i ) = t a n h v ( x 并:) + c 】 ( 2 - 3 2 ) 则支持向鲞机实现的就是个两层感知器神缀网络。 2 毒。3 支持网量椒雕归“ 支持向量机最初是为分类问题丽设计的,而支持向量机用在函数回归问题 当中时,也 葡样其宥很好的髋能。支持向螫机阐归奄线性回归飘非线性回归,对 于线性回归,考虑用线性倒归函数: y f ( x ) 一( w x ) + 办 + 喜( 摩,一痒,汐。一砉国:t + 群,) ( 2 - 4 0 ) 满足条件: ( 1 ) 芝0 。一拉:) = o 舷爱吼z , 奠中c 为用户给定的参数。 求辩方程( 2 - 3 9 ) 和( 2 - 4 0 ) ,蜀鞋零窝豳归函数懿法囱篷帮回麴遗数: 舅舅 + + 薯。 h + 麓 叫馁。点如 限噱f 基于线性规划算法的支持向量机及其应用 w = 壹( 口,一口? ) 一( 2 - 4 1 ) 厂o ) = 壹o ,一4 ,) o 。x ) + 6 ( 2 - 4 2 ) 这里,( z :- z ) 为向量工i 与向量x 的内积。 在非线性情况下,可以把样本x 通过非线性映射( x ) 映射到高维特征空间h , 并在h 中求解最优回归函数。这样,在高维空间中的线性回归,就对应于低维空 问中的非线性回归。因此,在最优回归函数中采用适当的核函数| i ( x ,z ) 代替高 维空间中的向量内积妒o ,) 矿 ) ,就可以实现某一非线性变换后的线性拟合,而 计算复杂度却没有增加。此时最优化问题可转化为 m a x w ( a ) ;一i 1 ,毫。一n 。) 。,一n ,弦。,x ,) + 砉o ,一n ,) y 。一砉。 + q s ,) q 一4 3 回归函数的法向量和回归函数变为: w = 杰 ,一j ) o ,) ( 2 - 4 4 , ) = 。一a i * ) k ( x ,x ) + 6 ( 2 4 5 ) 其中s 和c 是控制逼近函数v c 维的由自参数。和c 两者都必须由用户选择。 关于f 和c 选择的原则方法也一直被广泛研究。 关于不同几种支持向量机回归机 ( 1 ) v s v m 基于回归问题,在标准s v m 中,通过参数e 控制回归估计的精度,但g 取多 少才能达到所期望的估计精度是不明确的,因此尽管想实现高精度估计,但具体 f 应选多少是难以把握的。在s c h s l k o p h 和s m o l a 提出的r s 方法中,引入反 映超出管道之外样本数据( 即边界支持向量数量) 和支持向量数的新参数力, 从而简化s v m 的参数调节。在v s v m 中,优化目标为 。m 毒i n ;丢i i , q l + e - i - ;砉( 善) ) s j y i w o ( x 。) 一b s + 量 w 庐o f ) + b y j s + 鲁 ( 2 4 6 ) ,0 亭,0 , i = 1 , 2 ,z f 0 基于线性规划算法的支持向量机及其应用 可以通过其对偶最优化问题进行优化求解。由于在优化求解过程不需要e 的值, 因此不需要预先规定取多少值。 ( 2 ) l s s v m 最小二乘支持向量机( l s s v m ) 中,优化指标采用了平方项,从而将不等式 约束转变成等式约束。最优化问题为 m 岫i ,n ;珈2 + 三嘻皇2。川, s j y f = w ,) + b + 茧,f = 1 , 2 ,f 可得线性方程组 :;+ ,一_ b 。 = ,0 c z a s , 因此在l s s v m , 将二次规划问题转变成线性方程组的求解,另外,与标准s v m 相 比减少了一个调整参数,减少了个优化变量,从而简化了计算复杂性。但是 l s s v m 没有稀疏性这一特性。 ( 3 ) ws v m 在标准s v m 方法中,是引入惩罚系数c 实行对超出管道数据点的惩罚。 在实际应用中,某些问题如用于股市预测、期货预测的时问序列预测问题,近期 数据的重要性要大于早期数据的重要性,也就是说某些重要样本数据点要求小的 训练误差,有些样本数据点对误差的要求不是很高。因此,在优化问题描述时, 对每个样本点应采用不同的惩罚系数g 或对于每个样本数据点应采用大小不同 的s 管道,以得到更准确的回归估计,这种支持向量机我们称之为加权支持向 量机( w s w ) 。 加权支持向量机可以通过对惩罚系数缃加权实现,也可以通过对占加权实 现。通过对参数c 加权实现时,其最优化问题为 。m 酣i n 。孤h 扣( 岛) s t y 。一w 0 。) 一b se + 量 w 萨 i ) + 6 一y ies + 量 ( 2 4 9 ) 量0 0 , f = 1 , 2 ,f 其中s 为加权系数。 2 5 本章小结 基于线性规划算法的支持向量机驶其应用 本章首先介绍了统计学习理论的核心概念,指出统计学习理论是针对有限样 本的机器学习理论,具有比较坚实的理论基础和严格的理论分析,目前已经形成 己经形成了一个较完整的理论体系。然后介绍了支持向量机的构造和特点,对支 持向量机理论的三大模块一结构风险最小化、二次规划和核函数进行了详细的阐 述,说明了支持向量机很好地执行了统计学习理论中的结构风险最小化原则,在 小样本情况下具有良好的推广性能,并解决了高维问题与条件极值问题。 基于线性删划算法的支持向量机及其应用 第三章基于线性规划算法的分类支持向量机 自从v a p n i k 等人提出支持向量机( s v m ) 理论以来,支持向量机在分类和函数 估计方面取得了越来越多的应用支持向量机是在统计学习理论的基础上形成 的,力图实现结构风险的最小化,从而提高学习机的泛化能力。经典的支持向量 机学习理论将机器学习问题转化为一个求解二次规划问题,由于求解二次规划问 题是一个迭代过程,当样本数据量较大时每一步迭代的计算复杂度很高,因此目 前很多的研究成果基本上都是针对如何降低求解二次规划问题的计算量和计算 复杂度来进行的,其中比较有影响的是文献 4 0 提出的s m o ( s e q u e n t i a lm i n i m a l o p t i m a l ) 算法,文献 4 1 儿4 2 采用缩减工作集的方法对s m o 算法进行了改进, 4 3 通过对达到上界的拉格朗日乘子进行分解来降低s m o 算法的计算量,文献 4 4 则对s m o 算法采用分块优化的方法进行了改进。与s m o 算法不同,文献 4 5 在对核矩阵进行降秩分解的基础上提出了一种内点优化算法。文献 4 6 在结构风 险中以无穷大范数为基础提出了一种基于线性规划的支持向量机,将机器学习问 题转化为求解线性规划问题,但是该文献中给出的方法有很大的局限性,很难进 行一般化的推广。 本章在一般范数意义下对分类支持向量机进行了讨论,导出了两种分别基于 卜范数和。一范数线性规划的分类支持向量机模型。 3 1 基本概念( 参考第二章内容) 假设有个样本 ( x ,如:难ey , e 卜i ,i ) ,卢1 ,2 ,肿服从概率分布 尸( 五力,给定函数簇f ( x ,a ) ( 其中a 是参数集合) ,机器学习问题即是要根据 这些样本选择适当的参数使得函数能最可能的表现= r 与,之间的函数关系。机器 学习的目标理论上应该是极小化如下形式的期望风险 r 缸) - f l ( y ,( 薯口) ) p o ,y ) d x d y ( 3 1 ) 其中表示某种误差损失函数。由于在实际应用中并不知道样本数据的概率分布 尸( 五力,因此传统机器学习问题一般都是极小化如下形式的经验风险 也,缸) :丢量l ( y ,“,。) ) ( 3 2 ) 也w 缸) 2 言善( y ,“,“) ) ( 一2 由于样本数据容量的有限性,经验风险并不等于期望风险,但是有v a p n i k 基于线性规划算法的支持向量机及其应用 给出的如下界估计“1 :至少以概率1n ,以下不等式成立 即) s + j 1 + 半) ( 3 - 3 ) 其中= 4 ( h ( 1 n ( 2 肜脚+ 1 ) 一知( 町) ,由是模型函数簇的v c 维数。由此不等式可 知,要极小化期望风险,仅仅极小化经验风险是不够的,在样本给定的条件下还 须同时极小化模型的v c 维数h 。因此理想的机器学习过程是一个双目标优化问 题的求解过程。 3 2 线性分类支持向量机 以下讨论中均假设样本集为 ( x ;,曲:雁f ,鲋 1 ,1 ) ,i = l ,2 ,肘。对 于线性可分的情况,由分类超平面w x + b = 0 确定的两类点集的分类间隔为 南( 3 - 4 ) 如果进一步假设7 维向量x 的集合属于半径为斤的球内,则此线性分类函数的 v c 维h 满足 s 血哮r 2 一+ l f f i m i n ( 华,小1 ( 3 - 5 ) 因此当变量的变化范围已知时,降低v c 维的有效途径是降低向量的2 一范 数。 对于线性不可分的情形,v a p n i k 在支持向量机理论中提出用如下的结构风 险来代替经验风险( 3 2 ) 式作为优化目标函数 e 。 ) - c r y ( a ) + 去0 w 眶 ( 36 ) 以上表达式中出现向量的2 范数,其作用在于控制模型的复杂度,实际上这是 一种采用加权方式将多目标优化问题转换为单目标优化问题的方法。由泛函分析 理论可知,对于任意范数”虬,存在非零常数局和肌,满足 1 1w | i ,s o w l l :s h ,0 w 扎 ( 3 7 ) 因此在结构风险表达式( 3 - 6 ) 中引入其它范数也同样可以起到控制模型复杂度的 作用。即可以引入如下更一般的结构风险目标函数 r 。( a ) = c p ) + d0w 峪 ( 3 8 ) 基于线性规划算法的支持向量机及其应用 针对分类问题,本文中考虑如下误差损失函数 c ( ,。,“) ) 2 ( 1 一( x ,a ) ) + 2 。一0 0 ,。) 荔篆:;:( 3 - 9 ) 对应范数= 2 ,在结构风险( 3 - 8 ) 式中取p - l 2 ,己知样本数据的条件下,极小 化该结构风险即为解如下的最优化问题 1 m i n 扣w n c z ( 3 1 0 ) s t y 。( w 7 z + 6 ) 1 - 每,仁1 ,2 , 此问题为二次规划问题。 ( 3 - 1 1 ) ( 3 - 1 2 ) 除了2 一范数外,无穷大范数和卜范数也是常用的范数。在结构风险( 3 8 ) 式中考虑一一范数,取1 9 = - 1 ,极小化该结构风险即为解如下的最优化问题 m i n ,+ c 善亭- ( 3 1 3 ) s t y t ( w 7 葺+ 6 ) 2 1 一鲁,卢1 ,2 , - ,5 sr ,肛l ,2 ,力 量20 ,卢1 ,2 ,3 r 0 此问题为线性规划问题。 ( 3 1 4 ) ( 3 1 5 ) ( 31 6 ) ( 3 一1 7 ) 命题1 线性规划( 3 一1 3 ) 一( 3 1 7 ) 式的最优解满足,一m a x 1w l l ,1w 2 i , - - - , i 嵋i ) 。( 证 明略) 当在结构风险( 3 - 8 ) 式中考虑1 一范数时,同样取庐1 ,极小化该结构j x l 险即 为解如下的最优化问题: m i n 善i i + c 荟茧( 3 - 1 8 ) s t y ;( w 7 j ,+ b ) 1 - 鼻,卢1 ,2 , ( 31 9 ) 考虑如下的线性规划问题 ( 3 2 0 ) 摹于线性规划算法的支持向量机及其应用 n 山荟( 叩a :) + c 酗 8 。y t ( 荟( 旷a 溉+ 6 ) 小 ( 3 2 1 ) ( 3 2 2 ) ( 3 2 3 ) ( 3 2 4 ) 命题2 线性规划问题( 2 1 ) 一( 2 4 ) 的最优解满足:吼和a :两者必有一个为零 ( k = l ,2 ,而。 证明采用反证法,假设在最优解中存在某一个膏,有a 。,0 ,“ 0 ,令 6 = m i l l ( q ,) ,则将最优解中的吼,a :换为吒一d ,a :一d 后约束条件仍然满足,但 是目标函数( 3 2 1 ) 将减少26 ,这与最优解的假设矛盾。( 证完) 在求得线性规划问题( 3 2 1 ) 一( 3 2 4 ) 的最优解后令 雌一吼一a :( k = - i ,2 ,曲 ( 3 - 2 5 ) 由命题2 可知 i i q + ( k = - i ,2 ,而 ( 3 - 2 6 ) 因此求解规划问题( 3 1 8 ) 一( 3 2 0 ) 等价于求解线性规划问题( 3 2 1 ) 一( 3 2 4 ) 由以上讨论可知,对于求解分类学习问题,当采用卜范数或o 。一范数时,可 以转化为求解一个线性规划问题,采用2 一范数需求解二次规划,若考虑一般其 它的范数,则需求解一般非线性规划,此时目标函数都是凸函数。 3 3 非线性分类支持向量机 针对非线性分类问题,v a p n i k 提出的方法是将低维向量映射到某个高维空 间中,在高维空间中数据成为线性可分的。设有映射f :f f ,则分类函数的 表达式为 ,( 与孵功= 由( 力+ 6( 3 - 2 7 ) 对于样本数据( 西,n ) ( 卢1 ,2 ,朋,可以假设向量组 占( 柏:i = l ,2 ,朋的秩 是m ,否则可以重新选择映射g 将数据映射到较低维的空间中。因此可以将 表示为该向量组的线性组合 n w = n 。g ) ( 3 2 8 ) 基于线性规划算法的支持向量机及其应用 由于向量组f 占( 册) :i = 1 ,2 ,朋一般不是空问f 的基 不唯一。此时对应的分类函数的表达式为 ,。酗g ( 砷) 7 9 0 ) + 6 引入核函数 t c ( x ,z ) = g ( x ) ,g ( x ) 一g ( z ) 7 9 ( x ) 因此以上表达式的系数 其中 表不向量的内积。则表达式( 3 2 9 ) 司以写为 ,5 善4 乒,。) + 6 对向量”的2 一范数有 o ”畦2 ”7 ”2 善善a , a j g ( x j ) 7 9 ( 。,) 5 善酗4 ,_ ) 令也,= k ( x 。劫( i ,j = 1 ,2 ,n ) 。与线性情形类似 性分类问题的支持向量机模型 1h n h 言善1 i - 1 口- 口,t ,+ c 善i 量 - l y r ( 荟4 ,+ 6 ) 小岛产1 ,2 , 喜0 ,声1 ,2 ,v 命题3 二次规划问题( 3 3 3 ) 一( 3 3 5 ) 的对偶规划为 1nnn “。一善善 帆,i ,+ 荟 s t y , ;0 j - 1 0 s 丑s c ,i 2 1 ,2 ,n ( 3 2 9 ) ( 3 3 0 ) ( 3 3 1 ) ( 3 3 2 ) 可以得到求解非线 ( 3 3 3 ) ( 3 3 4 ) ( 3 3 5 ) ( 3 3 6 ) ( 3 3 7 ) ( 33 8 ) 其中 为拉个朗日乘子,且q ;咒 ( i = 1 ,2 , 。 二次规划问题( 3 3 6 ) 一( 3 3 8 ) 即为v a p n i k 提出的经典支持向量机模型的表 达式。 令k = ( k 。j ) 为n 阶实对称矩阵,a = ( a ,日2 ,劫7 ,则( 3 2 ) 式可以表示为 叮 ls 基于线性规划算法的支持鼬墼机及其疲用 i t w i e * 口2 kd ( 3 - 3 9 ) 其中矩阵k 与向量组 占( 丑) :1 - - 1 ,2 ,m 具商同样的秩1 。设 为矩阵k 的最大 特征值,剐海 1 w 晦气l s l : ( 3 一0 ) 因此控制向馒a 的范数同样可以达到控制向爨矿的范数所希槊达到的日标。与线 性情形类似,锌对a 的l 一藏数可戳考虑如下优纯模麓作为求解菲线瞧分类黼鞭 的支持向量机模型 暑n(a,+n;)+c耋岛(3-41)min 善( ”n c 驴 s t - 难薹扭,一a 识而) 列;l 一安( 3 - 4 2 ) 喜z 0 ,i = l ,2 ,n ( 3 4 3 ) q :0 ,衅0 ,声1 ,2 ,n ( 3 4 4 ) 此优化问题为线性规划问邋,求得凝优解后令 一一( k = - i ,2 ,廊 ( 3 - 4 5 ) 即q 1 得到模型参数a = ( a ,如,曲7 。类似地针对一一范数可以考虑如下优化模 型 ”c 荔萎 ( 3 - 4 6 ) s t 蹦鬟a j k ( x ,, x i ) + 6 】小岛,烈忍,n ( 3 - 4 7 ) 鼻0 ,产1 ,2 ,n ( 3 - 4 8 ) 一r s # 。s ,1 = t ,2 ,n ( 3 - 4 9 ) r 0( 3 - 5 0 ) 同样此优化问题仍然为线性舰划问黼。 在线性规划问题( 3 4 1 ) 一( 3 4 4 ) 中约束不等式个数为a 变量个数为3 n e l , 由线性规翊理论可知其最优解向量中菲零元索的个数至多为n 个。在线性规划问 题( 3 4 6 ) 一( 3 - 5 0 ) 中,约束不等式个数为3 n , 变量个数为2 n + 2 ,因此其最优解向 量中菲零元素个数激多为2 n + 2 。矗 此可知,卜范数支持商羹枫的支持向量个数 蓬予线髓瓣算法匏支撩商鬣机及荑糍霜 比。一范数支持向量机的支持向量个数要少得多。另方面,应用线性规划的对 偶骥论可黯,线缝矮翔闻越( 3 4 6 ) 一( 3 - 5 0 ) 的对偶巍翔的约束不等式( 等式) 个数 隽2 n + 2 ,豳此墨n 较大时,擞求鳃对偶援划,褥到对镄溉划鲸最优瓣艨,霉利 罔互於松弛定理求瓣一个线筻至方程,这样比煮接求艇康阏题计算效攀要璃。 3 4 穰叛实验疑结巢分耩 下瑟分别针对- - * t 支跨国量穰露文激f 4 翻孛翁囱量飘遴行模羧试验。淤 s v c l 、s v c 2 和s v c c o 液示本文讨论的3 静支持向量执,l p s v c 表示文献 4 6 中提 出的线性规划支持向詹机,其线性模型如下 游线往模鹫为 琨l n 一+ c 黔 8 + y 一【薹略) + 川r 一妥,声1 ,2 , ,0 ,鼻0 ,产l ,2 , , 一r + c 三 叭_ m 肾产( 一) 删岛,芦1 ,2 , 一l j s l ,i - - 1 ,2 , ,o ,萎0 ,卢l ,2 ,n ( 3 - 5 d ( 3 5 2 ) f 3 5 3 ) ( 3 - 5 4 ) 国一5 5 ) ( 3 - 5 6 ) ( 3 5 7 ) ( 3 - 5 8 ) 虼模型鲍交蕊个数为2 n + 2 ,约寒不等式令数灸3 k 。 模拟实验中,对每一个实验的榉本巢瓣输入变鏊条爝懿下公式进行颈处理 x 。2 i :! ! 一1 ( 3 5 9 ) 矗2 一矗1 箕中蠢兔变量x 静撵本最,l 、毽,莲海交鬟茹静群奉最大篷,这祥每个输入变 鬃憋取篷郝溪予区瓣 一l ,1 】。 所有程序采用c 语言实现,求解线性规划算法采用p c x 的内点算法模块, 求解二次规划用d o n l p 2 算法模块”。实验计算机基本酝置为:1 4 4 g 奔腾徽处 飘窭淤塑墅兰l 嫩登鲻女瓣g 烈艟鳖叠q 照憋囊 “照n :媳p :些a ! 虹d 塑! 皿! 照:d 4 鲍垃出:d f p 望b 女p a 也些删型遭理墼啦! n 娅 3 1 基于线性规划算法的支持向量机及其应用 理器,2 5 6 兆内存,操作系统w i n d o w s 2 0 0 0 。 实验中采用了两组数据集,第一组为w a v e f o r m ”+ 数据集,样本个数为5 0 0 0 , 输入为2 1 个点的波形,输出为( 0 ,l ,2 ) 三类。第二组为p e n d i g i t s 数据集,此 数据集为手写阿拉伯数字,样本个数为7 4 9 4 ,输入特征变量个数为1 6 ,输出为 0 9 阿拉伯数字共l o 类。 对w a v e f o r m 数据集,取输出为0 和i 的两类样本,此时样本个数为3 3 0 4 , 选前3 0 0 个样本作为学习样本集,其余样本作为测试样本集,采用线性分类支持 向量机,分类误差损失惩罚因子c = l ,四种支持向量机的学习和测试结果见表 3 一l 。 表3 一l :线性分类计算结果 对p e n d i g i t s 数据集,将输出为2 的样本的输出重新定义为1 ,其余样本的 输出定义为1 ,向量机选择非线性分类支持向量机,向量机核函数皆取为高斯核 函数 女o ,x ) 一e x p ( 一:! :i 笋) ( 3 - 6 0 ) 分别对四种情形进行了测试,这四种情形的模型参数、学习参数、学习样本数和 测试样本数见表3 - 2 ,在这四种情形下四种向量机的学习和测试结果分别见表 3 - 3 一表3 - 6 。 表3 2 :四种情形的参数设置 c a s e2 c a s e3 c a s e4 6 0 0 8 0 0 1 0 0 0 f t p :f t p , i c s u c i e d u p u b f m l e a m d a t a b a s e 6 8 9 4 6 6 9 4 6 4 9 4 1 8l o 1 8l o 1 81 0 基于拽懦飙捌算法静支持随量帆瘦其斑用 亵3 - 3 :四幂申支持嚏量枧的支持向量个数 c a s e2 c a s e3 c a s e4 1 4 1 9 3 6 建唾 4 5 6 0 0 8 0 0 1 0 0 0 6 0 0 8 0 0 l 镑o 袭3 4 :强释支黪巍量辍豹学习燕臻率 s v c i s v c 2s v e l p s v c c a s ei 1 0 0 1 0 0 1 0 0 1 0 0 c a s e2 c a s e3 c a s e4 9 6 8 7 篱 9 9 7 5 9 9 。9 筠 9 9 。6 6 7 9 9 7 5 9 9 8 1 0 0 1 0 0 1 0 0 i o 蹁 1 0 0 】0 0 链 袭3 - 5 :翱秘支持淘量槛黪测试正确率 s v c i s v c 2s v c 。l p s v c ,一_ _ _ _ 1 _ _ 一一1 ”一 c a s el 9 9 3 0 9 9 9 4 9 瀚9 9 + 0 1 9 9 0 7 *m_wh_-_hh”h。*十*”-,hh。d_*_-1_。“一 c a s e2 9 9 3 7 6 9 9 7 2 4 9 8 2 5 9 9 8 2 5 9 c a s e3 9 9 4 9 2 9 9 8 0 6 9 9 3 1 3 9 9 3 1 3 c a s e4 9 9 5 3 8 9 9 。8 4 6 9 9 + 4 3 9 9 4 3 表3 喝:霞耱支持囱餐撬的学习辩滴( 擎位:秒) s v e ls v e 2 8 v c , ) 。l p s v c c a s e1 4 0 3 4 83 7 6 6 45 5 2 0 93 9 2 4 6 一“+一 c a s e2 1 5 5 3 7 43 4 1 1 1 12 2 2 6 9 1 3 7 + 0 0 7 c a s e3 4 1 5 0 2 71 0 6 4 9 14 7 9 ,8 4 3 1 9 1 6 9 c a s e4 7 1 5 2 5 92 2 8 8 。9 0 1 9 2 1 。7 1 66 4 1 7 2 3 襻本数攒兹学习帮测试续采说甥,s v c l 其有最少酌支持囱爨,s v c 2 次之, 蔼s v c o 。帮l p s v c 瀚支持自繁簸多,警学习样本数蹭擒时s v c l 支耨淘鬣个数增 趣不大,s v c 2 蝰考壤期,两s v e 一秘l p s v c 增热最多,从已鸯的数毽实羧来番镁 彝予遮择垒部豹样本离量髂为支持囱羹,这一点是菲常不裂予应弱静;s v c = 鞠 3 3 基于线性规划算法豹支持向整机技其应甩 l p s v c 都具有最高的学习正确率和较低的测试j 下确率,s v c 2 的测试正确率最高, s v c l 无论楚学习正确率遂蔻测试正确率都与s v c 2 按涯;当学习样本数较少对, 四种支持向麓机的学习时间相当,随蓿学习样本数的增加,l p s v c 的计算时间最 少,其浚慧s v c l ,s v c 2 豹诗簿时阉增麓最莰。扶应麓角度综合来看,s v c i 翼有 比较好的性能。 3 5 本章小缩 本章铮对分类阏题对在络穆熙羧中采雳一般范数来控镱摸型懿复杂性瓣遂 分析的基础上,提出了两种旗于卜范数和o o 一范数的线性规划支持向量机,包括 线热支持趣簸极积j s 线性支持向量枫。采用摸缀数据慰四秘支拷自量掇进行了数 值试验,其中有三种是线性规划支持向量机( 包括两种本章提出的支持向量机) 和经典的二次媲划支持向量捉。试验结果表噬,对线谯支持彝囊规情形三秘支持 向鬣机计算的模型参数均与理论值接近;对非线性支持向量机情形卜范数支持 向爨桃具有最少的支持向量和较好的学习效粜。 基于钱性规划算法鲍支持赶茧机聂其感翔 第四章基于线性规划算法的回姻支持向量机 在上章针对分类问题讨论的基础上,本章针对回归问题的学习机模型进行推 广,绘窭了耨的基予c 。一范数帮l 一范数的结构蕊陵,在魏基箍上提密了解决豳妇 学习问题的线性规划支持向鼹机模型。 4 1 线性回归支持向量机 假设有个群本 扛。,y i ) :葺r ”,y 。e r ,i l ,2 ,研( 开为实数集合) 服从概率 分稚尸魄力,给定函数簇,( x ,d ) ( 其中a 是参数集合) ,枧器学习问题鄹是 要根据这些样本选择适当的参数使得函数能最可能表现x 与j ,之间的函数关系。 为了褥到推广性能良好的学习枫模型,v v a p n i k 提出了结构风险的概念。对于 线瞧回归模型 ,(曲=扩x+b(4-1) 冀缩褐风陵定义为 r o ) = 溯。陋) + 安l 叫e ( 4 2 ) 其中f 为常数,斤0 ( a ) 为经验风险,定义为 露一o ) 2 寺善三( y t ,缸;,8 弪 ( 4 3 ) 误熬损失函数为一不敏艨函数 地删) = | ) ,_ ,( 玑= f l y 一品h 江一嚣鼬 4 ) 较小讫纯结构风险( 1 ) 式可以褥蜀经藤支持商餐瓿模黧 m i n 吉o w i i :+ c 暑 ;+ c 嚣| ? ( 4 5 ) s t w x ,+ b y fe + 羞,i = 1 ,2 ,n ( 4 - 6 ) w 1 x ,一b + y ! s + ;,i = l ,2 ,n t 4 - 7 基,舅0 ,i = l ,2 ,n ( 4 - 8 ) 此模型为二次规划问题。 在结构风殓( 4 - 2 ) 式中,出瑷囱量f 黪2 - 范数瓣俘曩在予控毒模攀复杂度。 基于线馒规划算法的支持如震帆& 其艘塌 由范数的等价性可知,在结构风险中引入其它范数也同样可以起到控制模型复杂 疫的作用。对予。一范数可戳定义结稳搋验为 r ( a ) = c r o 。( a ) + 1 1 w i i 。 ( 4 9 ) 极小化此结构风险可以得到如下学习机模型 r a i n r + c 妥 ( 4 l o ) s t w 7 z ;+ b y fs + 鼓,卢l ,2 , ( 4 1 1 ) 一w 工,一b + y ,5s + 皇,i = 1 ,2 , ( 4 1 2 ) 一r s s r ,k = - i ,2 ,n ( 4 一1 3 ) r ,莹0 ,声l ,2 , ( 4 1 4 ) 此模型为线性规划模型。该线性规划的约荣不等式个数为2 n 2 n ,变量个数为 a 时2 。 类似的对于卜范数可以定义结构风险为 。国0 = 瓯。( + 1 w 壤 ( 4 1 5 ) 极小化此结构风险可以得到如下学 - - 3 机模型 艇n 喜l 强| + e 耋专+ 嚆等( 4 1 6 ) s t 。薯+ 参一只s + 曼,i = 1 ,2 ,彤 ( 4 1 7 ) 一7 墨一6 + ) s f + 占,i = 1 ,2 , ( 4 1 8 ) 爵,等o ,芦l ,2 , ( 4 1 9 ) 此模型等价予如下模型 m i n 耋( w :+ w i ) + c 耋盏+ c 耋美( 4 - 2 0 ) 砉( 嵋- w m “啮一屿 q 。2 ” 一荟( 蟛一峨p n 一6 + y ,se + 爵 鲁,亭j2 0 ,w ;o ,w i2 0 ( 声t ,2 ,v , k - - i ,2 ,一二彩 ( 4 2 2 ) ( 4 2 3 ) 基于线性规划算法的支持向量机及其应用 此模型为线性规划模型,最优解满足w ;w i = 0 ,即w 。一w :一w :。该线性规划 的约束不等式个数为2 a 4 2 n ,变量个数为斛卅2 。 4 2 非线性回归支持向量机 对非线性回归问题,v a p n i k 提出的方法是将低维向量映射到某个高维空间 中,在高维空间中样本数据呈现线性关系。设有映射占:f 一矿( 力) ,则 回归函数的表达式为 ,( 五b 曲= 矿( 力+ 6( 4 - 2 4 ) 对于样本数据( 丑,力( i - 1 ,2 ,朋,可以假设向量组 f ( 丑) :卢1 ,2 , 的秩 是胁否则可以重新选择映射g 将数据映射到较低维的空间中。因此可以将r 表示为该向量组的线性组合 w = a , g ( x ) ( 4 2 5 ) 此时( 4 2 4 ) 式为 ,2 善a i g ( x ,) 7 9 0 ) + 6 ( 4 - 2 6 ) 引入核函数 k ( x ,x ) = c 占( x ) ,g ( x ) ,- g ( z ) 7 占o ) ( 4 - 2 7 ) 其中 表示向量的内积。则表达式( 42 6 ) 可以写为 ,一n 一女o 。,z ) + b ( 4 2 8 ) 对向量w 的2 一范数有 i l w 畦5 w 7 w 。善荟4 ,口,占。,) 7 9 0 ,) 。善;a ,a j k “,j ,) ( 4 - 2 9 ) 令k - ( 詹( 丑,砌) 为由样本核函数值构成的阶方阵,f ( a ,岛,勘7 ,则( 2 9 ) 式可以表示为 l l w 畦= a r k a ( 4 - 3 0 ) 设a 。为矩阵的最大特征值,则有 0 w l l := n 7 k a s 怕畦 ( 4 3 1 ) 因此控制向量a 的范数同样可以达到控制向量的范数所希望达到的目标。因此, 针对a 的o o 一范数可以考虑类似( 4 - 9 ) 式的如下结构风险 基于线性规划算法的支持向量机及其应用 r ( a ) 一积一 ) + 0 a 虬 极小化该结构风险可以得到学习机模型 善。( x i ,x i ) n ,+ 6 咄s s + 量, 一再( x i ,x j ) 旷6 us + ( 4 3 2 ) ( 4 3 3 ) ( 4 - 3 4 ) ( 4 3 5 ) ( 43 6 ) r ,量0 ,i = 1 ,2 ,( 4 - 3 7 ) 此模型同样为线性规划模型。该线性规划的约束不等式个数为4 n , 变量个数为 2 册2 。 同理,针对a 的卜范数可以考虑类似( 4 - 9 ) 式的如下结构风险 r ( n ) 一衄一( 。) + 怕眦 ( 4 3 8 ) 极小化该结构风险可以得到学习机模型 m 1 “善。? + 口i ) + c 善茧+ c 善等 4 3 9 ) s t 弘,o j n i ) + 6 一y sp + 基,卢1 ,2 ,n ( 4 4 0 ) 一再t ,o ;一4 i ) - b + y , s + 舅,产1 ,2 , - - , n ( 4 - 4 1 ) 鼻20 ,舅0 ( 声1 ,2 ,肿 ( 4 - 4 2 ) 此模型为线性规划模型。该线性规划的约束不等式个数为4 n , 变量个数为2 斗2 。 回归函数的表达式为 ,( x ) 一( a ? 一n ,) ( x ,x ) + b ( 4 4 3 ) 核函数可以有多种选择,如线性函数、多项式函数、高斯函数、s 型函数, 如果选择线性函数则为4 1 节讨论的线性支持向量机模型。 4 3 线性规划支持向量机的求解 茎! 苎丝塑型蔓垄! ! 茎堡生量塑垦茎窒星 在线性规划问题( 4 3 3 ) 一( 4 3 7 ) 中,约束不等式个数为4 肌由于线性规划问 题求解的计算复杂性由约束不等式( 等式) 的个数确定,当样本容量较大时求解 该线性规划问题的计算量是比较大的,因此提高计算效率对实际应用非常重要。 为此,记 k = k ( x l ,x 1 ) t 0 :,) k ( x l ,z 2 ) k ( x :,z :) 卜,x 1 ) t ,x 1 ) 1 ,;【y ,y :y 。】: 宇= 【未最一 。】: a a i a2 口。】: e 一【11 螈 0 一 00 o 】: 卢= 1 0 7 0 c e 7 】7 k ( x l ,x 。) t o :,z 。) x = j r a 7 b 7 】7 则线性规划问题( 4 2 4 ) ( 4 2 8 ) 可以表示为 m i n 卢7 x s t 0k 0 一k e e e e e e 一e e o o o o x 苫 y 口 一i ,一即 ( 4 4 4 ) ( 4 5 2 ) ( 4 5 3 ) 。,薯o ,= 1 ,2 ,n ( 4 5 4 ) 其中磊表示川介单位方阵,毋表示阶零方阵。该线性规划的对偶规划1 为 0 8 。( y 一7 ) w + ( 一y 7 一7 扣 ( 48 8 ) 8 t p 7 v + p 7 fs 1 ( 4 5 6 ) 脚一胁+ v r = 。 ( 4 5 7 ) e 7 ”一8 1 2 0 ( 4 5 8 ) + “c 。 ( 4 5 9 ) 以一2 0 ( 4 6 0 ) 蛳 蛳 蜘 删 卿 卿 叫 一 基于线性规划算法的支持向量机及其应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论