




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 内容摘要:支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是v a p n i k 等人根据统计学 理论提出的一种机器学习方法。它是建立在v c 维和结构风险最小化原则基础上 的,利用核函数把非线性可分数据映射到高维特征空间,使其在高维特征空间中 线性可分,同时利用核函数计算内积可避免维数灾难。由于支持向量机具有较好 的学习性能和泛化能力,该技术已成为机器学习的热点,并在很多领域得到成功 应用,如模式识别、图像分析、预测等方面。 支持向量回归算法是v a p n i k 在定义了s 一不敏感损失函数的基础上提出来的, 简称g s v r 算法。在s v r 中,输入样本被等同对待,每个样本的松弛项被赋 予相同的惩罚因子,所以当样本中存在噪声或野点时,导致s v m 在这些点较为 敏感,由此产生过拟合现象。针对这种情况,2 0 0 2 年l i ncf 等将模糊隶属度的 概念引入到s v m 分类中,提出了模糊支持向量机( f u z z ys u p p o r tv e c t o rm a c h i n e , 简称f v s v m ) 的概念,根据不同输入样本对分类贡献的不同,赋予不同的隶属 度,将噪声和野点与有效样本区分丌。 本文在介绍了统计学与支持向量机分类与回归理论的基础上,对加权支持向 量回归权值的确定方法进行了研究。根据每个样本偏离数据域程度的不同赋予不 同的权值,使噪声点的权值接近于一个很小的实数,以减小对回归函数的影响。 在确定权值的训练中,采用线性规划下的一类分类方法。实验证明,该方法减小 了回归误差,提高了s v m 的抗噪能力。 关键词:统计学习理论:支持向量机;线性规划:加权支持向量回归;权值 a b s t r a c t c o n t e n t :s u p p o r tv e c t o rm a c h i n e ( s v m ) ,w h i c hw a sp r o p o s e db yv a p n i ka n ds o m e o t h e r s i sam e t h o do fm a c h i n el e a r n i n ga c c o r d i n gt ot h es t a t i s t i c a ll e a r n i n gt h e o r y i ti s b a s e do nv cd i m e n s i o na n ds t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l e k e m e lf u n c t i o ni s u s e dt om a pt h en o n 1 i n e a rs e p a r a b l ed a t ai n t oah i g h e rd i m e n s i o n a lf e a t u r es p a c e s o i tc a nb es e p a r a t e di nt h eh i g h e rd i m e n s i o n a lf e a t u r es p a c e m e a n w h i l e u s i n gk e r n e l f u n c t i o nt oc a l c u l a t ei n n e rp r o d u c tc a na v o i dd i m e n s i o nd i s a s t e r b e c a u s es v mh a s b e t t e rg e n e r a l i z a t i o na n dl e a r n i n gp o w e r , t h i st e c h n o l o g yh a st u r n e di n t ot h et o p i co f m a c h i n el e a r n i n g ,a n da l s og a i n e ds u c c e s s f u la p p l i c a t i o n si nm a n yf i e l d s ,s u c ha s p a t t e r nr e c o g n i t i o n ,i m a g ec l a s s i f i c a t i o n ,f o r e c a s t i n ga n d s oo n s u p p o r tv e c t o rr e g r e s s i o nr s v r ) w a sp r e s e n t e da tt h eb a s eo f 占一n o n s e n s i t i v e l o s sf u n c t i o n i n 占一s v r ,i n p u td a t a b a s er e g a r d e da st h es a m e ,a n de v e r yd a t ag i v e st h e s a m ep e n a l t yv a l u e 、e nt h ed a t ae x i s t sn o i s e sa n do u t l i e r s ,s v ri ss e n s i t i v ea tt h e s e p o i n t s ,s ot h i ss i t u a t i o nc a u s e st h eo v e rf i n i n gp r o b l e m f o rt h ep h e n o m e n o n ,f u z z y s u p p o r tv e c t o rm a c h i n e si sp r e s e n t e db yl i n ,t h e nt h ec o r r e s p o n d i n gm e m b e r s h i pi s g i v e na c c o r d i n gt od i f f e r e n ti n p u td a t aa f f e c t so nt h ec l a s s i f i c a t i o nr e s u l t s s ot h i s m e t h o de f f e c t i v e l yd i s t i n g u i s h e sb e t w e e nt h en o i s e so ro u t l i e r sa n dt h ev a l i ds a m p l e s t h ea r t i c l es t u d i e sa na p p r o a c ho fc o n f i r m i n gw e i g h tv a l u e sa tt h eb a s eo f s t a t i s t i c a ll e a m i n gt h e o r ya n ds u p p o r tv e c t o rm a c h i n e st h e o r y t h ew e i g h tv a l u eo f e a c hi n p u ts a m p l ei sc o n f i r m e da c c o r d i n gt oi t sd i s t a n c et od a t a b a s eb yl i n e a r p r o g r a m m i n g t h ep r o p o s e dm e t h o di sa p p l i e dt ow e i g h t e ds u p p o r tv e c t o rr e g r e s s i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sa p p r o a c hc o m p a r e dw i t hs t a n d a r ds u p p o r tv e c t o r r e g r e s s i o nc a nr e d u c et h ee r r o ro fr e g r e s s i o ne f f e c t i v e l y , a n di m p r o v et h ea n t i n o i s e c a p a b i l i t yo f 洲m k e yw o r d s :s t a t i s t i c a ll e a r n i n gt h e o r y ;s u p p o r tv e c t o rm a c h i n e ;l i n e a rp r o g r a m m i n g ; w e i g h t e ds u p p o r tv e c t o rr e g r e s s i o n ;w e i g h tv a l u e 加权支持向量回归算法研究 学位论文独创性声明 本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果论文中除特 别加以标注和致谢的地方外,不包含其他人和其他机构已经撰写或发表过的研究成果, 其他同志的研究成果对本人的启示和所提供的帮助,均已在论文中做出了明确的声明 并表示谢意 学位论文作者签名:同期:砷、,。7 学位论文版权使用授权书 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及学校有 权保留并向国家有关部门或机构送交复印件和磁盘,允许论文被查阅和借阅本人授 权辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或其他复制手段保存、汇编学位论文 保密的论文在解密后使用本授 权书 学位论文作者签名:邈缈 指导撕签名:如“ 同期:卯罗、f 、夥 加权支持向量回归算法研究 1 绪论 1 1 研究的目的和意义 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是2 0 世纪9 0 年代中期l i t v a p n i k 等人提出的 一种新的机器学习算法,它是以统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ;s l t ) 为基础的, 这使得支持向量机有很强的理论基础和泛化能力。该方法在很多情况下可以克服“维数 灾难”等传统困难,现已成为机器学习的热点,并在很多领域得到成功应用,如模式识 别、图像分类、预测等方面,具有良好的应用价值和发展前景。 统计学习理论是建立在结构风险最小化原则基础上的,它是专门针对小样本情况下 的机器学习问题而建立的一套理论体系。它的核心思想是对于一个给定的具有有限数量 训练样本的学习任务,如何对准确性和机器容量进行折衷,以得到最佳的推广性能。该 理论为机器学习问题建立了一个良好的理论框架,较好地解决了小样本、非线性和局部 极小点等实际问题。 支持向量机是建立在v c 维( v cd i m e n s i o n ) 和结构风险最小化原则( s t r u c t u r a lr i s k m i n i m i z a t i o n ;s r m ) 基础上的。设计支持向量机的目的是为了处理模式识别分类问题,即 首先在训练集中寻找支持向量,然后在其上构造决策函数,使其具有良好的分类性能。 支持向量同归是v a p n i k 在定义了一不敏感损失函数的基础上提出来的,简称占一s v r 。 在s - s v r 中,输入样本被等同对待,每个样本的松弛项被赋予相同的惩罚因子,所以当 样本中存在噪声或野点时,导致s v m 在这些点较为敏感,由此产生过拟合现象。针对这 种情况,本文在此引入权值,根据每个样本偏离数据域程度的不同赋予不同的权值,使 噪声点的权值接近于一个很小的实数,以减小对回归函数的影响。在确定权值的训练中, 采用线性规划下的一类分类方法。 1 2 研究现状 支持向量机理论源于v a p n i k 等人提出的用于解决模式识别问题的方法。自1 9 9 5 年 以来,在算法、设计和实现等方面取得了丰硕的成果。针对回归时样本中出现噪声或野 点的情况,提出了加权支持向量回归算法,主要有: ( 1 ) 模糊支持向量机 2 0 0 2 年l i ncf 等将模糊隶属度的概念引入到s v m 分类中,将输入样本集模糊化, 提出了模糊支持向量机( f u z z ys u p p o r tv e c t o rm a c h i n e ,简称f s v m ) 的概念【l 2 】。该方法 提高了s v m 抗噪声的能力,尤其适合于未能完全揭示输入样本特性的情况。 加权支持向量回归算法研究 ( 2 ) 基于数据域描述的模糊支持向量回州4 l 其基本思想是:首先得到数据域描述模型。然后根据每个样本偏离数据域的程度的 不同赋予不同的隶属度。 ( 3 ) j j u 权稳健支撑向量回归方法( w r s v r ) f 5 1 其基本思想是:首先由s v r 方法得到一近似支撑向量函数,基于这一近似模型给出 给定数据的损失估计。软剔除是指以加权的方式剔除奇异值:数据偏离模型愈远,损失 函数的权重愈小,其对模型参数估计的影响亦愈小。 目前对权值的确定还没有个统一的方法,本文所做的工作主要是对( 2 ) 中提出的方 法进行调整研究和实践,采用线性规划下的一类分类方法,根掘每个样本偏离数据域程 度的彳i f 司赋予不i 刊的权值,使噪声点的权值接近于一个很小的实数,以减小对回归函数 的影响。 1 3 论文结构 第一章简要概述了支持向量机的原理,介绍了其发展瑟现状,指出支持向量回归目 前存在的不足,本文正是在这种研究背景下阐述加权支持向量回归并指出本文所做的主 要一l 作。 第二章从支持向量机的机器学习、学习过程一致性的条件及最优化理论等定义和定 理出发,介绍了统计学习理论,为后面知识的学习奠定基础。 第三章介绍了支持向量机的基础理论,由二次规划下的;一类分类支持向量机算法推 导出了线性规划下的一类分类支持向量机算法,并对支持向量回归理论进行了阐述。 第四章提出了一种采用线性规划下的一类分类算法确定权值的方法,并从其理论以 及实验来说明此种方法的可行性。 第血章是对全文的总结与展望。 2 加权支持向量回归算法研究 2 统计学习理论 统计学习理论i 6 7 1 研究始于6 0 年代末,在其后的2 0 多年里,前苏联入 v a p n i k & c h e m o n e n k i s 做了大量丌创性、奠基性的工作。这些工作主要是纯理论性的,故 当时未引起人们的重视。进入9 0 年代,该理论被用来分析神经网络。9 0 年代中期,基 于陔理论设计的支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 在解决一系列问题中 获得成功,表现出优良的学习性能和泛化能力,从而引起人们对这一领域的极大关注。不 夸张地说,就像信息论为信息技术的崛起开辟道路一样,统计学习理论将带来机器学习 领域的一场深刻变革。 2 1 学习模型 设x 是系统的输入空1 、日j ,y 是输出空| 白j ,统计学习模型包括三要素: p ( x ) :输入空间x 上的概率测度: p ( y x ) :输出空间y 上的条件概率测度; 学习机:s = ( x ,口) :盘 ,八是非空指标集,厂:x 专y 。 这样乘积空间x xy 上有概率测度p ( x ,y ) = p ( x ) p ( y x ) 。试图用函数f ( x ,口) 来拟合 输入石和输出少之间的关系,这种拟合是有风险( 或有损失) 的,设风险为l ( y ,f ( x ,口) ) , 则平均风险为: 尺( 口) = ,l ( y ,厂( x ,口) ) j p ( 工,y ) ,口 ( 1 ) 学习目标:寻找h ,使得r ( c r 。) = m i n ,前提条件是p ( x ,y ) 未知,仅仅知道样本 ( x iy j ) ,扛1 , 2 ,z 。 2 2 经验风险最小化原理 经验风险最小化原理:为了求口。,定义经验风险 ( 口) = 砉q ( z ) 加权支持向量回归算法研究 把它的最小点口,作为口。的估计,即 尺。叩( 口,) = r a i n r 。p ( 口) ( 3 ) 。 口e 实际上,经验风险最小化原理并不陌生,最小均方误差和极大似然估计方法都是它 的具体运用。现在的问题是:得到的口j 符合要求吗? 即下式成立吗? rp j 尺( 口,) 一r ( 口。) ,寸o o (4)p 一7 【r e m p ( 口,) 一尺( 口o ) j 表示依概率收敛。 定义1 若( 4 ) 成立,称机器s = q ( z ,口) :口 ) 关于p 具有可学习性。 下面给出机器可学习的充分必要条件。 定理1( 关键定理) 机器可学习的充分必要条件是 :。 ! i m p s u p r ( e t ) 一r 厶。( 口) 占) = o ,v s 0 ( 5 ) i _ + 口e 在学习过程中,经验风险和期望风险都是预测函数的泛函。所以,可以通过求使经 验风险最小化的函数来逼近能使期望风险最小化的函数。然而学习理论的关键定理只给 出了使经验风险最小化原理成立的充分必要条件,并没有给出什么样的学习方法能够满 足这些条件。因此,统计学理论中定义了一系列的指标来衡量函数集的学习性能,其中 最重要的一个指标就是v c 维。 2 3v c 维 定义2 设s 是x 上取 0 , 1 ) 值的函数集合,at - x 。如果任给ecx ,总存在几s 满足 ( 工) = 1 ,石e ;厂( x ) = o ,x a e 则称s v c 分丌a 。所有被s v c 分丌的集合a 所含元素个数的最大值,称为s 的v c 一维数( 如果s 能v c 分开的元素个数任意大的集 合4 ,则s 的v c 一维数为0 0 ) 。 v c 维是机器复杂度的一个度量。 定理2 设s 的v c 维为h ,则 刊麓:,2 图3 2 输入空间到特征空间的映射 因此,在非线性情况,分类超平面为 ( c o ( x ) ) + b = 0 决策函数为 f ( x ) = s g n ( ( c o ( x ) ) + b ) i :h ( 2 7 ) 式可以看出,对于在特征空间日中构造最优分类超平面, 式来表示特征空间。我们仅仅需要计算特征空间中向量之间的内积。 假定,我们将输入空间向量x r “映射到一个h i l b e r t 空间,即 ( 2 6 ) ( 2 7 ) 我们并不需要以显 。( z ) ,:( z ) ,。( x ) ( 2 8 ) 根据h i l b e r t s c h m i d t 理论,h i l b e r t 空间中的内积有一个等价表达式: ( j l z l ,红) = 口f h i ( x 1 ) h i ( x 2 ) 臼k ( x l ,而) ,口,0 ( 2 9 ) i = 1 式中k ( x ,工:) 为满足讹愆p ,定理的对称函数,称之为核函数。目前常用的核函数有1 0 种,其中最常用的核函数是: d 次多项式:k ( x ,x ,) = ( 1 + x x f ) d 高斯径向基函数:k ( x ,x ,) = e x p ( - x - x 川2 o r 2 ) 神经网络核函数:k ( x ,x f ) = t a n h i c l ( x ,x f ) + 誓2 核方法的基本思想是:对于满足m e r c e r 条件的任何核函数k ( x ,x ,) ,存在一个特征 空间( ,( x ) ,:( x ) ,( x ) ,) ,在这一空间中这个核函数生成内积。也就是说( 2 9 ) 式的左端绝对一致收敛于函数k ( x ,x ,) ,即 k ( x ,_ ) :妻口,( x ) 五,( _ ) ( 3 0 ) ,= l 1 2 加权支持向量回归算法研究 由此可见,样本空问的内积运算已替换成核。事实上,运算是在样本空问进行的, 而不是在高维特征空间进行的,这就是核技巧的思想。 核方法的优点是:输入空间的核函数实际上是特征空间内积的等价,因此,在实际 计算中,我们不必关心非线性映射( x ) 的具体形式,只需要选定核函数k ( x ,x i ) 的形式 就可以了。核函数比较简单,而映射函数可能很复杂,而且维数很高。因此,引入核方 法的思想可以克服“维数灾难”问题。 2 算法实现 根据核方法的思想,对于非线性分类,首先采用一个非线性映射( 工) 把数据映射 到高维特征空间,然后在高维特征空间中对样本进行线性分类,再映回到原空间就成了 输入空间中的非线性分类。为了避免高维特征空间中计算的复杂,支持向量机采用核函 数k ( x ,y ) 代替高维空间中的内积运算( ( z ) ,( y ) ) 。 另外,考虑到可能存在一些样本不能被分类超平面正确分类,采用松弛变量解决这 个问题,于是优化问题为: m i n 。- li l c o 旷+ c 窆缶 ( 3 1 ) o g b ,f2 “” 篙“ 约束为 y ,( ( 国( 石,) ) + b ) 1 一鼻,f = 1 , 2 ,z 孝,o ,i = 1 , 2 ,z ( 3 2 ) 其中,c 为一正常数。式中第项使样本到超平面的距离尽量大,从而提高泛化能力; 第二项则使分类误差尽量小。 引入拉格朗同函数 上= 去l i 缈1 1 2 + c 参一口,( y i ( ( c o ( 五) ) + 6 ) 一1 + 参) 一苁参 ( 3 3 ) 二,= ji = l = i 其中,o t f ,厂f 0 ,k1 , 函数l 的极值应满足条件 旦l :o ,旦:o 旦:o( 3 4 ) a a b a 罨 加权支持向量回归算法研究 于是得到 , c o = 苁呸( 薯) i = l , 暖m = 0 f = i c 一口f 一夤= 0 ,i = l , 将( 3 5 ) 式代入( 3 3 ) 式中,得到优化问题的对偶形式为: 约束为 ,1, m a x c t ,一寺眵,y i y ,k ( t ,x ,) f = lz ,= l ,= 1 , 嘶乃= 0 i = 1 0 口f c ,i = 1 , ( 3 5 ) ( 3 6 ) ( 3 7 ) 一般情况下,该优化问题解的特点是大部分口,将为零,其中不为零的口,所对应的样 本为支持向量。 根据k k t 条件,在鞍点有 口f ( 少f ( ( 缈( 石f ) ) - 4 - b ) 一1 + 参) = o ,i = 1 ,z ( c 一口,) 六_ 0 ,i = 1 , ( 3 8 ) 于是得到b 的计算式如下: , y i ( z a ,y j k ( x ,x i ) + 6 ) 一1 = o ,哆( o ,c ) ,= 1 ( 3 9 ) 因此,可以带入任意一个支持向量求出b 的值。为了稳妥起见,也可以带入所有的 支持向量求出多个b 的值,然后取平均。 最后得到决策函数为: , ( x ) = s g n ( z , z ;y , x ( x ,工) + 6 ) ( 4 0 ) 3 1 3 一类分类 设定一个f 类样本点集为f z ,i = 1 , ,工,r d ,用一个非线性映射将样本点映射 到高维特征空间。一类分类的目的是要在高维空间中找一个决策超平面,使之能够以尽 可能大的距离p 将尽可能多的样本从原点分离开,即估计一个函数( x ) = ( c o ( x ) ) ,如 1 4 加权支持向量回归算法研究 果一个样本工满足l ( 工) p 时,它被确定属于该类。为了获得国和p 的值,根据结构风 险最小化原则,将问题归结为下面的优化: m i n 委i l 缈1 1 2 一p + c 圭缶 ( 4 1 ) 约束为 ( 缈( x m p 一六,色o ,f = 1 , ( 4 2 ) 其中,如缈2 为规划项,参数c 对误差项和规划项做出折中。将优化问题化为对偶形式: 1 , , m i n 寺口f o t j k ( x i ,) ( 4 3 约束为 0 嚷c ,i = 1 , 口,= 1 ( 4 4 ) 解出口值后,可得决策函数: f ( x ) = 口f 足( t ,x ) ( 4 5 ) 决策超平面为 口,k ( ,x ) = ( 4 6 ) 3 。2 基于线性规划的支持向量机分类 对于支持向量机中参数的数量,在分类情况下等于训练样本的个数,而在回归情况 下则是训练样本个数的二倍。所以当样本数据量很大时,需要计算的时间复杂度和空间 复杂度都很大。如果能将支持向量机算法归结为线性规划来求解无疑会大大减少计算 量。于是线性规划下的支持向量机方法被提出。最初的支持向量机分类算法是由最大化 分类间隔而得到的,其中的距离度量采用的是由l 2 范数导出的欧式距离。如果用l 。和 k 范数代替其中的l 2 范数就得到基于线性规划的支持向量机算法。线性规划的支持向 量机算法具有很好的性能,而且计算的复杂度大大减小。 若优化问题( 4 1 ) 中的规划项采用l o 范数【1 4 1 ,并且核函数取高斯核函数,可以得到 其等价的线性优化问题: , r a i n p - 4 - c j 差? ( 4 7 、 加权支持向量回归算法研究 约束为 ( g o o ( x f ) ) p 一六,茧0 ,i = 1 ,l 。= 1 ( 4 8 ) , 可以直接采用核展开式口,k ( x j , x ,) 代替优化问题中的不等式约束项( c o o ( x f ) ) , 于是可得到下面的线性规划形式: 约束为 , m i n pj r c z 号: f = l , k ( _ ,t ,) 夕一乡,= 1 ,z = l , 口,= 1 ,= l 口f ,茧o ,i = 1 ,z ( 4 9 ) ( 5 0 ) ( 5 1 ) 解这个线性规划可以得到口和p 的值,于是得到决策函数为: , f ( x ) = 口,k ( x i ,x ) ( 5 2 ) ,= l 根据优化问题的意义,对于大部分训练样本将符合厂o ) p ,参数c 的意义就是控 制满足上述条件的样本数量,较大的参数c 值会使得所有的样本满足条件。得到的决策 超平面为: , 口f k ( 一,x ) = p ( 5 3 ) i = l 这个决策超平面映回到原空间后,就成为包含训练样本的紧致区域。对于区域内的任意 样本x ,满足 ) p ,而对于区域外的任意样本j ,则满足( y ) p 。在实际应用中, 核函数中的参数盯2 的取值越小,获得原空间中包含训练样本的区域就越紧致,这就说 明参数盯2 决定着分类的精度。 1 6 加权支持向量回归算法研究 3 3 支持向量回归 设给定的训练样本为: ( x f ,y f ) ,i = 1 , 2 ,) 其中,x ,r 为输入值,y ,r 为对应的目标值,1 为训练样本个数。 支持向量回归6 1 算法是v a p n i k 在定义了s 一不敏感损失函数的基础上提出来的,简 称s v r 算法。支持向量回归的基本思想是寻找一个从输入空间到输出空间的一个非 线性映射( 工) :r jh ,将输入数据x 映射到高维特征空间h 中,采用适当的核函数 k ( x ,) 代替高维特征空间中的向量内积 ,并在特征空间中用下式末寻 求最优回归函数: f ( x ) = + 6 其中,w ,b 分别为回归函数的权重和偏置。 ( 5 4 ) 基于支持向量机的最优回归函数是指满足结构风险最小化原理,即极小化优化问题 是最小化下面的函数: 约束为 m i n 妻i i 叫1 2 + c 圭( 每+ 等) _f = i f ( x ,) - y ,参+ s ,i = 1 , 2 ,z y f f ( x ,) 孝,+ s ,i = 1 , 2 , 六,舅o ,i = 1 , 2 , ( 5 5 ) ( 5 6 ) ( 5 7 ) ( 5 8 ) 其中,第一项使函数更为平坦,从而提高泛化能力,第二项为减小误差,常数c 为惩罚 系数,对两者做出折中。s 为一j 下常数,控制回归精度。 引入拉格朗同函数 三( 国,b ,口,口,y ) = 去l | 彩1 1 2 + c 窆( 缶+ 等) 一窆口f 专+ s m + + 6 】 二 ,= lf 譬1 lt - - z 口i 等+ s + 咒一 - b - ( 乃毒+ 占) ( 5 9 ) 其中口f ,口? ,y ,o ,i = 1 ,。 加权支持向量回归算法研究 函数的极值应满足条件 于是得到下面的式子: 去圳,旦a b 瑚南 8 国 a 芒 , 国= ( q 一西k i = l , ( 嘶一口? ) = 0 f = l c 一口,一7 ,= o ,江1 , c 一口? 一y ? = o ,i = 1 ,z 将( 6 1 ) ( 6 4 ) 代入( 5 9 ) ,得到优化问题的对偶形式为 约束为 ( 6 0 ) ( 6 1 ) ( 6 2 ) ( 6 3 ) ( 6 4 ) m a x i 1e ( a ,一口? ) ( 口,- a i ) k ( x f ,一,) + ( 口,- - 0 r i ) y f e ( a ,+ 西弦 ( 6 5 ) 二i ,= j ,= l,= l , ( 嘶一彳) = 0 ,皇l 0 口f ,口;c ,i = l ,z 解这个二次优化问题,得到回归函数f ( x ) 的表达式为: ( x ) :l ( 一西) k ( 而,x ) + 6 ( 6 6 ) ( 6 7 ) ( 6 8 ) 加权支持向量回归算法研究 4 加权支持向量回归 设给定的训练样本为: ( x iy f ) ,i = 1 , 2 , 其中,x ,r 为输入值,y i r 为对应的目标值,为训练样本个数。 基于支持向量机的最优回归函数是指满足结构风险最小化原理,即极小化优化问题 是最小化下面的函数: m i n 昙l l 叫1 2 + c 圭i ( 缶+ 占) ( 6 9 ) 约束为 f ( x ,) - y ,占,+ ,i = 1 , 2 , ( 7 0 ) y f f ( x f ) 等+ f ,i = 1 , 2 , ( 7 1 ) 茧,f ? o ,f _ 1 , 2 , ( 7 2 ) 其中,第一项使函数更为平坦,从而提高泛化能力,第二项为减小误差,常数c 为惩罚 系数,对两者做出折中。s 为正常数,控制回归精度。 引入拉格朗同函数,得到优化问题的对偶形式为: m a x 一当圭( 哆一口? ) ( 9 i 一) k ( x i , x j ) + 圭( 口,一z 溉一圭( 哆+ z 弦 ( 7 3 ) z ,- ,= i = ll = i 约束为 ( 口,一西) = 0 ( 7 4 ) 0s 口,a ? s f c ,i = 1 ,z ( 7 5 ) 解这个二次优化问题,得到回归函数f ( x ) 的表达式为: 厂( z ) :( 哆一西弘r ( 薯,石) + 6 f = l 1 9 ( 7 6 ) 加权支持向量回归算法研究 4 1 权值的确定 权值的确定采用线性规划下的一类分类算法。定义权值如下: a i 2 f m f 。f ( x 1 ) p l 一掣 p 销l 厶。一 i 。 广。1 一j 懈 其中,f ( x ,) 为样本x ;的决策函数,表达式为: ( 7 7 ) , f ( x ) = 口f k ( x i ,x ) ( 7 8 ) f = l f m 。= m a x ( f ( x f ) ix f x ) ,f m i 。= m i n ( f ( x f ) lx f x ) ,仃 1 ,为足够小的正实数。 从上述定义可以看出,当psf ( x ,) f m 。时,说明工,是区域内的样本,在支持向量 回归中,该样本在回归间隔附近;当f m ;。f ( x ,) p 时,说明x ,是区域外的样本,其权 值接近于一个很小的实数。 4 2 实验分析 ? 为了检验利用线性规划下的一类分类算法确定权值的方法的有效性,我做了两个实 验:第一个实验足采用人工数掘,其目的足验证该方法的合理性,而第二个实验采用 1 9 4 9 2 0 0 4 年人口增长率的观测数据。 4 2 1 人工数据 取x - 2 , 2 】,其中间隔为o 1 ,因变量y = s i n c ( x ) ,然后在因变量的前1 0 个样本中 加入噪声n ( 0 ,0 。8 ) ,其余样本中加入噪声n ( 0 ,0 1 ) ,如图4 1 所示。分别用标准的支持 向量回归和加权支持向量回归建立预测模型。 首先对输入样本进行训练,取c = 1 1 5 ,仃2 = o 1 2 ,利用线性规划得到 p = 0 0 9 3 1 ,五。;= o 。1 3 7 7 ,厶i l l = 2 8 6 1 6 e - 0 0 8 ,则确定权值为: 2 0 加权支持向量回归算法研究 , u i2 2 佰 j + - + + 十 + 1 十 舶l l 一一:一一一。 1 复 一j :弓一寸一:矗弓一一弋广石? i 一一一i 之 :2 1 5 10 5 00 5 11 52 图4 1 加入噪声的样本 ( 1 一:1 9 :! ! z z 二丝 ) :+ o 0 0 0 5 、0 :1 3 7 7 2 8 6 1 6 e 一0 0 8 1 一 旦:! ! z z 二蚴 o 1 3 7 7 2 8 6 1 6 p 一0 0 8 2 8 6 1 6 e 一0 0 8 f ( x f ) 0 0 9 3 1 ( 7 9 ) o 0 9 3 1 f ( x ,) o 1 3 7 7 进行s s v r 训练,取c = 5 ,仃2 = 1 8 ,在一2 到2 之间取间隔为0 1 3 的样本为测试样本 ( 不同于训练样本) ,测试指标采用均方误差: m s e = 腼1 k 2 , 其中,y ,为实际值,夕,为预测值,k 为测试样本的数量。标准支持向量回归的结果 m s e :0 3 5 3 0 ,加权支持向量回归的结果m s e = 0 0 8 5 8 ,说明当数据中存在噪声时,加 权支持向量回归算法得到的预测值更接近真实值。 2 1 + 卜 卜 十 + + 十 0 f 4 4 - + , 十 + 十 5 0 5 0 旬 加权支持向量回归算法研究 4 2 2 实际数据 表4 11 9 4 9 2 0 0 4 年人口增长率( ) 年份观测值年份观测值年份观测值 1 9 4 91 6 0 01 9 6 82 7 3 81 9 8 71 6 6 1 1 9 5 01 9 0 01 9 6 92 6 0 81 9 8 8 1 5 7 3 1 9 5 12 0 0 01 9 7 02 5 8 31 9 8 91 5 0 4 1 9 5 22 0 o o1 9 7 12 3 3 31 9 9 01 4 3 9 1 9 5 32 3 o o1 9 7 22 2 1 6 1 9 9 1 1 2 。9 8 1 9 5 42 4 0 01 9 7 32 0 8 91 9 9 21 1 6 0 1 9 5 52 0 3 21 9 7 41 7 4 81 9 9 31 1 4 5 1 9 5 62 0 5 01 9 7 51 5 6 91 9 9 4 1 1 2 1 1 9 5 72 3 2 31 9 7 61 2 6 61 9 9 51 0 5 5 1 9 5 81 7 2 41 9 7 71 2 0 61 9 9 61 0 4 2 1 9 5 91 0 1 91 9 7 81 2 0 01 9 9 71 0 0 6 1 9 6 04 5 71 9 7 91 1 6 l1 9 9 89 1 4 1 9 6 13 7 81 9 8 01 1 8 71 9 9 98 1 8 1 9 6 22 6 9 91 9 8 11 4 5 52 0 0 07 5 8 1 9 6 33 3 3 31 9 8 21 5 6 82 0 0 16 9 5 1 9 6 42 7 6 41 9 8 31 3 2 92 0 0 26 4 5 1 9 6 52 8 3 81 9 8 41 3 0 82 0 0 36 o l 1 9 6 62 6 2 21 9 8 51 4 2 62 0 0 45 8 7 1 9 6 72 5 5 3 1 9 8 6 1 5 5 7 我们采用1 9 4 9 2 0 0 4 年人口增长率的观测数据,如表4 1 所示,进行实验。 方法同样先采用线性规划下的一类分类算法确定每个样本的权值,而后进行f - s v r 训练。这里首先随机抽取4 0 个样本为训练样本,再抽取3 0 个样本为测试样本,以后两 组各交换1 0 个,反复训练,测试误差仍采用均方误差。选取其中四组测试结果,如表4 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- WPS文档的设计美学与排版技巧的优化实例试题及答案
- 2025年新能源与环保产业绿色发展报告-绿色生产与循环经济模式
- 风电技术发展与创新方案概述
- WPS数据表格分析案例试题及答案
- 羊养殖项目经济可行性评估与财务分析
- 2025年主题公园沉浸式体验项目策划与创意设计研究报告
- 深入研究wps考试的试题及答案
- WPS软件操作流程试题及答案简述
- 提高现代汉语听力技能的考题试题及答案
- 城市地下管网改造项目施工人员与技术队伍配置方案
- 华为受到美国制裁及应对
- 科学睡眠指导手册
- 钢笔的正确使用方法课件
- 金川集团公司招聘笔试题目
- 口腔科医院感染预防与控制护理课件
- 民法典合同编律师宣讲课件
- 基层卫生岗位练兵和技能竞赛复习题-社区护理
- 涉军信访稳定形势分析报告
- 糖尿病运动指南解读
- 1万吨城市生活污水处理厂A2O工艺的设计
- 信息技术基础 课件 张志红第3-5章 电子表格处理、演示文稿制作、计算机网络基础
评论
0/150
提交评论