




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)svr的参数选择及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 4 5 年前f r o s e n b l a t t 提出感知器模型以来,机器学习理论伴随着计算机技术的 发展取得了长足的进步。在经历一些挫折后,9 0 年代后统计学习理论被引入到机器学 习领域,s v m ( s u p p o r tv e c t o rm a c h i n e ,支持向量机) 兴起,它是基于结构风险最小化的 学习模型。在s v m 的研究中有两个方向,一个是s v c ( s u p p o r tv e c t o rc l a s s i f y 警支持 向量分类机) ,另一个是s v r ( s u p p o r tv e c t o rr e g r e s s i o n ,支持向量回归机) 。在s v m 中,参数的选择对于求解具有至关重的作用。 核函数的选择在s v r 模型中是一个比较重要的研究方向,现在常用的核函数都是 正定的。s v r 模型中引入非正定的核函数以后,原有的s v r 问题无法转化为凸二次规划 问题,因而无法用最优化方法进行求解。 现在对s v c 的研究己经相当深入,这主要表现在s v c 的参数选择问题已经得到了 基本解决,但对s v r 的参数选择的方法研究却很少见。s v r 的几何框架 1 介绍了s v c 和s v r 在几何范畴里的关系,它把s v r 和s v c 联系了在一起,即s v r 问题在其对偶空间 可以看作是一个s v c 问题。从这个框架中引申出的s v r 与s v c 的核函数的关系,在具体 应用中导致了非正定的核函数的出现。 本文作了一定的研究,部分解决了上述的两个问题。对于第一个问题,结合r k k s 机器学习理论和s v r 模型,提出了近似s v r 模型。在仿真实验中,使用的核函数无论是 正定的还是非正定的,都能表现出良好的回归性能和泛化性能。对于第二个问题,本方 从两个方向入手。一、为了保证由s v c 核向s v r 核函数转化过程的正定性,运用空间映 射变换;二、对于转化过程中引入了非正定核函数问题,运用近似s v r 模型进行求解。 实验结果表明,这两种方法都可以解决s v c 核函数向s v r 核函数转化过程中出现的非正 定核问题,其中第二种方法再一次说明了近似s v r 模型的适用性。 关键词:支持向量回归机;支持向量分类机;非正定核 a b s t r a c t ab s t r a c t s i n c ef r o s e n b l a t t sp r e s e n t i n gt h em o d e lo fp r o p r i o c e p t o r s ,m a c h i n el e a r n i n gh a sm a d e g r e a tp r o g r e s sw i t ht h ed e v e l o p m e n t so fc o m p u t e rt e c h n o l o g y a f t e rs e v e r a ls e t b a c k s ,s t a t i s t i c a l t h e o r yw a si n d u c e di n t ot h i sa r e ai n9 0 s an e wm e t h o dc a l l e ds v m ( s u p p o r tv e c t o rm a c h i n e ) w a sf o u n d i ti sam e t h o db a s e do nt h em i n i m i z a t i o no f r i s k t h e r ea r et w ow a y st ot h er e s e a r c h o ns u p p o r tv e c t o rm a c h i n e t h e s ea r es v c ( s u p p o r tv e c t o rm a c h i n ef o rc l a s s i f i c a t i o n ) a n d s v r ( s u p p o r tv e c t o rm a c h i n ef o rr e g r e s s i o n ) t h ep a r a m e t e rc h o i c ei sa i li m p o r t a n tr e s e a r c h w a y t os v m t h ec h o i c eo fk e r n e li sv e r yi m p o r t a n t m o s to fc u r r n e n tk e r n e lf u n c t i o n sa r ep o s i t i v e a f t e ri n d u c i n gn o n p o s i t i v ek e r n e lf u n t i o n t h es v mm o d e lc a i ln o tw o r k b e c a u s et h es v m m o d e lc a l ln o tt r a n s f o r i l lt h es v rp r o b l e mt oac o n v e xq u a d r a t i cp r o b l e m n o wt h er e s e a r c h e so ns v ch a v eb e e ng r e a td e v e l o p e d w h i c hs h o wu sa1 0 to fm e t h o d s f o rs e l e c t i o no fp a r a m e t e r s o nt h ec o n t r a r y , s v rh a sb e e nl i t t l ed e v e l o p e d t h eg e o m e t r i c a l f r a m e w o r ko fs 眩s h o wu s 坊er e l a t i o n s h i pb e t w e e ns 组a n ds v c i tt e l l st h a tas 馏 p r o b l e mc a nb es e e na sas v cp r o b l e mi nt h i sf r a m e w o r k t h i sm a k eu st od or e s e a r c h e so n s v r 谢t ht h em e t h o d so fs v c b u tt h er e l a t i o n s h i pm a yr e s u l tt h en o n p o s i t i v ek e r n e l f u n c t i o n t h i sa r t i c l ed os o m ew o r kt os o l v et h et w op r o b l e m sa b o v e t ot h ef i r s tp r o b l e m ,t h i s a r t i c l er e p r e s e n t sat h e o r yc a l l e ds i m i l a rs v rm o d e li nt h i sa r t i c l eb a s e do nt h es v rm o d e la n d r k k sm a c h i n el e a r n i n gt h e o r y i nt h ee x p e r i m e n t s ,t h i sm o d e lw o r k sw e l lw i t hb o t hp o s i t i v e k e m e lf u n c i t o na n dn o n p o s i t i v ek e r n e lf u n c t i o n t ot h es e c o n dp r o b l e m t h i sa r t i e l e ss o l v ei ti n t w ow a y s f i r s t ,m a k es u r et h ek e r n e lf u n c t i o ni sa l w a y sp o s i t i v ew i t ht h em e t h o do fm a p p i n g t r a n s f o i t l l a t i o n ,w h e nk e m e lf u n c t i o ni st r a n s f o r m e df r o ms v c t os s e c o n d ,d e a lw i t ht h e n o n p o s i t i v es 泫p r o b l e mw i t hs i m i l a rs 旧m o d e l t h ee x p e r i m e n t ss h o wu st h a tb o t ht h e w a y sc a nw o r kw e l l a n dt h ee x p e r i m e n t ss h o wu sa g a i nt h a tt h es i m i l a rs v r m o d e lc a ns o l v e t h es v rp r o b l e mw i t ht h en o n p o s i t i v ek e r n e lf u n c t i o nw e l l k e y w o r d s :s u p p o r tv e c t o rm a c h i n ef o rr e g r e s s i o n ;s u p p o r tv e c t o rm a c h i n e f o rc l a s s i f i c a t i o n ; n o n - p o s i t i v ek e r n e l i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我- - n 工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签 名:壹量丝璋 日 期: 呈12 :墨:生 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签 名:童丝兰圣导师签名:兰鱼堇为物 日 期:a0 - 1 7 罗弓- b 第一章绪论 第一章绪论 1 1 课题背景及其意义 机器学习的目的是根据给定的训练样本,对系统输入和输出之间的依赖关系进行估 计,使之能够对未知输出做尽可能准确的预测。现在机器学习都是建立统计学基础之上 的。统计学是一门研究样本无穷大时的数据规律理论,因此现有学习方法也多是基于此 假设。在实际问题中,样本数量往往是有限的,其内在的关联也是未知的,因此应用传 统的机器学习方法常常导致了错误的训练结果,泛化性能不尽人意。而s v y 作为一种针 对有限样本情况设计的机器,可以解决了上述问题。 s v m 的重要理论基础是统计学习理论的v c 维理论和结构风险最小化原理。s v m 根据 有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能 力。s v m 可以自动寻找对分类有较好区分能力的训练样本,这部分样本被称为支持向量, 由此构成的分类器可以最大化类与类之间的间隔。在实际问题中,s v m 将问题转化为一 个二次规划问题,避免了神经网络的局部极值问题;通过非线性变换,将低维样本空间 变换成高维的特征空间,使在样本空间线性不可分的问题最终在高维的特征空间线性可 分的问题,解决了神经网络难以解决的维数问题,同时增强了s v m 的推广能力;将二次 规划问题转化为相对简单的其对偶空间的最优化问题,引入了核函数概念,问题的求解 最终依赖于样本点的内积,简化计算过程。由于s v m 具有优异的泛化性能,在s v m 方法 中,只要定义不同的核函数,就可以实现多项式逼近、贝叶斯分类器、径向基函数、多 层感知网络等许多现有学习算法。可以代替多层感知机、r b f 神经网络和多项式神经网 络等现有的学习算法。 支持向量回归机作为s v m 的一个重要的研究方向,拥有s v m 的全部优良的特性,它 将输出的结果集扩展到实数集范围,有很高的研究和应用价值。 s v m 解决实际问题,参数的选择对解决问题起到至关重要的作用。参数选择广义上 讲包括惩罚因子c ,损失函数和核函数,其中核函数和惩罚因子c 的选择问题是关注的 重点在实际应用中,c 和核函数的选择决定了机器的性能。支持向量分类机经历较长时 间的发展,已基本解决了参数选择问题,这些参数选择理论指导其在实际应用中取得了 巨大的成功。而支持向量回归机作为s v m 中的新的发展方向,发展的时间还不长,没有 形成一套完备的参数选择理论。它较支持向量分类机的有限结果集来说,具有很大的优 势,它把结果集扩展到整个实数域,而无限的结果集是实际应用中较为常见的。从这个 意义上说,参数选择的不完备,制约了支持向量回归机的应用和发展。 现有支持向量回归机模型要求核函数必须是正定的,满足m e r c e r 定理的要求,这 个要求是从s v m 继承而来的。核函数的正定性保证了支持向量回归机可以把问题转化成 一个二次规划问题,但使用了非正定核的支持向量回归机将不再具有这个能力。实际应 用要求支持向量回归机扩大其核函数的选取范围,以增强其解决问题的能力和灵活性。 在引入非正定核后,能过支持向量回归机模型可以将问题转化为一个非凸的规划问题, 江南大学硕士学位论文 虽然现在有许多智能算法在理论上可以解决此类问题,例如粒子群算法,蚁群算法等等, 但在实际应用中表现却不尽人意,而且这些智能算法在求解过程中都不可避免的遇到同 样一个问题:当训练样本的维数增加后,算法的运算规模会成倍增加,这样就失去了支 持向量回归机的某些优良的特性。同时使用这些智能算法时,又不可避免的引入了算法 本身的参数,增加了解决问题的不确定性。因此改进传统的支持向量回归机模型是一个 有效的途径。 作为s v m 的两个发展方向,支持向量回归机和支持向量分类机在许多方面是相似的。 但是现在有研究果都将注意力放在具体的问题上,没有将这种相似性作为一个重点研究 内容,使得现有的支持向量分类机的研究成果无法用在支持向量回归机的应用研究中。 所以把支持向量回归机和支持向量分类机的相似性用数学表达式的形式表现出来,也许 可以解决支持向量回归机的参数选择,加速支持向量回归机的研究和应用。 1 2 课题的现状 本文试图从支持向量分类机和支持向量回归机的关系出发,研究支持向量回归机。 将支持向量分类机的研究成果移植到支持向量回归机的研究中,因此介绍课题的现状有 必要介绍一下s v m ( 包含支持向量回归机和支持向量分类机以及支持向量回归机与支持 向量分类机的关系。 1 2 1s v m 的现状 s v m ( 包括支持向量分类机和支持向量回归机) 提出后,引起了广泛的兴趣,它是统 计学习理论中最年轻和实用的部分,可以替代多层感知器机、r b f 神经网络和多项式神 经网络等已有的学习机器。其理论在各个方向都得到了不断发展,其方法在许多领域得 到了实际应用。以下大致归纳出一些近几年来s v m 的主要研究领域及进展: s v m 的改进研究。大致包括: 1 、模糊s 、,m 卜一将模糊逻辑引入s v m 产生了一些新的结果。如:文献 3 4 ( j h c h i a n g 等,2 0 0 4 ) 将s v m 用于模糊建模,给出了基于s v m 的模糊建模框架,一种显式刻划模糊 推理过程表示特征的基于规则的框架。文献 1 8 ( d h h o n g 等,2 0 0 3 ) 提出了支持向量 模糊回归机,一种用于线性和非线性模糊回归建模的s v m 。 2 、改进的s v 卜叫对s v m 的某些问题进行研究,提出经过改进的s v m 。如:文献 6 5 ( a n g e ln v 等,2 0 0 1 ) 提出了一种基于加权最小平方优化的支持向量分类器的迭 代块训练方法,提高了s v m 的训练效率。文献 3 7 ( o l m a n g a s a r i a n 等,2 0 0 1 ) 提出了 拉格郎日s v m l s v m ,该方法避免了用线性规划或二次规划去求解s v m ,当训练样本集规 模很大时有很高的训练效率。文献 1 2 将核函数和s - k 算法结合起来,以解决大样本问 题。 3 、解析中心机a c m 。文献 6 6 ( t b t r a f a li s 等,2 0 0 2 ) 认为分类问题的s v m 的解 对应于样本空问最大内接超球体的几何中心,而如果分类问题的解能对应于样本空间最 大内接超球体的解析中心,则可改进泛化性能,由此提出了解析中心机。文献 6 7 ( 曾 凡仔等,2 0 0 4 ) 则进一步提出消除a c m 机的冗余约束可以改进a c m 的性能,并提出了一 2 第一章绪论 种精确的基于解析中心的分类器d r c - a c m 。 s v m 的参数选择研究。包括: l 、核函数及其参数的选择对于具体的机器学习问题,提出一些选择合适的核 函数及其参数的方法。如:文献 6 ( 0 c h a p e l l e 等,2 0 0 2 ) 通过作用于参数集上的梯 度下降算法最小化s v m 的泛化误差,提出了s v m 核函数参数选择的方法。文献 4 9 ( w w a n g 等,2 0 0 2 ) 提出了s v m 高斯核函数参数的选择方法,这一方法要优于传统的f i s h e r 判别准则。文献 4 2 ( d h n g u i t a ,2 0 0 3 ) 、 6 1 ( c g o l d a ,2 0 0 3 ) 和 6 4 ( v c h e r k a s s k y ,2 0 0 3 ) 也提出了s v m 的超参数选择方法。 2 、损失函数及其参数的选择对于不同的应用情形,提出一些损失函数的选择 和评价的方法。如:文献 3 4 3 ( g m j a m e s 等,2 0 0 3 ) 根据方差作为对一个量的随机性 度量和作为随机性引起的误差率增加的度量,提出了不同损失函数的方差的两种定义, 可以应用于各种使用对称损失函数的分类器。文献 3 6 ( v c h e r k a s s k y ,2 0 0 4 ) 提出 了用于鲁棒的线性回归的损失函数的选择方法。 3 、支持向量回归机的鲁棒性与输入噪声的关系对于一定的输入噪声,损失函 数的参数与抑制噪声的能力之间的关系。如:文献 2 9 ( j t k w o k 等,2 0 0 0 ) 给出了 s v m 的概率框架,而文献 4 ,5 ,3 2 ( 朱嘉钢等) 给出了s v r 参数之间的关系,进一步给出 了r - sv r 及h u b e r s v r 中的参数与输入噪声之间的关系。 支持向量分类机的应用研究。s v m 在模式识别( 如图象识别、故障诊断、噪声的识 别和抑制等) 、回归分析和预测( 如数据挖掘、金融预测等) 、密度估计等领域都得到了重 要应用,这里不再一一列举。 1 2 2 支持向量分类机和支持向量回归机关系的现状 研究与介绍支持向量分类机和支持向量回归机关系的研究成果却是极为少见。文献 1 中讲述的支持向量回归机的几何框架中有介绍支持向量回归机和支持向量分类机的 关系,从几何的角度阐述了支持向量回归机和支持向量分类机的关系。其主要思想是: 一个存在硬一带的支持向量回归机问题在其对偶空间可以看成一个支持向量分类机问 题。这个结论是本文研究的一个出发点和重要依据。 1 3 本文的主要研究内容和创新点 本文在搜索了国内外大量的资料的基础上,本着继承的原则,从支持向量回归机和 支持向量分类机的关系入手,试图将支持向量分类机已有的研究成果直接应用到支持向 量回归机的研究中。经过了大量的仿真实验,从仿真的角度研究支持向量回归机和支持 向量分类机的核函数的关系的适用性,解决了支持向量分类机的核函数向支持向量回归 机的核函数的变换过程中出现的非正定核的问题。 1 3 1 本文的组织结构 本文一共分六章,具体安排如下: 论文的第一章是绪论,介绍本文的研究背景及意义、国内外研究现状和应用前景, 3 江南大学硕士学位论文 以及本文的结构和创新点。 第二章介绍了支持向量回归机的基础知识及支持向量回归机的几何框架,阐述了支 持向量回归机的数学模型、损失函数、核函数、参数选择和几何框架中e 一带的构造, 核函数,以及泛化性能的研究等问题。 第三章介绍了不确定的内积空间,k r e i n 空间,引出了r k k s 机器学习理论,解决了 引入k r e i n 空间的非正定核的应用问题。 第四章在支持向量回归机模型的基础上,结合r k k s 机器学习理论提出了近似支持向 量回归机模型,并分别选取高斯核和k r e i n 空间的组合高斯核,用负梯度下降法进行仿 真验证,以验证近似支持向量回归机模型的适用性。 第五章从在支持向量回归机几何框架引申出来的结论出发,阐述支持向量分类机核 函数向支持向量回归机核函数变换变换过程中出现的问题,分别从支持向量回归机模型 和空间变换两个方面研究解决方法,最后通过实验加以验证。为支持向量回归机继承支 持向量分类机的研究成果提供依据。 第六章是结合本文研究成果给出了一个糖尿病并发症预测的应用。运用s v r 几何框 架理论,将回归样本点转化为分类点;用s v c 进行参数的选定;将s v c 的核函数转化为 s v r 的核函数,用s v r 进行预测。 1 3 2 课题的创新点 本文的创新点如下: 1 、结合支持向量回归机模型和r k k s 机器学习理论,提出了近似支持向量回归机模 型,将e r e i n 空间的非正定核引入到支持向量回归机的研究中,拓宽了s v m 的核函数的 选取范围。 2 、从文献 1 中引申出支持向量回归机和支持向量分类机的核函数的关系,将其关 系用明确的数据表达式表示出来,使支持向量回归机继承支持向量分类机的研究成果成 为可能。 1 4 小结 本节主要从课题的背景出发,先后介绍了课题的现状、论文研究的背景及其意义、 国内外主要的研究成果、以及本文主要的研究内容及其创新点。 4 第二章支持向量回归机 第二章支持向量回归机 2 1 支持向量回归机的基本数学模型 机器学习是通过机器实现模仿人的学习行为,已经有很长的发展历史了。机器学习 是以统计学为基础的。随着传统统计学理论的发展,出现了人工神经网络和s v m ,由 于神经网络先天性不中,s v m 已经取代神经网络成为机器学习发展的重点。s v m 首先 被应用于解决分类问题,这样的s v m 称为支持向量分类机( s u p p o r tm a c h i n ec l a s s i f i e r ) ; 之后又被应用于解决回归问题,这样的s v m 称为支持向量回归机( s u p p o r tm a c h i n e r e g r e s s i o n ) 。本节将从机器学习出发,通过统计学习理论和s v m 的介绍和回顾,引出 支持向量回归机的基本数学模型。 2 1 1 统计学习理论与结构风险最小化 与传统的统计学相比,统计学习理论是一种专门研究小样本情况下机器学习规律的 理论。它不仅考虑渐进性能的要求,而且追求在现有条件下得最优的结果。 机器学习问题可以形式化地表示为:已知变量y 与输入x 存在一定的未知依赖关系, 即存在一个未知的联合概率f ( x ,y ) ,机器学习就是根据n 个独立同分布观测样本 ( x l ,y 1 ) ,( x 2 ,y 2 ) ,( x 刀,y 力) , 在函数集 ( x ) ) 中寻找一个最优的函数,对x 和y 的依赖关系进行估计, 望风险 r f 】= il ( y ,f ( x ) ) d f ( x ,y ) ,( x , ( 2 1 ) 使预测的期 ( 2 2 ) 最小。其中, 厂( x ) ) 称作预测函数集,l ( y ,厂( x ) ) 称为损失函数,表示由于用函数 对y 进行预测而造成的损失,不同类型的学习问题有不同的损失函数。 要使式( 2 2 ) 定义的期望风险最小化,必须依赖关于联合概率f ( x ,y ) 的信息。但是在 实际的机器学习问题中,只能利用已知样本即式( 2 1 ) 的信息。根据概率论中大数定理的 思想,可以自然地用已知样本的算术平均代替式( 2 2 ) 中的数学期望,于是定义了经验风 险 们= 去喜地胞) ) ( 2 3 ) 来逼近替式( 2 2 ) 定义的期望风险。经验风险最小化作为机器学习问题的基本思想,长久 以来统治了这一领域的几乎所有研究,神经网络就是以经验风险最小化为理论基础的。 在有限样本的情况下,经验风险最小并不一定意味着期望风险最小,且学习机器的 复杂性除了与所研究的系统有关外,还应与有限的学习样本相适应。为此提出了结构风 江南大学硕士学位论文 险最小化的思想和理论。 函数集的v c 维是统计学习理论中的核心概念,它是学习过程一致收敛和推广性的 重要指标。函数集的v c 维定义为: 函数集 厂( x ) ) 的v c 维是p ,当且仅当存在样本集 x ,) 墨。使得 厂( x ) ) 中的函 数可以用所有可能的2 ,种形式将 x f ) 墨1 分为两类,而不存在任何q p 的样本集 x ,) :。满足此性质。 机器学习在寻找函数 ( x ) ) 时,如果能在v c 维尽可能小的 ( x ) ) 中寻找到使 经验风险最小的函数厂,则可以使经验风险与真实风险之间的差最小,这就有效地解决 了经验风险最小化存在的问题。已经证明,以下界以概率卜万成立: r f 】【门+ ( 2 4 ) 其中h 是函数集的v c 维,n 是样本函数。从上式可以看出,当v c 维越大,经验风险 和真实风险就越大。 s v m 则是基于结构风险最小化的学习模型,选择最小的结构风险作为s v m 的真实 风险,故s v m 结构风险定义为 如【厂】= r e m p 】+ ( 2 5 ) 机器学习在寻找函数f ( x ) ) 时,用结构风险最小化代替传统的经验风险最小 化,揭示了小样本情况下机器学习的规律,是统计学习理论对传统统计学理论的重要发 展,是对机器学习理论的重要发展和贡献。 2 1 2 支持向量机 s v m 是实现统计学习理论的通用学习方法。这是统计学习理论中最年轻的部分, 其主要内容在1 9 9 2 _ 1 9 9 5 年间才基本完成,之后又有新的发展。通常,从分类器角度 引出s v m 较容易理解。以下从s v m 分类器入手,介绍s v m 的主要思想和原理,为之 后介绍支持向量回归机作准备。 分类问题可以归结到两类的分类问题,这样并不失一般性。考虑图2 1 所示的两类 分类问题。 6 第二章支持向量回归机 图2 1 最优分类面 f i g2 1c l a s s i f i c t i o n 设线性可分样本集为 x f ,y ,) 硝n ,x r4 ,y + 1 ,一1 是类别标号。d 维 空间中线性判别函数的一般形式为g ( x ) = + 1 5 i ) 一1 0 ,i = 1 , 2 ,刀。 由此可解得最优分类面的方程为 m ) _ s g n ( 套刚心一 + 6 其中口,f = 1 , 2 ,刀,满足w = a i y ,x ,且6 满足式( 2 7 ) 的约束条件。对于线性不 可分的样本集,可以用核函数代替上述点积,这相当于作从低维空间到高维空间的映射, 使低维空间线性不可分的样本点集在高维空间线性可分。则式( 2 。8 ) 变为 m ) _ s 印l i - - i 叫,k + 6 j ( 2 9 ) 7 江南大学硕士学位论文 此即为s v m ,那些使口,0 的x ,称为支持向量。 上述过程将结构风险最小化思想应用于分类器的设计,得到了支持向量分类器支持 向量分类机。 2 1 3 支持向量回归机的基本数学模型 如果将结构风险最小化思想应用于回归器的设计,就可以得到支持向量回归机。 考虑用线性函数 ( x ) = ( w ,x ) + 6 ( 2 1 0 ) 逼近样本数据集 d = ( x 1 ,y l l ,( x z ,y z ) ) ,x 尺疗,y r( 2 1 1 ) 的问题。从结构风险最小化思想出发,则其最优回归函数的优化模型为: m i n ( w ,号) = 妻1 2 + c 壹旨+ 嚣)( 2 m ) f l 一厂( x ,) ) 石,y i 厂( x ,) s z 扛( 厂( x ,) 一儿) ,厂( x ,) m ,i = 1 ,z 考i ,专:0 , 其中,c 是权衡因子,靠和等是表示对系统输出进行约束的松弛变量,三( ) 是损失函数。 由这一优化模型可以解得式( 1 1 0 ) d ? 的w 和b ,从而得到最优线性回归函数( x ) 。可以 用核函数代替上述点积,则回归函数( x ) 可以是非线性的,此即为支持向量回归机。常 用的损失函数有平方损失函数、拉普拉斯损失函数、h u b e r 损失函数和不敏感损失函 数等,由此构成了不同的支持向量回归机。 值得注意的是,在式( 2 1 2 ) 中,第一部分寺i j w l l 2 的作用是使回归曲线尽可能平坦, 第二部分( 称为惩罚项) 的作用是曲线尽可能逼近样本点,这同样体现了结构风险最小化 的原则。 将式( 2 1 2 ) 转化为其对偶形式,得 lll ( q 宰一q ) ( 吩一吁) k ( ,_ ) 怊( q + q ) 一m ( q + + q ) ( 2 1 3 ) 8 第二章支持向量回归机 舭t ( q 一q ) = o 0 q ,q ,i = 1 ,2 ,7 2 2 支持向量回归机中常用的损失函数 s v m 的一个很大的优点是,当训练样本的数量大增加时,s v m 的运算时间不会随之 大大增加。这是因为在所有的样本点中,只有- - d , 部分样本点对s v m 的求解起作用,这 部分样本点称为支持向量。实现这一特性的关键方法是支持向量回归机中引入了损失函 数,它负责过滤掉无用的样本点。因此损失函数的选取会影响到支持向量的运行速度。 同时,不同的损失函数将影响支持向量回归机的回归性能和鲁棒性能。本节将介绍三种 常用的损失函数及其相应的支持向量回归机; 2 2 1 损失函数与一支持向量回归机 若支持向量回归机的损失函数取不敏感函数 嘶) - - y ) = 一耀- ,嚣 则构成支持向量回归机支持向量回归机。 图2 2 不敏感函数( = 0 5 ) f i g2 2 i n s e n s i t i v el o s tf u n c t i o n 9 江南大学硕士学位论文 图2 3 8 不敏感函数当= o 时 f i g2 2 i n s e n s i t i v el o s tf u n c t i o n ,= o 图2 2 和图2 3 分别给出了= o 5 和e = 0 时的不敏感函数的图形。 = o 时,不敏感损失函数即为拉普拉斯损失函数。 当采用不敏感函数,一支持向量回归机的数学模型可具体化为 m i n ( w ,亏) = 劲w 2 + c 窆旨+ 劈) 二 i = 1 f 乃一s ( x ,) 占+ 等 s t 厂( x ,) 一y i s + 劈,f = 1 , 图2 3 显示,当 ( 2 1 5 ) l等,第0 , 该模型的解可由以下二次规划问题求得: m i i l 昙圭k 一口;i k ,一口;运( x ,) 一杰b z 涉,+ 占圭仁,+ 口:i ) ( 2 。6 ) i , j = l i = 1i = 1 l0 ,z c ,扛1 ,z , 鼠六1 壹g ,一胡- o li = 1 其中k ( ,) 是核函数。在求出上式中的参数a ,a 后,即可求得回归函数( x ) 。 使用- 不敏感函数,在利用矩阵方法求解式( 2 1 6 ) 时,矩阵具有稀疏性。 2 2 2l t u b e r 损失函数与t t u b e r - 支持向量回归机 同样地,若支持向量回归机的损失函数取h u b e r 函数 1 0 第二章支持向量回归机 l _ 1 ( 厂( x ) 一yy ,i ( x ) 一y i o 时,称它为非齐次多项式核。特别地,当c = 0 时,得到 k ( x ,x ) - - ( x ,x ) d ( 2 2 6 ) 是d 阶齐次多项式核。将( 2 2 5 ) 或( 2 2 6 ) 代x ( 2 1 3 ) ,便得到q 阶多项式分类回归机 夺g a u s s 径向基函数( r b f ) : 形式如 唧( 譬 亿2 7 , 的核函数,称g a u s s 径向基函数 所得的回归器与神经网络r b f 算法根本的区别;每个径向基函数的中心对应一个支 持向量,网络结构及其网络可能会由算法自动确定。 g a u s s 核函数: e x p 呼 的核函数,称g a u s s 径向基函数 s i g m o i d 核函数:采用函数作为内积,形式如 k ( x , x ) :t a n h ( x ( x x ) + y ) 其中r o ,v 0 虽然它不是正定核,但在许多时候非常有用。 ( 2 2 8 ) ( 2 2 9 ) 江南大学硕士学位论文 付立叶核函数: 一维付立叶核有两个表达形式,如下: k l ( x ,x ) = 2 心n n ( 2 3 0 ) k 1x , x t ) 。j l i 二i 云歹:云1 i - ( q i 2 二j 丽,。 毒芝嚣一 一:处? 协忑= 三嚣 嚏黼触炳鹕林锄咖+ u $ i z - 。由篡鬻芝 叫卟侄何j 纠犯畸是线性可分的。这样,支持向量回归机问题就成为 纛娑嚣咖棚雌嗍鼬溺獬侧一撕姚删 的分类面是唯的。 ”州刚兀垴占如伺。变化,得到 图2 1 1 几何分类面 由平分最近点法得f 碴2 l l g e 。m e t r yc l a s s i f i c 撕0 n mi:三2痧一_:洲2f je f l ,p e = 1 ” 附掰= 1 lz ,0 iv 0 1 9 ( 2 3 4 ) 力结元= ,犏 少 摧可k 糙魄 日驴 u 非侗扣篇 、l,唪茎一叫撕这 五+ 吏玑 次 歧诋0抨 j 弋坤隔 弘 架问 江南大学硕士学位论文 j + 6 y b = 0 a w = x 甜一x v 如果占 岛,则这个分类面为 y = 义+ b ,f w = 一例d b = b 6 o e = s - - ( 会一多) ,( 2 舍) 占 2 5 3 核化h 一支持向量回归机 舍( ( y 会+ 少。) 2 ) h 一支持向量回归机可以转化为: 丢( 砧叫( x x + ) ( 打叫+ 2 ( 甜叫+ 2 s 2 其中尉是r ”上的内积。做从x 到特征空间的非线型映射( 功, 后( ,) = ( 薯) ( ) ,令( x ) = ( ( 五) ( 艺) ( 而) ) 。,那么k = ( x ) ( x ) ; 哑n 三( 甜叫( k + 巧) ( 甜一v ) + 2 ( 甜一y ) s t e u = 1 , e v = l 0 u d e , 0 v d e 这个式子等于三i l ( 。y 篓p ,) z ,一( 。y 乏p , v 酽一2 艿2 。在支持向量分类机模型中, k + y y 可以看作是其核函数,所以,如果尼( 薯,t ) 是分类问题的核函数,那么 后( ( ) ,( = 会c t ,x ,+ 只乃就是回归问题的核函数。 2 5 4 泛化性能 以下是支持向量回归机几何框架泛化性能的重要结论: 2 0 + 0 刁 铭 他 y ,j一, 纷 + u , 甜 p 叫 反 x 所u o = = 万 6 第二章支持向量回归机 设。( x ,y ) 是用平分最近点法求解上述问题所得到的分类函数,f ( x ) 是相应的回归 函数。则: ( i ) 点( y :s 或点( y 二g 被错分,当且仅当点f ,l y x 、1 ) 分布在由j ,= ( x ) 所构造的硬l+ s l y g 带外面。 ( i i ) 点( y :占) 或点( y 二s 被边缘错分,当且仅当点r k y x 、1 j 分布在由y = ( x ) 所构造的l+ 占l y s 软带外面。 这个结论说明了支持向量回归机的回归面和支持向量分类机的分类面在几何框架 中得到了统一,即通过支持向量回归机的几何框架得到的支持向量回归机的回归面就是 其对应支持向量分类机问题的分类面。因此支持向量回归机的泛化性能在几何框架中可 以用支持向量分类机的来解释。 2 6 小结 本章作为本文的基础,简要的介绍了支持向量回归机数学模型,损失函数,核函数 和支持向量回归机的几
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 趣味公务员面试题及答案
- 2025年医院环境卫生监测试题及答案
- 清末考试题及答案
- 修水县电梯安全管理人员模拟考试练习卷跟答案
- 2025年医疗核心制度培训试卷(附答案)
- 2024年黑龙江省齐齐哈尔市国家公务员公共基础知识真题含答案
- 禽畜解剖题库及答案
- 公务员求职面试题及答案
- 西安邮电大学《机械计算机辅助设计与制造原理》2024-2025学年第一学期期末试卷
- 2025年卧床患者常见并发症静脉血栓DVT的预防考核试题及答案
- 检验科免疫室工作制度
- 湖南省邵阳市新邵县陈家坊镇初级中学-初三开学第一课主题班会-只争朝夕 不负韶华 课件
- 《医学影像检查技术学》课件-跟骨X线摄影
- 行测5000题电子版2025
- 大功率电器用电安全
- 《如何做好公益传播》课件
- 2024年中国VHB泡棉胶带市场调查研究报告
- PRS-700-312技术使用说明书
- 安全委员会汇报
- 工程例会管理制度
- 企业员工职业道德考核制度
评论
0/150
提交评论