(通信与信息系统专业论文)自调节模糊判决支持向量机的理论与应用.pdf_第1页
(通信与信息系统专业论文)自调节模糊判决支持向量机的理论与应用.pdf_第2页
(通信与信息系统专业论文)自调节模糊判决支持向量机的理论与应用.pdf_第3页
(通信与信息系统专业论文)自调节模糊判决支持向量机的理论与应用.pdf_第4页
(通信与信息系统专业论文)自调节模糊判决支持向量机的理论与应用.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 支持向量机( s u p p o r tv e c t o rm a c h i n e ,以下称s v m ) 是在统计学习理论的基础上 发展起来的新一代学习算法,有着通用的前馈网络结构。它在文本分类、手写识别、图 像分类、生物信息学等领域都获得了较好的应用。尤其是近年来,在对实际数据的分类 研究中,s v m 作为一种新型的有效方法受到了广泛的关注。同时也吸引了国内外学者 对它在分类问题中的原理和应用进行了深入研究。 本文中,我们也同样着眼于利用s v m 的良好特性解决现实世界中的数据分类问题。 在实际的分类问题中,数据集在数据空间通常并不是理想化的。因此在分类器的设计中, 主要存在两类潜在的影响。 第一,在实际分类数据的不同类别问,往往存在着相互作用和各种不同的噪声。受 其影响,分类数据中往往会出现偏差和混叠的现象,尤其在理论分界面的周围,这种现 象更加明显。换句话说,由于分类问题中不同类别的相互影响以及噪声的存在,本来应 该清晰的分界超平面在实际数据中往往表现为一个不易划分的灰色地带。正是由于这一 灰色地带的存在,数据的正确分类变得更加困难,同时如何设计分类器以获得最佳分类 效果也成为我们重要的研究课题。 第二,在实际应用中,数据的不均衡问题也普遍存在。此处,不均衡指的是在分类 问题中,一类数据的数据点个数远远大于另一类数据点的现象。产生这一现象的原因是 由于在现实生活中,一类事件发生的频率往往远远大于与它相反的事件所发生的频率。 在传统的s v m 模型中,这种不均衡的情况会导致分界线的偏移。 为了减少实际数据中类别间相互作用以及噪声的影响,同时克服数据不均衡所导致 的分界面偏移,我们提出了一个改进的模型即自调节模糊判决支持向量机。与传统支持 向量机分类模型不同的是,在新的模型中我们引入了模糊理论来构建分界面。 在分类过程中的预测层,我们采用模糊判决函数替代了传统的符号函数。另外在分 类预测的过程中,通过计算支持向量的判决值,采用加权调和均值的方法计算得到一个 准确的偏移量参数。通过对这一偏移量参数的引入,分舞面得以修正至最优的位置 由于我们所提出的分类模型能够很好的自调节地描述现实数据的特性,因此一些在 传统方法中被错分的测试样点能够重新得到正确的分类。在仿真实验中,分别将所提出 的自调节模糊判决支持向量机分类器应用于心脏病检测和内燃机检测,均取得了良好的 分类特性和鲁棒性。 关键词:支持向量机;模糊判决;分界面偏移;加权调和均值偏移参数 大连理工大学硕士学位论文 t h et h e o r ya n da p p l i c a t i o n so f a u t o r e g u l a t i v ef u z z yd e c i s i o n - m a k i n gs v m a b s t r a c t s u p p o r tv e c t o rm a c h i n e ( s v m ) i sap o w e r f u ll e a r n i n gm a c h i n ew i t hau n i v e r s a l f e e d f o r w a r dn e t w o r ks t r u c t u r e r e c e n t l y , s v mh a sb e e nw i d e l yu s e di nm a n ya c t u a l a p p l i c a t i o n s ,e s p e c i a l l yf o rd e a l i n gw i t hm a n yc l a s s i f i c a t i o np r o b l e m s i nt h i st h e s i s ,o u r r e s e a r c ha l s of o c u s e so nt h er e a l - w o r l dd a t ac l a s s i 丘c a t i o np r o b l e m s t w oh i d d e ni n f l u e n c e s m a i n l ye x i s ti nt h e r e a l - w o r l dd a t a f i r s t l y t h ee x i s t e n c eo fi n t e r a c i i o na n dn o i s e si nt h er e a lw e r l du s u a l l yd i s t u r b st h e o r i g i n a ld a t a e s p e c i a l l yi nt h ez o n ea r o u n dt h es e p a r a t i n gb o u n d a r yb e t w e e nd i f f e r e n ts u b s e t s 0 r d i n a r i l y ,a sar e s u l to ft h e s ed i s t u r b a n c e sf r o mn o i s e s ,t h i sz o n em a yb e c o m ef r o mac l e a r s e p a r a t i o nz o n et oag r a yo n e ,w h i c hi n c r e a s e st h ed i f f i c u l t yf o rc l a s s i f i c a t i o no ft h ed a t a b a s e a n dt h ep e r f o r m a n c e so ft h ec l a s s i f i e r sa l s ob e c o m ew o r s ea p p a r e n t l y s e c o n d l y ,i nt h ea c t u a la p p l i c a t i o n s ,t h eu n b a l a n c ep r o b l e mi sac o m m o np h e n o m e n o n t h a tm e a n st h a to n eo ft h ee l a s s e si nt h eb i n a r y - l a b e l e dr e a l - w o r l dd a t as e t si su s u a l l ym u c h l a r g e rt h a nt h eo t h e ro n e t h er e a s o no fw h i c hi st h a ti nm o s tr e a l - w o r l dp r o b l e m s ,t h e f r e q u e n c yo fae v e n ti sm u c hl a g e rt h a nt h eo p p o s i t ec a s em o s t l y t 1 l i si m b a l a n c es i t u a t i o n a l w a y sc a u s e st h ec x c a r s i o no ft h eb o u n d a r yi nc l a s s i f i c a t i o np r o b l e m s i no r d e rt or e d u c et h ei n f l u e n c e sc a u s e db yi n t e r a c t i o na n dn o i s e se x i s t e di nt h e r e a l - w o r l dd a t n s e t sa n di m b a l a n c eb e t w e e nd i f f e r e n tc l a s s e s 。w ep r o p o s e sa ni m p r o v e dm o d e l b e i n gd i f f e r e n tf r o mt r a d i t i o n a ls v mc l a s s i f i e r s , t h en e wm o d e lt a k e st h et h o u g h ta b o u tf u z z y t h e o r yi n t oa c c o u n t af u z z yd e c i s i o n m a k i n gf u n c t i o ni sb u i l tt or e p l a c et h es i g nf u n c t i o ni n t h ep r e d i c t i o ns t a g eo fc l a s s i f i c a t i o np r o c e s s i nt h ep r e d i c t i o np a r t ,t h ed e c i s i o nv a l u e sa r e u s e dt oc o n s t m c tt h ef u z z yd e c i s i o n m a k i n gf u n c t i o n i na d d i t i o n , ab o u n d a r yo f f s e ti sa l s o i n t r o d u c e dt om o d 埘t h eb o u n d a r ye x c u r s i o n b yc a l c u l a t i n gt h ew e i g h t e dh a r m o n i cm e a no f a l ld e c i s i o nv a l u e so fs u p p o r tv e c t o r s ,a na c c u r a t eo f f s e tv a l u ec a nb eg o t t e n o na c c o u n to f t h i so f f s e t ,t h eb o u n d a r yi ss e tt oa no p t i m a lp o s i t i o n t h i sf l e x i b l ed e s i g no ft h i s a u t o r e g u l a t i v ef u z z yd e c i s i o n - m a k i n gs v mm o d e lc a n d e s c r i b et h ep r o p e r t i e so fr e a l w o r l dc o n d i t i o n sm o r ec o r r e c t l y s o m eb e t t e ra n dm o r er o b u s t p e r f o r m a n c e sa r ep r e s e n t e di ns i m u l a t i o n s k e yw o r d s :s u p p o r tv e c t o rm a c h i n e :n l z 巧d e c i s i o n - m a k i n g :b o u n d a r ye x c u r s i o n ; w h mo f f s e tp a r a m e t e r i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:垒鱼2 1 日期:竺z :么:拿 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:笙至竺 导师签名 垫! l 年上月上生日 大连理工大学硕士学位论文 1 绪论 基于数据的机器学习是现代智能技术中的重要方面,它研究从观测数据( 样本) 出 发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。模式识别、神经网 络等现有的机器学习方法,其共同的重要理论基础之一是统计学。传统统计学研究的是 样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中, 样本数往往有限,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意,与传 统统计学相比,统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y 或s l t ) 是一种专门研究小样 本情况下机器学习规律的理论。v v a p n i k 等人从1 9 6 0 年代开始致力于此方面的研究l l “。 到1 9 9 0 年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论 上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视【4 5 1 。 统计学习理论建立在一套较坚实的理论基础之上,它为解决有限样本学习问题提供 了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的 问题( 比如神经网络结构选择问题、局部极小点问题等) :同时,在这一理论基础上发 展了一种新的通用学习方法一支持向量机( s u p p o r t v e c t o r m a c h i n e 或s v m ) ,目前它 己初步表现出很多优于现有方法的性能。 支持向量机是一种有监督学习的方法,它广泛应用于统计分类和回归分析中。支持 向量机属于一般化线性分类器,也可以认为是t i k h o n o v 正规化方法的一个特例。这族 分类器的特点是它们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也 称为最大边缘区分类器。一些学者认为,s v m 正在成为继神经网络研究之后新的研究 热点,并将有力地推动机器学习理论和技术的发展。 我国早在1 9 8 0 年代末就注意到支持向量机的基础成果,但之后较少研究,目前已 有部分学者重新开始认识到这个重要的研究方向。而在国际上,对于s v m 的研究正大 范围的展开,从理论证明、新的训练方法的提出,到对各种实际问题的广泛应用。目前 在各大神经网络的学会、期刊、著作中,s v m 都成为研究者们重点关注和讨论的对象。 尽管s v m 已经被广泛应用于很多实际应用中,尤其是各种分类问题,但是分类问 题和s v m 本身仍存在很多问题有待解决。 1 1 分类器设计中存在的问题 实际分类模型设计中的第一个问题是,在大部分的分类器应用中,数据通常受到各 类别之间的相互作用和不同类别间噪声的影响,因此实际的分类数据集通常是非线性不 可分的。为了解决这种不可分的问题,s v m 算法应用了一个唯一的可变参数记为c ,这 臼调节模糊判决支持向量机的理论与应用 一参数用来衡量s v m 在训练过程中对交叉现象的容忍度【6 l 。换句话说,通过改变参数c 。 两相邻聚类之间的空白带宽度也将有所改变。容忍过多的混叠样点,意味着空白带宽度 过大,即有过多的分界面周围的样点包含在空白带中间;相反地,容忍度过小,则对混 叠现象的包含能力过于不足。由于对容忍度的选择直接影响到对支持向量的选择。因此 改变参数c 的值很明显地会影响到s v m 分类器的性能。所以是否能够选择到一个合适 的c 值将至关重要,但是这一问题在s v m 分类器的设计中很难自动实现【7 】。对于不同 的核函数( k e r n e lf u n c t i o n ) 嘲,选择参数c 的过程近似于参数规则化的过程。另外,对 于传统s v m 分界平面的确定过程,判决函数也是非常重要的。由于在传统s v m 分类 判断模块中,通常使用符号函数来进行判断,因此对于实际存在混叠的数据集,在分界 平面周围往往会有大量的样点被错判。 s v m 分类器设计的第二个主要问题来自分类数据集。在实际分类数据中,属于一 个类的样点数往往远远大于其它类中的样点数。实际数据的这一不均衡特性是分界面产 生偏移的个主要原因,也是在实际分类问题中广泛存在的现象。如第一个问题中我们 所说的那样,在分界平面周围样点受噪声影响明显,因此对于支持向量机来说,支持向 量也常常受到噪声的剧烈影响,这也给我们修正分界面的偏移带来了很大的困难。 1 2 本论文中所提出的方法 为了减少分类器设计对参数c 值的选择性优劣的依赖,同时解决实际分类数据中的 不均衡问题,我们提出了一个自调整的模糊边界以及用修正分界平面的偏移量算法取代 传统s v m 分类器中的符号函数分界面。 同其他将s v m 与模糊理论结合的方法不同,我们所提出的模型是在判决端对s v m 的性能进行了提升,而不是仅仅考虑分类器的训练部分,同时我们引入了偏移量参数的 算法,来计算实际分类面与理论分类面之间的距离。在我们所提出的方法中,两类数据 集并不看成是用硬分界面分开的集合,而看成是对不同的判决值有不同可信度的相互混 叠的模糊集合。与s v m 训练过程中的空白带和模糊方法不同的是,我们所提出的方法 能够减少参数c 的变化对分类器准确率的影响,同时由硬的分解平面所导致的错分类的 情况也能够有效地得以改善。这一灵活的可自调整的方法,使得分类器更加可控,同时 对于传统s v m 中的参数和空白带的变化也具有更好的稳定性。 另方面,对于偏移量参数的提出是建立在对s v m 算法以及大量数据分析的基础 上的。作为对传统方法的一种扩展,通过偏移量修正的分界平面与实际应用数据中的不 均衡情况更加吻合。数据不均衡直接体现为不同类别间灰色地带的中心并不等于s v m 分类器中符号函数的零点。因此,我们使用最接近分界面的支持向量的判决值计算偏移 大连理工大学硕士学位论文 量参数。由于部分支持向量也受到噪声和交互作用的剧烈影响,因此我们引入了加权调 和均值的方法来消除部分不良支持向量所带来的影响。 在对自调节模糊判决支持向量机模型的研究中,我们采用了大量不同种类的来自现 实系统的不均衡分类数据。从仿真结果看,我们所提出的方法显示出了比传统方法更好 的结果。 这篇论文主要由以下几个部分组成;在第二章,我们将总结和介绍s v m 的统计学 理论、数学推导过程以及基本的应用。在第三章,我们将具体介绍我们所提出的自调整 模糊判决支持向量机模型。在这一章中,模型的整体结构,模糊判决函数的引入。偏移 量参数的计算都将得到详细地讨论。在第四章,对不同核函数、不同正则化参数c 以及 不同分类器的判决函数,我们给出了仿真结果并将所提出的模型与传统方法进行比较。 自调节模糊判决支持向量机的理论与应用 2 支持向量机( s v u ) 2 1 引言 支持向量机( s v m ) 是在坚实的统计学习理论基础上发展起来的学习机算法 9 1 。相 比于其他的分类方法,它有着更加突出的性能。 简单的说,支持向量机的主要思想就是在正负两个类别间建立一个超平面作为判决 平面。在构建超平面的过程中,支持向量机的主要目的是最大化两类别间的空白带。这 一方法主要是在统计学理论基础上通过寻找支持向量来构建分界平面。事实上,支持向 量机的方法也等效于最小化结构风险的过程。另一方面,这种学习机方法是受到训练误 差率的总和以及v a p n i k c h c r v o n c n k i s ( v c ) 维度理论的限制的。 因此,支持向量机之所以能够在实际分类问题中呈现出良好的泛化特性,是由于它 并不需要从问题域获取任何信息【1 0 l ,这也是支持向量机最大的贡献所在。另一方面,如 大部分其他的神经网络方法一样,支持向量机还能够用于非线性的回归问题。 本章我们首先介绍支持向量机的统计学理论基础,然后在2 3 节具体解释支持向量 机的数学推导过程。最后在2 4 和2 5 节,我们将介绍支持向量机的两种典型应用:分 类和回归。 2 2 支持向量机的统计学理论基础 s v m 理论的基础是统计学习理论。以统计学的观点来看,建模的目的是在假设空 间内选择一个模型,使得这一模型最接近目标空间的潜在函剡1 1 。1 2 1 。这个过程的好坏, 也就是建模的优劣,可以通过一些风险和误差的引入来加以判别。通常,在建模的过程 中,主要考虑下面的误差【1 3 】: ( 1 ) 近似误差。近似误差是假设空间小于目标空间的结果,因此潜在函数有可能会 位于假设空间之外。对于模型空间的选择不当会引起一个大的近似误差,并导致模型不 匹配。简单的说,近似误差与模型空间的选择相关。 ( 2 ) 估计误差。估计误差是在假设空间中由于技术选择所引起的学习过程的误差。 简单的说,估计误差是由学习过程的不完全理想特性所产生的。 大连理工大学硕士学位论文 图2 1 建模风险和误差 f i g u r e2 1m o d e l i n gr i s k s 综合以上两种误差,可以构建一个泛化的误差( 如图2 1 所示) 。最终可以找到一 个函数,最小化风险, r 【, 一r l 0 ,仁归仁,y ) 吐咖 其中尸仁,) ,) 是未知的,三0 ,) ) 称为损失函数,d 是标准输出, 出。同时可以得到经验风险最小化理论的一个近似值 驴 。专薹缸,k ) ) 该近似值用来考虑最小化经验风险 五仁) a r g m m i n r 。驴】 经验风险最小化仅在下面的条件下有效 恕尺。 ,】一r f 】 这种情况需要为一个很大的数但是同时,还必须满足 熙 ,】一船只驴】 ( 2 2 1 ) ,0 ) 是所构建函数的输 ( 2 2 2 ) ( 2 2 3 ) ( 2 2 4 ) ( 2 2 5 ) 自调节模糊判决支持向量机的理论与应用 以上仅当日。很小时成立。这一条件要求最小值也同时收敛在概率为1 6 的情况下, 可以得到下面的不等式【1 l 】 r ,】量矗。【,】+ ( 2 2 6 ) 值得注意的是,这一对于期望风险的表达式与概率分布完全无关。 2 2 1v a p n i kc h e r v o n e n k l s 理论 v c 理论是对支持向量机分析的另一重要基础知识。在支持向量机理论的创立过程 中,v c 维起到了指导性左右【1 4 1 。 这一理论是在1 9 6 0 至1 9 9 0 年间由v l a d m i rv a p n i k 和a l e x e yc h e r v o n e n k i s 发展起 来的。在本质上,它是一种计算学习的理论,并试图通过统计学的观点来阐述学习的过 程。因此,可以认为不论是泛化的统计学习过程还是v c 维理论,都是从统计学的角度 来分析支持向量机的。 v c 维理论中的重要的观点包括v c 维度和结构风险最小化。这两个重要观点构成 了支持向量机的主要理论基础。在下面的两个小节中我们将具体讨论并给出它们的定 义。 2 2 2v c 维度 v c 维度是用来衡量一组函数分类能力的一个量值。v a p n i k - c h e r c o n e n k i s 给出了它 如下的定义: 定义:对于所有s ,的可能结构,当且仅当存在一组点仁;匕,使得这些点均可以被 区分,而不存在点集k 】厶,目,p 满足这一条件时,那么这组函数的v c 维度就定义为 p 。 2 2 3 结构风险最小化 建立一个结构使得最是一个v c 维度为h 的假设空间,那么 s lc s 2c c s 。 ( 2 2 7 ) 结构风险最小化问题则可以看成是对下面问题的求解( 如图2 2 所示) : f n :;| n i ,1 + 【 - 6 ( 2 2 8 ) 大连理工大学硕士学位论文 图2 2 结构风险最小化示意图 f i g u r e2 2s k e t c hm a po fs t r u c t u r a lr i s km i n m i z a t i o n 2 3 支持向量机的数学推导 本节主要讨论支持向量机的数学推导。支持向量机的数学推导过程很复杂,需要用 到很多数学公式和维度空间变换的思想。这一节中我们力图使用简单易懂的语句和公式 来描述分类问题以及支持向量机在解决分类问题中的数学过程。 2 3 1 分类问题的数学描述 首先我们考虑分类问题的数学描述。假设在一个维度为雄的空间内有两个非空的独 立有限点集a 和口,它们中的样点数分别是f 和m 点集4 和b 可以表示为矩阵a e r l 。 和b r ”,其中4 集合的每个点表示为4 矩阵的每一行,同样,口集合的每个点表示 为b 矩阵的每一行。为了分类分属于4 和b 的样点,构造一个分界平面尸为: p :仁i x r 。,x 1 w y ( 2 3 1 ) 自调节模糊判决支持向量机的理论与应用 我们需要确定w 和y ,使得分界面能够将两个类别构成的整个空间分成两个子空 间: 扛卜r 4 ,善7 w ,y 几乎包含所有属于点集彳的样点 扛k 尺4 ,x 7 wcy 几乎包含所有属于点集曰的样点 所以我们可以发现 a w e 7 ,b w e y ( 2 3 2 ) 泛化后,上面不等式可以表示为 a w e 7 + e ,b w e 7 - - e( 2 3 3 ) 当且仅当集合4 和口不相交时上述条件能够成立。这就是对分类问题的基本数学描述 【1 5 1 。 2 3 2 支持向量机的数学描述 我们所关心的是在一组用来描述分界平面的分类函数w 7 x t y 中,对于函数 g b ) 一( w 7 一y ) ,怎样能够正确地分类训练数据( 训练误差= o ) ,并且对于一组训练数 据,我们所需要函数的v c 维度的上限是多少,以及权值向量的范数是多少。因此通过 减小权值范数0 叫l ,减少v c 维度上限的过程同时也等同于减小泛化误差坷。最小化权 值w 范数的过程可以从下面的不同情况来详细加以描述。 ( 1 ) 线形可分的情况 如果训练数据是线性可分的,那么我们能够分别计算得出集合4 和丑边界: ,7 工一r + 1 是属于集合彳的边界,因此对于集合彳有爿c 仁r “卜7 工y + 1 t w o r 一1 是属于集合口的边界,因此对于集合丑有口c 仁r 4 1 w 7 x 墨y q 定义上面两个集合边界的距离为空白带( 如图2 3 所示) ,那么在r “空间内,可以 用五争来衡量空白带的宽度。因此能够得到一个重要的发现,那就是最小化4 叫f 的过程, l r 8 实际上等同于最大化空白带的宽度膏。 显然,最大化两个不相交的集合间分界空白带的宽度,能够提高分类器函数的泛化 特性。换句话说,拥有最大空白带宽度的分界面就是最优分类平面。 一8 一 大连理工大学硕士学位论文 口 _ | i = 矿1 口吧 口 w f i 矗y - 。t = ) l o o o o 图2 3 线性可分的分类闯题 f i g u r e2 3l i n e a r l ys e p a r a b l ec l a s s i f i c a t i o np r o b l e m ( 2 ) 线形不可分的情况 实际应用中,数据往往是不可分的。那么对于线性不可分的训练数据( 训练误差 o ) ,在尝试最小化w 范数的同时,还要试图最小化分类误差。 在不可分情况下,均衡集合a 和口之间的强制分界与最大化分类空白带,即最小化 w 的范数,则支持向量机分类器可以通过求解一个优化问题而得到。因此可以应用以下 的数学过程来描述这一支持向量机问题 - i n i n , r , y , t ( 1 - a x e r y + e l z ) + 钏7 ,x e ( o z ) ( 2 3 4 ) 其中一a w + e y + g 墨y ,b w p y + s z ,y o ,:0 。符合限制条件的样点4 e a 和 b ie b 构成了分类问题中的支持向量。 如图2 4 所示,来自集合a 的支持向量是那些位于子空间仁r 4 w 7 工sy + 1 内的4 ( 即属于点集a 但却位于边界线w 7 z y + 1 上或者边界线下方的样点) 。来自集合矗的 支持向量是那些位于子空间k 尺4 w 7 工r l 内的珥( 即属于点集b 但却位于边界线 自调节模糊判决支持向量机的理论与应用 w 7 聋my l 上或者边界线上方的样点) 。这些点是训练数据集中与确定最优分界面相关 的样点。支持向量的数目通常远远小于整个数据集中样点的个数,而且与分类器的泛化 误差的限度成比例。 口 冒组宣,+ 1 口 口 口 霄# = ,l o o 图2 4 线性不可分分类问题中的支持向量 f i g u r e2 4s u p p o r tv e c t o r si nl i n e a r l yn o n - s e p a r a b l ec l a s s i f i c a t i o np r o b l e m ( 3 ) 非线性的情况 与上面介绍的线性情况不同,在实际应用中出现最多的是非线性的分类情况。在这 些非线性的问题中,支持向量机模型在构造非线性分界平面的过程中,保持有参数线性 的特点。这也就使得所有上面所提到的公式仍然可以方便的使用。如果数据通过一个空 间映射函数妒( ) :r “一r 7 非线性地映射到一个更高维的空问( 如图2 5 所示) ,那么原 有在空间r 4 中的非线性分类面映射到尺空间后,可以简单地计算为一个线性的分类器。 实际上,我们通常通过求解一个二重空间的优化问题来计算最终的分类平面。在分 类公式中,输入数据通常以内积形式表示,由于映射函数的存在,因此计算过程中引入 了核函数k b ,置) 一妒b ) 妒k ) 。 大舰工大学硕士学位论文 f b q 蜘f bm a p 剑h gs i 图2 5 从输入数据空间到特征空间的非线性影射过程 f i g u r e2 5n o n l i n e a rm a p p i n gp r o c e s sf r o mt h ei n p u td a t as p a c et ot h ef e a t u r es p a c e 2 4 分类问题中的s v m 2 4 1 分两类问题的描述 在对支持向量机的理论进行分析之后,具体考虑一下支持向量机的一个典型应用: 分类。任何复杂的分类问题都能够分成若干的分两类问题,因此此处只需要讨论应用 s v m 来处理分两类的问题【切。 设x 。表示第f 个输入向量,y 。是它的分类标号( + 1 或1 ) ,将一个训练数据集表示 为扛j ,y f ,其中薯e r “,f - 1 , 2 , ,n 训练数据能够分成两个不同的子集a 和口,分 别对应标号+ 1 和1 。两个分界平面间的距离定义为空白带。显然最大化空白带能够提升 分类器模型的性能【1 8 】。 2 4 2s v g 分类器的构造 实际应用中的分类问题通常是非线性不可分的,因此需要引入非负的松散参数, 使得分界空白带能够接受样点的混叠和偏移。 对于非线性问题,在初始空间,将输入的大数据量的低维度数据集通过非线性映射 函数映射到高维度的特征空间。对于不可分的情况,可以将分界平面的方程写为: ) ,l b 7 妒k ) + 6 j 苫1 - 岛r ( 2 4 1 ) 自调节模糊判决支持向量机的理论与应用 于是优化分界面问题可以转化为对f 面优化问题的求解 豫,宇) 。妒w + c 善袅 ( 2 a 2 ) 。j ) ,t 妒伊化) + 6 】小翕 【氧o ,i 。1 , 其中参数c 用来控制容忍度,它是支持向量机中唯一可调整的参数。 通过引入拉格朗日乘子向量口仁。,a ,) ,问题( 2 4 2 ) 能够在二重空间重新构 造为一个对偶优化( q p ) 问题: 警如) - - 丢麓y x h k 一+ 薹口, 阱3 ) 豇酗y 卸 卜q 量c , v i 其中k k ,工,) 9 b ;) f 驴& ) 是核函数。由此,可以得到判决函数为: y 仁) - s 劬m k 叫 4 ) 其中) ,扛) 是测试数据输入向量z 的输出预测分类标号。 2 5 回归问题中的s v m s v m 除了分类问题外,也可以用来处理回归问题。所谓回归指的是每个实体所对 应的标签是连续的实数,而非离散的相异类别。处理回归问题的s v m 称为s v r ”】。 2 5 1 基本想法 和应用于分类的s v m ( 即s v c ) 相同的是,s v r 的目标是寻找空间中的最优平面。 和s v c 不同的是,s v c 是寻找能将数据空间一分为二的平面,而s v r 所找的是能够准 确预测数据分布的平面。假设训练数据表示为g 。,y 。i ,g 。,y ,) 尺4x r ,其中x 表示输 入的特征,y 表示该特征所对应的回归值。令,b ) 一w x + b ,w r 。,6 r ,如果对 每个特征t 而言,仁;) 和y ;的差值都很小,则这样的,仁) 能从x 准确的预测y ,这个w 即是s v r 所有寻找的平面。用数学语言来表达,可将s v r 改写成下面的问题: m i n 剀”2(25llwlt 1 )m m =u l j s j 4 1 y ,一w 。工f - b l i s 口 其中0 用来表示s v r 预测值与实际值最大的差距,而此方法也称为一册t 。式 ( 2 5 1 ) 具有和s v c 类似的结构,不同的是s v r 中考虑的是预测值和实际值的差要小 于 2 0 1 1 2 1 1 。 在s 合理的情况下,如果从式( 2 5 1 ) 能求出解,那么这种情况称为可行的。然而 大多数的应用中,因为有噪声和误差的存在,通常不是可行的情况。因此需要加入额外 的参数,来容忍部分样点落于s 之外: 一剖1 2 + 。荟t 僮+ ) ( 2 1 5 2 ) p j w 而。6 口+ 氧 s j w 黾+ b y i e + 专; i 参,舅乏0 式( 2 5 2 ) 中,每个训练样点都有其对应的亭及亭,用来决定该训练样点是否可以落在 8 的范围之外。而c 的作用同分类问题中的$ v m 一样,是用来调整训练模型的过拟合 问题。 2 5 2 - s v r ( 1 ) 对偶问题 利用拉格朗臼乘子,可以将式( 2 5 2 ) 改写成拉格朗日方程阎: 上主l 叫1 2 + c 砉+ ) 一妻白,袅+ 材? 爵) 一口,扛+ 岛一y ,+ w 毛+ 6 ) ( 2 5 3 ) 一三口;b + 爵埙- w 而一6 ) 因此可转化为如下的优化问题 r a i nm a x 工 盖5 晶0 ( 2 5 4 ) s j 口,理 由于这个问题是个凸优化闯题,因此m j n 和m 缸可以交换。先考虑m i n 的情况,求极 值的一般做法是求所有变量的偏微分为零值的点: 芸- 砉仁,) - 。 熹妻k 一西k 。 ( 2 5 5 ) ( 2 5 回 自调节模糊判决支持向量机的理论与应用 篓苦c a 一叩f ( 2 5 7 ) 将式( 2 5 5 ) 、( 2 5 6 ) 、( 2 5 7 ) 改写成叩p - c 一口p 及w 一h a ? k ,代入式( 2 5 4 ) ,于 是可消去w 、b 、宇,则优化问题可转化为: 鼍擎一声麓仁t a ;k ,一口;kq ,一e 砉缸,+ a :) + 砉y 仁r a _( 2 置8 ) 此骞仁。一口小地,a ;e 0 ,c 】 从推导中可以发现,w 可表示成z 的某种线性组合;从,o ) 一窆仁。一a ? k 一) + 6 可 以发现,仁) 的计算复杂度和x 的维度无关,只和支持向量( q 一口j ) 的个数有关。而 式中的石毛部分同分类情况类似,可用某个核函数来代替。因此回归方程有如下形式: f 0 ,w ) - w o - b 。一口j k o ,一) ( 2 5 9 ) 上面所提到的两个参数g 和c 是s v r 中的自由参数,与分类器中的c 具有同样的作 用。由于参数占和c 必须同时进行调节,因此使用支持向量机的非线性回归过程更加复 杂。对于和c 值的选择,目前还没有一个有效的固定的方法。 大连理工大学硕士学位论文 3 自调整模糊判决支持向量机 3 1 引言 本章将介绍我们提出的用以解决实际数据分类问题的自调整模糊判决支持向量机 分类模型。这一模型对于分类器改进的两大主要贡献是:模糊判决分类平面的建立和加 权调和均值偏移量的引入。 作为一种处理不完整事件集合的理论,模糊理论能够很好的表现和构造暖昧数据的 结构。在我们的模型中,将模糊理论引入到支持向量机的判决模块中,用以解决在第一 章中所提到的第一个需要解决的问题,即类别间的相互作用以及噪声对分类问题的影 响。 受到这种噪声的影响,在实际数据中不同类别间的分界面会由清晰的超平面变成一 个灰色的地带。所以如果我们仍然使用传统s v m 的方法来构造分类器,那么分界面周 围的灰色地带中的样点势必会有大量被错判。所以模糊理论对于处理一些实际问题的灵 活性和适应性正是我们设计分类器所需要的。我们将其引入分类器的判决模块- 以提升 分类的准确率。通过设计一个自适应的算法,我们所提出的模糊判决方程可以用来准确 地描述实际数据的特性,因此在模糊的灰色地带中的很多错分的情况能够得以更正。 另一方面,我们的模型中还引入了偏移量参数来解决第一章中所提到的第二个问 题,即数据不均衡导致的分界面偏移。偏移量参数的引入能够有效地减小分界面漂移所 带来的分类精度下降。另外,由于噪声对于支持向量的影响,在计算偏移量参数的过程 中,我们引入了如权调节均值得方法。通过这一方法的使用,可以得到更加准确的偏移 量参数值。结合偏移量参数和模糊判决边界,最终我们提出了一个自调整的模糊判决支 持向量机分类模型。 3 2 自调整模糊判决过程 自调整模糊判决模型的提出是建立在对数据的大量分析、s v m 算法、模糊理论、 统计学基础以及大量实验的基础上。这一方法是对传统模型的一种大胆而有益的扩展。 但也正如我们在前文中所提到的,在很多实际的应用中,运用s v m 的分类过程并不能 够正确的区分每一个输入点。这种现象的发生主要有两个原因,一是数据本身的复杂性 造成了无法正确的区分,二是分类器设计的不合理性造成了错分的情况。 在s v m 分类的原始设计中,输入向量首先映射到一个高维的特征空间,在这个特 征空间内通过求解两类中分界边:暴对应的最大空自带的优化问题来构造分类器。这个最 大化的优化问题,可以通过引入拉格朗日乘子在二重空闯内求解。对于不可分的情况, 自调节模糊判决支持向量机的理论与应用 为了确定最大空白带,我们还同时引入了一个容忍度参数。在求解的过程中,我们还定 义了一个具有内积形式的核函数。 在分类器的构造过程中,支持向量是最重要的点。支持向量的集合是整个训练数据 集的一个子集。换句话说,并不是所有的输入训练数据都要被用来计算测试数据的判决 值,仅仅使用少部分被称为支持向量的点就足够了。 为了衡量一个测试数据点被正确分类或被错误分类的程度,我们从传统s v m 的符 号判决函数中将判决值提取出来。由于判决值反映了不同向量点偏离分界平面的程度, 我们用其作为自变量构造了模糊判决函数。在训练部分,我们仍然使用和传统s v m 中 类似的方法来寻找支持向量。使用训练过的s v m ,可以通过计算训练数据的判决值来 构造模糊边界。与传统方法不同的是,我们还需要计算支持向量的判决值来求得加权调 和均值偏移量。 为了适应不同的实际应用和s v i v l 中的不同核函数,我们构造了一个自适应的模糊 判决边界。离散的可信度值通过实验统计得到,并且通过曲线拟合的方法可以确定函数 中的不同参数例。结合上面所说的加权调和均值偏移量,整个模型的大体结构可以分为 兰个主要模块( 如图3 1 所示) : ( 1 ) 判决值预测模块:使用训练数据作为输入,结合传统s v m 训练方法,一个通 用的s v m 判决值预测模块就可以建立起来。 ( 2 ) 加权调和均值偏移量修正模块:使用支持向量作为输入,结合判决值预测模 块以及加权调和均值偏移量方程,可以计算求得一个适当的加权调和偏移量参数。 ( 3 ) 自调整模糊判决模块:再次使用训练数据作为输入,可以获得训练数据的判 决值,并且可以确定自调整模糊判决方程的参数值。由此整个判决模块就可以确立起来 了。 最终输入测试数据到整个模型,最后与测试数据对应的输出标号也就可以预测出来。 大连理工大学硕士学位论文 图3 1 自调节模糊判决s v m 分类器模型结构 r i g a 1g e n e r a ls n u c c 埘嘴o f a u t o r e g u l a t i v e f u z z y d e c s i o n - m a d n g $ v m c l a s s i f i e r m o d e l 3 3s v m 判决值的计算 这里只考虑分两类的分类嚣的设计。假设有一组训练数据集合表示为砖,咒 ,其中 而r “,f - 1 , 2 ,n 。为了处理这组非线性的数据,使用非线性映射函数驴b ) 将数据从 低维空间映射到高位特征空间洲f 2 5 1 。于是可以构造分类边界方程为: y ,1 w 7 妒k ) + b j 乏l 一袅,v i0 3 1 ) 最优超平面问题可以表示为如下的一个优化问题: 赡j ( 亭) 壹w c 善最 。,f y ,咖k ) + 6 】小岛 2 ) 峰o ,i - i , , 其中参数c 用来控制容忍和交叉,它是支持向量机中唯一可变的参数【2 6 】 通过引入拉格朗日乘子口-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论