可变惩罚系数比例的分类SVM模型_第1页
可变惩罚系数比例的分类SVM模型_第2页
可变惩罚系数比例的分类SVM模型_第3页
可变惩罚系数比例的分类SVM模型_第4页
可变惩罚系数比例的分类SVM模型_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第26卷第3期2008年9月广西师范大学学报:自然科学版6 008可变惩罚系数比例的分类(1五邑大学系统科学与技术研究所,广东江门52902012华南理工大学工商管理学院,广东广州510641)桷鼻:为了解决常规分类出了可变惩罚系数比例的分类所提出的模型中。惩罚系数的比例以其对应样本数的反比来确定。最后,在90 t 10样本比例下,分别用常规将其进行比较,实验结果验证了本模型的有效性虽然本研究所采用的核函数是最简单的向量内积,但所提出的模型对于所有的核函数都是适用的关键调:支持向量机罚系数,核函数1分割线中田分类号;献标识码;A 文章编号600(2008)03011804支持向量机(,是近年来机器学习研究的一项重大成果。近年来对叫。根据统计学习理论副,如果数据服从某个固定但未知的分布,要使机器的实际输出与理想输出之间偏差尽可能小,则机器应当遵循结构风险最小化原理,而不是经验风险最小化原理,通俗地说就是应当使错误概率上界最小化。支持向量机正是这一理论的具体实现,与传统的人工神经网络相比,支持向量机不仅结构简单,而且各种技术性能尤其是泛化能力明显提高,这已被大量实验证实。在常规分类支持向量机模型中,错分样本被纳入优化目标中。然而,由于该模型采用对不同类别的错分惩罚率相同的方法,当不同类别的样本数目相差较大时,所产生的分割线并不合理。因此,本研究提出可变惩罚系统比例该模型中,惩罚系数是根据不同类别的样本数目来确定的,这样就解决了不同类别的样本数目相差较大时的文最后进行了实验,证明所提出模型的有效性。1 O 燃;。一一一一 一分割线2主蚕嘉i;三分割缃:=:=:=:暑。“”。 11线性可分7,如图1所示。分割线1和分割线2都能正确地将两类样本分开,即都能保证使经验风险最小(为o),这样的线有无限多个,但分割线1离两类样本的间隙最大,称之为最优分割线8。设线性可分样本集为(咒,挑),f=1,2,挖,X,1,1)是类别标号。)=X+6,分X+6=0。 (1)收稿日期:20080430基金项目:国家自然科学基金资助项目(70471074)005038042)006812701002)通讯联系人。彭敏晶(1974一),男,江西宜丰人,五邑大学讲师,华南理工大学博士研究生。E163敏晶:可变惩罚系效比例的分类19将判别函数归一化,使两类所有样本都满足)I1,这很容易实现,只需等比例调节和然这样的变换对分类没有影响。这样,分类间隔就等于2I,因此,求间隔最大变为求最小满足)分割线(平面)距离最小,它们决定了最优分割线(平面),称之为支持向量(V)。图1中带斜线的样本即为见,求最优分类面的问题转化为优化问题:)=寺00。=寺() (2)st y,E(w咒)十6一1Io,以。该优化问题可以转化为对偶优化问题号萋t曷)一著 (3)st0,i=1,2,n,厶-入核方法:将低维的输入空间数据通过非线性映射函数映射到高维特征空间,将分类问题转化到特征空间进行。特征空间中向量的点积运算与数据空间的核函数(应。通过引入如下转换oy)x,y),我们可以把(3)式转化为如下形式9】。)_吉荟a,曷)一善m, (4)通过使用)式求解川。12线性不可分们引入松弛变量,这时的优化问题为。1 1寺()+ (5)st f蔓y陇”舶卜1+0渊2儿s。Io 声lz川由式(5),我们可定义如下的,b,手,口,r)=12 11+c一啦(西(为)+6)一1+最)一(6)式中,嘶0,n6,拿分别求极小,即孺aL=o,丽aL=o,磊OL=o,计算得到,。,硼=善啦口(蜀),。将式(7)(9)代入式(6),得到对偶问题)=号荟i墨)一蚤,st oc,i=1,2,l,剪=o。)(8)(9)(10)本研究讨论当两类样本数目相差较大时于不同类别的样本数据获得的代价可万方数据120 广西师范大学学报;自然科学版 第26卷能大不相同,因此,这种情况在现实中广泛存在,特别在预警和故障诊断领域中,正常状态样本数量总比非正常状态样本数量多得多。考虑到是一类特殊的核函数,为方便讨论,下面我们以该函数作为支持向量机的核函数。考虑二维正态分布础=面1 12(与笋+与笋限 (11)两类样本的参数情况:类别1:a=3,类别2:以=o=3,段=一3,们讨论的两类样本数目的比例分为三种情况:5050,70 t 30;90 t 10。两类样本分别用星形和圆形表示。然后通过求解优化方程(10)求出这三种情况下的分割线。 - ,。0 _o: 。I:,二: 。: : l dcm(a)样本比为50:50: 。: ,I l 00i三。:。,- 。ddan(b)样本比为70:30 (c)样本比为90:10图2不同样本比情况下的 两类样本数目比例相等时,基本上能得到合理的分割线。而随着两类样本数目比例的失衡,分割线明显偏向样本比例少的方。造成这种现象的原因在于式(5)中使用了相同的惩罚系数C,使得分割线偏向样本密度更小的一方,这样可使错分样本数目减少。解决上述问题有两种可能方案:对样本多的一方或样本少的一方进行重新采样,使得两类样本的数目相当;对两类错分样本进行不同的惩罚。显然,前一种方案的目的是设法使两类样本数目相当,但是,这样要不浪费了相当一部分的样本信息,要不增加一些重复的样本,增加了存储空间和运算时间的开销。!。0 ; :。?。+、乙 +: 一 I 。d0下新算法得到的分割线 0 l 10 一种方案不合理,而方案二充分利用了现有的信息,又基本上不增加计算复杂度及在时间、内存上的开销。使用第二方案的关键是如何确定G,i=1,2。两类样本集晚、晚,样本的数目分别为,、2,其中,。合理的逼近过程中,应使下式近似成立:(缈)=乙(12)1。1同时,(13)。 “式(13)表明,对不同类别错误划分的惩罚与样本数目成反比。在新的样本集进行取和的值。万方数据第3期 彭敏晶:可变惩罚系效比例的分类213算例为了说明新算法的有效性,现举例子说明。假设有两维两类样本,分别满足式(11)所示的正态分布,所有参数与前面定义的相同。样本数目比例为90 t 10。采用上面所提出的新算法,并在计算过程中使爰=吉,图3所示为所运算出的实际分割线位置,图中点划线为期望的分割线。比较图2(c)和图3,不难发现,新算法下所形成的分割线更接近期望的分割线。4结语可变惩罚系数比例的高了文采用的核函数是最简单的向量内积,实际上,所提出的模型对于所有的核函数都是适用的。参考文献:1112J34于统计学习理论与支持向量机口自动化学报2000,26(1):3242门昌骞,王文剑一种基于多学习器标记的半监督广西师范大学学报:自然科学版,2008,26(1):186189印家健,崔扬健,邹平基于四川师范大学学报:自然科学版。2007,30(1):9498张博锋,苏金树,徐昕一种新的多类广西师范大学学报:自然科学版。2006,24(4):9598 N统计学习理论的本质M张学工,译北京:清华大学出版社,2000邓乃扬,田英杰数据挖掘中的新方法支持向量机M北京:科学出版社,2004刘文瑶,潘纲,吴朝晖主元子空间中的广西师范大学学报:自然科学版,2006,24(4):9598肖健华智能模式识别方法M广州:华南理工大学出版社2006胡国胜,钱玲,张国红支持向量机的多分类算法D系统工程与电子技术,2006,28(1):127131A:200806 in(129020,10641n to VM a VM n of to of t n is in of is ey of 责任编辑王龙杰)万方数据可变惩罚系数比例的分类彭敏晶, 五邑大学系统科学与技术研究所,广东江门529020;华南理工大学工商管理学院,广东广州510641刊名: 广西师范大学学报(自然科学版)英文刊名: F ,卷(期): 2008,26(3)被引用次数: 3次参考文献(10条)于统计学习理论与支持向量机期刊论文000(01)文剑 一种基于多学习器标记的半监督刊论文然科学版)2008(01)扬健;邹平 基于刊论文然科学版) 2007(01)金树;徐昕 一种新的多类刊论文然科学版) 2006(04) N;张学工 统计学习理论的本质 英杰 数据挖掘中的新方法纲;吴朝晖 主元子空间中的006(04)能模式识别方法 玲;张国红 支持向量机的多分类算法期刊论文006(01)008本文读者也读过(3条)1. 罚函数的构造及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论