SVM简介.pptx

上传人：s*** IP属地：河南上传时间：2020-02-18 格式：PPTX 页数：26 大小：623.06KB 积分：20 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

支持向量机简介 supportvectormachine 苏志铭2015 5 20 Outline SVM简介线性分类器线性分类器求解核函数松弛变量SVM的多分类总结 SVM简介支持向量机因其英文名为supportvectormachine 故一般简称SVM 支持向量机是Cortes和Vapnik于1995年首先提出的它在解决小样本非线性及高维模式识别中表现出许多特有的优势并能够推广应用到函数拟合等其他机器学习问题中支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的根据有限的样本信息在模型的复杂性即对特定训练样本的学习精度 Accuracy 和学习能力即无错误地识别任意样本的能力之间寻求最佳折衷以期获得最好的推广能力 VC维对函数类的一种度量可以简单的理解为问题的复杂程度 VC维越高一个问题就越复杂结构风险结构风险为经验风险与置信风险之和经验风险代表了分类器在给定样本上的误差置信风险代表了我们在多大程度上可以信任分类器在未知文本上分类的结果线性分类器通俗来讲 SVM是一种二类分类模型其基本模型定义为特征空间上的间隔最大的线性分类器其学习策略便是间隔最大化最终可转化为一个凸二次规划问题的求解以右图为例在一个二维平面内有两个类别的离散样本点一条直线将两类样本分开一个线性函数如果能将样本完全正确分开这些数据即为线性可分线性函数在一维空间为一个点二维空间是一条直线三维空间里是一个平面如果不关注维数线性函数被统称为超平面线性分类器假设有一个线性函数我们可以取阈值为0 如果有一个样本需要判别如果判断该样本属于类别C1 如果判断该样本属于类别C2 等于的时候就拒绝判断于是图中中间那条直线就可以表达为即这个函数也被叫分类面但是很容易看出中间那条分界线并不是唯一的只要稍微旋转一下仍然可以正确分类两类数据或者稍微平移一下通常使用叫做分类间隔的指标来找到最优分类面线性分类器通过一个分类面可以将上图中两类样本分开平面两边数据的类别y可以分别用1和 1表示定义一个样本点到超平面的函数间隔为超平面关于数据集的函数间隔为其中的最小值那么当 yi同时大于0 当 yi同时小于0 所以现在把w和b进行一下归一化即用w w 和b w 分别代替原来的w和b 那么间隔就可以写成这个式子正好是解析几何中点xi到直线的距离公式推广一下那么就是样本点xi到分类超平面的距离线性分类器 i b 0 i b 0 线性分类器当用归一化的w和b代替原值之后的间隔有一个专门的名称叫做几何间隔几何间隔所表示的正是点到超平面的欧氏距离以上是单个点到某个超平面的距离定义同样可以定义一个点的集合就是一组样本到某个超平面的距离为此集合中离超平面最近的点的距离下面的图更加直观的展示出了几何间隔的现实含义对一个数据点进行分类当超平面离数据点的间隔越大分类的确信度也越大所以为了使得分类的确信度尽量高需要让所选择的超平面能够最大化这个间隔值线性分类器的解选择一个最优分类超平面的问题即最大化几何间隔的问题固定间隔即超平面的函数间隔那么要使几何间隔最大化即最大也就是实际上对于这个目标函数经常利用另一个完全等价的函数代替线性分类器的解很容易看出当 w 0的时候就得到了目标函数的最小值反映在图中就是H1与H2两条直线间的距离无限大这个时候所有的样本点无论正样本还是负样本都跑到了H1和H2中间所有的样本都不可分了造成这种结果的原因是在描述问题的时候只考虑了目标而没有加入约束条件约束条件就是在求解过程中必须满足的条件体现在我们的问题中就是样本点必须在H1或H2的某一侧或者至少在H1和H2上而不能跑到两者中间我们前文提到过把间隔固定为1 这是指把所有样本点中间隔最小的那一点的间隔定为1 线性分类器的解按照间隔的定义满足这些条件就相当于让下面的式子总是成立因此我们的两类分类问题也被我们转化成了它的数学形式一个带约束的最小值的问题 subjectto因此满足上面公式的分类面就是最优分类面过在平行于分类面的的超平面H1和H2上的训练样本即使得上式等号成立的训练样本称为支持向量线性分类器的解求解上述的约束优化问题是一个二次凸规划问题由于目标函数和约束条件都是凸的根据最优化理论这一问题存在全局最小解应用Lagrange乘子法并满足KKT条件 Karush Kuhn Tucher 求得因此分类函数为对于新点x的预测只需要计算它与训练数据点的内积即可表示向量内积此外所谓SupportingVector也在这里显示出来事实上所有非SupportingVector所对应的系数都是等于零的因此对于新点的内积计算实际上只要针对少量的支持向量而不是所有的训练数据即可线性分类器的解为什么非支持向量对应的等于零呢直观上来理解的话就是这些后方的点正如我们之前分析过的一样对超平面是没有影响的由于分类完全有超平面决定所以这些无关的点并不会参与分类问题的计算因而也就不会产生任何影响了计算过程中通过Lagrangemultiplier得到的目标函数注意到如果xi是支持向量的话上式中红颜色的部分是等于0的因为支持向量的函数间隔等于1 而对于非支持向量来说函数间隔会大于1 因此红颜色部分是大于零的而又 i是非负的为了满足最大化 i必须等于0 这也就是这些非支持向量的点的局限性核函数之前一直在讨论的线性分类器只能对线性可分的样本做处理如果提供的样本线性不可分结果很简单线性分类器的求解程序会无限循环永远也解不出来这必然使得它的适用范围大大缩小而它的很多优点我们实在不原意放弃怎么办呢是否有某种方法让线性不可分的数据变得线性可分呢举个例子我们把横轴上a点到b点间的红色部分里的所有点定为正类两边黑色部分定为负类那么显然找不到一个线性函数即一条直线二维空间的线性函数将其分开但是我们可以找到一条曲线如右图它的函数表达式为核函数问题是这个函数并不是一个线性函数但是如果新建向量 y y1 y2 y3 1 x x2 1 2 3 c0 c1 c2 这样g x 就可以转化为f y ay 在任意维度的空间中这种形式的函数都是一个线性函数只不过其中的a和y都是向量罢了原来在二维空间中一个线性不可分的问题映射到四维空间后变成了线性可分的因此这也形成了我们最初想解决线性不可分问题的基本思路向高维空间转化使其变得线性可分那么是否可以找到一种映射将输入空间映射到高维特征空间最终在高维特征空间中构造出最优分离超平面从而把平面上本身不好分的非线性数据分开呢对于非线性的情况 SVM的处理方法是选择一个核函数通过将数据映射到高维空间来解决在原始空间中线性不可分的问题核函数在线性不可分的情况下支持向量机首先在低维空间中完成计算然后通过核函数将输入空间映射到高维特征空间最终在高维特征空间中构造出最优分离超平面从而把平面上本身不好分的非线性数据分开如图所示一堆数据在二维空间无法划分从而映射到三维空间里划分核函数如果原始数据是不可线性划分的按照公式是无法进行正确分类的那么就按照某种映射将x映射为 x 以同样的映射将w映射为 w 那么得到线性函数它可将原问题可分但是如果先将数据映射到高纬空间再进行内积计算可能导致维数灾难所以引进核函数来简化映射空间中的内积运算先内积再用核函数计算使得结果与上式结果相同高维空间的内积运算转化为低维输入空间的核函数计算即分类函数为因此尽管给出线性不可分的问题通过选定核函数就可以当做线性分类器使用核函数用不同核函数可以导致不同的支持向量机常用的几种核函数有线性核函数多项式核函数高斯核函数径向基核函数 Sigmoid核函数松弛变量如果使用核函数向高维空间映射后问题仍然是线性不可分如图用黑圈圈起来的蓝点就将本来线性可分的问题变得不可分这个点偏离正常点很远可能是噪点但是在SVM模型中本来就只用到了支持向量噪点的存在影响会很大为了处理这种情况 SVM允许数据点在一定程度上偏离超平面那么在有松弛的情况下其实噪点也属于支持向量不同的支持向量拉格朗日参数的值不同松弛变量原来我们的约束条件为现在考虑到一些特殊点约束条件变为其中称为松弛变量对应数据点xi允许偏离的函数间隔当然如果松弛变量任意大的话那任意的超平面都是符合条件的了所以我们在原来的目标函数后面加上一项使得这些松弛变量的总和也要最小其中C为惩罚因子松弛变量完整的式子为这个式子有这么几点要注意一是并非所有的样本点都有一个松弛变量与其对应实际上只有离群点才有或者也可以这么看所有没离群的点松弛变量都等于0 二是松弛变量的值实际上标示出了对应的点到底离群有多远值越大点就越远三是惩罚因子C决定了你有多重视离群点带来的损失显然当所有离群点的松弛变量的和一定时你定的C越大对目标函数的损失也越大此时就暗示着你非常不愿意放弃这些离群点最极端的情况是你把C定为无限大这样只要稍有一个点离群目标函数的值马上变成无限大马上让问题变成无解四是惩罚因子C不是一个变量整个优化问题在解的时候 C是一个你必须事先指定的值松弛变量并不是每一个松弛变量都必须使用相同的惩罚因子C 可以对不同利群点采用不同的C值来表明样本的重视程度重要的样本C就取大点反之取小点对付数据集偏斜问题的方法之一就是在惩罚因子上作文章那就是给样本数量少的负类更大的惩罚因子表示我们重视这部分样本因此我们的目标函数中因松弛变量而损失的部分就变成了其中i 1 p都是正样本 j p 1 p q都是负样本 libSVM这个算法包在解决偏斜问题的时候用的就是这种方法那C 和C 怎么确定呢它们的大小是试出来的参数调优但是它们的比例可以有些方法来确定咱们先假定说C 是5这么大那确定C 的一个很直观的方法就是使用两类样本数的比来算 SVM的多分类 SVM是一种典型的两类分类器但现实中要解决的往往是多分类问题几种方法一对多方法 One Against The Rest 如果有k类在某一类和其他k 1类间建立超平面建立k个SVM分类器每个SVM分类器将某一类的数据从其他类的数据中鉴别出来但是有数据集偏斜问题而且每次训练都用到了所有样本一对一方法 One Against One 为任意两个类构建超平面即k类需要训练k k 1 2个SVM分类器测试时采用投票投票类别最多的为测试类别但是如果k太大训练和决策时就会很耗时 SVM决策树 SVMDecisionTree 将SVM与二叉树结合构成多类分类器形似有向无环图也叫DAGSVM 缺点是如果某个节点出错那么错误就会在后续节点延续 SVM的多分类 DAGSVM举例在分类时我们就可以先问分类器 1对5 如果它回答5 我们就往左走再问 2对5 这个分类器如果它还说是 5 我们就继续往左走这样一直问下去就可以得到分类结果好处在哪我们其实只调用了4个分类器如果

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SVM简介.pptx

文档简介

温馨提示

最新文档

评论

SVM简介.pptx

文档简介

温馨提示

最新文档

评论

相关文档