机器学习统计学习理论与支持向量机算法ppt课件

上传人：闯*** IP属地：广东上传时间：2020-04-23 格式：PPT 页数：108 大小：638.50KB 积分：25 举报 版权申诉

已阅读5页，还剩103页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章统计学习理论与支持向量机算法 1 引言统计学习理论讨论的是基于数据的机器学习问题研究如何从一些观测数据样本出发得出目前尚不能通过原理分析得到的规律即基于观测设计优化过程然后利用这些规律去分析客观对象对未来数据或无法观测的数据进行预测主要任务对于一种未知的依赖关系以观测为基础对它进行估计 2 1引言现有机器学习方法共同的重要理论基础之一是统计学传统统计学研究的是样本数目趋于无穷大时的渐近理论现有学习方法也多是基于此假设但在实际问题中样本数往往是有限的因此一些理论上很优秀的学习方法实际中表现却可能不尽人意统计学习理论 StatisticalLearningTheory或SLT 是一种专门研究小样本情况下机器学习规律的理论VladimirN Vapnik等人从六七十年代开始致力于此方面研究到九十年代中期随着其理论的不断发展和成熟也由于神经网络等学习方法在理论上缺乏实质性进展统计学习理论开始受到越来越广泛的重视统计学习理论是建立在一套较坚实的理论基础之上的为解决有限样本学习问题提供了一个统一的框架在这一理论基础上发展了一种新的通用学习方法支持向量机 SupportVectorMachine或SVM 它已初步表现出很多优于已有方法的性能 2 统计学习理论经典的统计基础存在两个理论缺陷没有对经验风险最小化原则下统计学习的一致性进行分析不能保证经验风险的最小值或下确界收敛到或依概率收敛到期望风险的最小值或下确界大数定律描述的是一个极限过程不对收敛速度进行分析那么在样本数目有限的情况下以频率代替概率均值代替期望并不一定能得到好的近似 2 2统计学习理论的形成与发展针对这两个问题统计学习理论从理论上系统地分析经验最小化原则成立的条件建立了学习过程收敛速度的界进而提出了小样本归纳推理原则并给出控制学习过程的推广能力的方法到20世纪90年代统计学习理论已基本成熟 1995年 Vapnik完成专著 TheNatureofStatisticalLearningTheory 这是统计学习理论走向成熟和得到正式承认的标志围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的4个部分学习过程一致性的理论一个基于ERM原则的学习过程一致充分必要条件是什么一个基于经验风险最小化原则的学习过程满足怎样的条件时它的经验风险与实际风险趋向一致在分类问题中存在对应的充分必要条件而对拟合问题目前仅存在充分条件学习过程收敛速度的理论这个学习过程收敛的速度有多快如果学习过程的经验风险与实际风险趋向一致那么它们间的接近速度随着训练样本数的增加是如何变化的哪些因素控制着它们接近的速度控制学习过程泛化能力的理论如何控制这个学习过程的收敛速度即推广能力采用前两部分的结论改进学习过程认为结构风险最小化原则而不是经验风险最小化原则可以使学习过程的经验风险与实际风险最终并且尽可能快地趋向一致构造学习算法的理论采用前三部分的结论如何构造能够控制推广能力的算法在分类和拟合问题中构造现实的学习算法它遵循结构风险最小化原则从而较传统算法有更好的泛化能力支持向量机SVM是基于该理论最早实现的也是目前最有影响的分类回归算法之一学习过程的一致性及收敛速度学习过程可以一般地表示如下设有定义在空间Z上的概率测度F Z 考虑函数的集合Q z a a L L为任意集合它可以为一个标量集向量集或抽象元素集学习的目的是最小化风险泛函R a Q z a dF z a L 2 1 其中概率测度F Z 未知但给定了一定的独立同分布样本z1 zt 2 2 这种一般问题就是在经验数据 2 2 基础上最小化风险泛函 2 1 式其中z代表了数据对 x y Q z a 就是特定的损失函数为了在未知的分布函数F Z 下最小化 2 1 式的风险泛函可以把风险泛函R a 替换为经验风险泛函 2 3 令风险泛函的最小函数为Q z a0 经验风险泛函的最小函数为Q z al 使用经验风险 2 3 式最小的函数Q z al 逼近使风险 2 1 式最小的函数Q z a0 这一原则称作经验风险最小化 EmpiricalRiskMinimization ERM 归纳原则定义2 1一致性如果下面两个序列依概率收敛于同一个极限即 2 4 2 5 则ERM原则或方法对函数集Q z a a L和概率分布函数F z 是一致的定理2 1设函数集Q z a a L满足条件A Q z a dF z B A R a B 那么ERM原则一致性的充分必要条件是经验风险Remp a 在函数集Q z a a L上在如下意义下一致收敛于实际风险R a 2 6 其中P为概率则把这种一致收敛称作一致单边收敛定义2 2随机变量序列 n 1 2 2 7 这一随机变量序列既依赖于概率测度F z 也依赖于函数集Q z a a L 称之为一个双边收敛过程学习理论的关键定理定理2 1 从概念的角度看这个定理是十分重要的因为它指出了ERM原则一致性的条件是必要地和充分地取决于函数集中最坏的函数的在传统的统计学中并没有考虑是否存在一致单边收敛的问题一致单边收敛是在一个新概念的基础上得到的这个新概念叫做在n个样本上函数集Q z a a L的熵定义N z1 zn 代表用指示函数集Q z a a L中的函数能够把给定的样本分成多少种不同的分类则称H z1 zn lnN z1 zn 为随机熵它描述了函数集在给定数据上的多样性考虑随机熵在联合分布函数F z1 zn 上的期望 H n ElnN z1 zn 其中E为数学期望把这个量称作z指示函数集Q z a a L在数量为n的样本上的熵它依赖于函数集Q z a a L 概率测度以及观测数目n 反映了给定指示函数集在数目为n的样本上期望的多样性在N z1 zn 值基础上构造两个新概念退火的VC熵生长函数在指示函数集Q z a a L可测性的一定条件下一致双边收敛的充分条件是 2 8 它描述了ERM原则一致性的一个充分条件这一等式是学习理论中的第一个里程碑所有最小化经验风险的机器都要满足这一条件它回答了在什么条件下经验风险最小化的解收敛于期望风险最小化的解等式 2 9 是风险收敛速度快的一个充分条件必要条件尚不得而知这一等式是学习理论的第二个里程碑它保证了收敛有快的渐近速度注意 VC退火熵是对一个给定的概率测度定义的因此这两个条件是依赖于这个概率测度的问题我们的目标是建立一个学习机器使它能够解决很多不同的问题对于很多不同的概率测度即在什么条件下不依赖于概率测度 ERM原则是一致的且同时有快的收敛速度等式 2 10 给出了对任何概率测度ERM具有一致性的充分必要条件而且如果这个条件成立则收敛的速度是快的等式 2 10 就是学习理论中的第三个里程碑它描述了在什么充分必要条件下一个履行ERM原则的学习机器有一个快的收敛的渐近速度而不管所用的概率测度如何即不管所要解决的问题如何函数集的VC维 VC维描述了组成学习模型的函数集合的容量也就是说刻画了此函数集合的学习能力 VC维越大函数集合越大其相应的学习能力就越强定义2 3指示函数集的VC维一个指示函数集Q z a a L的VC维是能够被集合中的函数以所有可能的2h种方式分成两类的向量z1 zh的最大数目h VC维是统计学习理论中的一个核心概念它是目前为止对函数集学习性能的最好描述指标它的另一个等价直观的定义是假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h种形式分为两类则称函数集能够把样本数为h的样本集打散指示函数集的VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目也就是说如果存在h个样本的样本集能够被函数集打散而不存在有h 1个样本集能够被函数集打散则函数集的VC维就是h 如果对任意的样本数总能找到一个样本集能够被这个函数集打散则函数集的VC维就是无穷大如在二维实数空间R2 函数集为有向直线集则对一给定有向直线空间中的数据点被直线分为两类直线方向如图2 1中箭头所示位于直线正方向一侧的数据点为一类位于直线负方向一侧的数据点为另一类在二维实数空间R2中找不到有向直线集不能够打散的由三个数据点构成的点集图2 1在二维空间R2中被有向直线打散的三个点但能找到有向直线集不能够打散的由四个数据点构成的点集图2 2在二维空间R2中不能被有向直线打散的四个点因此此二维实数空间R2中的有向直线集的VC维是3 定理2 2任何生长函数或者满足等式GL n nln2或者受下面的不等式约束其中h是一个整数使得当n h时有GL h hln2GL h 1 h 1 ln2 即生长函数或者是线性的或者以一个对数为上界定义2 4如果指示函数集Q z a a L的生长函数是线性的则这个函数集的VC维是无穷大如果指示函数集Q z a a L的生长函数以参数为h的对数函数为界则这个指示函数集的VC维是有限的且等于h 定理2 3对具有有限VC维h的指示函数集Q z a a L如下两不等式成立 1 一致双边收敛速度不等式 2 11 式中 1 n 2 一致相关收敛速度不等式 2 12 不等式 2 11 2 12 给出了遵循ERM准则的学习机器的泛化能力的与分布无关的界则遵循ERM准则的有界函数集0 Q z a B a L的风险以1 的概率满足不等式 2 13 式中式 2 13 表明经验风险最小化原则下学习机器的实际风险是由两部分组成的可以写作 2 14 结构风险最小化传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的因此需要同时最小化经验风险和置信范围统计学习理论提出了一种新的策略即把函数集构造为一个函数子集序列使各个子集按照VC维的大小排列在每个子集中寻找最小经验风险在子集间折衷考虑经验风险和置信范围取得实际风险的最小这种思想称作结构风险最小化 StructuralRiskMinimization 即SRM准则把函数集S Q z a a L 分解为一个函数子集序列S1 S2 Sk S 2 15 式中Sk Q z a a Lk 且考虑容许结构 AdmissibleStructures 满足如下特性函数集S中任何一个子集Sk的VC维是有限的任何一个子集Sk包含有界函数集0 Q z a Bk a L或者存在一对值使得一个非负函数集Q z a a L满足如下不等式 2 16 函数集S中集合在L1 F 度量空间中是处处紧致的 F F z 是关于z的概率分布函数由式 2 15 有如下结论成立各子集Sk的VC维hk随着k的增加按非递减规律排列h1 h2 hk 各子集Sk的界Bk随着k的增加按非递减规律排列B1 B2 Bk 各子集Sk的界 k随着k的增加按非递减规律排列 1 2 k 则函数集Sk中函数Q z 的实际风险至少以概率1 满足 2 17 或 2 18 式中 2 19 这样在同一个子集中置信范围就相同在每一个子集中寻找最小经验风险通常它随着子集复杂度的增加而减小选择最小经验风险与置信范围之和最小的子集就可以达到期望风险的最小这个子集中使经验风险最小的函数就是要求的最优函数这种思想称作有序风险最小化或者结构风险最小化如图2 3所示图2 3结构风险最小化示意图在SRM原则下一个分类器的设计过程包括以下两方面任务选择一个适当的函数子集使之对问题来说有最优的分类能力从这个子集中选择一个判别函数使经验风险最小第一步相当于模型选择而第二步则相当于在确定了函数形式后的参数估计与传统方法不同的是在这里模型的选择是通过对它的推广性的界的估计进行的 3 支持向量机在统计学习理论基础上发展起来的一种新的机器学习方法 1992年 Boser Guyon和Vapnik等人在 ATrainingAlgorithmforOptimalMarginclassifiers 一书中提出了最优边界分类器算法这也是支持向量机算法的最初模型1993年 Cortes和Vapnik在 TheSoft MarginClassifier 一书中进一步探讨了非线性情况下的最优边界分类问题1995年 Vapnik在发表的 TheNatureofStatisticalLearningTheory 一书中完整地提出了基于统计学习理论的支持向量机学习算法1997年 Vapnik Gokowich和Smola发表的 SupportVectorMethodforFunctionApproximation RegressionEstimation andSignalProcessing 一文中详细介绍了基于支持向量机方法的回归估计方法 SupportVectorRegression SVR 和信号处理方法 2 3支持向量机与其它传统的机器学习方法相比 SVM主要有以下几个方面的特点以严格的数学理论统计学习理论为基础克服了传统神经网络学习中靠经验和启发的先验成分等缺点采用了结构风险最小化原则克服了传统神经网络中只靠经验风险最小化来估计函数的缺点提高了置信水平克服了过学习等问题使学习机器有良好的泛化能力通过求解凸二次规划问题可以得到全局的最优解而不是传统神经网络学习中的局部最优解保证了解的有效性用内积的回旋巧妙地构造核函数克服了特征空间中的维数灾难问题通过非线性映射只需在原空间中计算样本数据与支持向量的内积而不需要知道非线性映射的显性表达形式成功地解决了小样本学习问题克服了传统上需要以样本数目无穷多为假设条件来推导各种算法的缺点得到了小样本条件下的全局最优解通过引入VC维的概念使网络的收敛速度样本被错分的界和风险泛函得到了控制支持向量机的发展理论基础不断拓展统计学习理论作为支持向量机的理论平台逐渐获得完善和丰富正则化理论成为指导支持向量机参数选择和支持向量核函数的重要思想贝叶斯理论成为构造支持向量机模型的一个理论基础在对支持向量机所呈现的解具有稀疏性的研究上稀逼近理论渐渐成为支持向量机分析的一个直观工具支持向量机的发展实现算法不断改进在训练算法优化方面分块训练思想将大的二次规划问题分解为一系列小的二次规划问题从而简化了算法的运行成本序列最小优化训练思想是分块训练思想的一种极端情形每次只针对含两个样本的二次规划问题进行求解这样求出的解具有解析形式同时避免了大规模二次优化问题中的不稳定性和复杂性问题在对SVM算法改进方面出现了一大批较好的变体算法有C SVM系列算法 v SVM系列算法 One classSVM算法 RSVM算法 WSVM算法和LS SVM算法等支持向量机的发展领域不断扩大模式识别方面 SVM和先验语义结合应用于文本分类取得了较高的识别精度在图像分类图像分割自动图形定位检测遥感图像分析蛋白质分类等方面也有很好的表现回归估计方面 SVM在时间序列预测和混沌系统的动态重构中表现出强大的优势数据融合方面 SVM已经应用于个人身份证的多模型数据融合多信息源的融合分布式数据融合以及遥感数据融合除此之外 SVM还在过程建模系统辨识非线性控制等方面显示了很好的工作能力支持向量机的实现台湾大学林智仁 Chih JenLin 博士等开发设计了一个操作简单易于使用快速有效的通用SVM软件包 LibSVM 可以解决分类问题包括C SVC n SVC 回归问题包括e SVR n SVR 以及分布估计 one class SVM 等问题提供了线性多项式径向基和S形函数四种常用的核函数供选择可以有效地解决多类问题交叉验证选择参数对不平衡样本加权多类问题的概率估计等 SVM从线性可分情况下的最优分类面发展而来最优分类面就是要求分类线不但能将两类正确分开训练错误率为0 且使分类间隔最大 SVM考虑寻找一个满足分类要求的超平面并且使训练集中的点距离分类面尽可能的远也就是寻找一个分类面使它两侧的空白区域 margin 最大过两类样本中离分类面最近的点且平行于最优分类面的超平面上H1 H2的训练样本就叫做支持向量支持向量机基本原理设线性可分样本集为d维向量 2类样本 y为类别标签则线性判别函数为分类面方程为作判别函数归一化即满足 g x 1 即距离分类面最近的样本距离为 g x 1 则两类的分类间隔为2 w 如图所示令分类间隔2 w 最大等价于 w 或者 w 2最小使得分类面对于所有的样本能正确分类即满足 2 20 则该分类面为最优分类面过两类样本中离分类面最近的点且平行于最优分类面的超平面H1 H2上的训练样本则称为支持向量显见最优分类面是由支持向量来支撑的最优分类面的求取由最优分类面的条件建立目标函数为二次型由满足条件作为约束条件样本条件则有约束优化问题前面的最优分类面式在线性可分条件下推导出来的不能应用于线性不可分情况约束条件1 对于线性不可分情况许多样本不能满足正确分类条件式因此增加松弛项分类条件式为 2 21 广义最优分类面约束条件2 线性可分条件下的分类间隔最大线性不可分时引入约束在两个约束条件下对错分样本最小函数求极小值支持向量机的数学表达最优分类的优化函数与最优分类函数表达式中都含有内积运算如果将表达式中的内积运算由内积函数来代替将原来的特征空间作非线性变换则优化函数成为最优分类函数成为 2 23 则称为支持向量机类似一个RBF神经网络输入层中间层基于s个支持向量的内积变换支持向量机的拓扑结构输出层决策规则加权系数核函数一般有多项式核高斯径向基核指数径向基核多隐层感知核傅立叶级数核样条核 B样条核等核函数及参数选择多项式形式核函数 2 24 径向基形式核函数 2 25 S形核函数 2 26 常用的核函数目前核函数种类以及核参数的选择依据尚没有定论一般情况下都是凭经验选取值得一提的是由于径向基核函数对应的特征空间是无穷维的有限的样本在该特征空间中肯定是线性可分的因此径向基核是最普遍使用的核函数核函数及参数选择理论分析与试验结果都表明 SVM的性能与核函数的类型核函数的参数以及正则化参数都有很大的关系其中尤与核函数及其参数关系最大在支持向量机训练算法中参数值总是事先给定的其值的好坏直接影响着预测精度的高低因此研究支持向量机参数值的选择对支持向量机的应用与发展有很重要的实际意义核函数及参数选择然而目前在理论上还没有足够的理论来指导如何选取有效的参数值通常人们通过大量的试验来获得较优的参数这种方法比较费时而且获得的参数也不一定是最优的核函数及参数选择图2 5支持向量机的训练过程第1类第2类许多决策边界可以分割这些数据点出为两类我们选取哪一个用于分类的SVM算法第1类第2类第1类第2类坏的决策边界的例子好的决策边界间隔大决策边界离两类数据应尽可能远最大化间隔m 第1类第2类 m 所谓最优分类线就是要求分类线不但能将两类正确分开而且要使两类间的分类间隔2 w 最大将上述最优化问题转换成其对偶问题取Lagrange函数 2 27 在鞍点上解必须满足对w和b的偏导数为0 得 2 28 2 29 又由Kuhn Tucker条件可知最优超平面的充分必要条件是使分类超平面满足条件 2 30 利用对偶原理拉格朗日函数可转化为求解如下泛函的优化问题 2 31 设为上面二次优化问题的解则最优超平面中向量的模为 2 32 最后得到的分类函数为 2 33 具体算法步骤 Step1 设已知训练集其中 Step2 构造并求解最优化问题式 2 35 得到最优解 Step3 选择的一个分类并据此计算 Step4 由此计算求得决策函数虽然SVM首先提出是针对于分类问题的但是通过引入损失函数的概念 SVM可以延伸推广到函数回归问题中来 2 36 其中称为不敏感系数用于控制拟合精度若为线性模型即假设所有训练样本都可以在精度下无误差地用线性函数拟合考虑到允许拟合误差存在的情况类似于分类问题引入松弛因子和 2 37 用于回归的SVM算法 SVM的优化目标式 2 34 变成最小化 2 38 其中常数C 0 用以控制松弛系数在目标函数中的作用标准不敏感支持向量回归机可以表示为 2 39 建立Lagrange方程 2 40 参数和的偏导都应等于零即 2 41 代入式 2 38 得到对偶优化问题 2 42 求解 2 49 具体算法步骤 Step1 设已知训练集其中 Step2 选择适当的正数和 Step3 构造并求解最优化问题 2 41 得到最优解 Step4 构造决策函数其中b由式 2 47 计算假设非线性模型为 2 50 则目标函数式 2 42 变为 2 51 从而得到 2 52 非线性SVM算法设核函数K x x 满足 2 53 用K x x 代替运算则都可以统一转化成如下的二次优化问题 2 54 则式 2 33 的分类判别函数和 2 49 的函数回归方程可以分别表示如下 2 55 2 56 为与每个数据点对应的拉格朗日乘子式 2 55 存在唯一解其解中只有一少部分的不为0 其对应的数据就是支持向量具体算法步骤 Step1 设已知训练集其中 Step2 选择适当的正数和选择适当的核函数K x x Step3 构造并求解最优化问题 2 54 得到最优解 Step4 若是分类问题则构造决策函数 2 55 其中若是回归问题则构造决策函数 2 56 其中b由式 2 47 计算目前SVM的变形算法主要有C SVM系列 v SVM系列 One classSVM RSVM WSVM和LS SVM等这些变形算法主要是通过增加函数项变量或系数等方法使公式变形产生出有某一方面优势或一定应用范围的算法变形的支持向量机算法采用SVM方法求解最优分类问题本质上是一个二次规划问题对于海量数据样本数在105 106以上常规的数值优化算法及软件已无法实现二次规划问题的求解运行时间和计算内存是海量样本求解SVM的主要瓶颈针对海量样本数据如何减少二次规划求解过程的计算时间和内存一直是SVM的研究热点目前主要有以下3种方法优化的支持向量机算法 Vapnik提出了求解支持向量机二次规划问题的 Chunking 算法其依据是支持向量机最终的判决函数只与支持向量 Lagrange乘子不等于零的训练样本有关而与非支持向量 Lagrange乘子等于零的训练样本无关而大多情况下特别是训练样本很多时样本中绝大多数是非支持向量这些非支持向量在计算和内存上占用了大量的资源在优化的过程中若每次迭代后只保留当前的支持向量这将会节省大量的计算时间和内存空间基于这一思想 Chunking 的目标就是通过某种迭代方式逐步排除非支持向量 Chunking算法具体的实现方法是随机选择一小部分样本作为初始样本集进行QP问题 QuadraticProgrammingProblem 求解从结果中剔除非支持向量并用训练结果对剩余样本进行检验将不符合优化条件的样本或其中的一部分与当前的的支持向量合并成为一个新的QP训练样本集然后重新训练如此重复下去直到获得最优结果增量学习方法 IncrementalLearning 本质上就是分块法分块法求解规模随着SV数量的增加而增加尽管如此在训练集的SV数目非常大时块算法仍然无法将矩阵放入内存中优化计算仍难以实现 Chunking算法当支持向量的数目远远小于训练样本数目时分块法显然能够大大提高运算速度然而如果支持向量的数目本身就比较多随着算法迭代次数的增多工作样本集也会越来越大算法依旧会变得十分复杂因此可把问题分解成为固定样本数的子问题工作样本集的大小固定在算法速度可以容忍的限度内迭代过程中只是将剩余样本中部分情况最糟的样本与工作样本集中的样本进行等量交换即使支持向量的个数超过工作样本集也不改变工作样本集的规模而只对支持向量中的一部分进行优化固定样本工作集方法固定工作样本集的方法和分块算法的主要区别在于分块算法的目标函数中仅包含当前工作样本集中的样本而固定工作样本集方法中虽然优化变量仅包含工作样本其目标函数却包含整个训练样本集即工作样本集之外的样本的Lagrange乘子固定为前一次迭代的结果而不是像块算法中那样设为0 而且固定工作样本集方法还涉及到一个换出样本确定的问题因为换出的样本可能是支持矢量这样这一类算法的关键就在于找到一种合适的迭代策略使得算法最终能收敛并且较快地收敛到最优结果固定样本工作集方法在固定样本工作集算法的基础上微软研究院的JohnC Platt提出的序列最小优化算法 SMO 将工作样本集的规模减到最小两个样本之所以需要两个样本是因为等式线性约束的存在使得同时至少要调整两个Lagrange乘子根据等式约束条件两个样本对应的乘子变量可相互表示出来所以迭代过程中每一步的子问题的最优解可以直接用解析的方法求出来这样算法避开了复杂的数值求解优化问题的过程 SMO SequentialMinimalOptimizition 算法修改支持向量机的二次规划形式并在在所有样本的基础上求解一个大的二次规划问题一次完成多类问题的分类这种方法计算量很大预测效果也并不理想整体来说并不占优构造若干个的二分类器并按照某种方式将它们组合起来实现多类问题的分类多分类的支持向量机算法主要有两种一对一的方法是在每两类不同的训练样本之间都构造一个最优决策面的二分类SVM 将一个多类问题转化为多个二分类问题来求解从样本集中取出所有满足与的样本点其中1 s t k s t 通过二分类的SVM算法构造最优决策函数 2 62 同样对k类样本中的每一对构造一个决策函数所以一个类问题需要k k 1 2个分类平面一对一支持向量机 1 against 1SVM 一对一支持向量机 1 against 1SVM 1 against 1SVM方法每次投入训练的样本相对较少所以单个决策面的训练速度较快并且精度也较高该方法的确定是由于k类问题需要训练k k 1 2个决策面当k较大的时候决策面的总数将会变的很多直接影响到预测速度这是一个有待改进的地方一对余类支持向量机 1 against therestSVM 是在一类样本与剩余的多类样本之间构造决策平面从而达到多类识别的目的这种方法只需要在每一类样本和剩余样本之间产生一个最优决策面而不用在两两之间都进行分类因此如果仍然是一个k类问题的话那么该方法仅需要构造k个分类平面 k 2 该方法其实也可以认为是两类SVM方法的推广实际上它是将剩余的多类看成一个整体然后进行k次两类识别一对余类支持向量机 1 against therestSVM 假设第j类样本看作正类 j 1 2 k 而将其它k 1类样本看作负类通过两类SVM方法求出一个决策函数 2 63 具体方法一对余类支持向量机 1 against therestSVM 相比较1 against 1SVM 1 against therestSVM方法构造的决策平面数大大减少因此在类别数目k较大时其预测速度将比1 against 1SVM方法快许多但同时预测的准确率也会有所下降不过由于它每次构造决策平面都会用上全部的样本集所以其训练的时间并不比1 against 1SVM短决策树算法 DAGSVM 与1 against therestSVM和1 against 1SVM两种方法不太一样 DAGSVM是通过排除在每层节点处对不符合要求的类别进而最后得到样本所属的类别决策树算法 DAGSVM DAGSVM的训练阶段和1 against 1SVM的步骤一样首先从k k 1 2个分类决策面中任意选取一个不妨设为然后将未知样本x代入该决策函数进行判定若在此决策函数中x被判定为第s类那么将所有与第t类样本相关的决策函数全部删除然后从剩下的与第s类样本相关的分类决策面中任取一个重复以上步骤若是被判定为第t类方法也是完全类似依此类推直到决出样本x的最终类别决策树算法 DAGSVM 和1 against 1SVM方法不同的是由于在每个节点预测的时候同时排除了许多类别的可能性因此预测的时候用到的总分类平面只有k 1个比1 against 1SVM要少很多预测速度自然提高不少但DAGSVM算法也有其不足之处正由于它采取的是排除策略那么最开始的判定显得尤为重要如果在开始阶段就决策错误的话那么后面的步骤都没有意义了支持向量机聚类算法聚类就是将数据库中的数据进行分组使得每一组内的数据尽可能相似而不同组内的数据尽可能不同支持向量机聚类 SupportVectorClustering SVC 是一个使用支持向量机技术的算法也是近年来受关注度很高的一种聚类技术通过其算法的不断改进和参数的优化选择聚类的精确度以及速度都得到了很大提高支持向量机聚类支持向量聚类就是在无监督的环境下使用支持向量技术进行类别学习的算法SVC的基本思想是将样本点经过一个非线性映射映射到一个高维特征空间并在此空间中寻找一个包围所有样本点且具有最小半径的超球将该球体逆映射回原输入空间位于球表面的点即为支持向量支持向量机优化过程 Step1 给定数据集其中设a是特征空间中包含了所有数据的最小超球体球心 R是超球体半径 i是松弛因子是从原空间到特征空间的非线性映射 SVC软间隔目标优化函数为 2 64 Step2 将其转化为Lagrange函数 2 65 其中它们作为Lagrange乘子将两个约束条件引入了目标函数 C衡量半径和松弛因子之间比重支持向量机优化过程 Step3 对R a和 i分别求偏导并根据KTT条件消去R a及再转换成Wolfe对偶形式得到关于 i的目标为 2 66 Step4 设K为Gaussian核函数 K x y exp q x y 2 q为尺度参数那么K x x 1 同时由约束中的第一个条件可将优化目标的进一步简化为 2 67 满足 i 0 i 0的点位于超球体内是位于簇的内部的点

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习统计学习理论与支持向量机算法ppt课件

文档简介

温馨提示

最新文档

评论

机器学习统计学习理论与支持向量机算法ppt课件

文档简介

温馨提示

最新文档

评论

相关文档