




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档 1欢迎下载 关于关于 SVMSVM 及其应用的相关原理及其应用的相关原理 一 支持向量机介绍 下面我简单介绍下何为小样本 非线性及高维模式识别 小样本 并不是说样本的绝对数量少 实际上 对任何算法来说 更多的样本几乎总是能带来更好的效果 而是说与问题的复杂度 比起来 SVM 算法要求的样本数是相对比较少的 非线性 是指 SVM 擅长应付样本数据线性不可分的情况 高维模式识别是指样本维数很高 例如样本出现几万维 不用 降维处理 其他算法基本就没有能力应付了 SVM 却可以 主要是 因为 SVM 产生的分类器很简洁 用到的样本信息很少 使得即使样 本维数很高 也不会给存储和计算带来大麻烦 何为机器学习之后会介绍 支持向量机方法 下面我简单介绍下何为 VC 维理论和结构风险最小原理以期推广能 力 所谓 VC 维是对函数类的一种度量 我们就简单的理解为问题的 复杂程度 VC 维越高 一个问题就越复杂 1 PPT 下一页 精品文档 2欢迎下载 在讲解结构风险最小原理 先介绍下风险 风险就是与真实解 的误差 我举个例子来说 我们不知道宇宙是如何诞生 就是不知 道宇宙的真实模型 如果知道真实的宇宙模型 我们直接用真实模 型就可以了 既然不知道 我们就根据一些现象假设认为宇宙诞生 于 150 亿年前的一场大爆炸 这个假设能够描述很多我们观察到的 现象 但它与真实的宇宙模型之间还相差多少 谁也说不清 因为 我们压根就不知道真实的宇宙模型到底是什么 这个差距我们就认 为是风险 经验风险就是分类器在给定样本上的误差 就是我们选择一个 假设之后 真实误差无从得知 但我们可以用某些可以掌握的量来 逼近它 就是使用分类器在样本数据上的分类的结果与真实结果之 间的差值来表示 这个差值叫做经验风险 置信风险是分类器在未知文本上分类的结果的误差 代表了我 们在多大程度上可以信任分类器在未知文本上分类的结果 很显然 没有办法精确计算的 因此只能给出一个估计的区间 也使得整个 误差只能计算上界 而无法计算准确的值 结构风险就是经验风险与置信风险之和 2 PPT 下一页 下面介绍下机器学习和推广能力 精品文档 3欢迎下载 机器学习就是对一种对问题真实模型的逼近 机器学习分为传 统机器学习和统计机器学习 传统机器学习方法是把经验风险最小化作为努力的目标 但后 来发现很多分类函数能够在样本集上轻易达到 100 的正确率 然而 用分类函数对未知样本分类时却一塌糊涂 经验风险最小化原则适 用的大前提是经验风险要确实能够逼近真实风险才行 但实际上能 逼近么 答案是不能 因为样本数相对于现实世界要分类的文本数 来说简直九牛一毛 经验风险最小化原则只在这占很小比例的样本 上做到没有误差 当然不能保证在更大比例的真实文本上也没有误 差 所以传统的机器学习基本上属于摸着石头过河 用传统的机器 学习方法构造分类系统完全成了一种技巧 一个人做的结果可能很 好 另一个人差不多的方法做出来却很差 缺乏指导和原则 统计统计机器学习目标是从经验风险最小化变为了寻求经验风险 与置信风险的和最小 而推广能力就是 用已知样本得到的一个分类器 在其他未知样 本分类时候也能获得很好的正确率 3 PPT 下一页 SVM 基础 大家可以看上图 我们要区分 C1 和 C2 这两类 红色的曲线可 以区分出来 但是用线性函数进行区分是最简单也很有效的 我将 用一个二维空间里仅有两类样本的分类问题来举例 来说明 SVM 的 精品文档 4欢迎下载 形成思路与核心概念 何为线性可分与线性不可分 C1和 C2是要区分的两个类别 如图所示 中间的直线就是一个分类函数 它可以将两类样本完全 分开 一般的 如果一个线性函数能够将样本完全正确的分开 就 称这些数据是线性可分的 否则称为非线性可分的 线性函数在一维空间里就是一个点 在二维空间里就是一条直 线 三维空间里就是一个平面 如此想象下去 如果不关注空间的 维数 这种线性函数一个统一的名称即为超平面 下面我们要区分 C1 C2 可以得到得到一个线性函数 g x wx b 如取阈值为 0 当有一个样本 xi需要判别的时候 若 g xi 0 就判 别为类别 C1 若 g xi 0 而 yi 1 也大于 0 若不属于该类别的话 那么 wxi b 0 而 yi 也小于 0 这意味着 i 总是大于 0 的 而且它的值就等于 wxi b 精品文档 6欢迎下载 现在把 w 和 b 进行一下归一化 即用 w w 和 b w 分别代 替原来的 w 和 b 那么间隔就可以写成 对于 2 维 w 就是 2 范数 当不是 2 维空间时候 w 就是 n 范数 之所以如此关心几何间隔 是因为几何间隔越大 误差上界越小 置信风险越小 因为支持向量机是要求结构风险最小 那么就是经 验风险和置信风险越小越好 所以我们希望几何间隔越大越好 6 PPT 下一页 如图 展示出了几何间隔的现实含义 H 是分类面就是 g x 0 而 H1 和 H2 是平行于 H H1 与 H H2 与 H 之间的距离就是几何间隔 要求几何间隔最大就是右边公式 中最大 而我们常用的方法并不 i 是固定 w 的大小而寻求最大几何间隔 而是固定几何间隔 例如 固定几何间隔为 1 寻找最小的 w 得到目标函数就是 这个式子和求 min w 是等价的 用此形式只是之后推导计算方便 精品文档 7欢迎下载 如果直接来解这个求最小值问题 很容易看出当 w 0 的时候 就得到了目标函数的最小值 但 无论你给什么样的数据 都是这 个解 反映在图中 就是 H1 与 H2 两条直线间的距离无限大 这个 时候 所有的样本点都跑到了 H1 和 H2 中间 没有将 C1 和 C2 类区 分出来 所以我要加入约束条件来 之前提到过将几何距离固定为 1 这 是指把所有样本点中间隔最小的那一点的间隔定为 1 也就意味着 集合中的其他点间隔都不会小于 1 按照间隔的定义 满足这些条 件就相当于让下面的式子总是成立 yi w xi b 1 i 1 2 n n 是总的样本数 这样我们的两类样本分类问题也被我们转化成了它的数学形式 一个带约束的最小值的问题 7 PPT 下一页 几何间隔告诉了我们如何在 g x wx b 中选择一个最好的 但 是我们还要知道如何求出一个 g x wx b 后面这个为内积形式 求这样的 g x 的过程就是求 w 一个 n 维向量 和 b 一个实 数 两个参数的过程 但实际上只需要求 w 求得以后找某些样本 点代入就可以求得 b 因此在求 g x 的时候 w 才是变量 一旦求 精品文档 8欢迎下载 出了 w 那么中间的直线 H 就知道了 因为它就是 wx b 0 H H1 H2 平行 间隔 w 则 H1 和 H2 可以求的 那么 w 是谁决定的 显然是你给的样本决定的 一旦你在空间中 给出了那些个样本点 三条直线的位置实际上就唯一确定了 因为 我们求的是最优的那三条 当然是唯一的 样本确定了 w 用数学的语言描述 就是 w 可以表示为样本的某 种组合 w 1x1 2x2 nxn 式子中的 i是拉格朗日乘子 而 xi是样本点 是向量 n 就是 总样本点的个数 但是 1 式还不够好 并不能表示样本的全部信息 我们看图 如果把其中一个正样本点定为负样本点 就是把一个圆形变为方形 三条直线都必须移动 这说明 w 不仅跟样本点的位置有关 还跟样 本的类别有关 因此用带有标记的 w 式子才完整 w 1y1x1 2y2x2 nynxn 其中的 yi就是第 i 个样本的标签 它等于 1 或者 1 7 PPT 下一页 我们来看这个 w 的等式 式的那一堆拉格朗日乘子中 只有很少 精品文档 9欢迎下载 的一部分不等于 0 不等于 0 才对 w 起决定作用 这部分不等于 0 的拉格朗日乘子后面所乘的样本点 都落在 H1 和 H2 上 也正是这 部分样本唯一的确定了分类函数 当然 更严格的说 这些样本的 一部分就可以确定 因为例如要确定 H1 这条直线 只需要两个点就 可以 即便有三五个都落在 H1 上面 这部分我们真正需要的样本点 就叫做支持 撑 向量 形象的理解为 撑 起了分界线的样本 将 w 用求和符号简写一下 g x 表达式可以写为 1 1 n iii i n iii i g xw xba y xb a yxb x x 注意式子中 x 才是变量 也就是你要分类哪篇文档 就把该文档 的向量表示代入到 x 的位置 而所有的 xi统统都是已知的样本 式 子中只有 xi和 x 是向量 所以可以表示为后面的式子 之所以表示 为 1 式形式 是因为以这样的形式描述问题以后 我们的优化问 题少了很大一部分不等式约束 我们先不讨论这个等式如何求解 先讲解下支持向量机的最重要的部分 核函数和松弛变量 精品文档 10欢迎下载 7 PPT 下一页 核函数 之前一直在讨论的线性分类器 只能对线性可分的样本做处理 如果提供的样本线性不可分 结果很简单 线性分类器的求解程序 会无限循环 永远也解不出来 这必然使得它的适用范围大大缩小 而它的很多优点我们实在不原意放弃 怎么办呢 有 其思想很简 单 还是用二维平面中的分类问题作例子 左边的我们把横轴上红 色部分里的所有点定为正类 两边的黑色部分里的点定为负类 试 问能找到一个线性函数把两类正确分开么 在二维空间里的线性函 数就是指直线 显然找不到能将两者分开的直线 我们可以找到一 条曲线将二者区分开 通过判断点在这条曲线的上方还是下方就可 以判断点所属的类别 得到曲线为 问题只是它不 2 012 g xcc xc x 是一个线性函数 但是新建一个向量 y 和 a 然后把 y 和 a 分别回带一下 得到 g x 110 221 2 332 1 yac yyxaac yxac f y ay 在任意维度的空间中 这种形式的函数都是一个线性函 数 只不过其中的 a 和 y 都是多维向量罢了 这样原来在二维空间 中一个线性不可分的问题 映射到四维空间后 变成了线性可分的 因此这也形成了我们最初想解决线性不可分问题的基本思路 向 高维空间转化 使其变得线性可分 7 PPT 下一页 将低维空间线性不可分的映射到的高维空间的到的线性可分的线 精品文档 11欢迎下载 性函数为 f x b 其中 x 是经由 x 变换来的 w 是经由 w 变换来的 计算高维空间向量 x 与向量 w 的内积 再把这个内积的值和 b 相 加 就得到了结果 看结果大于阈值还是小于阈值就得到了分类结 果 但是 x 到 x w 到 w 的映射关系很难找到 但是我们发现我 们可以只关心那个高维空间里内积的值 如果内积值算出来了 分 类结果就算出来了 这就让我们幻想 是否能有这样一种函数 K w x 他接受低维空间的输入值 却能算出高维空间的内积 值 如果存在 K w x 那么当给了一个低维空间数据 g x K w x b f x b 这两个函数的计算结果就完全一样 我们可直接拿低维的输入 往 g x 里面代就可以了 万幸的是 这样的 K w x 确实存在 它被 称作核函数 而且还不止一个 8 PPT 下一页 精品文档 12欢迎下载 核函数的基本作用就是接受两个低维空间里的向量 能够计算 出经过某个变换后在高维空间里的向量内积值 之前我们经过化简 得到一个线性表示 1 n iii i g xaxyxb 现在这个就是高维空间里的线性函数 我们就可以用一个低维 空间里的函数来代替 之前有介绍核函数是输入低纬数据之间计算 出高维空间的内积值得到 低纬空间的代替函数 可以看到 g x 和 g x 里的 y b 全都是一样的 这就是说 尽管给的问题是线性不可分的 但是我们就硬当它是线性问题来求 解 只不过求解过程中 凡是要求内积的时候就用你选定的核函数 来算 这样求出来的 再和你选定的核函数一组合 就得到分类器 PPT 下一页 根据上面的核函数介绍会想到下面两个问题 1 既然有很多的核函数 针对具体问题该怎么选择 2 如果使用核函数向高维空间映射后 问题仍然是线性不可 分的 那怎么办 精品文档 13欢迎下载 第一个 对核函数的选择 现在还缺乏指导原则 各种实验的 观察结果表明 某些问题用某些核函数效果很好 用另一些就很差 但是一般来讲 径向基核函数是不会出太大偏差的一种 首选 这 里我们不讨论径向基核函数具体实现形式是什么样子 只要知道他 是一个较好实现输入低维空间数据得到高维空间内积的函数 第二个问题的解决则引出了我们下一节的主题 松弛变量 10 PPT 下一页 如图所示 在分类过程中出现图中情况 就是图中黄色那个点 它是方形的 因而它是负类的一个样本 这单独的一个样本 使得 原本线性可分的问题变成了线性不可分的 以我们人类的常识来判断 说有一万个点都符合某种线性可分的 规律 有一个点不符合 其实我们会觉得 这个样本点压根就是错 误 是噪声 而不是我们分类方法有问题 所以我们会简单的忽略 这个样本点 仍然使用原来的分类器 其效果丝毫不受影响 为了使我们的约束条件也有这种对噪声的容错性 我们将原来的 约束条件右边的阈值 1 增加一个松弛变量 如下 11 2 0 ii yi w xibin n 是总的总本总 因为松弛变量是非负的 因此最终的结果是要求间隔可以比 1 小 但是当某些点出现这种间隔比 1 小的情况时 这些点也叫离群点 精品文档 14欢迎下载 意味着我们放弃了对这些点的精确分类 而这对我们的分类器来说 是种损失 但是放弃这些点也带来了好处 那就是使分类面不必向 这些点的方向移动 因而可以得到更大的几何间隔 显然我们必须权衡这种损失和好处 回顾下我们原始的优化问题 w 2就是我们的目标函数 希望它越小越好 我们引入松弛变量 带来的损失就必然是一个能使之变大的量 能使它变小就不叫损失 了 因为我们本来就希望目标函数值越小越好 11 PPT 下一页 我们如何来衡量松弛变量给目标函数带来的损失呢 常用 kesai 平方求和或者 kesai 求和来衡量 n 为样本数目 这两个没有本质 区别 如果选择了 1 式 得到的方法的就叫做二阶软间隔分类器 2 式就叫做一阶软间隔分类器 我先解释下什么叫软间隔 我们看约束条件右边是我们给的一个固定的阈值 1 我们称这个 为 硬间隔 分类法 因为他硬性的要求所有样本点都满足和分类平 面间的距离必须大于某个值 而带有松弛变量的 2 式 就属于软间 隔分类方法 精品文档 15欢迎下载 PPT 下一页 把损失加入到目标函数里的时候 就需要一个惩罚因子 Ci 原 来的优化问题就变成了下面这样 2 1 1 min 2 1 1 2 0 n ii i iii i wC subject toywxbnin 是总的总本总 对这个式子有这么几点要注意 一是并非所有的样本点都有一个松弛变量与其对应 实际上只 有 离群点 才有 或者也可以这么看 所有没离群的点松弛变量都 等于 0 二是松弛变量的值实际上标示出了对应的点到底离群有多远 值越大 点就越远 三是惩罚因子 Ci 决定了你有多重视离群点带来的损失 显然当 所有离群点的松弛变量的和一定时 你定的 C 越大 对目标函数的 损失也越大 此时就暗示着你非常不愿意放弃这些离群点 最极端 的情况是你把 C 定为无限大 这样只要稍有一个点离群 目标函数 的值马上变成无限大 马上让问题变成无解 这就退化成了硬间隔 问题 精品文档 16欢迎下载 四是惩罚因子 C 不是一个变量 整个优化问题在解的时候 C 是一个你必须事先指定的值 指定这个值以后 解一下 得到一个 分类器 然后用测试数据看看结果怎么样 如果不够好 换一个 C 的值 再解一次优化问题 得到另一个分类器 再看看效果 如此 就是一个参数寻优的过程 至此一个比较完整的支持向量机框架就有了 简单说来 支持 向量机就是使用了核函数的软间隔线性分类法 最后 我要说的是 虽然我是以两类样本进行分类来最后 我要说的是 虽然我是以两类样本进行分类来 介绍介绍 SVMSVM 的原理 其实的原理 其实 SVMSVM 是可以用到多类样本分类的 是可以用到多类样本分类的 11 PPT 下一页 总结 最后 我来总结下我所讲 我们的问题是要想办法分类 C1 C2 因为线性分类器最简单最 高效 所以我们用线性函数对其分类 精品文档 17欢迎下载 但是 有很多线性函数 我们利用几何间隔选取最优的线性函 数 如果 C1 C2 不是线性可分的 我们利用核函数将 2 维的数据转 换为更高维空间 使其变成线性可分数据 如果出现少量离群点导致数据不可分 我们利用松弛变量将离 群点舍去使得数据再次变成线性可分的 11 PPT 下一页 下面我们来讲解下支持向量机的应用 因为已经理解支持向量 机是一种线性分类方法 辨别图片以区别人脸和猴脸为例说明下支 持向量机在其中的应用 比如我们有 100 张人脸照片用 A 表示和 100 张猴脸照片用 B 表示 其中我们把前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字新质生产力助力基层减负
- 2025年口腔科龋齿填充材料选择技术试题考核试卷答案及解析
- 2025年运动医学常见运动损伤急救护理测试答案及解析
- 2025年肿瘤病理肿瘤组织病理学切片分析答案及解析
- 2025年康复医学脑卒中患者日常护理知识检测试卷答案及解析
- 低碳钢拉伸曲线
- 民族大团结微课课件
- 2025年体育医学康复器械操作实验答案及解析
- 2025年医学教育学教学理论与实践技能模拟考试卷答案及解析
- 2025年健康管理学慢性病患者管理模拟测试卷答案及解析
- 智能停车充电一体化解决方案
- 无创性脑检测与神经调控技术的发展前景
- 消防维保方案(消防维保服务)(技术标)
- 变压器试验收费标准
- 竣 工 验 收 证 书(施管表2)
- CPK工具表的模板
- 中国画发展史
- 客户基本信息调查表实用文档
- 19-雾在哪里ppt市公开课金奖市赛课一等奖课件
- 城镇道路工程施工与质量验收规范
- GB/T 11270.2-2002超硬磨料制品金刚石圆锯片第2部分:烧结锯片
评论
0/150
提交评论