模式识别第8讲近邻法ppt课件.ppt_第1页
模式识别第8讲近邻法ppt课件.ppt_第2页
模式识别第8讲近邻法ppt课件.ppt_第3页
模式识别第8讲近邻法ppt课件.ppt_第4页
模式识别第8讲近邻法ppt课件.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别 授课教师薛耀红 第8讲近邻法 本节课主要内容 1最近邻法2k 近邻法3改进的近邻法3 1快速搜索近邻法3 2剪辑近邻法3 3压缩近邻法4最佳距离度量近邻法 回顾 最简单的分段线性分类器 把各类划分为若干子类 以子类中心作为类别代表点 考查新样本到各代表点的距离并将它分到最近的代表点所代表的类 极端情况 将所有样本都作为代表点 近邻法 1最近邻法 问题描述 特征向量类别X 0 1 0 1 1最近邻法 最小距离分类器 将各类训练样本划分成若干子类 并在每个子类中确定代表点 一般用子类的质心或邻近质心的某一样本为代表点 测试样本的类别则以其与这些代表点距离最近作决策 该法的缺点是所选择的代表点并不一定能很好地代表各类 其后果将使错误率增加 最近邻法的基本思想 以全部训练样本作为 代表点 计算测试样本与这些 代表点 即所有样本的距离 并以最近邻者的类别作为决策 近邻法是由Cover和Hart于1968年提出的 随后得到理论上深入的分析与研究 是非参数法中最重要的方法之一 1最近邻法 将与测试样本最近邻样本的类别作为决策的方法称为最近邻法 1最近邻法 1最近邻法 在二维情况下 最近邻规则算法使得二维空间被分割成了许多Voronoi网格 每一个网格代表的类别就是它所包含的训练样本点所属的类别 最近邻法的错误率 最近邻法的错误率是比较难计算的 这是因为训练样本集的数量总是有限的 有时多一个少一个训练样本对测试样本分类的结果影响很大 红点表示A类训练样本 蓝点表示B类训练样本 而绿点O表示待测样本 假设以欧氏距离来衡量 O的最近邻是A3 其次是B1 因此O应该属于A类 但若A3被拿开 O就会被判为B类 最近邻法的错误率 这说明计算最近邻法的错误率会有偶然性 也就是指与具体的训练样本集有关 同时还可看到 计算错误率的偶然性会因训练样本数量的增大而减小 因此我们就利用训练样本数量增至极大 来对其性能进行评价 这要使用渐近概念 以下都是在渐近概念下来分析错误率的 最近邻法的错误率 当最近邻法所使用的训练样本数量N不是很大时 其错误率是带有偶然性的 下图所示为一个在一维特征空间的两类别情况 X表示一待测试样本 而X 是所用训练样本集中X的最邻近者 则错误是由X与X 分属不同的类别所引起的 最近邻法的错误率 由于X 与所用训练样本集有关 因此错误率有较大偶然性 但是如果所用训练样本集的样本数量N极大 即N 时 可以想像X 将趋向于X 或者说处于以X为中心的极小邻域内 此时分析错误率问题就简化为在X样本条件下X与一个X X 的极限条件 分属不同类别的问题 如果样本X的两类别后验概率分别为P 1 X 与P 2 X 那么对X值 在N 条件下 发生错误决策的概率为 最近邻法的错误率 而在这条件下的平均错误率P称为渐近平均错误率 是PN e 在N 的极限 为了与基于最小错误率的贝叶斯决策方法对比 下面写出贝叶斯错误率的计算式 其中 最近邻法的错误率 若是两类问题 则贝叶斯错误率 最近邻法错误率 可见在一般情况下 P是大于零的值 只要P 1 X P 2 X 0 最近邻法的错误率 有以下两种例外情况 P 0 P 1 X 1P 1 X P 2 X 1 2 最近邻法的错误率 请想一下 什么情况下P 1 X 1或P 2 X 1 P 1 X P 2 X 会出现什么什么情况 一般来说 在某一类样本分布密集区 某一类的后验概率接近或等于1 此时 基于最小错误率贝叶斯决策基本没错 而近邻法出错可能也很小 而后验概率近似相等一般出现在两类分布的交界处 此时分类没有依据 因此基于最小错误率的贝叶斯决策也无能为力了 近邻法也就与贝叶斯决策平起平坐了 从以上讨论可以看出 当N 时 最近邻法的渐近平均错误率的下界是贝叶斯错误率 这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况 最近邻法的错误率 最近邻法的错误率 最近邻法的错误率高于贝叶斯错误率 可以证明以下关系式成立 由于一般情况下P 很小 因此又可粗略表示成 可粗略说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内 小结 模式识别 机器自动分类 的基本方法有两大类 一类是将特征空间划分成决策域 这就要确定判别函数或确定分界面方程 另一种方法则称为模板匹配 即将待分类样本与标准模板进行比较 看跟哪个模板匹配度更好些 从而确定待测试样本的分类 前面讨论的方法可以说都是将特征空间划分为决策域 并用判别函数或决策面方程表示决策域的方法 近邻法则在原理上属于模板匹配 它将训练样本集中的每个样本都作为模板 用测试样本与每个模板做比较 看与哪个模板最相似 即为近邻 就按最近似的模板的类别作为自己的类别 作业 1 什么是模式与模式识别 2 一个典型的模式识别系统主要由哪几个部分组成 3 什么是后验概率 4 描述贝叶斯公式及其主要作用 5 请详细写出感知器训练算法步骤 6 请详细写出Fisher算法实现步骤 2k 近邻法 k 近邻法 最近邻法的扩展 其基本规则是 在所有N个样本中找到与测试样本的k个最近邻者 其中各类别所占个数表示成ki i 1 c 判别函数为 gi x ki i 1 2 c 决策规则为 k 近邻一般采用k为奇数 跟投票表决一样 避免因两种票数相等而难以决策 2k 近邻法 从样本点x开始生长 不断扩大区域 直到包含进k个训练样本点为止 并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别 K近邻法的错误率 对于最近邻法PN e x x P 1 x P 2 x P 2 x P 1 x 当N 时 P i x 近似等于P i x PN e x x P 1 x P 2 x P 2 x P 1 x 对于K近邻法 K近邻法的错误率 对所有的x 有 PN k e x Ck P e x Ck P e x 为贝叶斯条件错误率的函数 根据Jensen不等式 P E PNk e x E Ck P e x CkE P e x Ck P 不等式关系P P Ck P Ck 1 P C1 P 2P 1 P k 近邻法的错误率 最近邻法和k 近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内 在k 的条件下 k 近邻法的错误率要低于最近邻法 在k 的条件下 k 近邻法的错误率等于贝叶斯误差率 3改进的近邻法 尽管近邻法有其优良品质 但是它的一个严重弱点与问题是需要存储全部训练样本 以及繁重的距离计算量 但以简单的方式降低样本数量 只能使其性能降低 这也是不希望的 为此要研究既能减少近邻法计算量与存储量 同时又不明显降低其性能的一些改进算法 改进的方法大致分为两种原理 一种是对样本集进行组织与整理 分群分层 尽可能将计算压缩到在接近测试样本邻域的小范围内 避免盲目地与训练样本集中每个样本进行距离计算 另一种原理则是在原有样本集中挑选出对分类计算有效的样本 使样本总数合理地减少 以同时达到既减少计算量 又减少存储量的双重效果 3 1改进的近邻法 快速搜索近邻法 这种方法着眼于只解决减少计算量 但没有达到减少存储量的要求 基本思想 将样本集按邻近关系分解成组 给出每组的质心所在 以及组内样本至该质心的最大距离 这些组又可形成层次结构 即组又分子组 因而待识别样本可将搜索近邻的范围从某一大组 逐渐深入到其中的子组 直至树的叶结点所代表的组 确定其相邻关系 快速搜索近邻法 1 样本集的分级分解首先将整个样本分成l个子集 每个子集又分为它的l个子集 如此进行若干次就能建立起一个样本集的树形结构 分成子集的原则是该子集内的样本尽可能聚成堆 这可用聚类方法实现 结点参数 树形结构 每个结点表示一样本子集 描述该子集的参数是 快速搜索近邻法 用树结构表示样本分级 p 树中的一个结点 对应一个样本子集KpNp Kp中的样本数Mp Kp中的样本均值rp 从Kp中任一样本到Mp的最大距离 快速搜索近邻法 2 快速搜索算法要实现快速搜索近邻 需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集 从而可将无关的样本子集尽快排除 另一方面在某样本子集内寻找哪个样本是近邻时 需快速排除不可能为近邻的样本 这两个快速判别算法可用以下两个规则表示 快速搜索近邻法 规则1 如果存在则不可能是X的近邻 其中B是待识别样本在搜索近邻过程中的当前近邻距离 B在搜索过程中不断改变与缩小 算法开始可将B设为无穷大 表示待识样本X到结点的均值点距离 快速搜索近邻法 规则2 如果其中Xi 则Xi不可能是X的近邻 由此可见 只要将每个样本子集中的每个样本Xi到其均值Mp的距离D Xi Mp 存入存储器中 就可利用上式将许多不可能成为测试样本近邻的训练样本排除 快速搜索近邻法 3 搜索算法搜索算法的大体过程是这样的 当搜索树形样本集结构由高层次向低层次深入时 对同一层次的所有结点 可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点 样本子集 但是这往往不能做到只留下唯一的待搜索结点 因此必须选择其中某一结点先深入搜索 以类似于深度优先的方法确定搜索路径直至叶结点 然而在该叶结点中找到的近邻并不能保证确实是全样本集中的最近邻者 所找到的该近邻样本需要在那些有可能包含最近邻的样本子集中核对与修正 直至找到真正的最近邻样本为止 树搜索算法 置B L 0 p 0将当前结点的所有直接后继结点放入一个目录表中 并对这些结点计算D x Mp 根据规则1从目录表中去掉step2中的某些结点如果目录表已无结点则置L L 1 如果L 0则停止 否则转Step3 如果目录表有一个以上的结点 则转step5在目录表中选出最近结点p 为当前执行结点 如果当前的水平L是最终水平 则转Step6 否则置L L 1 转Step2对当前执行结点p 中的每个xi 根据规则2决定是否计算D x xi 若D x xi B 则置NN i和B D x xi 处理完当前执行结点中的每个xi后转Step3当算法结束时 输出x的最近邻xNN和x与xNN的距离B 3 2改进的近邻法 剪辑近邻法 目的 去掉靠近两类中心的样本 基本思想 当不同类别的样本在分布上有交迭部分的 分类的错误率主要来自处于交迭区中的样本 当我们得到一个作为识别用的参考样本集时 由于不同类别交迭区域中不同类别的样本彼此穿插 导致用近邻法分类出错 因此如果能将不同类别交界处的样本以适当方式筛选 可以实现既减少样本数又提高正确识别率的双重目的 为此可以利用现有样本集对其自身进行剪辑 3 2改进的近邻法 剪辑近邻法 剪辑的过程是 将样本集KN分成两个互相独立的子集 考试 test 集KT和参考 reference 集KR 首先对KT中每一个Xi在参考集KR中找到其最近邻的样本Yi Xi 如果Yi与Xi不属于同一类别 则将Xi从考试集KT中删除 最后得到一个剪辑的样本集KTE 剪辑样本集 以取代原样本集 对待识别样本进行分类 剪辑的结果是去掉两类边界附近的样本 MULTIEDIT算法 正太分布样本集合 正太分布样本集合 正太分布样本集合 正太分布样本集合 非正太分布样本集合 非正太分布样本集合 非正太分布样本集合 3 3改进的近邻法 压缩近邻法 压缩近邻法 利用现有样本集 逐渐生成一个新的样本集 使该样本集在保留最少量样本的条件下 仍能对原有样本的全部用最近邻法正确分类 那么该样本集也就能对待识别样本进行分类 并保持正常识别率 3 3改进的近邻法 压缩近邻法 定义两个存储器 一个用来存放即将生成的样本集 称为Store 另一存储器则存放原样本集 称为Grabbag 其算法是 初始化 Store是空集 原样本集存入Grabbag 从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本 样本集生成 在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类 若分类错误 则将该样本从Grabbag转入Store中 若分类正确 则将该样本放回Grabbag中 结束过程 若Grabbag中所有样本在执行第二步时没有发生转入Store的现象 或Grabbag已成空集 则算法终止 否则转入第二步 4 最佳距离度量近邻法 在x的局部临近区域中 定义新的距离函数 其中xl为x的局部邻域中的样本 可以证明 x的最近邻x 必有满足 按照上面定义的新距离 在x的局部邻域中选择x的最近邻x 则可使有限样本与无限样本的错误率之差在均方意义下达到最小 需要说明 上述距离度量使通过对P wi x 在x的局部邻域区域中做线性近似得到的 因此 它只适合于KN中与x较为接近的那些样本 距离度量的计算 两类情况 令A表示以x为中心的一个局部邻近区域 A中有NA个样本xl 其中个属于wi类 局部样本均值的估计为则有 4 最佳距离度量近邻法 根据寻找x最近邻的程序步骤 两类情况 1 计算 x x1 x xN 2 找出与x距离是最短的NA个近邻xl l 1 2 lNA 3 利用xl计算M1 M0 4 计算 M1 M0 T x xl1 M1 M0 T x xlNA 选出其中最小者 若为xlk 则xlk为x的按照距离度量的最近邻 即xlk x 5 模式分类方法总结 一 参数判别分类方法与非参数判别分类方法的区别从参数判别方法看 它的前提是对特征空间中的各类样本的分布清楚 因此一旦要测试分类样本的特征向量值X已知 就可以确定X对各类的后验概率 也就可按相应的准则计算与分类 如果这种分布可以用正态分布等描述 那么决策域的判别函数与分界面方程就可用函数的形式确定下来 所以判别函数等的确定取决于样本统计分布的有关知识 因此参数分类判别方法一般只能用在有统计知识的场合 或能利用训练样本估计出参数的场合 模式分类方法总结 一 参数判别分类方法与非参数判别分类方法的区别非参数分类判别方法则着眼于直接利用训练样本集 省去参数估计这一环节 这样一来 从保证最小错误率的原则出发计算确定判别函数的方法就不适用了 因此非参数分类判别方法只能根据一些其它准则来设计分类器 分类器的效果好坏 常指分类的错误率 一般在理论上很难说明 主要靠实践来检验 所选择的判别函数型式 所使用的训练样本集 以及所用的算法对结果都会有影响 模式分类方法总结 二 非参数分类判别方法的基本做法使用非参数分类判别方法进行分类器设计主要包含两个步骤 1 一个是确定的使用的判别函数类型或决策面方程类型 如线性分类器 分段线性分类器 非线性分类器等或近邻法等 如果使用人工神经元网络 则怎样的网络结构也隐含了所使用的函数形式 2 另一个步骤是在选定的函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论