模式识别第8讲近邻法ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-29 格式：PPT 页数：59 大小：1.23MB 积分：25 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

模式识别授课教师薛耀红第8讲近邻法本节课主要内容 1最近邻法2k 近邻法3改进的近邻法3 1快速搜索近邻法3 2剪辑近邻法3 3压缩近邻法4最佳距离度量近邻法回顾最简单的分段线性分类器把各类划分为若干子类以子类中心作为类别代表点考查新样本到各代表点的距离并将它分到最近的代表点所代表的类极端情况将所有样本都作为代表点近邻法 1最近邻法问题描述特征向量类别X 0 1 0 1 1最近邻法最小距离分类器将各类训练样本划分成若干子类并在每个子类中确定代表点一般用子类的质心或邻近质心的某一样本为代表点测试样本的类别则以其与这些代表点距离最近作决策该法的缺点是所选择的代表点并不一定能很好地代表各类其后果将使错误率增加最近邻法的基本思想以全部训练样本作为代表点计算测试样本与这些代表点即所有样本的距离并以最近邻者的类别作为决策近邻法是由Cover和Hart于1968年提出的随后得到理论上深入的分析与研究是非参数法中最重要的方法之一 1最近邻法将与测试样本最近邻样本的类别作为决策的方法称为最近邻法 1最近邻法 1最近邻法在二维情况下最近邻规则算法使得二维空间被分割成了许多Voronoi网格每一个网格代表的类别就是它所包含的训练样本点所属的类别最近邻法的错误率最近邻法的错误率是比较难计算的这是因为训练样本集的数量总是有限的有时多一个少一个训练样本对测试样本分类的结果影响很大红点表示A类训练样本蓝点表示B类训练样本而绿点O表示待测样本假设以欧氏距离来衡量 O的最近邻是A3 其次是B1 因此O应该属于A类但若A3被拿开 O就会被判为B类最近邻法的错误率这说明计算最近邻法的错误率会有偶然性也就是指与具体的训练样本集有关同时还可看到计算错误率的偶然性会因训练样本数量的增大而减小因此我们就利用训练样本数量增至极大来对其性能进行评价这要使用渐近概念以下都是在渐近概念下来分析错误率的最近邻法的错误率当最近邻法所使用的训练样本数量N不是很大时其错误率是带有偶然性的下图所示为一个在一维特征空间的两类别情况 X表示一待测试样本而X 是所用训练样本集中X的最邻近者则错误是由X与X 分属不同的类别所引起的最近邻法的错误率由于X 与所用训练样本集有关因此错误率有较大偶然性但是如果所用训练样本集的样本数量N极大即N 时可以想像X 将趋向于X 或者说处于以X为中心的极小邻域内此时分析错误率问题就简化为在X样本条件下X与一个X X 的极限条件分属不同类别的问题如果样本X的两类别后验概率分别为P 1 X 与P 2 X 那么对X值在N 条件下发生错误决策的概率为最近邻法的错误率而在这条件下的平均错误率P称为渐近平均错误率是PN e 在N 的极限为了与基于最小错误率的贝叶斯决策方法对比下面写出贝叶斯错误率的计算式其中最近邻法的错误率若是两类问题则贝叶斯错误率最近邻法错误率可见在一般情况下 P是大于零的值只要P 1 X P 2 X 0 最近邻法的错误率有以下两种例外情况 P 0 P 1 X 1P 1 X P 2 X 1 2 最近邻法的错误率请想一下什么情况下P 1 X 1或P 2 X 1 P 1 X P 2 X 会出现什么什么情况一般来说在某一类样本分布密集区某一类的后验概率接近或等于1 此时基于最小错误率贝叶斯决策基本没错而近邻法出错可能也很小而后验概率近似相等一般出现在两类分布的交界处此时分类没有依据因此基于最小错误率的贝叶斯决策也无能为力了近邻法也就与贝叶斯决策平起平坐了从以上讨论可以看出当N 时最近邻法的渐近平均错误率的下界是贝叶斯错误率这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况最近邻法的错误率最近邻法的错误率最近邻法的错误率高于贝叶斯错误率可以证明以下关系式成立由于一般情况下P 很小因此又可粗略表示成可粗略说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内小结模式识别机器自动分类的基本方法有两大类一类是将特征空间划分成决策域这就要确定判别函数或确定分界面方程另一种方法则称为模板匹配即将待分类样本与标准模板进行比较看跟哪个模板匹配度更好些从而确定待测试样本的分类前面讨论的方法可以说都是将特征空间划分为决策域并用判别函数或决策面方程表示决策域的方法近邻法则在原理上属于模板匹配它将训练样本集中的每个样本都作为模板用测试样本与每个模板做比较看与哪个模板最相似即为近邻就按最近似的模板的类别作为自己的类别作业 1 什么是模式与模式识别 2 一个典型的模式识别系统主要由哪几个部分组成 3 什么是后验概率 4 描述贝叶斯公式及其主要作用 5 请详细写出感知器训练算法步骤 6 请详细写出Fisher算法实现步骤 2k 近邻法 k 近邻法最近邻法的扩展其基本规则是在所有N个样本中找到与测试样本的k个最近邻者其中各类别所占个数表示成ki i 1 c 判别函数为 gi x ki i 1 2 c 决策规则为 k 近邻一般采用k为奇数跟投票表决一样避免因两种票数相等而难以决策 2k 近邻法从样本点x开始生长不断扩大区域直到包含进k个训练样本点为止并且把测试样本点x的类别归为这最近的k个训练样本点中出现频率最大的类别 K近邻法的错误率对于最近邻法PN e x x P 1 x P 2 x P 2 x P 1 x 当N 时 P i x 近似等于P i x PN e x x P 1 x P 2 x P 2 x P 1 x 对于K近邻法 K近邻法的错误率对所有的x 有 PN k e x Ck P e x Ck P e x 为贝叶斯条件错误率的函数根据Jensen不等式 P E PNk e x E Ck P e x CkE P e x Ck P 不等式关系P P Ck P Ck 1 P C1 P 2P 1 P k 近邻法的错误率最近邻法和k 近邻法的错误率上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内在k 的条件下 k 近邻法的错误率要低于最近邻法在k 的条件下 k 近邻法的错误率等于贝叶斯误差率 3改进的近邻法尽管近邻法有其优良品质但是它的一个严重弱点与问题是需要存储全部训练样本以及繁重的距离计算量但以简单的方式降低样本数量只能使其性能降低这也是不希望的为此要研究既能减少近邻法计算量与存储量同时又不明显降低其性能的一些改进算法改进的方法大致分为两种原理一种是对样本集进行组织与整理分群分层尽可能将计算压缩到在接近测试样本邻域的小范围内避免盲目地与训练样本集中每个样本进行距离计算另一种原理则是在原有样本集中挑选出对分类计算有效的样本使样本总数合理地减少以同时达到既减少计算量又减少存储量的双重效果 3 1改进的近邻法快速搜索近邻法这种方法着眼于只解决减少计算量但没有达到减少存储量的要求基本思想将样本集按邻近关系分解成组给出每组的质心所在以及组内样本至该质心的最大距离这些组又可形成层次结构即组又分子组因而待识别样本可将搜索近邻的范围从某一大组逐渐深入到其中的子组直至树的叶结点所代表的组确定其相邻关系快速搜索近邻法 1 样本集的分级分解首先将整个样本分成l个子集每个子集又分为它的l个子集如此进行若干次就能建立起一个样本集的树形结构分成子集的原则是该子集内的样本尽可能聚成堆这可用聚类方法实现结点参数树形结构每个结点表示一样本子集描述该子集的参数是快速搜索近邻法用树结构表示样本分级 p 树中的一个结点对应一个样本子集KpNp Kp中的样本数Mp Kp中的样本均值rp 从Kp中任一样本到Mp的最大距离快速搜索近邻法 2 快速搜索算法要实现快速搜索近邻需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集从而可将无关的样本子集尽快排除另一方面在某样本子集内寻找哪个样本是近邻时需快速排除不可能为近邻的样本这两个快速判别算法可用以下两个规则表示快速搜索近邻法规则1 如果存在则不可能是X的近邻其中B是待识别样本在搜索近邻过程中的当前近邻距离 B在搜索过程中不断改变与缩小算法开始可将B设为无穷大表示待识样本X到结点的均值点距离快速搜索近邻法规则2 如果其中Xi 则Xi不可能是X的近邻由此可见只要将每个样本子集中的每个样本Xi到其均值Mp的距离D Xi Mp 存入存储器中就可利用上式将许多不可能成为测试样本近邻的训练样本排除快速搜索近邻法 3 搜索算法搜索算法的大体过程是这样的当搜索树形样本集结构由高层次向低层次深入时对同一层次的所有结点可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点样本子集但是这往往不能做到只留下唯一的待搜索结点因此必须选择其中某一结点先深入搜索以类似于深度优先的方法确定搜索路径直至叶结点然而在该叶结点中找到的近邻并不能保证确实是全样本集中的最近邻者所找到的该近邻样本需要在那些有可能包含最近邻的样本子集中核对与修正直至找到真正的最近邻样本为止树搜索算法置B L 0 p 0将当前结点的所有直接后继结点放入一个目录表中并对这些结点计算D x Mp 根据规则1从目录表中去掉step2中的某些结点如果目录表已无结点则置L L 1 如果L 0则停止否则转Step3 如果目录表有一个以上的结点则转step5在目录表中选出最近结点p 为当前执行结点如果当前的水平L是最终水平则转Step6 否则置L L 1 转Step2对当前执行结点p 中的每个xi 根据规则2决定是否计算D x xi 若D x xi B 则置NN i和B D x xi 处理完当前执行结点中的每个xi后转Step3当算法结束时输出x的最近邻xNN和x与xNN的距离B 3 2改进的近邻法剪辑近邻法目的去掉靠近两类中心的样本基本思想当不同类别的样本在分布上有交迭部分的分类的错误率主要来自处于交迭区中的样本当我们得到一个作为识别用的参考样本集时由于不同类别交迭区域中不同类别的样本彼此穿插导致用近邻法分类出错因此如果能将不同类别交界处的样本以适当方式筛选可以实现既减少样本数又提高正确识别率的双重目的为此可以利用现有样本集对其自身进行剪辑 3 2改进的近邻法剪辑近邻法剪辑的过程是将样本集KN分成两个互相独立的子集考试 test 集KT和参考 reference 集KR 首先对KT中每一个Xi在参考集KR中找到其最近邻的样本Yi Xi 如果Yi与Xi不属于同一类别则将Xi从考试集KT中删除最后得到一个剪辑的样本集KTE 剪辑样本集以取代原样本集对待识别样本进行分类剪辑的结果是去掉两类边界附近的样本 MULTIEDIT算法正太分布样本集合正太分布样本集合正太分布样本集合正太分布样本集合非正太分布样本集合非正太分布样本集合非正太分布样本集合 3 3改进的近邻法压缩近邻法压缩近邻法利用现有样本集逐渐生成一个新的样本集使该样本集在保留最少量样本的条件下仍能对原有样本的全部用最近邻法正确分类那么该样本集也就能对待识别样本进行分类并保持正常识别率 3 3改进的近邻法压缩近邻法定义两个存储器一个用来存放即将生成的样本集称为Store 另一存储器则存放原样本集称为Grabbag 其算法是初始化 Store是空集原样本集存入Grabbag 从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本样本集生成在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类若分类错误则将该样本从Grabbag转入Store中若分类正确则将该样本放回Grabbag中结束过程若Grabbag中所有样本在执行第二步时没有发生转入Store的现象或Grabbag已成空集则算法终止否则转入第二步 4 最佳距离度量近邻法在x的局部临近区域中定义新的距离函数其中xl为x的局部邻域中的样本可以证明 x的最近邻x 必有满足按照上面定义的新距离在x的局部邻域中选择x的最近邻x 则可使有限样本与无限样本的错误率之差在均方意义下达到最小需要说明上述距离度量使通过对P wi x 在x的局部邻域区域中做线性近似得到的因此它只适合于KN中与x较为接近的那些样本距离度量的计算两类情况令A表示以x为中心的一个局部邻近区域 A中有NA个样本xl 其中个属于wi类局部样本均值的估计为则有 4 最佳距离度量近邻法根据寻找x最近邻的程序步骤两类情况 1 计算 x x1 x xN 2 找出与x距离是最短的NA个近邻xl l 1 2 lNA 3 利用xl计算M1 M0 4 计算 M1 M0 T x xl1 M1 M0 T x xlNA 选出其中最小者若为xlk 则xlk为x的按照距离度量的最近邻即xlk x 5 模式分类方法总结一参数判别分类方法与非参数判别分类方法的区别从参数判别方法看它的前提是对特征空间中的各类样本的分布清楚因此一旦要测试分类样本的特征向量值X已知就可以确定X对各类的后验概率也就可按相应的准则计算与分类如果这种分布可以用正态分布等描述那么决策域的判别函数与分界面方程就可用函数的形式确定下来所以判别函数等的确定取决于样本统计分布的有关知识因此参数分类判别方法一般只能用在有统计知识的场合或能利用训练样本估计出参数的场合模式分类方法总结一参数判别分类方法与非参数判别分类方法的区别非参数分类判别方法则着眼于直接利用训练样本集省去参数估计这一环节这样一来从保证最小错误率的原则出发计算确定判别函数的方法就不适用了因此非参数分类判别方法只能根据一些其它准则来设计分类器分类器的效果好坏常指分类的错误率一般在理论上很难说明主要靠实践来检验所选择的判别函数型式所使用的训练样本集以及所用的算法对结果都会有影响模式分类方法总结二非参数分类判别方法的基本做法使用非参数分类判别方法进行分类器设计主要包含两个步骤 1 一个是确定的使用的判别函数类型或决策面方程类型如线性分类器分段线性分类器非线性分类器等或近邻法等如果使用人工神经元网络则怎样的网络结构也隐含了所使用的函数形式 2 另一个步骤是在选定的函数

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模式识别第8讲近邻法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

模式识别第8讲近邻法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档