




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第五章 近邻法5.1 引言5.2 距离度量5.3 最近邻法5.4 k- 近 邻 法5.5 近邻法的改进5.6 可作拒绝决策的近邻法2引 言最小距离法中用均值作为每一类的“代表点”很多情况下,均值不一定能很好地代表各类代表点的选择很关键将全部样本都作为代表点近邻法3引 言除代表点外,另一个要素是距离到目前为止,我们主要使用了欧式距离实际上,距离的概念要广泛得多先来讨论距离度量的性质4距 离 度 量 度量D( , )本质上是一个函数,该函数给出了两个模式之间的标量距离的大小。一个度量必须满足4个性质:对于任意的向量a,b,和c,有非负性:D(a,b) 0自反性:D(a,b)=0 当且仅当 a=b
2、对称性:D(a,b)=D(b,a)三角不等式D(a,b)+D(b,c) D(a,c)5距 离 度 量d维空间中的欧式距离能够满足这些性质6距 离 度 量更为一般的d维空间的度量为Minkowski距离度量通常也被称为Lk范数欧式距离就是L2范数7距 离 度 量L1范数也被称为Manhattan距离或街区距离、绝对距离显然,欧式距离和绝对距离是明氏距离的两个特例手工运算时,为简便起见,通常采用绝对距离8最 近 邻 法最近邻决策规则 假定有c个类别1 , 2 , , c的分类问题,每类有标明类别的样本Ni个,i=1,2, ,c,我们可以定义i类的判别函数为 其中xik的角标i表示i类,k表示i类N
3、i个样本中的第k个。决策规则: 若 则决策9最 近 邻 法 最近邻法 对未知样本x,比较x与所有已知样本之间的欧式距离,并决策x与离它最近的样本同类。10最 近 邻 法最近邻法的错误率 令P为最近邻法的错误率,P*为贝叶斯错误率,c为类别数。可以证明,存在下述关系 或近似为 P* P 2P*11k- 近 邻 法对最近邻法的推广 取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。12k- 近 邻 法 假定有c个类别1 , 2 , , c的分类问题,每类有标明类别的样本Ni个,i=1, 2, ,c,若k1, k2, ,kc分别是k个近邻中属于1 , 2 , , c 类的样本数
4、,我们可以定义i类的判别函数为 gi(x) = ki , i=1,2, ,c 决策规则为: 若 则决策13k- 近 邻 法 错误率 14k- 近 邻 法特点 简单错误率在贝叶斯错误率和两倍贝叶斯错误率之间需要存储所有样本,每次决策都要计算待识别样本与全部训练样本之间的距离并进行比较,存储量和计算量都很大15k- 近 邻 法51近邻分类器示例.pdf52近邻分类器示例.doc16近 邻 法 的 改 进快速算法剪辑近邻法压缩近邻法17近 邻 法 的 改 进快速算法 基本思想是将样本分级,分成一些不相交的子集,并在子集的基础上进行搜索把样本集分级分成多个子集(树状结构)每个子集(结点)可用较少几个量
5、代表通过将新样本与各结点比较排除大量候选样本只有最后的结点(子集)中逐个样本比较,找出近邻18近 邻 法 的 改 进 令X=x1, x2, ,xN表示样本集,我们的目的是在X中寻找样本x的k个近邻,为简单起见,先看最近邻的情况(k=1)。 算法分为两个阶段: 将X分级分解 用搜索算法找出x的最近邻19近 邻 法 的 改 进第一阶段:样本集分级分解 首先将X分为l个子集,每个子集再分成l个子集。依次进行下去,就可以得到一个树结构。20近 邻 法 的 改 进分级示意图L=0L=1L=3L=221近 邻 法 的 改 进令:Xp:结点p对应的样本子集Np: Xp中的样本数Mp:样本子集Xp中的样本均值
6、rp: 从Mp到xi Xp的最大距离22近 邻 法 的 改 进第二阶段:搜索首先给出两个规则,利用它们可以检验x的最近邻是否在Xp中。规则1:如果存在 B+ rp D(x, Mp) 则 xi Xp不可能是x的最近邻规则2:如果 B+D(xi, Mp) B+ rp , 则从目录表中去掉p24近 邻 法 的 改 进如果步骤3的目录表中已经没有结点,则后退到前一个水平,即置L=L-1。如果L=0则停止,否则转步骤3。如果目录表中有一个以上的结点存在,则转步骤5在目录表中选择最近结点p,它使D(x, Mp)最小化,并称该p为当前执行结点,从目录表中去掉p。如果当前的水平L是最终水平,则转步骤6。否则置
7、L=L1,转步骤225近 邻 法 的 改 进对现在的执行结点p中的每个xi,利用规则2做如下检验,如果 D(x, Mp) B+D(xi, Mp),则xi不是x的最近邻,从而不计算D(x, xi) ,否则计算D(x, xi) 。若D(x, xi) B,置NNi和BD(x, xi) 。在当前执行结点中所有xi被检查之后,转步骤3 当算法结束时,输出x的最近邻 xNN 和 x 与 xNN 的距离D(x,xNN) = B26近 邻 法 的 改 进剪辑近邻法 基本思想:处在两类交界处或分布重合区的样本可能误导近邻法决策,应将它们从样本集中去掉。27近 邻 法 的 改 进基本方法将样本集XN分为考试集XN
8、T和参考集XNR剪辑:用XNR中的样本对XNT中的样本进行近邻法分类,剪掉XNT中被错分的样本, XNT中剩余样本构成剪辑样本集XNTE分类:利用XNTE和近邻法对未知样本x 分类。28近 邻 法 的 改 进重复剪辑近邻法MultiEdit算法将样本集XN随机划分为s个子集,即XN = X1,X2, ,Xs 且s3用最近邻法,以X(i+1)Mod(s)为参考集,对Xi中的样本进行分类,其中i=1,2, ,s, (i+1)Mod(s)表示i+1对s求模去掉在2中被错分的样本用所有留下的样本,构成新的样本集XNE如果经k次迭代,再没有样本被剪辑掉则停止,否则转129原始样本集30第一次迭代后留下的
9、样本31第三次迭代后留下的样本32算法终止时留下的样本33初始样本集 34第一次剪辑后的样本集35最终结果36近 邻 法 的 改 进压缩近邻法 剪辑的结果只是去掉了两类边界附近的样本,而靠近两类中心的样本几乎没有去掉。按照近邻规则,这些样本中的绝大多数对分类没有什么用处。因此在剪辑的基础上,再去掉一部分这样的样本有助于进一步缩短计算时间和减少存储量。一般称这类方法为压缩近邻法。37近 邻 法 的 改 进基本方法将样本集XN分为XS 和XG ,开始时XS 中只有一个样本, XG中为其余样本考查XG 中每个样本,若用XS 可正确分类则保留,否则移入XS 最后用XS作最近邻法的设计集。38近 邻 法 的 改 进算法步骤(Condensing算法)设置两个存储器,分别为STORE和GRABBAG,将第一个样本放入STORE中,把其他样本放入GRABBAG中用当前STORE中的样本以最近邻规则对GRABBAG中的第i个样本进行分类。若分类正确,则该样本仍送回GRABBAG中,否则放入STORE中,对GRABBAG中所有样本重复上述过程若GRABBAG中的所有样本在进行上述检验过程中没有一个样本从GRABBAG转到STORE或者GRABBAG为空时,算法终止,否则转2最后我们以STORE中的样本作为最近邻的设计集。39数据经MultiEdit算法剪辑后再使用Conde
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽省临泉2026届数学八上期末学业质量监测试题含解析
- 湖北省宜昌伍家岗区四校联考2026届数学九上期末统考试题含解析
- 2025合同范本设备采购合同中英文对照
- 2026届安徽省宣城市六中学七年级数学第一学期期末教学质量检测模拟试题含解析
- 专家病例科普知识培训课件
- 专利知识培训问题课件
- 2025互联网行业劳动合同
- 邮储银行拉萨市达孜区2025秋招笔试言语理解题专练及答案
- 中国银行呼伦贝尔市扎赉诺尔区2025秋招英文群面案例角色分析
- 邮储银行鹤岗市南山区2025秋招笔试法律专练及答案
- GB 5009.229-2025食品安全国家标准食品中酸价的测定
- 2024-2025学年高中数学 第三章 函数的概念与性质 3.1.1 函数的概念教学设计 新人教A版必修第一册
- 迪庆云南迪庆香格里拉市招聘治安联防人员80人笔试历年参考题库附带答案详解
- 湖北省部分学校2024-2025学年八年级上学期第一次月考数学试卷(含答案)
- 湘教版七年级数学上册第一次月考测试卷及答案
- 陕西延安人文介绍
- 2024-2025年江苏专转本英语历年真题(含答案)
- 一文搞定基本不等式二次不等式19类题型(老师版)
- 北京市海淀区2024-2025学年七年级数学上学期月考试题
- DL∕T 1084-2021 风力发电场噪声限值及测量方法
- 幼儿园控笔训练培训
评论
0/150
提交评论