模式识别—特征选择与提取教学课件_第1页
模式识别—特征选择与提取教学课件_第2页
模式识别—特征选择与提取教学课件_第3页
模式识别—特征选择与提取教学课件_第4页
模式识别—特征选择与提取教学课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8.1 基本概念基本概念8.2 类别可分性测度类别可分性测度8.3 基于可分性测度的特征提取方法基于可分性测度的特征提取方法第第8章章 特征选择与特征提取特征选择与特征提取8.1 基本概念 1、特征的特点 模式识别的主要功能在于利用计算机实现人的类识别能力,在模式识别过程中,特征的确定比较复杂,研究领域不同,选择的特征也不同,但不论采用什么样的特征,都应该满足以下条件: (1)特征是可获取的 (2)类内稳定 (3)类间差异2、特征的类别 形式上分三类: 1、物理特征 物理特征是比较直接、人们容易感知的特征,很容易被选出,如为了描述某个学生,可以用:性别、身高、胖瘦、肤色等外在特征。物理特征虽然

2、容易感知,却未必能非常有效地表征分类对象。 2、结构特征 结构特征的表达能力一般要高于物理特征, 如汉字识别的成功、指纹的识别就实现离不开结构特征的选择。结构特征的表达是先将观察对象分割成若干个基本构成要素,再确定基本要素间的相互连接关系。 结构信息对对象的尺寸往往不太敏感,如汉字识别时,识别系统对汉字大小不敏感,只对笔划结构信息敏感。 3、数字特征 一般来说,数字特征是为了表征观察对象而设立的特征,如给每个学生设立一个学号,作为标志每个学生的特征。(1) 具有很大的识别信息量。即应具有很好的可分性。(2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别 的特征应丢掉。(3) 尽可能强的独

3、立性。重复的、相关性强的特征只选一个。(4) 数量尽量少,同时损失的信息尽量小。对特征的要求对特征的要求特征选择和特征提取的异同特征选择和特征提取的异同(1)特征选择:从l个度量值集合 中按一定准 则选出供分类用的子集,作为降维(m维,m l)的分类 特征。lxxx,21(2)特征提取:使一组度量值 通过某种变换 产生新的m个特征 ,作为降维的分类特征, 其中 。),(21lxxxih),(21myyylmmi;, 2 , 1(c)是具有分类能力的特征,故选(c),扔掉(a) 、 (b) 。ba解:法1 特征抽取:测量三个结构特征 (a) 周长 (b) 面积 (c)两个互相垂直的内径比 特征选

4、择:一般根据物理特征或结构特征进行压缩。 分析:例:特征选择与特征提取的区别:对一个条形和圆进行识别。 当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。法2: 特征抽取:测量物体向两个坐标轴的投影值,则a、b各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。 分析:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在 轴上投影的坐标值的正负可区分两个物体。2x特征提取,一般用数学的方法进行压缩。 ba2x1x22bx22ax12bx12ax11bx11ax21bx21axba2x1x2x1x3、特征

5、提取和选择的作用 特征提取和特征选择的主要目的都是,在不降低或很少降低分类结果性能的情况下,降低特征空间的维数,其主要作用在于: (1)简化计算; (2)简化特征空间结构;由于特征提取和选择是去除类间差别小的特征,保留类间差别大的特征,因此,每类所占据的子空间接哦股可分离性更强,从而简化分类复杂度。matlab提取任意形状点坐标多类模式向量间的距离多类模式向量间的距离两类情况的距离 q个 p个 12共pq个距离 两个类区之间的距离 = pq个距离的平均距离多类间任意两个点间距离的平均距离类似地 多类情况多类间任意两个点间平方距离的平均值类似于协方差阵s=a11 a12 a13.a1q a21

6、a22 a23.a2q . ap1 ap2.ap,q 2散度散度出发点:对数似然比含有类别的可分性信息。 )()(lnjiijpplxx1)散度的定义 )()(lnijjipplxx 对不同的x,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息对数似然比的期望值 。 i类对数似然比的期望值:xxxxdpppleixjiiijij)()(ln)(类对数似然比的期望值:jxxxxdpppleixijjjiji)()(ln)(散度等于两类的对数似然比期望值之和。 xxxxxdppppiijjixjijiijij)()(ln)()()()(xdxxpxexxxxxdppppiijijx

7、ijijjiji)()(ln)()( 散度表示了区分i类和j 类的总的平均信息。2)散度的性质(1)jiijjjxxxxxdppppiijjixjijiijij)()(ln)()(特征选择和特征提取应使散度尽可能的 ?特征选择和特征提取应使散度尽可能的大。(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。 xxxxxdppppiijjixjijiijij)()(ln)()(由散度的定义式可知,散度愈大,两类概率密度函数曲线相差愈大,交叠愈少,分类错误率愈小。 与贝叶斯判决准则(最大后验概率)一致 6.2.3、基于熵函数的可分离性判据 除了采用前面的类概率密度函数来刻画类别的可分性外,还可以由特征的后验概率分布来衡量它对分类的有效性。 (1)后验概率相等:无法确定样本所属类别; (2)后验概率集中:存在一组特征使得p(i|x)=1,且p(j|x)=0,ji,则此时样本x可以肯定地规划为i类,而错误概率为零。 为了衡量后验概率分布的集中程度,需要规定一个定量指标。在信息论中用熵来作为不确定性的度量,熵越大则不确定性就越大,因此可以借助熵的概念来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论