01第六章特征选择与特征提取(xin)20101022.ppt_第1页
01第六章特征选择与特征提取(xin)20101022.ppt_第2页
01第六章特征选择与特征提取(xin)20101022.ppt_第3页
01第六章特征选择与特征提取(xin)20101022.ppt_第4页
01第六章特征选择与特征提取(xin)20101022.ppt_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,北华大学电气信息工程学院,IPL,第六章 模式特征的选择与提取 (8.5 案例讲解),模式识别理论及应用Pattern Recognition - Methods and Application,第六章 模式特征的选择与提取,2,8.5.1单个特征的评价,基本思想: 评价每个特征的标准通常是它的分类能力。通过对各个特征的评价,可以选出那些对于分类最有效的特征,淘汰那些无效的特征。 介绍几个对于单个特征进行评价的方法 1 K-W 检验 (1)K-W(Kruskal and Wallis)检验是一种常用的特征选择方法。假定要检验某个特征x对于分类的有效程度,已知一批样品共有N个,这批样品分为m类

2、,第i类包括Ni个样品, 。,第六章 模式特征的选择与提取,3,(2)则K-W检验算法如下 列出全部样品对应的特征x的取值。 按照x取值从小到大的顺序给每个样品编号。例如,x取值最小的样品编号为1, x取值次小的样品编号为2等。 若有几个样品所对应的x值相同,可以对它们随机编号,也可以采用平均编号的办法。 取每个特征每类各样品编号的平均值,分别记作 。 计算统计量H,公式为:,第六章 模式特征的选择与提取,4,其中,H满足自由度为m-1的卡方分布。 H值比较。在实用中一般只需比较各特征的H值,H越大时,特征的分类能力越强。 (3)案例分析 例8.5 设有N10个样品,共分m2类,每个样品取4个

3、特征,用KW检验比较特征的分类能力。原始资料矩阵见表8.1。,表8.1 原始矩阵,第六章 模式特征的选择与提取,5,列出全部样品对应的特征x的取值。见表8.1 按照x取值从小到大的顺序给每个样品编号。 首先对特征 ,将各样品按 值大小编号,S4所对应的 值最小(0.18),编号为1,S4编号为2,全部编号结果列在表8.2 的第一行中。同样方法分别对其他特征进行编号。见表8.2,表8.2 对于各样品的重新编号,第六章 模式特征的选择与提取,6,取每个特征每类各样品编号的平均值,同时计算H值。 如下为特征 每类编号的平均值R1 和R2 ,所对应的H1。 R1=(4+5+2+1+3)/5=3 R2=

4、(8+7+9+6+10)/5=8 其中N是特征为 的样本数,Ni为每类样本数。 Ri 为每类样本均值。 H1 =12/(10*(10+1)*(5*(3-(10+1)/2)2+5*(8-(10+1)/2)2)=75/11=6.82,第六章 模式特征的选择与提取,7,对于 分别有 , , 。 不H1=6.82 H4=5.77 H2=2.45 H3=0.27 所以特征 的分类能力最强, 次之, 最差。,第六章 模式特征的选择与提取,8,K-W检验的原理分析,(1)首先,式括号中的(N1)/2是全体样品编号的均值,而 是各类样品编号的均值,因此H实际上相当于特征x对应编号的组间离差。 (2)其次,用编

5、号代替特征x的原有取值也是不难理解的。在表8.1中,两类样品所对应的特征 的原有取值的平均值都是0.7,即两类均值完全相同。 (3)从这一事实来看, 应该是一个很坏的特征。但是,用 对样品分类时,如果取0.4和0.5之间的某个数,例如0.45作为分界点,被分错的却只有一个点S5 。这又说明 这个特征不太坏。,第六章 模式特征的选择与提取,9,点 S5 的 值太大而造成的结果。用编号代替特征则可以排除这种干扰。因为编号只反映特征的大小顺序,而不考虑其数值。,第六章 模式特征的选择与提取,10,2 直方图方法,我们仍然考虑例8.1。特征的变化范围在0.1到0.9之间。我们把这一范围分为几个长度为0

6、.1的区间,在每个区间内画出落在该区间内的样品点数与总数之比(f)。这样的图形称为特征值-样品频数直方图。对于每特征分两类做出这样的直方图,其中 和 的直方图见图8.1。 在图8.1中可以看到,在 的直方图中两类样品可以比较清楚地分开,而在特征 的直方图则有较多的混淆现象。因此,直方图可以作为检验特征分类能力的一种工具。,第六章 模式特征的选择与提取,11,图 8.1 特征值-样品频数直方图,第六章 模式特征的选择与提取,12,3 利用不确定性选择特征,不确定性或熵是信息论中的概念。假定要考查某个特征 x的分类能力。首先把x的取值范围分为k段,把样品点落到其中第j段的频率记作 。又设样品共有m

7、类,把第i类样品点落到第j段的频率记作 。然后计算熵: 熵越小则x的分类能力越强。,第六章 模式特征的选择与提取,13,基本原理:在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,则要考察某个特征值x的分类能力可根据熵越小则X的分类能力越强。,第六章 模式特征的选择与提取,14,案例,例 设有40个样品点共分两类,其中某特征x的变化范围在0.20到0.90之间。将这个范围分为两段,所得结果列在表8.3中。,由表8.3求出A0.8089,第六章 模式特征的选择与提取,15,表8.3 特征x之熵的计算步骤,第六章 模式特

8、征的选择与提取,16,(1)提出问题 在研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。 (2)分析问题 主成分分析是解决这一问题的理想工具。离散程度大,则类间分类效果好。既方差大,则对分类贡献大。 (3)主成分分析法基本思想 将实测的多个指标,用少数几个潜在的相互独立的主成分指标(因子)的线性组合来表示,构成的线性组合可以反映原多个实测指标的主要信息。,4 主成分分析法(PCA),第六章 模式特征的选择与提取,17,2 数据结构 (1)数据标准化 主成分分析最大的问题是受量纲的影响,因此,实际应用中,需要对数据进行标准化。 一般使用协方差矩阵或相关系数矩阵R进行分析。适合用主成分分析的数据具有如下结构:,第六章 模式特征的选择与提取,18,2 熵值法,基本原理:在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论