




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章 特征抽取与选择 模式识别 Pattern Recognition 武汉理工大学信息工程学院 1 1 内容目录 第六章 特征抽取与选择 6.1 特征抽取和选择的基本概念 3 2 4 5 6.2 类别可分离性判据 6.3 特征抽取方法 6.4 特征选择方法 6.5 讨论 1 模式识别 2 2 6.1 特征抽取和选择的基本概念 l 特征的选择与提取是模式识别中重要而困难的 一个环节: n分析各种特征的有效性并选出最有代表性的特征是模 式识别的关键一步 n降低特征维数在很多情况下是有效设计分类器的重要 课题 l 三大类特征:物理、结构和数学特征 n物理和结构特征:易于为人的直觉感知,但有时难于 定量描述,因而不易用于机器判别 n数学特征:易于用机器定量描述和判别,如基于统计 的特征 3 3 特征的形成 l特征形成 (acquisition): n信号获取或测量原始测量 n原始特征 l实例: n数字图象中的各像素灰度值 n人体的各种生理指标 l 原始特征分析: n原始测量不能反映对象本质 n高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏 引言引言 4 4 特征的选择与提取 l 两类提取有效信息、压缩特征空间的方法:特征 提取和特征选择 l 特征提取 (extraction):用映射(或变换)的方法 把原始特征变换为较少的新特征 l 特征选择(selection) :从原始特征中挑选出一些最 有代表性,分类性能最好的特征 l 特征的选择与提取与具体问题有很大关系,目前 没有理论能给出对任何问题都有效的特征选择与 提取方法 引言引言 5 5 特征的选择与提取举例 l 细胞自动识别: n原始测量:(正常与异常)细胞的数字图像 n原始特征(特征的形成,找到一组代表细胞性 质的特征):细胞面积,胞核面积,形状系数 ,光密度,核内纹理,和浆比 n压缩特征:原始特征的维数仍很高,需压缩以 便于分类 l特征选择:挑选最有分类信息的特征 l特征提取:数学变换 n傅立叶变换或小波变换 n用PCA方法(主元分析法)作特征压缩 引言引言 6 6 6.2 类别可分离性判据 l 类别可分离性判据:衡量不同特征及其组合对分 类是否有效的定量准则 l 理想准则:某组特征使分类器错误概率最小 l 实际的类别可分离性判据应满足的条件: n度量特性: n与错误率有单调关系 n当特征独立时有可加性: n单调性: l 常见类别可分离性判据:基于距离、概率分布、 熵函数 7 7 6.2.1基于距离的可分性判据 l类间可分性:=所有样本间的平均距离: 可分性可分性 判据判据 squared Euclidian 类内平 均距离 类间 距离 8 8 基于距离的可分性判据矩阵形式 可分性可分性 判据判据 基于距离的准则概念直观,计算方 便,但与错误率没有直接联系 样本类间样本类间 离散度矩阵离散度矩阵 样本类内样本类内 离散度矩阵离散度矩阵 类间可分离类间可分离 性判据性判据 9 9 6.2.2基于概率的可分性判据 l基于概率的可分性判据:用概率密度函数间 的距离来度量 可分性可分性 判据判据 l散度 : 1010 正态分布的散度 可分性可分性 判据判据 Mahalanobis 1111 6.2.3基于熵函数的可分性判据 l熵函数 : 可分性可分性 判据判据 lShannon熵: l平方熵: l熵函数期望表征类别的分离程度: 1212 类别可分离性判据应用举例 l图像分割:Otsu灰度图像阈值算法 (Otsu thresholding) l图像有L阶灰度,ni是灰度为i的像素数,图 像总像素数 N= n1+n2+ + nL n灰度为i的像素概率:pi = ni/N n类间方差: 可分性可分性 判据判据 1313 Otsu thresholding l灰度图像阈值: 可分性可分性 判据判据 lOtsu灰度图像二值化算法演示及程序分 析: 1414 6.3 特征抽取方法 l特征提取:用映射(或变换)的方法把原始 特征变换为较少的新特征 lPCA (Principle Component Analysis)方法 : 进行特征降维变换,不能完全地表示原有的 对象,能量总会有损失。希望找到一种能量 最为集中的的变换方法使损失最小 lK-L (Karhunen-Loeve)变换:最优正交线性 变换,相应的特征提取方法被称为PCA方 法 1515 K-L变换 l 离散K-L变换:对向量x用确定的完备正交归一向 量系uj展开 特征特征 提取提取 Then u Then u 为正交矩阵为正交矩阵 1616 离散K-L变换的均方误差 l 用有限项估计x : 特征特征 提取提取 l 该估计的均方误差 : 1717 求解最小均方误差正交基 l用Lagrange乘子法: 特征特征 提取提取 l 结论:以相关矩阵R的d个本征向量为 基向量来展开x时,其均方误差为: l K-L变换:当取矩阵R的d个最大本征值对应的本 征向量来展开x时,其截断均方误差最小。这d个 本征向量组成的正交坐标系称作x所在的D维空间 的d维K-L变换坐标系, x在K-L坐标系上的展开 系数向量y称作x的K-L变换 1818 K-L变换的表示 lK-L变换的向量展开表示: 特征特征 提取提取 lK-L变换的矩阵表示: 1919 K-L变换的性质 ly的相关矩阵是对角矩阵: 特征特征 提取提取 2020 K-L变换的性质 特征特征 提取提取 lK-L坐标系把矩阵R对角化,即通过K-L变换 消除原有向量x的各分量间的相关性,从而 有可能去掉那些带有较少信息的分量以达到 降低特征维数的目的 2121 K-L变换图解 x1 x2 u2 u1 二次 曲线方程 标准二次 曲线方程 特征特征 提取提取 2222 K-L变换的数据压缩 l 取2x1变换矩阵U=u1,则x的K-L变换y为: y = UTx = u1T x = y1 l变换的能量损失为 特征特征 提取提取 2323 K-L变换的产生矩阵 l数据集KN=xi的K-L变换的产生矩阵由数据 的二阶统计量决定,即K-L坐标系的基向量 为某种基于数据x的二阶统计量的产生矩阵 的本征向量 lK-L变换的产生矩阵可以有多种选择: nx的相关函数矩阵R=ExxT nx的协方差矩阵C=E(x-) (x-)T n样本总类内离散度矩阵: 特征特征 提取提取 2424 未知类别样本的K-L变换 l用总体样本的协方差矩阵C=E(x-) (x-)T 进行K-L变换,K-L坐标系U=u1,u2,.,ud按照 C的本征值的下降次序选择 l 例:设一样本集的协方差矩阵是: 求最优2x1特征提取器U 解答:计算特征值及特征向量V, D=eig(C); 特征值D=24.736, 2.263T,特征向量: 由于12,故最优2x1特征提取器 此时的K-L变换式为: 特征特征 提取提取 2525 6.4 特征选择方法 l 特征选择:=从原始特征中挑选出一些最有代表性 、分类性能最好的特征进行分类 l 从D个特征中选取d个,共 种组合。若不限定特 征选择个数,则共2D种组合 l 特征选择的方法大体可分两大类: nFilter方法:根据独立于分类器的指标J来评价所选择的 特征子集S,然后在所有可能的特征子集中搜索出使得J 最大的特征子集作为最优特征子集。不考虑所使用的学 习算法。 nWrapper方法:将特征选择和分类器结合在一起,在学 习过程中表现优异的的特征子集会被选中。 2626 经典特征选择算法 l许多特征选择算法力求解决搜索问题,经典 算法有: n分支定界法 n单独最优特征组合法 n顺序后退法 n顺序前进法 n模拟退火法 nTabu搜索法 n遗传算法 特征特征 选择选择 2727 单独最优特征组合 l 计算各特征单独使用时的可分性判据J并加以排队 ,取前d个作为选择结果 l 不一定是最优结果 l 当可分性判据对各特征具有(广义)可加性,该方法 可以选出一组最优的特征来,例: n各类具有正态分布 n各特征统计独立 n可分性判据基于Mahalanobis距离 特征特征 选择选择 2828 顺序后退法 l该方法根据特征子集的分类表现来选择特征 l搜索特征子集:从全体特征开始,每次剔除 一个特征,使得所保留的特征集合有最大的 分类识别率 l依次迭代,直至识别率开始下降为止 l用“leave
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年导游面试高频题及答案解析
- 2025年客房安全操作手册及测试题
- 2025年58同城员工安全培训试题
- 2025年农业科技推广专家考试试题及答案解析
- 2025年美食节目主持人资格考试试题及答案解析
- 2025年旅游管理专业技能考核试卷及答案解析
- 2025年通信工程专业招聘面试模拟题集及深度解析
- 2025年游戏开发项目经理面试预测题及应对策略解析
- 2025年金融分析师执业水平认定考试试题及答案解析
- 2025年计算机软件工程师技能认证考试试题及答案解析
- 六年级家长会课件
- 2025年安徽省淮南市【辅警协警】笔试模拟考试题(含答案)
- 废气处理活性炭吸附操作规范
- 创伤急救基本知识培训课件
- 2025年农业农村科技基础知识考试题库(附含答案)
- 合同第三方见证人范本
- 学生心理健康教育干预措施
- DB32∕T 4652-2024 基于区块链技术的多中心药物临床试验管理系统开发指南
- 实验室生物安全知识培训考试试题(含答案)
- 2025年成人高考英语试题及答案
- 高渗盐水治疗脑水肿及颅内高压专家共识解读
评论
0/150
提交评论