




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字图像处理与模式识别 主讲 相明西安交通大学电信学院计算机系E Mail Mxiang 绪论 一 模式识别的基本概念二 模式识别系统的基本设计方法三 模式识别问题的一般描述四 模式识别的应用五 数字图像处理与模式识别六 本课程的主要研究内容 一 模式识别的基本概念1 什么是模式识别 简单地说 模式识别就是对观察到的物理对象进行识别与分类 模式识别无所不在 我们每一天都在进行着成功的模式识别 一个简单的例子是根据声音识别汽车的类别 再如读书看报 2 如何让机器自动进行模式识别 模式识别的定义 根据对某个物理对象的观测信息 利用计算机对该物理对象进行分类 从而给出该物理对象所属的类别 在这里 模式 就是指存储于计算机内的有关物理对象的观测信息 它可以是图像 声音 温度 压力等任何可以测量的观测量 为了让机器自动完成模式识别任务 我们需要 1 数据采集设备 2 模式识别算法 一个简单的问题 如何让机器可以认字 3 模式识别研究的意义对外界事物的感知与识别是智能的基础 如果我们能够很好的解决模式识别问题 就能够制造出更高级的智能系统 一个例子是手写体识别 另一个例子是自动驾驶系统 模式识别在计算机学科中的地位 模式识别是计算机科学与控制科学的一个交叉学科 是智能系统及智能信息处理的一个重要基础 二 模式识别系统的基本设计方法模式识别问题的一个例子 设计一个自动分类系统 实现对两种不同类别鱼类的自动分类 salmon seabass 结合该例子 我们讨论以下几个问题 1 观测量的获取 2 特征提取 3 分类器的训练 4 分类器的测试 5 分类器的设计过程 6 分类器设计过程中需要考虑的一些关键因素 1 观测量的获取 图像获取 首先通过摄像机获取图像 然后采用图像分割技术 得到单个物理对象的图像 2 特征提取 抽取关键特征 并根据这些特征对物理对象进行分类 长度特征 根据长度进行分类salmon一般较短 seabass一般较长 亮度特征 根据亮度进行分类salmon一般较暗 seabass一般较亮 特征向亮 提取一组特征 构成特征向量 根据特征向量进行分类 特征向量 亮度 宽度 x x1 x2 特征空间 特征向量所有可能的取值的集合样本 x y x 该样本对应的特征向量y 该样本的类别 y 1 salmon 或y 1 bass 在特征空间中构造一个分类面 对两类样本进行分类 3 分类器的训练 根据已有的一组样本 样本集 构造一个判决函数d x 根据d x 实现对两类样本的正确分类 我们希望d x 尽可能满足 对于第一类样本 x y y 1 d x 0或sign d x 1对于第二类样本 x y y 1 d x 0或sign d x 1其中 d x 0称为分类器的分类面 这一过程称为分类器的训练过程 在训练过程中使用的样本 称为训练样本 由训练样本构成的集合 称为训练集 判决函数d x 可以采用多种不同的函数模型 常用模型有线性模型 多项式模型 神经网络模型等 在本例中我们可以采用线性模型d x w x b 因此 分类器训练的任务就是 根据训练样本确定线性分类器的权系数w及偏差项b 采用所得分类器对训练样本进行分类时的错误率 称为训练误差 4 分类器的测试 在分类器训练过程结束后 需要采用一些新的样本对分类器的分类性能进行测试 这些样本称为测试样本 由测试样本构成的集合称为测试集 测试过程 对于测试样本 x y y 1 如果d x 0则分类正确 如果d x 0则产生一个分类错误 分类器对测试样本集进行分类时的错误率 称为测试误差 采用所得分类器对训练样本进行分类时的错误率 称为训练误差训练误差 测试误差统称为经验误差 分类器优化的原则应该是使测试误差近可能小 因此 判决函数d x 应根据训练样本及测试样本共同确定 分类器的应用 在对分类器进行训练及测试 并最终确定了分类器的判决函数以后 就可将分类器投入实际应用 在实际应用中 我们只能观测到物理对象的特征向量 但是并不知道该对象的类别 为此 我们采用分类器的判决函数对其类别进行预测 即分类 对于观测到的特征向量x 如果d x 0 则判y 1 物理对象属于第一类 如果d x 0 则判y 1 物理对象属于第二类 5 分类器的设计过程 6 分类器设计过程中需要考虑的一些关键因素 1 两类不同样本的特征向量的真实分布 特征向量的概率分布决定了分类器在实际应用中的真实分类能力 泛化能力 特征向量的概率分布通常是未知的 因此分类器的泛化能力也是未知的 但是 分类器的真实分类能力可以通过测试误差进行初步的估计 2 训练样本及测试样本的数量 越多越好 但是在实际应用中 获取大量的样本通常需要付出很大的代价 3 分类器的复杂度选择 采用复杂度高的分类器可以获得较小的训练误差 但是 随着分类器复杂度的进一步提高 伴随着训练误差的降低 分类器的测试误差却会开始变大 这一现象称为过度拟合 过学习 过度拟合的出现 意味着分类器泛化能力的降低 它说明在分类器的设计过程中 分类器 也即判决函数 的复杂度应该受到适当的限制 分类器复杂度选择的两个基本原则 1 Occamrazor原则 为了保证泛化能力 在经验误差相近的条件下 应该选择复杂度较低的分类器 2 统计学习理论 为了保证泛化能力 分类器的复杂度应与可用样本的数量相平衡 样本数量较多时 采用复杂度高的分类器才更可靠 分类器复杂度过高 分类器复杂度过高 出现过度拟合 泛化能力可能会有所降低 分类器复杂度过低 由于分类器的复杂度过低 无法有效表示不同类别训练样本之间的分界面 从而导致训练误差无法得到充分的降低 这一现象称为欠学习 欠学习同样无法保证较好的泛化能力 分类器复杂度适中 分类器的复杂度与可用样本的数量相匹配 复杂度的选择符合Occamrazor原则 这样得到的分类器最有可能获得较好的分类能力 三 模式识别问题的一般描述 1 构建样本集 获取物理对象的观测量 从观测量中提取有利于进行分类的特征向量 根据特征向量及物理对象的类别构成一个样本 对不同类别的多个物理对象重复上述过程 获得一个样本集 样本集是分类器设计的基础 2 将样本集分为训练集及测试集 选择一个合适的分类器模型 根据训练集及测试集共同确定该分类器模型的参数 这一过程称为有监督学习 有监督学习是一种基于样本的学习方法 基于样本的学习方法是解决复杂问题的一个重要手段 例如中医诊脉 3 与有监督学习相对应的是无监督学习 聚类分析 在聚类分析中 没有样本的类别信息可资利用 只有一组可能是来自于多个不同类别对象的观测量 也称为特征向量或样本 聚类分析的目的 就是根据样本分布的自然结构 根据样本之间的相似性 将样本分为多个不同的类 一个聚类分析的例子 只有观测信息 没有类别信息 我们希望根据样本的分布 将样本划分为若干个自然类 从而发现隐藏于样本集中的可能的类别信息 四 模式识别的应用手写体识别 邮政编码指纹识别 人脸识别 故障诊断 语音识别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年养老服务机构护理人员聘用合同模板
- 2025年度智能家电翻新二手交易合作协议
- 2025年度绿色环保型农膜批发销售合同
- 2025年度电器产品认证与检测服务合同
- 2025版水泥井盖购销合同知识产权保护条款
- 2025版商业综合体消防设施改造项目所需资料清单合同
- 基于大数据的2025年农业温室生产效益优化研究报告
- 2025版汽车托管租赁服务合同范本解读
- 再生资源与废弃物的绿色转化-洞察及研究
- 增强现实教育出版-洞察及研究
- 培训钉钉课件
- 新建洞室储气库压缩空气储能系统的经济性及成本分析
- 艺康servsafe培训课件
- 砖厂职业危害管理制度
- 肝功能障碍患者的麻醉管理要点
- 2025年粮油仓储管理员(高级)职业技能鉴定考试练习题库(含答案)
- 【课件】新高三启动主题班会:启航高三逐梦未来
- 历史 2024-2025学年部编版七年级历史下学期期末问答式复习提纲
- 2025年中国邮政集团有限公司北京分公司招聘笔试冲刺题(带答案解析)
- 学校物业服务应急事件处理预案
- 单位车辆管理委托协议书示例3篇
评论
0/150
提交评论