模式识别问题概述_第1页
模式识别问题概述_第2页
模式识别问题概述_第3页
模式识别问题概述_第4页
模式识别问题概述_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别问题概述第一页,共二十九页,编辑于2023年,星期六内容一、模式识别的基本概念二、模式识别系统的基本设计方法三、有监督学习于无监督学习四、模式识别的应用五、贝叶斯决策理论概述第二页,共二十九页,编辑于2023年,星期六一、模式识别的基本概念1、什么是模式识别?简单地说,模式识别就是对观察到的物理对象进行识别与分类。模式识别无所不在,我们每一天都在进行着成功的模式识别。一个简单的例子是根据声音识别汽车的类别。再如读书看报。2、如何让机器自动进行模式识别?模式识别的定义:根据对某个物理对象的观测信息,利用计算机对该物理对象进行分类,从而给出该物理对象所属的类别。在这里,“模式”就是指存储于计算机内的有关物理对象的观测信息,它可以是图像、声音、温度、压力等任何可以测量的观测量。为了让机器自动完成模式识别任务,我们需要(1)数据采集设备(2)模式识别算法。一个简单的问题:如何让机器可以认字?第三页,共二十九页,编辑于2023年,星期六3、模式识别研究的意义对外界事物的感知与识别是智能的基础。如果我们能够很好的解决模式识别问题,就能够制造出更高级的智能系统。一个例子是手写体识别。另一个例子是自动驾驶系统。

模式识别在计算机学科中的地位:模式识别是计算机科学与控制科学的一个交叉学科,是智能系统及智能信息处理的一个重要基础。第四页,共二十九页,编辑于2023年,星期六二、模式识别系统的基本设计方法模式识别问题的一个例子:设计一个自动分类系统,实现对两种不同类别鱼类的自动分类(salmon,seabass)。结合该例子,我们讨论以下几个问题(1)观测量的获取(2)特征提取(3)分类器的训练(4)分类器的测试(5)分类器的设计过程(6)分类器设计过程中需要考虑的一些关键因素。第五页,共二十九页,编辑于2023年,星期六1、观测量的获取(图像获取):首先通过摄像机获取图像,然后采用图像分割技术,得到单个物理对象的图像。第六页,共二十九页,编辑于2023年,星期六2、特征提取:抽取关键特征,并根据这些特征对物理对象进行分类。

长度特征:根据长度进行分类

salmon一般较短,seabass一般较长第七页,共二十九页,编辑于2023年,星期六亮度特征:根据亮度进行分类

salmon一般较暗,seabass一般较亮第八页,共二十九页,编辑于2023年,星期六特征向量:提取一组特征,构成特征向量,根据特征向量进行分类。

特征向量=(亮度、宽度);x=(x1,x2);

特征空间:特征向量所有可能的取值的集合

样本:(x,y),x:该样本对应的特征向量

y:该样本的类别,y=+1(salmon),或y=-1(bass)

第九页,共二十九页,编辑于2023年,星期六在特征空间中构造一个分类面,对两类样本进行分类。第十页,共二十九页,编辑于2023年,星期六3、分类器的训练:根据已有的一组样本(样本集),构造一个判决函数d(x),根据d(x)实现对两类样本的正确分类。我们希望d(x)尽可能满足:对于第一类样本(x,y),y=1:d(x)>0或sign(d(x))=1

对于第二类样本(x,y),y=-1:d(x)<0或sign(d(x))=-1

其中,d(x)=0称为分类器的分类面。这一过程称为分类器的训练过程,在训练过程中使用的样本,称为训练样本。由训练样本构成的集合,称为训练集。判决函数d(x)可以采用多种不同的函数模型,常用模型有线性模型、多项式模型、神经网络模型等。在本例中我们可以采用线性模型d(x)=w.x+b.因此,分类器训练的任务就是,根据训练样本确定线性分类器的权系数w及偏差项b。采用所得分类器对训练样本进行分类时的错误率,称为训练误差。

第十一页,共二十九页,编辑于2023年,星期六4、分类器的测试:在分类器训练过程结束后,需要采用一些新的样本对分类器的分类性能进行测试,这些样本称为测试样本。由测试样本构成的集合称为测试集。

测试过程:

对于测试样本(x,y),y=1,如果d(x)>0则分类正确。对于测试样本(x,y),y=-1,如果d(x)>0则产生一个分类错误。分类器对测试样本集进行分类时的错误率,称为测试误差。

训练误差、测试误差统称为经验误差。分类器优化的原则应该是使测试误差近可能小。第十二页,共二十九页,编辑于2023年,星期六分类器的应用:在对分类器进行训练及测试,并最终确定了分类器的判决函数以后,就可将分类器投入实际应用。在实际应用中,我们只能观测到物理对象的特征向量,但是并不知道该对象的类别。为此,我们采用分类器的判决函数对其类别进行预测(即分类)。对于观测到的特征向量x:如果d(x)>0,则判y=1(物理对象属于第一类)如果d(x)<0,则判y=-1(物理对象属于第二类)

第十三页,共二十九页,编辑于2023年,星期六5、分类器的设计过程第十四页,共二十九页,编辑于2023年,星期六6、分类器设计过程中需要考虑的一些关键因素:

(1)两类不同样本的特征向量的真实分布:特征向量的概率分布决定了分类器在实际应用中的真实分类能力(泛化能力)。特征向量的概率分布通常是未知的。因此分类器的泛化能力也是未知的。但是,分类器的真实分类能力可以通过测试误差进行初步的估计。

(2)训练样本及测试样本的数量:越多越好,但是在实际应用中,获取大量的样本通常需要付出很大的代价。

第十五页,共二十九页,编辑于2023年,星期六(3)分类器的复杂度选择:采用复杂度高的分类器可以获得较小的训练误差。但是,随着分类器复杂度的进一步提高,伴随着训练误差的降低,分类器的测试误差却会开始变大。这一现象称为过度拟合(过学习)。过度拟合的出现,意味着分类器泛化能力的降低。它说明在分类器的设计过程中,分类器(也即判决函数)的复杂度应该受到适当的限制。分类器复杂度选择的两个基本原则:

1、Occamrazor原则:为了保证泛化能力,在经验误差相近的条件下,应该选择复杂度较低的分类器。

2、统计学习理论:为了保证泛化能力,分类器的复杂度应与可用样本的数量相平衡。样本数量较多时,采用复杂度高的分类器才更可靠。第十六页,共二十九页,编辑于2023年,星期六分类器复杂度过高:分类器复杂度过高,出现过度拟合,泛化能力可能会有所降低。第十七页,共二十九页,编辑于2023年,星期六分类器复杂度过低:由于分类器的复杂度过低,无法有效表示不同类别训练样本之间的分界面,从而导致训练误差无法得到充分的降低,这一现象称为欠学习。欠学习同样无法保证较好的泛化能力。第十八页,共二十九页,编辑于2023年,星期六分类器复杂度适中:分类器的复杂度与可用样本的数量相匹配,复杂度的选择符合Occamrazor原则,这样得到的分类器最有可能获得较好的分类能力。第十九页,共二十九页,编辑于2023年,星期六

三、有监督学习于无监督学习有监督学习(分类):(1)获取物理对象的观测量,从观测量中提取有利于进行分类的特征向量,根据特征向量及物理对象的类别构成一个样本。对不同类别的多个物理对象重复上述过程,获得一个样本集。样本集是分类器设计的基础。(2)将样本集分为训练集及测试集。选择一个合适的分类器模型,根据训练集及测试集共同确定该分类器模型的参数。这一过程称为有监督学习。有监督学习是一种基于样本的学习方法。基于样本的学习方法是解决复杂问题的一个重要手段(例如中医诊脉)。无监督学习(聚类):

与有监督学习相对应的是无监督学习(聚类分析)。在聚类分析中,没有样本的类别信息可资利用,只有一组可能是来自于多个不同类别对象的观测量(也称为特征向量或样本)。聚类分析的目的,就是根据样本分布的自然结构,根据样本之间的相似性,将样本分为多个不同的类。第二十页,共二十九页,编辑于2023年,星期六一个聚类分析的例子:只有观测信息,没有类别信息。我们希望根据样本的分布,将样本划分为若干个自然类,从而发现隐藏于样本集中的可能的类别信息。

第二十一页,共二十九页,编辑于2023年,星期六四、模式识别的应用手写体识别:邮政编码指纹识别:人脸识别:故障诊断:语音识别:读1、2、3、4、5,鉴别合法性网络安全:目标识别:雷达、声呐数据挖掘:第二十二页,共二十九页,编辑于2023年,星期六人脸的识别:分类器的训练样本第二十三页,共二十九页,编辑于2023年,星期六人脸的识别:一个应用的例子第二十四页,共二十九页,编辑于2023年,星期六五、贝叶斯决策理论概述一个例子:根据亮度特征进行分类

:SEABASS:SALMON

已知条件:先验概率及条件概率密度函数

其中x为亮度特征,x=lightness

问题:观测到一条鱼的亮度x,应该将它分为哪一类?第二十五页,共二十九页,编辑于2023年,星期六第二十六页,共二十九页,编辑于2023年,星期六BAYES判决规则:首先计算后验概率:判决规则:根据后验概率进行判决,如果:判为第一类如果:判为第二类最优性:该判决规则对应的错误概率最小。第二十七页,共二十九页,编辑于2023年,星期六一个例子:考虑一个两类分类问题。假设条件概率密度函数未知,但是却有两个样本集X1及X2,其中X1是第一类样本的集合,X2是第二类样本的集合。现在假设观测到了一个特征向量x,应如何对x进行分类?

答案:用X1估计用X2估计并据此设计BAYES分类器。

第二十八页,共二十九页,编辑于2023年,星期六

例子:在一个水果的分类问题中,采用的特征向量为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论