模式识别学习心得.doc_第1页
模式识别学习心得.doc_第2页
模式识别学习心得.doc_第3页
模式识别学习心得.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别学习心得模式识别学习心得1.什么是模式呢?广义地说,存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。模式识别就是根据观察到的事物的模式对事物进行分类的过程。在图像识别技术中,模式识别占有核心的地位。所以的图像处理技术都是为了更好地进行模式识别做准备。模式识别是图像识别的实质性阶段。2。有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法,与此相应的模式识别系统都由两个过程所组成,即设计和实现。设计是指用一定数量的样本(叫做训练集或学习集)进行分类器的设计。实现是指用所设计的分类器对待识别的样本进行分类决策。模式识别系统(如图6-2)中,信息获取和预处理部分大致可以与图像的获取与处理对应。一般情况下,模式识别技术主要包含特征提取和选择和分类器的设计。近几十年来,模式识别技术发展很快。然而,发展较成熟、应用较广泛的主要是统计模式识别技术。3.统计模式识别从一个广义的角度看,模式识别可以看成是一种机器学习的过程。按照机器学习过程的性质,可以将模式识别方法分成有监督的模式识别方法和非监督的模式识别方法,后者又称为聚类分析方法。这两种方法在图像识别中都有广泛的应用。(1)有监督的模式识别方法从识别技术的基本思路和方法看,有监督的模式识别可以分成两类:基于模型的方法和直接分类的方法。基于模型的方法的基础是贝叶斯(Bayes)决策理论方法,它对模式分析和分类器的设计有着实际的指导意义,是统计模式识别中的一个基本方法,用这个方法进行分类时要求:各类别总体的概率分布(即所谓的先验概率和类条件概率)是已知的;要决策分类的类别数是一定的。假设要研究的分类问题有c个类别,各类别状态用i来表示,i=1,2,c;对应于各个类别i出现的先验概率P(i)以及类条件概率密度函数p(x|i)是已知的。如果在特征空间已观察到某一向量x,那么应该把x分到那一类中去才最合理呢?最基本的想法是根据观察到的信息,选择适当的分类策略,使分类可能出现的错误最少,即:如果对于任意ji,都有P(i|x)P(j|x),则将x归入类i这就是最小错误率的贝叶斯决策。一个例子是国际体育联合会对运动员兴奋剂检查的策略。由于对服用兴奋剂的运动员发生漏检,最多只是丧失某一次比赛的结果的公平;而错怪没有服用兴奋剂的运动员有可能毁掉这个运动员的整个运动生涯。所以,当出现疑问时,国际体育联合会的原则是:宁可使一千人漏网,也不能错怪一个好人。类似的思想体现在模式识别中,便是基于最小风险的贝叶斯决策。设(i|j)是将j类中的样本归入i类所带来的损失,则当观察到x时,将x归入i类的风险可以定义为:。最小风险的贝叶斯决策就是把x归入使最小的类中,即:如果对于任意ji,都有R(i|x)R(j|x),则将x归入类i基于模型的识别技术中,关键就是要估计概率密度函数。其方法可分为参数估计和非参数估计两类。在许多实际问题中,由于样本特征空间的类条件概率密度的形式常常很难确定,利用Parzen窗等非参数方法估计分布又往往需要大量样本,而且随着特征空间维数的增加所需样本数急剧增加。由此,在实际问题中,我们往往不去恢复类条件概率密度,而是利用样本集直接设计分类器。具体说就是首先给定某个判别函数类,然后利用样本集确定出判别函数中的未知参数。这类方法就是有监督的模式识别方法中的另一类重要的方法:直接分类方法。这类方法有3个要素:分类函数的类型(线性还是非线性)、分类目标函数、优化算法。下面分别介绍线性判别函数法和非线性判别函数法。线性判别函数法利用一类较为简单的判别函数。它首先假定判别函数g(x)是x的线性函数,即g(x)=wTx十w0,对于c类问题,可以定义c个判别函数。这里关键的问题是如何利用样本集求得w和w0。不同的实际情况,往往提出不同的设计要求。这些设计要求,在数学上一般表现为特定的函数形式,我们称之为准则函数。尽可能好的结果相应于准则函数取最优值。这实际上是将分类器设计问题转化为求准则函数极值的问题了,这样就可以利用最优化技术解决模式识别问题。线性判别函数法的代表有:Fisher线性判别法、感知准则函数法。Fisher线性判别法应用统计方法解决模式识别问题时,一再碰到的问题之一是维数问题。在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通。因此,降低维数有时就成为处理实际问题的关键。Fisher准则函数的基本思想是,构造评价函数,使得当评价函数最优时,被分类的类别之间的距离尽可能大,同时各类内部样本间距离尽可能小。下式就是Fisher准则函数:式中分子代表类间距离;分子代表类内离散度。分类器的设计过程就是通过已知样本求得w和w0使JF(w)取得最大值。感知准则函数法设有一组样本y1,y2,yn,其中yn是规范化增广样本向量,我们的目的是找一个解向量a*,使得显然,对于线性可分情况,问题才有解:为此这里首先考虑处理线性可分问题的算法。现在先构造这样一个准则函数式中求和是对所有被权向量a错分的样本进行的。当y被错分时就有:-aTy0,因此,上式中的,JP(a)总是大于等于0。当且仅当错分集为空集时.JP(a)=min JP(a)=0,这时将不存在错分样本,就是我们要寻找的解向量。这一准则函数是20世纪50年代由Rosenblatt提出来,试图用于脑模型感知器上的,故一般称为感知准则函数。近邻法最初的近邻法是由Cover和Hart于1968年提出的。由于对该方法在理论上进行了深入分析,直至现在仍是模式识别非参数法中最重要的方法之一。最简单的近邻决策规则是最近邻决策规则。所谓最近邻决策,是寻找与待分类样本最近的已知样本,认为待分类样本与后者同属一类。最近邻法的一个显然的推广是k近邻法。从字义上看,这个方法就是取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。近邻法的一个缺点是计算量大。解决的途径之一是采用快速算法,称之为快速搜索近邻法。其基本考虑是将样本分级分成一些不相交的子集,并在子集的基础上进行搜索。该算法对最近邻法和近邻法都适用。(2)非监督的模式识别方法在很多实际应用中由于缺少形成模式类过程的知识.或者由于实际工作中的困难(例如卫星遥感照片上各像元的分类问题),我们往往只能用没有类别标签的样本集进行工作。这就是通常所说的非监督学习方法。一般来说非监督学习方法可以分成两大类,即基于概率密度函数估计的直接方法和基于样本间相似性度量的间接聚类方法。不论是哪一种方法,在把样本集划分为若干个子集(类别)后,我们或者直接用它解决分类问题.或者把它作为训练样本集进行分类器设计。单峰子集(类)的分离方法:在没有任何类条件概率分布的先验知识情况下,我们只能把特征空间划分为若干个区域Si,i=l,2,c,在每个区域中的混合密度应该是单峰的,如图6-3所示。我们把这些区域叫作单峰区域。假定每一个单峰区域Si和一个类别i相对应。有各种算法来实现这些单峰区域的划分。在应用中,单峰子集(类)的分离方法,需要估计概率密度函数。为了避免估计概率密度函数的困难,我们可以在一定条件下,按照样本间的相似性把集合划分成若干个子集,划分的结果应使某种表示聚类质量的准则函数为最大。当用距离来表示两个样本间的相似度时,这样做的结果就把特征空间划分成若干个区域,每一个区域相当于一个类别。一些常用的距离度量都可以作为这种相似件度量,在工程中,之所以常常用距离来表示样本间的相似度,是因为从经验上看,凡是同一类的样本,其特征向量应该是互相靠近的,而不同类的样本其特征向量之间的距离要大得多。这种方法虽然看起来似乎和上述的基于混合概率密度函数估计的聚类分离方法没有联系,但是由于概率密度的估计也是在样本间距离的基础上进行的,距离很近的两个特征向量经常是属于同一单峰子集。所以两种方法在概念上依然是互相关联的。常用的对数据集进行聚类的方法有两种,迭代的动态聚类算法和非迭代的分级聚类算法。动态聚类方法是一种普遍采用的方法,它具有以下3个要点:选定某种距离度量作为样本间的相似性度量;确定某个评价聚类结果质量的准则函数;约定某个初

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论