第二章贝叶斯决策理论.ppt_第1页
第二章贝叶斯决策理论.ppt_第2页
第二章贝叶斯决策理论.ppt_第3页
第二章贝叶斯决策理论.ppt_第4页
第二章贝叶斯决策理论.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章贝叶斯决策理论,2.0基本概念2.1最小错误概率的Bayes决策2.2最小风险的Bayes决策2.3Neyman-Pearson决策2.4Bayes估计和Bayes学习2.5正态分布时的Bayes决策法则2.6离散情况的Bayes决策,两个条件:各类别总体的概率分布是已知的要决策的类别数是一定的待识别对象有d种特征测量值,每种特征值都是一个随机变量,组成d维随机向量d种特征的所有取值范围构成d维特征空间,2.0基本概念,把样本x分到哪一类最合理?解决该问题的理论基础之一是统计决策理论决策:是从样本空间S,到决策空间的一个映射,表示为D:S-评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。Bayes决策常用的准则最小错误率准则最小风险准则在限定一类错误率条件下使另一类错误率为最小的准则最小最大决策准则,先验概率:根据大量统计确定某类事物出现的比例,类条件概率密度函数:同一类事物的各个属性都有一定的变化范围,在这些变化范围内的分布概率用一种函数形式表示,则称为类条件概率密度函数。这种分布密度只对同一类事物而言,与其它类事物没有关系。为了强调是同一类事物内部,因此这种分布密度函数往往表示成条件概率的形式。如P(X|男生),P(X|女生)。,后验概率:一个具体事物属于某种类别的概率,例如一个学生用特征向量x表示,它是男性或女性的概率表示成P(男生|x)和P(女生|x),这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|x)+P(女生|x)=1的约束,这一点是与类分布密度函数不同的。后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|x)和P(男生)是两个不同的概念。贝叶斯公式:,2.1最小错误概率的Bayes决策,在模式识别问题中,感兴趣的往往是尽量减小分类错误的概率。为此,我们可以建立一个能得到最小错误率的决策方法。看一个简单的例子。假设某工厂生产两种大小,外形都相同的螺丝钉,一种是铜的,一种是铁的。两种产品混在一起,要求对它们自动分类。分两种情况讨论:(1)先验概率已知;(2)先验概率和条件概率密度函数均已知。,先验概率已知铁螺丝出现的概率铜螺丝出现的概率它们反映了我们在下一个样品出现前对它的类别可能性的先验知识,称这种先于事件的概率为先验概率。合理的决策规则:决策错误的概率:,先验概率和条件概率密度函数均已知铁螺丝出现的概率铜螺丝出现的概率铁螺丝出现的概率铜螺丝出现的概率螺丝背光源照射后反射光的亮度特征求取后验概率:,对待分类模式的特征我们得到一个观察值,合理的决策规则:决策错误的条件概率(随机变量的函数):模式特征是一个随机变量,在应用Bayes法则时,每当观察到一个模式时,得到特征,就可利用后验概率作出分类的决策,同时也会带来一定的错误概率。若观察到大量的模式,对它们作出决策的平均错误概率应是的数学期望。,平均错误概率从式可知,如果对每次观察到的特征值,是尽可能小的话,则上式的积分必定是尽可能小的这就证实了最小错误率的Bayes决策法则。下面从理论上给予证明。以两类模式为例。,把分类器看做将特征空间分割成决策区域的装置,2.2最小风险的Bayes决策,在上一节我们介绍了最小错误率的Bayes决策,并且证明了应用这种决策法则时,平均错误概率是最小的。但实际上有时需要考虑一个比错误率更为广泛的概念风险,举例说明。毋庸置疑,任何风险都会带来一定损失。看一个一般的决策表。,观察或测量到的d维模式特征向量;,状态或模式类空间,决策空间,损失函数,表示真实状态为而所采取的决策为时所带来的某种损失。根据Bayes公式,后验概率为:,对于刚才的决策表考虑如下的一个条件期望损失,即给定,我们采取决策情况下的条件期望损失(条件风险):采取那种决策呢?最小风险Bayes决策规则:,综上,可知该规则的进行步骤为:(1)根据已知,计算出后验概率;(2)利用计算出的后验概率及决策表(专家根据经验确定),计算条件风险(3)最小风险决策,这样按最小风险的Bayes决策规则,采取的决策将随的取值而定,引入函数,表示对的决策。对整个特征空间上所有的取值采取相应的决策所带来的平均风险显然,我们对连续的随机模式向量按最小风险Bayes决策规则采取的一系列决策行动可以使平均风险最小。到此为止,我们已经分析了两种分别使错误率和风险达到最小的Bayes决策规则,下面分析一下两种决策规则的关系。,两类情况下的最小风险Bayes决策,在两类问题中,若有,决策规则变为这时最小风险的Bayes决策和最小错误率的Bayes决策规则是一致的。,一般的多类问题中,设损失函数为0-1损失函数,说明什么问题?,第2章贝叶斯决策理论,2.0基本概念2.1最小错误概率的Bayes决策2.2最小风险的Bayes决策2.3Neyman-Pearson决策2.4Bayes估计和Bayes学习2.5正态分布时的Bayes决策法则2.6离散情况的Bayes决策,2.3NeymanPearson决策,NeymanPearson决策即限定一类错误率条件下使另一类错误率为最小的两类别决策。,用Lagrange乘子法建立其数学模型,取得极小值的边界条件,与最小错误率的Bayes决策的比较,2.4Bayes估计和Bayes学习,返回本章首页,1Bayes估计这里我们先回顾一下前面讲述的最小风险Bayes决策。,观察或测量到的d维模式特征向量;,状态空间,决策空间,损失函数,表示真实状态为而所采取的决策为时所带来的某种损失。,返回本章首页,给定,我们采取决策情况下的条件期望损失:是特征空间中取任意值的随机变量,条件风险的期望表示采取决策总的平均损失。称为Bayes风险,使最小的决策称为Bayes决策。,返回本章首页,Bayes决策确定的真实状态(模式类)Bayes估计根据一个样本集,找出估计量,估计所属总体分布的某个真实参数使带来的Bayes风险最小,返回本章首页,令为代替所造成的损失,对于一个观测矢量集合,当用作为的估计时,在观测条件下的条件期望损失为考虑到的各种取值,我们应求在空间中的期望,。,返回本章首页,Bayes估计的基本思想:所求得的的估计值应使估计损失的期望最小,这种使或等价地使取最小值的的估计值称为的Bayes估计。对于不同的,可得到不同的最佳Bayes估计。这里假定损失函数为平方误差,即,返回本章首页,返回本章首页,返回本章首页,由于是关于的二次函数,确使或最小。上式表明,的最小方差Bayes估计是在观测条件下的的条件期望。在许多情况下,最小方差Bayes估计是最理想的Bayes最优估计器。对平方误差损失函数情况求解Bayes估计量的步骤如下:(1)确定的先验分布;(2)由样本集求出样本联合分布(3)求的后验分布(4),返回本章首页,2Bayes学习Bayes学习与Bayes估计的前提条件是相同的,Bayes学习不是进行概率的参数估计,而是进行总体概率的推断以获得,因此,它们具有某些相同的计算内容,也有不同的计算目标。它们的前三步都是相同的,只是最后一步有所不同,Bayes学习最后一步为,在已知的条件下,H对已不具有什么信息,返回本章首页,下面我们看一下最大似然估计与Bayes解的关系。,返回本章首页,最大似然估计近似等于Bayes解(条件是在有尖锐的凸峰),返回本章首页,下面给出在具有递推收敛的性质下Bayes学习收敛的一般性陈述,下看以下的推到公式,返回本章首页,我们把以上的方法称为递推Bayes估计,密度序列收敛于以真实参数为中心的函数称的过程称为Bayes学习。如果分布具有Bayes学习性质,那么当样本数时,就有,第2章贝叶斯决策理论,2.0基本概念2.1最小错误概率的Bayes决策2.2最小风险的Bayes决策2.3Neyman-Pearson决策2.4Bayes估计和Bayes学习2.5正态分布时的Bayes决策法则2.6离散情况的Bayes决策,2.5正态分布时的Bayes决策法则,在前面我们提到设计Bayes分类器的两个先决已知条件:(1)先验概率;(2)条件概率密度函数。先验概率的估计并不困难,关键是条件概率密度函数。这里我们以正态分布概率密度函数为主进行讨论,因为在实际问题中,大量的随机变量都服从或近似地服从正态分布;即使统计总体不服从正态分布,但是它的许多重要的样本特征可能是渐进正态分布的;正态分布分析起来比较方便。,正态分布概率密度函数的定义及性质(1)单变量正态分布单变量正态分布概率密度函数,有两个参数和完全决定,常简记为。,期望,方差,(2)多维变量正态分布,均值向量,协方差矩阵,多维变量正态分布密度函数的性质(1)多维变量正态分布密度函数由均值向量和协方差矩阵完全确定,包含的参数个数为。(2)等密度点的轨迹为一超椭球面,且它的主轴方向由阵的特征向量所确定,主轴的长度与相应的协方差矩阵的本征值成正比。,设在超椭球上,到超椭球中心的距离为,求主轴长度即是求其条件极值,构造Lagrange函数,所以,第i个主轴的长度与的第i个特征值的平方根成正比,如图所示。定义为向量到均值向量的马氏距离。等概率密度点的轨迹是一个到均值向量的马氏距离为常数的超球体。(3)不相关性等价于独立性。(4)边缘分布和条件分布的正态性。(5)线性变换的正态性。(6)线性组合的正态性。,多维变量正态概率型下的最小错误率Bayes判别函数和决策面,下面根据上式对以下三种情况进行讨论。,决策面方程,(1),即每类的协方差矩阵都相等,而且类内各特征间相互独立,具有相等的方差,如果先验概率不等,那么平方距离(欧氏距离)必须通过方差进行归一化,并通过增加进行修正。,如果先验概率相等称其为最小距离分类器。对以上两类情况进行化简,下面来看线性分类器的决策面方程,对其,我们用一个二维二类模式例子,设先验概率相等,从几何上表示其关系(不相等的情况请参照教材P32),(2),即各类的协方差矩阵都相等,如果先验概率相等,只要计算到各类的均值点的马氏距离平方,然后把归于距离平方最小的类别。,对以上两类情况进行化简,决策面方程,对其,我们用一个二维二类模式例子,设先验概率相等,从几何上表示其关系,(2)各类的协方差矩阵不相等,前面我们我们介绍都是连续情况的Bayes决策理论,这里我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论