模式识别郝旷荣Chap3MSSB-HKR.ppt_第1页
模式识别郝旷荣Chap3MSSB-HKR.ppt_第2页
模式识别郝旷荣Chap3MSSB-HKR.ppt_第3页
模式识别郝旷荣Chap3MSSB-HKR.ppt_第4页
模式识别郝旷荣Chap3MSSB-HKR.ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,3.1. 什么是概率总体的估计? 3.2 正态分布的监督参数估计 3.3 非监督参数估计 3.4 总体分布的非参数估计 本章小结,第三章 概率密度函数的估计,2,学习目的 掌握最大似然估计、贝叶斯估计和贝叶斯学习方法的原理和应用 掌握最大似然估计、贝叶斯估计和贝叶斯学习等三种方法的区别。 掌握监督参数估计和非监督参数估计的特点和应用范围 掌握正态分布下的非监督参数估计的参数特点,第三章概率密度函数的估计,3,3.1. 什么是概率总体的估计?,在一般的模式识别问题中,通常并不知道所讨论问题的概率结构,所知道的只是一些一般性的、模糊的知识,以及一些可能的样本。因此,为了在这些已知信息的基础上利用统计方法设计分类器,就需要事先利用它们对概率总体做出估计。,4,概率总体估计的基本问题 利用样本来估计未知的概率和概率密度函数 将估计出来的概率和概率密度函数作为它们的实际值来使用,3.1. 什么是概率总体的估计?,5,概率总体估计问题的分类参数估计: 参数估计:在已知概率密度函数形式的条件下进行的估计称为参数估计 非参数估计:在未知概率密度函数形式的条件下进行的估计称为非参数估计,3.1. 什么是概率总体的估计?,6,极大似然估计 Bayes 估计 Bayes学习,3.2 正态分布的监督参数估计,7,假定每个样本的类别是已知的,并且可以把它们按照类别分成c组: H1,H2,Hc 其中Hj的样本都属于j类,而且它们都是按类条件概率密度函数p(X|j)从概率总体中独立抽取的。如果能假定p(X|j)的函数形式,并且把它的参数看成是未知向量,记为j,则只要j一经确定,概率密度函数就完全确定了。,3.2.1 极大似然估计,8,问题的简化 为了强调类条件概率密度函数p(X|j)同j有关,可以把它记成p(X|j, j)或p(X|j)。 假定在样本集Hi中不包含关于j (ji)的信息,也就是说不同类的参数是无关的。,3.2.1 极大似然估计,9,问题的划分 整个参数估计问题就可以按模式类分成c个单独的问题来处理 在每个问题中,用按概率密度函数p(X|j)独立地抽取的样本集去估计未知参数向量j。,3.2.1 极大似然估计,10,似然函数的构造 设样本集H包含n个独立抽取的样本,即H=X1, X2,Xn,那么有: 其中p(H|)称为关于样本集合H的的似然函数。,3.2.1 极大似然估计,11,极大似然估计的主要思想 如果在一次观察中一个事件出现了,那么可以认为这个事件出现的可能性很大 也就是说,可以认为p(H|)达到了极大值 使p(H|)达到极大值的就是它的极大似然估计,3.2.1 极大似然估计,12,极大似然估计的计算方法 设是有r个分量的列向量: 定义梯度算子: 定义对数似然函数,3.2.1 极大似然估计,13,求解极大似然方程组:,3.2.1 极大似然估计,14,极大似然估计举例 一维正态分布下的极大似然估计 多维正态分布下的极大似然估计,3.2.1 极大似然估计,15,一维正态分布下的极大似然估计 如果Xk 是一维向量且p(Xk|)是一维正态分布,那么 其中,3.2.1 极大似然估计,16,设 则对数似然函数为:,3.2.1 极大似然估计,17,极大似然方程组为:,3.2.1 极大似然估计,18,的极大似然估计为:,3.2.1 极大似然估计,19,有时上式是多解的, 上图有5个解,只有一个解最大即.,20,多维正态分布下的极大似然估计 如果Xk是d(d1)维向量且p(Xk|)是d维正态分布,那么 其中,3.2.1 极大似然估计,21,极大似然估计为:,3.2.1 极大似然估计,22,Bayes决策的回顾: 设A=1,2,r是r个可能的动作的有限集合;=1,2,s是s个自然状态的有限集合;(i|j)是当自然状态为j时,采取动作i所造成的损失;特征向量X是n维随机向量;p(j|X)是在给定X的条件下自然状态为j的后验条件概率密度;那么对特定的X,采取动作i造成的平均损失,即条件期望损失或条件风险为:,3.2.2 Bayes 估计,23,如果将观察到一个X时采取的决策记为(X)(决策函数),那么总的风险可以表示为: 其中R也称为Bayes风险,使R最小的决策称为Bayes决策,即: 如果 ,则=k。,3.2.2 Bayes 估计,24,将问题转化为参数估计问题:设有一个样本集合(而不是一个样本),要找出估计量(而不是最佳决策),用来估计样本集合所属总体分布的某个真实参数(而非状态)使贝叶斯风险最小。 变量的对应关系: 样本样本集 决策 状态j P( j ) P( ),3.2.2 Bayes 估计,25,损失函数 在Bayes估计中,Bayes风险R可以用下面的积分来描述: 其中 称为损失函数。,3.2.2 Bayes 估计,26,条件风险 因为 所以 其中 为可能取值的参数空间。,3.2.2 Bayes 估计,27,条件风险与Bayes风险的关系 是给定X条件下估计量 的期望损失,通常称为条件风险 条件风险与Bayes决策中给定X时决策i的条件风险 具有对应关系 使条件风险最小的估计量也一定能使Bayes风险R最小,3.2.2 Bayes 估计,28,Bayes估计量 使条件风险 最小的估计量,3.2.2 Bayes 估计,29,Bayes估计定理 如果损失函数是二次函数,即 则的Bayes估计量 是在给定X时的条件期望,即,3.2.2 Bayes 估计,30,Bayes估计定理的证明 关键在使条件风险 最小,3.2.2 Bayes 估计,31,因为 所以,3.2.2 Bayes 估计,32,因此当 时,条件风险 达到最小 从而Bayes估计量为:,3.2.2 Bayes 估计,33,Bayes估计量的计算步骤 确定的先验分布p() 由样本集H=X1, X2,Xn求出样本联合分布p(H|) 求出的后验分布 求出Bayes估计量,3.2.2 Bayes 估计,34,单变量正态分布Bayes估计 假定总体概率密度函数是正态的,并设均值是未知参数,而方差2是已知的,即: 的先验概率密度可以表示为 求均值的Bayes估计量,3.2.2 Bayes 估计,35,的Bayes估计量 可表示为 所以 是比例因子,与无关,3.2.2 Bayes 估计,36,3.2.2 Bayes 估计,37,因此p(|H)仍然是一个正态密度函数,故有 即:,3.2.2 Bayes 估计,38,3.2.2 Bayes 估计,其中 是样本均值。,39,解出n和n,可得: 将n,n代入P(|H)可以得到后验概率,再用公式,3.2.2 Bayes 估计,40,最终估计结果,3.2.2 Bayes 估计,41,估计特例 当先验分布为 且2=1时,,3.3.2 Bayes 估计,42,设用H表示样本集合,为了强调样本集的作用,把后验概率记为p(i|X,H)。根据Bayes法则:,3.3.3 Bayes学习,43,极大似然估计利用似然函数p(X|)=p(X),在 可能有尖锐的峰。 参数 为随机变量,如果 在 处不为零且无突变,则 p (|X)在 将有凸峰,从而根据Bayes公式 是 的极大似然估计, Bayes解的结果与极大似然解的结果近似相等。,3.3.3 Bayes学习,44,如果 p (|X)在 没有尖锐凸峰,Bayes解的结果不能用极大似然解的结果近似,我们仍然可以通过Bayes公式求解,3.3.3 Bayes学习,45,1.贝叶斯学习的概念:求出的后验概率之后,直接去推导总体分布即 当观察一个样本时,N=1就会有一个的估计值的修正值 当观察N=4时,对进行修正,向真正的靠近 当观察N=9时,对进行修正,向真正的靠的更近 当N,N就反映了观察到N个样本后对的最好推测,而N2反映了这种推测的不确定性, N, N2 ,N2 随观察样本增加而单调减小,且当N, N2 0 当N,P(|xi)越来越尖峰突起 N, P(|xi)函数,这个过程成为贝叶斯学习。,46,3.3.3 Bayes学习,47,假定先验概率的值是已知的,即P(i|H) =P(i),同时假设样本的类别也是已知的,即可以把样本集按类别分成c个子集: H1,H2,Hc 其中Hi的样本都属于i类,而且只要ij,Hj中的样本就不会影响p(X|i,H)。所以,3.3.3 Bayes学习,48,Bayes学习的目的 Bayes学习的目的是求出概率函数p(X|H),它应尽可能地接近未知的p(X)。为此,可对联合概率密度p(X,|H)关于积分:,3.3.3 Bayes学习,49,Bayes学习的目的关键方程 由于假定X的选择和H中样本的选择是独立进行的,所以,3.3.3 Bayes学习,50,用Bayes学习求解p(X|H)的计算步骤 确定密度函数p(X|)的形式和未知参数 确定参数的先验概率密度p(); 确定从未知概率密度函数p(X)的总体中抽取的样本集H= X1, X2,Xn 计算:,3.3.3 Bayes学习,51,单变量正态分布Bayes学习 假定概率密度函数p(x)是正态的,并设均值是未知参数,而方差2是已知的,即: 的先验概率密度可以表示为 从概率总体中独立地抽取n个样本构成的样本集H=x1, x2,xn 求类条件概率密度p(x|H),3.3.3 Bayes学习,52,求解后验概率密度p(|H),3.3.3 Bayes学习,53,3.3.3 Bayes学习,54,Bayes学习过程 n表示在观察到一组样本后,对的最好的推断,而n则反映了这个推断的不确定性。 由于 随n的增加而单调减小,且当n时, 它与 一样趋于零,所以每增加一个观察 样本都可以减少对的推断的不确定性。当n增加时,p(|H)的峰会变得越来越突起,且当n时,它趋于一个狄拉克函数。,3.3.3 Bayes学习,55,条件概率密度函数p(x|H)的计算,3.3.3 Bayes学习,56,最终计算结果 若把p(x|H)看作是x的函数,则它正比于 所以p(x|H)也服从正态分布,其均值为n,方差为 ,即:,3.3.3 Bayes学习,57,极大似然估计是把参数看作确定的未知参数,并且把使似然函数达到最大值的作为参数的极大似然估计量。 Bayes估计是把参数看作随机的未知参数,假定具有已知的先验分布p(), 并且把使得条件风险 最小的 当作的Bayes估计量 。 Bayes学习是利用的先验分布及样本提供的信息求出的后验分布p(|H),然后直接求总体分布p(X|H),3.3.4 极大似然估计、Bayes估 计和Bayes学习之间的关系,58,在不知道类条件概率密度函数形式的情况下如何估计概率密度函数的方法,3.4 非参数估计,59,条件概率密度和混合密度p(X) 设p(X)表示未知概率密度函数,那么一个向量X落在区域R中的概率P可以用下式计算: 概率P可以看作是密度函数一种平滑了的表示,3.4.1概率密度函数估计的基本方法,60,设n个样本X1, X2,Xn是从概率密度函数为p(X)的总体中独立抽取的,则n个样本中有k个样本落在区域R中的概率应符合二项分布: 而k的数学期望为: 所以可以认为P的估计是:,3.4 非参数估计,61,假设p(X)连续,并且R小到使p(X)在其中几乎没有什么变化,那么: 式中X是R中的一点,V是R的体积,于是p(X)可以用下式估计:,3.4 非参数估计,62,平均估计 如果体积V是固定的,而样本取得越来越多,则比值 k/n以概率收敛。从而可以得到一个p(X)的平均概率估计,3.4 非参数估计,63,如果想得到p(X)而不是p(X)的平均概率估计,则必须让体积趋于零。但是若样本数n固定而体积V趋于零,就会使区域不断缩小,以致最后在这个区域中不再含有任何样本。这样就会得出p (X)0的估计。而如果碰巧有一个或几个样本同X重合,则估计就会发散到无穷大。这两种情况都是不正确的。实际上样本总数是有限的,所以体积不允许任意小。,3.4 非参数估计,64,用pn(X)逼近p(X) 如果理论上有可能采用无限多个样本,为了估计在X点的概率密度函数值,可以构造一串包含X的区域序列R1, R2,Rn,第一个区域被采用时用一个样本,第二个区域被采用时用两个样本,等等。设Vn是Rn的体积,kn是落到区域Rn中的样本的数目,pn(X)是p(X)的第n次估计,则有:,3.4 非参数估计,65,pn(X) 应该满足的条件 (1) (2) (3),3.4 非参数估计,66,三个条件的意义 条件(1)可使平均估计P/V收敛于p(X) 条件(2)对p(X)0的点有意义,可使频率在概率的意义上收敛于概率P 条件(3)使pn(X)收敛,3.4 非参数估计,67,假定Rn是d维超立方体,hn是Rn的侧棱的长度,则它的体积为:,3.4. 1 Parzen窗法,68,方窗函数 (u)是一个以原点为中心的单位超立方体,3.4. 1 Parzen窗法,69,当某一个Xi落在以X为中心的体积为Vn的超立方体内时,有: 因此落在这个超立方体内的样本数为:,3.4. 1 Parzen窗法,70,基于方窗函数的概率估计 如果定义 则可以把pn(X)看作一个平均值:,3.4. 1 Parzen窗法,71,窗函数必须满足的基本条件 (1)(u)0 (2) 据此可以证明: (1)pn(X) 0 (2),3.4. 1 Parzen窗法,72,其它常用窗函数 (1)三角窗函数 (2)正态窗函数 (3)指数窗函数,3.4. 1 Parzen窗法,73,三角窗函数,3.4. 1 Parzen窗法,74,正态窗函数,3.4. 1 Parzen窗法,75,指数窗函数,3.4. 1 Parzen窗法,76,设pn(X)的均值和方差分别是: 和 如果 且 那么称pn(X)收敛于p (X),3.4. 2 密度函数估计的收敛性,77,pn(X)收敛的其它4个条件 (1) (2) (3) (4),3.4. 2 密度函数估计的收敛性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论