模式识别 第三章 概率估计课件_第1页
模式识别 第三章 概率估计课件_第2页
模式识别 第三章 概率估计课件_第3页
模式识别 第三章 概率估计课件_第4页
模式识别 第三章 概率估计课件_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章概率密度函数的估计1主要内容引言参数估计非参数估计23.1引言基于样本的Bayes分类器:通过估计类条件概率密度函数,设计相应的判别函数MAXg1...g2gc...x1x2xna(x)最一般情况下适用的“最优”分类器:错误率最小,对分类器设计在理论上有指导意义。训练样本集样本分布的

统计特征:

概率密度函数决策规则:

判别函数

决策面方程分类器

功能结构3基于样本的Bayes分类器设计基于样本的两步Bayes分类器设计:利用样本集估计P(ωi)和p(x|ωi)基于上述估计值设计判别函数及分类器面临的问题:如何利用样本集估计P(ωi)和p(x|ωi);估计量的评价:估计量的性质如何?如何利用样本集估计错误率的方法5概率密度估计的方法类的先验概率估计(较容易):依靠经验;用训练数据中各类出现的频率估计。频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A)=M/N概率:当N很大时,频率会趋向一个稳定值,称为A的概率:6类条件概率密度估计(非常难):概率密度函数包含了一个随机变量的全部信息;概率密度函数可以是满足下面条件的任何函数:概率密度估计的方法7概率密度估计的方法类条件概率密度估计的两种主要方法:参数估计:根据对问题的一般性认识,假设随机变量服从某种分布,其概率密度函数形式已知,只是表征函数的参数未知,通过训练数据来估计:训练样本:监督和非监督估计方法:最大似然估计、Bayes估计非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计训练样本:监督估计方法:Parzen窗法、kn-近邻法8为了准确地对某一类的分布进行参数估计或总体推断,应只使用该类的样本。区间估计:在一定置信度条件下估计某一未知参数q的取值范围,称之为置信区间,这类估计成为区间估计。3.2参数估计10最大似然估计和Bayes估计区别两种方法估计的参数的结果接近,但过程有区别:前者将未知参数看成是确定变量,在实际样本观察的概率最大的条件下,获得未知参数的最好的估计;后者将未知参数看成是按某种分布得随机变量,样本的观察结果由先验分布转化为后验分布,再由后验分布修正参数的估计值。3.2.1最大似然估计12当个随机样本取定值时,称为相对于的的似然函数。联合概密设一个总体的概密为,其中是一个未知参数集,似然函数14似然函数似然函数:对数(loglarized)似然函数:15最大似然估计16似然函数给出了从总体样本中抽出N个样本的概率。假设样本是独立抽取的,并且不同类别的参数是相互独立的。最大似然估计就是根据已经抽取的N个样本,来估计这组样本“最可能”来自哪个密度函数。17最大似然估计示意图18一元正态分布例解20一元正态分布均值的估计代入前式,有:21多元正态分布参数最大似然估计均值估计是无偏的,协方差矩阵估计是有偏的。协方差矩阵的无偏估计是:对于一般的多元正态分布,计算方法完全类似,且有233.2.2贝叶斯估计-最小风险回顾一下最小风险Bayes决策——状态空间——观察或测量到的d维模式特征向量;——决策空间

——损失函数,表示真实状态为而所采取的决策为时所带来的某种损失。24Bayes决策确定x

的真实状态i

(模式类)Bayes估计根据一个样本集,找出估计量,估计所属总体分布的某个真实参数使带来的Bayes风险最小。3.2.2贝叶斯估计-最小风险26令为代替所造成的损失,对于一个观测矢量集合,当用作为的估计时,在观测条件下的条件期望损失为考虑到的各种取值,我们应求在状态空间中的期望,。3.2.2贝叶斯估计-最小风险27Bayes估计的基本思想:所求得的的估计值应使估计损失的期望最小,这种使或等价地使取最小值的的估计值称为的Bayes估计。对于不同的,可得到不同的最佳Bayes估计。这里假定损失函数为平方误差,即:3.2.2贝叶斯估计-最小风险28最小方差Bayes估计是在观测条件下的的条件期望。3.2.2贝叶斯估计-最小风险30确定θ的先验分布

p(θ)由样本集H={x1,x2,…,xN}形式上求出样本联合分布:计算θ的后验分布:

计算贝叶斯估计:在许多情况下,最小方差Bayes估计是最理想的Bayes最优估计器。对平方误差损失函数情况求解Bayes估计量的步骤如下:3.2.2贝叶斯估计-最小风险31最大似然估计和Bayes估计比较最大似然估计计算复杂度比Bayes估计小。最大似然估计比Bayes估计更易理解和掌握。Bayes估计比最大似然估计能利用更多的信息,如果这些信息是可靠的,则Bayes估计更准确。但当训练样本趋于无穷多时,两种估计效果相同;如果没有先验信息(如都是均匀分布的),两者估计是相似的。当后验概率的波形较宽,或在估计值附近不对称时,Bayes估计要好。3233Bayes学习与Bayes估计的前提条件是相同的,Bayes学习不是进行概率的参数估计,而是进行总体概率的推断以获得,因此,它们具有某些相同的计算内容,也有不同的计算目标。它们的前三步都是相同的,只是最后一步有所不同:在已知的条件下,H

对已不具有什么信息3.2.3贝叶斯学习34其中:3.2.3贝叶斯学习353.2.3贝叶斯学习重新标记H36随着样本数的增加,可以得到一系列对概率密度函数参数的估计。如果上式的后验概率序列逐渐尖锐,逐步趋向于以θ的真值为中心的一个尖峰,当样本无穷多时,收敛于在参数真值上的脉冲函数,则这一过程称为贝叶斯学习。3.2.3贝叶斯学习37单变量正态分布函数的定义及性质单变量正态分布概函数,有两个参数和完全决定,常简记为。期望方差正态分布的监督参数估计示例38Bayes估计是把参数看成为随机的未知参数,一般具有先验分布。样本通过似然函数并利用Bayes公式将的先验分布转化为后验分布。现以单变量正态分布为例,并假定总体方差已知,估计的参数为均值。总体分布密度和参数的先验分布

…形式已知

………………先验分布已知Bayes估计示例39对平方误差损失函数情况求解Bayes估计量的步骤如下:(1)确定的先验分布;(2)由样本集求出样本联合分布(3)求的后验分布(4)现(1)(2)已完成,下面主要进行(3)(4),这里。40414243Bayes学习是利用的先验分布及样本提供的信息求出的后验分布,然后直接求总体分布Bayes学习示例44当观察一个样本时,N=1就会有一个μ的估计值的修正值;当观察N=4时,对μ进行修正,向真正的μ靠近;当观察N=9时,对μ进行修正,向真正的μ靠的更近当N↑,μN就反映了观察到N个样本后对μ的最好推测,而σN2反映了这种推测的不确定性,N↑,σN2↓,σN2

随观察样本增加而单调减小,且当N→∞,σN2→0

当N↑,P(μ|xi)越来越尖峰突起.N→∞,P(μ|xi)→σ函数,这个过程成为贝叶斯学习。4546通过密度函数的线性合并获取未知的模型,形式如下:3.2.4混合模型:EM算法即假设一个J分布符合p(x),则这个模型隐含的假设是每一个点x都可能以概率Pj属于J模型分布。用上述模型可以逼近任何连续密度函数,只要有足够数量的混合J和适当的参数。473.2.4EM算法:问题描述假设J分布符合高斯混合模型,算法目的是确定各个高斯分布的参数;高斯混合模型被定义为K个高斯密度函数的线性组合:其中为均值为,协方差为的高斯分布,是混合参数,看做第i个高斯分布的权重,表征先验概率。且48的概率密度函数为参数估计的最常用方法是最大似然估计,通过使似然函数达到最大值得到参数的估计值。将高斯混合密度函数中所有待定的参数记为,则似然函数为:3.2.4EM算法:问题描述49该混合高斯分布一共有K个分布函数,对于每一个观察到的样本y,如果知道它是属于K中的哪个分布,那么求这些参数就会变得很简单.假如我们用来表示这些高斯分布,那么我们的样本集中不仅仅是,而是而现实往往是:我们不知道每个x属于哪个分布,也就是说z是我们观察不到的,z是隐藏变量。3.2.4EM算法:问题简化50假定可以观察到Z,问题变为求下式最大值但是Z是观察不到的,因此EM算法假设Z的分布依据上一轮的估计参数确定,求取上式期望的最大值。定义:3.2.4EM算法:算法原理51E阶段:在迭代的(t+1)步,其中已知,计算期望值:M阶段:通过最大化计算的一个第(t+1)步估计,即终止条件:3.2.4EM算法:算法原理523.2.4EM算法:算法原理EM算法特点:(1)每次迭代均能提高似然函数p(θ|X)的值。(2)如果p(θ|X)有上界,则logp(θ|X)收敛某个值。Q(θ,θ(t+1))Q(θ,θ(t))LogL(θ)θ(t)θ(t+1)θ(t+2)533.3非参数估计参数估计需要事先假定一种分布函数,利用样本数据估计其参数。又称为基于模型的方法非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称为模型无关方法。543.3.1基本估计方法估计的目的:从样本集K={x1,x2,…,xN}估计样本空间中任何一点的概率密度p(x)基本方法:用某种函数构造某一样本对待估计的密度函数的贡献,所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计55基本估计方法图解56一个随机向量x落入某一区域R中的概率为设个样本是从上述概密为的总体中独立抽取的,个样本中有个样本落入区域中的概率服从离散随机变量的二项分布故可以用统计概率P来估计概率密度函数p(x)57令为众数,如果不是整数,则:

即等于的整数部分;如果是整数,则:

和在二项分布中使取最大的k值称为众数58由于:所以:这里是的估计,当较大较小时上式的近似程度是足够的。59当固定时,对的最大似然估计,由概率论知,的数学期望。基本估计方法60设区域R的体积为V,我们取R足够小,使ò»=RVxpxdxpP)()(设)(ˆxp是)(xp的估计,由上面二式有VxpxdxpPNkR)(ˆ)(ˆˆ===ò可得:概率密度的基本估计方法61显然是的基本估计式,它与有关,显然和有一定的误差。

理论上,要使

R0

V0,同时k,N。

而实际估计时体积不是任意的小,且样本总数总是存在误差。

也是有限的,所以概率密度的基本估计方法62为提高x处的概率密度的估计精度,根据极限理论,-在小区域中,尽管落入样本增大,但与样本总数N比,可忽略不计-当N增大时,落入中的样本数也增大-当不断减小时,使趋于构造一个包含x在内的区域序列,设的体积为,样本数为,则的估计为:概率密度的基本估计方法且满足以下条件:63窗函数方法满足上述三个条件区域序列和样本选取一般有两种方法,形成了两种总体概率密度估计:Parzen窗法:使区域序列的体积按N的某个函数随N的增大不断缩小,使估计收敛于Kn近邻法:让为N的某个函数,随N的增大而变大,的选取是使正好包含x的个近邻点,该区域的体积为概率密度估计。64653.3.2Parzen窗法

x点的密度估计:样本集KN={x1,x2,…,xN}落入区域的个数区域RN:一个d维超立方体,棱长hN,体积VN=hNd定义窗函数:超立方体内样本数:概率密度p(x)的估计:66上面所讲的是从构造上导出了估计式,所取的窗函数即迭加基函数为维方窗(柱)函数。事实上只要窗函数满足下面的两个条件:由式构造的估计式就是概密函数。67

按照上面的条件,除了选择方窗外,还可以选择其它的满足上述两个条件的函数作窗函数。下面列出几个一维窗函数的例子,n维的窗函数可用乘积的方法由一维函数构造。⑶

指数窗函数

[]uu-=jexp)(⑴

方窗函数

îíì£=j其它,021,1)(uu⑵

正态窗函数

úûùêëé-p=j221exp21)(uu⑷

三角窗函数

îíì>£-=j1,01,1)(uuuu68窗宽的选择hN是控制“窗”宽度的参数,根据样本的数量选择。太大:平均,分辨力低太小:统计变动大为保证依概率渐进收敛到真实的概率密度,即:收敛的充要条件:69下面进一步讨论窗宽对估计的影响:定义:于是估计式表示成:影响的幅度和宽度。注意到:可看出窗宽的选择70若Nh较大,则)(jNxx-d幅度将较小,而宽度增大)(ˆxpN是N个低幅缓变宽的函数迭加)(ˆxpN较平滑,不能跟上的变化,分辨率较低。)(xp若Nh很小,则)(jNxx-d幅度将很大,则宽度很小)(ˆxpN是N个尖脉冲函数迭加,波动大,不稳定,失去连续性。71不同窗宽的估计效果h为窗的宽度72例:待估的密度函数为二项分布解:此为多峰情况的估计设窗函数为正态解:此为多峰情况的估计设窗函数为正态-0.25<x<-20<x<2x为其它-2.5-210.2502P(x)x73N=∞N=256N=16N=1由结果曲线可以看出,样本量越大,估计越精确;同时,也可以看出窗口选择是否适当对估计结果有一定影响。74P—窗法的特点:适用范围广,无论概密是规则的或不规则的、单峰的或多峰的。但它要求样本分布较好且数量要大,显然这也是一个良好估计所必须的,但它的取样过程的操作增加了取样工作的复杂性。窗函数选取得当有利于提高估计的精度和减少样本的数量。75在P—窗法中,把体积作为的函数导致对估计结果影响很大。例如当选得太小将导致大部分区域是空的,会使不稳定;选得太大,则较平坦,将丢失的一些重要空间变化。当—近邻估计法是克服这个问题的一个可能的方法。3.3.3kN-近邻法76基本思想:把含点的序列区域的体积作为落入中样本数的函数,而不是直接作为的函数。我们可以预先确定是的某个函数,然后在点附近选择一“紧凑”区域,个邻近样本。实验样本数让它只含点附近概密较大,则包含个样本的区域如果体积自然就相对的小;点附近概密较小,则区域体积就较大。个邻近样本而扩展到高密度如果显然,当区域为含有区时,扩展过程必然会停止。3.3.3kN-近邻法77则收敛于真实的概率密度如果满足条件

②③①3.3.3kN-近邻法概率密度估计表达式:点x处窗的“体积”是Vn:78在样本数目有限的条件下,K1的选择也会影响估计的结果,但该方法避免了出现空的区域RN,消除了估计不稳定性;同时,RN的体积VN适应于KN的变化,而不是取决于N,避免了出现VN过大的情况,不会使估计过于平坦而严重失真;和P窗法相比,K近邻法是一个较好的估计方法。但该方法也需要较多的样本。3.3.3kN-近邻法79-20210.01.00.10.010.001N=1,KN=1-20210.01.00.10.010.001-20210.01.00.10.010.001-20210.01.00.10.010.001-20210.01.00.10.010.001-20210.01.00.10.010.001-20210.01.00.10.010.001-20210.01.00.10.010.001N=16,KN=4N=256,KN=16N=,KN=3.3.3kN-近邻法kN的选择:

渐进收敛容易保证;有限样本性质、最小平方误差与P窗几乎相同80P窗口法是通过各样本处的窗函数叠加构造类的概密,算法的本质是所有样本一起考虑,有多少样本就有多少项窗函数。正交函数级数逼近是设定类概密的逼近函数为有限项正交函数级数,按某种准则求级数中的待定系数,该方法可以通过样本的逐个加入而提高逼近精度。3.4有限项正交函数级数逼近法813.4有限项正交函数级数逼近法设有个抽自同一母体

的样本用于估计总体概密,我们将概密的估计表示成有限项正交级数式中,是某一正交函数集的基函数,为待定系数。应根据的特点适当选择以期在固定的项数下减小误差,项数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论