模式识别解老师_第1页
模式识别解老师_第2页
模式识别解老师_第3页
模式识别解老师_第4页
模式识别解老师_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别第五章统计推断

5.1统计推断概述5.2参数估计(贝叶斯估计BE、最大似然估计MLE)5.3概率的窗函数估计法(Parzen窗法)目录5.1统计推断概述

统计推断就是用样本的特征值(统计量)在一定的概率保证下推断相应总体的特征值(参数)统计分析的结论是针对总体参数而言的,因此,统计推断是科研工作中一个十分重要的工具,对实验设计也有很大的指导意义在上一章的学习中,我们一直假设类的条件概率密度函数是已知的,然后去设计贝叶斯分类器。但在实际中,这些知识往往是不知道的,这就需要用已知的样本进行学习或训练。也就是说利用统计推断理论中的估计方法,从样本集数据中估计这些参数。本章目的:已知类别的样本(训练样本)→学习或训练→获得类概密参数估计有两类方法:将参数作为非随机量处理,如矩法估计、最大似然估计;将参数作为随机变量,贝叶斯估计就属此类。(本章重点讲贝叶斯估计)当不知道类的概型时,就要采用非参数估计的方法,这种方法也称为总体推断,这类方法有:1.p-窗法(本章重点讲)2.有限项正交函数级数逼近法3.随机逼近法基本概念设模式空间Ω是n维的,母体(总体):一个模式类称为一个总体或母体母体的子样:一个模式类中某些模式(即母体中的一些元素)的集合称为这个母体的子样。母体的子样含有母体的某些信息,可以通过构造样本的函数来获得。统计量:一般来说,每一个样本都包含着母体的某些信息,为了估计未知参数就要把有用的信息从样本中抽取出来。为此,要构造训练样本的某种函数,这种函数在统计学中称为统计量。理论量(或理论分布):经验分布:由样本推断的分布称为经验分布。参数空间:在统计学中,把未知参数q的可能值的集合称为参数空间,记为Q。点估计、估计量:针对某未知参数q构造一个统计量作为q的估计,这种估计称为点估计。称为q的估计量。区间估计:在一定置信度条件下估计某一未知参数q的取值范围,称之为置信区间,这类估计成为区间估计。数学期望、方差等

均方收敛:一致估计:

当样本无限增多时,估计量依概率收敛于

,均方逼近:均方收敛:5.2参数估计(1、贝叶斯估计BE)首先先复习下贝叶斯公式贝叶斯公式:P(y|x)=(P(x|y)*P(y))/P(x)P(y|x)是后验概率,一般是我们求解的目标。P(x|y)是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。P(y)是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。P(x)其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。5.2参数估计考虑到的各种取值,我们应求在空间中的期望,即平均损失:

105.2参数估计115.2参数估计不同的具体定义,可得到不同的最佳贝叶斯估计。比如,可以用平方误差作为代价,此时:上式中,对于于是:125.2参数估计由于是非负的,只出现在内层积分中,关于使最小等价于:为求极小,令135.2参数估计从而可得:145.2参数估计下面介绍估计所涉及的其它公式或近似算式:由于各样本是独立抽取的,故它们条件独立,即有由贝叶斯定理知:155.2参数估计165.2.1一维正态分布下的贝叶斯估计设一维正态分布且总体方差已知(μ未知):总体分布密度p(x/μ)~N(μ,σ2)μ的先验概率P(μ)已知P(μ)~N(μ0,σ02)样本集Xi

=(x1,x2,…,xN)T是取自N(μ,σ2)的样本集求:μ的贝叶斯估计量17在二次损失函数下:利用贝叶斯公式,得:18由于:p(x|μ)~N(μ,σ2)P(μ)~N(μ0,σ02)所以19P(μ|X)为正态分布:比较上述2个公式,利用待定系数法,得:20解上式得:代入估计量公式:21如果令P(μ)为标准正态分布P(μ)~N(μ0,σ02)=N(0,1)则:与最大似然估计相似,只是分母不同22一维正态分布下的贝叶斯学习独立抽取样本23上式形成一个递推公式:这种参数估计方法称为递推Bayes估计,如果这个序列收敛于以真实参数μ为中心的δ函数,该过程称为递推Bayes参数学习。24当观察一个样本时,N=1就会有一个μ的估计值的修正值当观察N=4时,对μ进行修正,向真正的μ靠近当观察N=9时,对μ进行修正,向真正的μ靠的更近当N↑,μN就反映了观察到N个样本后对μ的最好推测,而σN2反映了这种推测的不确定性N↑,σN2↓,σN2

随观察样本增加而单调减小,且当N→∞,σN2→0

当N↑,P(μ|xi)越来越尖峰突起N→∞,P(μ|xi)→δ函数,这个过程成为贝叶斯学习25265.2参数估计27参数估计(2、最大似然估计(MLE))如同矩法估计一样,最大似然估计要求已知总体的概型,即概密的具体函数形式,它也将被估计量作为确定性的变量对待。但最大似然估计适用范围比矩法估计更宽一些,可以用于不是正态分布的情况。最大似然估计是参数估计中最重要的方法似然函数:当个随机样本取定值时,称为相对于的的似然函数。联合概密设一个总体的概密为,其中是一个未知参数集,5.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)

由于是概密的一个确定性的参数集,因此实际上就是条件概密上式中不同的,将不同。如果各个是独立抽取的,则进一步有:295.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)最大似然估计:305.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)在实际中多是独立取样和经常处理正态变量,而且对数函数是单值单调函数,对数似然函数与似然函数在相同的处取得最大值。315.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)

在似然函数可微的条件下,求下面微分方程组的解:或等价地求作为极值的必要条件。对数似然方程组325.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)

需要指出的是:对于具体问题,有时用上述方法不一定可行,原因之一是似然函数在最大值点处没有零斜率。求出上面方程组中的一切解及边界值,计算使最大的作为的最大似然估计。因此,最大似然的关键是必须知道概型。335.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)

下面我们以多维正态分布为例进行说明。(1)假设Σ是已知的,未知的只是均值μ,则:345.2参数估计最大似然估计(MLE)(MaximumLikelihoodEstimate)

这说明,样本总体的未知均值的最大似然估计就是训练样本的平均值。它的几何解释就是:若把N个样本看成是一群质点,则样本均值便是它们的质心。3536可见,正态分布中的协方差阵Σ的最大似然估计量等于N个矩阵的算术平均值。37(3)对于一般的多维正态密度的情况,计算方法完全是类似的。最后的结果是:可以证明上式的均值是无偏估计,但协方差阵并不是无偏估计,无偏估计是:385.3概率的窗函数估计法(Parzen窗法)

概率密度的基本估计式上式的二项分式中使结果最大的k值称为众数设个样本是从上述概密为的总体中独立抽取的,个样本中有个样本落入区域中的概率服从离散随机变量的二项分布如果是整数,则:

和设个样本是从上述概密为的总体中独立抽取的,个样本中有个样本落入区域中的概率服从离散随机变量的二项分布40令为众数,如果不是整数,则:

即等于的整数部分;如果是整数,则:

和41由于:所以:这里是的估计,当较大较小时上式的近似程度是足够的。425.4概密的窗函数估计法概率密度的基本估计式当固定时,对的最大似然估计,由概率论知,的数学期望。435.4概密的窗函数估计法概率密度的基本估计式设区域R的体积为V,我们取R足够小,使ò»=RVxpxdxpP)()(rrr设)(ˆxpr是)(xpr的估计,由上面二式有VxpxdxpPNkR)(ˆ)(ˆˆrrr===ò于是可得445.4概密的窗函数估计法概率密度的基本估计式显然是的基本估计式,它与有关,显然和有一定的误差。

理论上,要使

R0

V0,同时k,N。

而实际估计时体积不是任意的小,且样本总数总是存在误差。

也是有限的,所以454647P窗法Parzen窗方法的基本思想是利用一定范围内的各点密度的平均值对总体密度函数进行估计。Parzen窗(Parzenwindow)又称为核密度估计(kerneldensityestimation),是概率论中用来估计未知概率密度函数的非参数方法之一。5.4概密的窗函数估计法Parzen窗法为能用函数描述区域NR和对落入NR的样本计数,定义窗函数),,,(21¢=nuuuuLrîíì=£=j其它当,0,,2,1,21,1)(niuuiLr

这样,)(urj以函数值1界定了一个以原点为中心、棱长为1的n维超立方体。495.4概密的窗函数估计法Parzen窗法

如果一个样本jxr落入以xr为中心以Nh为棱长的超立方体NR内时则计数为1,否则计数为0,我们可以利用窗函数)(xrj实现这个约定,即落入该立方体NR的样本数50515.4概密的窗函数估计法Parzen窗法上面所讲的是从构造上导出了估计式,所取的窗函数即迭加基函数为维方窗(柱)函数。事实上只要窗函数满足下面的两个条件:由式构造的估计式就是概密函数。525.4概密的窗函数估计法Parzen窗法

按照上面的条件,除了选择方窗外,还可以选择其它的满足上述两个条件的函数作窗函数。下面列出几个一维窗函数的例子,n维的窗函数可用乘积的方法由一维函数构造。⑶

指数窗函数

[]uu-=jexp)(⑴

方窗函数

îíì£=j其它,021,1)(uu⑵

正态窗函数

úûùêëé-p=j221exp21)(uu⑷

三角窗函数

îíì>£-=j1,01,1)(uuuu53下面进一步讨论窗宽对估计的影响:5.4概密的窗函数估计法Parzen窗法定义:于是估计式表示成:影响的幅度和宽度。注意到:可看出545.4概密的窗函数估计法Parzen窗法若Nh较大,则)(jNxxrr-d幅度将较小,而宽度增大)(ˆxpNr是N个低幅缓变宽的函数迭加,)(ˆxpNr较平滑,不能跟上的变化,分辨率较低。)(xpr555.4概密的窗函数估计法Parzen窗法估计量是一随机变量,它依赖于随机的训练样本,所以估计量的性能只能用统计性质表示。在满足下列条件下是渐近无偏估计、均方收敛、均方逼近、且是渐近正态分布。⑴

概密)(xpr在xr处连续⑵

窗函数满足下列条件①0)(³jur②

ò=j1)(udurr③

¥<j)(supuurr④

0)(lim1=jÕ=¥®niiuuurr565.4概密的窗函数估计法Parzen窗法估计量是一随机变量,它依赖于随机的训练样本,所以估计量的性能只能用统计性质表示。在满足下列条件下是渐近无偏估计、均方收敛、均方逼近、且是渐近正态分布。⑶窗宽限制⑤

⑥⑷对样本的要求⑦⑧57(1)是的渐近无偏估计证明:5859例1:对于一个二类(ω1

,ω2

)识别问题,随机抽取ω1类的6个样本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计P(x|ω1)即PN(x)解:选正态窗函数0123456x6x5x3x1x2x4x60∵x是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的丘形曲线(正态曲线),而PN(x)则是这些曲线之和。61由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。62例2:设待估计的P(x)是个均值为0,方差为1的一维正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的,σ=1,μ=0hN:窗长度,N为样本数,h1为选定可调节的参数。63用窗法估计单一正态分布的实验N=∞N=256N=16N=164讨论:由图看出,PN(x)随N,h1的变化情况①当N=1时,PN(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。②当N=16及N=256时

h1=0.25曲线起伏很大,噪声大

h1=1起伏减小

h1=4曲线平坦,平均误差

③当N→∞时,PN(x)收敛于一平滑的正态曲线,估计曲线较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论