模式识别4概率密度函数的估计

上传人：扣*** IP属地：宁夏上传时间：2021-11-25 格式：PPT 页数：50 大小：386.52KB 积分：15 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四章第四章概率密度函数的估计概率密度函数的估计v概率密度估计的基础知识概率密度估计的基础知识 v参数估计理论参数估计理论极大似然估计（极大似然估计（mle）贝叶斯估计（或称最大后验估计）贝叶斯估计（或称最大后验估计）贝叶斯学习贝叶斯学习v非参数估计理论非参数估计理论密度估计密度估计 parzen窗估计窗估计 k近邻估计近邻估计（kne）4-1 概率密度估计的基础知识概率密度估计的基础知识贝叶斯分类器中只要知道先验概率、条件概率或后验概概率 p(i),p(x/i), p(i /x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计p(i),p(x/i), p(i /x)

2、一参数估计与非参数估计一参数估计与非参数估计参数估计：参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。二监督参数估计与非监督参数估计二监督参数估计与非监督参数估计监督参数估计监督参数估计：样本所属的类别及类条件总体概率概率密度函数的形式已知，而表征概率密度函数的某些参数是未知的。目的在于：由已知类别的样本集对总体分布的某些参数进行统计推断，此种情况下的估计问题称为监督参数估计。非监督参数估计非监督参数估计：已知总体概率密度函数形式但未知样本所属类别

3、，要求推断出概率密度函数的某些参数，称这种推断方法为非监督情况下的参数估计。注注：监督与非监督是针对样本所属类别是已知还是未知而言的。三三. 参数估计得基本概念参数估计得基本概念1. 统计量统计量：样本中包含着总体的信息，总希望通过样本集把有关信息抽取出来。也就是说，针对不同要求构造出样本的某种函数，该函数称为统计量。2. 参数空间参数空间：在参数估计中，总假设总体概率密度函数的形式已知，而未知的仅是分布中的参数，将未知参数记为，于是将总体分布未知参数的全部可容许值组成的集合称为参数空间，记为。3. 点估计、估计量和估计值点估计、估计量和估计值：点估计问题就是构造一个统计量作为参数的

4、估计，在统计学中称为的估计量。若是属于类别的几个样本观察值，代入统计量d就得到对于第i类的的具体数值，该数值就称为的估计值。1,nd xx 1,iinxxi4. 区间估计区间估计：除点估计外，还有另一类估计问题，要求用区间作为可能取值范围得一种估计，此区间称为置信区间，该类估计问题称为区间估计。5. 参数估计方法参数估计方法：参数估计是统计学的经典问题，解决方法很多，在此只考虑两种常用方法：一种是最大似然估计方法，另一种是贝叶斯估计方法。 (1) 最大似然估计：最大似然估计：把参数看作是确定而未知的，最好的估计值是在获得实际观察样本的最大的条件下得到的。 (2)贝叶斯估计：

5、贝叶斯估计：把未知的参数当作具有某种分布的随机变量，样本的观察结果使先验分布转化为后验分布，再根据后验分布修正原先对参数的估计。6. 参数估计的评价参数估计的评价：评价一个估计的“好坏”，不能按一次抽样结果得到的估计值与参数真值的偏差大小来确定，而必须从平均和方差的角度出发进行分析，即关于估计量性质的定义。21,dd4-2参数估计理论参数估计理论一极大似然估计一极大似然估计假定：待估参数是确定的未知量按类别把样本分成m类x1，x2，x3， xm 其中第i类的样本共n个 xi = (x1,x2, xn)t 并且是独立从总体中抽取的 xi中的样本不包含 (ij)的信息，所以可以对每一类样本

6、独立进行处理。第i类的待估参数根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。12(,.)tip j1.一般原则：一般原则：第i类样本的类条件概率密度： p(xi/i)= p(xi/ii) = p(xi/i)原属于i类的学习样本为xi=(x1 , x2 ,xn,)t i=1,2,m求求i的极大似然估计就是把的极大似然估计就是把p(xi/i)看成看成i的函数，求的函数，求出使它极大时的出使它极大时的i值。值。学习样本独立从总体样本集中抽取的 n个学习样本出现概率的乘积取对数：nkixkpixpiixpii1)|()|()

8、平均。，均未知 a. 一维情况：n=1对于每个学习样本只有一个特征的简单情况： (n=1)由上式得即学习样本的算术平均样本方差21211,1222212log21)|(logxxpkik0)(1)|(log11211xxpknkiknk代入02)(21)|(log12212212nkkiknkxxpnkkxn1111nkxkn122121v 讨论讨论： 1.正态总体均值的极大似然估计即为学习样本的算术平均 2.正态总体方差的极大似然估计与样本的方差不同，当n较大的时候，二者的差别不大。b多维情况：n个特征（推导过程，作为练习）估计值：结论结论：的估计即为学习样本的算术平均估计的协方

9、差矩阵是矩阵的算术平均（nn阵列， nn个值）nkkxn111xtxnknkk121xxktk二二. 贝叶斯估计贝叶斯估计极大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本xi的观察，通过贝叶斯准则将概率密度分布p(xi/)转化为后验概率p(/xi) ，进而求使得后验概率分布最大的参数估计，也称最大后验估计。估计步骤估计步骤：确定的先验分布p(),待估参数为随机变量。用第i类样本xi=(x1, x2,. xn)t求出样本的联合概率密度分布p(xi|)，它是的函数。利用贝叶斯公式,求的后验概率 dpxppxpx

12、220220nn( |), ipdx求的估计。2n 对的估计为若令p()=n(0, 02 )=n(0,1)，即为标准正态分布，且总体分布的方差也为1，则此时估计与极大似然估计相似，只是分母不同。 02202222001nnknkxnn111nnkkxnnidxp)|( 2三贝叶斯学习三贝叶斯学习1.贝叶斯学习的概念贝叶斯学习的概念：通过已有的概率分布和观测数据推理求出的后验概率之后，直接去推导总体分布，即当观察一个样本时，n=1就会有一个的估计值的修正值；当观察n=4时，对进行修正，向真正的靠近；当观察n=9时，对进行修正，向真正的靠的更近；当观察n个样本后,n就反映了观察到n个样

13、本后对的最好推测，而n2反映了这种推测的不确定性。n, n2,n2 随观察样本增加而单调减小，且当n, n2 0 ；当n，p(|xi)越来越尖峰突起，于是 n, p(|xi) 函数，即收敛于一个以真实参数为中心的函数，这个过程成为贝叶斯学习贝叶斯学习。 (|)(| ) ( |)(| ) ( |)iiip x xp xpx dp xpx d2类概率密度的估计类概率密度的估计在求出u的后验概率p(|xi)后，可以直接利用式推断类条件概率密度。即p(x|xi) p(x|i ，xi)一维正态：已知2，未知的后验概率为( |)( | )( |)iip x xp xpx d2211( |)(|)ex

14、p2211( |)exp22iinnnppxxxp x服从正态分布( |)( | )( |)( |)(|)iiip xp xpdp xpdxxx代入221111expexp2222nnnxd222222222222111expexp222nnnnnnnnxxd 21exp2122222nnnx为正态函数),(22nnnv结论：结论：把第i类的先验概率p(i)与第i类概率密度p(x|xi)相乘可以得到第i类的后验概率p(i|x) ，根据后验概率可以分类。对于正态分布p(x|xi)，用样本估计出来的n代替原来的，用代替原来的方差即可。把估计值n作为的实际值，那么使方差由原来的变为 ,使

15、方差增大；也就是说：用的估计值n代替真实值，将引起不确定性增加。22n2222n多维正态多维正态（已知，估计）设p(x|)=n(,) p()=n(0,0).根据bayes公式，仿上面步骤可以得到：n , n 有以下关系21exp)|(1nnntiaxp).(.1011ann111001().(b)nknnkx其中a与无关这就是在多维情况下，对的估计。 nann10:)(011式得由110001111( )()()01nknkbxnnnn 代入式得：( |)( |) (|)niip xp xpdxxbayes将代入就可以设计分类器 4-3 非参数估计非参数估计参数估计要求密度函数的形式已知

16、，但这种假定有时并不成立，常见的一些函数形式很难拟合实际的概率密度，经典的密度函数都是单峰的，而在许多实际情况中却是多峰的，因此用非参数估计。非参数估计:直接用已知类别样本去估计总体密度分布，方法有：用样本直接去估计类概率密度p(x|i)以此来设计分类器, 如窗口估计用学习样本直接估计后验概率p(i|x)作为分类准则来设计分类器，如kn近邻法。1. 密度估计原理密度估计原理：一个随机变量x落在区域r的概率为p p(x)为p(x)在r内的变化值，p(x)就是要求的总体概率密度 rp(x)rxpdxxpprr)( 假设有n个样本x=(x1, x2, xn)t都是按照p(x)从总体中独立抽取的

17、, 若n个样本中有k个落入在r内的概率符合二项分布其中，p是样本x落入r内的概率，pk是k个样本落入r内的概率数学期望:e(k)=k=np 对概率p的估计：。是p的一个比较好的估计设p(x)在r内连续变化,当r逐渐减小的时候,小到使p(x)在其上几乎没有变化时，则其中是r包围的体积 1n kkkknpcppnkp nknkdxxppr) (nkvxpdxxppr)() (rdxv 条件密度的估计： (v足够小)讨论: 当v固定的时候n增加, k也增加,当时只反映了p(x)的空间平均估计而反映不出空间的变化 n固定，体积变小当时，k=0时时所以起伏比较大,噪声比较大,

18、需要对v进行改进. nkpvxp )(vnkxp)(nk1nkpvvnkxp1)(0v0)(vnkxp0kvnkxp)(对体积对体积v v进行改进：进行改进：为了估计x点的密度，我们构造一串包括x的区域序列: r1,r2,.rn。对r1采用一个样本进行估计，对r2采用二个样本进行估计， . 设vn是rn的体积，kn是n个样本落入vn的样本数则：密度的第n次估计：其中：vn是rn的体积，kn是n个样本落入vn的样本数pn(x)是p(x)的第n次估计nnnkn(x)pv若若pn(x)收敛于收敛于p(x)应满足三个条件：应满足三个条件：，当n时，vn，n，vn0 这时虽然样本数多，但由于v

19、n，落入vn内的样本kn 也减小，所以空间变化才反映出来；，n ，kn ，n与kn同向变化；，kn的变化远小于n的变化。因此尽管在r内落入了很多的样本，但同总数n比较, 仍然是很小的一部分。0limvnnknnlim0limnknn如何选择vn满足以上条件：使体积vn以n的某个函数减小，如 (h为常数)，窗口法窗口法。使kn作为n的某个函数，例 vn的选择使rn正好包含kn个近邻 v1k1，v2k2，vrkr kn近邻法nhvnnkn2.parzen窗口估计窗口估计假设rn为一个d维的超立方体，hn为超立方体的长度超立方体体积为：， d=1，窗口为一线段 d=2，窗口为一平面 d=

21、的窗函数，取0，1两种值，但有时可以取0, 0.1, 0.2，多种数值，例如随xi离x接近的程度，取值由0, 0.1, 0.2，到1。)|(hxxnihxxni|)|(hxxni 要求估计的pn(x)应满足：为满足这两个条件，要求窗函数满足：窗长度hn对pn(x)的影响若hn太大, pn(x)是p(x)的一个平坦, 分辨率低的估计, 有平均误差若hn太小, pn(x)是p(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重， hn应很好选择。|()0|() ()0ininiixnnxxhxxxxdxhhh1)(0)(dxxpxpnn例1：对于一个二类（ 1 ，2 ）识别问题

22、，随机抽取1类的6个样本x=(x1，x2，. x6)1=(x1，x2，. x6) =(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计p(x|1)即pn(x)解：选正态窗函数)21exp(21)(2uu)|(21exp21)|()(2hxxhxxunini0123456x6x5x3x1x2x4xx是一维的上式用图形表示是6个分别以3.2，3.6，3，6，2.5，1.1为中心的丘形曲线(正态曲线)，而pn(x)则是这些曲线之和。5 . 0665 . 0vn665 . 0h,nhhv11nnn，其中选 2121113.20.134exp20.511.1 0.134e

23、xp20.5nininnxxxpxnvhx由图看出，每个样本对估计的贡献与样本间的距离有关，样本越多， pn(x)越准确。例2：设待估计的p(x)是个均值为0，方差为1的正态密度函数。若随机地抽取x样本中的1个、 16个、 256个作为学习样本xi,试用窗口法估计pn(x)。解：设窗口函数为正态的， 1，0hn:窗长度，n为样本数，h1为选定可调节的参数。)|(21exp21)|(2hxxhxxnininhh1n设2111111|111 |( )()exp22nniiniinnxxnxxpxnnhhhhv用窗法估计单一正态分布的实验parzen001.001.01.00.10.10001.0

24、01.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hn=n=256n=16n=1讨论讨论：由图看出, pn(x)随n, h1的变化情况当n1时， pn(x)是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。当n16及n=256时 h10.25 曲线起伏很大，噪声大 h11 起伏减小 h14 曲线平坦，平均误差当n时， pn(x)收敛于一平滑的正态曲线，估计曲线较好。例例3：待估的密度函数为两个均匀分布密度的混合密度解：此为多峰情况的估计设窗函数为正态025. 01)(xp-2.5x-2

25、0 x2其它nhhuun12,21exp21)(x-2.5-210.2502p(x)001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hn=n=256n=16n=1v用窗法估计两个均匀分布的实验parzen当n=1、16、256、时的pn(x)估计如图所示当n1时， pn(x) 实际是窗函数。当n16及n=256时 h10.25 曲线起伏大；h11 曲线起伏减小 h14 曲线平坦当n时，曲线较好。结论：结论：由上例知窗口法的优点是应用的普遍性

26、。对规则分布，非规则分布，单锋或多峰分布都可用此法进行密度估计。要求样本足够多，才能有较好的估计。因此使计算量，存储量增大。3. kn近邻估计：近邻估计：在窗口法中存在一个问题是对hn的选择问题。若hn选太小，则大部分体积将是空的（即不包含样本），从而使pn(x)估计不稳定。若hn选太大，则pn(x)估计较平坦，反映不出总体分布的变化，而kn近邻法的思想是以x为中心建立空包，使v，直到捕捉到kn个样本为止，因此称其为kn-近邻估计。 v的改进体现为：样本密度大，vn ; 样本密度小，vn ; p(x)的估计为：nkn取,vnk(x)pnnn使使pn(x)收敛于收敛于p(x)的充分必要条件：的充分必要条件：，n与kn同相变化，kn的变化远小于n的变化

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模式识别4概率密度函数的估计

文档简介

温馨提示

最新文档

评论

模式识别4概率密度函数的估计

文档简介

温馨提示

最新文档

评论

相关文档