模式识别教学课件总顺序No5第二章非参数估计_第1页
模式识别教学课件总顺序No5第二章非参数估计_第2页
模式识别教学课件总顺序No5第二章非参数估计_第3页
模式识别教学课件总顺序No5第二章非参数估计_第4页
模式识别教学课件总顺序No5第二章非参数估计_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5 总体分布的非参数估计方法 前述都设已知总体分布(即已知概密),但实际不然。因此如何用样本来估计总体分布的问题,就是本节的目的即非参数估计。 含有p(x),p(x|wi),p(wi|x) 等的估计。 而p(wi|x)的估计的一种基本方法是绕过概率的估计而直接求决策函数的方法即近邻法则。 (1) 基本方法 1) 本节所述估计的目的 从样本集估计样本空间任何一点X的概率密度 P(X);如果来自某一类别(如wi类),则估计结果为类条件概密P(X|wi);如果来自c个类别,但不具体涉及类别,则估计结果为混合密度P(X)。2) 非参数估计的基本思想 随机向量X落入到区域R的概率P为: 这表示概率P是概

2、密函数P(X)的一种平均,对P作估计就是估计出P(X)的这个平均值。P(X)RX 设N个样本x1,x2,xn是从概密为P(x)的总体中独立抽取的,则N个样本中有k个样本落在区域R中的概率Pk自然服从二项分布,即 其中,P为样本X落入R的概率,Pk为k个样本落入R的概率。 使Pk取最大的k值称为众数(记为m), 即 (众数的意义是:在抽出的N个样本中有m个样本落入区域R的概率最大。)对二项分布,众数m为(N+1)P的整数部分,即这样,在Pm处,就有m = k (N+1) P N P即P k / N式中P是P的估计,即P是总体密度P(x)在区域R上的一个估计。 设P(x)连续,且区域R的体积V足够

3、小,则 设P(x)是P(x)的估计,由上面二式得: 于是可得: 上式就是X点概率密度P(x)的估计值,它与k、N、V有关。说明: 从理论上讲,要使P(x)趋于P(x),就须让积分域R无限小 (即让其V近于零),同时让N、k无穷大,但实际估计时体积V不是任意的小,且样本总数也是有限的,所以P(x) 总是存在误差。 如果把体积V固定,样本取得足够多,则K/N将在概率上收敛,但这时得到的是一个R区域上P(x)的平均估计。 即 而要想得到P(x),而不是P(x)在R上的平均,则须让V趋于零。 如果把样本数目固定,而令V趋于零,由于样本数目总是有限的,所以当V趋于零时,会使区域R不断缩小以致于可能不包含

4、任何样本,这就会得出P(x)=0(无价值的估计);如果恰巧有一个或几个样本同X(点)重合的出现在R中,则会使估计发散到无穷大(这也是无价值的估计)。 3) 理论上的解决方案 为了提高X处的概密P(x)的估计精度,据极限理论,采取如下步骤以尽量满足理论要求。 构造一包含样本X的区域序列R1、R2 、RN 、各区域RN(N=1,2,)的体积VN满足: 在RN域中取N个样本进行估计实验,并设有kN个样本落入RN中,样本数目应满足: 应满足: 则估计序列 (N=1,2,) 处处收敛于P(x)。说明: 在区域平滑地缩小,且P(x)在X点连续的情况下,则: 条件可使空间平均密度P / V收敛于真实的密度P

5、(x); 条件仅对P(x)0的点才有意义,即当P(x)0时,使 P(x)0,可使频率在概率意义上收敛于概率; 条件是式 收敛的必要条件,它描述了N的增长速度要大于kN的增长速度,使kN/N为无穷小,而kN/N和VN为同阶的无穷小,使 为非无穷大的有界数,避免凡满足上述三个条件的区域序列和样本选取都可以。1) Parzen窗估计的概念 要估计d维空间中某点X的概率密度时,可以以X为中心,作一边棱长为hN的d维超立方体VN,则其体积为: 此立方体被视为一个窗口。现在的问题是要求出落入VN中的样本数kN。(2) Parzen窗法 u = u1 , udT (u)是一个以原点为中心,边棱长为1的d维超

6、立方体函数,其函数值为1(可用于计样本数)。1/21/2-1/2-1/2U2U1 为能用函数描述区域RN和对落入RN的样本计数,定义窗函数的基本形式为: 由于通过坐标的平移和尺度的缩放可以改变超立方体的位置和大小。所以对于一个以X为中心,以hN为边棱长的超立方体,用变量Xi(此Xi可作样本)刻划下的通用窗函数的形式如下: 1 当 0 其他窗口X1X2边长为1-X1hN X1 1 hN 2 此函数被称为Parzen窗函数,其含义为如果一个样本Xi落入窗口,则=1(即计数为1),否则=0(即计数为0)。 换句话说,就是检查d维空间中的每一个样本Xi,如果向量X-Xi中的每一分量都小于hN/2,则该

7、样本必在VN以内(且计数为1),否则就在VN以外(且不计数)。 故落入VN内的样本数为: 这样可得X点处概率估计为 这就是Parzen窗法估计的基本公式。讨论: 上式实际上是一个迭加函数,窗函数作迭加基函数,每个样本点处作为迭加节点,使用kN个以样本Xi为中心的窗函数迭加对X处的密度进行估计; 自然,样本较密集的区域上概密估计(迭加函数)值较大; 上式说明每一样本Xi对密度函数的贡献只在一个窗口范围内; 每一样本Xi对估计PN(x)所起的作用依赖于它(即Xi)到X的距离; 窗函数不限于超立方体窗函数,还可有其他形式。2) 估计量PN(x)为密度函数的条件 作为窗函数需要满足以下两个条件: 即窗

8、函数本身具有密度函数的形式,则PN(x) 一定为密度函数。 其中条件保证PN(x)非负; 条件保证在整个参数空间积分为1,即 下面对超立方体方窗函数(在一维下)进行证明: 对于条件,自然保证PN(x) 非负; 对于条件 所以超立方体函数可作为窗函数,即能得到密度函数PN(x)。3) (一维下)窗函数常见的其它几种形式 方窗函数: 正态窗函数: 1-UU 指数窗函数: 三角窗函数: U1-11总之,只要满足前述两个条件的函数,都可作为窗函数使用。但最终估计效果的好坏则与样本情况、窗函数及其参数的选择有关。4) 宽度hN对估计量PN(x)的影响: 在样本数N有限时,窗宽hN对PN(x)有很大影响。

9、 如果定义函数N(x)为: 则可将PN(x)看作N个样本的平均值。 VN = hNd, hN既影响N的幅度,又影响它的宽度。若hN太大,则N的幅度就很小,而宽度将拓宽(因为窗口的面积一定)。同时只有当Xi离X较远时,才能使N(x-xi) 与N(0)的函数值相差的多一些,此时PN(x)是N个低幅的、函数值变化缓慢的、宽垮的函数的叠加,这样将使PN(x) 较平滑,但不能跟上P(x)的变化,分辨率较低。若hN太小,则N的幅度就很大,而宽度很窄,近似于以Xi为中心的函数,且峰值出现在X=Xi附近,此时PN(x)是N个以Xi为中心的尖脉冲在X点处的叠加,使PN(x)波动太大,不稳定,可能失去连续性。 h

10、N的选取对PN(x)影响很大,如何选择hN需要一定的经验,一般要折中考虑。5) 估计量PN(x)的统计性质 对于任一固定的X,PN(x)的值还与随机样本集x1,x2,xN有关,采用不同的样本集,就会有不同的PN(x)值,即PN(x)是一个随机变量,且它依赖于随机的训练样本,所以估计量PN(x)的性质只能用统计性质表示。 另外用PN(x)来估计一个未知密度函数时,只能用它的均值PN(x),同时为了知道估计的确定性程度,还必须知道它的方差2(x)。即如果存在: 则估计量PN(x)均方收敛于P(x)。lim 2(x) =0N 为了保证收敛性,必须对未知密度P(x)、窗函数(u)和窗宽hN设置一些条件

11、,在满足下述这些条件后,PN(x)就是渐近无偏估计、均方逼近P(x),渐近正态分布。条件归纳如下: (1) 总体密度P(x)在X处连续; (2) 窗函数应满足的条件: 注:sup表示取最大的u.(3)窗宽限制: (4)对样本的要求: 说明:上述(新)条件可解释如下: 条件是为了保证PN(x)有密度函数的性质; 条件是要求(u)是有界的,不能为无穷大; 条件是要求(u)随u的增长较快地趋于零,其目的是减少远距X的样本Xi对X的影响; 条件要求体积随N的增大而趋于零,但缩减的速度又不要太快,其速率要低于1/N(即要求VN趋于零的速率低于N的增长速率)。(3) kN-近邻估计 在Parzen窗估计中

12、存在的一个问题是体积序列的V1,V2,VN的选择问题,而把体积VN作为样本数N的函数将导致VN对估计结果影响很大。 例如: 时,对有限的N,其估计结果对初值V1的选择很敏感。 若V1选得太小,则导致大部分体积是空的,从而使估计PN(x)不稳定; 若V1选得太大,则PN(x)较平坦,反映不出真实总体分布的变化。kN-近邻法的基本思想: 使体积VN为数据kN的函数,而不是样本数N的函数。即使含X点的序列体积V1,V2,VN受落入VN中样本数kN的控制,而不是直接作为样本N的函数。 可以预先确定kN是N的某个函数,然后在X点附近选择一个较小的区域作为体积VN,并让它不断增长直至捕获kN个样本为止,这些样本即为X的kN个近邻。即只让VN含kN个近邻样本。这样,如果X点附近的概密较大,则包含kN个样本的体积自然就相对较小;如果X点附近的概密较小,则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论