模式识别概率密度函数的估计.pdf_第1页
模式识别概率密度函数的估计.pdf_第2页
模式识别概率密度函数的估计.pdf_第3页
模式识别概率密度函数的估计.pdf_第4页
模式识别概率密度函数的估计.pdf_第5页
已阅读5页,还剩23页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 概率密度函数的估计 3.1 引言 贝叶斯决策: 已知)( i P和)|( i px,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器) 怎么办? 一种很自然的想法: ? 首先根据样本估计)|( i px和)( i P,记)| ( i px和)( i P ? 然后用估计的概率密度设计贝叶斯分类器。 (基于样本的)两步贝叶斯决策 希望: 当样本数N时,如此得到的分类器收敛于理论上的最优解。 为此,需)|()| ( i N i ppxx )()( i N i PP 重要前提: 训练样本的分布能代表样本的真实分布,所谓 i.i.d 条件 有充分的训练样本 本章研究内容: 如何利用样本集估计概率密度函数? 估计量的性质如何? 如何根据样本集估计错误率? 估计概率密度的两种基本方法: ? 参数方法 (parametric methods) ? 非参数方法 (nonparametric methods) 3.2 参数估计的基本概念和方法(part1) 参数估计(parametric estimation): ? 已知概率密度函数的形式, 只是其中几个参数未知, 目标是根据样本估 计这些参数的值。 几个名词: 统计量(statistics):样本的某种函数,用来作为对某参数的估计 参数空间(parametric space):待估计参数的取值空间 估计量(estimation):),( 21N xxxL 3.2.1 最大似然估计(Maximum Likelihood Estimation) 假设条件: 参数是确定的未知量, (不是随机量) 各类样本集 i X X,ci, 1L=中的样本都是从密度为)|( i px的总 体中独立抽取出来的, (独立同分布,i.i.d.) )|( i px具有某种确定的函数形式,只其参数未知 各类样本只包含本类分布的信息 其中,参数通常是向量,比如一维正态分布),( 2 1 iN,未知参数可能是 = 2 i i i ,此时)|( i px可写成),|( ii px或)|( i px。 鉴于上述假设,我们可以只考虑一类样本,记已知样本为 N xxx, 21 L=X X 似然函数(似然函数(likelihood function) )|()|,()|()( 1 21 i N i N xpxxxppl = =LX X 在参数下观测到样本集X X的概率(联合分布)密度 基本思想:基本思想: 如果在参数 =下)(l最大,则应是“最可能”的参数值,它是样 本集的函数,记作)(),( 21 X Xdxxxd N =L。称作最大似然估计量。 为了便于分析,还可以定义对数似然函数)(ln)(lH=。 求解:求解: 若似然函数满足连续可微的条件,则最大似然估计量就是方程 0)/ )(=ddl 或 0/ )(=ddH 的解(必要条件) 。 若未知参数不止一个,即 T s , 21 L=,记梯度算子 T s = , 21 L 则最大似然估计量的必要条件由 S 个方程组成: 0)(= H 讨论: ? 如果)(l或)(H连续可导, 存在最大值, 且上述必要条件方程组有唯 一解,则其解就是最大似然估计量。 (比如多元正态分布) 。 ? 如果必要条件有多解,则需从中求似然函数最大者 ? 若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀 分布例) 3.3 正态分布的监督参数估计(part1) 3.3.1 最大似然估计示例 以单变量正态分布为例 T , 21 =,= 1 , 2 2 = = 2 2 1 exp 2 1 )|( x xp 样本集 N xxx, 21 L=X X 似然函数 )|()|()ln( 1 k N k xppx = =X X 对数似然函数 )|(ln)(ln)( 1 k N k xPxlH = = 最大似然估计量满足方程 0)|(ln)( 1 = = k N k xpH 而 2 1 2 2 )( 2 1 2ln 2 1 )|(ln = kk xxp + = 2 1 2 22 1 2 )( 2 1 2 1 )( 1 )|(ln k k k x x xp 得方程组 = + = = = 0 ) ( 1 0) ( 1 2 2 2 1 1 2 1 1 2 1 k N k N k k N k x x 解得 k N k x N = = 1 1 1 2 1 2 2 ) ( 1 = = k N k x N 3.2 参数估计的基本概念和方法(part2) 3.2.2 贝叶斯估计和贝叶斯学习 (一)贝叶斯估计(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。 思考题:请课后与贝叶斯决策比较 基本思想:基本思想: 把待估计参数看作具有先验分布)(p的随机变量,其取值与样本集 X X有关,根据样本集 N xxx, 21 L=X X估计。 损失函数:把估计为所造成的损失,记为), ( 期望风险:xxddpR d E ),(), ( = xxxddpp d E )()|(), ( = xxxdpR d E )()| ( = where, d E=x, 条件风险: dpR)|(), ()| (xx = d E=x 最小化期望风险 最小化条件风险 (对所有可能的x) 有限样本集下,最小经经验风险: dpR)|(), ()| (XXXX = 贝叶斯估计量:贝叶斯估计量: (在样本集X X下)使条件风险(经验风险)最小的估计量。 离散情况:损失函数表(决策表) 连续情况:损失函数 常用的损失函数: 2 ) (), (= (平方误差损失函数) 定理定理 3.1 如果采用平方误差损失函数, 则的贝叶斯估计量是在给定x时的 条件期望,即 =dpE)|(| xx 同理可得到,在给定样本集X X下,的贝叶斯估计是: =dpE)|(| XXXX 自学证明过程 求贝叶斯估计的方法:求贝叶斯估计的方法: (平方误差损失下) (1)确定的先验分布 )(p (2)求样本集的联合分布 )|()|( 1 i N i ppx = =X X (3)求的后验概率分布 = dpp pp p )()|( )()|( )|( X X X X X X (4)求的贝叶斯估计量 =dp)|( X X 同时还可求得 =dppp)|()|()|(XXXXxx (考虑到我们最终的目的是求(考虑到我们最终的目的是求 p(x)) 讨论: 设的最大似然估计为 l ,则在 l =处)|(X Xp很可能有一尖峰, 若此,则) |()|( l ppxx=&X X,即贝叶斯估计结果与最大似然估计结果近 似相等。 (二)贝叶斯学习(二)贝叶斯学习 考虑学习样本个数N,记样本集 N xxx, 21 L=X X 1N时有 )|()|()|( 1 = N N N pppXXXXx 因此有递推后验概率公式: = dpp pp p N N N N N )|()|( )|()|( )|( 1 1 X X X X X X x x 设)()|(pp=X X, 则随着样本数增多,可得后验概率密度函数序列: )(p,)|( 1 xp,L),|( 21 xxp 参数估计的递推贝叶斯方法 (Recursive Bayes Incremental Learning) 如果此序列收敛于以真实参数值为中心的函数, 则称样本分布具有贝 叶斯学习(Bayesian Learning)性质。此时 )() |()|(xxxppp N = X X 由先验分布)(p和样本信息(似然函数))|(X Xp求出的后验分布 )|(X Xp,然后直接求样本总体分布 dppp)|()|()|(XXXXxx = 的做法称作贝叶斯学习。 估计量的性质与评价标准估计量的性质与评价标准 无偏性、有效性和一致性无偏性、有效性和一致性 无偏性: =),( 21N ExxxL 渐近无偏性: = N N E 有效性:对估计 1 和 2 ,若方差) () ( 2 2 1 2 ,()0 lim= N N P 无偏性和有效性: 对于多次估计,估计量能以较小的方差平均地表示真实值。 一致性: 当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。 3.3 正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法 3.3.1 最大似然估计示例 ),()(Np x = = N i i N 1 1 x = = N i T ii N 1 ) )( 1 xx 一维: = = N i i x N 1 1 , = = N i i x N 1 22 ) ( 1 3.3.2 贝叶斯估计和贝叶斯学习示例 (一)贝叶斯估计 一维,),()|( 2 Nxp, 2 已知,估计 假设先验分布 ),()( 2 00 Np 结论: 0 22 0 2 22 0 2 0 + + + = N m N N N where i N i N mx = = 1 - 样本信息与先验知识的线性组合 一般情况下, 0=N时, 0 =; N时, N m 特例: 若0 2 0 =,则 0 (先验知识可靠,样本不起作用) 若 0 ,则 N m=(先验知识十分不确定,完全依靠样本信息) (二)贝叶斯学习 () 2 2 , 2 1 exp 2 1 )|( NN N N N N Np =X X =dppp NN )|()|()|(xxXXXX 0 22 0 2 22 0 2 0 + + + = N m N N NN 22 0 22 02 + = N N 当N时,0 2 N ,)|(X Xp函数。 () 22 2 2222 , 2 1 exp 2 1 )|( NN N N N Np + + + = x x X X 均值 N , 方差由 2 增为 22 N + - 由于用了的估计值而不确定性增加 3.4 非监督参数估计 以上讨论的是监督参数估计, 即已知各样本的类别, 根据各类样本集估 计本类的概率密度函数中的参数。 非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已 知,根据所有样本估计各类密度函数中的参数。 本节只介绍非监督最大似然估计的思路 3.4.1 非监督参数估计的最大似然法 (一)假设条件: 1. 样本集 N xx, 1 L=X X中的样本属于C个类别,但不知各样本属哪类 2. 类先验概率)( i P,ci, 1L=已知 3. 类条件概率密度形式已知 ),|( ii px,ci, 1L= 4. 未知是仅是c个参数向量 c , 21 L的值 所有未知参数组成的向量记为T c , 21 L= (二)似然函数 混合密度 )(),|()|( 1 iii c i Pppxx = = 分量密度:类条件密度),|( ii px 混合参数:先验概率)( i P(有时也可未知,一起参与估计) 设样本集X X中的样本是从混合密度为)|(xp的总体中独立抽取的, 即满足独立同分布条件,确定但未知,则 似然函数 )|()|()( 1 i N i pplx = =X X 对数似然函数 )|(ln)(ln)( 1 i N i plHx = = 最大似然估计就是使)(l或)(H取最大的值。 (三)可识别性问题 求出,就得到了 c , 1 L,即从混合密度函数中恢复出了分量密度 函数。可能吗?什么条件下可能? 可识别性: 若对,对混合分布中每个x都有)|()|(xpxp,则密度 )|(xp是可识别的。 教材指出: 大部分常见连续随机变量的分布密度函数都是可识别的, 离散随机变量的混合概率函数则往往是不可识别的。 (四)计算问题 对于可识别的似然函数,如何求最大似然估计? 思路同监督情况,即如果)|(xp对可微,则令 0)(= H 得一系列方程组, 它们是最大似然估计的必要条件, 若存在唯一极值则就是 解。 = = )(),|( )|( 1 )( 11 jjjk c j k N k Pxp xp H ii )(),|( )|( 1 1 iiik k N k Pxp xp i = = (设(设 ji ,独立) 独立) ),|(ln),|( 1 iikiki N k xpxP i = = 其中后验概率 )|( )(),|( ),|( k iiik iki xp Pxp xP= 微分方程组 0) (= H i ,ci, 2 , 1L= 另,若)( i P也未知,则可引入限制条件 0)( i P,ci, 1L= 1)( 1 = = i c i P 可用 Lagrange 法求条件极值问题,定义 Lagrange 函数 += = 1)( 1 i c i PHH 可得 ) ,|( 1 )( 1 iki N k i xP N P = =,ci, 2 , 1L= 0) ,|(ln) ,|( 1 = = iikiki N k xpxP i ,ciL, 1= 其中 )( ),|( )( ),|( ) ,|( 1 jjjk c j iiik iki Pxp Pxp xP = =,ci, 1L= 原则上可以从上述微分方程组中求解出最大似然估计和)( i P。 但实际上多数问题中只能采用某种迭代方法求解。 3.4.2 非监督参数估计示例:正态分布情况 (一)均值向量 i 未知, i ,)( i P,c已知 由上节知最大似然估计满足方程组 0) ,|(ln) ,|( 1 = = N k iikiki xpxP i ,ciL, 1= 代入正态分布公式,可得 0)(),|( 1 1 = = i ik N k iki xxP 即 = = = N k iki N k kiki i xP xxP 1 1 ),|( ),|( 样本的加权平均,物理意义明确 可惜权值中包含未知参数 其中 = = c j jjjk iiik iki Pxp Pxp xP 1 )(),|( )(),|( ),|( 迭代法求解: 用某种方法(比如用监督方法)得到一个较好的初值 )0(i 然后用下式迭代: )(,|( )(,|( ) 1( 1 1 jxP xjxP j iki N k kiki N k i = = =+ 梯度法,可能不是全局最优解,受初值影响大。 (二) i , i ,)( i P均未知,c已知 思路与(一)类似,将有关分布公式代入上小节方程即可,只是公式复 杂一些,也可得到物理意义明确的方程式,但一般也只能用迭代法求解。 讨论: 参数估计方法, 实际上要求对概率密度函数几乎知道一切, 除了少数几 个参数,实际应用中,除了要求好的估计方法外,更重要的是关于函数形式 的先验知识和假设(正态分布是最常用的假设) 。 何时用正态分布?(中心极限定理?) 3.5 非参数估计 参数估计 parametric (density) estimation 非参数估计 nonparametric (density) estimation 3.5.0 直方图方法 非参数概率密度估计的最简单方法 (1)把x的每个分量分成k个等间隔小窗, ( d Ex ,则形成 d k个小舱) (2)统计落入各个小舱内的样本数 i q (3)相应小舱的概率密度为)/(NVqi(N:样本总数,V:小舱体环) 0481216202428323640 delay (days) 0.00 0.05 0.10 0.15 0.20 0481216202428323640 death 0 2 4 6 8 3.5.1 非参数估计的基本原理 问题: 已知样本集 N xx, 1 L=X X, 其中样本均从服从)(xp的总体中独立抽取, 求估计)( xp,近似)(xp 考虑随机向量x落入区域的概率dxxpPR)( = X X中有k个样本落入区域的概率 kN R kk Nk PPCP =)1 ( k的期望值 R NPkE= k的众数(概率最大的取值)为 ) 1( R PNm+= R P的估计 N k PR = & (k:实际落到中的样本数) 设)(xp连续,且足够小,的体积为V,则有 VxpdxxpP R R )()(= x 因此 NV k xp=) ( 其中, N:样本总数, V:包含x的一个小区域的体积 k:落在此区域中的样本数 )( xp为对)(xp在小区域内的平均值的估计。 V的选择:过大,估计粗糙;过小,可能某些区域中无样本 理论结果: 设有一系列包含x的区域LL, 21n , 对 1 采用 1 个样本进行 估计, 对 2 R用 2 个, , n 包含 n k个样本, n V为 n 的体积, n n n NV k xp=)( 为)(xp的第n次估计,有下面的结论: 如果: (1)0lim= n n V (2)= n n klim (3)0lim= n kn n 则)(xpn收敛于)(xp 两种选择方法: 1. 选择 n V, (比如 n Vn 1 =) ,同时对 n k和 n kn 加限制以保证收敛 Parzen 窗法 2. 选择 n k, (比如 n Vn 1 =) , n V为正好包含x的 n k个近邻。 N k近邻估计 3.5.2 Parzen 窗法 ),( 1 ) ( 1 i N i k N xpxx = = 窗函数(核函数)),( i xxk,反映 i x对)(xp的贡献,实现小区域选择。 条件: 0),( i xxk 1),(= dxxxk i 常用窗函数: (1)超立方体窗(方窗) = = otherwise 0 , 2 , 1, 2/ if 1 ),( djhxx hxxk j i i d i L h为超立方体棱长, d hV = (2)正态窗(高斯窗) = 2 1 2 )()( 2 1 exp |)2( 1 ),( i T i dd i xxQxx Q xxk )( 2Q = 一维标准正态: = 2 )( 2 1 exp 2 1 ),( ii xxxxk (3)超球窗 = otherwise 0 if ),( 1 i - i xxV xxk(V:超球体积,半径) 窗宽的选择: 样本数少则选大些,样本数多则选小些, 比如选 d N / = ) 1 , 0( 在满足一定的条件下, 估计量) ( xp是渐近无偏和平方误差一致的。(见教材) 举例:用已知的密度函数产生一系列样本,根据这些样本用 Parzon 窗 法估计概率密度函数,与真实密度函数比较,分析样本数,窗宽等对估计结 果的影响。 3.5.3 N k近邻估计 n n n V Nk xp / )(= 通过控制小区域内的样本数 n k来确定小区 域大小。 3.6 分类器错误率的估计 样本集:设计集(训练集) 、检验集(考试集) 3.6.1 有专门的考试集的情况(即已设计好分类器) 设考试集有 N 个样本,其中k个被分错,则错误率估计是 N k = 可以证明 = E (无偏估计) 若)( 1 P、)( 2 P未知,考试集由随机抽样产生,则 NVar/ )1 ( = (随样本增多方差减小) 若)( 1 P、)( 2 P已知,考试集依)( 1 P、)( 2 P选择性随机抽样产生, 则 )1 ()( 1 2 1 iii i P N Var= = (方差更小) 此时, iii Nk/ = ,2 , 1=i, ii P)( = 3.6.2 没有专门的测试集(分类器未设计好) 样本集既用于设计分类器, 也用于估计错误率, 因此存在设计集和考试 集的划分策略问题。 C法(再代入法) :考试集与设计集相同,结果偏于乐观 U法:考试集与设计集分开,结果更客观,偏于保守。 样本划分法:将样本集分成两组 需要样本较多 交叉验证法(cross-validation) : 留一法(leave-one-out) : 用一个样本做检验,其余1N个样本为设计集,反复N次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论