版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章概率密度估计3.0引言3.1参数估计3.2非参数估计3.3说明整理ppt第三章概率密度估计3.0引言整理ppt13.0引言进行Bayes决策需要事先知道两种知识:各类的先验概率;观测向量的类条件概率密度。知识的获取(估计):一些训练数据;对问题的一般性的认识。3.0引言整理ppt3.0引言进行Bayes决策需要事先知道两种知识:3.023.0引言类的先验概率的估计(较容易):依靠经验;用训练数据中各类出现的频率估计。用频率估计概率的优点:无偏性;相合性;收敛速度快。整理ppt3.0引言类的先验概率的估计(较容易):整理ppt3类条件概率密度的估计(非常难):概率密度函数包含了一个随机变量的全部信息概率密度函数可以是满足下面条件的任何函数p(x)≥03.0引言整理ppt类条件概率密度的估计(非常难):p(x)≥03.0引言整理4概率密度估计的两种主要思路:参数估计:根据对问题的一般性的认识,假设随机变量服从某种分布,分布函数的参数通过训练数据来估计。
非参数估计:不用模型,而只利用训练数据本身对概率密度做估计。3.0引言整理ppt概率密度估计的两种主要思路:3.0引言整理ppt5“Curseofdimensionality”:Weneedlotsoftrainingdatatodeterminethecompletelyunknownstatisticsformulti-Dproblems.Aruleofthumb:“useatleast10timesasmanytrainingsamplesperclassasthenumberoffeatures(i.e.D)”Hence,withsomeaprioriinformation,itispossibletoestimatetheparametersoftheknowndistributionbyusinglessnumberofSamples3.1参数估计3.1参数估计整理ppt“Curseofdimensionality”:We6最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。贝叶斯估计把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。3.1参数估计整理ppt最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实7最大似然估计(MaximumLikelihood),需做以下假设:⒈参数是确定(非随机)而未知的量。⒉按类别把样本集分开,假定有c个类,则可分成c个样本集X1,X2,…,Xc,其中Xj中的样本都是从概率密度为p(x|ωj)的总体中独立抽取出来的。3.1参数估计整理ppt最大似然估计(MaximumLikelihood),需做以8⒊类条件概率密度p(x|ωj)具有某种确定的函数形式,但其参数向量θj未知。⒋假定Xi中的样本不包含关于θj(j≠i)的信息。也就是说不同类别的参数在函数上是独立的。这样就可以分别对每一类进行处理。也就是说Xi中的样本只对θi提供有关信息,而没有关于θj(j≠i)的任何信息。3.1参数估计整理ppt⒊类条件概率密度p(x|ωj)具有某种确定的函数形式,但其参9在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度抽取样本集X,用X去估计出未知参数。已知某一类样本集X包含有N个样本,即X={x1,x2,…,xN}3.1参数估计整理ppt在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度10由于假设样本是独立抽取的,所以相对于样本集X的θ的似然函数。3.1参数估计整理ppt由于假设样本是独立抽取的,所以相对于样本集X的θ的似然函数。11似然函数:对数似然函数:等价参数求解:梯度为0。3.1参数估计最大似然估计就是上式的解。整理ppt似然函数:对数似然函数:等价参数求解:梯度为0。3.1参数12最大似然估计示意图3.1参数估计FindvalueofunknownparametermaximizesFordifferentΘ,theobservedsamplesgivesdifferentp(X|Θ)valuesforp(xk|Θ)densitiesTheargumentforthemaximumofsuchproductsisMLestimatelogp(X|Θ)willnotdiffertheargumentofthismaxima整理ppt最大似然估计示意图3.1参数估计Findvalueof13单变量正态分布3.1参数估计正态分布假设下的极大似然参数估计:其中和为未知参数。由整理ppt单变量正态分布3.1参数估计正态分布假设下的极大似然参数估14单变量正态分布知3.1参数估计整理ppt单变量正态分布知3.1参数估计整理ppt15正态分布假设下的极大似然参数估计:3.1参数估计以和代入上式,解上述方程组,得
整理ppt正态分布假设下的极大似然参数估计:3.1参数估计以16多元正态分布似然函数:3.1参数估计设x1,x2,…,xn是从p(x|μ,Σ)选取的特征向量,其联合分布为整理ppt多元正态分布似然函数:3.1参数估计设x1,x2,…,xn17多元正态分布均值μ估计:均值的最大似然估计与Σ无关!
3.1参数估计整理ppt多元正态分布均值μ估计:均值的最大似然估计与Σ无关!3.118多元正态分布协方差矩阵Σ的估计:3.1参数估计令A=Σ-1整理ppt多元正态分布协方差矩阵Σ的估计:3.1参数估计令A=Σ-119正态分布假设下的极大似然参数估计:多元正态分布协方差矩阵Σ的估计:协方差矩阵的极大似然估计与μML有关!ˆ3.1参数估计整理ppt正态分布假设下的极大似然参数估计:协方差矩阵的极大似然估计与20正态分布假设下的极大似然参数估计:多元正态分布协方差矩阵的极大似然估计是有偏估计:无偏估计:3.1参数估计整理ppt正态分布假设下的极大似然参数估计:无偏估计:3.1参数估计21Bayes估计:最大后验概率估计(maximumaposteriori)
设有一个样本X(而不是x),要求找出估计量(而不是选出最佳决策),用来估计X所属总体的分布的某个真实参数(而不是真实状态ωk)使带来的贝叶斯风险最小,就是贝叶斯估计。
3.1参数估计整理pptBayes估计:最大后验概率估计(maximumapos22Bayes估计:贝叶斯决策和贝叶斯估计两者都立足于使贝叶斯风险最小,只是要解决的问题不同:一是要决策x的真实状态,而另一个则是估计X所属总体分布的参数。二者的各变量之间存在一一对应的关系
3.1参数估计整理pptBayes估计:3.1参数估计整理ppt23Bayes估计:贝叶斯决策贝叶斯估计决策问题估计问题样本x样本集X决策估计量真实状态ωi真实参数状态空间A是离散空间参数空间Θ是连续空间先验概率P(ωi)参数的先验分布p(θ)3.1参数估计整理pptBayes估计:贝叶斯决策贝叶斯估计决策问题估计问题样本x样24Bayes估计:根据贝叶斯公式设为代替所造成的损失。3.1参数估计整理pptBayes估计:根据贝叶斯公式设为代替所造成的损失。3.125Bayes估计:可得、x的联合分布
3.1参数估计整理pptBayes估计:可得、x的联合分布3.1参数估计整理26Bayes估计:为可能取值的参数空间。为给定x条件下估计量的期望损失(条件风险),与贝叶斯决策中给定x时决策的条件风险是对应的。
3.1参数估计整理pptBayes估计:为可能取值的参数空间。27Bayes估计:因此同贝叶斯决策一样:使条件风险极小时的估计量也一定使贝叶斯风险R最小。
如果的估计量使条件风险最小,则称是关于的贝叶斯估计量。若求解贝叶斯估计量必须定义适当的损失函数。3.1参数估计整理pptBayes估计:因此同贝叶斯决策一样:使条件风险28Bayes估计:一般地,损失函数可定义成不同的形式,因而得到不同的贝叶斯估计量。以二次函数作为损失函数,即平方误差损失函数3.1参数估计整理pptBayes估计:一般地,损失函数可定义成不同的形式,因而得到29Bayes估计:定理:如果损失函数为二次函数,即则的贝叶斯估计量是在给定x时的条件期望。即3.1参数估计整理pptBayes估计:定理:如果损失函数为二次函数,即3.1参30Bayes估计:证明:由于贝叶斯估计使贝叶斯风险R达到最小,要使贝叶斯风险达到最小,相当于被积函数(条件风险)3.1参数估计整理pptBayes估计:证明:由于贝叶斯估计使贝叶斯风险R达到最小,31Bayes估计:3.1参数估计整理pptBayes估计:3.1参数估计整理ppt32Bayes估计:3.1参数估计整理pptBayes估计:3.1参数估计整理ppt33Bayes估计:与无关与有关选择,使第二项为零,从而使条件风险最小,所以贝叶斯估计量为
3.1参数估计整理pptBayes估计:与无关与有关选择,34Bayes估计:⒈确定的先验分布
利用此定理,可以对平方误差损失函数求解贝叶斯估计量,步骤如下:
⒉由样本集X
={x1,x2,…,xn}求出样本联合分布,它是的函数
⒊利用贝叶斯公式,求出的后验分布
3.1参数估计整理pptBayes估计:⒈确定的先验分布利用此定理,可以对平方35Bayes估计:⒋利用定理求出贝叶斯估计量
3.1参数估计整理pptBayes估计:⒋利用定理求出贝叶斯估计量3.1参数估计36Bayes估计举例:以单变量正态分布为例,并假定总体方差为已知,待估计的仅是均值。设总体分布密度为
3.1参数估计整理pptBayes估计举例:3.1参数估计整理ppt37Bayes估计举例:假定关于的先验知识可用一个已知的先验密度来表示,并假定服从均值为方差为的正态分布,即其中和是已知的。表示的最好的先验推测,度量了对这个推测的不确定性。3.1参数估计整理pptBayes估计举例:假定关于的先验知识可用一个已知的先38Bayes估计举例:设样本集X
={x1,x2,…,xn}是取自正态分布,其中是未知参数,且假定为随机参数,具有先验分布,要求用贝叶斯估计方法求出
的估计量。3.1参数估计整理pptBayes估计举例:设样本集X={x1,x2,…,xn}是39Bayes估计举例:对于二次损失函数的贝叶斯估计,根据定理,有可得
3.1参数估计整理pptBayes估计举例:可得3.1参数估计整理ppt40Bayes估计举例:由求得。从上式可看出,首先是求的后验分布,由于其先验分布为已知,可应用贝叶斯公式3.1参数估计整理pptBayes估计举例:由41Bayes估计:
其中是一个比例因子,仅与X有关而与无关。由于3.1参数估计整理pptBayes估计:其中是一个比例因子,仅与X有关而与无关。由42Bayes估计:
3.1参数估计整理pptBayes估计:3.1参数估计整理ppt43Bayes估计:
和无关的因子全部吸收到和中,这样是的二次函数的指数函数,仍是正态密度,可以把写成即3.1参数估计整理pptBayes估计:和无关的因子全部吸收到和44Bayes估计:
应用待定系数法,令上面两式对应的系数相等,即求得和3.1参数估计整理pptBayes估计:应用待定系数法,令上面两式对应的系数相等,45Bayes估计:解前面方程得3.1参数估计整理pptBayes估计:3.1参数估计整理ppt463.1参数估计整理ppt3.1参数估计整理ppt47Bayes估计:求的贝叶斯估计得出的贝叶斯估计值3.1参数估计整理pptBayes估计:求的贝叶斯估计得出的贝叶斯估计值48Bayes估计:假设先验分布为标准正态分布,即=N(0,1),且总体分布的方差也为1,则与最大似然估计有类似的形式,只是分母不同。3.1参数估计整理pptBayes估计:假设先验分布为标准正态49Bayes估计:通常是mn和线性组合,两者的系数均为非负,并且和为1。即3.1参数估计位于mn和的连线上。
如果,则当n趋于无穷大时,趋近于样本均值mn整理pptBayes估计:通常是mn和线性组合,两50Bayes估计:如果说明对先验估计非常不确定,用样本均值mn和代替了3.1参数估计如果则是一种退化情况。
对先验估计非常确信。称为“决断因子(dogmatism)”该值不是无穷大且样本足够多时趋近于样本均值mn两种极端情况:整理pptBayes估计:如果说明对先验估计51p(x|X)—p(x|ωi,Xi)的估计得到均值的后验密度p(μ|X)后,可以计算类条件概率密度p(x|X)。分别讨论单变量和多变量的情况。贝叶斯估计整理pptp(x|X)—p(x|ωi,Xi)的估计得到均值的后验密度p52单变量的情况根据以下公式:p(x|X)—p(x|ωi,Xi)的估计整理ppt单变量的情况根据以下公式:p(x|X)—p(x|ωi,Xi)53得到:p(x|X)—p(x|ωi,Xi)的估计—单变量的情况其中故整理ppt得到:p(x|X)—p(x|ωi,Xi)的估计—单变量的情况54此时,方差和σ2相比增加了,因为对均值μ的不确定性增加了对x的不确定性。这样就确定了类条件概率密度。和最大似然估计不同,贝叶斯估计方法估计了p(x|X)的分布,而最大似然估计只是估计了方差和均值。p(x|X)—p(x|ωi,Xi)的估计—单变量的情况整理ppt此时,方差和σ2相比增加了,因为对均值μ的不确定性增加了对x55多变量的情况假设:p(x|X)—p(x|ωi,Xi)的估计已知进行配方和变量代换,简化为整理ppt多变量的情况假设:p(x|X)—p(x|ωi,Xi)的估计已56利用对应项相等的原则,得:p(x|X)—p(x|ωi,Xi)的估计—多变量的情况可以证明(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1A整理ppt利用对应项相等的原则,得:p(x|X)—p(x|ωi,Xi)57如果利用积分:p(x|X)—p(x|ωi,Xi)的估计—多变量的情况可以证明因为x可以看成两个互相独立的变量的和故:整理ppt如果利用积分:p(x|X)—p(x|ωi,Xi)的估计—多变58Bayes(MAP)估计与ML估计的关系:当样本数趋于无穷时,MAP估计一般趋向于ML估计ML估计也可以看作参数的先验概率密度函数服从均匀分布(相当于没有先验知识)的MAP估计当参数的先验概率密度函数比较准确时,MAP估计的小样本性质大大优于ML估计。3.1参数估计整理pptBayes(MAP)估计与ML估计的关系:3.1参数估计整59参数估计中的模型选择问题:实际工作中处理的大都是高维数据:d≥
10。统计学中经典的多元(高维)分布很少,研究最详尽的是多元正态分布。近几十年的研究发现,实际所处理的高维数据几乎都不服从正态分布。通过增加模型的复杂程度(参数的个数),如正态模型的线性组合—高斯混合模型,试图“逼近”真实的分布,出现了过拟合问题。3.1参数估计整理ppt参数估计中的模型选择问题:3.1参数估计整理ppt60与参数估计需要事先假定一种分布函数不同,非参数估计(non-parametricmethod)不做任何模型假设。主要方法:概率密度的估计Parzen法;kN近邻法。3.2非参数估计3.2非参数估计整理ppt与参数估计需要事先假定一种分布函数不同,非参数估计(non-61一个向量x落在区域R中的概率为3.2非参数估计P是概率密度函数p(x)的平滑的(或者取平均的)版本。可以通过估计概率P来估计概率密度函数p。假设n个样本x1,……,xn都是根据概率密度函数p(x)独立同分布(i.i.d.)的抽取而得到的。整理ppt一个向量x落在区域R中的概率为3.2非参数估计P是概率密度函62其中k个样本落在区域R中的概率服从二项式定理:3.2非参数估计k的期望值为整理ppt其中k个样本落在区域R中的概率服从二项式定理:3.2非参数估63k的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k/n就是概率P的一个很好的估计。当样本个数n非常大时估计将非常准确。如果假设p(x)是连续的,并且区域R足够小,以至于在这个区间中p几乎没有变化,那么有3.2非参数估计整理pptk的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k64其中x为一个点,而V则是区域R所包含的体积。得到p(x)的估计为3.2非参数估计整理ppt其中x为一个点,而V则是区域R所包含的体积。得到p(x)65区域R的体积R中的点固定越来越多在概率上收敛p(x)的平均估计R足够小3.2非参数估计整理ppt区域R的体积R中的点固定越来越多在概率上收敛p(x)的平均估66估计x点的密度构造一串包括x的区域序列R1,R2,…,Rn,…对R1,采用一个样本估计对R2,采用两个样本估计……设Vn是Rn的体积,kn是落入Rn中的样本数p(x)的第n次估计3.2非参数估计整理ppt估计x点的密度p(x)的第n次估计3.2非参数估计整理ppt67满足pn(x)收敛于p(x)^→p(x)3.2非参数估计整理ppt满足pn(x)收敛于p(x)^→p(x)3.2非参数估计整理68有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个确定的体积函数来逐渐收缩一个给定的初始区间。第二种方法是确定kn为n的某个函数,这样,体积就必须逐渐生长,直到最后能包含进x的kn个相邻点,这就是kn-近邻法”。这两种方法最终都能够收敛,但是却很难预测它们在有限样本情况下的效果。3.2非参数估计整理ppt有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个69这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计出测试样本点处的真正的概率密度函数。3.2非参数估计根据某个函数逐渐缩小区域面积缩小区域面积的方式依赖于样本点的整理ppt这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计70两种非参数方法:Parzen窗法:使区域序列的体积Vn按n的某个函数随n的增大的关系不断缩小,如Vn=V1/√n,而对kn和kn/n加以限制使^pn(x)收敛于p(x)3.2非参数估计整理ppt两种非参数方法:^pn(x)收敛于p(x)3.2非参数估计整71两种非参数方法:kn近邻估计:使kn为n的某个函数随N的增大而变大,如kn=√n,而Vn的选取使相应的Rn是只包含kn个近邻点的最小区域,其体积可以作为x点密度估计时的最小Vn。3.2非参数估计整理ppt两种非参数方法:3.2非参数估计整理ppt72两种常用的核(窗)函数:均匀核(窗):
x
=(x1,x2,…,xd)∈Rd-1/21/23.2非参数估计整理ppt两种常用的核(窗)函数:-1/21/23.2非参数估计整理p73正态(高斯)核:3.2非参数估计-220核函数要满足概率密度函数的条件。整理ppt正态(高斯)核:3.2非参数估计-220核函数要满足概率密度74Parzen窗法:把核函数看作“窗”,根据样本
x1,
x2,…,
xn,若xi落入以x为中心,以hn为棱长的超立方体Rn中,则计数为1,否则为0,则落入立方体Rn中的样本数3.2非参数估计整理pptParzen窗法:把核函数看作“窗”,根据样本x1,x275根据hN是控制“窗”宽度的参数,根据样本的数量选择。这就是Parzen窗方法。叠加函数叠加基函数使用kn个以样本xi为中心的窗函数叠加对x处的概率密度进行估计。样本较密集的区域上概率密度值较大。3.2非参数估计整理ppt根据hN是控制“窗”宽度的参数,根据样本的数量选择。这就是P76窗函数一般应满足下面的条件:保证非负保证3.2非参数估计整理ppt窗函数一般应满足下面的条件:保证非负保证3.2非参数估计整理77窗的宽度hn对pn(x)的影响。定义δn(x)如下:则pn(x)为hn和的关系如图所示。3.2非参数估计整理ppt窗的宽度hn对pn(x)的影响。定义δn(x)如下:则p78不同窗宽的估计效果:二维圆周对称正态Parzen窗的例子,其中h取三个值。3.2非参数估计整理ppt不同窗宽的估计效果:3.2非参数估计整理ppt79不同窗宽的估计效果:具有5个样本点的样本集进行Parzen窗概率密度估计结果。3.2非参数估计整理ppt不同窗宽的估计效果:3.2非参数估计整理ppt80对于任意的hn,分布是归一化的,即3.2非参数估计hn(Vn)的选取将在很大程度上影响pn(x)。如果Vn太大,估计结果的分辨率很低;如果Vn太小,估计结果的稳定性不够;有限样本个数的约束下,只能取某种折中。如果样本个数无限,就可以在n增加时,让Vn缓慢地趋近于零,同时pn(x)收敛于某个概率密度函数p(x)。整理ppt对于任意的hn,分布是归一化的,即3.2非参数估计hn(Vn81对于固定的x值,pn(x)依赖于样本x1,…,xn,即pn(x)具有均值和方差3.2非参数估计hn(Vn)的选取将在很大程度上影响pn(x)。整理ppt对于固定的x值,pn(x)依赖于样本x1,…,xn,即pn(82为了保证收敛性,必须对未知的概率密度函数p(x)、窗宽度hn和窗函数做必要的约束,通常要求p(·)在点x处连续。下面将证明只要满足下列条件就能保证收敛:3.2非参数估计整理ppt为了保证收敛性,必须对未知的概率密度函数p(x)、窗宽度hn83均值的收敛性因为样本xi都是未知概率密度p(x)的独立同分布的抽样得到的,故有3.2非参数估计这个方程表明均值的期望是未知概率密度函数值的平均—对未知概率密度函数和窗函数的一种卷积。整理ppt均值的收敛性3.2非参数估计这个方程表明均值的期望是未知概率84方差的收效性因为pn(x)是一些关于统计独立的随机变量的函数的和,所以其方差就是这些分开项的和,所以有3.2非参数估计整理ppt方差的收效性3.2非参数估计整理ppt85方差的收效性去掉第二项,使用上面公式,有3.2非参数估计为了得到较小的方差,必须要有较大的Vn值。因为大的Vn能够把概率密度函数中的局部变动都平滑掉。然而,因为当n趋近于无穷大时,分母仍为有限值,因此可以让Vn趋近于零,只要nVn趋近于零,并且仍然得到零方差。整理ppt方差的收效性3.2非参数估计为了得到较小的方差,必须要有较大86举例说明考虑当p(x)是零均值、单位方差、单变量的正态情况。固定窗函数的形式为3.2非参数估计令整理ppt举例说明3.2非参数估计令整理ppt87使用不同窗宽和样本数量对一维正态概率密度进行Parzen窗的估计效果。3.2非参数估计整理ppt使用不同窗宽和样本数量对一维正态概率密度进行Parzen窗的88使用不同窗宽和样本数量对二维正态概率密度进行Parzen窗的估计效果。3.2非参数估计整理ppt使用不同窗宽和样本数量对二维正态概率密度进行Parzen窗的89使用不同窗宽和样本数量对混合概率密度函数进行Parzen窗的估计效果。3.2非参数估计整理ppt使用不同窗宽和样本数量对混合概率密度函数进行Parzen窗的90均匀核函数Parzen窗估计的几何意义:点x处概率密度=以x为中心,2hn为边长的超立方体内的样本数总样本数3.2非参数估计Parzen窗方法的特点:适用于各类复杂概率密度的估计规则的、不规则的、单峰的、多峰的要求样本分布较好且数量大估计过程复杂窗函数对提高精度和减少样本数量非常重要!整理ppt均匀核函数Parzen窗估计的几何意义:以x为中心,2hn为91kn—近邻估计:均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。kn——近邻估计:把窗扩大到刚好覆盖kn个点。落在窗内的样本点的数目固定,窗宽是变化的。kn根据样本总数n选择。3.2非参数估计整理pptkn—近邻估计:3.2非参数估计整理ppt92概率密度估计表达式:点x处窗的“体积”是Vn:3.2非参数估计整理ppt概率密度估计表达式:3.2非参数估计整理ppt93一个kn—近邻估计例子对两个一维概率分布的一些kn近邻估计,一个高斯函数,一个是三角形分布,当n值为有限时,估计结果显得非常“粗糙”和“崎岖不平”3.2非参数估计整理ppt一个kn—近邻对两个一维概率分布的一些kn近邻估计,一个高斯94kn的选择:渐进收敛容易保证;有限样本性质、最小平方误差与Parzen窗几乎相同。3.2非参数估计整理pptkn的选择:3.2非参数估计整理ppt953.3说明高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。先估计概率密度,再进行分类,可能走了“弯路”。整理ppt3.3说明高维概率分布的估计无论在理论上还是实际操作中都是96第三章概率密度估计3.0引言3.1参数估计3.2非参数估计3.3说明整理ppt第三章概率密度估计3.0引言整理ppt973.0引言进行Bayes决策需要事先知道两种知识:各类的先验概率;观测向量的类条件概率密度。知识的获取(估计):一些训练数据;对问题的一般性的认识。3.0引言整理ppt3.0引言进行Bayes决策需要事先知道两种知识:3.0983.0引言类的先验概率的估计(较容易):依靠经验;用训练数据中各类出现的频率估计。用频率估计概率的优点:无偏性;相合性;收敛速度快。整理ppt3.0引言类的先验概率的估计(较容易):整理ppt99类条件概率密度的估计(非常难):概率密度函数包含了一个随机变量的全部信息概率密度函数可以是满足下面条件的任何函数p(x)≥03.0引言整理ppt类条件概率密度的估计(非常难):p(x)≥03.0引言整理100概率密度估计的两种主要思路:参数估计:根据对问题的一般性的认识,假设随机变量服从某种分布,分布函数的参数通过训练数据来估计。
非参数估计:不用模型,而只利用训练数据本身对概率密度做估计。3.0引言整理ppt概率密度估计的两种主要思路:3.0引言整理ppt101“Curseofdimensionality”:Weneedlotsoftrainingdatatodeterminethecompletelyunknownstatisticsformulti-Dproblems.Aruleofthumb:“useatleast10timesasmanytrainingsamplesperclassasthenumberoffeatures(i.e.D)”Hence,withsomeaprioriinformation,itispossibletoestimatetheparametersoftheknowndistributionbyusinglessnumberofSamples3.1参数估计3.1参数估计整理ppt“Curseofdimensionality”:We102最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。贝叶斯估计把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。3.1参数估计整理ppt最大似然估计把参数看作是确定而未知的。最好的估计值是在获得实103最大似然估计(MaximumLikelihood),需做以下假设:⒈参数是确定(非随机)而未知的量。⒉按类别把样本集分开,假定有c个类,则可分成c个样本集X1,X2,…,Xc,其中Xj中的样本都是从概率密度为p(x|ωj)的总体中独立抽取出来的。3.1参数估计整理ppt最大似然估计(MaximumLikelihood),需做以104⒊类条件概率密度p(x|ωj)具有某种确定的函数形式,但其参数向量θj未知。⒋假定Xi中的样本不包含关于θj(j≠i)的信息。也就是说不同类别的参数在函数上是独立的。这样就可以分别对每一类进行处理。也就是说Xi中的样本只对θi提供有关信息,而没有关于θj(j≠i)的任何信息。3.1参数估计整理ppt⒊类条件概率密度p(x|ωj)具有某种确定的函数形式,但其参105在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度抽取样本集X,用X去估计出未知参数。已知某一类样本集X包含有N个样本,即X={x1,x2,…,xN}3.1参数估计整理ppt在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度106由于假设样本是独立抽取的,所以相对于样本集X的θ的似然函数。3.1参数估计整理ppt由于假设样本是独立抽取的,所以相对于样本集X的θ的似然函数。107似然函数:对数似然函数:等价参数求解:梯度为0。3.1参数估计最大似然估计就是上式的解。整理ppt似然函数:对数似然函数:等价参数求解:梯度为0。3.1参数108最大似然估计示意图3.1参数估计FindvalueofunknownparametermaximizesFordifferentΘ,theobservedsamplesgivesdifferentp(X|Θ)valuesforp(xk|Θ)densitiesTheargumentforthemaximumofsuchproductsisMLestimatelogp(X|Θ)willnotdiffertheargumentofthismaxima整理ppt最大似然估计示意图3.1参数估计Findvalueof109单变量正态分布3.1参数估计正态分布假设下的极大似然参数估计:其中和为未知参数。由整理ppt单变量正态分布3.1参数估计正态分布假设下的极大似然参数估110单变量正态分布知3.1参数估计整理ppt单变量正态分布知3.1参数估计整理ppt111正态分布假设下的极大似然参数估计:3.1参数估计以和代入上式,解上述方程组,得
整理ppt正态分布假设下的极大似然参数估计:3.1参数估计以112多元正态分布似然函数:3.1参数估计设x1,x2,…,xn是从p(x|μ,Σ)选取的特征向量,其联合分布为整理ppt多元正态分布似然函数:3.1参数估计设x1,x2,…,xn113多元正态分布均值μ估计:均值的最大似然估计与Σ无关!
3.1参数估计整理ppt多元正态分布均值μ估计:均值的最大似然估计与Σ无关!3.1114多元正态分布协方差矩阵Σ的估计:3.1参数估计令A=Σ-1整理ppt多元正态分布协方差矩阵Σ的估计:3.1参数估计令A=Σ-1115正态分布假设下的极大似然参数估计:多元正态分布协方差矩阵Σ的估计:协方差矩阵的极大似然估计与μML有关!ˆ3.1参数估计整理ppt正态分布假设下的极大似然参数估计:协方差矩阵的极大似然估计与116正态分布假设下的极大似然参数估计:多元正态分布协方差矩阵的极大似然估计是有偏估计:无偏估计:3.1参数估计整理ppt正态分布假设下的极大似然参数估计:无偏估计:3.1参数估计117Bayes估计:最大后验概率估计(maximumaposteriori)
设有一个样本X(而不是x),要求找出估计量(而不是选出最佳决策),用来估计X所属总体的分布的某个真实参数(而不是真实状态ωk)使带来的贝叶斯风险最小,就是贝叶斯估计。
3.1参数估计整理pptBayes估计:最大后验概率估计(maximumapos118Bayes估计:贝叶斯决策和贝叶斯估计两者都立足于使贝叶斯风险最小,只是要解决的问题不同:一是要决策x的真实状态,而另一个则是估计X所属总体分布的参数。二者的各变量之间存在一一对应的关系
3.1参数估计整理pptBayes估计:3.1参数估计整理ppt119Bayes估计:贝叶斯决策贝叶斯估计决策问题估计问题样本x样本集X决策估计量真实状态ωi真实参数状态空间A是离散空间参数空间Θ是连续空间先验概率P(ωi)参数的先验分布p(θ)3.1参数估计整理pptBayes估计:贝叶斯决策贝叶斯估计决策问题估计问题样本x样120Bayes估计:根据贝叶斯公式设为代替所造成的损失。3.1参数估计整理pptBayes估计:根据贝叶斯公式设为代替所造成的损失。3.1121Bayes估计:可得、x的联合分布
3.1参数估计整理pptBayes估计:可得、x的联合分布3.1参数估计整理122Bayes估计:为可能取值的参数空间。为给定x条件下估计量的期望损失(条件风险),与贝叶斯决策中给定x时决策的条件风险是对应的。
3.1参数估计整理pptBayes估计:为可能取值的参数空间。123Bayes估计:因此同贝叶斯决策一样:使条件风险极小时的估计量也一定使贝叶斯风险R最小。
如果的估计量使条件风险最小,则称是关于的贝叶斯估计量。若求解贝叶斯估计量必须定义适当的损失函数。3.1参数估计整理pptBayes估计:因此同贝叶斯决策一样:使条件风险124Bayes估计:一般地,损失函数可定义成不同的形式,因而得到不同的贝叶斯估计量。以二次函数作为损失函数,即平方误差损失函数3.1参数估计整理pptBayes估计:一般地,损失函数可定义成不同的形式,因而得到125Bayes估计:定理:如果损失函数为二次函数,即则的贝叶斯估计量是在给定x时的条件期望。即3.1参数估计整理pptBayes估计:定理:如果损失函数为二次函数,即3.1参126Bayes估计:证明:由于贝叶斯估计使贝叶斯风险R达到最小,要使贝叶斯风险达到最小,相当于被积函数(条件风险)3.1参数估计整理pptBayes估计:证明:由于贝叶斯估计使贝叶斯风险R达到最小,127Bayes估计:3.1参数估计整理pptBayes估计:3.1参数估计整理ppt128Bayes估计:3.1参数估计整理pptBayes估计:3.1参数估计整理ppt129Bayes估计:与无关与有关选择,使第二项为零,从而使条件风险最小,所以贝叶斯估计量为
3.1参数估计整理pptBayes估计:与无关与有关选择,130Bayes估计:⒈确定的先验分布
利用此定理,可以对平方误差损失函数求解贝叶斯估计量,步骤如下:
⒉由样本集X
={x1,x2,…,xn}求出样本联合分布,它是的函数
⒊利用贝叶斯公式,求出的后验分布
3.1参数估计整理pptBayes估计:⒈确定的先验分布利用此定理,可以对平方131Bayes估计:⒋利用定理求出贝叶斯估计量
3.1参数估计整理pptBayes估计:⒋利用定理求出贝叶斯估计量3.1参数估计132Bayes估计举例:以单变量正态分布为例,并假定总体方差为已知,待估计的仅是均值。设总体分布密度为
3.1参数估计整理pptBayes估计举例:3.1参数估计整理ppt133Bayes估计举例:假定关于的先验知识可用一个已知的先验密度来表示,并假定服从均值为方差为的正态分布,即其中和是已知的。表示的最好的先验推测,度量了对这个推测的不确定性。3.1参数估计整理pptBayes估计举例:假定关于的先验知识可用一个已知的先134Bayes估计举例:设样本集X
={x1,x2,…,xn}是取自正态分布,其中是未知参数,且假定为随机参数,具有先验分布,要求用贝叶斯估计方法求出
的估计量。3.1参数估计整理pptBayes估计举例:设样本集X={x1,x2,…,xn}是135Bayes估计举例:对于二次损失函数的贝叶斯估计,根据定理,有可得
3.1参数估计整理pptBayes估计举例:可得3.1参数估计整理ppt136Bayes估计举例:由求得。从上式可看出,首先是求的后验分布,由于其先验分布为已知,可应用贝叶斯公式3.1参数估计整理pptBayes估计举例:由137Bayes估计:
其中是一个比例因子,仅与X有关而与无关。由于3.1参数估计整理pptBayes估计:其中是一个比例因子,仅与X有关而与无关。由138Bayes估计:
3.1参数估计整理pptBayes估计:3.1参数估计整理ppt139Bayes估计:
和无关的因子全部吸收到和中,这样是的二次函数的指数函数,仍是正态密度,可以把写成即3.1参数估计整理pptBayes估计:和无关的因子全部吸收到和140Bayes估计:
应用待定系数法,令上面两式对应的系数相等,即求得和3.1参数估计整理pptBayes估计:应用待定系数法,令上面两式对应的系数相等,141Bayes估计:解前面方程得3.1参数估计整理pptBayes估计:3.1参数估计整理ppt1423.1参数估计整理ppt3.1参数估计整理ppt143Bayes估计:求的贝叶斯估计得出的贝叶斯估计值3.1参数估计整理pptBayes估计:求的贝叶斯估计得出的贝叶斯估计值144Bayes估计:假设先验分布为标准正态分布,即=N(0,1),且总体分布的方差也为1,则与最大似然估计有类似的形式,只是分母不同。3.1参数估计整理pptBayes估计:假设先验分布为标准正态145Bayes估计:通常是mn和线性组合,两者的系数均为非负,并且和为1。即3.1参数估计位于mn和的连线上。
如果,则当n趋于无穷大时,趋近于样本均值mn整理pptBayes估计:通常是mn和线性组合,两146Bayes估计:如果说明对先验估计非常不确定,用样本均值mn和代替了3.1参数估计如果则是一种退化情况。
对先验估计非常确信。称为“决断因子(dogmatism)”该值不是无穷大且样本足够多时趋近于样本均值mn两种极端情况:整理pptBayes估计:如果说明对先验估计147p(x|X)—p(x|ωi,Xi)的估计得到均值的后验密度p(μ|X)后,可以计算类条件概率密度p(x|X)。分别讨论单变量和多变量的情况。贝叶斯估计整理pptp(x|X)—p(x|ωi,Xi)的估计得到均值的后验密度p148单变量的情况根据以下公式:p(x|X)—p(x|ωi,Xi)的估计整理ppt单变量的情况根据以下公式:p(x|X)—p(x|ωi,Xi)149得到:p(x|X)—p(x|ωi,Xi)的估计—单变量的情况其中故整理ppt得到:p(x|X)—p(x|ωi,Xi)的估计—单变量的情况150此时,方差和σ2相比增加了,因为对均值μ的不确定性增加了对x的不确定性。这样就确定了类条件概率密度。和最大似然估计不同,贝叶斯估计方法估计了p(x|X)的分布,而最大似然估计只是估计了方差和均值。p(x|X)—p(x|ωi,Xi)的估计—单变量的情况整理ppt此时,方差和σ2相比增加了,因为对均值μ的不确定性增加了对x151多变量的情况假设:p(x|X)—p(x|ωi,Xi)的估计已知进行配方和变量代换,简化为整理ppt多变量的情况假设:p(x|X)—p(x|ωi,Xi)的估计已152利用对应项相等的原则,得:p(x|X)—p(x|ωi,Xi)的估计—多变量的情况可以证明(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1A整理ppt利用对应项相等的原则,得:p(x|X)—p(x|ωi,Xi)153如果利用积分:p(x|X)—p(x|ωi,Xi)的估计—多变量的情况可以证明因为x可以看成两个互相独立的变量的和故:整理ppt如果利用积分:p(x|X)—p(x|ωi,Xi)的估计—多变154Bayes(MAP)估计与ML估计的关系:当样本数趋于无穷时,MAP估计一般趋向于ML估计ML估计也可以看作参数的先验概率密度函数服从均匀分布(相当于没有先验知识)的MAP估计当参数的先验概率密度函数比较准确时,MAP估计的小样本性质大大优于ML估计。3.1参数估计整理pptBayes(MAP)估计与ML估计的关系:3.1参数估计整155参数估计中的模型选择问题:实际工作中处理的大都是高维数据:d≥
10。统计学中经典的多元(高维)分布很少,研究最详尽的是多元正态分布。近几十年的研究发现,实际所处理的高维数据几乎都不服从正态分布。通过增加模型的复杂程度(参数的个数),如正态模型的线性组合—高斯混合模型,试图“逼近”真实的分布,出现了过拟合问题。3.1参数估计整理ppt参数估计中的模型选择问题:3.1参数估计整理ppt156与参数估计需要事先假定一种分布函数不同,非参数估计(non-parametricmethod)不做任何模型假设。主要方法:概率密度的估计Parzen法;kN近邻法。3.2非参数估计3.2非参数估计整理ppt与参数估计需要事先假定一种分布函数不同,非参数估计(non-157一个向量x落在区域R中的概率为3.2非参数估计P是概率密度函数p(x)的平滑的(或者取平均的)版本。可以通过估计概率P来估计概率密度函数p。假设n个样本x1,……,xn都是根据概率密度函数p(x)独立同分布(i.i.d.)的抽取而得到的。整理ppt一个向量x落在区域R中的概率为3.2非参数估计P是概率密度函158其中k个样本落在区域R中的概率服从二项式定理:3.2非参数估计k的期望值为整理ppt其中k个样本落在区域R中的概率服从二项式定理:3.2非参数估159k的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k/n就是概率P的一个很好的估计。当样本个数n非常大时估计将非常准确。如果假设p(x)是连续的,并且区域R足够小,以至于在这个区间中p几乎没有变化,那么有3.2非参数估计整理pptk的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k160其中x为一个点,而V则是区域R所包含的体积。得到p(x)的估计为3.2非参数估计整理ppt其中x为一个点,而V则是区域R所包含的体积。得到p(x)161区域R的体积R中的点固定越来越多在概率上收敛p(x)的平均估计R足够小3.2非参数估计整理ppt区域R的体积R中的点固定越来越多在概率上收敛p(x)的平均估162估计x点的密度构造一串包括x的区域序列R1,R2,…,Rn,…对R1,采用一个样本估计对R2,采用两个样本估计……设Vn是Rn的体积,kn是落入Rn中的样本数p(x)的第n次估计3.2非参数估计整理ppt估计x点的密度p(x)的第n次估计3.2非参数估计整理ppt163满足pn(x)收敛于p(x)^→p(x)3.2非参数估计整理ppt满足pn(x)收敛于p(x)^→p(x)3.2非参数估计整理164有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个确定的体积函数来逐渐收缩一个给定的初始区间。第二种方法是确定kn为n的某个函数,这样,体积就必须逐渐生长,直到最后能包含进x的kn个相邻点,这就是kn-近邻法”。这两种方法最终都能够收敛,但是却很难预测它们在有限样本情况下的效果。3.2非参数估计整理ppt有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个165这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计出测试样本点处的真正的概率密度函数。3.2非参数估计根据某个函数逐渐缩小区域面积缩小区域面积的方式依赖于样本点的整理ppt这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计166两种非参数方法:Parzen窗法:使区域序列的体积Vn按n的某个函数随n的增大的关系不断缩小,如Vn=V1/√n,而对kn和kn/n加以限制使^pn(x)收敛于p(x)3.2非参数估计整理ppt两种非参数方法:^pn(x)收敛于p(x)3.2非参数估计整167两种非参数方法:kn近邻估计:使kn为n的某个函数随N的增大而变大,如kn=√n,而Vn的选取使相应的Rn是只包含kn个近邻点的最小区域,其体积可以作为x点密度估计时的最小Vn。3.2非参数估计整理ppt两种非参数方法:3.2非参数估计整理ppt168两种常用的核(窗)函数:均匀核(窗):
x
=(x1,x2,…,xd)∈Rd-1/21/23.2非参数估计整理ppt两种常用的核(窗)函数:-1/21/23.2非参数估计整理p169正态(高斯)核:3.2非参数估计-220核函数要满足概率密度函数的条件。整理ppt正态(高斯)核:3.2非参数估计-220核函数要满足概率密度170Parzen窗法:把核函数看作“窗”,根据样本
x1,
x2,…,
xn,若xi落入以x为中心,以hn为棱长的超立方体Rn中,则计数为1,否则为0,则落入立方体Rn中的样本数3.2非参数估计整理pptParzen窗法:把核函数看作“窗”,根据样本x1,x2171根据hN是控制“窗”宽度的参数,根据样本的数量选择。这就是Parzen窗方法。叠加函数叠加基函数使用kn个以样本xi为中心的窗函数叠加对x处的概率密度进行估计。样本较密集的区域上概率密度值较大。3.2非参数估计整理ppt根据hN是控制“窗”宽度的参数,根据样本的数量选择。这就是P172窗函数一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年绵阳市盐亭县公开考核招聘医疗卫生专业技术人员10人备考题库有答案详解
- 2026年河北民族师范学院招聘备考题库及答案详解1套
- 2026年湖南医发投养老产业有限公司子公司高级管理人员社会公开招聘备考题库带答案详解
- 中诚建川(凉山)电力有限公司公开招聘20名工作人员备考题库及1套完整答案详解
- 2026年易门县华亿投资有限责任公司公开招聘10名工作人员的备考题库及参考答案详解一套
- 2026年江西省财投供应链金融有限公司招聘备考题库及参考答案详解一套
- 2026年浙大城市学院公开招聘劳务派遣工作人员7人备考题库(六)完整答案详解
- 中央团校(中国青年政治学院)2026年度社会人员公开招聘10人备考题库及参考答案详解1套
- 2026年深圳市南山区城市花园幼儿园招聘备考题库及完整答案详解1套
- 2026年齐齐哈尔市总工会工会社会工作者招聘备考题库及答案详解一套
- 2025至2030年中国水泥基渗透结晶型堵漏材料市场分析及竞争策略研究报告
- 压力变送器拆校课件
- 2025年高考真题分类汇编必修二 《经济与社会》(全国)(原卷版)
- 2026届高考英语二轮复习:2025浙江1月卷读后续写 课件
- 电子屏安全培训课件
- 2.3.2 中国第一大河-长江 课件 湘教版地理八年级上册
- 妇科临床路径课件
- 2025贵州省某大型国有企业招聘光伏、风电项目工作人员笔试备考题库及答案解析
- 导致老年人跌倒的用药风险研究
- 高空作业生命绳安全使用规范
- GB 21256-2025粗钢生产主要工序单位产品能源消耗限额
评论
0/150
提交评论