概率密度函数参数估计_第1页
概率密度函数参数估计_第2页
概率密度函数参数估计_第3页
概率密度函数参数估计_第4页
概率密度函数参数估计_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别 概率密度函数的参数估计 概率密度函数参数估计 第三章第三章 概率密度函数的概率密度函数的 参数估计参数估计 模式识别 概率密度函数的参数估计 概率密度函数参数估计 3.0 引言引言 贝叶斯分类器的学习:类条件概率密度函数的贝叶斯分类器的学习:类条件概率密度函数的 估计。估计。 问题的表示:已有问题的表示:已有c个类别的训练样本集合个类别的训练样本集合D1, D2,Dc,求取每个类别的类条件概率密,求取每个类别的类条件概率密 度度 。i px 模式识别 概率密度函数的参数估计 概率密度函数参数估计 概率密度函数的估计方法概率密度函数的估计方法 参数估计方法:预先假设每一个类别的概参数估

2、计方法:预先假设每一个类别的概 率密度函数的形式已知,而具体的参数未率密度函数的形式已知,而具体的参数未 知;知; 最大似然估计最大似然估计(MLE, Maximum Likelihood Estimation); 贝叶斯估计贝叶斯估计(Bayesian Estimation)。 非参数估计方法。非参数估计方法。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 3.1 最大似然估计最大似然估计 独立同分布假设:样本集独立同分布假设:样本集D中包含中包含n个样本:个样本:x1, x2, , xn,样本都是,样本都是独立同分布独立同分布的随机变量的随机变量(, independent id

3、entically distributed)。 对类条件概率密度函数的函数形式作出假设,参对类条件概率密度函数的函数形式作出假设,参 数可以表示为参数矢量数可以表示为参数矢量: , ii px 模式识别 概率密度函数的参数估计 概率密度函数参数估计 似然函数似然函数 样本集样本集D出现的概率:出现的概率: 12 1 , n ni i p Dpp x xx x 对数似然函数:对数似然函数: 1 lnln n i i lp Dp x 模式识别 概率密度函数的参数估计 概率密度函数参数估计 最大似然估计最大似然估计 最大似然估计:寻找到一个最优矢量最大似然估计:寻找到一个最优矢量 ,使,使 得似然函

4、数得似然函数 最大。最大。 argmaxl l 模式识别 概率密度函数的参数估计 概率密度函数参数估计 正态分布的似然估计正态分布的似然估计 Gauss分布的参数:由均值矢量分布的参数:由均值矢量和协方和协方 差矩阵差矩阵构成,最大似然估计结果为:构成,最大似然估计结果为: 1 1 n t ii i n xx 1 1 n i i n x 模式识别 概率密度函数的参数估计 概率密度函数参数估计 3.2 期望最大化算法期望最大化算法(EM算法算法) EM算法的应用可以分为两个方面:算法的应用可以分为两个方面: 训练样本中某些特征丢失情况下,分布参数训练样本中某些特征丢失情况下,分布参数 的最大似然

5、估计;的最大似然估计; 1. 对某些复杂分布模型假设,最大似然估计很对某些复杂分布模型假设,最大似然估计很 难得到解析解时的迭代算法。难得到解析解时的迭代算法。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 混合密度模型混合密度模型 混合密度模型:一个复杂的概率密度分布函混合密度模型:一个复杂的概率密度分布函 数可以由多个简单的密度函数混合构成:数可以由多个简单的密度函数混合构成: 1 , M iii i pa p x x 高斯混合模型:高斯混合模型:GMM,Gauss Mixture Model 1 ; M iii i pa N xx , 1 1 M i i a 模式识别 概率密度

6、函数的参数估计 概率密度函数参数估计 两个高斯函数的混合两个高斯函数的混合 0.710,20.3 (5,3)p xNN 模式识别 概率密度函数的参数估计 概率密度函数参数估计 样本的产生过程样本的产生过程 高斯模型样本的产生:每一个样本都是按高斯模型样本的产生:每一个样本都是按 照正态分布产生的;照正态分布产生的; GMM样本的产生:先按照先验概率样本的产生:先按照先验概率ai选择选择 一个子类,然后按照这个子类满足的正态一个子类,然后按照这个子类满足的正态 分布产生样本。分布产生样本。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 GMM模型产生的模型产生的2维样本数据维样本数据

7、模式识别 概率密度函数的参数估计 概率密度函数参数估计 GMM模型的参数估计模型的参数估计 GMM的参数:的参数: 1211 , MMM a aa 参数估计:已知样本参数估计:已知样本x1,xn,估计参数,估计参数。 存在的问题:每个样本是由哪一个子集产存在的问题:每个样本是由哪一个子集产 生的未知。生的未知。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 12 12 xxx n n yyy 1 11 11 1 x xx n it t nn ittt tt nn t ittitit tt aI yi n I yiI yi I yiI yi argmax;,x titii i ya N

8、 训练样本:训练样本: 来自子类:来自子类: 已知已知y的条件下,参数的估计:的条件下,参数的估计: 已知参数条件下,已知参数条件下,y的估计:的估计: K-mean算法算法 模式识别 概率密度函数的参数估计 概率密度函数参数估计 存在的问题:样本存在的问题:样本xt可能来自于任何一个子类,但可能来自于任何一个子类,但 在参数估计时只出现在一个子类中。在参数估计时只出现在一个子类中。 修改计算过程:修改计算过程: 1 11 11 1 x xx n it t nn ittt tt nn t ittitit tt aP yi n P yiP yi P yiP yi 1 ;,;,x x M titi

9、iitii i P yia Na N EM算法算法 模式识别 概率密度函数的参数估计 概率密度函数参数估计 GMM的参数估计算法的参数估计算法(EM) 随机初始化参数:随机初始化参数: 计算:计算: 重新估计参数重新估计参数 ; 迭代计算迭代计算2,3步,直到收敛为止。步,直到收敛为止。 t P yi 1211 , MMM a aa 模式识别 概率密度函数的参数估计 概率密度函数参数估计 EM算法的性质算法的性质 收敛性:收敛性:EM算法具有收敛性;算法具有收敛性; 最优性:最优性:EM算法只能保证收敛于似然函数算法只能保证收敛于似然函数 的局部最大值点(极值点),而不能保证的局部最大值点(极

10、值点),而不能保证 收敛于全局最优点。收敛于全局最优点。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 基本基本EM算法算法 样本集:令样本集:令X是观察到的样本数据集合,是观察到的样本数据集合,Y为为 丢失的数据集合,完整的样本集合丢失的数据集合,完整的样本集合D=X Y。 p DpX,Y lnllDlp X,YX,Y 似然函数:由于似然函数:由于Y未知,在给定参数未知,在给定参数时,时,似似 然函数可以看作然函数可以看作Y的函数:的函数: 模式识别 概率密度函数的参数估计 概率密度函数参数估计 基本基本EM算法算法 由于由于Y未知,因此我们需要寻找到一个在未知,因此我们需要寻找到

11、一个在Y的的 所有可能情况下,平均意义下的似然函数最所有可能情况下,平均意义下的似然函数最 大值,即似然函数对大值,即似然函数对Y的期望的最大值:的期望的最大值: 11 , ii QEl Y X,Y X 1 argmax ii Q 1 ln, i Ep Y X,Y X E步:步: M步:步: 模式识别 概率密度函数的参数估计 概率密度函数参数估计 基本基本EM算法算法 begin initialize ,T,i0; do ii+1 E步:计算步:计算 ; ; M步:步: until return 0 1i Q 11iiii QQT 1 i 1 argmax ii Q 模式识别 概率密度函数的参

12、数估计 概率密度函数参数估计 隐含隐含Markov模型模型 (Hidden Markov Model, HMM) 应用领域:识别对象存在着先后次序信息,应用领域:识别对象存在着先后次序信息, 如语音识别,手势识别,唇读系统等;如语音识别,手势识别,唇读系统等; 模式描述:特征矢量序列。模式描述:特征矢量序列。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 输入语音波形输入语音波形 模式识别 概率密度函数的参数估计 概率密度函数参数估计 观察序列观察序列 观察序列:信号的特征需要用一个特征矢观察序列:信号的特征需要用一个特征矢 量的序列来表示:量的序列来表示: 12 , T T Vv

13、vv 其中的其中的vi为一个特征矢量,称为一个观察值。为一个特征矢量,称为一个观察值。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 一阶一阶Markov模型模型 状态序列的产生状态序列的产生:一阶:一阶Markov模型由模型由M个状个状 态构成,在每个时刻态构成,在每个时刻t,模型处于某个状态,模型处于某个状态 w(t),经过,经过T个时刻,产生出一个长度为个时刻,产生出一个长度为T的的 状态序列状态序列WT=w(1),w(T)。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 一阶一阶Markov模型的状态转移模型的状态转移 Markov性:模型在时刻性:模型在时刻t处于

14、状态处于状态wj的概率完全的概率完全 由由t-1时刻的状态时刻的状态wi决定,而且与时刻决定,而且与时刻t无关,即:无关,即: 1 T P w t WP w tw t 1 jiij P w tw ta 模式识别 概率密度函数的参数估计 概率密度函数参数估计 Markov模型的初始状态概率模型的初始状态概率 模型初始于状态模型初始于状态wi的概率用的概率用 表示。表示。 模型参数:一阶模型参数:一阶Markov模型可以用参数模型可以用参数 表示,其中:表示,其中: i ,A 1, , M 11121 21222 12 M M MMMM aaa aaa A aaa 模式识别 概率密度函数的参数估计

15、 概率密度函数参数估计 一阶一阶Markov模型输出状态序列模型输出状态序列 的概率的概率 输出状态序列的概率:由初始状态概率与各次状输出状态序列的概率:由初始状态概率与各次状 态转移概率相乘得到。态转移概率相乘得到。 例如:例如:W5=w1, w1, w3, w1, w2,则模型输出该序,则模型输出该序 列的概率为:列的概率为: 5 111133112 P Wa a a a 模式识别 概率密度函数的参数估计 概率密度函数参数估计 一阶隐含一阶隐含Markov模型模型 隐含隐含Markov模型中,状态是不可见的,在模型中,状态是不可见的,在 每一个时刻每一个时刻t,模型当前的隐状态可以输出,模

16、型当前的隐状态可以输出 一个观察值。一个观察值。 隐状态输出的观察值可以是离散值,连续隐状态输出的观察值可以是离散值,连续 值,也可以是一个矢量。值,也可以是一个矢量。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM的工作原理的工作原理 观察序列的产生过程:观察序列的产生过程:HMM的内部状态转移过程同的内部状态转移过程同 Markov模型相同,在每次状态转移之后,由该状态输模型相同,在每次状态转移之后,由该状态输 出一个观察值,只是状态转移过程无法观察到,只能出一个观察值,只是状态转移过程无法观察到,只能 观察到输出的观察值序列。观察到输出的观察值序列。 输出概率:以离散的输

17、出概率:以离散的HMM为例,隐状态可能输出的观为例,隐状态可能输出的观 察值集合为察值集合为v1, v2, , vK,第,第i个隐状态输出第个隐状态输出第k个观个观 察值的概率为察值的概率为bik。 例如:例如:T=5时,可能的观察序列时,可能的观察序列V5=v3v2v3v4v1 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM的工作过程的工作过程 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM的参数表示的参数表示 状态转移矩阵:状态转移矩阵:A,M*M的方阵;的方阵; 状态输出概率:状态输出概率:B,M*K的矩阵;的矩阵; 初始概率:初始概率:,包括,包括M个元

18、素。个元素。 M个状态,个状态,K个可能的输出值。个可能的输出值。 , A B 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM的三个核心问题的三个核心问题 估值问题:已有一个估值问题:已有一个HMM模型,其参数已知,模型,其参数已知, 计算这个模型输出特定的观察序列计算这个模型输出特定的观察序列VT的概率;的概率; 解码问题:已有一个解码问题:已有一个HMM模型,其参数已知,模型,其参数已知, 计算最有可能输出特定的观察序列计算最有可能输出特定的观察序列VT的隐状态的隐状态 转移序列转移序列WT; 学习问题:已知一个学习问题:已知一个HMM模型的结构,其参数模型的结构,其参数

19、未知,根据一组训练序列对参数进行训练;未知,根据一组训练序列对参数进行训练; 模式识别 概率密度函数的参数估计 概率密度函数参数估计 估值问题估值问题 一个一个HMM模型产生观察序列模型产生观察序列VT可以由下式计算:可以由下式计算: max 1 , r TTTT rr r P VP VWP W rmax=MT为为HMM所有可能的状态转移序列数;所有可能的状态转移序列数; 为状态转移序列为状态转移序列 输出观察序列输出观察序列 的的 概率;概率; 为为 状态转移序列状态转移序列 发生的概率。发生的概率。 , TT r P VW T r P W T r W T V T r W 模式识别 概率密度

20、函数的参数估计 概率密度函数参数估计 估值问题的计算估值问题的计算 112231 rrrrrrr T rwwwwww Tw T P Waaa 12 ,12 rrr TT rwww T P V Wbvbvbv T max 11122 1 12 rrrrr r T wwwww r P Vbvabv 1 rrr w Tw Tw T abv T 计算复杂度:计算复杂度: T O M T 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM估值算法的简化估值算法的简化 模式识别 概率密度函数的参数估计 概率密度函数参数估计 HMM的前向算法的前向算法 初始化:初始化: 迭代计算:迭代计算: 结

21、束输出:结束输出: 11,1, iii bviM 1 11 ,1, M ijjii j tt ab v tiM 1 M T i i P VT 计算复杂度:计算复杂度: 2 O M T 模式识别 概率密度函数的参数估计 概率密度函数参数估计 解码问题解码问题 解码问题的计算:同估值问题的计算类似,解码问题的计算:同估值问题的计算类似, 最直观的思路是遍历所有的可能状态转移序最直观的思路是遍历所有的可能状态转移序 列,取出最大值,计算复杂度为:列,取出最大值,计算复杂度为:O(MTT)。 同样存在着优化算法:同样存在着优化算法:Viterbi算法。算法。 模式识别 概率密度函数的参数估计 概率密度

22、函数参数估计 Viterbi算法算法 因为需要回朔最优路径,所以建立一个矩阵因为需要回朔最优路径,所以建立一个矩阵,其元,其元 素素 保存第保存第t t步,第步,第i i个状态在第个状态在第t-1t-1步的最优状态。步的最优状态。 t i 初始化:初始化: 迭代计算:迭代计算: 结束:结束: 路径回朔:路径回朔: 11,1, iii bviM 1 0i 1 1max1 ,1, ijjii j M tt ab v tiM 1 1arg max ijji j M tt a * 1 max, T j j M PVT * 1 argmax j j M wTT * * 1 1 wt wtt 模式识别 概

23、率密度函数的参数估计 概率密度函数参数估计 Viterbi算法图示算法图示 模式识别 概率密度函数的参数估计 概率密度函数参数估计 学习问题学习问题 HMM的学习问题:的学习问题: 已知一组观察序列已知一组观察序列(训练样本集合训练样本集合): 12 12 , n TTT n VVVV 如何确定最优的模型参数如何确定最优的模型参数,使得模型产生训,使得模型产生训 练集合练集合V V的联合概率最大的联合概率最大 max P V 这同样是一个最大似然估计问题,需要采用这同样是一个最大似然估计问题,需要采用EMEM算算 法。法。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 图示图示 模式

24、识别 概率密度函数的参数估计 概率密度函数参数估计 变量说明变量说明 :表示在:表示在t-1时刻时刻HMM处于状态处于状态i,并且从,并且从 1t-1时刻之间产生观察序列时刻之间产生观察序列V1 t-1的概率; 的概率; :表示在:表示在t时刻时刻HMM处于状态处于状态j,并且从,并且从 t+1T时刻之间产生观察序列时刻之间产生观察序列Vt+1 T的概率; 的概率; 1 i t j t 11 iii b v 1 121 M ijjii j ttab v t 1 j T 1 11 M jjiij i tatbv t 模式识别 概率密度函数的参数估计 概率密度函数参数估计 变量说明变量说明 输出观

25、察序列输出观察序列VT时,在时,在t-1时刻时刻HMM处于处于i状状 态,在时刻态,在时刻t处于处于j状态的概率:状态的概率: 1 iijjj ij T ta bv tt t P V 模式识别 概率密度函数的参数估计 概率密度函数参数估计 前向前向-后向算法后向算法(Baum-Welch算法算法) 迭代公式:迭代公式: 初始概率:初始概率: 状态转移概率:状态转移概率: 输出概率:输出概率: 1 1 M iij j 1 11 T ij t ijTM ik tk t a t 1,1 11 k TM il tv tvl ikTM il tl t b v t 模式识别 概率密度函数的参数估计 概率密

26、度函数参数估计 HMM的其它问题的其它问题 连续连续HMM模型:在观察序列中每个观察值是一个特征模型:在观察序列中每个观察值是一个特征 矢量,相应的模型中输出概率矢量,相应的模型中输出概率b就需要用一个概率密度就需要用一个概率密度 函数描述,其函数形式需要假设,通常使用函数描述,其函数形式需要假设,通常使用GMM。 训练问题:通常可以用每个训练样本分别计算训练问题:通常可以用每个训练样本分别计算值,然值,然 后分子和分母部分分别进行累加,最后统一进行参数修后分子和分母部分分别进行累加,最后统一进行参数修 正;正; 模型的拓扑结构:模型结构可以根据实际问题的需要来模型的拓扑结构:模型结构可以根据

27、实际问题的需要来 设计,在初始化状态转移矩阵设计,在初始化状态转移矩阵A时,将某些元素设为时,将某些元素设为0 即可。即可。 模式识别 概率密度函数的参数估计 概率密度函数参数估计 “左左-右右”模型结构模型结构 123 模式识别 概率密度函数的参数估计 概率密度函数参数估计 带跨越的带跨越的“左左-右右”结构结构HMM模型模型 1234 模式识别 概率密度函数的参数估计 概率密度函数参数估计 3.3 贝叶斯估计贝叶斯估计 为什么要采用贝叶斯估计?为什么要采用贝叶斯估计? 贝叶斯估计与最大似然估计有什么差别?贝叶斯估计与最大似然估计有什么差别? 模式识别 概率密度函数的参数估计 概率密度函数参

28、数估计 贝叶斯估计与最大似然估计的差别贝叶斯估计与最大似然估计的差别 观点不同:观点不同: 最大似然估计认为最大似然估计认为是一个确定的未知矢量是一个确定的未知矢量; ; 贝叶斯估计认为贝叶斯估计认为是一个随机是一个随机矢量矢量。 过程不同:过程不同: 最大似然估计:样本集最大似然估计:样本集D D 估计最优参数估计最优参数* *; 贝叶斯估计:样本集贝叶斯估计:样本集D D和先验分布和先验分布p(p() ) 估计参数估计参数 的后验分布的后验分布p(p(|D)|D); 优点:提高小样本集条件下的估计准确率;优点:提高小样本集条件下的估计准确率; 缺点:计算复杂缺点:计算复杂 模式识别 概率密度函数的参数估计 概率密度函数参数估计 贝叶斯估计的一般理论贝叶斯估计的一般理论 ,pDpD dppD d xx x 识别过程:类条件概率密度的计算识别过程:类条件概率密度的计算 1 1 n i i n i i pp p Dp pD p Dpd

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论