模式识别课程讲义（李君宝）3 概率密度函数估计-3学时

上传人：r*** IP属地：湖北上传时间：2026-05-07 格式：PPTX 页数：70 大小：3.53MB 积分：22 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

哈尔滨工业大学主讲人：李君宝第3章概率密度函数估计主要内容

引言参数估计正态分布的参数估计非参数估计EM算法(期望最大化算法)本章小结引言

【引言】贝叶斯决策公式

【引言】

算法基本步骤【引言】

存在的问题：【引言】

问题的解决【引言】

参数估计的分类【引言】

参数估计的基本概念参数估计

【参数估计】

最大似然估计贝叶斯估计贝叶斯学习【最大似然估计】基本假设【最大似然估计】基本概念【最大似然估计】基本概念【最大似然估计】基本原理【最大似然估计】估计量估计值

【最大似然估计】一元参数【最大似然估计】多元参数【最大似然估计】例子（梯度法不适合）：不成功！【贝叶斯估计】采用最小风险贝叶斯决策【贝叶斯估计】【举例】假设结论：【贝叶斯估计】【贝叶斯学习】【三种方法总结】【三种方法总结】正态分布的参数估计

【最大似然估计】基本假设【最大似然估计】单元正态分布：

多元正态分布：最大似然估计方程：其中【贝叶斯估计】【贝叶斯估计】非参数估计

【基本思想】令R是包含样本点x的一个区域，其体积为V，设有n个训练样本，其中有k个落在区域R中，则可对概率密度作出一个估计：相当于用R区域内的平均性质来作为一点x的估计，是一种数据的平滑。【基本思想】当n固定时，V的大小对估计的效果影响很大，过大则平滑过多，不够精确；过小则可能导致在此区域内无样本点，k=0。此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。构造一系列包含x的区域R1,R2,…，对应n=1,2,…，则对p(x)有一系列的估计：当满足下列条件时，pn(x)收敛于p(x)：Parzen窗法：区域体积V是样本数n的函数，如：K-近邻法：落在区域内的样本数k是总样本数n的函数，如：【Parzen窗法和K-近邻法】【Parzen窗法和K-近邻法】定义窗函数【Parzen窗法】超立方体中的样本数：【Parzen窗法】概率密度估计：上述过程是一个内插过程，样本xi距离x越近，对概率密度估计的贡献越大，越远贡献越小。只要满足如下条件，就可以作为窗函数：【Parzen窗法】【Parzen窗法】窗函数hn称为窗的宽度【Parzen窗法】【Parzen窗法】保存每个类别所有的训练样本；选择窗函数的形式，根据训练样本数n选择窗函数的h宽度；识别时，利用每个类别的训练样本计算待识别样本x的类条件概率密度：采用Bayes判别准则进行分类。【Parzen窗法】EM(期望最大化)算法1EM算法的介绍2EM算法依据的理论3EM算法的不足和改进的算法4EM算法举例【EM算法】EM英文叫expectation-maximization，是一种聚类算法。

（即根据给定观察数据自动对数据进行分类）EM算法是Dempster,Laird和Rubin(DLR)三个人在1977年正式提出的，主要是用于在不完全数据的情况下计算最大似然估计。在EM算法正式提出以来，对EM算法的性质有更加深入的研究，并且在此基础上，提出了很多改进的算法。EM算法在数理统计，数据挖掘，机器学习以及模式识别等领域有广泛的应用。【1

EM算法的介绍】极大拟然估计法引例:某位同学与一位猎人外出打猎，一只野兔从前方窜过，只听一声枪响，野兔应声倒下，如果要你推测，这一发命中的子弹是谁打的？你就会想，只发一枪便打中，由于猎人命中的概率一般大于这位同学命中的概率，看来这一枪是猎人命中的。这个例子所作的推断就体现了极大拟然法的基本思想。【2

EM算法的理论依据】极大拟然法的定义观测变量X，针对n个观测样本为(

x1,x2,…,xn）,它们之间满足独立同分布，参数变量为模型的一系列参数但是在某些问题中由于存在隐含的随机变量Z

所以【2

EM算法的理论依据】EM收敛到最大似然的2种证明第一种证明是通过不断提高下界的思路来证，更能表达EM的本质；而第二种证明却是我们常在实际中应用EM的思路。(1)拆分(2)等式两边同乘以q(Z)，并对Z求和（积）：【2

EM算法的理论依据】(3)由于Z与独立.且，于是，(4)引入两个函数：这时，可以简化为：【2

EM算法的理论依据】2、Expectation：依次取观察数据x，比较x在K个高斯函数中概率的大小，把x归类到这K个高斯中概率最大的一个。1、用随机函数初始化K个高斯分布的参数，同时保证EM算法过程：【2

EM算法的理论依据】4、返回第2步用第3步新得到的参数来对观察数据x重新分类。直到下式概率（最大似然函数）达到最大。Maximum3、用最大似然估计，即简单问题的求法。【2

EM算法的理论依据】【2

EM算法的理论依据】EM主要缺点EM算法比K-means算法计算复杂，收敛速度慢算法高度依赖初始值的选择，不适于大规模数据集和高维数据

改进的算法PX-EMCLiu,DBRubinandWu.(1997).ParameterExpansiontoAccelerateEM---thePX—Emalgorithm.XliMeng,DBRubin.(1993).MaximumlikelihoodestimationviatheECMalgorithm:Ageneralframework.CLiu,DBRubin.(1994).TheECMEalgorithm:AsimpleextensionofEMandECMwithfastermonotoneconvergence.【3EM算法的不足和改进的算法】VariationalEM有些时候，是不能显式的计算出来，这个时候最大化就显得相当困难。这个时候，可以考虑不一定保证Jensen不等式一定要取等号，如果给定某种形式，就得到variationalEM算法。EMforMAP上面讲的是针对MLE估计的EM算法，其实也有针对MAP估计的EM算法。OnlineEM上面讲的是EM可以归于batchEM一类，还有文献介绍关于onlineEM的论述。可以在文献[2]中阅读到有关onlineEM的内容。【3EM算法的不足和改进的算法】EM算法就是通过迭代地最大化完整数据的对数似然函数的期望，来最大化不完整数据的对数似然函数。当然，针对各种EM的变形，它们又有各自的应用景。举例：设有n个样本，它们是由高斯混合分布产生；高斯混合分布是由k个不同的高斯分布混合生成，每个分布都相互独立。用EM算法估计高斯混合分布参数：确定每个高斯分布的（1）均值和（2）方差及（3）先验概率；【4

EM算法举例】极大似然估计与EM算法的关系计算极大似然估计(maximumlikelihoodestimate,MLE)，需要求似然函数的极值解析法:如求正态分布均值和方差的MLE数值计算：如高斯混合模型EM算法【4

EM算法举例】极大似然估计(MLE)独立同分布(IID)的数据其概率密度函数为似然函数定义为log似然函数定义为其极大似然估计为【4

EM算法举例】完整数据观测数据：观测到的随机变量的IID样本缺失数据：未观测到的随机变量的值在GMM中，若来自第k个成分，则完整数据：包含观测到的随机变量和未观测到的随机变量的数据，【4

EM算法举例】完整似然函数若隐含变量的值已知，得到完整数据的log似然函数为：【4

EM算法举例】步骤1.EM—Expectation观测数据X已知，参数的当前值已知，在完整似然函数中，缺失数据(隐含变量)Y未知，完整log似然函数对Y求期望。定义其中是待确定的参数通过求期望，去掉了完整似然函数中的变量Y。即EM的E步。【4

EM算法举例】步骤2.EM—Maximization对E步计算得到的完整似然函数的期望求极大值（EM的M步），得到参数新的估计值，即每次参数更新会增加非完整似然值反复迭代后，会收敛到似然的局部最大值【4

EM算法举例】EM的收敛性其中，当Q取极大值时，观测数据的似然也在相同点取极大值EM算法会收敛到似然的局部极大值【4

EM算法举例】混合模型中的EM算法完整似然函数：根据贝叶斯公式，Y的条件分布：【4

EM算法举例】混合

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模式识别课程讲义（李君宝）3 概率密度函数估计-3学时

文档简介

温馨提示

最新文档

评论

模式识别课程讲义（李君宝）3 概率密度函数估计-3学时

文档简介

温馨提示

最新文档

评论

相关文档