【《狄利克雷过程混合模型概述》2500字】_第1页
【《狄利克雷过程混合模型概述》2500字】_第2页
【《狄利克雷过程混合模型概述》2500字】_第3页
【《狄利克雷过程混合模型概述》2500字】_第4页
【《狄利克雷过程混合模型概述》2500字】_第5页
免费预览已结束,剩余2页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

狄利克雷过程混合模型概述目录TOC\o"1-3"\h\u15317狄利克雷过程混合模型概述 1294891.1模型介绍 197161.2Gibbs抽样 31.1模型介绍由于DP分布的离散性,所以它并不适合连续型变量的密度估计。这个限制可以通过利用某个连续核对它的轨迹进行卷积,也就是说,对有限维参数分布的混合分布的混合权重分布设定DP先验。具体地,让表示有限维参数空间,对于,表示以为参数的分布。那么在给定上的概率分布,的混合分布为。这样的混合分布可以近似表示很多分布。比如让,并让,其中是某一固定的密度,这样的混合分布能在的意义下近似任何密度,如果我们允许趋近于0的话(Lo,1984)。那么,对任何密度分布设定先验可以等价地变成对混合权重分布设定DP先验,这样的模型便是著名的狄利克雷过程混合DPM。 (2-6)等价地我们可以写成分层模型的形式。分层模型对每个样本引入了隐变量,两种模型显然是等价的,只要我们把积掉即可。 (2-7)在这个分层模型下,的后验分布是DP的混合分布(Antoniak,1974) (2-8)其中,。合适的核函数的选择取决于观测值所在的样本空间。如果样本密度函数定义在整条实线上,那么由位置和刻度决定的核函数就是合适的,比如正态核函数。如果是在0到1区间,贝塔分布就是合理的选择。而在正实轴上,伽马分布、韦伯分布或对数正态都是合适的。上述模型(2-7)可以用stickbreaking的形式来表述 (2-9)这里,变量是一个整数,用来表示到底属于哪一类。所在类的参数为,GEM(M)表示权重的分布,以Griffiths(1979)、Engen(2013)和McCloskey(1965)三人首字母组合命名的,这与stickbreaking的构造分布是一样的。实际上,DPM是有限混合分布的非参形式的推广。当趋于无穷时,有限混合分布的极限便是DPM,这使得我们可以利用有限混合分布来近似DPM,在后验抽取时对有限混合分布抽取。 (2-10)混合模型很方便,因为我们可以在给定样本观测值下通过MCMC抽取类标识变量。如果似然函数和基准分布是共轭的,那么抽样就很容易实现。Neal(2000)对DPM的MCMC抽样给出了多种抽样算法,我们称之为边际Gibbs抽样,因为这些抽样方法把随机分布积掉了。而Ishwaran和James(2001)基于DP的stickbreaking表示形式提出分块Gibbs抽样,在实际中该种方法通常表现更好。下面我们将具体阐述边际Gibbs和分块Gibbs抽样算法和特点。1.2Gibbs抽样 首先是边际Gibbs抽样,我们首先考虑似然函数和基准分布是共轭的情况,主要有三种算法。算法1:定义一个状态空间为的Gibbs抽样,在每个迭代中,抽样 其中首先注意到,给定,独立于,的先验是Blackwell-MacQueen罐子,是可交换的,所以的分布便是罐子模型的预测规则。 (2-11)我们可以通过贝叶斯定理得到,只要将上述分布乘以似然函数即可:(2-12) 其中分布,是归一化常数。如果等于已经存在的类中,那么似然函数便是。另一方面,如果取新的值,那么我们把的似然函数与进行积分。然而算法1效率非常低,因为每次迭代中,我们需要对每个样本点对应的参数都进行更新,显然当样本量很大时,这种更新是很慢的,因此在实际中我们一般不用这种算法1,而是主要使用下面的算法2或算法3。算法2:定义一个状态空间为的Gibbs抽样,在每次迭代中,先抽 (2-13)再抽, (2-14)其中假设个样本共聚成类,每类参数为,由表示聚成的第类的样本集合,表示在中属于类的个数。如果我们对的推断不敢兴趣,仅关心聚类的情况,那么我们可以把积掉,便有了算法3。算法3:定义一个状态空间为的Gibbs抽样,在每次迭代中,抽取 (2-15)其中表示给定中属于类的样本下的后验分布,即事实上(2-16) 我们可以看到分子分母仅差了一项,即分子多个的似然函数,观察到这一点极大便于我们化简公式。当似然函数和基准分布不是共轭时,我们不能直接使用上述三种算法。对于抽取,我们可以使用Metropolis-Hastings(以下简称MH)马尔可夫链来近似抽取该分布。而在为新类时,我们需要计算的边际分布,而在非共轭的情形下,边际分布通常没有解析形式。尽管我们可以使用数值模拟的形式来近似该积分,但这种方法精度很低,所以Neal(2000)通过引入辅助变量提出著名的算法8来应对非共轭的情况。接下来是分块Gibbs抽样。它的主要思想是在Gibbs抽样中加入stickbreaking的权重。我们考虑有限混合分布,其中权重在stickbreaking机制中的第步截断,即 (2-17)其中,,分块Gibbs算法:状态空间为先后抽取如下分布:1.2.3.如果是共轭的,那么抽取(1)中的分布是简单的,否则我们可以使用MH算法来近似抽取。抽取(2)中联合分布也很简单,因为我们给定了。具体地,我们独立抽取每个,其中最后,给定,的后验分布也是一个stickbreaking过程, (2-18)其中,,,且是每个类的大小。该算法之所以比边际Gibbs抽样更快收敛,是因为他在第二步时一下子抽取全部类别标识符,这使它更容易地彻底改变聚类结构。当我们让趋于无穷时,该模型便收敛为DPM,而这并不同于之前定义的有限混合模型。两个模型的差异在于,在截断stickbreaking机制,权值倾向于变小。这使得它有可能为非参模型定义Gibbs抽样。除了上面提到的算法,我们还有slicing算法、变分推断等方法。另外在实际建模中,似然函数可能还取决于其它,。比如当是正态分布的时候,由均值和方差决定,常见设定是的分布,服从InverseGamma分布。更一般地我们会对超参数和来自的参数设定合适的先验,在上述几个算法中,我们只要加入这些新参数的抽取过程即可,具体可参见Ghosal和derVaart(2017)。关于DPM的应用有很多,最经典的一个应用是聚类,不同于频率学派一般的聚类方法,它不用事先设定聚类的个数就能在数据驱动下识别正确类别的个数并将数据聚到正确的类别,如图2-2所示。我们看到在左边两个类容易混成一类的情况,DPM依然可以正确地识别这两类样本出来。DPM在机器学习领域有着广泛的应用。Shahbaba和Neal(2009)利用DPM对响应变量y和自变量x的联合分布建模,在每个组中,保持y和x之间的线性关系(即对于回归问题,y与x由多元线性回归建模,对于分类问题,y与x由线性分类器多项式logistic回归建模)。尽管局部上是线性的,但是在有多个组的时候,整体的关系就变成非线性了。而且通过将观测数据划分不同的组中,该模型有可能发现数据的潜在结构。Hannah等(2011)推广了该模型,y与x之间由广义线性模型建模。该模型DP-GLM能比现有的DPM回归模型提供更好的预测和密度估计。最后,当我们要是用DPM对数据进行建模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论