【《贝叶斯非参过程研究国内外文献综述》5600字】

上传人：E*** IP属地：湖北上传时间：2026-03-02 格式：DOCX 页数：10 大小：106.72KB 积分：13 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

贝叶斯非参过程研究国内外文献综述可交换的贝叶斯非参过程贝叶斯非参真正得到发展始于狄利克雷过程(Ferguson,1973)的提出（Dirichletprocess，以下简称DP）。不同于参数贝叶斯，贝叶斯非参需要对给定样本空间上的所有概率分布设定先验分布。Ferguson在无穷维上推广了狄利克雷分布从而提出了DP。DP由两个参数来表述，一个是大于0的精度参数，一个是给定样本空间上的基准分布。由DP抽出来的分布以概率一为无穷离散(Blackwell,1973),并且DP的后验分布也是DP，即是共轭的。根据著名的deFinetti定理(Schervish,2012),从DP抽出的样本数据是可交换的，样本的抽取过程可由Blackwell-MacQueen罐子模型(Blackwell和MacQueen,1973)来描述。它是这样的一个过程。罐子起初包含一个权重为的黑球，在接下来的每一步，以正比于每个球的权重的概率从罐子抽取一个球并放回。如果抽到的是黑球，从分布中抽出一个新颜色，再放入一个该新颜色的权重为1的球；如果抽出的球不是黑色的，再放入一个与该颜色相同的权重为1的球。这样加入的球的颜色序列的分布就与样本数据的分布一样。此罐子模型所诱导出的对1到的随机划分可由中餐馆过程（Chineserestaurantprocess,以下简称CRP）来描述。CRP描述了这样地一个过程：第一个客人走进中餐馆，选择第一桌子坐下，随后的客人以正比于先前桌子所坐的人数的概率就坐于先前的某个桌子，以正比于的概率坐到新的桌子上。由于样本的交换性，因此样本所诱导出的随机划分也是可交换，即随机划分的分布只与划分块的大小有关，任意置换1到不改变划分的概率，并且该分布满足一致性，所以该分布称为可交换划分概率函数(Pitman,1996)。Kingman(1978)证明任意一个在自然数上的可交换随机划分都可由一个随机概率测度诱导出来，比如DP与CRP刚好对应起来。另外由于DP抽取的分布是离散的，样本数据就会产生聚类。聚类的个数呈对数增长，它的具体概率分布公式由Antoniak(1974)给出。DP有多种等价的构造形式。比如基于完全随机测度(completelyrandommeasure,CRM)(Kingman,1967)，正则化(normalized)的伽马过程便是DP。事实上，很多贝叶斯非参过程都可由正则化的CRM来表示。另外，Sethuraman(1994)给出了DP的显性表示:,其中是上的Dirac测度，权重服从stick-breaking过程,,且。这个显性构造推动了后续贝叶斯非参的发展，很多学者在此基础上构造出新的随机概率测度。由于是离散的，DP就不适合连续型数据。而用某类参数模型的混合分布来对数据建模，让权重分布服从DP(Ferguson,1983;Lo,1984)，就能解决这个限制。该模型就是狄利克雷过程混合(DPM)，这是在贝叶斯非参里最常用的模型之一，它适用于密度估计(Escobar和West,1995)，在机器学习里也有广泛的应用(Shahbaba和Neal,2009;Hannah等,2011)。当使用DPM时，我们隐性地假设当样本量趋于无穷时，样本形成的聚类的个数也趋于无穷(Orbanz,2012)。事实上DPM是有限混合分布的极限。关于DPM的后验分布MCMC抽取，许多学者提出了很多有效的算法。Neal(2000)提出的几种经典的边际吉布斯抽样算法被广泛运用，也对后续其它贝叶斯非参后验抽取产生深远影响。另外Ishwaran和James（2001）基于stick-breaking先验提出了Blocked吉布斯抽样算法使得在抽样时直接抽stick-breaking权重已应对一些随机概率测度无法表述成预测概率分布的形式的情况，Jain和Neal(2004)提出split-merge算法来避免共轭DPM下抽样陷入局部聚类中。MCMC算法精度较高但速度慢，所以这些算法主要适用于中小型数据。为了能够更快地处理大数据，Blei和Jordan(2006)提出了DPM下地变分推断方法，Wang和Dunson(2011)提出了SUGS算法等。不可交换的贝叶斯非参过程现有的常用的贝叶斯非参先验都可用可交换的物种抽样序列（speciessamplingsequences,以下简称SSS）的预测概率函数来表述: 比如DP对应的SSS就是Blackwell-MacQueen罐子抽样过程。如果基准分布是连续的且样本是可交换的，那么SSS预测概率的权重只能取决于划分块的大小(Hansen和Pitman,2000)，否则样本就是不可交换的。通过对SSS的改进，学者提出了许多新的过程。比如Pitman和Yor(1997)通过加入折旧因子提出了Pitman-Yor(PY)过程，PY适用于描述现实中满足长尾分布的现象。PY也可由对应的stick-breaking构造过程和两参数中餐馆过程来刻画，并且也是可交换的。现实中，样本可交换的假设有时过强，我们需要新的先验过程来处理非可交换的情况。比如当把Blackwell-MacQueen罐子中的权重1替换成独立的取值为正的随机变量，该过程称为随机增强(randomlyreinforced)罐子模型，此时样本就不再是可交换的。BASSETTI等(2010)基于条件同分布（Berti等,2004）推广了可交换性，从而通过引入一序列隐变量推广了SSS,称为广义SSS，此时广义SSS并没有表示定理。他们提出了两类条件同分布的广义SSS，包括通过引入随机权重的广义PY过程以及广义渥太华序列（generalizedOttawasequence,以下简称GOS）。基于GOS，AIROLDI等(2014)提出一类灵活的不可交换SSS，它的预测概率函数的权重仅由一系列贝塔随机变量来表述，称为Beta-GOS。在分层Beta-GOS和DPM比较中，Beta-GOS的表现优于DPM，即使应用到可交换的实际数据中，Beta-GOS的表现依然至少和DPM一样好，可见Beta-GOS是稳健的。由于Beta-GOS的不可交换性，因此Beta-GOS适合对时间序列建模。Cassese等（2019）基于spike和slab的Beta-GOS过程对美国流感死亡率时间序列数据进行建模，并考虑空间上的相关性，较好地甄别出流感爆发阶段。总的来说，学者（Foti和Williamson,2013）主要是从DP的stick-breaking构造或者预测概率分布着手，在其中的某个方面引入相关性，从而应用于不可交换的数据。Ahmed和Xing(2008)将时间引入DPM，考虑随时间变化的数据动态演变行为。具体地讲，将数据分为多个时间段，每个时间段内的数据是可交换的，但上一个时间段的数据的状态会影响下一个时间段的数据的聚类行为，而且聚类对应的成分参数随着时间变化会保留、消亡、产生新类。在从CRP的角度看，前一天更流行的菜肴更能吸引第二天点菜的客户。作者将其应用到了话题模型，有效地捕获文本话题随时间变化的趋势和流行性。此后Blei和Frazier(2011)改进了中餐馆过程，让顾客坐在同一桌的概率取决于相关的距离度量。而后Ghosh等（2011）将空间距离相关的中餐馆过程用于图像分割，不同于其它贝叶斯非参方法，该方法产生的分割能保证空间相连，适合于将图片分割为连续的分块，在更简单模型和推断算法下取得与现有非参方法同样优异的表现。相依贝叶斯非参模型在实际中，我们往往会面对多个不同但又相关的未知分布，比如在不同医院里，同一药物对病人的影响结果分布往往相似，如何刻画不同组分布之间的相依性显得至关重要。以个相关临床研究为例，每个研究对应一个分布，并且各个分布之间是可交换的，我们需要对这个分布建立联合分布。我们希望通过对研究的受试者的实验来对不同研究下的受试者的情况做出合理的推断。在此情形下，我们有两种极端的建模选择。一种情况是把不同组的病人全都聚在一起，共用一个分布；另一种情况是对不同组的随机分布设立不同但独立的先验。我们之所以称这两种情况极端是因为第一选择最大化不同组之间信息的借用，而第二种选择摒弃了组与组之间相关的信息了。在大多数应用中，不同组之间信息的借用在这两种情况之间。因此在贝叶斯非参领域中，对相关的随机分布设立合适的先验在这二十年来受到越来越多的关注。时至今日，大多数考虑协变量相关的随机分布的贝叶斯非参模型主要是在DP和DPM模型上做扩展。早期使用协变量相关的DP模型是Cifarelli和Regazzini(1978)，他们通过对基准分布引入回归模型来刻画不同随机测度之间的相关性。Muliere和Petrone(1993)基于该方法在基准分布引入了标准线性回归模型，即，其中是回归系数。Mira和Petrone(1996)，Giudici等(2003)也讨论过相似的模型。但是，通过对基准参数进行回归来对刻画不同随机分布的相关性的方式，并不能产生随预测变量连续的模型，因此很大程度上限制了该模型的灵活性。MacEachern（1999，2000）正式提出了相依狄利克雷过程(Dependentdirichletprocess,以下简称DDP)。DDP是对一系列概率分布做先验，合适的先验要体现出之间的相关性。DDP的先验主要从单个DP的stick-breaking构造入手，边际上服从一个DP，。而不同随机分布之间的相关性通过让独立同分布一个指标集为的随机过程来体现，比如高斯随机过程。在随后众多文献中，学者更多地只考虑权重或位置与协变量相关的DP过程。MacEachern考虑了不同随机分布使用同一组权重的情况，即,该模型在学术界里常被称为单一权重（single-weights）DDP模型。到现在为止，在文献中，共同权重的DDP模型是最流行且被最多人使用的模型，这主要是因为后验抽样算法可以直接沿用DPM模型下的抽样算法。基于DDP的模型有很多，其中一个经典便是DeIorio等（2004）提出的ANOVA-DDP。ANOVA-DDP应用于由类别协变量标识的相关随机分布。类别变量可以是不同的药物水平，而对应的随机分布便是随机效应分布。ANOVA-DDP可以等价地表示成DP先验下的ANOVA混合模型，即DPM模型的形式。正是由于这种等价的DPM形式，ANOVA-DDP的后验抽取完全可以借用通常DPM的Gibbs抽样方法，而且也能应对高维的情况，即抽样的复杂度与维度无关。该模型既能处理通常一元的响应变量，也能应对多元响应变量，而且还能扩展到层次模型上。Cruz-Mesıa等（2007）利用ANOVA-DDP对怀孕妇女的纵向荷尔蒙观测数据的随机效应进行建模，其中相关性基于正常或者反常怀孕指示变量。最近，Gutierrez等（2019）利用ANOVA-DDP框架对比较多个不同处理水平提出了多重检验的方法。但是ANOVA-DDP限制协变量为类别变量，而DeIorio等（2009）将此模型拓展到包含连续协变量的情况，并用于生存分析的非比例风险。他们考虑一个癌症临床实验，主要关注某个药物高剂量是否比低剂量更有效。数据包含离散和连续协变量，所以他们的模型通过在ANOVA因子设计基础上添加了连续变量的线性组合。同样的想法可以立即扩展到包含任意类型协变量的线性组合上，这便产生了线性（linear）DDP（LDDP）。特别地，每个样本在给定随机分布的情况都可以看成是来自同一无穷混合分布，核函数通过与协变量的线性组合联系起来来表述相关性。Jara等（2010）针对双删失（doublycensored）数据构造了相似的模型。他们的模型涉及区间响应，对应于可观察的开端和事件时间（在他们的例子，来自比利时Fanders的孩子的蛀牙）。每个响应变量对应与一个潜在的二元向量，分别是真实开端和事件时间。他们使用孩子乳牙的健康状态和开始刷牙的年龄作为协变量并利用线性DDP来建模。单一权重的DDP也能应用到空间数据上。Gelfand等（2005）将DDP应用到协变量是空间位置的场景。Dunson和Herring（2006）基于有限个来自高斯过程的潜在轨迹对一系列随机函数进行建模。具体地，观测过程由一个光滑潜在轨迹和一个服从高斯过程的噪声线性组合而成。他们的模型也具有DP类型的权重。与共同权重DDP相对应的构造便是共同原子（singleatom）的DDP，此时只有权重的变化与协变量相关。在单一原子的模型下，所有的协变量相关通过权重的stick-breaking表示来表达。此时隐含的划分的先验概率模型会随着协变量而变化，这对于研究不同划分结构非常有用。另外，不同于单一权重DDP包含未观测的协变量相关的原子，在单一原子的DDP下，任何数据都共享所有的原子，所以，新的协变量相关的原子分布的推断就可以避免。在现有文献中，单一原子DDP的应用相对较少。除了上述基于DDP框架的构造方式，不同学者还基于DP探索了其它相依模型。Dunson等（2007）提出了利用已观测的协变量来构造先验，每个都是现有观测协变量对应的DP的加权组合，而组合的权重由协变量之间的相似性来决定。他们的构造特别适合于密度回归，也就是衡量响应变量随预测变量变化而变化的概率分布。同样的思想下，Dunson和Park（2008）提出了基于核函数的stick-breaking过程，与上个模型相比，该模型大大降低模型复杂度但同时保持了灵活性。贝叶斯非参下的时间序列模型随着狄利克雷过程的提出，以及随着计算能力提升使得MCMC抽样变得可行后，许多学者借助贝叶斯非参模型的灵活性来研究时间序列。Mena和Walker(2005)基于高斯过程提出构造任意平稳分布的严平稳一阶自回归模型。Lau和So(2008)基于DPM把有限混合自回归模型MAR(Wong和Li,2000)推广到无穷混合，通过对核函数的参数，自回归阶数和成分个数设置合适的先验分布，实现了自动选择成分个数和自回归的阶数。在模拟中，该模型甄别出正确的成分个数和自回归阶数大大优于基于EM算法的MAR的表现。该模型还被用来做聚类和异常值检测。Lucca等(2013)在DDP框架下建立自回归模型，提出AR(p)-DDP模型。在AR(p)-DDP下，对一系列由观测值滞后项标识的随机概率分布设置先验，每个随机概率分布都服从一个DP，他们设定每个DP都用共同的权重，位置参数的值为滞后项的线性组合，这样就构成了线性DDP(DeIorio等,2009)。通过等价地表述形式，该模型也可写成DPM的形式，便可直接利用DPM原有的一些分析方法。另外通过引入隐变量得分，对隐变量用AR(p)-DDP建模，以0为阈值，此模型也可适用二值观测变量。尽管AR(p)-DDP与Lau提出的DPMAR模型结构基本一致，但AR(p)-DDP的自回归的阶数是固定的，且对方差另外设先验。上述两个模型直接基于观测值滞后项来建立自回归模型，而在Rodriguez和terHorst(2008)提出的基于时间的DDP中，有一个特例是每个时间点的DP的位置参数与前几期的位置参数构成自回归关系来体现时间序列之间的相关性。Bassetti等（2014）将多元相关的PY过程应用到多元时间序列来刻画多元时间序列随时间变化的聚类情况。Villalobos和Walker(2016)将狄利克雷过程作为先验应用到时间序列上，提出时间齐次的马尔可夫过程，该过程保留有良好的统计推断性质，同时取得巨大的建模灵活性，达到某些非平稳模型的效果。Kalli和Griffin(2018)将DPM应用到向量自回归模型VAR上，该模型能够考虑条件均值的非线性，条件方差的异质性和非高斯的新息，在实际和合成数据集上，该模型的表现在各个时间跨度好于传统模型。参考文献[1]AhmedA,XingE.Dynamicnon-parametricmixturemodelsandtherecurrentchineserestaurantprocess:withapplicationstoevolutionaryclustering[C]//Proceedingsofthe2008SIAMInternationalConferenceonDataMining.SocietyforIndustrialandAppliedMathematics,2008:219-230.[2]AiroldiEM,CostaT,BassettiF,etal.Generalizedspeciessamplingpriorswithlatentbetareinforcements[J].JournaloftheAmericanStatisticalAssociation,2014,109(508):1466-1480.[3]AntoniakCE.MixturesofDirichletprocesseswithapplicationstoBayesiannonparametricproblems[J].Theannalsofstatistics,1974:1152-1174.[4]Antoniano-VillalobosI,WalkerSG.Anonparametricmodelforstationarytimeseries[J].JournalofTimeSeriesAnalysis,2016,37(1):126-142.[5]BassettiF,CasarinR,LeisenF.Beta-productdependentPitman–YorprocessesforBayesianinference[J].JournalofEconometrics,2014,180(1):49-72.[6]BassettiF,CrimaldiI,LeisenF.Conditionallyidenticallydistributedspeciessamplingsequences[J].Advancesinappliedprobability,2010,42(2):433-459.[7]BertiP,PratelliL,RigoP.Limittheoremsforaclassofidenticallydistributedrandomvariables[J].TheAnnalsofProbability,2004,32(3):2029-2052.[8]BlackwellD,MacQueenJB.FergusondistributionsviaPólyaurnschemes[J].Theannalsofstatistics,1973,1(2):353-355.[9]BlackwellD.DiscretenessofFergusonselections[J].TheAnnalsofStatistics,1973,1(2):356-358.[10]BleiDM,FrazierPI.DistanceDependentChineseRestaurantProcesses[J].JournalofMachineLearningResearch,2011,12(8).[11]BleiDM,JordanMI.VariationalinferenceforDirichletprocessmixtures[J].Bayesiananalysis,2006,1(1):121-143.[12]CasseseA,ZhuW,GuindaniM,etal.ABayesiannonparametricspikedprocesspriorfordynamicmodelselection[J].BayesianAnalysis,2019,14(2):553-572.[13]CifarelliD,RegazziniE.Problemistatisticinonparametriciincondizionidiscambiabilitaparzialeeimpiegodimedieassociative[R].Tech.rep.,QuaderniIstitutoMatematicaFinanziariadell’UniversitadiTorino,1978.[14]Cruz‐MesíaRD,QuintanaFA,MüllerP.SemiparametricBayesianclassificationwithlongitudinalmarkers[J].JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),2007,56(2):119-137.[15]DeIorioM,JohnsonWO,MüllerP,etal.Bayesiannonparametricnonproportionalhazardssurvivalmodeling[J].Biometrics,2009,65(3):762-771.[16]DeIorioM,MüllerP,RosnerGL,etal.AnANOVAmodelfordependentrandommeasures[J].JournaloftheAmericanStatisticalAssociation,2004,99(465):205-215.[17]DiLuccaMA,GuglielmiA,MüllerP,etal.AsimpleclassofBayesianno

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《贝叶斯非参过程研究国内外文献综述》5600字】

文档简介

温馨提示

最新文档

评论

【《贝叶斯非参过程研究国内外文献综述》5600字】

文档简介

温馨提示

最新文档

评论

相关文档