




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 图模型是刻画变量间相关性结构的概率模型,广泛应用于因果推断、统计决策等许 多领域当变量很多时,图模型的结构可以非常复杂这使得图模型结构的确定成为一个 引人注目的问题无向图模型和双向图模型结构的确定可以转化为对协方差阵的选择,传 统的方法将这个问题视为多假设检验问题从上世纪九十年代开始,由于m a r k o v 链m o n t c c a r l o ( m c m c ) 的使用,b a y c s 统计发生了革命性的变化近年来,在b a y e s 框架下用抽样算 法( m c m c 及其推广) 解决了涉及复杂模型和复杂数据的许多经典统计学难题y a n ga n d b c r g o r ( 1 9 9 4 ) 利用贝叶斯方法来估计协方差矩阵g i u d i c ia n dg r e e n ( 1 9 9 9 ) 在b a y e s 框架下 用抽样算法解决了可分解的无向图模型的协方差选择问题我们采用生灭过程m a r k o v 链 m o n t ec a r l o ( b d m c m c ) 方法对协方差进行选择,使其适用于更一般的无向图模型 本文考虑一类特殊的图模型( 即多元混合效应模型) 的模型选择问题在这个模型 中,需要选择的模型参数包括固定效应、随机效应的协方差和误差项的协方差固定效 应的选择相当于普通线性模型的变量选择与t i i c h l o r ( 2 0 0 6 ) 采用s s v s 方法进行变量选择 的思路不同,我们对模型的先验设置以及抽样方法都给予改进,并采用s t e p h e n s ( 2 0 0 0 ) 提 出的生灭过程m a r k o v 链m o n t ec a r l o 抽样策略来解决后验分布的变维抽样问题为了处理 随机效应的协方差,我们采用c h o l e s k y 分解,将其转化成一个对角阵的选择我们采用贝 叶斯框架,直接用对角线元素下标来表示候选模型,并用b d m c m c 方法解决后验分布的 变维抽样问题最后我们考虑误差项的协方差选择问题通过对精度矩阵分解,将问题 转化成一个偏相关系数阵的选择问题我们用非对角线元素下标来表示候选模型,用相 同的抽样策略来解决后验分布的变维抽样问题 为了检验我们的图模型选择方法的精确性和有效性,本文进行了一系列模拟实验, 实验结果是令人满意的无论是对固定效应,还是随机效应,以及误差项的协方差我们 的算法总能把真实的模型挑选出来,而且实验结果对超参数的依赖性很小 关键词:图模型;协方差选择;贝叶斯方法;生灭过程m a r k o v 链m o n t ec a r l o a b s t r a c t g r a p h i c a lm o d e l s 羽o o n o e m e dw i t ht h ec o r r e l a t i o n s h i pa m o n gr a n d o mv a r i a b l e s s u c hm o d e l s h a v ef o u n di m p o r t a n ta p p l i o a t i o mi nc a u s a li i l f ;e s c n c e ,s t a t i s t i c a ld e c i s i o n , e t o i f t h e r ea r eal o to f r a n d o m v a r i a b l e s ,t h eg r a p h i c a lm o d e lc a nb ev e r yc o m p l e x , s ot h a tt h em o d e ls e l e c t i o nb e c o m e sa l li m p o r t a n t p r o b l e mi na p p l i c a t i o n t h ed e t e r m i n a t i o no ft h es t r u c t u r eo fu n d i r e c t e dg r a p h i c a lm o d e l sa n db i d i r e c t i o n a lg r a p h i c a lm o d e l sc a l lb eh 鼍n s f b 衄c di n t ot h es e l e c t i o no fv a r i o u sc o v a r i a n c em a t r i c e s t h i s p r o b l e mi st r a d i t i o n a l l yt r e a t e da s am u l t ih y p o t h e s i st e s t i n gp r o b l e m s i n c e1 9 9 0 s ,b a y e s i a ns t a t i s t i c s h a sb e e nr c v o l u t i o n a r i l y0 h a n g e d , d u et ot h eu s eo f m a r k o vc h a i nm o n t e c a r l o ;a n dm a n yc l a s s i c a ls t a t i s - t i c a lp r o b l e m sc o n c e r a i n gc o m p l e xm o d e l sa n dc o m p l i c a t e dd a t aw e r es o l v e db yt h es a m p l i n ga l g o r i t h m i nt h ep a r a d i g mo fb a y e s i a ns t a t i s t i c s f o ro u rp r e s e n tp r o b l e m ,y a n ga n db e r g e r ( 1 9 9 4 ) a p p l i e dt h e b a y e s i a nm e t h o dt oe v a l u a t et h eo o v a r i a n o em a t r i c e s ;g i u d i c ia n dg r e e n ( 1 9 9 9 ) a d o p t e das a m p l ea l g o - r i t h mt os o l v et h ed e c o m p o s a b l eg u a s s i a ng r a p h i c a lm o d e ls t r u c t u r ep r o b l e m o u ra i mi nt h i sp a p e ri s t oo o n s i d e rt h es a m ep r o b l e mf o rm o r eg e n e r a lg r a p h i c a lm o d e l sb yu s i n gt h eb i r t h d e a t hm a r k o vc h a i n m o n t ec a d o ( b d m c m c ) m e t h o d w ec o n s i d e ras p e c i a lt y p eo fg r a p h i c a lm o d e l s ,i e ,t h em u l t i v a r i a t em i x e de f f e c tm o d e l s w e w a n tt os e l e c tt h ef i x e de f f e c t s ,t h ec o v a r i a n c eo ft h er a n d o me f f e c t sa n dt h ec o v a r i a n o eo ft h ee r l o r si n t h em o d e l s t h es e l e c t i o no ff i x e de f f e c t si sav a r i a n to ft h et r a d i t i o n a lv a r i a b l es e l e c t i o np r o b l e mf o r l i n e a rm o d e l s u n l i k et h es s v su s e di nt f i c h l e r ( 2 0 0 6 ) ,w eu s ead i f f e r e n tb a y e s i a ns p e c i f i c a t i o n ,a n d i m p l e m e n tab d m c m ca l g o r i t h mt oe x p l o r et h ep o s t e r i o rd i s t r i b u t i o n t oa n a l y z et h er a n d o me f f e c t s , t h ec h o l e s k yd e c o m p o s i * i o ni sa p p l i e dt ot h eo o v a r i a n c em a t r i xo ft h er a n d o me f f e c t s ,a n dt h ep r o b l e mi s t r a n s f o r m e di n t ot h es e l e c t i o no fad i a g o n a lm a t r i x b yd e c o m p o s i n gt h ep r e c i s i o nm a t r i x , t h es e l e c t i o n o ft h eo o v a g i a n c eo ft h eo r r o r sc a na l s ob er e d u c e dt ot h ep r o b l e mo fd e t e r m i n i n gt h en o n - z e r oe l e m e n t s o fs o l n ev e c t o r a si nt h es e l e c t i o no ff i x e de f f e c t s ,t h o s e0 1 1 g o r ee l e m e n t sa l ec h o s e nb yab d m c m c a l g o r i t h mi nb o t hc o v a r i a n c es e l e c t i o np r o b l e m s t ot e s tt h ea c c m a o ya n de f f i c i e n c yo fo u rm e t h o d , w ec o n d u c tas e r i e so fs i m u l a t i o ne x p e r i m e n t s t h er e s u l t s 锄弓s a t i s f a c t o r y :f o rf i x e de f f e c t , r a n d o me f f e c ta n dt h ec o v a r i a n o eo ft h ee r r o r s 。t r u em o d e l a r ea l w a y ss e l e c t e d ;t h ev a l u e so fh y p e r p a r a m e t e r sh a v el i t t l ei m p a c to nt h eo u t p u t s k e y w o r d s :g r a p h i c a lm o d e l s ;c o v a r i a n c es e l e c t i o n ;b a y e s i a na p p r o a c h ;b i r t h - d c 柚m a r k o vc h a i n m o n t ec a r l o v 独创性声明及使用授权的说明 一,学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果尽我所知,除了文中特别加以标明和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意 二、关于学位论文使用授权的说明 签名。蛑嗍 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文本人电子文档的内 容和纸质论文的内容相一致除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容论文的公布( 包括刊登) 授权东南大学研究生 院办理 签 雅 u 第一章引言 1 i 图模型简介 图模型是概率论与图论的结合,是推断随机变量间相关性的一种有力工具,在统计 建模中扮演重要角色多元统计中的许多技术,如:协方差选择模型、因子分析等,都 可纳入图模型这一统一框架目前图模型方法已广泛应用于统计物理、人工智能,经济 学、工程可靠性、生物统计、医学等领域下面我们对图模型进行介绍 设g = ( 比d 表示个拓扑图,这里v = i ,所表示顶点集,e 表示边集图g 中的 顶点集v 与随机向量j ,= ( y l 一,k ) r r m 一一对应,边集e 描述两个变量之间的某种独 立性,这样统计模型与图论就建立了联系假设y = ( n ,) 7 服从多元正态分布,g 称为高斯图模型m ,g ) 根据不同的独立类型,图模型可以分为以下几类: 1 无向图模型 设g = ( k d 是无向图,即图中所有的边i 一- ,都足无向的图g 中顶点f _ ,之间的边 f j ( 1 f ,朋) 不存在的充分必要条件是在给定m l u l 时,巧条件独立,表示为 l 且巧i y n l ,, j l , ( 1 1 ) 如果顶点集v x , :t 应的随机向量】,服从n p ( o ,劲( 更般的,均值可以是非零向量) ,称之为 高斯无向图模型( g ) 由于随机向量】,服从多元正态分布( o ,z ) ,因此有下面等价表达 式。 l 且y j l y v w j ) 仁jp i j 1 9 l i , i l20 , ( 1 2 ) 这里砌州幻i 是指给定y g l i , j l 时,r f ,巧之间的偏相关系数,偏相关系数可以由精度矩阵 - 1 = 一j 中的元素来表为 一一j p v g l h j 厂否丽 ( 1 3 ) 仃h 叮” 因此模型 r ( g ) 又称为协方差选择模型( d e m p s t e r , 1 9 7 2 ) 1 第一章引言j 2 问题的提出 2 双向图模型 设g = ( k d 是双向图,即图中所有的边fh _ ,都是双向的图g 中顶点,_ ,之间的边 i ,t ls f 歹薹朋) 不存在的充分必要条件是班。l 相互独立,表示为 l 且巧, ( 1 4 ) 当随机向量j ,服从多元正态分布坼( o ,三) 时,有下面等价表达式, 且巧助= 0 , ( 1 5 ) 这里 p 。= 了o - 霸q , ( 1 6 ) 砌。了霸 ( 1 石 因此该模型n f g ) 又称为协方差图模型( c o xa n dw c r m u t h ,1 9 9 6 ) 3 有向图模型 设g = ( k d 是有向图,即图中所有的边f - 都足单向的图g 中顶点f ,之间的边 i _ j ( 1 i js 哟不存在的充分必要条件是在给定_ 1 , j j t 。j i 时,l ,l 相互独立,表示为 l 儿巧l y t , 4 i 1 j ( 1 7 ) 当随机向量y 服从多元正态分布雌( o ,z ) 时,有下面等价表达式; l 且r j l y l , ,, l l i , j l p q 1 t ,j ,i20 ( 1 8 ) 这里肌1 1 4 1 l i , i 表示在给定_ l ,j l l i , j l 时,y f ,乃之间的偏相关系数 1 2 问题的提出 图模型结构的确定一直是个重要的课题从图模型的定义来看,无向图模型和双向 图模型结构的确定都可以转化为协方差的选择问题众所周知,协方差的选择是一个非 常困难的问题尤其是当协方差的维数比样本数大时主要有两个困难,一是协方差矩 2 第一章引言j 3 本文的主要工作 阵中的元素个数是其维数的平方;二是在单独处理协方差矩阵中的每个元素时,必须保 持矩阵是正定的 传统的办法把这个问题视为假设检验由于变量之间存在相互影响,因此这实际上 是一个多假设检验( m p h ) 问题从上世纪九十年代开始,由于m a r k o v 链m o n t ec a r l o ( m c m c ) 的使用,b a y e s 统计发生了革命性的变化近年来,在b a y e s 框架下用抽样算法 0 v i c m c 及其推广) 解决了涉及复杂模型和复杂数据的经典统计学难题y a n ga n db e r g e r ( 1 9 9 4 ) 利用贝叶斯方法来估计协方差矩阵g i u d i da n dg r e e n ( 1 9 9 9 ) 在b a y e s 框架下用抽 样算法解决了可分解的无向图模型的结构问题我们采用生灭过程m a r k o v 链m o n t ec a r l o ( b d m c m c ) 方法,使其适用于更一般的无向图模型 b d m c m c 是一种变维抽样算法在用n i c m c 方法处理模型选择问题时,维数的变 化给抽样带来了很大的困难为此,g r e e n ( 1 9 9 5 ) 提出了可逆跳跃m a r k o v 链m o n t ec a r l o ( r j m c m c ) 方法,稍后s t e p h e n s ( 2 0 0 0 ) 以混合模型为例提出了b d m c m c 方法,通过模拟一 个连续时间的随机点过程来实现一种特殊的变维抽样 b d m c m c 方法是在通常的m c m c 中增加一个b d 移动这种移动是通过运行一个生 死过程实现的,其中b 代表。出生”,d 代表“死亡”为了构造生死过程,我们把模型 参数看成是某个固定空间上的有限点集,集合中点的增、减对应于过程中出生和死亡两 类事件,这又对应于模型中参数的增减 1 3 本文的主要工作 无向图模型和双向图模型结构的确定都可以转化为协方差的选择问题本文考虑一 类特殊的图模型( 即多元混合效应模型) 的模型选择问题我们的模型如下 以= x t a + z 穰+ e t 。t = 1 。2 ,( 1 9 ) 其中n = ( ,) r 为t a x i 维响应变量,五= 嘲,碍,磙,z f = 弼,z j :, 为观测矩阵,口是p 1 的固定效应,岛是g i 的未知随机效应,且磊n ( 0 ,d ) ,误差 岛一n ( 0 ,d 在这个模型中,需要选择的模型参数包括固定效应、随机效应的协方差和误 差项的协方差 3 第一章引言j 3 本文的主要工作 首先我们对模型中固定效应进行变量选择,这相当于普通线性模型的变量选择与 t i o h l e - r ( 2 0 0 6 ) 采用s s v s 方法进行变量选择的思路不同,我们对模型的先验设置以及抽佯 方法都给予改进,采用s t e p h e n s ( 2 0 0 0 ) 提出的生灭过程m a r k o v 链m o n t ec a r l o 抽样策略来 进行贝叶斯变量选择 然后考虑随机效应的协方差,我们采用c h o l e s k y 分解,将其转化成一个对角阵的选 择与c h a n dd u n s o n ( 2 0 0 3 ) 设置 ,= 0 的先验概率的方法不同,这里我们无须设置_ ,_ 0 的先验概率,直接用对角线元素下标来表示候选模型,采用常规的共轭先验设置,从而 在贝叶斯框架下用b d m c m c 方法解决后验分布的变维抽样问题 最后我们考虑误差项的协方差,通过其精度矩阵的分解,将其转化成一个偏相关系 数阵的选择,直接用非对角线元素下标来表示候选模型,用相同的抽样策略来解决后验 分布的变维抽样问题,从而使我们的方法适用与一般的无向图模型本文通过在协方差 选择问题中使用变维抽样方法,简化了模型先验的设置,统一了后验分布的抽样方法。 提高了结果的可靠性 整篇论文的安排如下:第一章,引言,介绍图模型研究的背景,前人的研究方法和 目前已经取得的成果,紧接着提出我们的模型和研究方法;第二章,图模型的贝叶斯选 择,在这一章我们首先对模型中的协方差进行参数化,然后采用b d m c m c 变维抽样方法 对图模型进行贝叶斯选择;第三章,模拟实验,通过实验检验我们的方法是否可行,模 拟效果如何;第四章,总结,回顾整篇论文需要解决的问题,对具体的解决方案进行总 结,对算法的模拟结果进行分析以及进一步的问题 4 第二章图模型的贝叶斯变量选择 2 1 模型的定义 设g = ( k d 表示个顶点集为v = 1 1 。,册j ,边集为e 的无向图,顶点集矿中每个顶 点对应一个随机变量,因此v 与r t 维随机向量y = ( n ,圪,) r 对应,图模型g 中边,一 不存在等价于给定m m i 时,l ,巧条件独立设】,一n ( o ,) ,精度矩阵q = 一1 = l q l ,则 这黾偏相关系数 l ,巧i ti y v 、l i j i p j , j n l q l2o ; 助帆2 丽赢 一n f 7 因此无向图模型结构的确定就转化为对协方差的选择 为此,我们考虑如下多元混合效应模型 y f = 口+ z 筋+ 白。t = 1 ,2 ,力( 2 1 ) 其中y f = ( k l ,y a ,玎。,:j ;j m x l 维响应变量,蜀= 僻,碹,碍) r ,z f = 晖,兹,乐, 为观测矩阵,口是px1 的固定效应,局是q 1 的未知随机效应,且届一n ( o d ) ,误差 & 一n ( o ,z ) 下面我们要对与固定效应有关的回归自变量、随机效应和误差的协方差进行选择, 选出与n 最有关的回归自变量、随机效应以及的结构 2 2 模型中协方差的参数化 我们记七为被选入模型中的回归自变量的个数,舻= ( ,l ,一,瑶) 为被选中的回归自变 量的指标集,o i k ) = ( ,) r 表示相应的回归系数 下面利用矩阵的分解理论,我们对d 和三进行分解,首先对d 分解有: d :a u u t a 5 其中 因此原模型可以表示为 其中 记 i 1 00 u :卜卜一。 i ; ; j i 9 1 筘1 】,= x , a + z t a u b t + 8 t ,f = 1 ,2 ,” b f - ( 6 f 1 ,b t q ) r n ( o ,d a = ( a l ,a q ) r ; 2 蒯:所= 2 。,鼋;z = 1 ,脚一1 ) r d 中的对角线元素为 d 中非对角线元素为 j - i 以:l ;( 1 + p ;) ,f = 1 ,q r = - i ,一1 t 1 咖= a , a :c u , j + 2 l :d 乒咖) ,f = 2 ,q ;= 1 ,f 一1 r = l ( 2 2 ) 当a 产0 时,意味着第1 个随机效应届,从模型中删除,因此随机效应的选择就转化 为对 的选择同样,我们记l 为a 中非零元素个数,= ( ,l - ,力) 为非零元素的指标 集,知o = 盹l 一,办厂表示相应的非零元素 6 为了后面进行后验的推导,我们对模型( 2 2 ) 中z t a u b t 项进行重组,z t a u b ,的第_ ,行 元素为 勿人u b ,= q “q 唧f + 妻五,锄脚) ,:l 一,所 1 = lr m - “l 将其表示成l 的线性组合为 其中 模型转化为 z t j a u b t = 吆a 卜l fn = ( z t j t ( b a + 2 :b r i g h t ) ,i = 1 ,d ,= 1 ,p r = 1 y f = x t a + 彤_ + 白,职= ( 嚓,。嘭) 7 若表示成的线性组合为 其中 模型转化为 其中 z t j 八m t is j s 弓= ( 6 t l t l r 孙,= l ,毋,= ,+ l ,g ) ,- ,= l ,下q ( q - 1 ) 的分解,令 l = x t a + s t l z + 8 t s r _ 岱:,s 不) r q = 一1 = t c t t = d i a g ( t l ,) ,乃= 五 c 为相关系数矩阵,c “= 1 f - 1 ,所偏相关系数 ( 2 3 ) ( 2 4 ) 畿7 记l ,= 酊,f 工f = i ,m l ;= f + i ,所) ,给y 中元素按现在的位置给一个相应 的下标,则可记为 ,= ( v r ,r = 1 ,盥产) ,记;,为y 中非零元素个数,a f h ) = ( m ) 为嚣零元素的指标集,协= ( ,) 表示相应的非零元素 2 3 参数的先验设置 利用贝叶斯方法来解决上述一系列的选择问题,首先要做的就是给参数向量 0 = ( 0 1 ,晚,i i l ,0 3 ,丁) 一个合适的先验其中0 1 = ,妒,口伪) ,0 2 = ( 厶d ,枷) ,岛= 伪,y 栅) 2 3 10 1 的先验 对固定效应的回归自变量个数k ,我们赋予它一个截断泊松先验 m 西x ksp k ( 2 5 ) 其中以j 代表指示函数由于聃1 0 - ,所以超参数u t 代表了你所认为的真实模型 中与固定效应有关的回归自变量的个数,为了让模型中参数尽可能少,在实验中我们取 f t ) i 21 在k 给定下,我们假设第f 个回归自变量以概率p ,被选入真实模型我们这里定义集 合& = ,瑶) :f 1 ,江不相等j ,模型p = ( f l ,瑶) 的先验分布定义为 烈p 脚= 爿i 1 八p & j 1 - 1 卜, r = l ( 2 6 ) 其中,a i 。= 胂峨兀笔。肌为正则化常数当没有先验的信息时,我们认为每个回归自变 量都是等可能的被选入的,即p r = ,r = l ,p 所以p 的先验分布可以简化为 以p 盼= 警 8 给定模型下,我们把模型参数的先验设置为常见的共轭先验,具体如下: p ( 口舯i 缸p ) = 坼0 l l ,砰d ( 2 7 ) 这里1 表示元素全为1 的向量,所以0 l 的先验为 p ( 侥) = p 蝴一幻忙) p ( 8 舻,t k ,p ) 2 3 20 2 及卢的先验 类似,对随机效应的个数f ,有 瓜j ) ( 以h f q l l l ! , z p o 0 1 0 = s t l z o 。死i 几办。 r = l 其中,乃= l ( ,1 且) ,1 且互不相等 ,b z = ,d 仃,兀名lp j ;为正则化常数从而有 朋d = 竽 p ( a 。i z ,母) = n k ( p 2 1 ,弓d p ( 6 h ) = p ( o p o d i z ) p ( , l :o l l ,o ) p 的先验我们取为 肿l f d ) = 啦3 1 ,r o ) ,o 确j 其中兜= :当也= 0 时,耐:f 抽= 0 ,z = 1 ,9 ;肼= z + 1 ,g ;聍= 1 ,z 一1j 2 3 3 毋及r 的先验 由于对y 的更新要保证c 是正定的,我们的先验与w o n gc ta 1 ( 2 0 0 3 ) 中所取的先验类 似,设c 胛为m m 的相关系数矩阵的集合,= i 也,f 儿当c 彩= 0 时九= 0 ,否则 如= 1 s 为j 中非零元的个数,在给定y 时c 的正定区域的体积为 2 匕一c ,棚:。咖 给定h 时的平均体积为 以的先验如下, q 。的先验取伽马分布 由t ,= 瓶i 得到丁,的先验 2 4 10 l 的后验 从而 叫爿1 l :磊。, m ) o c 遴哪掣眦 舻m 等) 黑 p ( v h ,i s 0 。知( 力 o )( 2 1 7 ) 证毕 所以曲的条件后验为 “斗i y , h ,口,a ,6 ,r ,够( 卸k ,) ) o c fr c u r 2 。【p ( 一7 c u 岬) o ) 孑 j 。 当行一o o 时,上式近似正比于 伊c x p ( ;g 啦) 叭c u ) o )( 2 18 ) 这里 由( 2 1 5 ) 式知,死的后验为 p ( t ,i y , 口,t ,1 ,6 ,c ,r 一,) 0 c 烈】,l 口,l ,p ,b ,) p ( 乃) 华e x p ( - a lt 卜2 b l t i ) ( 2 1 9 ) = ,+ 2 a 。一1 ,口1 = 岱j ,) ,f 2 + p o ,b l = 1 2 ( s j ,h c 巧 j f 与定理1 结果类似,这里后验分布也可以用正态分布近似,即当疗- 时,( 2 1 9 ) 式 近似于w 。厅2 ) 其中 6 2 + 2 a l n o b l f2 瓦_ ; 萨= + 丝2 a l 叠2 n a2 a l z 2 5 后验分布的b d m c m c 抽样 2 5 1b d m c m c 变维抽样策略 s t e p h e m ( 2 0 0 0 ) 的b d m c m c 通过模拟一个连续时间的随机点过程实现了一种特殊的 变维移动,也叫封死( b d ) 移动b d 移动只适用于类特殊的变维问题,即要求模型参数 中与维数有关的部分可以看成某个空间中的有限点集,其所含点的个数随维数变化而变 化混合模型是这种问题的典型例子设如妒,功是某个给定的分布密度族,x = i x ,l 竺l 是 来自混合分布名l 乃弛;办,功的拧个独立样本记稚= ( 丌l ,恐一。孤) ,奴= ( l ,锄,依) 由于成分标签不具有任何实际的意义,所以我们可以把参数鲰。九) 当作( o ,1 ) 中的 点集 ( 丌l ,i ) ,( t r 2 ,赴) ,( x k ,颤) 。其中是的定义域b d 移动的主要思想是把( 稚,九) 当作某个随机点过程在某个时间点上的值,通过模拟这个随机点过程实现参数 ,巩,c k ) 的更新 15 第二章图模型的贝叶斯变量选择2 5 后验分布的b d m c m c 抽样 为了更精确地描述b d 的思想,我f r i l l 入一些记号令甲= 娩l 巩,其中峨是所有形 如 ( 丌,妒f ) :f = 1 ,k ,( m ,咖) ( o ,1 ) ,r i + 丌2 + + 砸= 1 ,各个识两两互异l 的七元点集所组成的集合类与峨相对应,我们还有参数空间 仇圭 ( x k ,九) :九呶,孤c o ,l 广r l + 丌2 + + 船= lj , 其中嘞皇l ( l ,九,奴) :各个以两两互异j 设却是上的盯有限测度,d 0 女= d , h d 纯撕 是矿上的乘积测度,咖 是单纯形缸= l ( 丌1 ,7 t 2 ,哟:几 0 ,1 t l + 丌2 + + i r k = 1 i 上的 l e b c s g u e 测度假定k 的先验概率是艄,参数0 r k ,o k ) 关于饥d 丸具有先验密度p ( n k ,九l k ) 我们有后验分布密度 p ( k ,辄,丸眩x ) p ( k ) p ( r k ,驴d k ) l ( k ,巩,九,功, 其中 ,戤,九,1 7 ) = :l 名lj r j f ( x ,;o j ,咖是似然函数假定函数p 陬,九i 幻关于成分标签的 任意置换是不变的,从而p ( k ,鲰,0 k l ,, x ) 可以当作甲上的分布密度这一来,我们可以采 用b d 移动实现从p 他,巩,靠i ,7 ,x ) 中抽样,另用若干个条件抽样实现从分布p o r , ,九,7 i 七,z ) 中 抽样这些移动经过适当组合就得到了下面的m c m c 算法( 这里为记号简单起见省略了 丌,的下标) ; _ ,一,矿) b d 俨+ n ,i ,护) + _ ( 萨+ n ,n ,扩,扩1 ) 骂, 其中未加标签的移动都是条件抽样要使得联合后验分布p ( k ,矾,奴,j 7 i x ) 为这个算法的平 稳分布,只需b d 移动满足关于p ,7 1 k 。九i ,7 ,x ) 的平衡方程 b d 移动的构造主要利用p r e s t o n ( 1 9 7 6 ) 关于生死过程的工作按照定义,甲= 娩1 上的m a r k o v 生死过程翕是一个连续时间的纯跳过程具体描述如下:在时间t ) x0 增大 到的过程中,矗在甲中的移动总是与“出生”、。死亡”两类事件相关联我们说在t 时刻发生了 出生事件,是指在t 时刻出现了从点缸= y 峨到点矗= z + 1 的转移,并且z 落 在l 的可测子集g 中的概率是掣,g ) ; 1 6 死亡事件,是指在t 时刻出现了从点喜一= y 凯到点直= z 甲的转移,并且z 落 在甲的可测子集f 中的概率是掣o ,刃 我们假定这两类事件的发生是彼此独立的,并且都服从p o s s i o n 过程,其强度分别是卢,6 : 甲- r + 我们把卢,艿分别叫做出生率和死亡率;谬,毋分别叫做出生分布和死亡分 布p r e s t o n ( 1 9 7 6 ) 证明,要使得如此构造的生死过程以甲上的概率测度p 为平稳分布, 只需对任何的k 1 ,f c m ,g f k l ,下面两个等式满足。 f 觑脚t ( 啪= 上川毗蝣。+ 1 b 聊川( 呦, ( 2 2 0 ) 上必眦“动= 厶卢哕g 弛( 蜘, ( 2 2 1 ) 其中m 是p 在卧上的限制等式( 2 2 0 ) 表明,通过出生离开集合f ( 等号的左端) 等同 子通过死亡进入集合f ( 等号的右端) 等式( 2 2 1 ) 的意思完全类似,只是互换了“出生” 与。死亡” 现在令甲是前面对混合模型构造的空间我们定义甲上的生死过程l 翕j ,甜假设 缸= y = l ( i r i ,办) :f - 1 ,纠凯仿照上面的定义,在,时刻发生 出生事件当且仅当矗= yu ( 7 r ,彩圭 ( 丌,驴) ,( ( 1 一丌) 丌j ,f ) :忙i ,七l ,其中( 7 r ,妒) 是来自条 件分布6 ( 丌,妒的样本6 ( i v ) 也叫做出生分布 死亡事件当且仅当存在isf 使得矗= 少( 丌f ,办) 圭l ( 禹,咖) :j f ,i - ,n 这时, 我们说成分f 死亡 假设各个成分的死亡都服从p o s s i o n 过程,并设卢是出生强度,吠丌f ,仍b ,瓴,驴,) ) 是y 中 的成分i 的死亡率总的死亡强度为劬= 叁i 吠7 r f ,办b ,( 研,妒r ) ) 选择t 0 我们可以用下 面的算法模拟i 刍:0 t r l : 1 置初值,= 0 ,y = 知 1 7 2 从均值为l + 聊) 的指数分布中抽出样本c 令,仁f + c 为下一个跳跃发生的时 刻当f t 时。令白仁y ,然后终止算法 3 抽签决定跳跃的类型,其中出生的概率是鼬,) + 的,) ) ,死亡的概率是酊) 似y ) + 的,) ) 4 如果抽到了“出生”,则令2 = y u ( 丌,们,其中( 丌,妒) 是来自条件分布坳,驴护) 的样本如 果抽到了。死亡”,则进一步抽签决定死亡的成分,其中成分f 死亡的概率是d - i ,识i y ( 丌f ,办) ) 蚴如果成分f 死亡,则令:= y ( 丌,似 5 令y 仁毛然后回到第二步 根据算法的输出,我们得到了b d 移动昴骂扛 为了使得上面构造的b d 移动满足关于分布p (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑承包修建协议8篇
- 标准版个人劳动合同8篇
- 合作承包水库合同范本
- 订制灯具订购合同范本
- 铁托盘购买合同范本
- 电梯改造工程合同范本
- 公司纸巾采购合同范本
- 五金汽配合同4篇
- 群众工作心得体会感悟(汇编10篇)
- (2025年)村干部考试试题(含答案)
- 2025新人教版英语七年级下不规则动词表
- 2025年江苏省常州市中考作文解析和范文
- 办公用品供货服务计划方案
- 全国粤教清华版初中信息技术七年级上册第2单元第4节《云服务》说课稿
- 延迟焦化操作工考试题及答案
- 智研咨询发布-2025年中国数控折弯机行业产业链全景分析及发展趋势预测报告
- 注塑车间15个岗位职责说明
- 中国高血压防治指南(2024年修订版)解读课件
- 消防设施维护培训课件
- 肾内科护理病历
- 谵妄的观察及护理
评论
0/150
提交评论