(概率论与数理统计专业论文)mcmc应用于参数贝叶斯估计.pdf_第1页
(概率论与数理统计专业论文)mcmc应用于参数贝叶斯估计.pdf_第2页
(概率论与数理统计专业论文)mcmc应用于参数贝叶斯估计.pdf_第3页
(概率论与数理统计专业论文)mcmc应用于参数贝叶斯估计.pdf_第4页
(概率论与数理统计专业论文)mcmc应用于参数贝叶斯估计.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 m o n t ec a r l o 方法主要是通过取简单随机变量的样本来估计比较复杂的随机 变量的期望,b a y e s 参数估计就是要求出被估计参数o ( o 是一个随机变量) ,关 于n 个独立样本( f l ,己) 的条件随机变量妒( p i l ,己) 的贝叶斯估计蚕县。班。, 往往是不可能计算出来的,只能通过对条件随机变量妒( 曰旧,厶) 进行抽样, 把这些抽出样本的均值作为d 的估计值,但是妒( 口i f l ,矗) 是个非常复杂的 随机变量,且带有难以计算出来的常数,因此不可能用m o n t ec a r l o 方法进行 抽样,只能用m c m c 方法对其进行近似的抽样 本文主要介绍了m c m c 方法的构造,贝叶斯参数估计及m c m c 方法在贝 叶斯估计中的应用,最后给出了m c m c 方法应用于贝叶斯参数估计的一个模 型 关键词:m c m c ;蒙特卡罗;马尔可夫链;贝叶斯统计 a b s tr a c t m o n t ec a r l om e t h o di sm a i n l yt h a tt h r o u g ht a k i n gt h es a m p l eo ft h es i m p l e r a n d o mv a r i a b l ee s t i m a t et h ec o m p l e xr a n d o mv a r i a b l ee x p e c t a t i o n ,b a y e sp a r a m e - t e re s t i m a t i o ni sr e q u e s t e dt oe s t i m a t e dp a r a m e t e ro ( oi sar a n d o mv a r i a b l e ) ,a b o u t ni n d e p e n d e n ts a m p l e ( 毒1 ,厶) c o n d i t i o nr a n d o mv 龃i a b l 印( p l f l ,厶) b a y ee s t i - m a t e dp 县吲e 一,o f t e ni sn o ti m p o s s i b l et oc a l c u l a t e ,o n l yc a l lb ys a m p l i n gc o n d i t i o n r a n d o mv a r i a b l e 妒( 口l 1 ,厶) ,e x t r a c t st h e s et h es a m p l et h ea v e r a g ev a l u et ot a k e 口e s t i m a t e dv a l u e ,b u t 妒( 口i 1 ,厶) i sa ne x t r e m e l yc o m p l e xr a n d o mv a r i a b l e ,a n di t h a st h ec o n s t a n tw h i c hc a l c u l a t e sw i t hd i f f i c u l t y , t h e r e f o r ei t sn o ti m p o s s i b l et os a m - p i ew i t hm o n t ec a r l o ,s ow ec a nu s et h em c m cm e t h o dt oc a r r yo na p p r o x i m a t e s a m p l i n gt oi t t h i sa r t i c l em a i n l yi n t r o d u c e st h em c m cm e t h o ds t r u c t u r e ,b a y ep a r a m e t e r e s t i m a t i o na n dt h em c m cm e t h o di nb a y ee s t i m a t e dt h ea p p l i c a t i o n ,f i n a l l yg i v e s t h em c m cm e t h o dt oa p p l yi nab a y ep a r a m e t e re s t i m a t i o nm o d e l k e yw o r d s :m c m c ;m o n t ec a r l o ;m a r k o vc h a i n ;b a y e ss t a t i s t i c 湖北大学学位论文原创性声明和使用授权 说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果除文中已经注明引用的内容外,本论文不含任何其他个 人或集体已经发表或撰写过的作品或成果对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明本声明的法律后果由本人承担 论文作者签名。1 日坛 签名日期- 。z 年6 月t h 学位论文使用授权说明 本人完全了解湖北大学关于收集、保存、使用学位论文的规定,即t 按照 学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷 本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化 或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部 分或全部内容( 保密论文在解密后遵守此规定) 论文作者签名:同扬吕 签名日期t 枷挥6 月q 日 导师签名: 孑丧足 签名日期;_ p ,年月严日 一序言 1 1 引言 一序言 1 8 9 9 年瑞利等人最早提出基于统计概念的计算方法蒙特卡诺方法的思 想,二十世纪二十年代柯朗( 德) ,冯诺伊曼( 美) 等人发展了这个方法后 在电子计算机上获得广泛应用,1 9 0 6 年俄国数学家马尔可夫,首次提出了” 马尔科夫链”的数学模型 本世纪9 0 年代以来,对”复杂性”的研究较为瞩目很多应用问题都存在 着分析对象比较复杂与正确识别模型结构的困难这时用m a r k o v 链的样本来对 不变分布,g i b b s 分布,g i b b s 场,高维分布或样本空间非常大的离散分布等 做采样,并用以做随机模拟的方法,即m c m c 方法的同世对建立可实际应用 的统计模型开辟了广阔的前景根据m c m c 理论,通过使用专用统计软件进 行m c m c 模拟,可解决许多复杂性问题,它相对于决定性算法,显示出了其 巨大的优越性此外,得益于m c m c 理论的应用。使得贝叶斯( b a y e s ) 统 计得到了再度复兴,以往被认为不可能实施计算的统计方法变得很是轻而易 举了 在许多很复杂的统计问题中,有时很难对各种统计方法进行理论分析,为 了评估它们的优劣,常见的实用方法是做随机模拟t 即设法按问题的要求和 条件去构造出一系列的模拟样本,用它们的样本频率代替相应的概率做统计 分析和推断,观察由这些模拟样品所作出的推断的正确率因为在概率论初 期发展时,随机模拟方法的原型常常来自博采,于是人们就以博采之都m o n t e c a r l o 作为随机模拟方法的别称久而久之,m o n t ec a r l o 方法作为名称倒比 随机模拟方法更为广泛的应用了 用m a r k o v 链的样本,来对不变分布,g i b b s 分布,g i b b s 场,高维分布 或样本空问非常大的离散分布等做采样,并用以做随机模拟的方法,统称为 m a r k o vc h a i nm o n t ec a r l o ( m c m c ) 方法这是动态的m o n t ec a r l o 方法 由于这种方法的同世,使随机模拟在很多领域的计算中,相对于决定性的算 法,显示出它的巨大优越性而有时随机模拟与决定性算法的结合使用,会显 示出更多的长处 1 湖北大学硕士学位论文 m c m c 至少可以用在以下几个层面t ( 1 ) 用于生成较复杂的随机数 实现对高维分布( 或高维格点分布) 丌的取样,得到丌随机数 是实现重要度采样的一种方法,对i ,( z ) i 的重要度采样,就是取得随机 数7 r = 丌( z ) = 础,对于,( z ) 0 ,作以丌= 7 r ( z ) = 爿篙为极限分布的 m a r k o v 链五。利用遍历定理可以由这个m a r k o v 链的一条轨道,得到分布密度 7 r ( z ) ( 2 ) 实现高维积分( 或者项数极多的求和) 的数值计算; ( 3 ) 用模拟方法估计最可几轨道, ( 4 ) 用被估计参数的b a y e s 分布的取样,来估计参数 ( 5 ) 求复杂样本空间上函数的极值 本文就是对于参数0 的b a y e s 分布用m c m c 方法做以它为极限分布的 m 玉跏链o n ,由于的分布近似于b a y c s 分布,我们可以取扫= o , n t i + 0 , n - t - 2 + + 0 , n - i - n 作为0 的参数估计 1 2 随机样本生成法 随机变量( 随机向量) 的样本简称为随机数,由于在统计中常用的是独立 样本列,不妨假设随机数之间都是独立的,生成随机数的方法,也称随机数的 取样法 1 2 1 均匀随机变量的计算机模拟 在【0 ,1 】上均匀分布的随机变量的独立样本简称为均匀随机数( u ( o ,1 ) 随机 数) 在计算机上产生的称为。伪随机数”的序列,是一种具有非常长周期的,切 能通过数理统计中的独立性与均匀性假设检验的数列实践证明,伪随机数是 均匀随机数的一种可行的近似这种伪随机数虽然不是独立同分布的u ( o ,1 ) 随机变量的样本,而是在【0 ,1 】中取值的周期数列,但是由于它可以像均匀随 机数一样的通过数理统计中的独立性与均匀性假设检验,而且它的周期非常 长,以至在计算机实际运算过程中不会出现重复,所以在实际计算中它能很好 的替代均匀随机数最普遍用一产生伪随机数的方法是同余法,典型的例子如 下: y n + l = 5 1 3 y n ( r o o d 2 3 6 ) ,y o = 1 ,z n = 2 3 6 y n ,( 周期约为2 1 0 1 0 ) 2 一序言 1 2 2 分布函数f ( x ) 的随机数 ( 反函数法) 分布函数为f ( x ) 的独立随机变量列的样本,称为f ( x ) 随机 数若f ( z ) 严格单调递增,f 是均匀随机数,则f - 1 ( ) 是f ( x ) 随机数,其 中f q 为f 的反函数 证明p ( f 一1 ( ) f 0 ) ) = p ( f f ( z ) ) = f ( z ) 1 2 3 正态随机数 n ( o ,1 ) 随机数称为标准正态随机数,生成标准正态随机数有一个比反比例 的方法更简单的实践方法,就是利用中心极限定理,设,7 1 t 7 1 2 为均匀随机 数,切他们都是独立的,由中心极限定理,可以认为f = 仇一t 7 1 2 6 n ( 0 ,1 ) , 即用f = t 7 l 一 7 1 2 6 近似的作为标准正态随机数在实际计算中,维( 1 i 1 2 ) 还应该用伪随机数代替 命题1 ( 生成标准正态数的b o x m u l l e r 方法) ,取两个独立的均匀随机数 m ,7 7 2 ,令 f 1 = - 2 i n 啦c o s ( 2 7 r 7 7 2 ) 已= 一2l n7 7 2s i n ( 2 7 r r 7 2 ) 则l ,已为相互独立的标准正态随机数 1 2 4v o n n e u m a n 取舍原则 假定我们要生成密度为p ( z ) 的随机数,为此取一个参考分布密度伽( z ) ,使 它满足: ( 1 ) p o ( x ) 随机数容易生成,例如伽( z ) 为正态密度,均匀密度,指数密度, 及它们的混合密度等; ( 2 肺( z ) 和p ( z ) 的取值范围差不多,且存在c ,使p ( z ) sc ( z ) 则有以下命题; 命题2 设随机变量具有密度舶( z ) ,而随机变量u u 0 ,1 】且与,7 独立, 则 p ( 7 7 纠器冽= p ) d r 证明对叩的取值用推广了的全概率公式( p ( a ) = ip ( a y = y ) p o ( y ) d y ) ,得 到 3 湖北大学硕士学位论文 朐纠器猢 p ( n z l 龋u ) = 一 p t 、。p p 0 ( 7 l l ) 训u ) f e 。p ( u 器) p 0 ( 秒) 咖 麝p ( v 龋) 加( y ) 咖 f :0 0 - 占p ( u ) d u 2 砭丽 = 反劬) 咖 取舍原则的具体做法是; ( 1 ) 独立的生成1 1 个独立的p o ( x ) 的随机数r l l 一r t n 与1 1 个与之独立的u o ,1 】 随机数仉,巩 ( 2 ) 对于i = 1 ,2 ,如果有毒巩,就保留依,否则就舍弃r 由命题2 ,所有这样保留下来的r 就成为一系列独立的p ( z ) 随机数( 当 然个数比n 小很多) ,这种取舍方法称为v o n n e u m a n 取舍原则 取舍原则可以改良为以下叙述, 如果p ( z ) = ,y i i ( z ) ,只要存在c ,使九( z ) c ( z ) ,那么我们可以在取舍原 则中用n ( x ) 代替p ( z ) ,得到p ( x ) 随机数,具体为t 独立的生成n 个独立的 p 0 ( z ) 随机数m 一r j n 与1 3 个与之独立的v o ,1 】随机数仉,巩如果 黑阢c po(r7i)一一 就保留哺,否则就舍弃啦,那么所有保留的都是相互独立的p ( z ) 随机数 1 2 5 多维随机数 对于已知的分布密度,可以利用条件密度,把生成多维随机数归结为生成 一系列一维随机数z 设随机向量( x 1 ,x 1 ) 的密度为f ( z l ,x 2 ,x d ) ,则有表 达式 f ( x x ,x 2 ,x , d ) = ,x l ( z 1 ) ,( z 2 i z l ) ,( z d l z l ,x d 一1 ) 其中f x 。( x 1 ) 为x 1 的边缘密度,f ( x k x x ,x , k l 为在已知x 1 = x l ,x k 一1 = x k l 案件下扎的条件密度,于是可以先取一个厶。随机数z 1 ;然后,在z - 4 一旁专 固定的情形下,生成一个,( ,z ) 随机数x 2 ,再在x l , x 2 固定的情形下。生成 一个,( ,z 1 ,z 2 ) 随机数x 3 ,最后在x l , z 2 ,x d 一1 固定的情形下,生成一个 ,( ,z 1 ,x d 一1 ) 随机数x d ) ,这样得到的x l ,x 2 ,x d 就是向量( x l ,x 1 ) 的一 个随机数 1 3 正态随机数 通过构造独立同分布随机数,计算积分的m o n t ec a r l o 方法。称为静态 m o n t ec a r l o ,其实想可以在本节中,通过估计最简单的积分f 2f ( x ) d x 得到阐 明,对于高维积分,其思路和一维积分一样的 1 3 1 用频率估计概率来计算积分的m o n t ec a r l o 方法 假定0 ,( z ) m ,那么由积分的面积含义有 f b f ( x ) d x = 例( 其中例为s = ( z ,) :n z 6 ,0 y ,( z ) 的面积) 考虑平面区域q = 【n ,6 】x 【0 ,m 】上的均匀随机变量f ,则 p - p ( f 唧= 南厶挑 对于n 个独立的似均匀随机数靠( i n ) ,记也= l ,“为落在s 中的 频数,于是,利用大数定理便知 瑚h ) m 等 是积分j = f b f ( x ) d x 的相合估计,即对于任意的e 0 ,当n _ o 。时,有 p ( i ( b - a ) m 等一办蛐i 扣 又由于m 服从参数为加,n ) 的二项分布,所以有 所= 下( b - a ) m p = z 6 他) 如 即j 积分j = f b af ( x ) d x 的无偏估计,此估计的方差为 脚j 邓_ 0 ) 2 m 2 掣= ( 6 叫2 m 2 巧知( 卜i 矗皿)= 专【( ( 6 一n ) m 一司= 。( 专) 又因为方差代表平均平方误差,故有积分的估计j 的误差为d ( 斋) 1 3 2 用用样本函数的平均值估计的期望来计算积分的m o n t ec a r l o 方法一 期望法 5 湖北大学硕士学位论文 期望法的核心思想是把积分看承某个随机变量的期望,最常见的是看成 【a ,b 】上随机变量的期望,设叼一u a ,6 i ( a ,b 】上的均匀分布) , ,6 i = f ( x ) d x = ( b a ) e f ( o ) 于是对n 个独立的 a , b 】上的均匀随机数,可以用炬估计 ;_ ( 6 - 0 ) 型掣 作为j 的无偏估计,而且 ( ? ) = ( b - a ) 2 鼍掣= ( 6 - 口) 2 丙1 明扩邮砌) 】2 = ( 6 一n ) 2 j 1 6 他) 2 而d x 一嘉,2 嘉【( 6 一。) m j 一,2 】= 御( ? ) 可见频率法比期望法更有效 1 3 3 减少方差的技术一重要度采样法 用m o n t ec a r l o 方法计算积分j = e ,( z ) 出时,未必一定要使用均匀随机 数事实上,从【a ,b 】上取值的任意一种随机数出发,都可以得到j = f b 。f ( x ) d m 的相合估计量而且在,( z ) 0 显见值f ( x ) 大的x 对于积分,= c ,( z ) 如有 更大的奉献,由此得到启发,所用的随机数的分布密度的形状越像f ( x ) ,则越 合理,这个思想就是重要度采样法 1 g - 采样法 假定分布密度g ( x ) 在f ( x ) 非零处恒正,则积分,= e ,( z ) 如= e d ( z ) = e 赫对于密度为g ( x ) 的”g 采样法。有 j 叫器】9 ( ) 。 于是对于n 个独立的g - 随机数1 7 “,关于积分,= f :f ( x ) d x 可取估计 如) - 丙1 旧裂 + - 删裂】 显见它也是无偏的相合估计,利用s c h w a r t z 不等式得到 o 器陌如= 厶帕z 6 【筹陌蚓z 6 揣瓣1 2 = 小榭 一序言 而且上式当且仅当在厕= c 揣时,( 1 i p 夕( z ) = o f ( z ) ) 达到极小值 嵋,( z ) 出】2 这说明u a r ( i 9 = 斋【e 【器】2 9 ( z ) 出一,2 】的最小值在9 0 ( z ) = c ,( z ) 时取到又因为g o ( z ) 为密度,故c5 万币1 面是无偏估计误差的精确值 综上讨论可知,要使方差达到最小,就应该用g o ( x ) = c ( z ) 作为参考密 度,由此我们可以得到下面的认识,即只要密度g ( x ) 的形状与被积分的函数 相似,用i ( g ) a w w n 幸f :f ( x ) d x 的估计,就会降低方差,这就是下面的概念 定义分布密度为9 ( z ) = d 锩的g - 采样,称为关于“x ) 的重要度采 样 重要度采样不能通过取舍原则实现,近似的实现重要度采样可以采用m a r k o v 链m o n t ec a r l o 方法 在实践中人们往往按照重要度采样的思路,灵活的寻找常用的一直类型的 密度g ,使它在峰值附近与,( z ) 较接近,以便达到降低估计的方差的目的 2 修正的重要度采样法 对于g - 采样,假定存在非负函数h ( x ) ,满足 q = j ! a b h ( z ) 夕( z ) d z 。 而且q 已知,那么我们可以采用h ( x ) 作为修正乘积因子显见对于g 随机数 f ,有 j :胁肛鬻 如果先放弃对于估计的无偏性要求,而只要求估计的相合性,则对于n 个独 立的g - 随机数l ,臼,我们可以通过比值,构造j = r 夕( z ) 出的如下估计 量t 黼 显见它是,= f :f ( x ) d x 的相合估计,在某些假定下,它是渐进无偏的,e p 1 ,i me ( j r ) = i 、 而且j 还保留了重要度采样的特性,即当 ( z ) = c 籍时,i 就是,= f :f ( x ) d x 于是,只要当h ( x ) 与籍近似,就会降低方差,注意对于给顶的分布密度g ( x ) , h ( x ) 的选取尽量与籍近似,这个修正乘积因子h ( x ) 是用来再一次降低由于 密度g ( x ) 与被积函数“x ) 的倍数不够像所带来的失误而设置的而当 ( z ) 三1 时,就退化为乎采样,这就相当与对分采样不再做修正 7 湖北大学硕士学位论文 2 1 贝叶斯统计要义 二有关贝叶斯统计 贝叶斯方法的基本思想是把概率函数( 包括分布密度和离散的分布密度) 中的未知参数0 当作随机变量( 或随机向量) 在b a y e s 方法中不再区分参数和随机变量,所以未知参数的分布的确认是 最重要的,在抽取样本之前,就只能根据先验知识设置未知参数的分布,称为 先验分布,或验前分布,在抽取样本以后,根据对于抽取到的样本的概率规律 的了解,就可用b a y e s 公式把参数先验分布改进为后验分布,或验后分布,也 称b a y e s 分布 2 1 1 先验分布与后验分布( b a y e s 分布) 再访 设随机变量f 的分布( 或概率函数) 为p ( x ,口) ( p 也可以是向量) ,用b a y e s 的观点,把0 看成是随机向量后,p ( x ,0 ) 就是。在护已知的条件下,f 的条 件分布,即 耿l 口( z i 目) = p ( x ,p ) 假定日的分布密度( 或概率函数) 为( 日) ,称为0 的先验分布,于是( ,0 ) 的 联合分布为咖( p ) p ( z ,口) 在口取固定值的条件下,假若f 1 ,矗为采自p ( x ,0 ) 的独立随机样本在l ,靠已知的条件下,0 的条件分布记为妒( 日i 1 ,靠) 由b a y e s 公式可知它是o 与6 ,厶的联合密度( 伊) n 墨l p 心,p ) ,除以a ,矗 的边缘密度,即: 绯,小篇糌 称为0 的后验分布,或者b a y e s 分布 2 1 2 已经损失函数的b a y e s 估计 假定对参数日的一个估计扫带来的损失可又一个损失函数l ( o ,占) 来度量 我们用e b 。班。表示在后验分布下取的数学期望,对于0 的任意一个估计量蚕, 8 二有关贝叶斯统计 它在后验分布下的平均损失e b 。归l ( o ,舀) 称为后验风险,使后验风险达到最 z , l 黼i - i - ,称为b a y e s 估计,记为每b 。脚,即它满足t e b a y e s 【l ( 目,p 日a y e s ) 】= m i n 口e s a y e s l ( 口,口) 】 2 1 3 b a y e s 方法的评述 b a y e s 方法的一个长处是设置了一个先验分布,它可以发挥对未知参数的 已有统计知识的认识,然而其难点也正在于如何选取合适的先验分布,这可以 说这种由从另一个角度认识统计带来的一对矛盾在实际应用中正是要巧妙 的处理好这一对矛盾 再则,由于在b a y e s 方法中,参数与随机变量是平等的,所以对于随机变量 的估计也常用b a y e s 估计,特别是在数据不全的情形( 缺失数据) 的统计中, 需要用测量数据来估计缺失数据 2 1 4 先验分布的取法 第一种取法出现在无任何先验信息的情形,具体的说t ( 1 ) 在口取值于( 一,+ ) 时,认为它是均匀的( 这称为b a y e s 假设) ,即先验 密度为常数( 因为p 取值区域为无限,它不是真正的分布,而是所谓的广义分 布) ,此时的b a y e s 估计就变成为普通的最大似然估计 ( 2 ) 在口取值于( 0 ,+ o o ) 时,常用广义分布石1 ( 3 ) 在p 取值于( 0 ,1 ) ,常用广义分布丽1 丽 第二种取法是用最大熵原则:取所谓的最大熵分布,它是在已知的限制条件 下,信息掌握的最少的分布,在对于参数完全没有限制的情形下,广义的最大 熵分布恰恰就是均匀分布,所以第二钟取法也是第一种取法的延伸,又若参数 是个概率向量( 或者要估计的是一个取值于”概率向量组成的饿概率空间 。的随机向量,这里 。n 维概率向量组成的概率空间。= ( p 1 ,p n ) :0 p 1 ,p n 1 ,p l4 - + 加= 1 ) , 那么这时的最大熵分布即是d i r i c h l e t 分布 经验知识对于粗估先验分布很有用例如t 若未知的是英文字母或汉字, 人们可以根据字母和汉字出现的经验频率得到先验分布的统计估计 第三种方法是采用j e f f r e y s 原则,取先验密度为( p ) = c 、伍戛了两,其中c 是常数, ,( 口) 是信息矩阵,它的分量是( p ) = - e ( 错) ,( 一= ( 0 1 ,口1 ) ) 9 湖北大学硕士学位论文 第四种方法是统计中的所谓共扼分布的方法如果参数的先验分布与它关 于分布p ( z ,口) 的后验分布属于同一种类型,那么次中类型的分布就称为p ( x ,口) 的共扼分布,用共扼分布作为先验分布有其合理性,因为这时先验分布和后验 分布属于同一种类型 常见的共扼分布有tb e t a 分布是二项分布的共扼分布,也是几何分布的 共扼分布;g a m m a 分布是p o i s s o n 分布的共扼分布,也是指数分布的共扼分 布,正态分布是已知方差的正态分布的共扼分布;双侧截尾正态分布是已知方 差的双侧截尾正态分布的共扼分布等等 在对参数没有任何先验知识时,在上面任何一种取法中,到底哪个更合适, 一般的说,并没有确切的答案,这也是b a y e s 方法的不足之处一般具体问题具 体对待 2 1 5b a y e s 估计再访 通过b a y e s 分布来估计参数和状态,有三种常见的方法: ( 1 ) 对于给定的损失函数,求使后验风险最小的估计 ( 2 ) 用后验分布的数学期望,即后验期望估计 ( 3 ) 用后验分布达到最大值的点来估计,称为最大后验估计 与一般数理统计类似的还可以用后验分布作去件估计 2 1 6b a y e s 策略 定义1 在统计抉择中,通常会涉及样本,参数与行动,参数0 是被考虑成随 机变量的,将可能采取的行动能够全体组成的集合记为a ,假定在对象的状态 分布的参数为0 时,如果采取行动a ( ea ) ,就会导致损失l ( o ,n ) ,而采取的动作 a 是依赖于被抽取到的样本l ,靠的,我们将它记为a = o ( ) ,= ( - ,靠) 这个”函数“( 从样本到动作的对应) n ( ) 就称为一个策略在样本为时, 策略n = n ( ) 带来的损失为l ( o ,n ( ) ) ,他是样本的函数 定义2 在0 固定时的平均损失为 , r ( 0 ,口( ) ) = = e l ( o ,n ( f ) ) = l ( p ,a ( x ) p ( x l ,吼p ( z n ,o ) d x ) - , 称为策略o ( ) 关于0 的风险函数它对于先验分布砂( 口) 的平均 , p ( o ( ) ) = r ( 口,( ) ) ( p ) 瑚 , 】0 二有关贝叶斯统计 称为策略口( ) 对于先验分布的b a y e s 风险使先验分布妒的b a y e s 风险达 到最小的策略,称为对于先验分布曲的b a y e s 策略 定义3 动作带来的损失口= o ( ) 带来的损失l ( o ,d ( ) ) 关于口的后验分布 的期望,则称为策略o = n ( ) 的后验风险( 就是动作o = n ( f ) 带来的风险) , 其表达式为 e 日口暂。l ( o ,n ( ) ) ;l ( o ,o ( ) ) p ( 口i ) d p , 其中v ( o l ) 为参数口的后验密度 这里需要分清楚,策略的风险函数是对状态变量做的平均,即对于一切可 能的样本做平均,所以它定义在整个策略类上,而策略对于先验分布的b a y e s 风险,是策略的风险函数关于先验分布的平均,而后验风险是,在给定样本 下,策略对参数的后验分布做的平均,从数学处理上,在求后者时样本是固定 的,所以要简单的多,这是使用后验分布的好处 定义4 ( b a y e s 策略基本定理) 个策略n ( ) 是b a y e s 策略的充要条件是, 对于任意样本f ,口( ) 都使后验风险达到最小 这个定理说明了b a y e s 策略在任意样本上的取值,就是f 的最小后验风 险动作,于是b a y e s 在本质上仍放映了后验性质 由此可见,只要算出后验风险,再求b a y e s 策略并不困难 b a y e s 估计可以纳入b a y e s 策略的框架,再者,假设检验也可以纳入b a y e s 策略的框架,因而b a y e s 统计方法的重点就归结为b a y e s 分布的的计算 在实际问题中,b a y e s 分布的计算,常常通过随机模拟得到,特别是b a y e s 分布中分母的计算,常常设计巨大的工作量,这就是本文的重点,我主要用 m a r k o v 链m o n t ec a r l o 方法来对分母进行计算 1 1 湖北大学硕士学位论文 三m c m c 算法的构造 m c m c ( m a r k o vc h a i nm o n t ec a r l o 算法) 是一种简单有效的计算方法,在 统计物理,b a y e s 统计计算,显著性检验,极大似然估计等领域有着广泛的应 用m c m c 的基本思路是。通过建立个平稳分布为丌( z ) 的m a r k o v 链来得 到丌( z ) 样本,基于这样就可以做各种统计推断 3 1 问题的提出 对一给定的状态的状态空间x ,给定的密度函数,满足0 l ,( 一般情 况下x 是上的一个开子集,是l e b e s g u e 测度) ,由于密度函数,可 给出x 上的一概率测度丌( ) ,即 丌( a ) = 砸f a ( x ) d x ( 1 ) 又定义了函数,:x _ r 关于7 r ( ) 的期望为t 坩m 【,( 圳= 铹 ( 2 ) 但若x 是高维的,且和是一符合函数,则( 2 ) 式的直接积分发是不可行的 对于高维积分问题,经典的m o n t ec a r l o 算法是去模拟i i d 的随机变量 而,z 2 ,z 一7 r ,用 开= 丙1 ,( 肚) ) ( 3 ) 来估计l r ( f ) 由于 e 【亓( ,) 】2 亩e 【,扛) 】= b 【,( x ) 】= 丌( ,) 故亓( ,) 是无偏估计,又 优r 亓( ,) = 击【 n r ,( z ) 】= 丙1 【丌( ,2 ) 一_ ( 删2 】一。( 专) 若丌( ,2 ) o o ,则有经典的中心极限定理,亓( ,) 一丌( ,) 的误差为平凡的极限分 布,但问题是,若札是复合的,将非常难去估计丌( ) 的i i d 的随机变量 三m c m c 算法的构造 m c m c 解决这一问题的方法是:构造x 上个以丌( ) 为平稳分布的m a r k o v 链为此,首先定义一个m a r k o v 链以p ( x ,句) ( ( z ,y ) x ) 为转移概率的平稳 分布 定义平稳分布个链若满足性质t 对任意的n 0 ,任意的k ,有( 加,饥) 与,“+ k 的分布相同,则称该链的分布为平稳分布 注;x 上一伊有限测度百若满足 , r p ( d y ) = ,r ( d x ) p ( x ,d y ) = ,r ( d y ) ( 4 ) j z e x 则称丌为不变测度一个以霄( ) 为甲稳分布的m a x k o v 链一定含有不变测度 7 r ( ) 这样,如果我们对m a z k o v 链运行足够长的时间( 以任意点为起点) ,对足 够大的n ,工。的分布将会近似的趋向平稳t 工( 五。) 丌( ) ,此时可令z 1 = , 在重新运行m a x k o v 链,可依次得到历,历,即可由( 3 ) 式得到7 r ( ,) 的估计 亓( ,) 表面上看起来似乎很难找到这样的m a r k o v 链,然后直接得出丌( ,) 的估 计但在事实上,在后面的介绍中我们可以看到m a r k o v 链的构造通常是出乎 意料的容易的 3 2m e t r o p o l i s - h a s t i n g 采样法 构造m c m c 的方法有很多,这里我主要介绍m e t r o p o l i s - h a s t i n g 采样法 基本思路。 任意选择一个不可约的转移概率口( z ,y ) 以及个转移概率q ( z ,! ,) ( o q ( z ,y ) 1 ) ,对任一组合( z ,一) ,定义t p ( x ,z 7 ) = q ( z ,z ) a ( z ,z ) z z v ( z ,z 7 ) = 1 一 口( z ,z 7 ) q ( z ,z 7 ) d z 7 z = z j z 7 易见p ( x ,一) 构成一个概率转移核 此方法的实施比较直观,如果链在时刻t 处于状态x ,即x ( ) = z ,则首先 有q ( i z ) 产生一个潜在的转移z 一一,然后以概率1 一q ( z ,) 拒绝转移到z , 从而链在下一时刻仍处于状态x 我们的目标是使打( z ) 成为平稳分布,下面就介绍在给定q ( z ,可) 后,如何选 择q ( z ,) 1 3 湖北大学硕士学位论文 一个常用的选择: 此时有 p ( z ,z ) = 出一) 刊川,揣) 7 r ( z ) 口( 一,z ) 丌( z ) q ( z ,z ) ,丌( z 7 ) q ( z ,) r ( z ) q ( z ,z ) 定理由上述过程产生的m a r k o v 链都是可逆的,即 7 r ( z ) p ( z ,z ) = 7 r ( z ) p ( z ,z ) 且7 r ( z ) 是m a r k o v 链的平稳分布 证明若z = 一,则上式显然成立,下面设z 一,则 丌( z 7 ) p ( z ,z 7 ) = 丌( z ) 口( z ,z ) m 饥 1 ,糍 = m i n 7 r ( x ) q ( x ,z 7 ) ,7 r ( z 7 ) q ( z 7 ,z ) 叫口( x i ,x 肺n 描 1 ) 所以( 幸) 式成立,所以有: 巾) p ( 叩= 巾协( x i ,;t ) = 巾吖出7 ,z ) 最后一个等式成立是因为p ( x 7 ,z ) 是一个概率核 所以7 r ( z ) 是m a r k o v 链的平稳分布,证毕 m e t r o p o l i s - h a s t i n g 采样法的具体步骤, 1 任意选取m a r k o v 链的一个初始状态x 0 = z 2 由转移核q ( ,z ) 产生一个尝试移动一 3 生成u ( o ,1 ) 随机数缸,如果u a ( x ,) ,则令x l = ,否则保持当前状态不 变,即z l = x o = z 4 重复上述步骤,依次生成托,托, 附两种常用的q ( x 7 ,z ) 选择: ( 1 ) m e t r o p o l i s 选择 1 4 三m c m c 算法的构造 m e t r o p o l i s 曾经考虑对称分布,即 口( z 7 ,z ) = = 口( z ,z ) ,v z ,z 7 此时口( z ,) = m i n f l ,糟】 对称的分布是很长用的, 以x 为均值,方差为常数 ( 2 ) 独立抽样 比如当x 给定时,q ( z ,可以取成正态分布。它 如果g ( z ,) 与当前状态x 无关,即q ( z ,z ,) = q ( x s ) ,则由此分布所导出的 m e t r o p 。l 讧h 嬲t 她算法称为独立抽样a ( x ,) = r a i n 1 ,器) ,其中加 ) = 籍 一般,独立抽样的效果可能很好,也可能很不好,通常,要使独立抽样有 很好的效果,q ( z ) 应接近丌( z ) 1 5 湖北大学硕士学位论文 四用m c m c 方法估计贝叶斯参数 在这一节,我以一个模型为例来阐述怎么样用m c m c 方法估计贝叶斯参 数 4 1 贝叶斯模型选择 用y 表示观察数据的联合分布, 如下,假设数据y 由模型m 生成, 口表示模型参数,传统的贝叶斯模型方法 对于一个啦维模型参数巩,有 p ( 1 ,i 坛) = ,( 1 ,i 巩,尬) 丌( 仇i 舰) ) d s i ( 1 ) 其中丌( 吼i 尬) ) 为先验密度,有似然数据分析,称p ( y i m l ) 为似然模型,假设我 们对模型分布有一些初始的了解,我们主要得到? 尬的后验概率p ( m ii y ) , 则 p ( m d y ) :# 盟燮坚i l p ( y i 慨) 7 r ( 地) 记尬和的贝叶斯因子为 b 1 2 = p ( m 孺1 y 而) i p 獗( m r 2 i y ) 由贝叶斯定理; b 1 2 l p ( y i 罢m 1 ) l r 高( m i ) 1 靠1 1 p ( y i 笋i m 2 ) r 一( m 2 ) l :而p ( y i m 万o 4 1 1 直接的方法 假设尬独立,由p ( y ) ,我们估计似然模型p ( y ) ,由( 1 ) ,用m c m c 方法; ,g p c y ) 2 去,( y ) - ( 2 ) 其中p ( 引,= 1 ,2 g 是以丌( 口( - - - - ) 1 9 为先验分布的一个样本,但是用这种方法, ,( y i p ( g ) 并不是丌( 口) 的极值,则( 2 ) 并不是一个很有效的估计 1 调和平均估计 四用m c m c 方法估计贝叶斯参数 为使模型更有效,这里对后验分布进行抽样,我们对后验样本的调和值进 行估计,即 枷耻暗塞南】- l ( 3 ) 其中口( 川,g = 1 ,2 m 是以p ( o i y ) 的一个样本这种方法的主要问题是可逆的 似然函数并没有有限的方差,不稳定 2 可逆的重要度估计 设定后验分布的样本口( m ,g = 1 ,2 m ,则次估计为 翰( y ) - 【击薹蒜】- l ( 4 ) 这种估计对函数h 的选择很敏感,只有当密度和后验密度相近,结果擦司可 能精确 3 桥样本估计 令 ( 口) 是一个密度函数,并且逼近先验密度,令q ( 口) 是满足正则条件的 任意条件。桥样本是建立在以下的密度之上 p(y)=f了a(io丽)f丽(y玎而lo)r刁(o万)h(o)do=墨丛型星善善铲 1 7 一 ,q p ) ( 口) p p l y ) 棚 一 岛 o ( 疗) ( 口) 】 其中岛是g ( ) 的期望 如果 p ( 川,g = 1 ,2 m ) 和 蚕( n ,z = 1 ,2 l ) 是p ( o i y ) 的两个样本,则桥样 本估计为 三一1 q ( 口( 2 ) ) f ( y l 口( 1 ) ) 丌( p ( 。) ) s ( 】,) = m m 一1 q ( 口( ”) ) ( p ( m ) ) m = l ( 5 ) 如果,n ( p ) = 币而丽,则互逆的重要度采样是( 5 ) 的一个特例 令q ( p ) = 丽两矗万丽,则可使f i b s ( y ) 的误差尽可能的减小,由于a ( 口) 与 p ( o i y ) 有关,则有: # ( e l y ) = j b ,( y i 口) 7 r ( p ) 口、。, 甘j 1 7 湖北大学硕士学位论文 由( 5 ) 得 咝瑚y ,幸1 篙 1 r忽型”“7 2 m 鱼tl ( 日( ) ) + f 户( 口( m ) i g ) r n = i 、 4 2 c h i b sc a n d i d a t e se s t i m a t o r 估计 这种方法回避了h 的选择,它主要是以鞅似然密度为基础,即以p ( r ) = ! j 裂; 铲为基础仅仅只有p ( o l y ) 不知,但对于任意口,p ( y ) 都成立,我们只 需在点p 的先验密度估计p ( o i y ) 则有 l o g & e ( y ) 】= l o gf ( y l o ) + l o g7 r ( o + ) 一l o gp ( o i y )( 6 ) 其中口+ 的选择是任意的,则估计p ( o l y ) 可由后验众数得到,现在我们的目 的是估计p ( o i r ) ,给定 加) ,g = 1 ,2 g ) 一p ( o i y ) ,若把参数空间分成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论