




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于m c m c 抽样的贝叶斯因子的模型选择中文提要 基于m c m c 抽样的贝叶斯因子的模型选择 中文提要 在贝叶斯统计中计算一组竞争模型的后验概率及其相关贝叶斯因子一直是一个 较难且有挑战性的课题。贝叶斯模型选择就是通过观测的数据,从若干个竞争的模型 中挑选出符合实际的模型,我们知道利用贝叶斯因子进行模型选择是计算正规化常数 在统计背景下的一个重要应用,对于复杂或高维模型来说其计算是比较困难的,而通 过m o n t ec a r l o 模拟则是一个被广泛应用的方法,其中m a r k o vc h a i nm o n t e c 盯i o ( m c m c ) - 抽样则是一种简单且行之有效的贝叶斯计算方法,它能很好地处理高维 计算问题。 m c m c 方法被广泛应用已有五十多年的历史,但它在贝叶斯统计、显著性检验、 极大似然估计等方面的应用则是近二十年的事情。本文首先介绍了贝叶斯因子的基本 概念以及利用贝叶斯因子进行模型选择的基本思路;接着给出了用贝叶斯因子选择 模型的g i b b s 和m - h 抽样过程,可以看到,将模型指标作为一个参数放入抽样循环, 能避免计算复杂的积分;紧接着针对一类线性回归模型的模型选择问题进行了详细的 研究,结果表明,利用贝叶斯因子的方法,结合m c m c 抽样,可以选出“最优”的 模型,和已有的模型最优选择准则进行比较,发现两者吻合;最后对所做工作进行了 总结。 关键词:贝叶斯因子;模型选择;g i b b s 抽样;m h 抽样:线性模型 作者:徐姿奕 指导教师:汪四水 m o d e ls e l e c t i o nw i t hb a y e sf a c t o rb a s e do nm a r k o vc h a i nm o n t ec a r l os a m p l i n g a b s t t a c t m o d e ls e l e c t i o nw i t hb a y e sf a c t o rb a s e do nm a r k o v c h a i nm o n t ec a r l o s a m p l i n g a b s t r a c t c a l c u l a t i n gp o s t e r i o rp r o b a b i l i t i e sa n dr e l a t e db a y e sf a c t o r sf o rac o l l e c t i o no f c o m p e t i n gm o d e l sh a sb e e nad i f f i c u l ta n dc h a l l e n g i n gp r o b l e mf o rb a y e s i a ns t a t i s t i c i a n s b a y e s i a nm o d e ls e l e c t i o ni st os e l e c tam o d e lc o r r e s p o n dt or e a l i t yt h r o u g ho b s e r v a t i o n d a t af r o man u m b e ro fc o m p e t i t i v em o d e l s w ek n o wt h a tt h eu s eo fb a y e sf a c t o rt o s e l e c tm o d e l si sa ni m p o r t a n ta p p l i c a t i o no fc o m p u t i n gn o r m a l i z i n gc o n s t a n t si ns t a t i s t i c s , b u tf o rc o m p l e xo rh i g h - d i m e n s i o n a lm o d e l ,t h ec a l c u l a t i o ni sm o r ed i f f i c u l t ,h o w e v e r , t h r o u g hm o n t ec a r l os i m u l a t i o ni saw i d e l yu s e dm e t h o d m a r k o vc h a i nm o n t ec a r l o ( m c m c ) s a m p l ei sas i m p l ea n de f f e c t i v eb a y e s i a nm e t h o d ,i tc a nd e a lw i t hh i 2 9 h d i m e n s i o n a lc a l c u l a t i o nv e r yw e l l , m c m cm e t h o dh a sb e e nw i d e l yu s e df o rm o r et h a n5 0 ) c a r so fh i s t o r y ,b u tt h e d e v e l o p m e n to ft h ea p p l i c a t i o ni nb a y e s i a ns t a t i s t i c s ,s i g n i f i c a n tt e s ta n dm a x i m u m l i k e l i h o o de s t i m a t i o ni so n l yn e a r l y2 0y e a r s i nt h i sp a p e r ,w ef a s ti n t r o d u c et h eb a s i c c o n c e p to fb a y e sf a c t o r , 勰w e l la st h eb a s i cc o n c e p t so fs e l e c tm o d e l sb yb a y e sf a c t o r ; a n dt h e n g i v et h es a m p l i n gp r o c e s so fm ha n dg i b b st os e l e c tm o d e lu s i n gb a y e s f a c t o r ,f o r mt h e s em e t h o d sw ec a na v o i dt h ec o m p u t a t i o n a lc o m p l e x i t yo fi n t e g r a t i o n 诵t l la d d i n gt h em o d e li n d i c a t o ra sap a r a m e t e ri ns a m p l i n gi t e r a t i o n s ;t h e nf o rac l a s so f l i n e a rr e g r e s s i o nm o d e ls e l e c t i o nc a r r i e do u tad e t a i l e ds t u d y ,r e s u l t ss h o wt h a tt h eu s eo f b a y e sf a c t o rw i t hm c m cs a m p l i n gc a l lb ee l e c t e d b e s t ”m o d e l ,a n dc o m p a r ew i t ht h e e x i s t i n gc r i t e r i at os e l e c tt h eo p t i m a lm o d e l ,t h et w of o u n dc o i n c i d e n t ,f i n a l l y ,as u m m a r y o ft h ew o r kd o n e k e y w o r d s :b a y e sf a c t o r ;m o d e ls e l e c t i o n ;g i b b ss a m p l i n g ;m hs a m p l i n g ;l i n e a r r e g r e s s i o nm o d e l w r i t t e nb yx u z i - y i s u p e r v i s e db yp r o f w a n gs i - s h u i 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 。 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:;主:姿茭:日期:三! ! ! :兰:! z 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、。清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 - 夕卜,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 。 , 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生基名臻莓麸e l 导师签名:迪皇! 丝一日 期: 墨堕丝笙 期:缢! 垒:1 2 : 基于m c m c 抽样的贝叶斯因子的模型选择第一章引言 第一章引言 在贝叶斯统计【l 】中计算一组竞争模型的后验概率及其相关贝叶斯因子一直是一 个较难且有挑战性的课题。在文献【2 】中,c a r l i na n dl o u i s 提出了几种利用传统的 m o n t e c a r l o 抽样法来估计边际似然函数b ( y i m = ,) ,此即数据来自第歹个模型的概 率估计,但这些方法对较高维的模型却难以实现,所以,现在贝叶斯统计分析中往往 利用m c m c 来计算,诸如文献 3 d p 的g i b b s 抽样法和文献【4 】中的m h 抽样法。 目前利用m c m c 抽样法计算贝叶斯因子包括几种思路:1 通过估计模型的边际 似然函数来计算模型的后验概率;2 从模型- 参数联合乘积空间对每个模型进行抽样比 较,估计模型的后验概率;3 仅对每个模型的参数进行抽样比较。c h u b 5 应用g i b b s 抽样法间接估计了边际似然函数,同样的,c h i ba n dj e l i a z k o v 【6 1 应用m - h 抽样法进 行了计算:在模型参数联合空间中,c a r l i na n dc h i b 7 应用g i b b s 抽样法进行了计算, g r e e n s 利用逆跳抽样法进行了计算,f o r s t 嚣等【9 】应用m - h 抽样计算。 在本文中,第二章将介绍贝叶斯因子的含义及其在模型选择中的应用;第三章介 绍常用的m c m c 法,包括g i b b s 抽样和m - h 抽样,并给出利用它们计算贝叶斯因子 的过程;第四章将前述方法应用于一个具体的线性回归模型问题,并给出模拟结果; 第五章进行全文的总结,我们将看到利用m c m c 抽样法处理维数较高的模型具有一 定的优越性,这一点在c h i ba n dc a r l i n 1 0 中也有体现,并且和已有的结论比较,其 模拟结果比较理想,同时也能提供一些有用的信息。 基于m c m c 抽样的贝叶斯因子的模型选择第二章贝叶斯因子 第二章贝叶斯因子 2 1 贝叶斯因子的定义及作用 一、贝叶斯假设检验 设p ( h old ,p ( 羁iy ) 是假设风,h i 关于数据y 的后验概率,则计算后验概率 比为等2 爱鲁粤,我们可以得到结论:当鱼a i i 时,接受风,当詈 1 时,接 受马,当鱼1 时,不宜作判断,尚需进一步抽样或进一步搜集先验信息。 口l 较之于经典统计中的假设检验,该方法较简单,它无需选择检验统计量,确定抽 样分布,也无需事先给出显著性水平,确定其拒绝域。此外,贝叶斯假设检验也容易 推广到有三个或三个以上假设的场合,这时应接受具有最大后验概率的假设。 二、贝叶斯因子 。 设与数据】,有关的有两个假设:日。和h i ,p ( h o ) ,p ( 马) 为先验概率, p ( 风id ,p ( ly ) 为后验概率,则根据贝叶斯理论,我们有 p ( 巩i d = 而瓦汤p ( y 丽lhk丽)p(h丽k) ,七= 。,1 i 砒p ( h oi d :p ( y ih o ) p ( h o ) p ( 马idp ( rih i ) p ( 日1 ) 7 则称 唔= 黜,等= 器 我们可以定义贝叶斯因子如下: 定义2 1 设两个假设风,q 的先验概率分别为,乃,后验概率为,喁, 玩。:垂黧:鱼乓堕:盟 为贝叶斯因子。 l2 页磊甄蕊2 石2 否忑 刀火川期囚于。 从这个定义可见,贝叶斯因子既依赖于数据】,也依赖于先验分布万,很多人认为, 将这两种机会比相除会减弱先验分布的影响,突出数据的影响。从这个角度看,贝叶 2 基于m c m c 抽样的贝叶斯因子的模型选择第二章贝叶斯因子 斯因子玩。是数据y 支持风的程度。在 1 1 1 2 中都对贝叶斯因子有详尽的分析和解 释根据k a s s 和r a f i e r y ( 1 9 9 5 ) t 1 ,我们可以利用贝叶斯因子的值来作出相应的 假设检验情况,其结论如下表: 表2 1 贝叶斯因子判断准则 2 2 贝叶斯因子在模型选择中的应用 假设有关于某个模型k m 的可观测数据】,其中m 为有限的模型个数,对于每 个模型七,有未知的参数向量以,维数为体,先验概率为以= - p ( m = 七) ,且以= l , 由贝叶斯假设检验可知模型选择就是通过观测的数据】,计算模型的后验概率 p ( m = k ly ) ,从若干个模型中挑选出最符合实际的模型,由于以的可能不同,对于 不高模型似- - k , m 副) 的选择往往不仅依赖于后验比嬲,而且和先验的 取值也有一定关系,因此与贝叶斯因子 b:丛!丝三盟,(21)a p ( m = kly ) p ( m = k 1 0 p ( m = k ) p ( m = 七) p ( r im = 老。) 的大小有关,这个值也反映了倾向于选择模型m = k 的后验与先验的比率。当我们 计算出所有的贝叶斯因子后,利用表( 2 1 ) 通过比较就可以选出最符合实际的模型。 既然模型先验概率巩提前知道,公式( 2 1 ) 表明计算边际似然e ( r i m = 七) 等同于 计算模型后验概率 1 3 - 1 5 。 3 基于m c m c 抽样的贝叶斯因子的模型选择第三章用m c m c 方法计算贝叶斯因子 第三章用m c m c 方法计算贝叶斯因子 3 1m c m c 方法的简介 一、基本思路 1 6 】 m c m c 方法的基本思想是通过建立一个平稳分布为万( 工) 的m a r k o v 链来得到 n ( x ) 的样本,基于这些样本就可以作各种统计推断。我们知道,若得到了万( 石) 的样 本一一,x ,$ oe f = 可估计为五= i 1 秘o ) ,这就是 m 伽l t ec a r l o 积分当z ( n ,x ( 舢,x ( ,独立时,由大数定律有 五与最f , n 寸 ( 3 1 ) 但当x ( n ,x ( 孙,x 中我们有 删叫帅云器糟瑞篇褊 在本例中由于伪先验均服从均匀分布,p ( o k , ki m = 七) = 1 ,且乃= = 乃5 ,所以 此时( 3 6 ) 为p ( m = k 只力= f ( y i 吼,m = k ) p ( e ki m = 七) 1 5 z f ( y 9 i j m = j ) p ( o j im = n 户l 三、结论 利用m a u a b 程序来实现抽样过程,在g i b b s 抽样时,从3 组不同的初始值( 见附录 三) 出发,每条链运行1 0 0 0 0 次,发现1 5 个模型的抽样效果一般,其中一条链的抽样结 果如下: 表4 5 可以发现,有些模型几乎每次抽到的次数都是0 ,而这些模型也是在前述模型选 择准则下数值较大的,由以上运行的结果根据贝叶斯因子还不能做出判断,所以需要 进行筛选,选出每次运行中能被抽到且次数相对较大的模型,组成新的模型组,它们是 1 ,3 ,6 ,1 0 ,1 1 ,1 3 ,1 4 共7 个,再进行二次g i b b s 抽样,得到如下结果: 1 8 基于m c m c 抽样的贝叶斯因子的模型选择第四章利用贝叶斯因子选择最优回归方程 表4 6 三条链中不同模型抽到的次数 m = im = 3m = 6m = 1 0m = i1m = 1 3m = 1 4 第1 次 0 9 8 81 4 3 0017 5 8 10 第2 次 8 0 0400l9 1 9 50 第3 次 020008 7 3 51 2 6 3 根据公式( 3 8 ) 计算相应的贝叶斯因子,分别列表如下: 表4 7 第1 条链计算所得 淤 m = im = 3m = 6m = 1 0 m = i l m = 1 3m = 1 4 m = i m = 3 一一 1 4 4 70 0 0 17 6 7 3 一 m = 6一0 6 9 1 一 一0 0 0 0 75 3 一 【- l o m = 1 1 9 8 81 4 3 0 7 5 8 1 - m = 1 3 一 0 1 30 1 8 8 60 0 0 0 1 3 一 一 m = 1 4 表4 8 第2 条链计算所得 冷 m = im = 3m = 6m = 1 0m = l l m = 1 3m = 1 4 m = i0 0 0 5 一 一0 0 0 1 2 51 1 5 m = 32 0 0 一 一一 o 2 52 2 9 8 7 5 一 m = 6 一一一一一一一 m = 1 0 一 一 一一一一 一 m = 1 18 0 04-。 9 1 9 5 m = 1 30 0 8 70 0 0 0 4 3 一一0 0 0 0 1 一一 女 m = 1 4 一一 一一一一一 表4 9 第3 条链计算所得b 址 1 9 基于m c m c 抽样的贝叶斯因子的模型选择第四章利用贝叶斯因子选择最优回归方程 淤 m = lm = 3m = 6m = - 1 0m = 1 1m = 1 3m = 1 4 m = t 一一一、一一一一 m = 3 一一一一 一4 3 6 7 56 3 1 5 m = 6 m = i o m = 1 1 m = 1 3 一 o 0 0 0 2 3 一 一一 一0 1 4 4 6 m = 1 40 0 0 1 6 一一一 6 9 1 6 一 由表( 2 1 ) 贝叶斯因子判断准则可以清晰地得到结论,模型1 3 是“最优 的,即自变量 集为“,x :,- ,这也是在吣准则和么尼准则下得到的结果。 为了考察g i b b s 抽样中马尔可夫链的收敛情况,可以将每条链的最后3 0 0 0 个参数 值提炼出,做出每个模型相应参数的图形,下面给出的是第1 条链中第1 3 个模型的收 敛效果图,其中参数l 一分别对应的是参数口,届,岛,属,反,仃2 , 0 4 5 0 4 0 3 5 参数3 一- 一1 - l - “o r 7 r 7 。t t 。r 01 咖7 2 0 叩硼 参数5 图4 i 第1 3 个模型参数口,届,尾,店,屈,o r 2 的收敛效果图 基于m c m c 抽样的贝叶斯因子的模型选择第四章利用贝叶斯因子选择最优回归方程 将三条链最后3 0 0 0 组参数值联接,得到9 0 0 0 组参数值,下表给出的是由这9 0 0 0 组 值计算出的第1 3 个模型相应参数的均值和标准差情况: 表4 1 0 第1 3 个模型参数的模拟结果 从表( 4 6 ) 一表( 4 1 0 ) 的结果可以看出,利用贝叶斯因子可以进行模型选择,其选 出的模型和已有的准则选出的最优模型是吻合的,而利用g i b b s 抽样法计算贝叶斯因 子是处理复杂模型的一个比较好的方法,需要说明的是,在本例中,假设每个模型的 误差是等方差且不相关的即符合g a u s s m a r k o v 假设,而更一般的假设是误差向量的 协方差阵为c o v ( e ) = 盯2 三,这里三是一个正定阵,这时可以假设 三服从i n v w i s h a r t 分布,这样模型的参数个数会增加。 此外,我们还用m - h 抽样方法进行了计算,在运算过程中,发现虽然其结果不如 g i b b s 抽样稳定,但其抽样次数较高的模型也是在c 。准则下数值较小的,即也是相对 较优的模型,所以我们完全可以利用它进行模型初选,然后再用更精确的方法计算。 2 1 基于m c m c 抽样的贝叶斯因子的模型选择第五章总结 第五章总结 本文主要讨论了贝叶斯因子的基本含义及其在模型选择中的应用,并通过介绍常 用的m c m c 法,包括g i b b s 抽样和m h 抽样讨论如何利用它们来计算贝叶斯因子, 并且将前述方法具体应用于一类典型的线性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地理选择题试题及答案
- 初中还原试题及答案
- 中级会计实务大会考查试题及答案
- 仓库管理试题及答案
- 实战模拟中级会计实务考试试题及答案速查
- 财务管理常见陷阱指导试题及答案
- 单招全套试题及答案
- 单招本科试题及答案
- 财务管理考试成功心得试题及答案
- 学习财务心理学的个人计划
- 2025云南中考:物理必背知识点
- 2025年江苏省南京市玄武区中考一模历史试卷
- 2025年全国保密教育线上培训考试试题库及参考答案(完整版)及答案详解1套
- 西师大版小学五年级数学(下)期末测试题(带答案)
- Unit8SectionA1a2d课件人教版八年级英语下册
- 《社区多元主体协同治理研究的国内外文献综述》6700字
- 铝电解基础知识培训教材
- 2025年大学生人文知识竞赛题库及答案(完整版)
- 上诉状的课件
- 【合同范文】传媒公司合作合同6篇
- 乳腺癌防治知识手册运动与健康生活方式建议
评论
0/150
提交评论