(应用数学专业论文)先验分布的选择理论研究.pdf_第1页
(应用数学专业论文)先验分布的选择理论研究.pdf_第2页
(应用数学专业论文)先验分布的选择理论研究.pdf_第3页
(应用数学专业论文)先验分布的选择理论研究.pdf_第4页
(应用数学专业论文)先验分布的选择理论研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 先验分布的确定问题是贝叶斯统计首要的基本问题。这一问题 涉及两个方面:一是如何利用一些先验信息或无信息来确定有关参 数的先验分布的问题;二是对于同一参数,已有不少的先验分布可 供选择,如何选择出一个恰当的合理先验的问题,即先验分布的选 择问题。这两个问题实质上是先验分布确定问题的两个方面。 对于第一个问题,贝叶斯统计学家们已经取得了很多的方法。 本文根据统计推断所利用的三种信息( 先验、总体、样本信息) 的 不同应用,尝试着对这些常用的方法进行了一定的整理,并提炼了 一个概念一一数据控制下的先验,以期区别无信息先验和非主观先 验概念。 对于先验的选择问题,本文基于这样的一个基本观点:在可选 先验类中选择一个合理先验的问题,与在参数空间中估计一个恰当 的参数作为模型的参数的问题类似。再借助于( 经典和贝叶斯) 统 计学推断的理论和方法,得到了先验分布选择的方法: 首先,考虑了在经典统计推断原则下先验分布的选择。证明了 m l i i 先验就是本文的似然合理先验。 其次,仅用先验信息考虑了先验的选择。证明了多层贝叶斯先 验就是本文的( 先验) 均值合理先验。这表明确定先验的多层先验 法也可以作为选择合理先验的方法,这是对多层先验法一个新的应 用。 最后,考虑了基于贝叶斯分析的先验选择。先给出求解先验的后 验分布计算方法和参数的后验分布计算方法,再根据相应的后验分 布,得到先验选择的相应方法。同时也证明了在先验信息为均匀分 布时,本文的贝叶斯似然合理先验和后验似然合理先验就是m l i i 先验。并举例阐述了方法的应用。 关键词:贝叶斯统计、先验分布、先验选择 西南交通大学硕士研究生学位论文第页 a b s 七r a c t t h ee s t a b “s h m e n to ft h ep “o rd i s t r i b u t i o ni sm o s ti m p o r t a n tf o r b a y e s i a ns t a t i s t i c s ,w h i c hc o n t a i n st w oa s p e c t s ,o n ei sh o w t oe s t a b l i s h t h ep r i o rd i s t r i b u t i o no fp a r a m e t e r sb yab i to fn o n i n f b r m a t i o no rp r i o r i n f o r m a t i o n ,t h eo t h e ri sh o wt oc h o o s eap r o p e rp r i o rd i s t r i b u t i o nf r o m s om a n yo n e s ac r i t e r i o no fc l a s s i f y i gf o rt h e s em e t h o d sf o rt h ef i r s t p r o b l e mi sp r o p o s e di n t h i sp a p e rw h i c hh a sb e e nd i s c u s s e db ym a n y b a y e s i a ns t a t i s t i c a l i s t s a c c o r d i n gd i f f e r e n ta p p l i c a t i o n s t ot h e i n f o r m a t i o nw ec o n e c ta n dc a t e g o r yt h e s em e t h o d sw h i c ha r eu s e d u s u a l l ya n di n t r o d u c ean e wn o t i o n p r i o ru n d e rt h ec o n t r o lo ft h ed a t e s i no r d e rt oc l a r i f ,t h ec o n c e p t i o n sb e t w e e nn o n - i n f b r m a t i v ep r i o ra n d n o n s u b j e c t i v ep r i o r a ab a s i ci d e ai se x p r e s s e df o rc h o o s i n gp r i o rd i s t r i b u t i o n ,w h i c hi s s a m et ot h ec h o i c eo fp a r a m e t e rf o rt h em o d e li nt h es p a c eo f p a r a m e t e r s as e to ft h e o r yf o rt h i s i sb u 订ti nv i r t u eo fc l a s s i c a l s t a t i s t i c si nt h i sp a p e ra n dav e r i f i c a t i o nf b rt h a ti sg i v e n a n dt h e nt h e w a y so fp r i o rs e l e c t i o nw h i c hu t 订i z e sp r i o r i n f o r m a t i o no n l yi s p r o p o s e d t h ev e r i f i c a t i o nf o rt h a th i e r a r c h i c a lb a y e s i a np r i o ri sak i n d o fr e a s o n a b l ep r i o rm e a n si n d i c a t et h a tt h em e t h o de s t a b l i s h i n g h i e r a r c h i c a lb a y e s i a np r i o ro fp r i o ri sap r o p e rm e t h o dt oc h o s ep r i o r 。 t h i si san e wa p p l i c a t i o nt oh i e r a r c h i c a lb a y e s i a np r i o r 。 a tl a s t ,m e t h o d st 0c h o o s ep r i o rr e s o r tb a y e s i a na n a l y s i sa r eg i v e n f r o mt w oa s p e c t s n u m e r a t i o n so fp o s t e r i o rd i s t r i b u t i o nt og a i np r i o r d is t r i b u t i o na n dp a r a m e t e ri s g i v e nr e s p e c t i v e l ) t h ec o r r e s p o n d i n g m e t h o dt oc h o o s ep r i o ri se d u c e dc o n s e q u e n t l y a tt h es a m et i m ew e c o n c l u d et h a tb a y e s i a nl i k e l i h o o dr e a s o n a b l ep r i o ra n dp o s t e r i o r 1 i k e l i h o o dr e a s o n a b l ep r i o ra r eu n i f b r mw i t hc l a s s i c a lm l 一一i ip r i o r w h e nt h ed i s t r i b u t i o no fp r i o ri se q u a ld i s t r i b u t i o n 。 k e yw o r d s :b a y e s i a ns t a t i s t i c s 、p r i o rd i s t r i b u t i o n 、p r i o rs e l e c t i o n 西南交通大学硕士研究生学位论文第1 页 第一章绪论 1 1 论文的背景及意义 大约三百年前,人们开始去严肃地考虑面对不确定性时,如何 进行推理。 j a m e sb e r n o u l l i ( 1 7 1 3 ) 可能是第一个构造这类问题的人, 即应用于机会游戏的演绎逻辑的机理,如何能帮助处理生活中的归 纳逻辑的推断问题。 t h o m a sb a y e s ( 1 7 0 2 - 1 7 6 1 ) 的一篇文章( 1 7 6 3 ) 对b e r n o u l l i 的问题 提供了回答。现代形式的贝叶斯定理归因于l a p l a c e ( 18 1 2 ) ,而目前 被承认的现代贝叶斯统计,应归功于j e f f r e y s ( 1 9 3 9 ) 、l d ( 1 9 5 0 ) 、 s a v a g e ( 1 9 5 4 ) 、r a i f f a s c h l a i f e r ( 1 9 6 1 ) 、l i n d l e y ( 1 9 6 1 ) 及d e f i n e t t i ( 1 9 7 4 1 9 7 5 ) 等人。近五十年多年来,贝叶斯统计在理论、实际 及二者的结合上都得到了长足的发展,已成为统计学中不可缺少的 重要部分。 在贝叶斯的推断理论中,产生的第一个基本问题是:先验分布 的确定问题。这也是贝叶斯方法中争论最多的问题。 先验分布的确定方法,已积累了许多。诸如:b a v e s ( 1 7 6 3 ) 、 l a p l a c e ( 1 8 1 2 ) 等应用过的b a y e s 假设,借助于经典统计学的一些 方法【如超参数估计法e d w a r d s ( 1 9 6 8 ) m 1 】,j e f f r e y ( 1 9 6 1 ) ( 2 4 1 先验, 参照先验分布 b e r n a r d o ( 1 9 7 9 ) 【3 0 】、s u n & b e r g e r ( 1 9 9 8 ) 1 】,概率匹 配先验 w e l c h & p e e r s ( 1 9 6 3 ) 】、t i b s h i r a n i ( 1 9 8 9 ) 圳1 m l i i 先 验 i j g o o d ( 1 9 8 3 ) 1 1 0 】、b e g e r & b e r l i n e r ( 1 9 8 3 ) 【1 、c h a t u r v e d i ( 1 9 9 8 ) 1 ,最大熵先验 j a y n e s ( 1 9 6 8 】) 】,最大数据信息先验【s o o f i ( 1 9 9 4 ) j 】以及多层先验 l i n d l e y s m i t h ( 1 9 7 2 ) 】等等。但所见文献多是 零散的叙述各种方法,尽管也有一些资料 【5 0 1 有一定的阐述,但都 没有把这些方法有机地联系起来。这需要寻找一定的内在联系,对 它们进行一定的整理,以便更好地研究和把握这些方法。本论文在 这方面作了一些尝试性的工作。 西南交通大学硕士研究生学位论文第2 页 另外,所有这些确定先验分布的方法都只是提供了求先验分布 的手段,而对于先验分布的合理性和准确性缺少合理评价方法。换 句话说,对于同一个问题,不同的人根据不同的经验和规则,可以 得出完全不同的先验分布,那么,对同一个问题,面对具有多个先 验分布可供选择时,应该选择哪一个更加合理? 这就涉及到贝叶斯 理论中的另一个基本问题:先验分布的选择问题。这正是本论文将 主要着手去研究的问题。其实先验分布的确定和选择问题,实质上 就是先验分布确定这一基本问题的两个方面。关于先验分布选择的 哲学思想,可参看k a s s & w a s s e r m a n ( 1 9 9 6 ) 】。 对于选择问题的研究,统计学家们取得了不少成果: f r e e d m a n d ( 1 9 6 3 ) 提出:相容性先验一一随着统计数据的无 限增多,其先验信息的影响逐渐减弱的先验。f r e e d m a n d ( 1 9 6 5 ) 【2 1 证明:在光滑及低维的假设下,贝叶斯学习是相容的,当且仅当参 数有正的先验分布。l i n d l e y ( 1 9 6 5 ) 采用t a y l o r 展开式论述:在 某些正则条件下,后验分布不仅具有相容性,而且具有易于计算的 渐近正态性。w a l k e r ( 1 9 6 7 ) 在加强的条件下提出了一个严格的证 明,h e y d e & j o h n s t o n e ( 1 9 7 9 ) 川将条件简化后给出个证明,胡振宇 ( 2 0 0 1 ) 迸一步简化了定理的条件。i b r a g i m o v i a & h a s m i n k i i r z ( 1 9 8 1 ) 】在讨论贝叶斯估计时,曾给出一个相容性贝叶斯学习的 充分条件,m a r i i z ( 1 9 7 0 ) 、l o r d g r e s s i e ( 1 9 7 5 ) 提出先验选 择的距离方法。g h o s a l ,s 、g h o s h j k & s a m a n t a t ,( 1 9 9 5 ) 【”1 给出 了相应的证明。b e r n a r d o ( 1 9 9 7 ) 1 提出,由数据提供的信息应该控 制先验信息。b a s u ( 1 9 9 9 ) 】提出,样本分布和先验分布应该同时考 虑,并且研究了依赖于这两个分布的度量的后验敏感性问题。通过 上述学者的成果,为利用数据信息来选择先验提供了理论基础,可 是却没有建立一套较为完整的可操作的先验选择方法。胡振宇 f 2 0 0 1 ) 【6 】指出,先验分布选取的前提一一相容性原则。并且将贝叶斯 启发式方法引入先验分布的选取中,把选择一个先验的问题看成是 一个贝叶斯判别问题,提出了一个实验性的方法。却没有较完整的 阐明相应的思想和方法。本文f 是在胡振宇( 2 0 0 1 ) 1 的基础上,对先 验分布的选择问题作了进一步的研究。 西南交通大学硕士研究生学位论文第3 页 1 2 论文的研究目标和内容 在贝叶斯统计学中,先验分布的确定与选取是首要的基本问 题。本论文主要在胡振宇( 2 0 0 1 ) 6 1 的基础上结合其他学者的一些成 果,作了以下的一些研究工作: 1 对于先验分布的选择问题的研究:本文基于笔者曾发表的文 章【2 1 1 中的一个观点:在可选先验类中选择一个合理先验的问题,与 在参数空间中估计一个恰当参数的问题类似;再借助于( 经典和贝 叶斯) 统计学中已有的理论,尝试着建立了先验分布的选择方法。 其中 r 1 ) 在经典统计推断原则下的先验分布选择方法中,证明了m l i i 先验就是本文的似然合理先验。 ( 2 ) 在仅用先验信息的先验选择方法中,证明了多层贝叶斯先验 就是本文的( 先验) 均值合理先验。这表明确定先验的多层先验法 也可以作为选择合理先验的方法,这是对多层先验法一个新的应用。 ( 3 ) 结合先验与数据信息,从两个角度本文考虑了基于贝叶斯分 析的先验选择方法。先给出求解先验的后验分布计算方法和参数的 后验分布计算方法,从而得到先验选择的相应方法。同时也证明了 在先验信息为均匀分布时,本文的贝叶斯似然合理先验和后验似然 合理先验都是m l i i 先验。并以实例阐述了这一方法的应用。 2 对于先验分布确定方法的分类研究:通过研究这些先验分布 的确定方法,本文以统计推断的三大信息来源( 先验、总体和样本 信息) 为线索,对常见的先验分布确定方法进行了一定的整理,并 提炼了“数据控制下的先验”这一概念,以期区别“非主观先验” 与“无信息先验”这两个概念。以望能更清晰地展现出先验分布确 定方法的一些研究思路,为进步的研究提供一点帮助。 1 3 论文的结构安排 考虑到国内外学者现有的研究状况、已有的研究基础,本学位论 西南交通大学硕士研究生学位论文第4 页 文主要研究:先验分布的选择方法问题,另外,还考虑了先验分布 确定方法的分类问题。全文分为五章,各章的内容安排如下: 第1 章:绪论。本章主要阐述了本论文的选题背景及意义,本论 文的研究目标和内容以及论文的结构安排。 第2 章:贝叶斯理论基础。本章比较了贝叶斯方法和经典统计方 法在统计推断模式的差异性,分析了常见的先验分布确定方法的基 本原理和局限,阐述了先验分布选择方法的理论基础。 第3 章:先验分布的选择理论研究。对于同一问题,有多个先验 分布可供选择时,如何选择出较为恰当的合理先验,这一问题是先 验分布确定问题的另一个方面。本章从经典统计和贝叶斯统计的理 论出发,尝试着去建立了选择先验分布的方法。 第4 章:先验分布确定方法的分类研究。先验分布的确定,是贝 叶斯理论首要的基本问题,也是贝叶斯学派与经典统计学派争论的 焦点问题。因此,从贝叶斯理论诞生以来,贝叶斯统计学家们就致 力于这一问题的研究,获得很多确定先验的方法。但是这些方法缺 少有机的联系和用统一的观点整理。本章试着在这方面进行了一点 尝试性的工作。 第5 章:全文总结与展望。本章将对本学位论文的研究内容、创 新之处和进一步研究展望作一个概括性的总结。 西南交通大学硕士研究生学位论文第5 页 第二章贝叶斯理论基础 2 1 经典统计学派与贝叶新学派的争论 贝叶斯统计学是在与经典统计学的争论中逐渐发展起来的。近 一个世纪以来,频率学派和贝叶斯学派之间,进行了不少的辩论和 驳难,成为2 0 世纪数理统计学舞台上一个引人注目的亮点。其根本 之点在于:对掌握信息不完全的情况下,归纳推理该如何做? 尽管 人们可以在若干抽象的原则上取得一致意见,但不可能在具体的推 理方法上取得完全的一致。两派其实有不少的共同点,如:都承认 样本有概率分布,概率计算遵守共同的规则等。其分歧点在于:把 未知参数是看作一个未知的固定量,还是看作一个随机变量? 其它 的分歧都多少由此派生出来t ”z 。如:事件的概率是否一定有频率 解释? 概率是否可以用经验来确定? 等等。 2 2 贝叶斯公式与主观概率 ( 1 ) 贝叶斯公式的密度函数形式 设总体量p 向 础( p o ) ,参数口的先验分布为口p ) ,从总体抽 取的样本x = ( x l ,x 2 ,x 。) ( 该样本可看作分两步进行的:首先,设想 从先验f 口) 产生一个样本p 。,这是“老天爷”完成;其次,从总体分 布p x 1 目) 产生一个样本x = 何,x 2 ,x 。) ) 。则样本x 发生的概率是与如 下联合密度函数成正比: l ( 目) = p ( ) = 丌p ( x ,渺) ( 21 ) j = i 上式综合了总体和样本的信息,称为似然函数( 目) 。由似然原理知, 有了样本观察值x = ( x i ,x 2 ,x 。) 后,总体和样本中所有有关参数日的 试验信息。都包含在似然函数旧) 中。而样本和参数目的联合分 试验信息,都包含在似然函数旧) 中。而样本z 和参数口的联合分 确i : ( z ,口) = p ( z i 口) 疗( 口) ( 2 2 ) 西南交通大学硕士研究生学位论文第6 页 把三种可用信息( 总体、样本和先验信息) 都综合了起来。从而, 可得出在给定样本x 下,参数口的后验分布石p i 工) 。它集中了总体、 样本和先验三种信息中有关口的一切信息,同时又排除了与p 无关的 一切信息。其计算公式为: 删= 帮。器 , 其中m g ) = l p g i 咖p p 口不含目的任何信息,是x 的边缘密度函数。 这就是贝叶斯公式的密度函数形式。若口0 是离散型的,先验分布 列为疗( 只) ,i - 1 ,2 ,其后验分布也是离散型的,为 粥旧2 麟,州 2 , 。, 若总体x 是离散的,把密度函数p ( x i p ) 看作为概率函数p ( 肛x l p ) 即 可。 ( 2 ) 主观概率 基本原理:事件发生可能性的大小,应该反映对事件发生机会的 个人信念、心态或倾向性。 概率的主观定义,一事件的概率是认识主体对该事件发生可能性 所给出的个人信念的数量测度。 2 3 先验分布的确定方法 ( 1 ) 直方图法 基本原理:类似于经典统计中的直方图法,可分为几步:首先, 把连续的参数空间 离散化,即把 分成一些小区间:其次,在每个 小区间上决定其主观概率或依据历史数据确定其频率;再次,绘制 频率直方图;最后,在直方图上作出一条光滑的衄线,即是先验密 度石徊) 的草图。 适用范围:此法适用于 是实数轴的一个有界区间。 问题及局限:首先,把0 应分成多少个小区间,及区间的大小, 西南交通大学硕士研究生学位论文第7 页 缺乏明确的标准? 这可以从稳健性的标准去考查。其次,此法所得 的先验密度是无尾部的( 即以概率l 在有界集上) 。最后,此法所得 的先验密度有些难以应用。 ( 2 ) 相对似然法 基本原理:首先,比较 中的各种点目的直观“似然”( 如确定 极大、极小可能点、中点或分位点等) :然后,按这些确定的值画出 先验密度的草图。这相当于画函数图像的描点法,其精确度随点的 增多而增大。 适用范围:此法适用于 是一个有限区域。 问题及局限:首先,在决定点的相对似然值时,要保证其一致 性:这可以比较其它的两两点对,来检查一致性。其次,此法若用 于无界的参数空间0 ,则有限区域外,怎么确定? 一是其形状,这 可由稳健性标准去考虑;二是决定密度的中心与区域之外的尾部所 集中的质量的正确比例。这可主观地直接决定中心区和尾部区的先 验概率,然后再保证使两个区估计的先验密度与其质量相一致。 ( 3 ) 超参数估计法 参数口的先验分布霄( 口) 中又含有未知参数) 、,则称参数入为超参 数。记为百( 日l n 。 基本原理:首先,由先验信息得口的先验密度万p ) 为某一给定的 函数形式r ;然后,在具有这一形式的密度函数中选择使其最接近先 验信息的,若先验密度石p ) 又含有超参数,则由先验信息给出超参数 的估计值,使其最接近先验信息。 估计超参数的方法有:由估计先验矩来计算参数;由估计分位 数来选择参数;等价样本量方法;基于专家知识的方法f k a d a n e & w 0 1 f s o n ( 1 9 9 8 ) 建议专家应该为超参数提供一个范围;s i n g p u r w a l l a & p e r c y ( 1 9 9 8 ) 对超参数的确定做了很多工作】:还有多层先验、m l 方法等。 问题及局限:首先,矩法对于有界参数空间合理些,对于无界 时,小概率的尾部对矩的影响非常大,却在现实中难以主观确定; 其次,对先验密度的选择,常常有差异极大的函数形式可供选择, 如何选择? 其中可由稳健性标准去考虑。 ( 4 ) 确定累积分布函数法( c d f ) 一一定分度法和变分度法 西南交通大学硕士研究生学位论文第8 页 基本原理:定分度法是把参数可能取值的区间,逐次分为长度 相等的小区间,再给出每个小区间上的主观概率;变分度法是把参 数可能取值的区间,逐次分为机会相等的两个小区间,即确定 1 2 ,l 4 ,1 8 ,等分位点。 ( 5 ) 贝叶斯假设先验 基本原理:把“不包含口的任何信息”理解为:对口在 中的任 何可能取值,都无偏爱,也同等无知。自然地,把目在 中的所有取 值的可能性看作一样,这是合理的。 由上述原理,p 的无信息先验自然地确定为 上的均匀分布,即: 厅p ) :j 凸眭 ( 2 5 ) j o ,6 正 其中c 是一个确定的常数。这个自然先验分布称为贝叶斯假设先验。 不过,当0 为无限区间时,厅p ) 是一个非正常的密度函数( 因它 有无穷质量,即i 丌p p 口= o o ) 。为此,引入了一个新概念一一广义先 苦 验密度: 设总体j ,( 石1 9 ) ,臼9 。若参数口的先验密度万p ) 满足: a 刀( 口) o ,且l 盯( 口k 臼= , 占 b 由此求得的后验密度石p j 算) 是正常的密度函数; 则称厅( p ) 是目的广义先验密度。 ( 6 ) 位置、尺度参数不变的无信息先验 基本原理:若两个统计问题有相同的结构( 指总体分布、参数 空间和样本分布都相同) ,则认为它们应该有相同的无信息先验分 布。 基本思路:为求参数口的无信息先验。首先,了解该参数在总体 分布中的地位( 如口是位置参数或尺度参数) :其次,根据参数的地 位,选择恰当的变换,使统计问题在变换下其结构仍保持不变;最 后,根据上面的基本原理,求出先验分布。 位置参数:设总体肖的密度函数形如,一目) ( 即只依赖于 伍一p ) ) ,样本空间和参数空间e 皆是旯的子集。满足这样的密度函 数称为位置密度,参数目称为位置参数。如:正态分布( 口,盯2 ) ( d 2 固 西南交通大学硕士研究生学位论文第9 页 定) 。可导出位置参数的无信息先验为:万( p ) = 1 。它是满足变换下不 变性的贝叶斯假设先验。 尺度参数:设总体x 的密度函数形如盯。,( 并盯) ,其参数空间o = ( o ,。) ,即盯 o 。满足这样的密度函数称为尺度密度,参数盯称为 尺度参数。如:正态分布( o ,盯2 ) 。可导出尺度参数的无信息先验为: 厅b ) = 二( 盯 o ) a ( 2 6 ) ( 7 ) j e f f r e y 先验 设总体x “x 旧) ,口= ( p l ,口2 ,口。) 是p 维参数向量,求参数向量口 的无信息先验密度,j e f f r e y ( 1 9 6 1 ) 提出用f i s h e r 信息阵,佃j 的平方 根。这个无信息先验密度称为j e f f r e y 先验。其求解步骤为: 设x = ( x 1 ,x 2 ,x 。) 是样本数据,其似然函数为l ( 8 ) , 首先,写出样本的对数似然函数 ,p i 工) = 1 1 1 p ) = l i l l 兀厂o ,f 曰) i = m ,( _ i 口) l f = 1j f = l 其次,求样本的f i s h e r 信息阵 删钮帮【- 器j i j 叫幺,p 在单参数时( p = 1 ) , 删( 一别 称为f i s h e r 信息量。i ( 口) 可看作样本所含参数口的信息量的一种度量。 最后,j e f f r e y 给出参数向量口的无信息先验密度为 厅p ) = 【d e t ,p 胪 ( 2 。7 ) 其中d e t ,p ) 表示p p 阶信息阵i ( 口) 的行列式。在单参数时,为 石p ) = p ( 日) 】 ( 8 ) 边缘分布确定的先验 用边缘分布求解先验密度的方法 西南交通大学硕士研究生学位论文第1 0 页 边缘分布的概念:若总体聊j 州,口e ,其未知参数口有概率 密度州口) ,从而( x 、口) 的联合概率密度为 h x ,8 ) = “x e ) 氟( e ) 则的边缘密度函数为 研伍l 砂= 肛g ,口一= 陟 f 口) 护8 p ) f 陟0 l 目k p p a ( 伊为连续型) = ! , ( 2 8 ) l ,b 1 臼k p ) ( 纳离散型) l0 基本原理:从x 的边缘密度函数聊向| 砂表达式中可以看出,若 已知了的条件密度m i 影和掰b 叫,则从上式可以得出参数口的先 验密度百佃,。对于埘似j 叫表达式的不同处理,将得出不同的求解方法。 a 先验确定的m l i i 方法 x 的预测分布:若x 的条件密度为雕l 口,日e 0 ,d 为随机的, 有概率密度丌( 口) ,则x 实际是按其边缘分布州伍j 发生的,它描述了 “预计”z 将会出现的值,故称x 的边缘分布巩血j 为z 的预测分布。 基本思路:j 的边缘分布埘厶i 砂,可看着是肖的预测分布,这就 说明肌似i 叫反映了从数据看模型侬i 砂和先验霄佃j 的合理程度。若 f ( x | 8 ) 已知,则m 似1 砂的大小反映了霄r 砂的合理程度;即当观测数据 为x ,有用伍i 百,户棚向i 叫时,则可认为从已观测到的数据x 看选择 先验丌,比n 更合理。由此更进一步,可把m 仁i 叫看作是先验霄佃) 的 似然函数。从而,自然可用最大似然方法确定先验密度丌阳j 。 m l i i 先验:设先验类为r ,在已知观测数据x 下,若存在先验 密度厅r ,使得 埘( x i 厅) = s u p m ( 石i 万) f e r ( 2 9 ) 则称二为类型i i 最大似然先验,简称m l i i 先验。 至于怎样求解出m l i i 先验,有很多方法,其中常用e m 方法。 b 先验确定的矩方法 西南交通大学硕士研究生学位论文第11 页 若先验密度为已知函数形式,只需确定其超参数。则可通过m ( x ) 式子,建立边缘分布的矩与先验矩的关系。从而求解出先验密度中 的未知参数( 即超参数) 。 基本思路:通过建立边缘分布的矩与先验矩之间的关系来求解。 设珊l ,口o ,日有先验密度1 r ( 引h ,其中,p ) 、仃;p ) 分 别为总体分布m i 彤的均值和方差,。、仃:分别为x 的边缘分布m ( x ) 的均值和方差。若它们都存在,则有 p ,= e 州9 i ” ,p ) 仃:= e 。l u 盯;p ) + e 叫9 i 、 ,p ) 一f 。】2 ( 2 1 0 ) c 先验确定的方程求解法 基本思路:若能直接获得边缘分布m 俐,则应用等式 m ( x ) = i 厂( z | 口) 扭4 p ) 中的积分关系,从而确定先验密度丌俐。 6 ( 9 ) 多层先验 基本原理:当同时具有未知参数的结构和主观的先验信息,则可 按步骤分阶段建立模型。首先,由先验信息确定出未知参数的结构, 即导出先验类r ;其次,建立一个f 之上的先验分布,由此确定的先 验就称为多层贝叶斯先验。 多层先验的确定步骤: 第一步:常常导出的先验类r 是对未知参数口给出的一个形式 已知的密度函数玛p l a ) ( 带参数入,称入为超参数) 。即 1 1 = 协,p l a ) :万。为已知的函数形式,参数旯a 第二步:确定超参数入的先验分布石,似) ( 称为超先验) 。其实多 层先验可以表达成一个一般的规范先验,其联合密度为 石p ,旯) = 万。pl 丑) 万:以) 消去超参数入,得多层先验的一般表达式为: 石p ) = k 。p i 旯) 护n 以) 西南交通大学硕士研究生学位论文第1 2 页 = p 。p i 旯弦: ) 以 ( 2 1 1 ) 在确定第二步时,常常取超先验石,以) 为无信息先验。这样就是 出已知信息确定出先验结构,再结合无信息先验。这就是把多层先 验纳入主观和非主观信息相结合的先验这一节的原因,其实它就是 超参数估计法中的一种。 ( 1 0 ) 概率匹配先验分布 基本思想:在样本量趋于无穷时,渐近地使贝叶斯概率和相应 的频率派概率匹配。最先是w e l c h p e e r s ( 1 9 6 3 ) 【3 3 】提出,s t e i n ( 1 9 8 5 1 3 4 1 t i b s h i r a n i ( 1 9 8 9 ) 【3 5 1 使其得到注意。 概率匹配准则:设x f ( x i 口,( 1 ) ,样本数据为x l ,x 2 ,x 。,( i ,为多 余参数;对于一个先验密度p ( 口,( i ) ,若有 p 口 口l 一口【p ( ) ,x l ,x 2 ,x 。 i 口,( d = a + o ( n 2 ) ( 2 1 2 ) 其中口h p ( ) ,x 1 ,x 2 ,x 。】为在先验分布p ( ) 下,后验分布p “( l x ) 的1 0 0 x0 百分位。则称先验密度p ( 口,) 满足一阶概率匹配准则。 对于一个先验密度p ( 口,( i ) ,若有 p f e e i m f p ) x | ,x 2 ,x 。j 8 啦 = o c + o ( h “) ( 2 、3 ) 则称先验密度p ( 口,) 满足二阶概率匹配准则。 d a t t a g h o s h ( 1 9 9 5 ) o ”j 表明:一阶概率匹配先验分布为某微分方 程组的解。若一阶概率匹配先验分布也是二阶微分方程的解,则它 也是二阶概率匹配先验分布。 f l l l 最大熵先验 基本原理:参数已知的部分先验信息被恰当的度量出来,其余 部分被看作是无信息的。则在已知部分先验信息下,最无信息的先 验就是合理的先验。 基本思路:首先,已知参数口的那部分先验信息,由石( 口1 的一些 限制条件胁( 如数字特征) 来度量:其次,引入“熵”的概念来度 量分布石( 剀中的不确定性总量( 即确定一个能度量分布中所含信息多 少的量一一熵。显然,熵越大,表示分布中所含信息越少) ;最后, 在满足给定条件肌( 即已知的部分先验信息) 的分布中,求使熵最 大化的先验分布。这个分布称为最大熵先验。具体地, 首先,对已知的参数口的那部分先验信息,选择一个合理的表达 西南交通大学硕士研究生学位论文第1 3 页 方式。因为先验密度厅p ) 代表口的全部先验信息,自然地,可把部分 信息表示为疗p ) 的一些限制条件段( 如密度函数疗p ) 的数字特征:矩、 分位数等) 。即假设 f 石( b ) 乳 ) f “砷k t 徊) 】2 西p k 。p p 目2 他 七= 1 2 ,埘 2 1 4 【6 ( 若将g k ( 口) 特殊化,可得各种数字特征。如既俐= x ”,则 e 1 f g k ( 8 ) j = e 1 8 “) 为8 懿n 除矩) 。 其次,在满足给定约束条件。( 即已知的部分先验信息) 的分 布中,求最无信息的先验密度。需要建立一个“最无信息”的判别 标准,这可以借助于信息论中的概念一一“熵”,因为它能度量概率 分布中固有的不确定性。 ( 离散型概率密度函数的) 熵:设。是离散型的,石p ) 为 上的 概率密度,则石的熵s 。仞) 定义为 钆忙) = 一厅 ) l o g 石( q ) ( 2 15 ) ( 若厅( 已) = o ,定义7 r ( 讳) l o g 万( b ) = o 。) ( 连续型概率密度函数的) 熵:设 是连续型的,石p ) 为。上的 概率密度,则石的熵占。仁) 定义为 咖卜 1 0 9 瑞卜m 1 0 9 ( 焉朋 ( 2 1 6 ) 其中( 们为问题的自然的“群不变的”无信息先验。 注 对于离散型的熵的概念,定义比较自然。对于连续型的, 就没有一个自然的定义方式。上述定义是j a y n e s ( 1 9 6 8 ) 主张的。但在 确定无信息先验中的困难和不确定性使这个定义有些不明确,不过, 还是有用。 在某种意义上,熵是概率分布中国有的不确定性总量的度量。 概率密度的熵越大,所含的不确定性就越大,就越接近于无信息先 验。这样,寻找“最无信息”的先验密度,就转化为求使熵最大化 的先验密度。即 西南交通大学硕士研究生学位论文第1 4 页 已知:满足给定约束条件玩,且万( g ) = 1 ( 或刀p p 秽= 1 ) 的 = 川一唧舡以q ) 虱2 翮 e x p 以矾( b ) 【i ,lj ;p ) = ( 2 17 ) 其中九是由约束条件所确定的常数( 0 b e r g e r ( 1 9 8 5 ) 【4 8 1 ) 。 ( 1 2 ) 参照先验分布 基本原理:参数目的信息,可从先验信息和试验数据中完全获取。 由于先验知识不足而欠缺的信息,可由无数次的试验数据提供的信 息来弥补。 基本思路:首先, 从总体p 仁i 刚中抽取出试验数据 孙= 向j ,算厶,x ;其次,引入一种度量,扛女j p 例,它表示在已知先验 分布p 伊j 下,样本数据“所提供的信息量( 由后验分布p i 叫与p 例 的期望k u l l b a c k l e i b l e r 偏差来度量) :再次,由,扛t ? p 佃j ,定义使样 本数据卸能提供最大信息量的先验分布矶阳j ,并由此得出相应的后 验分布仉佃j 工j ;再其次,在某种极限意义下( 利用k u l l b a c k l e i b l e r 距离) 定义后验分布霄k 佃 x ) 的极限百佃l 夥= l i m 玎。妒 x ) ,称其为参照 后验分布:最后,由满足丌佃i 圳。cp 仁f 刚丌佃j 的7 r 阳j 定义为参照先验 分布。具体地: 首先,建立样本数据提供的信息量的度量方式 设先验分布为p 佃j ,数据xe p 扛i 口j ,后验分布为p 佃i 圳,口 西南交通大学硕士研究生学位论文第1 5 页 为单参数时,可定义数据x 提供的信息量为p 佃i 叫与p 佃j 之间的期 望k u l l b a c k l e i b l e r 偏差: ,缸;p p ) ) 础州对b ( p 怕( 州2 p ( 功p ( 目k g 等等卜触 其中d 。b ( 目i 功l i p ( 口) 】是p 佃i 圳与p 佃j 之间的k u l l b a c k l e i b l e r 距离, 表示密度函数p 佃i 圳与p 佃j 之间的接近程度;p 例是x 的边缘分布p = j p ( 口l x ) p ( p ) d 口。 若独立地重复试验k 次,得到数据z = 伍j ,工厶,x e p ,则。t 所提 供的信息量 ,盘t jp 佃,户p ( 引p ( 口h ) 1 0 9 里筹铲卜眺t 0l ,”, j 当斗m 时,数据所能提供的信息量,如t ? p 佃j ,也越来越多,将趋于 先验信息p 例所欠缺的信息。 其次,定义使数据z k 能提供最大信息量的一列先验分布矶佃j , k = i 2 ,碍 删= p m s 惴卜ol ,、v ,j 其中 p ) = e x p ip ( z 。i 口) l o g p ( 引z 。) k 。i 。 l j 可得,当且仅当p 伊j 嘞佃j 时,以女jp 佃j ,达到最大。于是可以 定义使数据z k 能提供最大信息量的一列先验分布矶佃j = 佃j 。为了 处理的方便,在五例中常用先验p 伊j 的后验分布的并与p 佃j 独立的 一个渐近近似( 用g 佃l z 表示) 来代替p 佃l z ,即 厂 毗例= 8 x p jp ( = 。lp ) l 。g 曲( pl 气) 扭。f 七= ,2 , l j 先验孤一,对应的一列后验分布: 西南交通大学硕士研究生学位论文第1 6 页 酬。篇 最后,参照先验分布的定义 后验分布列,矶佃i 圳,r | 】 = ,2 j 是一列概率密度函数列,若存在 密度函数丌阳l 叫, 当一o 。时,其k u l l b a c k l e i b l e r 距离 咖即i 叫_ 。熙防) b s 揣h 圳删称 ( 在k l 距离意义下) 其极限存在,记为 丌佃i 叫= j i m 咿f x j 称丌佃i 圳为参照后验分布。又对所有的x x ,下式 丌佃l - 砂2 _ 1 揣口 6 确定了一个先验密度1 r 佃j ,则称这个1 r 佃j 为参照先验分布,记为 7 r 例。 璁以p ) 2 觋e x p ip ( z ti 口) 1 。g 曲( 引“) 扭t ( 2 1 8 ) ( 1 3 ) 最大数据信息先验 基本原理:参数己知的部分先验信息被恰当的度量出来,其余 欠缺部分信息由样本数据提供。则在已知部分先验信息下,使样本 数据信息最大的先验就是合理的先验。 基本方法:首先,利用量k p ) l o g 厅p p 口来度量参数8 已知部分 占 的先验信息:其次,建立一个能度量“试验所提供的总信息”的量 g 例;最后,求解使g r 砂最大的先验丌佃j ,就称为最大数据信息先 验分布。具体地, 设数据x 价i ,x 尺,其中参数口的先验为霄佃j ,口e 。其 联合分布为 向,刚,选择 伍, 相对于均匀分布的负熵一h 例来度量 联合分布 伍,刚所含的信息,即: 西南交通大学硕士研究生学位论文第1 7 页 一h 似j = e m 9 【l o g g ,口) 】= ” g ,日) l 。g ( x ,口) 出d 口 。且r 又由条件分布有 似,砂可协i 丌佃j ,于是 一似j = p gi 口k p x l 。g ,gp ) + l o g 巧p 强训目 0 o = f q 眇地肭叫肌f 厅q 眇i 叫d 口 = i ,p 弦p 弦口+ i 石归) 1 0 9 万p p 口 e0 其中,p ) = p 0 i 口) 1 0 9 厂0 l 口k ,表示m i 砂中所含的信息。在上式的 两部分中,前项表示数据密度m i 相对先验丌佃j 的平均信息,后 项表示先验百俐所含的信息。从而可以建立一个泛涵g 俐,即 g r 砂= p p k p p 目一p p ) 1 0 9 疗p p 口 它正好是一个试验所提供的总信息的一种度量方式。若又记 “, 砂芸g 阳i 咖俐,有苫佃l 圳= 掣,从而上式得 p 协j g 例;石p ( 少b - 。g 几i 目_ 柏一p 。s 疗p ( 几| p 卜 e “ e 2 胁p m 鲫。s 铝争口 2 肫吣,。g 错姗 = 瓤妙枷。g 帮d 口k 皿 其中工佃l 力兰:雕l 纠为似然函数。则g 例又可以看作是似然函数与先 验密度比率三伊f 叫1 r 佃,的一种度量方式。显然,使g r 叫最大的先验 1 r 阳j ,就是所求的最大数据信息先验分布。 西南交通大学硕士

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论