




已阅读5页,还剩66页未读, 继续免费阅读
(应用数学专业论文)hpd可信集及容许估计问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天津i 业人学学位论文 摘要 b a y e s 统计理论以其独特的视角和理论观点解决了很多经典统计理论中无 法解决的问题,被越来越多的统计学者所接受和认同,现已发展成为统计理论 中不可忽视的一个学派。本文的第一章简要地介绍了b a y e s 统计学的发展历史 和理论观点 第二章中归纳了先验分布及后验分布的确定方法,着重讨论了若干具体分 布的共轭先验分布,给出了正态分布、指数分布、均匀分布等的共轭先验分布 第三章中总结了h p d ( 最大后验密度) 可信集的确定方法,提出了一种基 于几何计算原理的计算机模拟方法,解决了单峰非对称后验密度h p d 可信区间 的计算问题,并将h p d 可信区间与经典置信区间比较,得出在相同前置条件 下,参数的h p d 可信区间比经典置信区间更容易计算而且精确度更高的结论 第四章中讨论了单参数指数族分布中的容许估计问题,着重讨论了正态分 布、g a m m a 分布、二项分布及p o i s s o n 分布中容许估计的存在性,并给出了这 些具体分布中均值的容许估计形式 关键词:b a y e s 统计,先验分布,共轭先验分布,后验密度, b a y e s 公式,h p d 可信集,容许估计,k a r l i n 定理 天津j 业人学学位葩文 a b s t r a c t t h eb a y e s i a ns t a t i s t i c a lt h e o r yh a sb e e na c c e p t e db yt h ei r o r ea n dm o r e s t a t i s t i c a ls c h o l a rw i t hi t ss p e c i a lv i s u a la n g l ea n dv i e w i tm a k e ss o l v i n gs o m e d i f f i c u l tp r o b l e m si nc l a s s i c a ls t a t i s t i c a lt h e o r yp o s s i b l ea n dh a sb e c o m et h eo n eo f m o s ti m p o r t a n ts c h o o lo ft h o u g ho fs t a t i s t i c s w em a k et h es i m p l ev i e wt ot h e d e v e l o p m e n t ,h i s t o r ya n dp r i n c i p a lv i e w so ft h eb a y e s i a ns t a t i s t i c a lt h e o r yi nt h ef i r s t c h a p t e r t h es e c o n dc h a p t e rg e n e r a t e st h em e t h o d so fo b t a i n i n gt h ep r i o ra n dp o s t e r i o r d i s t r i b u t i o n t h ec o n j u g a t ep r i o rd i s t r i b u t i o n so fs o m ep a r t i c u l a rd i s t r i b u t i o n sa r e p r o v i d e d t h et h i r dc h a p t e rg e n e r a t e st h em e t h o do fo b t a i n i n gt h eh i 曲e s tp o s t e r i o rd e n s i t y 0 - w d ) c r e d i b l es e t an e w m e t h o db a s e do nc o m p u t a t i o n a lg e o m e t r yf o rc o m p u t i n g t h eh p dc r e d i b l es e ti sp r e s e n t e d 。w ec o m p a r et h eh p dc r e d i b l es e ta n dt h ec l a s s i c a l c o n f i d e n c es e t t h er e s u l l ss h o wt h a tt h eh p de r e d i b l es e ti sb e t t e rt h a ni t sc l a s s i c a l c o u n t e r p a r t ;i ti se a s i e rt oi n t e r p r e tt h a nt h ec l a s s i c a lc o n f i d e n c es e ta n di ss h o r t e rt h a n t h ec l a s s i c a lc o n f i d e n c es e t f i n a l l y ,i nt h ef o u r t hc h a p t e r ,w ed i s c u s st h ea d m i s s i b i l i t yo fe s t i m a t i o n so nt h e d i s t r i b u t i o n so f o n e - p a r a m e t e re x p o n e n t i a lf a m i l y k e y w o r d s :b a y e s i a ns t a t i s t i c s ,p r i o rd i s t r i b u t i o n ,c o n j u g a t ep r i o rd i s t r i b u t i o n , p o s t e r i o rd e n s i t y , b a y e s i a nf o r m u l a , h p dc r e d i b l es e t s , a d m i s s i b l ee s t i m a t e ,k a r l i nt h e o r e m 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得云洼王些太堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名:多 j 陬?签字日期:劲1 年1 月q 日 学位论文版权使用授权书 本学位论文作者完全了解丢婆工些太堂有关保留、使用学位论文的规定。 特授权丢姿王些太堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:多艮哪 导师签名:蟆,1 受匡 签字日期:叫年f 月刁日签字日期:2 司年j 月却日 学位论文的主要创新点 一、在先验分布理论基础上,讨论了正态分布、指数分布和均匀 分布的共轭先验分布问题; 二、使用基于几何计算原理的计算机模拟方法,实现了对单峰非 对称性后验密度计算其参数的h p d 可信区间的问题; 三、基于统计决策中的容许性估计理论,研究了单参数指数族分 布中正态分布、g a m m a 分布、二项分布及p o i s s o n 分布的容 许估计闯题 第一章引言 1 1 论文理论背景 第一章引言 1 1 1 b a y e s 统计学的历史及主要理论观点 英国统计学家t h o m a s b a y e s 毫无疑问是b a y e s 统计的奠基人,他在一篇题 为a ne s s a yt o w a r d ss o l v i n gap r o b l e mi nt h ed o c t 血eo f c h a n c e s 的遗作中提出著名 的b a y e s 公式和一种归纳推理的方法,之后被发展成系统的统计推断方法,形 成b a y e s 学派到上世纪中叶已经发展成一支有影响的统计学派b a y e s 统计学与 经典统计学的根本差别在于是否使用先验信息经典统计学只用样本信息,而 b a y e s 统计学把先验信息和样本信息结合用于推断,形成非决策的b a y e s 分析, 若再使用后验信息就形成b a y e s 决策分析【1 j b a y e s 学派的最基本的观点是把任何一个未知参数疗都可以看作是随机变 量,可以用个概率分布去描述,这个分布被称为先验分布这种观点与经典统 计学认为的未知参数只是一个确定的值而不具有随机性的观点大相径庭如今两 学派争论的焦点不再是未知参数能否可以看作随机变量,而是如何利用各种先 验信息合理地确定先验分布关于先验分布的确定至今已经具有一些成功的方 法,j a m e so b e r g e r 的书1 2 中第三章对此作了较为全面的归纳 1 1 2h p d ( 最大后验密度) 可信集 b a y e s 分析中对未知参数p 常见的推断形式表现为确定它的可信集这是利 用样本工和获得的后验分布石( 8 f x ) 在参数空问。中寻找一个区域e ,使得其后 验概率b i 。( 日e ) 尽可能地大而其容量p 钳( q ) 尽可能地小,如果用损失函 数表达如下 l ( o ,c ) 一删( c ) + 1 - l ( 口) 】 其中鸭m 2 表示权数,厶是区域c 的示性函数,其后验风险为 毛一( 口,c ) 一m - e e l “砌f ( e ) 】+ m : 1 一p , i ,( 日e ) 】 第一章引言 上式中第一项与平均容量( 精确度) 成正比,第二项是与p 盛c x 的后验概率 ( 可靠度) 成正比的,要让后验风险达到最小就必须上诉两项均达到最小,但 这是个矛盾因此常用的方案是在后验概率弓l 。( 口e ) 达到一定要求下,尽量使 平均容量尽可能地小,也就是在保证可靠度的前提下提高精确度。这样出现了 最大后验密度( h i g h e s tp o s t e r i o rd e n s i t y ,简称h p d ) 可信集的概念 1 1 3 统计决策理论中的容许性问题 统计决策理论是由著名统计学家a w a l d 在上世纪四十年代建立的,它与经 典统计学的差别在于是否存在后果的涉及相比之下,经典统计学更看中的是推 断,而不会考虑结果的效益如何而统计决策理论相之于前者的根本区别是引入 损失函数的概念,用来度量统计推断的效益大小,进而评价统计推断的优劣 统计决策理论通过风险函数的大小来衡量决策函数的优良性,这样的衡量 有很多标准,容许性就是其一容许性的评价的朴素想法是在于除劣而并非选优 在估计理论中,估计量的可容许性也同样受到很大关注至今相关的结果也有一 些,但也只是在平方损失的情况下才有较为系统的结果k a r l i n l 8 j 给出了在单参 数指数族分布中参数g p ) - e 。可x ) 的容许估计存在的一个充分条件,也就是 k a r l i n 定理 1 2 论文主要内容 本篇论文对b a y e s 分析中的i - i p d ( 最大后验密度) 可信集和单参数指数族 中的容许性问题进行了讨论具体研究了非对称单峰后验密度函数的( 1 一a ) h p d 可信区间的计算问题和具体单参数指数族中的容许估计问题 第一章介绍了b a y e s 统计理论和统计决策理论的发展历史和主要理论观 点,简述了h p d 可信集和容许估计问题 第二章讨论了先验分布和后验分布的各种确定方法,给出了一些具体分布 的共轭先验分布 第三章讨论了参数口的h p d 可信区间的三种计算方法,并基于计算几何原 理提出了一种计算机模拟方法,设计了特定的程序模块,给出具体分布的计算 结果,最后比较了h p d 可信区间和经典置信区间的长短 第四章讨论了单参数指数族分布的容许估计问题,研究了具体单参数指数 族分布的容许估计存在的充分条件 第二章先验及后验分布的确定方法 第二章先验及后验分布的确定方法 关于先验分布的确定至今已经有许多成功的方法,j a m e s0 b e r g e r 【2 l 的书中 第三章对此作了很全面的归纳呈现本文仅简要地列举其中的一些方法 2 1 主观概率 我们知道随机事件的概率是研究任何随机现象的基础,下面首先要讨论的 就是随机事件的概率是什么含义,概率的经典定义是建立在频率观点基础上 的,涉及某一种给定情况的大量重复,例如抛掷一枚质地均匀的硬币时,称出 现正面的概率是 ,指的是在大量重复连续上抛此硬币时出现的正面的次数大 约占到舌 然而在有些场合下遇到的随机现象是无法被大量重复的,例如要解释明年 的失业率0 在大于4 并小于5 的概率尸( 4 伊5 ) ,就不能按大量重复的 方式解释,因为明年的失业率是唯一发生的 这样的困惑促使了主观概率的提出,主观概率是人们根据历史经验对随机 事件发生的可能性给出的个人信念主观概率理论的创立,使得在频率观点不适 用时也可以谈论概率,使用统计方法主观概率最简单的确定方法是对些事件 的状况进行比较,决定它们的相对似然性 2 2 先验分布的主观确定 考虑先验密度函数石( 口) 完全由主观确定的情形,如果e 为离散的,那么只 要对。中的每个点确定一个主观概率即可,而当。为连续的时,构造石( 口) 就会 比较困难,下面列举了一些方法 ( 1 ) 直方图方法 当e 为彬上一个区间时,最简单的方法就是采用直方图的方法首先把0 分成一些小区间,在每个小区间上确定主观概率,然后绘制概率直方图,再画 出光滑的密度函数玎f 8 ) 的草图 ( 2 ) 相对似然方法 这个方法通常也用在0 为实数集的有限子集的情况可以对0 中各个点的直 观“似然”进行比较,然后按这些确定的值画出先验密度草图为了保证准确性应 3 第二章先验及后验分布的确定方法 当包括尽可能多的点,在决定各点的主观概率的过程中必须检查一致性,而检 查一致性的好方法是比较其它的两两点对 ( 3 ) 配出所给定的函数形的方法 这个方法的想法是假设石( p 1 有一种给定的函数形式,然后选择具有这种形 式的密度,使其最接近先验信念确定了先验密度的函数形,只要确定了相应的 参数,具体的先验密度函数就确定了主观确定先验参数的方法有三种一是从估 计先验矩来计算参数;二是主观地估计先验分布的几个分位数,然后选择给定 的函数形式的参数,使其所得到的密度尽可能接近这些分位数;三是等价样本 量方法 “) 确定c d f 这个方法就是通过主观确定c d f ( 累积分布函数c u m u l a t i v ed 崩b u f i o u f l m c t i ) 做法是先主观决定几个a 一分位数口( 口) ,画出点( 口k ) ,口) ,再用一 条光滑曲线将这些点连接起来 。 2 3 共轭先验分布 我们在进行b a y e s 分析时可能会遇到这样一个有趣的现象:二项分布 b ( 站,0 ) 中的成功概率参数0 的先验分布如果取b e ( 1 1 ) ,则其后验分布也是b e t a 分布b e ( x + l , n x + 1 1 也就是说先验分布和后验分布同属于b e t a 分布族,只是 参数不同其实这个现象不是偶然的,还存在很多这样的情况,我们把这样的先 验分布成为0 的共轭先验分布 定义2 1 设沪一 p ( x10 ) :o e o 是以为参数0 的密度函数族,又设秽 - 石( 们 是参数0 的先验分布族如果对于任意的p 伊和石e 彤,所得到的 后验分布石f 口i x ) 仍在族缈中,则称e 缈为伊的共轭分布族,或者称 石( 口i x ) 为参数0 的共轭先验分布1 3 j 共轭先验分布是对某一分布中的参数而言的,离开了具体的参数及其所在 的分布,共轭先验分布的概念是没有意义的以下列举了一些常见分布的共轭先 验分布: 、 定理2 1 正态分布n ( 0 ,仃2l 的方差口2 已知时,它的均值参数0 的共轭先验 分布仍是正态分布1 3 j 证明:设置,z :,以是来自正态总体n ( o ,盯2 ) 的一个样本,其中盯2 已知, 则样本的联合密度函数为 4 第二章先验及后验分布的确定方法 出= ( 志卜 一虿i 善n ( 一) 2 ,- 加耶m 取正态分布n ( p ,a 2 ) 作为均值参数日的先验分布,即 石( 占) 。而1 叫一击( 帅) 2 ) ,- 口t 其中口与a 2 均已知于是可得到样本x 与参数0 的联合密度函数 ( 工,口) - m e x p t 一丢 0 2 2 , u o + m 2 + 牙一 其中若记 m 一( 幼) 一争a 4 盯,孑- 丢砉五, 则有 m 纠伊删 叫一哮* 爿 于是样本x 的边际密度函数为 聊( z ) i 占如一肼唧 一三( c 一了b 2 小百2 n ) ; 根据b a y e s 公式,即得的后验密度函数为 石( 0i 石) h ( 工,0 ) m ( 茗) - ( 号i l ) e x p 一 5 广一 簪 p 一 第二章先验及后验分布的确定方法 显然这是正态分布,其均值一与方差彳分别为 h 等等,砰一( 霄卅。 西一譬小虿1 + 万1m 言+ 导,c 一逝0 - 2 + 等 从上面的计算中可以发现正态分布能成为正态均值0 的共轭先验分布的原因从 样本联合密度和先验密度的结构上看,它们都是0 的指数函数形式并且指数都 是0 的二次结构,因此当它们相乘,指数相加后,仍是相同结构的指数函数, 这就产生了共轭性在统计学中我们把这样的具有决定性作用的函数结构称为正 态分布的核这时正态分布的密度函数可表示为 出蛔 _ 嗲卜* 其实分布的核并不是仅仅正态分布具有,其它分布也有,例如 g a m m a 分布6 钮( 口,a ) 的核是,。“ b e t a 分布的& ( 口,6 ) 核是r 4 ( 1 一工广。1 下面我们仍然讨论正态分布另一个参数方差盯2 的共轭先验分布: 定理2 2 正态分布n f 只口2 的均值芦已知时,它的方差参数0 的共轭先验 分布是倒g a m m a 分布 证明:设墨,x 2 ,五是来自正态总体n ( 0 ,矿) 的一个样本,其中p 已知, 则样本的联合密度函数为 以p ) 。豇去叶嘲。( 去崎唧 掣) 1 令0 m o 2 ,彳- 一“一p ) 2 2 , 则 舯,一( 爿口 叫钟 若取倒g a m m a 分布佑( 口,a ) 作为参数口的先验分布,即 石( 口) - 南产啥啪加。 6 第二章先验及后验分布的确定方法 则0 的后验密度为 万( p l x ) “p ( 工i 口) 石( 口) “口一5 e x g a o o 一。“k 一1 归 * 口一5 + 。“) e x p 一( a a ) o 显然这是倒g a m m a 分布的核,所以0 的后验分布也是倒g a m m a 分布 佑( 争川) 故,正态分布的方差在均值已知时的共轭先验分布是倒g a m m a 分布 在统计理论中指数分布也是非常重要的分布,一般物品的寿命变量都服从 指数分布,所以它是可靠性理论中常用的寿命分布,下面我们来讨论指数函数 的均值倒数参数的共轭先验分布 定理2 3 指数分布的均值倒数参数的共轭先验分布为倒g a m m a 分布 证明:设五,五,z 是来自指数分布总体脚( a ) 的一个样本,其中a 已 知,记 则总体密度为 则样本的联合密度函数为 口。e ( x ) 。_ 1 , 7 1 , p ( x l o ) - o “f l 卦x q p ( 巾) 。l :l ( 毗郇) e x p :| ;( 一洲 - 矿e x p 一砉薯卢 一矿e x p 一叫护 若取倒g a m m a 分布作为0 的先验分布,即 巾) 。南一也砷,咖 0 加o 则其后验密度为 7 第二章先验及后验分布的确定方法 万( 臼i 工) p ( 工i 口) 石( 疗) “口一”e x p 一砉毛卢) 口- ( 口“k 砷 0 - ”4 “k ( “) e 显然这是倒g a m m a 分布的核,所以0 的后验分布也是倒g a m m a 分布 丑g ( 以+ 口,厉+ a ) 所以,指数分布的均值倒数参数0 的共轭先验分布是倒g a m m a 分布 定理2 4 均匀分布u ( o 目) 中参数口的共轭先验分布是p a r c t o 分布 证明:设五,恐,五是来自均匀分布u ( o 日) 的一个样本则样本联合密度 为 v ( z l o ) - e ” 若取0 的先验分布为p a r e t o 分布,其密度函数为 其中参数 o ,a o , 则0 的后验密度为 石( 日) 一 ;,7 8 。“口。墨 o 岛。 巾。鬲a o o 而e 2 , 。筹埘眇 显然0 的后验密度是一个p a r e t o 分布,所以0 的共轭先验分布为p a r e t o 分布 2 4 无信息先验分布 1 b a y e s 假设 如果在进行b a y e s 分析时没有或者只有极其微少的先验信息可以利用,这 时要如何确定先验分布? 其实我们在这种情况下可以采用一种无信息先验意思 是它是一个先验但不包含0 的信息,或者更粗略地说它对0 的任何可能值都没 有偏爱,又对任何可能值都同等无知 8 第二章先验及后验分布的确定方法 最简单的情况是0 为有限集时,如0 由咒个元素组成,无信息先验认为每 个元具有均匀的概率珈推广这点到。为无限集的情况,给每- - 8 o 以相等 的概率,得到均匀无信息先验石( 一) s c 【虽然l a p l a c e 早在1 8 2 1 年就提出这个 假设,但是它自身的不满足变化不变性的困难还未解决 2 j e f f r e y s 先验分布 设x 一( x a ,而,毛) 是来自密度函数p ( 引口) 的一个样本,其中口一( b ,郇) 是p 维参数向量在对p 无任何先验信息可用时,j e f f r e y s 利用变换群和h a r r 测 度导出口的无信息先验分布可用f i s h e r 信息阵的行列式的平方根表示这种无信 息先验分布常称为l e f t h e y s 先验分布,其计算步骤如下例: i 求样本的对数似然函数: z ( pi 工) 一套l n p ( 溉l i i 计算参数p 的f i s h e r 信息阵: 巾小卜击l 特别地,在单参数的情况下, 巾旧,( 一器) i i i 目的无信息先验密度函数为: 石盼 d e t ? ( 护) i 特别地,在单参数的情况下, 石( 口) - 巾) i 定理2 4 【,】设x 一( 墨,x :,瓦) 是来自正态总体n ( p ,盯2 ) 的一个样本,则 参数向量( p ,仃) 的j e f 舐y s 先验分布为石( ,盯) * 口- 2 证明:样本x 的对数似然函数为 9 第_ 二章先验及后验分布的确定方法 ,( ,盯) 三h ( 抽) 一n k 盯一刍砉( 恐一) 2 则其f i s h e r 信息阵为 ,( 弘,口) ; e f - 竺1 i 即2j f ,d 、 e 【一面j l n | 孑 弋o 。f衍、 e 【一面j 。,以、 e 【一虿j 而d e t ,( ,o ) - 2 n z o 。 所以( p ,仃) 的j e 眈y s 先验分布为 石( 卢,盯) o c _ 2 它的几个特例是 当已知时,m ) 一e i ( 即o z l :厂争故石( ) 1 1 ,p r ; 当卢已知时叫小e ( 罟) 。7 2 n ,放m ) 一号艇r + ; 当与o 相互独立时, 万( m ) 一吾,p e r ,盯r + 可见j c f 丘 e y s 先验分布表明:脚与盯的无信息先验分布是不独立的在 ( 胁仃) 的联合无信息先验分布的两种形式( 盯一1 与仃一2 ) 中,j e 盹y s 最终推荐的是 万( 胪) 一吾 1 0 第二章先验及后验分布的确定方法 2 5 后验分布的确定 b a y e s 公式的离散形式是大家在初等概率统计理论中非常熟悉的,而恰恰 在b a y e s 分析中确定后验密度函数就是通过b a y e s 公式的密度函数形式来完成 的x 和口都是连续随机变量时的b a y e s 公式写为: 巾,帮。揣 其中,p ( x l o ) - 丌p “j 口) 为样本的联合条件密度函数石( 8 ) 为参数口的先验分 w 布 在其它情况下的b a y e s 公式可以相应地写出,当x 是离散型随机变量时, 只要把公式中的联合密度函数p 扛i 日) 改为概率e ( x - x l o ) 当。为离散型随机 变量时,只要把先验密度函数石( 一) 改为分布列刀( e ) ,f 一1 ,2 ,并将积分号改 为求和号即可 第三章h p d ( 最大后验密度) 可信集 第三章h p d ( 最大后验密度) 可信集 3 1问题的提出 在经典的n e y m a n 置信区间理论中,参数p 就是一个通常的未知数,不带 任何随机性,所以我们说区间陌( 石) ,p ( z ) 1 包含口的概率为1 一口是指当x 随机 地取值时,随机区间矾z 1 ,8 f x l l 包含固定点0 这一随机事件的概率为1 一口,而 不是指0 作为一个随机变量落在区间1 7 x ) ,p 伍) 1 的概率为1 - 口b a y e s 理论的基 本出发点是把0 与工一样看成是有一定先验分布万日) 的随机变量,先验分布 石p ) 总结了我们在取得样本x 之前对0 的认识而这时的z 的分布p e b ) 不过是 在给定0 的前提下x 的条件分布p b i 口) ,这个条件分布的作用在于当抽取样本 z 后把先验分布石i 们转化为后验分布玎pix ) 后验分布总结了在原来对0 的认识 石( 纠和样本信息p b10 ) 的基础上,目前我们对0 的全部了解b a y e s 统计中一 切关于0 的推断都是依据后验分布做出的 b a y e s 统计推断的其中一种常见形式表现为确定参数口的一个置信集类似 于经典的置信集,贝叶斯学派称之为可信集,其定义如下: 定义3 1 i 2 j 设参数p 的后验密度函数为石plx ,对给定的样本x 和概率 1 一口i o t 口1 ) ,若在参数空问o 上存在子集c ,使得 h 峨。麟嚣 则称。的子集c 为口的可信集 我们在选择参数0 的可信集时,通常要使它的大小尽可能地小,以保证精 确度水平为了满足对可信集容量的最小化要求,我们可以这样考虑:可以使这 个集合包含那些具有最大后验密度的点,形象地说就是包含与0 值“最相似”的 那些点,这样想法产生了h i d ( 最大后验密度) 可信集的概念 定义3 2 i 3 j 设参数0 的后验密度函数为石pi 工) ,对给定的样本石和概率 1 - 口( 0 口1 ) ,若在参数空间e 上存在子集c ,形如 c ; 口o :玎( 口i x ) 2 七( a ) 其中七仁) 是满足bj ,( c ) z 1 一口的最大常数, 第三章h p d ( 最大后验密度1 可信集 则称c 是可信水平为1 - a 的最大后验密度( h i g h e s tp o s t e r i o rd e n s i t y ,简称 h p d ) 可信集简称为“一a ) h p d 可信集在疗为一维场合,若c 是一个区间,则 又称c 为( 1 一a ) i - t p d 可信区间 h p d 可信区间定义由图3 - - 1 所示 图3 1 3 2h p d 可信集的计算方法 由于多峰的后验密度函数并不常见,而且在前面的讨论中我们知道多峰的 后验密度通常可能是由于先验信息的选取不当而出现,因此不适合一般讨论在 这里我们仅讨论单峰连续的后验密度函数万pi 工) 对于参数的估计,b a y e s 学派认为样本信息和先验信息的共同作用要比仅 有样本信息的作用更有效,所得到的结果也会更加精确对于h p d 可信区间的 计算,按照后验密度函数的情况采用相应的方法: 1 单峰对称性后验密度 此类后验的特殊对称性是很有利于i - i p d 可信区间的计算的,完全可以通过 经典定义的方法直接确定 2 直接计算复杂困难的后验密度 1 3 第三章h p d ( 最人后验密度) 可信集 有些特殊的分布,如c a u c h y 分布c ( o ,1 ) ,( x e r ,0 0 ) ,由于结构的复杂 性使得后验密度的直接确定非常困难,这时可以采用正态近似的方法是很好的 选择 3 单峰非对称性后验密度 对于非对称的后验密度,由于无法直接计算得到结果,可以通过计算机的 模拟手段获得,此种方法的基本思想类似于微分法思想依据h p d 可信区间定 义的几何含义,在后验密度曲线上选取一系列的截点,用由截点组成的折线近 似后验密度曲线,当截点个数逐渐增多,折线无限逼近后验密度曲线,从而使 得h p d 可信区间的计算可以通过计算机实现 3 2 1 经典定义法 计算一维参数0 的h p d 可信区间首先完全可以根据h p d 可信区间的定义 进行,当后验密度石pl 工) 为0 的一维单峰连续函数时,寻求0 的( 1 一a ) m d 可 信区间的数值计算一般按照以下思路建立程序: 1 ) 对给定的k ,建立子程序解方程石pix ) - k ,( 3 1 ) 使得集c 仅) - 枷:石pi 工) 2 七 很容易地得到如果。为r 1 上的无限区间,且方程 ( 3 1 ) 只有两个解b ( k ) 和岛( k ) ,则 c ( 七) 一( t ) ,岛( 七) ) 2 ) 建立子程序,计算 3 ) 求方程 ( c ( 后) l 工) 。正玎( 口i x ) d o 与k ( c ( 七) l z ) = 1 一口 ( 3 2 ) 的数值解当k 改变时,调用以上两个子程序 在实际的计算过程中有可能找不到方程( 3 2 ) 的精确解,因而很难准确计算 可信区阋,而且考虑到计算机程序实现的设计方便,我们可以这样进行第三步 计算:通过计算概率弓i ,( c 陋) 卜) 并比较其值与1 一口的大小关系,确定可信区 间,具体描述为: 对给定的k , 若易i ,( c ( k ) l x ) 一1 一口,则c 伍) 即为0 的h p d 可信区间; 1 4 第三章h p d ( 最大后验密度) 可信集 若弓l ,( c ( 七) 卜) 1 一口,则增大七,转入1 ) 和2 ) ; 若弓1 ,( c 似) 卜) t 1 一口,则减小k ,转入1 ) 和2 ) 3 2 1 1共轭先验分布下的h p d 可信区间的计算 我们知道对于一个正态分布n l p ,盯2 l ,当其方差盯2 已知时,正态均值p 的 共轭先验分布也是一个正态分布,因此z 的后验分布同样是正态分布由于正态 密度函数的对称性使得的h p d 可信区间的计算相对简单 设样本五,五,瓦相互对立,并且都服从正态分布n l 口,盯2 ) ,其中盯2 已 知,若取正态均值的共轭先验分布n f ,a 2 ) ,其中p 和a 2 已知根据定理2 1 知 参数0 的后验分布为n f “,砰l , 其中 。bj o 孑+ “丸4 一。j 。 市 这里,i 为样本均值,砖一口2 肛 由后验分布n ( “,砰) 的单峰、对称性,知口的( 1 一口) h p d 可信区间为 【一一,h + 】 中r l a 2 是标准正态分布的口2 分位数由此得出如下定理 定理3 1 设x 服从正态分布n ( 疗,盯2 ) ,其中盯2 己知墨,五,五为x 的样 本,若取其均值参数口的共轭先验分布n ( p ,a 2 ) ,其中p 和a 2 已知,则参数口 的( 1 一a ) h p d 可信区间为 卜,h + 】 其中地,q 是口的后验均值及后验平均差,1 4 a 2 是标准正态分布的口2 分位数 我们都知道经典区间估计理论中,在正态总体n ( ,矿) 的方差仃2 已知时, 均值p 的置信水平为( 1 一口) 的置信区间为 卜,护心矧 可以看出在形式结构上正态均值口的( 1 一a ) h p d 可信区间与经典区间估计中p 的置信水平为( 1 一口) 的置信区间完全相同,如果我们抛开它们的理论背景,仅 在形式结构上比较这两种区间的长度应该是可行的 第三章h e d ( 最大后验密度) 可信集 与 鸬一q 咚,鸬+ q 】 卜缸j + 刊 两区间的区间长度分别是2 q ,弓詈“ 为了简单化,我们先比较彳和口2 加的大小: 砰一( 事+ 妒( 等) - l - 黠,一- 0 2 订0 2 x 2 显然,砰。 1 花 所以得到q c a ,也就是说在相同前提下参数日的( 1 一口) 肿d 可信区间比 1 0 0 ( 1 一a l 置信区间短 在计算参数口的可信集时,可能会遇到后验密度函数是多峰的,以致h p d 可信集由几个互不连接的区间组成,这时可以适当放弃h p d 准则而选择相互连 接的可信集,但是b e r g e r l 2 曾指出,在这种情况下不连接区间的出现往往说明 存在“相抵触”的信息,可能是先验信息与样本数据相悖,认识到这种抵触信息 非常重要当使用共轭先验分布时,自然共轭先验是典型单峰的,因此产生的后 验分布也一定是单峰的,因此如果此时恰存在抵触信息就会被掩盖因此我们在 采用共轭先验时必须非常慎重 3 2 1 2 无信息先验分布下的i - i p d 可信区间的算法 在本节的讨论中我们选取的先验分布为j c f f r c y s 无信息先验的最终推荐形 式,即 万( p ,盯) 。一1 o r 首先我们讨论一个正态分布n ( p ,仃2 ) 中参数( p ,o r 2 ) 的h p d 可信区间的计算 方法及其结果 1 6 第三章r n o ( 最大后验密度) 可信集 设x 服从正态分布n ( ,仃2 ) ,x ;( x 。,x :,x ) 为正态总体的一个样 本, 则样本联合密度函数为 p ( 咖2 ) 。高矿唧 薹( 毛一) 2 2 仃2 若取j e f 6 r e y s 先验分布,即 石( 舻2 ) - 孑1 ,( 胪2 ) r r + 则( 卢,仃2 ) 的后验分布为 其中 出阮小小k 引出卜埘) 唧 _ 掣 盯一_ + 1 j 唧 一唧 - 鬯钧 i i 12 。h 孙 石1 :,( 毪一万) 2 下面分别计算参数和盯2 的h p d 可信集 分别求得脚和盯2 的边际分布为 石( ii ,s ,* f 。( a 2 ) 等e x p 一1 1 掣 d 盯2 , 1 7 掣 一 第三章h e d ( 最大后验密度) 可信集 可得到 及 七训一“枷伽 一笼斟 赫, _ ( n - 1 r ) s 一2 一篇2 。 仃2 “- 1 由于f 分布的对称性,可以写出参数的( 1 一口) h p d 可信区间为 f 一老“红i + 去“号) 】 其中,( 号) 为自由度为“一1 ) 的f 分布的吖2 分位数 很显然这个结果与p 的经典1 0 0 ( 1 一a 1 置信区间完全相同,这种有趣的现 象体现了“无信息先验”的奥妙所在,从一个方面例证了经典方法与无信息先验 贝叶斯方法的结果往往在形式上是相同或相近的 另一方面,由于z 2 分布的非对称性,所以参数盯2 的( 1 一a ) i - i p d 可信区间 必须要借助于计算机才能找到我们将在后面的算法中详细描述其搜寻结果及过 程 下面先写出参数口2 的经典1 0 0 ( i 一口1 置信区间以供以后比较所用 卟( 躺,研( n - 1 ) $ 2 ) 从上面的讨论我们可以看出,一般i - i p d 可信区间计算要比经典置信区问简 单,特别是当简单充分统计量不存在时更是如此下面我们通过讨论c a u c h y 分 布c ( 口,1 ) ,仁醍钞o ) 来说明: 首先要说明的是c a u c h y 分布c ( 口,1 ) ,( x e r , 口 o ) 很特殊,它的数学期望 和方差都不存在由于 朋南凼一j = 简叫1 + ( 阳) 2 】| :言一叫月叫, 1 8 第三章h e d ( 最大后验密度) 可信集 所以e ( 亭) 不存在,因而d ( 亭) 也不存在 设样本z = ( 墨,x :,x n ) 相互对立,它们都来自c a u c h y 分布c ( o ,1 ) , p ( x i o ) 。1 + ( 日一工) 2 1 一,x e r ,口,0 由于p 是一个位置参数,所以取无信息先验石( 日) 一1 ( p ,o ) 是合理的 川_ 帮。群。赫 这个后验密度不是很容易计算,我们可以通过计算机计算口的( 1 一a ) h i d - - f 言 区间例如,若取盯- 5 ,x - ( 4 0 ,5 5 , 7 3 , 4 5 ,3 0 1 ,通过计算可得到口的 9 5 h p d 可信区间( 3 1 2 ,6 0 7 ) 相反地,对于c 细c h y 分布的参数日的经典置信区 问的求解就很难完成了 3 2 2 正态近似法 一般情况下i - i p d 可信区间的计算比经典置信区间的计算要容易,但即使这 样,在实际计算一个具体分布的h p d 可信区间时也可能会遇到困难计算i - i p d 可信区间的前提是必须首先获得参数0 的后验密度函数石归lz ) ,然而有时后验 密度函数的直接计算并非易事,因此采取近似计算的方法是必然的在b a y e s 统 计文献俐中提供给了我们很多近似计算的成功方法,如:大样本正态近似、 l i n d l e y 近似、t i e m e y k a d a n e 近似、数值积分和蒙特卡罗积分等 常识认为当存在非常准确的样本信息时,先验没有或几乎没有影响,于是 自动地具有先验的稳健性这可以正式地表达为:若似然函数z ( 们一f ( 工10 ) 非 常地集中于某一个充分小的区域q 内,而石( 们在q 上基本是常数,则 巾。尚加q ) 因此,先验对结论几乎不起作用,故具有几乎完全的先验稳健性,这种情况被 称为稳定估计【在稳定估计中,典型的情况是玎( 口jx ) 近似为正态分布 下面将不加证明地引用近似后验的几个结论【2 : 1 9 第二章h p d ( 最大后验密度、可信集 设样本置,x :,x n 相互独立,并且都来自密度函数为,0 b i 口) 的分布总 体,其中日一( b ,巳) 7 为未知参数向量若记x 一( 五,x 2 ,以) ,则有样本联 合密度函数为 ,( zi 口) 。珥盹i 口) 设石( 口) 为先验密度函数,石( 口) 及,扛i 口) 在占附近为正的及二次可微的其 中占为0 的极大似然估计( 假设存在) ,则当疗充分大时,后验密度函数 砷一钳 可通过以下四种近似方法得到: ( 1 ) 呢近似为n p ( 旷( x ) ,矿( x ) ) ,其中旷及矿分别是后验均值及后验协 方差阵 ( 2 ) 吒近似为n ,( 扩,【l 。( x ) 】。1 ) 其中扩为p 的广义极大似然估计,r ( x ) 为( p p ) 阶阵,其( f ,j ) 位置的元素为 _ ( x ) i - 去h x 删l ( 3 ) 巩近似为n ,( 占, ( x ) 】1 ) 其中i ( x ) 为观测的( 或条件的) f i s h e r 信息阵,其( i ,j ) 位置的元素为 驰卜【希,n ,( x l 一斟矗- n 鹏l ( 4 ) 以近似为n ,( 蚕, i ( p ) 】4 ) 其中i ( 口) 为期望的f i s h e r 信息阵,其( f ,j ) 位置的元素为 第三章n e d ( 最大后验密度) 可信集 她) ;鸣吖矗h 肥 以上四种类型的结论是中心极限定理的贝叶斯的表达一般地说,这四个近似的 精度是依次降低的 通过用正态分布近似后验分布,可以得到一个近似的i - t f d 可信集对于大 样本根据以上的结论可以认为其后验分布是近似正态的,而对于小样本,因为 正态的似然函数通常也能得到一个大体上是正态的后验分布,所以对小样本, 这种近似也是可用的对于一维参数口,其后验密度函数石pi 工) 最精确的正态 近似就是n ( 旷( x ) ,v 。扛) ) ,相应的近似( 1 一a ) 哪d 可信区间办 l 旷( 工) 一抄( x ) ,z ( 工) + 抄( 石) i 下面仍然通过c a u c h y 分布的例子来说明,利用正态近似后验密度计算得到 的h p d 可信集的近似程度若还是取万一5 ,z 一( 4 0 ,5 5 ,7 3 , 4 5 ,3 0 ) ,通过数值 计算可以得到其后验均值旷( x ) 和后验方差矿( x ) 的数值分别为4 5 4 和0 5 5 , 则将后验分布近似为n ( 4 5 4 ,0 5 5 2 l ,相应的近似9 5 肿d 可信区间为 ( 3 0 6 ,5 9 2 ) ,它与前面计算的实际9 5 h p d 可信区间( 3 1 2 ,6 0 7 ) 非常接近,说 明正态近似的方法对于难以求解的后验分布计算i - i p d 可信区间是一种很有效的 方法 3 2 3 几何模拟法 3 2 3 1 基本思想 对于非对称的后验密度,由于无法直接计算i - i p d 可信区间,考虑通过计算 机的模拟手段获得,然而现有的统计软
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 油茶承包协议书
- 生产调度培训教材
- 油墨合同协议书
- 公职人员廉政协议书
- 迁移坟墓用工合同协议
- 车辆批量采购合同协议
- 车辆私人定制合同协议
- 抖音用户服务协议
- 旅游咨询顾问服务合同
- 农村房屋改造与翻建协议
- 英语四级单词表4500
- 2025-2030年中国再制造行业当前现状及未来趋势发展预测研究报告
- 数据资产的会计确认与计量研究
- 2025华远国际陆港集团所属企业校园招聘113人笔试参考题库附带答案详解
- 《寻找消失的分数》期中考试分析班会课件
- 合伙买房合同协议
- 丁集矿井1.8Mt-a新井设计-煤矿冲击矿压
- 鱼塘项目可行性研究报告
- 2024年世界职业院校技能大赛高职组“化学实验技术”赛项参考试题库(含答案)
- 数学活动5用不等式解决实际问题和猜猜哪个数最大(课件)人教版七年级数学下册
- 烧伤病人的护理课件
评论
0/150
提交评论