




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 在人口统计学、精算学中经常遇到利用样本信息对未知参数进行估计的问题。而利用 传统的估计方法得到的估计值往往不够理想,怎么改善这一结果恰好是修匀所关心的问 题。修匀的理论与方法属于序列估计的范畴,该过程不仅依赖样本提供的信息还与人们认 识该序列的主观信息即先验信息有密切的关系。最初的修匀方法是由d e f 0 r e s t 在1 8 7 0 年 提出的,而1 9 8 5 年英国精算师l o n d o n 出版了g r a d u a t i o n :t h e r e 、,i s i o no f e s t i h l a t e s 可以说是修匀方面的较权威的专著,随后国外的许多学者又作了较为深入的研究。近年 来我国的一些学者也针对修匀的理论和方法进行了探讨,随着修匀方法在生命表构造、人 口预测、缺失数据处理等方面的应用,它也受到更广泛的重视。目前比较成熟的修匀方法 有移动加权平均修匀、w h i t t a k e r 修匀、贝叶斯修匀、参数修匀、核修匀、二维修匀等。 本文从巴西保险业1 9 9 8 2 0 0 1 年的数据的样本中位数入手通过b a 辨s i a 皿修匀和分段 参数修匀得到一张1 8 _ 9 5 岁人群男性的死亡概率表本文共四部分,其中第二部分贝叶斯 修匀和第三部分分段参数修匀是主要内容在第二部分中首先讨论了逆高斯分布的特点, 设它是死亡率如的先验分布,并推导出如的后验分布函数,但没有得到该分布函数的 显示表达式,接着用m c m c 方法实现了该过程,将模拟出的样本中位数作为贝叶斯修匀 值本文的第三部分从整体出发对死亡率序列进行估计,构造了一个以面积差函数作为 准则函数的修匀过程,并证明其估计序列的唯一性,又借助m a t l a b 得到较理想的死亡率 序列最后对所构造出的死亡概率序列作了简单的分析。 本文构造生命表的方法可以作为保险公司根据当地情况编制经验生命表的参考。 关键词:b ,e 8 i a n 修匀;分段参数修匀;生命表;逆高斯分布 死亡率的贝叶斯修匀与分段参数修匀 b a y e s i a ng r a d u a t i o na n ds p l i n eg r a d u a t i o no f m o r t a l i t yr a t e a b s t r a c t i na c t u 缸i a ls c i e n c ea n dd e m o g r a p h y w e u 8 u 出l yh a v et oe s t i m a t eu n k n o w np 缸a 工n e t e ru s i n g 此l es a m p l e sw h i c hw eh 8 v e8 l r e a d yk n o w n u s i n gt r a d i t i o n 出m e t h o do fe s t i m a t e ,w eu s u a l l y c a nn o td r a wap e r f e c tc o n c l u s i 0 ,踟1 di t i sj u s tt h ep r o b l e m ,w h i c hg r a d u a t i o nc 盯ea b o u t t h e m e t h o da 皿dt h et e c h 丑i q u eo fg r a d u a t i o nb e l o n gt ot h es e q u e n c ee s t i m a t i o n ,i tn o to n l yb a s e d o nt h ei n f o r m a t i o no ft h es 眦p l eb u to t h e1 【1 1 0 w l e d g ea b o u t 七h es e q u e n c ew h i c hp e o p l eh a v e k n g w nb e f 。r ec d l e dp r i o r im f o r m a t j o na sw e l l g r a d u a 七i o nm e t h o dw 8 so r i g i n a yp r 叩o s e db y d e f o r e s t ( 1 8 7 0 ) ,8 n dam o n o g r 印hw r i t t e nb yb r i t i 8 h 越t u a t r yl o d o no ng r a d u a t i o 7 r h e o 。y e n t i t l e g r a d u a t i o n :t h e r e 、r i s i o no fe s t i m a t e s 津,w a sp u b l i s h e di n l 9 8 5 s i n c et h e n ,m u c h c o n s i d e r a b l ee 舫r 七h a sb e e nm a d ei t h es t u d yo fg r 8 d u a t i o n ,b y8 d l o l a r sf m ma b r o a da n dd m m e s t i c a si tw i l d l yu 8 e di nt h ec o 岫s t r u c t i o no fi i f eta :b l e p o p u l 醣i o nr e p o r t 锄dd a t ap r o c e s s i n g , g r a d u a t i o nw a sp a ym o r e8 t 七e 】1 t i o o n n o wm o v i n 争w e i g h t e d a v e r a g eg r a d u a t i o n ,w h i t t a k e r g r a d u a t i o n ,b a y e s i a 皿g r a d u a t i o n ,p 删| m e t e rg r a d u a t i 0 ,k e r n e ig r a d u a t i o na n dp l a n a rg r a d u - a 七i 0 a r es o m ew e u r o u n d e dm e t h o d t h bp a p e rc 0 d s t r u 毗sam o r t 越i t yt a b l eo fm e n 壬r o me i g h t e e nt on 访e 铲蠡v eb a s e do nt h e m e d i a 皿o fb r m a ni n 8 u r e r sf o rt h ef o u r ”a r s1 9 9 8t o2 0 0 1 ,i 1 1w h i c hu s i gb a s i 缸g r a d u 缸i o n a n ds p l i eg r a d u a t i o n t h e r e 盯e4p a r t si nt h i sp a p e r ,a n dp a r tt w ob a j 髑i a 皿g r a d u a t i o na n d p a r t 也r e es p l i n eg r a d u a t i o na r ep r i m a r 矿p a r tt w oi n t r o d u c ei n v e r s eg a u s s i a nd i 8 t r i b u t i o n6 r s t , t h e a s s u m ei ti st h ep r i o r id i s t r i b u t i o no fd e a t hr a t e ,d e d u c et h ep o s t e r i o rd i 8 t r i b u t i o no f 如, b u tn 贰g e tas h c l w ne x p r e s s i o n ,t h i sp r o b l e mw a ss o l v e du s i n gm c m c ,a n dc h o s et h em e d i a n 0 fs 瓤叩l ea st h ev a l u e0 fb a y e s i a ng r a d u a t i o nht h et h i r dp 甜to f t h i sp 印e r ,d i s c u s st h e e s t i 1 a t eo fd e 8 dr a t es e q u e n c e ,c r e a t e sal o s sf u n c t i o no fs q u a r e ,壮dp r a v e st h eu n i q u e n e s so f t h ee s t i m a t e w i t ht h eh e l po fm a t l a bd r a w sab e t t e rc 0 c 1 1 1 8 i o no ft h ed e a dr a t es e q u e n c e a t l a s ta n a l y z e dt h e8 e q u e n c ei nb r i e f t h i sp a p e rc a n 西v es o m er e f e r e n c et oi s u r a c ea r e n to nc o n s t r u c t i 0 am o r t 址i t yt a b l e k e y w o r d s :b a ”s i a ng r a d 岫t i o n ;s p h n eg r a d u a t i o n ;l i f et a b l e ; i n v e r s eg a u s s i a nd i g t r i b u t i o n i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的 研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也 不包含为获得大连理工大学或其他单位的学位或证书所使用过的材 料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明 确的说明并表示了谢意。 作者签名:立篷錾日期:丝! :! :! 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名 逆嚆 导师签名:缓益速 2 堡芝年亘二月童一曰 大连理工大学硕士学位论文 1 绪论 1 1 生命表 生命表是根据分年龄死亡率编制的,反映某一批人从出生后陆续死亡的全部过程的 一种统计表。它的基础是分年龄死亡率,此表主要反映各年龄死亡水平,故又称死亡率表 或死亡表。表中计算各年龄平均预期寿命,故亦称寿命表吼 表中年龄指某一确切年龄或某一年龄组。死亡概率如指活到确切年龄z 岁的一批人 在满z + n 岁以前可能死亡的比例。尚存人数l 指同时期出生的一批人活到确切年龄。岁 的人数作为起点的出生人数矗称为生命表的基数,表中其他人数均随所取基数而变。一 般生命表中为使人数保持整数,多取南= 1 0 0 ,0 0 0 ,则表中各栏人数均成为如的比例系数, 更便于用来计算。死亡人数如指活到。岁的人当中在今后n 岁内死亡人数,也= l 。生 存人年数k 指在某一确切年龄。岁与另一确切年龄z + n 岁之间一共生存过的人年数。 在一岁一组的完全生命表中,某一岁的生存人年数也就是在这一岁中的平均生存人数。某 确切年龄z 岁以上生存人总数已即从。岁开始的各年龄组生存人年数的累计。平均预 期寿命e o 为活到某一确切年龄z 岁的l 人今后平均每人预期尚可活的年数生命表的 原意是反映同一批人陆续死亡减少过程当中各年龄人数之间的比例关系,以及这批人活 到各年龄时的平均余寿。整个生命表的推理过程都是针对一批人而言的,但实际编制生命 表时,通常都是根据某一年或连续几年不同批人的死亡率,因而反映的是该时期的死亡水 平,被称为时期生命表反之,根据某同批人经历各年龄时的死亡率而编制的生命表,则称 为同批人生命表或一代人生命表。生命表可用来进行人口数推算根据某地区、某时期实 际死亡率水平编制的生命表只反映该地区、该时期的情况 早在1 6 6 1 年,英国数学家g r a i l l l t 在英国瘟疫横行的地区将死亡率当作一项科学研究, 产生了有历史可查的最早死亡机率统计表。1 6 9 3 年,英国天文学家哈雷将s n e s i ab r e s l a n 城的人口统计资料加以整理,制作了著名的哈雷生命表,之后,各国也开始熏视国民寿 命的统计工作随着社会的进步,生命表也逐渐地细分化,按照不同的标准可把生命表划 分为许多不同的种类。根据年龄分组的不同,生命表可分为完全生命表和简略生命表。年 龄分组以1 岁为一组的叫完全生命表,以5 岁或l o 岁为一组的叫简略生命表从覆盖范 围来看,生命表分为国民生命表和经验生命表国民生命表是使用全体国民或特定地区 的人口统计资料编制,反映整个国家或地区人口的死亡规律。经验生命表是人寿保险公司 按照投保人的实际死亡资料编制而成的,反映的是投保于该公司的被保险人的死亡规律。 生命表按照使用要求又分为多种类型:有寿险生命表和年金生命表;有男性和女性生命表; 有选择生命表,终极生命表和综合生命表等等 死亡率的贝叶斯修匀与分段参数修匀 1 2 修匀 1 2 1 修匀的概念 许多作者曾对修匀下过定义。a n d r e w s 和n e 8 b i t t 把修匀定义成: “根据一个有其自身规律的自然现象的若干观察值,经过有规则的修正,力求能代表 这个现象。” m i l l e r 把修匀叙述成: 。修匀是这样一种可靠的方法,根据一个连续变量的不规则观察序列,用这种方法,可 得到一个光滑的有规则的修正序列,与观察值序列相和谐。” 上述两个定义都认为对于某个客观规律都给出了一个不规则的值序列,这些值应该 被改进,把改进的序列取作客观规律的代表。而且在m i l l e r 的修匀定义中已阐述到修匀过 程由两个方面组成的,既要光滑观察数据,又要保持对观察数据的一定拟合度m i h e r 在 他的文章e 1 e m e n t so fg r a d u a t i o n 中又补充说道: w bh a v eo l yt h es e r i e so fo b s e r v e dp r o b a b i l i t i e s 西咖b yo u rl i 1 i t e do b s e n 哦i o n s ,f r o m w h i c hw ee s t i 瑚【a t et h eu n k 】1 0 w nt r u em o r t a | i t yr a t e s v i e w e di nt h i sw a y t h ep r o b l e mo fg r a d u a t i o j sam a t h e m a t i c 越p r o b l e mi nw h i c hw ea r ea s k e dt oe s t i m a t e ,o r8 e c u r er 印r e s e n t a t i o no t h e8 e r i e s0 ft r u r a t e so fm o r t m i t yt h a ti sa s s 咖e dt oh a e 百v e nr i s et ot h ei r r e g l l l 盯s e r i e so f o b s e r l 硎p r o b a b 龇i e s k i i n e l d o “a n dj o n e s ( 1 9 6 7 ) 在他的文章b 8 y e s i 8 ng r a d u a t i o n 中说:w bv i e wg r a d u a t i o n n o tm e r e l ya ss m 0 0 t h i n g ,b u t 踮t h em o r eg e n e r a lp r o c e s so fe s t i m a t m gt h et r u er a t e sw l l i c h a c t u a yp r e v a i li nt h ep o p u l a 上i o n 综上所述,我们认为将m i l l e r 对修匀的补充说明及k i m e l d o r f 和j o n e s 的阐述综合起 来便道出了修匀定义的本质。本文称这个定义为m m e r _ k i n l e l d o r f - j o n e s 定义,简称修匀的 m k j 定义。根据修匀的k j 定义我们便可把修匀间题纳人统计估计的范围,并属于序 列估计的情形。谈到序列估计,我们看到不承认序列中各元素之间的相互关系,修匀就丧 失了其存在的意义进而可知并不是所有的数列都可以作为修匀的对象,只有相信在其各 元素之问存在某些关系才适合修匀吼各年龄别死亡率就是一个典型的例子这也正是 我们重点研究的对象综上分析,对修匀的定义我们可以简单理解为:修匀是一种利用初 始估计( 根据样本信息,利用传统的统计估计对未知参数进行估计所获得的估计值) ,结合 先验改进初始估计的统计方法,这种方法的目的是为了得到一个更好的估计值【2 j 。 在修匀过程中经常用到的方法有;移动加权平均修匀、w l l i t t a k e r 修匀、b a y 商a n 修 匀、参数修匀、核修匀、二维修匀等本文将用到其中的b a y e s i a n 修匀与参数修匀,其具 体方法在第二与第三部分介绍。 2 大连理工大学硕士学位论文 1 2 2 修匀与生命表 编制生命表是一项庞大而复杂的工作。对于单个人来说,出生后何时死亡是不可知 的,但对于一个国家,一个地区,在一定时间,一定的社会经济条件下,一定数目的人群作 为一个整体来看,其生、老、病、死还是有规律的。生命表的编制要以大量的死亡统计数 据为基础,国民生命表的编制是以人口普查数据或人口抽样调查数据为基础,而经验生命 表的编制是以寿险业务统计为基础。不管哪种生命表,修匀技术是编制生命表的一项必不 可少的技术。异常值使年龄间缺乏光滑性和必要的连续性,这就需要我们作进一步的调整 和改进,即修匀另外,在实际当中我们还会常遇到这样的问题,由于数据太少或数据精度 不高,生命表信息通常是以简略生命表公布的,如何把简略生命表中的数据恢复成完全生 命表中的数据,这也是修匀理论又一重要应用领域【1 2 】。 3 大连理工大学硕士学位论文 2 贝叶斯修匀 修匀问题的标准b a y e s i a n 方法,可分为四个步骤来说明旺现将它们开列如下: 1 、用公式表示死亡率如的先验分布,这个如是我们要估计的序列。 2 、选择先验模型,也就是当给定序列如时,观察数据础的条件分布表达式。 3 、给定所得到的数据吧用b a y e s 定理解出如的后验分布。 4 、由此后验分布,按照修匀问题的目标,选择修匀值屯 本文选取逆高斯分布( i n v e r s eg a u s s i a nd i s t r i b u t i o n ) 作为如的先验分布,首先讨论它 的性质 2 1 逆高斯分布 逆高斯分布也称反正态分布,取这个名词是因为它的特征函数恰好是正态的反函数。 尽管反正态分布在上世纪5 0 年代中期就提出来了,但并未引起重视,直到7 0 年代,一典实 际应用表明这一分布是很有意义的。在处理反正态分布时,需要一种求积分的微商方法, 我们先引入一个积分求值公式,以它作为工具,导出反正态分布的密度以及有关的统计性 质。 首先我们证明 一e 一( 件 ) 出= 析e 一2 币f 2 1 ) j 0 v n 0 都成立 显然丹= o 时,( 2 1 ) 是r 函数一个熟知的等式,因此。= o 时上式是成立的。记( 2 1 ) 式左端为f ( 。) ,它是口的函数,易见有:对。 o 掣= z 。一( e 呻斑 令z = 2 ,则t = 且出= 一参出,代入上式右端,得到 注意到f ( o ) = 、,行,于是解上述微分方程就得( 2 1 ) 。 将( 2 1 ) 式两端均对。求微商,就得 ( 2 2 ) 如 2 t 计 一 :地 剐 z h 土面土面 面 吨 居 | | 5 + r 石 死亡率的贝叶斯修匀与分段参数修匀 实际上,( 2 2 ) 式也可以通过积分变换得到。从( 2 ,1 ) ,( 2 2 ) 式可以导出另两个等式,我们只证 其中一个对6 o 有 t 一e 一6 ( 亡+ ) d t o = z 。嘶一e 邓件喾枷曲 = 去上”“吨巾肖如 因此有 注意到 6 0 一2 面+ ;) + 2 6 面 ;( t 一狐) 2 + 2 6 撕, ( 2 ,3 ) 从( 2 3 ) 式就得到 f 压f t 一;e 一;( t 一问2 出_ l , i 污肛分知硐址1 4 从( 2 4 ) 就可以引出反正态分布。若随机变量的分布密度 p = 、安一e 一去“1 p ,t 泸】, 其中参数p o , o ,则称f 遵从反正态分布( 逆高斯分布) ,用j ( 肛,p 3 a ) 表示下面 我们证明p 是的期望,p 3 a 是的方差,因此这一记号于正态的写法一致在求期望方 差之前,我们先证一条引理。 引理2 1 【3 】若一( “芦3 a ) ,则它的逆f 一1 的分布密度为 1 偿t 一e 一击( 。垆t o ( 2 5 ) 磊r - e 2 乱”,o o ( 2 5 ) 污 = 叱晰 肛序 | | 1 | 出 出 嵋 屿 哪 吣 1 三 一 伊伊 大连理工大学硕士学位论文 证明: 注意( 2 4 ) 中第二个等式中取。= 肛2 ,6 = 嘉,左端被积函数就是( 卢,p 3 肛) 的密度。 而 球。1 一) = 仁每也崩) 2 d z 两边对t 求微商,就得所要的结论。口 ( 2 5 ) 相应的分布成为逆反正态分布,意思是它是反正态分布( 地卢3 a ) 随机变量f 之逆q 的分布。比较( 2 3 ) ,( 2 4 ) ,( 2 5 ) ,可以看出反正态分布的参数可以有不同的选择,( 2 3 ) 是用q6 两个参数,( 2 4 ) ,( 2 5 ) 是用a ,芦这两个参数,它们之间的关系是 。= 以a = 刍= 龛 有时为了证明简洁,选用n ,6 或 ,肛都是可以的,a ,p 的统计意义比较明显下面我们来求 分布的矩母函数,从而导出它们的期望、方差的表达式以及其他性质。 引理2 。2 。【4 】若f j ( p ,p 3 a ) ,则有 f 联( 口) = 拶= e x p j ( 1 一以研) ) , 1 咄一叫,一盯 e x p 协一厕) ) 。6 = z 。一僻肿叫峨k = 、面z 。一e 坤叫似爵_ 出 = 譬e 2 6 讧三e 。厕 用。= p 2 ,b = 壶代入上式右端,就是( 2 ,6 ) 第一式。类似方法可以证明第二式。 口 现在来说明反正态分布的命名。正态分布( “a 2 ) 的矩母函数是。“t + 害r ,它取对数 后就是脚+ 譬f 2 ,令它等于一口,就得 舻+ 霎t 2 + 口= o 死亡率的贝叶斯修匀与分段参数修匀 将p 看作常数# 看作变量,解这个二元一次方程得 t :兰唑# 业= 一兰( 1 士厅研)盯盯 很明显,上式有端与( 2 6 ) 中艮( 口) 的对数完全相似,在这个意义下它与正态的正好相反 有了定理( 2 1 ) ,可以得到 推论2 1 【9 】若一,( 卢,肛3 a ) ,则有 e ( ) = 肛,v o r ( ) = p 3 n 利用l n 驰( 口) 展开式的口与p 2 的系数,就可以得出的期望与方差。因为 2 p 2 曰a ) ) ;半+ ;( ;2 a22 、2 ) ( 半) 2 :卅;譬“, 推论2 2 【10 】若z 1 ,z 。独立同分布,( “卢3 a ) ,则 s = 。1 + ,+ 茁n ,( n 肛,n 肛3 ) 证明: e e 。s= e e 8 。1 + + 。n = e e 。= ( e e 。1 ) ” t = 1 :e ”;( 1 一、厅。j 而_ ) 由于e s = 札e z l = 礼卢,y o r ( s ) = n 矿o r ( 0 1 ) = 礼旷a ,在意剑j ( 礼p ,札 ) 相_ 匝的矩母函 数是在表达式中用n 肛代p ,n 2 入代a 就可由班( 日) 得到,即为 唧 鲁”乒丽两两) ) = 唧r ( ,一厅面呖) ) 它就是e e 阳,这样就证明了推论( 2 2 ) 口 从证明中可以看出,对,( p ,矿a ) ,如果以参数( 肛,卢) 为参数, p = 啬= 焉, + l 1 1 叫 卜 0 i a p a 一肛 = = 妒$ n 大连理工大学硕士学位论文 于是j ( p ,芦3 a ) 可以写成j ( 肛,p 卢) ,相应的矩母函数写成 驰( 口) = e 冲 印( 1 一、厅忑万历) ) 这就告诉我们用( p ,卢) 作为参数是方便的。 现在来求p ,a 的估计量。设z 1 ,z 。来自j ( p ,肛3 a ) ,这样样本相应的均值和方差 是 牙= :擎扎击争叫2 从矩估计法得 一 2西3 0 2 p ,s “。 因此得 皿= i ,i = 卢3 矿= i 3 s 2 下图是不同参数的反正态密度函数曲线。 图2 1 :不同参敷的逆高斯密度函数的比较 f i 萨1 :c o m p a r 8 j o no fd i 船r e n tp 对姗e t e ro fh m r s eg a u 窨s i a nd i s t r i b u t i o n 9 死亡率的贝叶斯修匀与分段参数修匀 2 2 b a y e s i a n 修匀模型 2 2 1 建立模型 本文中用到的寿险数据来自巴西保险业1 9 9 8 2 0 0 1 年的数据的样本中位数,在表1 中 给出1 8 - 9 5 岁男性投保人的暴露数及死亡人数,我们仅对给出的数据研究首先是对观测 数据的处理,对每个年龄z 我们观测到暴露数及死亡人数如,死亡率的初始估计值为 明= 鲁如果将z 岁人群的死亡人数风看作随机变量,则有现一b 如) ,其中艮是年 龄为z 的人群的真实死亡率也是我们要修匀的数列,”是某年龄的人口总数,考虑到死亡 率如的数值较小( 一般是万分之几) 为了提高估计的精度统一令n = 1 0 6 又根据b a y e s 理论如应服从某个分布,假设其服从逆高斯分布,即日。( 。,p ) ,设密度函数为 m ) = 嘉一e 一最。_ 0 y , o 参数a o :卢 o ,且e ( 如) = a ,y o r ) = a 3 卢由于我们不能确切给出d 及卢的值,所 以对每个。假设a r ( n 1 ,卢1 ) ,卢一r ( “2 ,阮) 下面我们来讨论8 。的后验分布”池i 如) 如的先验分布为: ”c 2 上z ,池旧p ,c a ,c 卢,帮如 = 上z ( 彘) 。e 一龆一p 磊一 呐。焉俨 瑚拙 = ( 去) 5 焉篙z 伊均 叫糕垮“ 柏a d 触 = ( 去) 5 磊禹啦:+ “( 刍一:+ 去+ 岛) 巾2 峨一 呐 则目。的后验分布为: 即 删地) = 积器 一c 舞。鲤2 ( 1 一如) “一如 ( 如) 如c 簪睡( 1 一如) n 一如”( 如) d 如 od 口 卢 一 e a o 劬 一 、, 鲍 + 上魄 + 1 一口 o 旦獬 ,、五 如 一n 如 一 q如 p 如艮“ 大连理工大学硕士学位论文 由此我们建立了b a y e s i a n 修匀模型如下 2 2 2 实现模型 如一b ( n ,如) 一,似,卢) o g n m m n ( d 1 ,口1 ) 卢一g n m m o ( 0 2 ,国) 这一部分我们考虑b a y e s i a n 修匀模型的实现,我们看到如的后验分布”( 如l 如) 形式 相当复杂,以致其各种数字特征不易由传统的分析方法,数值计算及一般的静态蒙特卡罗 方法获得,对此采用马尔可夫链蒙特卡罗方法( m c m e ) 。其基本原理是通过建立一个以后 验分布为平稳分布的马尔可夫链来产生后验分布的样本,基于这些样本就可以对后验分 布进行各种统计推断。 不失一般性,考虑某个函数,( 。) 关于”( z ) 的期望 日,= 上弛) 巾) 如, ( 2 7 ) 此处”( z ) 表示后验分布,它是一个复杂高维的分布,从而显式计算是不可能的。假如我们 能够得到来自”( z ) 的样本z 1 ,茁。,则上式可如下估计: 厶= :磐执 这便是蒙特卡罗积分。 如果上述样本是独立的,则由大数定律, 一o - s 1 0 ,m o 。) ( 2 8 ) ( 2 9 ) 但当”( z ) 是一个复杂的分布时,要从”( 。) 抽取独立样本几乎是不可能的。然而,即使样 本不独立,( 2 9 ) 也有可能成立,比如,如果我们能够从一个平稳分布为”( 。) 的马尔可夫过 程抽取样本,则( 2 9 ) 也成立,这就是马尔可夫链蒙特卡罗方法( m c m c ) ,它是一个简单而 有效的方法。 最简单,应用最广泛的m c m c 方法是单元素吉布斯抽样( s i l l g l e s i t eg i b b ss m p l e r ) , 其具体步骤可如下进行。”( 。) 表示后验分布在给出起始点。( o ) = ( z ,。磐) 后,假定 第+ 1 次抽样开始时的观测值为。( “,z 则第f + 1 次抽样分为如下n 步: ( 1 ) 由条件分布”( z l l z 黪,z 驴) 抽取。p 1 ) ; 死亡率的贝叶斯修匀与分段参数修匀 ( i ) 由条件分布”( 戤i 。p ”,”,。算一,z ) 抽取z :”1 ( n ) 由条件分布”( z 。| z r ”,。描1 ) 抽取z 舻“ 记z ( ) = 扛r ”,z 炉1 ) 则z ( “,z ( “,是马尔可夫链的实现值,其由z 至。,的 转移概率函数为 在应用吉布斯抽样时,必须对马尔可夫链的收敛性进行判断,即要判断链什么时候开 始以”( z ) 作为其平稳分布关于吉布斯抽样的收敛性判断,几乎没有什么有效的方法,在 实用中,通常可以采取两种来进行判断【2 5 】。 方法之一是应用吉布斯抽样同时产生多个马尔可夫链,在经过一段时间后,如果这几 条链稳定下来,可以认为吉布斯抽样收敛了 另一个判断吉布斯抽样是否收敛的方法是看遍历均值是否已经收敛,比如,我们在由 吉布斯抽样得到的链中每隔一段距离计算一次参数的遍历均值,为使来计算平均值的变 量近似独立,通常可每隔一段取一个样本,当这样计算的均值稳定后,可以认为吉布斯抽 样收敛。本文正是用这种方法来进行判断的。 以2 3 岁人口的数据为例说明该过程: e 2 3 = 7 1 5 3 7 ,d 2 3 = 4 2 ,这时第一次抽样的观测值为如= 瓣= o j d 0 0 5 8 7 1 图2 2 :马尔可夫链的实现值的分组频率图 图2 3 :马尔可夫链的实现值 f 逗2 2 :n e q u e c yv 出u eo fm a r k 吖c h 血f i 9 2 3 :v 出u eo fm a r k o vc h 血 在表3 1 第五列中给出了贝叶新修匀的具体数值,图3 1 中用曲线的形式描述出来。 在样本量较小的不利条件下,运用m c m c 方法生成更多样本,再对其进行统计推断是简 洁有效的方法。本文中的后验分布在计算过程中需要较高的数字精度,用m a t h e m a t i c a 编 程比较好贝叶斯修匀过程为接下来的分段参数修匀打下良好的基础。 1 2 大连理工大学硬士学位论文 3 分段参数修匀 3 1 分段参数修匀的特点 首先给出三次样条函数的定义。 定义3 1 设函数,( z ) e o ,纠,用n + 1 个互异节点分割区间 o = o 0 1 - o 下,日( o ) 有唯一极小值点。 证明: ( 1 净( 。) 是严格凸函数 对o a 1 ,( + ( a 一1 ) z ) 2 o 即a = o :0 1 + 2 口2 t + 3 口3 t 2 o ,( c ,d ) ) ,v m ,n a a m + ( 1 一a ) ” = r n l 十( 一1 ) n 1 + 2 ( a m 2 + d 一1 ) 咒2 p + 3 ( ) m 3 十( a 一1 ) 札3 ) 亡2 = a ( m 1 + 2 m 2 t + 3 m 3 铲) + ( 1 一a ) ( n 1 + 2 n 2 t + 3 n 3 t 2 ) o a 所以且是凸集。 ( 3 ) 一个严格凸函数在凸集上的极小值点唯一。 用反证法:设仉6 a 是a 上的两个极小值点且有。6 ,日( n ) = 日( b ) ,则v a ( o ,1 ) 有 + ( 1 一a ) 6 a ,有 日( 入口+ ( 1 一a ) 6 ) of 3 2 1 c j z 与最小二乘法类似,引入平方是为了避免正负值的抵消而影响修匀结果。 由引理3 1 可以知道,我们所用的修匀方法得到的解唯一。由于该方法的目标函数形 式较为复杂,不容易将显示解表达出来,所以我们利用m a t i 曲编程计算。 其程序步骤如下: 1 ) 给出修匀的初值即z = 1 8 时的值, 2 ) 再用后面的四个点来拟合三次曲线其目标函数为( 3 1 ) 约束条件为( 3 2 ) , 3 ) 得出2 + l 岁的修匀值1 , 4 ) 回到步骤2 ) 直到最后一个值为止,完成修匀过程, 5 ) 令酲= e “ 以上程序用m 眦l a b 实现比较方便 3 3 几种分段参数修匀方法的比较 1 、最小平方三次样条 假设我们已经有初始估计u 。,这里。在范围f o ,6 】内,且我们的关于b 的先验观点认 为被表示成三次多项式的修正估计,是在最小平方意义下,能最好的拟台“。因而,定 义 s s = ”。一地) 2 2 = = o b = 。一c 1 一c 2 z c 3 护一c 4 2 3 ) 2 ,( 3 3 ) 1 5 死亡率的贝叶斯修匀与分段参数修匀 这里”。是适当选择的权。s s 关于c 1 ,c 2 ,c 3 ,c 4 的四个偏导数等于o ,产生里正规方程组 由它可解出最小平方估计e 1 ,如,如盈。且它们可以表示成矩阵方程 f 3 4 、 2 、两弧三次样条 现在假设我们发现单个三次多项式不足以表示我们的关于如的先验观点,而用两个 三次多项式,它们在z = 处相连接,却能够得到适当的表达式。称是一个结点,而且对 这个值并不需要存在对应的值。那么,表示修匀值的两弧样条是 而适应于这种情形的是 b s s = 。( u 。一) 2 o = a 6 = 。( 一c 1 一c 2 。一c 3 t 2 一c 4 。3 ) 2 ,( 3 6 ) o = = o 这里 是不大于的最大z 值,面对这个。值,相应的是存在的 为了得到p o ( 。) 和p 1 ( z ) 之问所需的光滑连接,我们需要它们在连接处有相同的纵坐 标和相同的一、二阶导数那就是 p o ( 豇)= p 1 ( 七) 而( ) = p i ( ) p :( 惫)= p :( 七) ( 3 7 ) f 3 8 ) f 3 9 1 因为p o ( 。) 和p 1 ( 。) 是三次多项式,它们在所述范围内是两次可微的,条件( 3 7 - 3 9 ) 保证整 个样条是二次可微的【l 】 设 p o ( ) = c 1 + c 2 。+ c 3 2 2 + c 4 3( 3 1 0 1 和 p 1 扛) = c 1 + c 2 z + c 3 2 2 + c 4 。3 + 。5 扛一后) 3 ,( 3 1 1 ) 则容易验证( 3 1 0 ) 和( 3 ,1 1 ) 满足( 3 孓3 9 ) 1 6 53 ( 也 h r z z 0 南 、j、 o ,l ( 加 m ,j,、il 大连理工大学硕士学位论文 将( 3 1 0 ) 和( 3 1 1 ) 代入( 3 6 ) ,得到 h s s = 。一c 1 一c 2 z c 3 2 2 一c 4 扩】2 f 3 1 2 1 在1 、中极小化s s 所得的用来求解的参数的方程可表示成( 3 ,2 4 ) 的形式这里x 是 m 4 矩阵,而u 。共有m 个值,z = 。:,6 。 现在可以把( 3 2 ,4 ) 说成是最小平方正规方程的最一般的表达式,这里x 是适当被定 义的矩阵对于两弧情形可见x 是如下形式t 3 4 死亡率表特点分析 口30 1 2舻0 1 h + 1 ( h + 1 ) 2 ( h + 1 ) 3 + 1 一) 3 表3 1 中最后一列给出了修匀的最终结果,从图3 1 中可以看出死亡率屯随年龄。的 变化规律从生命表和曲线图大致可以分析出: 1 、从1 8 6 0 岁死亡率缓慢上升,7 0 _ 8 5 岁死亡率增长加快,而8 5 岁以后迅速上升。 2 、就最终估计值与观测死亡率相差较大,可以这样认为t 巴西生活水平存在差距, 被保险人主要是那些经济收入较高,家庭生活富裕的居民,因此观测到的死亡率较低。 3 、由于缺少原始数据,对1 8 岁以前的和9 5 岁以后的死亡率没有作出估计,所以该 表不能称为完整的生命表,但其对保险公司是有实际意义的。 1 7 户 七一z 5 c一 3 z q 一 2 o q z 沈 一 q 一 #心 枷 。 + 死亡率的贝叶斯修匀与分段参数修匀 大连理工大学硕士学位论文 死亡率的贝叶斯修匀与分段参数修匀 1 ) 分段参数修匀值2 ) 一一一b a y e s i 修匀值3 卜初始估计值 图3 1 :修匀值的比较 f i 9 3 1 :c o m p a r s i o no fg r a d u a t i o n edb0 大连理工大学硕士学位论文 4 结论 本文的主要结果是基于已知数据建立丁一张死亡率表 在此过程中,为了解决数据量较小可能是估计误差偏大的问题,我们用到了贝叶斯 修匀方法,由于逆高斯分布有着良好的性质,作为探索性讨论将它假设为死亡率如的先 验分布,但该分布的密度函数比较复杂,尤其得到的后验分布函数更是没有显示表达式, 所以必须利用计算机编程计算,得到比较理想的估计值 接下来,我们知道相邻年龄人群的死亡率有着必然的联系,那么将它们放在一起集 中讨论也是合理的。在这一过程中构造一个以面积差函数作为准则匾数,并借助样条理 论中成熟的方法将其在计算机上实现对该准则函数的理论部分,我们证明了它估计的 唯一性 本文构造死亡率表的方法可以作为保险公司根据当地情况编制经验生命表的参考 本文构造死亡率表的方法可以作为保险公司根据当地情况编制经验生命表的参考 大连理工大学硕士学位论文 参考文献 l o n d o nd g r a d u a t i o nt h er e v i s i o no fe s t i m a t e s n e wy b r k a c t e xp u b l i c a t i o n s 1 9 8 5 【2 】张志强统计学中的修匀方法及其在生命表构造中的应用:( 博士学位论文) 天津:南开大学,2 0 0 4 【3 张尧庭,成分数据统计分析引论,北京:科学出版社,2 0 0 2 f 4 d a v i dpm ,s c o l l 诎a c t l i a r i a lm o d e l i n gw i t hm c m ga db u g s n o r t ha m e r i c a na c t u 盯i a l j 0 1 l r n m 2 0 0 2 ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业营销移动转型创新创业项目商业计划书
- 工业机器人维修站创新创业项目商业计划书
- 按摩放松KOL推广创新创业项目商业计划书
- 杂粮早餐麦片线创新创业项目商业计划书
- 毛皮加工工抗压考核试卷及答案
- 废金属加工处理工应急处置考核试卷及答案
- 锁具制作工基础知识考核试卷及答案
- 桥梁巡视养护工协作考核试卷及答案
- 渔船驾驶员内部技能考核试卷及答案
- 烧结成品工应急处置考核试卷及答案
- 2024年全球高级持续性威胁(APT)研究报告
- 休学创业申请书
- 人工智能导论-第2版-全套课件
- 颈椎病课件完整版
- 炸鸡汉堡加盟合同范例
- 工商银行-(招聘笔试题)
- 八年级物理上册课程纲要
- 学校食堂食品定点采购制度
- 《楼梯的故事》话剧剧本
- 出口鸡肉采购合同模板
- 新解读《JTG E20-2011公路工程沥青及沥青混合料试验规程》
评论
0/150
提交评论