(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf_第1页
(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf_第2页
(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf_第3页
(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf_第4页
(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(数量经济学专业论文)基于MCMC算法的股指VaR计算.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于m c m c 算法的股指v a r 计算 论文以及f i l l l 9 9 8 年的论文中,这种思想取得了惊人的发展,并且以两种不 同的方式对其产生影响正如在数学科学中所常见的,简单的思想往往能 够导致有趣的数学结论。其它近期的进展包括加权m c m c ( 有时并没有完全 避免模拟,比如二叉树算法) 的使用和创新,以及它在统计学、物理学和基 于遗传法则限制的仿生学中的应用。后来的工作阐明了新近的发展与以前的 工作之间的关系,因而拓展了数学背景方面的问题。p r o p p - - w i l s o n 算法和f i l l 算法在实证方面的成果很惊人,这两个算法由此联系起来,与先前的理论概 念也很有联系。正在进行的工作就是拓展那些思想,比如我们已经知道用 p r o p p - - w d s o n 算法来处理状态空间不一定有限的马尔可夫链,甚至可能各链 的状态也有一定的不一致。现在,基于数学理论发展起来的这些算法已经得 到了重要的应用。特别是p r o p p - - w i l s o n 思想被建议在组合理论和随机树方面 进一步发展,并且在关于小集合的马尔可夫链现象中也有新的工作展开。 从本质上说,它的原理就是要从一定的概率分布中随机的抽取合适的样 本,以此完成许多的用途。这里所谓的用途大致有三个方面:第一个方面, 即系统模拟,或者称为系统仿真:第二个方面,即科学计算在科学计算 中间,常常需要在高维空间中间计算积分,从计算机的角度看,蒙特卡罗积 分用于学习和模型估计,也用于了运动轨迹的跟踪等方面;第三个方面,即 优化问题和贝叶斯推断,其目的是计算全局最优和某些贝叶斯后验概率。贝 叶斯后验分布通常很难计算,因此人们仅有一些结论。而模拟后验概率分布 也将会产生一些似是而非的结论。 m c m c 方法是一种特殊的蒙特卡罗方法,只是将随机过程中的马尔可夫 过程引入到了蒙特卡罗模拟中,从本质上来说,使用的还是蒙特卡罗积分。 另外,m c m c 方法弥补了传统的蒙特卡罗积分只能静态模拟的缺陷,实现了 动态模拟( 抽样分布随着模拟的进行而改变) 。 m c m c 方法可以概括为下面的三步骤,其中所设置变量有,y 为某一空 间,p ( ,) 用来表示转移核,序列x ,x “即为一系列样本点,井表示产生 的总样本个数或者说总抽样次数,臃为达到平稳分布时的样本个数或者说抽 样次数: ( 1 ) 构造转移核;在缈上选择一个“合适”的马尔可夫链,使得它的转移 2 中文摘要 核为p ( ,) 。在这里“合适”的含义主要是指石( z ) 应是其相应的平稳分布。 ( 2 ) 产生样本:由l f ,中的某一点石出发,用( 1 ) 中的马尔可夫链来 产生点序列石t ”,x ( ” ( 3 ) 蒙特卡罗积分:对某个m 和大的玎,任一函数,( 工) 的期望估计为: 或厂。志m ,至,( o ) 以一 t := i l 由上面可以看出,实现这这三个步骤主要需要解决三个问题,即转移核 的构造,收敛性的判断( m 值的确定) ,以及链的长度的确定( h 的大小的确 定) 。 比较常用的m c m c 算法有g i b b s 抽样,m e t r o p o l i s - - h a s t i n g s 方法,格子 g i b b s 抽样等等,这里主要涉及到前面两种方法。本文实证部分用到的就是 g i b b s 抽样算法。 v a r 本质上是对资产组合价值波动的统计测量,其核心在于构造资产组 合价值变化的概率分布。基本思想仍然是利用资产组合价值的历史波动信息 来推断未来情形,只不过对未来价值波动的推断给出的不是一个确定值,而 是一个概率分布。 计算v a r 主要有历史模拟法、分析法和蒙特卡罗模拟三种方法,各有优 缺点。历史模拟法的优点在于简单,实现比较容易,计算速度快,并且解释 起来也更方便,不过其缺点也是显而易见的,即要保证能够得到足够多的历 史数据,并且没有考虑到市场的变化。分析数据法收集和计算的实现较为容 易,并且比较容易解释,不过在市场发生变化的时候就可能有些偏差,对其 分布的假设不是很好检验。m o n t e c a r l o 方法能较好地处理非线性问题,且估 计精度较高,但是面临着高维和静态的缺点。 本文做的实证就是沪深3 0 0 指数收益率的v a r 计算。在经过数字特征描 述后,基于尖峰厚尾的考虑,本文采用t 分布作为其平稳分布。 本文的结构安排如下: 第一章,全文的论述入口,即关于m c m c 的介绍。第一节讨论了m c m c 的发展历史,具体回顾了m c m c 几十年来的发展状况。第二节讨论了m c m c 的主要用途,包括三个方面,系统模拟,科学计算,优化与贝叶斯推算。第 基于m c m c 算法的股指v h r 计算 三节,具体阐述了m c m c 的主要思想。 第二章,关于v a r 的概念和计算方法介绍。第一节讨论了v a r 的概念, 第二节讨论了v a r 的一些计算方法以及比较。第三节讨论了v a r 应用的一些 争议。第四节讨论了v a r 计算的准确性检验。第五节介绍了关于v a r 计算的 文献发展状况 第三章,是沪深3 0 0 指数的实证分析。第一节讨论了沪深3 0 0 指数收益 率的基本特征,第二节用m c m c 计算其v a r ,第三节简要讨论了计算该指数 v a r 的意义 关键词:眦,v a r ,股指 a b s t r a c t t h et e c h n i q u eo f m a r k o vc h a i nm o n t ec a r l o ( m c m c ) f i r s ta l o s ei ns t a t i s t i c a l p h y s i c s ,m a r k e db y t h ec e l e b r a t e d1 9 5 3 p a p e ro fm e t r o p o l i s ,r o s e n b l u t h , r o s e n b l u t h , 1 e l l e ra n dt e l l e r t h eu n d e r l y i n gp r i n c i p l ei ss i m p l e :i fo n ew i s h e st o s a m p l er a n d o m l yf r o mas p e c i f i cp r o b a b i l i t yd i s t r i b u t i o nt h e nd e s i g nam a r k o v c h a i nw h o s el o n g - t i m ee q u i l i b r i u mi st h a td i s t r i b u t i o n ,w r i t eac o m p u t e rp r o g r a m t os i m u l a t et h em a r k o vc h a i n , r u ni tf o rat i m el o n ge n o u g ht ob ec o n f i d e n tt h a t a p p r o x i m a t ee q u i l i b r i u mh a sb e e na t t a i n e d ,t h e nr e c o r dt h es t a t eo ft h em a r k o v c h a i na sa na p p r o x i m a t ed r a wf r o me q u i l i b r i u m t h em e t r o p o l i se ta lp a p e ru s e da s y m m e t r i cm a r k o vc h a i n :l a t e rd e v e l o p m e n t si n c l u d e da na d a p t a t i o nt ot h ec a s e o f n o n - s y m m e t r i cm a r k o vc h a i n sd e s c r i b e db yh a s t i n g si n1 9 7 0 , t h et e c h n i q u eh a sd e v e l o p e ds t r o n g l yi nt h es t a t i s t i c a lp h y s i c sc o m m u n i t yb u t a l s oi ns e p a r a t ew a y sa n dw i t hr a t h e rd i f f e r e n te m p h a s e si nt h ec o m p u t e rs c i e n c e c o m m u n i t yc o n c e r n e dw i t ht h es t u d yo f r a n d o ma l g o r i t h m s ( w h e r et h ee m p h a s i si s o nw h e t h e rt h er e s u l t i n ga l g o r i t h ms c a l e sw e l lw i t hi n c r e a s i n gs i z eo f t h ep r o b l e m ) , i nt h es p a t i a ls t a t i s t i c sc o m m u n i t y ( w h e r eo n ei si n t e r e s t e , di nu n d e r s t a n d i n gw h a t k i n d so fp a t t e r n sa r i s ef r o mc o m p l e xs t o c h a s t i cm o d e l s ) ,a n da l s oi nt h ea p p l i e d s t a t i s t i c sc o m m u n i t y ( w h e r ei ti sa p p l i e dl a r g e l yi nb a y e s i a nc o n t e x t s ,e n a b l i n g r e s e a r c h e r st of o r m u l a t es t a t i s t i c a lm o d e l sw h i c h w o u l do t h e r w i s eb er e s i s t a n tt o e f f e c t i v es t a t i s t i c a la n a l y s e s ) w i t h i nt h es t a t i s t i c sc o m m u n i t y , l a n d m a r kp a p e r s i n c l u d et h ef a m o u sg e m a n g e m a n1 9 8 4p a p e ro ni m a g er e s t o r a t i o n , w o r kb y g e l f a n da n ds m i t hi n1 9 9 0s h o w i n gt h a tm c m cc a l lb ea p p l i e de f f e c t i v e l yt o b a y e s i a np r o b l e m s a n dg 舢t s ( 1 9 9 5 ) w o r k o nd i m e n s i o n - v a r y i n gp r o b l e m s o w n i n gt o8 0 m ea d v a n t a g e so fm c m c t h em a i ni d e ao ft h i sp a p e ri s a p p l y i n gm c m c t ot h ev a r sc o m p u t a t i o no fs t o c ki n d e x t h es t r u c t u r eo ft h i s p a p e ri sa sf o l l o w s : c h a p t e ro n ei n t r o d u c e sm c m c s e c t i o no n ei n t r o d u c e sm c m c sh i s t o r yo f 基于m c m c 算法的股指v a r 计算 d e v e l o p m e n t , i n c l u d i n gs t a t e m e n to fd e v e l o p m e n ti nr e c e n ty e a r s s e c t i o nt w o i n t r o d t w a 络t h em a i nu s a g co fm c m c ,i n c l u d i n gt h r e ea s p e c t s , i e s y s t e m s i m u l a t i o n , s c i e n t i f i cc o m p u t a t i o n , o p t i m i z a t i o na n db a y e s i a ni n f e r e n c e c h a p t e rt w oi n u v d u c et h ec o n c e p ta n dc o m p u t i n gm e t h o d so fv a r s e c t i o n o n ei n t r o d t l c a 络t h ec o n c e p to fv a i ls e c t i o nt w oi n t r o d u c e ss o m em e t h o d so f c o m p u t i n gv a ra n dt h e d i f f e r e n c ea m o n gt h e m s e c t i o nt h r e ei n t r o d u c e s c o n t r o v e r s i a lp o i n t sa b o u ta p p l y i n gv a r s e c t i o nf o u ri n t r o d u c e st h ed e v e l o p m e n t o f p a p e r sa b o u tc o m p u t i n gv a r c h a p t e rt h r e ei s t h ed e m o n s t r a t i o no fh u s h e n3 0 0i n d e x s e c t i o no n e i n t r o d u c e st h en m u e r i cc h a r a c t e ro ft h ei n d e x s e c t i o nt w o c o m p u t e st h ei n d e x s v a rw i t hm c m c s e c t i o nt h r e eb r i e f l yi n t r o d u c e st h em e a n i n g o f c o m p u t i n gt h e i n d e x 2 k e yw o r d s :m c m c ,v a r ,s t o c ki n d e x 西南财经大学 学位论文原创性及知识产权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。因本学位论文引起的法律结果完全由本人承担。 本学位论文成果归西南财经大学所有。 特此声明 学位申请人:乃萌 2 0 0 7 年1 1 月2 0e t 前言 前言 所谓v a r ( v a l u ea tr i s k ) ,按字面意思解释就是“在险价值”,它是指在 市场正常波动情形下,某一金融资产或者资产组合的最大可能损失,也就是 对金融资产或资产组合可能损失的一种统计测度。 具体说来,v a r 是指在一定的持有期及置信度内,某一资产组合所面临 的最大的潜在损失。用数学公式来表示 p r o b ( a p v a r ) = l - a 其中p r o b 为资产价值损失小于可能损失上限的概率;a p 为资产组合在 持有期血内的收益( 可能为负值,即当期的资产价值与某一预期价值之差) , v a r 为在置信水平l a 下处于风险价值( 一般为负值) ,即可能的损失上限: 口为给定的概率,即显著性水平或者置信度,i 一口为置信水平。 然而,v a r 实施中存在许多严重问题,这主要表现在v a r 的计算方面。 v a r 计算的关键在于确定证券组合价值变化的概率分布,而这个分布主要由 两个假定所决定:一是证券组合的价值函数与市场因子( 如利率等) 间呈线 性还是非线性关系;二是市场因子呈正态还是非正态分布。不同的假定,导 致不同的计算方法。目前常用的方法有历史模拟法、分析方法和蒙特卡洛模 拟法三种。 历史模拟法是直接根据市场因子的历史数据对证券组合的未来收益进行 模拟,在给定置信度下计算潜在损失。它不需要对市场因子的统计分布作出 假设,但历史模拟法必须保留市场因子过去某个时期所有的历史数据,而且 必须对证券组合中每一个金融工具进行估价,计算量大。分析方法是一种利 用证券组合的价值函数与市场因子间的近似关系、市场因子的统计分布( 方 差协方差距阵) 来简化计算的方法。分析模型可分为两大类d e l t a - 类和g a m m a - 类。在d e l t a - 类中,证券组合的价值函数均取一阶近似,但不同模型中市场因 基于m c m c 算法的股指v a r 计算 子的统计分布假定不同,如g a r b a d e ( 1 9 8 6 ) 的d e l t a - 正态模型中市场因子服 从多元正态分布:j p m o r g a n ( 1 9 9 4 ) 的d e l t a - 加权正态模型中,使用加权正 态模型( w t n ) 来估计市场因子回报的协方差矩阵;h s i e h ( 1 9 9 3 ) 的 d e l t a - g a r c h 模型中,使用了g a r c h 模型来描述市场因子。在g a n n , l a o 类模 型中,证券组合的价值函数均取二阶近似,其中w i l s o n ( 1 9 9 3 ) 的g i l n - l n a o 正态模型假定市场因子的变化服从多元正态分布,而f a l l o n ( 1 9 9 6 ) 的 g a m m a - g a r c h 模型使用多元g a r c h 模型来描述市场因予。分析方法简化 了v a r 的计算,但它要求市场因子必须服从正态分布、价值函数非线性程度 低,而现实中经常无法满足这两个假定。针对分析方法在处理非线性证券组 合时的缺陷,近年来蒙特卡洛模拟法成为学术界研究v a r 计算的主流方法 但蒙特卡洛模拟法存在两个重要缺陷,其一是计算效率低,近年来许多工作 集中在提高蒙特卡洛模拟法的计算效率方面;其二是维数高、静态性( 是指 数字特征是不变的) 的缺陷。传统的蒙特卡洛模拟法由于采用抽样方法产生 随机序列,均值和协方差矩阵不变,而经济问题中的变量都具有时变性,用 静态的方法处理时变变量时必然会产生一定的偏差;而且传统蒙特卡洛方法 难于从高维的概率分布函数中抽样。 针对上面出现的问题,有人提出了了一种基于马尔科夫链蒙特卡洛 ( m a r k o v c h a i n m o n t e c m - l o ,简称m c m c ) 的v a r 计算方法,以克服传统 m o n t e c a r l o 模拟的高维、静态的缺陷,提高估算精度。m c m c 的基本思路并 不复杂它通过将从联合密度函数( 后验分布) 抽样等价转化为从条件密度 抽样,降低了函数维数,实现复杂的后验分布积分m c m c 方法可以概括为 如下的三步骤: ( i ) 构造转移核:在空问缈上选择一个“合适”的马尔可夫链,使得它 的转移核为p ( - ,) a 设为石( 工) 某一分布,“合适”的含义主要是指石( j ) 应是其 相应的平稳分布。 ( 2 ) 产生样本:由空间中的某一点x 伸出发,用( 1 ) 中的马尔可夫 链来产生点序列x l i ,” ( 3 ) 蒙特卡罗积分:对某个肌和大的露,任一函数( x 1 的期望估计为: 2 前言 或厂。志m ,萎厂( o ) n 一二= 由上面可以看出,实现这这三个步骤主要需要解决三个问题,即转移核 的构造,收敛性的判断( 册值的确定) ,链的长度的确定( 弹的大小的确定) 。 另外还有估计误差的估算等问题。 比较常用的m c m c 算法有g i b b s 抽样,m e t r o p o l i s - - h a s t i n g s 方法,格子 g i b b s 抽样等等 另外也有人提出了在分析方法中以时变波动模型算法来计算市场因子的 方差协方差矩阵。这两种方法比较新,而且用的不多。本文在前人的基础上, 总结出基于m c m c 的v a r 计算方法,从本质上说是一种分析方法,只是对 市场因子的协方差矩阵的模拟有些不同。 而对于目前行将推出的股指期货,对其风险的测度与控制,也是一个热点。 很多人主要集中于对期货保证金的设置,期货合约的设计等等方面。本文从 总体风险的角度来进行实证,即是说,对股指期货的标的指数的v a r 进行测 度。股票指数的v a r 能够从数量上面说明一个股票市场的整体的风险,它可 以预测一个股票市场总市值在一定水平下的最大损失。股票指数的v a r 在以 金融指数为标的的金融衍生产品市场有重要的作用,主要表现为其对于测算 股指期货保证金的计算和在股指期货投资决策中的重要作用。对作为股指期 货标的指数的沪深3 0 0 指数的v a r 测度,方法在前面已经叙及。 至此,我的创新点有三: ( 1 ) 总结了m c m c 方法发展的历史轨迹和基本原理 ( 2 ) 对股指期货的标的指数沪深3 0 0 指数计算v a r 。 ( 3 ) 对v a r 的计算采取了m c m c 算法。 我的不足之处也有三点: ( 1 ) 没有结合更复杂的模型用m c m c 方法,比如s v ,g a r c h ,e - - g a r c h 等来进行比较全面的实证分析。 ( 2 ) 由于知识水平的有限,没有更深入的探讨m c m c 在统计方面的一些 应用。 ( 3 ) 没有结合事件的扰动来描述模型,这一块还有待深入。 基于m c m c 算法的股指v 曩r 计算 1 1m c 眦概述 1 m c m c 算法 m c m c 的发展与统计学的发展密不可分,尤其是进入2 0 世纪以来。在 2 0 世纪8 0 年代以前,理论统计学和应用统计学都得到了极大的发展,不过都 侧重在各种分布理论的发展,在实际应用中对数据偏差讨论的还不够深入。 8 0 年代的前期侧重于渐进理论的研究,高次渐进性理论运用高等数学公 式推导出了复杂的展开式,对高次渐进的有效性与充分性进行了探讨。以往 很多都是固定模型的次元,在样本容量极限的条件下研究其确定的变动,结 果失去了许多有用的信息。之后作为改进,在决定理论的结构中用有限的样 本进行更为严密的考察。但由于理论设计忽视了分布模型与数据的吻合,出 现了即使模型与实际的拟合受到影响也要一味追求模型近似的精确度等问 题,使得为此所进行的较严密的计算并没有多大的实际意义。由此可见,如 果数据的分布是在模型之外,单纯依靠数学性的推导是不能指望这种理论有 任何应用价值的。在这一方面理论统计学有它的局限性,数理统计学所具有 的本质弱点正在于此。8 0 年代后期统计学对计算机的利用引入瞩目,如数据 模拟( b o o t s t r a p ) ,回归变量的推定等非参数估计的方法应运而生。与此同期 可称为统计学一大成果的,还有通过运用在7 0 年代开发出来的标准信息量, 交差检验法,缩小法等,使得平滑化法的拟合有了很大的改进。 , 进入9 0 年代以来,由于计算机技术的高度发展和广泛应用,使得统计学 又进入了一个新的时代。其中,对”复杂性”研究较为瞩目。所谓复杂性,即 是指计算的高维数和高次方等。这对9 0 年代的一些技术性方法的研究起到了 理论先导的作用,特别是对马尔可夫链蒙特卡尔理论( m a r k o vc h i nm o n t e c 越l o :m c m c ) 的研究对建立可实际应用的统计模型开辟了广阔的前景。9 0 4 i m c m c 算法 年代以来,很多应用问题都存在着分析对象比较复杂与正确识别模型结构的 困难。现在根据m c m c 理论,通过使用专用统计软件进行m c m c 模拟,可 解决许多复杂性问题。此外,得益于m c m c 理论的运用,使得贝叶斯饵a y e s ) 统计得到了复兴,以往被认为不可能实施计算的统计方法变得是很轻而易举 了 在金融学和计量经济学领域,很多时候研究者是不知道会发生什么变化 的,最常见的是,在资产组合中大量资产的变动是彼此相关的,组合的风险 测量模型有时非常复杂,变动的结果并不总是明确的。仅仅使用已知的那些 历史数据,是很难对未来的结果进行预测的,并且有时候所得到的样本量很 少或者模型相当复杂时,更增加了困难。这个时候模拟方法就使得研究者们 可以在可控的条件下来进行研究。进行蒙特卡罗模拟,存在的一些问题是: 可能需要极高的计算能力,有时候会由于引入了不现实的假设等其它原因而 使得结果可能不精确,模拟的结果与使用的特定的模型有关等等。于是人们 开始探寻改进的方法,m c m c 也就开始出场了。 m a r k o vc h a i nm o n t ec a r l o ( m c m c ) ,即马尔可夫蒙特卡罗模拟,是一种 特殊的蒙特卡罗方法。该方法是一种计算技术,最早出现在统计物理学中, 以1 9 5 3 年m e t r o p o l i s ,r o s e n b l u t h ,r o s e n b l u t h ,t e l l e r 和t e l l e r 的著名论 文为标志,现在已经广泛应用到了物理,化学,生物,统计和计算机科学上。 当应用该方法从某个特定的概率分布中随机抽取样本时,就需要先设计一条 马尔可夫链( 该链的平稳分布是在高维状态空间中给定的概率分布,即需要 从中抽样的那个特定的分布) ,再写一段程序来模拟这条链,运行足够长的时 间以确保达到近似的均衡,然后记录下马尔可夫链的状态作为均衡状态的近 似。m e t r o p l i s 等人的论文中用了对称的马尔可夫链,而后又有发展,1 9 7 0 年 h a s t i n g s 对采用非对称马尔可夫链的方法做了相应的改动以适应实际的需要。 m c m c 在统计物理学领域发展相当强势,在其它领域则是各有重点的发 展。在计算机科学领域着重发展了随机算法的研究( 重点在依据算法所得出 的结果是否与所研究问题增长的规模相适应) ,在空间统计学领域人们比较感 兴趣的是从复杂的随机模型中派生出来的各种模式,在应用统计学领域 m c m c 则是广泛的应用在贝叶斯框架中( 使得人们可以明确表达各种统计模 型,否则会影响统计分析的有效性) 。统计领域中有关m c m c 的经典文献是 基于m c m c 算法的股指v a r 计算 h a s t i n g 在1 9 7 0 年发表的( m o n t ec a r l os a m p l i n gm e t h o d su s i n gm a r k o vc h a i n s a n dt h e i ra p p l i c a t i o n s ,另外比较影响比较重大的论文包括了g 黝一 g e m a n l 9 8 4 年的关于图像修复( i m a g er s t o r a t i o n ) 的论文,g e l f a n d 和s m i t h l 9 9 0 年的研究( 表明m c m c 可以有效的应用于贝叶斯问题) ,以及g r e e n l 9 9 5 年 关于变维问题的研究。 随着实际需要的目标问题变得日益复杂,新的问题出现了具体而言, 模拟开始时一般会经历一个比较散乱的过程,这个时期其分布不一定就是我 们所需要的那个平稳分布。为了保证达到均衡状态,马尔可夫链需要运行多 久? 为此人们做了大量的研究,包括收敛速度的精确上界,不同的马尔可夫 链中哪些收敛的更快或是更敏感,对收敛的诊断,甚至包括对基本算法的修 改,这些修改将用从( 本来相当有限的) 马尔可夫链的有序状态空间中的平稳 分布中精确抽样代替从中近似抽样,即所谓的完全抽样思想。在p r o p p 和 w i l s o n l 9 9 6 年的论文,以及f i l l l 9 9 8 年的论文中,这种思想取得了惊人的发 展,并且以两种不同的方式对其产生影响,正如在数学科学中所常见的, 简单的思想往往能够导致有趣的数学结论。其它近期的发展包括了加权 m c m c ( 有时并没有完全避免模拟,比如二叉树算法) 的使用和创新,以及 在统计学、物理学和基于遗传法则限制的仿生学中的应用。后来的工作由于 阐明了新近的发展与以前的工作之间的关系,拓展了数学背景方面的问题。 p r o p p - - w i l s o n 算法和f i l l 算法在实证方面的成果很惊人,这两个算法由此联 系起来,与先前的理论概念也很有联系。正在进行的工作就是拓展那些思想, 比如我们已经知道用p r o p p - - w i l s o n 算法来处理状态空间不一定有限的马尔 可夫链,甚至可能各链的状态有一定的不一致。基于数学理论发展起来的这 些算法已经得到了重要的应用。特别是p r o p p - w i l s o n 思想被建议在组合理论 和随机树方面进一步发展,在关于小集合的马尔可夫链现象中也有新的工作 展开 , 过去l o 年中在统计物理学领域发展的另一方面,便是扩展的整体方法 ( e s e m b l em e t h o d s ) ,始于b e r g 对多元规范方法( m u l t i c a n o n i c a lm e t h o d ) 中 所作的研究,之后便是模拟退火( 即寻找收敛点的过程) ,平行退火,蒙特卡 罗直方图,蒙特卡罗转换矩阵等等。这些方法从根本上扩展了模拟复杂系统 的能力,比如旋转玻璃体、蛋白质模型等等之类的很难抽样的系统。 m c m c 算法 1 2 主要用途 从本质上说,它的原理并没有复杂到不可理解的地步,概括的说就是要 从一定的概率分布中随机的抽取合适的样本,以此来完成许多的用途。这里 所谓的用途大致可以用三个方面的例子来说明。 第一个方面,即系统模拟,或者称为系统仿真。许多系统的状态被认为 是服从某些概率模型。比如在统计物理学中,当施以一定的微观约束,微观 态就会服从一定的g i b b s 模型。有时,在有效状态集上会有比较强的约束和 均匀的概率。这时,用m c m c 方法生产的合适的样本,就会揭示出在已知系 统前提下哪些状态是典型的,比如在特定条件下典型的蛋白质折痕。 第二个方面,即科学计算。在科学计算中间,常常需要在高维空间中间 计算积分。比如一个系统( 可观测到的) 的期望性质。通常这一工作用蒙特 卡罗积分来完成,也就是用样本均值来估计期望。另外一个有趣的问题是近 似计数,比如:在一个2 d 的n n 格子中,有多少条互不相交的路径? 如果 可以在一个单位正方形上面生成均匀的样本,那么我们也可以估计的值。 从计算机的角度看,蒙特卡罗积分用于学习和模型估计,也用在了运动轨迹 的跟踪等方面。 第三个方面,即优化问题和贝叶斯推断。其目的是计算全局最优和某些 贝叶斯后验概率。贝叶斯后验分布通常很难计算,因此人们仅有一些结论, 于是模拟后验概率分布将会产生一些似是而非的结论。而通常使用m c m c 方 法时就需要伴随一个模拟的“退火”的过程,即寻找收敛点。 m c m c 方法在统计物理学中得到广泛应用已有近五十年的历史,不过在 贝叶斯统计、显著性检验、极大似然估计等方面的应用则是近十年内的事情。 在金融计量领域,主要用到的是上述第三个方面的用途,就是将m c m c 用于 解决统计推断中的高维数值计算问题,比如复杂、高维的积分计算( 求后验 分布的均值、方差,分位数等统计量) 。尤其是当后验分布很复杂时,直接从 后验分布中抽样很难,用m c m c 就能很好的解决。因此m c m c 算法使得贝 叶斯方法中许多看起来困难的计算变得简单直观,一般有这样几个方面的应 用,一是约束参数模型,二是变点问题,三是截尾数据和分组数据。另外在 7 基于m c m c 算法的股指v a r 计算 多层先验模型,广义线性模型,时间序列,多个分布的混合等方面也有广泛 的应用。更进一步是在金融时间序列和保险精算方面的应用开始日益广泛 b u h l m a m ( 1 9 6 7 ) 将贝叶斯思想和方法引入到精算学的研究中,b u h l m a n n 和 $ t m l b ( 1 9 r 7 0 ) 为经验贝叶斯信用方法奠定了基础。为了充分利用历史数据 中的信息,提高未决赔款准备金估计的预测精度,s c o l l i n i k ( 2 0 0 1 ) 、i o a n n i s n t z o u f r a s ( 2 0 0 2 ) 等将现代贝叶斯理论和m a 垤c ( m a r k o vc h a i nm o n t ec a r l o ) 方法引入到未决赔款准备金的估计中。v c r r a l l ( 2 0 0 4 ) 将广义线性模型与贝 叶斯分析结合,对准备金进行估计” 1 3 主要思想 从上面的一些介绍可以看出,m c m c 方法其实就是一种特殊的蒙特卡罗 方法,只是将随机过程中的马尔可夫过程引入到了蒙特卡罗模拟中,从本质 上来说,使用的还是蒙特卡罗积分。另外,m c m c 方法弥补了传统的蒙特卡 罗积分只能静态模拟的缺陷,实现了动态模拟( 抽样分布随着模拟的进行而 改变) 贝叶斯统计中的两个很重要的概念是先验分布和后验分布。先验分布, 即总体分布参数比如口的一个概率分布。贝叶斯学派的根本观点,是认为在 关于总体分布参数0 的任何统计推断问题中,除了使用样本所提供的信息外, 还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他 们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。后 验分布,则是根据样本分布和未知参数的先验分布,用概率论中求条件概率 分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是 在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断 都只须根据后验分布,无须再涉及样本分布。 设为y 某一空间,l o , t = l 一2 m l 为该空间上的样本点,矗为样本个数, 厂( x ) 为石的某个函数。 蒙特卡罗积分通过抽样点 一“,f = l 2 ,j l 来估计e 【厂( x ) 1 ,估计公式为: l im c m c 算法 z 2 吉善厂( f o ) 当 “,t = l 2 , j ,j 独立时,由大数定理有e 【厂( x ) 1 z z 。由于很多模型 都很复杂,不能直接的抽取独立的 j 一。t = l 2 ,j l ,用m c m c 方法可以解决 不过,在贝叶斯统计框架下,模型中所有的参数( 包括模型的未知参数和缺 失数据) 都被视为随机变量,并且假定它们分别服从某个特定的先验分布。 而贝叶斯推断是基于参数的后验分布进行的,m c m c 过程中体现了这一点。 通过将从联合密度函数( 后验分布) 抽样等价转化为从条件密度抽样, 降低了函数维数,实现复杂的后验分布积分。说的比较具体一点,可以设石b ) , 其中z 妒,为后验分布,将要计算的后验量写成某个函数,o ) 关于盯( x ) 的 期望: b 厂= 工厂( 工) 石( 工) 出 对于比较简单的后验分布,可以直接计算或者利用正态近似等方法去计 算。但后验分布很复杂的时候,这些方法就不容易实施了。此时m c m c 就是 一种比较有效的方法了。而实现前面提到的等价转换的理论依据是“满条件 分布”。 因为m c m c 方法主要应用在多变量、非标准形式并且各个变量之间互相 不独立时分布的模拟,这个时候就需要条件分布。我们可以令工= “,) , 并且可以得出石( x ) = 兀石“i 屯) ,其中屯= _ ,j i 。如果式中的各个因子 ( ,) 可以直接模拟,那么就只需要静态模拟( 模拟过程中不用改变抽 样分布) 即可。但在实际中,很难做到直接模拟式中的各个因子,因此需要 动态模拟。如果使用的是m c m c 方法,则此时满条件分布起到重要的作用。 m c m c 方法大多是建立在形如石( 而l t ,) 的条件分布上,其中 j r r = 而,i r ,t r = 而,i 仨r ,t c = 1 ,n 。在这个条件分布中,所有的 变量都出现了( 出现在条件中白j ,或者是在变元中) ,这种条件分布就称为满 条件的( f l l l lc o n d i t o n a l s ) 。 9 基于m c m c 算法的股指v a r 计算 推导满条件分布时,不能忽略一个闻题,就是:对任意的工矿和任意的 t e n ,有 如i 。蒜唧 此处的符号一表示它两端可能存在一个与工无关的比例因子。可以看出, 在石( 工) 的乘积项中,只有与而有关的项需要保留。若毛,y ,g x _ ,= z ,则 有: 捌:型 万k l t ,) 石( j ) 复杂的后验分布的正则化常数往往无法计算,而m c m c 方法的一个显著 优点是:在应用m c m c 时,i r ( x ) 以及满条件分布可以相差一个比例常数。 比较一般的情况是,用y 表示观测数据,膏= ( 口,仍z ) ,其中口,尹,z 分别表 示参数,超参数和缺损数据,则上述万o ) 可写为石( j l 】,) ,即有: 石( 工i j ,) 一p ( y ,z 归) 厅( 口i 矿) 疗( 伊) 其中,p ( y ,z l o ) 表示完全数据的密度函数,石( 口p ) 表示先验分布,石( 矿) 为超参数的分布。则可以得到各个变量的满条件分布如下 j r ( q l 见,矿,z ,y ) o c p ( ) z i 口) 石( b l 晓,矿) 石( 纺l 口,纯,z ,y ) 。c 窟( 目l 矿) 筇( 妒) 石( 4l 口,仍互。,) ,) o cp ( j ,z l o ) 其中晓。= g ,f ,让,“定义类似。 将多变量、非标准形式且各变量之间相互不独立的联合分布函数转化为 满条件分布,其分布形式上已经大大简化了,这将方便于后面的抽样。 首先是马尔可夫链( m a r k o v 蛐) 。产生一个随机变量序列 x ,x ”,”, ,满足:在任一时刻f ( f o ) ,序列中下一时刻f + l 处的x 删 由条件分布 j i x 产生,它只依赖于时刻f 处的当前状态,而与时刻f 以前的 lm c m c 算法 状态 x “,x ”一j 卜 无关,于是这样的随机变量序列就称为马尔可夫链。 这时候的问题是,x 0 对有什么影响。或者说,在给定o 而没有 j “。“ 的信息情况下,x o 的分布情况是怎样的。将x 。给定下的条件 分布记为。( x m i x 。) ,则不同的x 。的取值对x m 的分布是否有显著影 响? 当不论初始值取什么,”的分布总是收敛到同一个分布时,这个分布 即是所谓的平稳分布。当t 充分大以后,x o 的分布已经与石0 无关,从马尔 可夫链产生的样本依分布收敛于分布函数为厅( 工) 的随机变量,即是相当于直 接从平稳分布疗( j ) 中抽取样本了。m c m c 方法,就是通过建立一个平稳分布 为石( 工) 的马尔可夫链来得到厅( j ) 的样本,并基于马尔可夫链达到平稳分布时 的样本( 有效样本) 来进行蒙特卡罗积分a 当 x ”,f = l ,m ) 是平稳分布为石( 工) 的马尔可夫过程的样本时,e 【厂( ) 】* z 也成立。 一般的,令 x “ 为空间妒上的马尔可夫链,其一步转移概率函数为: j t z o 。 p ( j ,) 垒p 卜 x ) = p ( = 工i x o = j ) ( 离散) 或者 尸o 寸b ) = 工p “,) 耐( 连续) 其中p ( v ) 称为该马尔可夫链的转移核,常假定p ( ,) 与f 无关,即该马尔 可夫链是时间齐次的,f 步转移概率函数为: p ( 舢,) 垒p ( 一) - ,p = j ) 记石的分布为( 工) = p ( x 0 = 工) ,则经过f 步后o 的边际分布记为: 以( 工) = p ( x “= 工) 如果石( 工) 满足 p ( 五,) 石( 工) 出= 孵( ,) ,v 一妒 则称石( 工) 为转移核的平稳分布。 基于m c m c 算法的股指v a r 计算 作为起始状态,钟最好具有分布,r ( 曲。于是由平稳分布的定义可以知 道,任一”的边际分布也是石( 工) 不过在应用时往往做不到这一点,朝从 石( j ) 中难以直接取样,因此要借助m c m c 方法。事实上,并不需要起始状 态的分布就是石( x 1 。从已有经验看,从不同的0 出发,链经过一段时问的 迭代之后,可以认为各个时刻的x “的边

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论