(应用数学专业论文)扩散过程的统计诊断.pdf_第1页
(应用数学专业论文)扩散过程的统计诊断.pdf_第2页
(应用数学专业论文)扩散过程的统计诊断.pdf_第3页
(应用数学专业论文)扩散过程的统计诊断.pdf_第4页
(应用数学专业论文)扩散过程的统计诊断.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文 扩散过程的统计诊断 摘要 扩散过程的统计推断问题是当今统计学研究的热点问题,在金融建模和计量经济学 中有着很广泛的应用,本文的重点在于参数扩散过程诊断方法的研究。对于 b l a c k s c h o l e s 模型,我们首先对模型离散化使其有一个回归形式,然后利用广义矩估计 方法对其进行参数估计,再根据离散化后的回归模型构造数据删除模型并给出了广义 c o o k 距离,广义矩距离等诊断统计量,通过模拟分析证明了诊断方法的有效性。对于 一般参数扩散过程,首先对模型离散化,然后利用极大似然估计的方法对其参数进行估 计并构造数据删除模型以得到诊断统计量,以o u 过程为例,我们得到了参数的极大 似然估计值,基于似然函数构造了广义c o o k 距离以及似然距离,然后类似一般参数回 归模型,构造了均值漂移模型并给出了影响点的s c o r e 检验统计量s c , ,接下来对离散 化的o u 过程构造了扰动模型并基于似然距离进行了局部影响分析,得到了影响矩阵 等统计量,同样通过模拟验证了方法的有效性。最后通过实例说明了本文方法在实际问 题中的应用。 关键词:扩散过程,广义矩估计,统计诊断,数据删除,广义c o o k 距离,似然距离, 局部影响 a b s t r a c t硕士论文 a b s t r a c t n o w a d a y s ,d i f f u s i o np r o c e s si sw i d e l yu s e di nf i n a n c em o d e l i n ga n de c o n o m e t r i c s ,a n d t h es t a t i s t i c a la n a l y s i sf o rd i f f u s i o np r o c e s sh a sb e c a m ea l li m p o r t a n tr e s e a r c hf i e l di n s t a t i s t i c s t h i sa r t i c l em a i n l ys t u d i e dt h es t a t i s t i c a ld i a g n o s i sm e t h o df o rp a r a m e t r i cd i f f u s i o n p r o c e s s f o rb l a c k - s c h o l e sm o d e l w ef i r s td i s c r e t i z e dt h em o d e ls ot h a ti tw a ss i m i l a rt o r e g r e s s i o nm o d e l ,a n dt h e nu s e dt h eg e n e r a l i z e dm e t h o do fm o m e n t se s t i m a t i o nt oe s t i m a t e t h ep a r a m e t e r s t h e nw ee s t a b l i s h e dt h ec a s ed e l e t i o nm o d e lt oo b t a i nt h eg e n e r a l i z e dc o o k d i s t a n c ea n dg e n e r a l i z e dm o m e n td i s t a n c e b ys i m u l a t i o n , w ev a l i d a t e do u rr e s u l t s f o r g e n e r a lp a r a m e t r i cd i f f u s i o np r o c e s s ,w ef i r s td i s c r e t i z e dt h em o d e la n dt h e nu s e dt h e m a x i m u ml i k e l i h o o de s t i m a t i o nm e t h o dt oe s t i m a t et h ep a r a m e t e r s t h e nw ed i s c u s s e dt h e s t a t i s t i c a ld i a g n o s i sm e t h o d a g a i l l ,w et o o ko - up r o c e s sf o re x a m p l et oc o n s t r u c tt h e g e n e r a l i z e dc o o kd i s t a n c ea n dt h el i k e l i h o o dd i s t a n c e ,a l s ow eo b t a i n e dt h em e a ns h i f tm o d e l a n dt h ei n f l u e n c e r ss c o r et e s t i n gs t a t i s t i c s s c , l i k et h ep a r a m e t r i cr e g r e s s i o n t h e nw e o b t a i n e dt h ep e r t u r b a t i o nm o d e la n dd i s c u s s e dt h el o c a li n f l u e n c ea n a l y s i sf o r0 - up r o c e s s b a s e do nl i k e l i h o o dd i s t a n c e ,s i m i l a r l y , w eu s e ds i m u l a t i o n st op r o v eo u rr e s u l t s f i n a l l y , w e c o n f i r m e dt h ea p p l i c a t i o no fo u rm e t h o db ye x a m p l e k e yw o r d :d i f f u s i o np r o c e s s ,g e n e r a l i z e dm e t h o do fm o m e n t se s t i m a t i o n , s t a t i s t i c a l d i a g n o s t i c s ,c a s ed e l e t i o n ,g e n e r a l i z e dc o o kd i s t a n c e ,l i k e l i h o o dd i s t a n c e ,l o c a li n f l u e n c e n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:凌皇:地 矿? 9 年6 月彬日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名: 蝉一 矿l 口年占月矽日 硕士论文扩散过程的统计诊断 1 绪论 随着时代的发展,统计学的理论被越来越多地应用于金融学中,各种参数及非参数 统计分析方法已成为现代金融建模的研究工具。在描述资产波动规律时,我们通常用一 扩散过程来表示。同时,该类模型还可以应用于期权、衍生证券定价、资产定价、利率 期限结构、动态消费和投资组合的选择、违约风险、随机波动、汇率动态等金融学核心 领域。然而,在用实际金融数据建模时,选择合适的模型,即模型类型的选取与模型参 数的估计问题是一类极其重要的问题。在已有的研究文献中,关于模型类型的选取一般 采用实证法,通过比较几种备选模型,选择其中与观察数据拟合程度最好的。 1 1 统计诊断的研究意义及发展现状 统计诊断是上世纪七十年代中期发展起来的一门统计学分支,它是数据分析的重要 组成部分,其主要任务是通过诊断统计量检测已知观测数据在用既定模型拟合时的合理 性,如果既定模型是回归模型,则相应的统计诊断也称为回归诊断。 具体来说,统计学研究的出发点是一个数据集d ,该数据集往往是根据在实际工作 中逐步积累起来的历史资料或围绕某一特定目标收集起来的数据经初步加工整理而成。 为了通过数据集d 研究实际问题,通常的做法是利用某一方便有效的统计模型m 来对 原始数据进行研究。但是,任何统计模型都只能是对客观复杂过程的一种近似描述,它 不可避免地要包含某些假定,甚至模型本身也就是一种假定。人们自然有理由要问:我 们选择的模型究竟能不能大体上反映所要研究的实际问题? 它是否与数据集中绝大多 数的数据相一致? 我们所得到的数据集中会不会有个别数据由于收集或整理过程中的 疏忽和失误或其它种种原因而出现较大的误差? 这些错误数据会不会严重干扰我们对 问题所做的结论? 另外,数据集中各个数据点对我们进行统计推断的影响是否大致相 仿,会不会有某些点的影响特别大? 在使用统计方法解决具体问题的过程中,人们必须 慎重地回答上述种种问题,才能作出更加符合客观实际的结论。这一点,在以往的统计 分析中常常被忽视,从而有可能得到与实际情况严重不符和的分析结果。 统计诊断就是针对上述种种问题而发展起来的一种分析方法。为了克服既定模型 ( p o s t u l a t e dm o d e l ) 与实际数据之间可能存在的不一致性,通常有两种途径可循:第一, 寻找一种统计方法,当模型有微小变动或扰动( p e r t u r b a t i o n ) 时统计推断的结果不受太 大的影响,亦即这种统计方法对模型的扰动具有某种稳健性,这就是所谓稳健统计。第 二,寻找一种诊断方法,判断实际数据是否与假定的模型是否有较大差异并采取相应的 解决方法,这就是统计诊断的主要内容。通过统计诊断,我们可以找出严重偏离既定模 型的数据点,即所谓异常点( o u t l i e r ) ;也可以区分出对于统计诊断影响特别大的点,即 所谓强影响点( i n f l u e n t i a lp o i n t ) ;还可以找出那些远离数据主体的点,即所谓高杠杆点 l 绪论 硕士论文 ( h i g hl e v e r a g ep o i n t ) 。此外,还可研究模型中若干具体因素对于统计推断的影响。对 数据进行这些初步诊断后,还需要尽可能研究“治疗 方案。如果实际数据中仅有个别 点与既定模型偏离较大,这时我们往往肯定模型,而对这些个别点再作进一步考察,甚 至可以直接删除这些点。如果实际数据中许多点都与既定模型偏离较大,则我们需要考 虑模型设定是否正确或者样本收集是否准确无误。在多数情况下,我们仍然希望保留原 来方便有效的既定模型。为此,我们可对数据集进行合适的数据变换,使得变换后的数 据相对更为符合既定模型,从而利用变换后的数据进行统计分析。如果数据变换后统计 分析的效果仍然不够理想,我们只能判定模型设定错误,需要寻找其他较为复杂但更加 有效的模型。 对于线性及非线性回归模型的统计诊断,c o o k ,r d a n dw e i s b e r g ,s ( 1 9 8 2 ) 川, c o o k ,r d ( 1 9 7 7 ) 1 2 ,韦博成、鲁国斌、史建清( 1 9 9 0 ) 【3 1 ,韦博成、林金官、解锋昌( 2 0 0 9 ) 闱 等做了系统研究并得到了一系列较为成熟的理论结果。对于一些较为复杂的模型,如广 义线性模型、指数族非线性模型等,m e c u l l a g ha n dn e l d e r ( 1 9 8 9 ) p j ,w e i ( 1 9 9 8 ) 旧j 作了详 细讨论。对于半参数回归模型,也有许多学者进行了研究,朱仲义( 1 9 9 9 ) 1 7 系统研究了 半参数非线性模型的统计分析,朱仲义、韦博成( 2 0 0 1 ) 降】系统研究了半参数非线性模型 的统计诊断及影响分析,k i m ,c ,e ta l ( 2 0 0 2 ) 唧讨论了半参数回归模型的统计诊断。对于 非参数回归模型也已经有了一些讨论,e u b a n k ( 1 9 8 4 ) t l o 基于非参数回归光滑样条估计给 出了帽子矩阵( h a tm a t r i x ) 等诊断统计量,随后e u b a n k ( 1 9 8 5 ) t 1 1 】又系统研究了基于非参数 回归光滑样条估计的统计诊断,k i m ,ca n dk i m ,w ( 1 9 9 8 ) t 1 2 j 基于核密度估计方法给出了 c o o k 距离等诊断统计量,k i m ,ce ta l ( 2 0 0 1 ) u3 】又给出了局部多项式回归的c o o k 距离。 经典统计诊断理论通常要求各数据点相互独立以及误差的方差齐性和独立性,然而实际 中特别是金融建模中所用到的数据往往不会满足这些条件,f o x ,a j ( 1 9 7 2 ) 1 4 1 发表了关 于平稳时间序列中异常点的识别和检验的第一篇论文,标志着统计诊断开始进入了时间 序列的领域。紧接着,a b r a h a m , b a n db o x ,qe p ( 1 9 7 9 ) 川,t i a o ,gc ( 1 9 8 5 ) uo j , a b r a h a m ,b a n dy a t a w a r s ,n ( 1 9 8 8 ) 1 刀,a b r a h a m ,b a n dc h u a n g ,a ( 1 9 8 9 ) t 1 8 1 ,b r u c e ,q a n dm a r t i n 。r d ( 1 9 8 9 ) 1 9 】等针对时间序列中最重要的模型_ a r m a 模型进行了异常 点诊断和影响分析的研究,吴监洪( 2 0 0 7 ) 【2 0 】系统研究了时间序列中回归模型的拟合优度 检验以及条件异方差模型的诊断检验。此外,对于误差项具有异方差性及相关性的回归 模型,也有一些研究。韦博:& ( 1 9 9 4 ) t 2 l 】研究了非线性回归模型相关性和异方差性的检验。 韦博成( 1 9 9 5 ) 【2 2 】讨论了加权非线性回归方差齐性的s c o r e 检验及局部影响分析,并且得 到了修正的s c o r e 检验统计量。林金官,韦博成( 2 0 0 2 ) 口3 】讨论了非线性随机效应模型的 异方差性检验。曹春正,林金官,朱1 哓欣( 2 0 0 8 ) 2 4 1 讨论了具有a r l m a ( o ,1 ,0 ) 对称误 差的非线性模型的异方差检验和局部影响分析,等等。但是有关金融模型的统计诊断问 题很少有研究,赵进文( 1 9 9 6 ) 【2 5 】把经典统计诊断理论引入经济计量建模中并初步建立了 2 硕士论文 扩散过程的统计诊断 “经济计量诊断学”这一新兴理论体系,但遗憾的是这篇论文仅仅起了抛砖引玉的作用, 并没有作深入研究。p h i l i ph a n sf r a n s e s y ,d i c kv a i ld i j k ,a n d r el u c a s ( 1 9 9 8 ) 2 6 研究了 ( g ) a r c h 模型异常点片的检验并给出了实证分析。然而,统计诊断作为一类可以有效 检测数据、模型选择及模型推断方法中存在的问题的统计学新方法并未被运用到金融模 型中去,关于扩散过程的统计诊断,至今未见文献研究。 1 2 扩散过程简介及研究现状 在金融工程中,关于期权的定价是一类重要的问题。对于期权的定价,b l a c k 和 s c h o l e s ( 1 9 7 3 ) 27 j 在连续模型基础上提出了b l a c k s c h o l e s 公式,该公式的提出基于股票 价格遵循几何布朗运动,即d x , = u x , d t + 仃五魍,其中五表示在f 时刻股票价格, e ,t 0 ) 是一个标准布朗运动,它们决定了股票收益率的动态。上述过程描述了基础资 产( 股票) 的价格运动规律,只有在基础资产运动规律给定的情况下才能根据期权的种 类进行期权的定价。 b l a c k s c h o l e 公式是在漂移系数及扩散系数为给定的常数时提出的,而在实际生活 股票价格运动规律通常更为复杂,对b l a c k - s c h o l e s 模型的一种简单的修正是假定漂移率 和波动率都是基础股票价格的函数:即j l l 五变“( 五) ,仃五变为仃( 置) ,于是股票价格满 足随机微分方程: d r , = j l l ( i v , ) d r + 仃( 五) 鸩, k 为股票初始价格已知,这样的模型被称为扩散过程,j l l ( z ) 称为漂移系数,仃( 五) 称 为扩散系数。扩散过程在期权、衍生证券定价、资产定价、利率期限结构、动态消费和 投资组合的选择、违约风险、随机波动、汇率动态等领域有着广泛的运用。 由于扩散过程是一个连续模型,而在实际中所观察到的金融数据往往是离散的,利 用离散的数据来估计模型中的漂移系数以及扩散系数是一类重要的问题。估计( ) 以及 仃( ) 的方法有两种。其一是参数方法,假设它们有参数形式( ,a ) ,仃( ,p ) ,p 是未知待 估参数。文献中大多数已有利率模型都假设漂移( ) 是利率水平的线性函数或者二次函 数,同时假设扩散仃( ) 具有形式仃izl ,其中y 表示在该利率水平下利率波动的敏感度。 在利率动态建模中,上述说明即得到了所谓的“水平影响 ,也就是说,利率水平越高, 它的波动就越大。根据已有文献,利率模型主要包括以下几种: b l a c k s c h o l e ( g b m ) ( 1 9 7 3 ) f 2 7 1 ,m e r t o n ( 1 9 7 3 ) e 2 s j ,v a s i c e k ( 1 9 7 7 ) 1 2 9 j ,c o x ,i n g e r s o l l ,a n dr o s s ( c i r ) ( 19 8 0 1 3 0 1 ,19 8 5 t 3 1 】) ,c h a n ,k a r o l y i ,l o n g s t a f f , a n t h o n y ( c k l s ) ( 19 9 2 ) t 3 2 1 等。这些模型 分别有以下的参数形式: 1 g b m d r , = u x , d t + 6 x t d b 。 2 m e r t o n a x , = u d l + g d b t 3 l 绪论硕士论文 3 v a s i c e k d = ( + v 置) d t + c r d b , 4 c i rs r a x , = ( p + v x t 、) d t + g x ? 。d b 。 5 。c i r v r d x t = o - x , 3 | 2 d b t 6 c k l s a x , = ( j l l + ,置) d t + c r x , 7 饵 其中j l l ,y ,巧,y 都是待估参数。关于上述模型的估计方法,已有很多文献进行了研究,c h a n e ta 1 ( 1 9 9 2 ) 3 2 1 利用广义矩估计( g m m ) 方法对上述几类模型参数进行了估计并利用实证数 据对几种模型的估计效果进行了比较。 以上模型都假定漂移线性以及扩散具有形式仃l 置f r ,很多实际数据并不一定满足 有上述形式的模型,于是我们可以定义更一般的参数扩散过程: 岔t = j l f ( 氍,o ) a t + 仃( 置,9 ) 码 其中0 o ,o 为p 维参数空间。由于模型是连续的但实际观察值是离散的,所以一般以 渐近估计来给出参数的估计值。d a c u n h a c a s t e l l ea n df l o r e n s z m i r o u ( 1 9 8 6 ) 1 3 3 1 对离散数 据利用极大似然估计给出了参数的估计值并证明了估计值的一致性和渐近有效性。 p r a k a s ar a o ( 1 9 9 9 ) 3 4 】考虑了扩散系数为l 的扩散过程的参数估计,同时证明了估计值的相 合性和渐近正态性。许之彦( 2 0 0 3 ) 3 5 】讨论了极大似然估计的误差界。似然函数还可以根 据过程的转移密度函数给出,p e d e r s e n ( 1 9 9 5 ) 1 3 6 1 基于欧拉近似给出了渐近转移密度函数 进而给出了参数的拟极大似然估计。a i t s a h a l i a ( 2 0 0 2 ) 3 7 】利用h e n l l i t e 多项式展开来逼近 转移密度函数并证明了渐近转移密度及其极大似然估计量的收敛性,同时通过模拟数据 说明t h e r m i t e 多项式阶数并不要求太高就可以达到极高的估计精度。陈萍( 2 0 0 5 ) 【3 8 】结合 非参数估计对c i r 模型参数进行了条件矩估计和渐近似然估计并通过模拟数据给出了这 两种估计方法结果的比较。 对参数扩散过程的进一步推广是假设漂移和扩散形式未知,需要通过估计来确定, 有如下表达式: 戤= p ( 置) d t + c r ( x , ) 鸩 其中j l f ( ) ,盯( ) 是形式未知函数。若漂移和扩散还和时间参数有关,则称为时变扩散过程, 有如下形式: a x , = ( 五,t ) m + 仃( 置,t ) d b t 关于此类模型的估计方法通常为非参数方法,近来也有一些学者进行了研究。 f l o r e n s ,d ( 1 9 9 3 ) 3 9 j 给出了扩散过程中扩散系数的核估计。t s a h a l i a ( 1 9 9 6 ) t 4 0 】运用 k o l o m o g o r o v 方程给出了一类非参数估计。s t a n t o n ( 1 9 9 7 ) 4 1 】也给出了一种非参数估计方 法并做了实证分析。h o f f m a n ( 2 0 0 1 ) | 4 2 1 将几类非参数估计方法和参数方法做了比较。许 之彦( 2 0 0 3 ) 给出了漂移系数和扩散系数的局部多项式估计。陈萍( 2 0 0 4 ) m 构造了扩散 4 硕士论文 扩散过程的统计诊断 系数函数形式的小波估计。 1 3 本文主要工作安排 本文主要分四章: 第一章主要介绍统计诊断的意义及发展现状,以及扩散过程的研究现状和现实意 义,以及一系列估计方法。 第二章主要应用g m m 方法对b s 模型的参数进行估计并提出了对其进行统计诊断 的方法,得到一些诊断统计量,并通过模拟分析证明了我们方法的有效性。 第三章首先介绍一般参数扩散过程的极大似然估计方法并给出了渐近近似似然函 数,基于此似然函数我们给出了诊断方法。其次我们以o u 过程为例研究了基于极大似 然估计的统计诊断方法并给出一系列诊断统计量。再次我们基于似然距离对o u 过程进 行了局部影响分析。同样我们也通过模拟数据分析证明了诊断方法的有效性。 第四章我们用了一个具体例子来说明问题,数据来源于2 0 0 8 年至2 0 0 9 年上海银行间 同业拆借利率( s h i b o r ) 隔夜数据,我们用两个模型分别拟合并做诊断,最后比较了拟合 的有效性。 5 2 基于g m m 方法的b s 模型的统计诊断 硕士论文 2 基于g m m 方法的b s 模型的统计诊断 2 1 广义矩估计( g m m ) 方法简介 广义矩估计( g e n e r a l i z e dm e t h o do fm o m e m se s t i i l l a t i o n ) 最早是由h a n s e n ( 1 9 8 2 ) 】提 出来的一种参数估计方法,它是基于实际数据满足一定矩条件而推广出的一类矩估计方 法。c o c h r a n e ( 2 0 0 1 ) 4 5 1 ,a r e l l a n o ( 2 0 0 3 ) t 矧,h a l l ( 2 0 0 5 ) 1 4 7 1 ,s i n g l e t o n ( 2 0 0 6 ) 4 8 】分别对此方 法作了研究。如今,g m m 方法已经被广泛运用到各种模型中,包括扩散过程,这是因 为:g m m 方法具有大样本性质并且可以很容易构造估计量误差的检验,而且它只要求 知道一些矩条件而并不需要知道随机变量的密度函数。但其不足是:只利用了矩信息而 忽略了其他信息,可能会造成估计量的信息缺失。 g m m 方法的主要思想如下: 假设“,= 1 ,2 ,n ) 为q 维平稳遍历过程,定义p 维实参数空间o ,0 o 为待估参 数,皖为参数实际值。 定义向量函数f :r 窜0 专尺7 ,p ,对所有0 o ,厂( ,0 ) 是b o r e l 可测函数,对所 有x r 。,f ( x ,) 是连续的。 在某一概率测度下,e l f ( x , ,口) 】存在,e f ( x t ,8 ) 】= o 当且仅当0 = o o 。 令踟( 9 ) = 专厂( 薯,9 ) ,则p 的g m m 估计否为: 1 t - - i 0 = a r g m i n 靠( 9 ) ( o ) g n ( o ) ( 2 1 1 ) 0 e 0 其中( 8 ) 为一正交对称权重矩阵,用于反映不同矩条件在估计中的重要程度。( 口) 的 选择是估计中的核心问题,当矩条件个数( 即向量函数维数) 等于参数维数时,此时的估 计是恰好估计o u s ti d e n t i f i e d ) ,无论权重矩阵如何选取( 2 1 1 ) 式总有解,否则则是过度估 计( o v e ri n d e n t i f i e d ) 问题,这时并不是每个矩条件都能满足,此时权重矩阵决定了矩条件 的重要程度。直观上,越少不确定性的矩条件给予越多的权重。h a n s e n ( 1 9 8 2 ) t 删给出了 当过程平稳时权重矩阵的选择。同时,由中心极限定理,g ( 岛) 有如下良好性质: 4 n g ( 吼) 与( 0 ,y )( 2 1 2 ) 其中与表示按分布收敛,v = 。l ,i mn e g j c ( o o ) g n ( 吼) 】。 2 2b s 模型的g m m 估计 6 硕士论文扩散过程的统计诊断 考虑模型: a x , = 五d t + 仃五鸩( 2 2 1 ) 其中j l l ,d 为待估参数,e 为标准布朗运动。 为便于用离散数据进行参数估计,我们把模型离散化,有如下形式: 五+ a 一五= 五+ 仃五( e + 一尽)( 2 2 2 ) 其中表示时间间隔,当_ 0 时( 2 2 2 ) 式即变为( 2 2 1 ) 式。 由标准布朗运动性质可知,e + 一e n ( 0 ,) ,即e + 一骂服从期望为o ,方差为的正 态分布。 对于观察值我们作如下假设: 1 观察值取值的时间区间是【o ,丁】,而表示初值,丁表示最后观察值的时间 2 观察值是等时间间隔取的,即若有n 个观察值,则,= i a ,汪o ,l ,疗且n a = t 。 设置的观察值为t ,f = 0 ,l ,玎,我们可以构造如下回归: 而+ l = ( 1 + 肚) 芬+ s m ,待0 ,1 ,珂 ( 2 2 3 ) 其中g n ( 0 ,薯2 仃2 ) ,即e ( 6 ) = 0 ,e ( z i + 1 2 ) = 薯2 仃2 a 。显见,g 满足独立性但不满足 方差齐性,事实上,误差项是条件异方差的。 c h a ne ta 1 ( 1 9 9 2 ) t 3 2 】给出t c k l s 模型的广义矩估计,由于该模型有四个参数,故文中也 给出了四个矩条件,而我们这里模型只有两个参数,如果用四个矩条件来估计,可能会 产生过度估计( o v e re s t i m a t e ) 的问题,故我们对矩条件作一个小改动,即取其中两个和待 估参数相关的矩条件。于是构造矩条件如下: 删屯:- - q 0 “ 1 :私j ( 2 2 4 ) l s “。葺 其中口= ( p ,仃2 ) r ,显然有e 。( 日) 】= 0 。用矩估计代替研厶。( 日) 】, 则有 饥一) _ 去缸,令 岛( 口) = i 1 委n - l 。p ) = 去静 去委n - i ( s 州2 私) 则9 的g m m 估计百为如下极小问题的解: 以= 岛( 日) 7 呢( p ) 岛( 8 ) 全r 黑 ( 2 2 5 ) l 岛2 ( p ) j 、7 ( 2 2 6 ) 7 2 基于g m m 方法的b s 模型的统计诊断硕士论文 其中呢( 日) 为一对称正定权重矩阵,可见以为一正定二次型。 要求占使( 2 2 6 ) 式达到最小,则有下式成立: 见( 占) ( 占) 岛( 占) = o 其中磁( 日) 为岛( p ) 的j a c o b i a n 行列式,也即: 联( 日) = 屯1 舡 电1 0 0 - 2 a g 2 础 豫: 0 0 2 r 寻势 _ io - 2 昌 i 毫8 小a i - - 1 善n 薯2 关于权重矩阵的选择,h a i l s e n ( 1 9 8 2 ) m 1 给出了如下形式: 最( p ) = 研f + 。( p ) 丘。( p ) 2 】 吃( 日) = 最叫( p ) 根据之前选择的矩条件,可求得: 枷哪) ,- f + 1 3 一i + i 2 l 6 , o e i + 1 :+ 1 4 + x 3 j 0 毫 + l 。一仃t g m 。+ 仃一2 乞“仃薯, 我们给出最( 日) 的近似计算如下: 最( 臼) = e z i q - ( 日) 矗t ( 日) 】吉委n - i 丘- ( 日) 彳+ - ( 日) , 昙芝t = 0s m 2丢荟n - ic s 川3 一乞卅仃2 薯2 , 去丢n - i ( 。嘎,班) 昙善n - i ( 钆4 班2 地m 2 2 ) 吉静s i + i 2 , 去萋( e 陋m 3 卜e 岛+ 。】o 2 x 2 a ) 去静钆,3 m 心+ 1 】o 2 x i 2 a ) 丢和s i + 1 4 】- t - o 4 x i 4 a 2 - 2 e 【e i + 1 2 p 2 2 a ) ( 2 2 7 ) ( 2 2 8 ) 可求得s m 的各阶矩如下: e s f + l 】= 0 ,e s ,+ 1 2 】= 仃2 2 ,e 【g j + 1 3 】= o ,e 【s m 4 】= 2 0 4 t 4 a 2 + 仃2 薯2 a 。 于是: 一r 0 蹰a :痢 i仃4 x i 42 + 仃2 鼍2 j 8 硕士论文扩散过程的统计诊断 其中冉言委? 1 - - 1 1 故可得: 形( 日) = 最一( a ) 薯z ,孑:三 刀 n - 1 f = ox ? o = d r 2 2 0 o d r 4 薯4 2 + 仃2 誓2 垒f ,p 2 ) 0 、i l 0 :( 仃2 ) j 以( p ) = 呢l ( 仃2g , , 1 2 ( j l l ,仃2 ) + 呢2 ( 盯2 ) 邑2 2 ( j l l ,仃2 ) 上述极小问题可用g a u s s - n e w t o n 迭代法求解。令: 其中 识( 口) 办( p ,仃2 )= ( 弘( p ) a j ( o ) 1 0 0 l 等氓砰( 们城。( 一味t , 0 2 ) 掣笋 o g 2 ( j l l ,仃2 ) 帆g n 2 2 ( j l l ,0 2 ) + 2 吼嘣p ,0 - 2 ) 学 = 每一p x j 4 a 牺,堂等筹铲 2 2 t 2 【( j l l 2 2 + 2 肚一仃2 + 2 ) 一( 2 + 2 必) i i f + l 】 a 4x ? + g 2 x ? n - 1 i = 0吖三 ,2 ”,m = 1 ,2 ,4 ,夏一。= i 1 丢n - i 砜。 ( 2 2 1 0 ) ( 2 2 1 1 ) 9 闽 1 一聆 i i 一矿 中其 2 基于g m m 方法的b s 模型的统计诊断 硕士论文 z ( p ,仃2 ) = e 其中 d 警h 啊,降卜姗,警 2 ,( 警卜枷,警 :2 形。( 仃z ) 西) :+ 墨睨:( 仃:) 仃:蕊s :垂+ 仃2 t 2 8 仃2 a 2 x j 4 n 1 = = = = 。= = = = 0 g 4x ? a + t r lx j d 鬻h 篱 班阳一删掣岷( a 2 ) g 。2 ( o o 1) 警啪2 ) 骅0 0 警i id “a i 峋棚肛蚴8 肛 警 = o ,故: d 警h 鬻 = 0 , d 学h 啪2 蚶啪略枷m 啊,( 警 2 蛔啪) 】_ 华= 瓦1 两棚盯】= 刀力。,i 仃一l 故d 訾 = 踹w 2 + 焉n 2 饿:c 西,2 则迭代有如下形式: 1 0 + 兰m 墨丝2 二垡m 丝。 0 4x ? a + t r 2x j 一矿l寸 警警 一劫塑驴塑脚 盟舡盟疗 一矿 警警 9 一 p 一-一妒塑脚 盟舡盟舻 j,jrff_一 赤华 圣y怒 三腑 硕士论文扩散过程的统计诊断 ( :,) = ( :,) + 歹一c 芦“) ,仃2 ( 。,蠢e 芦( f ) ,d 2 ( 1 , e 2 2 。,2 , 其中j l l n ,盯2 ) 表示第i 次迭代后参数估计的值。在实际计算中,取定合适初值时( 2 2 1 2 ) 式的收敛速度是相当快的。 2 3 基于数据删除模型的诊断方法 在上一节中,我们给出t a s 模型的g m m 估计方法以及近似计算方法,本节将讨论 数据删除模型( c d m ) 的参数估计计算方法。 为确定某一点是否为异常点,最直观的方法是删除该数据后再对参数做估计,然后 比较数据删除前后的参数估计值的差异。考虑( 2 2 3 ) 回归形式,该回归为一时间序列回 归模型,而时间序列的异常点和强影响点生成机理较为复杂。一般时间序列中异常点分 两种类型,耳p j j n 性异常点a o ( a d d i t i v eo u t l i e r s ) 和革新异常点i o ( i n n o v a t i o no u t l i e r s ) 。a o 是一种孤立异常点,即它们的出现并不波及到相邻的点,故此类异常点分析起来相对简 单,而i o 是一种成片出现的异常点,它的出现会波及到邻近的一批数据点,此类异常点 也称为成片异常点( p a t c h yo u t f i e r s ) ,跟a o 相比,l o 是更为内在本质的异常点,分析起来 也更为复杂。接下来我们给出的数据删除模型是基于模型异常点为a o 的假设条件下得 到的。假设五为异常点,考虑( 2 2 3 ) 回归形式的数据删除模型,应有如下形式: x ,“= ( 1 + j a 。) x ,+ e ,“,歹= o ,l ,i 一2 ,f + 1 ,t ( 2 3 1 ) 这是因为删除影响了两个方程薯+ l = ( 1 + 肚) 五十s 刚以及x j = ( 1 + 肚) 薯一1 + q 。 记删除了第f 个数据点后参数的g m m 估计为:反,) = ( j c 2 ( f ) ,子;) ) r 。接下来给出删除t 前后 参数估计值的比较。 由于谚n 是以下极小问题的解: 以( ,) = ( 。) ( 8 ) ( 9 ) 岛( “9 ) = 0 l ( 9 ) 9 2 。l ( f ) ( a ) + 形2 ( 8 ) 9 2 n 2 ( i ) ( 8 ) ( 2 3 2 ) 这里由于删除薯对权重矩阵呢( 日) 的影响是非常小的,故这里的权重矩阵还是取哌( 9 ) 。 其中: = 击即瓯) _ 意删一酱 岛。徊) 一三粤, 2 基于g m m 方法的b s 模型的统计诊断 硕士论文 锄= 击 私2 诤m 。2 w h 2 眠2 q ,】 一垫垃鲁鲢盟 令生孚:m ( j l l ) ,坐土坚直尘尝堑鱼三兰1 :m ( ,仃:) ,故 ,2 一z 刀一z 州胪一( 糍一 叫, 由于反d 为( 2 3 2 ) 式的极值点,于是也有以( f ) ( 反d ) = o ,把以( ) ( 成在占处一阶t a l y o r 展开 可得: 以( f ) ( 成。) 以( f ) ( 艿) + 坛“占) ( 反圹占) ( 2 3 4 ) 由以( f ) ( 反,) ) = o 可得: 反,一百= ( 耋兰 一( 耋:) = t 一圯,c p ,艿2 ,。1 以。c 丘,艿2 , c 2 3 5 , 通常,我们可用研一垢“p ,子2 ) 】代替一,) ( 丘,子2 ) ,e - 4 d ( 应,子2 ) 】- ,( 卢,子2 ) 。 即: 州= 倒寸u 亿3 固 _ ( 警,学 其中型安竿:2 呢。p :) 岛) ( 日) 垦訾卑+ 2 蜕:p :) 岛:( a ) 垦萼艘 d 、。du - 、。 o h :2 呢。( 仃z ) 酥臼) 一m ( j l l ) 】 掣一尝盟】 + 2 呢2 p 2 ) 晶2 ( p ) 一m ( j l l ,仃2 ) 】【垒譬盟一掣】 c 3 m , ( p ) :二! 兰= ! 苎! 垒,垒笠! 丝:! :2 :二三垒! 刍兰= ! 兰出苎2 a 玎一2 a “ 刀一2 1 2 硕士论文扩散过程的统计诊断 学城。p ) 学峨:徊) 警 + ( 仃2 ) 岛k 0 2 ( 9 ) + 乃乞( 仃2 ) 岛2 ( 0 2 ( p ) = 2 嘲呐阶帅鳓 警一号竽】 + p 2 ) 岛l 徊) 一m ( p ) 】2 + p 2 ) 【2 ( p ) 一,( j u ,d 2 ) 】2 型旦! 壁:! :2 :二垒! 兰= ! :墨:2 。 a 丁2刀一2 若令观察值的时间为 o ,1 】,则: 反。一百= ( 耋罴 一( 宝:) = 2 吲d :) 西) :+ 8 形:( 仃:) 仃:乳1 - 1 笼磐 lj d “ 船+ 器一两 - 1 学 ( 2 3 7 ) 以上计算给出了删除第f 个数据点前后模型的参数估计值的差异的近似值,可见, 如果实际数据与原模型拟合程度较好的话,则去掉一个数据点后参数的估计值不应有太 大改变。如果参数估计值差异较大,则说明第f 个数据点对参数的估计值有较大影响, 该数据点可能为异常点或强影响点。在实际建模过程中,如果值得怀疑的点并不多的话, 我们可以直接去掉这些点然后再对模型参数做估计以得到更符合实际的模型;如果值得 怀疑的点大批出现,那我们就应考虑模型是否误设或者是否可以通过数据变换来改善拟 合效果。 2 4 诊断统计量 接下来我们需要定义适合的广义距离用来度量第i 个数据点被删除前后参数估计量 之间的差异。 2 4 1 广义残差 类似一般回归模型,我们定义( 2 2 3 ) 式的广义残差: 毒+ l = 薯+ l - ( 1 - i - 丘) 薯 ( 2 4 1 ) 残差是回归分析中最为重要的一类统计量,它包含了较多模型信息,在一般的回归模型 中,残差反应了拟合优度,i 色i 越小说明第f 个点拟合越好。上述广义残差是扩散过程离 2 基于g m m 方法的b s 模型的统计诊断硕士论文 散化后得到的,它包含了扩散过程中扩散项的信息,可以看作s 的一组样本,如果第f 个数据点有问题,则相应地,“,毒可能会有较大波动。 2 4 2 广义c o o k 距离 为了量化占和成n 之间的差异,c o o k ( 1 9 7 7 ) 团基于参数置信域的观点提出t c o o k 距 离,我们把它推广到扩散过程的诊断中。 口( m ,c ) :w - 4 , ) y u w - 每) )( 2 4 2 )口( m ,c ) = ( 2 2 ) 就定义为广义c o o k 距离。关于于模型( 2 2 1 ) 的广义c o o k 距离,我们很自然地选取 m = 呒( 占) 为g m m 估计的权重矩阵,这是由于权重矩阵体现了各参数在估计中的重要程 度。而为消除a 的影响,我们取c 为a 。2 。于是有下式: 口= ( 0 一b ,) ) 1 2 呒( p ) 】( 日一g ,) ) 氓) 2 2 w n l ( 02 鳓n 厕4 1 学) 2 端+ 端一确,2 - 1 学 2 亿4 固 2 4 3 广义矩距离 类似一般回归模型的似然距离,我们给出基于g m m 估计方法的扩散过程的广义矩 距离。 定义对应于第i 个数据点的广义矩距离定义为: = - 2 以( o ) - 以( 色,) ) ) ( 2 4 5 ) m g j ( o ) 为全局最小值,故有以( 舀) 以( 成,) ) ,因此恒有鸥0 。其统计意义主要是 以( p ) 表示以( 日) 在参数空间e 上的最小值,叫表示第f 个数据点删除后这个值的改变 量,改变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论