(应用数学专业论文)二维ar(1)模型和具有ma(1)误差线性模型的统计诊断.pdf_第1页
(应用数学专业论文)二维ar(1)模型和具有ma(1)误差线性模型的统计诊断.pdf_第2页
(应用数学专业论文)二维ar(1)模型和具有ma(1)误差线性模型的统计诊断.pdf_第3页
(应用数学专业论文)二维ar(1)模型和具有ma(1)误差线性模型的统计诊断.pdf_第4页
(应用数学专业论文)二维ar(1)模型和具有ma(1)误差线性模型的统计诊断.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t t i m e s e r i e s a n a l y s i s u s e f u l i n m a n y p r o b l e m s e s p e c i a l l y f o r e c o n o m e t r i c a n d s o c i a l s c i e n c e a p p l i c a t i o n s , b e c o m e a n i m p o r t a n t r e s e a r c h f i e l d i n t h e p r o b a b i l i ty s t a t i s t i c a l . t h i s p a p e r p r e s e n t t h e t w o d i m e n s i o n a l a r ( 1 ) m o d e l s a n d l i n e a r r e g re s s i o n m o d e l s w it h ma ( 1 ) e r r o r s . t h e e s t i m a t i o n o f t w o d i me n s i o n a l a r ( 1 ) m o d e l s p a r a m e t e r s i s g i v e n a t fi r s t . t h e n ,w e g e t t h e c o n c i s e d i a g n o s t i c e x p r e s s i o n b a s e d o n c a s e d e l e t i o n m o d e l , e s t a b l i s h a n e q u i v a l e n c e b e t w e e n t h e c a s e m e a n s h i ft o u t l i e r m o d e l f o r m w h i c h w e d e r i v e t e s t s f o r o u t l i e r s . n u me r i c a l e x a m p l e s a r e g i v e n t o i l l u s t r a t e o u r r e s u l t s . we a l s o g i v e t h e e s t i m a t i o n o f p a r a m e t e r s i n l i n e a r re g r e s s i o n m o d e l s w i t h m a ( 1 ) e rr o r s . t h e n , w e g i v e t e s t s t a t i s t i c fr o m t h e t e s t f o r c o r r e l a t i o n a n d h e t e r o s c e d a s t i c i ty . a t l a s t w e i n t r o d u c e t h e s t a t i s t i c a l d i a g n o s t i c s b a s e d o n c a s e d e l e t e d m o d e l s . : a u to r e gr e s s i o n m o d e ls , m o v in gm o d e l s , d i a g n o s t i c s , c a s e d e l e t i o n , m e a n s h i ft , h e t e r o s c e d a s t i c i t y 声明 本学位论文是我在导师的指导下取得的研究成果, 尽我所知, 在 本学位论文中, 除了加以标注和致谢的部分外, 不包含其他人已经发 表或公布过的研究成果, 也不包含我为获得任何教育机构的学位或学 历而使用过的材料。 与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:0 4 闪 年) 月乙 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档, 可以借阅 或上网公布本学位论文的部分或全部内容, 可以向有关部门或机构送 交并授权其保存、 借阅或上网公布本学位论文的部分或全部内容。 对 于保密论文,按保密的有关规定和程序处理。 研究生签名: a - a 2k ,o 7 年7 h 乙 日 硕士论文二维a r ( 1 ) 模型和具有m a ( 1 ) 误差线性模型的 统计诊断 第一章绪论 1 . 1时间 序列分析的简介 时间序列分析是概率统计学中的一个比 较活跃的分支, 在金融经济、 信号处理、机械振动等众多领域有着广泛的应用。 近年来发展非常迅速 的内容也越来越丰富。 气象水文、 它所包括 时间序列是指被观测到的依时间次序排列的数据序列,其定义如下: 设r 是实数集合r = ( - -c o , oo ) 的子集, 通常称r 为 指标集。 如果对每个c 属于r , 都 有 一 个随 机 变量戈与 之 对 应, 就 称 随 机变 量的 集 合 x , 卜毛 x , : r e r ( 1 . 1 ) 是一个随机过程。当r 是全体整数或全体非负整数时, 称相应的随机过程为随机序 列。把随机序列的指标集r 看成时间指标时,这个随机序列就是时间序列。 研究这 种数据的统计方法就是时间序列分析。 时间序列分析不仅可以从数量上揭示某一现象的发展变化规律或从动态的角 度刻画某一现象与其他现象之间的内 在数量关系及变化规律性, 达到认识客观世界 之目 的, 而且运用时 序模型还可以 预测和控制现象的 未来行为, 修正或重新设计系 统以达到利用和改造客观之目的。 在实际生活生产中我们会遇到许许多多时间序列, 因此时间序列分析的应用背 景是广泛的,如预报分析、 控制分析、诊断分析、频谱分析等多个方面,其中预报 分 析 是时间 序列 应用 最 广的 方面, 安 鸿志 ( 1 9 8 6 , 1 ) 文中 详细 地 介绍了 预 报分 析与 频 谱分析。 1 . 2统计诊断 顾名思义, 统计诊断就是对从实际问题中收集起来的数据和提炼出 来的模型以 及由 此出发所作的推断方法的合理性进行深入细致的分析, 并通过一些诊断统计量 来检查数据、模型及推断方法中可能存在的“ 毛病” ,进而提出 “ 治疗” 方案,也就是 说对统计方法解决问 题的 全过程进行诊断。 统计学研究的出 发点是一个数 据集d , 该数据集往往是根据在实际 工作中 逐步 积累起来的历史资料或围绕某一特定目 标收集起来的数据经初步加工整理而成。 为 了 通过数据集d研究实际问 题, 通常的做法是把它纳入某一方便有效的统计模型lu l 硕十论文二 维a r ( 1 ) 模型和具有m a ( 1 ) 误差线件模型的统计诊断 进行研究。 但是, 任何统计模型都只能是对客观复杂过程的一种近似描述, 它不可 避免 地 要 包 含 某 些 假定 , 甚 至 模 型 本 身 也 就 是一 种 假定。 人 们自 然 有理由 要 问 : 我 们选择的 模型究竟能不能大体上反映所要研究的实际问 题?它是否与 数据集中绝 大多数的数据相一致?我们所得到的数据集中会不会有个别数据由于收集或整理 过程中的疏忽和失误或其它种种原因而出 现较大的误差?这些错误数据会不会严 重 干扰我们 对问 题所做的结 论?另 外, 数据集中 各个数据点 对我们进行统计推断的 影响是否大致相仿, 会不会有某些点的影响特别大?在使用统计方法解决具体问 题 的过程中, 人们必须慎重地回答上述种种问 题, 才能做出更加符合客观实际的结论。 这一点, 在以 往的统计分析中常常被忽视, 从而有可能得到与实际情况严重不符合 的分析结果. 统计诊断就是针对上述种种问 题而发展起来的一种分析方法。 在统计分析中, 有些数据点对模型参数的估计及统计推断有很强的影响,同时 它们代表了 数据中某种异常特征, 这类数据点的识别和研究称之为影响分析。由于 影响分析在统计建模、 数据的异常结构的识别等方面能提供大量有用的信息,因而 其研究日 益受到理论研究工作者和实际应用者的普遍关注。目 前国内外对影响分析 的研究主要采用数据删除法、 稳健刻度法和局部影响分析等方法。数据删除法是一 个普遍采用的影响分析方法, 它通过一次删除一组或多组数据来考查其对模型参数 估计或拟和的影响,实践证明 这是一个最为实用的诊断方法, 现己被众多理论研究 者和实际应用者所重视。 除了 考虑数据点的影响外, 我们还可以 研究当模型的某一个或几个因素有微小 扰动时对统计推断的影响,这称为广义的影响分析。当然,为了评价微小扰动对统 计推断的影响,我们可以 类似于数据删除 法考虑诸如c o o k 距离,w - k统计量等影 响诊断统计量。 对于 线性回归 模型的 统 计 诊断, c o o k a n d w e i s b e r g ( 1 9 8 2 , 2 ) , 韦博 成等 ( 1 9 9 1 , 3 ) 己 经 作了 全 面 综 合的 讨 论, 对 于 其 它模 型的 统 计诊 断 也 得 到 较 大 发 展, m c c u ll a g h a n d n e ld e r ( 1 9 8 9 ,4 ) 研究了 广 义 线 性 模 型 的 统 计 诊断 , 马 阳 明 ( 1 9 9 6 , 5 ) 研 究了 广 义 非线性 模型的 影响分析, w e i( 1 9 9 8 , 6 ) 对指 数族半 参数 非线性模型进行了 研究, b a n e r e e a n d f r e e s ( 1 9 9 7 , 7 j ) 对 线 性 纵向 数 据 做了 统 计 诊断 , w i n g - k a n ( 2 0 0 2 , 8 ) 研 究 了 半参数混 合 模型的 影响 分析 和异常点 检 验, 林 金宝等 ( 2 0 0 4 , 3 9 ) 研究了 非 线 性 纵 向数据模型中的自 相关性和随机效应的存在性的检验。 1 3时序模型的 研究现状 与线性回归 诊断 相比, 时间 序列的 统计诊断要复杂得多, 尤其是对非平稳 序列则 更为困 难。 在线性回归 模型中, 各数据点 之间是 相互独立的, 但在时间 序列 模型中 各 硕士论文二 维a r ( 1 ) 模型和具有m a ( 1 ) 误差线性模型的 统计诊断 个数 据点 之间存在 着一定的 相关结 构, 这种相关结 构使得异常点和强影响 点产生的 机 理以 及相应的分析方 法复 杂化。 由 于这种复 杂化, 尽管线性回归诊断有了很 大的发展, 但 在时间 序列方面的 研究 还是不 够丰富, 结果也不 构成熟。 1 9 7 2 年, a . j .f o x发 表了 关于平 稳时 间序列异常点 的识别和检验的 第一篇论文 ( 1 9 7 2 , 9 1 ) , 标志着统计诊 断开始 进入时 间序列分析的 领域。 这之后, 在时间 序列分 析中 研究异常点的问 题重要性逐 步为 人们所认识, 围 绕着一类特殊的也 是最重要的 线形序列 一 -a r m a序列的异常点 和影响分析, 陆续出 现 一些研究工作, 如a b r a h a m a n d b o x ( 1 9 7 9 , 1 0 ) 提出了 用b a y e s 方法研究时间 序列中 的异常点问题, a b r a h a m a n d y a t a w a r a ( 1 9 8 8 , 川) 给出t时间 序列中 异常点的s c o re检验, a b r a h a m等( 1 9 8 9 , 1 2 ) 给出了时间序列中异常点检验和时序模型,j o n e s ( 1 9 8 0 , 1 3 ) , h a r r e y a n d p i e r s e ( 1 9 8 4 , 1 4 1 ) 等 给出了 对缺失 数据求得a r m a 模型参数的最大似 然估计的方法, 关 于时间序列的理 论与方法可参 见文献 巧 、 1 1 等. 近年来对时间 序列模型的 研究有了 很大的发 展, 不仅在线性时 序模型中有了 很 大的 进展,在非线 性时序模型和 用 m c m c方法 研究时序模型也同 样进步很大。 如 p e n i e r ( 1 9 9 7 , 1 6 ) 研究了 在缺失数 据时 a r m a模型的 似然估计, c h e n ( 1 9 9 7 , 1 7 1 ) 提出 了 在双线性时间 序列中找a o异常点的问 题, v a n d ij k ( 1 9 9 9 , 1 8 ) 研究了 检验a r c h 模型中 异常点, f r a n c e s c o b a t t a g l ia a n d l i a o r f e i ( 2 0 0 5 , 1 9 1 ) 研究了 在非 线性时间 序列 中的 异常点的 检验和估计。随 着 m a r k o v c h i a n m o n t e c a r l o ( m c m c ) 方法的发 展, b a y e s i a n 分析用于时间 序列模型中, 如b a r n e tt a n d s h e a t h e r ( 1 9 9 6 , 2 0 用m c m c 方 法研究了自 回归模型的 b a y e s i a n估计,r i c h a r d g e r la c h等( 1 9 9 9 , 2 1 ) 研究了用 mc mc方法对时间序列模型进行统计诊断。 1 . 4具有m a ( 1 ) 误差的线性 模型研究现状 在统计研究中, 多数统计方法对所研究的总体的分布类型或其它性质都作了相 关的假设。 例如, 在经典统计学方 法中,多 元线性回归分 析是建立在最小二乘 法的 基础之上, 其中要 求个体的随机 误差是相互独 立同 分布的随机变量, 均服从零 数学 期望并且方差 相同 的正态分 布。 然 而, 实际 应用领域中的 观测数据往往呈 现出 一定 的异常性,随机误差独立性假设不太合适。 t s a i ( 1 9 8 6 , 2 2 ) 给出了 线性模型中 关于误差项的 异方差 性及一阶自 相关性检验 的s c o r e 检 验函 数, g a l l a n t ( 1 9 8 7 ) 系统地介绍了具 有a r ( q ) 误差序列的非线 性回 归模 型, 韦博成等 ( 1 9 9 4 , 2 3 1 ) 研究了非 线性回 归模型相关 性和 和异方差性的 检验, 不仅 给出了 误差 项是m a ( 1 ) 序列的似 然比 检验统计 量和s c o r e 检验统计量, 还给出了 修 正 的似然比 检验统计量和 修正的s c o r e 检验 统计量, 刘应安等 ( 2 0 0 4 , 2 4 ) 研究了 具有 硕士论文_ 维a r( ” 模型和具 有m a ( 1 ) 误 差线性模型的 统计诊断 a r ( 1 ) 误差的 线 性随 机效应模 型中 方差齐 性 和自 相 关 性的 检 验。 1 . 5 本文主要工作 本文 主要 讨论二维a r ( 1 ) 模型,重点在于 研究二 维a r ( 1 ) 模型和具有m a ( 1 ) 误 差项的线性模型在统计诊断方面的初步研究。 第 二章首 先 给出 多 维 平稳时间 序列 的 定义 及 基 本 性质, 由 一维a r (p ) 模型 给出 了 二维a r ( 1 ) 模型的定义, 给出了 模型参数的 最小二乘估计和最大似然估计。然后 介绍常见的诊断模型,基于数据删除模型得到参数估计的诊断公式,并证明了数据 删除模型与均值漂移模型的等价性。 给出了识别模型异常点的诊断统计量, 得到了 w统计量、似然比 检验统计量、 广义的c o o k 距离等诊断量的计算公式。 通过数据 模拟分析,验证诊断方法的有效性,并给出诊断图。 第三章主要 讨论了 具有m a ( 1 ) 误差项的线性模型,首先 给出了 模型的定义及参 数估计, 然后对模型误差项进行相关性和和异方差性的 检验, 给出了 检验的似然比 统计量和s c o r e 统计量。最后做了简单的统计诊断,给出了数据删除模型的参数估 计及残差等。通过实例分析,验证诊断方法的有效性。 硕士论文 二维a r ( 1 )模型和具有 ma ( 1 )误差线性模型的统计诊断 第二章二维a r ( 1 ) 模型的 统计诊断 2 . 1 引言 自 回归 模型( a u t o g r e g r e s s i o n m o d e l s ) 简记为a r 模型, 是时间序列中 一类重要的有 限参数模型。 最早起源于1 9 2 7 年,由 数学家耶尔 ( y u l e ) 提出 用来预测 市场变化规律, 接着在1 9 3 1 年,另 一位数学家瓦尔格( w a l k e r ) 在a r 模型的启 示下, 建立了 滑动平 均 ( m a ) 模型和自 回归 滑动 平均( a r m a ) 混合模型, 初步奠定了时间 序列 分析方 法的 基 础, 当 时主要应用于 经济分析和市 场预测领域。 下面 我们将介绍三类常见的 平稳线性 参数模型: ( 1 )设 戈 满 足 p 阶 平 稳自 回 归 9 阶 可 逆 滑 动 平 均 模 型 ( a u to re g r e s s io n m o v in g a v e r a g e ), 简 记 为 a r m a 印 川模 型, 即戈为 零 均 值 平 稳时 间 序 列 , 适 合 线 性 随 机 差 分 方 程 o ( b ) x , = b ( b ) s , ( 2 . 1 . 1 ) 其中 o ( b ) - 1 一 o ,b 一 02 b 2 一o p b 0 , 9 ( b ) s 1 一 9 ,b 一 0 2 b 2 一 9 b 0 b 为 后 移 算 子 , 即矿戈= 戈 一矿e , = e , , k = 0 ,l , 2 ,. 仁 为 正 态 白 噪 声 序列 , 即 e , 独 立 同 分 布 , 服 从n ( o ,a 2 ) , 且 假 定 o ( b ) ,b ( b ) 满 足 如 下条件: ( 1 ) o ( b ) 与e ( b ) 无公 因子; ( i i ) o ( b ) 的 根全在单 位圆 外, 通常称为平稳 性条件: ( i l l ) 6 ( b ) 的 根全在单位圆 外,通常 称为 可逆性条 件。 (2 ) 当4 = o 时 , (2 .1 . 1 ) 式即 为p 阶 平 稳自 回 归 模 型 ( a u to r e g r e s s io n ) , 简 记 为a r ( p )模 型: 0 ( b ) x , = s , ( 2 . 1 .2 ) ( 3 ) 当p = o 时 , ( 2 .1 .1 ) 式 即 为4 阶 可 逆 滑 动 平均 模 型 (m o v in g a v e r a g e ) , 简 记 为m a ( q ) 模型: 戈 = b ( b ) e , ( 2 . 1 . 3 ) 硕 生 一 论 文 三维a r ( i )模型和具有ma ( 1 )误差线性模型的统计诊断 在具体场 合, 常常需要 将( 2 . 1 . 1 ) 式 表达成如下两 种形式: 传递 形式: xt= 少 ( b ) 乓 ( 2 . 1 .4 )x , = 4 l ( b ) e , 其中 y r ( b ) = 0 - ( b ) b ( b ) = 1 + yr ,b + 姚 b z + 逆转形式: ) r ( b ) 戈= e , 其中 ; r( b ) = 9 - ( b )o (b ) = - rr,b - ;c, b - . . . ( 2 .1 .5 ) a r m a ( p ,q ) 模型是时间 序列中一 个重要的 模型, 由 于一个 a r m a ( p , q ) 模型 通常可 以 用 一 个 a r ( p + q ) 模 型 来 很 好 地 近 似 ( 见 2 5 1 ) , 而 对 a r ( p ) 模 型 , 无 论 是 参 数 估 计 或 异 常 点 检 验, 都比 对 a r m a 帆 动 模 型 处 理 起 来 方 便 。 下 面 我 们 将 主 要 研 究 a r (p ) 模 型 的 统计诊断。 1 9 7 2 年,a .j . f o x 发表了关于平稳时间序列异常点的识别和检验的第一篇论文 ( 1 9 7 2 , 9 ) , 标志 着统 计诊断开 始进入时间 序列分 析的 领域。 近年来时间 序列 分析在统 计 诊断方 面也有了 新的 发展, 陈敏等 ( 1 9 9 8 , 2 6 ) 给出了 时间序列中 条件异方差性的检 验,李娅等( 2 0 0 2 , 2 7 1 ) 研究了时间序列自 相关函数的局部影响分析,卫贵武等 ( 2 0 0 3 ,2 8 1 )研究 了 多 维 a r ( p )模 型 的 估 计 理 论 及 应 用 , 对 多 维 a r (p ) 模型 的 统 计 诊 断 还 没有研究。本章将 对二维 a r ( 1 ) 模型的统 计诊断 进行初步的 研究。 2 . 1 . 1 模型的定义及参 数估计 在实际问 题中, 一 个时间 序列 往往和另一 个时间序列 有关, 比 如, 在气象观 测中, 往往有多种气 象要素被同时记 录下来, 于是记 录资料 便是一组多维数据数列. 多维时 间序列本身比 每个分量的时间 序列 含有更多的 信息, 可见 对多 维时间 序列的研究比 对 一个时间序列的 研究得到更 好的结果。 二维 a r ( 1 ) 模 型是多维 a r ( p ) 模型的特 例, 安 鸿 志 ( 1 9 9 2 , 1 ) 和 何 书 元 (2 0 0 3 , 1 3 ) 介 绍 t 关 于 多 维 a r (p ) 模 型 的 定 义、 参 数 估 计 、 谱 分 析及统计分析等. 下 面我们来介绍多 维a r ( p ) 模型的 定义: 定 义1 .1 设 e , 是 m 维 的 w n ( q , b ) , a i ,a z , .,凡是 m x m 阶 实 矩 阵 , 使 得 硕士论文 二维ar (1)模型和具有 ma ( 1 )误差线性模型的统计诊断 d et( 一 t a ,z ) * o ,iz l j 时 有艺 + , = w (b )e , *, + w ,a , , y ,+ z = +v ( b ) e , + i + w a, 可 见, 自 i 以 后 的 各 数 据 点 都 有 不 同 程 度的 漂 移 ( 与 系 数w , 有 关 ) . 注 意 到 ( 2 . 1 .4 ) 式 中 对 系 数w , 的 限 制 条 件 : iv , 受 控 于 一 个负 指 数函 数, 可 知 w , 以 不 低于 负 指 数 速 度 趋于 零 。 因 此 我 们 可以 期 望 : y , 受 到 的 漂 移 z 即 使 较 大, 但 波 及 到 后 继 第 k 点 后 , 其 漂 移的 强 度己 大 为 减 弱 , 即 y , a , z 0( 当 k 较大 时) . 于 是 我 们 可以 认 为 在 1 0 模 型 (2 .1 . 1 5 ) 式 下 将 观 察 到 连 续 叶连 成 片 的 异 常 点 y y ,+ 二 , y ,、 一: 。 基于以 上分析 可以 清楚地看到, a o 模型( 2 . 1 . 1 3 ) 式和1 0 模 型( 2 . 1 . 1 5 ) 式 确实 成功地 刻画两 类异常点的 主要特征, 且大致符合两 类异常点 产生的 机理。 此两模 型是 刻画时 间序列中异常点的主要模型。 2 . 2诊断模型 本节在第一节 研究二维的a r ( 1 ) 模的 最小二乘估计的 基础上, 研究 模型的 统计 诊断。首 先建立常见的诊断 模型, 数据删除模型( c d m ) 、 均值漂移模型(m o m ) , 推导出c d m的参数估计公式,并证明c d m 和ms o m 的等价性。 2 . 2 . 1 数据删除模型 建立诊断 模型是对数 据和模型进行诊断的首要步骤, 为了 研究 数据和模型的 符合 情况, 一个重要的方法是考虑每个点对 参数估计的 影响。 现考虑模型( 2 . 1 . 1 2 ) 式, 今 给 定 x , 的 一 组 观 察 值, y v y, 则 由 (2 .1 .1 2 ) 式 有以 下 (n - 1) 个 方 程: y z = a a 十 - it i y i = y i a + e 3 , y . = y . ,a 十 s . . 其 中 y i = (y ,a y z,) t 为 两 个 变 量的 第 i 次 观察 值 ,e ,8均 为 二 维正 态白 噪 声 序 列, 硕士论文一 维a r ( 1 ) 模型和具有m a ( 1 ) 误 差 线性模型的 统计诊断 g = ( e l # 2 , ) t , i = l , . . . , n 。 写成矩阵的形式: y=x a+e ( 2 . 2 . 1 ) 其中 a -0 ( a , a , ) 、1.esj 可可叮 了了lesesesesles.eseses、 - 。 e(n - 1)=2 、,lesesweesesesesesesesesj产 j,对 /rlesleseseseseseses、 一一 (- x 1).2 赚. 、,lweeeweeseseseseseseses,2 对对: y n 了了.、 - y-lw 由m 维a r 切模型的 估计理论知,自 回归参数a 的最小二乘估计为 a = ( x t x ) 一 ,x t y ( 2 .2 .2 ) y的拟合值为 =xa= x ( x t x ) 一 , x t y 0- p y ( 2 . 2 . 3 ) 残差矩阵为 e = ( i 一 p ) y -0 q y ( 2 .2 .4 ) 其 中 , p = x ( x t x ) - ) x t , q = 1 - p 。 对于 ( 2 .2 . 1 ) 式应用多元线性回归 模型理论( 见 2 9 1 ) 一 共y t q y 则有协差阵b的无偏估计为 ( 2 . 2 . 5 ) 记 w 气 。 一 2 ) b 一 y t q y a 了 e 。 关于a 及b的似然函数为 ( 2 . 2 . 6 ) ,(, , ) 一 (2 ;r)一一 jb i 一 ,)2 p 5 - 1 t l, 一 (: 一 二 ) (: 一 。 ; i l i ( 2 .2 . 7 ) 现在考 虑 模型 ( 2 .2 . 1 ) 式中 删除 第i 个数 据点, 我们 可以 看出 相当 于 从( 2 .2 . 1 ) 式中 ( n - 1 ) 个方程删去两个方程: (y tl t 一 y t ,a + e,tt . t 乃+l=另 a十气 1 下 面 我 们 将 讨 论 从 ( 2 .2 . 1 ) 式中 删 去 一 个 方 程, 即 删 去 元, = 可 a 十 减 , 的 情 况 加 以 分析,此时得到一个新的模型: y ( i ) = x( i ) a + e ( i ) ( 2 .2 . 8 ) 硕士论文二维a r ( 1 ) 模型 和具有m a ( 1 ) 误差线性模型的统计诊断 此时 (2 .2 .8 ) 式的 最小 二 乘 估计为a ( i) w( i ) = e ( i ) e ( q。 ,反 11 , 相 应的 残差矩阵 为e ( i) , 记 为 了 研 究 数 据 点 y 对 估 计 量 又 , w的影响,最直接的方法就是比较a, w和 a ( ,) , w ( i) 之 间 的 差 异 。 对 于 它 们 之 间 的 差 异 , 定理2 . 1在模型( 2 .2 . 1 ) 式和模型( 2 .2 . 8 ) 式下, 我们有下面的定理: 有 a ( i ) =。( x r x ) 一 , 所r y , e ,+ i 了月 - 一 1 一 a ( 2 . 2 . 1 0 ) 甲( 0= w一 几. . r e , + t er + t 1 一 几 ( 2 . 2 . 1 1 ) 其中孔= y : 一 y ,t a 证明:由 ( 2 .2 .2 ) 式知 a ( i) = l x t ( i ) x ( i) 一 , x t ( i ) y ( i ) , 由于 xr x y , 可= x t ( i) x ( i) + y ,可 问艺间 一一 y , 心 = x t (i) y ( i) + y ,y , 1 洞艺川 一一 xt y 又根据 ( x r x 一 叮x , ) 一 , = ( x t x ) 一 , + ( x t x ) 一 , 耳( i 一 x , ( x t x ) 一 , 叮) 一 , x , ( x t x ) 一 ,( 2 . 2 . 9 ) 因而 且几 i x r ( i ) x ( i ) r l = i x x 一 y ,y t 1 - , = ( x t x ) 一 , + ( x t x ) 一 , y , i l 一 y t ( x t x ) 一 , y , r y ,( x t x ) 一 , = x r (x t x ) 一 ,x, 把以上各式带入, a ( 0=a 则有 . ( x t x ) 一 , y ,厂 a 宁 一 一 ( x t x ) 一 y 式 , - ( x t x ) 一 , y ,y t ( x t x ) 一 , y y * . 1 一 p1 一 几 硕十论文 二 维a r ( 1 ) 模型和具有m a ( 1 )误 差线性模型的统计诊断 = a = a ( x t x ) 一 ,y , (v : , 一 y , a ) 1 一 几 , (x t x )一 ,y ,儿 1 一 p 从而可证( 2 .2 . 1 0 ) 式成立。 由 3 中 ( 8 . 1 . 1 4 ) 式可得 八 t w( i ) = e( i ) e ( i ) = te i 一 d , (1 一 p ,)一 ,d ,t e 八 t入 =e e 八at # i # , . i 1 一 p ( 其中d , 如 ( 2 .2 . 1 2 ) 式中 所定 义) 定理证毕。 定理给出了 模型( 2 .2 . 1 ) 式删除第i 个方程 模型前后的a 和w的 估计量之间的关系, 这是我们以后对模型诊断的 基础。 可见, 如果数据与模型( 2 .2 . 1 ) 式拟合得较好,则 删 去一个数据点后,a 和w的估计量不会有太大的改变。如果有较大的差异,则说明 该数据点对a 和w的估计量有较大的影响;如果差异很大,则该点就值得怀疑,有 可能这个数据点在数据集中具有特别重要的作用,或者有其它原因。 2 . 2 .2均值漂移模型 数据删除模型是建立诊断统计量的最基本模型, 由于它非常直观且计算简便, 因 而广泛用于实际问 题。 另 一种常见的 统计诊断 模型是均值漂移模型( m s o m ) , 对于模 型 ( 2 . 2 . 1 ) 的检验单个异常点的均值漂移模型为 y = x a 十 d ,丫十 e ( 2 .2 . 1 2 ) 其 中 , = ( 1 1 , i f为 二 维 的 扰 动 向 量, 试 为 ( n - 1 ) 维向 量 , 其中 第 i个 分 量 为 1 , 其 它 均 为0 . 判断 第 i 个 数 据点( y r , 可 ) 是 否为 异 常 点 等 价 于 如 下 的 假 设 检 验: h o : ?i = 0 + + h , : i7 # 0( 2 . 2 . 1 3 ) 记 模 型 (2 .2 .1 2 ) 式 下 相 应 的 最 小 二 乘 估 计 量 为 a 矛 , 残 差 矩 阵 为 e a , 并 记 矛 。 = e 二 l. 对于普通的线性回归 模型, 其数据删除与均值漂移模型具有等价性,即两个模 型 相 应的 参数 估计 相等。 下 面我 们可以 证明 , 对于二 维a r ( 1 ) 模型 也具有该 性 质。 定理2 .2 均值漂 移 模型 ( 2 .2 . 1 2 ) 式 和数 据 删除 模型 ( 2 .2 .8 ) 式有相同 的 估计量 和统 硕士论文二维a r ( 1 )模型和具有 ma ( 1 )误差线性模型的统计诊断 计量,即 a ( i ) =a a ,牙二 = w( i ) , 且 a 一 a ( i ) = ( x t x ) 一 ,y , n , n = 户 牛. 1 一 尸“ 证明:均值漂移模型( 2 . 2 . 1 2 ) 式可以认为是带 有附加变量的 线性模型的 特例 ( 见 7 1 ) ,由 于r =w t q y w t q w, 此时y 二 n ,甲= 试,因 此 廿惫 业l-a n = d t q y d ,t q d , 同 理 由 瓦= 户 一 ( x t x )- ix t w y , r s s . = y t q y - ( w t q 1 ) z ( w t q w ) 1= 2 一 ( x t x )一 , x t d , , s . 1 i 一a s 一 a 一 ( x t x ) 一 ,y o 龚 牛 = a ( i) 1 一 p 显 然 有 a 一 a ( l) = ( x t x )- y ,n , 而 矛 。 = y t q y - y t q d ,d ,t q y 1 一 几 =w 一 凡凡r s,. i s ,. , 1 一 几 = w (i ) 定理证毕。 定理2 . 2 证明了 在二 维的 情况下, 二维 a r ( 1 ) 模型的 数据删除模型和均值 漂移 模型虽然表面 形式 不一样, 但有关参数的 统计性质 是完全相同 的. 对于模 型( 2 .2 . 1 2 ) 式 , 若 。 显 著 异 于 零 , 则 说 明 该 数 据 点 可 能 为 异 常 点 。 由 又 一 a (i ) = ( x t x ) - y ,亏 , 可 见 若 亏 = 0 , 则 a = 瓜 i) ; 若 亏 的 值 越 大 则 二 一 灰 i ) 越 大 , 反 之 亦 然 . 通 过 分 析 我 们 可 以 看出从数 据删除 模型或均 值漂移模型出 发研究数 据点 是否为异常点, 二者的 效果 是一样的。 硕 士 论 文 二维ar ( 1 )模型和具有 ma ( 1 )误差线性模型的统计诊断 2 .3诊断 统计量 2 . 3 . 1 w 统计量 由于时间序列模型中的异常点分为a o 和1 0, 为了区别被删除的第i 个数据点的类 型,我们考虑以下统计量: 城( ,) . . t八 君 + 1 右 , + 1 1 一 p ( 2 .2 . 1 4 ) 对 于w (r) 有 如 下 分 解 定 理 : 定理 2 . 3 在模型 ( 2 . 2 . 1 ) 式 和模型( 2 . 2 . 8 ) 式下 有: w o ) - w 10 ) + w 2u ) ( 2 . 2 . 1 5 ) 其 中 , w 1(,, 一 若 几 。若 十 w 12 (,) - 八 t八 e,+ 1 p e , + 1 1 一 p ( 2 .2 . 1 6 ) 证明:由 ( 2 . 2 . 1 4 ) 式易 知 峨( ,) e , + 1 e , + 1 1 一 p -t 几 = e,+ 1 e , + 1 十 -t几 e , + 1 p e , + 1 1 一 p ,1 = w 1 1 ( l ) + w 1 2 ( i) 定理证毕。 由 (2 .2 . 1 5 ) 式 和 ( 2 .2 .1 6 ) 式 知 , 氏 。 ) 仅 依 赖 于 云 + : , 而 峨 。 ) 和 w 2 (,, 则 依 赖 于 云 + 1 和 p 。 若 另 为 a o , 则 奋 ; 和 云 十 , 均 受 影 响 , 从 而 巩 1( ,, 和 巩 1(,十 .) , 峨 (l , 和 城 (, + l) , 与 其 余 的 巩 i(t) r 巩 (,) (t * 1 , 1 + 1) 相比 将 较 大。 而 对 于 w 2(t, 来 说 , 此时 w 12 q , 和巩 2 (t+ i) 均 受 到 影响 , 但 通 常 不 2(, +1 较 大 。 若 y , 为 10 , 此 时 仅 云 +l 受 到 影 响 , 故 砚 c.) 和 w , ,(,, 与 其 它 数 据 点 的 取 值 相比 都 将 较 大 , 由 于 y r . . ,y 均 受 影 响 , 则 砚 2(t, 不 好 比 较。 通 过 上 面 的 分 析 我 们 可 以 看 出 w ( , 不 u tr w ,2 (, , 在 a o 和 1 0 两 类 异常 点 模型 下 所 表 现的 性质是不同的 ,从而可以 用来区别异 常点的 类型。 现通过 对模拟的 a o 模型和1 0 模型进行分析。 例 2 .1 a o 模 型 : y ,t = 戈+ ( 5 ,5 ) t 4 .。 x , = x ,_ ,a 十 e t 。二、 。_* 、 _二、. _ 二一_ .。 , _ .、 _ _ _ 二_ _( 0 .2 0 . 5 县 i 铸 j 足一维止念k i ox户if9 0 t 羽值 为 u, 协万差为 i, 模拟时假足 a=1_ 戈u u .7 1 6 硕士论文 二维a r ( 1 )模型和具有ma ( 1 )误差线性模型的统计诊断 通过随机模拟生成1 0 0 个数据,生成的图如下: 2 5 20 1 5 匕1弓 + 1 0 + + 十十 十十 门尸 十 + + # + rf + 8一印 的一一50 80一娜80 丛50 + + 0 + 庄 上 2 0匆4 0 + 耳件 必捧升琳 立 6 0 7 0 ( a ) 5 4 . 5 + 4 3 . 5 3 525 2t 匕华考 0 . 5 九 0 01 0印3 0 4 0 l ,t r k 一 印6 0 7 0 间 1 7 硕 士论 文 二维a r ( i )模型和具有 ma ( 1 )误差线性模型的统计诊断 其中 (a ) 图 为 w (1) 关 于 t 的 点 图 , 可 见 w (6 0, 和w i(61) 均 较大 , 尤 其 是斌 , , 更 为 突出 。 ( b ) 图 为巩 2(r) 关 于 t 的 点 图 , 此 时 城 2 (60 , 较 小 , 斌 2(6 1) 较 大 。 这 是 二 维 a r ( 1 ) 模 型 在 “0 时 刻 存 在 a o 异常点时 统计量城 , 砚 2 的典型 特征。 1 0 模型: 可= y ; ,a + 可+ ( 4 .5 , 4 .5 ) t 戊 .60 、一、 。_ 、 _一二. _ 一_ ,._ ,_ 二 、 、 ._ ._, . _ , _r 0 .2 0 . 5 )( 其中 e , 是二 维正态白 噪声序 列, 均值为。 , 协方差为i , 模拟时 假定a =” 。 气 0 0 .7 ) 通过随机模拟生成1 0 0 个数据,生成的图如下: 其中 (a ) 图 为 w (,) 关 于 t 的 点 图 , 此时 w 1(60 ) 较 大。 伪 ) 图 为w 12(t) 关于 t 的 点 图 , 此 时w 2 (60 ) 也较大。 这是 二维 a r ( 1 ) 模型包含 在t - 6 0 时 刻的 1 0 异常点的 特征。 60印 它尸弓 申 卜申,二+十1 十、引。 工 十一二i - t- _ s t ill-, . . , - $ , - n , . . , : -吮 1 、1 才 冬竺一 绍 注三裂 卜|卜卜广| 2010 叫琳 粼 公 牵 中 由 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0 ( a ) 硕士论文二维 a r ( 1 )模型和具有 ma ( 1 )误差线性模型的统计诊断 + 32 众0. 匕刊尸亏 + + + + 凡 4 0 5 0 + + + + + 土.上+ t,卜 书十 1 0 2 0 3 06 0 7 0 8 0 9 0 1 0 0 2 3 . 2 似然比统计量 为了建 立识别 异常点的 统计量, 由 上节 讨论, 我 们可以 从均值 漂移模型出发, 由 假设检验问 题( 2 . 2 . 1 3 ) 式来推导其 似然比 统计量。 模型( 2 2 . 1 2 ) 式的 似然函 数为: 1(a ,r1,b ) 一 (2 n )-(-() ib i 一 “ 2 ex p 5 - 1 tr 。二 】(y 一 。 - d 21)r (; 一 。 一 d ,21)ll l1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论