已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 统计诊断具有强烈的应用背景、新颖的统计思想、广泛的研究内容和丰富的 实际成果。“诊断”的基本思想是构造一个统计量,然后观察数据集中各个数据 点对所构造的统计量的影响。c o o k w e i s b e r g ( 1 9 8 3 ) 提出了利用s c o r e 检验统 计量诊断模型中的异方差,另外,利用这一统计量,t s a i ( 1 9 8 6 ) 讨论了具有一阶 自相关模型的异方差和相关性的检验。但是这些研究都是基于方差齐性的条件 下,本文在异方差的条件下系统地对线性回归模型进行统计诊断的研究,并通过 实例分析说明了方法的可行性和实用性。 文中首先建立了具有异方差的数据删除模型和均值漂移模型并对二者进行 统计诊断,得出了在异方差的条件下二者的等价性理论。其次建立了具有a r ( 1 ) 误差结构的均值漂移模型并对该模型进行统计诊断,证明了该模型与具有a r ( 1 ) 误差的数据删除模型之间不具有等价性。 文章最后通过模拟计算来说明统计诊断量的有效性。 综上所述,本文比较深入系统地对具有异方差和a r ( 1 ) 误差结构的线性回 归模型进行了异常点的检验。对上述各种检验,本文得到了一系列s c o r e 检验统 计量,大量的数值实例和随机模拟结果表明,这些检验统计量是很有效的。 关键词:异方差;a r ( 1 ) 误差;s c o r e 检验统计量;均值漂移模型;数据删除 模型;扰动。 a b s t r a c t s t a t i s t i c a ld i a g n o s t i c si sp r o v i d e dw i t hs t r o n ga p p l i c a t i o nb a c k g r o u n d 、o r i g i n a l s t a t i s t i c a li d e a 、b r o a dr e s e a r c hf i e l da n da b u n d a n tp r a c t i c a lp r o d u c t i o n t h eb a s i ci d e a o fd i a g n o s t i ci st h ec o n s t i t u t i o no fas t a t i s t i ea n dt h e n l o o ki n t ot h ee f f e c to nt h e s t a t i s t i ci m p o s e db ye v e r yd a t a c o o k & w e i s b e r g ( 1 9 8 3 ) p r o p o s e du s i n gs c o r e s t a t i s t i ct od i a g n o s et h eh e t e r o s c e d a s t i c i t yi nt h em o d e l b e s i d e s ,t s a i ( 1 9 8 6 ) s t u d i e d t h et e s t sf o rh e t e r o s c e d a s t i c i t ya n dc o r r e l a t i o ni nm o d e l sw i t ha r ( i ) g r r o r $ b u tt h e r e s e a r c ha b o v ei sb a s e do nt h eh o m o g e n e i t yo fv a r i a n c e t h i st h e s i s s t u d i e s t h e d i a g n o s t i c sf o rl i n e a rr e g r e s s i o nm o d e l sw i t hh e t e r o s c e d a s t i c i t y an u m e r i c a le x a m p l e i sg i v e nt oi l l u s t r a t eo u rr e s u l t s f i r s t l y , t h i st h e s i ss t u d i e st h em e a ns h i f to u t l i e rm o d e l ( m s o m ) a n dt h eg a s d e l e t i o nm o d e l ( c d m ) w i t hh e t e r o s c e d a s t i c i t ya n dt h e np r o v e st h ee s t i m a t e so ft h e t w om o d e l sa r ee q u a l s e c o n d l y , t h i st h e s i si n v e s t i g a t e st h em s o mw i t ha r ( 1 ) e r r o r s a n dt h e nc o m p a r e st h em s o mw i t ha r ( 1 ) e r r o r sw i t ht h ec d mw i t ha r ( i ) c r t o i s f i n a l l y , i no r d e rt oi l l u s t r a t et h eu s ev a l i d i t yo ft h e s em o d e l s w eu s er a n d o m s t i m u l a t i o nt od i s p l a yt h eu s cv a l i d i t yo f t h e s em e t h o d s i ns u m m a r y , w eh a v et h o r o u g h l ya n ds y s t e m a t i c a l l ys t u d i e dt h et e s tf o rl i n e a r r e g r e s s i o nm o d e l sw i t hh e t e r o s c e d a s t i c i t ya n da r ( i ) e r r o r s as e r i e so fn e wt e s t s t a t i s t i c sa l eo b t a i n e d ,a n di l l u s t r a t i v ee x a m p l e sa n dm o n t ec a r l os i m u l a t i o n ss h o w t h a tt h et e s tt e c h n i q u e sa l ev e r yw e l l k e yw o r d s :h e t e r o s c e d a s t i c i t y ;a r ( 1 ) e r r o r s ;s c o r et e s ts t a t i s t i c a l ;m e a n - s h i f to u t l i e r m o d e l ;e a s ed e l c t i o nm o d e l ;d i s t u r b a n c e 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) :查j 垂功船年月谚日 学位论文使用授权说明 河海大学、中国科学技术信息研究所( 含万方数据库) 、国家 图书馆、中国学术期刊( 光盘舨) 电子杂志社有权保留本人所送交学 位论文的复印件或电子文档,可以采用影印、缩印或其他复制手段保 存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期 内的保密论文外,允许论文被查阅和借阅。论文全部或部分内容的公 布( 包括刊登) 授权河海大学研究生院办理。 论文作者( 签名) :凌i 釜硼g 年月修日 第一章绪论 第一章绪论 统计诊断是近二十年来统计学迅速发展起来的新分支,它具有强烈的应用背 景、新颖的统计思想、广泛的研究内容和丰富的实际成果,在广大的统计工作者 面前展现出一个理论与应用结合的崭新领域。统计学的出发点是一个数据集,该 数据集往往是根据在实际工作中逐步积累起来的历史资料或围绕某一特定目标 收集起来的数据,经初步加工整理而成。为了通过数据集研究实际问题,通常的 方法是把它纳入某些方便有效的统计模型进行研究。但是,所有的统计模型都只 是对客观过程的一种近似描述,它不可避免地包含某些假设,甚至模型本身也是 一种假定。人们自然而然地要问:我们所选择的模型能不能大体上反映所要研究 的实际问题? 它能否与数据集中大多数的数据相一致? 我们所得到的数据集中 会不会有个别由于收集或整理过程中的疏忽和失误或其它种种原因而出现较大 的误差? 这就需要对该数据集进行某种“诊断”。“诊断”的基本思想是构造一个 统计量,然后观察数据集中各个数据点对所构造的统计量的影响是否大体相仿, 是否有某些点的影响特别大。其中,关于异方差的诊断是研究的一个热点。目前 有好几种方法问世,但没有一种是权威的方法。常见的诊断方法有异方差诊断图。 然而,从图上主观判断有其随意性“1 。 统计诊断是对从实际问题中收集起来的数据和提炼出来的模型以及由此出 发所作的推断方法的合理性进行深入细致的分析,并通过一些诊断统计量来检查 数据、模型及推断方法中可能存在的“毛病”,进而提出“治疗”的方案。多年 来的理论研究和应用实践,使人们对统计诊断的必要性有了肯定而明确的认识 jj 1 1回归诊断的实际背景 所有统计模型的应用都要求数据满足某种条件。而其中许多条件在统计教科 书或文献中仅仅是为了数学上或叙述上的方便而作的假定。任何实际数据在分析 之前,都很难说可以对其作任何假定。在对数据的背景还没有弄清楚的时候就匆 忙进行回归计算或任何统计计算,都是非常盲目的,要冒风险的。一个模型只反 映了应用者对数据背景的认识程度,因而也仅仅是一个近似。当拥有更多的数据 河海大学硕士学位论文 之后,人们对数据可能有较多的了解:这时,就会对模型作出改进,以适应对数 据背景的新的认识。这种对数据和模型进行识别的过程,就是统计诊断的过程”3 。 回归诊断就是针对回归模型中的种种假设条件是否合理、是否符合实际而发 展起来的一种分析方法。通过统计回归诊断,可以找出严重偏离既定模型的数据 点,即所谓的异常点;也可以区分出对于统计推断影响特别大的点,即所谓的强 影响点;还可以找出那些远离数据主体的点,即所谓的高杠杆点。如果实际数据 中仅有个别点与既定模型偏离较大,这时我们往往肯定模型,而对这些个别点再 作进一步的考察。如果实际数据中许多点都与既定模型偏差比较大,这时我们仍 然希望保留方便有效的既定模型。为此,可以对数据集进行合适的数据变换,使 变换后的数据符合既定模型,从而进行统计分析。如果数据变换后统计分析的效 果仍然不够理想,这时就要寻找比较复杂但更加有效的模型“】。 1 2 国内外研究现状 a n s c o m b e 。1 于1 9 7 3 年给出了有名的数据,强有力地说明了回归诊断的必要 性。通常的回归诊断,大多采用了方差齐性这一基本假定,关于涉及到的回归模 型,研究得最早、也最成熟、同时应用也是最广的是线性回归模型。然而,在实 际中遇到的问题往往比较复杂,有时难以满足这一假定。因此,有关回归模型的 异方差检验问题就显得尤为重要。 关于线性模型的异方差检验,早期的工作可见g l e j s e r “1 ,s e b e r 4 1 ,b i e k e l 叫, h a r r i s o n & m c c a b e ,c a r r o l l & r u p p e r t 叫。直到c o o k & w e i s b e r g 嗍在s c o r e 检验 统计量的基础上,建立了诊断异方差的检验以后,利用s c o r e 检验统计量方法研 究异方差的检验才逐步引起了人们的重视,并被推广到许多模型。s c o r e 检验统 计量的最大的优点是,人们只需要计算在原假设条件下( 即方差齐性条件下) 参 数的极大似然估计,而不需要计算备择假设下( 即异方差条件下) 参数的极大似 然估计,而其渐进分布于似然比统计量相同,检验的功效也相当“脚1 。当然, 目前研究的领域早己远远超出线性回归的范围。韦博成1 ,胡跃清“”对具有a r ( 1 ) 误差“3 1 的非线性回归模型,研究了异方差和相关性的同时检验。给出了似 然比统计量s c o r e 统计量并且给出了调整的检验统计量。刘应安,韦博成,林金 官”对具有a r m a ( 1 ,1 ) 误差的非线性回归模型,给出了检验异方差和相关 第一章绪论 性的似然比和s c o r e 统计量及它们的调整形式。跟一般地,l i n w e i “”研究了 具有a d ( p ) 误差的非线性回归模型的异方差和相关性的检验问题,得到了多 个检验统计量及它们的调整形式1 。可见,有关回归模型的异方差检验问题已研 究得比较深入。 检验异方差是否存在,是处理回归问题的第一步。若方差齐性假设成立,则 可以用常规的方法来诊断异常点,若确实存在异方差,我们就要考虑其它的方法 来进行异常点的诊断。有关这一方面的研究相对而言还是比较少的。宗序平,韦 博成“”对于线性回归诊断提出了几种新的模型和方法,首次研究了方差加权和均 值漂移的混合模型( 即具有异方差的均值漂移模型) 。 1 3 本文的主要工作、研究手段及技术路线 本论文主要进行具有异方差的线性回归模型的异常点的诊断,论文的具体内 容共分为如下五章; 第一章阐述了回归诊断的实际背景、国内外的研究现状以及本文所要解决的 主要问题。 第二章讨论了具有异方差的均值漂移模型和数据删除模型中异常点的诊断 问题。首先研究了具有异方差的均值漂移模型,其次研究了具有异方差的数据删 除模型,最后通过把均值漂移模型和数据删除模型进行比较得到了二者的等价 性,同时得到了相应的s c o r e 检验统计量。本章还通过实例分析说明了方法的有 效性。 第三章系统讨论了具有a r ( 1 ) 误差结构的线性回归模型的统计诊断问题。 首先研究了具有a r ( 1 ) 误差结构的均值漂移模型的均值漂移与异方差的联合诊 断问题、单个诊断问题以及异方差存在时的均值漂移诊断问题,其次讨论了具有 a r ( 1 ) 误差结构的均值漂移模型和数据删除模型的关系,最后通过实例分析说 明了方法的有效性。 第四章为了说明诊断统计量的有效性,本章将通过功效模拟来进一步说明分 析方法的有效性。 第五章总结了本文的主要结论并对进一步的深入探讨进行了展望。 本文在具有异方差的线性回归模型的异常点的诊断上做了大量的工作和探 河海大学硕士学位论文 索,使用的关键理论方法和技术是高等数理统计、统计诊断、线性模型、m a t l a b 数值计算等。 采用的技术路线: 线性回归模型诊断的理论研究和探索一提出问题一建立具体的线性回归模 型一得到诊断统计量一实例分析一模拟计算一诊断统计量的有效性。 1 4 预备知识 s c o r e 检验统计量;s c o r e 检验统计量( s c o r et e s ts t a t i s t i c ) 可参见c o x & h i n k l e y “”的著作。它是广义似然比检验统计量“7 1 的一种特殊形式,它主要应用 于含有多余参数的复合假设检验“。下面简要介绍其基本原理。设 y = ( 乃,) ,。) 7 的各分量相互独立,其密度函数为p ( y ,0 ) ,0 c 7 _ r ,假设0 有内点。y 的对数似然函数记为上( 口) = l n p ( y ,口) 。设p 7 = ( 印,彰) ,o l ,岛分别 为p 。维和p :维分量。现考虑以下假设检验问题: h o :岛= g o ;i - i , :目只。 假设p 的最大似然估计为舀7 = ( 印,劈) 。当只= 钆时,岛的最大似然估计为 0 2 = o :( 0 1 。) ,并记万7 = ( 靠,醪( o i 。) ) 。则以上检验问题的检验函数可表示为以 阳= 脚西( 现乃瓴, 其中j 为参数目的f i s h e r 信息阵“”,j ”为j 。中对应于参数鼠的分块矩阵。具体 4 - 第二章具有异方差的线性回归模型的统计诊断 第二章具有异方差的线性回归模型的统计诊断 2 1引言 线性回归模型在许多实际问题中得到了广泛应用,通常随机误差项都假设是 正态白噪声且具有方差齐性,但在一些复杂问题中会显得不太合适。因此,处理 回归问题的第一步通常要进行方差齐性检验。线性模型中关于误差的异方差性检 验的s c o r e 检验统计量已由c o o k w e i s b e r g 。1 获得。 对于具有方差齐性的均值漂移模型和数据删除模型,韦博成等“1 给出了相应 的估计量、诊断统计量以及二者的等价性证明。对于具有异方差的线性回归模型, 宗序平、韦博成“”得到了有关的估计量。为了进一步推广和发展了他们的结果, 本章首先讨论具有异方差的均值漂移模型,得到了均值扰动值的s c o r e 检验统计 量,接下来再讨论具有异方差的数据删除模型著证明了该模型与具有异方差的均 值漂移模型的等价性。最后,通过镀锌数据来说明了分析方法的合理性和有效 性。 2 2 具有异方差的均值漂移模型的统计诊断 具有异方差的均值漂移模型为: y = x p + d ,+ ,n ( 0 ,盯2 q 一1 )( 2 2 1 ) 其中y = ( j ,l ,一,y 。) 7 为肛维观察向量,x = ( 毛,矗) 7 为n 。p 阶列满秩矩阵; 争= ( ,届,f l ,1 ) 7 为p 维未知参数,y 为扰动值,d 表示第i 个分量为1 其他为 0 的蹿维向量。为疗维随机误差向量,q = i - 0 - m ) d ,d ,7 ( ,f ) ,仃2 为未知参 数。 记0 = ( y ,p 7 ,盯2 ,脚) 7 。考虑如下假设检验问题: h o :y = 0 :h l :,0 ( 2 2 2 ) 显然,若h 。成立,则认为( 只,x ,t ) 不是异常点;若h 。被否定,则认为( 只,x ,7 ) 为 异常点。 第二章具有异方差的线性回归模型的统计诊断 定理1 对于模型( 2 2 1 ) ,假设检验问题( 2 2 2 ) 的s c o r e 检验统计量为 剐咖烈嚣 汜z 。, 且有: s ,( 出) ! z 2 ( 1 ) 证明:模型( 2 2 1 ) 的对数似然函数1 7 】为 地。) - - 争胁) 一;1 。) + :l - l o g 。- z 盯1 。而y ( y t - x k r 旷一吉- - i t t p 训2 一寺( y ,一铆2 由此可求出三关于0 的前二阶导数如下: 嘉一1 b筹一盯(y,-x,r02 - - x i p - r ) , 意_ o ,丽一毛石矿一盯丽。0 丽a 2 l - 1 善+ 戗,) ,警一7 1 x 7 q x , 丽0 2 l = 一古 荟( 儿1 锄+ ( y i - - x t t p 卅国( y 3 - x j t 盼办 黑:上( y , 而i 2 0 - 2 y ,- - x j 9 研0 2 l = 寺一;1 。,( y k - x p ) 2 一- 专( y , - x , r p 训2 一古幻,1 t 旷, 石而0 2 l = 一1tp),否02l204(yj-xj= 一上2 c 0 2 ,石而2 一 队否一 由此可得: j = e ( 一l ( 0 ) ) = l r i xj 盯。 。ix 7 i l x 盯。 oo 00 0 0 2 0 4 l 2 d 2 ,= ( ,1 1 一j 1 2 j 2 2 1 j 2 1 ) = 盯2 1 一x t t ( x 7 n x ) 一1 x ,) 6 o 0 l 2 e t a 2 l 2 0 ) 2 。一矿 一 = 丝矿 古争 河海大学硕士学位论文 从而,s c o r e 检验函数 弘c 州峨井矿而暑 其中毒,( 曲,每2 ( 田) 分别为h 。成立时p 和盯2 的极大似然估计( m l e ) 由文献知s ,( ) 三一z 2 ( 1 ) 证毕 由文献知h 。成立时,p 和仃2 的极大似然估计( m l e ) 分别为: 晒) = b 一面l 一- 彩c o 胗。( x 7 x ) 一1 x ,a , ( 2 2 4 ) 粕)=堕【l-篙”如而1瓦-(0n 11万一口 一 一i 一j 口。 ( 2 2 5 ) 其中6 = o 【7 x ) 一1 x 7 y ;p = 1 ,7 ( x 7 x ) 1 i , 即为x 生成的投影阵 p = x ( x 7 x ) 。x 7 的对角元素:乞= y ,一夕,夕,= i ,7 口;r s s = y r q y ,q = i p ; r :一! ! ,子2 :r s s 。 舌1 一p 疗一p 推论1 若:1 ,则表示方差无扰动,由( 2 2 3 ) 式可得 墨( 1 ) = 堕二三! 盟塑:至 茸2 ( 1 ) 1 一x t ( x 7 x ) 一1 x ,】d - 2 ( 1 - p “) ( 2 2 6 ) ( 2 2 6 ) 式的s ,( 1 ) 实际上就是方差齐性时的均值漂移模型的均值扰动值的 s c o r e 检验统计量,这与已知结果吻合。 由文献 1 知模型( 2 2 i ) 的参数口的最小二乘估计( l s e ) 为: 6 。,( ) = ( x 7 q x ) 一1 x 7 q y 一7 q x ) 一x 尹 ( 2 2 7 ) 刖= 菇tt 亩- i x 半t 1 一x ,i s a ix 第二章具有异方差的线性回归模型的统计诊断 2 3 具有异方差的数据删除模型与均值漂移模型的比较 具有异方差的数据删除模型为: y ( ,) = x ( f ) p + ( f ) ,“f ) n ( 0 ,盯2 q ( 矿1 ) ( 2 3 1 ) 其中y ( ,) 、x ( o 、( i ) 分别为1 中的y 、x 、去掉第f 行而得到的,a ( o 为1 中的q 去掉第f 行和第f 列而得到的;p = ( 鼠,届,声。) 7 为p 维未知参数。盯2 为未知参数。 不妨用虞) ( m ) 、彦( ) 2 ( 珊) 来表示模型( 2 3 1 ) 的参数p 、盯2 l s e 。 定理2 模型( 2 2 i ) 和( 2 3 1 ) 相应的估计量与统计量都相同,即 b 。,( 国) = 6 ( ,) ( ) ,a ,2 ( 脚) = 盯( ,) 2 ( 国) ,r s s 刚= p , s s ( i ) ( 2 3 2 ) i i e 明, 首先引进x 。= ( o ,0 ,石,o ,o ) 7 表示第f 行元素为x 7 其余元素为0 的一个”。p 阶矩阵,y 0 = ( o ,0 ,儿,o ,o ) 7 表示第研亍元素为y ,其余元素为0 的一个f 维向量。 此时模型( 2 3 1 ) 中的a ( o 可表示为: n ( ,) = a 7 q a( 2 3 。3 ) 其中,矩阵a 是由在个一1 ) 阶单位阵i 。的第( f 1 ) 行和第,行之间添 1 加一行零元素而得到的一个h 0 1 ) 阶矩阵。( 2 3 1 ) 式乘以q j ( f ) 可得 三! ! q 2 ( f ) y ( f ) = q2 ( f ) x ( f ) p4 - q2 ( 咖( f ) ,且有q 2 ( f ) e ( f ) n ( o ,盯2 i ) 。 由参数估计公式可得 p ( 国) = 【x ( f ) 7 q ( f ) x ( f ) 】。x ( f ) 7 f l ( i ) y ( i ) ,将( 2 3 3 ) 代入上式可得 b ( ,) ( 纠= x ( ,) 7 a 7 f l a x ( i ) 一1 x ( 0 7 a 7 q a y ( ,) = 【( a x ( 们7 q a x ( 例一1 ( a x ( f ) ) 7 q a y ( f ) = ( x - x 。) 7 t ! ( x - x 。) 】一1 ( x x 。) 7 q ( y y o ) = ( x7 q x x ,x 7 ) 一1 ( x 7 f l y x ,y ) 由和式求逆公式有 河海大学硕士学位论文 ( x 7 q x x ,x ,7 ) = ( x 7 n x ) 一1 + ( x 7 n x ) 一1x ,( 1 一工,t ( x 7 n x ) 一1x ,) 一1x ,7 ( x 7 n x ) 一1 代八上瓦j 得 乩( ) = ( x 7 n x ) 一1x 7 m 7 + ( x 7 n x ) 一1x ,y , ( x 7 f i x ) 一。x ,x ,t ( x 7 n x ) 一1 x 7 f w 一( x 7 f i x ) 一1 x ,xt ( x 7 f i x ) x , y 1 一x ,。( x 。n x ) 1 x , 上式经过化简整理可得 1 3 0 ,( c o ) = ( x r d x ) - j x r f l y - ( x r f l x ) - t x j 舞半琅胁, r s s 扩卜x ) 一对= ) 一x ( 晚( ) 1 1 2 + o = 愀力一x ( 邢( m ) 1 1 2 = 脚( f ) 销咖n _ ( - l p + 1 ) 陋i 搿1 x b c 咖卟南卜州名娜m c ,卜f ) 2 c , 证毕 定理2 的意义在于得到了在异方差的条件下,均值漂移模型和数据删除模型二者 的等价性。 2 4 实例分析 由文献 1 知镀锌数据是具有异方差的,因此可运用模型( 2 2 1 ) 来进行异常 点的诊断。运用文献 1 中例2 8 的结论可知这里q = i 一( 1 0 1 0 9 ) d 。d 。7 。利用 ( 2 2 3 ) 式计算假设检验( 2 2 2 ) 的s c o r e 值如表1 : 表1 s c o r e 检验统计量的值 t a b l e1 s c o r et e s tv a l u e l 号码123456781 01 1 s ,( ) 0 0 7 8 4 90 0 4 0 3 6 1 5 2 10 5 3 9 2 50 8 5 1 5 20 6 1 8 4 82 2 5 2 5 0 1 9 3 30 2 5 0 5 26 5 1 8 9 由上表知s 1 1 ( 曲:6 5 1 8 9 z 2 ( 1 ) = 3 8 4 1 ,所以第1 1 号点可能有漂移。事实上, 由下面的散点图可以发现第1 1 号点确实有漂移,与计算结果吻合。 第二章具有异方差的线性回归模型的统计诊断 x 图1方差扰动时的散点图 f i g 1 s c a t t e rp l o tu n d e rp e r t u r b a t i o no f v a r i a n c e 由于在异方差的条件下均值漂移模型和数据删除模型二者的等价性,因此在 讨论具有异方差的线性回归模型的异常点时。可以考虑更便于处理的均值漂移模 型,用定理1 的s c o r e 检验统计量进行异常点的诊断。通过实例分析可以发现用 该方法进行异常点诊断的效果是比较好的。 第三章具有a r ( i ) 误差的线性回归模型的统计诊断 第三章具有a r ( 1 ) 误差的线性回归模型的统计诊断 3 1引言 线性回归模型在许多实际问题中得到了广泛应用,通常随机误差项都假设是 正态白噪声且具有方差齐性,但在一些复杂问题中会显得不太合适。当观测值与 时间有关时,数据之间往往存在序列相关,尤其是自相关性。因此,这时对模型 不仅要进行异方差检验,还要进行相关性的检验。对于具有a r ( 1 ) 误差的线性 模型,t s a i ( 1 9 8 6 ) 得到了同时检验异方差和相关性的s c o r e 统计量。 对于具有方差齐性的均值漂移模型和数据删除模型,已经给出了相应的估计 量、诊断统计量以及二者的等价性证明。对于异方差的条件下的均值漂移模型, 也已经得到了有关的估计量。本章进一步推广和发展了他们的结果,首先讨论具 有a r ( 1 ) 误差的均值漂移模型。得到了均值扰动值的s c o r e 检验统计量,接下 来再讨论具有a r ( 1 ) 误差的数据删除模型,证明了该模型与具有a r ( 1 ) 误差 的均值漂移模型之间并不具有等价性。最后,通过果汁饮料数据“3 1 来说明了分析 方法的合理性和有效性。 3 2 具有a r ( 1 ) 误差的均值漂移模型的统计诊断 具有a r ( 1 ) 误差的均值漂移模型为: y = x p + ,+ ( 3 2 1 ) 三,2 如,- i + q ,f 2 2 ,打 ( 3 2 2 ) 【毛= q 其中j ,= ( 儿,y 。) 7 为 维观察向量,x = ( 一,) 7 为n x p 阶列满秩矩阵,一表 示一个n 维向量,其第f 个分量为1 ,其他均为零;= ( p o ,届,见一。) 7 为p 维未 知参数,为扰动值。占为嚣维随机误差向量,参数满足 和( 3 2 - 2 ) ,当方差齐性时,假设检验问题( 3 2 1 1 ) 的s c o r e 检验统计量为: 盯= p 壕删,) 7 i t 一】埘, 1 ( 3 2 1 4 ) 证明:对于假设检验问题( 3 2 1 1 ) ,易得参数日在矾成立时的f i s h e r 信息 阵为: ,;e ( - l ( 口) ) 去4 r m r m d 叮 o :l 1 - s _ x 7 m 7 材 l 盯 o o o 三d d 7 2 o 0 一专。7 占矾r r m x 盯。 0 上j 7 m 7 m x 盯 0 0 00 。 一专。 00 以至肇尝材。埘。) o 、a a 庐 o 寺 进一步可得t ,”= 彦2 ( 碱) 7 【,一m x ( x 7 m 7 m x ) 1 x 7 m 7 】朋矾) 一 显然,当日:反时,_ o t c o ) :去d ,7 m r m ( y x p ) d ,盯。 ( 3 2 1 5 ) ( 3 2 。1 6 ) 将( 3 2 1 6 ) 、( 3 2 1 7 ) 式代入到( 3 2 1 5 ) 式后,经计算化简可得( 3 2 1 4 ) 第三章具有a r ( i ) 误差的线性回归模型的统计诊断 式。 2 、 y = 0 时,方差的齐生诊断 对于问题( 3 2 1 2 ) ,b = a 为有兴趣参数,0 2 = ( y ,p t , ,盯2 ) 7 为多余参数, 其s c o r e 检验统计量为 = c 盖,7 j “c 瓦o l , 喊, ( 3 1 1 8 ) 其中j “为,- 1 中对应于参数a 的分块矩阵,为( 3 2 6 ) 式参数口的f i s h e r 信息 阵,r s c 检验统计量的渐进分布为z 2 ( g + 1 ) 。 定理3 2 对于模型( 3 2 1 ) 和( 3 2 2 ) ,当y = 0 时,假设检验问题( 3 2 1 2 ) 的s c o r e 检验统计量为: 2 赤矿( d d 7 1 d ( 3 2 1 9 ) 证明:对于假设检验问题( 3 2 1 2 ) ,易得参数目在风成立时的f i s h e r 信息 阵为 : j = e ( - 1 ( 曰) ) d d t , o 00 0 o o o 进一步可得,“:_ 2 n ( d d 7 ) 一1 珂一1 显然,当口= 或时,百o l ( o ) = 争学 d - ;徊o 上o 。己 ( 3 2 2 0 ) ( 3 2 2 1 ) ( 3 2 2 2 ) 将( 3 2 2 1 ) 、( 3 2 2 2 ) 式代入到( 3 2 1 8 ) 式后,经计算化简可得( 3 2 1 9 ) 式。 3 、异方差存在时的均值漂移诊断 - 1 7 d 一2 一j 。一o o o 玎一缸 一 小 mm o o o坐劬。 笙却 畎 册 埘 矿 矿铲p 土矿上矿 磁 旭 矿 。一,。一矿 矿 q 。上 一 河海大学醺士学位论文 对于模型( 3 2 1 ) 和( 3 2 2 ) ,若白噪声序列他,= 1 , 2 ,胛) 具有异方差, 这时对均值漂移进行诊断,这就是异方差存在时的均值漂移的诊断问题: h o :y = 0 ;h i :y 0 ( 3 2 2 3 ) 对于问题( 3 2 2 3 ) ,b = y 为有兴趣参数,幺= ( 2 r ,p t 蟊盯2 ) 7 为多余参数, 其s c o r e 检验统计量为 s c : ( 要) 妒l 【d y j 口:瓦 其中歹”为厂1 中对应于参数,的分块矩阵,歹为( 3 2 6 ) 式参数移的f i s h e r 信息 阵,且s c 检验统计量的渐进分布为z 2 国+ 1 ) 。 定理4 1对于模型( 3 2 1 ) 和( 3 2 2 ) ,当异方差存在时,假设检验问题 ( 3 2 ,2 3 ) 的s c o r e 检验统计量为: 影矿古 d f m 7 w m ( y 一夥) 】2 埘,) 7 叭f m x ( x 7 m 7 瞅) 一1 x 7 m 7 w m d , - j ( 3 2 2 5 ) 证明:对于假设检验问题( 3 2 2 3 ) ,易得参数口在日。成立时的f i s h e r 信 息阵为: ,j e ( - i ( 8 ) ) 去吐7 m r w m d 盯 0 - 】当x mw m d 0 o o 古一7 w m x oo l :c o - 2 0 d 7 o。 一专m 。 , 1 一z 0 _ ix 7 m 7 w m x00 盯 oo ,r c 等矽等锣“圹7 , 。 一击2 a m 。d fo o 2 a ; ( 3 2 2 6 ) 进一步可得,”= 疗2 ( 删,) 7 w i m x ( x 7 m 7 w m x ) - 1 x 7 m 7 矿】肘矾 。1 ( 3 2 2 7 ) 显然,当日:玩时,罢婴:去d ,r m r g m ( y 一矽) d ,i , 将( 3 2 2 7 ) 、( 3 2 2 8 ) 式代入到( 3 2 2 4 ) 式后。经计算化简可得( 3 2 2 5 ) 式。 第三章具有a r ( 1 ) 误差的线性回归模型的统计诊断 3 3 具有a r ( 1 ) 误差的数据删除模型与均值漂移模型的比较 具有a r ( 1 ) 误差的数据删除模型为: y ( i ) = x ( i ) f l + ( f ) ( 3 3 1 ) 其中y ( f ) 、x ( i ) 、c ( o 分别为1 中的r 、x 、占去掉第i 行而得到的; = ( 屁,f l , ,。) 7 为p 维未知参数。 盯2 为未知参数。 弓i 进( o = ( 口l ,口卜l ,d ,+ 2 ,- ,a 。) 7 ( 一2 卜l ,e ( o = ( 1 ,一,占,一l ,e h l ,。) 7 ( 。一1 ) 砌。 矩阵 m ( f ) = 1 一1 一妒1 r 一妒 m ( i ) 为1 中的m 去掉第i 行,第i + 1 行,第i 列而得到的。 ( 3 3 2 ) 则口( f ) = m ( i ) t ( i ) - n ( o ,盯2 l 一2 ) ( 3 3 3 ) 下面研究模型( 3 2 1 ) 、( 3 2 2 ) 和模型( 3 3 1 ) 相应的估计量是否相同,即二者是 否具有等价性。 首先:对于模型( 3 2 1 ) 、( 3 2 2 ) 由y = 邵+ ,+ ,两边同乘以m 得到一个新的模型: m y = m x f l + f m d , + m e ( 3 3 4 ) m e n ( o ,盯2 l ) ( 3 3 5 ) 求模型( 3 2 1 ) 、( 3 ,2 2 ) 中的参数多的l s e 就转化为求模型( 3 3 4 ) 、( 3 3 5 ) 中的 参数的l s e ,由文献【l 】中的单参数附加变量的参数估计公式可得p 的l s e 为 鼬护【( 似) 7m x 弋刎) 7m y 【( 删) 7 m r 1 删) 7 心丢篆簪署 河海大学硕士学位论文 其中q = ,一= i - m x ( m x ) 7 m x “( 似) 7 其次:对于模型( 3 3 1 ) 由r ( i ) = x ( ,) + 占( f ) ,两边同乘以m ( i ) 得到一个新的模型: 材( f ) y ( f ) = m ( i ) x ( i ) f l + 掰( f ) ( d ( 3 3 ,6 ) ( f ) ( f ) n ( o ,盯2 l 一2 ) ( 3 3 7 ) 求模型( 3 3 1 ) e e 的参数的l s e 就转化为求模型( 3 3 6 ) 、( 3 3 7 ) 中的参数卢的 l s e 。 由参数估计公式可得口的l s e 为 虞) ( ) = 【m ( f ) x ( f ) 】7m ( f ) x ( f ) ) 一1 【肘( ,) x ( ) 】7m ( f ) y ( f ) 引入矩阵a = ool ,b =0 1 矩阵a 由1 l 阶单位阵去掉第i 行和第( i + 1 ) 行而得到,矩阵口由月阶单位阵去掉 第i 列而得到。 此时,m ( i ) = a m b ,x ( i ) = b 7 x ,代入上式经过化简整理可得 绯妒) = i ( 删) 7 m x 一1 ( 朋) 7 _ 【( 倒) 7 m x 一1 ( 础) 7 ( “7 + d j 。d j + l ) m y 显然,风( 妒) 屈) ( 妒) 不等式的意义在于得到了在a r ( 1 ) 误差的条件下,均值漂移模型和数据删除模 型二者不是等价的。 第三章具有a r ( t ) i 昊差的线性回归模型的统计诊断 3 4 实例分析 我们利用果汁饮料数据( 文献 1 3 ,p 2 0 3 ) 来说明上节中方法的应用。果 汁饮料数据刻画了某公司2 0 年的饮料销售量和广告费用的数据,研究广告对销 售量的作用。销售量与广告费用的投入可用如下模型来刻画: y l = 3 0 + f l l x ,+ 占,t = 1 , 2 2 0 ( 3 4 1 ) 其中,占( t = 1 , 2 ,2 0 ) 是随机误差。 作相应的残差图如下: 图3 1 学生化残差图 从图中可以看到,他们有一个有限的先向上,然后向下的漂移。因此我们怀 疑残差有自相关的结构。另外,从图中可以看到1 2 号点的残差明显地大于其它 点,因而可能是异常点。下从具有一阶自回归的均值漂移模型出发来诊断异常点。 模型如下: 只= 8 0 + 届t + i + ( 3 4 2 ) j 2 加h + q ,t = 2 , 3 ,2 0 【占l = 口i 这时可设w = ( z ,a ) = e x p ( a x ) ( 3 4 3 ) 对于假设检验问题( 1 3 ) ,在风成立的条件下该模型的有关参数极大似然估计 ( m l e ) 为: 河海大学硕士学位论文 参数 风 届 a l 彳l e0 4 2 11 6 0 6 12 0 0 8 71 8 1 4 1 利用( 2 2 ) 计算s c o r e 值如下表 表3 1 果汁数据具有一阶自回归的异常点诊断 号码 l2 3 4 567 s c o r e0 6 3 0 31 0 2 5 41 i3 1 8 3 1 0 2 7o 5 1 8 30 5 2 7 l0 5 9 7 4 号码 8 91 01 11 21 31 4 s c o r e0 7 2 9 31 1 5 14 4 0 9 52 8 4 4 61 6 1o 3 4 1 3 2 3 8 2 号码 1 51 61 71 8 1 92 0 s c o r e0 4 8 3 60 6 0 50 4 3 6 6 1 0 8 20 4 1 2 l0 0 8 9 2 由于z 2 ( 2 ,0 0 5 ) = 5 9 9 1 ,因而由上表可知1 2 号点显然是一个异常点,这与 残差分析的结果是一致的。 河海大学硕士学位论文 第四章模拟计算 4 1 引言 第二章和第三章分别对具有异方差的数据删除模型和均值漂移模型以及具 有a r ( 1 ) 误差的数据删除模型和均值漂移模型进行统计诊断。本章为了进一步 说明诊断统计量的有效性,通过模拟计算来迸一步说明方法的有效性。 4 2 具有异方差的均值漂移模型中的均值漂移诊断的模拟计算 本节我们考虑如下的均值漂移模型: 牌p 风。二f l 届l x i 二篇1 2 淼:砉豁 z , 【只= + 。+ y + 占,( 第i 个点有漂移) e 为n 维随机误差向量,e n ( 0 ,j 2 q 一1 ) , n = l 一( 1 一) d j d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中考化学复习热搜题之气体的制备
- Unit 3 Our animal friends 阅读理解-判断-牛津译林版五年级英语上册考点培优练(含答案解析)
- 2026年深圳中考数学复习分类汇编:选择基础重点题(解析版)
- 2026年高考化学一轮复习:元素周期律(专项训练)含答案
- 医学脑梗死二级预防案例教学课件
- 医学慢性肾衰竭贫血管理案例教学课件
- 2026福建春季高考语文总复习:名篇名句默写(知识梳理+考点)解析版
- 《JBT 6296-1992 汽轮机管道附件》(2026年)实施指南
- 《JBT 6188.15-1992 16mm 槽系组合夹具紧固件 带肩螺母》(2026年)实施指南
- 《JBT 6055-1992 锻造车间 环境保护导则》(2026年)实施指南
- 领导干部任前法律法规知识考试题库及答案(2025年)
- 全国大学生职业规划大赛《汽车制造与试验技术》专业生涯发展展示【高职(专科)】
- 乡镇档案工作办法课件
- 索尼相机DSC-HX300 中文说明书
- 卫生院关于成立消除艾滋病、梅毒、乙肝母婴传播领导小组及职责分工的通知
- 2025年中职实习指导教师资格证面试策略与模拟题详解教程
- 《管理学》(第二版) 课件 高教版 第十六章 组织变革与创新;结语
- 2025至2030年中国护肤品美容品保健品行业市场发展监测及市场深度研究报告
- 危废培训课件下载
- ROHS及REACH法规合规声明模板
- 金属材料力学性能测试实验指导书
评论
0/150
提交评论