(概率论与数理统计专业论文)线性模型中回归参数的影响分析.pdf_第1页
(概率论与数理统计专业论文)线性模型中回归参数的影响分析.pdf_第2页
(概率论与数理统计专业论文)线性模型中回归参数的影响分析.pdf_第3页
(概率论与数理统计专业论文)线性模型中回归参数的影响分析.pdf_第4页
(概率论与数理统计专业论文)线性模型中回归参数的影响分析.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j e塞銮 道 太 堂亟 堂僮途塞虫 室垣噩 中文摘要 摘要:本文讨论在一般线性模型和数据删除模型下的回归参数的影响分析问题。 主要围绕最小二乘估计和岭估计展开c o o k 距离和w e l s e h k u h 统计量的研究,分 析删除数据对估计量的影响,给出相关结论和推论。通过对岭估计的深入研究, 给出新的条件广义岭估计,利用耽豇c h k u h 统计量和特征值的性质,推导出了删 除k 组数据后拟合值影响的上确界。 本文首先介绍了影响分析的基本概念和研究情况。第二章介绍了矩阵、线性 模型及参数的置信域的相关知识和结论。第三章介绍了度量影响的基本统计量, c o o k 距离和耽厶c h k u h 统计量。第四章对最小二乘估计和岭估计进行深入研究, 提出了一种新的条件广义岭估计,并研究了各种估计之间的关系。第五章,利用 w e l s c h k u h 统计量确定了删除数据对模型影响的上确界,并给出实例。 关键词:影响分析;c o o k 距离;w e l s c h k u h 统计量;岭估计;约束线性模型; 条件广义岭估计;最小二乘估计 分类号:0 2 1 3 9 a bs t r a c t a b s t r a c t :t h i sa r t i c l ed i s c u s s e st h ei n f l u e n c ea n a l y s i so fr e g r e s s i o np a r a m e t e ri n g e n e r a ll i n e a rm o d e la n dd a t e d e l e t em o d e l f o c u so nl e a s ts q u a r e se s t i m a t i o na n dr i d g e e s t i m a t i o n ,s t u d yt h ec o o kd i s t a n c ea n dw e l s c h - k u hs t a t i s t i c ,a n a l y s i st h ei n f l u e n c eo f pi nd a t a d e l e t em o d e l ,g i v e nt h er e l e v a n tc o n c l u s i o n sa n di n f e r e n c e s g i v e nan e w c o n d i t i o n a lg e n e r a l i z e dr i d g e t y p ee s t i m a t i o nb yi n d e p t hs t u d yo fr i d g ee s t i m a t e , d e r i v e dt h eu p p e rb o u n do fi n f l u e n c ei nd a t e d e l e t em o d e lb yu s i n gw e l s c h - - k u hs t a t i s t i c a n dt h en a t u r eo fe i g e n v a l u e t h i sa r t i c l ei n t r o d u c e st h eb a s i cc o n c e p ta n dr e s e a r c ho fi n f l u e n c ea n a l y s i s t h e n , i n t r o d u c e dt h em a t r i x ,t h el i n e a rm o d e la n dt h ec o n c l u s i o no fp a r a m e t e r t h e n i n t r o d u c e st h eb a s i cs t a t i s t i c a lm e a s u r eo ft h ei n f l u e n c e c o o kd i s t a n c ea n dw e l s c h - k u h s t a t i s t i c t h e ns t u d yt h el e a s ts q u a r e se s t i m a t i o na n dr i d g ee s t i m a t i o n , s e to u tan e wk i i l d o fc o n d i t i o n a lg e n e r a l i z e dr i d g e - t y p ee s t i m a t i o n ,a n dd i s c u s st h er e l a t i o n s h i pb e t w e e n t h ev a r i o u se s t i m a t e s i nt h ea n d ,s e to u tan e wk i n do fc o n d i t i o n a lg e n e r a l i z e d r i d g e - t y p ee s t i m a t i o n ,d e r i v e dt h eu p p e rb o u n do fi n f l u e n c ei n d a t a - d e l e t em o d e lb y u s i n gw e l s c h k u hs t a t i s t i ca n dg i v et h ee x a m p l e s k e y w o r d s :i n f l u e n c e a n a l y s i s ;c o o kd i s t a n c e ;w e l s c h - k u hs t a t i s t i c ;r i d g ee s t i m a t o r ; r e s t r i c tl i n e a rm o d e l ;c o n d i t i o n a lg e n e r a l i z e dr i d g e - t y p ee s t i m a t i o n ; l e a s ts q u a r ee s t i m a t e c l a s s n o :0 2 1 3 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:词象签字日期:劬习年月,7 日 2 9 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:确钦 签字日期:卅年月,7e t 导师签名:药q 白扛 签字日期:川年月岁日 致谢 本论文的工作是在我的导师张尚立教授的悉心指导下完成的,张尚立教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来 张尚立老师对我的关心和指导。 张尚立教授悉心指导我完成了实验室的科研工作,在学习上和生活上都给予 了我很大的关心和帮助,对于我的科研工作和论文都提出了许多的宝贵意见,在 此向张尚立老师表示衷心的谢意。 其次,我要感谢理学院的各位老师对我的大力支持和帮助,尤其是王立春老 师,他们的兢兢业业、勤勤恳恳值得我用一辈子去学习。在实验室工作及撰写论 文期间,冯娴、武晓利、雷国华等同学对我论文的研究工作给予了热情帮助,在 此向他们表达我的感激之情。 另外也感谢我的家人朋友,他们的理解和支持使我能够在学校专心完成我的 学业。 j e塞窒遣太堂亟堂僮途塞曼i直 1 引言 统计诊断是近3 0 多年迅速发展起来的一门统计学分支。它以强烈的应用背景、 新颖的统计思想、广泛的研究内容和丰富的实际成果在广大统计工作者面前展现 出一个理论与应用紧密结合的崭新领域。顾名思义,统计诊断就是对实际问题中 得到的数据和提炼出的模型以及推断方法中可能存在的“毛病”进行诊断,并提 出相关的“治疗 措施。大量的理论研究和应用实践使人们对统计诊断的意义和 价值有了肯定而明确的认识,现今已广泛应用于各种统计问题和统计模型,并被 编入通用软件包,成为统计学使用过程中不可缺少的一个重要步骤。 影响分析是统计诊断中十分活跃的分支,其研究内容和方法近年来仍然在不 断的发展和开拓。从目前来看,影响分析的内容大致可分为两个方面:第一,数 据点的影响分析。主要研究特定的某几个,特别是某一个数据点对于统计分析的 影响。这是影响分析的重点,也是最有实用价值的部分。本文就是结合一般线性 模型研究这方面的内容。第二,广义的影响分析。主要研究当模型有微小扰动时, 对于统计推断的影响。通常可把扰动问题归结为与模型有关的若干具体因素所产 生,如均值的漂移、方差的扩大、自变量的改变等。易见,可以把删除一个或几 个数据点看成一种特殊的扰动方式,因此数据点的影响分析可以视为广义影响分 析的一部分。 线性模型的参数估计问题的研究可以追溯到上世纪初,著名数学家 a m l e g e n d r e 和c e g a u s s 分别先后于1 8 0 6 年和1 8 0 9 年独立地把最小二乘法应用 于观测数据的误差分析,后来,a a m a r k o v 于1 9 0 0 年证明了最d x - - 乘估计的方差 最小性质,即著名的g a u s s m a r k o v 定理,奠定了最d - 乘法在参数估计理论中的 地位。但当x 呈病态时,最小二乘估计表现出不稳定性,线性有偏估计是针对病 态阵x 来改进l s e 最直接的方法。1 9 7 0 年,h o e r l 和k e n n a r d 提出了另外一种 有偏估计,称为岭估计。其基本思想是在设计矩阵计算中引入一个偏参数,通过 对此参数的合理取值来消除由于复共线性带来的估计误差。 c o o k 于1 9 7 7 年提出了度量影响的统计量c o o k 距离,从此众多国内外学者致 力于影响分析的研究。于义良讨论了在线性回归模型中约束条件下最小二乘估计 的影响,田保光讨论了一般线性模型下岭估计的影响分析,史建红讨论了约束线 性回归模型下的条件岭型估计。对协方差阵扰动模型的c o o k 距离和w e l s c h k u h 统计量的分析和推广至多元协方差阵扰动的岭估计影响分析,也是近年来发展的 热点。 受以上启发,本文阐述了度量影响的基本统计量,归纳总结了目前对最小二 乘估计和岭估计的影响分析现状,利用矩阵分析和特征值的性质,将数据删除模 型中删除数据对估计量的影响推广到带约束的广义条件岭估计中,使其应用范围 更加广泛。提出了新的条件广义岭估计,并得到影响的上界,同时建立了约束 w e 厶c h k u h 统计量和相关系数之间的联系。 2 2 预备知识 2 1 基本概念 矩阵是研究线性模型最基本的工具之一,为此,我们介绍一些后文要用到的 一些结论。首先允绍本文中常用的一些符号: 彳r ( 彳) 矩阵彳的转置矩阵 a 0矩阵彳是非负定矩阵 a b即彳一b 0 矩阵a 的m o o r e p e n r o s e 广义逆 彳一 矩阵a 的减号广义逆 尺( 彳)矩阵彳的秩 t r ( a ) 矩阵4 的迹 ( 彳) 矩阵彳的列向量生成的子空间 只 矩阵a 的正交投影阵 a 如。 a 是m x ? t 的实矩阵 f 似) a 的特征根 本文所讨论的矩阵皆为实矩阵。 和式求逆公式设4 为,l 阶方阵,m ,分别为,l p 和p x n 阶矩阵, 的逆矩阵存在,则有 ( 彳+ 一= a 一a _ 1 m ( ,+ n a 叫m ) _ 1 n a - 1 推广可得 假设一下有关 ( 2 1 1 ) ( x r x x f x , ) = ( x r x ) ( 2 1 2 ) + ( x r 彳) 1 矸( i - 五( x r x ) - 1 矸) - 1 五( x r x ) _ 1 ( ,一么) = ,+ ( i 一彳) a = ,+ 彳( ,一彳) - 1 ( 2 1 3 ) 其中x 为n x p 阶矩阵,五为m xp 阶矩阵,m 刀。x r 表示矩阵的转置。 2 2 参数的置信域 给定线性模型 y = “+ 占= x p + 占 ( 2 2 1 ) 其中均值“= x p 的定义域为r ”中的线性空间q = l ( x ) 。设s - ( o ,盯2 i ) ,即 e ( c ) = 0 ,v a r ( c ) = 仃2 i ,q = 三( x ) 上的投影阵为晶,并记绕= ,一晶。因为“q , 所以有 最“= u , q n “= 0 ( 2 2 2 ) 3 今假定和“= x 的最小二乘估计为夕和五= x 夕,它们使得吲l = 眵一甜l i 在q 上达到最小值,易见这个最小值就是l i 绕剐,因此 】,一五= q q y = q q ( y 一“) = 绋】,= y 一晶y 由此可得u 和的最小二乘估计( l s e ) 为 五= 晶y ,矽= ( x r x ) 一x r y 盯2 的估计量可由参差向量占= 鳊】,= 】,一矿= 】,一x 夕得到,这时 r s s = 占7 占= i l 骁】,i | 2 = y r 鳊】, 则盯2 的无偏估计为 彦2 = o p ) r s s = ( n - p ) 一8 q q 】,l | 2 因为s n ( o ,仃2 1 ) ,这时有 矿= 】,一u n ( 0 ,盯2 ,) 1 2 o - 2 2 2 ( p ) 炒l j 2 = 0 q y 卜o - 2 2 2 ( 万一p ) 由于p 矿= 五一甜= x ( 夕一f 1 ) 和q 矿= q y 独立,因此由( 2 2 5 ) 可得 逝善川”刊 p o 。 ( 2 2 3 ) ( 2 2 4 ) ( 2 2 5 ) ( 2 2 6 ) ( 2 2 7 ) ( 2 2 8 ) 其中,f ( p ,n - p ) 为f 分布,因此的水平为l 一口的置信域可表示为一个椭球 ( 夕一) x 7 x ( f l - 1 3 ) p ( 9 2 f ( p , n p ,1 - a ) ( 2 2 9 ) 2 3 数据删除对最 b - - 乘估计的影响 今考虑( 2 2 1 ) 式中删除第f 组数据点( 咒,# ) 以后的模型及其参数估计,这个 模型( 数据删除模型) 可表示为 y j = x ? f l + e , j i 或 】,( f ) = x ( i ) f l + 占( f )( 2 3 1 ) 其中y ( f ) 和s ( f ) 为o 一1 ) 维向量,分别由y 和占去掉以和毋得到,x ( i ) 为( 珂一1 ) xp 阶矩阵,由x 去掉第研亍得到,这种模型称为数据删除模型,或简称删除模型。 4 考虑数据删除模型】,( f ) = j ( f ) + 占( f ) 中的l t 和o 2 的估计分别为夕( f ) 和彦2 ( f ) , 残差平方和为r s s ( i ) ,则有以下重要定理: 引理2 1 模型y ( i ) = x ( i ) f l + g ( i ) 中和仃2 的最小二乘估计与模型y = x f l + s 中相应估计夕和彦z 有如下关系: 翩:夕一掣 ( 2 3 2 ) 卜p “ d 2 ( f ) :坠尘拿彦z ( 2 3 3 ) 玎一p 一1 其中 龟j = y | 一多i ,多i = p :e i2y i y i ,y i5x i r :,垒一 4 彦l p i i ( ,f l 一 觑为x 生成的投影阵尸= x ( x r x ) - 1 x r 的对角元素,;称为标准化残差。 证明: 由于 由夕= ( 彳r x ) 一1 x r y 可知 矽( f ) = 【x r ( f ) x ( f ) 】- tx7 ( f ) 】,( f ) 根据公式 x r 石= _ 弓= x r ( f ) x ( f ) + 誓彳 j = l 彳r 】,= _ 乃= x r ( f ) y ( f ) + 毛咒 ( z r x 一矸五) 一= ( x7 x ) 1 + ( x7 x ) 1 矸( z - x 。( x r x ) _ 矸) 一1 x i ( x r 石) - 1 可得 r ( f ) x ( f ) 】= ( x r x 一玉# ) - 1 = ( 石r x ) - 1 + ( x 7 x ) - 1 玉【1 一( x7 x ) 1 五】- 1 # ( x7 x ) - 1 由# ( z r x ) 1 玉= 戌,因此上式可化为 i x r ( 肛( 明一:( x r x ) - 14 - 鲨t 型- 1 业t _ t 上- i ( 2 3 4 ) 以上各式代入 矽( f ) = 彳r ( f ) x ( 明一1 ( x r y 一玉咒) : ( x r x ) - t + ! 墨= = 兰竺_ = :# z 巡】( x r 】,一五m ) ,:夕一( x r x ) 一- 薯咒+ 坐t 掣- ! t 一堡避 1 一p n 1 一p “ :分一! 垄! 茎! :互【筮! ! 二! 丝二兰! 壁1 1 一p t t :彦一! 茎:型盛 1 一p n 此即( 2 3 2 ) 式,为证( 2 3 3 ) 式,由( 2 2 5 ) 可知,数据删除模型的残差平方 和r s s ( i ) 可表示为 r s s ( i ) = ( ,z p 一1 ) 8 2 ( f ) = i r ( i ) 一x ( i ) f l ( i ) 1 2 = y x 翩1 1 2 - ( 咒一# 翩) 2 = 陟一x 夕+ 工( 夕一夕( f ) ) 一( 咒一# 夕( f ) ) 2 = 2 一陋夕一翩) 1 1 2 ( 乃一# 翩) 2 根据( 2 3 2 ) 可得 m 厕,1 1 2 = 蔫 ( 咒一舷功2 + 篇) 2 南 以上各式代, 3 , , r s s ( i ) 的表达式可得 ( n - p - 1 ) 彦2 ( f ) :( n - p ) 彦2 一壬 = ( n - p - r f 2 ) 毋2 ( 2 3 5 ) 即( 2 3 3 ) 式得证。 这个引理给出了模型删除第f 个数据点前后的数和盯2 估计量之间的关系,这 是我们今后讨论许多问题的基础。如果夕( f ) 与夕有较大差异,则说明第f 个数据点 对的估计量影响较大,则第f 个数据点就是值得怀疑的,也许它与其它数据点并 非出自同一母体,也许这个数据点在数据集中具有特别重要的作用。 6 3 度量影响的基本统计量 今考虑去掉( 只,# ) 的删除模型,差值夕( f ) 一夕就是( 乃,# ) 影响大小的一种度 量,差值越大,影响就越大,但是由于夕( f ) 一夕是一个向量,不便于比较,必须选 择一个合适的数量或距离,以便定量的比较影响的大小。基于夕( f ) 一夕所定义的距 离很多,首先介绍受到广泛重视的c o o k 距离。 3 1 础统计量 由线性模型的理论可知,模型( 2 2 1 ) 中参数的置信域为 ( 夕一p ) x r x ( 夕一f 1 ) 0 为常数,称为岭参数,是一个修正值。这是对最d x - - 乘估计的改进。 当自变量存在多重共线性时,l x r x l 0 ,给x7 x 加上一个正常数灯,那么 x r x + 灯接近奇异的程度就会比x r x 接近奇异的程度小得多。 岭估计是一个很大的估计类,特别的,当k = 0 时,得到s 估计。( 尼) 是s 估计向原点作压缩得到的,且e p ( k ) ,所以,岭估计是一种压缩型有偏估计。 岭估计( 七) 比l s 估计有较小的均方误差,且是的可容许估计。因此,岭估计 是一种较好的估计,讨论试验数据对岭估计的影响是有实际意义的。 4 2 基于岭估计的相关结论 4 2 1 一般线性回归模型岭估计的影响分析 讨论对于一般线性回归模型 l y = x + 8 i e ( e ) = o ,c o v ( e ) = 盯2 v ( 4 2 1 ) 其中v 0 ,的岭估计的影响分析问题。 引理4 1 对模型( 4 2 1 ) ,记a = v + x x r ,则有 ( 1 ) ( y :x ) = ( 彳) ( 2 ) ( y - x f l ) r a 一( y x ) ,x r 么一x 和x r a y 都与彳一的选择无关。 其中( ) 表示矩阵的列向量张成的线性子空间。 的最佳线性无偏估计( b l u e ) 为 房= 僻7 彳+ x ) 一1x r a + y 当设计阵x 呈病态时,模型( 4 2 1 ) 的岭估计定义为 房( 尼) = ( x r a + x + k ) 一1x r a + y ( 4 2 2 ) ( 4 2 3 ) 引理4 2 若矩阵( ,一枥) 可逆,则 房( 尼) = 夕( 尼) 一( x r x + k ) 一1 x r 2 ( i z 历) 一- 占 ( 4 2 4 ) 式中,2 = ,一彳+ ,日= x ( x r x + k 1 ) 一1 x r ,占= ( ,一h ) y 。 证明:因为j = ,一a + ,由,+ ( ,一h 2 ) h 2 = ( ,一h 2 ) 一1 及矩阵求逆公式( 2 1 1 ) , 有 房( 后) = ( x ,a + x + k ) 一1x ,a + y = 【( x r x + k ) 一x r 2 x 。1 x r ( ,一2 ) r = 【( x r x + k ) 一1 + ( x r x + 灯) 一1 x7 2 ( 1 一h 2 ) 一1 x x ( x r x + 灯) 一1 彳r y x r a y = 夕( 后) + ( x7 x + k ) 一1 x r 2 ( i h 2 ) 一h y 一( x r x + k i ) 一1 x7 彳】, 一r x + k 1 ) 一1x7 2 ( i 一1 4 2 ) 一1h 2 r = 夕( 七) + ( x r x + k i ) 一1 x r 2 ( 1 一h 2 ) h y 一( x r x + k o 一- x r 互】, - ( x r x + k i ) 1x r j ( ,一4 2 ) 一一1 1 1 , = 夕( 七) 一( x7 x + i d ) 一1 x r 2 ( 1 一4 2 ) 一1 ( ,一h ) y = 夕( 尼) 一( x r x + k i ) 一1 x7 2 ( 1 一h 2 ) 一1 占 引理4 3 讨论数据删除模型 1 2 茹掣0 托c o v ( e ( j ) ) 乙 2 剐 l e ( p ( ,) ) = ,= 仃2 l 一。 式中,= f 1 ,之,) ,1 f 2 i m ,l ,】,u ) ,x ( ,) ,p ( ,) 分别是模型( 2 2 1 ) 中的y ,x ,p 删除,中各行后得到的向量或矩阵。记屋“尼) 为数据删除模型( 4 2 5 ) 的岭估计,若 则有 a + = z - ( 1 - w j ) d j d j r o 譬l , l i m 屏( 尼) = 屈,) ( 七) ( 4 2 6 ) 叶。o + ,u 式中,乃为第歹个元素为1 ,其余元素都是0 的列向量。 证明:由岭估计的几何意义知,岭估计夕( 后) 是l s e ;的一种压缩估计。若已知 l s e ,将它压缩到原来的c 倍( o 0 ( 4 2 1 2 ) 来改善最小二乘估计,岭估计的研究和应用一直受到了广泛的重视且它已经 成为目前最有影响的一种有偏估计。 在约束线性回归模型下,s a r k a r ( 1 9 9 2 ) 在文 1 0 给出了一种新的估计 + ( 七) = 瓦像+ ,瓦= ( ,口+ 后( 彳x ) 。1 ) ,k 0 很显然 + ( 0 ) = 以+ ,l i m f l + ( 后) = 0 这是对( 4 2 1 1 ) 的自然推广,与此类似,史建红在文 1 l 】给出了新的条件岭 估计 ( 后) = ( k w + ,) 一以 ( 4 2 1 3 ) 其中w = ( x x ) 一( x x ) - 1r ( 尺( x x ) - 1r ) _ 1r ( x x ) - 1 在非齐次线性约束r p = ,的条件下,为了使估计满足r p = , j i i r g e n g r o f l 给出了一种新的有偏估计 羼( 七) = ( 尼,p o ) - s ;1 r ( 尺1 r ) 一( g l i ( k ,f l o ) - r ) ,k 0 ( 4 2 1 4 ) 其中p ( k ,p o ) = ( 彳x + 甜p ) - 1 ( x t + k r 7 ( r r ) - 1 ,) ,k o瓯= x x + 灯, 上述估计方法都可以看作是对约束型有偏估计研究的一些有效结果,从估计 效果来看,都能在一定程度上克服o r l s e 在处理共线性问题上的不足。 本章在等式约束条件下,给出了一种新的条件广义岭估计,并讨论了其 w e l s c h k u h 统计量与广义相关系数。 4 2 3 一个新的条件广义岭估计 定义4 1 对于约束线性回归模型( 4 2 1 0 ) ,称由下式给出的虞( 尼) 为的条件 广义岭估计 厦( k ) = 夕( k ) 一1 r7 ( 尺筇1 r ) 一1 r 夕( k ) ( 4 2 1 5 ) 其中k = d i a g ( k i ,尼2 ,后口) & = 微+ k 对于不同的k , ( 4 2 1 5 ) 给出了不同 的估计,可见条件广义岭估计是一个很大的估计类。 对于( 4 2 1 5 ) 所给出的估计,当k = 0 时,我们得到厦( o ) = 厥,当 t 寸0 0 ,i = 1 , 2 ,p 时,我们有以下定理 定理4 1 设坂= 1 - s ;1 r 7 ( r 1 r 7 ) - 1 1 ,m 置可以写成以下形式 收三( 致= 矿f ( + 叫妒 其中q = ,。一r ( r r 7 ) 一r , 是姒翘的p 一,1 个非平凡特征根组成的对角矩阵, v 是一个正交矩阵。 证明:对于m 置= ( q s 置9 + ,用加号逆的定义即可证明;对于第二部分, 妒f q = 姒翘+ 印因为姒和q 都为对称阵,目u ( o x x q ) = 甜( q ) 秩为p m , 所以凹翘和q 可以同时对角化,即存在矩阵y 使得 9 x x q = 矿( :兰) y ,q = y ( ,p 。- - ”趵矿 这里a 为硝翘的p 一聊个非平凡特征根组成的对角阵,所以结论得证。 定理4 2 对于( 4 2 1 5 ) 所给的估计,有l i m 。i i l ( 岛) 一厦( 后) = o 证明:对于( 4 2 1 5 ) 所给出的像( k ) 可以写成众( k ) = m 足x y ,而对于m r ,由 定理4 1 ,可以得出当m i n ( k ,) 专0 0 时m 置= 0 ,此时有反( k ) = o ,即 l i i i l 喇岛) 。反( k ) = 0 引理4 4 假设下式需要逆的地方均存在,则 ( a + b c d ) = a 叫- a 。1 b ( c 一1 + 删一1 召) 一1d a 一1 ( a - b c d ) 一= a 1 + a _ 1 b ( c 一一d a _ 1 占) 叫d a 1 证明: 见参考文献 1 】,王松桂,线性模型的理论及应用 ( 4 2 1 6 ) ( 4 2 1 7 ) 引理4 , 5 若,一彳与i a + b 均可逆,则 7 ( i - a ) _ b ( i - a + b ) = ( ,一彳) 一( ,一4 + b ) 一1 ( 4 2 1 8 ) ( i - a + b ) - 1 b ( i - a ) = ( ,一彳) 一一( ,一彳+ b ) _ 1 ( 4 2 1 9 ) 证明由关系式b = ( ,一彳+ 召) 一( ,一a ) 不难推出( 4 2 1 8 ) 和( 4 2 1 9 ) 式 定理4 3 ( 1 ) 屋,) ( k ) = 夕( k ) 一s x 一1 互( ,一只) 一1 句 1 6 ( 4 2 2 0 ) ( 2 ) 床( ,) ( k ) = 厦( k ) 一s g 一1 ( ,一m s x - 1 ) 墨( ,一e + q ( m ) ) 一1 占 ( 4 2 2 1 ) 其中弓= 一( x x + k ) 一1 z = 置& 一1 ,m = 尺( r s x 一1 r ) 一r ,句= 艺一五夕( k ) , 龟= y l x l 扛r i j i q q t ( m ) = xl s i l m s x - x t j o 证明: ( 1 ) 厦“k ) = ( x x x 五+ k ) 一1 ( x y x i 匕) = t x j x + k - x i x i 丫1 0 x 。y x ! y i 、) = 【( x x + k ) _ 1 + ( x x + k ) - 1 五( i - ( x x + k ) - 1 置) - 1 五( x x + k ) 。1 】( x 】,一五。匕) = & 1 + & - 1 蜀。( ,一只) 叫x t s k - l 】( x 】,一五r ) = 夕( k ) 一s x 一1 置艺+ s x 一1 五( ,一只) 一1 五& 一1 x y s ,x t i j i p l 丫1 x l s 1 x j y l = 夕( k ) + & 一1 蜀( ,一只) 一1 墨夕( k ) 一& 一1 五e 一& 一1 墨( j 一只) 一1 弓 = 夕( k ) + & 一1 ( ,一) x , b ( i c ) 一s x 一1 ( ,+ ( ,一只) 一1 e ) e = 夕( k ) + & 一1 五( ,一只) 一1 夕( k ) 一& 一1 置( ,一只) 一1 巧 = 夕( k ) 一s x 一1 五( ,一只) 一1 ( e z 夕( k ) ) = 夕( k ) 一乳一1 五。( ,一只) 一1 句 ( 4 2 2 0 ) 得证。 现证( 2 ) ,由( 4 2 1 7 ) 式得 ( x ( ,) 五,) + k ) 一= ( z x + k - x ,互) _ 1 = ( x 石+ k ) 1 + ( x x + k ) 叫彳,( i - 置( x x + k ) 1 置) - 1 置( x 工+ k ) 一1 = s x _ + s 1 x ! q p i 、x l s i 1 为 j 一只+ q ,( m ) - 1 的顺序特征根。因此 a ( i - p , + q ,( m ) ) 1 占= 占( p l ,昱90 9 e ) 1 1 一a o o l l _ 五 ( 5 1 1 4 ) ( 5 1 1 5 ) = 喜击鞠只琵击如= r s s ( 1 卅 6 , 其中r s s = 崧 综上,定理证毕。此定理给出了k 组数据( z ,咒) ( f j ) 的剔除对m 个试验点 ( t ,y g ) ( je j ) 处拟合值影响的上确界。 5 2 实例分析 我们采用影响分析中较为经典的分析数据讹d 阳数据。这是为了研究水 的耗氧量和周围环境关系的一组数据。在实验室条件下,对连续放置2 2 0 天的水 进行不断的测试。有关变量如下:y ,水的同耗氧量取对数( 单位为毫克分钟) ; 五,生物耗氧量;而,总的含氮量;x 3 ,固态物质含量;五,挥发性固态物质含 量( x 3 的一部分) ;五,化学物质耗氧量。其中五到x 5 的单位都是毫克公升。观 察数据如表4 1 所示,原数据来自参考文献 1 2 1 ,1 5 3 页。 表4 1m o o r e 数据 对此数据作线性回归, 咒= 一2 1 5 6 1 0 0 0 0 0 x i l + 0 0 0 1 3 x i 2 + 0 0 0 0 1 x f 3 + 0 0 0 7 9 x _ 4 + 0 0 0 0 1 x f 5 + q i = 1 ,2 ,2 0 计算得尺2 = o 8 1 ,因此拟合大体还可以,只是f 值较小,磊0 ,说明而的作用较 小。 现对该数据集的回归进行影响分析。各种影响度量值按其定义计算结果如表 4 2 所示。 表4 2m o o r e 数据的影响度量 由该表可知,1 7 号点的各种影响度量都较强,由第三列的检验值可知, ,= 0 9 7 比较小,因而可认为第1 7 号点为强影响点,而不是异常点。异常点为第 1 号点,因为= 3 5 8 最大,第一号点其它影响度量也较大。观察此表,我们还能 看出,w - k 统计量峨和c o o k 距离d f 度量影响的作用大体相同。 6 结论 本文从c o o k 距离和w e l s e h k u h 统计量入手,重点讨论了在一般线性模型和 数据删除模型中,最小二乘估计和岭估计的影响分析。利用矩阵分析和特征值的 性质,将删除的数据对估计量的影响推广到带约束的广义条件岭估计中,使其应 用范围更加广泛。 本文通过对岭估计的深入研究,提出了一种新的条件广义岭估计,并得到影 响的上界,同时建立了约束w e l s c h k u h 统计量和广义相关系数之间的联系。本文 的方法既兼顾了理论研究,又有一定的实际应用价值,所提出的上界可直接衡量 数据点的影响程度。 参考文献 【l 】王松桂线性模型的理论及应用 m 】合肥安徽教育出版社安徽1 9 8 7 【2 】c o o k 1 l d d e t e c t i o no fi n f l u e n t i a lo b s e r v a t i o n si nl i n e a rr e g r e s s i o n j t e c h n o m e t r i c s 1 9 7 7 ( 1 9 ) - 1 5 - 1 8 【3 】c o o k r d ,w e i s b e r g s c h a r a c t e r i z a t i o no fa l le m p i r i c a li n f l u e n c ef u n c t i o nf o rd e t e c t i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论