(概率论与数理统计专业论文)广义岭型主相关估计与可容许性的研究.pdf_第1页
(概率论与数理统计专业论文)广义岭型主相关估计与可容许性的研究.pdf_第2页
(概率论与数理统计专业论文)广义岭型主相关估计与可容许性的研究.pdf_第3页
(概率论与数理统计专业论文)广义岭型主相关估计与可容许性的研究.pdf_第4页
(概率论与数理统计专业论文)广义岭型主相关估计与可容许性的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:回归系数的最 b - 乘估计( 简称三s 估计) 具有许多良好的性质,例如 当回归模型中的误差服从正态分布时,l s 估计在所有无偏估计类中具有最小方差 性。然而,当x 呈病态时,这时虽然s 估计的方差在线性无偏估计类中最小,但 其值却很大,这使得s 估计精确度比较差。于是,许多学者致力于改进s 估计, 提出了许多新的估计,其中很重要的一类估计就是有偏估计。而在众多的有偏估 计中,影响较大的是岭估计、广义岭估计、主成分估计、主相关估计和s t e i n 压缩 估计等。 本文在第三章提出了一元回归模型回归系数的一种新的改进估计一广义岭型 主相关估计,给出了它的一些优良性质,分别在均方误差意义下和p i t m a n 准则下, 证明了它优于最d x z - 乘估计、岭型主相关估计和主相关估计。并通过实际的数据 验证了广义岭型主相关估计的优良性。在第四章把广义岭型主相关估计推广到增 长曲线模型中,同样在一定的条件下证明了它优于最小二乘估计、主相关估计。 同样通过实际的数据验证了它的优良性。 可容许性是对一个估计的最起码的要求,因为如果一个估计是不可容许的, 那么我们就能够找到另外一个更好的估计去代替它。本文在第五章证明了广义岭 型主相关估计是可容许估计,并进一步在矩阵损失下讨论了带约束的增长曲线模 型中可估函数k b l 的可容许性问题,利用约束条件下增长曲线模型中线性估计的 可容许性与约束条件下一元线性模型中线性估计的可容许性在齐次线性估计类中 具有等价性这一特征,得到了带约束的增长曲线模型中可估函数k b l 在非齐次线 性估计类是可容许估计的充分必要条件。 关键词:线性回归模型;广义岭型主相关估计:均方误差;p i t m a n 准则;增长曲 线模型;可容许估计;矩阵损失 分类号:0 2 1 2 4 a b s t r a c t a b s t r a c t :t h el e a s ts q u a r e se s t i m a t eo ft h er e g r e s s i o np a r a m e t e r s ( s h o r t e n e df o r m l se s t i m a t e ) h a sm a n y9 0 0 dn a t u r e ,f o re x a m p l e , w h e ne r r o ri sn o r m a l l yd i s t r i b u t i o ni n r e g r e s s i o nm o d e l ,i th a st h es m a l l e s tv a r i a n c ei na l lu n b i a s e de s t i m a t e sc l a s s b u t ,w h e n a s s u m e sxs h o w ss t r a n g es t a t e ,b yn o wa l t h o u g hi t sv a r i a n c ei st h es m a l l e s ti nt h el i n e a r u n b i a s e de s t i m a t ec l a s s ,b u ti t sm e a ns q u a r e se r r o ri sv e r ya c t u a l l yb i g t h e r e f o r em a n y s c h o l a r sd e v o t et ot h ei m p r o v e m e n te s t i m a t e ,p r o p o s e dm a n yn e we s t i m a t e s av e r y i m p o r t a n tk i n do fe s t i m a t e si su n b i a s e de s t i m a t e s a n di nn u m e r o u su n b i a s e de s t i m a t e s , w h a ta f f e c t st h eb i g g e s ti st h er i d g ee s t i m a t e d ,g e n e r a l i z e dr i d g ee s t i m a t e ,p r i n c i p a l c o m p o n e n t se s t i m a t e ,p r i n c i p a lc o r r e l a t i o ne s t i m a t ea n ds t e i ne s t i m a t ea n ds oo n i nt h i sp a p e r , w ep r o p o s ean e wb i a s e de s t i m a t eo ft h er e g r e s s i o np a r a m e t e r s - - t h e g e n e r a l i z e dr i d g ea n dp r i n c i p a lc o r r e l a t i o ne s t i m a t ei nt h et h i r dc h a p t e r , w eg i v ei t s s o m ep r o p e r t i e sa n dp r o v et h a ti ti ss u p e r i o rt ol s e ( 1 e a s ts q u a r e se s t i m a t e ) ,p r i n c i p a l c o r r e l a t i o ne s t i m a t e ,r i d g ea n dp r i n c i p a lc o r r e l a t i o ne s t i m a t eu n d e rs o m ec e r t a i n c o n d i t i o n sw h e nw es e l e c tm s e ( m e a ns q u a r e se r r o r ) a n dp m c ( p i t m a nc l o s e n e s s ) c r i t e r i o nr e s p e c t i v e l y i nt h ef o u r t hc h a p t e r , p r o m o t e st h eg e n e r a l i z e dr i d g ea n dp r i n c i p a li ng r o w t hc u r v em o d e l s i m i l a r l yh a dp r o v e ni t so p t i m a l i t y , a n di t so p t i m a l i t yh a sb e c o n f i r m e dt h r o u g ht h ea c t u a ld a t a t h ea d m i s s i b i l i t yi st h em o s tm i n i m u mr e q u e s tt oa ne s t i m a t e i nt h ef i f t hc h a p t e r , t h i sp a p e rp r o v e dt h ep r i n c i p a lc o r r e l a t i o ne s t i m a t ei sa d m i s s i b l e ,a n dc o n s i d e r i n gt h e a d m i s s i b i l i t yo fl i n e a re s t i m a t e si ng r o w t hc u r v em o d e lu n d e rm a t r i xl o s sw i t hr e s p e c t t oa ni n c o m p l e t ee l l i p s o i d a lr e s t r i c t i o n ,w eu s et h ef a c tt h a tt h ea d m i s s i b i l i t yo ft h e l i n e a re s t i m a t ei ng r o w t hc u r v em o d e lw i t ha nr e s t r i c t i o nu n d e rm a t r i xl o s si si d e n t i c a l w i t ht h a to ft h el i n e a re s t i m a t ei nt h en e c e s s a r ya n ds u f f i c i e n ts i n g l el i n e a rm o d e l u n d e rm a t r i xl o s s f r o mt h a tw eo b t a i nt h en e c e s s a r ya n ds u f f i c i e n tc o n d i t i o n sf o r d y f + ct ob ea d m i s s i b l ee s t i m a t e so fe s t i m a b l ef u n c t i o nk b li nt h en o n h o m o g e n o u s l i n e a rc l a s s k e y w o r d s :l i n e a r r e g r e s s i o nm o d e l ;g e n e r a l i z e dr i d g ea n dp r i n c i p a lc o r r e l a t i o n e s t i m a t e ;m e a ns q u a r e se r r o r ;p i t m a nc l o s e n e s sc r i t e r i o n ;g r o w t hc u r v em o d e l ; a d m i s s i b i l i t y ;m a t r i xl o s sf u n c t i o n c i a s s n o :0 2 12 4 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 郛欠星 签字同期:w 多年莎月7 , - - 同 导师橼旅尚多 签字闩期:舻多月力同 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:郭叉蒸 签字同期: 少留年歹月同 4 3 致谢 本论文的工作是在我的导师张尚立老师的悉心指导下完成的。研究生阶段的 学习即将结束,回想在北京交通大学的求学过程,首先要感谢我的导师张尚立老 师,他在学习上给予我不倦的教诲,悉心的指导和深切的关怀。张尚立老师严谨 求实的治学态度、精益求精的科研作风和精深渊博的领域知识给了我极大的帮助 和影响。他不仅为指导我的学习和科研工作倾注了大量的心血,在生活上也给予 了我很大的关心和帮助,在此,谨向张老师表示深深的敬意和衷心的感谢! 其次,我要感谢理学院的各位老师对我的大力支持与鼓励。在校期问,我得 到了理学院诸位老师给予的指导与帮助。许多老师都曾给我上过课,他们兢兢业 业,勤勤恳恳,把自己的一生都献给了科学教育事业,值得我永远学习。他们高 尚的道德情操和对数学独到的见解深深地影响了我,使我不断进步。在此,向他 们表示我最衷心的祝福和谢意! 最后我要借此机会向我的父母表达我最深切的感激之情。家人多年来默默无 闻的在背后支持我,给了我一个舒适安定的学习环境,正是他们无私的支持和不 断的鼓励使我得以顺利完成学业,衷心地感谢他们! 1 1 最小二乘估计理论 1 引言 线性模型是数理统计学中发展比较早的分支之一。关于它的参数估计问题的 研究可以追溯到上世纪初。著名数学家a m l e g e n d r e 和c e g a u s s 先后于1 8 0 6 年 和1 8 0 9 年独立地把最小二乘应用于观测数据的误差分析。后来,a a m a d o v 于1 9 0 0 年证明了最小二乘估计的方差最小性质,即著名的g a u s s m a r k o v 定理,奠定了最 d , - 乘法在参数估计理论中的地位。r c b o s e l 9 4 4 年引入的可估计函数的概念以 及广义逆矩阵的作用,使得设计阵为列降秩的线性模型的估计理论表述得更加严 格而简洁。误差协方差阵为奇异阵的线性模型的研究始于本世纪6 0 年代中期。 g o l d m a n 和z e l e n 9 率先提出了用满秩线性变换把模型化为协方差阵为盯2 i 且带 线性约束的情形。后来,r a o 1 0 采用推广最小二乘法的途径,提出了所谓的“最 d , - - 乘统一理论”( t h eu n i f i e dt h e o r yo f l e a s ts q u a r e s ) 。这种方法即适用于设计阵 列满秩或列降秩,又适用于协方差阵奇异情形。而几乎在同一时期,r a o 还提出了 另一种方法一分块逆矩阵法。当然,还存在其它一些估计方法 1 7 】。这些结果构成 了线性模型最小二乘估计理论的基本内容。 1 2 有偏估计 回归系数的s 估计具有许多良好的性质,其中最重要的是g a u s s - - m a r k o v 定 理。它表明在一切线性无偏估计中,l s 估计具有最小方差。这些性质奠定了s 估 计的重要地位。但是,随着现代电子计算机技术的飞速发展,使得人们有可能处 理包含较多自变量的大型回归问题。这时,因为自变量很多,有时难免自变量之 间存在近似的线性关系,从而导致设计阵x 的列向量近似地线性相关,人们称这 样的设计阵为病态的。当x 呈病态时,x x 接近奇异,这时虽然嬲估计的方差 在线性无偏估计类中最小,但其值却很大,使得l s 估计精确度比较差,表现出相 当的不稳定。于是近二十年来,许多学者致力于改进s 估计,提出了许多新的估 计。其中很重要的一类估计就是有偏估计,即均值不等于参数向量的估计。在众 多的有偏估计中,影响较大的是岭估计,广义岭估计,主成分估计,主相关估计 和s t e i n 压缩估计等。在所有这些估计中,都含有待定的一个或多个参数。对于不 同的参数可以给出不同的估计,因此它们都是很大的估计类。如果这些参数都是 非随机的,那么这些估计都是名副其实的线性有偏估计这些有偏估计都有自己 的适用范围,因此,在一定范围内找到合适的估计很有价值。 1 3 可容许性 可容许性是对一个估计的最起码的要求。因为如果一个估计是不可容许的, 那么我们就能够找到另外一个更好的估计去代替它。在人们常用的估计中,有一 些估计是不可容许的。1 9 5 6 年,s t e i n 给出在模型】,一n ( f l ,i 。) 及二次损失忙一硎2 下, 否定了当刀3 时,y 为的可容许估计这一猜想,这个结果给了人们极大的震动, 从而可容许性问题引起了统计学家的普遍关注,这一重要的发现成为以后许多工 作的起点。 常见的也是最常用的损失函数是二次损失函数和矩阵损失函数。 关于无约束线性模型中( 在二次损失和矩阵损失下) 线性估计的可容许性问题 的结果已较完满,对于带约束的线性模型中的可容许性估计问题,自h o f f m a n n 1 l 】 首次研究了带约束的一元线性模型中回归参数的可容许估计后,许多文献在二次 损失与矩阵损失下对带约束的一元线性模型作了进一步的讨论,近年来很多学者 又研究了多元线性模型中回归系数与参数的线性估计的可容许性问题,取得了很 多的进展。 2 2 预备知识 矩阵是研究线性模型最基本的工具之一,为此,我们介绍一些后文需要用到 的一些相关结论。首先介绍本文中的常用的一些符号: 么 矩阵a 的转置矩阵 a 0 矩阵a 是非负定矩阵 a b 即a b 0 t r ( a ) 矩阵彳的迹 彳+ 矩阵a 的m o o r e p e n r o s e 广义逆 a 一 矩阵a 的广义逆 彳) 矩阵a 的列向量生成的子空间 v e c ( a ) 矩阵彳按列拉直所成向量 a o b 矩阵么和曰的k r o n e c k e r 乘积 2 1 无偏估计 我们考虑线性模型 y = x p + 占,e ( 占) = 0c o y ( e ) = o r 2 i ( 2 1 1 ) 的参数的估计问题,这里y 为n x l 观测向量,x 为n xp 的设计矩阵,为p x l 未 知参数向量,o r 2 为误差方差,o r 2 0 。r ( x ) = ,p 。若, 0 为常数,称为岭参数,是一个修正值。( 2 2 1 ) 给出了不同的估计类。可 见岭估计是一个很大的估计类。特别的,当k = 0 时,得到了s 估计。直观上,当 设计阵x 称病态时,x x 接近奇异,但x x + 材接近奇异的程度会有所改善。 因此岭估计可望是一个良好估计。它是目前使用最广泛的非最d - - 乘估计。 令q x 翘= 人,其中q 是正交阵,人是对角阵,于是有 ( 七) = ( x x + 射) _ x y = q ( 人+ 灯) 。1 人q l l 夕( 露) 1 1 2 = l l ( a + k i ) 叫人q 夕| | 2 l q 夕| | 2 l 夕旷 所以,矽( 七) 是把朋估计向原点作压缩得到的,且e t a ( k ) ) 。故,岭估计是 一种压缩有偏估计。 为了研究岭估计的性质以及后面讨论其他估计的需要,我们引进线性回归模 型( 2 2 1 ) 的典则形式。设识,作为x x 对应于特征根a 五,的标准正交化特 征向量。记q = ( 仍,伊,) ,人= d i a g c a l ,乃) ,则 y = x p + s = z a + s ( 2 2 2 ) 其中,z = x q ,a = q f l 。我们称( 2 2 2 ) 为线性回归模型的典则形式,口称为典则回归 系数。于是对于( 2 2 2 ) ,z , z = q x x q = a ,所以从( 2 2 2 ) 导出口的s 估计为 舀= 人。1 z y ( 2 2 3 ) 原回归系数的s 估计可表为 4 = ( 2 2 4 ) 相应的岭估计分别为 舀( 后) = ( 人+ 灯) - 1 z ,y( 2 2 5 ) 和 ( 后) = ( 猫( 七)( 2 2 6 ) 因为均方误差在估计和参数的正交变换下保持不变,所以典则回归系数和原 叫归系数的s 估计( 或岭估计) 有相同的均方误差。即 m s e ( f 1 ) = m s e ( & )( 2 2 7 ) 由【2 】知,当。 k = 1 0 则认为夕太长,需要对它作压缩。压缩量由彦2 百1 决定。他们建议选择k 使得 2 一) 1 1 2 彦2 圭彳1 即选择k ,使得 黔) | | 2 1 4 1 2 圭订1 = 如果o ,则认为夕还不算太长,此时对夕不作压缩,g p j , 缝k = o 。 ( 5 ) 双h 公式 v i n o d 和u l l a h 把一些选k 公式统一为 ( h 。,h :) = h f i - 2 其中l 一= 夕a 夕+ h 2 0 2 a 0 为已知方阵且q 彳q 为对角阵,这旱q 为正交阵。因为这个公式含两个 待选参数扛,h 2 ,故得“a h 公式”之名。如果岭参数由确定,对应的岭估计常称 为双h 类岭估计( d o u b l eh - c l a s sr i d g ee s t i m a t e ) 这个公式包含了其它一些常用的选 k 公式。例如,取a = x x ,h i = p ,吃= 0 ,就变为l a w l e s s w a n g 公式: = p 彦2 l x x其中l x = 夕x x 夕 又,若取彳= i p ,h i = p ,红= 0 ,变为h o e r l k e n n a r d - b a l d w i n 公式: = p 毋2 厶其中l 。= 夕矽 可以证明,若j l l l ,j i l 2 满足条件 。 0 ,总有忪( k ) 0 0 ,使得 m s e ( f l ( k ) ) m s e ( f 1 ) 从定义可知,典则参数口的厂义岭估计为舀( k ) = ( 人+ k ) - 1 人西, 朋距( 夕( k ) ) = m s e ( d t ( k ) ) = t r c o v ( d t ( k ) ) + l l e & ( x ) - a l l 2 = 彳( 岛) 其中州轳斋+ ( 蔫) 2 ,扛l ,一,p 容易验证:( 2 2 9 ) 的最小值当勺:乏,f :l ,2 ,p “f 时达到,记k = e i a g ( k 。,k 2 ,吒) ,则 其均方误差为 ( 2 2 9 ) ( 2 2 1 0 ) 栅e ( 夕( k ) ) = 盯2 ( 丑+ o r 2 彳) - 1 仃2 石1 = m s e ( f 1 ) 即广义岭估计比l s 估计有较小的均方误差。遗憾的是,( 2 2 1 0 ) 与未知参数有关, 并不能直接应用,目前已提出许多方法,本文介绍其中的几种。 a 2 ( 1 ) 磅= 丢,i = l ,2 ,p ( 2 2 1 1 ) ,r 。 其中,用彦2 和舀,代替盯2 和磁。 ( 2 ) t 2 焘_ l 2 ,。,p ,当译8 - 2 以 0 ,这里,皆已知。记五以 为的特征根,仍,为对应的标准正交化特征向量,即q = ( 识,) 为正交阵, 且使 q q = a = d i a g ( ) 、,五,乃) 我们称 卜、 z = l :| q ( x - o h 为随机向量x 的主成分,称乙= 群( x 一) 为x 的第i 个主成分,f - 1 ,p 。主 成分有许多优良性质冈而在多元数据分析中有很多应用,成为多元统计学中一个 重要概念。 二、回归系数的主成分估计 考虑线性回归模型( 2 1 1 ) 和( 2 2 2 ) 。如果把原来的p 个回归自变量 x = ( ,x 。) 视为随机变量,设计阵工的n 个行作为x 的n 个随机样本( 中心化了 的样本) ,那么x x n 就是x 的协方差阵的一个估计。而z = ( z l ,一,z ,) 就是样 本主成分组成的设计阵。可见,所谓线性回归模型的典则形式就是以原回归变量 x = ( ,x ,) 的主成分z i 一,z p 为新自变量的回归模型。如果设计阵x 呈病态,那 么x x 的特征根a ,丸中有一部分很小,不妨设后p - r 个很小,即 4 ,以0 ,这时后p 一,个新自变量( 即主成分) 0 + ,z p 在n 次试验中取值 变化很小。事实上,记刁= ( 毛,一,z n ,) ,乏2 二1h x z j i ,因x 已中心化可推知乏= o 。 则第i 个新自变量z ,( 即第f 个主成分) 在n 次试验中取值波动大小为 ( 知一乏) 2 = 弓 i - - i i = 1 = z :z t = 畦x x 铁= 丸o , i 芝r + 1 也就是说,新自变量z 川,z ,可以从模型中剔除。 基于上述思想,若钆i ,一,屯0 。将人,口,z ,g 作相应分块 人= ( 八l 乏) 口制 z = ( z ( 。) jz ( :) ) q = ( q l ;q 2 ) 于是模型变形为 其中人l :, 其中a ( i ) :r x l , 其中z ( 1 ) nxr , 其中q l :p x r y = z ( ”q 1 ) + z ( 2 ) 口( 2 ) + s e ( ) = o ,c o y ( 6 ) = t a r 2 i ,( 2 2 1 3 ) 剔出z ( :) q :,这一项,p , p m 幺:) = o 估计q :) ,然后求得嗷。) 的s 估计 幺i ,2 a i l 乙) y 最后利用关系夕= 啦,得到的估计 定义2 2 3 万= q ( 】= q i 幺,= q 1 人- l 乙,y , ( 2 2 1 4 ) 为的主成分估计( p r i n c i p a lc o m p o n e n t se s t i m a t e ) 。 主成分估计具有下列性质: ( 1 ) = q i 卯,即主成分估计是s 估计的一个线性变换。 ( 2 ) e ( p ) = q l 纠,只要厂 p ,主成分估计就是有偏估计。 ( 3 ) 护l l 0 为常数,称为岭参数,是一个修证值。特别的,当k = 0 时,得到了s 估 计。直观上,当设计阵z 称病态时,z z 接近奇异,但z z + 材接近奇异的程度会 有所改善。 当时= k 时为广义岭型主成分估计,其中,k = ( k ik 2 ,屯) 定义2 2 5 广义岭型主成分估计f l ( k ) = q i ( 人。+ k ) 一z 厶y ( 2 2 1 6 ) 2 3 估计的可容许性 考虑一般的参数估计问题,设痧为待估参数向量0 的一个估计。因为万一般与 真值乡有一定偏差,于是基于痧的统计决策相对于秒会产生一定的损失。用l ( o ,口) 记这个损失函数,其平均损失e l ( o ,口) 称为痧的风险函数,记为尺( 痧,秒) 。一般采用 的损失函数为0 的二次损失函数和矩阵损失函数。 9 三( 疹,印= ( 否一秒) o ( 0 一秒) 全肾口b d 0 ( 2 3 1 3 ) l ( o ,秒) = ( 秒一口) ( p 一印( 2 3 2 ) 对二次损失( 2 3 1 ) ,其风险函数为 r ( 9 ,口) = e ( o 一们d ( o 一印( 2 3 3 ) 称为广义均方误差,简记为g m s e ( o ) 。特别的,当d = ,时,风险函数为 r ( o ,秒) = e ( o - o ) ( o - o ) 皇eo - o l i( 2 3 4 ) _o 1 i 称为秒的均方误差,常记为m s e ( o ) 。对于矩阵损失( 2 3 2 ) ,风险函数为 r ( o ,p ) = e ( o - o ) ( o 一回( 2 3 5 ) 称为目的均方误差矩阵,常记为m s e m ( 0 ) 。 定义2 3 1 :设o l 和巨为秒的两个估计,如果对于风险函数r ( - , - ) ,有 1 ) 尺( q ,秒) 尺( 砬,口) ,对一切口成立; 2 ) 至少存在一个铱,使得不等号成立, 则称岛关于风险函数足( ,) ( 或者说,关于尺( ,) 所对应的损失函数) 一致优于 幺。若在某个估计类中,不存在一致优于乡的估计,则称秒在该估计类中关于风险 函数r ( ,) 为目的可容许估计,简称9 为秒的可容许估计。否则,称秒为9 的不可容 许估计。 1 0 3 一元线性模型中的广义岭型主相关估计 3 1 主相关估计 考虑线性回归模型 y = 即+ e ,e ( p ) = 0 ,c o y ( e ) = 盯2 i ( 3 1 1 ) 其中y 为刀1 观测向量,x 为刀p 设计阵,r a n k ( x ) = p ,为p x1 待估回归系数向 量,e 为疗1 随机误差向量,为行阶单位阵,最小二乘估计为夕= ( x x ) 一x y ,设 x x 的谱分解为x x = 删,其中,人= d i a g ( 3 1 ,丑,旯。) 人l = d i a g ( 2 l ,五2 ,乃) a 五五p 0 ,尸= ( 破,唬,砟) 是p 阶j 下交阵,定义唬x 与因变量y 的相关 系数为n ,这罩可以用a :黑江1 ,2 ,p 估计d ,我们用a 度量办z 对y 的 、1v d 影响程度,其中彦是仃= v a r ( y ) 的估计值,文【1 8 】在考虑相关系数大小的基础上 提出了主相关估计。 由于后面只需要渔l 的大小次序,这与彦没有关系,所以我们只须对与排 ,、,矿 v 序即可。设i al 协:l 协,l ,耿,p 的第,i 2 ,f ,列作为子阵u l ,其余( p 一,) 列作为子阵u :,则矽= ( u 。i u :) 为正交阵,且人= ( u ;) f i ( u ;) ,其中 天= 疣昭( 五,心,_ i + i ,名,) ,记 = p i l l - - p ( u 。;) ,所以将x x 谱分解有 x 拈珊,眠口分块有n h :) ,良( 鹈m = 其中天l = d i a g ( 3 气,气,) ,q ”:r x l ,z = ( z ( - ) i z , :) ) ,z ( i ) z l x r , 厅为刀r 的列正交阵。则( 3 1 1 ) 变为 y = z o ) a 1 1 ) + z ( 2 ) 口( 2 ) + 占 e ( f ) = o ,c o y ( e ) = o r 2 j , 剔出z ( :) 呸:) 这一项,即用喀:) = o 估计q :) ,然后求得q 。) 的l s 估计 幺。,= 天i 1 y ( 3 i 2 ) ( 3 i 3 ) 最后利用关系= 户口,得到的估计 定义3 矽= 户伊) 坪心卜聃1 私丫 ( 3 ) 矽丢弃了与】,的相关系数较小的主成分后得到的,称矽为的主相关估计。 3 2 广义岭型主相关估计 3 2 1 广义岭型主相关估计的定义 定义3 2 1广义岭型主相关估计: 矽( k ) = 丘( 天。+ k ) 一私7( 3 2 1 ) 其中k = d i a g ( k ,k 岛,k ) ,k f , 0 ,j = 1 , 2 , 注:此估计不但删除了对因变量影响较小的主成分,而且改善了接近于o 的特征 根的程度,具有更加广泛的意义,当k ,。= t 时为岭型主相关估计,即岭型主相关估计 是广义岭型主相关估计的特例。 下面用、f l ( t ) 、f l ( k ) 分别表示的s 估计、主相关估计、岭型主相关 估计、广义岭型主相关估计。 3 2 2 广义岭型主相关估计的性质 性质3 2 1f l ( k ) 是的线性有偏估计 证明:因为矽( k ) = 丘( 天。+ k ) 叫露x y = 丘m ( k ) 丘7 声,所以有 取反鳓= p 一- m ( k ) p 。w 办舯坂耻蜊焘袁,焘) 所以当 o 时矽( k ) 是的线性有偏估计 证毕。 性质3 2 2 忪( k ) 忪8 ,即矽( 足) 是夕的压缩估计,其中1 1 | l 表示欧式范数 证明:忪( k ) l = 忙m ( k ) 君冽= 8 m ( r ) 口冽 i | 露冽= 忪j | 证毕。 下面我们讨论矽( k ) 在广义岭型降维估计类中的方差最优性 根据文【1 7 】提出的,维降维估计类,我们定义广义岭型降维估计类: 记 q = ( u ) l 夕( 【,) = u ( u x u + q ) 1 u x t ,其中u 是p ,列满秩,且 u = p 。a q ,q 为r xrj 下交阵, 五= d i a g ( 6 ,以,肛,) ,显然f l ( k ) q ,对任意 矽( u ) q 有c o v o ( u ) ) = 后( 天。+ k 五) 。1 天。( 天。+ k 五2 ) 一1 斤仃2 面叫南,南,南户 n 2 固 c o v ( f l ( k ) ) = 丘( 天,+ k ) 一1 天,( 天,+ k ) 一丘孑2 = 丘d i a g l 南,南,南户 n 2 性质3 2 3 当心1 ( = l ,2 ,厂) 时,对任意降维估计( u ) q 有 c o v ( 矽( k ) ) c d y ( 矽( u ) ) ,且等号成立的充要条件为以= 1 证明:当心c 歹= - 幺,厂,时南 1 2 i f 拿i 了,当心= 时相等,再由 ( 3 2 2 ) 式和( 3 2 3 ) 式司知结论成立。 性质3 2 4 当a ,r j = 1 , 2 ,厂) 时,对任意降维估计( u ) q 有 磊,c d ,( 矽( u ) ) 允i ,=1,2,厂,且等号成立的充要条件为鸬,=l。icov(fl(k)j 性质3 2 5 当a ,;l ( j = 1 , 2 ,) 时,对任意降维估计( u ) q 有 t r c o v o ( u ) ) t r c o v ( f l ( k ) ) ,且等号成立的充要条件为鸬= 1 。此性质表明 当肛1 ( j = 1 , 2 ,厂) 时,广义岭型主相关估计f l ( k ) 在广义岭型降维估计类中的方 差和最小,但这种估计不唯一。 性质3 2 6 当a ,l ( j = 1 , 2 ,) 时,对任意降维估计( u ) q 有 i i c o y ( 夕( k ) ) l i l i c - d v ( 夕( u ) ) 且等号成立的充要条件为 = l 。 由于i l c b v ( 矽( k ) ) l 怿l c 白“矽( 【,) ) | | 的充要条件是- g 。v ( 3 ( v ) ) - z 4 ,c o v ( 矽( k ) ) , 再由性质3 2 4 可知成立。 性质3 2 7 当a ,l ( j = 1 , 2 ,) 时,对任意降维估计( u ) q 有 m i n m a ) 【堕螋:m a ) 【堕攀:m c o y ( 矽( k ) ) uc c 。c c c c 7 m = m a x ( 2 i ,九, ,) 其中c 是p x l 维向量,此结果刻画了广义岭型主相关估计方差的r a i n m a x 性质 3 2 3m s e 和m s e m 下广义岭型主相关估计的优良性 一屺m2 m a x ( 2 i ,以:,2 i r ) m2 m i n ( 2 1 ,九,) n = m a x ( k ,k ,)n = m i n ( k ,k 如,k ) 定理3 2 1 在椭球口c a 仃2 内,有船e ( 矽( k ) ) m s e ( f 1 ) ,其中 c = ( 詈暑) ,c 一= 石暑三专糍,= ( 磊:) ,。,:,- , 吒j ) rx l ,口= 户。 矾脚c 砌= 喜南+ 喜蔫+ 喜。巧 m s e ( f 1 ) = r 丁0 2 + 羔 那么m s e ( f l ( k ) ) m s e ( f 1 ) 岱喜斋唼焉 嘉等 、一、 ” ”q 啦 ,。l = 口 营嘉焉 否r 警并 n 2 q 注意到,如果高等矿喜印 瓦n 再2 + 而2 r a n 盯2 威z - c r 那么霸,两n 2 而( m 而+ n ) 2 m 盯2 瑾厶c i q ” o r 2 口7 c o t o r 2 证毕 令矽( k ) = 彳夕,矽( f ) = 曰夕,其中 彳= ( 考”暑) 4 。,= c 天。+ k ,- 1 天 , b = ( 5 暑) b 。,= c 天。+ 玎,一天 定理3 2 2如果7 c 盯2 ,那么m s e m ( f l ( k ) ) m s e m ( f 1 ) 其中c = ( ,一彳) 天( ,+ 彳) 一1 证明:m s e m ( f l ( k ) ) = o r 2 a 2 天i 1 + ( ,一a ) p p ( ,一彳) ,m s e m ( f 1 ) = o r 2 天i 因此m s e m ( f l ( k ) ) m s e m ( f 1 ) 铮盯2 a 2 天i 1 + ( ,一a ) f l f l 7 ( ,一彳) o r 2 天i 1 c ( j a ) p p ( ,一彳) 盯2 ( j a 2 ) 天i 1 仁p ( ,一爿) 天l ( ,+ 爿) 一1p o r 2 ( 由彳m r 0 2 可知2 x 筇x n 2 0 证明:因为厂( 七) = 等,令厂( k ) = 。求得当k = 7 0 2 时( k ) 有极值, 经验证是最小值。 证毕。 定理3 2 3 存在k = d i a g ( k ,吒,气) ,使得毖皿( 矽( k ) ) m 距( 矽( ) ) 证明:对于k 0 ,不失一般性,令氏= ,气= = = f 0 则 m s e ( f l ( k ) ) 一m s e ( f l ( t ) ) = 乃( 岛,) 一乃( f ) = :( k ) 一彳( f ) 由引理3 2 1 知一饭) 六( ,) ,所以有m s e ( f l ( k ) ) - p l l 2 _ l l 矽( f ) 一1 1 2 = 仃2 l l 彳善一鲁| | 2 8 聪一鲁| 1 2l ( 尼) = i i :似) - p l l 2 一。夕一1 1 2 = 盯2 l f 彳孝一譬l | 2 一l | 孝一譬1 1 2l 栅2 4 当雩筹铲倒l 譬雌删下肚, 优于夕,其中万,满足如下条件p ( 慨f ) l l 器剐叭3 2 7 舭,因此删7 ) 成娩瓜 ( 3 2 8 ) 成立委p ( 笠o r ) 2 委,( 彭一鲁) 2 2 羔警羔芎成立。 ( 3 2 1 1 ) ,害r + l q j i = r + l 类似于上面的证明,当l i 墨:1 1 譬,时,只( 3 2 8 ) 成立) 砑,我们有 栅2 5 孙,蚓| o 为x x 的特征根。 下面我们引进增长曲线模型的典则形式 i v e c ( y ) = ( 墨o z ) 口+ v e c ( e ) 1 ( 小( o ,g 押。) ( 4 5 ) 其中口= ( j op ) ,z = x i p ,p 是i t 交阵,p x f _ x l p = z z = a = a i a g ( a 1 ,五) 口称为典则参数。不难计算 口的三s 估计为 应= ( t ) 叫置。人叫z7 v e c ( y ) 对p 进行分块尸= ( 只;罡) ,其中p , 为q x r 列正交阵。z = ( z i ;z 2 ) 则罗的主成分估计可表示为 = ( lo # ) ( t ) 。1o 人i 1 ( 厶。置) ( to x ;) v e c ( y ) = ( 五墨) 。1 圆h a ;1 明( 置x io 墨) = 【( t 一) 一圆p , a f l 印( 置z p h y ) f l = ( ,。0 e , e , 3 f l 下面涉及的户,詹, 天,天。,& ,名:,五与上一章所定义的一样。 则的主相关估计可表示为 = ( j 。o e , e , b p 广义岭型主相关估计可表示为 f l ( k ) = ( l0p , p o f l ( k ) = ( 厶圆名鼻) 【( x :墨) 一墨p ( x x + k ) 叫x ; g e c ( y ) = 【( 置墨) 一置q 墨硪x 。+ 墨) 1 x ; g e c ( r )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论