(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf_第1页
(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf_第2页
(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf_第3页
(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf_第4页
(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(概率论与数理统计专业论文)变系数ev模型系数参数的核估计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变系数e v 模型系数参数的核估计 摘要 e v ( e r r o r s 。i n v a r i a b l e s ) 模型,是自变量和因变量都带有误差的回归模型。 e v 模型的研究有很长的一段历史。早在2 0 世纪以前,科学家们就已经关 注此模型( a d c o c k ,1 8 7 7 ,1 8 7 8 ;k u m m e l ,1 8 7 9 ) 。f u l l e r ( 1 9 8 7 ) 出版了专著,主要讨 论了线性e v 模型。但是,由于e v 模型的特殊结构,对它的研究要比经典 的回归模型困难,e v 模型的参数估计的存在性及其相合性问题比经典的 【旦i 归模型要复杂得多( c h e n g v a n n a s s ,1 9 9 9 ) 。迄今为止,人们对e v 模型的 研究主要是以下儿种途径。( 一) 对模型作一些假定,常见的是假定测量误 差服从正态分布且方差满足某些条件( 如协方差阵为正定矩阵等) ,在此 假定下研究模型的参数估计及其性质。也有些学者研究了误差为非正态 分布的情形。( - 3 为了避免这些人为的假定而采用有重复观测( r e p l i c a t e d o b s e r v a t i o n s ) ,利用这些观测数据得到具有良好性质的相关估计。 变系数模型( v a r y i n g - c o e f f i c i e n tm o d e l s ) 自c l e v e l a n d ,g r o s s e ,和s h y u ( 1 9 9 2 ) 与h a s t i e ,t i b s h i r a n i ( 1 9 9 3 ) 首次提出至今,已在国内外产生了较深刻的影响。 理论上得到了较深入的研究,实践上也被广泛地应用于生物、医学等方 面。 由于在实际问题中自变量的观测存在不可忽视的误差( 如测量工具等 因数引起的误差等) 。因此,将变系数模型和e v 模型加以结合就更接近 实际,具有很好的理论意义和实际应用意义。这就提出了一个新的研究 方向:变系数e v 模型。本文讨论如下变系数e v 模型: 其中 = ( ,。1 ,x i p ) 7 ,卢( f ,) = ( f j ) ,卢】( ) ,f l p ( t i ) ) 7 砷= ( 甜帕,“f l ,“驴) 7 ,= ( 粕,x i ,一,而) 7 ( “竹) 是r p “x r l 上的随机变量,在实际中,0 。y ) 的值一般不能精确 观测,其观测值为瞒,e ) 。b j ( t ) u = 0 ,1 ,p ) 是有界连续函数,且历( r ) 嘶 卢+ + 巧 曲 1 1 = = 耳* j,、l 湖南师范大学2 0 0 6 届硕士学位论文 o j = 0 ,1 ,称n t ) 为变系数。t 是取值为实数的随机变量( 包括退化 情形) ,其支撑为有界闭集,不妨设为 o ,1 。( “j ) 7 为p + 2 维独立同分 布的随机误差向量,且满足e ( 日,w j ) 7 = 0 ,c o v ( s j ,“? ) 7 = 一h :,c r 2 ,0 未知。 而与撕,y i 与日,茸与e i 都不相关,每次观测之间相互独立。 本文利用核函数法和广义最小二乘法讨论了该模型系数参数及误差 方差的估计问题。其基本思想是:先假定其中的系数参数取它的数学期 望,把模型变成标准的线性模型,用最小二乘法得到系数的第一步估计。 此时,我们用其中的p 个估计值定义系数函数的第一步核估计,然后将 得到的这个估计值又代入模型中,重新变换模型,用广义最小二乘法得 到系数的第二步估计,再利用这些估计定义系数函数的第二步核估计。 由这些估计值,我们定义了误差方差的估计。在一些较基本的正则条件 下,我们得到了系数函数估计的强相合性和一致强相合性及误差方差的 强相合性。 最后,我们利用m a t l a b 对我们的估计进行了模拟研究。结果表明,该 方法的效果令人满意。 关键词:变系数模型,e v 模型,变系数e v 模型,核估计,最小二乘 法,相合性,一致强相合性。 i l i 变系数e v 模型系数参数的核估计 a bs t r a c t f o r m a l l yt h ee r r o r s - i n v a r i a b l e s ( e v ) m o d e l s ,a l s oc a l l e dm e a s u r e m e n te r r o r ( m e ) m o d e l s ,a r ej u s tt h er e g r e s s i o nm o d e l sw i t hb o t hd e p e n d e n ta n di n d e p e n d e n tv a r i a b l e sb e i n gs u b j e c t st oe r r o r t h es t u d yo fe v m o d e l sh a sal o n gh i s t o r y s c i e n t i s t se n c o u n t e r e d t h i sm o d e ll o n gb e f o r et h et w e n t i e t hc e n t u r y ( a d c o c k ,18 7 7 ,18 7 8 ;k u m m e l ,18 7 9 ) m a n yw o r k sa r eg i v e nb yt h em o n o g r a p ho ff u l l e r ( 198 7 ) ,w h i c hc o n c e r n sm a i n l yt h e l i n e a rc a s e b u tb e c a u s et h es p e c i a ls t r u c t u r eo fe vm o d e l s ,t h es t u d yi sm o r ed i f f i c u l t a n dt h ep r o b l e mo fe x i s t e n c eo fc o n s i s t e n te s t i m a t eo fp a r a m e t e r si ne vm o d e li sm o r e c o m p l i c a t e dt h a ni nt h ec l a s s i c a lr e g r e s s i o nm o d e l ( c h e n g & v a nn a s s ,19 9 9 ) s of a r ,t h eu s u a la p p r o a c ho ft h es t u d yo ne vm o d e l sa r et h i s :f i r s t l y ,s o m ea s s u m p t i o n s a r em a d e ,f o re x a m p l e ,t h em o d e la s s u m e san o r m a le r r o ra n dt h ev a r i a n c eo ft h em e a s u r e m e n te r r o r sc o n t e n ts o m ea s s u m p t i o n s ( f o re x a m p l e ,c o v a r i a n c em a t r i xi sp o s i t i v e d e f i n i t em a t r i xe t c ) t h e r ee x i s t sah u g el i t e r a t u r eu n d e rs u c ha s s u m p t i o n si nt h em o d e l t h es t u d yo f n o n n o r m a lc a s ea r em a d eb ys o m es c h o l a r st o o a n o t h e ra p p r o a c h ,a i m i n g a ta v o i d i n gs u c hs o m ew h a ta r t i f i c i a la s s u m p t i o n si st ot a k er e p l i c a t e do b s e r v a t i o n sa n d b a s e do nt h e s eo b s e r v a t i o n s ,t oe s t a b l i s he s t i m a t e sw i t hg o o da s y m p t o t i cp r o p e r t i e s v a r y i n g c o e f f i c i e n tm o d e l s ( v c m ) w a sp r o p s e db yc l e v e l - a n d ,g r o s s ea n ds h y u ( 1 9 9 2 ) ,t h e nd i s c u s s e db yh a s t i ea n dt i b s h i r a n i ( 1 9 9 3 ) i nd e t a i l u pt on o w ,i th a s m a d eg r e a ti n f l u e n c ei no u rw o r l d i nt h e o r y ,t h er e s e a r c h so fv c mh a sb e e ng i v e n m o s ta t t e n t i o nr e c e n t l y ;f u r t h e r m o r e ,e x t e n s i v ea p p l i c a t i o n so fv c mi n t ob i o m e t r i c s a n dm e d i c i n eh a si m p l e m e n t e ds u c c e s s f u l l y c o n s i d e r i n gt h e r ee x t i s ts o m ec a n n o ts i i g h t i n ge r r o r si nt h eo b s e r v a t i o no fi n d e p e n d e n tv a r i a b l ei np r a c t i c e ( f o re x a m p l ee r r o r sc o m ef r o mm e a s u r et o o l sa n ds oo n ) ,w e c a nf i n dan e wr e s e a r c ht a s k :v a r y i n g c o e f f i c i e n te vm o d e l s i nt h i sp a p e r ,w ec o n s i d e r av a r y i n g c o e f f i c i e n te vm o d e l w h i c hh a sf o l l o w i n gf o r m : t h e r e i n t o : z 弘( f f ) = y i + e i ,( i = 1 ,2 ,行) = 砖+ “f x 产( 确,工f i ,坼) r ,卢( f f ) = o ( 厶) ,卢1 ( f f ) ,f l p ( t f ) ) 7 , 甜,= ( 材f o ,“订,甜徊) 7 1 ,= 嘶,1 ,鳓) , i i i 矸五 ,iilj(1il、 湖南师范大学2 0 0 6 届硕士学位论文 一。一_一一w h i c h ( x f ,y f ) a r er a n d o mv a r i a b l e si nr p + 1 r 1 , ( x i ,y i ) c a n n o tb eo b s e r v a t e d a c c u r a t e d l y ,a n dt h eo b s e r v a t i o n a lr e s u l t sa r e 瞒,k ) 。卢,( f ) u = 0 ,l ,。一,p ) a r e u n k n o w n l i m i t a r yc o n t i n u o u sf u n c t i o n s ,a n df l s ( t ) 0 ( j = 0 ,1 ,p ) ,卢( f ) c a l l e dv a r y i n g c o e f f i c i e n t fa r er e a l 。v a l u e dr a n d o mv a r i a b l e s ,a n di t ss u p p o r ti sl i m i t a r yc l o s es e t , s u p p o s ei ti s 0 ,1 。( s f ,甜;) 7 1a r cp m2d i m e n s i o n a lr a n d o m j f de l t o r sv e c t o i sw i t h e ( “:,) ,= 0 ,c o v ( s 删i ) r = 1 7 2 k 2 ,矿2 0i su n k n o w n x ia n du i ,y ia n d e i ,x i a n ds fa r et m c o r r e l a t i o n ,a l lo b s e r v a t i o na r ei n d e p e n d e n t t h es t u d yo f e vm o d e l sa r ei nh i sy o u n gp h a s e i n2 0 0 5 ,o u y a n g ,g u a n gd i s c u s s e d t h em o d e le l e m e n t a r y ,i nh i sp a p e r ,t h ee s t i m a t o r so fp a r a m e t e r so fl i n e a rc o e f f i c i e n ta t f = t oa r ec o n s t r u c t e db yu s i n gt h ew e i g h t e do r t h o g o n a lr e g r e s s i o n l c a s ts q u a r em e t h o d 。 t h ew e a k a n ds t r o n gc o n s i s t e n c yo fe s t i m a t o r sa r ea l s oo b t a i n e d i nt h i sp a p e r ,u n d e rt h e a s s u m p t i o nt h a tfi sr a n d o nv a r i a b l e ,t h ee s t i m a t i o no fc o e f f i c i e n t f t m c t i o n sa n dv a r i a n c e o ft h em e a s u r e m e n te r r o r sa r ec o n s t r u c t e do nt h i sm o d e lb yu s i n gk e r n e ls m o o t h i n ga n d g e n e r a l i z e dl e a s ts q u a r em e t h o d t h em a i ni d e a la r et h i s : f i r s t ,w ea s s u m et h a tc o e f f i c i e n tf u n c t i o n st a k et h e i rm a t h e m a t i c a le x p e c t a t i o n s , w h i c hc a nb ec h a n g e dt h em o d e li n t on o r m a ll i n e a rm o d e l w ec a ng e t 也eo n e s t e pe s t i m a t i o no fc o e f f i c i e n tb yu s i n gl e a s ts q u a r em e t h o d a tt h i st i m e ,w ed i f i n e dt h eo n c 。s t e p k e r n e le s t i m a t i o no fc o e f f i c i e n tf u n c t i o n sb yu s i n gpe s t i m a t i o nr e s l t s t h e nw ec h a n g e t h em o d e lu s i n gt h er e s u l tw eh a v eg o t t h es e c o n d s t e pe s t i m a t i o no fc o e f f i c i e n tw ec a n g e tb yu s i n gg e n e r a l i z e dl e a s ts q u a r e n o w w ed e f i n e dt h es e c o n d s t e pk e r n e le s t i m a t i o n o fc o e f f i c i e n tf u n c t i o n sb yu s i n gt h e s er e s u l t s t h ee s t i m a t i o n o f v a r i a n c eo ft h em e a s u r e m e n te r r o r sa t ed e f i n e db yt h ef o r e h e a dr e s u l t s u n d e rs o m eb a i s er e g u l a r i t yc o n d i t i o n s , w eg e tt h es t r o n gc o n s i s t e n c ya n du n i f o r ms t t o i l gc o a s i s t e n c yo f e s t i m a t o r so f c o e f f i c i e n t f u n c t i o n sa n dt h es t r o d gc o n s i s t e n c yo f e s t i m a t o r so f v a r i a n c eo f t h em e a s u r e m e n t e r r o r a tl a s t ,s i m u l a t i o ns t u d yo fo u re s t i m a t i o n sb yu s i n gm a t l a ba r es h o w e di nt h i s p a p e r a c c o r d i n gt ot h er e s u l t s ,w ec o n c l u d et h a t0 1 1 1 m e t h o d sa r eg o o d k e y w o r d s :v a r y i n g c o e f f i c i e n tm o d e l s ,e vm o d e i s ,v a r y i n g c o e f f i c i e n te v r o o d _ e l s ,k e r n e le s t i m a t i o n ,l e a s ts q u a r em e t h o d ,c o n s i s t e n c y ,u n i f o r ms t r o n gc o n s i s t e n c y 一 变系数e v 模型系数参数的核估计 第一章绪论 1 1 引言 回归分析就是探求随机变量y 与另外一个变量x 之间的关系。参数回 归假定回归方程e ( y l x ) = 八工;卢) 的函数形式已知,p 为未知的待估参数, 即模型为: y i = f ( x i ;3 ) + s f ,i = 1 ,2 ,k , 其中,为随机误差,并假设满足e s 产0 ,e 彦= 矿。由观测数据,) 忽,估 计未知参数卢及其进行相关的推断,这就是参数回归。当回归模型为真 正的模型或非常接近真正的模型时,参数回归具有计算量小,估计效率 高,需要的样本容量小等特点。但参数回归模型对回归结构假设比较严 格,当假设不成立时就会产生很大的模型偏差,甚至导致错误的结论。 而实际中人们往往很难对模型做出非常具体的假设,从统计学的观点来 看,许多统计学工作者认为实际中可能根本就不存在真正的模型,统计 工作者所做的事情往往是寻求一个较好的模型去逼近所描述数据。如何 建立一个好的统计模型一直是统计学家努力追求的目标。 随着当今计算技术和计算能力的飞速发展,许许多多复杂计算得以 实现,允许人们对客观世界的描述提出更高的要求。为了减少参数回归 的模型偏差,统计学家提出了一个假设更宽松更自由的模型一非参数回 归模型。即假定回归函数八曲= g l x ) 属于一个广泛的函数类,比如光滑 函数等。其模型为: y i = 八x i ) + b i ,i = 1 ,2 ,k , 其中m ) 厂= ( 具有某种属性的函数类) ,e s f _ 0 ,e s ;= 0 r 2 ,钆q , 互不 相关。非参数回归分析的基本目标就是基于样本数据,) 墨,估计非参数 回归函数八曲及其作相关的推断。非参数方法对模型的结构假设很少, 尽量让数据自己说话( n o n p a r m e t e rm e t h o d sl e td a t as p e a kf o rt h e m s e l v e s ) ,因此非 参数的方法具有稳健性( r o b u s t ) 的优点,但相对于参数模型,其效率要低 一些,需要的样本容量较大,计算更复杂。但是,理论证明在许多问题 中,至少在样本容量较大时,非参数模型的方法在效率上损失并不多, 且往往可以和最优良的参数模型中的方法相匹敌 1 。另外,随着当今电 湖南师范大学2 0 0 6 届硕士学位论文 子技术与计算机科学技术的飞速发展,昔日认为不可能的计算如今变得 容易,非参数回归相对于参数回归在处理海量数据方面具有更方便、更 直观、更真实等优点,因此它作为现代统计分析的主要方法之一,在生 物、医学、识别系统等方面有着广泛的应用。 自上世纪六、七十年代以来,非参数回归方法逐渐地被人们所关注并 等到了深入的发展,与此同时人们也提出了许多非参数回归函数的估计 方法。其中常见的有:核估计( k e r n e le s t i m a t o r s ) ( n a d a r a y a ( 1 9 6 4 ) a n dw a t s o n ( 19 6 4 ) ) 、局部多项式估计( l o c a lp l o y n o m i a le a t i m a t o r s ) f a na n dg i j b e l ( 19 9 6 ) ) 、光滑样条估计( s m o o t h i n gs p l i n ee s t i m a t o r s ) ( g r e e na n ds i l v e r m a n ( 19 9 4 ) ) 、b 样条估计及小波估计等。这些非参数估计方法,他们各有其优缺点,在 许多情况他们的估计效果相差不多,核估计是比较传统的估计方法,局 部多项式估计修正了核估计的边界效应,样条方法估计出的函数一般比 较光滑,小波估计比较适应于回归函数不连续或不光滑的情况。大量详 细的光滑方法及其特点和性质可以参考下列文献,s i l v e r m a n ( 1 9 8 6 ) ,h a r d l e ( 1 9 9 0 ) ,w a h b a ( 1 9 9 0 ) ,g r e e e na n ds i l v e r m a n ( 1 9 9 4 ) ,w a n da n dj o n e s ( 1 9 9 5 ) ,f a na n d g i l j b e l ( 1 9 9 6 ) 和s i r n o n o f f ( 1 9 9 6 ) 。 在非参数回归的估计过程中,当回归变量x 为一维时,采用上述估计 方法一般可以得到较好的结果。但当回归变量x 为高维时,一般很难得到 较好的估计结果,这一现象称为“维数祸根( c u r s eo f d i m e n s i o n ) ”。其原因是 非参数函数估计方法本质上讲都是局部估计或局部光滑,要想使八x ) 在石 点得到比较充分的估计,必须使得x 的领域包含有足够多的数据。但当z 为 多维数据时,这个条件不易满足。例如我们考虑p 维单位超立方体上均匀 分布的最近邻数据。假定我们选取日标点的超立方体领域为覆盖观测值的 一部分r 。由于它对应于单位体积的部分为,故预期的边长为:e p ( ,) = r ; 。例如在l o 维空间上,e l o ( o 0 1 ) = o 6 3 ,e 1 0 ( o 0 5 ) = 0 7 4 ,e l o ( o 1 ) = o 8 0 。但是 我们知道整个变程才为1 0 ,因此为了得到数据的1 、5 或1 0 来形成 局部平均,我们必须覆盖每个输入变量变程的6 3 、7 4 或8 0 。这样 的话,我们要求的领域不再是“局部的”。就算是大幅度降低r 也无济于 事闭。 但是在现代统计学中,我们所遇到的数据多为高维数据,因此在高 维空间上解决。维数祸根”的问题就成了统计学者们近年来所追求的目 标。从统计学的观点发展而来的对高维数据的处理方法已被证明是非常 变系数e v 模型系数参数的核估计 有用的,也形成了多种高维数据处理的工具包。到目前为止,统计学中 已有两类方法来解决高维数据带来的”维数祸根”的问题。一类是函数 近似( f u n c t i o na p p r o x i m a t i o n ) ,包括可加模型( a d d i t i v em o d e l s ( b r e i m a na n d f r i e d m a n ,19 8 5 ;h a s t i ea n dt i b s h i r a n i ,19 9 0 ) ) 、低维交互模型( l o w d i m e n s i o n a l i n t e r a c t i o nm o d e l i n g ( f r i e d m a n ,1 9 9 1 ;g ua n dw a h b a ,1 9 9 3 ;s t o n ee ta 1 1 9 9 6 ) ) 、 部分线性模型( p a r t i a l l yl i n e a rm o d e l ( e u b a n ke ta 1 19 9 8 ;g r e e na n ds i l v e r m a n , 1 9 9 4 ) ) 、多元指标模型( m u l t i p l e i n d e xm o d e l s ( f r i e d m a na n ds t u c t z l c ,1 9 9 1 ;l i ,1 9 9 1 ) ) 、变系数模型( v a r y i n g 。c o e f f c i e n tm o d e l ( c l e v e l a n de ta 1 ,1 9 9 2 ;h a s t i e a n dt i b s h i r a n i ,19 9 3 ) ) 等;另一类方法是降维( d i m e n s i o nr e d u c t i o n ) ,包括s i r 回归( s l i c e di n v e r s er e g r e s s i o n ( l i ,19 91 ) ) 、投影追踪回归( p r o j e c t i o np u r s u i t r e g r e s s i o n ( f r i e d m a na n ds t u e t z l e ,19 81 ) ) 、图回归( g r a p h i c a lr e g r e s s i o n ,( c o o k ,1 9 9 4 ) ) 、p h d 分析( c o o k ,1 9 9 8 ) 、m a v e 方法( m i n i m u ma v e r a g ev a r i a n c e e s t i m m i o nm e t h o d ( x i a ,y , e ta 1 ,2 0 0 2 ) ) 等等。 在经典的回归模型: y i = 八x i ,国+ e , i ,i = 1 ,2 ,k 中,变量y “,是可观测的,y ,是随机的,而可以是随机的也可以是非随 机的。s ,是随机误差,卢是待估参数。人们常根据回归函数f ( x ,国的不同 形式,给出参数卢相应的估计。在这些经典分析中,人们一般都假定自变 量x ,是已知的。但是在实际问题中,或者自变量不能直接采用,或者自 变量的测量带有不可忽视的随机误差。于是便出现了自变量带误差的回 归模型: 其中m 两不能直接观测,且满足y f _ 八h 卢) ,r i , 毒,既函分别是对因变 量y ,和自变量x ,的观测值和观测误差。文献中称之为e v 模型( e r r o r si n v a r i a b l e sr e g r e s s i o n ) 。早在上世纪5 0 年代,r e i e r s 0 1 o ( 1 9 5 0 ) 就研究了这种 模型,并指出,在e v 模型中通常的最b - 乘估计不是相合估计。由于现 在发现了e v 模型在金融保险、生物医学中有了广泛的应用,近年来文献 中对e v 模型的研究又热了起来。如f u l l e r ( 1 9 8 7 ) ,c a r r o l l ,e t ,a 1 ( 1 9 9 5 ) ,c h e n g 和v a n n e s s ( 1 9 9 9 ) 。 p 乙 = “:, 、, 研瓯 研 + + 八竹墨 = = = n 玑靠 ,j【 湖南师范大学2 0 0 6 届硕士学位论文 近年来,为了解决高维数据引发的”维数祸根”问题,人们对变系数模 型进行了广泛深入的研究,取得了许多重要的成果。例如:f a n ,j z h a n g , w :( 19 9 9 ) ,f a n ,j z h a n g ,w ( 2 0 0 0 ) ,f a n ,j y a o ,q ,& c a i ,z ( 2 0 0 3 ) ,t i a s t i c ,t j & t i b s h i r a n i ,r j ( 1 9 9 3 ) ,h u a n gj i a n h u az ,w uc o l i n ,o ,z h o ul a n ( 2 0 0 3 ) 等。该模型 是由h a s t i e ,r r j & t i b s h i r a n i ,r j ( 1 9 9 3 ) 提出的,其一般形式为: y = x 1 卢1 0 1 ) + x 2 3 2 ( t 2 ) + + z 屏( 知) + s 其中x = ( 翻,x 2 ,却) r 和f = ( f 1 ,t 2 ,0 ) 7 1 为回归变量,y 为响应变量,s 为随机误差,e s = o ,e e 2 = 0 2 ,卢灯f ) ( ,= 1 ,2 ,p ) 为未知的函数。t l ,t 2 ,知 通过诸未知的函数局( 如) 来改变札,x ,的系数。 结合e v 模型和变系数模型,考虑到在实际问题中自变量的观测值存 在着不可忽视的误差( 如测量工具等因数引起的误差等) 。这就提出了一 个新的研究方向:变系数e v 模型。这类模型的基本形式如下: 苴审 、 x i = ( x f 0 ,x m ,x c p ) r ,卢( f f ) = o ( 们,卢l ) ,f l a t 3 ) r , 甜,= ( 甜m ,u i l ,材巾) r ,= y 南,l ,j ) 丁 在这里,( 札m ) 是r p + 1x r 上的随机变量,( 砘弦) 的值不能精确观测,其 观测值相应为,k ) 。b j ( t ) u = 0 ,1 ,p ) 是有界连续函数,且f l j ( t ) o u = 0 ,1 ;,p ) ,称f l i t ) 为变系数。t 是墩值为实数的随机变量,其支撑为有界 闭集,不妨设为 o ,1 。( s 删矿为p 斗2 维独立同分布的随机误差向量,且 满足e ( 甜? ) 7 = 0 ,c o v ( e 删i ) r = 0 2 易亿0 - 2 0 未知。x i 与甜f ,y i 与s f ,x i 与 e i 都不相关,每次观测之间相互独立。我们称上述模型( 1 1 ) 为变系数 e v 模型。 关于变系数e v 模型的讨论还处在起步阶段,2 0 0 5 年,欧阳光等在文 3 中初步研究了这类模型,他们利用加权正交回归最小二乘法给出了该 模型的一维线性结构的参数估计,得到了估计的弱相合性和强相合性。 至于更多的相关讨论,我们还没有发现。本文致力于对该模型进行系统 的研究。 、, 研嘶# ”柳 = = = ”巧墨 变系数e v 模型系数参数的核估计 1 2 变系数模型的研究历史及其现状 变系数模型( v a r y i n g 。c o e f f i c i e n tm o d e l ) ,其一般形式为: y = x 1 3 1 ( t 1 ) + + 再纠( f p ) + s , ( 1 2 ) 其中,x = ( 乩,x ,) 7 和t = ( ,h 一,知) ) r 为回归变量,y 为响应变量,s 是条 件均值为零,条件方差为铲的独立同分布( i i d ) 的随机变量。# j ( t a u p ) 是未知的足够光滑的函数,它暗含了,与x j 的一种特殊关系。f ,可能互 不相同也可能相同,也可能是所有z ,的一种特殊组合 1 6 。 大家知道,在非参数回归中,对函数的估计常用的是核估计、局部多 项式估计、样条估计等方法,这些方法在处理一维数据时显示了强大的 处理能力,但是随着维数的增加,回归变量工局部领域所包含的样本数 据大大减少,此时,要估计这样一般多元函数就显得十分困难。其原因就 是我们在引言中讲到的“维数祸根”问题。变系数模型就是现代数理统 计中针对处理高维数据时遇到的困难,即“维数祸根”( c u r s eo f d i m e n s i o n ) 而产生的一类模型。这类模型既部分地继承了非参数回归的稳健性等特 点,同时又保留了线性模型的直观且容易解释等优点。因此,近年来,对 它的研究逐渐受到人们的极大关注并把它广泛地应用于生物学、医学、 金融保险等方面。 同时,鉴于该模型的特殊结构,其他许多模型如:线性模型、部分线 性模型、可加模型以及动态广义线性模型等都可以看成变系数模型特殊 形式。例如: ( i ) 当所有的系数卢疋) 1 p 都为常数p 时,模型( 1 2 ) 就变成 了常见的线性模型: y = x l f l l + + x p p p + 6 ( 2 ) 当t 7 j ( t j ) = 岛,( 1 ,p 一1 ) 为常数,且x p = 1 , f l p ( t p ) = 八f ) 时,模 型( 1 2 ) 便是部分线性模型: y = x l f l l + + x p 一1 廓一1 + f ( t ) + s ( 3 ) 当习= 1 ,( 1 ,p ) 时,模型( 1 2 ) 就成了可加模型: y = f l l ( h ) + + 廓( 知) + s 一5 一 湖南师范大学2 0 0 6 届硕士学位论文 ( 4 ) 当0 为所有巧的一个线性组合( 如0 = ,r x ,为一向量) 时,模 型( 1 2 ) 则变成了自适用的模型,其中最简单的一种形式是: s t o n e ( 1 9 7 7 ) ,o h a g a n ( 1 9 7 8 ) 和c l e v e r l a n d ( 1 9 7 9 ) 详细讨论了这个模型。 ( 5 ) 当f ,为一一个相同的变量( 如时间、空间位置等) 时,模型( 1 2 ) 就变成了: y = x 1 3 1 ( t ) + + 工剧( f ) + s 这种模型就是”动态广义线性模型”( d y n a m i cg e n e r a l i z e dl i n e a rm o d e l ) ,它 是研究最多的一类变系数模型。w e s te ta 1 ( 1 9 8 5 ) ,c l e v e r l a n de ta 1 ( 1 9 9 1 ) 详细地研究了该模型。 关于变系数模型的研究历史,我们可以作如下回顾:1 9 9 2 年,c l e v e r l a n d ,g r o s s e ,和s h y u 在从一维到多维局部回归技巧的扩展中首先介绍了这类 模型,参见文献 1 4 。1 9 9 3 年,h a s t i e ,t i b s h i r a n i 在他们的专题论文中详细地 讨论了这种模型,他们首先利用核权函数给出了局部回归方法的变系数模 型的估计量。其基本思想是用一个系数为协变量( 包括解释变量和外生变 量如时间、空间位置等) 函数的线性模型来近似一个未知的多元函数。这 种协变量通常称为指标( i n d e x ) 1 6 】。详细内容请参见文献 1 5 1 。1 9 9 6 年, f a n 和g i j b e l s 对变系数模型采用了局部多项式估计 1 8 。c a r o l l ,r u p p e r t 和 w e l s h ( 1 9 9 8 ) 与f a n 和z h a n g ( 2 0 0 0 a ) 得到了局部多项式估计量的条件偏差和 条件方差,正如所期望的那样,仅依赖于局部近似误差( l o c a la p p r o x i m a t i o n e r r o r ) 的偏差具有阶;而仅依赖于有效的局部数据点数目( n u m b e ro f l o c a l d a t ap o i n t s ) 的方差具有阶。同时,f a n 和l i ( 1 9 9 9 ,2 0 0 0 b ) 还得到了估 计量的渐进正态性和由数据决定的窗宽选择方法 1 9 。而关于估计的系 数函数与真实的系数函数之间的最大偏差及置信带和假设检验的问题由 x i a 与l i ( 1 9 9 9 ) f a n 和z h a n g ( 2 0 0 0 ) 所讨论,参见文献 2 0 、 2 1 。 此外,还有一些学者采用了一种十分有用的方法,即光滑样条估计。 该方法首先由h a s t i c 和f i b s h i r a n i 在文献 1 5 3 中提出,即通过最小化: 三三三 舢一 岛( 巧) 劭 2 + :乃i 蟛1 1 2 百万万 得到函数的估计,这里矗,+ i ,p 为正的光滑参数,通常情况下对所有 变系数e v 模型系数参数的核估计 的五,取相同的五。相对于核权局部回归估计而言,光滑样条方法更能解 决参数量大情形时的问题。通常,此时的参数数目具有印的阶。 值得注意的是,我们上面提到的局部回归和光滑样条方法都假定系 数函数的光滑程度相差不大,以至于能在一个领域内近似地得到相同的 阶数。但是,当函数具有不同的光滑程度时,局部回归往往不能达到渐 近最优。这从直观上来讲也是很清楚的:用相对大的窗宽减少了方差, 从而使估计更光滑。用相对小的窗宽减少了偏差,从而导致估计更为粗 糙。因此,这种窗宽的制约决定我们并不能仅仅简单地选择一个大的窗 宽来得到光滑估计 2 1 。同样,仅通过选择特定的光滑参数,样条估计也 不能很好地解决这一问题。为此,在局部估计中,f a n 和z h a n g ( 2 0 0 0 a ) 提 出了用两步估计来估计系数函数,这较好地解决了这一问题。其直观想 法是:先用一个较小的窗宽h 得到初始估计量,然后计算偏残差: 序玎= y i 一觚) x 腩 艇, 再对变系数模型磊“= # ( t i ) x ,+ s ,用局部回归的方法,用第二步窗宽h ,来 估计卢( ) 。这样的做法有两个优点:一是可以仅仅为估计卢,( ) 而有目的 的选择窗宽h j ;二是能充分运用单变量窗宽选择技巧。具体详细的讨论 参见文献 2 2 。 前面我们已经提到,在变系数模型中,系数函数通常是一个指标函 数。这样,我们面临的一个问题是什么样的变量适合作指标? 2 0 0 2 年, f a n ,y a o 和c a i 研究了这个问题。在他们研究的模型中,其指标是未知的, 但可以由一线性回归组合或者其他的变量来估计。他们利用一种新的混 合向后拟合算法( h y b r i db a c k f i t t i n ga l g o r i t h m ) ,结合t 统计量与a k a i k e 信 息准则( a i c ) 来搜寻这种局部重要的指标。结果表明他们所求得的指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论