(概率论与数理统计专业论文)广义空间变系数模型.pdf_第1页
(概率论与数理统计专业论文)广义空间变系数模型.pdf_第2页
(概率论与数理统计专业论文)广义空间变系数模型.pdf_第3页
(概率论与数理统计专业论文)广义空间变系数模型.pdf_第4页
(概率论与数理统计专业论文)广义空间变系数模型.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(概率论与数理统计专业论文)广义空间变系数模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 变系数模型是经典线性模型的一个有用推广,它在诸如经济、 金融、流行病学、医学、生态学等领域中有着广泛应用由于其灵活 性以及易于解释性,过去十几年来,变系数模型无论是在理论体系 还是应用方面都得到了长足发展 截止到目前,有关变系数模型的研究主要局限在模型系数为一 元函数的情形,这在实际应用中是不够的,比如,处理与地理位置有 关的数据时,系数可以是地理位置的函数( 经度、纬度) ,即二元函 数,因此,本文旨在将模型系数推广为多元函数情形,从而得到广义 空间变系数模型 本文考虑如下广义空问变系数模型: 其中y 是实值响应变量,u = ( 钆1 ,钆d ) t 为d 维随机向量,x = ( x 1 ,x p ) t 为p 维随机向量,e 为随机误差且满足: e i u t ,x t 】_ 0 ,v a 7 z l u t ,x t 】- t y 2 ( u ) n 7 ( ) ( j = 1 ,p ) 是具有相同光滑程度的未知函数 局部多项式拟合已经被证明是一个很有效的非参数方法,该估 计方法的一个优点是易于想象在某一点局部估计未知函数时估计量 是如何利用数据的首先,文中采用局部多元多项式拟合方法,给出 了模型系数的估计;其次,为了评价由此得到的系数函数估计量的 好坏,文中给出了系数函数估计量的渐近条件偏差与渐近条件方差, 结果表明,在一定条件下,该估计量是渐近无偏且均方收敛于系数 + 砀 u 町 p 芦 =y 硕士学位论文 函数真实值的,同时,我们也证明了该估计量是系数函数真实值的 相合估计;最后,山于局部多元多项式拟合方法是一种核光滑方法, 核窗宽参数的选择至关重要,因此,文中给出了核窗宽矩阵的选择 方法 关键词:广义空问变系数模型,多元局部多项式拟合,渐近条件偏 差,渐近条件方差,窗宽矩阵 a b s t r a c t v a r y i n g - c o e f f i c i e n tm o d e l sa r ea u s e f u le x t e n s i o no fc l a s s i c a ll i n - e a rm o d e l s t h e ya r ev e r yi m p o r t a n tt o o l si nm a n ys c i e n t i f i ca r e a s , s u c ha se c o n o m i c s ,f i n a n c e ,e p i d e m i o l o g y ,m e d i c a ls c i e n c e ,e c o l o g y a n ds oo n t h a n k st ot h e i rf l e x i b i l i t ya n di n t e r p r e t a b i l i t y ,i nt h ep a s t t e ny e a r s ,t i l ev a r y i n g - c o e f f i c i e n tm o d e l sh a v ee x p e r i e n c e dd e e pa n d e x c i t i n gd e v e l o p m e n to nb o t ht h e o r e t i c a la n da p p l i e ds i d e s u p t ot h ep r e s e n td a y , m o s tr e s e a r c h e sa b o u tv a r y i n g - c o e f f i c i e n t m o d e l sa r ec o n f i n e dt ot h ec a s e st h a tt h ec o e 伍c i e n t so ft h em o d e l sa r e u n i v a r i a t ef u n c t i o n s ,w h i c ha r ed e f i c i e n ti na p p l i c a t i o n s f o re x a m p l e , w h e nw ea n a l y z et h ed a t as e t sc o n t a i n i n gg e o g r a p h i c a lp o s i t i o n ,t h e c o e f f i c i e n t sa r eb i v a r i a t ef u n c t i o n s i nt h i sp a p e r ,w ew i l ld i s c u s s t h em u l t i v a r i a t ec o e f f i c i e n tf u n c t i o n sa n dw i l lg e tg e n e r a l i z e ds p a t i a l v a r y i n g - c o e f f i c i e n tm o d e l s w ec o n s i d e rt h eg e n e r a l i z e ds p a t i a lv a r y i n g - c o e f f i c i e n tm o d e l sa s f o l l o w s : p y = a j ( u ) x j + g j = t w h e r eyi sar e a lv a l u e dr e s p o n s ev a r i a b l e u = ( 钆1 ,u d ) ta n d x = ( x l ,x p ) t a r ed - d i m e n s i o n a la n dp - d i m e n s i o n a lr a n d o mv e c t o rr e s p e c t i v e l y ei sar a n d o me r r o rw i t h e e i u t , x t 】- 0 ,v a r e l u t , x t 】一盯2 ( u ) a j ( ) ( j = 1 ,p ) a r eu n k n o w nf u n c t i o n a lc o e f f i c i e n t sw i t ht h es a m e s i n o o t h n e s s - 1 1 1 - 硕士学位论文 l o c a l l yp o l y n o m i a lf i tt i n gh a sb e e np r o v e dt ob eav e r ye f f e c t i v e n o n p a r a m e t r i cn m t h o d am a j o ra d v a n t a g eo ft h i sm e t h o d i st h a ti ti s v e r ys i m p l et ov i s u a l i z eh o wt h ee s t i m a t o ri su s i n gt h ed a t aw h e n e s t i m a t i n gt h eu n k n o w nf u n c t i o na tap a r t i c u l a rp o i n t f i r s t ,w eu s et h e l o c a l l yp o l y n o m i a lf i t t i n gt oe s t i m a t et h ec o e f f i c i e n t so ft h em o d e l s s e c o n d ,i no r d e rt oe v a l u a t et h ep e r f o r m a n c eo ft h ee s t i m a t o r s ,t h e a s y m p t o t i c a lp r o p e r t i e s ( a s y m p t o t i cb i a sa n da s y m p t o t i cv a r i a n c e ) o f t h ee s t i m a t o r sa r ee s t a b l i s h e d a c c o r d i n gt ot h er e s u l t s ,u n d e ra p p r o p r i a t ec o n d i t i o n s ,t h ee s t i m a t o r sa r ea s y m p t o t i c a l l yu n b i a s e da n d c o n v e r g ei nm e a ns q u a r et ot h er e a lv a l u eo ft h ec o e f f i c i e n t s a tt h e s a m et h et i m e ,w ep r o v e dt h a tt h ee s t i m a t o r sa r ec o n s i s t e n t s i n c e l o c a l l yp o l y n o m i a lf i t t i n gi sak i n do fk e r n e ls m o o t h i n gm e t h o d ,t h e s e l e c t i o no ft h eb a n d w i d t hm a t r i xi sc r u c i a l ,s ol a s t l y , w ed i s c u s s e d h o wt oc h o o s et h eb a n d w jd t hm a t r i x k e yw o r d s :g e n e r a l i z e ds p a t i a lv a r y i n g - c o e f f i c i e n tm o d e l s ,m u l t i v a r i a t el o c a l l yp o l y n o m i a lf i t t i n g ,a s y m p t o t i c a l l yc o n d i t i o n a lb i a s , a s y m p t o t i c a l l yc o n d i t i o n a lv a r i a n c e ,b a n d w i d t hm a t r i x - 1 v 一 学位论文原创性声明与版权使用授权书 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:许定 doc | 年6rf 憾 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 研究生在校攻读学位期问论文工作的知识产权单位属湖南师范大 学。同意学校保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权湖南师范大学可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 作者签名:形 、 导师签名:a 1 、保密口,在年解密后适用本授权书 2 、不保密西 ( 请在以上相应方框内打“) 一6 l 一 日期沙件6 j j l 阳 参) ) 咿 f 1 绪论 1 1引言 在参数统计推断中,我们总是作出各种假设以简化模型,其中 假设模型为线性时处理起来最为方便,但是在应用中,线性模型往 往不能很好的拟合实际情况,当数据真实结构与线性结构相差甚远 时,应用线性模型就会导致较大偏差除了线性模型,人们还提出了 其它各种各样的参数模型,但是每一种都有其缺陷 由于现代计算机处理能力的极大提升,非参数方法的计算机实 现变得越来越容易,再加上诸多复杂应用的客观需要,该方法受到 了越来越多统计工作者的重视非参数方法通常是适应任意分布的, 因为它们并不对数据的分布做出任何假设,正因为如此,非参数方 法的应用比参数方法的应用广泛得多,它们尤其适用于处理我们事 先对其结构认识非常有限的数据。由于它们很少依赖于各种假设, 因此模型的稳健性更好,但这也带来一些新的问题:首先,由于对 模型不作任何假设,一个明显的缺陷就是它未能充分利用先验信息, 因此得出的估计往往有较大的方差;其次,非参数方法无法摆脱所 谓的“维数祸根( c u r s eo fd i m e n s i o n a l i t y ) ”现象的困扰,在处理高维 数据时,标准的非参数方法根本难以实现 为了缓解“维数祸根”现象的网扰,人们提出了各种降维方 法以及新的模型,包括投影寻踪方法 p r o j e c t i o np u r s u i t1 ( h u b e r ,1 9 8 5 ) 1 1 ,s i r 回归f s l i c e di n v e r s er e g r e s s i o n1 ( l i ,1 9 9 1 ) 2 1 ,单 指标模型s i n g l ei n d e xm o d e l s1 ( h a r d l ea n ds t o k e r ,1 9 9 0 ;x i ae t a l ,2 0 0 2 ) 3 4 】,图同归 g r a p h i c a lr e g r e s s i o n ( c o o k ,1 9 9 4 ) 5 ,m a v e 方法【m i n i m u ma v e r a g ev a r i a n c ee s t i m a t i o nm e t h o d ( x i a ,y e t 硕十学位论文 a l ,2 0 0 2 ) 6 】等这些模型都具有以下基本形式: y = f ( x t 夙,x t 反,e ) ( 1 1 ) 其中y 为响应变量,x 为p 维协变量,e 是随机误差,g 为一整数我 们希望g 比p 小得多然而模型( 1 1 ) l g 有其缺陷,当g 较大时,“维 数祸根”现象仍然出现 鉴于参数方法与非参数方法各自的不足,一种折衷的办法就 是放松对传统参数模型的条件限制,即寻求一种介于参数方法与 非参数方法之问的“半参数”方法对此,学者们做了大量研究,并 提出了各种新的模型,包括可加模型fa d d i t i v em o d e l s1 ( b r e i m a n a n df r i e d m a n ,1 9 8 5 ;h a s t i ea n dt i b s h i r a n i ,1 9 9 0 ) 7 1 8 1 、变系数模型 【v a r y i n g c o e f f i c i e n tm o d e l s 】( h a s t i ea n dt i b s h i r a n i ,1 9 9 3 ;f a na n d z h a n g ,1 9 9 9 ,2 0 0 0 ;c h i a n ge ta i ,2 0 0 1 ) 9 】 1 0 【1 1 】【1 2 、低维交互作用 模型fl o w - d i m e n s i o n a li n t e r a c t i o nm o d e l s1 ( f r i e d m a n ,1 9 9 1 ;g ua n d w a h b a ,1 9 9 2 ;s t o n ee ta l ,1 9 9 7 ) 1 3 11 1 4 11 1 5 】、部分线性模型 p a r t i a l l y l i n e a rm o d e l s1 ( w a h b a ,1 9 8 4 ;g r e e na n ds i l v e r m a n ,1 9 9 4 ) 1 6 1 f 1 7 1 , 以及以上各种模型的相互结合f c a r r o l le ta l 。1 9 9 7 ;f a ne ta 1 1 9 9 8 ;h e c k m a ne ta 1 1 9 9 8 ;f a ne ta 1 2 0 0 3 ) f 1 8 1 9 1 2 0 1f 2 1 在以上 半参数模型中,变系数模型的应用尤为广泛,它已被成功运用于 纵向数据与泛函数据分析fd i g g l ee ta l ,2 0 0 2 ;h a n da n dc r o w d e r ,1 9 9 6 ;z e g e ra n dd i g g l e ,1 9 9 4 ;b r u m b a c ka n dr i c e ,1 9 9 8 ;h o o v e r e ta l ,1 9 9 8 ;r a m s a ya n ds i l v e r l n a n ,1 9 9 7 ;r i c ea n ds i l v e r m a n ,1 9 9 1 ) 2 2 2 3 】 2 4 】 2 5 2 6 2 7 2 8 】,生存分析( z h a n ga n ds t e e l e ,2 0 0 4 ;f a n e ta l ,2 0 0 6 ;c a ie ta l ,2 0 0 5 ;t i a ne ta l ,2 0 0 5 ) 2 9 1 f 3 0 1 f 3 1 1 f 3 2 1 ,非线 性时问序列fn i c h o l l sa n dq u i n n ,1 9 8 2 ;c h e na n dt s a y ,1 9 9 3 ;c a i e ta l ,2 0 0 0 ;h u a n ga n ds h e n ,2 0 0 41 3 3 3 4 3 5 3 6 1 等统计分支 一2 一 广义空问变系数模型 1 2 变系数模型研究现状 变系数模型是经典线性模型的一个有用推广,虽然这种建模思 想在较早时候就已出现,例如s h u m w a y ( 1 9 8 8 ) 3 7 1 的书巾就出现了 这种想法,但是直到c l e v e l a n d 等人( c l e v e l a n de ta l ,1 9 9 1 ) 3 8 】以 及h a s t i e 与t i b s h i r a n i ( h a s t i ea n dt i b s h i r a n i ,1 9 9 3 ) 9 做出一系列 开创性工作之后,变系数模型的理论体系才逐渐完善起来,其一般 形式为: 秒= x l a l ( r 1 ) + + 玛o p ( r p ) + e ( 1 2 ) 其中x = ( x 1 ,x p ) t 与r = ( r 1 ,r p ) t 为协变量,为随机 误差,且满足:e i x ,r 】= 0 ,v a r e x ,嗣= c r 2 ,( ) ( j = 1 ,p ) 是未知的足够光滑的函数 通过这些未知函数,x f 与r f 之问就可以存在一种特殊关系, 从而在避免“维数祸根”的同时,大大减小了模型偏差变系数模型 是一种非常灵活的模型,协变量采用不同形式则可以转化为其它一 些实用的模型,例如: ( 1 ) 当a j ( r j ) = a j ( 常数) 时,那么第j 项就是冯的线性函数, 若所有系数都是常数,模型( 1 2 ) 就变成经典线性模型: y = x l a l + + x p a p + g ( 1 3 ) ( 2 ) 当x j = c ( 常数) 时,为简单起见,不妨c = 1 ,则第j 项就 为町( 马) ,即自变量为马的未知函数如果所有项都如此,则模型 ( 1 2 ) 就成为广义可加模型: 可= a l ( r 1 ) + + 唧( 局) + ( 1 4 ) ( 3 ) 当( 弓) = a j ( j = 1 ,p 一1 ) 为常数,而= 1 时,模 型( 1 2 ) 便成为部分线性模型: y = x l a t + + 曷一1 唧一1 + n p ( 邱) + ( 1 5 ) 一3 硕一l :学位论文 ( 4 ) 当r 1 = r 2 = = 昂= r ,即所有局( j = 1 ,p ) 为相 同变量时,模型( 1 2 ) 就成为: y = x l a l ( r ) 4 - + x p a p ( n ) + e ( 1 6 ) w e s t ,h a r r i s o n ,m i g o n 等人将( 1 6 ) 称为“动态广义线性模型” d y n a m i cg e n e r a l i z e dl i n e a rm o d e l1 并对其进行了专门研究( w e s t ,h a r r i s o n a n dm i g o n1 9 8 5 ) 【3 9 1 而c l e v e l a n d 将其称为“条件参数模型 c o n d i t i o n a lp a r a m e t r i c l ,并且允许r 可以是表示时间,年龄等以外的量, 甚至是向量值( c l e v e l a n d ,1 9 9 1 ) 4 0 1 实际上( 1 6 ) 也是后来研究得 最多的一类变系数模型 ( 5 ) 假设吗= 玛( j = 1 ,p ) ,为简单起见,假设p = 1 ,则 得到模型: y = x a ( x ) + e( 1 7 ) 这是将可对x 进行非参数回归时常用到的模型0 h a g a n ,c l e v e l a n d 等人讨论了( 1 7 ) 的各种形式( o h a g a n ,1 9 7 8 ;c l e v e l a n d ,1 9 7 9 ) 4 0 4 1 1 正是由于变系数模型形式灵活且易于解释等特点,十几年来, 该模型无论是在理论体系还是应用方面都得到了长足发展,在诸如 经济、金融、政治、医疗、生态等领域中都得到了成功运用,例如 ( b r u m b a c ka n dr i c e ,1 9 9 8 ;w ue ta l ,1 9 9 8 ;c h e na n dt s a y ,1 9 9 3 ) 2 5 】 4 2 4 3 】 对于变系数模型,我们感兴趣的是怎样将系数函数估计出来,以 及所得到的估计量估计效果的好坏1 9 9 3 年,h a s t i e 与t i b s h i r a n i 在 ( h a s t i e ,t j a n dt i b s h i r a n i ,r j ,1 9 9 3 ) 9 1 中利用惩罚最4 , - 乘方 法得出了( 1 2 ) 的函数系数的估计为估计系数函数a 1 ( ) ,o p ( ) , 一4 一 广义窄问变系数模型 最小化以下惩罚最4 , - 乘问题: n pp ,、) k 一a j ( n i ) x i a 2 + ( 钆) 。d 仳 ( 1 8 ) i = 1 j = lj = l j 上式第一项度量了拟合的优良程度,第二项用固定参数对相应的每 个函数系数n ,( ) 的不光滑程度作了惩罚,其中入1 ,a 2 ,入p 为待定 参数这种方法有其优秀的一面,但也存在一些问题:首先,必须同 时选择p 个光滑参数,这在实际应用中是一项相当艰巨的任务:其 次,这里的计算不容易实现,h a s t i e 与t i b s h i r a n i 当时提出了一种 比较繁琐的迭代算法:最后,使用这种方法时抽样性质难以获取 1 9 9 6 年,f a n 与g i j b e l s 对变系数模型采用局部多项式核光滑方 法进行了估计,因为变系数模型代表的是一类局部线性模型,因此 采用核光滑方法估计系数函数要更加合理( f a na n dg i j b e l s ,1 9 9 6 ) 4 4 c a r o l l ,r u p p e r t 与w b l s h 以及f a n 与z h a n g 得到了局部多项 式估计的条件偏差与方差( c a r o l l ,r u p p e r ta n d 、e l s h ,1 9 9 8 ;f a n a n dz h a n g ,2 0 0 0 a ) 4 5 f 4 6 唐庆国等提出了一步估计方法用以估计 变系数模型中具有不同光滑程度的未知函数( 唐庆国等,2 0 0 5 ) 4 7 】 卢一强通过b 样条方法来近似模型中的系数函数( 卢一强等2 0 0 3 ) 【4 8 1 同时,z h a n g 与l e e 详细研究了变系数模型固定窗宽以及可变 窗宽的选择方法,并对窗宽选择值的渐近性质做了研究( z h a n ga n d l e e ,2 0 0 0 ) 4 9 x i a 与l i 以及f a n 与z h a n g 对参数估计值及其真值 之间的最大偏差,置信区问以及假设检验问题进行了研究( x i aa n d l i ,1 9 9 9 ;f a na n dz h a n g 2 0 0 0 ) 5 0 51 最近几年,人们在变系数模型的基础上结合实际应用对模型进 行了某些修改,从而提出一类推广的变系数模型f a n 等人提出了以 下自适应变系数模型: p e y i x 】= :叼( ix ) 玛 ( 1 9 ) j = l 硕士学位论文 其中p r p ,x = ( x l ,z p ) t 为未知向量与变系数模型相 比,r = 3 t x 为一未知指标,包含了所有r = x 1 ,r = x p 的 特殊情形同时,f a n 等人给出了模型的可识别条件,他们发现除非 e y l x 】= ( 1 t x f l t x + r t x + c 模型才是可识别的( f a ne ta 1 2 0 0 3 ) 5 2 】给定,模型( 1 9 ) 实质上就是一个变系数模型,同样使用 局部多项式拟合可以给出系数函数的估计 奶( ,p ) ) ,将此估计代回 ( 1 9 ) ,就得到了“合成参数模型” s y n t h e t i cp a r a m e t r i cm o d e l : p e y l x = ea j ( z r x ,) 玛 ( 1 1 0 ) j = l 其中的参数p 可用最d , - - 乘法估计得出 有时候模型( 1 6 ) 中系数函数的某些分量为常数,而其它分量仍 然与r 有关,不失一般性,可以将此模型写成: y = z ! a l ( u ) + z ;a 2 + ( 1 1 1 ) 其中( z ,墨) t = x ,z i 为p i 维的协变量,i = 1 ,2 ,且p l + p 2 = p 我们将此模型称为半变系数模型模型( 1 1 1 ) 不能作为变系数模 型的特例来处理,因为a 2 为常数向量这一点我们必须充分利用 z h a n g 等人研究了这种模型,他们提出了一种两步估计方法,并且 证明了a 2 的估计的收敛速度为0 p ( 佗一壹) ( z h a n g ,w a n dl e e ,s y 2 0 0 0 ) f 5 3 1 ,在0 2 已知情况下,0 1 的估计也能达到此收敛速度对 模型( 1 1 1 ) ,口2 的估计非常重要,因为将a 2 的估计值代回( 1 n ) 之后,( 1 1 1 ) 就成了标准的变系数模型,而由于a 2 的收敛速度为 0 p ( 佗一趸1 ) ,将a 2 替换为a 2 对函数系数a l 的估计影响很小,所以我们 可以应用标准的变系数处理方法来估计a 】( z h a n ge ta 1 2 0 0 2 ) f 5 4 1 f a n 与h u a n g 两人更加深入的研究了模型( 1 1 1 ) ,他们提出p l s 方 法【p r o f i l el e a s t s q u a r e st e c h n i q u e1 来估计a 2 并且考察了估计量的 渐近正态性,此外两人还引进了“p r o f i l el i k e l i h o o dr a t i ot e s t ”,并 广义空问变系数饪互! 且证明了在原假设下,检验统计量服从渐近) ( 2 分布( f a na n dh u a n g , 2 0 0 5 ) 5 5 此外,变系数模型可以很容易的推广到条件分布属于指数族的 情况,这种推广可以让我们更加有效的处理各种类型的响应变量 通过一个函数夕( ) ,回归函数可以如下建模: 夕( m ( r ,x ) ) = e ( r ,x ) = x 1a ( r ) ( 1 1 2 ) 其中x 仍为p 维协变量,r 为一维协变量为了使理论思想更加一 般化,不必将讨论局限在指数族,只需假定给定( r ,x t ) 时,y 的对 数条件概率密度函数( 当y 离散时就取概率函数) 为t ( m ( r ,z ) ,影) 通 常我们将如此推广的变系数模型称为广义变系数模型,c a i 等人详 细研究了这种模型( c a ie ta 1 2 0 0 0 ) 5 6 1 3广义空间变系数模型 直到目前为止关于变系数模型的研究中,绝大多数是基于模型 ( 1 6 ) ,且r 为标量的情形尽管h a s t i e 与t i b s h i r a n i 在早期研究中 已经指出r 可以是向量,但后来对此情形的研究甚少其主要原因 是:首先,一个明显的问题是随着r 的维数的升高,数学处理的难 度显著增加,最致命的还是“维数祸根”现象重演,而变系数模型产 生的一个理论背景就是在处理高维数据时起到降维作用,因此,将 r 推广到多维,似乎与变系数模型提出的初衷相违背,但是要注意 到,在兄的维数适中时,“维数祸根”现象并不明显,一般来说6 维 是一个典型实际应用上限( s c o t l1 9 9 2 ,s e c t i o n7 2 ) 8 1 】;其次,将 r 限定为标量在实际应用中并不能总是满足我们的需求近年来 在空问数据分析中,空间变系数模型( s p a t i a l l yv a r y i n g c o e f f i c i e n t r c g r c s s i o nm o d e l ) 受到越来越多的学者的重视: y i = x i l a l ( ,v i ) + + 咒p a p ( u i ,v i ) + c i ( 1 1 3 ) 硕十学位论文 这里( 犰;托1 ,k p ) ( i = 1 ,2 ,佗) 是响应变量y 与协变量 x 】,的n 组观测值,e 1 ,佗为独立同分布的随机误差,均 值为o ,方差为仃2 ,( u i ,v i ) 是对应于第i 组观测( 耽;1 ,托p ) 的 地理位置( 经度与纬度) ,a ( u i ,v i ) = ( a l ( u i ,v i ) ,a p ( u i ,耽) ) t ,( i = 1 ,2 ,n ) 是未知回归系数函数向量,其中各元素都是空间位置 的函数该模型将数据的空间位置嵌入到回归系数中,故其既能 描述响应变量与协变量之间的关系,又能反映数据的空问变化特 征,这对来自地理、经济、环境、地质等领域的数据分析中有广 泛应用b r u n s d o n 提出了一种称之为地理加权回归g e o g r a p h i c a l l yw e i g h t e dr e g r e s s i o n g w r1 的方法来对模型系数进行了估计 ( b r u n s d o n ,c 1 9 9 8 ) 8 2 明显,空间变系数模型只是我们这里模型( 1 6 ) 在r 为二维向 量时的一种特殊情形,因此,无论是追求理论的完善还是实际应用 的需要,将r 推广到多维都是有必要的本文主要是研究这一推广, 我们把r 为多维情形的变系数模型暂且称为广义空间变系数模型 1 4 变系数模型中的窗宽选择 核光滑方法中核窗宽参数的选择是关键,较大的窗宽固然 能够减小估计的方差,但却导致估计的偏差增大,反之,较小的 窗宽会缩小偏差,但相应的估计的方差会偏大怎样选择一个 最优的窗宽至关重要在文献中已经出现了好几种窗宽选择方 法,例如:交叉验证法c r o s sv a l i d a t i o nt e c h n i q u e l ( b o w m a n ,1 9 8 4 ; s c o t ta n dt e r r e l l ,1 9 8 7 ;v i e u ,1 9 9 1 ;h a l la n dj o n e s t o n e ,9 9 2 ;f a ne t a 1 ,1 9 9 6 a ) 5 7 】 5 8 】 5 9 】 6 0 】 6 1 】,插值法【p l u g - i n 】( w o o d r o o f e ,1 9 7 0 ; s h e a t h e ra n dj o h n e s ,1 9 9 1 ;j o n e se ta l ,1 9 9 6 ) f 6 2 1f 6 3 1 6 4 1 等 对于变系数模型,当系数函数具备相同光滑程度时,选择一个 固定窗宽就可以很好的将系数函数估计出来,然而如果系数函数比 广义空间变系数模型 较复杂,则需要考虑使用可变窗宽w u 等人( w ue ta l ,1 9 9 8 ) f 6 5 1 以 及h o o v e r 等人h o o v e re ta l ,1 9 9 8 ) 2 6 1 提出使用交叉验证法选择窗 宽z h a n g 和l e e ( z h a n ga n dl e e ,2 0 0 0 ) 6 6 系统的研究了固定窗宽 以及可变窗宽的选择,其基本思路如下: 首先给出一个评价系数函数估计量估计好坏的标准,基于变 系数模型的形式,定义系数函数估计量的均方误差fm e a ns q u a r e e r r o r ) 为: m s e ( a ( u ) ) = e x t a ( u ) 一x t n ( u ) ) 2 其中( 以x t ) 为与观测样本口独立的随机向量勿= ( 巩, x f ,x f ) 通过简单的计算,有: ( 1 1 4 ) , m s e g ( u ) 】= e b t ( u ) f 2 ( u ) b ( u ) + t r ( a ( u ) c o v ( 5 ( u ) i u , 口) ) 】 ( 1 1 5 ) 其中: b ( u ) = b i a s ( a ( u ) l u , d )a ( u ) = e ( x x t l u ) 注意到: b i a s ( a ( u ) l 以矽) = b i a s ( a ( u ) 1 7 9 ) l 扎:u c o v ( a ( u ) l 配口) = c o v ( a ( u ) 1 7 9 ) l 让:u 因此: m s e ( a ( ) ) = e e m s e ( a ( u ) i d ) i :v 1 7 9 ) 】 我们将使得m s e ( 5 ( u ) l 口) 取最小值的窗宽尼叩,称为理论 最优窗宽由于m s e ( a ( u ) l 口) 依赖于一些未知参数,因此直接 找使其达最小值的窗宽参数是不能实现的,因此这里通常是 找到m s e ( a ( u ) 7 9 ) 的一个良好估计m s e ( a ( u ) l 口) ,并取使得 m s e ( a ( u ) 1 7 9 ) 取最小值时的窗宽作为我们的窗宽选择值寻找 m s e ( a ( u ) l 勿) 的估计时有各种不同的方法除了w u 等人提出的 硕士学位论文 交叉验证法,z h a n g 和l e e 是利用局部高阶多项式拟合分别近似 m s e ( a ( u ) i 刃) 中的各项未知量,从而得到m s e ( a ( u ) l 口) 的估计( z h a n ga n dl e e ,2 0 0 0 ) 6 6 在以上两种方法中都要用到实验窗宽对于实验窗宽的选 取,f a n 与g i j b e l s ( 1 9 9 5 ) 6 7 】在非参数回归背景下提出了r s c 方法( r e s i d u a ls q u a r e sc r i t e r i o n ) 针对非参数模型: y = a ( u ) + ( u ) e ( g ) = 0v a r ( e ) = 1 与e 相互独立我们感兴趣的是估计a ( u ) = e y i u = “ 如果在 点u o 处a ( u ) 的p + 1 阶导数存在,则在u o 局部可用p 阶多项式近 似a ( u ) : 。( “) n ( 钆。) + 。) ( u - 4 0 ) + + 者。p ( u 。) ( 让一咖) p ( 1 1 6 ) u 为u 0 的某邻域内一点,使用局部多项式回归: 佗pr m 一岛( 既一钆。) 歹) 2 k ( 丝 竺) ( 1 1 7 ) 其中k ( ) 为一非负权函数,h 为窗宽,它决定了仳。的邻域的大小 记p = ( 励,岛) ? ,以岛记以上加权最4 - - 乘问题的解则( 1 1 6 ) 式表明u ! 成为n ( ) ( 凯o ) , = o ,p 的估计根据r u p p e r t 与、v a n d ( 1 9 9 4 ) 6 8 】中的结果,这里总是取p v 为奇数 若记: w = d i a g k ( 与半) ,k ( u - 广钆o ) 设q 为设计矩阵,其( f ,j ) 元为( 阢一u o ) j ,y = ( h ,) t 则 局部多项式回归( 1 1 7 ) 的解为: 厉= ( q 丁w q ) 一1 q 丁彤y 一1 0 广义窄问变系数模型 在引入r s c 之前,先看估计风= 8 ( u ) ( 也o ) 秽! 时的理论最优窗 宽注意有: m 跚盼雕咸炉( p “刊帆勰赤 ( 1 1 8 ) 其中f u ( ) 为u 的边缘密度,即设计密度,a 口表示矩阵s 一1 s 掌s - 1 的 第秒+ 1 个对角元素,s 与s 丰都是+ 1 ) x ( p + 1 ) 的矩阵,其( i ,j ) 元 分别为8 i + j 一2 与v i 钾一2 ,其中勺= fu j k ( u ) d u ,v j = fu m 2 ( u ) d u 此外,b 为( p + 1 ) x1 向量s - 18 p + l ,8 2 p + 1 ) t 的第( + 1 ) 个元 素 当 ( u 。) = 1 ) ,记, d i a g a 1 ,a k = 矩阵中其它元素为0 对p p 矩阵a = ( a l ,a 2 ,) ,记v e c a = ( n ,o 多,巧) t 对p p 对称矩阵a = ( n 巧) ,v e c h a 表示这样一个l p ( p + 1 ) x1 的列向量,它依次将a 的下三角矩阵逐列相接组成 例如: 厂 i a v e ci i c l b i = d i j 厂ob v e c hli = 【c dj 对pxp 矩阵a ,用l a l 表示其行列式 对一随机序列 o n ) ,记a 几= o p ( r 佗) 如果r n - l a n o ;记 a n = 0 匆( ) 如果r n - 1 0 几依概率有界 对一列p p 随机矩阵序列 a n ) ,记a 几= o p ( r n ) 或a n = q ( ) 当且仅当a n 的每一元素a n ( 主,j ) = 吻( ) 或o p ( r n ) 1 5 硕士学位论文 用“m ( z ) 表示函数m 在点z 的h e s s i a n 矩阵,即( 冗m ( z ) ) i 7 = ( 0 。2 。,r e ;。( 。x ,) 对核函数k ( ) ,r ( k ) = fk ( 钆) 2 d u d ,n ( z ) 表示函数m 在点z 处的p 1 阶偏导数向量 用1 表示所有元素均为1 的矩阵,其维数根据上下文确定 2 1 多元非参数回归模型 s t o n e ( 1 9 9 7 ,1 9 8 0 ,1 9 8 2 ) 6 9 7 0 7 1 ,c l e v e l a n d ( 1 9 7 7 ) 7 2 最早研 究了基于局部加权最小二乘拟合的非参数回归估计随后,c l e v e l a n d 与d e v l i n ( 1 9 8 8 ) 7 3 ,f a n ( 1 9 9 2 ,1 9 9 3 ) 7 4 儿7 5 】,r u p p e r t 与w a n d ( 1 9 9 4 ) 6 8 】也进行了类似研究与传统的核估计相比,这些估计不仅形式简 单而且具有更优良的性质 假设 ( 托,m ) ,i = 1 ,2 ,扎) 为一组独立同分布随机向量,其 中m r 1 ,r d ,设托的密度函数为厂,那么一个感兴趣的问 题就是估计如下回归函数: m ( x ) = e y i x = z x r d 为研究区域中任意一点,如果e y 2 0 ,而这是以概率1 成立 的,因为我们总是假定n l h l i l _

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论