




已阅读5页,还剩47页未读, 继续免费阅读
(应用数学专业论文)变系数模型和半参数广义线性模型的统计分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 变系数模型和半参数模型是当今回归分析中研究的热点问题,在实际问题尤 其是在空间数据分析、生物统计学、经济学中有着广泛的应用。本文主要讨论变 系数模型和半参数广义线性模型,重点在于统计诊断方面和变系数模型广义加权 最小二乘估计方面的研究和应用。 第二章对变系数广义线性模型进行统计诊断,介绍常见的诊断模型,基于数 据删除模型得到参数的一阶近似诊断公式,并证明了数据删除模型和均值漂移模 型的等价性。在均值漂移模型基础上,建立假设检验,得到了此假设检验的s c o r e 检验统计量,并给出一阶近似的诊断统计量。又基于偏差度,对变系数广义线性 模型进行统计诊断。接着,进一步讨论了变系数线性模型的加权最小二乘估计和 广义加权最小二乘估计的性质。最后,给出度量影响的广义c o o k 距离。通过实 例分析,验证诊断方法的有效性,并给出诊断图。 第三章利用交叉核实法( c r o s sv a l i d a t i o n ) ,广义交叉核实法 ( g e n e r a l i z e dc r o s sv a l i d a t i o n ) 来估计了半参数广义线性模型的光滑参数p 把似然距离、广义杠杆值和偏差度的度量推广到半参数广义线性模型。并在半参 数广义线性模型中给出残差的概念,证明了在数据删除模型和均值漂移模型中偏 差度的等价性数值实例说明了诊断方法的有效性。 关键词:变系数局部加权最大似然统计诊断数据删除均值漂移 加权最小二乘 a b s t r a c t v a r y i n g c o 维c i e n tm o d e la n ds e m i - p a r a m e t r i cm o d e l , u s e f u li nm a n yp r o b l e m s e s p e d a l l yf o rs p a t i a ld a t a 。b i o m e t r i ca n de c o n o m e t r i ca p p l i c a t i o n s ,b e c o m e a l l i m p o r t a n tr e s e a r c hf i e l di nt h er e g r e s s i o n 1 1 l i sp a p e rp r e s e n t st h ev a r y i n g - c o f f i c i e n t m o d e la n ds e m i - p a r a m e t r i cg e n e r a l i z e dl i n e a rm o d e l , e s p e c i a l l yf o rt h er e s e a r c ha n d a p p f i c a f i o no f t h ed i a g n o s t i c sa n dt h eg e n e r a l i z e dw e i g h t e dl e a s ts q u a r e se s t i m a t i o no f t h e v a r y i n g - c o f f i c i e n tm o d e l i nt h es e c o n dc h a p e rw es t u d yt h es t a t i s t i c sd i a g n o s t i c so fv a r y i n g - c o f f i c i e n t g e n e r a l i z e dl i n e a rm o d e l ,i n t r o d u c et h eu s u a ld i a g n o s t i c sm o d e l s ,g e tt h ec o n c i s e d i a g n o s t i c se x p r e s s i o n sb a s e do nc a s ed e l e t i o no rs u b j e c td e l e t i o nm o d e l s ,e s t a b l i s h a ne q u i v a l e n c eb e t w e e nt h ec a s ed e l e t i o nm o d e la n dm e r n s h i f to u t l i e rm o d e lf r o m w h i c hw ed e r i v et e s t sf o ro u t l i c r s 。e s t a b l i s hat e s to fh y p o t h e s i so nt h eb a s eo f m e a n s h i f tm o d e l 。g e ts c o r es t a t i s t i co fo u t l i e r s ,a n dt h ef i r s to r d e ra p r o x i m a t i o n s t a t i s t i c s w es t u d yt h ed i a g n o s t i c sb a s e do nd e v i a n c e w ea l s od i s c u s st h ew e i g h t e d l e a s t s q u a r e se s t i m a t i o n , t h eg e n e m l i z c dw c i g h t e dl e a s ts q u a r e se s t i m a t i o n i n v a r y i n g - c o f f i c i e n tl i n e a rm o d e la n dg e tc o o kd i s t a n c e i nt h et h i r dc h a p t e r , w eg e tt h ep a r a m e t e ru s i n gc r o s s - v a l i d a t i o na n dg e n e r a l i z e d c r o s s - v a l i d a t i o n ,d e v e l o pt h el i k e l i h o o dd i s t a n c e , g e n e r a l i z e dl e v e r a g ea n dd e v i a n c ei n t h es e m i - p a r a m e t r i cg c n c r a l i z o dl i n e a rm o d e l , g e tr e s i d u a l si ns e m i - p a r a m e t r i c g e n e r a l i z e dl i n e a rm o d e la n dt h ee q u i v a l e n c eo ft h ed e v i a n c eb a s e do nc a s ed e l e t i o n 0 1 m e a n - s h i f to u t l i e rm o d e l s k e y w o r d sv a r y i n g - c o f f i c i e n tl o c a l l yw e i g h t e dm a x i m u ml o g - l i k e h o o dd i a g n o s t i c s c a s ed e l e t i o n i n c r i is h i f t w e i g h t e dl e a s ts q u a r e se s t i m a t i o n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了咀确的说明。 研究生签名:丞丛支。 硼年占月巾 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:l 送艇汾朋咋 硕士论文变系数模型和半参数广义线性模型的统计分析 1 1 模型的提出 第一章绪论 回归分析是数理统计学的一个重要分支,它的理论与方法发展得非常快,在许多 实际问题中有着重要的实际应用。随着回归分析的理论的不断发展,变系数回归模型 和半参数回归模型已经成为目前比较重要的研究课题。本章第一节阐述变系数回归模 型和半参数回归模型的由来,第二节简要介绍两类模型的研究现状;第三节介绍本文 的主要工作。 1 1 1 变系数模型 在空间数据分析中,虽然一般线性回归模型作为一种最常用的方法,也可用来确定 和分析变量之间的关系,且有完备的理论体系和统计推断方法 1 】。然而,此模型要求 回归系数在所研究的空间区域内具有一致性( e p 为常数) ,没有考虑空间数据的最典型 特征空间非平稳性( s p a t i a ln o n s t a t i o n a r i t y ) 2 3 】,因而其分析结果不能全面反映 空间数据的真实特征,尤其是数据随空间区域的变化规律。近年来,在加强线性回归 模型的灵活性和实用性的方面已经取得了相当大的进展,主要是通过回归变量的任意 函数来代替部分或所有回归变量的线性函数。b r u n d o n 等人【4 ,5 】将非参数光滑思想应 用于空间数据,提出了探索地理数据空间平稳性的地理加权回归模型,在此模型中, 因变量与回归变量被假定为服从一个线性回归模型,但回归系数是数据的观测点所在 地理位置的函数,并利用局部加权最小二乘方法有效的解决了模型的拟合问题。其中 受到人们普遍重视的一个模型是下面的空间变系数回归模型( s p a t i a l l yv a r y m g - c o e f f i c i e n tr e g r e s s i o nm o d e l ) j 6 - 7 】 乃= 反( k ) + 屈( ) 毛l + 4 - 以( 嵋) + q ,f = 1 ,2 “甩, 其中,薯1 ,毛2 ,) ,i = 1 ,2 ,刀是因变量y 和自变量五,五,五的n 组观测 值,q ,乞,磊为独立同分布的随机误差项,均值为零,方差为盯2 。v l 是对应于第f 组观 测,薯。,五2 ,) 的地理位置的坐标( 如经度和纬 度) ,“) = ( 属) ,a ( u ) , 以炉( i = 1 ,2 , 1 ) 是未知的回归系数向量。其中各 元素是空间位置e 的函数。此模型将数据的空间位置嵌入到回归系数之中,故其既能 硕士论文变系数模型和半参数广义线忭模型的统计分析 描述因变量和自变量的关系,又能反映数据的空间变化特征,在对来自地理,经济,环 境,地质等领域的数据的分析中有广泛的应用。 1 1 2 半参数回归模型 回顾回归分析的研究历史,大致在上世纪七、八十年代以前,重点在于参数回归 的研究,尤其是线性回归模型的研究。到目前为止,无论在广度还是在深度上对于线 性回归模型的研究都已取得了相当的成果,而且在这方面的研究仍在纵深发展。对于 非线性回归模型,也取得了一些成果,特别是自从1 9 8 0 年,加拿大统计学家b a t e s 和w a t t s 8 弓 进曲率度量,将微分几何的方法应用于统计学中以后,非线性回归模型 有了较快的发展。 上述两种参数回归模型有一个共同的特点:在回归函数中除去有限个参数其余都 是已知的。因为参数回归模型对回归函数提供了大量的额外信息,因而当假设模型成 立时,其推断有较高的精度。但是,当模型假定与实际背离时,基于假设模型所作的 推断其表现可能很差。这种情况,促使人们寻找别的出路,而非参数回归则是朝着这 个方向的一种努力。非参数回归模型的特点是:回归函数的形式可以任意,对模型的 分布函数也很少限制,因而具有较大的适应性。非参数回归自s t o n e ( 1 9 7 7 ) 9 的一项 著名工作后,其理论与方法已有重要进展。 非参数回归模型虽有许多优点,但从实际应用来说,尚有它的局限性。例如影响 y 的因素( 解释变量) 可分为两部分,即 ,x 2 ,”, x p 及t l ,r 2 ,根据经验或历史资 料可以认为因素五,而,x ,是线性的;而,f 2 ,0 则是某种干扰因素( 或者看作协变 量) ,它同j ,的关系是完全未知的,而且没有理由将其归入误差项。此时如果采用线 性回归模型一般拟合情况很差。比较自然的是采用两者的“混合”。此外,在非参数 回归模型中,各个解释变量对响应变量作用的差别往往被忽略,这在实际问题对此未 提供任何信息时,是不可避免的;但若有根据认为某些解释变量对的影响较显著时, 而使用非参数回归会明显地降低模型的解释能力 为弥补非参数回归的不足,一个方向的努力是e n g k 等( 1 9 8 6 ) 【l o 】提出的偏线 性回归模型,曾用此模型讨论气象对供电量的影响。详而言之: 设 五,i , “,为疗次独立观察,且服从z = x f p + g c t , ) + e , ,i - - 1 ,2 ,啊通常假 = 定 ( 1 ) 岛,e i i d ,f ge e , = 0 , 2 硕士论文变系数模犁和半参敢广义线十牛模犁的统计分析 ( 2 ) g 矿,w 为定义在u ( c r q ) 上的某个实值函数空间。 # ,g ) 分别称为该模型的参数分量与非参数分量,称卢为回归参数。很显然,回 归参数是有限维的,而非参数是无限维的。常称上述模型为半参数回归模型 ( s e m i - p a r a m e t r i cr e g r e s s i o nm o d e l ) 半参数回归模型具有参数回归模型与非参数回归 模型的优点,因而此模型近年来广受人们的重视,在理论和方法上日趋成熟。 由于理论和实际问题的需要,对于参数回归模型的研究不仅仅局限在普通的线性 和非线性模型,广义回归模型的研究也是目前重要的课题。广义回归模型是普通线性 和非线性的自然推广,它包括广义线性回归模型、指数族非线性模型以及更广的再生 散度非线性模型,对于这些模型的研究,自然的从半参数线性模型推广到半参数非线 性模型以及半参数广义模型的研究。 1 2 研究现状 1 2 1 变系数模型的研究现状 对于变系数模型,1 9 9 3 年h a s t i e 和t i b s h i r a n i 首先利用核权函数给出了局部回归方 法的变系数模型估计量 1 1 1 。之后,f a n 与c , i j b e l s 于1 9 9 6 年对变系数模型采用了局部多 项式估计。c a r o l l , r u p p e r 铘w e l s h ,f a n - 与z h a n g 得到了局部多项式的条件偏差和方差, 正如所期望的那样,仅依赖于局部近似误差( l a c a la p p r o x i m a t i o ne e e o r ) 的偏差具有阶 d ( 砰) ;而仅依赖于有效的局部数据点数目( n u m b e ro f l o c a ld a t ap o m p ) 的方差具有阶 d ( ) ) 。同时,f a n 和l i 还得到估计量的渐进正态性和有数据决定的窗宽选择方法【1 2 】。 而关于估计的系数函数与真实的系数之间的最大偏差及置信带和假设检验的问题由 x i a l i 与f a n z h a n g 所讨论 1 3 1 1 1 4 欧阳光在 1 5 讨论了变系数回归模型中变系数的加 权最小二乘估计和变系数的加权可估函数的线性估计的最优性;推广了g a u s s m a r k o v 定理:并且构造出参数盯2 的估计量崔恒建,王强 1 6 研究了当结构关系e v 模型的系数 随某个实变量变化时,如何估计其系数,以及估计的性质如何采用加权正交回归方法 估计结构关系e v 模型的变系数,在比较弱的条件下证明了用这种方法得到的估计具 有强相合性。卢一强、曾林蕊【1 7 1 考虑变系数模型y ( ,) = x r f l ( t ) + e ( t ) ,得到f l ( t ) 的b 样 条肘估计,并证得m 估计达到最优收敛速度的条件。唐庆国、王金德【1 8 】提出了一 步估计方法用以估计变系数模型中具有不同光滑度的未知函数。花俊洲、梅长林、吴 冲锋 1 9 】提出了一类有广泛应用背景的变系数广义线性模型,基于局部加权最大似然 3 硕士论文变系教模犁和半参数广义线性模型的统计分析 估计方法,讨论了此模型的拟合和统计推断等问题。又在 2 0 1 中提出了半参数可变系 数广义线性模型,讨论了向后拟合估计 1 2 2 半参数回归模型研究现状 半参数回归模型的研究始于八十年代,它的一出现,就引起了应用工作者和理论 工作者的广泛重视。w h h b a ( 1 9 8 4 ) 【2 1 】证明了:当f 非随机时,户的偏样条估计矽是万一 相合估计;h e c k m a n ( 1 9 8 6 ) 2 2 研究了“) 与托) 相互独立,且g ( ) 的估计取一类惩罚样 条估计时,的最小二乘估计的渐进正态性;r i c e ( 1 9 8 6 ) 2 3 研究了惩罚最小二乘估 计的收敛速度;s p e e k m a n ( 1 9 8 8 ) 2 4 研究了当i l ,“) = e o ) 关于满足口阶l i p s c h i t z 条件,且g ( 的估计取核估计时,的最小二乘估计的渐近正态性;高集体( 1 9 9 2 ) 2 5 1 研究了g ( ) 取一类非参数加权估计( 包括常见的核估计,近邻估计等) 时,参数 部分的最小二乘估计的渐进正态性、收敛速度等问题;柴根象( 1 9 9 5 ) 【2 6 】研究了 半参数模型的参数估计的渐进正态性、重对数律等问题;g r e e n ( 1 9 9 4 ) 2 7 】首先提出了 一般的半参数回归模型:包括半参数广义线性模型、半参数非线性模型等。研究了参 数分量与非参数分量的惩罚最大似然估计的迭代算法,定义了残差及偏差度等统计 量,但在理论和应用上没有得到深刻的结果;s e v e r i n i 和w o n g ( 1 9 9 2 ) 2 8 利用最佳偏 差度曲线( l e a s tf a v o u r a b l ec u r e ) 的概念,对非参数部分采用最大核权估计,证得了参 数部分得最大子集参数似然估计得渐进有效性;朱仲义( 1 9 9 9 ) 2 9 在他的博士论文中 系统地研究了半参数非线性回归模型。 1 2 3 统计诊断 统计诊断是七八十年代中期发展起来的一门统计新分支。它以强烈地应用背景、 新颖地统计思想、广泛地研究内容和丰富地实际成果在广大统计工作者面前展现出一 个与应用结合地崭新领域。统计学地出发点是一个数据集,该数据集往往是根据在实 际工作中逐步积累起来的历史资料或围绕某一特定目标收集起来的数据,经初步加工 整理而成。为了通过数据集研究实际问题,通常的做法是把它纳入某一方面有效的统 计模型进行研究。但是,全体统计模型都只能是对客观过程的一种近似描述。它不可 避免地包含某些假定,甚至模型本身也是一种假定。人们自然有理由要问:我们选择 地模型能不能大体上反映所要研究地实际问题? 它是否与数据集中极大数的数据相 4 硕士论文变系数模型和半参数广义线性模型的统计分析 一致? 我们所得到的数据集中会不会有个别数据由于收集或整理过程中的疏忽和其它 种种原因而出现较大的误差? 另外,数据集中各个数据点对我们进行统计推断的影响 是否大体相仿,会不会有某些点的影响特别大? 等等。在使用统计方法解决具体问题 的过程中,人们必须慎重地回答上述问题,才能作出更加符合实际的结论。 统计诊断就是针对上述问题而发展起来的一种分析方法。在过去的近二十年中, 对于线性回归的诊断,韦博成等已经做了全面综合的讨论。对于其它模型( 例如非线 性回归模型、广义线性模型、指数组非线性模型和再生散度非线性模型,指数族非线 性随机效应模型) 的统计诊断也得到了较大的发展。对上述模型分别做了详细的讨论。 另一方面,对于半参数回归模型,半参数随机效应模型及混合模型的统计诊断也有进 展。朱仲义研究了线性纵向数据的统计诊断与影响分析。研究了线性纵向数据的统计 诊断。对半参数混合模型做了影响诊断和异常点的研究。 1 3 本文主要工作 本文主要讨论一类新的模型即变系数模型和半参数广义线性模型,重点在于统计 诊断方面的研究和应用。 第二章主要讨论变系数广义线性模型和变系数线性模型的统计分析 首先在【1 9 】基础上对变系数广义线性模型进行统计诊断,介绍常见的诊断模型, 基于数据删除模型得到参数的一阶近似诊断公式,并证明了数据删除模型和均值漂移 模型的等价性。在均值漂移模型基础上,建立假设检验,得到了此假设检验的s c o r e 检验统计量,并给出几种一阶近似的诊断统计量又基于偏差度的基础上,对变系数 广义线性模型进行统计诊断。接着,进一步讨论了变系数线性模型的加权最小二乘估 计和广义加权最小二乘估计的性质。最后,给出度量影响的广义c o o k 距离。通过实 例分析,验证诊断方法的有效性,并给出诊断图。 第三章主要讨论了半参数广义线性模型。 首先给出半参数广义线性模型的定义,利用交叉核实法( c r o s sv a l i d a t i o n ) 、 广义交叉核实法( g e n e r a l i z e dc r o s sv a l i d a t i o n ) 来估计了光滑参数a 。把似然距离、 广义杠杆值和偏差度的度量推广到半参数广义线性模型。并在半参数广义线性模型中 给出残差的概念,证明了在数据删除模型和均值漂移模型中偏差度的等价性。通过实 例分析,验证诊断方法的有效性,并给出诊断图。 硕士论文变系嚣模型和半参数广义线性模型的统计分析 第二章变系数模型的统计分析 2 1 交系数广义线性模型 2 1 1 引言 立足于广义线性模型的联系函数关于回归变量为线性函数的这一基本结构,通过 假定回归参数为某一度量空间的任意函数以增加广义线性模型的灵活性和实用性,花 俊洲等人在【1 9 】提出了变系数广义线性模型并利用局部最大似然估计方法,有效的解 决了模型的拟合问题。但对于变系数广义线性模型的统计诊断方面的研究和变系数线 性模型的广义最b - - 乘估计及诊断统计量方面的研究尚未见有关报道,本章首先将研 究变系数广义线性模型的统计诊断问题。接着,在【1 5 】基础上进一步研究了变系数线 性模型的加权最小二乘估计的性质、广义最b - - - 乘估计以及诊断统计量。 2 1 2 模型的定义 1 9 7 2 年,n e l d e r 和w e d d e r b u m 对经典线性回归模型做了进一步的推广,并且提 供了一个统一的估计理论和计算框架,这个推广的模型就称为广义线性模型,在统计 学中产生了重要的影响。 定义1 设z 为一随机变量,如果其密度函数( 连续型时为分布密度、离散型时为概 率分布列) ,6 :,或) 可表为 f 0 s ,q ,谚) = e x p 【三:i ;产+ c ( 只,谚) 】 则称r 服从具有参数6 :和谚的指数分布族,其中口( ) ,6 ( ) ,c ( ,) 为已知函数,称只为 自然参数,称谚为多余参数( n u i s a n c ep a r a m e t e r ) 。 在一定的正则条件下,对于指数分布族,可以证明【3 0 】 e ( j ,) ;= 6 7 ( p ) , v a t ( 1 0 = 6 ( 印口( ) = y ( ) 口( ) , 其中矿) = 6 。( p ) 称为指数分布族的方差函数。 定义2 称随机变量墨,e ,】:满足广义线性模型,如果 硕士论文变系数模型和半参数广义线性模型的统计分析 ( i ) k ,五,相互独立,并且r 一,包,谚) i - - 1 ,2 ,“,r ( i i ) 对于给定的单调可微函数g ( ) ,有 g ( h ) = f = 反, i = 1 ,2 ,3 ,珂; k - o 其中,而。= 1 ,h = 占( 巧) ,g ( ) 称为连接函数。 然而,在广义线性模型中,肛通过连接函数9 0 为卢的线性函数的假定仍具有较 大的主观性,在适应数据自身变化规律方面仍受到一定的制约。例如,着实际数据中, 回归变量与因变量或连接函数之间不存在线性关系,那么这种假定必然导致模型不正 确。借用非参数光滑的思想,广义线性模型得到了进一步的改进,提出了半参数以及 非参数广义回归模型,其中通过假定g ( ) 或者其一部分为回归变量的任意函数以增加 模型的灵活性和实用性,并通过数据光滑方法拟合相应的模型。有关这方面的文献可 参看 3 1 3 3 等。 非参数广义回归模型虽然有效地增加了模型地灵活性和适用性,但未考虑数据地 空间结构,因而不能有效地应用于分析诸如在地理学、经济学及流行病学等领域中所 涉及的与一定空间结构有关的数据。而变系数广义模型不但具有非参数广义线性模型 所具有的较高灵活性和适用性的特点,又具有和一般广义线性模型相类似的估计方 法。它不仅适用于多个回归变量的情形,又适用于空间数据的分析 设】,表示因变量,= ( 五,恐,工,) 表示p 个回归变量的向量,d 是一个带有距 离函数d ( ,) 的棚维度量空间,v d 可以解释为观测数据所对应的“位置”,比如当 为维向量时,就可以表示为在空间地理位置上观测到数据,当为4 维空间时,则表示 时刻在空间地理位置上观测到数据) ( ,如此等等。中的距离可以根据问题的实际背景 具体化,除了通常使用的欧式距离之外,它还可以取作两观测点之间的社会环境、经 济环境、自然环境的相似性度量等在此基础上,我们的模型可看成是随观测数据的 位置变化而改变模型系数的变系数广义线性模型。 定义3 称随机变量k ,五,满足交系数广义线性模型,如果对n 个独立在h 处的 观钡4 ( 鬈,五) ,这里# - - ( x , 1 ,一2 ,) ,f = 1 ,2 ,3 , 疗,有 z 一,( 乃,只,谚) ( 2 1 ) 7 硕士论文变系数模型和半参数广义线性模型的统计分析 ( i i ) g 以) = 屈( 峙k ,i = 1 ,2 州3 ,以 t - o 其中属( ) ,属( ) ,一- , g ,( 是p + 1 个定义在空间d 的某一个子集上的函数。尽管变系数 广义线性模型形式上看起来很具体,但它实际包含了许多熟知的广义回归模型作为其 特例,如 1 ) 如果岛( v ) = 岛,1 = o ,1 ,p 是p + 1 个未知常数,那么模型( 2 1 ) 便是一般广义线性 模型。 2 ) 取d c r p , v = x 且届( 力= 尾( 功_ = 尾( x ) = 0 ,则模型( 2 1 ) 便为g ) = a ( 苫) , 由于屁( 功是任意函数,所以这是非参数广义模型。 3 ) 如果我们取d = 【o + m ) ,v f f i t 是第f 个观测值在被获得时的时间点,那么模型( 2 1 ) 便为g ( 雎) ;艺屈( f ) h ,r = ,i ,f 2 ,乙,= 1 这个模型是熟知的动态线性模型在广义 t - 0 线性模型下的推广。 4 ) 令d 为所研究的地理区域且v 是数据x 所对应的3 维具体地理位置,那么模型( 2 1 ) 即为地理加权回归模型的推广 2 2 变系数广义线性模型的估计 最大似然估计方法为统计的估计问题提供了一个非常有用的工具,且相应估计量 在一定的正则条件下具有较好的性质,但这个方法要求我们为随机变量假定一个具体 的参数形式,因而很难应用于非参数回归的问题。利用非参数回归中局部拟合的思想, 通过对对数似然函数施加适当的局部权,再利用极大似然原理得到所关心的局部估计 量,适合非参数回归拟合问题,这种方法称之为局部似然( 1 0 c a ll i k e l i h o o d ) 方法。该方 法自开始提出以后,目前已经得到了广泛的研究。例如t i b s h i r a n i 和h a s t i e 3 4 把局部 似然拟合思想用到广义线性模型和c o x 比例风险模型。f a n 等【3 5 】将此方法用于广义 线性模型的局部多项式拟合等等。对于变系数广义线性模型的估计,花俊洲等人在【1 9 】 中介绍过。 一般的,给定任何一点v d ,这里,= ( 而,而,x 。) m ,对所有的观测点 ( z x , l x a , - ) ;扣1 ,2 ,行它们均提供了9 0 ) 在给定点v 的信息,这些信息可以用来估 硕士论文变系数模型和半参数广义线性模型的统计分析 计系数岛( ) ,届( ) 见( ) ,然而不同的观测值对在给定点v 处的系数估计有不同的重 要性,这种重要程度可以通过一组权来对相应的似然函数中的各项作调整。一般说来, 距给定点,较近的观测数据对y 点处的参数估计影响应该较大,而相距较远的观测数 据对给定点l ,处的参数估计影响应该较小,甚至为零。而在变系数广义线性模型中, 观测值五= ( 墨i ,毛:,) 以及工= ( 毛,x 2 , - - , b ) 7 所对应的d 中的点k 和v 之间的距离 以d ,v ) 来度量。因此,对于较小的d ( h ,v ) 所对应的观测点,我们赋予较大的权值, 反之,对于较大的d n ,v ) 所对应的观测点,我们则赋予较小的权值。对于局部权的 确定方法,( 【1 7 】) 给出了g a u s s 局部权系统和截尾型局部权系统中局部权的确定。 设在给定点处v 的一组权为w l ( 功,w 2 ( v ) ,( v ) ,其中第f 个权( v ) 对应于第f 个 观测数据( r t ,薯2 ,k ) 对于模型( 2 1 ) ,“,儿,”仉) 的对数似然函数为 工( ( v ) ) = 】1 l ,( 户( v ) ;咒,咒,y d = 薹;( 2 2 号;i ;产+ c ,破) ) ( 2 2 ) 按照局部似然方法,在给定点处相应于权的局部加权似然函数( 为方便计,记为 p l ( v ) ) ) 为 聊( v ) ) = 砉喇呜笋嘞,f i ) ) ( 2 3 ) 定义4 对给定点v d ,使( 3 ) 式达到最大值的( v ) ,记为 p ( d = ( 磊( v ) ,矗( v ) ,”、允( v ) ) 7 ; 称为( v ) 在给定点v 处的局部加权最大似然估计量。 由于变系数广义线性模型的局部加权最大似然估计量推导方法类似于一般广义 线性模型的推导,因此,不加证明地给出 定理2 1m 对于变系数广义线性模( 2 1 ) ,户( v ) 在给定点v 处的局部加权最大似然估 计量由方程组 喜呐,高怒一o ,一叫二,p 来决定而o = 1 ;扛l ,2 ,, 9 预士论文变系数模型和半参数广义线性模型的统计分析 2 2 1 局部似然方程的解法 由引言中的例子可知,实际中常见的情况:a c e , ) = q ,其中, 7 1 ,a 2 ,吒为已知常 数,在我们以下的讨论中仅考虑4 磁) = q 的情形。由于在一般情况下,在给定点v 处 的局部加权似然方程2 4 式是未知系数的非线性方程,因此求其显式解是不实际的。 这里我们用迭代加权最小二乘方法来解方程2 4 。 定理2 2 假定在d 中每一给定点,处矩阵x ( v ) x 皆可逆,则变系数广义线性模 2 1 在给定点v 处局部加权最大似然估计的最小二乘迭代公式为 夕”1 ( = ( 庇”1 ( v ) ,戽”“( v ) ,纡“( v ) ) 7 = 7 矽”( v ) x r l x 7 w ”( v ) z ,m = l ,2 重复迭代,直到m = t o 使得对于给定的误差限s ,有 垆协爷纠) ( v ) l i = 姜晚”众喁弘g 这时,取在给定点v 处的局部加权最大似然估计为 p ( v ) = 声写( v ) , 其中 x = 1 五l x 1 , 1 而l 毛, 1 l 。z = 毛 乃 : 乙 夕( v ) = ( 磊( v ) ,a ( v ) ,扉( 呦7 以及形( v ) = 凼曙( 啊( v ) ,吼( v ) ,吃( v ) ) 为对角矩阵, 川= 半= 茄a , v l u , , q 八gl m 2 := g 以) + ( 誓一“) 9 7 ( 鸬) ,i = 1 ,2 ,以 在实际中,可以采用以下的步骤进行迭代 ( 1 ) 先给出h ,乜,以的一组初始值“”,属”,f :d ) 。 ( 2 ) 计算珩o = g 耐o ) 。 1 0 硕士论文 变系数模型和半参数广义线性模型的统计分析 ( 3 ) 再计算才= 矿+ ( k 一“o ) g ( 厨0 1 ) ,i = i ,2 ,捍及权矩阵: w ( v ) = d ? 昭( 耐( v ) ,秽( v ) ,硝1 ( v ”。 ( 4 ) 求出声1 ( v ) = 7 w t o ) ( v ) x y l x 7 形( v ) z ( ( 5 ) 定义,7 0 = ( 卯,谚,嘏1 ) r = 蛳o ( v ) ,则可得到= g 。1 ( 稚) , i = l ,2 ,”,弗。由( 3 ) 计算z ”以及肜m ( v ) ,再由( 4 ) 可得 声( v ) = i x 7 w o ( v ) x y l x 7 o o ) z o , ( 6 ) 重复步骤( 5 ) 。 由于模型( 2 1 ) 在局部给定点1 ,处的迭代完全类似于一般的广义线性模型的最小 二乘迭代,因此其迭代的初始值选取与迭代收敛性的讨论可参看【3 6 】。 2 3 变系数广义线性模型的统计诊断 由于变系数广义模型是将回归参数由固定的常数变为关于位置的函数,所以关于 广义线性模型的统计诊断的思想和方法,在本节中大多能够应用。我们首先研究有关 的统计模型,然后介绍若干诊断统计量。在进行统计诊断分析中,我们假定等式( 2 1 ) 中口饼) = l 。 由于e ( 咒) = 以= 6 ,( b ) ,故有珥= g ( i t , ) f f i g ( b ( 6 ) ) ,可记 包= 七( 碾) = 七( 彳户( v ) ) ,后( z ) = 6 “g 。( 。) ( 2 5 ) 挑,y 2 ,只) 关于o = ( 0 1 幺) 7 和的对数似然函数可表示为( 略去与参数无关的 项) : 工( 印= ( 只包一6 ( 6 :) ) , ( 2 6 ) l - l 工( v ) ) = 眈j ( # ) 一6 ( 豇( ,卢( v ) ) ) 】。 ( 2 7 ) t - i 在给定点1 ,处,工( v ) ) 关f d ( v ) 的一阶和二阶导数分别为: 工( v ) ) = z 7 口( v ) ) , p 够( v ) ) = 耐( v ) ) ,( ( v ) ) ) 7 ; ( 2 8 ) 硕士论文变系数模型和半参数广义线性模型的统计分析 ( v ) ) = 眦- b ( 七( # ( v ) ) ) w ( # 卢( v ) ) ; 上。够) = 一x 7 e x , f f i d i a g ( e f ( f l ( v ) ) ,” , e 3 c d ( o ) ) ; ( 2 9 ) 够( v ) ) = 矿( k c x j d c v ) ) ) k ( # ,( v ) ) 】2 一眦- b ( j ( 彳( v ) ) ) 玷。( # ( v ) ) a 其中| | ( z ) ,k c z ) 表示k c z ) 关于2 的一阶和二阶导数。实用上比较常用的是典则联系 的变系数广义线性模型,这时有只= 扔,k ( z ) f z ,这儿我们主要讨论这种形式的变 系数广义线性模型。因而有 包= 吼= 芦( v ) ,口= ,7 = x p ( v ) hh 工够( v ) ) = l v , e , d ( o - b ( e , d ( o ) = l a p ( v ) ) l ii - i 工( ( v ) ) = r r s , s = ( 丑, ) r ; 墨= ,( 6 l ,咒) = 咒一6 ( q ) = 乃一一 工。( v ) ) = 一x 7 矿) 工,y ) = 硪昭“) ,矿( 以) ) 2 3 1 数据删除模型和均值漂移模型 ( 2 1 0 ) ( 2 1 1 ) ( 2 1 2 ) ( 2 1 3 ) ( 2 1 4 ) 为了研究,# ) o = 1 ,以) 在统计分析中的作用,基本的方法就是比较数据删除 模型与原模型估计量之间的差异。对于模型( 2 1 ) ,其数据删除模型可以表示为 ,7 ( d = x ( f ) ( v ) ( 2 1 5 ) 其中7 7 ( f ) 表示玎中删除了第i 个分量后得到的1 1 - - 1 维向量。我们记模型( 2 1 5 ) 式的参 数估计为展,) ( v ),由于卮。) ( v ) 一般很难求出其显式解,我们通常都是求其一阶近 似成) ( v ) 。故我们得到以下定理: 定理2 3 对模型( 2 1 5 ) 式,展。) ( v ) 的一阶近似扁) ( v ) 可以表示为 琢脚( v ) 一型塑譬竽 旺 这里p n 是投影阵 硕士论文变系数横型和半参数广义线性模型的统计分析 p = 【形( v ) 矿) 】5 x 【x 7 w o , ) v ) x l - 1 x 7 【矽( v ) 矿) 】| = 矿 ( v ) 一( ) x 【z 7 w ( v ) v c u ) x y l x 7 w ( v ) v i c u ) 为p 工( v ) ) = 嵋( v ) 眦# 卢( v ) 一6 ( # ( v ) ) 】= w f ( v x ( 卢( v ) ) 。对应于数据删除模型 p o ( ( v ) ) = _ ( v ) 眈( v ) 一6 ( 彳( v ) ) 】- 匕( v 巧( v ) ) ( 2 1 7 ) 铲= 萎州鬻= 萎州型铲a ( ( v ) )篇”7a ( ( v ) ) 篇”7 a ( v ) ) = _ ( v ) 眈_ 一6 研卢( v ) ) _ 】 = ( v ) - b 7 ( ( v ) ) 】 = w j ( o s :j 吲删= 焉祭= 一碥哪帅 ( 2 1 9 ) f 嵋( v ) 01 这里形2 lo 嵋l 其中) 为s 中删除了第个元素后得到的伽一。 维向量,睨) ( 为( v ) 删除第f 行和第f 列后得到的0 一1 ) 0 一1 ) 阶矩阵。 由于聪) ( 岛) ( v ) ) = o ,将尸) ( 层,) ( v ) ) = o 在p ( v ) 处进行一阶展开可得 p ) ( 层”( v ) ) = p ) ( ( v ) ) + p ) ( ( v ) ) ( 磊) ( v ) 一( ) = o 预士论文变系数模型和半参敬广义线性模霉! 的统计分析 扉) ( v ) = 声( v ) 一【p 巧) ( 夕( v ) ) 】- i p ) ( 夕( v ) ) = 多( v ) + 【碥联。( v ) k 。) o ) 五,) 】1 碥,) ( v ) & 。) h 又x 7 w ( v ) v ( u ) x = x j ( v ) v ( u j ) = 确睨) ( v ) k d o ) 五o + w l ( v ) 矿) 彳 j * l x 7 w ( v ) s = y x j w ,0 = 霸取) ( v ) s j + ,w l ( v ) 墨 j - 1 故有 睨) ) 五1 ) r 1 = 【x 7 w ( v ) v ( p ) x - x , w , ( v ) v ( p _ ,) # 】- l :旷w ( v ) v c u ) x t ,业盥业翌业掣堕逍塑型塑匠 l 一见 则虎) ( v ) = 【确联) ( v ) ) ) 五o r l 7 矿( v ) s 一# ( v ) 丑】,因而有 忍( v ) :夕( v ) 一鬯坠攀幽业监 1 一风 :硒一竖坠丛盥丑幽业亟堕 1 一p “ :夕( v ) w , ( v ) v 4 c u , ) x _ 7 。_ w ( v ) v ( p ) x y 一 x r p , 定理证毕。i p 4 此定理表明,第i 个数据点的删除引起的估计量的变化夕一声乙与残差仍以及投影阵 户的对角元素风密切相关,这和线性回归模型及广义线性模型的结果十分类似。 若第j 个观察点,彳) 受到扰动厂( v ) ,则均值漂移模型为 ,7 = x f l ( v ) + ,( v ) q ( 2 2 0 ) 其中e l 为厅维向量,除了第j 个元素为1 外,其它元素均为0 。与线性模型以及广义线 性模型相似,模型( 2 2 0 ) 式中的参数卢( d 的估计的一阶近似和矿( d 相等,证明亦 与韦博成【3 7 】中的定理2 3 类似,今从略。事实上,我们可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 禁毒防护知识培训课件
- DB61T 546-2012 公路隧道安全设计指南
- meikuang安全知识竞赛试题及答案
- 古诗自创考试题及答案
- DB61T 507.5-2011 无公害生猪卫生防疫与疾病控制技术规程
- DB61T 483-2010 农家乐(休闲农家)
- DB61T 367.3-2022 荷斯坦牛生产技术规范 第3部分:人工授精与妊娠诊断
- 禁毒知识培训手册课件
- 岳阳市重点中学2025-2026学年数学高三上期末综合测试模拟试题
- 八年级下册生物试卷及答案
- 《氢化工基础》课件-4.非均相分离
- 小儿麻醉护理课件
- DB64 2000-2024 自然资源调查监测技术规程
- DB22-T3409-2022-餐饮用醇基液体燃料安全使用技术规范-吉林省
- 项目经理考核试题及答案
- 车载信息娱乐系统的设计与开发-全面剖析
- 安检岗位培训课件模板
- 2025-2030中国水产饲料原料和产品行业市场现状供需分析及投资评估规划分析研究报告
- 腹膜透析换液操作医学
- 静电检测专业知识培训课件
- 现代农业园区-规划设计方案
评论
0/150
提交评论