(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf_第1页
(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf_第2页
(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf_第3页
(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf_第4页
(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(概率论与数理统计专业论文)pa条件不成立时gee方法中的估计和检验问题.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在临床医学、流行病调查、健康护理、生物学以及生态学研究中,纵向数据分析的方 法越来越流行其特点是多个观测个体在不同时间点上的重复观测,优点是可以区分群 体效应和个体内部的时间效应在纵向数据研究中,边际回归模型和与此相关的广义估 计方程( g e e ) 的方法也越来越多地应用到纵向数据分析中来。但是p e p e 和a n d e r s o n 在1 9 9 4 指出在边际模型和g e e 方法的应用中有一个重要的条件,即p a 条件。如果该 假定不能满足,可能得不到相合的估计,由此进行的统计推断的效率可能不高。本文主 要通过具体的模型和数值分析,讨论了p a 条件对g e e 方法的估计和检验的影响。以便 今后使用g e e 方法来分析纵向数据时,能注意验证p a 条件是否成立,并选择适当的统 计分析方法 本文首先在第一章介绍了纵向数据和广义估计方程的理论以及研究情况第二章主 要讨论了在p a 条件成立和不成立两种情况下,g e e 估计的性质本章应用简单的a r ( 1 ) 模型通过不同的协变量结构定义了两个模型,其中一个p a 条件满足,另一个则不满足 由此得到g e e 估计的偏差性质和方差估计的性质在选择独立相关结构( 即对角工作 协方差矩阵) 和一般的相关结构( 一般的工作协方差矩阵) 下分别得到广义估计方程估 计,本文模烈中则是普通的最小二乘估计( o l s ) 和广义最小二乘估计估计( g l s ) , 进行了比较 本文第三章,主要讨论了p a 条件对于基于广义估计方程得方法关于回归系数的检 验的影响本章对两个常用的检验统计量w i l d 和s c o r e 统计量分析了p a 条件对于它 们的分布和检验效率的影响由于p a 条件不成立,回归系数的g l s 估计不再是渐近无 偏的,从而得到的w a l d 和s c o r e 统计量的分布不再是中心卡方分布拉,从而对于检验 的效率也产生了一定的影响 本文22 和3 2 分别是本文的重点创新的地方此外,在第四章通过数值模拟,可 以看出p a 条件是如何对基于g e e 方法的统计推断包括估计和检验产生影响的同时 进行了一些探索性分行,发现对统计推断有影响的还有其它相关影响因素,比如协变量 结构、相关结构实际的处理效应等 关键词;纵向数据;边际回归模型;广义估计方程;工作相关结构;均方误差;p a 条 件;w 砒d 统计量;s c o r e 统计量。 a b s t r a c 譬 i nc l i n i cm e d i c a jr e 8 e a r c h ,e p i d e i n i o l o g hh e a l t hc a r em a n a g e m e n t ,b i o l o g y ,e c o l o g y l l o n g i t u d 池越s t u d i 裙8 r em o r ea 妊dm o r ep o p u l 豁,强e 赢v 鑫n a g e l o n g i t u d i n 砖鼬翻主船 诲i t sc 氇p 藏c i 锣t os e p 群赫ew h 8 t 洫k n t e xo fp o p u l a t i o ns t u d i 黼斛oe a l l e d h 。她腿d t i m ee f r e c t s ,m 缸g i n 以r e 铲e s s i o nm o d e la n di t sa s 8 0 c i 吼e dg e n e r a l i z e de s t i i n a t i n ge q u a t i o n ( g e e ) a f eb e c o m i n gi i l c r e a s i n g l yb e i i l gu s e di nl o n g i t u d i n “8 t u d i e s ,b u tp e p ea n d a n d e r s 。歉( 1 嚣4 ) 弦i 懿撼o u tt h 珏t 疆e 掩耋s 蛆i m p o r 鞠t 嚣s s l l m p t i o l le l e d 嚏。鞋d i t 蟊珏 b e h i n dg e em e t h o d 1 f 啦ea s s u m p i o n - sv 0 1 8 七e d 蝴dn o d d i 8 9 0 n a lw o r k i n gc o r r e l a t i o n m a t r i xi su s e di ng e e ,t h es t a t i s t i c a li n f e r e n c em a yb ed e 毋c i e n t t h i sp a p e rm m n l y d i s c u s s e d 王慷c o n d i t i o n si n n l l e n c eo nt h eg e ee s t i m 砒o r s8 n dt e 8 t 8b 且s e do nt h eg e e l n e t h o d t h e 触s tc h 8 p t e ri n 七r o d u c e dt h et h e o r i e sa n di d e 帮0 ft h el o n 蔚t u d i n a ld a t aa n dt h e g e n e r 柚z e de s t i m a t i n ge q l l 8 t i o i l s i nt h es e c o n dc l l a p t 、ed i s c 燃8 e dt h ep r o p e r t i e so f t h eg e e 龇i m a 乞o r s t h ea r n 、m o d e lw i t hd i f 旺e 埔c 神a r i a 屯e 蝣r u c t u r e sw a su 8 e dt o g 蕊t h e 纠砧p 艇t 主e 8 t 氧eb i 勰袅e 痘s 娃娃w i 凌v a 蛀8 羲e ee s t i m 8 0 r 8o f 穗eg e ee s t 主黼鑫t o 秘, i r r e s p e c 撼、,eo fw h e t h e rt h ep ac o n d i t i o ni sv i o l a t e d ,t h er e s u l t i n ge s t i m a t o r ( o l 8e s 昏 m a t o rj nt h i sp a p e r ) f r o mt h ei d e p e n d e 毗e s t i m a t i n ge q u a t i o n 8w i t ht h ei n d e p e n d e 批 c o r r e l 8 t i o ns t n l c t u r ei 8c o m p a r e dw i t h 谯ee s t i m 8 t o r s ( g l se s t i m a t o r s 证t h i sp 8 p e f ) 在o m t 圭臻g e l 辩 i 羞i z e d 疆睦i m 鑫毒l n ge q 珏8 t 奶丑s , t h et h i r dc h a p t e rf u c o l l 8 e do np ac o n 出t i o n si n f u l e n c eo hh y p o s e s i sa n dt e 8 t i n go f r e g r e s s i o nc o e 伍c i e n t 8i ng e em e t h o d i 、mc o m m m o ns t a t i s t i c 8 e s :w 砒ds t a t i 8 t i c 8a n d s c o r es t 删s t 至c sw e r e 豳o s 鼢t oa n a l y s i 黼t h e 魄e 注d 溅r i b u t 。n s 馘娃e 最e i e 珏e y 封t l et 。 强ev i 盛a t 主。no f 掘ep ac o n d i t i o n 、t h e 稿髓r t b u t i o n so w a l ds t a t 蕊;l c 8a n ds e o r e8 舭i 8 t i e s b a s e do ng l se 8 t i m a t o r 8a r en o n c e n t r a lx 2 拙t r i b u t i o n 8 t l l ee m c i 蝴c yo ft e s tb a 8 e do i l t h eg e em o t h o di 8i n f u l e n c e d t l 砖i n n a v 畦i 。n 8o ft h i sp l p e rl i ei nt h es e c o n d 畿n dt h et h i r de h 8 p t e r 。l 电r 量l e r 鞋l o 糟, s o m en u m e r i cs i m u l a t i o n 8w e r em a d ei i l 毛h ef o u r t hc h a p t e rt oi n s 逗h th 9 wt h ef 琅n d i t i o n i n f l u n c e st h ee s t i m a t i o na n dt e s t i i l ei ng e em e t h o d i na d d i t i o n ,i tc a nb es e e nt h a tt h e e 毋c e i n c yo ft h e8 t a t i s t i c a li n f e r e n c ei 8i 1 1 f u l u n c e db ys o l l l eo t h e r 如c t o r si n c l u d i n gt h e w o 氧i l 塔r 糟1 8 专i o ns t r 鞋c t 珏r e s ,c o v a r i 勰es t 髓u r e s ,s i g eo f 扛u e r e 毡嘲婶珏毛e 蠡露t s 。 k e yw d r d s :l o n g i t u d i n a ld a t a ;m a r g i n a lm o d e l ;g e n e r a l i z e de s i h l 岛t i n ge q u a t i o n 8 ; w o r k i n gc o r r e l a t i o nm a t r i x ;m e a ns q u a r e de r r o r ;p ac o i l d i t i o n ;w a l d ;s c o r e 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成 果。据我所知,除文中已经注明引用的内容外,本论文小包含其他个人已经发表或撰 写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确 说明并表示谢意。 作者签名:垃同期: 学位论文使用授权的说明 沙岁、订 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位论 文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学校论文 的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出版。保留的 学位论文在解密后适用本规定。 作者签名:丝蓟 日期:塑:点:丛 导师签名 第一章绪论华东师范夫学硕士论文l 第一章绪论 1 1 纵向数据和广义估计方程简介 缴向数据的特点是多个研究个体在不同时黼点上的重复观测值。撼对乎每个个体只 鸯一次溪溅篷酶簸嚣数据,籁趣数据懿爨赢跫露浚区分群簿效应秘令律建帮麓霹鬻鼗应。 在嫩物和医学研究里,由于常常对同一个体进行重复观测,因此来自同一个体的数据常 常魑相关的例如,对学校里的餐饮问题的研巍,就是一个i 随机区组试验,2 0 个中学被随 机地分成控越缎秘处理组( n e n c he ta l 。2 0 0 4 秘f _ r e n c he ta 1 2 3 ) 调焱数据是双每 个学校静学生审避行隧枧箍样褥到酶,露寒谬传诙种处理方法的效耀。采鑫子露一个学 校的观测值之闻是相关的,这撼因为来自同一个学校的观测值之间有更多的相似性要 佟出比较符合实际的统计推断就要考虑这种内部相关性。通常有两种方法米处理这种内 部鞠关性,一个燕混合效应摸型,舅一个就是广义毽 方程鹣方法,蔫豫g 嚣e m u f r 盼 l 窜8 8 和d o n n e r 缱越2 0 0 0 ) 假定一个纵向数据集,其中响应变量为,协变量为p l 维的变髓z t c ,是第 t l ,个个体在时间t l ,2 ,m 上的重复观测德。我们感兴趣的是某个体 熬螭发变量关予避耀豹交 l :趋势,或者是璃旋爱量对于委交爨豹嵌赣蛙。对于垂一赞傣 况来说,时间对予重复观测德的效应并不燕我们所关心的镯如,在为期1 8 个月的灞 查中,对患有呼吸道疾病的病人的病情发展情况、营养状况、年龄、性别、以及家庭缀 济状况每三个月调查一次在此壤研究中,练兴趣的是相荧濒素对于病情发展的影响, 魏蘩每令令薅暴蠢一次鼹溺,鞘潞= 1 ) ,霹黻露一个广义绞蛙模登寒臻述这穗交蟹( m c g u l l a g h 和n e l d e r ,1 9 8 3 ) 如果是我们研究的是纵向数据,则来自弼一个体的重复 观测值间的相关性就必须考虑进去广义估计方程的方法就魁把广义线性模型推广到了 纵内数据分析中 当璃应变蘩海送镁正态分零辩,缓诗穰溅院较容器建囊( 毛8 i r d 羁w 8 r el 8 2 , w a r e1 9 8 5 ) ,假对于非正态的纵向数据而育,困难主要在于很难像正态分布一样写出 骱( t = l ,2 ,n 。) 的联合分布除了极特殊的情况外,无法应用似然的方法而广义 撼计方程的方法则是在妇的边黪分布里,应用一种工作广义线娃模型,掰不鼹要具体指 定黧复怼溅僮豹联台分布。帮健在这襻较弱豹分希馁定下,龟能褥到褪会辩罄l 篮系数傣 计和方差估计幽数据为正态数据时,该方法实际上就是最大似然的方法 记k = ( 蝴,。) 7 为第个个体的响应变量在n 。个时间点上的观测值,五= 戤,g 函,。 。:罗为提应的啦p 维按变量簸阵。假定g “的逸骧密度为 ,( z ) 一e 印 眈t 哦t “( 吼t ) + 6 ( 玑t ) 】毋 ,( 1 1 1 ) 第一章绪论 华东师范大学硕士论文2 均值结构为 月t = ( ) , 其中= z :卢, ( ) 为联系函数的逆函数因此弧的一、二阶矩分别为: e h n ) = p n = 旺( 仇) ,v a r ( 矾c ) = q ”( 巩) 为了简化记号,不失一般性,假定n 。= n 。 g e e 方法的特点就在于进行统计推断时,考虑到了个体内部的相关性,以便提高效 率,并能在较弱的分布假定下应用一个工作加权矩阵。得到回归系数的相合估计以及该 估计相合的方差估计。假定r ( o ) 是n n 维的相关矩阵,能够由s 1 维的参数向量。 来确定 定义 k = a r ( a ) a i 曲( 1 ,1 2 ) 其中a = 妒d t n g ( v a r ( 瓠- ) ,v a r ( g i 2 ) ,v a r ( 。) ) ,r ( a ) 为工作相关阵,妒为离差参数 当r ( n ) 为真实的相关矩阵时,m 就是的真实的协方差矩阵c o v ( ) 。 定义广义估计方程如下t d 7 k 一1 & = o ( 1 1 3 ) i = l 其中d 。= 如;,s = 一m 。其中有两点要注意,第一,当选用独立相关结构时,即 r ( n ) = ,只要给定的均值模型正确,由此得到的回归系数的估计及其方差估计就是相合 的,这种估计计算比较简单,但效率可能不高第二,对于第t 个个体,以( 卢,n ) = d :k _ 1 s 和拟似然的方法( w j d d e r b u r ,1 9 7 4 和m c m u l l a g h ,1 9 8 3 ) 的形式很相似,区别在于g e e 中的m 不仅仅是卢的函数,也是a 的函数当卢和曲已知时,将( 1 1 2 ) 和( 1 1 3 ) 中的n 用它的一个 阶的相合估计a ( y ,卢,曲) 来代替,那么方程( 1 1 3 ) 就只是关于 口的方程,其中有k ;( a 一) = 0 ,( 1 ) 在卢已知的情况下,除了r ,a 要选定外, 离差参数可以用它的一个女阶的相合估计咖( y 卢) 来代替因此有以下形式t k 芝_ 二以【卢,a ( 卢,妒( 卢) ) = o ( 1 _ 1 - 4 ) = 1 口的估计如是方程( 1 1 4 ) 的解l i a n g ,k y 和z e g e r ,s l ( 1 9 8 6 ) 在一定的正则条 件下证明了k ( 肪一声) 的渐近分布为均值为o ,协方差阵为的渐近正态分布,其中 可以在的表达式中用印代替c o v ( ) 来得到魔的方差估计诏,而卢,曲,a 则用它们的估计代替。而在用独工作相关阵的时得到的忍,和诏的相合性则依赖于均 一 d k 下o d 。日 d k k v0c k t 0 d 。“ r l d kt ; d 。 吕8l k = 第一章绪论 华东师范大学硕士论文3 值函数p 的正确性,而不是依赖于选用工作相关阵r 的正确性根据p e p e 和a n d e r s o n ( 1 9 9 4 ) 的结论,当含有随机的协变量时,常常应用边际均值模型来描述响应变量和协 变量之间的关系,但这时只有在特定的条件下,才能得到相合的估计 g e e 方法中计算良时,l i a n g 和z e g e r ( 1 9 8 6 ) 推荐使用到g a u 8 s _ n e w t o n 迭代 的方法给定a 和曲的当前的估计,用如下的迭代程序计算卢的值: 8 + 1 = 8 j ( 1 1 5 ) 其中识( 卢) = k p ,a 卢,毒( 卢) ) 这个迭代方法可以看作是f i s h e r 的s c o r e 方法的一种修 正,因为阢【卢,西,毒( 卢) 】的期望的极限用来作校正因子定义d = ( d ,d 嚣) 7 , s = ( 卵,s 圣) ,矿为以识为对角元的n n 维的分块对角矩阵。若定义变量 z = d 8 一s 则迭代程序( 1 1 5 ) 就相当于z 对d 作回归时用y 。进行加权迭代过程中,每一步 得到矗g 后,相关结构参数a 和尺度参数也以通过p e a r s o n 残差 讯。= 玑。一( 氟) ) ( 乳) ) 进行迭代,其中乱依赖于当前的p 可以用 kn $ = 镌( 一尸) i = l t = l 来估计,其中v = m ,这和我们熟悉的p e a r s o n 统计量( w e d d e r b u r n ,1 9 7 4 ; m c c u l l a g h ,1 9 8 3 ) 很相似为了得到。的相合估计,需要k 个个体,而。的具体的估 计形式还要依赖于选择的r ( a ) 。通常情况下常用下下列简单的函数来估计a : r 。 l i a n g 和z e g e r ( 1 9 8 6 ) 的文章里给出了一些具体的例子来估计d 容易看得出在假定 蛳的四阶矩有限时,n 和曲的两个估计是k 阶相合的。 1 2 研究内容 通常情况下截面数据的分析方法认为数据是独立的并且分布形式已知,即使如此 也只有很少部分分布的数据容易进行统计推断在许多情况下,虽然假定数据是正 一 、, 岛 岛一k岛t i d 。 r t 一 、,岛 现 岛 一 k 岛 t l d 。 ,【 p 一 竹 仉 m 。 第一章绪论华东师范大学硕士论文4 态的,但实际上,真实分布不一定是正态分布或者分布形式很复杂,甚至根本无法确定 它的分布,这样得到的统计推断的效率比较差而g e e 的一个优点是可以用来处理非正 态的相关数据,并且只要均值部分假定正确,即使其中所用的工作相关阵不是真实的相 关阵,得到的回归系数的估计也是相合的,并且该估计的方差估计也是相合的。正因为 如此,广义估计方程的方法在生物、医学、流行病调盎、遗传学等领域中的纵向数据分 析中越来越流行而与此相关的边际模型也得到广泛的应用,但是在边际均值模型在用 g e e 的方法来进行统计推断时,容易忽略掉一个可能会对统计推断的效率有较大的影响 的p a 条件本文则是通过简单的模型来分析p a 条件对于g e e 估计和检验的影响 本文共分四章,在第一章里面首先对于纵向数据的研究背景作了简单的介绍。并对 广义估计方程的方法的研究现状以及基本理论观点进行了介绍 第二章讨论了g e e 方法中p a 条件对于回归估计的影响,这是本文的主要部分之 一本章第一节主要介绍在应用g e e 方法时,要得到回归系数的相合估计,必须满足 p a 条件第二节介绍了p a 条件成立时的回归估计及其方差估计的性质,并对不同的 g e e 估计作了比较第三节是本文主要的创新部分之一主要通过一个自回归模型来探 索在p a 条件不成立的情况下,回归估计的方差估计的性质 第三章主要讨论了p a 条件对于基于g e e 方法作的假设检验的影响,也是本文的 主要部分之一本章的第二节介绍了p a 条件下的检验问题,包括常用的w i l d 和s c o r e 检验的性质第三节则介绍p a 条件不成立时的检验问题,包括p a 条件对于w 8 j d 和 s c o r e 检验统计量的分布和检验效率的影响,这也是本文的创新之处 第四章则主要对前面结论进行数值模拟,第一节分别在p a 条件成立与不成立时进 行数值模拟,分析p a 条件对于g e e 估计的影响第二节则将g e e 方法在p a 条件成 立与不成立两种情况下的数值模拟,主要分析p a 条件对于基于g e e 所作的假设检验 的影响 第二章融条件对于g e e 的估计的彩响华东师范大学硕士论文 5 第二章姒条件对g e e 的估计的影响 2 1p a 条件简介 在耱学骚宠,缴糍数嚣分辑静一个童要酶爨煮麓楚哥班捺述篓麓露惩点懿濑疲交藿 和关键的协变量之闯的必系具体来讲,就是可以j 擞过协变量的变化来预测感必趣的响 应变量的痰化在许多熏要的研究领域中,对响应臻艇有影响的协变量可能与时间是相 关的比如,在临床医学研究审,感兴趣的响应变量霹驻与以前时刻的协变量所代寝斡某 耪嚣索静疑溺簦有关攒翔空气荐染辩予德靡弱影稍翡研究孛,研究久员调查了第天豹 死亡人数和第、t 一1 和t 一2 天的奎气污染的相关指标的数据( 8 籼e te ta 1 ,2 0 0 0 ) 实际上,由于空气污染对于健康的影响具有一定的滞后性,也就魁说对当前的健康状况 是敖嚣一段时闻的空气撼豢的累秘技皮,因此有努簧喾虑能反映当髓时刻 及其以前时 捌翦秘交鬣观潮擅帮嫡波变量之阉关系静模登。莠外,影璃霞素静累积效应窳赖子稳关 因素的影响是暂时性的避是持续性的,禺一种情况魁t 时刻的协畿镦观测值可以用来预 测s 时刻上的协变擞。这种情况下,必须明确研究目的,以便来选取适当的估计方 法。在鸯毒每鞋圣阕摇关弱褥变量的数撵飘嚣,有凡秽霹麓弱条绎期掇,宅# l 其帮凑一定懿 科学意义多争可以确定不丽的同归模型,分剐称为帮势条件圄归模黧和全条件西蜩模型 不同模型中的的回归系数有着不同的科学含义。这戮模型还和为得到有效加权估计而作 的一些假定有关。比如线性混合模型、广义估计方稷( g e e ) 模溅例如,感兴趣的是 第霹刘瓣癞痘变量纛麓一对刻浆戆捺变量之阕懿荧系,郡么零淡薅e 誓弱) 采罐述 响应变徽怒否可以表示成两时刻酌协变量的蘧数也可以假定阻前一时刻的西豢的效应 最终会影响到当前时刻的响应变量,因此可以分析e ( m “五一) 撼蕊可以推广到熙一般 的e ( k 。i 茂。一 ) 。另一方蕊,有时协燮擞的全部的历史数据都能影响列当前的响应变量, 郑么逐霹淡建立翔下摸滋te 誓鼍 ,五2 ,弱一1 ) 。电诲嚣:缀羧予凌变量翡豢积效 应x j 一。五。,甚掇也有可能根强所有的协变爨进行建模e ( k t l x t ,五”x t ) n e u h a u s 和k a l b n e i s h ( 1 9 9 8 ) 讨论了用五。和置一嘉。咒。分别来预测的模型 按照p e p e 穗c o u p e r ( 1 9 9 7 ) 的文章鲍分类方法,把e ( 蚝l 墨。8 一l ,2 ,t ) 称为全 条稃逡蕊,藤把e 确| 蔑 ,墨2 ,x 姚) 豫隽部努条侮海篷。嚣莛裁澄稳藿( e r 。8 鼬8 e ( = t i o n m e a n ) e ( 蚝i 置。) 则鼹部分条件均值的一个特倒。 在纵向数据分析里,首先是要确定统计推断的目标,也就是所荧心的是全条件均值 还是音s 分条件均值,其次是确定有效的估计方法。翔聚蜘变量的影响会持续一段嚣孝阕, 垒条律璃穰毯k d 墨。s l ,2 ,) 母簏依赣手冀中任街一个甚鬣所有的e ( 五。) 。毽 是至多有e ( | 五,置1 ) 一e ( 翰i 五。s l ,2 ,t ) ,因为未来的协交量不 会对当前的响应变量产嫩影响。如果进一步假定只有协变量的最j 垃的k 个观测值可以 第二章黜条件对于g e e 的估计的影响 华东师范大学硕士论文 6 嬉来预测巍翦时刻的响藏变量,上蠢的模型就可以进一步筒诧为 e ( t j 墨,茂,五枞五1 ) = e ( 硌| 弱,五,x m ) 在具体的模型假定下,h :如e ( 蚝i 墨,咒,茂m ) 有可能等于垒模型。但很多时 候,所关一的仅仅是当麓时刻的协变餐对于响应交爨的影噙。在广义髅计方程的方法墨 露采耀类钕离蘩霞i 熬方稷懿形式 霹a 隅一砰口) 一o , t = 1 冀孛茂一蚤钕濯 置) l 。要注意弱耱楚,霹菠矗 y n r 嘎| 篾 ,壶上垂静方程褥到 的加权最小二乘解仍然再有相合性和稳健性实际上,通常定义广义估计方程如下t 。 ( 刚) ;( 嚣) 7 似k 一噩p ) _ o i ( 虬1 ) 秘妇系数的g e e 信计的棚合性依赖予翰( 卢, ) 的既偏性,也就是期望等于零。p e p e 和 a n d e r s o n ( 1 9 9 4 ) 证明幽如下条件 趣 三e ( t 1 磁f ) = e ( x t l 墨t ,岛鼍,)( 2 1 ,2 成立时,e ( ( 鼠椰) 一o 一般情况下认为当前的观测值与未米的协变量之间撼独立 的,所以徽雾时候该条件也写为 鳓若e ( 强| 墨 = e ( 强l 置l ,强轴禹t ) +( 2 。l 。3 ) 进一步,如果该条件不成立,但是其对墨t 和。之间的关系感兴趣,那么在广义储计方 程中用独立的工作相关阵时也会得到相龠的回归估计条件( 2 1 3 ) 通常被称为p a 条 传。虽然p e p e 秘a d e r 8 0 n ( 1 9 9 4 ) 其楚对g e e 方法提出了这个条 辱,为了理锵p a 条 箨戆重要瞧,d i g g l e 醵a 1 2 0 e 2 ) 辩信诗函数翰( 多,固佟了班下分橱, 硝 ( 芦,a ) = ( 嚣) 7 似m 一霹既 k# t = 匹。;,。陬鳓臻 ( 2 1 4 ) ;尝l j ;1k = 1 其中n 一貉k ,n 灯k 是加权矩阵a 的第o ,) 个元素。为了 难嘲e ( ( 口,a ) ) 一o , 考惑2 1 4 ) 孛的攀令辐搬顼懿糕篓; e f z 玎0 ( m k 一肛弛) 1= e e 【茁打n 玉( m * 仳) f 。n ,。诎,z 伽, = e n o k f e ( m i 篁“,z t 2 ,茁t ”。) 一伯】 第二章p a 条件对于g 皿的估计的影响 华东师范大学硕士论文 7 如果p a 条件成立,则有,姗= e ( 珐k - ,。m ,z 。) ,从而估计方程是无偏的如果 p * = e ( b - ) e ( k k 旧l ,z m ,。) ,则估计方程有可能是有偏的,将导致截面均 值模型中回归参数的不相合估计。但若用对角的加权矩阵u ( p ,a ) 可以简化成 羔三 u ( 卢,w ) 2 【n ( 一卢u ) 扛1 = 1 从而u ( 麒) 在p n = e ( 魄i 。珏) 下,有零期望这种情况下不需要满足p a 条件,也能 得到截面均值模型中回归系数的相合估计在许多应用领域里,只考虑当前时刻协变量 效应的截面均值结构有着重要的科学意义。例如在分析某些生物指标在监测癌症发展状 况的作用时,该指标的精确性就是用当前时刻的敏感度来描述( d i g g l ee ta 1 2 0 0 2 ) p e p e 和a n d e r 8 0 n ( 1 9 9 4 ) 的结论是在纵向数据在边际模型( 截面均值模型) 里用g e e 的方法来估计回归系数时,要么p a 条件成立,要么用独立的工作相关阵 2 2p a 条件成立时的g e e 估计 2 2 1模型介绍 在纵向数据里。所关心的是响应变量与协变量间的关系以及同一个体内重复观测值 之间的联系。因此考虑用边际回归模型及与此相关的广义估计方程( g e e ) 进行分析记 抛为第i 个个体在时间t 的响应变量,z n 为相应的协变量( 可能为向量) = 1 ,2 ,m , zl ,2 ,k ,相应的边际回归模型为t p “:= e ( 轨t i 。t ) = ( z 磊卢) , 其中 为联系函数的逆函数,卢为未知的回归参瓤可能为向量) 记tm = ( “。,卢,p 。) 玑= 渤1 ,鼽2 ,玑。) 卢的估计是通过解下列广义估计方程( g e e ) 求得: u ( z “;u j ,卢) = d ,y 一1 ( 一f “) = o , ( 2 2 1 ) ;2 1 其中d := d ;( 卢) = 尘貂丑,k 的工作协方差阵为k = a :a :7 2 兄( n ) a j 2 ,而冗( n ) 为工作相关阵,a ;为以v a r ( 鼬) z = 1 ,2 ,m 为对角元的对角阵,a 为工作相关阵里 的未知参数,可以通过其他的估计方程估计出来( 【2 】、 1 2 】、 2 3 、 3 4 、【3 5 】) 。 g e e 的方法有许多优良的性质,比如均值参数估计的相合性对于工作相关阵的选择 是稳健的( p e p ee t 出2 0 0 0 ) 。但卢估计的相合性( 或渐近无偏性) 是依赖于估计方程的 第二章p a 条件对于g e e 的估计的影响 华东师范大学硕士论文 8 无偏性te ( ) = 0 。p e p e 和a n d e r s o n 于1 9 9 4 年指出,g e e 的方法中有一个重要 的假定t e ( 饥i z “) = e ( 玑t l 戤l ,嚣扭一,z 拥,) ( 2 2 2 ) 该条件( 以下称p a 条件) 成立时,e ( u ) = o 。若p a 条件不成立,除非g e e 里用的 工作相关阵是单位阵即_ r = ,估计方程才是无偏的。当协变量z “不随时间变化而变 化时,p a 条件是满足的,其他情况则可能不成立当p a 条件不成立时,u 可能是有 偏的。由此得到的均值参数的估计也可能是有偏的。p e p e 和a n d e r s o n 的结论是t 要么 使用对角的工作相关阵,要么p a 条件成立。p a n 、t h o m a s 和j o h n 在2 0 0 0 年通过协 变量是连续变量的a r ( 1 ) 模型说明了这一点本章主要是在上述文献的基础上,探讨了 在a r ( 1 ) 模型下协变量为与时间独立的情况以及用离散协变量来预测响应变量的情况 在这两种情况下,均值参数的g e e 估计的偏差性质且进一步讨论了g e e 估计的方差 估计( s a i l d w i c hv a r i a n c e ) ( 【1 2 】) 的性质,并比较了两种特殊的g e e 估计在均方误 差( m s e ) 意义下的优劣 实际上,线性回归里的最小二乘方法可以看作是g e e 的一种特殊情况在工作独立 模型( 即r 为对角阵) 下,该g e e 方法为普通的最小二乘法( o l s ) ,一般的工作相 关阵时,该g e e 方法为广义最小二乘方法( g l s ) 。 p e p e 和a n d e r 8 0 n ( 1 9 9 4 ) 以及p a ne t 出( 2 0 0 0 ) 讨论了a r ( 1 ) 模型: 可“l ( 可“一1 z “) = 虮t l + z n 卢+ e “( 22 3 ) 其中孔t 搿( o ,口2 ) ,e “好( o ,r 2 ) ,i = 1 ,2 ,一,k ,t = l ,2 ,一,n ,z “与e n 相 互独立,p a ne ta 1 ( 2 0 0 0 ) 对该模型研究了p 的o l s 和g l s 的估计的偏差的一些性 质,得到了o l s 和g l s 都是有偏的,但当k 很大时,o l s 的偏差可以忽略不记,而 对g l s 即使很大,偏差也比较可观,不能忽略并且得到p 的o l s 估计的方差估 计为渐近无偏的 下面讨论当p a 条件成立时,o l s 和g l s 的性质及其方差估 h8 a n d w i c hv a r i a n c e ) 的性质 仍考虑如下a r ( 1 ) 模型: 玑l ( 玑一1 ,z n ) = 玑一1 + 茁n 卢+ e “( 2 2 4 ) 其中g 。o 一0 ,并不妨设z ni1 ,e “划( o ,r 2 ) ,i = l ,2 ,t = 1 ,2 ,n 可得t 弧= 印+ :e “ ( 2 2 5 ) j = l 进一步有: e ( 掣n l z “) = e ( 掣n l z n ,茁;2 ,- ,z 。) 一t 卢,( 226 ) 第二章烈条件对于g 胎的估计的影响 华东师范大学硕士论文 9 可验证p a 条锌成立,根摄边际模型( 2 2 6 ) 可碍芦蛉o l s 估计及其期望分另必: 6 t 巍 岛2 而嚣薪 ( 2 2 7 ) 稷 e ( 届d ) = 声 若记m 一( 1 ,2 ,竹) ,k 一( 玑l ,姚,聃。) 7 ,则p 的g l s 估计及其期望分别为t 蠡= 茹舻奠竭。暑护建誓。去善。善觏 ( 2 1 2 零) 和 e t 鼢击喜喜t 妄嘲墨= 鲁砉喜缸一反 其中a = ( ) 。为工傺相关阵,b e 巧。玎由此可见,在袋p a 件满足的情况 下得到的g e e 估计都怒光偏的。 2 2 2 商麓估计的性质 震。由于; 。 v a r ( 岛) = 【轰姹伽+ 1 ) 渤+ 1 ) j a 尹y 掰, v a r ( 良) = 孵a m l 2 m 7 a v a m , f 11 其中y = g o v ) = 产【:iiij m 同上则v 舡( 岛) 与“良) 酌三嘲治方 差售计分剃海; 镓( 址纛端 ( 2 _ ) 薅涵) :显拦燮,2 - 2 l 。,( ) = 触号_ 二羔二兰,f 2 ,2 1 0 ) 玺孵矗强p 第二章p a 条件对于g 皿的估计的影响华东师范大学硕士论文1 0 其中n = ( 聃1 一p ,如一2 卢,一n 卢) 7 因为此时o l s 和g l s 估计都是相合估计 实际计算中用如和良代替p ,为了简便这里假定卢已知,这类似于p a n 等在2 0 0 0 年的文章中的方法又因为, e ( n 一) 一c o v ( 玑) 一y 可以验证e ( i 赢( 岛) = v ”( 如) ,e ( i 蔷( 如) = 、k ( 如) ,所以( 2 2 9 ) 、( 2 2 1 0 ) 两式的 估计为无偏的 2 2 3 估计的比较 下面对两个g e e 估计如和良在均方误差( m s e ) 意义下做一下比较取a : 【c o v ( k ) r 1 2 ,对( 2 2 5 ) 式作非退化变换,令( 苟,孵,岛) = ( a 毛,a 玑,a 哺) ,其中哺= m ( e t l l 岛1 + e ,e “) 7 ,= ( 1 ,2 ,n ) 7 。建立新模型如下t t = 1 蝣= 芎卢+ 毛( 2 2 1 1 ) 且c w ( 醇) = e o ( a 饥) = 户,模型( 2 2 1 1 ) 为g a u 8 sm a r k o v 模型在该新模型下 得到的卢的o l s 估计,也即原模型下的g l s 估计如。由最小二乘估计的性质知道, 此估计是最优线性无偏估计,又如和如都是无偏估计,所以。 m s e ( 如) m s e ( 良) 因此适当选择a 可以使上式成立 2 3p a 条件不成立时的g e e 估计 2 3 1 模型介绍 p a n 等人在2 0 0 0 年讨论了协变量z 。一( 0 ,口2 ) 时,p a 条件不成立两个g e e 估 计o l s 和g l s 的性质本节将讨论协变量服从两点分布时, o l s 和g l s 的性质仍 考虑a r ( 1 ) 模型t ”“l ( 玑 一l n ) = “l + z “卢+ e “( 2 3 1 ) 其中z “掣b ( 1 ,p ) ,e n 测( o r 2 ) ,且。# 与e “相互独立,z = 1 ,2 , t = 1 ,2 ,m 。容易证明: e ( 妣珊、,) = 卢 ( 2 3 2 ) j = 1 一 第二章p a 条件对于g e e 的估计的影响 华东师范大学硕士论文1 1 边际均值为: e ( 可“i 。n ) = 。廿+ ( 亡一1 ) p p 令z ;t = z n + p ( t 1 ) ,则( 2 3 3 ) 就变为: e ( 掣“i z n ) = e ( 掣“l 盈t ) = 五t 卢 ( 2 3 3 ) ( 2 3 4 ) 注意到( 2 3 2 ) 是基于所有协变量的观测值丽得到的正确的边际均值,但( 2 33 ) 或 ( 2 3 4 ) 却意味着是拟合如下模型t m f 置= k i 互= 五卢+ 龟, = 1 ,2 ,一, ( 2 3 5 ) 这里置= ( 毛1 ,z i 2 ,茁,。) t ,= ( 玑1 ,她,) r ,磊= ( 盈1 ,蕾2 ,名讯) t ,矗 是均值为零的随机向量虽然通常情况下,( 23 5 ) 并不是真实模型,但在很多时候它 显得更合理,更常用( p e p ee ta 1 1 9 9 9 ) 根据p e p e 和a n d e r s o n 的结果,对此模型用 g e e 方法得到的回归系数的估计,在工作相关阵为对角阵时,o l s 为渐近无偏的,而 由一般的工作相关阵得到的g l s 为有偏的。 2 3 2 估计的偏差性质 i o l s 估计 记x = ( x 1 ,尥,) r ,y = ( h ,k ,坛) 7 ,z = ( z 1 ,易,反) 7 由 边际模型( 2 3 4 ) 得到的o l s 估计为 耳” k k 盈玑t 如= ( 霉五) _ 1 = 罨 * , 一- 瑶 t = 1 t = l 关于0 l s 估计的偏差性质有如下定理 定理21 :在模型( 2 3 1 ) 中,应用边际模型( 23 4 ) 得到的o l s 估计是渐近无 偏的 证明:首先求如的全条件均值 e ( 励i x ) knkn一1t 钰z o,钰 勺一( e l k 2 = 1 1 1 t - = 2 ,= 1j = 1 nl 一kn 。: 。 。i t = 1 = 1= 1 t = l 1 ) 纠、 i 口 第二章p a 条件对于g e e 的估计的影响 华东师范大学硕士论文1 2 可以看出在x 给定的条件下,矗。通常情况下是有偏的。尽管如此,然而从下面可以看 出在充分大时,它的偏差可以忽略因为t 。倒6 ( 1 ,p ) ,所以由大数定律知: n一l e ( 一p o 1 ) 】_ ( t 一1 ) p ) 忙2 j = l t p 蛳一1 ) ) 忙2 j = l ,”,”、 ” 去暑善。:三e ( 若。矽2 若( 铲一) p 2 ) + n p 扣= lt = 1、t = l 7 t = 1 以上都是当一+ 。时,以概率l 成立的这样如的全条件偏差为 knt 一1t 锄一( j 一1 ) p 】 ! ! 兰! 墨,苎l _ 二序l 耳n 露 l = l t = 1 ”t l t e ( 盈t 盈j 一( j 1 ) p ) ( 2 1 ) p 2 + n p 口= 0 从而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论