(应用数学专业论文)纵向数据混合效应模型的研究.pdf_第1页
(应用数学专业论文)纵向数据混合效应模型的研究.pdf_第2页
(应用数学专业论文)纵向数据混合效应模型的研究.pdf_第3页
(应用数学专业论文)纵向数据混合效应模型的研究.pdf_第4页
(应用数学专业论文)纵向数据混合效应模型的研究.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

戴小飞纵向数据混合效虑模型的研究 纵向数据混合效应模型的研究 中文摘要 纵向数据是指对每个个体在不同时间进行观测而得到的由截面和时间序列融合在一 起的数据,是目前统计研究的一个热点问题纵向数据结合了截面数据和时间数据的特征, 能更好地分析出样本随时间变化的趋势,同时也能够准确地反映出样本间的差异和样本内 的变化,因而具有较高的应用价值 本文重点探讨纵向数据的线性混合效应模型和半参数混合效应模型,主要结构如下: 1 简单介绍了纵向数据的定义、纵向数据的特点,及其与时间序列数据、截面数据、 多元统计数据的区别,从而看出纵向数据研究的优越性概括了关于纵向数据国内外的研 究现状以及本文将做的工作; 2 介绍了纵向数据的线性混合效应模型,讨论了回归参数和方差参数的估计问题,通 过n e w t o n r a p h o n 迭代公式,得到未知方差参数秒的估计; 3 主要对部分参数的显著性进行检验,( 1 ) f 检验,求出未知参数的最小二乘估计, 得到f 检验统计量,在原假设为真时,互f ( q ,n n p q ) ;给定显著性水平口,其拒绝 域为:e e 一口( g ,一印一g ) ;( 2 ) 似然比检验( l r t ) ,首先计算出参数的极大似然估计, 详细推导出和厉之间的关系根据似然比检验统计量的谱表示给出拟合有限样本分布 的算法,该算法最大的特点是只需在模拟之前计算出特征值即可,其速度取决于随机效应 数q ( 3 ) 约束似然比检验( r l r t ) ,通过计算同样得到约束似然比检验统计量的谱表示 最后将上述结论推广至广义线性模型这些检验计算简单,便于使用 4 着重讨论了半参数回归混合效应模型,利用密度核估计方法来估计未知函数( ) , 并采用改进的多元自适应回归样条方法拟合未知的均值函数厂( ) 最后我们选择出的模型 可以写成线性混合效应模型的形式,同样利用第三章讨论的方法来检验随机效应的存在性 关键词:纵向数据:混合效应模型;假设检验;自适应样条 扬州大学硕 :论文 m i x e de f f e c t sm o d e lf o rl o n g i t u d i n a ld a t a a b s t r a c t 2 一 l o n g i t u d i n a ld a t ai s r e f e r r e dt od a t ai nw h i c hi n d i v i d u a l sa r em e a s u r e dr e p e a t e d l y t h r o u g ht i m e ,s oi tc o m b i n e se l e m e n t so fc r o s s - s e c t i o n a ld a t aa n dt i m e s e r i e sd a t a m a n yo f s t a t i s t i c i a n sh a v eb e e ni n t e r e s t e di nl o n g i t u d i n a ld a t aa tp r e s e n t i tc o m b i n e st h ec h a r a c t e r i s t i c so f c r o s s s e c t i o n a ld a t aa n dt i m e s e r i e sd a t a i ti so b s e r v e da n dg o ti nt h eo r d e ro ft i m eb yt h es a m e s a m p l e ,s ol o n g i t u d i n a ld a t ac a na n a l y z ee f f e c t i v e l yt h ec h a n g eo fi n d i v i d u a l sa n dv a r i a t i o n a m o n g i n d i v i d u a l s i tp l a y sa l li m p o r t a n tp a r ti na p p l i c a t i o n sc o n t r a s tt oc r o s s - s e c t i o n a ld a t ao r t i m e s e r i e sd a t a i nt h i sp a p e r , w es t u d yt w om o d e l s :l i n e a rm i x e d e f f e c t sm o d e la n ds e m i p a r a m e t r i c m i x e d - e f f e c t sm o d e l t h em a i nc o n t e n to ft h i sp a p e ri sa sf o l l o w s : 1 c h a p t e r1i n t r o d u c e sw h a ti sl o n g i t u d i n a ld a t aa n di t sc h a r a c t e r t h e nw ec o m p a r ei t w i t ht i m es e r i e sd a t a ,c r o s ss e c t i o nd a t aa n dm u l t i v a r i a t es t a t i s t i c a ld a t a ,s ow ef i n dt h ea d v a n t a g e o fl o n g i t u d i n a ld a t a a tl a s t ,w ei n t r o d u c et h es t u d ys i t u a t i o na tp r e s e n ta n dt h em a i nw o r ko ft h i s p a p e r ; 2 c h a p t e r2c o v e r st h el i n e a rm i x e d - e f f e c t sm o d e lo fl o n g i t u d i n a ld a t aa n dd i s c u s st h e e s t i m a t i o no fr e g r e s s i o np a r a m e t e r sa n dc o v a r i a n c ep a r a m e t e r s w eu s et h en e w t o n r a p h o n f o r m u l at og e tt h ee s t i m a t i o no fu n k n o w nc o v a r i a n c ep a r a m e t e r s0 ; 3 c h a p t e r3d e s c r i b e st h eh y p o t h e s i st e s t so fs o m ep a r a m e t e r s ;( 1 ) ft e s t ,s o l v et h el e a s t s q u a r e se s t i m a t i o no fu n k n o w np a r a m e t e r s ,t h e nw ec a ng e tt h efs t a t i s t i c a lt e s t i ft h en u l l h y p o t h e s i si st r u e , 互f ( q ,n n p - q ) ;i f w eg i v et h es i g n i f i c a n tl e v e l 口,i t sr e j e c t i o nr e g i o ni s a s f o l l o w s :曩 巧一口( g ,一印一q ) ;( 2 ) l i k e l i h o o dr a t i ot e s t w ec o n s i d e rt h e m a x i m u m l i k e l i h o o de s t i m a t i o no fu n k n o w np a r a m e t e r s ,t h e np r o p o s et h er e l a t i o nb e t w e e n8a n d8 l o nt h eb a s i so ft h es p e c t r a lr e p r e s e n t a t i o n so ft h el r t , w ep r o v i d eas i m p l ea l g o r i t h mt o s i m u l a t et h en u l lf i n i t es a m p l ed i s t r i b u t i o no f 三尺瓦a ni m p o r t a n tf e a t u r eo ft h ea l g o r i t h mi st h a ti t s s p e e dd e p e n d so nt h en u m b e ro fr a n d o me f f e c t sq ( 3 ) r e s t r i c t e dl i k e l i h o o dr a t i ot e s t ,w ed e r i v e t h es p e c t r a lr e p r e s e n t a t i o n so ft h er l r ts t a t i s t i c s a tl a s t ,w ee x t e n dt h ea b o v er e s u l t st ot h e g e n e r n a lf o r ml i n e a rm o d e l t h i sa l g o r i t h mi sf e a s i b l e 戴小飞纵向数据混合效心模型的研究3 4 w em i a n l yd i s c u s st h es e m i p a r a m e t r i cm i x e dm o d e l s w eu s ed e n s i t yk e r n e le s t i m a t e s a n dm u l t i v a r i a t ea d a p t i v es p l i n e st of i tt h eu n k n o w nm e a nf u n c t i o n 厂( ) a tl a s t ,t h em o d e lw e c h o o s ec a nw r i t t e na sl i n e a rm i x e dm o d e l ,t h e nw ec a nu s et h em e t h o dd i s c u s s e di nc h a p t e r3t o h y p o t h e s i st e s tt h ee x i s t e n c eo fr a n d o me f f e c t k e y w o r d s :l o n g i t u d i n a ld a t a ;m i x e d e f f e c t sm o d e l ;h y p o t h e s i st e s t s ;a d a p t i v es p l i n e s 戴小飞纵向数据混合效应模型的研究 扬州大学学位论文原创性声明和版权使用授权书 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导f 独立进行研究工作所取得的研究成果 除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表的研究成果对本文 的研究做出贡献的个人和集体,均已在文中以明确方式标明本声明的法律结果由本人承 担 学位论文作者签名:栽- 、) 、己 签字日期:2 0 0 9 年多月多日 学位论文版权使用授权书 本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关 部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅本人授权扬州大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文同时授权中国科学技术信息研究所将本学位论文收录到 中国学位论文全文数据库,并通过网络向社会公众提供信息服务 学位论文作者签名:氟。卜色 签字日期:2 0 。7 年b n 石日 新虢霉蓐季新虢辱序季 签字日期:。7 年易月5 日 f 扬州人学硕i j 论文 第1 章绪论 4 一 “纵向数据 ( l o n g i t u d i n a ld a t a ) 是指对每个个体在不同时间进行观测而得到的由截面 和时间序列融合在一起的数据纵向数据广泛存在于医学、社会科学等领域,是概括和描 述多种实际问题的一种重要工具近年来,纵向数据模型的研究已成为统计学的热点课题之 1 1 纵向数据简介 纵向数据是用来描述一个总体中给定样本在一段时间的情况,并对样本中每一个样本 单位都进行多重观察这种多重观察既包括对样本单位在某一时刻上多个特性进行观察, 也包括对该样本单位的这些特性在一段时间内的连续观察,这样观察得到的数据集称为纵 向数据 时间序列数据通常是观察一个个体随时间不同重复观测得到的数据,截面数据是变量 在截面空间上观察得到的数据因此纵向数据也称时间序列截面数据( t i m es e r i e sa n dc r o s s s e c t i o nd a t a ) ,从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看 是一个时间序列 时间序列数据与纵向数据的显著差别是时间序列数据研究的是很少的个体( 通常只有 一个个体) 和重复测量很多次,且数据具有序列相关性而纵向数据研究的是很多个个体, 重复测量次数并不是很多,但它们存在共性,重复测量是相关的,且相邻数据相关性很大, 而离得较远的数据随着时间间隔增大,相关性减小相对于简单的回归或单个的时间序列 分析,纵向数据研究可以得到更加符合现实的结果 纵向数据研究经常应用于医学和社会科学领域如在医学领域,纵向数据研究可用于动 物试验,药物的临床试验以及长期治疗法的有效性分析等如我们若要动态地了解儿章的 生长发育规律,探讨影响正常生长过程的各种营养、疾病或环境因素,制定临床生长监测 标准,我们就可以随机抽取一些儿童,观察他们在各个时期的生长发育指标,如身高、体 重等,这样我们就得到了纵向数据;再如,我们在研究全国某类企业的经营状况时,可以 从所研究的企业总体中随机抽取若干个企业,在不同时期对反映其经营状况的经济指标进 行观测,这时得到的数据也为纵向数据或称为面板数据 纵向数据之所以得到如此广泛的应用,因为与横截面研究不同,纵向研究中每个对象 戴小飞纵向数据混合效应模型的研究 测量往往不止一次,而是根据研究目的对研究对象在不同的时间点上先后进行测定,所得 到的数据是重复测量的纵向数据由于横截面研究的数据是在同一次调查中得到的,即果与 因同时存在,无法判断发生时间的先后顺序而纵向数据分析方法可以识别和控制某些因 素对结局的作用,又能识别因素间的相互作用对结局的影响,所以对纵向数据的研究显得 尤为重要如分析我国的结构性失业问题,我们知道它不但受各地区产业结构的影响,而且 也受到国家在各个时期宏观政策的影响若只利用截面数据,即选择同一时间不同地区的数 据作为样本观测值,可以分析出各个地区不同的的产业结构对结构性失业的影响,但是不 能分析出国家的宏观政策对各个地区结构性失业的影响如只利用时间序列数据,即选择同 一地区在不同时间点的数据作为样本观测值,可以分析出国家的宏观政策对结构性失业的 影响,但不能分析出不同的产业结构对结构性失业的影响如果采用纵向数据模型,即在不 同的时间选择不同的地区的数据作为样本观测值,不但可以分析出不同的产业结构对结构 性失业的影响,而且也可以分析出国家的宏观政策对结构性失业的影响纵向数据的另一 个特点是它提供给研究者大量的数据点,不但增加了自由度,而且减少了解释变量之间的 共线性,从而改进了估计的有效性 由于纵向数据是同一个体在不同时刻的多次重复观测,对于每个个体来说,都得到一 个响应变量,但它不同于一般意义上的多元统计分析数据在多元统计分析中,每个个体得 到的响应变量是个体多个指标的一次观测得到的,并没有重复的意思,例如考察学生的学 习情况,就需了解学生在几个主要科目的考试成绩,即随机抽取若干个学生观测他们若干 门科目的成绩,这样得到一个由多门成绩构成的响应变量,但我们对每门科目只观测了一 次,所以,我们得到的数据属于多元统计数据而不是纵向数据 纵向数据分析主要是分析响应变量与协变量之间的变化关系,以及响应变量组内的相 关性纵向数据的最大优点就是它将截面数据和时间序列结合起来,这样可以更好地分析出 个体随时间变化的趋势,它反映了个体间的差异和个体内的变化 下面我们来看一个纵向数据模型的例子 例p a n e l 数据模型 这个模型常常出现在计量经济学中( 见参考文献9 ) 假设我们对n 个个体( 如个人,家 庭,公司,城市,国家或区域等) 进行了t 个时刻的观测,观测数据可表示为: y i ,= ,+ 毒+ ,i = 1 ,2 ,n ,r = 1 ,丁, ( 1 1 ) 其中虬为第i 个个体第t 个时刻的某项经济指标,是p 1 的已知向量,它刻画了第i 个 扬州人学硕l j 论文 6 一 个体在时刻t 的一些自身特征,专是第i 个个体的个体效应,e 。是随机误差项 若我们的目的是研究整个市场的运行规律,而不是关心这特定的n 个个体,这n 个个 体只不过是从总体中抽取的随机样本,这时个体效应就是随机的,记 y = ( m 1 ,m7 ,蜘i ,y u r ) 7 1 ,x = ( _ l ,五7 ,x l ,x 7 ) 7 , u = i n 17 1 ,f = ( 卣,磊) te = ( e l l , - - , q7 ,p l ,e n t ) r 则模型( 1 1 ) 可以表示成 y = x p + u 孝+ e 如果假设哳( 磊) = 咋2 ,v a r ( e , ,) = 吒2 ,所有的专和e s ,都不相关,则 c o y ( y ) = 印、u :+ 畦i n ,= ( i n 圆j 1 + 威i m 其中一和为方差分量 模型( 1 1 ) 也称为具有套误差结构( n e s t e de r r o rs t r u c t u r e ) 的线性模型,它经常出现在试验 设计、抽样调查等类问题中模型( 1 1 ) 也常用于生物医药统计的研究领域 1 2 国内外研究现状 近年来,纵向数据研究成为统计学的热点课题之一,理论和实际应用方面都得到较快 地发展,有很多研究成果 d i g g l ee ta 1 ( 1 9 9 4 ) 系统地介绍了纵向数据的线性模型、广义线性模型、边缘模型等理 论;d a v i d i a n & g i l t i n a n ( 1 9 9 9 ) 研究了纵向数据的非线性模型的理论;d a v i s ( 2 0 0 2 ) 研究了 纵向数据的线性模型,并通过大量的实例进行说明;e u b a n k & t h o m s ,d e t t e r & m u n k , m a r t i n u s s e n & s c h e i k e ,l i n & y i n g 讨论了纵向数据的非参数模型h s i a o ( 1 9 8 6 ) 和 b a l t a g i ( 1 9 9 5 ) 研究了纵向数据在经济学中的应用,在经济学中,我们通常称纵向数据为“面 板数据 ( p a n e ld a t a ) z e g g e r & d i g g l e 首次利用半参数理论对纵向数据进行分析,s i d d h a r t h ac h i b & b a r t o n ,d o n gw a ns h i n & m a ns u k ,m a r t i n u s s e n & s c h e i k e 等也研究了纵向数据的半参数模 型: = x ;f l + g ( t ) + 勺,f = 1 ,甩,= 1 ,m l , ( 1 2 ) 其中( ,t , j ) r p r 是已知的设计点列,是p 维未知参数,g ( ) 是定义在闭区间 o ,1 上 戴小飞纵向数据混合效心模型的研究 7 一 的未知回归函数,是随机误差e i = ( q 。,q 2 ,e i m ) r ,纯,f = 1 ,一) 相互独立,e ( e ,) = 0 , 一 v a r ( e , ) = ,( 正定) 总的观测个数为n = 鸭 近年来上述模型已经引起许多统计学者的兴趣他们分别使用不同的方法构造了和 g ( ) 的估计量,并研究了估计量的渐近性质譬如,后移算法,核广义估计方程,m 估计和 最小二乘估计等 国内关于纵向数据的研究:如林金官和韦博成研究了非线性纵向数据模型中自相关 性、模型的异方差、变离差检验等问题;孙孝前和尤进幺2 ( 2 0 0 3 ) 研究了纵向数据半参数模 型中的估计问题,提出了参数分量的一个迭代加权偏样条最小二乘估计;孙燕和柴根象 ( 2 0 0 4 ) 研究了纵向数据的混合效应模型,使用特征函数的方法估计了随机效应的密度函数 以及模型的参数,讨论了估计量的大样本性质 马艳梅,朱仲义基于协方差结构的参数模型,用条件极大似然估计的方法对纵向数据 广义线性模型中的方差参数进行估计,分别研究了纵向数据线性回归模型均值参数和方差 参数的假设检验;毛新娜系统地研究了纵向数据的时间变化系数半参数回归模型的系数估 计问题,利用最小二乘近邻法和加权最小二乘近邻法来计算纵向数据的时间变化系数半参 数线性回归模型中的未知参数,并在此基础上对单一邻近和核邻近估计法的拟合效果进行 比较 1 3 本文的工作 本文主要研究纵向数据混合效应模型参数估计及方差参数的检验问题针对纵向数据 的线性混合效应模型和半参数混合效应模型给出理论分析,检验随机效应的存在性,最后 对上述的模型方法进行数值模拟,验证所提出方法的有效性和可行性 本文主要由四章组成,其中第一章是绪论部分,属于准备工作,介绍了纵向数据的特 点,及其与时间序列数据、截面数据、多元统计数据的区别,并概括了关于纵向数据国内 外的研究现状以及本文将做的工作本文的主要工作与创新点介绍如下: 第二章介绍了纵向数据的线性混合效应模型,讨论了回归参数和方差参数的估计问 题,通过n e w t o n r a p h o n 迭代公式,得到未知方差参数0 的估计 第三章对方差参数的显著性进行检验,主要考虑了如下几种检验方法:( 1 ) f 检验, 求出未知参数的最小二乘估计,得到f 检验统计量,在原假设为真时,鼻f ( q ,n n p q ) , 扬州人学硕i :论文 8 一 给定显著性水平口,其拒绝域为:互 互一口( 9 ,n n p g ) ;( 2 ) 似然比检验( l r t ) ,计算 出参数的极大似然估计,详细推导出夕和房之间的关系,然后给出了似然比检验的统计量, 并提供一种算法来模拟l r l 的有限样本分布,该算法最大的特点是只需在模拟之前计算出 特征值即可,其速度取决于随机效应数q 和观测数n ;( 3 ) 约束似然比检验( r l r t ) ,通 过计算同样给出约束似然比检验的统计量最后将上述结论推广至广义线性模型这些检验 计算简单,便于使用 第四章考虑到采用线性回归及非参数回归的“混合 ,但不是说它是参数与非参数回 归模型的简单迭加,着重讨论了半参数回归混合效应模型对于半参数回归混合效应模型 中的未知函数厂( ) ,我们采用密度核估计来估计,以及改进的多元自适应回归样条方法拟 合最后我们选择的模型可以写成线性混合效应模型的形式,同样可以利用第三章讨论的方 法来检验随机效应的存在性 戴小飞纵向数据混合效心模型的研究 第2 章线性混合效应模型 9 一 本章将对纵向数据的参数分析方法:线性回归模型和方差结构的参数模型作介绍纵向 数据分析方法因问题而异,需要针对不同的问题建立分组或分时段的模型组,进行各种具 体的分析分析包括参数估计或者假设检验,一般需要综合运用数据分析的知识 2 1 线性回归模型和方差结构的参数模型 设有n 个个体,( z ,置,z ,) 为第i 个个体的观测值,z = ( ,r :,) 7 1 为传x l 的响应 变量,置= ( 五,z :,k ) r 为吩x p 的固定效应设计阵,互为x q 的随机效应设计阵, 其观测时间为= ( 。,t :,k ) ,则纵向数据线性回归模型可表示为: z = 置+ 毛, ( 2 1 ) 其中岛n ( o ,( t ,秒) ) ,0 为s 维方差参数向量 令 则 :y n j j r r 扛1 ,】,= ( k te7 ,匕7 ) 7 ,x = ( 墨tk7 ,以7 ) 7 , z = d i a g ( z l ,z 2 ,乙) ,v ( t ,0 ) = d i a g ( v , ( ,秒) ,k ( f 2 ,秒) ,v o ( t ,臼) ) , 】,n ( x f l ,v ( t ,乡) ) 如果不对协方差矩阵作任何限制,它将含有圭t = l 兰学个参数,很难通过= 喜一次 观测值估计出来为解决此问题,d i g g l ee ta l ( 2 0 0 2 ) i j l , n 协方差结构的参数模型,其一般 模型为: 乞= z i u + 彬( ) + q 。 ( 2 2 ) 这种模型定性地描述了纵向数据模型中误差项的来源下面我们对上述模型中的各项 加以解释: 1 v 为随机效应项,它是一q 维的向量,主要反应了个体之间的差异性,当个体是随 机地来自一个大的总体时,就产生了随机效应例如,若要研究婴儿2 岁以前体重的增长 扬州人学硕l j 论文 情况,以及出生时的体重对婴儿体重的影响,我们随机抽取2 0 0 0 名婴儿,测量其出生时 的体重,然后在婴儿3 个月,9 个月,1 5 个月和2 1 个月每隔半年测量一次体重由于每个 婴儿基因,生存环境等的不同,而这些因素又难以测定,这时我们引入随机效应来分析每 个婴儿体重的增长情况以及出生时的体重对婴儿体重的影响一般地,u i i d n ( o ,q ( 口) ) , 口为r 维的未知参数向量;互为随机效应设计阵,z ,常取的形式有:( 1 ) 互= 1 肌,此时z f 反 应了随机效应对z 的影响;( 2 ) 互= 工,此时v 反应了随机效应对回归系数的影响;( 3 ) 吒= ( 1 ,0 ) ,这种随机效应模型为生长曲线模型 2 彬( t ) 为序列相关项,主要是反应同一个个体由于在不同时间或空间重复观测而 导致的个体内部的相关性这种相关性在实际中的例子是很多的一般地,假定 形( ) i i d n ( o ,t 3 r 2 e ( 矽,t ) ) ,e 为h ix _ 阶的矩阵,其第j ,k 个元素为p ( 1 0 - t , k 1 ) ,这罩p ( 材) 为相关函数,常取的形式有:( 1 ) 一阶自相关: p ) :甜i 。一训,此时 彬,= p 彬,_ l + d f ,p ,n ( o ,仃2 ) ;( 2 ) 指数相关:户( “) = e x p ( - o u ) ,矽 0 ;( 3 ) 高斯相关: p ( u ) = e x p ( - 矽u 2 ) , 0 具体选择哪一种形式的相关项,d i g g l e e ta l 进行了讨论 3 哆为测量的随机误差项,e ,i i d n ( o ,y 2 l ) 于是有 v l = c o y ( e , ) = z l g t z j + 0 2h ? + 矿i n 由此一来,方差参数大大减少,若令0 = 位7 ,矽,0 27 2 ) r ,则我们只要估计出未知参数秒, 便可以确定纵向数据的协方差结构 2 2参数估计 这一节我们来讨论回归参数和方差参数的估计问题 模型( 2 1 ) 中的未知参数和0 可用加权最小二乘和残差( 约束) 极大似然方法( r e m l ) 进行估计: 矽= ( x7 v 一1 x ) 一1x 7 v y ( 2 3 ) 为给出口的r e m l 的迭代算法,我们先叙述如下引理: 戴小飞纵向数据混合效心模型的研究 引理2 1 由d i g g l ee ta l ( 参考文献1 ) 可知,模型( 2 1 ) 的对数残差极大似然( r e s i d u a l m a x i m a ll i k l i h o o d ) 函数可表示为: 婶) = 一扣g l y i + l o 刮x 矿1 x i 川一x 夕y v - ( 】,一x 夕) 】 = 一丢 1 。g l y l + l 。g i x7 y 1 x l + l ,7 p y 】 其中p = v 一v q x ( x7 v - 1 x ) 1 x7 v ( 1 ) 对数残差极大似然函数l ( o ) 关于0 的一阶偏导数可表示为: ”,= 等一扣p 尝p 簧p 明 一撼吣,象一酽m 羞盹, ( 2 ) 方差参数秒的f i s h e r 信息阵i o ( 0 ) 中各元素厶岛,七,= 1 ,2 ,s 分别为: ( 2 4 ) ( 2 5 ) i o o , c 垆一e 丽0 1 2 ( 酉0 ) = 互1 咿兹尸署,= 丢善喜护c 乞善己等,c 2 固 其中占,= r z 夕 证明:根据筹书署,筹= 矿1 兹,得到 着_ v - i 否o 皖v v _ 1v _ 1 a o _ 皖k v 旷k ( 旷_ ) _ 1 r 旷1 + 旷_ ( f 旷_ ) - i x r v - l a o _ 砬l v 旷18 8 t 8 9 ka 9 k 、 89k 叫叫x ( x r v - l x ) - 1 r 旷1 等咖酊 :一尸里尸 a 岛 利用上述结果,得到 署一扣( 着) 叫x 矿1 兹x ( 酊1 ) _ ,尸簧明 一扣尸尝尸署明 由于v 为对角块,上式又可化为: 扬州人学硕f :论文 署一撼毗爿a v , 一静簧扎 由此( 1 ) 被证明 ( 2 ) 对( 2 5 ) 式关于岛,= 1 ,2 ,s 求导,可得 旦塑:一! m p 翌p 竺) + 护( 尸旦) + 2 y z p 里p 里尸】,一】,r p 立b y , a 皖o o , 2 、a 吼o o , 、o o t a o , 7a 吼o o ,a o , a o , 再利用二阶矩的性质,有 刚印署p 荔,翊r c p 着尸筹牛护c c o v c w 署p 篝o e , 用 、8 e 。a 9 l 。l 8 8 。a 9 | j l、。 a 9 。 。 卸、p v p0 8 v e i p 斟o v , u o | ?u 口t 剐尸丽0 2 v 尸】,) = e t r ( y y 7 尸丽0 2 vp ) = 驴m ( 】,) 尸丽0 2 v j p 】 1 2 - 一 ( 耻一e 丽0 1 2 ( 0 ) = i 1 护( p 着尸矛= 三喜丢、。a o 皖v jp 簧) 由此引理2 1 得证 由( 2 5 ) ,( 2 6 ) 两式,方差参数0 估计的n e w t o n r a p h o n 公式可表示为: 参n = 晷 一1 + 厶一1 ( 台( 月一1 ) ( 莎”一1 ) ( 2 7 ) 适当选取方差参数的初始值o o ,预先给定任意小的正数r ,根据公式( 2 7 ) ,当 参( 一否( p 1 i l o ( 旯 o ) ( 3 3 ) 将模型( 3 2 ) 的随机效应部分历分解为 z b = z 1 b l + z 2 6 2 + + z :仇, 得到一般的方差分量模型: 扬州人学硕 :论文 y = x f l + & b , + z 2 b 2 + + z a + s 占n ( 0 ,盯2 厶) , ( 3 4 ) 其中】,x ,如模型( 3 2 ) 中所定义,岛n ( o ,q 2 ) ,z , :是n xq ,的设计矩阵,f = 1 ,k 在上述条件下得到 e ( 】,) = x f l ,c o y ( y ) = 仃2 v , 其中y = 厶+ 丑互互7 ,名= 砰o 2 是随机效应包的方差与误差变量占的方差的比值注: q 2 = 0 当且仅当丑= 0 ,丑的参数空间是 0 ,帕) 下面分别来讨论几种检验方法 3 1f 检验 现在求模型( 3 2 ) 中, 8 , 矛1 1 b 的最小二乘估计为此,令 l ( f l ,6 ) = ( z - x , f l , 一互6 ) 7 1 i f , 一x 屈一互6 ) ( 3 5 ) 分别对上式关于屈和6 求偏导并令其等于零,得 了a l ( f l , b ) :一2 z7 】,+ 2 r l 刁x 屈+ 2 z 7 z b = o , 动智 、a l ( f l r , b ) = - 2 x _ z + 2 x f z , 6 + 2 f x ,屈= 。,2 ,力 ( 3 6 ) 解上述方程组得到b 和夕的最d , - 乘估计分别为: 6 = ( z f r q , z ,) 一( z f 7 1q ,r ) = ( z 7 q z ) 。1z q 7 y , 孱= ( z 7 置) 一1 x i r ( r z ,占) ,i = l ,2 ,丹, ( 3 7 ) ( 3 8 ) 其中q = j p x ,( 置7 置) x i ti = l ,2 ,n ,q = d i a g ( q 。,q 2 ,q ) ,i p 为p 阶的单位矩阵 下面给出f 检验的统计量 此时,模型( 3 2 ) 的残差平方和可表示为: 凰s :窆杰( 一屋一乃占) :窆( r z j 占) 7 q 嘎一z ,占) ,= ij = l i = l = y r q y y 7 1 q z ( z 7 1 q z ) 一1z7 q 】, 当6 = 0 时,层的最小二乘估计为: 盆= ( 置7 1 置) 一1z7 r ( 3 9 ) 此时,模型的残差平方和可表示为: e s s = n p ( 一嘞屋) :窆z r 0 7 , :】,r q y i = 1j = l t = l 于是,检验问题( 3 3 ) 的f 检验统计量可表示为: f :( e s s - e s s ) q : e s s ( n 一印一g )一 ( y 7q z ( z 7 o z ) - 1 z7 1 q y ) q q tq y y 1 q z ( z i lq z ) - z r q y ) ( n - n p - q ) j 在原假设为真时,曩f ( q ,n n p g ) ;给定显著性水平口,其拒绝域为: e 巧一口( g ,一印一g ) ( 3 1 0 ) 3 2 似然比检验( l r t ) 在这一节中,首先讨论在零假设和备择假设下对应的参数估计二者关系的具体形式 下面考虑模型( 3 2 ) 的极大似然估计( m l e ) ,模型( 3 2 ) 的对数似然函数可以写成如下形 式: 琊;盯2 埘= 一詈l 0 9 2 舾2 一三l 。g 吲一虿1 ( 】,一x 广圪- l ( 】,一x g ) ( 3 1 1 ) 将对数似然函数关于,0 2 五求偏导数: 学= 7 1 聊l ( y 卅) , 笔= 杀+ 刍( y 卅纠( y 卅) , 其中t r ( a ) 为矩阵a 的迹 通过令上述偏导数为零,可以计算出参数的极大似然估计,形式如下: 孱- - ( x 7 吃1 x ) 。1 x 7 y , ( 3 1 2 ) 一:竖塑掣 ( 3 1 3 ) 参数彳的极大似然估计没有闭合形式,可以通过迭代法来解决这个问题 如果多余结构不存在,即力= 0 ,那么参数的估计为夕:( x r x ) 一t x r y ,可以得到矽和 房之间的关系如下: 定理3 1 假设条件如( 3 2 ) 中,房和彰是模型( 3 2 ) 的极大似然估计,夕和占z 是模型( 3 2 ) 在没有多余结构z b 下的极大似然估计,可以得到如下关系: 孱= 一d ( x7 1 彳) 。1 x7 1 z g + d z ,g z ) 一1 z r g r , ( 3 1 4 ) ( g - x l ) 7 吁1 ( y x l ) = 彦2 一d ( y - x 彦) 7 z g + 互z 7 1 g z ) 一,z r ( y x 夕) 其中姨= 厶一只,最= 彳( x 7 x ) 一1 x ,b 是矩阵x 的投影矩阵 证明:的估计: 则 利用 虏= ( x 7 一1 ) 一1x 7 吩一1 y , a = x 7 x i x 7 z ( + 互z 7 1 z ) 一1z 7 1 x 1 x 7 y d x r z ( + 互z 丁z ) 一,z ,】, 巧1 = ( l + 互z z 7 ) = 厶一d z g + d z 7 z ) 一1 z 7 , 则得到下式 虏= ( x 7 x ) 一i + i x r x ) 一1x 7 z g + 厄z z i z r 乓z ) 一z 7 x ( x r x ) 一 t x 7 y - i x 7 z ( + i z ,z ) z 7 】,) 利用r a o ( 1 9 9 5 ,p 2 9 1 ) 啪中的定理a 1 8 的公式,可以得到( 3 1 4 ) 一= 坚一虏) 7 吁1 ( 】,一x l ) = 去( y 一夕+ i p x z ( i ,+ 彳z7 g z ) - l z ,级n r 厶一勉( + d z z ) - z r ) r - x b + d e z g + i z7 g z ) ,z7 g r ( 3 x 5 ) 戴小飞纵向数据混合效应模型的研究 :彦:一塑二堕望生主兰:丝型塑兰二塑 刀 口 若考虑用0 虏一创来检验假设( 3 3 ) ,如果出现下面这一情况:由列向量z 张成的空间与 y ule _ x 正交,即x 7 1 z = 0 ,这样显然会得到房= 矽我们就不可以用l i 虏一例来检验假设 ( 3 3 ) 在这里,将式( 3 1 5 ) 的第二项写成如下形式: 互( 】厂一x 夕) ,z ( j r + 互z7 q x z ) 一1 z7 1 ( 1 厂一x 夕) ” = 互l ,7 姨z ( f + 互z 7 q x z ) 一1z7 q x y n = f r a y , 其中a = 互q z ( j + 互z 7 g z ) 一1 z7 1 瓯n 这样由于五参数估计的相容性,可以很容易就看到l 司一彦2 l 近似等价于w i s c h a r t 分布, 三 形。( e r a 2 , 1 ) ,这一点可以参考j i a n g ( 1 9 9 8 ) 由于是随机效应模型,自然考虑到用似然比检验( l i 玎) 定义似然比检验如下: 三尺瓦= 2 s u p l ( f l ;o 2 , 五) 一s u p l ( f l ;o 2 , 见) ) ( 3 1 6 ) 通过计算可以得到 上尺乙刊。g 争l 。g 吲 l o g ( 1 一等h 酬 = s 脚u p - n log(1一2yrqxz(iq+面2z万rqxz一)-zrqx y ) 一1 。g 帅 = s u p z ( 力) , 其中z ( 五) = 一n l o g 1 2 y 7 1 级z ( + a z ,q x z ) 一z 7 q x y y ,瓯n l o g l 1 下面的定理给出了l r t 统计量的谱表示: 定理3 2 若己。,和巩,分别是g g 阶矩阵z7 1 q x z 和z r z 的q 个特征值,其中瓯如定理 3 1 中所定义,则在凰假设下 其中 d 三r 瓦= s u p z ( 五) 五2 0 ( 3 1 8 ) 扬州大学硕l 论文 胛) = - n l o g ”粥噶l o g (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论