(应用数学专业论文)含右删失数据的随机效应模型的统计分析.pdf_第1页
(应用数学专业论文)含右删失数据的随机效应模型的统计分析.pdf_第2页
(应用数学专业论文)含右删失数据的随机效应模型的统计分析.pdf_第3页
(应用数学专业论文)含右删失数据的随机效应模型的统计分析.pdf_第4页
(应用数学专业论文)含右删失数据的随机效应模型的统计分析.pdf_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金晶亮含右删失数据的随机效应模型的统计分析! 含右删失数据的随机效应模型的统计分析 中文摘要 在许多学科领域,如医学、生物学、保险精算学、可靠性工程学、公共卫生学、 经济学以及人口统计等领域,都存在着对某给定事件发生的时间进行估计和预测 的问题研究事件发生时间的规律问题就是生存分析问题,这类问题的解决通常采 用统计学的理论和方法生存分析对于产品寿命的评估、人和生物寿命的研究、手 术后人的寿命的预测等等都十分重要,因而生存分析的理论和方法在工程上以及 医学、生物学上都有广泛的应用,日益受到人们的重视 同时,系统分析理论也在不断发展和完善在系统分析过程中,建立数学模型 是十分重要的研究课题如炼钢厂的工程师们希望有一个炼钢过程的数学模型。以 实现计算机自动控制:气象研究工作者需要根据气压、雨量、风速的数学模型来预 报天气:从事城市规划工作的专家们需要建立一个包括人口、交通、能源、污染大 系统的数学模型,为领导者做出城市发展规划决策提供科学依据在复杂系统中, 具有很多不确定性的因素,建立数学模型时经常需使用概率统计模型从而统计推 断方法成为系统分析中极其重要的分析方法通常人们习惯应用回归分析的手段 来处理这类问题回归分析的理论及方法发展得非常快,它不仅成为统计学的一个 重要分支,而且被人们广泛地应用于各个领域随着回归分析理论的不断发展,随 机效应模型已成为目前重要的研究课题 统计诊断是上世纪七十年代中期才发展起来的- - f 统计新分支它以强烈的 应用背景、新颖的统计思想、广泛的研究内容和丰富的实际成果在广大统计工作 者面前展现出一个理论与应用相结合的崭新领域参数回归模型的诊断包括以下 方面的内容:残差分析、基于数据点删除的全局影响分析、数据变换、局部影响 分析等,且这些诊断方法已趋向成熟目前的发展趋势是迫切需要提出新的行之有 效的诊断方法。 扬州大学硕士学位论文 2 本文讨论了含右删失数据的非线性随机效应模型,并对含右删失数据的线性 随机效应模型进行了研究重点讨论统计诊断技术的应用 第二章对具有右删失数据的正态非线性随机效应模型,用l a p l a c e 展开方法, 给出该模型中固定效应参数的估计以及g a u s s - n e w t o n 迭代算法这些结果是 r o b i n s o n ( 1 9 9 1 ) ,l e ea n dn e l d e r ( 1 9 9 6 ) 等人工作的进一步推广和发展 第三章系统的研究了含右删失数据的非线性随机效应模型的统计诊断及影响 分析对模型进行诊断分析,得到了异常点检验的似然比检验统计量、残差、c o o k 距离及似然距离等诊断统计量的简洁计算公式 第四章系统的研究了具有右删失数据的线性随机效应模型,得到了该模型中 固定效应参数、随机效应参数的估计,然后进行了影响分析最后,利用实例验证了 上述方法的可行性 关键词:右删失;随机效应;参数估计;统计诊断 金晶亮含右删失数据的随机效应模型的统计分析 s t a t i s t i ca n a l y s i so fr a n d o me f f e c tm o d e l sw i t h c e n s o r e dd a t a 3 a b s t r a c t t h ee s t i m a t i o na n dp r e d i c t i o na r ec o m m o n l yn e e d e di nm a n y6 e l d s s u c ha s m e d i c a ls c i e n c e ,b i o l o g y , i n s u r a n c e ,r e l i a b i l i t y , p o p u l a t i o ns t a t i s t i c sa n ds oo n t h e s t l l d yo fr e g u l a r i t yo ft h et i m ei sc a l l e ds u r v i v a la n a l y s i s s u r v i v a la n a l y s i sp l a y sa n i m p o r t a n tr o l ei nt h ef o r e c a s to ft h ei n d i v i d u a l l i f e rh a se x t e n s i v ea p p l i c a t i o n si n m e d i c a ls c i e n c e ,b i o l o g ya n ds oo n r e s e a r c h e r sp a ym o r ea n dm o r ea t t e n t i o nt ot h i s p r o b l e m m e a n w h i l e ,t h et h e o r yo fs y s t e m s 锄a l y s i si sc o n t i n u o u s l yd e v e l o p e da n d i m p r o v e d m a n yc o m p l e xs y s t e m su s u a l l yc o n t a i nu n c e r t a i n t y , t h e np r o b a b i l i s t i ca n d s t a t i s t i c a lm o d e l sa r eo i l e nu s e d , a n dh c et h em 如o d so fs t a t i s t i c a li n f e r e n c eb e c o m e t h ei m p o r t a n ta n a l y s i sm e t h o d si ns y s t e m sa n a l y s i s m a n ys y s t e ma n a l y s i sr e s e a r c h e r s a n ds t a t i s t i c i a n sh a v ep a i dg r e a ta t t e n t i o nt ot h er a n d o me f f e c tm o d e l sb e c a n s eo f t h e i r w i d ea p p l i c a t i o n s t a t i s t i cd i a g n o s t i c si san e wb r a n c hw h i c hw a sd e v e l o p e di nt h e m i d d l e7 0 si nt h el a s tc e n t u r y an o wf i e l d , i nw h i c ht h e o r ya n da p p l i c a t i o nh a v eb e e n m i x e d , h a v ea p p e a r e di nf r o n to fs t a t i s t i c a lr e s e a r c h e r sb yi t sg r e a ta p p l i c a t i o nv a l u e , b o wi d e a , a b u n d a n tc o n t e n ta n dp r a c t i c a la c h i e v e m e n t t h ed i a g n o s t i c so ft h e p a r a m e t e rr e g r e s s i o nm o d e li n c l u d e st h ef o l l o w i n gc o n t e n t s :r e s i d u a la n a l y s i s ,g l o b a l i n f l u e n c ea n a l y s i s ,d a t as h i f i l o c a li n f l u e n c ea n a l y s i sa n ds oo i ln o wi ti sv e r y i m p o r t a n tf o ru st o r a i s et h em o l ee f f e c t i v em e t h o d s i nt h i sp a p e r , w es y s t e m a t i c a l l ys t u d yt h er a n d o me f f e c tm o d e l sw i t hc e n s o r e dd a t a t h em a i ni d e a so f t h ep a p e ra r ea sf o l l o w s : i nc h a p t e r2 ,w ed i s c u s st h en o n l i n e a rr a n d o me f f e c tm o d e l sw i t hc e n s o r e dd a t a t h e nw e e m p l o yt h el a p l a c em e t h o d s t od e a lw i t ht h e s em o d e l s b a s e do nt h i sm e t h o d , t h ef e de f f e c tp a r a m e t e re s t i m a t e sa n dg a u s s n e w t o nf o r m u l aa r eo b t a i n e d t h e 扬州大学硕士学位论文 r e s u l t so f r o b i n s o n ( 1 9 9 1 ) , l e ea n dn e l d e r 0 9 9 6 ) a i m p r o w x l i nc h a p t e r3 ,t h ed i a g n o s t i c sa n di n f l u e n c ea n a l y s i sa r es y s t e m a t i c a l l ys t u d i e df o r t h en o r m a ln o n l i n e a rm o d e l sw i t hr a n d o me f f e c ta n dc e n s o r e dd a t a s e v e r a ld i a g n o s t i c m e a s u r e s ,s u c ha sc o o kd i s t a n c e ,g e n e r a l i z e dl e v e r a g e ,r e s i d u a l s ,a n dl i k e l i h o o dr a t i o s t a t i s t i c se ta 1 a r eo b t a i n e d i nc h a p t e r4 ,w cs y s t e m a t i c a l l ys t u d yt h en o r m a ll i n e a rm o d e l sw i t hr a n d o me f f e c t a n dc e n s o r e dd a t a t h e 丘x e de f f e c tp a r a m e t e re s t i m a t e s , v a r i a n c ee s t i m a t e s , s e v e r a l d i a g n o s t i cm e a s u r e sa r eo b t a i n e d a tl a s t , ar e a le x a m p l ei l l u s l 托t e st h a to u rm e t h o di s a v a i l a b l e k e y w o r d s :c e n s o r ;r a n d o me f f e c t ;p a r a m e t e re s t i m a t i o n ;s t a t i s t i c a ld i a g n o s t i c s 4 金晶亮含右删失数据的随机效应模型的统计分析! 第一章绪论 随着现代科学技术的迅猛发展,系统工程思想和方法得到了日益广泛的应用 同时,系统分析理论也在不断发展和完善在系统分析过程中,建立数学模型是十 分重要的研究课题,如炼钢厂的工程师们希望有一个炼钢过程的数学模型,以实现 计算机自动控制:气象研究工作者要根据气压、雨量、风速的数学模型来预报天 气在复杂系统中,具有很多不确定性的因素,建立数学模型时经常需使用概率统 计模型,从而统计推断方法成为系统分析中极其重要的分析方法通常人们习惯应 用回归分析的手段来处理这类问题回归分析的理论及方法发展得非常快,它不仅 已成为统计学的一个重要分支,而且也被人们广泛地应用于各个领域随着回归分 析理论的不断发展,随机效应模型己成为目前重要的研究课题本章第一节阐述随 机效应模型实际背景;第二节简要介绍这些模型的研究现状 1 1 问题的提出 随机效应模型的研究可以说始于许宝禄先生( 1 9 3 8 ) 关于线性模型的方差估计 的著名论文由于这个模型在生物育种、心理学、工业控制等领域有着广泛的应用, 因此,近七十年来一直很受人们重视,发展很快,文献很多随机效应模型即方差分 量模型是回归分析很重要的研究内容,我们首先从遗传学上的一个例子谈 起y o u n g 等人为了研究母鼠的母性能力( 用所生小鼠的体重来度量) ,从四个母鼠 生下的出生十天的小鼠中各取六只,用匕表示第i 只母鼠生下的第j 只小鼠的体 重,我们可以用单向分类模型 写= + q + 勺, i l l ,4 , j = l ,6 来描述这组数据,其中为总平均,为第i 只母鼠的效应如果是比较特定的四 只母鼠,则a l ,就是固定效应,则上述模型便是固定效应模型,即普通的 回归模型但是y o u n g 等人要研究的是母鼠总体中母性能力的变化程度,即母性能 力的方差现在的这四只母鼠是从母鼠总体中抽取的随机样本,相应的就是母 鼠效应总体中的随机样本,它们也是随机变量,则称上述模型为随机效应( r a n d o m 扬州大学硕士学位论文! e f f e c t ) 模型如果小鼠用三种不同的饲料来喂养,试验的目的除了考察母性能力 的变化程度之外,还想比较这三种饲料的优劣,则模型应为 = + q + 一+ 锄, i = l ,4 j = l 2 ,3 k = l ,6 这里为第i 只母鼠生的且喂第j 种饲料的第k 只小鼠的体重,q 为第i 只 母鼠的效应,它是随机效应,为第j 种饲料的效应,是固定效应将上述既有固定 效应又有随机效应的模型也称为随机效应模型,有些文献中亦称上述模型为混合 模型缸i x e dm o d e l ) ,或称为重复测量数据模型( r e p e a t e dm e a s u r e m e n tm o d e l ) 另一方面,生存分析对于产品寿命的评估、人和生物寿命的研究、手术后人的 寿命的预测等等都十分重要,因而生存分析的理论和方法在工程上以及医学、生物 学上都有广泛的应用价值,日益受到人们的重视 生存分析就是对一个或多个非负随机变量进行统计分析,即根据观测到的数 据对一个或多个非负随机变量进行统计推断非负随机变量常用来表示自然界、人 类社会或技术过程中某种状态的持续时间一种最常见的情况是,用非负随机变量 表示“寿命”( 技术产品的寿命或生物、人的寿命) ,因而生存分析可以看成是对 寿命进行研究,是对寿命数据进行分析,生存分析对于产品寿命的评估、人和生物 寿命的研究、手术后人的寿命的预测等等都十分重要,因而生存分析的理论和方法 在工程上以及医学、生物学上都有广泛的应用价值,日益受到人们的重视 生存分析不是孤立的研究某个个体的寿命,而是研究一批个体的寿命任何个 体的寿命多长带有偶然性,而一批个体的寿命多长就有一定的规律性我们用t 表 示任何个体的寿命,把t 看作随机变量,t 的值依赖于个体寿命数据有时是有意识 地安排试验获得的,有的则是通过现场调查得到的,可以说,数据一般含有删失 ( c e n s o r i n g ) 或不精密的特点 什么是“删失”呢? 删失分为“右删失”和“左删失”,在进行观测或调查时, 一个个体的确切寿命不知道,但只知道寿命大于l ,则称该个体的寿命在l 是右删 失的,并说l 是右删失数据若个体的确切寿命不知道,但只知道寿命小于l ,则称 该个体的寿命在l 是左删失的,称l 是左删失数据右删失的情形在寿命观测中极 金晶亮含右删失数据的随机效应模型的统计分析! 为常见,左删失的情形出现很少 怎样分析这些数据呢? 由于删失的引入,情况大为复杂普通的统计学未讨论 这些,它只是讨论每个数据都是完全数据的情形生存分析的一大特点,就是讨论 含有删失数据的情形,因而发展出许多新的统计方法,形成许多新的理论 和普通统计学一样,生存分析的方法也主要分为两大类当寿命总体知之甚少 或毫无所知时,采用非参数统计方法当总体的分布类型已知,只是若干个( 有限 个) 参数未知时,采用参数统计方法此外,还有半参数模型及相应的半参数方法, 这是比较新的分支,方兴未艾一般说来,参数统计方法可用于较小的样本,使用非 参数方法则必须有较大的样本对于参数统计方法而言,小样本情形的方法理论比 较完善,而对于非参数方法来说,有效的方法理论主要基于大样本综合上述两方 面,显然对既有随机效应又有删失数据的研究也是十分必要的本文将对此进行比 较系统的研究 基于实际问题和理论研究的需要,本文主要研究非线性随机效应模型以及既 有随机效应又有删失数据的线性模型,且侧重于统计诊断技术的研究 1 2国内外研究现状 1 2 1随机效应模型研究回顾 国外关于随机效应模型方差分量估计较早的工作有h e n d e r s o n ( 1 9 5 3 ) , h a r t l e ya n dr a o ( 1 9 6 7 ) ,p a t t e r s o na n dt h o m p s o n ( 1 9 7 1 ) 大量的研究工作是 始于本世纪七十年代,对于线性随机效应模型参数估计及方差分量估计的文献有 h a r t l e y ( 1 9 7 3 ) ,c o r b e i la n ds e a r l e ( 1 9 7 6 ) ,j e n n r i c ha n ds a m p s o n ( 1 9 7 6 ) , h a r r v i l l e ( 1 9 7 6 ,1 9 7 7 ) 等特别是h a r v i l l e ( 1 9 7 6 ) 首先提出了约束最大似然 估计( r e s t r i c te s t i m a t i o no fm a x i m u ml i k e li h o o d ) 方法即r e m l 估计方法, 对方差分量估计的研究有着深刻的影响对于模型的参数估计,h e n d e r s o n ( 1 9 8 4 ) 得到了最优线性无偏估计h a r v i l l e ( 1 9 9 0 ) ,h e n d e r s o n ( 1 9 9 0 ) ,r o b i n s o n ( 1 9 9 1 ) 概括总结了h e r d e r s o n 的方法,并将其应用到动物育种领域对于线性随机效应 扬州大学硕士学位论文! 模型的参数估计及方差分量估计的算法与计算机实现,有关的论文有l a i r da n d w a r e ( 1 9 8 2 ) ,l a i r d ,l a n g ea n ds t r a t a ( 1 9 8 7 ) ,3 e n n r i c ha n ds c h l u c h t e r ( 1 9 8 6 ) 等以上都是关于线性随机效应模型的研究s e a r l e ,c a s e l l aa n dm c c u l l u c h ( 1 9 9 2 ) 在他们的著作中对线性随机效应模型的参数估计及方差分量的估计作了系 统的概括和总结这本著作标志着线性随机效应模型研究的基本完善 线性随机效应模型的一般形式可写成 y = x f l + z u + 占 其中y 是n 维观察向量,x ,z 分别为n x p ,万g 阶设计矩阵,参数为p 维未 知参数( 固定效应) u 是期望为0 ,方差为o r 2 的随机变量( 随机效应) 占为n 维随机误差,且f n ( o ,叮2 ) 与u 独立 国内学者在这方面也做了大量的工作,王松桂( 1 9 8 6 ) 在他的线性模型理论 及其应用著作中对随机效应模型作了系统的概括和总结,吴启光( 1 9 8 3 ) 、王静龙 ( 1 9 8 7 ) 讨论了线性随机效应模型方差分量的可容许性;周明华,王静龙( 1 9 9 5 ) 讨论 了方差分量模型的二次型估计,童恒庆( 1 9 9 5 ) 研究了方差分量模型的广义岭估计 但对于非线性随机效应模型,有关的研究工作还比较少,有待人们进一步的努力 广义线性和非线性随机效应模型是线性随机效应模型的直接推广,广义线性 随机效应模型在m c c u l l a g ha n dn e l d e r ( 1 9 8 9 ) 关于广义线性模型的著作问世后, 已经成为统计试验设计与理论研究的热门课题w i l l i a m s ( 1 9 8 2 ) ,b r e s l o w ( 1 9 8 4 ) 研究了二项分布和普阿松分布的广义线性随机效应模型b r e s l o wa n dc l a y t o n ( 1 9 9 3 ) ,l e ea n dn e l d e r ( 1 9 9 6 ) ,l i n ( 1 9 9 6 ,1 9 9 7 ) ,l i ua n dp i e r c e ( 1 9 9 3 ) 研究了分组广义线性随机效应模型的估计问题以上文献的基本思路是应用 l a p l a c e 展开的思想,避免了求边缘密度时复杂的积分计算,由于这种方法得到的 估计具有良好的性质,因而具有广泛的实际应用价值 广义线性随机效应模型的一般形式可写成 金晶亮含右删失数据的随机效应模型的统计分析! g ) = ,7 = x p + z u , 其中g ( ) 为联系函数,y 为n 维观测向量,其均值为,x ,z ,u 的定义如一 般的线性随机效应模型关于该模型的方差分量的估计,s c h a l l ( 1 9 9 1 ) 讨论了其 p , e m l 估计,并给出了具体的迭代算法 在广义线性随机效应模型发展的同时,非线性随机效应模型也在不断的发展, 但相比较而言,这方面的研究工作还相当薄弱,研究工作见于报道的尚不是很 多r a c i n e - p o o n ( 1 9 8 5 ) ,d e y ,e ta 1 ( 1 9 9 7 ) 从贝叶斯( b a y e s ) 的观点研究了 非线性随机效应模型l i n d s t o r ma n db a t e s ( 1 9 9 0 ) ,v o n e s h ( 1 9 9 2 ) 分别研究了 重复测量数据的非线性随机效应模型与一般的非线性随机效应模型v o n e s h ( 1 9 9 6 ) 给出了一般重复测量数据非线性随机效应模型的边缘似然函数的l a p l a c e 逼近公式,这对非线性随机效型的研究带来了极大的方便 常见的非线性随机效应模型有两种形式,一种形式为 】,= f ( x ,力+ z h + g 另一种形式为 y 。= f b 口8 a + 8 i 。8 t = a | p + b p 其实第二种形式与第一种形式基本上是一致的v o n e s h ( 1 9 9 2 ) 讨论了第二种形式, 且可改写成 l r = f ( x ,) + z ( 扣+ f 非线性回归模型是统计学的重要热门课题之一。指数族非线性模型 ( e x p o n e n t i a lf a m i l yn o n l i n e a rm o d e l s ,筒记为e f n m ) 首先由c o r d e i r oa n dp a u l a ( 1 9 8 9 ) 和c o o ka n dt s a i ( 1 9 9 0 ) 提出,它实际上是一种常见的广义非线性模型; 是广义线性模型( g u d 和正态非线性模型的自然推广w e i ( 1 9 9 8 ) 详细讨论了该模 型的统计推断、几何方法以及统计诊断如果数据可以重复测量,经常需要考虑随 机效应的影响 扬州大学硕士学位论文 1 0 1 2 2 统计诊断 统计诊断是上世纪七十年代中期才发展起来的一门统计新分支它以强烈的 应用背景、新颖的统计思想、广泛的研究内容和丰富的实际成果在广大统计工作 者面前展现出一个理论与应用结合的崭新领域统计学的出发点是一个数据集,该 数据集往往是根据在实际工作中逐步积累起来的历史资料或围绕某一特定目标收 集起来的数据,经初步加工整理而成为了通过数据集研究实际问题,通常的做法 是把它纳入某一方便有效的统计模型进行研究但是,全体统计模型都只能是对客 观过程的一种近似描述,它不可避免地包含某些假定,甚至模型本身也是一种假定 人们自然有理由要问:我们选择的模型能不能大体上反映所要研究的实际问题? 它是否与数据集中集大多数的数据相一致? 我们所得到的数据集中会不会有个别 数据由于收集或整理过程中的疏忽和失误或其他种种原因而出现较大的误差? 另 外,数据集中各个数据点对我们进行统计推断的影响是否大体相仿,会不会有某些 点的影响特别大? 等等在使用统计方法解决具体问题的过程中,人们必须慎重地 回答上述问题,才能作出更加符合实际的结论 统计诊断就是针对上述种种问题而发展起来的一种分析方法在过去的近四 十年中,对于线性回归诊断,c o o ka n dw e i s b e r g ( 1 9 8 2 ) ,韦博成等( 1 9 9 1 ) 已经作了 全面而综合的讨论其他模型( 例如非线性回归模型、广义线性模型和指数族非线 性模型) 的统计诊断也得到了较大的发展例如m c c u l l a g ha n d n e l d e r ( 1 9 8 9 ) ,w e i ( 1 9 9 8 ) 作了详细的讨论总的来讲,参数回归模型的诊断包括以下方面的内容:残 差分析、基于数据点删除的全局影响分析、数据变换、局部影响分析等,且这些诊 断方法已趋向成熟目前的发展趋势是迫切需要提出新的行之有效的诊断方法 对于线性随机效应模型的回归诊断,b e c k m a ne ta 1 ( 1 9 8 7 ) ,c h r i s t e n s e ne t a 1 ( 1 9 9 2 ) , l o d g e s ( 1 9 9 8 ) ,l e s a f f r ea n dv e r b e k e ( 1 9 9 8 ) ,石磊等( 1 9 9 6 ) 研 究了对参数估计的影响分析和局部影响分析z h o n ga n dw e i ( 1 9 9 9 ) 讨论了关于参 数和随机效应的估计的影响分析,这方面的研究工作,有了一定的进展 金晶亮含右删失数据的随机效应模型的统计分析旦 1 2 3 本文主要的研究工作 本文讨论了含右删失数据的非线性随机效应模型,并对含右删失数据的线性 随机效应模型进行了研究重点讨论统计诊断技术的应用 第二章对具有右删失数据的正态非线性随机效应模型,用l a p l a c e 展开方法, 给出该模型中固定效应参数的估计以及g a u s s - n e w t o n 迭代算法这些结果是 r o b i n s o n ( 1 9 9 1 ) ,l e ea n dn e l d e r ( 1 9 9 6 ) 等人工作的进一步推广和发展 第三章系统的研究了含右删失数据的非线性随机效应模型的统计诊断及影响 分析对模型进行诊断分析,得到了异常点检验的似然比检验统计量,残差、c o o k 距离及似然距离等诊断统计量的简洁计算公式 第四章系统的研究了具有右删失数据的线性随机效应模型,得到了该模型中 固定效应参数,随机效应参数的估计,然后进行了影响分析最后,利用实例验证了 上述方法的可行性 扬州大学硕士学位论文 第二章含右删失数据的非线性随机效应模型的 参数估计 1 2 本苹将讨论非线性随机效厘模型和右删失数据模型,并对既有随机效应又有 右删失数据的非线性模型进行了研究 假设y 是一个( n + m ) 维的响应向量,u 是q 维的随机效应因子,假设u 服从正 态分布( o ,o r 2 l q ) ,k k ,艺k ,y 肿。k 相互独立,且服从正态分布( 朋,盯2 0 。) , 不失一般性,我们考虑最后i n 个生命时间数据由于试验的终止却未寿终而删失 了z k 在随机效应下的均值为: m = 厂( 葺,) + 刁r 甜i - l ,2 ,n 恤 其中是p 1 未知固定效应向量 令 m = 去唧 一争 烈力= f 妒( t ) d t t = 学= 怒 联合似然函数方程由下式给出: 扛专兀1 1 北) l 兀- - t 。 l 志e x p 一寺矿 u v 二儿uj 二v 对数似然函数可以写成: 惦一“) 一半i 0 9 2 砸2 一三喜彳+ 薹l o g 北卜专如 ( 2 1 ) ( 2 2 ) 金晶亮含右删失数据的随机效应模型的统计分析旦 上式方程对求导,可得: 品= 吉喜警一c 而脚一彳甜,+ 吉黑s ,等 = 吉喜望盟一地,p ) - 刁r u ) ( 2 3 ) 其中 f y t ,i = 1 ,一 m 2 i l ( o + 厂( 力+ 彳虬f = 以+ l ,月+ 所 具有右删失数据的原随机效应模型y = f ( x ,) + 乙+ 占变化为一般的随机效 应模型 形= ,( ) + z 钮+ 占,s n ( o ,仃2 l + 。) ,甜- n ( o ,盯2 ) ( 2 4 ) 且w i u 与s 独立上述模型的联合对数似然函数为 t ( w 朋) 一半l 0 9 2 砸2 一击 ( 一f ( f 1 ) 一动) 7 咿一f ( f 1 ) 一历) 一刍村( 2 5 ) 经简单的计算可得: o t ( w , u ;p ) :o 抛 喇z 一予r z + ) - l ( z 一矿o w ) r ( 叫) ) 则 l ( w ,蠢;) = 一! 苌里l 0 9 2 刀盯2 一i ( 形一厂( 芦| ) ) 7 6 1 ( 矿一,( ) ) 二二u 其中6 :厶似+ z ( z 一等) r ,模型( 2 4 ) 关于y 的边缘似然函数为 c 吡。 ,( 历= 一詈i 0 9 2 舸2 一三1 0 9 l ( z 一筹心+ l - 吉( 一,( 圆) 7 舻( 旷一厂( 励+ q ( 一。1 ) = 一三l 0 9 2 # a 2 一三l o g l 盎卜击( 矿一,( ) ) r 6 _ 1 ( 形一厂+ o ;( 矿1 ) ( 2 6 ) 扬州大学硕士学位论文 故( 2 4 ) 式可以改写为 形= ,( 历+ pe n ( 0 , a 2 f b 由此可以看出,w 关于够,盯2 ) 的对数似然为( 2 6 ) 式前三项,因此,) 作为正 态的非线性随机效应模型的边缘似然是精确的( 即q ( 矿1 ) = o ) ,即l a p l a c e 的展 开对于正态非线性随机效应模型是精确的 2 1 模型的参数估计 前面介绍了含右删失数据的非线性随机效应模型,参数的推断可以( 国为 基础,下面来讨论参数的估计方法及有关性质 引理2 1 对于正态非线性线性随机效应模型( 2 4 ) ,似然函数( ) 关于 参数p 的s c o r e 函数与观察信息矩阵分别是: - j ,协一喾钠_ ( 2 7 ) 一等= d r q - j d - # , 【g j , ( 2 8 ) 其中妒= 去,d = o f ( p ) a p 一o w o p 7 ,p = 矿一( 舀) ,百= ( 励+ 蕊,蠢为方程 盯 刮( 矿,珥伪8 u = 0 的解,厅= 蠢( 刃,g = i ,2 f ( , f 1 ) 0 , 3 0 , 8 7 一:w a p a 9 7 为n x p x p 立体 阵,q = 矿一1 + z z ( z 一予7 ,又z 一= ( z 一瓦o w 7 ,r z + ,矿= ( z z + k 。) ,方括号乘积 f 1 可参见w e i ( 1 9 8 9 ) 金晶亮含右删失数据的随机效应模型的统计分析 证明:由( 2 6 ) 式关于口求导可得, - j ,一筹 :型! 兰! 亟生! + a i ( w , n ;p ) 丝+ 型! 兰! 亟壁2 1 里 88孤t 8 】b8 wa _ b = 妒d 7 ( 矿一0 , ( 肛等= 幽+ 芬h m g l 由露满足a i ( w ,”;d s u = o 可得: ( z 一o i w 了厂( 缈一力:一- ”, 则 ( ) :e ( z 一罢刍r ( 一) , o l z f 将上式关于求导得: 警z ( z 予铲x 警邛慨_ 1 ) 。1 ( z 一予7 v d ( 2 1 0 ) 则 ( 舻d r v d _ z ( ( z 一7 v z + 1 ) _ l ( z 一予7 v d ) 一虻矿 【g 】 利用矩阵的和式求逆公式 y v z ( ( z 一予7 v z + 1 ) - 1 ( z 一孑邓。1 + z ( z 一丽o w ) r ) _ lcw0wcw一 即可得到( 2 8 ) 式 d ( b 7 ( 形一( 占) ) :o ;务:厂( 向+ z 番; 五:e ( z 一a ;w 了广( 形,( 每) ) ( 2 1 1 ) d 搿。 扬州大学硕士学位论文 2 2 算法 1 6 根据引理2 1 ,的参数估计可采用通常的迭代算法,参见l e ea n dn e l d e r ( 1 9 9 6 ,p 6 3 0 ) ,w e i ( 1 9 9 8 1 ,具体的算法如下: ( 1 ) 首先给出参数口的初值这可采用不带随机效应的一般指数族非线性回归模 型的常用算法( w e i ,1 9 9 8 ) ,得到参数p 的估计并取为初值,并取 扩= z r ( 】,一) l 矿, w 。= y ( 2 ) 根据迭代计算出的,u i , 给出w 。 这里 降? = 乃t r s ( ,t j 2 ) + 1 f ( x 行j ,) + 巧“,:n + l ,n + m 【,) + 刃“,= , ( 3 ) 给定参数,解方程挪( ,u ;p ) o u = 0 ,即采用下列迭代公式( 见( 2 9 ) 式) : 搿m = ( z 一矿o w ) 7 ( 一吼加, , ( 4 ) 对于给定的u ,解方程0 1 ( w ,u ;p ) a 归= 0 ,求解参数p ,这时可采用 g a u s s - n e w t o n 迭代法( w e i ,1 9 9 8 ) 由于 驴) * ( ) + ( 似夕一刃* o , 夕“+ h 够) ) 。) ( 2 1 2 ) 以d 7 q _ 1 d 代替一l ) ,则g a u s s - n e w t o n 迭代公式为: “= 。+ ( d 7 ( 2 - 1 d ) d r e , ( 2 1 3 ) 若i “1 - p i 与卜一l 均小于给定的精度,则停止迭代,否则重复上述( 2 ) 、 ( 3 ) 、( 4 ) 三个步骤,直至达到给定的精度同样也可以采用w e i ( 1 9 9 8 ) 改进的 g a u s s - n e w t o n 迭代算法以保证算法过程的收敛性 金晶亮含右删失数据的随机效应模型的统计分析旦 第三章含右删失数据的非线性随机效应模型的 统计诊断 本章在前一章研究正态非线性随机效应模型参数估计的基础上,系统地研究 了带有随机效应的正态非线性回归模型的统计诊断研究了模型的影响分析,并推 导出了数据删除模型( c a s ed e l e t i o nm o d e l ,c 删) 一阶近似的参数估计公式同时, 推导出了判别强影响点或异常点的诊断统计量如c o o k 距离、似然距离、似然比统 计量等诊断统计量 3 1 模型的影响分析 建立诊断模型是对数据和模型进行诊断分析的首要步骤,为了研究数据与模 型的符合情况,一个重要的方法是逐个考虑每个点对于回归分析的影响模型( 2 4 ) 的联合对数似然函数为: 职邶) - - 半l 0 9 2 解2 一专一f ( f 1 ) 一z u ) 一f ( f 1 ) 一刎一古以 由( 2 7 ) 一( 2 9 ) 知,上述模型参数的m l 估计夕满足: ( d 7 q 一1 d ) d r e 口= 0 令,= q e ,p = 矿一矽) ,百定义见引理2 1 ,则p 可形式地表示为 p = ( d 7 c 2 - 1 d ) 。1 d 7 q 2 - 1 足l p k :d + 笞 从而,模型( 2 4 ) 参数的m l 估计夕可形式地视为下列线性模型的广义最小二 乘估计( l s e ) , k = d f l + 8 ,f ( o ,固 ( 3 i ) 扬州大学硕士学位论文 1 8 因而可以通过线性模型( 3 1 ) 来导出正态非线性随机效应模型( 2 4 ) l 鬟j 诊断统计 量这是我们后面推导诊断统计量的重要依据之一 下面我们首先建立统计诊断模型考虑下列数据删除模型( c a s ed e l e t i o nm o d e l , c d i v f ) q o = 允( 刃+ z ( 俨, 其中最o ,矗( ) ,z ( o 分别表示向量或矩阵口,f ( f 1 ) ,z ,删除第i 行所得到的向 量或矩阵 为了计算模型中删除第i 个数据点对参数估计的影响,需要计算上述c d m 模型 的参数估计,设其相应的参数估计量为厦,) 彦2 d 为方便起见,不妨将矩阵写成如下形式, 其中q o 为删除q 第i 行i 列所得到的矩阵则得到如下重要结论 引理3 1 对于正态非线性随机效应模型( 2 4 ) ,其删除第i 个数据点 后得到的数据删除模型参数估计的一阶近似表达式为 展俨夕一些半 ( 3 2 ) 其中q :矿- i + z z ( z i o w 了j r ,4 为第i 分量为l ,其余分量为0 的n 维单位向 c 讼 量,岛= 乃一詹,舀= 厂( 夕) + 西,番的定义如( 2 1 1 ) 式,为矩阵h 的第i 个对角元, h 为 日= ,一q 1 + q - 1 d ( 矿q “o ) - 1 d 7 q 一( 3 3 ) 、, 谚c rh h 金晶亮含右删失数据的随机效应模型的统计分析旦 证明:记数据删除模型( c d 吣的对数似然函数为( ) ,则( 厦d ) = o 其在p 处 的一阶近似表示式为, 则有 直接计算可得: o ( ) = ( 历+ ) ( 层,) 一) 如一夕+ ( 而( 励。1 如( 声) 瓦z 夕+ ( 吲) _ i 吲叱 其中靠) 为矿删除第i 个元素所得到的残差向量利用分块矩阵的求逆公式, 可求出矩阵q 的逆为 叫叫l l s ,, 蝴焉攥一 其中s = 一v j t s 铴- 1 v ,并设矩阵d 的第i 行元素为衫,由于 。7 q 。= c 4 ,) q 。1 ( 笺, 记 = d f 沪 铴- 1 d ( 。+ 考珥衫一言吐巧吲d ( 。 一言味衫+ 1 r ,。- 1 。t 。- 1 d c 。 2 t x 锄- 1 q 。+ 去4 衫一巧t - 幻- 1 d ( 矗 一妄d | :) 吲h 研一巧t - 1 d ( 。) 鼋= 每一g 嚣v ,= 岛d 7 q 。1 4 , 扬州大学硕士学位论文 则 = d 7 盯1 d 一孑冒 另一方向, 吲= d 7 盯1 矿一每弓墨 其中 弓= 一谚吲= s f i f z 。矿, 根据求逆公式有( 参见c h r i s t e n s e n ,e ta 1 ,1 9 9 2 ) ( z tx 锄- 1 b 。) 一= ( d 7 q 一1 d ) 一1 + ( d 7 q 一1 d ) 一1 乏彩( d 7 q - 1 d ) - 1 ,( 而一毛) , 其中 磊= 衫( d 7 q 一1 d ) - 1 z = 醪q - 1 d ( d 7 f 2 - 1 d ) “d 7 q - 1 4 ( 3 4 ) 将上面式子代入到虞。中再经简单的计算便得到结果 3 2 诊断统计量 异常点分析与强影响点分析是统计诊断的重要内容在上面讨论的基础上,接 下来系统地介绍识别异常点与强影响点的诊断统计量,这些统计量基本上是线性 回归模型诊断统计量的推广( 见( 3 1 ) 式) 1 广义o o o k 距离 广义c o o k 距离定义为夕与卮。之间关于某个正定矩阵m o 的距离,其表达 形式如下 g 4 2 d 1 = l i e 一危。1 1 ,= ( 夕一危。) 7 m ( p 一虞。) 常选择m 为f i s h 盯信息矩阵,1 1 1 m = 正艄= 吉d 7 q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论