




已阅读5页,还剩111页未读, 继续免费阅读
(概率论与数理统计专业论文)几类相关数据分析模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文基于广义估计方程的理论研究了纵向数据下几类统计模型的参数估计 问题 本文首先考虑了一类h 广义线性模型中的参数估计问题由于广义线性模 型( g l m ) 包含许多有实用价值的模型以及它所具有的许多优良性质,使得其在 生物医学、金融保险等领域中得到了广泛的应用然而,在很多实际问题中,数 据来源于纵向研究或分层设计结构,样本具有相依性或拟合经典的分布时呈现 超散度性特征,这时,就需要在模型中引入随机效应,进一步改进g l m 的理论 l e e 和n e l d e r 于1 9 9 6 年提出了日广义线性模型,它是广义线性模型的推广,即 在g l m 的线性预测部分增加了随机分量,并且随机分量可以服从任意分布同 时,他们还提出了一种新的估计方法,我们称其为l n 法然而,他们只给出了 其框架,理论上的研究尚不完善本文基于广义估计方程和o n 的思想,首次研 究了纵向数据下一类典型的h 广义线性模型一砌5 8 肌一g a m m a 模型中的 k n 估计问题一方面,在一些正则条件下,证明了其中固定效应卢的i 广n 估计 的强相合性、收敛速度以及渐近正态性另一方面,通过模拟说明了l n 方法在 有限样本时也有着优良的表现进一步,k o l m o g o r o v 检验表明【厂n 方法估计随 机效应的优良性;此外,基于大样本理论结果,迸一步讨论了参数的假设检验 其次,在实际研究中,同一试验组中不同试验个体之间的差异未必只通过协 变量表现,基于此,我们将p o i s s o n - g a m m a 模型推广为拟p o i s s o n - o a m m a 模型, 即不仅在模型中考虑了组随机效应,还在模型中引入了个体效应,而且也可将这 一i 一 北京工业大学理学博士学位论文 种推广应用到其它h 广义线性模型,从而推广了h 广义线性模型并采用l n 法,首次对拟p o i s s o n g a m m a ( p g ) 模型进行了研究理论研究表明在拟p - g 模型中o n 估计具有类似于极大似然估计的大样本性质,m o n t ec a r l o 模拟表明 l n 估计比传统的边际似然估计在有限样本时有着更加优良的表现,而且i 广n 方 法比较省时省力,在拟p g 模型中也比边际似然函数法具有更高的精度进一步, 通过对一项新药对辅助治疗部分癫痫病患者发病次数的影响的临床试验纵向数 据的分析,表明拟p g 模型充分体现了个体间的异质性、同一个体不同观测值 之间的相依性以及模型的超散度性 第三,在上述工作的基础上,本文还研究了再生散度线性模型中的参数估计 对于再生散度模型,近年来,韦博成、唐年胜等对其中的非线性再生散度模型进 行了比较系统的研究,张文专对其中非线性再生散度随机效应模型做了进一步的 研究另一方面,陈希孺等基于广义估计方程,讨论了广义线性模型的参数估计的 强相合性在上述工作的基础上,进一步讨论了一类再生散度模型即再生散度线 性模型中回归系数的极大似然估计( m l e ) 的强相合性及其收敛速度问题结果 中一个特例表明,在设计矩阵满足“:。五w 加的特征根有正的下界”时,极 大似然估计可以达到重对数律的的收敛速度结论表明,收敛速度主要决定于信 息矩阵的最小特征根的大小,这与线性模型最小二乘估计的结果类似 关键词:h 广义线性模型;l - n 估计;随机效应;大样本性质;m o n t ec a r l o 模拟 一i i a b s t r a c t a b s t r a c t b a s e do nt h et h e o r yo fg e n e r a l i z e de s t i m a t i n ge q u a t i o n s ( g e e ) ,t h i st h e s i s s t u d i e st h ep a r a m e t e re s t i m a t i o ni ns e v e r a ls t a t i s t i c a lm o d e l sf o rl o n g i t u d i n a ld a t a f i r s t l y , t h ep a r a m e t e re s t i m a t i o ni nat y p i c a lh i e r a r c h i c a lg e n e r a l i z e dl i n e a r m o d e l si sc o n s i d e r e d g e n e r a l i z e dl i n e a rm o d e l s ( g l m ) i n c l u d el o t so fp r a c t i c a l v a l u em o d e l se n di th a san u m b e ro fe x i m i o u sp r o p e r t i e s ,8 0t h a ti ti sw i d e l y a p p l i e dt ov a r i o u sf i e l d si n c l u d i n gb i o m s t r i c s ,f i n a n c e ,i n s u r a n c ea n d s oo n h o w - o v e r ,i np r a c t i c a ls i t u a t i o n s ,t h ed a t ac o m e 丘o ml o n g i t u d i n a lr e s e a r c ho rs t r a t i f i e d d e s i g ns t r u c t u r e s ,t h es a m p l ew i t hd e p e n d e n c eo rt h ec h a r a c t e ro fo v e r d i s p e r s i o n b ep r e s e n t e dw h e nw ef i t t i n gt h ec l a s s i c a ld i s t r i b u t i o n s ,t h e nw er e q u i r ea d d i n g 聃n d o me f f e c t st ot h em o d e l sa n dg l mi sn o tf i tf o rt h i sc i r c u m s t a n c e b yi 乱 c h d i n gr a n d o mc o m p o n e n t si nt h el i n e a rp r e d i c t o rw i t ha r b i t r a r yd i s t r i b u t i o n s i ng e n e r a l i z e dl i n e a rm o d e l s ,l e ea n dn e l d e ri n t r o d u c e dh i e r a r c h i c a lg e n e r a l i z e d l i n e a rm o d e l s ( h g l m ) a tt h es a l et i m e ,an e wf r a m e w o r ko fe s t i m a t i o n ,w h i c h w ec a l ll - nm e t h o d ,w a sp r o p o s e d h o w e v e r ,i tn e e d saf u r t h e rt h e o r e t i c a li n v e s t i - g a t i o n w ef i r s ts t u d yt h el - ne s t i m a t o r si np o i a s o n - g a m m a ( p g ) m o d e l sw h i c h a r et y p i c a lh i e r a r c h i c a lg e n e r a l i z e dl i n e a rm o d e l s 如rl o n g i t u d i n a ld a t aa l o n gt h e 8 i m i l a rl i n e so fg e e o nt h eo n eh a n d ,u n d e rp r o p e ra s s u m p t i o n so nr e s p o n s e v a r i a b l e sa n ds o m es m o o t h i n gc o n d i t i o n s ,w eo b t a i nt h es t r o n gc o n s i s t e n c ya n d t h ec o n v e r g e n c er a t ea l o n gw i t ht h ea s y m p t o t i cn o r m a l i t yo ft h e 【广ne s t i m a t o r s f o rt h ef i x e de f f e c tpi np - gm o d e l s o nt h eo t h e rh a n d ,t h el - nm e t h o di sp r o v e d i i i 北京工业大学理学博士学位论文 p r e t t yg o o db ys i m u l a t i o n si nt h ec a s e so fs m a l la n dm o d e r a t es a m p l es i z e s f u r - t h e r n l o r e k o l m o g o r o vt e s ts h o wt h a tt h el n m e t h o dw o r k sw e l lf o rt h er a n d o m e f f e c t sp r e d i c a t i o n s m o r e o v e r ,w ed i s c u s st h eh y p o t h e s i st e s t 她o fp a r a m e t e r b a s e do nt h et h e o r e t i c a lr e s u l t sf o rt h el a r g es a m p l e s e c o n d l y , t h eh e t e r o s c e d a s t i c i t ya m o n gd i f f e r e n ti n d i v i d u a l si nt h es a m et r i a l g r o u pi sn o to n l yb e h a v e db yc o v a r i a b l e si np r a c t i c a ls i t u a t i o n s t h e n ,w ee x t e n d p o i s s o n - g a m m am o d e l st ot h ee x t e n d e dp o i s s o n - g a m m am o d e s ,i e w ea r en o t o n l yp u tt h er a n d o me f f e c tw i t h i ng r o u pt ot h em o d e l s ,b u ta l s ow ea d dt h ei n - d i v i d u a lr a n d o me f f e c tt ot h em o d e l s ,m o r e o v e r ,o t h e rh g l mc a nb ee x t e n d e d b yt h e8 a l n ew a y , a n dt h e r e b yh g l mb eg e n e r a l i z e d a n dw ef i r s ts t u d yi tb y u s i n gl n m e t h o d i na l le x t e n d e dp o i s e o n - g a m m am o d e lf a m i l y , t h e o r e t i c a l 胁 s e a r c hs h o w st h a tt h el - ne s t i m a t o r sh a v et h ea n a l o g o u sl a r g es a m p l ep r o p e r t i e s t om l e ;m o t ec a r l os i m u l a t i o nm e t h o di se m p l o y e dt oc o m p a r et h el - ne s t i m a - t o ta n dm a x i l n u l nm a r g i = u a ll i k e l i h o o de s t i m a t o rf o rs m a l la n dm o d e r a t es a m p l e s i z e 8 i ti ss h o w nt h a tt h el - ne s t i m a t o ra p p e a r sm u c hb e t t e rt h a nt h em a x i m u m m a r g i n a ll i k e l i h o o de s t i m a t o r ,w h i c hi sd i i 匠c u l tt oi m p l e m e n tb e c a u s e o ft h em u l - t i p l ei n t e g r a t i o ni n v o l v e d t h em o d e l sp r o p o s e dh e r ec o u l db eu s e dt oa c c o u n tf o r o v e r d i s p e r s i o n ,h e t e r c e e e d a s t i c i t y , a n dc o r r e l a t i o na m o n gr e p e a t e do b s e r v a t i o n s f u r t h e r m o r e ,w eu s oi tt oa n a l y s i st h ee p i l e p t i cs e i z u r ec o u n td a t aa r i s i n gf r o m a s t u d yo fp r o g a b i d ea sa na d j u v a n tt h e r a p yf o rp a r t i a ls e i z u r e s ,t h er e s u l t sa r e s a t i s f y i n g t h i r d l y , b a s eo na b o v er e s e a r c hw o r k s w ea l s od i s c u s st h ep a r a m e t e r 睁 t i m a t i o ni nr e p r o d u c t i v ed i s p e r s i o nm o d e l si nt h i sp a p e r a b o u tr e p r o d u c t i v e 一一 a b s t r a c t d i s p e r s i o nm o d 幽( r d m ) ,b o - c l l 旺gw e i a n dn l a n - s h e n gt a n ge ta li n v e s t i g a t e d n o n l i n e a rr e p r o d u c t i v ed i s p e r s i o nm o d e l sw h i c hi sat y p eo fr d m f u r t h e r m o r e , n o n l i n e a rr e p r o d u c t i v ed i s p e r s i o nr a n d o me f f e c t sm o d e l s ,w h i c hi 8a l s o8 tk i n do f r d m ,a r es t u d i e db yw e n - z h u a nz h a n g o nt h eo t h e rh a n d ,x i - r uc h e ne ta l d i s c u s s e dt h es t r o n gc o n s i s t e n c yo ft h ep a r a m e t e re s t i m a t i o nf o rg e n e r a l i z e dt i n - e a rm o d e l sb a s e do ng e e b a s eo na b o v er e s e a r c hw o r k sa n dt h es k i l l su s e di n t h ef i r s tt w op a r t s ,t h i sd i s s e r t a t i o nd i s c u s 8 氆t h es t r o n gc o n s i s t e n c ya n dt h ec o n - v e r g e n c er a t eo fm l ef o rr e g r e s s i o nc o e f f i c i e n ti nr e p r o d u c t i v ed i s p e r s i o nl i n e a r m o d e l sw h i c ha n o t h e rt y p eo fr d m i nas p e c i a lc a s e ,w h e nt h el a t e n tr o o t so f t h ed e s i g nm a t r i x :1 五柳加h a v et h ep o s i t i v el o w e rb o u n d a r y , m l el e a d st o t h ec o n v e r g e n c er a t ew h i c hi st h e8 锄e8 8t h er a t ew h a tt h el a wo ft h ei t e r a t e d l o g a r i t h md e t e r m i n e d t h ec o n c l u s i o ni n d i c a t e st h a tt h ec o n v e r g e n c e r a t em a i n l y r e s t sw i t ht h em a g n i t u d eo ft h e8 m a l l e g te i g e 删u e 妇1 幽。“讹n 贼。仅,”啭 a r es i m i l a rt ot h er e s u l to ft h el e a s ts q u a r ee s t i m a t i o nf o rl i n e a rm o d e l s k e y w o r d s :h i e r a r c h i c a lg e n e r a l i z e dl i n e a rm o d e l s ;l ne s t i m a t o r s ;r a n d o me f - f e c t s ;t h el a r g es a m p l ep r o p e r t i e s ;m o n t ec a r l os i m u l a t i o n v 一 北京工业大学理学博士学位论文 表格目录 2 - 1 几种常见分布的联系函数1 4 当给定a 时,对l - n 估计的模拟结果- 5 1 当未给定口时,对l - n 估计的模拟结果5 2 对于p g 模型,原假设成立,拒绝次数比较5 6 对于p g 模型,两种方法的功效比较一5 7 对于p g 模型,两种方法的功效比较二 - 5 8 对模型1 的边际似然估计和拟l n 估计的模拟结果- 7 2 对模型2 的边际似然估计和拟l - n 估计的模拟结果7 3 当散度因子( x ;卢) 分别为2 和1 + t 时,对于癫痫病患者的数据 分析结果7 8 对于拟p - g 模型,原假设成立,拒绝次数比较 8 0 对于拟p g 模型,原假设成立,两种方法的功效比较8 1 一一 纰 “ 撕 u 弛 粥 “ 晰 图形目录 图形目录 2 1 给定a = 1 5 时,取p 的真值为o 5 5 3 2 - 2 未给定a 时,取q ,卢的真值分别为1 5 ,o 5 5 4 2 - 3真值口= o 5 时,l n 估计反的直方图5 9 3 - 1 完全数据,( x ;卢) = 2 7 6 3 - 2完全数据,( x 磊p ) = l + 蛳 。7 6 3 - 3 剔除两组数据且妒( x ;卢) = 2 刀 3 4 剔除两组数据且( x ;卢) = 1 + t 7 7 3 - 5完全数据时,模型4 的残差散点图 7 9 3 _ 6剔除两组数据后,模型4 的残差散点图 7 9 一i 一 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名 日期:釜呼! 五:堑 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名 导师签名:么丛日期:盖产 第1 章绪论 第1 章绪论 许多生物、医学、经济、管理、农业等领域的现象都可以用经典线性模型 来近似描述,但是,实际上很多研究人员发现在生物、医学、保险等领域中的许 多现象和事实是无法用经典线性模型来完全描述的,比如:在研究维他命a 的缺 乏对儿童健康的影响的试验中,假定共有5 0 名儿童参加试验,并且对每名儿童的 某一健康指标在三个月内共观察了3 0 次,可见,在这个试验中,不同儿童之间的 观测数据是独立的,但是对于同一个儿童,其3 0 个不同的观测数据之间可能是相 关的在实际工作中,这类数据是常见的此时,经典线性模型不再适用,即使可 以勉强描述,也会遇到许多方法论上的困难,因此许多专家和学者进一步提出并 研究了一些更广泛的模型本文旨在讨论相关数据分析的几类模型及其统计推 断为行文方便,我们先介绍几类模型的概念,而把与推断有关的内容,放在以后 各章首先介绍广义线性模型 1 1 广义线性模型 广义线性模型( g e n e r a l i z e dl i n e a rm o d e 】8 ,g l m ) 是经典线性模型的自然 推广,其名称最早是1 9 7 2 年由n e l d e r 和w e d d e r b u r n 在 g e n e r a l i z e dl i n e a r m o d e l s 1 1 1 一文中引进的其个别特例,特别是l o g i s t i c 模型、p r o b i t 模型等, 可追溯到1 9 2 0 年代 假设响应变量ma = 1 ,n ) 相互独立,记鼽0 = 1 ,n ) 为其相应的观 察值,a = 1 ,n ;j = 1 ,p ) 为第i 个观察值的第j 个协变量g l m 的 一般形式为: ( i ) m 服从指数族分布,其对数似然函数的形式为 l ( 挑;吼,) = 弘瓯一6 ( 反) ) n ( 妒) q - c ( 弘,) ; 一】一 北京工业大学理学博士学位论文 ( i i ) e ( m ) = 胁= 6 ( 哦) ,v a r ( y i ) 一d ( ) 6 ( 巩) 垒咖v ( 国; ( i i i ) g ( 以) = 名lz 玎岛,确定了响应变量k 中由x 解释的变异部分; 其中巩为典范参数( c a n o n i c a lp a r a m e t e r ) ,毋为散度参数,口( ) ,6 ( ) ,c ( ) 为某些特 定的函数,6 ) 和5 ) 分别表示b ( 0 i ) 关于0 i 求一阶和二阶导数,y ( 由为方差 函数,x 7 = ( z j ) 。,是已知的设计矩阵,p = ( 风,岛r 是待估的未知参数, g ( ) 是一严格单调的可微函数,称之为联系函数当9 ) = 0 i 时,称g ( ) 为典 范联系函数根据联系函数g ( - ) 的形式,可以把g l m 分为许多特定的模型,当 口“) 兰脾,且k “= 1 ,n ) 有独立的正态分布( 肚,口2 ) 时,上述模型就是经 典线性模型可见,经典线性模型与广义线性模型之间有密切的联系,前者是后 者的研究基础,后者是前者的自然推广无论是定量响应还是定性响应,g l m 都 有着与经典线性模型相似的分析方法,可以把g l m 看作回归模型的统一理论 下面给出一个g l m 的例子1 2 ,1 9 1 : 例1 1 1 医学家欲研究三种因素( 产妇剖腹是否事先计划,产妇是否服用 抗生素,产妇是否有危险因子( 如产妇高血压,糖尿病之类) ) 对“产妇剖腹产后 是否有感染”的影响情况在这个试验中,假设随机观察了n 位产妇,对于第 i ( i = l ,n ) 位产妇,用m 表示其响应变量,z t j ( i = 1 ,qj = 1 ,2 ,3 ) 表示 其协变向量,如下所示: m = 砌2 有感染, 无感染 ,服用抗生素, ,未服用抗生素 i1 ,剖腹事先未计划 o n = io ,剖腹事先计划 。 i1 ,有危险因子, 10 ,无危险因子 一2 一 第1 苹堵论 记丌= p ( k = 1 ) ,有( 对弘= 1 ,0 ) : p ( m = 雏) = 硭( 1 一丌 ) 1 一“, 对上式两边取对数,有 l o g i p ( y 2 洲= 汕点乩击, 可见巩= l o g 南( 则丌 = 南) 6 ) = 魄南= l o g ( 1 + e 巩) ,以) = l ,c ,) = 1 且 地) = 熹= 几( = 蹦) , 。p 以 6 ( 。南2 几( 1 一几) ( = y 甜( ) ) 记m = 麟,为了判断试验中所提的三种因素对“产后感染”发生概率 的影响,我们需要建立统计模型,可是在这个试验中,响应变量m 是属性变量, 地( o ,1 ) ,如果把m 直接表为一些协变量的线性组合知1 岛,显然是不合理 的,因为除非对岛0 = 1 ,2 ,3 ) 加以限制,否则( 釜1 霉酊岛) - o o ,c o ) ,但是只 要找到一个联系函数g :( o ,1 ) 一( 一。,c o ) ,则把g ) 表为1 岛的形式就 显得很自然在此,我们取联系函数为l o g i t 函数,即g ( 雎) = l o g ( 芒啬) ,并建立如 下广义线性模型 l o g ( 尚) = l o g ( 点) 。暑确 从这个模型出发,我们就可以对岛0 = 1 ,2 ,3 ) 进行统计推断,以判断所提的三种 因素对。产妇剖腹产后是否有感染”的影响情况 , 由上述可见,g l m 的“广义性”主要体现在嘲:其一,响应变量不限于正态 随机量,可以是服从指数族分布的随机量;其二,不要求响应变量y 与解释变量 x 之间存在线性关系,所谓线性性不是数据间的特性,而是由模型所确定的拟合 值的特性;其三,不要求方差为常数,方差可以是均值的函数;其四,参数卢的估 计同分布的具体形式无关;此外,在求参数p 的迭代过程中,允许把数据本身作 为初始估计值应该指出的是:除了经典线性模型外,g l m 在严格意义下都是非 一3 一 北京工业大学理学博士学位论文 线性的,利用“拟合值”变换,把非线性限制在联系函数和方差函数之中,保留了 对响应变量有贡献的线性成分,从而把那些不满足经典线性模型假定的数据分析 纳入g l m 的框架之中,这是g l m 的一个基本思想拟合值变换比其他数据变换 更优越之处是:通过联系函数产生可加性,而无需考虑数据是否服从或近似服从 正态分布 g l m 包含了许多有实用价值的模型,因而,g l m 一提出来即受到统计学界 很大的重视,其理论上的研究主要包含参数估计( 参见文献【3 8 l 等) 和模型检 验( 参见文献 9 1 5 j 等) 等在g l m 中,通常用m l e 估计作为参数p 的估计, 如果我们知道响应y 具有指数族分布,则可以用加权最j , - - 乘来获得回归参数 的m l e 1 1 然而,在实际应用中,我们常常不知道或难以确定响应y 的分布形 式,要想利用所收集的数据来估计响应y 的分布也是不切合实际的针对这一问 题,w e d d e r b u r n 1 8 提出了拟似然函数这一概念,有了它,即使没有l ,的确切分 布,只要知道y 的均值和方差之间的关系,就可以求得参数在广义g m 意义下 的最优估计由于确定y 的均值方差之间的关系相对容易,因而使拟似然成为一 种很实用的方法,它的提出大大刺激了g l m 的发展在g l m 中,模型检验要解 决的问题主要有两类:一类是从模型的整体角度出发,寻找数据拟合中存在的偏 差。也就是检验数据与模型中所作的假设是否相符,这方面的工作可以算作模型 诊断;另一类问题是如何把对拟合影响显著的个别( 或一小部分) 观测值分离出 来,然后对这些观测值的作用进行认真的研究,以决定是剔除还是改用“稳健” 方法建模以消除其影响,这方面的工作可以算作数据诊断 自1 9 7 0 年代以来,接下来的几十年里有许多研究人员都投身到对于广义线 性模型的研究中来,并逐渐形成了一套理论体系,1 9 8 3 年n e l d e r 和w e d d e r b u r n 出版了专著( g e n e r a l i z e dl i n e a rm o d e l s 【圳,并于1 9 8 9 出了第二版l i b 陈希孺 【l m q 对广义线性模型做了比较系统的介绍由于g l m 包含许多有实用价值的 模型以及它所具有的许多优良性质使得广义线性模型在生物医学、金融保险、 一4 一 第1 章绪论 工农业生产等领域中得到了广泛的应用,可参见文献【2 9 3 3 】等然而,在实际 中,我们有时候需要关心来源于纵向研究或分层设计结构中的数据的相依性和模 型的超散度性,这时,就需要将g l m 推广 1 2 广义线性混合模型 有时候,在某些领域,比如在生物医学试验中,为了反映不同观察对象之阋 的差异以及同一观察对象不同观测值之间的相依性,需要在模型中引入随机效 应带随机效应的模型不仅在生物医学领域而且在经济、工业等领域都得到了广 泛的应用,它是分析纵向数据的强有力的工具这类模型有时被称为潜变量模型 删 广义线性混合模型( g e n e r a l i z e dl i n e a rm i x e dm o d e l s ,g l m m ) 就是一类带 有随机效应的模型,它是广义线性模型的推广,即在g l m 的线性预测部分增加 了随机分量u ,u 不可观测,g l m m 的主要形式为 ( i ) y i u 的条件对数似然函数具有g l m 的形式; ( i i ) e ( y l u ) = ,v a r ( y i 呻= 咖y ( ) ( i i i ) 叼= 夕( ) = x 7 p + z 7 l ,专= 口( 钟= 2 7 一y ; ( i v ) t 服从正态分布; 其中y 为响应向量,x 7 ,6 ;r 分别是n p ,f l t ,n s 的模型矩阵,y ( ) 为方差函数,g 和q 为联系函数,妒为由散度参数构成的n n 的散度阵, t ,= t ,( 铒) ,口( ) 为t 的某严格单调的函数 广义线性混合模型在生物医学、临床试验等领域得到了一定的应用,可以用 它来描述纵向或重复测量设计中响应变量之间的相依性以及总体的异质性但是 在实际中,一方面,仅假定l j , 服从正态分布,往往不能准确的描述问题的特点,比 如:c h o y 等在分析火蜥蜴交配数据 1 8 1 时,发现用随机分量服从学生t 分布的模 型比用g l m m 中随机分量服从正态分布的模型拟合得更充分1 3 扣靼l ;另方面, 5 北京工业大学理学博士学位论文 模型中随机效应的存在使得计算边际似然函数更加复杂一般情况下都会涉及到 高维积分的计算,这样,从不同的方法论出发,很多方法被用来研究广义线性随机 效应模型参数估计的问题,主要有以下几种方法: 从贝叶斯的观点出发,z e g e r 和k a r i m 3 7 1 采用了g i b b s 抽样法,而g i b b s 抽 样需要从完全条件密度( t h ef u l lc o n d i t i o n a ld e n s i t y ) 中抽取样本,当完全条件密 度不是一个标准形式时,这种方法的计算强度非常大 从经典的方法出发,b r e s l o w 和c l a y t o n z 提出了罚拟似然法( p q l ) ,并指出 有些情况下罚拟似然估计会产生偏差;b r e s l o w 和l i n p 删基于偏差校正修正了 罚拟似然法,这种方法改进了罚拟似然估计的渐近行为,但却夸大了样本方差,而 且估计量的有效性也依赖于样本大小m c c u l l o c h 4 1 j 用蒙特卡罗e m ( m c e m ) 方 法研究了具有p r o b i t 联系的g l m m ,他把m c e m 方法推广到了l o 酏模型上并 且引入了蒙特卡罗n e w t o nr a p b s o n ( m c n r ) 法和模拟的极大似然法( s m l ) ( 4 2 | 然而,m c e m 和m c n r 的迭代不总是收敛到全局最大值;s m l 中的重要函 数( i m p o r t a n c ef u n c t i o n ) 可能与真实函数相距甚远,这增加了估计的困难性 这样,k u k 提出在s m l 和m c n r 方法中,采用拉普拉斯重要抽样( l a p l a c e i m p o r t a n c e8 锄盐n g ) 对于随机效应,他选择了一个正态重要函数,并且将均值 作为联合密度的极大值点,方差作为相应的信息阵k u k 和c h e n g “i 也提出了一 种函数方法,称为蒙特卡罗相对似然法( m o n t ec a r l or e l a t i v el i k e l i h o o d ,m c r l ) ; 他们还提出一种逐点法,即用m c n r 程序去逼近似然函数以获得g l m m 中的 极大似然估计然而,用函数方法计算相对似然时,需要一个确切的参考点( a p r o p e rr e f e r e n c ep o i n t ) 拍l 。这是很难选择的 此外,还有一些研究人员提出将贝叶斯方法和经典的方法结合起来c h i b 提出用g i b b s 输出量( o u t p u t ) 作为后验密度的标准化常数来计算边际似然, g i b b s 输出量的获得需要完全条件密度,但是完全条件密度不总是标准形式,这 时计算上就会很麻烦 一6 一 第1 章绪论 以上均是针对g l m m 中参数估计方法所傲的一些改进,但是每种方法都有 一定的局限性针对g l m m 以上两个方面的缺欠,l e e 和n e l d e r | 4 7 , - a s l 不仅提出 了一种新的模型类,而且还提出了一种新的估计方法 1 3 日广义线性模型 日广义线性模型( h i e r a r c h i c a lg e n e r a l i z e dl 咄叮m o d e l s ,h g l m ) 是由l e e 和n e l d e r l 4 7 “4 s j 提出来的,它是g l m m 的推广h g l m 和g l m m 的一个最主要 的区别就是,h g l m 中的随机分量u 可以服从任意分布事实上,h g l m 是包含 g l m m 的,其主要形式为 ( i ) y i 牡的条件对数似然函数具有g l m 的形式; ( i i ) e ( y l u ) = ,v a r ( y l u ) = 毋y ( ) ; ( i i i ) 竹= 9 ( ) = x 7 卢+ z 7 p ,= q ( 纠= g ,一y ; ( i v ) 仳服从任意分布; 以上符号所表示的意义同广义线性混合模型中一样 h g l m 的提出,受到广泛的关注,并在临床试验、卫生保健等领域得到了广 泛的应用 4 9 “5 ”h g l m 【艟】可以看做是广义线性模型【1 珥、具有固定效应和随机 效应的混合线性模型【5 2 l 以及l e e 和n e l d e r 用来分析质量改进实验中数据的结 构散度模型【跏叫三个模型类的合成l e e 和n e l d e r 4 7 j 于1 9 9 6 年在h g l m 中 还引入了日似然和调整p r o f i l e 日似然的概念,定义如下: ( 1 ) 用h 表示日似然,令 h = ? 0 ( 卢,咖;训口) + l l ( a ,t ,) ,( 1 1 ) 其中f 0 ( i b ,咖;训勘) 和l ( o t ,t ,) 分别表示毫,陋的联合条件对数密度函数和随机效应 口的联合对数密度函数 一7 一 北京工业大学理学博士学位论文 ( 2 ) 用h 表示调整p r o f i l e 日似然,令 h a 2 【 一i l o g d e 。畦d ( ,d ) r ) 地:占 ( 卜2 ) , 护d 2 、 其中扣( 即丁m 班l 翟两0 2 h l ,占表示最大日似然估计( 由最 i 护 j 丽丽 大化日似然所得到的估计) 事实上,( 1 ) 是h e n d e r s o n 5 s 的联合似然的推广,( 2 ) 是约束的极大似然的推广 此外,l e e 和n e l d e r 4 7 “4 s l 还提出了一种新的估计方法,即( 1 ) 给定散度部分, 用日似然来做关于固定效应和随机效应的统计推断;( 2 ) 给定固定效应和随机效 应,用调整p r o f i l e 日似然来做关于散度部分的统计推断;( 3 ) 以上两步循环至算 法收敛本文中,我们称其为l n 法l - n 方法最大的优点就是不需要计算积分 然而,l e e 和n e l d e r 4 7 “柏 只给出了其框架,理论上的研究尚不完善截至目前为 止,仍未见对其理论上的研究的报道,在第二章和第三章中,我们对l - n 法做了 部分理论和模拟的研究,通过研究得到了一些国内外文献中未曾见报道的关于此 类模型的新结果,充实和发展了h g l m 的理论 1 4 再生散度模型 再生散度模型( r e p r o d u c t i v ed i s p e r s i o nm o d e l 8 ,r d m ) 是一类较指数族分 布更为广泛的分布族,它是由j o r g e n s e n 醐1 提出的,该模型包含许多常见的分布 族比如指数族分布、正态分布等 假设( 戤,弘) “= 1 ,n ) 为n 个相互独立的数据观察点,则r d m 的主要 形式为 弘一r d m ( 似,a r 2 ) ,( 1 3 ) 琅= 9 “) = ,( 戤,卢) , 一8 二 ( 1 4 ) 第1 苹绪论 其中胁为位置参数( 未必为均值) ,口2 是已知的或可估的散度参数;g 为联系函 数,是一个连续可微的函数;戤= 慨l ,钯,z 咖) 7 西 o ,v 啦 胁,并且关于;肫) 在c 0 上是三次连续可导的,i = 1 ,仉 当,为线性函数时,由( 1 - 3 ) 一( 1 5 ) 式所定义的模型为再生散度线性模型;当 f 为非线性函数时,由( 1 - 3 ) 一( 1 5 ) 式所定义的模型为非线性再生散度模型;进一 步,如果将( 1 - 5 ) 式写成 啦= g ( m ) = ,( 戤,卢) + 刃耽,a = 1 ,n ) ( 1 6 ) 其中z i 为n 1 的设计向量,地为对应第i 个数据的随机效应当,为线性函数 时,则由( 1 - 3 ) 、( 1 - 5 ) 和( 1 - 6 ) 式定义的模型为再生散度随机效应模型;当,为非 线性函数时,则由( 1 - 3 ) 、( 1 - 5 ) 和( 1 6 ) 式定义的模型为非线性再生散度随机效 应模型 如果取,( 戤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年母婴保健法培训试题(附答案)
- 全检知识培训课件
- 幼儿园音乐特色活动方案
- 太阳能系统安装施工方案
- 二零二五年度运河物流用人单位员工权益保障合同
- 二零二五年度网络平台廉洁协议及合同附件
- 2025版分公司合作经营虚拟现实技术应用协议书样本
- 离婚协议书起草2025版夫妻共同财产分割与子女抚养权处理
- 二零二五年度房地产开发项目节能建筑材料采购合同
- 二零二五年度租赁合同签订前应检查的房产信息
- 220kV变电站土建工程项目管理实施规划(第二版)
- 《计算机网络技术》(第三版)教学指南
- 专门为聋哑人的语文教案
- 汽车租赁操作规程及驾驶员安全培训考核
- 肉豆蔻丸的基于人工智能的药效预测
- 《复发性流产诊治专家共识2022》解读
- GB/T 23862-2024文物包装与运输规范
- 全国中小学“学宪法、讲宪法”知识素养竞赛题库及答案
- 8月15日日本无条件投降日铭记历史吾辈自强爱国课件
- 物理初中人教版八年级下册期末综合测试试卷(比较难)及解析
- SYT 7305-2021 连续油管作业技术规程-PDF解密
评论
0/150
提交评论