(概率论与数理统计专业论文)多项响应病例对照族数据的研究.pdf_第1页
(概率论与数理统计专业论文)多项响应病例对照族数据的研究.pdf_第2页
(概率论与数理统计专业论文)多项响应病例对照族数据的研究.pdf_第3页
(概率论与数理统计专业论文)多项响应病例对照族数据的研究.pdf_第4页
(概率论与数理统计专业论文)多项响应病例对照族数据的研究.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 本文主要内容是用病例对照研究的方法探索患病情况( 响应变量) 和风 险因素( 协变量) 之间的关系病例对照研究又叫回顾性研究,首先研究人员 在病例组和对照组中抽取独立随机的样本,然后调查样本的协变量,用这些数 据建立预测模型在选取研究对象时,为节省资源,研究人员通常用分层二阶 段抽样代替简单抽样比如有些协变量花费较少就可以得到它们的信息,在第 一阶段,我们可以调查每个研究对象的这些协变量,然后根据这些协变量的信 息进行分层在第二阶段,从每一层抽取少量的子样本,再调查子样本的其它 较昂贵的信息在进行病例- x c n 研究时,l o g i s t i c 回归模型是被普遍采用的 模型,因为l o g i s t i c 回归模型可以用回顾性数据来研究前瞻性模型,这一特性 是其它模型所不具有的 最初研究人员选取独立个体为研究对象,个体之间没有任何关系;后来考 虑到某些疾病具有一定的遗传因素,即患病风险在家庭( 族) 内部具有一定的 相关关系,因此在进行统计分析时,研究人员往往搜集来自家庭( 族) 内部的信 息,将一个家庭的数据放在一起,并在模型中加入来自家庭的随机效应,来研 究成员之间的联系以及响应变量和遗传因素之间的关系 事实上,像癌症或其它一些流行病的病情是分级别且有序的,如:无病、 较轻、严重、很严重等等,本文着重对多项且有序响应变量的病例对照家庭 数据进行统计分析引入分层抽样的方法,给出了在分层抽样样本下的偏似然 分析方法,并证明了所给分析方法与原抽样方案下似然方法的等价性,从而避 免了协变量的边际分布最后,用模拟的方法考察了所得参数估计在有限样本 下的效果 关键词:病例一对照研究;l o g i s t i c 回归模型;极大似然;伪似然;多项响应; 家庭数据;累积概率 a b s t r a c t i i i i ie li i i i i i i u i_ i m m m l a b s t r a c t t h em a i nc o n t e n to f t h i st h e s i si sa b o u tt h ea p p l i c a t i o no f c a s e c o n t r o ls t u d yo n e x p l o r i n gt h ea s s o c i a t i o nb e t w e e nd i s e a s e ( r e s p o n s e ) a n dr i s kf a c t o r s ( c o v a r i a t e s ) c a s e c o n t r o ls t u d yb e l o n g st or e t r o s p e c t i v es t u d y f i r s ti n v e s t i g a t o r sc h o o s ei n d e p e n d e n t r a n d o ms a m p l e sf r o mc a s eg r o u pa n dc o n t r o lg r o u p ,t h e no b s e r v et h ec o v a r i a t e so f t h e s es a m p l e s ,a tl a s tc o n s t r u s ta p r o s p e c t i v em o d e lb yt h e s ed a t a 。i no r d e rt os a v er e s o u r c e ,i n v e s t i g a t o r sa l w a y su s es t r a t i f i e dt w o - s t a g es a m p l i n gm e t h o d 。s u p p o s et h a t w eh a v eas e to f d i s c r e t ec o v a r i a t e su p o nw h i c hi n f o r m a t i o nc a nb eo b t a i n e dc h e a p l y i t m a y b ep o s s i b l et or u nal a r g es t u d yi nw h i c ht h er e s p o n s e sa n dm e a s u r e m e n t so n t h ec h e a pc o v a r i a t e sa r eo b t a i n e df o re v e r ys u b j e c t 。t h ec o m b i n a t i o n so fl e v e l so f t h e s ec o v a r i a t e st h e nd e f i n et h es t r a t a 。a tt h es e c o n ds t a g e ,c a s e c o n t r o ls u b s a m p i n g o fs m a ll e rn u m b e r so fi n d i v i d u a l si su n d e r t a k e nw i t h i ns t r a t at oo b t a i ni n f o r m a t i o n a b o u tt h er e m a i n i n gm o r ee x p e n s i v ec o v a r i a t e s l o g i s t i cr e g r e s s i o nm o d e li sp o p u l a ru s e di nc a s e - c o n t r o ls t u d y , b e c a u s e l o g i s t i cr e g r e s s i o nm o d e lh a sas p e c i a lf e a t u r e t h a tw ec a nu s ei tt os t u d yt h ep r o s p e c t i v em o d e lw i t hc a s e c o n t r o ld a t a 。 a tf i r s t ,i n v e s t i g a t o r sc h o o s ei n d e p e n d e n ti n d i v i d u a l s ,t h e r ea r en oc o n n e c t i o n b e t w e e nt h e m 。t oe x a m i n et h er o l eo f g e n e t i c sa n de n v i r o n m e n t ,i th a sb e c o m ei n c r e s i n g l yc o m m o nl b ri n v e s t i g a t o r st oc o l l e c ti n f o r m a t i o nf r o mf a m il ym e m b e r s i nf a c t ,t h es t a t u so f c a n c e r so rs o m ee p i d e m i c sa r em u l t i l e v e la n do r d i n a l ,s u c h a sn o ,l e s s ,s e v e r e ,m o r es e v e r ee t c s ot h i st h e s i sa d o p t ss t r a t i f i e ds a m p l i n gm e t h o d a n dp r o f i l em e t h o dt os t u d yo r d i n a lm u l t i r e s p o n s ec a s e c o n t r o lf a m i l yd a t a f u t h e r w ep r o v et h ee q u i v a l e n c eo f t h i sm e t h o da n dm a x i m u mm e t h o d ,t h e nt h ed i s t r i b u t i o n o f c o v a r i a t e si sa v o i d a tl a s tt h ee f f e c to f e s t i m a t e sa r et e s tb ys i m u l a t i o n 北京 、比大学理学硕士学位论文 k e y w o r d s :c a s e c o n t r o ls t u d y :l o g i s t i cm o d e l ;m a x i m u ml i k e l i h o o d ;p s e u d ol i k e l i h o o d :a c c u l l l u l a t ep r o b a b i l i t y ;m u l t i r e s p o n s e ;f a m i l yd a t a i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示了谢意 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 签名:一墨垦煎导师签名: 易缈k 上 第l 章绪论 第1 章绪论 本章主要包括以下内容:首先介绍病铡一对照研究的其体方法帮麓 计机率比的应用,因为病例一对照研究大都采用l o g i s t i c 回归模型,为方 便说臻闻题起览,接下来给出凡种常黑的联系函数,并谩麓其中l o g i s t i c 回归模型最适合病例一对照数据的研究,在此基础上再介绍病例一对照研 究的背景及发展状况,最詹提出本文的尽的程采用酶方法。 1 1 病例一对照研究 众所周知统计知识在很多领域都有广泛的应用,如医学、农妲、经 济、社会等,尤其是在医学方面,有很重要的作用医学统计是以医学 为指导,用统计学方法研究医学,侧重予对医学数据的搜集、整理与分 析的一门应用学科而研究疾病和风险因素之间的关系,又是一个主要 方向研究的方法有很多,主要分为两种:前瞻性研究和回顾性研究, 两者是研究可疑性病因对疾病发生的影响及其程度的不同方案在前瞻 性研究中,从人群中随机擒取样本之后,把研究对象分成两组,强让其 中一组暴露于可疑病因之下,然后跟踪调查,比较两组的发病率;而在 圈顾性研究中,把抽取的样本按患病者和菲患病者分成两组( 这里以简 单情况为例) ,然后调查他们以前暴露于可疑病因的情况前瞻性研究需 要的时问长并且需要的费用多,尤其是当一种病很罕见时,跟踪漏查二 十年,甚至更多,也未必能发现病例由于回顾性研究有针对性,所以 它的效率就比较高、花费较少,但也有不足之处:其模型复杂、参数不 容易估计。 病例一对照研究就属于回顾性研究,它是选择一组能代表昕研究疾病 特征的患者作为病例组,同时选择一组未患该病但与病例组肯可比性的 个体作为对照组;用同样的方法调查两组对象过去有无暴露f 莱种( 些) 北京工业大学理学硕士学位论文 可疑病因的历史及其暴露程度;通过分析比较两组对象的暴露吏的差别 有无统计学显著性意义,来推断暴露因素作为病因的i i 丁能性病例的来 源有两个方面,一个是人群中所有的病例,这样代表性最好,但工作量太 大,可采取分层随机抽样,如考虑地区分布因素对疾病发生的影响,可 以从不同地区抽样或随机抽样;另一个是参加研究的医院中的的患者, 如个别医院中诊断的所有病例而非病例来源可以是同一人群中随机抽 样的样本,或与病人居住在同一街区或邻居的居民 病例对照数据最初用来估计患病机率比假设我们研究的某种疾病 有r 种状态,令d = i 表示患者处于第i 种状态,d = 0 表示没有得病, 协变量向量z = ( z 。,) 包含所关心的暴露因素以及其它与疾病有关 的辅助因素用p r ( d = 引z ) 记在给定z 的条件下患者处于第i 种状态的概 率,在前瞻性研究中因为从p r ( d x ) 中抽取样本,可以直接得到p r ( p l x ) 的估计和估计的性质但由我们上边的介绍,病例- 对照研究是从p r ( 了id ) 中抽取样本,问题在于p r ( z d ) 不能完全决定p r ( d l x ) ,完整的前瞻性模型 不能仅由病例对照的数据得到但我们能够得到机率比的估计,在分 别给定z ,z o 的条件下,d = i 的机率比记作 p r ( d = i l z ) p r ( d = o l z ) ) p r ( d = i l x o ) p r ( d = o ) 。 ( 1 1 1 ) 其中i = 1 ,如果患上这种病的概率非常小,那么p r ( d = o l x ) ,p r ( d = o l x o ) 都近似等于l ,所以( 1 1 1 ) 式就近似等于p r ( d = i l x ) p r ( d = i l z o ) ,称 其为相对危险比令p r ( d ) 和p r ( x ) 表示总体的边际慨率,则有 p r ( d l x ) = p r ( 2 :l d ) p r ( d ) p r ( x )( 1 1 2 ) 把( 1 1 2 ) 式代入( 1 1 1 ) 式中,机率比就为下式 p r ( i d = i ) p r ( z o l d = i ) ) p r ( x l d = 0 ) p r ( x o i d = 0 ) - 1 2 第l 章缝沧 其中i = 王,由此可见,用病例对照数据可以得到机率比( 1 1 1 的 估计 p r e n t i c e ( 19 7 6 ) 就是用病例一对照数据来估计机率比,m a n t e l 和h a e n s z e l ( 1 9 5 9 ) 的研究也是这种方法的一种特例。作l 是如果协变量有多个,或 者是连续的,那么回顾性模型就包含大量参数,不容易分析这时想很 好地利用病例一对照数据就需要建立p r ( d i m ) 关于p r ( x l d ) 的模型,下面一 节我们就来看符合要求的一种模型,那就是l o g i s t i c 回归模毽。 重2l o g i s t i c 回归模型 我们先来了解一下联系函数的概念在研究7 r ( 响应变量取某一值的 概率) 黧协变量向量z ,。爷) 的关系时,很重要的一点是建立一个形 式模型,使碍它能反映出协变量向量的变化对响应概率的影响。在实际 中,这种形式模型往往加上前提条件,比如:独立性、没有截距项,线性 性质等等,但这些条件不是理所当然的,如有可能需要进行验证,进一 步说,这些模型的性质应该和已知的物理学,生物学、数学上的定律相 一致,尤其是他们的极限性质 显然线性模型在实际应用和理论工作中都扮有很重要的角色,这也 有很合理的解释,所以我们一般假没万对( z r 一,) 的依赖要逶过下面 一个线性组合; ( 1 2 圭) 其中叼为7 r 的函数,p l ,岛是未知系数,如果p 没有条件限制,我 们有一o o 7 7 ( 筹) m 焉 ( n + 一钕斗) l ( m l 一扎;1 ) ! ( 肌j 一亿i ,) !垂( 喝, ( 筹) 粕焉 = h 簖n ! n i + ! 魄百1 ( 筹) 啊渺 ( 筹) m 懈g t + 其中求和符号是对所有满足m l 十十m j = m + ,m j n i j 的求 和,满足约束p i j p + j p r ( y = i l z j ;p ) ,我们可以对p r ( y = i l z j ;0 ) 建立 模型,比如l o g i s t i c 模型s c o t t ,w i l d 就是对模型参数化,然后对参数进行 嘏大似然估计。这种方法分析起来筒单,僵含有。歹一1 个冗余参数。根据 啜叶馨公式我们可以把( 2 。1 2 ) 化为 ! 。( nnp t ( 巧) “u ) n h + ( 2 1 3 ) 。( nn 局( 咿- 1 np r ( z ) ) 兀q ,“十, ( 2 1 4 ) 蕊中只( 一p r ( y = i l x j ;目) ,q i p r ( y = i ) ,p r 足f7 ) 一p r ( ,f ,l y i ) ,p r ( x ) 是 济变量上的无条件分布令岛一p r ( x a6 = fr i l 一一,) r 口= ( q 1 ,q ,) 丁 叛然丞数2 。1 4 ) 就化为( 0 ,毋,q ) 的函数,这些参数之闻誊是独立的,它们 j n 川 ,n 训 m川 + 可# ,n 烈 ,n 纠 一“篓i ,黼 了n 硝 ,fl ;n 淄 北京工业大学理学硕士学位论文 满足约束条l 牛 q i = p r o 一i ) = 蹦拶) 岛( 江1 ,n q ,= i 在这些约束条件1 f ,电( 2 。l 。4 ) 得到的带有拉格朗e t 因子的对数似然函数 为 l ( o ,舞q a ,露) 一n i ,l o g 岛( 移) 十e ? t + jl o g 毒j + ( a ? 一捣) l o gq , + 气( 承嘞毛) + 7 7 ( 承一1 ) h s i e he ta 1 1 9 8 5 ) 把0 看成固定的,然震考虑o l 0 6 j 一;io l o q , 一0 在 a r a 6 = 0 ,o l o q 一0 ,a l i a ;, 一0 和a l a n 一0 的约束条件下,得到 如= , m 心( 拶) ) 其中玩意+ 1 ( m 一吼) ( g ) 把这些带入三,就得到 己一e 卜c ,o n s t + 妻妻n o l o g 芝 溉p 忍, l p t if 妻e 越十一研g 统一善i t 。 ( 2 2 5 ) 通过解0 己,晰。o o 一0 和a 己一。o q 嚣0 就可以得到0 和q 的极大似然估 计w i l d ( 19 9 1 ) 在此基础上进行参数变换,令p 然( p 1 _ 一p t - i ) r 其中 e 痧= q j q ;从丽对于i j :,= _ l l y 7 帆 “ p n 川 ,j、l ,n s 兀删 , 乩 z i | y r pg o 同 ,s 州 = d v己 第3 章 家庭数据的病例一对照研究 第3 章家庭数据的病例对照研究 家庭成员之间的联系和随机效应的影响是人f 1 所关心的问题,所以 我们对这方面的工作做进一步研究本章先介留 + 下基本理论,然后分 析累积概率模型 3 1 基本理论 假设协变量y 取多项 萱,y = k 。奄一l ,n 分别表示患者处于不 同的病情级别。令k l ,置,分别代表第i 个家庭中第j ;个成员的响应变量 和协变量,我们所关心的是在给定义,= ( 丁小r m ) 的条件下,家庭成 员的联合分布m = ( m 1 j 一,k 帆) ,即p r o i l x i ) 一( 训x i ;疗) 在回顾性研究 中,考虑分层抽样,把整个人群依照响应变量y 分为s 1 - s l 层,从s 层中抽取瓴个家庭样本p f ,z = l ,然后观测相应的( 爹,。y ) 值,得到 的数据为( y t 窜,置碍,qgd r ;l = l ,乞) ,建立似然丞数鳃下 ll 、 l ( o ,夕) = np ( d i ) p r ( y 蛳x 如l s z ) 一n , 坍j l x ;e ) g ( x ,j ) q z p ( d f ) l - - - - - 1 q e d t,= 1 譬d i 。 其中g ( x ) 表示x 的边际分布密度, q 严q 朋,g ) 一f f ( y l x ;臼) j ,( x ) d x 磊| o 表示一个家庭属于魏层的概率因为q = q “黟。g ) 中既包含毋又包含 g ,不能把9 和箩分开,所以和一般的病例一对照研究一样,g ( x ) 就成 了冗余参数,有可能是无限维的n e u h a u s ( 2 0 0 2 ) 用半参数的方法进行 分析,即把x 的分布看成非参数的,然后把肴固定,裆:所有可能 的取值中,令l o gl ( o ,g ) 取最大值,得到p r o f i l e 对数似然函数l e ( o ) ,即 i p ( 拶) 一s u p r j l o g ( l ( o ,9 ) ) h i r o s e ( 2 0 0 5 ) 蕾 :锈极大化如( 痧) 得到的参数的估计 秘宙半参数的方法得到的性质柜蔫。 17 北京工业大学理学硕士学位论文 但一般情况下,我们又得不到2 | p ( p ) 的具体表达式,不过可以把问 题简化,用另外一个似然函数来代替真正的似然函数,并且它和真正的 似然函数有相同的p r o f i l e 采用如下新的抽样方案:如果一个家庭落入 s ,f = 1 ,l 层中,就以丌f 的概率把该家庭抽为样本,根据贝叶斯公 式,我们得到在给定x ,s 后能够观测到y 的条件概率 八眦帅) = 麦 i y e s , 令u = ( 0 3 1 ,u l 一1 ) 其中0 , 3 1 = l o g 老,那么似然函数就为 z ( 口,u ) = l l o g ( f + ( y l q 臼,7 r ) ) + l o gp ( d f ) l l ! ,d t 下面我们来证明在简单抽样的情况下得到的p r o f i l e 似然函数( 仅含有l 一1 个冗余参数) 和真正的p r o f i l e 似然函数相同,即 s u p 9l o g ( l ( o ,夕) ) = s u p , f l + ( 臼,u ) 证明:如果z 是连续的,可以只考虑所有能够观测到的值,所以只证 z 是离散的情况,首先说明一些符号和假设:z 可取值z 。( t = 1 ,t ) ,因 为根据响应变量! ;来分层,a 层中y 取值( q ) ( r f = 1 ,r ) 当从s 层中 抽取吼个家庭时,我们观测到t t i 州个( y = ( ,x = x t ) ,用+ 号表示对下 标求和,记t t i = l l i + + ,几= n + + + 得到在这些假设条件下的似然函数为 l ( o ,6 ) = nnn ( r r ,c 引唧) 其中r r f f = p r ( y = 可( ”c ) i x = z s ) ,也= p r ( x 。) 为z 的边际分布对数似然 函数为 18 枷 川 m 3 0 d聊 双 bn , 一 以g b “肌 。 + g b亿 。 n , | i 即 第: 章家庭数据的病例一对照研究 令上式对文求导,并令其等于零,对约束条件( i ,= 1 引进拉格朗日因 子r 7 ,得到 rp 百l l - t - u r l 一1 n 蠡1a 丽i l n l t 州= ( ) 两边都乘以6 ,在对所有的f 求和,得到 即 n 州一 f 瓯n f 户2 m f - + 俩= 0 r m f d 以。午吖w ,n ,d 只,n 。c 瓯 一p 嚣丽蜘= o 得到7 7 = 0 ,代入( 3 1 2 ) 得 其中 忙鼍= ;恤霞r a i 甄两 t r l ,n n + 斗t p f r 。t f m l 7 “ 胁。e 磊而厶厶1z q d ”d m ,d 把瓯的表达式代到肛,中,就得到 即 p - 2 p + t 赢z ( 3 i 2 ) ( 3 i 3 ) ( 3 1 4 ) ( 3 15 ) ( 3 + lg ) , , 帅 北京工业大学理学硕士学位论文 记n + + cr = t r l i 仇,其中 = 霞# 甄lflm瓦t l h l 、 上式对应于新抽样方案下的 九舭汜巾麦j厶厶“l fo ,”, i y 6 s , ( :;1 7 ) 把( 3 i 3 ) 代入到( 3 i 1 ) 中,利用( 3 i 5 ) ,( 3 i 6 ) ,( 3 i 7 ) 的表达形式,忽略常 数项不计,得到下面表达式 知( 日) f f t 。l r t t1 。g 局r f 况一n ll o g ( r m d 以) l m l d 吼r l l o gr n n + + 弘,l p h f 。,一吼l o g ( d 如) f r n ld 1 0 9 只l + r t t p b 鲫r p ,。g 鬲1 1 4 ( 0 ,肛) 由( 3 1 6 ) 式,可以得到 掣o 型锄一# _ _ 一2 7 m 一夕夕 t 。“。- 一 h j l = 0 、 ,n z 夕,n ll o g 一 7 肌 即有s , q , f l ( o ,6 ) = s u p 肛2 ( p ,弘) ,这里的肛f 相当于在本章研究的新的抽样方 案下的7 1 l ,极大化丌f 和极大化瓯是一致的,问题得证令9 = ( 0 丁,u 丁) 7 ,由 2 0 。 丌n 一挑 丝 一 饼 。 q , i i 。 n 。 彘 r p 丝一 + 第: 章家庭数拱的病例一对照研究 两个p r o t i l e 似然丞数的等价性,可以通过极大化z + ( 多) 得到鹩极大似然 估计易,即把z f ) 擞作似然函数,来解伪计分方程: s + ( 咖) :掣:( ) 0 ,是的部分,这襻就可以得到参数0 的极大似然估计 下面给出9 + ( 驴) 的一些性质和其证明过程: ( i ) s 多) 服从渐近正态分布; ( i i ) e s 4 ( 咖) ) = o ; o n ) c o v s 4 ( ) = ( 参) 一夕( ) ( 3 ) 夕+ ( ) , 其中+ ( 咖) = e + ( 咖) ) ,夕+ ( 咖) 一一淼,凡为( l 1 ) ( l 一1 ) 矩阵, 对角线上第l 拿元素为( 瓣f 1 + n z l ) ,菲对角线上元素为n z ,矩阵( o o0 7 ) 中 左上角0 表示p p 矩阵,p 为参数0 的维数 证稿:( 1 ) 把s + ( 纠改写为s 4 ( 咖) = 髫( ) ,其中 ) = 丝攀炉 j e d t 在薪的分层抽样方案下,s + ( ) - 7 以看成独立同分布随机变量的糯,所 以对于l 一1 ,l 当n l 州时,s + ( 咖) 有渐近正态分布 ( i i ) 定义歹 e 0 ) = f ( y l x ;毋) ,表示在给定x 一髫的条箨下,个涔落 入s 层的条件概率,由( 3 l 4 ) 式: 肌2 ,1 1 4 丽,有 肌2 瓦煮面( p 1 p 7y b t ) i ) 在新的抽样方案下, 甜蹦硼= 妻蜀( s ) 一l 瓢隔产坐学盟 i = 1f :1 7 北京工业大学理学硕士学位论文 具甲巴f i ) 衣不仕绢疋y 6 f 明氽仟卜,珂【y :人) 明耳天苜竹伸水明型- 三亩 合( p 1 ) 式和( 3 1 7 ) 式有: 印俐= l 响 丝掣 = 参丽半等等犯c x , = 参志学瓣阳c x , :l 型案业肥州g ( x ) 手a 咖么r ”r 7 = 喜1 薹s 掣) d g c x , 。 t = 1 f = l 掣= 。 ( 删 f _ 11 ,岛 7 e 喜丢高等) = ( ) (三薹l三翌!竺墨;譬掣茎j鱼!:)c尸3,= p 岛( 塑掣 丝掣 ) 一 2 2 第:;章家庭数据的痫例一时照研究 因此 c 川- s ( ) ) = 缸洲,f 型警型 = 纠西 掣等h 掣h 等) 一釜局 掣m 垒铲) 要证明( i i i ) ,只要证明 删一1 套局 掣h 等h 圹1 = ( :曙) c 删 利用表达式( p 1 ) ,( p 3 ) ,+ ( 咖) 就可以写为 ( x ;0 t z ) a 、( i 义:妒) o f + ( y l x ;) f ( y l x ;驴)d 妒a 咖r ( p 5 ) 其中h ( x ;0 ,肛) = e 地只( x ;臼) ,e x ( ) 表示对x 的分布求期望,同样道理, i ( p 4 ) 中间项可写为 毒去取 薹 c x ;帅,半) 取 丢纵x ;帅,半) 丁 当s ,令广对屿求导有 掣吖( i x ;州驴c ( x ;伽 a u i 。、f7o ”j y 其中 耳( x ;o , w ) = 器 u f2l o g 老,如f 表示示性函数,结合( p 2 ) 就得到夕r + 的第( p + - f ) 列为 联 垲肛) 掣掣) j 小, y e s 2j rcl x e 间 l = 纠 珍 北京工业大学理学硕士学位论文 因此+ ( 咖) _ 1e x ( 人;0 t l ) o j 、d 9 ) = e p + l ,其中,e j = ( 0 :,1 ,o ) 丁 是第。j 个, 2 置的示性向照,再利用( p 2 ) 得到 取 轰 c x ;帅,掣) = 一善取 薹 c x ;,掣) 把以上结合起来就得到( p 4 ) 把s ( 西) 在咖点泰勒展开,得到 c d t ,( $ ) = + ( 咖) 一1 c o v ( s ) + ( 咖) 一1 = + ( ) 一1 一( o0 k t ) 0 的渐近方差为矽渐近方差的一部分 3 2 累积概率模型 上一节研究了多项响应情况下y = i 的概率,从本质上讲,如果要 得到有效的结论,这些结论不应受到响应变量取值个数的影响,即如果 把相邻的取值合并,结论形式不会受到影响,在这一思想下我们来研究 累积概率模型,这种模型适用于响应变量y 的取值是有序的情况这一 节中仍考虑家庭数据,响应变量y 有k 种取值依照响应变量y 分为 s 1 ,一,既层,并且加入来自家庭的随机效应b ,b n ( 0 ,0 - 2 ) ,其中仃2 未 知令p r ( y k l x ) 表示在给定z 的条件下包括忌在内的累积概率,建立 l o g i s t i c 模型如下: p r ( 可忌i z ,6 ) = t 季芝i 篆丢端,七= ,k 一1 其中q ,都是未知的,且q 满足q 1 n 2 q k 一1 这一模型的好处 是:当七变化时,模型中协变量的系数p 不变,只有常数项q 变化由累 积概率可以得到 p r c 可= 七i z ,6 ) = i 芋笔三; 舌三鹅一i _ ;i 兰s 乏;昙三黼 七= 1 k 一1 2 4 第3 章家庭数据的病例一对照研究 p r ( 可叫啪h 一蔫i 警l 南 辟l 鲥= ( 1 一,咄,) ,x j = ( j :1 ,一:,:。,) 表示第l 应第,个家庭的观测数 据,其中q i 表示第i 个家庭中的成员个数,那么第,个家庭的条件概率如 下: 尸( ! 1 = k 1 ,鲥m = k q ,峨o 臼) 夸 = 尸( 1 = 屉l ,:吼= k q , l z :。,一z 1 ,l ; :6 t ) r f ( 6 t ) = 鱼蹦叫z 弘k 口) 去r 喜以 = rn 缸l 啪io ;) 一p r ( 鸱冬( 如_ 1 ) ) l z 铷) 去e 一 考虑蟊i 一,角。中有t t 个取凡,t i 吼,其它取值范围从1 到k l ,不妨把 取k 的t i 个成员排在前边,那么上式就为 = 二互鱼 ,一舞一书,奥。 舞一 1 x p ( a k j 一1 一j ? 丁z 。j + 扫i ) 1 + e x l ) ( c a 幻一1 一p ,上巧+ 仉) 去厂瓤 ( 3 2 1 ) 由上一节可知,一般抽样方案下的似然函数是不容易得到的,所以直接 考虑新的抽样方案,即如果一个家庭落入第s 层的话,以丌f 的概率把它 抽为予样本,直到岛层中含有佗f 个家庭,设为样本d f ,得到 州i x ;h ;r ) = 最第貉j 万 hy e s 其中j f u l x ;鳓的表达式如( 3 2 1 ) 式同样进行参数变换,令6 = ( 6 】一,5 l 一1 ) , 2 5 北京工、l 匕大学理学硕士学位论文 6 ,= l o g 老,对数似然g i 数为: 通过解 h , g p + ( 可弘幺0 ,丌) s + ( ) = 丽o l * = 。 得到参数估计进一步,由上一节基本理论可以得到s + 的渐近性质,在 c o v ( s + ) 的表达式中矩阵( 8 眨) 左上角0 为p + 1 维矩阵 在具体计算中,需对p ( y l z ;0 ) 做g a u s s - h e r m i t e 变换,利用公式 薹,c u ,e u 2 d 钆善m a t ,c u c , 查表可得g a u s s h e r m i t e 积分节点和积分系数,一般取m = 3 下边令 h = 老,则b i = 讵仃d b t - v d u 得到 其中 r n :l 口, n j = ,+ 1 e x p ( a 一1 一p 丁z i 。+ v 2 。o t )1 l + e x p ( a k 一1 一p 丁x i 。+ 、2 仃u ) j e x p ( a k 一, e r z i ,+ 以俐) 1 + e x p ( a k j 一7 1 z 巧+ v - 2 a v ) 2 6 m l = ,。np ud e “= , 厂 土万 l | pz 可 尸 一 1 l ,、l “ 一叫怒 十i 鱼矿 l 一 生 型懈 第3 章家庭数据的病例一对照研究 那么尸( i z :p ) 2 击三a 1 ( ) 就有: 丌,击钏( ) p ( y l z ;n 丌) = 生_ f 一 丌 击a , f ( a t ) h h = 1 ,l 丌f 二l f ,( 札,) “a t f ( u t ) h 可s f - 1 3 3 模拟 为考察估计的效果,下面对累积慨率模型 p r ( y 七l z ,6 ) = r 芋笔三笔妾乏三端,厅= ,k 一1 , 和半参数的方法进行模拟设样本量为 ,k = 4 ( 即响应变量有四种取值) , 每个家庭人数为4 ,协变量取0 ,l 两个值,0 表示没有暴露于危险因素之 下,1 表示暴露于危险因素之下根据响应变量分层,依据是:如果一个 家庭中所有响应变量值都小于3 ,就把这样的家庭分入第一层,其余的为 第二层进行再抽样时,设第一层抽洋率为丌,第二层抽样率为7 r 2 ,协变 量系数p 是所关心的参数 表( 1 ) ,7 = 1 5 ,盯= ( j 1 丌l = 吾i 7 1 2 = ; 讫 8 i r i a , s ( 。7 )s e ( t 3 ) 5 0 0 1 7 0 2 0一0 2 0 2 00 2 5 2 5 l0 0 01 6 8 3 6一o 1 8 3 60 2 2 3 1 2 7 北京工业大学理学硕e 学位论文 表( 2 ) 胪= 1 5 ,口= ( j 1 ,汀l = 再2 ,7 1 2 = 珏 8b i a :- i ff 亨 s e ( z ) 5 0 0l 。6 0 2 7一o 10 2 7o 1 9 0 2 1 0 0 01 5 9 6 20 0 9 6 30 1 8 3 8 表( 3 ) p = 2 ,o r = o 1 ,”1 = 1 ,7 1 2 = ; 嚣 3 b i a s ( z )s e ( z ) 5 0 0l 。6 6 0 20 。3 3 9 80 。4 0 2 5 1 0 0 01 6 3 8 20 3 6 1 8o - 3 5 1 8 表( 4 ) f l = 2 ,= o 1 ,7 r 1 = ;,7 1 2 = 他 8b i a s ( z ) s e ( f 1 ) 5 0 0 l 。7 1 0 50 2 8 9 5o 。1 5 1 4 l0 0 0 1 7 1 0 00 2 9 0 0o 1 3 6 8 表( 5 ) p = 2 ,仃= 1 ,7 r 1 = 5 1 ,7 t 2 = ; n8 b i a s ( ( 3 )s e ( ) 5 0 01 8 3 4 50 。1 6 5 50 0 4 5 9 l0 0 0 1 9 8 8 40 o l l 60 0 2 0 9 2 8 第3 章家庭数据的病例对照研究 表6 ) 多= 2 ,o r 一1 ,7 t 1 一;,7 1 2 = ; 豫8 b a s ( z )s e ( z ) 5 0 01 8 3 2 6o 1 6 7 40 0 4 4 4 1 0 0 0l 。8 9 3 7o 1 0 6 3o 0 1 5 5 s e ( 国表示声的均方误差 从模拟结果可以看出;在穗圊的条件下,样本量增大,s e ( z ) 减小 比较表( 1 ) 与表( 2 ) ,表( 3 ) 与表( 4 ) ,可以看出当盯= o 1 时,取7 r 1 = ;,7 1 2 = 要比孤一,7 1 2 = i 的效果好,而表( 5 ) 与表( 6 ) 显示当巧一1 ,多= 2 时, 7 r 1 = i 1 ,7 r 2 一;的估计效果熙好一些并且当盯= o 1 时,取真值卢一1 5 要 比多= 2 的估计效果好。在多次模拟中,取莎= 1 ,= 2 ,7 t 1 = i 1 ,7 1 2 一兰的 估计效果最好 ,2 9 j 匕京工业大学理学硕士学位论文 主要结论与创新点 本文首先给出以独立个体为研究对象的一些结果,然后在此基础上 研究家庭数据,加入来自家庭的随机效应,目的是考察家庭成员之间的 联系以及遗传因素或环境对患病情况的影响选取研究对象时在分层二 阶段抽祥的基础上进行改进,采用新的抽样方案,即在第二阶段抽样时 从每一层中按一定的概率进行再抽样,并证明了两种方案下偏似然函数 的等价性+ 文中考虑的响应变量为多项有序变量,仍采用l o g i s t i c 回归模 型,并对响应变量建立累积概率模型如下: e 掣是l g ,一i 笺萎昙志裹端,奄= 王,一王 其中q ,声都是未知的,且o t 满足貔l 2s 及一1 ,这一模型的好处 是:当老变化时,模型中协变量的系数移不变,必有常数项变化。最后 从模拟结果可以看出 开究方法是可取的 3 0 参考史献 参考文献 【i 】n e u h a u s ,j m ,s c o t t ,a j 。,a n dw i l d ,c j ( 2 0 0 6 ) f a m i l y s p e c i f i ca p p r o a c h e st ot h e a n a l y s i so fc a s e c o n t t o lf a m i l yd a t a b i o m e t r i c s6 2 ,4 8 8 4 9 4 【2 】s c o t t a j a n dw i l d ,c j ( 1 9 9 7 ) f i t t i n gr e g e s s i o nm o d e l st oc a s e 。c o n t r o ld a t ab y m a x i m u m1 i k e l i h o o d b i c r r n e t r i k a ,8 4 ,5 7 - 71 【3 】b r e s l o w ,n e a n dz h a o l p ( 19 8 8 ) l o g i s t i cr e g r e s s i o n f o rs t r a t i f i e dc a s e - c o n t r o l s t u d i e s b i c n n e t r i c s ,4 4 ,8 9l - 8 9 9 f 4 】f e a r s ,t r 。a n db r e s l o w , c 。c 。( 19 8 6 ) l o g i s t i cr e g r e s s i o nm e t h o d sf o rr e t r o s e p e c t i v e c a s e c o n t r o l s t u d i e su s i n gc o m p l e xs a m p l i n gp r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论