(概率论与数理统计专业论文)混合患病兄弟对ibd数据连锁分析的处理方法研究.pdf_第1页
(概率论与数理统计专业论文)混合患病兄弟对ibd数据连锁分析的处理方法研究.pdf_第2页
(概率论与数理统计专业论文)混合患病兄弟对ibd数据连锁分析的处理方法研究.pdf_第3页
(概率论与数理统计专业论文)混合患病兄弟对ibd数据连锁分析的处理方法研究.pdf_第4页
(概率论与数理统计专业论文)混合患病兄弟对ibd数据连锁分析的处理方法研究.pdf_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 患病兄弟对( a 髓c t e ds i b - p a i r ,a s p ) 设计是连锁分析的重要方法,得到广泛的研 究和应用然而,实际问题中患病兄弟对中常常会混杂部分半兄弟对( h a l f s i b ) ,而且由 于个人隐私等原因,兄弟对关系的信息往往有缺失,我们称这种数据为混合患病兄弟对 ( m i x e da 疗e c t e ds i b - p a i r m a s p ) 鉴于对m a s p 仅基于i b d 数据的模型的不可识别 性,本文就混合患病兄弟对的i b d 数据在同时获得部分兄弟对关系信息的基础上给出 一种进行连锁分析的方法,构造了可识别的统计模型并证明用于进行连锁分析的似然 比检验统计量的渐进零分布服从自由度为3 的卡方分布同时本文给出了求解模型中 待估参数的b m 算法模拟表明,检验方法在小样本情形下具有良好的表现 关键词:连锁分析,似然比检验,患病兄弟对,e m 算法,可识别性 a b s t r a c t a 髓c t e ds 虹p a i r ( a s p ) l i n k a g em e t h o d ,w h i c hi sv e r yp o p u l a ri n l i n k a g ea n a l y s i s a n dw a u so r 域n a l l yd e v e l o p e df o rt h ed e t e c t i o no fl i n k a g eb e t w e e nag e n e t i cm a r k e ra n d ad i c h o t o m o u st r a i ti nh u m a nf u l l - s i bf a m i l i e s ,h a sb e e ne x t e n s i v e l yi n w s t i g a t e da n d a p p l i e d h o w e v e r ,a m o n gt h es a m p l e da s p s ,as m a up r o p o r t i o no ft h e mm a y b ea c t u a l l y h a l fs i b p a i r s d u et op r i v a c y ,o rs o m eo t h e rr e a s o n s ,s o m eo ft h er e l a t i o n s h i pi n f o r m a t i o n o f 胡色c t e d8 i bp a i r sm a yb em i 踮e d t h i st y p eo fd a t ai sc a l l e dm i x e da f 】f :e c t e ds i b - p a i r ( m a s p ) t bo v e r c o m et h en o n - i d e n t i f i a b i l i t yo ft h em o d e lb a s e do n l yo nt h ed i s t r i b u t i o n o fi d e n t i c a lb yd e s c e n t ( i b d ) s h a r i n g ,w ea u s kt h e8 i b _ p a i r sw h e t h e rt h e yw e r es i bo rh a l f s i ba n dg e tp a r to ft h er e l a t i o n s h i pi n f b r m a t i o nw h e ng e t t i n gt h ed i s t r i b u t i o no fi b d s h a r i i l g ,a n dt h e n r ep r o p o s eal i k e l i h o o ( i b a s e dt e s tt od 0l i n k a g ea n a l y z i n gf b rt h i sk i n d o fm a s ps 锄p l e s f o rl i n l ( a g et 髂t ,u n d e rt h ec o m p o s i t en u l lh ) r p o t h e f ;i sw i t han u i s a n c e p a r a m e t e re x p r e s s i n gt h ep r o p o r t i o no fh a l fs i b p a i r so v e ra 1 1m a s p s ,t h el a r g en u u d i s t r i b u t i o no ft h el i k e l i h o o dr a t i ot e s t ( l r t ) s t a t i s t i cf o rt h ei d e n t 撮a b l em o d e li st h e c h i - s q u a r e dd i s t r i b u t i o nw i t ht h r e ed e 黟e 娲o ff r e e d o m t h ee ma k o r i t h m ,w h i c hh o l d s v e 巧f 瓠tc o n v e r g e n c er a t ei nc o m m o nc a s e ,i sc o 璐t r u c t e dt oe s t i m a t et h ec o r r 髑p o n d i n g p a r a r r l e t e r so fc o n c e m r e s u l t so fa ne x t e 璐i v es i m u l a t i o ns t u d yd e m o n s t r a t et h a tt h e p r o p o s e dm e t h o dp e r f o r i i l sw e uf o rs m a l lt om o d er a t es a m p l es i z e s k e y w o r d s :l i n k a g ea n a l y s i s ,l i k e l i h o o dr a t i ot e s t ,a 髓c t e d8 i bp a i r ,e ma l g o r i t h m , i d e n t i f i a b i l i t y i i i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者躲乡气、 纠年么月治 第一章引言 连锁分析是基因统计中的常用方法其中的患病兄弟对( a 艉c ts i bp a i r ,a s p ) 设 计在基因统计中有广泛的应用,自1 9 3 5 年p e n r o s e 【1 】首次提出用i b d ( i d e n t i c a lb y d e s c e n t ,同源) 信息进行连锁分析以来,连锁分析方法有了长足发展,多年来有了许 多成果均值检验( m e a nt e s t ) 和比例检验( p r o p o r t i o nt e s t ) 3 】,【4 】【5 】,l o d 计分法 ( 1 0 9 a r i t h mo d d ss c o r e s ) 【6 i 等先后被提出并被广泛研究为使研究对象更具普遍性,在 1 9 9 0 年和2 0 0 6 年,r i s c h 【7 】和j u n ge to f 【8 l 将患病兄弟对方法拓展为患病亲属对方法 并用于连锁分析 在实际问题中,由于同父异母或同母异父、个人隐私、数据丢失等原因,我们在很 多的时候得到的不全部是完全兄弟对的信息在1 9 9 7 年,g 6 r i n g 4 】在研究中引入了半 兄弟对( h a l fs i bp a i r ) 的概念对所有患病兄弟对关系已知的情形,2 0 0 0 年s c h a i d l 9 】 在定量性状的研究中引入了一种方法,将半兄弟对信息和完全兄弟对信息结合在一起 来构造检验2 0 0 2 年时,n e a l e 【1 0 】证明了将混有半兄弟对的信息视作完全兄弟对信息来 处理,并对此数据结构采用传统的均值检验或比例检验这类线性方法来进行非参数检 验的做法是错误的 在文献【1 1 】中,崔文泉等对混合患病兄弟对i b d 数据的连锁分析进行了研究,提 出了一种通过追加兄弟对关系完全已知的附加样本的方法,解决了模型的不可识别性, 给出了修正的均值检验和修正的比例检验,并由此来进行连锁分析对上述追加信息的 方法,李凯在其硕士论文中【1 3 】讨论了利用似然比检验进行连锁分析 在实际问题中我们很难得到全部兄弟对关系信息,上面提到的追加完全信息的办 法有时也不易实现,本文提出另外的处理方法来对基于i b d 信息的混合患病兄弟对的 数据进行连锁分析抽样时,在病患自愿的前提下,请病患告知其兄弟间是半兄弟对还 是完全兄弟对只要有部分病患自愿以实情相告即可一一这种抽样方法更易于实现对 于这种新数据结构,本文在解决了模型可识别性的前提下,给出了参数估计的e m 算 法,证明了似然比检验统计量的渐进性质,进而利用似然比检验进行连锁分析大量的 】 中国科技大学硕士论文 统计模拟显示,本文方法的使用简便有效 第二章介绍连锁分析,兄弟对方法及相关概念,本章最后一节介绍追加信息的m a s p 数据处理方法 第三章提出新的数据结构并根据数据结构引入模型,我们证明了模型的可识别性, 证明在新取样方法下下似然比检验统计量的渐近零分布是服从自由度为3 的卡方分布, 并给出求解参数极大似然估计的b m 算法 第四章用r 进行了统计模拟,结果显示小样本时似然比检验具有良好的表现 第五章是结束语,总结本文的创新之处 2 第二章相关概念及背景介绍 本章主要是对本文将要讨论的问题作一些基本准备2 ,l 介绍连锁分析的定义;2 2 介绍本文着重研究的连锁分析方法;患病兄弟对设计,并对相关记号加以说明【12 】;2 3 介绍文献【1 1 】,【1 3 1 中研究的追加数据的处理方法。 2 1 连锁分析 在介绍连锁分析的定义前,我们先引入一些基本概念 每个正常人有2 2 对常染色体和1 对性染色体,在每对染色体上一个给定的位置 叫做一个位点同一位点上不同形式的d n a 序列叫做等位基因( a l i e l e ) ,通常用英文 字母如a ,a 表示在一个给定位点上,每个人有两个等位基因位于两条同源染色体 ( h o m o l o g o u j ;c h r o m o s o m e ) 上,这两个等位基因作为一个整体称为基因型( g e n o 咖e ) 一般基因型的两个等位基因的顺序对研究没有什么关系,因此a a 和a a 可以视为同 一基因型,一般统一记为a a 如果两个位点在同一条染色体上,它们的位置比较近, 则这两个位点上的等位基因遗传给下一代是不独立的,这一现象在遗传学中成为连锁 ( 1 i i l l c a g e ) 相互连锁的两个基因位于同 卜染色体的不同位置,在生殖细胞减数分裂时,如果 这两个位置之间发生交换,就导致这两个基因的重组( r e c o m b i n a t i o n ) 减数分裂时同源 染色体间发生交换的频率称为重组率,记为口若两个位点距离紧密,则减数分裂时共 同分离的概率较大,重组概率较小,当两个位点重合时,我们认为秽= o ;若两个位点 距离很远,则发生交换机会就多,重组概率较大,此时认为p = 通常,人们研究的位点,大部分不是候选疾病位点( d i s e a s el o c u s ) ,而是标记位点 ( m a r k e rl o c u s ) ,标记位点有可能临近控制性状的位点( t r a i tl o c u s ) ,但它并不直接控制 所研究的性状位点我们感兴趣的问题是寻找与疾病相关的基因的精确位置,确定标记 位点和性状位点之间的距离遗传学中的连锁分析( 1 i n k a g ea n a l y s i s ) 是通过对一些数 3 中国科技大学硕士论文 据的分析来寻找一些感兴趣的基因的位置,估计并检验基因重组率,寻找标记位点和性 状位点之间的连接证据连锁分析一般分为定量性状的连锁研究和定性性状的连锁研 究一般我们认为重组率口= 0 5 时不发生连锁,反之则有连锁 在定量性状的连锁分析中,常用的的方法有l o d 计分法,h a s e m a n e l s t o n 线性回 归方法,r i s c h - z h a n g 极值兄弟对方法等;在定性性状连锁分析中,常用的统计方法有 p e n r o s e 的患病兄弟对( a 艉c t e ds 肛p a i r ,a s p ) 方法,r i s c h 的患病亲属对方法和w a l d 的对数计分法( l o d ) 等,下面将重点介绍患病兄弟对方法 2 2 患病兄弟对方法 考虑一个具有两个等位基因b 和b 的性状位点,且两个等位基因的概率分别为 p ( b ) = p 和p ( 6 ) = g = 1 一p 。 我们称群体在某位点处的基因型概率具有哈代一一温伯格比例,如果群体的三种 基因型的概率与等位基因的概率的关系为, p ( j e 7 b ) = p 2 ,p ( b 6 ) = 2 加,p ( 6 6 ) = 9 2 从而有哈代一一温伯格平衡定律:如果亲代的基因型概率具有哈代一一温伯格比例,在 随机婚配的假定下,以后每一悠的基因型概率不变,因此等位基因的概率也不变而且以 后每一代基因型概率都满足哈代一一温伯格比例;如果亲代的基因型概率并不具有哈 代一一温伯格比例,在亲代随机婚配的假定下,子代的基因型概率将具有哈代一一温伯 格比例 用“a f f ”表示患病,定义渗透率: p ( o ,i 砧) = 南,p ( n ,lb = ,p ( o ,lb b ) = 五 ( 2 2 1 ) 群体的流行率是指从群体中随机抽取的一个体患病的概率,记为绵 坼= p 2 庀十印g + q 2 ,o( 2 2 2 ) 4 第二章相关概念及背景介绍 同源( i d e n t i c a l - b y d e s c e n t ,i b d ) 等位基因是遗传学里用来度量亲属对的血缘关系 远近程度的一个概念,设a 是亲属对中一个个体的一个等位基因,b 是另一个个体的等 位基因,如果a ,b 来自相同的祖辈,则a 和b 是同源等位基因i b d 数的取值为o ,1 ,2 一一值越大则血缘关系越近举例说明如下; 我们假设父母婚配的基因型是e f g 日,假设他们有2 个孩子:第一个儿子的基 因型为e f ,假设第二个儿子的基因型是e h 则第一个孩子和第二个孩子都拥有基因 e ,所以他们的i b d = 1 ;如果第二个孩子的基因型为g h ,此时他们的i b d = o ;而如果 第二个孩子的基因型也是e f ,则i b d = 2 ,因为他们的基因型是相同的 在实际问题中,最常见的定性性状是二值性状,如患病和正常两种状态用z 来定 义取值0 和1 的示性随机变量,它表示某个体是否具有某种性状,比如说是否患某种 疾病,即 z : 1 , 若个体患病, i o ,若个体正常 如果用g 表示基因型,则在哈代- 温伯格平衡定律成立的假定下,e ( z i g ) 取值; = p ( z = llg = 6 6 ) , = p ( z = llg = b 6 ) ,厶= 尸( z = lig = b b ) 的概率分别为p 2 ,却q ,q 2 定义定性性状的遗传方差为; 、= y 0 7 - ( e ( zig ) ) = e ( e ( zig ) ) 2 一( e ( e ( zlg ) ) 】2 p 2 露+ 印q 斤+ 9 2 后一眵2 厶+ 2 加,l + 9 2 】2 印g 囟( 一,2 ) + g ( 厂。一 ) 】2 + 矿9 2 【,2 2 + 局】2 露+ 司, ( 2 2 3 ) 我们称= 2 阳洳( 一厶) + g ( 如一 ) 】2 为可加遗传方差,西= p 2 口2 【,2 2 + 南】2 为 显性遗传方差 如果抽取到的兄弟对两成员均患病,则兄弟对在形状位点上的同源等位基因的数 目应该偏多如果性状位点与某一标记位点很近,因为性状位点上的i b d 数与标记位 5 中国科技大学硕士论文 点上的i b d 数呈正相关性,则兄弟对在标记位点的i b d 数也应该比较多我们需要知 道在给定兄弟对患病的条件下,兄弟对在标记位点上的i b d 数的概率分布 s u 钌e z 【2 2 l ,【2 3 l 等人在讨论了重组率、人群中的发生率以及可加遗传方差和显性遗传 方差后,推导出在给定兄弟对患病的条件下,兄弟对在标记位点上的同源等位基因数目 的概率分布如下表:条件概率分布尸( ,引= 歹| a = 七) ; 表2 1 :条件概率分布 k l 21o 2 l o l 2 ( 皿。一皿+ l 4 ) 盯j l 三士兰l ! ! := ! ! ! 丝2 杰三+ l2 ( 皿2 一皿1 4 ) 盯: l 其中,b d f 为兄弟对在标记为点上的同源等位基因个数,a 表示兄弟对中患病的 个数,皿= 口2 + ( 1 一p ) 2 也= p ( a = t ) ,i = 1 ,2 ,3 上面的条件概率分布p ( ,b d m = 引 a = 2 ) 可以用来检验零假设凰:口= 1 2 在零假设凰成立条件下,尸( ,b d m = 2i a = 2 ) = 1 4 ,p ( ,b d m = lia = 2 ) = l 2 ,p ( ,b d m = oia = 2 ) = 1 4 由于基因疾 病大多数不是很常见,因此c f 2 相对较小,由上面的表可以看出,这种抽样所获得的信息 最多 上述方法称为患病兄弟对方法,简称a s p ( a 骶c ts i b - p a i r ) 方法 2 3 追加信息的i b d 数据处理方法介绍 患病兄弟对连锁分析常用的检验有均值检验、比例检验以及似然比检验 如果从群体中抽取n 对患病兄弟对,并确定它们在标记位点同源等位基因的数目, 兄弟对根据j b d m = 2 ,l ,0 可分为三类,相应的对数分别为n 2 ,砘l ,伽( n 2 ,佗l ,伽) 服 从三项分布,并且n 2 服从二项分布,即n 2 一b ( ,) ,其中= 伽+ n l + n 2 ,记 s = 丢+ 辫措 6 第二章相关概念及背景介绍 在三b 成立的前提下,有g = 1 4 ,于是有e 蜘( 珏2 ) = 4 ,y 甜凰( 死2 ) = 3 1 6 因此, 统计量 耳:警 ( 2 3 1 ) v 百 近似服从标准正态分布,它可用来检验零假设凰是否成立,该检验称为比例检验( p r o _ p o r t i o n st e s t ) 目前比较流行的还有均值检验( z n e a n st e s t ) ,检验统计量为 :堕萼掣 ( 2 3 2 ) | n v 百 n e a l e 【t o 】等曾系统研究过,如果半兄弟对占有一定比例,上述采用经典的均值检验 和比例检验,统计量的偏会随样本容量的增大而趋于一。,而在检验中i 型错误接近 1 ,在基于混合患病兄弟对的连锁分析研究中,如果忽略了半兄弟对的存在,仍然采用 传统a s p 设计的检验方法进行连锁分析是不妥的所以在混合患病兄弟对中,均值检 验和比例检验不适合作连锁分析 下面介绍文献【1 1 】,【1 3 】中提出的追加信息的i b d 数据处理方法t 假设我们现在有n 对混合患病兄弟对的i b d 数据,在这里我们先引入一些记号s 设五表示第i 对混合患病兄弟对的i b d 取值和,五按i b d 的取值可能取值为0 ,l ,2 , 即 中国科技大学硕士论文 对于仅有i b d 信息的数据,我们记参数空间圣: 圣= 【矽= ( 丌,p o o ,p l o ,p 1 1 ) 丁i o 7 r 1 ,o p ,p l o ,p l l 1 ,p l o + p 1 1 1 则此时的似然函数为 ,( 矽;7 r ,p 0 0 ,p l o ,p 1 1 ) = 7 r 抽( 耖;p o o ) + ( 1 7 r ) 厅( 可;p l o ,p 1 1 ) = ( 7 r p 0 0 + ( 1 一万) p l o ) 。( y 5 0 ) ( 百( 1 一勐d o ) + ( 1 一万) p 1 1 ) 7 ( v 2 1 )( 2 3 。3 ) ( ( 1 一丌) ( 1 一p l o p 1 1 ) ) 。( 暑,。2 ) 可以证明仅有i b d 信息的m a s p 数据,所得到的统计模型是不可识别的,即参数不 能由样本完全确定 因为仅有i b d 数据的模型是不可识别的,所以我们追加一些数据假设我们追加 了m 组含患病兄对亲属关系信息的m a s p 数据,即获得了样本容量为n = n + m 的新 样本: 五= 。勘蓦z 川+ m 显然y 为i b d 信息,x 为患病兄弟对亲属关系信息经过计算,有基于新样本 磊) 墨l 的似然函数,记为l ( 矽;z l ,z ) : 三( ;魂,柳) = l ( ;秒1 ,+ l ,纠) ( 2 3 4 ) = l n ( ;秒1 ,) l 。( ;+ 1 ,柳) = ( 7 r 姗+ ( 1 7 r ) p l o ) 咖( 7 r ( 1 一勋d d ) + ( 1 7 r ) p 1 1 ) n 1 ( ( 1 7 r ) ( 1 一p l o p 1 1 ) ) n 2 q 蝠护( 1 一p o o ) 珊1 p 翟。痧翟1 ( 1 一p l o p 1 1 ) m 1 2 ) 7 r 啪( 1 7 r ) m 1 ( 2 3 5 ) 其中叻七= 舞( i :( 磁,) = 0 ,七) ,f = n + 1 ,) ,仇j = m 0 七+ m 1 i ,( 尼= o ,1 ,2 ) ,可 以证明,新模型是可识别的在零假设成立的前提下一一重组率p = 1 2 ( 没有连锁) , 此时,册1 ) = ( 1 2 ,1 2 ) ,l o ,p 1 1 ,p 1 2 ) = ( 1 4 ,1 2 ,1 4 ) 故 零假设凰:矽圣o = ( ( 丌,1 2 ,1 4 ,l 2 ) 丁i o 7 r 1 ) 一对立假设凰:西l = 西圣o 令 弓= 甜9 m 口z 壬圣l ( ;z 1 ,z ) , 亓= 口r 夕m n 铷 ,r o 下标 l ,= ( o ,o ) ,( o ,1 ) ,( 1 ,o ) ,( 1 ,1 ) ,( 1 ,2 ) ,( 2 ,o ) ,( 2 ,1 ) ,( 2 ,2 ) 设码七= 桦 t :( 瓯,) = ( 歹,忌) ,l = 1 ,n ) ( 五忌) j ,则可将得到的样本信息按 i b d 信息x 和兄弟对关系信息的取值做如下分类 卜 0 l2 o n o or l 0 n o 、 1 n 1 0n l ln 1 2n l 2 n 2 0礼2 1n 2 2佗2 n on ln 2 n 我们方法的讨论是建立在如下的基本假设下: ( a ) :0 咖 1 ,o 丌1 l 1 也即,要有一定比例的完全兄弟对和半兄弟对告知他们之间的兄弟对关系,这个比例只 要大于零即可显而易见,这是一个很平凡的要求 我们记参数口= ( 姗,p l o ,p l l ,7 r ,7 r o o ,7 r 1 1 ) 丁 参数空间为:e = 口:o 姗,p l o ,p l l ,丌,7 r 0 0 ,丌1 1 1 ,o p l o + p 1 1 。,一1 4 ( 至三三;i ) + d p c , 阶伊 阶 ,i、,l,、以“;“ 。 。 一 一 一 够妒p 一 :_ | 1 ) ) v 矿 矿 盱 k k l ; , 。一一讯 记 计 们 统 第三章基于一种新抽样方法的似然比检验 这里b 3 = ( 如+ 幻) 。 4 = ( “+ 七) ,类似的可以定义舀 4 = ,爹1 0 ,多1 l n 口 4 = 【l 2 ,1 4 ,1 2 ) t ,则 嗽斟叫篓 + 万( 妻兰三三:) 1 b 对c 蚕 4 三三:) + c 痧 t 一口 4 ,丁七万( 霎兰三三:) 一口 4 ) + 、丙( 占 4 一口 4 ) 丁而、丙( 舀 4 一日 4 ) + o p ( 1 ) p 4 ) + o p ( 1 ) ( 广1 ) 4 4 为、丙( 蚕 4 一p 0 l 2 0 丌p 【) 0 7 r ( 1 一p 【) o ) o 7 r 1 ( 1 7 r ) p l o( 1 7 r ) p l l( 1 7 r ) ( 1 一p l o p 1 1 ) 1 7 r 7 r 姗+ ( 1 7 r ) p l o7 r ( 1 一p o o ) + ( 1 7 r ) p 1 1( 1 7 r ) ( 1 一p l o p 1 1 ) 1 从而基于 五,k ) 鍪1 的对数似然函数: z c ( p ) = ( n o o + n 2 0 0 ) l o g p o d + ( n o l + n 2 l o ) l o g ( 1 一p ) + ( 几1 0 + 凡2 0 1 ) l o g p l o + ( n 1 1 + n 2 1 1 ) l o g p l l + ( n 1 2 + n 2 2 ) l o g ( 1 一p l o p 1 1 ) + ( n 0 ( + n o l + 竹2 ( ) 0 + n 2 l o ) 1 0 9 _ 7 r + ( n l o + n l l + 竹1 2 + 礼2 0 l + 礼2 儿+ n 2 2 ) l o g ( 1 一丌) 下面我们给出求参数的极大似然估计的b m 算法; e 步,我们首先给定参数初值口( o ) = ( 础,p 留,p 仰,霄( o 】,船,丌i :) ,从而有对数似然函数 的条件期望 岛( o ) ( f 。( 口i 戤,瓯) 翟1 ) = ( n o o + ( o ) ( 扎2 0 0 l 兢魂) 墨1 ) ) l o g 彻+ ( 珊1 + 岛( o ) 忆1 0 i 协,最) 翟1 ) ) 1 0 9 ( 1 一姗) + ( n l o + 马( o ) ( 几2 0 l i z i ,况) 翟1 ) ) l o g p l o + ( n l l + 岛( o ) ( n 2 1 1 i z t ,蠡) 鍪1 ) ) l o g p l l + ( n 1 2 + n 2 2 ) l o g ( 1 一p l o p 1 1 ) + ( 竹+ 伽l + 岛( o ) ( n 2 0 0 l ,氐 翟1 ) + ( n l o + n l l + n 1 2 + 岛( o ) ( n 2 0 1 i ( 毛,毋) 銎1 ) + 岛( o ) ( 几2 1 l l 以,尻) 銎1 ) + n 2 2 ) l o g ( 1 7 r ) + 岛( o ) ( n 2 1 0 i z i ,文) 鍪1 ) ) l o g7 r 根据我们前面的分解,可知n 2 0 0 ,n 2 0 l 和n 2 1 0 ,n 2 1 1 分别关于总体n 2 0 ,n 2 1 服从二项分布, n z i n :。,口c 一b t n 。m ( n :。; n 2 。 n z ,目c 一b i n 。m ( n :; 从而可得它们的条件期望 、 7 r ( o ( 1 一彻) ( o ) 捌 、 7 r ( o ) ( 1 一捌) 捌+ ( 1 7 r ( o ) ) ( 1 7 r i o ) p 留 丌( o ( 1 一,r 船) ( 1 一瑚) 7 r ( o ) ( 1 一捌) ( 1 一础) + ( 1 一丌( o ) ) ( 1 一丌 o ) p 嚣 岛( o ) ( n 2 0 0 i z ,蠡】鍪1 ) = 岛( o ) ( n 2 0 0 l n 2 0 ) = _ 邑0 ( o ) ( n 2 l o l 。 ,文】鍪1 ) = e 裔( o ) ( n 2 l o f n 2 1 ) = 。 7 r ( o ( 1 一姗) ( o ) p 嚣 呦而瓦碡霹f f 磊希孺 帆型! ! 二! 望2 1 1 二趔2 他1 鬲瓦习丽氟蒴百东葡孺 岛( o ) ( n 2 0 l i z i ,民】l 翟1 ) = n 2 0 一岛( o ) ( n 2 ( ) 0 i n 2 0 ) , 岛( o ) ( n 2 l l l z ,文) 鍪1 ) = 礼2 1 一岛( o ) ( 仃2 l o i n 2 1 ) 1 6 由上式,我们可以基于样本( 翰,魂) 翟。和待估参数初值口( o ) 求出不可观测的“完全”样 本中n 嘶和几2 l j ( j = o ,1 ) 的估计如下s 竺i 曩鲎慧璁留 兰i 差 壳磐【=佗。t一危=礼。t;鬲灭了二二霰j昙j孑囊昌擎辜亏兰芸若渤 由上式可以求得,r o o 和丌。z 的估计 f 础= ? k 仃0 0 + 伽1 蛳+ 蛳+ 而茹+ 晚盟 n 1 0 + n l l + n 1 2 n l o + n l l + n 1 2 + 晚黜+ 宄鼎+ n 2 2 m 步:针对完全数据,我们可以采用对对数似然函数求导并令其为。的办法求p o o 、p l o 、p 1 1 和丌的极大似然估计由: a f c ( p ) ) n 0 0 + n 2 0 0n 0 1 + n 2 l o p 0 01 一p 0 0 n l o + n 2 0 l p 1 0 n l l + n 2 1 1 p 1 1 = 0 n 1 2 + 几2 2 1 一p 1 0 一p l l n 1 2 + n 2 2 l p 1 0 一p l l 礼0 0 + 亿0 l + 几2 0 0 + n 2 1 0 可得7 r ,p 0 0 ,p l o ,p 1 1 大似然估计伊( 1 ) : 7 r = o = o 一塑主生塑罢坚盟塑生竺:o , 1 7 r - 7 的极大似然估计,又在e 步已经求出,呦,丌1 1 的估计,所以有口的极 、 声;苫= 多:? = 开 j = 2 塑垒! 釜 n 佃- + 宄逊志 n - 。帆- + 壳墅志芦棚z 篓兰:缓:箍托2 n 0 0 + n o l + 而潞+ 宄龇 礼0 0 罕咖 n o o + 哟! + 宄茹+ 元箍 n 1 0 + n l l + n 1 2 1 7 = = 耙榴 中国科技大学硕士论文 用求出的口( 1 ) 代替算法e 步中的口( o 】,重复e 步和m 步,求出口( 剞,再由9 ( 2 ) 代替 算法e 步中的伊( 1 ) 循环往复,直至两次估计值p ( ) 和伊( 1 + 1 ) ( c 1 ) 之差在小于某 个取定的阀值为止从而所求的口的极大似然估计( 2 ,多1 0 ,多1 1 ,开,骨c h d 。膏1 1 ) 类似的,将估计中的p 0 1 ) ,p l o ,p l l 用原假设下真值o 5 ,o 2 5 ,o 5 替代,由b m 算法 亦可求得在原假设下( 丌,r 0 0 ,丌1 1 ) 的极大似然估计( 亓,诋,亓- t ) : 由e 步经计算可得, 由m 步计算可得: l n 0 0 + 佗0 1 + 元然+ 元鼎 _ _ _ - _ - _ - - _ _ - _ _ - _ - _ _ _ _ _ - 一 n 0 0 罕砌n 0 0 十n o l 咖+ 伽1 + 元潞+ 元掰 n 1 0 + n l l + n 1 2 n l o + n l l + n 1 2 + 元盟+ 元磐l + n 2 2 类似于上面,我们可以重复e 步和m 步直至两次( 宵,丌0 0 ,r - 1 ) 的估计值之差小于某个阀 值为止 1 8 第四章模拟研究 在3 2 中我们提出了似然比检验的方法及相应统计量并给出了理论证明,在3 3 中给出求解待估参数极大似然估计的b m 算法为检验方法在实际问题中的表现,在 本节中,我们将通过计算机针对小样本情形模拟对前面所述的方法进行检验我们统一 设定模拟次数为5 0 0 0 首先我们考察i 型错误在置信度水平为o 0 1 ,o 0 5 和o 1 的情形下,分别令样本量 n = 4 0 0 ,6 0 0 ,8 0 0 ,半兄弟对所占比例丌= o 1 ,o 3 ,o 5 ,半兄弟对和完全兄弟对中已知相 互关系的所占比例7 啪= o 4 ,o 6 ,o 8 7 r l l = o 4 ,o 6 ,o 8 ,进行模拟计算i 型错误,模拟结 果见表l 。 从表1 中可以看出,i 型错误的经验水平接近于事先给定的理论水平 为考察功效,我们采用s c h 【5 j 在1 9 9 0 年提出的用可加隐性模型生成兄弟对的i b d 值的方法患病完全半兄弟对的i b d 概率可由标记位点和疾病位点的复发风险率 a 和重组率口生成,亦即令 p = l 2 一( 2 垂一1 ) ( 入一1 ) 2 ( 入+ 1 ) ,册l = 1 2 + ( 2 雪一1 ) ( 入一1 ) 2 ( a + 1 ) p l o = 1 4 ( 2 圣一1 ) ( a 一1 ) 4 a ,p l l = 1 2 ,p 1 2 = 1 4 + ( 2 圣一1 ) ( a 一1 ) 4 a 其中圣= 口2 + ( 1 一口) 2 当p = 1 2 ,a = 1 时,参数对应的值就是原假设凰由此我们可 建立对立假设日1 因为检验的功效与丌,r 0 0 ,丌1 l ,n 的值相关而我们对其中三个冗余参数 之间的相互关系及其对功效的影响比较关心,所以在模拟中,我们令p = o 1 ,入= 1 5 ,样 本容量n = 5 0 0 然后分别固定丌并令其等于o 2 ,固定,咖并令其等于o 7 ,固定丌1 1 并令 其等于o 7 ,在此三种情形下分别考虑另两个参数对功效的影响功效图如图1 所示, 由图a 、可以看出,当半兄弟对比例固定时,患病半兄弟对和患病完全兄弟对关系 信息越丰富,检验的功效越大;另图中亦可看出患病兄弟对和患病半兄弟对关系信息中 只要有一个非常丰富,功效即表现良好 从图b 可以看出,当半兄弟对关系信息比例固定时,随着半兄弟对比例的增加,检 验的功效先减后增,且样本为完全兄弟对时功效比为完全半兄弟对时大;而当完全兄弟 对信息相当丰富时,上述的变化趋于平缓 从图c 可以看出,当完全兄弟对关系信息比例固定时,功效也随着半兄弟对比例 的增加有先减后增的趋势,但半兄弟对关系信息影响不显著相对于图b 亦可以看出, 完全兄弟对信息对功效的影响更大,这表明完全兄弟对信息比半兄弟对信息更利于进 行连锁分析总体来看,检验的功效良好 1 9 中国科技大学硕士论文 图1 :7 r 0 0 ,7 r l l ,7 r 对功效的影响( t h ei n f e c t i o no v e rp o w e ro f7 r o o ,7 r l l ,7 r ) f 叮,2 o 2o o 矗o 鼻 i 墨 i f i s u f c 0 2o o 暑o 舟 霹l ir i 饽l 2 0 i l ,司7 0 2o o 蓐o 童 一 墨c f i 秘饽e ) 第四章模拟研究 表4 1 :似然比检验的i 型错误 f i g u r l :t y p eie r r o ro fl r t e s t 7 r = 0 17 = o 37 f = o t 5 矿知o7 r l 】 0 1 ”0 0 50 0 10 10 0 50 0 10 10 0 5o 0 l 4 0 0o 40 40 1 0 2 4o 0 4 9 4o 0 1 1 20 1 0 80 0 5 6 20 0 0 9 60 0 9 6 2o 0 4 8 60 0 0 9 6 o 60 0 9 5 40 0 4 7 20 0 1 0 60 0 9 5 4o 0 4 3 40 0 0 8 80 1 1 1 80 0 5 3 40 0 1 2 8 0 80 1 1 4 8o 0 5 70 0 1 2 4o 1 0 0 40 0 5 0 4o 0 0 8 2o 1 0 4 4o 0 5 3 0 0 0 9 2 o 6o 40 1 0 5 60 0 5 6 80 0 1 1o 1 0 0 2o 0 5 1 8o ,0 0 90 1 0 4 2o ,0 5 4 6o 0 0 9 6 o 60 1 0 7 40 0 5 5 80 0 1 2 80 1 0 1 60 0 5 0 6o 0 0 9 6o 1 0 7 4 0 0 6o 0 1 1 4 0 8 0 1 1 5 20 0 5 9 80 0 1 1 8o 1 0 8 4o 0 5 1 o 0 0 9 2o 0 9 90 0 5 0 8o 0 1 2 8 o 80 40 1 0 4 8o ,0 5 4 40 0 1 0 40 0 9 3 20 0 4 6 40 ,0 0 9 6 o 0 9 7 80 0 4 9 80 0 1 1 4 0 60 1 0 8 40 0 5 6 80 0 1 10 1 1 2 40 0 5 3 8o 0 0 8 40 0 9 5 40 0 5 10 0 0 7 6 o 8o 1 0 4 20 0 5 1 60 o l l0 1 0 3o 0 5 2 6o o l l 20 1 0 4 20 0 5 4o 0 1 2 6 6 0 0o 4 0 40 0 9 80 0 4 5 80 0 1 0 40 1 0 3 60 0 5 3 2o 0 1 1 80 1 0 5o 0 5 6 4o 0 1 3 0 60 1 0 3 20 0 5 5 2o 0 10 1 0 7 20 0 5 4 80 o 1 0 8o 0 9 7 4o 0 4 4 60 0 0 8 0 8o 1 0 30 0 5 5 80 0 1 0 80 1 0 6 20 0 5 1 60 0 1 0 80 0 9 8 6o 0 50 0 1 2 6 0 6o 40 0 0 6 20 0 4 7 4o 0 1 0 4o 1 0 0 60 0 4 9 80 0 0 70 1 0 8 40 0 5 50 0 1 0 8 o 6o 1 0 2o 0 5 2 4o 0 0 9 80 0 9 6 80 0 4 5 8o 0 0 9 80 0 9 8o 0 5 1 6 o 0 1 2 4 0 8 0 1 0 7 40 0 5 7 40 0 1 1 2 o 1 0 3 0 0 4 9 6o 0 1 0 40 1 0 10 0 4 6 20 0 1 0 6 o 8o 4 0 0 9 7 60 0 4 6 4o 0 0 9 40 0 8 4 60 0 4 2 60 0 0 7 8o 1 0 2 20 ,0 5 3 40 0 1 0 6 0 60 0 9 7 60 0 4 4 40 0 0 9 60 1 0 2 20 0 4 8 80 0 0 9 60 0 9 50 0 5 1 0 0 1 2 4 0 80 1 0 2 40 0 4 8 2o 0 0 7 60 0 9 7 8o 0 4 9 2 o 0 0 9 40 1 0 0 80 0 5 30 0 0 9 8 0 0o ,4o 4o 0 9 4 8o 0 4 7 8o 0 0 9 2o 1 0 3 6 o 0 5 1 o 0 1 0 4 0 0 9 7 6 o 0 4 9 2 o 0 1 0 2 0 60 1 0 1 20 0 5 1 60 0 0 9 20 1 0 2 20 0 5 2 4o 0 1 0 4o 0 9 7 80 0 4 7o 0 1 0 2 0 8o 1 0 60 0 5 1 80 0 1 1 60 1 0 10 0 4 4 20 0 0 8 8o 0 9 9 40 0 4 8 8 0 0 1 l 0 60 40 1 0 20 0 5 0 60 0 0 9 80 1 0 20 0 5 2 2o ,o 1 0 40 。1 0 1 8o 。0 4 80 0 1 0 4 0 6 0 1 0 4 6o 0 5 5o 0 0 9 20 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论