(概率论与数理统计专业论文)病例对照关联分析中基因对照方法的稳健性和改进研究.pdf_第1页
(概率论与数理统计专业论文)病例对照关联分析中基因对照方法的稳健性和改进研究.pdf_第2页
(概率论与数理统计专业论文)病例对照关联分析中基因对照方法的稳健性和改进研究.pdf_第3页
(概率论与数理统计专业论文)病例对照关联分析中基因对照方法的稳健性和改进研究.pdf_第4页
(概率论与数理统计专业论文)病例对照关联分析中基因对照方法的稳健性和改进研究.pdf_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 病例对照设计是基因关联分析的一种有效方法。然而,潜在的群体结构 ( 群体分层和群体近亲婚配) 可能会导致假关联从而影响检验的i 型错误和功 效。为纠正此错误,统计学家们提出了基因对照方法( g c ) 和丑中心化方法 ( d c ) 来分别修正群体分层( p s ) 和群体近亲婚配( c r ) 带来的影响。这 两种方法被很多文献证明是有效的并在遗传学中有很好的运用在本文中, 我们提出并研究了基于g c 和d c 方法的三种稳健性检验。除此之外,我们还 将d c 和g c 方法结合,提出了一种新的修改群体结构的方法,称为中心化的基 因对照方法( c g c ) 无论是g c 还是d c 都基于特定的遗传模型的假设。然而,在很多复杂疾病 情况下,遗传模型通常未知,故此我们提出了三种稳健性方法并研究了它们 在各种不同情况下的表现我们的结论是:在遗传模型不可知时,三种稳健性 方法的功效要大大优于选错模型的g c 或d c 检验的功效。除上述结果以外。我 们还发现,在g r 影响下,g c 比d c 表现好很多;在p s 影响下,d c 优于g c 。然 而在实践中很难通过给定的病例对照数据来确定其究竟属于哪一种群体结 构,故提出一种能同时修正p s 所带来的偏差和c i 带来的方差偏离的方法是十 分必要的。故此我们提出了一种叫做中心化的基因对照方法( c g c ) 此方法 的特点是其融合了g c 和d c 方法因而能同时修正p s 和c r 带来的影响。我们的 研究表明,无论是在哪种群体结构的影响下,c g c 检验的表现总是令人满意 的 关键词:c o c h r a n - a r m j t a g e 趋势检验,群体近亲婚配,群体分层稳健性检验。 基因对照,矗中心化,中心化的基因对照 a b s t r a c t t h ec a s e - c o n t r o la s s o c i a t i o ns t u d yi sa ne f f i c i e n ta n dp o t e n t i a l l yp o w e r f u ld e - s i g nw h i c ht e s t sf o rg e n e t i ca s s o c i a t i o n h o w e v e r ,as p u r i o u sa s s o c i a t i o nm a y a r i s e d u et ol a t e n tp o p u l a t i o ns t r u c t u r e s :p o p u l a t i o ns t r a t i f i c a t i o n ( p s ) o rc r y p t i cr e l a t - e d 蝴c c r ) t w os t a t i s t i c a lm e t h o d s w h i c h8 r ec a l l e d g e n o m i cc o n t r o l ( g c ) a n d d e l t ac e n t r a l i z a t i o n ( d c ) h a v eb e e ng e n e r a t e dt oc o r r e c tf o rp sa n dc rr e s p e c t i v e l y e i t h e rm e t h o dh a sb e e np r o v e dt ob ew e nb ym a n yp a p e r s i nt h i sp a p e r ,w ep r o - v i d e * t h r e er o b u s tm e t h o d sa n ds t u d yt h e i rp e r f o r m a n c e su n d e rv a r i o u ss i t u a t i o n s b e s i d e st h i s w ea l s oc o m b i n eg ca n dd ct o g e t h e rt op r o v i d ean e wm e t h o dc a l l e d 8 8c e n t r a l i z e dg e n o m i cc o n t r o l ( c g c ) w h i c hc a nc o r r e c tp sa n dc rs i m u l t a n e o u s l y b o t hg ca n dd ca r ee m p l o y e db a s e do nas p e c i f i cg e n e t i cm o d e lw h i c hi s 璐u a l l yu n k n o w nu n d e rs e v e r a lc o m p l e xd i s e a s e s s ow ep r o v i d et h r e er o b u s tm e t h o d o u rc o n c l u s i o ni st l m tt h r e er o b u s tm e t h o d 8p e r f o r mm u c h b e t t e rt h a nt h eg co rd c t e s tw h i c hc h o e s et h ei n c o r r e c tg e n e t i cm o d e lw h e nt h eg e n e t i cm o d e li su n k n o w n b e s i d e st h e i rd i f f e r e n tb e h a v i o r s ,o u rr e s u l t sa l s os h o wt h a tg cp e r f o r m sm u c h b e t t e rt h a nd cu n d e rc rw h i l ed cd o m i n a t e sg cu n d e rp s i np r a c t i c e ,h o w e v e r , i tm i g h tb eu n k n o w nw h i c hk i n do fp o p u l a t i o ne t r u e t u r ei ti su n d e r l y i n gt h eg i y e n c a s e - c o n t r o ld a t a s oan e wa p p r o a c hw h i c hc a nc o r r e c tb o t hb i a sa n dv a r i a n c e d i s t o r t i o ni sn e e e 妒a r y w ep r o p o s ean e wm e t h o dc a l l e d 船c e n t r a l i z e dg e n o m i c c o n t r o l ( c g c ) w h i c hm i xg ca n dd ct o g e t h e r o u rr e s u l ts h o wt h a tc g cp e r f o r m w e l lu n d e re i t h e rp so rc r k e yw o r d s :c o c h r a n - a r m i t a g et r e n dt e s t s ,c r y p t i cr e l a t e d n e s s ,p o p u l a t i o ns t r a t - i f i c a t i o n ,r o b u s tt e s t s ,g e n o m l cc o n t r o l ,d e l t ac e n t r a l i z a t i o n ,c e n t r a l i z e dg e n o n 1 i c c o n t r o l 。 i i 第一章引言 在遗传学中一般认为人类疾病与基因和环境因素有关。研究基因与疾病 的关系的方法有很多。主要的方法有关联分析等。关联分析所面临的主要问题 有群体结构和遗传方式对检验统计量的影响。本文的目的就是就此问题提出 一些改进和新的解决办法。在本章中。我们回顾了近年来提出的几种比较热门 的解决群体结构和遗传方式对检验统计量的影响的方法 1 1 基因关联分析的背景介绍 基因关联分析是遗传学的一个重要组成部分,其理论基础是连锁不平衡。 简单的说。连锁不平衡是指两个位点上的等位基因不是独立出现的,而是存在 某种相关性我们将真正导致疾病的基因称为致病基因,而将与其存在连锁不 平衡的基因称为标记基因。从而,我们可以通过研究标记基因来寻找和定位致 病基因。 基因关联分析的一种基本方法是群体病例对照设计。其思想如下:我们 考虑一种疾病是否与标记基因有关联,从病人群体中随机抽取一部分病人,称 为病例组,再从健康人群体中随机抽取一部分匹配的健康人,称为对照组。以 病例组和对照组为行,以它们在标记位点的基因型为列,我们得到一个2 3 的 列联表。然后我们就可以用统计方法( 比如p e a r s o n 8x 2 检验) 来分析其关联 性此方法称为回溯型病例一对照关联分析 基因关联分析所面i i 缶的一个主要问题是群体结构和遗传方式对检验统计 量的影响群体结构主要分为两种情况:群体分层和群体近亲婚配。群体分层 指的是一个总群体中含有若干个子群体,每个子群体的标记基因概率和发病 率都各不相同;群体近亲婚配指的是婚配只在每个予总体的内部进行,从而导 致由于每个子群体内的基因型相关所引起的哈代二温伯格平衡律不成立遗传 方式是指人的基因型影响表现型的方式,常用的分类方式有显形遗传,可加遗 传隐性遗传三种。举个简单的例子:假设人是否得某种病d 是由某位点上的 1 里壁塾叁兰塑主垒墨 两个等位基因a a 决定的。其中a 是高致病基因。那么我们认为基因型为a a 的 人得d 疾病的概率要高于基因型为a a 的人对于基因型为a a 的人,得d 病 的概率有三种情况:第一种,如果其得d 病的概率与基因型为雏的人得d 病 的概率一样那么这种遗传方式就叫做显性遗传;第二种,如果其得d 病的概 率与基因型为a a 的人得d 病得概率的样,那么这种遗传方式就叫做隐性遗 传;第三种。如果其得d 病的概率与介于基因型为雒与a a 的人得d 病的概率 之间,而且星线性关系,那么这种遗传方式就叫傲可加遗传。如何消除群体结 构和遗传方式对检验的影响是目前遗传统计学的研究热点之一。 1 2 现有的消除群体结构影响的主要绥决办法 最近统计学家们提出了一系列方法来修正群体分层,其中较有影响的有 如下两种:基因对照方法( g c ) 和乒中心化方法( d c ) g c 利用与疾病不相关 位点的基因信息来估计出方差膨胀因子再利用它来修正妒统计董的方差偏 离;d c 同样利用与疾病不相关位点的基因信息来估计出非中心化参数,再利 用它来修正x 2 统计量的偏差这两种方法都是基于一个重要的检验c o c h r a n - a r m i t a g e 趋势检验而提出的。下面,我们就对此检验和两种修正方法傲一简单 的介绍。 考虑在一个单核苷酸多态性标记( s n p ) 标记上的两个标记基因,分别记为口 和a ,给定它们的概率分别为p 和g = 1 一p ,不失一般性,我们假定a 是高风险 基因。为了研究疾病和标记位点基因的关系,我们抽取n 个个体,其中r 个来自疾 病组s 个来自对照组。整个数据表详见表格1 三个基因型分别记为g o = a a g i = a a 和g 2 = a 4 1 。发病率定义为给定风险基因个数时发病的概率,记为 = p ( 生病i q ) ,i = 0 ,1 ,2 ; 0 。基因型相对风险记为( c r r 8 ) a = , i f o ,i = l ,2 从而原假设可以表述为h o :a l = a 2 = 1 疾病与标记位点的相关性可以通过c o c h r a n - a r m i t a g e ( c a ) 趋势检验统计 量来检验。此检验的原假设为发病率和基因型相互独立,对立检验为发病率和 风险基因的个数呈现线性关系。通过给定参数0s 1 ,c a 趋势检验统计量 2 苎= 芏! ! 查 的一般形式可以写为: 即) = 而孙 ( 1 2 _ 1 ) 害中u ( $ ) = ;k ( s r l r 虮) + 【s t 2 一r s 2 ) j 而 ,甜( 葫) = 等( ( 铲p l + p 2 ) 一伽p l + p 2 ) 2 】+ 等【( q l + q 2 ) - ( 孙+ 啦) 2 】, p t 和雏分别表示生病组合对照组中基因型q 的概率。通过用盎= 彘= 啦n ,ia 0 ,l ,2 来估计a 和吼,- r , i f 就可以得到在原假设下u ( x ) 的估计值矿磊凰( ( ,( z ) ) = ( r s , z s ) l n ( x 2 n l - t - r t , 2 ) 一( z n l + t 1 2 ) 2 】在隐性模型( a 1 = 1 ) ,可加模型( 2 a l = 如+ 1 ) 和显性模型下,z 的取值分别为0 0 5 和1 对任意遗传模型,在疾病与标记位点基因无关联的原假设下,假设无群 体结构,我们有于( 。) = z ( 。) 2 渐近的服从自由度为1 的中心卡方检验( x ( o ) ) 然而。在p s 或c r 存在的情况下。t ( $ ) 不再渐近的服从自由度为l 的中心卡方检 验在g c 中,d e v l i n 和r o e d e r ( 1 9 9 9 ) 假定统计量 t g c ( 霉) = = 7 茹) 天( z ) 渐近的服从自由度为1 的中心卡方检验,记为x i ( o ) ,其中天( z ) 是利用不相关 位点基因信息对方差膨胀因子a ( z ) 做出的估计值。考虑到不相关位点基因的 可变性,d e l v i n 等( 1 9 9 9 ) 也假定t o c ( = ) 在原假设下渐近的服从自由度为( 1 ,l ) 的f 分布。为了估计a ( 。) ,先在每一个不相关位点基因上算出其对应的z ( 嚣) ,记 为z ( 。) “l ;1 ,工然后a ( z ) 的估计值就可以给出:天( z ) = 毛lz 2 ( z ) l 肛 在晶中心化方法( d c ) 中,g o r r o o c h u r a 等( 2 0 0 6 ) 将z 2 ( z ) 的非中心化参数 表示成如下形式: j ( ) :( n r s ) x p z r ( m n l c a s e ) + p r ( m m i c a s e ) - x p r ( m n ) + p r i ( m m 一) 2 一 z 2 p r ( m n ) + p r ( m m ) 一 x p r c m n ) - i - p r ( m m ) 2 首先。拿患病组中不相关位点的基因型的频率来估计p r ( m n i c a s e ) 和p r ( m m i c m ) ,再拿总体中的不相关位点的基因型的频率来估计p r ( m n ) 和p r ( m m ) ; 其次,用所有不相关位点的估计的平均值来代替6 ( z ) 中的相应概率值,从而得 3 土璺壁茎垄至塑垒墨 到最终的估计值5 ( 。) 。在p s 存在的情况下。他们假定z 2 ( x ) 渐近的服从以一个 自由度为1 的非中心换卡方分布( 媚( 6 ( z ) ) ) 那么修正后的统计量可表示为: 罐c 扣) = ( z 扣) 一5 1 1 2 ( x ) 8 i g n ( z ( $ ) ) ) 在原假设下,磊c ( z ) 渐近的服从分布x ( o ) 当然,除y g c s t l d c 方法,最近又有很多学者提出了其它各种方法来消除 基因关联分析中群体结构所带来的影响。比较有影响力的有y u 等( 2 0 0 6 ) 提出的 一个两步混合模型,第一步是利用结构关联性来修正偏差,第二步再来修正相 关性p r i c e 和p a t t e r s o n 等( 2 0 0 8 ) 也提出了用主成份分析方法来研究基因关联 分析。因为这些方法与本文无多大关系,故不予详细说明 1 3 研究内容和主要结论 在本文中,我们结合g c 和d o ,提出了三种稳健检验,分别称为最大化检验 ( m a x ) ,最有效稳健检验( m e r t ) 和p e a r s o n 卡方检验( p e a r s o n ,8x 2t e s t ) 。这 三种检验都是对遗传方式稳健的,也就是说,无论真实遗传方式是什么,用此 三种检验都能得到基本正确的结果。在计算机模拟试验中,我们在群体分层或 群体近亲婚配的条件下各自比较了这三种稳健检验和无修正的g c 及d o 检验 在各种不同遗传方式下的i 型错误和功效我们的结论是,这三种检验的i 型错 误都是正确的当遗传方式选择正确时,三种稳健检验相对对应的g c 及d c 检 验来说,会损失一些功效;然而当遗传方式选择错误时,这三种稳健检验的 功效比相对应的g c 及d o 检验的功效要高很多在这三种稳健检验的内部比 较中。我们的结论是:当真实遗传方式是可加遗传时,m e r t 检验的表现要 略优于m a x 检验和p e a r s o n - 方检验;当遗传方式是显形或隐性时,m a x 检验 和p e a r s o n 卡方检验的表现要好于m e 职检验。m a x 检验和p e a r s o n 卡方检验的 差别并不大。 在上述计算机模拟试验中,我们发现了一个很有趣的现象,那就是:当 总体存在群体分层时,使用g o 统计量会导致i 型错误严重缩小;而当总体存在 4 墨二主! ! 群体近亲婚配时,使用d c 统计量会导致i 型错误严重膨胀。这说明无论是g c 还 是d c 都无法完全消除群体结构带来的影响,g c 只能修正群体近亲婚配而d c 只 能修正群体分层。事实上,d e v l i n 和k o e d e r ( 1 9 9 9 ) 最早提出g c 是为了解决群体分 层对检验的影响的,他们同时也认为此方法对群体近亲婚配也同样有效。然 而,g o r r o o c h u r n 等( 2 0 0 e ) 发现g c 不能很好的解决群体分层。他们提出了d c 并 认为此方法优子基因对照方法g c 。然而,我们的模拟结果发现事实并不如此。 事实上,z h e n g 等( 2 0 0 7 ) 年的一项工作比较全面的阐述了这个问题。他们发现。 群体分层会导致统计量产生偏差而群体近亲婚配会导致统计量产生方差偏离; d c 方法能较好的控制偏差但无法控制方差偏离,g c 方法则正相反,可以较好 的控制方差偏离但无法控制偏差换而言之,d c 可以修正群体分层却无法修 正群体近亲婚配;g c 可以修正群体近亲婚配却无法修正群体分层 然而,在实际工作中,经常不能准确地判断数据来源于哪种群体结构,是群 体分层或群体近亲婚配甚至二者兼有都有可能正是基于此种不确定性,我们 提出了一种非常简单的方法称为中心化的基因对照方法( c g c ) ,此方法能够同 时修正群体分层带来的偏差和群体近亲婚配带来的方差偏离从而能完全修正 群体结构对检验的影响也就是说,此方法相对g c 和d c 的大优点就是我们事 先并不需要群体结构的详细信息,无论是群体分层或是群体近亲婚配甚至两者 兼而有之,此方法都可以较完美的运行当然,y u 等( 2 0 0 0 ) 提出的两步修正法也 能达到相同的效果,但是那种方法的计算过于繁琐。与他们相比,我们的c g c 方 法只器要很少的计算就能达到相同的效果。为了检验我们的c g c 方法的好坏, 在计算机模拟试验中,我们将此方法与g c 和d c 在各种不同的情况下加以了比 较,结果令人满意。 本文共分三章第一章是引言。介绍7 本文要解决的问题。采取的方法和 相关背景知识。第二章是稳健性检验,提出了三种稳健性方法并分析了它们的 计算机模拟结果。第三章是中心化的基因对照方法,提出了我们在上文中提到 的c g c 方法并对其计算机模拟结果进行分析我们的计算机模拟试验结果则 以表格的形式在附录中给出。 5 第二章稳健性检验 本章提出了以c c 和d c 方法为基础的三种稳健性方法:最大化检验( m a x ) 。 最有效稳健性检验( m e r t ) 和p e a r s o n 卡方检验( p e a r s o n 8pt e s t ) 并给出了 计算机模拟试验的方法并对结果进行了分析。 2 1 稳健性检验的理论和方法 如表1 所示,考虑r 个病人和8 个对照,总样本为n = r + 8 r o ,r l ,r 2 分别 记为疾病组中基因型为a a a a ,的个数;8 0 ,钆s 2 分别记为对照组中基因型 为a a ,a a ,的个数;n o ,n 1 他分别记为总体中基因型为a a ,a d 的个数以 值z 表示相应的遗传方式( 茹;0 表示隐性遗传,0 5 表示可加遗传1 表示显性遗 传) 。z ( z ) = 而荔i ;苫丽表示对应遗传方式下的趋势检验统计量。 c a 趋势检验依赖于由值z 决定的遗传方式。然而,对于很多复杂疾病 来说,遗传方式不能事先确定。因此,提出不依赖于遗传方式的稳健性检验 就是必要的。n e l d l i n 等( 2 0 0 2 ) 及z h e n g 等( 2 0 0 6 ) 分别提出了三种稳健性检 验它们分别是最大化检验( m a x ) ,最有效稳健性检验( m e r t ) 及自由度 为2 的p e a r s o n 方检验( p e a r s o n 8x 2t e s t ) 在关联分析中,m e r t 检验可以写 成: j ,m e r :r = ( z i + z i ) 2 ( 1 + p ) 1 2 其中声= m ( ( 咖+ m ) ( - 1 + t 1 2 ) ) 】1 2 是在原假设下对面和而的相关系数的大 样本渐近估计m a x 检验可以写成: z m a ) ( = m a x ( 瑶,瑶5 ,研) 在既没有群体分层又没有群体近亲婚配的条件下,疾病与标记位点等位基因没 有关联的原假设下,z m z r t 渐近的服从l v ( o ,1 ) ;而m a x 检验的统计量可以通过 蒙特卡罗模拟方法获得。在原假设下。趋势检验统计量( z o ,z o 5 z 1 ) 渐近的服从 协方差为p o , o j 5 p o 。1 和p o 5 1 ,均值为0 的多元正态分布而协方差可以通过已知 7 士璺壁垫叁堂塑圭垒查 的大样本公式或参数型自助方法获得。在没有群体结构的条件下,z h e n g 等( 2 0 0 6 ) 证明了无论在哪种遗传方式下,m a x 检验都比自由度为2 的p e s r s o n 卡方检验 的功效要高;而在遗传方式不知道的情况下,m a x 检验和p 咖一n 的卡方检 验都比趋势检验z ( 。) 要稳健的多另一方面,z h e n g 等( 2 0 0 6 ) 也证明了自由度 为2 的p e a r s o n 卡方可以写成如下形式: 蜀p e 。= ( 罐+ 研一2 p z o z l _ ) l ( 1 一p 2 ) 因此,通过g c 或d c 修正的m a x 检验,m e r t 检验,p e a r s o n 卡方检验可以通关 将相应的趋势检验统计量z ( z ) 进行g c 或d c 修正。再将它们分别代入三种稳健 性统计量的公式获得 2 2 稳健性检验的计算机模拟试验和结果分析 在稳健性检验的计算机模拟试验中,我们主要考虑两种试验设计:( i ) 群体 分层,( i i ) 群体近亲婚配。而在以前的关于研究g c 和d c 的文章只考虑了单一的 情形 为了按照( i ) 型设计产生数据,我们假定在总体中共有m 个子总体,记为g k 。 m = 1 ,肼。在第m 个子总体g k 中。独立模拟出个疾病组和靠个对照组 在总体中,荚有。j k = r 个疾病组和。s = s 对照组。记基因型( g o ,g 1 ,g 2 ) = ( a a ,a 口,) 。在给定子总体g ;和基因型i 的条件下的发病率定义为 。= p ( c 瓣ig ,c k ) 其中i = 0 ,1 ,2 ,m = 1 ,j l f 给定子总体c k 的条件下的发 病率定义为k = p ( c a s e l c 。) = p ( g t i c k ) 如。,其中p ( q i c k ) 可以通过在 给定予总体c k 的条件下的高致病基因p m 下用哈代温伯格平衡率获得由此。 依照和s l a g e r 等( 2 0 0 1 ) 和f r e l d l i n 等( 2 0 0 2 ) 的工作中相同的方法。给定子总 体c 的条件下疾病组和对照组的基因型( c o ,g l ,c 2 ) 可表示为p ( g d c a s e ,c k ) = p ( g d c , , o 脓和p ( 戗 c o n t r o l ,) = p ( g i i ) ( 1 - ) ( 1 一k ) 。有了这 些公式后,下面就是我们产生随机数据的算法:第一步,在每个子总体内部 给定高致病基因概率和在各种遗传方式下的发病率,i m ,i = 0 ,1 ,2 。并同 8 第二章稳健性检验 时给定疾病组和对照组的个数r ,。和s 。注意到在疾病与标记位点基因无关 联的原假设等价于对每个m ,= ,l 。= ,k 第二步。计算出p ( 倪l c k ) 和,并同时计算出在每个总体内发病的条件下和不发病的条件下的基因型概 率p 觚= p ( g d c a ,c k ) 和q h = p ( q l c o n t r o l ,c k ) 第三步,从多项分布m u i ( p h ; 跏,p l 。,p 斯) 和m 1 l l ( s 。;q o m ,q h ,q 拥) 中独立的模拟出在每个子总体内部疾病 组和对照组的基因型个数( r m 。,) 和( s 0 ,1 8 l 。,8 2 m ) 第四步把每个子总 体内部各个基因型的个数相加,既是r i = 。r 拥和如= 。s i r e ,i = 0 ,l ,2 在l 个不相关位点上的随机数据是独立模拟产生的。其算法类同于算法( i ) 只 是在每个子总体内部的高致病基因是从均匀分布u ( 跏一0 0 5 ,舫+ 0 0 5 ) 随机产 生的 算法( i i ) 类同于b a c a n u 等( 2 0 0 0 ) ,z h e n g 等( 2 0 0 5 ,2 0 0 6 ) ,l e e 等( 2 0 0 4 ) 的 工作我们同样考虑m 个总体,对每个子总体,产生j k 个疾病组和个对照 组。第一步,先给定一个祖先总体的高致病基因概率p ,并同时给定近亲繁殖系 数f 和在不同遗传方式下的发病率,0 , ,2 ( 在原假设下,o = = ,2 ) 第二步 在每个子总体内部,从贝塔分布b e t 8 ( ( 1 一f ) p f i ( 1 一f ) ( 1 一v ) f ) e p 随机产生各 子总体的高致病基因概率p 。,其中e ( p 。) = p ,v a r ( 跏) = p ( x p ) f ,而f 趋近 于0 时方差也趋近于0 。第三步,类同于算法( i ) ,产生每个子总体的疾病组和 对照组其中k = p ( q i ) 五,p ( g d e a e e ,c m ) = p ( q ) ,p ( g i i c o n t r o l ,c , u ) = p ( g i i c ) ( 1 一f d o k ) 。注意到在原假设下p ( g d e a s e ,c m ) = p ( g i l c o n t r o l ,c k ) = p ( q i c k ) 为了产生l 个不相关位点的随机数据。每个不 相关位点等位基因的祖先总体的高致病基因概率p + 从均匀分布u ( v 一0 0 5 ,p + 0 0 5 ) 中产生,其余的步骤类似于在标记位点等位基因产生随机数据的方法 表2 和表3 分别表示的是在群体分层的情况下估计出的i 型错误和功效。我 们考虑的子总体个数为2 个或3 个( m = 2 ,3 ) 。当m = 3 时,高致病基因概率分 别为p 1 = 0 i ,p 2 = 0 3 ,和船= 0 2 。当m = 2 时,高致病基因概率分别为p l = 0 2 和船= 0 4 我们共考虑3 种情形。在情形1 ,每个子总体内部的致病组和对照组 的个数相同。在此情形下,我们在有3 个子总体时固定兄l = 最= 1 0 0 ,忌= 岛= 9 中国科技大学硕士论文 1 0 0 ,r s = 昆= 5 0 ;在有2 个子总体时固定觑= s l = 1 0 0 ,r 2 = 岛= 1 0 0 在 其余两种情形下,每个子总体内部的疾病组和对照组的个数不相同。情形2 的 情况十分极端,3 个层时,( r 1 ,毋) = ( 1 5 0 ,5 0 ) ,( 励,) ;( 5 0 ,1 0 0 ) ,( r s ,岛) = ( 5 0 ,1 0 0 ) 两个层时( r 1 ,s 1 ) 一( 1 5 0 ,5 0 ) a n d ( 飓,) = ( 5 0 ,1 5 0 ) 。在情形3 时。3 个 层时( 2 1 ,s 1 ) = ( 1 0 0 ,7 5 ) ,( r 2 ,昆) 一( 7 5 ,1 0 0 ) ( r s ,s s ) = ( 7 5 ,7 5 ) ;两个层 时( 风,是) = ( 1 2 0 ,s o ) 。c r 2 ,昆) = ( 8 0 ,1 2 0 ) 在原假设下。给定高致病基因概 率时,通过哈代温伯格平衡率算出的每个子总体内部的疾病组和对照组的基 因型概率相同在对立假设下,通过确定三种遗传方式下的发病率来使趋势检 验统计量硒,孔,2 或丑的功效保持在8 0 左右对于基因对照方法( g c ) 来说, 通过5 0 个不相关位点的趋势检验统计量的均值来确定方差膨胀因子( v i f ) 表2 的结果分为m = 3 和m = 2 每一种分层共用三种方法:无修芷,使 用d c 修正和使用g c 惨正。在每个子总体内部致病组和对照组的个数相同的情 形l 下,无修正和经过d c 修正所对应的6 个统计量的i 型错误很接近于理论期待 值。这说明对于它们来说,群体分层的影响,即使是存在的,也是十分小的 经过g c 修正的统计量的i 型错误略微大于理论值0 0 5 这说明使用g c 方法会产 生较大的方差。在其他两种子总体内部疾病组和对照组个数不相同的情形下, 无修正所对应的六个检验统计量的i 型错误值会产生膨胀。然而,通过d c 修正 的六个检验统计量的i 型错误值很接近理论值。和d c 相比,g c 的总体表现则 不够理想。g c 只能在予总体内疾病组和对照组的个数相差不大时有很好的表 现。由此,我们得出的结论是,在群体分层的情况下,d c 比g c 更值得信赖。当 然在g o r r o o c h u r n 等( 2 0 0 6 ) 的工作中,在更强烈的情形下它们也得到了类似的 结果他们只使用了趋势检验统计量和其它自由度为1 的统计量进行比较,我 们关于稳健检验统计量的工作是对于他们的工作的一个很好补充 在表3 中,我们只比较了六个经过d c 修正的统计量的功效。由于在复杂疾 病下遗传方式经常是不可知的我们通过比较检验统计量在三种不同的遗传 方式下最小的功效来判断它们的优劣一个有着更大最小功效的统计量要比 有较小最小功效的统计量稳健,这也称作功效的m i n i m a x 准则从表3 可以看 1 0 第= 章稳健性检验 出,当遗传方式是可以预知的隐性可加或显性时,死,孔2 和马是最好的选 择。当遗传方式不知道时,使用选错模型的趋势检验统计量会导致功效的大 量降低。举例来说,在隐性遗传下表格第一行的而统计量的功效是8 0 8 。然 而在显性遗传下使用而统计量的功效只有不到2 0 在实际工作中,一些统计 学家建议当遗传方式不知道时使用五2 来检验相关性。然而实际上,当遗传方 式是隐性时使用可加性的趋势检验统计量会损失大量的功效在三种遗传方 式下而和孔的最小功效均小于2 0 ;丑2 得最小功效略大但也远小于三种稳健 检验统计量的最小功效。在各种遗传方式下六种检验统计量的功效的最小值 均在表3 中以黑体标明从表中可以看出,p e a r s o n + 方检验和m a x 检验的功效 最小值为大约7 0 而相对应的正确模型下的趋势检验的功效为大约8 0 注意 到m a x 检验的功效总是略大于卡方检验。z h e n g 等( 2 0 0 6 ) 在无群体分层的条件 下也得出了类似的结论然而。两者之间的差别只有不到5 。再考虑到m a x 检 验需要比卡方检验多的多得模拟来确定分布分位数。所以当有很多条的s n p 需 要检验时,p e a r s o n 卡方检验更值得采用。 表4 和5 给出了在群体近亲婚配的条件下模拟出的i 型错误和功效。我们只 考虑了三个子总体这一种情况而祖先高致病基因概率只考虑了p = 0 1 和p = 0 3 两种情况近亲繁殖系数定为f = 0 0 5 同表2 和3 一样,我们也考虑了予 总体疾病组和对照组个数匹配一种情况和两种不匹配情况样本个数详见相 关表格。 在表4 中,当子总体疾病组和对照组个数匹配时,无修正和经过d c 修正所 对应的6 个统计量的i 型错误很接近于理论期待值。但当个数不匹配时,d c 方 法也不能很好的控制i 型错误。另一方面,当p = o 1 时,g c 修正的统计量的i 型 错误比理论值略大;而当p = 0 3 时,除了m e r t 统计量外,其余经过g c 修正 的统计量的i 型错误都比较接近理论值( 因此,我们关于功效的比较将集中 于三个趋势检验和其余两个稳健性统计量。) 综合来说。在群体近亲婚配的 情况下g c 方法比d c 方法表现好。表5 只考虑了经过g c 修正的检验统计量的功 效。我们同时选择适当的发病率使正确模型下的趋势检验统计量的功效大约 1 】 中国科技大学硕士论文 为8 0 。表5 的表式格式类同于表3 。在每种情形下三种遗传方式中各统计量 中最大的功效都以黑体表明。表5 的结果表明当遗传方式不可知时g c 修正 的m a x 检验和p e a r s o n 卡方检验比g c 修正的趋势检验更加稳健,而经过g c 修 正的m a x 检验和p e a r s o n 卡方检验的功效大体相同。所以,在群体近亲婚配的 条件下,当标记位点很多时可使用p e a r s o n 卡方检验,而当候选位点不多时可 选用m a x 检验 总体来说,当遗传方式不可知时,选错模型的经过g c 或d c 修正的趋势检 验会损失许多功效然而,经过g c 或d c 修正的p e a r s o n 卡方检验和m a x 检验可 以保持相当的功效,即使是与正确模型下对应的趋势检验相比也不逊色多少。 另外,经过g c 或d c 修正的m a x 检验在六个检验中最为稳健。然而,p e a r s o n - e 方检验经常更有效,因为它所需要的模拟次数不多且它的功效也不低。 第三章中心化的基因对照方法( c g c ) 由于g c 不能修正p s 带来的影响而d c 不能修正c r 带来的影响有必要提 出一种既能修正p s 又能修正c r 带来的影响的方法。基于此种考虑,我们结 合g c 和d c 提出了一种新的方法,称为中心化的基因对照方法( c g c ) 本章给 出了c g c 的理论并给出了计算机模拟试验的算法并对结果进行了分析。 3 1c g c w 法的提出 尽管g c 和d c 在群体近亲婚配和群体分层下各自表现的都很好,但是g c 不 能修正群体分层引起的偏差而d c 不能修正群体近亲婚配带来的方差偏离。实 际上,从样本数据中很难判断出其处于哪一种群体结构下或者两者兼而有之 所以提出一种既能修正群体分层又能修正群体近亲婚配的方法就是必须的。在 不知道群体结构的情况下,我们提出一种十分简单的既能修正偏差又能修正 方差偏离的方法,称为中心化的基因对照方法( c g c ) 此方法同g c 或d c 方 法一样简单易用。此方法除了简单和在统计学上有效之外,其另一大优点是其 不需要提前知道群体结构的具体情况具体来说,我们可以把趋势检验统计量 写成: z ( z ) = 仃( 曩v ) z + p ( 而叩) + e 。 ,q ) ,( 3 1 i ) 其中口( 霉,7 ) 0 而b ( $ ,7 ) 是一个随着n 趋于无穷大而趋于0 的随机误差。z 渐近 的服从n ( 0 ,1 ) 。因此,在以后的大样本研究中,我们可以把( 文目) 丢掉。当没有 偏差和方差偏离时,口如棚) = i 且弘0 ,功= o 。因此( 3 1 。1 ) 就是趋势检验统计量 的一个具体分解。g c 修正了口( 毛町) 而d c 修正了p ( 弘日) 。我们提出的新方法,则 同时修正y a ( x ,们和p ( z ,目) 。我们把z ( 功的分母的平方记为 ,( 。) ,它是在没有群 体结构时在原假设下u ( 霉) 的渐近方差。我们的算法使用了l 个不相关位点,它们 的高致病基因概率与标记位点等位基因概率匹配其具体步骤如下:( i ) 用不相关 位点等位基因的数据算出矽( z ) ,记为u ( x ) t ,其中f = 1 ,二。( i i ) 算出u ( z ) l , 1 3 主璺壁垫叁竺塑垒圭 u ( x ) l 的均值和标准差分别记为“( z ) 和s ( z ) 。( i i i ) 依下式算h 3 c g c 检验统计量: z c g c ( z ) = u c x 百) - ;厂u ( x ) 当没有群体结构时芦( 霉) * 0 且矿( z ) * y ( 霉) 。在群体结构存在的情况下,罨g c ( z ) 在原假设下渐近的服从f o ,l 一1 ) 。w h i t t e m o r e ( 2 0 0 6 ) 等研究了怎样的群体结 构( 群体分层或群体近亲婚配) 导致了偏差或方差偏离。依照他的结论,为了使 用正确的检验,就必须要知道群体结构的具体情况。我们的c g c 力- 法的一大特 点就是不需知道这一信息。 3 2c g c 的计算机模拟试验和结果分析 为了研究c g c 的表现,我们在群体结构存在的情况下比较7 z g c ( o ) ,z d c ) 和z c c , c ( e ) ,口= 0 ,l 2 ,1 的i 型错误依照w h i t t e m o r e 等( 2 0 0 6 ) 的研究和群体近亲 婚配的定义,在群体近亲婚配存在的情况下,趋势检验统计量无偏差所以g c 和c g c 由于能修正方差偏离故能较好的控制i 型错误,另一方面,d c 则不能修正群 体近亲婚配。因此,我们的模拟主要放在群体分层存在的情况下在所有的模拟 试验中,我们都使用5 0 不相关等位基因共使用r 一2 5 0 个疾病组和口= 2 5 0 个 对照组为了便于比较,没有修正的趋势检验的i 型错误也在表中给出( 在表中 标为 n o ”) 所有的模拟都循环t m ,0 0 0 次我们把模拟试验共分为三种情况 第一种模拟等同于p r i c e ( 2 0 0 6 ) 等人在群体分层下使用的模拟方式而其余两种 类似于d e v o n 和r o e d e r ( 1 9 9 9 ) 使用过的模拟方式,但是我们使用分层抽样这 种分层抽样可能会导致额外的偏差和方差偏离故可用来检验匹配的疾病对 照设计能否消除偏差和方差偏离故每一种情形都分为基因概率匹配( y 两) 和 基因概率不匹配( n o ) 。 第一种模拟方式称为随机s n p s 。我们给定子总体个数( ,= 2 ,5 ) ,近亲繁殖 系数f = o 0 0 ,o 0 0 5 ,o 0 1 ,和0 0 5 ,疾病对照数据中各子体所占比例和发病率,分 别记为和码,j = 1 ,j ) 。在每一个循环中,我们从均匀分布u ( o 1 ,0 5 ) 中随 机模拟出祖先高致病基因概率加然后,我们从贝塔分布b e t a ( ( 1 一f ) p f , ( 1 一 1 4 f ) ( 1 一p ) f ) ( f o ) 中独立随机模拟出每个子总体的高致病基因概率乃u = 1 ,j ) 。此贝塔分布的均值和方差分别为p 和p ( 1 一p ) f 当f = o 时,丹= p 。 假设在每个子总体内部哈代温伯格平衡律成立,在第j 个子总体内的基因型概 率从下式得出:鲫= p r ( g o ) = ( 1 一力) 2 ,9 l j = p r ( g , ) = 2 p j ( 1 一功) ,9 材= p r ( g 2 ) 碡,其中( g o ,g 1 ,g 2 ) = ( n n , n m ,m m ) 。由此,在随机抽样下疾病组 和对照组的基因型概率为:p ;= p r ( g d c a s e ) = 乏善lq b 名lq 白和酊= p r ( g i l c o n t r 0 1 ) = 盘1 w j ( 1 一k j ) g , j e ;量l 嘶( 1 一向) 最后tr 个疾病组和。个对 照组的基因型个数就可以从多项分布m u l ( r ;瑞,西,p 主) 和m u l ( s ;菇,虻,虻) 中模 拟得出。当基因概率不匹配时,不相关位点的数据就如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论