(概率论与数理统计专业论文)基于连锁不平衡的基因交互定义的推广及其检验.pdf_第1页
(概率论与数理统计专业论文)基于连锁不平衡的基因交互定义的推广及其检验.pdf_第2页
(概率论与数理统计专业论文)基于连锁不平衡的基因交互定义的推广及其检验.pdf_第3页
(概率论与数理统计专业论文)基于连锁不平衡的基因交互定义的推广及其检验.pdf_第4页
(概率论与数理统计专业论文)基于连锁不平衡的基因交互定义的推广及其检验.pdf_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基因交互是一个极其重要而又复杂的概念传统上定义基因交互效应为单个基因主效应的 统计残差,这被称为统计交互统计交互最大的缺点是缺乏生物学上的解释,而且检验的功效 比较低z h a oe ta 1 ( 2 0 0 6 ) 提出了两个不连锁位点的新的交互定义,使其在生物上有一定的解 释本文把这个定义推广到连锁的情形,并且用y i ne ta 1 ( 2 0 0 7 ) 提出的异质性检验统计量进行 检验在全基因组研究中,我们用两步法来检验基因交互,即先检验位点的主效应是否显著, 然后再检验那些主效应显著的位点的交互作用 关键词:基因交互;连锁不甲衡系数;异质性检验;两步法 i a b s t r a c t g e n e - g e n ei n t e r a c t i o ni sav e r yi m p o r t a n tb u tc o m p l e xc o n c e p t t r a d i t i o n a l l y , g e n e - g e n e i n t e r a c t i o ni sd e f i n e d 嬲as t a t i s t i c a ld e v i a n c ef r o mt h ea d d i t i v ee f f e c t so fs i n g l eg e n e s w h i c h i so f t e nr e f e r r e dt oa s “s t a t i s t i c a li n t e r a c t i o n ”b e t w e e ng e n e s t h em a x i m a ld i s a d v a n t a g eo f s t a t i s t i c a li n t e r a c t i o ni sl a c k i n go fc l e a rb i o l o g i c a li n t e r p r e t a t i o no fg e n e - g e n ei n t e r a c t i o n ,a n d t h ep o w e rt od e t e c tg e n e - g e n ei n t e r a c t i o ni s1 0 w z h a oe ta 1 ( 2 0 0 6 1p u tf o r w a r dan e wd e f i n i t i o n f o ri n t e r a c t i o no ft w ou n l i n k e dl o c i ,w h i c hc a nb ei n t e r p r e t e di nb i o l o g y h o m o p l a s t i c a l l y , w ew i l l p u tf o r w a r dan e wd e f i n i t i o nf o ri n t e r a c t i o no ft w ol i n k e dl o c i ,a n dw ew i l lu s eh o m o g e n e i t yt e s t g a i n e db yy i n e ta 1 ( 2 0 0 7 ) i ng e n o m e w i d ea s s o c i a t i o ns t u d i e s ,w ef o c u so nt w o - s t a g e - a n a l y s e s : a n a l y s e si nw h i c hw eo n l yt e s tf o ri n t e r a c t i o n sb e t w e e ns i n g a ln u c l e o t i d ep o l y m o r p h i s m st h a t s h o w ss o m em a r g i n a le f f e c t k e y w o r d s :g e n 争g e n ei n t e r a c t i o n ;l i n k a g ed i s e q u i l i b r i u mp a r a m e t e r ;h o m o g e n d t yt e s t ; t w o - s t a g ea n a l y s e s i i 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名: 整殓 日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 整逊 指导教师签名: 日 期:趁坌2 。吐,跎 e t期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 1 引言 遗传学研究表明生物的性状是基因和环境相互作用的结果,其中基因起到决定性的作用, 但基因和性状之间并不是严格的一一对应的关系,有些性状是多个基因共同作用的结果,例如 很多疾病足由于多个基因共同导致的复杂疾病是人类生命的重大威胁,科学家一直在探索复 杂疾病的发病原因现代科学研究表明,复杂疾病往往是由多个基因共同导致的比方说,糖 尿病( c o xe ta 1 ( 1 9 9 9 ) 1 1 ,e l s t o ne ta 1 ( 1 9 7 4 ) :1 ) ,乳腺癌( r i t h c h i ee ta 1 ( 2 0 0 1 ) 3 ) 都是由多个 位点共同导致的传统上我们做关联分析直接去找致病基因,但对复杂疾病这往往是不够的, 此时研究“基因基因”交互,“基因环境”交互显得尤为重要发现基因与基因的交互 可能有助于发现潜在的疾病关联途径,从而有利于发现那些处于极度危险中的人1 4 基因交互是一个极其重要而又复杂的概念【5 】,时至今日都没有一个被广为接受的交互的定 义f i s h e r ( 1 9 1 8 ) 6 定义基因交互效应为单个基因主效应的统计残差,后来c o c k e r h a m ( 1 9 5 4 ) 7 , k e m p t h o r n e ( 1 9 5 4 ) i s 把这个定义发展为线性模型或广义线性模型中的交互项,这就是传统的 统计交互应该说统计交互概念的提出是一个质的飞跃,至少给我们提供了基因交互的一种理 解但统计交互也有许多不足之处,首先足缺乏生物学上的解释,即使发现了统计交互,也无 法说存在生物上的交互;其次识别交互的功效非常依赖于数据结构基于以上几点考虑,z h a o e ta 1 ( 2 0 0 6 ) 9 年提出了两个不连锁位点的新的交互定义,使其和连锁不平衡系数联系在一起, 从而在生物上有一定的解释通过模拟表明,检验的功效能大大提高 本文的目的是把z h a oe ta 1 ( 2 0 0 6 ) o 提出的基因交互的定义推广到一般的情形( 连锁) , 新的基因交互定义为病例组与对照组连锁不平衡系数差的绝对值,同时我们引用了y i ne t a 1 ( 2 0 0 7 ) f l o 】提出的异质性检验统计量进行检验值得注意的是我们关心的事情不一样,但所 用的工具是一样的,表明了异质性检验与交互检验有着密切的联系 为了更好的认识和研究复杂疾病,人们发现不能只针对单个基因进行研究,而必须要考虑 基因之间的交互作用以及基因与环境之间的交互作用,因此要从全基因组中寻找和定位致病 基因在此启发下,被誉为生命科学“阿波罗登月计划”的国际人类基因组计划( t h eh u m a n g e n o m ep r o j e c t ,h g p ) 于1 9 9 0 年正式启动该计划旨在精确测序由3 0 亿个碱基对构成的 人类基因组序列,发现所有人类的基因,并且确定这些基因在染色体上的位置,并最终弄清所 有基因的具体功能人类基因组计划草图于2 0 0 0 年提前宣告完成,2 0 0 1 年发表人类基因组初 稿,并于2 0 0 3 年全部宣告完成现在人类基因组的研究重心已经由结构转向功能,疾病基 因关联分析也由单个基因转向全基因组在全基因组中不仅要研究单个基因与疾病的关系, l 东北师范大学硕士学位论文 更重要的是研究多个基因是如何共同导致疾病的,也就是基因之间的交互作用在全基因组中 研究基因交互最大的困难就是位点的数目大,如果所有可能的交互都检验的话,那么计算量很 大,效率很低,检验的功效很低针对这个问题,k o o p e r b e r ge ta 1 ( 2 0 0 s ) 【1 1 】提出了两步法识 别基因交互,基本想法是先检验位点的主效应是否显著,然后检验主效应显著的位点的交互 本文借鉴两步法的思想,不过无论在检验主效应还是交互效应都和原文有很大差别 2 东北师范大学硕士学位论文 基因交互的定义及发展 2 1 传统的统计交互 基因交互是一个非常重要而又复杂的问题, f i s h e r ( 1 9 1 8 ) 6 在数学上定义基因交互效应 为单个基因主效应的统计残差,这个定义往往被称为统计交互后来c o c k e r h a m ( 1 9 5 4 ) 7 , k e m p t h o r n e ( 1 9 5 4 ) i s 把这个定义发展为线性模型或广义线性模型中的交互项,下面首先介绍 一下传统的统计交互 设z l i ,x 2 i ,i = 1 ,佗为预测变量,m 为响应变量,当取连续值时,我们考虑用线性 回归模型 。 = 风+ 岛x l i + 2 x 2 i + 岛z n z 2 + e i ; 当m 取离散值( 两值) 时,我们考虑用l o g i s t i c 回归模型 l o g i t ( p ( y i = 1 i z l i ,x 2 i ) ) = 风+ p l z l i + 3 2 x 2 i + 8 3 z l i x 2 i 在我们研究基因交互效应时,z 1 ,z 2 i 为我们考虑的两个位点,其上等位基因取值分别为0 或 1 ,k 为人的性状,可以是身高等连续取值变量,也可以是得不得病( 取值为0 或1 ) 等离 散取值变量我们关心的问题是两个位点是否交互,对应的检验是 h o :风= 0h 风:岛0 这就足传统的统计交互基于l o g i s t i c 回归模型的统计交互被统计工作者广泛应用 1 2 “1 4 ,但 统计交互有许多缺点: ( 1 ) 统计交互纯粹从数据出发,缺乏生物学上的解释,即使发现了有统计交互,也无法 在生物学上解释; ( 2 ) 是否交互和选取的模型有关,比方说我们刚刚只选取了z 1 ,z 2 t 两个预测变量,但 如果加上其它的预测变量所得的结果可能不一样; ( 3 ) 检验交互的功效受数据结构的影响比较大 , 鉴于以上考虑,许多统计工作者都在试图找一个合适的基因交互的定义,使其在生物学上 有一定的解释,而且能够提高检验的功效z h a oe ta 1 ( 2 0 0 6 ) 9 1 提出了两个不连锁位点交互的 新的定义,使得其与连锁不平衡系数联系在一起,从而有了生物学上的解释,通过模拟表明, 3 东北师范大学硕士学位论文 检验的功效能大大提高下面我们介绍z h a oe ta 1 ( 2 0 0 6 ) 9 提出的两个不连锁位点交互的新的 定义及其检验 2 2 两个不连锁位点交互的定义 假设有两个疾病位点a 和b ,满足哈代温伯格甲衡( h w e ) 且不连锁两个位点上的 等位基因分别为( a o ,a 1 ) ,( 玩,b 1 ) ,取值分别为0 和1 p a 。,( i = 0 ,1 ) 表示a ,鼠在 普通人群中的等位基因频率,磁,磷,磋,磋表示a o ,a 1 ,岛,b 1 在得病人群的等位基因频 率两位点的基因型用i j k l 表示,对应的两条单倍型为i 忌与歹z ,双倍型的外显率为向舰 p o o ,1 o l ,t 1 0 ,只1 表示在普通人群中单倍型e 4 。b o ,e 4 0 b 。,e 4 ,b 0 ,巩,b ,的频率,定义单倍型玩 的外显率为 h i k = p a l b l 五1 詹1 + p a l 尸l b o f i l k o + p a o p b l 知k l + 尸a 0 尸硗f t o k o 令6 = r 。b 。一r ,岛。表示在普通人群中连锁不平衡( l d ) 系数,由定义知得病人群中的连锁 不甲衡系数为弘= 磁b 。一磁磁,通过推导得到 6 a :p a lp b i p a o p b o 面( h 厂l lh o o - h l o h 0 1 ) , 1a 由此在文献9 中定义 i = h 1 1 h o o h l o h m 为两个不连锁位点交互的测度当i = 0 时表示两个位点无交互,当,0 时表示两个位点 在普通人群中是连锁平衡的,但在得病人群中是连锁不平衡的,这主要是由两个位点交互导致 的 为了进一步理解这个定义,我们从两方面进行解释首先当无交互时通过推导得到 = 警,鲁= 万h a l 万h b l , 这表明当无交互时在得病人群中含有某单倍型的比例等于在得病人群中含有此单倍型中的等 位基因的比例之积,类似连锁平衡,从而表明只有当两位点对疾病的作用相互影响时才会产生 交互,这符合我们对交互作用的直观理解;其次这篇文章还得到了一个重要的结论,一般我们 都足考虑标记位点,标记位点在生物上交互是没有意义的,但是当两个标记位点和两个不连锁 的交互的疾病位点靠得很近时,他们之间的交互也可以被发现假设标记位点m 与疾病位点 a 是连锁不平衡的,标记位点m 2 与疾病位点b 是连锁不平衡的,可以得出以下关系 翰= ( f 1 ( f 2 ( h l lh o o h i o h 0 1 ) 焉 4 = 砑p a 器瓦护, = = 一u 。p b 。p b 。 东北师范大学硕士学位论文 其中嘞为两个标记位点在得病人群中的连锁不平衡系数,6 1 是尬与a 在普通人群中的连 锁不甲衡系数,如为m 2 与b 在普通人群中的连锁不平衡系数这个结论有非常重要的理论 和现实意义:首先,当6 1 0 ,如0 时6 刍= 0 与铲= 0 是等价的,换句话说,要想检验两 个疾病位点的交互就等价与检验它们附近的标记位点的交互;退一步说当我们对6 1 和6 2 不作 任何假设,也有。当翰0 时必有5 a 0 ,这说明如果我们发现了两个标记位点有交互,那 么它们附近必然有疾病位点,并且疾病位点是有交互的,这在某种程度上可以看成是我们通过 寻找标记位点的交互来发现疾病位点的理论基础 我们关心的检验是h o :i = 0 一h 1 :i 0 ,用的统计量是 其中 乃= 等等, 以= 簏一彪罄,知= a 。一户a ,户b 。, 以= 丝蔓凼垡导盟丝型出, 移p a ,( 1 一p a 。) p b ,( 1 一p b 。) + ( 1 2 尸a 。) ( 1 2 p b 。) j 一6 斋i , r := 。 2 n c n a ,佗g 是病例组与对照组各自的样本量我们称此统计量为基于l d 的统计量,这里构造此统 计量的原因是由于两个不连锁位点交互会导致这两个位点在普通人群中是连锁平衡的,但在 得病人群中是连锁不平衡的,所以可以通过比较病例组与对照组中的连锁不平衡水平来检验 交互可以证明,在凰下,丑一x 齐、 5 东北师范大学硕士学位论文 3 一般情形下两个位点交互的定义及其检验 3 1一般情形下两个位点交互的定义 本文的主要目的是把z h a oe ta 1 ( 2 0 0 6 ) t 9 1 提出的两个不连锁位点交互的定义推广到一般 情形当两个位点连锁时,这里存在的最大的混杂是连锁信息,所以我们想试图把这种混杂消 去受文献9 的启发,下面我们给出本文提出的一般情形下两个位点交互的定义 定义3 1 设以,n 分别表示病例组与对照组中的连锁不平衡系数,我们定义一般情形下 两个位点交互的测度为 i = i n 一以| 对这个定义我们可以从以下几方面理解; ( 1 ) 首先这个定义适合于不连锁的情形,所以它可以作为一般情形下交互的定义; ( 2 ) 当i = 0 时表示两位点是不交互的,当,0 表示两位点是交互的 前面我们在介绍两个不连锁位点交互的定义时,我们都是在讨论普通群体与得病群体,令 曲为普通群体中的连锁不平衡系数,下面我们要研究n = 以与6 t = 以之间的关系,并解 释为什么用病例组与对照组连锁不平衡系数之间差异,而不用普通群体与得病群体连锁不平 衡系数之间的差异作为交互的测度 命题3 1 设磷,碟表示对照组中a 1 ,b 1 等位基因频率,磁,磺表示病例组中a 1 ,b 1 等位基因频率,当磷= 磷或磷= 磷时,n = 以车号而= 以 证明:设对照组中的样本量为佗1 ,病例组中的样本量为n 2 ,则总样本量为n = n 1 + 佗2 先证必要性,由定义得 n = 磷b ,一磷磷,以= 磁岛一磁磋, 再由条件蚧= 以,令6 = 6 n = 以,因此 由定义 磷b 。= 6 + 磷磷,硫b ,= 6 + 硫磺, 吩= p a l b l 一p a l p b l 竺! 型星! 竺丝星一竺! 丛竺丝兰! 型2 1 丝 n l + n 2n l + n 2n l + n 2 1 11 丛型! 生型丝堕塑一兰! 丛竺丝2 1 丛竺垡 n l + n 27 2 1 + n 2 n l + n 2 6 东北师范大学硕士学位论文 :6 + 垫丛里;竺丝鱼些型二纽些竺丝迎! 型竺丝2 i n :十n 2j :j + 2 1 型丛二丝丛竺二丝2 【扎1 + 礼2 ) 。 ,、o 当磷= 磁或磷= 磋时有西= 5 = 以 再证充分性,由条件5 t = 以,令j = 而= 5 a ,由定义 g n = 磷b 。一磷磷 佗p a l b l 一n 2 尸盆日竹p a l 一n 2 尸乏n p 1 一t t 2 尸参 := :- - - - - _ - - - - - - - - - - - - - - - - - 二:- - :;一- - - - - - - - - - - - - - - - - - 二- - - - - - - - - - - - ,- - - - - 二 n 1n 1n l 几( 6 + p a l - p s l ) 一n 2 ( 5 + 磷磺)亿r l n 2 p a a l 几p b l 一n 2 磁 孔1n 1几l 。n n 2 ( p a 。一磁) ( 岛。一磺) 一一可一 所以当p a ,= 硫或p b ,= 磋时,如= 占= 5 a 容易证明p a 。= 磁告净p 。n 。= 磁, p s ,= 磋甘p 。n 。= 磋,所以当磷= 咒或磷= 磴时,g n = 5 = 5 a 证毕 通过这个命题我们可以看出,在一定条件下用病例组与对照组连锁不平衡系数之间的差异 与用普通群体与得病群体连锁不平衡系数之间的差异作为交互的系数是等价的一般情况下, 两者是不等价的因为普通群体中含有病例组与对照组,本身就存在群体分层,这个时候普通群 体中的连锁不平衡系数的估计值在很大程度上就依赖于病例组与对照组样本量的比值,这时检 验就很不稳定而且从交互本身的含义也知道,交互导致的是对疾病的作用,它是与正常人作比 较的,所以我们认为用病例组与对照组连锁不平衡系数之问的差异作为交互的测度是合理的 3 2 两种情况 在遗传统计学的研究中,我们经常会碰到混杂的问题比方说我们在研究吸烟是否与肺癌 有关联时,如果我们把所有的数据等同视之,很有可能会得到伪关联,因为这里面可能存在年 龄,性别等混杂因素,很有可能是这些混杂导致了关联在实际研究中我们处理混杂因素有两 种方法t 分层抽样与匹配抽样分层抽样就是根据混杂因素把整个群体分成若个子群体,每个 子群体中的混杂因素是一样的,然后在每个子群体中抽样和检验比方说研究吸烟是否与肺癌 有关联时,我们可以分若干个年龄段进行抽样,然后在每个年龄段进行关联分析,这样就可以 避免因年龄混杂造成的伪关联鉴于以上考虑,下面我们分两种情况来讨论:无群体分层,有 群体分层 7 东北师范大学硕士学位论文 ( 1 ) 无群体分层情形 我们关心的问题足h o :,= 0 一h 1 :i 0 ,由我们刚刚定义的基因交互新的定义我们 关心的检验就等价于h o :5 n = 以一h 1 :5 5 a 从文献9 推导过程中不难发现原文在 推导方差的估计值时并未用到5 = 0 信息,所以原文中的统计量依然可以用,容易知道水平 为q 的拒绝域为 乃 x ;,( 1 一。) ) 下面我们给出以,h 的另外两个表达式,可以证明这两个 表达式与原来是相等的 我们用的是6 方法,记户= ( 户1 1 ,a o ,p 0 1 ,p o o ) r ,p = ( 只1 ,只o ,p 0 1 ,) t ,则 户一( p ,去) ,其中e = d i a g ( p 1 1 ,p 1 0 ,p 0 1 ,p o o ) 一p p t 记t = ( t 1 1 ,t l o ,t 0 1 ,t o o ) 丁,令 i ( t ) = ,( t 1 1 ,t l o ,t 0 1 ,t o o ) = t 1 1 t o o t l o t m 由于知= p 4 1 ,p “o o 一矗o p o l = f ( p ) ,由中心极限定理知 2 v 呖- s ( p p ) 一n ( o ,) 又因为 而o f k p = 岛。,瓦o f 。i t = p = - - 昂,瓦a y 。i t = p = - - - - p 1 。蒜k p = 只, 记c = ( ,一r 1 ,一只o ,p 1 1 ) r ,则由5 方法,知 佤( ,( 户) 一,( p ) ) 一n ( o ,c t c ) , 从而 厩( 知一h ) 一n ( o ,c t c ) , 即 知 ( 去吨以 令v = c t e c ,则 v = p g o p l l + 瑞日。十瑞岛1 + 玮r o 一4 ( p 1 1 p o o 只。局1 ) 2 = p 1 1 p o o ( p 1 1 + r o ) + 只o r l ( p 1 0 + 晶1 ) 一面2 由于p a ,= p n + r i o ,p u ,= 岛1 + p l l ,可以验证我们得到的方差与原文是相等的( 只需把两 式相减验证等于0 即可) 以后在用基于l d 的统计量时,方差也可以用这里推导的 在后面我们会介绍y i ne ta 1 ( 2 0 0 7 ) 1 0 】提出的异质性检验统计量,此统计量也可用来检验 这里关心的问题 ( 2 )有群体分层情形 8 东北师范大学硕士学位论文 在实际问题中,除了连锁还会有许多其它的混杂因素比方说年龄,性别,种族等,所以 考虑群体分层是很有必要的假设有k 个群体,每个群体混杂因素的水甲是一样的,关心的 问题是两位点是否有交互,即检验 h o l :3 a 1 = 6 lh 玩l :以1 3 n 1 , h 0 2 :6 a 2 = t i n 2 h h 1 2 : 5 a 2 5 n :, h o k :以k = 3 n kh 研k :5 a k 占, 其中以。,5 n k ( k = 1 ,k ) 分别表示第k 个群体中病例组与对照组中的连锁不甲衡系数 我们判断两位点是否交互的标准是: ( 1 ) 当所有原假设均接受时,说明两位点无交互; ( 2 ) 当其中有某个原假设不成立时,说明两位点有交互 容易看出这样检验比混在一起检验效果要好,因为它避免了混杂导致的伪交互这里有几 种方法去检验,比方说可以用多重检验,但多重检验效率比较低,所以本文中就不采用多重检 验的方法在本文中我们采用y i ne ta 1 ( 2 0 0 7 ) 1 0 】提出的异质性检验统计量,在下面一节我们 将介绍这个统计量及其渐近分布 3 3 异质性检验统计量 假设有k 个群体,关心两位点a 和b ,两个位点上的等位基因分别为( a o ,a 1 ) ,( 岛,b 1 ) 用r 知表示第k 个群体中a 岛的概率,其中i ,j = 0 ,1 ;k = 1 ,k ,第k 个群体的连锁不 平衡系数是以= p 1 l k p x + k p + l k 其中p x + k = p l o k + p 1 1 k ,p + l k = p o l k + 尸1 1 七,这里关心的 问题是检验 h o :6 1 = = 6 khh 1 :瓯6 j ,3 i j 值得注意的是本文与y i ne ta 1 ( 2 0 0 7 ) 1 0 】所关心的问题足不一样的,本文关心的是交互,而y i n e ta 1 ( 2 0 0 7 ) 1 0 】关心的是异质性检验但细看又有相似之处,比方说在检验h o :5 n 1 = “。一 风:6 】以,其实可以看成是异质性检验k = 2 的特例,因此我们可以用y i n e ta 1 ( 2 0 0 7 ) 1 0 】 的统计量来检验两个位点足否交互,但值得注意的是我们并不需要保证以。= 3 a := = 3 a k , 允许它们有差别,这一点和异质性检验是不一样的下面我们给出异质性检验统计量的提出及 其渐近分布的简要过程 令x i j k ( i ,j = 0 ,1 ,k = l ,k ) 表示在第k 个群体中单倍型a 马的数目,n k = x o o k + x o x kx l o kx l l k ,则 z 玎七:i ,j = 0 ,1 】一m ( n k , 知】) 注意到p o o k = p o + 七p + o k + c i k ,p i n k = 9 东北师范大学硕士学位论文 p o + k p + l k 一5 k ,p l o k = p 1 + k p + o k 一以,p 1 1 k = p 1 + k p + 1 k + 以,第k 组的对数似然为 如( 以,只+ 知,p + 1 知) = x o o kl n ( p o + 知p + o 七+ 6 七) + x o l kl n ( p o + 七j 9 + 1 七一6 凫) - x l o ki n ( p l + k p + o k 一5 k ) + x l l kl n ( p 1 + j c p + 1 七+ 5 k ) 令6 表示在凰下公共的连锁不平衡系数, p 1 + = ( 只+ 1 ,? 一,毋+ 七) ,p + 1 = ( p + 1 1 ,p + l k ) , 则在日。下,k 个群体总的对数似然为 我们构造得分统计量 其中 f ( 占,p 1 + ,p + i ) = x 2 :f j ,一 k = l k = l i k ( 5 ,p l + 南,p + l k ) s 磊( 6 ,p 1 + _ i c ,p + 1 七) 厶6 l p l + p + l k ( 6 ,p 1 + k ,p + l k ) & a ( 6 ,p 1 拍p + ,知) = 等= 瓦丽x o o k 一面丽x o l k 一瓦丽x l o k + 鼠p 1 + k ( 瓦p 1 + 七,p + 1 七) = x l l k 片+ 南p + 1 南+ 5 扰惫x o o k p + o kx o l k 耳l kx l o k p + o 南 一:= :一一+ 一一 l - - o p t + 七p o + 七p + o 知+ 6晶+ 南p + 1 七一j 。只+ 七4 0 七一6 。 鼠p + 。( 巧,p 1 + 七,p + ,- | c ) = 瓦o l k = 一瓦= x o o 瓦k p 而o + k一万= x l o 瓦k p 习l + k+ 瓦= x o l 瓦k p 习o + k + x l l k 尸+ 1 七 p l + 七p + 1 七+ 6 x l l kp 1 + 七 p 1 + 七p + 1 七十6 i k 6 1 p 。+ 。p + 。是& 6 ,瓯p 1 + 。,鼠p + 。的方差,协方差的一个函数,形式比较复杂,后面会给出简单 的表达式可以证明,在凰下,x 2 服从自由度为k 一1 的卡方分布但是由于6 ,p l + ,p + 1 在凰下的m l e 无显示表达式,从而使x 2 的应用受限 鉴于以上考虑,我们运用扩展到讨厌参数上的异质性得分统计量的理论1 1 5 】,对x 2 进行 修改修改后的统计量为 p = 喜案糍 1 0 筹熹拦 其中 p ;+ 知,霹1 膏满足以下方程组 肚弩掣 怎,蒜 可以证明,6 + 的相合性及在一定条件下足渐近有效的,为了计算方便我们得到了k 6 l p l + 。p + 。 的简单表达式: 其中 k 6 j p l + k p + l k = n k 峨( 6 ,p 1 + 太,p + 1 知) 魄( 正p 1 + 七,p + 1 七) = p l l k p 爱。七十p l o k p :;2 1 七+ p 0 1 知瑞七+ 碍七一4 6 2 可以证明,在凰下,x 2 + 服从自由度为k 一1 的卡方分布,所以水平为o l 的拒绝域是 x 2 。 ) ( 凳一1 ,( 1 一。) ) 1 1 0 0 i i = 掳 拙凡凡 知 岛 + + r b 幸 幸 p 咕 蠊 r 4 & & ,ljl【 东北师范大学硕士学位论文 4 在全基因组中基因交互的检验 在全基因组中研究基因交互作用最大的困难就是位点数量很大比方说当有5 0 0 0 0 0 个 s n p 位点时,要检验所有的二阶和三阶交互的数量分别有1 0 1 1 与1 0 1 6 ,这个数量足相当惊人 的如果所有可能的情况都检验,那么检验的功效肯定很低,而且会浪费计算机许多资源针 对这个问题,k o o p e r b e r ge ta 1 ( 2 0 0 s ) 1 1 】提出了两步法,基本思想是先检验单个位点主效应是 否显著,然后再在这些主效应显著的位点中检验两两是否有交互本文可以借鉴这种思想,基 本策略是首先检验主效应是否显著,然后再用异质性检验统计量或基于l d 的统计量检验两 位点是否有交互 下面我们介绍两种检验主效应是否显著的检验统计量:皮尔逊卡方统计量 1 6 1 与a r m i t a g e 趋势检验【1 7 1 假设我们随机抽样得到了n 1 个有病的个体和佗2 个正常的个体我们研究 的位点是a ,两个等位基因分别为a 1 和a o ,所得到的数据为下列的基因型数据;病例组 中基因型a i a l ,a 1 a o ,a o a o 的数目为现,d 1 ,d o ,对照组中基因型a 1 a 1 ,a 1 a o ,a o a o 的数目 为q ,a ,岛,记病例组与对照组总人数为扎= 礼1 + n 2 对应的等位基因数据为:病例组 等位基因a 1 ,a o 的数目分别为2 d 2 + d l ,2 d o + d 1 ,对照组等位基因a 1 ,a o 的数目分别为 2 6 2 + g ,2 c o + g ,病例组与对照组等位基因总数分别为2 n l ,2 n 2 ( 1 ) 皮尔逊卡方统计量 我们构造的皮尔逊卡方统计量为 y 专:坚堡里12 兰( ! 鱼鱼2 二! 兰鱼望12 兰! ! 鱼鱼进兰! 竺 a a ( 2 d 2 + d 1 十2 c 2 + c 1 ) ( 2 d o + d l + 2 c o + c 1 ) 2 n 1 2 n 2 如果记p d = 尸1l a f f ) ,p c = p ( a 1 l u n a f f ) ,则它们可以用相应的频率估计,即 户d = # ,岛= 瓦2 6 2 + - c 1 ,户= 堕号警监, 构造统计量 ,pdpc 、尸( 1 一p ) ( 击+ 壶) 可以证明x 刍= ( 互么) 2 注意到乙近似服从正态分布的,因此x 刍服从自由度为1 的卡方分 布 上述检验统计量被广泛应用到基因与疾病的关联分析中,但它有个隐含的假设:假设满足 哈代温伯格平衡但是我们前面分析可能有混杂因素造成群体分层,此时满足哈代温伯格甲衡 1 2 东北师范大学硕士学位论文 往往是不成立的,此时我们考虑用a r m i t a g e 趋势检验,这样可以减少第一类错误 ( 2 ) a r m i t a g e 趋势检验 假设有k 种风险因素,各状态对结果的( 有病与无病) 的影响不一样第k 种状态有k 个有病的个体,厶一如个正常的个体,其对病的影响值为z 知,记z = 七k :1l k ,l = 七k :1l k , 则构造统计量 y 2 : 坐叁! 照二! 叁;垒鲨 凡一z ( 三一z ) l 各。l 七z 2 一( 冬1l k z 七) 2 】 此统计量对应的检验方法被称为a r m i t a g e 趋势检验,此检验可解决两个问题: 1 。结果是否 与风险因素有关;2 。结果是否与风险因素的状态次序有关 a r m i t a g e 趋势检验可用来分析前面的基因型数据,此时基因型a 1 a 1 ,a 1 a o ,a o a o 为风险 因素的三种状态,对疾病的影响值分别为z 1 = 2 ,x 2 = 1 ,z 3 = 0 ,则相应的a r m i t a g e 趋势检 验x 2 统计量为 + ) 一 十+ )】2a2 n n ( 2 d 2 d 1 n l ( 2 d 2 d 1 2 c 2c 1 ”2 而面承西i i 再酉石可= 砸f 西订忑i 瓦研 令 ,pdpc 户( 1 一户) + ( r 。a ,一户2 ) 】( 击+ 赤) 其中p a ,a ,= 毕可以证明【1 8 】 ( z g ) 2 = x 各 大家注意到z 0 与乙的差别在于多了p a ,a ,一户2 项,当哈代温伯格平衡定律成立时 = 乙,所以可以把看成是乙的一个修正当近亲结婚或群体分层时,哈代一温 伯格平衡定律不成立,可以考虑用a r m i t a g e 趋势检验 1 3 东北师范大学硕士学位论文 5 模拟和结论 5 1模拟 这部分我们主要是用m o n t ec a r l o 方法比较基于l d 的统计量和异质性统计量的第一类 错误和功效 首先我们生成x 1 一s ( 1 ,p 1 ) ,x 2 一b ( 1 ,仡) ,这里分两种情况产生数据:独立与不独立 然后我们根据l o g i s t i c 回归模型 l o g i t ( p ( y = 1 1 x 1 ,恐) ) = 风+ p l x l + 侥恐+ 尻x 1 x 2 生成响应变量y 这里我们取阮= - 2 ,p 1 = 皮,样本量为1 0 0 0 ( 包括病例组与对照组) ,总 共模拟1 0 0 0 次,模拟的显著性水平为0 0 5 ,我们主要是比较两个统计量的经验第一类错误和 经验功效 ( 1 ) 模拟一s 选取p 1 = 0 7 ,p 2 = 0 6 ,x 1 与恐独立,卢1 = p 2 ,岛= 0 下图表示的是经验 第类错误与主效应胁之间的关系可以看出,两个统计量都能够比较好地控制第一类错误 横轴表示角,纵轴表示经验第一类错误,实线表示用基于l d 的统计量计算的结果,虚线表示 用异质性统计量计算的结果 ( 2 ) 模拟二:选取p a = 0 7 ,p 2 = 0 6 ,x l 与x 2 独立下面图2 a 表示p 1 = 倪= 0 时功效 1 4 东北师范大学硕士学位论文 与风之间的关系,下面图2 b 表示1 = 岛= - 1 时功效与风之间的关系,下面图2 c 表示 岛= 倪= 1 时功效与傀之间的关系由以上三图可以看出在三种情况下检验的功效都随着 风的增大而增大,这与我们的直观相符,在某种程度上也反映了我们定义的基于l d 的交互 与传统的统计交互有必然的联系另外我们还可以看出,在相同条件下,当p 1 = 倪= 1 时功 效最大,当卢1 = 岛= 0 次之,历= 岛= - 1 时最差,表明主效应对交互效应的检验有很大的 影响值得一提的是图2 b 与文献l l 中得出的结论不同,文献1 1 得出在p 1 = 恳= - 1 时功 效不足傀的单调函数当p 1 = 阮= 0 与p 1 = 岛= 1 时,异质性统计量比基于l d 的统计量 检验的功效稍大,当卢1 = 仍= - 1 时,基于l d 的统计量比异质性统计量检验的功效稍大 ( b ) 以上三幅图横轴表示风,纵轴表示经验功效, 表示用异质性统计量计算的结果 ( c ) 实线表示用基于l d 的统计量计算的结果,虚线 1 5 东北师范大学硕士学位论文 ( 3 ) 模拟一 - - s 选取p 1 = 0 7 ,仇= 0 6 ,卢1 = 尾= 0 ,岛= 0 , x 1 与恐不独立,相关系数为 p 下图表示的是经验第一类错误与相关系数之间的关系由此表可知,在p 取不同值时,两 个统计量都能够比较好地控制第一类错误,p 对第一类错误影响不大 横轴表示p ,纵轴表示经验第一类错误,实线表示用基于l d 的统计量计算的结果,虚线表示 用异质性统计量计算的结果 ( 4 ) 模拟四:选取岛= 尾= 0 ,图4 a ,图4 b ,图4 c 分别表示尻为1 , 1 5 ,2 时,检验 的功效与相关系数之间的关系从以下三个图中可以看出当p = 0 1 时功效最大,其次是当 p = 0 2 ,0 5 时,两种情况功效相当,当p = 0 3 ,0 4 时功效最低当p = o 1 ,0 2 时,异质 性统计量比基于l d 的统计量检验的功效稍大,当p = 0 4 ,0 5 时,基于l d 的统计量比异 质性统计量检验的功效稍大总得来说,两个统计量在各种情况下表现相当另一方面,当 p = 0 1 ,0 2 ,0 3 ,0 4 时,功效都随着岛的增大而增大,当p = 0 5 时功效不足风的单调函数, 这说明p 对功效的影响比较复杂 1 6 东北师范大学硕士学位论文 ( b )( c ) 以上三幅图横轴表示p ,纵轴表示经验功效,实线表示用基于l d 的统计量计算的结果,虚线 表示用异质性统计量计算的结果 ( 5 ) 模拟五:选取岛= 尾= 1 ,z 3 = 0 5 ,x 1 一b ( 1 ,0 9 ) ,下面图表示的是检验的功效与第 二个位点等位基因频率之间的关系可以看出当优= 0 5 ,0 6 时,异质性统计量比基于l d 的 统计量检验的功效稍大,当p 2 = 0 8 ,0 9 时,基于l d 的统计量比异质性统计量检验的功效稍 大当p 2 = 0 5 ,0 6 ,0 7 ,0 8 时检验的功效都很高,当p 2 = 0 9 时,功效要明显下降,基于l d 的统计量要比异质性检验统计量功效稍高 1 7 东北师范大学硕士学位论文 横轴表示p 2 ,纵轴表示经验功效,实线表示用基于l d 的统计量计算的结果,虚线表示用异质 性统计量计算的结果 5 2结论 通过以上模拟,我们发现总体上讲,在各种情况下,两个统计量检验的功效相当由于在 文献9 中已经比较了基于l d 的统计量与传统的l o g i s t i c 统计量,发现基于l d 的统计量明显 好于传统的统计量,所以可以说异质性统计量也是要明显好于传统的统计量大体上讲,两个 统计量在两个位点独立时功效要高些,这说明我们在两位点不独立时有必要引进一个更好的统 计量当然由于都是模拟数据,在实际问题中,当有群体分层时,可根据我们提出的检验标准 进行检验,这样得出的结果应该要比混在一起做要好 另外我们也看到无论哪种情况下,检验的功效都随着岛的增大而增大,这也表明我们提 出的基于l d 的基因交互的定义与传统的统计交互有必然的联系本文本来想在理论上证明 两者之间的关系,但由于岛无显示表达式,无从证明,这是将来需要进一步研究的工作 将来可以研究的工作:( 1 ) 在全基因组中检验基因交互,这里我们只是提出了策略,没 有具体实施;( 2 ) 检验高阶交互;( 3 ) 在两位点不独立时提出一个更好的统计量 1 8 东北师范大学硕士学位论文 参考文献 【1 】c o xnj ,f r i g g em ,n i c o l a edl ,c o n c a n n op l o c io nc h r o m o s o m e s2 ( n i d d m1 ) a n d 1 5i n t e r a c tt oi n c r e a s es u s c c p t i b i l i t yt od i a b e t e si nm e x i c a na m e r i c a n s j n a tg e n e t ,1 9 9 9 ,2 1 : 2 1 3 - 2 1 5 【2 】e l s t o nrc ,n a m b o o d i r ikk ,n i n ohm s t u d i e so nb l o o da n du r i n eg l u c o s ei ns e m i n o l e i n d i a n s :i n d i c a t i o n sf o rs e g r e g a t i o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论