(应用数学专业论文)复杂疾病基因定位中不同统计方法的比较和研究.pdf_第1页
(应用数学专业论文)复杂疾病基因定位中不同统计方法的比较和研究.pdf_第2页
(应用数学专业论文)复杂疾病基因定位中不同统计方法的比较和研究.pdf_第3页
(应用数学专业论文)复杂疾病基因定位中不同统计方法的比较和研究.pdf_第4页
(应用数学专业论文)复杂疾病基因定位中不同统计方法的比较和研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 生物统计学是一门新兴学科爵前国内相关课题内容的研究还不多,对它的统 计方法归纳比较的文章更是少之又少,因此很有必要对这些方法给予归纳总结与对 比:研究。本文针对近卡年国内外提出的定位复杂疾病基豳的两类统计方法;连锁分 析方法( l i n k a g ea n a l y s i s ) 和关联分析方法( a s s o c i a t i o na n a l y s i s ) 给予了清晰 合理的分类,并且对不同的统计方法进行了比较羁研究。爱人 j 对这些统计方法有 更好的掌握,对生物统计学的发展现状有更多的了解 对鼍:人类复杂疾病基因定位中不同统计方法的研究,我们主要分为两大类给予 阐述 其中基于家系的连锁分析方法中最具有代表性的是传递不平衡检验法( d t ) , 此方法有四个主要的推广。一是考虑含有多个等位基因的情况,二是考虑当父母的 基因型信息不完全可知的情况,三是考虑多个紧连锁基因的情况,四是基于似然估 计的思想方法。基予群体的关联分析方法中有三种主要的方法,它们都能够芎效她 控制人聪分层一是基因组控制法( g c ) ,二是结构关联法( s a ) ,三是半参数检 验法( s p t ) 。 关键词:连锁分析;关联分析;人时分层;传递不平衡;假阳性 黑龙江大学硕士学位论文 a b s t r a c t b i o m e t r yi san e wr e s e a r c hs ot h a tt h e r ea r eo n l yaf e w t h er e l e v a n tr e s e a r c h e s , l e ta l o n et h ei n d u c t i o no fs t a t i s t i c a lm e t h o d s c o n s e q u e n t l y , i ti sn e c e s s a r yt og e n - e r a l i z ea n dc o m p a r et h e m 。t h i sp a p e rd i ds o m er e s e a r c h e so nt w oc a t e g o r i e so ft h e s t a t i s t i c a lm e t h o d s :l i n k a g ea n a l y s i sa n da s s o c i a t i o na n a l y s i s u n d e r s t a n d i n gt h e m b e t t e ra n dt h ed e v e l o p m e n ts t a t u so fb i o m e t r yi so u ra i m t h i sp a p e rc l a s s i f i e dt h es t a t i s t i c a lm e t h o d sp o s i t i o n i n gt h ec o m p l i c a t e dg e n e t i c d i s e a s e si n t ot w oc a t e g o r i e s l i n k a g ea n a l y s i sm e t h o dw h i c hc o n t a i n st d t ( t r a n s m i s s i o nd i s e q u i l i b r i u m t c s t ) i st h em o s tr e p r e s e n t a t i v em e t h o d ,w h i c hi su s e di nf o u rw a y s :a l l e l e s ,i n c o m p l e t eg e n e si n f o r m a t i o nf r o mp a r e n t s ,m a n yt i g h tc h a i ng e n e sa n dm e t h o db a s e d o nl i k e l i h o o de s t i m a t i o n a s s o c i a t i o na n a l y s i sm e t h o dc o n t a i n st h r e em a i nw a y st o c o n t r o lp o p u l a t i o ns t r a t i f i c a t i o ne f f e c t i v e l y , t h a ti s ,g c ,s aa n ds p t 。 k e y w a r d s :l i n k a g ea n a l y s i s ;a s s o c i a t i o na n a l y s i s ;p o p u l a t i o ns t r a t i f i c a t i o n ;t d t ( t r a n s m i s s i o nd i s e q u i l i b r i u m ) ;f a l s ep o s i t i v e 一至至一 黑龙江大学硕学位论文 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果据我所知,除了文中特别加以标注和致澍的地方外,论文中不包含其他入已 经发表或撰写过的研究成果,也不包含为获得黑龙汪大学或其他教育机构的学位 或证书丽使用过的材料。 学位论文作者签名| 掣鹇芦 签字刚甥:2 珈序d 庙 学位论文版权使用授权书 本人完全了解黑龙江大学有关保留,使用学位论文的规定,同意学校保留并 向国家有关部 j 或桃构送交论文的复印件秘电子版,允许论文被查阅和借阅。本人 授权黑龙江大学可以将学位论文的全郝或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其他复制手段保存、汇编本学位论文。 学位澈作者签名2 莘鸿厣 签字日嘶咿pf 6 日 学位论文作者毕业后去向; 工作单位: 通讯地址t 导师签名:狄双株 签字日期珈脾堂月? 幻 电话, 邮编: 第1 章绪论 i i 第1 章绪论 统计遗传学是- - f - 交叉学科简单的说是用统计学的方法去解决遗传学,分子 生物学和医学上的闻题。这方面的研究需要有扎实的统计学的基础。同时又要有遗 传学,分子生物学和医学上的基础知识这一学科之所以在美国开始成为最活跃的 学科之一,是因为人类基因组工程的进展和分子生物学的发展人类基因组工程的 进震产生了大量的遗传数据,也可以说提供了大量翁债患。丽分子生物学的发展使 人们对遗传病的研究深入到了分子的水平去研究发病机理以及治疗疾病的方法用 大量盼信息( 遗传数据) 在分子水平研究发瘸枕理找到治病基因,给统计方法一个 很大的用武之地,也是对统计学家的一大挑战因此统计遗传学在美国甚至国际上 已成为最活跃的学科之一 到嚣前为止人们已经提出了大量的能有效定位复杂疾病基因的方法,丽在国内 相关课题内容的研究还不多人们了解的定位复杂疾病基因的统计方法也很有限, 对这些方法进行魉纳宠较静文章更是少之又少。因此很有必要对这些方法进行合理 的归类总结与对比研究本文从全新的视角,对众多统计方法给予了清晰的归类并 进行了对比总结。内容有条理性,使得人船饕后一曩了然,从瑟对生物统计学鳃方 法与研究现状有更加清晰明了的认识 1 1 连锁分析方法一传递不平衡检验法( t d t ) 的介绍 毒予基于群体样本的研究方法会因为存在人露分层丽出瑷锻阳性的结果,医此 基于家系样本的研究方法近些年来开始流行起来 连锁分析方法的主要思想是;比较一个基因扶土一代传给有瘸孩子的可能性是 否比传给没病孩子的可能性要大如果是这样的话,这一基因就可能和疾病有关或 者在染色体上的位置和致病基因比较近这种方法的缺点是功效比较低,找到大量 的家族数据比较困难,因丽很难找到导致复杂疾病的基因 众所周知,尽管遗传标记基因( g e n e t i cm a r k e r ) 与致病基因( 出s e n s i = :g e n e ) 之闻没有连镆关系,僵也会因为人躁分层的存在丽得出此基因与疾病穗关的结果。 我们考虑一种在连锁不平衡存在的前提条件下,利用遗传标记基因检验连锁关系的 方法。通过分析至步含有一个有病孩子的家庭数据,我们来信计在与疾病桷关的遗 传标记基因中,基因型是杂合型的父母,他们把该等位基因传递给有病孩子的可能 性这种方法已经被很多研究者使用,但是作为检验连镁关系的统计方法,它的性 蒸龙江大学碛士学位论文 质却从未被研究过 s p i e l m a n 等人在1 9 9 3 年曾经发表过论文【引,正式提出了这种统计方法,并 称此方法为传递不平衡检验法( t d t ) 。要找到与遗传疾病有关的基因位点最关键 的第一步是找到它们之间的连锁关系,但是群体相关会在连锁关系不存在的条件下 发生( 由于人霸分层) 因此,我们不能再利用相关性来说明连锁关系了t d 检 验法却可以在群体楣关性存在的前提条件下检验致病基因与遗传标记基因之阅酶连 锁关系,丽不受人口分层的影响这里的数据来自于包含一个或更多有病孩子的家 庭,而且父母必须在与疾病相关的等位基因上的基因型为杂合型检验的过程估计 了这些基因型为杂含型的父母分别传递茈等位基因中的一个与另一个给有病孩子的 可能性大小。与传统的检验方法( h a p l o t y p e s h a r i n gt e s t s 等) 相比,t d t 检验 法的优点在于它不需要众多有病的家庭成员或者是没病的兄弟姊妹然而丁d r 检 验法的缺点在于只有在关联( 连锁不平衡) 存在的前提条件下才可以检验致病基因 与遗传标记基因之闻的连锬关系。 1 2 关联分析方法的介绍 在寻找复杂疾病基因时,连锁分梃方法不能够更加准确的定位出致病基因的位 置,而随着人类基因组工程的迅速发展,更多s n p 位点被找到。因此人们想到利 用这些位点采用关联分析方法去定位致病基因1 2 - 4 关联分析方法的主要思想是;比较某个基因在有病人群中的可能性是否跑在歪 常人群中的可能性大如果是的话,这一基因就可能和疾病有关或者在染色体上的 位置和致病基因很近现在的绝大部分关联分析方法是对每一个单个基因去检验 困难在于每个基因超的作用都很小,因此导致这一基因在有病的人群中和正常的 人群中没有太大的区别。从恧导致这一方法功效不高。但比较起来关联分析方法比 连锁分析方法有更高的功效如收集数据比较容易的优点,但当出现人口分层情况 时,利用普通的关联分析方法会导致假阳性结果的出现 关联分析方法可以幂l 掰不穗关个体的样本,也可以利用家系成员的撵本。丽利 用不相关个体的样本比利用家系成员的样本有更多的优势 踟。 利用不相关个体的样本进行关联性研究,不需要引进更多家庭成员的样本信 息如果需要得到更多家庭成员的样本信息,这样不但实验成本昂贵而且对于晚期 发作豹疾病是不合实际的。在大多数 擎况下,对于同样的样本容量,基于群体榉本 的研究比基于家系样本的研究更加有效 6 , 9 - 1 1 1 不幸的是,在人口分层存在的情况 2 - 第1 章绪论 下基于群体的关联性研究却几乎是无效的有很多文章阐述了人i = 1 分层如何对基于 群体的关联性研究产生影响 1 2 - 1 8 人们曾经认为人口分层产生的影响可以通过对 病例组和对照组的数据进行仔细的配对而消除f 1 3 1 然而,最近的研究表明 1 9 - 2 1 l , 尽管人们对数据进行了很好的整理,还是会有分层现象的存在 1 3 在同一群体中的关联性检验法 考虑有两个标记位点a 和b ,分别包含等位基因a 1 ,月l 和b 1 i ,b j f f , 一共有l k 个单倍型月l b l ,a l b k ,a l b l ,a l b k 如果在一个单倍体上a t 在位点a 出现与马在位点b 出现是相互独立的,则有 p ( a i b j ) = p ( a t ) 尸( 马) 对i = 1 ,l 和歹= 1 ,我们称位点月和b 连锁平衡( l i n k a g ee q u i l i b r i u m ) ; 否则我们称位点a 和b 连锁不平衡( l i n k a g ed i s e q u i l i b r i u m ( l d ) ) 或关联为了 检验遗传标记位点与疾病( 或性状) 之间的关联性需要检验遗传标记位点与疾病位 点之间的关联性考虑标记基因a ( 含有两个等位基因a 1 和a 2 ) 与致病基因d ( 含 有两个等位基因d 1 和d 2 ) 之间的情况令 a = p ( a i d l ) 一p ( a 1 ) p ( d 1 ) = p ( a 2 d 2 ) 一p ( a 2 ) p ( d 2 ) = - ( p ( a 1 d 2 ) 一p ( a 1 ) p ( d 2 ) ) = - ( p ( a 2 d 1 ) 一p ( a 2 ) p ( d 1 ) ) 因此检验标记基因a 与致病基因d 之间的关联性,只需要检验a = 0 1 4 定性性状与定量性状 定性性状 对于一个定性性状疾病,我们考虑c a s e c o n t r o l 方法有仡个病人和仇个 正常人每个样本在位点a 具有等位基因a - ,a l ,他们的基因型数据总结在表 1 1 中 令p = 1 - ,p l ) 和g = ( q l ,q l ) 分别代表等位基因月l ,月l 在病例组和 对照组中的频率。在病例一对照组研究中,疾病与遗传标记基因a 之间的关联关系 等价于检验原假设凰:p = g ,备选假设h i :p g 为什么检验关联性就等价 一3 一 黑宠汪大学硕士学位论文 表1 1 病例一对照组研究中俄点含有二个等位基因情况 t a b l ei ila l l e l e sc o n t a i n e do ng e n e t i cl o c ii nc a s e - c o n t r o ls t u d y n u m b e ro fa l l e l e a 1a 2 a l t o t a ln u m b e ro a l l e l e c a s e s n ln 2 仡二 2 n c o n t r o l s m l 靠轻m 2 m 于检验p q 呢? 我f f _ :j 考虑一个标记基因a ( l 一2 ) 含有两个等位基因的情琵令 矗,五和是代表外曼率; 五一p ( d i s e a s e l d l d l ) ,矗= p ( d i s e a s e d 1 魏) ,矗= p ( d i s e a s e d 2 d 2 ) 虽有五矗f o ,矗南。我们有 p l = p ( a 1 l d i s e a s e j = p ( a , d 1 l d i s e a s e ) + p 兵i p 2 | 力s 0 8 8 e j p ( d i s e c 【s e i d l ) p ( a 1 d 1 ) 。p ( d i s e n s e j d 2 ) 尸( a l d 2 ) = 。_ _ _ _ - _ _ - - _ 。_ _ _ - _ - - _ - _ - 。_ _ _ _ - _ _ - _ 。_ _ _ _ - 。- _ _ _ 一+ _ _ _ _ - - - _ - 。_ _ - - - _ - - 。_ _ “- _ - 。_ _ _ _ _ 。一 p ( d i s e a s e )p ( d i s e a s e = p ( p t | d i s e a s e ) 垦兰! j 铲专尸( d 2 t d i s e a s e ) = 兰竺 掣 a = p ( d 1 l d i s e a s e ) 赢一尸( d 2 d i s e a s e ) 赢+ p ( a 1 ) ( 1 - 1 ) 类似的, 舻蹦1 i n o r m a l ) = p ( 圳n o r m a l ) 志廿恻n o r m a l ) 志+ 砌1 ) 由等式( 1 - 1 ) 和( 1 - 2 ) ,我们有 p l 一钒= 垆( d i i d 如僦) 一p ( d 1 i n o r m 以) 】丽a 舻( d 2 l n o r m 盔) 一罗( d 2 1 d 溆粼麓志( 1 - s ) 进一步,遇过计算有t p ( d l l d i s e a s e ) 一p ( d l l n o r m a l ) = p ( d 2 l n o r m a i ) 一p ( d 2 i d i s e a s e ) =监业塑幽裟尝型掣o(1-p(disease)(1p ( d i s e a s e ) 4 ) 一1 ”。 , 一4 一 第l 章绪论 x 2 。螋( 1 - 5 ) “p i 。缪 i = l o 二 2 m 。2 n 近似服从耋由度抛一王的x 2 分布。其中磊= 篆,交一象。 当m = mx 2 = 2 n 壹臀 飘鄙肌= 2 时,烀刮终丽( p l 蠢q l ( p lq l 。 十 八z 一 十 , 鼢,= 兰王,兰三主龛;霈控= 圣兰三兰! 兰i ; y i = ( x 0 十o t l t i l + 氇2 t , i 2 + e i( 1 - 6 ) 孛,检验基因a 与定量性状疾病之阉鳃关联性就等价予检验原瑕设岛:o 1 = 理2 0 国代表o t t 的最小二乘估计,它是啦( 一l ,2 ) 的无偏估计标准的p 检验统 计量可以用来检验原假设 1 5 为什么存在入口分层会出现假阳性结果 对于一个定性性状疾病的c a s e c o n t r o l 试验考虑一个在【2 2 】中描述的最简 单的人疆分层模型。假设选取的每个个体都是来自于由两个子群体构成的群体,但 一5 脚 爨龙江大学硬士学位论文 起初在选取样本时我们没有考虑到他们的起源考虑一个基因a 它含有两个等位 基因a l 和a 2 。令以代表摧取的一个个体来童予子群俸i ( i 一王,2 ) 酶概率,热彝 8 1 分别代表致病基因与等位基因a 在子群体邢一l ,2 ) 中的概率p = g i r l 十9 2 r 2 代表疾病在群体中的外显率有病个体来自于子群体i 的概率为觑= 兰擎,没有病 f 一n 、r 。 个体来自于子群体i 的概率为 = 兰r 等# 如果在每个子群体中等位基逸a l 与疾病之闯是攘互独立的,那么 p ( a l | d i s e a s e ) 一p ( a lln o r m a l ) 2 = p ( a l l s u b p o p ) p ( s u b p o p i l d i s e a s e ) 一p ( s u b p o p i i n o r m a l ) = ( 旷a 2 ) ( g t 一陇) 莆 因此,如果a i 和所在子群体中不相阏,e p ( a l d i s e a s e ) 一p ( a l n o r m a l ) 】0 在这种情况下,如果样本容量嚣足够大,检验统计量( 1 - 5 ) 将很大,扶薅产生假阳 性结果。 对予定量性状疾病,当等位基因频率与期望性状值在子群体中不相同时,在 ( 1 - 6 ) 的线性模型中,仍然可得磁假阳性的结果 1 6 本章小结 本章内容是以下各章娜容的理论基础,对连锬分析方法积关联分析方法分别进 行了介绍,使得人们对两大类分析方法有了一定的认识同时说明了定性性状和定 量性状适合研究的范围以及建立的检验统计量最后解释了为什么存在人口分层会 出现假融性的结果,为以下内容的进一步开展及研究奠定了理论基础 第2 章基予家系的连锁分析方法 i i i i i ii i i 第2 章基于家系的连锁分析方法 本章我们来详细阐述这种很有效的检验连锁关系的方法( ,d ? ) 。我们假设一 个致病基因位点d ,含有一个致病等位基因d l 和个正常等位基因d 2 另一个 遗传标记基因m ,含有两个共显性等位基因 矗和m 2 这里我们不假设基因d 为共显性的为篱单起觅,我们以每个家庭只有一个有瘸孩子( 核心家庭) 的情况为 例。假设我们选取7 7 , 个这榉的核心家庭,在这些家庭中,父母在m 基因位点上一 共有4 礼个等位基因其中2 他个传给下一代,而2 竹个没有传给下一代这些有传 递的基因翟数据总结在表2 1 中; f a l k 糯r u b i n s t e i n1 9 8 7 年曾经在f 2 3 】申,t h o m s o ne ta l1 9 8 9 年曾经在1 2 4 】 中提出过x 2 检验统计方法,其检验统计量为 4 n ( w 一秒) 2 【( 删+ 影) ( 4 礼一w 一影) 】 ( 2 - 1 ) 它的自由度为1 。 我们可以提出三个原假设, ( 1 ) 疾病与遗传标记基因之间无关联( 5 0 ) ( 2 ) 疾病与遗传标记基因之阿无连锬。( 毋= 去) 。 ( 3 ) ( 1 ) 或( 2 ) 或( 1 ) ,( 2 ) 同时成立即a ( 1 2 8 ) = 0 而公式( 2 1 ) 只对第一种原假设是有效的我们来说明为什么我们把表2 1 用 另一种形式写成表2 2 。这里a 代表基因型为强磊磊的父母传递m 1 给有病孩子 的个数。 假设 c r l 的等位基因频率为m ,d - 的等位基因频率为p ,连锁不平衡度量 为艿= c p ( a 6 d 1 ) 一唧j ,疹代表m 和d 两个基因之闻的重组率 检验统计量( 2 一1 ) 比较了镏( 一a 书b ) 与爹= 8 e ) 的筐,即坛分别在父母 传递给下一代与没有传递给下一代的等位基因中的频率o t t 在1 9 8 9 年【2 5 中指 寝2 1 含有两个位点时的传递簿位基因情况 t a b l e2 1la l l e l e sc o n t a i n e do ng e n e t i cl o c ii nc a s e - c o n t r o ls t u d y 施慨t o t a l t r a n s m i t - t e dt c ,2 n 一2 n n o n t r a n s m i 托e d y2 n 一耋, 2 n t o r a l t 7 + y4 n 一训一y 4 n 一7 一 黑龙江大学硕士学位论文 表2 2 含有两个位点时的传递等位基因情况 t a b l e2 2la l l e l e sc o n t a i n e do ng e n e t i cl o c ii nc a s e - c o n t r o ls t u d y n o n t r a n s m i t - t e da l l e l e t r a n s m i t - t e da l l e l e m 1 m 2 t o t a l m 1 aba + b m 2 cdc + d t 以口la + cb + d2 n 表2 3 含有两个位点时的传递等位基因概率情况 t a b l e2 3p r o b a b i l i t yo ft r a n s f e ra l l e l eo ft w og e n e t i cl o c i n o n t r a n s m i t t e da l l e l e t r a n s m i t t e da l l e l e m lm 2 t o t a f m l m 2 + ( m s p )m ( 1 一m ) + 【( 1 0 一r n ) 6 p 】m + ( 1 一e ) 6 p 】 m ( 1 一m ) + 【( p m ) 6 p 】( 1 一m ) 2 一【( 1 一m ) 6 p 】1 一m 一【( 1 一口) 6 p 】 t o t a l m + ( 筋p )1 一m 一( 口5 屈) l 出检验统计量( 2 1 ) 不是一个对所有情况都有效的x 2 检验方法利用此检验法必 须假设对于所有父母传递与没有传递的等位基因之间是相互独立的这种假设必须 保证表2 3 中相应的基因型频率等于它们边缘概率的乘积因此原假设( 1 ) 只有在 0 6 = 0 时,即6 = 0 或p = 0 时才有效。 通过表2 3 的概率值可知当原假设为0 = 去时原假设( 1 ) 就不再是一个有效的 检验方法了在检验0 时,只有6 ,c 是与0 有关的有用数值也就是说只有基因型 为杂合型的父母的基因型数据才是有用的因此,我们给出合理的检验统计量 ( b c ) 2 ( 6 + c )( 2 2 ) 1 凰:石( 1 2 0 ) = 0 不关联或不连锁;研:j = 0 且口= 去既关联又连锁 我们把这个x 2 统计量( 2 - 2 ) 叫做传递不平衡x 2 统计量或“t d t ”,记为“) ( 乞” 我们利用这个检验统计量来检验连锁关系,但是通过表2 3 可以看出“) ( 乙”依赖于 连锁不平衡( 6 0 ) 因此只有在基因之间存在连锁不平衡的前提条件下,此丁d 丁 方法才是有效的 我们主要来说明为什么检验统计量( 2 - 2 ) 可以用来检验连锁关系假设p 代表 基因型为杂合型( a 1 a 2 ) 的父母的等位基因a 1 传递给有病孩子的概率首先我们 检验原假设凰:口= 妄 第2 章基予家系的连锁分析方法 i i i i i 我们只考虑基因型为杂合型的父母假设有忡个基因型为a i a 2 的父母,似= b + e 。对于第 个父母我们定义一个随机变量蠡, fl ,t r a n s m i t a l , & 一 【0 ,t r a n s m i t a 2 。 如果没有连锁关系,很显然等位基因a 1 ,4 2 的传递与疾病无关。因此,尽管孩 子有病,而p ( 矗= 1 ) = 0 5 假设g 代表孩子的遗传标记基因型,而致病基因有两 个等位基因刁l 糯现。如果不存在关联而且假设蓐一彬( 哈代温伯格平衡) , 2 p ( a f f e c t e d ,9 ) = p ( a f f e c t e d ,g ,d , d i ) i j = l 2 = p ( a f f e c t e d l g ,觑现) p ( 夕,职功) t , j = l 2 = p ( 岱,e c t e 蠢l d l 岛) p 治) p ( 穰岛) i , j - - - - 1 = p ( a f f e c t e d ) p ( g ) 这就意味着疾病与遗传标记基因之闻是相互独立的因此 p ( 囊= 1 ) = p ( c a 。a 。f a f f e c t e d ,懿。a 。,m a 。a 2 ) p ( a f f e c t e d t c a :a 2 ,f a l a 2 ,m a 2 a 2 ) p ( c a 。勘i 以l a 2 ,l “2 a 2 ) p ( a f f e c t e d lf a la 2 ,m a 2 a 2 ) p ( a f f e c t e d ) 嘉 = 。,。j i ,。一2 p ( a f f e c t e d l c a 。惫) p ( g a 向| r l a 2 ,m a ,a 。) 1 p ( a f f e c t e d ) o2 。p ( a f f e c t e d ) p ( c a 。如| 如l 也,帆,如) i , j = l 在原假设下,磊是个二项式分布,参量为p = v 2 ,有 l = 一 2 e 缘) = 1 2 v a r ( 善i ) = 1 2 ( 王一1 2 ) 篇1 4 【( 一联t ) 】2( 磊一e & ) ? p ? = 皇墨矿3 了瓦曩轰蓊2 廷 v i = 1 n 五 一 & 礼汹 。矗 l f & 一 n 僦 一 & n m = e t 口 黑龙江大学硕士学位论文 表2 4 含有m 个位点时的传递等位基因情况 强b l e2 。4t r a n s f e ra l l e l e so fmg e n e t i cl o c i n o n t r a n s m i t t e d t r a n s m i t t e d a 1a 2 a m t o t 以 a 1n 1 1h i 2 h i mn l , a 2n 2 1n 2 2 n 2 mn 2 a 竹t他m l 俘m 2 n m m亿m ? 耐n z n 1 扎2 礼m 2 n 可见该检验统计量服从卡方分布 此连镁分析方法可以推广到一个家庭中包含更多有瘸孩子的情况,这里不再阐 述 2 1 考虑含有多个等位基因的情况 对于连锁分析方法( t d t ) ,s p i l e m a n ( 1 9 9 3 ) 只考虑了每个基因中包含两个等 位基因( b i a u e l e ) 的情况因此很有必要把它推广到每个基因中包含多个等位基因 ( m u l t i a l l e l e ) 的情况。人们曾经提出了四种方法,我们麓单的给予分绍。 假设我们抽取个只含有个有病孩子的家庭,并且父亲,母亲和孩子的基因型 都是已知的,c a 一,t - 基因包含m 个等位基因。首先由b i c k e b s l l e r 和c l e r g e t d a r p o u x 1 9 9 5 年在f 2 6 1 中提出建立一个m m 的列联表2 4 : 这里代表基因型泓为a a j 的父母传递a 给有病孩子的个数i 代表行, j 代表列,魄。一= r q j 净j = = ,b i c k e b s l l e r 纛c l e r g e t d a r p o a x 提 j = l = l 出建立以下两个检验统计量: 霹一i j 错 v 。j 一妻i - - - - 1 等 ( 2 - 3 ) ( 2 4 ) 统计量( 2 - 3 ) 比较了表格中的对称项,而统计量( 2 - 4 ) 比较了相同行和列的和这两 个检验统计量的原理曾经由b i s h o pe ta l 。在1 9 7 5 年【2 7 】中给予了详细的阐述 签! 童茎至塞墨墼垄墼坌堑查婆 其次,s p i l e m a n 和e w e n s 在1 9 9 6 年 2 8 】中又摄出了一种新的统计方法假 设有m 个等位基因a i ,a 2 ,a m ,建立了如- f 的检验统计量: = 竺 m q 妻i = l 糕 ( 2 5 ) 服从喜由度为嫩一1 的x 2 分布。 统计量( 2 5 ) 有两个特殊的性质:一是它仅仅利用了基因型为杂合型父母的数 据,二是它把? d t 检验统计量减少到考虑m = 2 的情况 s h a m 和c u r t i s 在1 9 9 5 年f 2 】中提出了灵捌用等位基因数据建立似然院检 验统计量; 正= - 2 t n ( l o l 1 ) ( 2 - 6 ) 这里三。和l 1 为似然函数,统计量( 2 6 ) 近似服从自由度为m l 的) ( 2 分布此 方法利用了表格中的所有信息,因此功效比较高 以上我 | 】摄刭的四个稔验统计量经过模拟检验,它们的功效对比为( 露 a ( g ) 给出这里# a 代表集合a 中的元素个数 计算结果表瞻如果选取的不相关基因位点数量足够多,这种方法可以有效控制 人口分层,而且比t d t 方法功效更高此方法的唯一难点在予估计子群体的数哥 即值,尤其是含有很大数目的子群体时p o 2 z h a n ge ta 1 在f l 中提出t 基手相似性的关联法( s a t ) 这个方法也包含两个步骤:推算群体结构和在已知群体结构信息的基础上构造 检验统计量。在第一步中,为了避免估计子群体数謇这一难题,此方法把攘似的个 体进行了归类,最后归为一组或两组而不是把个体分到很多子群体中 假设我们选取了孢个样本,它们在魁个不摆关位点的基因型是已知的,第m 个位点的两个等位基因记为么m 和令;代表第i 个样本在第” 个位点的数 量编码值( 等位基因a m 的个数) ,i l ,佗m = 1 ,m 用于度量第i ,歹两个 样本基因型的相似度往常用的表达式为t 如一| 盈m m | 。第i 个个体与第j 个个体之间的相似度& f 定义为 锄一气 这里d 嗽誉为所有观测的样本值始中最大的。我们要使得露一个子群体中不同个 体之间的相似度要比不同予群体中不同个体之间的相似度要小当抽取的样本来自 于一个禽有多个子群体结构的群体时,我们可以把相似度归为两个组成元索,一是 第3 章基予群体静关联分析方法 群体内部的组成元素,一是群体之间的组成元素为了确定两部分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论