




已阅读5页,还剩66页未读, 继续免费阅读
(动物遗传育种与繁殖专业论文)用于一般系谱的单倍型推断方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国农业大学博士学位论文中文摘要 中文摘要 大量s n p 标记的出现,使以单个标记为中心的关联分析方法逐渐转变成以单倍型为主的关联 分析方法。以单倍型为主的分析方法的首要问题是如何获取单倍型。通过实验手段获取单倍型成 本较高,利用基因型数据通过单倍型推断获取单倍型是当前首选方法。 针对一般系谱和紧密连锁的s n p 标记,本研究提出了一种快速和准确的单倍型推断方法。该 方法通过三步六条规则,利用亲子关系确定有序基因型,逐步剔除多余的单倍型,最后通过最大 似然法确定单倍型组合。利用s i m p e d 程序模拟数据验证在不同系谱大小,不同标记数目和不同 标记基因型缺失率等参数组合条件f ,单倍型推断方法的效率和准确性,并与p e d p h a s e 程序 作比较。结果表明我们的方法的运行速度和准确性都优于p e d p h a s e 。我们的方法的运行速度比 p e d p h a s e 快1 0 1 5 倍;准确性比p e d p h a s e 高4 1 0 。同时结果还说明了我们的方法的准 确性几乎不受系谱大小、标记数目和标记基因型缺失率的影响。 在零重组单倍型推断方法的基础上,本研究又提出了有重组的单倍型推断方法。同样,该方 法也是三步六规则,利用亲子关系确定有序基因型,逐步剔除多余的单倍型,最后通过最大似然 法确定单倍型组台。与零霞组单倍型推断方法不同的地方在于本方法的六条规则要按标记顺序正 向和反向运行两次,同时本方法第五条规则中的阈值与零重组单倍型推断方法不同,由零重组数 阈值变成最小重组数阐值。同样该方法也通过s i m p e d 模拟不同系谱大小、标记数目、标记间重 组率和标记基因型缺失率等共8 1 种参数组合情况下的标记基因型数据,从而对算法的效率和准 确性进行验证,并与p e d p h a s e 进行比较。结果说明我们的方法具有较高的效率和准确性,在 绝太多数的情况下要优于p e d p h a s e 。 在对上述单倍型推断算法进行验证的同时,我们还分析系谱大小和结构、标记数目、标记基 因型缺失率和标记间重组率对单倍型推断的影响。 随着系谱变大,单倍型推断算法运行时间也增长。一般情况下,单倍型推断的准确性会随着 系谱增大而降低;但是在零重组的条件下单倍型推断的准确性有随着系谱增大而提高的趋势: 系谱中基础群个体比例的增加会降低单倍型推断的准确性。 标记数目的增加会加长单倍型推断算法的运行时间。在标记间重组率较大的情况下,单倍型 推断的准确性会随着标记数目的增加而明显降低;当标记间重组率较小时,这种降低的趋势就变 得不明显了。 标记问重组率对单倍型推断的影响非常大。在零重组的条件下,单倍型推断的准确率相当 高,可以接近和达到1 ;在有重组的情况下,单倍型推断的准确率会随着重组率的增加而降低。 且变化明显。同时标记闻重组率较高时单倍型推断算法运行时间也会加长。 标记基因型缺失率对算法运行时间有较大影响。一般的,算法的运行的时间会随着标记基因 型缺失率的增加而增长。标记基因型缺失 率增加也会导致单倍型推断的准确性降低,但是这种趋势受到重组率的限制和影响。当标记 间重组率较大时,随着标记基因型缺失率增加,单倍型推断的准确性会明显降低:当标记间的重 组率较小时,单倍型推断的准确性降低的趋势不明显。 关键词:单倍型推断系谱规则算法s n p 中国农业大学博士学位论文 a b s t r a c t a b s t 剐忆t t h ea b u n d a n c eo fs i n g l en u c l e o t i d ep o l y m o r p h i s m s ( s n p s ) m a k e st h eh a p l o t y p e - b a s e dm e t h o d i n s t e a do fs i n g l e - m a k e r - o r i e n t e dm e t h o db e c o m et h em a i na p p r o a c hi na s s o c i a t i o ns t u d i e sf o rq t l m a p p i n g t h ek e yp r o b l e mi nh a p l o p t y p e - b a s e dm e t h o di sh o w t or e c o n s t r u c th a p l o t y p o sf r o mg e n o t y p e d a t o d i r e c t l ya s s a y i n gh a p l o t y p e sh ad i p l o i di n d i v i d u a l sb ye x p e r i m e n t a lm e t h o d si st o oe x p e n s i v e , t h e r e f o r et h ei ns i f i c oh a p l o t y p i n g - d e t e r m i n a t i o nm e t h o d sa r es t i l lt h em a j o rc h o i c ea tt h ep r e s e n t t h i ss t u d yp r e s e n t sar a p i da n dr e l i a b l ea l g o r i t h mf o rh a p l o t y p er e c o n s t r u c t i o nf o rt i g h t l yl i n k e d s n p si f lg e n e r a lp e d i g r e e sa n dn a m e st h em e t h o da sz r h i 1 1 1 cm c t h o di sb a s e do ns i xr o l e sa n d c o n s i s t so ft h r e e s t e p s f i r s t , o r d e r e dg a n o t y p e s a r e a s s i g n e d c o n d i t i o n a lo n g e n o t y p o s i n p a r e n t - o f f s p r i n gt r i o s ;s e c o n d t h er e d u n d a n th a p l o t y p e sa r ee l i m i n a t e db a s e do nt h es i xr u l e s ;a n d f i n a l l y 。t h em o s tl i k e l yh a p l o t y p ec o m b i n a t i o n sa r ec h o s e nv i am a x i m u ml i k e l i h o o dm e t h o d o u r m e t h o dw a sv e r i f i e da n dc o m p a r e dw i t hp e d p h a s eb ys i m u l a t e dd a t aw i t hd i f f e r e n tp e d i g r e es i z e s , n u m b e r so fl o c i a n dp r o p o r t i o n so fm i s s i n gg e n o t y p e s t h er e s u l ts h o w e dt h a to u ra l g o r i t h mw a s s u p e r i o ro v e rp e d p h a s ei nt e r m so fc o m p u t i n gt i m ea n da c c u r a c yo fh a p l o t y p er e c o n s t r u c t i o n t h e c o m p u t i n gt i m e f o r1 0 0r u n sw a s1 0 1 5t i m e sl e s sa n dt h ea c c u r a c yw a s4 1 0 h i g h e l t h a n p e d p h a s e t h er e s m ta l s oi n d i e a t e dt h a to u rm e t h o dw a sv e r yr o b u s ta n dw a sh a r d l ya f f e c t e db y p e d i g r e es i z e ,n u m b e ro f l o c i ,a n dp r o p o r t i o n so f m i s s i n gg e n o t y p e s b a s e do nt h em e t h o do f h a p l o t y p i n gf o rt i g h t l yl o c ii ng e n e r a lp e d i g r e e s ,am e t h o do f h a p l o t y p i n g w i t hr e e o m b i n a t i o n sw a sa l s op r o p o s e da n dn a m e dm r i l l t h ef l o wo fl o g i cr u l e su s e di nm r h ii si n s a m ew i t hz r h i m r h im u s tr u nt w ot i m e s 。o n et i m ei nt h eo r d e ro fm a r k e r sa n dt h eo t h e ri f lt h e r e v e r s eo r d e r o fm a r k e r s 1 1 1 et h r e s h o l di nm r h ii sn o tz e r o b u tt h em i n i m u m s i m p e dp r o g r a mw a s e m p l o y e da g a i nt os i m u l a t eg e n o t y p ed a t ao fs n p w i t h8 1p a r a m e t e rc o m b i n a t i o n s n ”e f f i c i e n c ya n d a c c u r a c yo f v i r h lw e r ev a l i d a db ys i m u l a t e dd a t aa n dc o m p a r e dw i t hp e d p h a s e a st h er e s u l t s h o w e d ,m r h ih a dv e r yh i g ha c c u r a c ya n dg o o dp e r f o r m a n c ea n dw a sb e t t e rt h a np e d p h a s e i nt h e m o s ts t a t u s e f f e c t so f s i z e so f p e d i g r e e s ,n u m b e r so f l o c i ,r e c o m b i n a t i o nr a t e sb e t w e e nm a k e r sa n dp r o p o r t i o n s o fm i s s i n gg e n o t y p e sw e r ea n a l y s e di nt h es a m et i m e t h cr u n n i n gt i m eo ft h ep r o g r a mw i l lm c r e a s a w i t hs i z e so fp e d i g r e e s ,n u m b e r so fl o c i ,m a pd i s t a n c e sb e t w e e nm a r k e r sa n dp r o p o r t i o n so fm i s s i n g g e n o t y p e s t h ea c c u r a c yw i i n c r e mw i t h o u tr e c o m b i n a t i o na n dr e d u c ei no t h e rc a s ew i t hs i z e so f p e d i g r e e s 1 恤p r o p o r t i o no ff o u n d e r sw i l lr e d u c et h ea c c u r a c yo fh a p p l o t y p i n g t h en u m b e ro fl o c iw i l li n c r e a s e t h ea c e m a e yo f h a p l o t y p i n gw h e nt h em a pd i s t a n c eb e t w e e nm a r k e r sa r es m a l la n dr e d u c et h ea c c u r a c y o fh a p l o t y p i n gw h e nt h em a pd i s t a n c el a r g e t h ea c c u r a c yo fh a p l o t y p i n gw i l la l m o s tb e1 0w i t h o m r e c o m b i n a t i o na n db e c o m es m a l lw h e nm a pd i s t a n c e si n c r e a s e p r o p o m o n so f m i s s i n gg e n o t y p e sa f f e c t t h ea c c u r a c yo fh a p l o t y p i n gg r e a t l y w h e np r o p o n i o mo fm i s s i n gg e n o t y p e si n c r e a s e ,t h ea c c u r a c yo f h a p l o t y p i n gw i l lr e d u c eg r e a t l y n 培d e g r e s s i v et r e n do f t h ea c c u r a c yo f h a p l o t y p i n gw i l lb eb i g e rw h e n m a pd i s i ;a n c e sb e t w e e nm a r k e f sa l a r g ea n d 油a l l e rw h e nm a pd i s t a n c e sa r el i t t l e k e y w o r d s :h a p l o t y p i n g , g e n e r a lp e d i g r e e ,r o l e - b a s e da l g o r i t h m ,s n p i i 中国农业大学博士学位论文 表目录 表目录 表l l 应用于系谱数据的单倍型推断方法2 l 表2 一l 在亲子对中利用配偶和后代的基因型推断个体缺失基因型的策略2 5 表2 - 2 在亲子对中利用双亲基因型确定后代有序基因型的策略2 6 表2 - 3 利用亲本有序基因型和自身前一个座位的g s 确定座位g s 的策略一。2 7 表2 - 4 标记基因型缺失率为0 0 0 时z r h ! 和p e d p h a s e 运行时间和准确性的比较3 0 表2 - 5 标记基因型缺失率为0 0 5 时z r h i 和p e d p h a s e 运行时问和准确性的比较3 l 表2 - 6 标记基因型缺失率为o 1 0 时z r h i 和p e d p h a s e 运行时间和准确性的比较3 l 表3 1m r h i 和p e d p a h s e 在系谱大小为1 7 ,标记数为5 时的运行速度和准确性比较3 6 表3 - 2m r h i 和p e d p a h s e 在系谱大小为1 7 ,标记数为l o 时的运行速度和准确性比较3 7 表3 - 3m r h i 和p e d p a h s e 在系谱大小为1 7 ,标记数为2 0 时的运行速度和准确性比较3 7 表3 - 4m r h i 和p e d p a h s e 在系谱大小为2 9 ,标记数为5 时的运行速度和准确性比较3 8 表3 - 5m r h l 和p e d p a h s e 在系谱大小为2 9 ,标记数为l o 时的运行速度和准确性比较3 9 表3 - 6m r h l 和p e d p a h s e 在系谱大小为2 9 ,标记数为2 0 时的运行速度和准确性比较3 9 表3 7m r h i 和p e d p a h s e 在系谱大小为5 4 ,标记数为5 时的运行速度和准确性比较4 0 表3 - 8m r h i 和p e d p a h s e 在系谱大小为5 4 ,标记数为l o 时的运行速度和准确性比较4 0 表3 - 9m r h i 和p e d p a h s e 在系谱大小为5 4 ,标记数为l o 时的运行速度和准确性比较4 1 中国农业大学博+ 学位论文 图目录 图目录 图l l 同源染色体在减数分裂前期联会交换图示( 该图引自b u m a u ,2 0 0 1 ) 4 图l - 2 一个简单的系谱5 图1 3 亲子三座位贝叶斯网络图示( 该图引自f r i e d m a n 等,2 0 0 0 ) 1 0 图l _ 4 重构单倍型估计单倍型频率流程图( 该图引自b o e t t c h e r 等,2 0 0 4 ) 1 2 图1 - 5h a p l o r e 基于规则算法流程图1 5 图l - 6 单倍型重构准确性与半同胞家系后代数成函数关系( 该图引自b o e t t c h e r 等,2 0 0 4 ) 1 7 图l - 7 系谱大小和标记数目多少对单倍型推断效率的影响( 该图引自l i 和j i a n g , 2 0 0 4 ) 1 8 图1 - 8 标记重组数和缺失率对单倍型推断准确性和效率的影响( 该图引自l i 和j i a n g , 2 0 0 4 ) 1 9 图2 - 1 算法流程图 图2 - 2 1 7 个个体系谱图 图2 - 32 9 个个体的系谱图 图2 - 45 4 个个体的系谱图2 9 图2 - 5 标记数目为1 0 标记基因型缺失率为0 0 5 时系谱大小对单倍型推断准确性的影响3 2 图2 - 6 系谱大小为2 9 标记基因型缺失率为0 0 5 时标记数目对单倍型推断准确性的影响。3 2 图2 - 7 系谱大小为2 9 标记数目为l o 时标记基因型缺失率对单倍型推断准确性的影响3 3 图3 - l 系谱大小为1 7 标记数为5 图距为o i e m 时标记基因型缺失率对运行时间的影响4 2 图3 - 2 系谱大小为2 9 标记数为1 0 图距为0 5 c m 时标记基因型缺失率对运行时间的影响4 2 图3 - 3 系谱大小为5 4 标记数为2 0 图距为i c m 时标记基因型缺失率对运行时间的影响4 3 图3 4 系谱大小为1 7 标记数为5 图距为o 1 e m 时标记基因型缺失率对准确性的影响4 3 图3 5 系谱大小为2 9 标记数为1 0 图距为0 5 c m 时标记基因型缺失率对准确性的影响“ 图3 6 系谱大小为5 4 标记数为2 0 图距为i c m 时标记基因型缺失率对准确性的影响4 4 图3 7 系谱大小为1 7 标记数为5 基因型缺失率为o 0 0 时图距对运行时间的影响 图3 - 8 系谱大小为2 9 标记数为l o 基因型缺失率为0 0 5 时图距对运行时间的影响 图3 - 9 系谱大小为5 4 标记数为2 0 基因型缺失率为o 1 0 时图距对运行时间的影响 图3 1 0 系谱大小为1 7 标记数为5 基因型缺失率为o 0 0 时图距对准确性的影响 图3 - 11 系谱大小为2 9 标记数为1 0 基因型缺失率为0 0 5 时图距对准确性的影响 4 5 4 5 4 6 4 6 4 7 图3 一1 2 系谱大小为5 4 标记数为2 0 基因型缺失率为o 1 0 时图距对准确性的影响4 7 图3 一1 3 标记数为5 图距为0 i e m 基因型缺失率为o ,0 0 时系谱大小对运行时间的影响4 8 图3 一1 4 标记数为1 0 图距为o 5 e m 基因型缺失率为o 0 5 时系谱大小对运行时间的影响4 8 图3 一1 5 标记数为2 0 图距为l c m 基因型缺失率为0 1 0 时系谱大小对运行时间的影响4 9 图3 - 1 6 标记数为5 图距为o i e m 基因型缺失率为o 0 0 时系谱大小对准确性的影响4 9 图3 一1 7 标记数为l o 图距为0 5 e m 基因型缺失率为o 0 5 时系谱大小对准确性的影响5 0 图3 一1 8 标记数为2 0 图距为i c m 标记基因型缺失率为o 1 0 时系谱大小对准确性的影响5 0 图3 一1 9 系谱大小为1 7 图距为o 1 e m 基因型缺失率为0 j d 0 时标记数目对运行时间的影响5 1 图3 - 2 0 系谱大小为2 9 图距为o 5 c m 基因型缺失率为0 0 5 时标记数目对运行时间的影响5 1 图3 - 2 1 系谱大小为5 4 图距为i c m 基因型缺失率为o 1 0 时标记数目对运行时间的影响5 2 图3 - 2 2 系谱大小为1 7 图距为o i c m 基因型缺失率为o 0 0 时标记数目对准确性的影响5 2 图3 - 2 3 系谱大小为2 9 图距为o 5 e m 基因型缺失率为0 0 5 时标记数目对准确性的影响5 3 图3 - 2 4 系谱大小为5 4 图距为i c m 基因型缺失率为0 1 0 时标记数目对准确性的影响5 3 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示了谢意。 研究生签名i 已时间:易扩衫年朔 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名己 ,溯日 一名: 乜 帆加钳嘲f 日 第一章文献综述 1 1 前言 分子生物技术的迅速发展和应用使人们极为迅速的获得了大量分子标记,并且标记类型也不 断更新变化,从限制性酶切片段长度多态( r e s t r i c t i o nf r a g m e n tl e n g t hp o l y m o r p h i s m s ,r f l p s ) 、 扩增片段长度多态( a m p l i f i e df r a g m e n tl e n g t hp o l y m o r p h i s m s ,a f l p s ) 、随机扩增多态( r a n d o m l y a m p l i f i e dp o l y m o r p h i s m sd n a ,r a p d ) 到目前应用最为广泛的微卫星标记( m i c r o s a t e l l i t e ,s i m p l e s c q u e i i c cr e p e a t ,s s r ) 和单核苷酸多态( s i n g l en u c l e o t i d ep o l y m o r p h i s m s ,s n p s ) 这些分子标 记在生物进化,遗传学等领域中得到广泛的应用,例如通过微卫星标记研究生物群体的发生和演 化( t i s h k o f f , 1 9 9 6 ;m u r r a y 等,2 0 0 4 ) ,利用微卫星和s n p 进行q t l 定位、关联分析和疾病基因 检测等( m o r r i s 和k a p l a n ,2 0 0 2 ;m a t s u z a k i 等,2 0 0 4 ;k o n g 等,2 0 0 4 ;k c n n e d y d 等,2 0 0 3 ) 其 中s h i p 在动植物基因组中广泛存在,具备多态信息量大、易于检测和统计分析等优点,在一定程 度上弥补了其它各种d n a 分子标记方法的不足,成为继r f l p 和微卫星之后的第三代遗传标记 对人类的研究显示,平均每1 9 k b 中存在1 个s n p ,s n p 图谱的平均遗传距离为2 c m ,不到2 0 的 s n p 发生在编码区( 大部分是同义突变) ,与蛋白质的功能有关,其余大部分分布在两端侧翼区 及内含子等非编码区,相关研究显示s n p 在基因各区域上的分布存在明显差异。 箍着分子标记数量和密度不断增加,分析分子标记的方法也不断变化,从原来以单个标记分 析为主逐渐转变成多标记联合分析( d u d b r i d g e 等,2 0 0 0 ) 在多标记联合分析的方法中,以单倍 型为主的分析方法逐渐受到人们的关注和重视。2 0 0 2 年中国、日本、英国、尼日利亚、加拿大和 美国科学家和相关资助机构共同发起的国际人类基因组单倍型图谱计划 ( h t t p w w w h a v m a o o m i n d e x h t m l z h ,h a p m a p ) 旨在构建人类的s n p 单倍型图谱以能更为精细 的揭示不同人种在基因组水平上的差异,从而发现与人类健康、疾病以及对药物和环境因子的个 体反应差异相关的基因( t h ei n t e r n a t i o n a lh a p m a pc o n s o r t i u m ,2 0 0 3 ) 。大量的研究也表明单倍型 在疾病基因定位方面可以提供更高的统计效力( a k e y 等,2 0 0 1 ;d a v i d s o n , 2 0 0 0 ;d r y s d a l e 等,2 0 0 0 ; k r u g l y a k ,1 9 9 9 ;z h a n g 等,2 0 0 2 :z h a o 等,2 0 0 0 ) 可以确信以单倍型为核心的分子标记分析方 法将是分子标记分析的主流方法 以单倍型为核心的分子标记分析方法面临的首要问题就是多标记单倍型( 连锁相) 的获取 目前获取单倍型信息的手段可以分成两大类一类是通过实验技术手段获得单倍型( t o s t 等,2 0 0 2 ; y a h ,2 0 0 0 ) ,常见的方法有单分子稀释技术( r u a n o 等,1 9 9 0 ) ,特定等位基因长p c r ( m i c h a l a t o s - b e l o i n 等,1 9 9 6 ) 、等温回环扩增( l i z a r d i 等,1 9 9 8 ) 、长插入片段克隆( r u a n o 等,1 9 9 0 ; b r a d s h a w 等,1 9 9 5 ) 和纳米碳管探针技术( w o o u e y 等,2 0 0 0 ) 等 另一类获得单倍型的方法是利用基因型信息和其它信息( 例如系谱信息) 通过特定的算法推 断出单倍型在当前的实验条件下,通过分子生物学手段获取分子标记的基因型信息相当容易, 而且成本也相对低廉,这使得通过算法利用基因型信息推断单倍型成为人们获取单倍型信息的第 一选择研究表明利用算法推断单倍型具有很好的稳健性,即使一些条件明显的有悖于假设,这 些方法对于一定大小的样本中的单倍型构成都能给出较为合理的解释( n i u 等,2 0 0 2 ) 中国农业大学博十学位论文第一章文献综述 根据数据来源的群体是否有亲缘关系可将单倍型推断算法分成三种情况:第一种情况是用于 单倍型推断的数据源于无亲缘关系的群体,称为群体型数据( p o p u l a t i o nd a t a ) ;第二种情况是数 据源于有亲缘关系的群体,称为系谱型数据( p e d i g r e ed a m ) ;第三种情况是数据源于d n a 池样 本,称为d n a 池型数据( d n ap o o ld a m ) 。 基于d n a 池型数据的单倍型推断实际就是测序中的片断拼接,首先获取短小的d n a 片段( 片 段大小为几百k b ) ,然后将这些片段整合到一条染色体上,由于我们要考虑的是基于基因型数据 的单倍型推断问题,所以基于d n a 池型数据的单倍型推断方法这里就不详细介绍了。在家畜遗 传中多见系谱型数据,本论文也只着眼于系谱型数据的单倍型推断,所以我们只是在这里只是简 单的介绍一下基于群体型数据的单倍型推断方法,而关于系谱型数据的单倍型推断方法,我们将 会在一节中详细介绍。 目前基于群体型数据的单倍型推断方法主要分成两大类:基于规则( 或者组合学) 的算法和 基于统计计算的算法。基于规则的算法的代表是c l a r k 算法( c l a r k ,1 9 0 0 ) 。c l a r k 算法从确认没有 模糊座位或只有一个模糊座位的单倍型( 组合) 开始。在第一种情况中,基因型向量的两个解相 同;在第二种情况中,模糊座位人为给定后,两个单倍型也就确定了。这些确定的单倍型称为初 始解向量( 单倍型) 。进而利用这些初始单倍型来解决未确定的单倍型组合。当这个单倍型组合 用已知单倍型向量解决后就形成两个新的单倍型解向量。新生成的解向量并入已知解向量中然 后再用已知解向量集去求解新的待解单倍型组合。实际上c l a r k ,y 法的本质就是试图用最少的单倍 型种类来解释观测的基因型数据。s t e p h e n s 等( 2 0 0 1 a ) 和r e i c h 等( 2 0 0 1 ) 都利用c l a r k 算法产生 了有价值的结果。c l a r k 力t 法简单迅速,但有时不能解决所有的未确定单倍型组合。同时该算法对 数据的顺序非常敏感,对初始值( 单倍型) 有求严格,因此该方法不适用较大的数据。 另一类基于规则的算法是最大节约原则( p a n :p a r s i m o n y ) 算法,该类算法的目标是找到一 套具有最少数目的单倍型集合以便能够解释所有要分析的基因型数据( h u b b e l ,2 0 0 0 ) 该类算 法主要通过整数线性规划完成( g u s f i e l d ,2 0 0 3 ) h a p a r 程序( w a n g 和y u ,2 0 0 3 ) 应用整数 线性规划理论中的分支界定法来解决最大节约问题( p u r ep a r s i m o n yp r o b l e m ,p p p ) h g 等 ( 2 0 0 5 ) 采用整数二次式规划( i n t e g e rq u a d r a t i cp r o g r a m m i n g ,i q p ) 来解决p p p 问题。这类方法 本质上都是通过剔除对p p p 问题无影响的单倍型来实现求解,适用于小规模的数据( t i e r ,2 0 0 6 ) 。 求解完美进化树单倍型( p e r f e c tp h y l o g e n yh a p l o t y p e ,p p h ) 问题是第三类群体型数据的单 倍型推断方法。在这种情况下,求解共亲模型( c o a l e s c e n tm o d e l ) 的最小进化树是该类算法的目 标在假设群体的进化历史中没有重组发生的情况下,p p h 问题可以转化为用图模型表示 ( g u s f i e l d ,2 0 0 2 ) 。l p p h ( d i n g 等,2 0 0 5 ) 和o p p h ( v i t j a y a s a t y a 和m u k h e r j e e ,2 0 0 5 ) 都是 基于p p h 的单倍型推断方法。s o n g 等( 2 0 0 6 ) 又提出能够处理有重组的群体型数据的单倍型推断 方法但总的讲,这类方法在处理较多的标记时有困难,因而能够处理的数据大小有限。 基于统计计算的方法有e m 算法( e x e o f f i e r 和s l a t k i n ,1 9 9 5 ;h a w l e y 和k i d d ,1 9 9 5 ;l o n g 等, 1 9 9 5 :c h i a n o 和c l a y t o n 。1 9 9 8 :b e c k e r 和k n a p p ,2 0 0 3 ;d i n g 等,2 0 0 6 ) 、伪贝叶斯( p s e u d o - b a y e s i a n ) 方法( s t e p h e m 等;2 0 0 l b ) 和贝叶斯( b a y e s i a n ) 算法 e m 算法以群体处于哈迪一温伯格平衡状态为前提假设。该方法首先建立关于各单体型频率 的似然函数然后给定待估参数( 单体型频率) 一组初始值,将初始值看作真实频率,从而求出 基因型( 两个单体型的特定组合) 概率( e 步) ;然后将此期望值代入似然函数,求出新的一组 2 中国农业大学博士学位论文 第一章文献综述 单体型频率的估计值( m 步) 如此迭代下去,直至两次迭代所得到的参数估计值的差异小于某 一个给定的常数,迭代停止( 也称为迭代收敛) ,此时得到的单倍型频率的估计值就是它的最大 似然估计值以e m 算法为基础的单倍型估计已成功用于传递不平衡检验( z h a o 等,2 0 0 0 ) ,并 且表明在参数设置相当宽泛的情况下,都可以得到较为正确的结果( f a l l i n 和s c h o r k ,2 0 0 0 ) s t e p h e n s 等( 2 0 0 1 b ) 采用一种迭代的随机抽样策略一伪g i b b s 抽样( p g s ) 法来配置单倍型的 连锁相他们的研究表明,在基于共亲过程( c o a l e s c e n tp r o c e s s ) 的模拟中,p g s 的结果要好于 c l a r k 算法和e m 算法这可能是因为p g s 采用了随机化的搜索策略,并且在迭代步骤中融合了共 亲理论的内容 n i u 等( 2 0 0 2 ) 在e m 算法所依据的模型的基础上,引入了贝叶斯程序来解决单倍型推断的问 题,并且对群体的进化历史没有假设的限制在其模型中,个体的两个单倍型被看成是从未知群 体频率的单倍型池中随机抽样得到。同时n i u 等还采用分割打结( p a t t i t i o n - l i g a t i o n ) 技术和预退 火( p r i o ra n n e a l i n g ) 来提高算法的准确性和性能,模拟数据与实际数据分析的结果显示,单倍 型推断的稳健性和准确性都有一定的提高,无论样本是偏离了哈迪一温伯格平衡状态,出现缺失 数据,还是出现重组热点,p l 算法都可获得稳健估计 以上就是常见的针对群体型数据的单倍型推断方法下面我们将详细介绍针对系谱型数据的 单倍型推断方法我们首先介绍相关遗传背景和概念,然后详细介绍相关的单倍型推断方法在 本章的最后,我们介绍本论文的研究内容和相关问题 1 2 遗传背景和相关概念 我们知道遗传学是研究遗传物质如何从亲本传递给子代的学问。每一种生物都有其存储遗传 信息的方式。高等动物和人等二倍体生物的遗传信息存储于基因组( g e n o m e ) 内,而基因组又 是由d n a 组成通常我们将编码蛋白质的d n a 序列称为基因( g e n e ) ,也就是人们总是试图寻 找的影响生物个体表型( 如数量性状、质量性状和阈性状) 的根本所在基因组的d n a 主要存 在于染色体中每个个体有两套染色体,一套来源于父亲,另一套来源于母亲,也就是说当遗传 物质从亲本传给子代时,每个亲本只将其整个遗传物质的一半( 一套染色体) 传递给后代,而存 储传递的半个基因组的特殊细胞称为配子( g a m e m ) 在比较个体间遗传差异时,人们一般不是看全部d n a ,而是看基因型( g e n o t y p e ) ,即一个 个体特定的遗传构成基因型可以由d n a 片断或染色体任意片断构成,通常基因型被认为有连 续的d n a 簇构成通过分子生物学手段获得基因型的过程称为基因判型( g e n o t y p i n g ) 基因判 型过程中要分析的特定d n a 位置称为座位( l o c u s ) ,座位上出现的不同的d n a 变异称为该座位 的不同等位基因( a l l e l e ) 如果构成基因型的等位基因相同,称基因型纯合( h o m o z y g o u s ) ,否 则称基因型杂合( h e t c r o z y g o u s ) 雄性的性染色体与常染色体有所不同,由于本论文只关注常染 色体,性染色体的情况这里就不赘述 遗传信息由亲本传给子代的一个重要过程就是减数分裂( m e i o s i s ) ,即细胞分化产生配子( 卵 子或精子) 的过程在减数分裂期间,亲本的父源染色体和母源染色体交叉联会交换d n a 后生 成的同源染色体后,将其中的一条同源染色体传递给后代如果联会交换后一染色体上两个座位 的亲本来源不同的话。我们就说在两座位间发生重组( r e c o m b i n a t i o n ) 当两座位间发生偶数次 中国农业大学博十学位论文第章文献综述 重组,我们无法从座位的亲本来源来简单的判断出来。由于我们只考虑重组率较低的情况,座位 间两次以上的重组我们就忽略了,这里我们只关注座位间的一次重组。图1 1 形象的说明了重组 的过程和结果。 斛一 图1 1 同源染色体在减数分裂前期联会交换图示( 该图引自b u r e a u ,2 0 0 1 ) f i g u r e 卜1s c h e m a t i ci ii u s t r a t i o no fac r o s s o v e rb e t w e e nap a iro fh o m o l o g o u sc h r o m o s o m e sd u r i n gt h e p r o p h a s eo fl - e i o s i a d a p t e df r o :b u r e a u 2 0 0 t 通常我们通过分子标记( m a r k e r ) ( 即在特定座位上能够用于直接判型的d n a 信息) 标定与 其有连锁的未知基因的位置。常见的标记如前所述,这里不再重复。而标记的多态性是指该标记 有两个以上的等位基因,且等位基因的频率要达到一定的值( 通常是o 0 1 ) 。遗传标记间的物理 距离通过标记在物理图谱上的碱基数来计算。对于连锁分析而言,座位间的重组概率更有意义 我们用遗传距离来表示座位间重组概率的大小遗传距离的单位是摩尔根( m o r g a n ,m ) 和厘摩 ( e e n t i m o r g a n ,c m ) 理论上讲,重组率等于减数分裂期间重组型染色体数与所有染色体数的比 值由于实际操作上的难度,我们很难直接获得重组率和遗传距离,为此我们只有通过对重组过 程进行数学拟合来估计重组率和遗传距离。重组率0 对遗传距离d 的函数被称为图距函数,即 p = m ( d ) 。我们用泊松模型来拟合交换过程,得到的图距函数就是h a l d a n e 图距函数 口= o 5 ( 1 一e - 2 4 ) 。遗传图谱就是用有序的标记及标记间的遗传距离来表示的。 个体的每一条染色体拷贝携带一系列的不同座位的等位基因,也就是单倍体基因型,即单倍 型( h a p l o t y p e ) 通常的实验条件下所获得的基因型并未指明其等位基因来源于哪一个单倍型 这样的基因型我们称为无序基因型( u n o r d e r e do e n o t y p e ) 。一个完整的基因型信息要有等位基因 的亲本来源,这样的基因型信息称为有序基因型( o r d e r e dg e n o t y p e ) 。多座位的有序基因型,即 单倍型在一个孤立的个体中通过目前的生物化学手段还很难获得,但可以通过亲本的基因型进行 推断,这也是本论文关注的重点。 已知个体间亲缘关系的群体称为系谱( p e d i g r e e ) 。图l - 2 就是一个系谱的图示,雄性用方型 表示,雌性用圆圈表示习惯上我们将无父无母的个体称为基础群个体( f o u n d e r ) ,其余的个体 为非基础群个体( n o n - f o u n d e r ) 一个系谱就是由
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第二单元第十六课《越算越精彩》说课稿 2024-2025学年粤教版(2019)初中信息技术八年级上册
- 2025公务用车购销合同虹口区
- 2025合同违约责任条款明确
- 2025网约车租赁合同书
- 第二单元《6.形色相随》说课稿-2024-2025学年浙人美版(2024)初中美术七年级下册
- 全国人教版初中信息技术八年级下册第一单元第3课《作点》说课稿
- 2025新住宅租赁合同(示范合同)
- 2025合同样例茶叶店合作经营合同律师起草专业版
- 1.3中华文明的起源说课稿2024~2025学年统编版七年级历史上册
- 五年级英语下册 Unit 2 My favourite season Part B第三课时说课稿2 人教PEP
- 住房供给调控预案
- 培训行业转介绍
- 文科物理(兰州大学)学习通网课章节测试答案
- 人教版高二数学(上)选择性必修第一册1.2空间向量基本定理【教学设计】
- catia考试图纸题目及答案
- pos机风险管理办法
- 2025年行业机器人边缘计算技术应用与场景分析
- 2025年安徽省公务员录用考试《行测》真题及答案
- 2025年加油站行业需求分析及创新策略研究报告
- 2025中国工业传感器行业市场白皮书
- 手机桌面市场深度解析
评论
0/150
提交评论