(作物学专业论文)基于r的qtl定位结果图形展示软件包的开发.pdf_第1页
(作物学专业论文)基于r的qtl定位结果图形展示软件包的开发.pdf_第2页
(作物学专业论文)基于r的qtl定位结果图形展示软件包的开发.pdf_第3页
(作物学专业论文)基于r的qtl定位结果图形展示软件包的开发.pdf_第4页
(作物学专业论文)基于r的qtl定位结果图形展示软件包的开发.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 遗传分析复杂性状已经成为植物、动物以及人类疾病研究的热点问题。生物 学在后基因组时代的一大挑战就是如何确定基因在染色体上位置和利用分子多 态性阐明农学、医学和进化学上重要复杂性状的遗传机理。其本质是确定q t l ( 数量遗传基因座) 在染色体上的位置、q t l 之间的互作( 上位性) 和q t l 与 环境之间( q e ) 的互作关系。 分子标记技术的发展使q t l 定位成为研究复杂性状的常规工具。已经有很 多关于q t l 定位的方法及其相应的公共软件被发布,其中y a n g 等提出的基于混 合线性模型的h a b q t l 定位分析方法是目前唯一能够分析q t l 之间上位性和 q e 互作的q t l 定位方法,基于该方法开发的q t l n e t w o r k 是一个很有应用前景 的q t l 定位软件。 r 是目前国际上非常流行的并且可以免费使用的统计计算和做图软件。由于 r 是一种解释性语言,因此它不依赖于用户的操作系统,其代码也可以在 w i n d o w s 、m a c o s 和l i n u x 等多个系统之间传递。 本研究是在q t l n e t w o r k 的基础上,运用r 软件开发了q t l n e t w o r k r 这个 q t l 定位结果图形展示软件包。用户可以通过访问 h t t p s :r - f o r g e r - p r o i e c t o r g p r o i e c t s q t l n e t w o r k r 地址免费下载该r 包。通过开发 q t l n e t w o r k r 对r 语言和图形统计有了深入的研究,q t l n e t w o r k r 利用 q t l n e t w o r k 的q t l 定位结果,提供了一个可以跨平台运行的q t l 图形展示工 具,并且提供了用户友好界面以方便用户。我们重写了所有q t l n e t w o r k 的图形 函数,并对已有的q t l 定位图形结果展示进行了优化,并提供了原来 q t l n e t w o r k 没有的图形结果,q t l n e t w o r k r 在展示来自多时间、多地点的多维 数据上有很大的优势。 关键词:q t l ( 数量遗传基因座) ,q t l n e t w o r k ,r ,q t l n e t w o r k r ,可视化 a b s t r a c t a b s t r a c t i l l u s t r a t i n gt h eg e n e t i ca r c h i t e c t u r eo fc o m p l e xt r a i t sh a v eb e c o m eah o ti s s u eo f p l a n t ,a n i m a lb r e e d i n ga n dh u m a nd i s e a s e sr e s e a r c h m a j o rc h a l l e n g e r sf o rb i o l o g yi n t h ep o s t g e n o m ee r aa r et od e t e r m i n et h eg e n ep o s i t i o n sa n df i n dt h eg e n e t i cb a s i st o i l l u s t r a t et h ec o m p l e xt r a i t si nc r o p ,m e d i c a la n de v o l u t i o n t h en a t u r ei st od e t e r m i n e t h ep o s i t i o no fq u a n t i t a t i v et r a i tl o c ii nc h r o m o s o m e s ,i n t e r a c t i o n so fp u t a t i v eq t l s ( e p i s t a s i s ) a n di n t e r a c t i o n sb e t w e e np u t a t i v eq t la n de n v i r o n m e n t ( q e ) w i t ht h ea d v e n to fm o l e c u l a rm a r k e rt e c h n o l o g y , q t lm a p p i n gh a sb e e na r o u t i n et o o li nc o m p l e xt r a i t sr e s e a r c h m a n yq t lm a p p i n gm e t h o d sh a v eb e e n p r o p o s e dw i t hc o r r e s p o n d i n gs o f t w a r ep a c k a g e s ,q t l n e t w o r ki sap r o m i s i n gq t l m a p p i n gs o f t w a r ep a c k a g e sb a s e do nh a b ,an o v e lq t lm a p p i n gm e t h o dp r o p o s e d b yy a n ge ta 1 t h a tc a l ld e t e c tq t l ,e p i s t a s i sa n dq t l - b y e n v i r o n m e n ti n t e r a c t i o n s ri sav e r yp o p u l a re n v i r o n m e n tf o rs t a t i s t i c a lc o m p u t i n ga n dg r a p h i c sn o w , a n d i tc a nb eu s e db ya n y b o d y , a n y w h e r ef o rf r e e a sa ni n t e r p r e t e dl a n g u a g e ,ri s p l a t f o r m i n d e p e n d e n t ;t h ec o d eo fr c a l lb et r a n s f o r m e df r o mw i n d o w s ,m a c o sa n d l i n u xt oo t h e r sd i r e c t l y t h i sr e s e a r c hd e v e l o p e da nr p a c k a g en a m e dq t l n e t w o r k rt ov i s u a l i z i n gq t l m a p p i n gr e s u l t s c u r r e n t l y , i t c a n o n l ya c c e p t t h eq t lm a p p i n gr e s u l t s s t r a i g h t f o r w a r d l yf r o mq t l n e t w o k ,b u ti tc a ne a s i l ya d o p tr e s u l t sf r o mo t h e rq t l m a p p i n gs o f t w a r ep a c k a g e s u s e rc a nd o w n l o a dq t l n e t w o r k rt h r o u g hu r l h t t p s :r - f o r g e r - p r o j e c t o r g p r o j e c t s q t l n e t w o r k r f o rf r e e w es t u d i e drl a n g u a g ea n d s t a t i s t i c a lg r a p h i c sb yd e v e l o p i n gt h i ss o f t w a r ep a c k a g e q t l n e t w o r k rp r o v i d ea g r a p h i cu s e ri n t e r f a c et of a c i l i t yu s e r sa n dap l a t f o r m - i n d e p e n d e n tt o o lt ov i s u a l i z i n g q t lm a p p i n gr e s u l t s w er e w r o t ea l le x i s t i n gg r a p h i c a lf u n c t i o n so fq t l n e t w o r k ( g t av e r s i o n ) q t l n e t w o r k rn o to n l yo p t i m i z e dt h eg r a p h i cr e s u l t sg e n e r a t e db y q t l n e t w o r k ( g u iv e r s i o n ) ,b u ta l s op r o v i d em o r ef u n c t i o n st ov i s u a l i z eq t l m a p p i n gr e s u r sb e t t e r , e s p e c i a l l yi np r e s e n t i n gm u l t i p l ed i m e n s i o n sd a t a k e yw o r d s :q t l ,q t l n e t w o r k ,kq t l n e t w o r k r , d a t av i s u a l i z a t i o n 图表列表 图表列表 图3 1r 的图形系统结构图1 5 图4 1q t l n e t w o r k r 的图形界面以及标记区间图谱的参数设置界面。2 1 图4 2q t l n e t w o r k r 的q e 表达图谱的参数设置界面2 4 图4 3q t l n e t w o r k r 的f 统计量全基因组z - 维扫描图谱的参数设置界面。 :1 6 图4 4q t l n e t w o r k r 的上位性二维扫描图谱的参数设置界面2 7 图4 5q t l n e t w o r k r 的q t l 定位结果概述图谱的参数设置界面2 9 图5 1 水稻结实率性状在q t l n e t w o r k 一维扫描后的f 统计量图谱。3 1 图5 2 水稻千粒重性状在q t l n e t w o r k 一维扫描后的f 统计量图谱。3 2 图5 3 水稻整粒数性状在q t l n e t w o r k 一维扫描后的,统计量图谱。3 3 图5 4 水稻结实率性状在q t l n e t w o r k 二维扫描后的f 统计量图谱。3 4 图5 5 水稻结实率性状在q t l n e t w o r k 中的q t l 定位结果概述图3 5 图5 6r q t l n e t w o r k 对q t l 定位结果的图形展示3 6 图5 7r q t l n e t w o r k 对水稻结实率性状在q t l n e t w o r l 6 :中探测到得q t l 及 其在7 个特定环境中差异表达图3 7 表4 1r 图形系统中对字体设置的说明2 2 表5 1q t l n e t w o r k 对q t l 定位结果概述图中各图形元素的定义3 5 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知。除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者繇都缸经签字吼声z 口年,月尹罗日 学位论文版权使用授权书 本学位论文作者完全了解逝江盘茔有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权逝江态鲎可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:糊占铯 签字日期:力扣年1 月7 铲日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师躲荤霉 么訇”j 签字日期:加年f1 月 电话; 邮编: 7 日 致谢 致谢 本论文是在导师朱军教授的悉心指导下完成的。导师渊博的学识、求是的科 研作风和严谨的治学态度,使我受益终生,时刻激励着我更加努力地投身于今后 的学习、工作中。没有朱老师的帮助和指点,我是无法完成这么有挑战性的工作 的。值此论文完成之际,对导师在我多年来在学业和科研上的无私教诲以及工作 和生活上的关心帮助表示最诚挚的感谢。 另外还要感谢徐海明副教授多年来在学习、工作和生活给我的帮助。衷心感 谢同门众师友杨剑、陈国波、韩立德、刘海岚、沈炎峰、徐飞、金谷雷、夏真、 朱智宏、叶成荫、郑妍、曹培健、徐利峰、詹宇、龚云国、谢崇波、朱志祥、张 陈浩、梁媚媚在我学习和研究上给予的支持和帮助。特别感谢杨剑师兄在本次研 究过程中给予的无私帮助和热情指导,否则我不可能走的这么远。感谢陈国波师 兄在论文写作和科研工作上对我的耐心指导,在此谨表谢忱。 同时还要感谢周云、陈乾、章少杰和孙方达等好友在生活和学习上对我的关 心和帮助。尤其感谢研究生科的袁熙贤、马永芳、吴晓晶和张帆老师在我研究生 学习期间给我的照顾和指导。 感谢所有曾经关心、帮助和支持我的所有学院领导、老师、同学和朋友。 特别感谢我的父母和兄长多年来给予我全方面的支持和无微不至的照顾,正 是他们的默默付出,才让我的学业能够顺利进行。 郑文俊 2 0 1 0 年1 月于浙江大学华家池畔 引言 1 引言 如果一个性状的基因型和表现型不存在直接的一对一关系,那么该性状被定 义为复杂性状。在生命科学领域,不管是离散的还是连续的性状,多数都在此范 围之内,越来越多的证据表明此类性状普遍受到基因和基因之间的互作以及基因 和环境之间的互作的控制( l a n d e ra n d s c h o r k ,1 9 9 4 ;s c h o r k ,1 9 9 7 ;s z a t h m a r y e t a l , 2 0 0 1 ;s i n ge ta 1 ,2 0 0 3 ;c h u r c h i l le ta 1 ,2 0 0 4 ) 。这类性状普遍受到多个基因同时控 制,并且对环境因素敏感。遗传分析复杂性状已经成为生物学、农学和医学的热 点问题,生物学在后基因组时代的一大挑战就是如何确定基因在染色体上位置和 利用分子多态性阐明农学、医学和进化学上重要复杂性状的遗传机理( m a c k a y , 2 0 0 1 ) ,其本质就是通过基因定位找到q t l ( 数量遗传基因座) 和q t l 之间的互作 ( e p i s t a s i s ) i ( 及q t l 和环境之间的互作( q e ) 。 随着分子标记技术的发明和成熟,遗传连锁分析q t l 已经成为研究复杂性 状最常用的工具之一,其方法也得到了极大的发展。目前,区间作l 茎l ( i n t e r v a l m a p p i n g ) 法( l a n d e ra n db o t s t e i n ,19 8 9 ) 和复合区间作图( c o m p o s i t ei n t e r v a l m a p p i n g ) 法( z e n g ,1 9 9 4 ) 是国际上比较流行的基因定位方法,但遗憾的是这两个都 不能分析上位性。针对这个不足,多重区间作图( m u l t i p l ei n t e r v a lm a p p i n g ) 法( k a o e t a l ,1 9 9 9 ) 这个可以检测主效应q t l 之间上位性的方法被提了出来。在此之后, 其他的一些检测和分析上位性的方法( v ia n dx u ,2 0 0 0 ;s e na n dc h u r c h i l l ,2 0 0 1 ; l j u n g b e r ge ta 1 ,2 0 0 4 ) 和q e 互作的方法( p i e p h oa n dg a u c h ,2 0 0 1 ) 也逐渐被提出。 w a n g 等发展了一个新的基因定位方法( w 抽ge ta 1 ,1 9 9 9 ) ,成功的整合了上位性 和q e 互作到一个定位系统中,但是其在辅助因子选择,假阳性( f a l s ed i s c o v e r y r a t e ) 控制以及计算负荷上尚存在缺点。y a n g 等提出了一个新的基因定位策略 ( y a n ge t a l ,2 0 0 7 ) 很好的解决了上述问题,并给出了一个可以同时检测上位性和 q e 互作的基因定位软件q t l n e t w o r k ( y a n ge ta 1 ,2 0 0 8 ) 。 q t l n e t w o r k 的成功在于它不仅给出了足够多的基因定位结果信息,包括 q t l 的加性效应,显性效应,上位性效应和q e 互作,并且其图形用户界面 ( g r a p h i c a lu s e ri n t e r f a c e ) 也让遗传学家和育种家们能够更好的理解复杂形状的遗 1 引言 传体系。但美中不足的是其g u l 只能在w i n d o w s 系统下运行,并且其提供的图 形结果用户也很难修改、调整,目前各种刊物对文章的图片要求却越来越高,国 际上遗传工作者们对系统的要求也不仅仅局限在w i n d o w s 下,因此,需要一个 能够跨平台运行的可以提供用户友好界面的图形化显示基因定位结果的软件包 作为其补充,用来解决其受限于单一操作系统的困境,并且实现图形结果的可调 整性。q e 互作是复杂性状遗传基础的一个重要问题,q t l n e t w o r k 能够分析来 自多个环境的数据,并且可以检测出每个q t l ( 或者上位性) 在不同环境中的效 应。这些信息尽管q t l n e t w o r k 中都已经给出,但是其图形界面并没有给出图形 化的结果来帮助遗传学家更好的理解和更加直观的展示这些结果。 基于上述考虑,我们利用目前国际上非常流行的统计编程环境,r 语言,开 发了一个不依赖于操作平台的具有用户友好界面的工具,q t l n e t w o r k r ,来更好 的展示q t l n e t w o r k 的基因定位结果。用户可以通过地址: h t t p s :r - f o r g e r - p r o j e c t o r g p r o j e c t s q t l n e t w o r k r 免费下载该软件包。 q t l n e t w o r k r 可以直接读取q t l n e t w o r k 的结果文件( 宰料m a p 和宰料q n k 文 件) ,并且提供了多个函数来给出基因定位结果的数据图形,包括一维基因组扫 描单个效应q t l ,二维基因组扫描上位性,每个性状q t l 的主效应值及其在各 个特定环境中的差异表达,以及一个q t l 的网络结构来概述基因定位结果。 2 文献综述 2 文献综述 2 1 基因定位技术的出现 q t l 是q u a n t i t a t i v et r a i tl o c i 的简称( q t l ,或者q t l s ,在文献中通用,本 文只用q t l ) ,指对数量性状形成起作用的染色体位点,属于分子数量遗传学范 畴。自从1 9 0 0 年,孟德尔( 1 8 2 2 1 8 8 4 ) 研究工作被当时的三位植物科学家通过各 自的工作分别予以证实后,给生物学的发展带来一场革命,衍生出后来的进化学, 数量遗传学,分子遗传学,以及最近十几年蓬勃发展的基因组学。孟德尔定律认 为遗传因子( 基因) 是离散的,能够通过自由组合规律独立地从亲代传递到子代, 因此子代兼具双亲的一些特性。用孟德尔遗传学来解释质量性状非常正确,有效, 但是当时的科学家发现用其解释连续性变异的性状,比如株高,产量等,则很难 通过对其个体的明确分组来达到类似的效果。 因此当时迫切需要一个新的理论来解释此类连续变异的性状,数量遗传学就 是在这个背景下出现的。首先理论认为:影响数量性状的基因是微效多基因,并 且能够独立的传递给子代,并易受环境影响,最终在表形上表现出连续变异此 后的实际育种实验也证实了该观点( e a s t ,1 9 1 6 ) 。由于涉及到了大量的微效基因, 因此确定其效应值大小需要用到一定的统计分析方法来进行统计分析,在此基础 上发展了经典数量遗传分析方法一一单标记分析法( s a x ,1 9 2 3 ;s o l l e ra n db r o d y , 1 9 7 6 ) 。该方法通过方差分析、回归分析等统计方法,比较单个标记基因型表型 均值的差异,是当时分析数量遗传学的主要工具。但是首先该方法假设q t l 精 确的落在标记位点,如果q t l 不是精确的落在标记位点,那么:( a ) 表型效应将 被严重低估;( b ) 还需要后代实验数据的支持( l a n d e ra n db o t s t e i n , 1 9 8 9 ) ;其次单 标记分析法只能分析所有微效基因的总体遗传效应,无法确定标记是与一个还是 多个q t l 连锁、每个q t l 在染色体中的位置及其遗传效应,另外其检测效率较 低,需要一个大实验群体。这些缺点都使得数量遗传学的发展遇到了瓶颈,亟需 新的实验技术和统计方法来打破僵局。 随着分子标记技术的出现,给数量遗传学带来了转机。1 9 8 0 年,分子标记 3 文献综述 技术被用来构建了第一份人类遗传图谱后( b o t s t e i ne ta 1 ,1 9 8 0 ) ,逐渐引起数量遗 传学家的重视,之后被应用到番茄的q t l 定位( p a t e r s o ne t a l ,1 9 8 8 ) 。在此之后, 各种q t l 定位方法、模型开始崭露头角。 2 2 基因定位方法、模型研究进展 基于分子标记连锁图谱,近年来发展了一系列基因定位方法,每种方法都有 各自的优点,但是也有其相应历史局限性。下面将介绍目前应用比较广泛的q t l 定位分析方法。 2 2 1 区问作图法( i n t e r v a lm a p p i n g ) 基于孟德尔遗传学理论和数量性状易受环境影响的连续性变异概念上的冲 突,以及分子标记连锁图谱能够完全地覆盖基因组,首个基于分子标记的定位模 型是由l & b ( l a n d e ra n db o t s t e i n ,1 9 8 9 ) 提出的区间作图法( ) 。当时关心的主要 问题是如何精确的定位一个以上q t l 及其相应遗传效应。因此模型只估算一个 参数,即当前扫描位点的q t l 遗传效应。根据位点两侧标记的基因型推测当前 位点存在q t l 的条件概率,把位点与效应的估算区分开来。e m 算法的使用, 确立了q t l 定位的基本方法,并在之后的q t l 定位研究中起着难以估量的作用 m 最大的特点就是模型简洁易懂,操作容易,使q t l 定位重新成为热点,并被 广大实验群体科研工作者所追捧。 相比传统的方法,i m 具有以下几个优点( z e n g ,1 9 9 4 ) :( a ) 能够通过推断得 出q t l 的可能区间;( b ) 如果一条染色体上只有一个q t l 位点,则估计出来的 q t l 位置及其效应是无偏的;( c ) 对实验群体大小的需求变小,大大减少了工作 量。当然,任何一种方法都不是绝对完美的,i m 也有其历史局限性,仍然存在 很多问题:( a ) 由于无法确定两个标记之间到底有几个q t l ,因此i m 定位出来 的q t l 目标区段可能不止一个q t l ,如果附近区段存在一个q t l 位点,那么该 区段的q t l 定位结果也可能超过阈值,从而得到存在q t l 的结论;( b ) 假如一 条染色体上存在2 个或以上q t l ,那么定位出来的q t l 位置及其效应将是有偏 4 文献综述 的( k n o t ta n dh a l e y , 1 9 9 2 ;m a r t i n o e za n dc u r l l o w , 1 9 9 2 ) ;( c ) 全基因组扫描时每次 扫描只用到一对标记,没有用到染色体上的其他标记,效率太低。当时的研究者 也考虑了叫的缺点并试图做一些改进( l a n d e ra n db o t s t e i n ,1 9 8 9 ;k n o t ta n dh a l e y , 1 9 9 2 ) ,比如在i m 模型的基础上再考查一个或几个染色体位点,但是由于谁也不 知道到底有几个q t l 存在于所研究的群体中,因此这个问题将有可能被无限的 扩大,从而使数量遗传学家陷入解决计算机计算能力的误区中去,最终只能在位 点数和计算量之间寻找一个平衡点。 i m 方法很大程度上解决了经典数量遗传学和传统基因定位的一些难点,尽 管仍然存在一些问题,但由于其开发了相应的连锁图谱构建软件m a p m a k e r ( l a n d e re ta 1 ,1 9 8 7 ) ,在当时很好的被实验群体科研工作者所接受,到现在为止 仍然被广泛的用来做q t l 定位。 2 2 2 复合区间作图法( c o m p o s i t ei n t e r v a lm a p p i n g ,c i m ) i m 法的诞生标志着q t l 定位方法开始活跃在遗传学家的视野中,科研工作 者们可以通过这个现成的方法进行q t l 定位,但是蹦最大的缺点( 无法对多 个连锁q t l 位置和效应进行准确的区分) 迫使研究者们继续思考新的方法。 r o d o l p h e 和l e f o r t ( r o d o l p h ea n dl e f o r t ,1 9 9 3 ) 发表的论文表明q t l 的效应会被 分子标记所吸收,但是遗憾的是作者并没有据此给出q t l 的精细定位策略。同 年,z e n g ( z e n g ,1 9 9 3 ) 利用了遗传学研究中广为人知的h a l d a n e 染色体重组函数 证明:在线性模型条件下,q t l 的效应能够完全被两侧分子标记所吸收次年, 他又利用这个结果,提出了q t l 的精细定位策略:c i m 。c i m 首先将其事先筛 选出来的分子标记作为背景控制,同样使用最大似然法推断q t l 存在的可能性, 从而实现精确定位的效果。 c i m 定位策略的几个优点( z e n g ,1 9 9 4 ) :( a ) 当一条染色体存在多个q t l 时, 限制每次只扫描单个染色体片段,等于把原来的多维扫描通过降维,变成一维扫 描,并且其估算的单个q t l 位置及其效应是渐进无偏的;( b ) 扫描时通过把连锁 标记作为条件变量,极大的提高了q t l 定位的精确性;( c ) 有选择性的选取多个 文献综述 标记为条件变量,使得扫描时利用的更多的实验数据信息,使得推断和更加有效; ( d ) 保留了原来m i 的优点。 z e n g 的最大贡献是解决了当时q t l 定位向多维扫描发展的瓶颈,c i m 的出 现,让广大研究者们可以放心的用一维扫描的方法进行q t l 定位,并提高了定 位结果的可靠性和精确性,之后还提供了相应的基因定位软件w i n q t l c a r t ( w a n ge ta l ,2 0 0 5 ) ,使之得到更好的发展。但是c i m 同时也存在着几个问题:( a ) 如何进行背景控制? 由于作为背景控制的分子标记是人为选出来的,那么其筛选 的标准带有很大的主观性,而不同的分子标记之间结果的差异也很大;( b ) 对于 一个扫描区间,如果分子标记过密,会导致功效下降,但是过疏则导致估算出的 q t l 位置及其效应不精确。对此问题,也有一些学者试图通过阐述分子标记选 择来矫正c i m 的背景控制问题( p i e p h oa n d g a u c h ,2 0 0 1 ) ,但结果还是不够理想。 2 2 3 基于贝叶斯统计思想的q t l 定位方法 在q t l 定位的发展过程中,一些学者针对多基因定位构建模型时变量选择 存在的障碍,发展了基于贝叶斯( b a y e s i a n ) f f 可q t l 定位方法,通过马尔科夫链蒙 特卡罗算法( m a r k o vc h a i nm o n t ec a r l oa l g o r i t h m ) 实现多个q t l 的定位 ( s a t a g o p a ne ta 1 ,1 9 9 6 ;u i m a r ia n dh o e s c h e l e ,1 9 9 7 ;s i l l a n p a aa n da r j a s ,1 9 9 8 ;s e n a n dc h u r c h i l l ,2 0 0 1 ;y ie ta l ,2 0 0 3 ) 。q t l 的数量可以通过贝叶斯因子( k a s sa n d r a f t e r y , 1 9 9 5 ;s a t a g o p a ne ta 1 ,1 9 9 6 ) 或者可逆跳转马尔科夫链蒙特卡罗算法 ( g r e e n ,1 9 9 5 ;s i l l a n p a aa n d a r j a s ,1 9 9 8 ;s i l l a n p a aa n dc o r a n d e r , 2 0 0 2 ) ,但是值得注 意的是后者通常收敛的比较慢( w a n ge ta 1 ,2 0 0 5 ) 。 贝叶斯定位法的主要特点是假设q t l 个数是未知的,在定位中可以避免失 真( v ia n dx u , 2 0 0 0 ) ,但是其计算负荷过大,难以大规模应用。 2 2 4 上位性及基于混合线性模型的基因定位法 i m 和c i m 都是基于回归模型的分析方法,只能分析较为简单的数量遗传模 型,尚不能分析上位性和q e 互作之类的复杂遗传现象( 朱军,1 9 9 9 ) 。而上位性的 6 文献综述 重要性已经在很多经典数量遗传研究中被提及( s p i c k e t ta n dt h o d a y , 1 9 6 6 ; f a l c o n e r , 1 9 8 1 ;m a t h e ra n dj i n k s ,1 9 8 2 ;p o o n ie ta 1 ,1 9 8 7 ) ,并且现在也越来越被重 视。这里所说的上位性是一种统计上位性( f l s h e r , 1 9 1 8 ) ,针对上位性这个问题, w n g h t 曾经和f i s h e r 进行过激烈的论战,并由此推动了这个概念的发展。而q t l 定位的上位性问题,在c i m 之前就已经出现,并且当时已经有很多研究揭示出 上位性是复杂表型的遗传基础( d o e b l e ye ta 1 ,1 9 9 5 ;l a r ke ta 1 ,1 9 9 5 ;w ue ta 1 , 1 9 9 5 ;f ua n dr i t l a n d , 1 9 9 6 ;r o u t m a na n dc h e v e r u d , 1 9 9 7 ;y ue ta 1 ,1 9 9 7 ) 。z e n g 和 他的学生k a o 之后提出了基于c i m 的基因定位方法m u l t i p l ei n t e r v a lm a p p i n g ( m 岫,从而克服c i m 不能探测上位性的缺点( e ta l ,1 9 9 9 ;k a oa n dz e n g , 2 0 0 2 ) 。另外还有其他的分析上位性的方法、模型逐渐被提出( s e na n dc h u r c h i l l , 2 0 0 1 ;l j u n g b e r g e ta l ,2 0 0 4 ) 。上位性这类遗传现象的复杂性,不仅仅源于算法, 同时还来自于模型的解析,而在模型的解析过程中,就不得不应用更加复杂的混 合线性模型。一些学者也逐渐把混线模型应用到q t l 定位中来( f e m a n d oa n d g r o s s m a n ,1 9 8 9 ;m e u w i s s e na n dg o d d a r d , 1 9 9 7 ) ,但是都没有形成系统的策略。 上位性发展的同时,q t l 和环境的互作也越来越被学者们所重视,w a n g 和 z h u 最早将q e 互作考虑进q t l 定位中来,同时用最大似然法估算q t l 的主效 应和上位性以及用b l u p 方法估算q e 互作,提出了m u l t i p l ec o m p o s i t ei n t e r v a l m a p p i n g ( m c i m ) 方法( w a n ge ta 1 ,1 9 9 9 ) ,并提供了相应的软件q t l m a p p e r 。在 此之后,其他一些学者也得到了类似的结果( p i e p h o ,2 0 0 0 ) 。 最近,y a n g 等在前人的基础上重新设计了整个定位策略h a b q t l ,该策略 最大的特点是采用了h e n d e r s o nm e t h o di i i 代替原先的似然比检验来做f 统计量 假设检验,从而避免了矩阵求逆,大大降低了计算机的负荷。同时在每次定位过 程中使用p e r m u t a t i o n 方法来控制假阳陛( f a l s ep o s i t i v er a t e ) ,运算过程中通过模 型选择降低伪峰出现的概率,b a y e s i a n 方法的吉布斯抽样被用来做参数估算,最 后通过蒙特卡罗模拟来控制模型的可靠性和功效( v a n ge t a l ,2 0 0 7 ) 。 值得一提的是h a b q t l 的一个重要性质,那就是可以检测没有主效应的 q t l 位点之间的上位性,这不同于m i m 提倡的只在主效应位点q t l 之间寻找 上位性的策略。实验也表明没有主效应位点间存在上位性是可能( m o n t o o t he t 文献综述 a 1 ,2 0 0 3 ) ,同时这种上位性在生物体遗传表达也发挥着重要的作用( g r e e n s p a n , 2 0 0 1 ) 。 为了实现h a b q t l 方法能够真正给育种家和遗传学家的科研工作带来帮 助,y a n g 等基于该方法开发了q t l 定位软件q t l n e t w o r k ( y a n ge ta 1 ,2 0 0 8 ) 。 q t l n e t w o r k 可以处理来自f 2 ,回交,重组自交系,和双列杂交群体的数据,另 外还可以计算一些特殊配对设计的群体包括无限代f 2 和b c 。f 。考虑到科研工作 者队伍中各种操作系统使用的广泛性和差异性,特别是对大数据的运算, q t l n e t w o r k 提供了一个命令行版本,该版本可以在w i n d o w s ,m a co s 和l i n u x 环境下运行;同时还提供了w i n d o w s 环境的图形用户界面( g r a p h i c a lu s e r i n t e r f a c e ) 版本,此版本不仅可以让用户更容易的实现运算过程,同时还可以提供 用户q t l 定位结果的图形展示,有利于育种家和遗传工作者们更好的理解q t l 定位结果和复杂形状的遗传结构基础。 而正是考虑到各种操作系统的广泛应用,q t l n e t w o r k 目前还无法为除 w i n d o w s 外的其他系统提供图形界面,这不能不说是一个遗憾,同时,该软件提 供了很多的定位结果信息,但是其图形界面并没有完全展示这些结果,比如各个 性状的q t l 在每个环境下效应和主效应的偏差;而对于已经给出的图形结果, 也存在改进的空间,比如每次只能展示单个性状统计结果图形,特别是对于图形 结果元素的可编辑性和调整性仍然存在着较大的不足,而这对于目前国际上和国 内各种文章对与结果图形的各种要求是不够的。因此针对这些问题,我们目标是 发展一个用户友好的并且不依赖于操作系统的工具来更好的展示q t l n e t w o r k 的基因定位结果。 2 2 5 其他q t l 定位方法和q t l 定位过程中的其他问题 2 2 5 1e q t l 分析方法 转录调控对生物体器官形成和细胞体在环境改变做出调整时起着重大的作 用。研究表明自然群体和实验群体中都存在着m r n a 的表达水平多肽性 ( o l e k s i a ke ta 1 ,2 0 0 2 ) 。同时基于基因芯片技术的迅速发展,科研工作者提出了 8 文献综述 e q t l ( e x p r e s s i o nq u a n t i t a t i v et r a i tl o c i ) 分析方法( j a n s e na n dn a p ,2 0 0 1 ) ,来分析 和解释特定基因组标记和转录水平的丰度之间的变异。e q t l 分析方法已经在酵 母( b r e me ta 1 ,2 0 0 2 ;y v e r te ta 1 ,2 0 0 3 ;b r e me ta 1 ,2 0 0 5 ) 和老鼠( b y s t r y k he ta 1 , 2 0 0 5 ;c h e s l e re ta 1 ,2 0 0 5 ;h u b n e re ta 1 ,2 0 0 5 ) 中有了大量的应用。 最近一些学者通过整合多元区间分析方法( m 蹦) 发展了新的e q t l 定位分析 法,基于这个方法,还开发了基于w e b 的生物信息工具e q t lv i e w e r ( z o ue ta 1 , 2 0 0 7 ) ,主要用途是分析序列多肽性和基因表达谱之间的关系,从而在数量遗传 学分析和系统生物学之间构建一条桥梁。 q t l 定位在方法上已经很难再有大的突破,其将来的发展方向可能是多种 手段和多门学科之间的结合,从而在更深层次上解决生物学问题。最近已经有学 者通过整合多个数据库中已经确定的基因信息和q t l 定位结果,希望为q t l 定 位结果提供一些生物学上的支持,提供更多有实际应用价值的信息,这在将来可 能会是一个很好的研究方向。 2 2 5 2 多维数据问题的q t l 定位问题 多性状和多时间点的数据,在构建q t l 定位时模型时可以统一对待,因为 模型本身是无法区分二者的。自从多性状数据的q t l 定位问题被一些学者提出 后( j i a n ga n dz e n g ,1 9 9 5 ) ,就吸引了很多科研工作者的注意,特别是育种家,因 为他们更加关心的是多性状的同时改良等问题。之后,也有学者尝试时间序列数 据的q t l 定位( w u e ta 1 ,1 9 9 5 ) 。 总体上来说,多维数据可能可以提供更多的信息,但是对统计建模有着很高 的要求。之后y a n g 提出的h a b q t l 定位分析方法已经很好的解决了这个问题, 其相应的定位软件q t l n e t w o r k 也给出了丰富的信息,但是其图形展示还不能给 出多性状的一维扫描定位结果( 只能做单性状) ,这也是我们开发q t l n e t w o r k r 的原因之一。 9 文猷综述 2 2 5 3 阈值的确定 q t l 定位本质上是一个统计学上的问题,即在原假设和备择假设之间做一 个决策。阈值的确定是为了推断一个q t l 不存在时犯第一类错误的可能性更小。 区间定位法认为阈值的确定是有样本的具体情况决定的( l a n d e ra n db o t s t e i n , 1 9 8 9 ) ,这需要科研工作者有丰富的经验,同时作者还是试图提供一个阈值。复 合区间定位法建议阈值所对应的p 值应该控制在a m ( 0 【一般定为0 0 5 ,m 为分 子标记区间总数) 。这是保证q t l 定位精确度的重要问题。 由于这个问题的重要性,很多学者进入这个领域研究如何更好的确定阈值。 p e r m u t a t i o n 方法在q t l 定位上的应用( c h u r c h i l la n dd o e r g e ,1 9 9 4 ) 就是基于这种 情况,同时也在于计算机运算能力的发展。其本质是每组数据都有自己的阈值, 通过重排结果来估算理论值。更加巧妙地是p e r m u t a t i o n 并不依赖于统计模型, 可以应用到任何模型,得到适合该模型合数据的阈值。但是其缺点就是要求非常 大的运算量,一般情况下p e r m u t a t i o n 要求1 0 0 ,0 0 0 次以上的重排才能保证其精确 度,当然随着计算机的发展,这个问题已经不再是问题了。因此这个方法已经被 广泛的接受并应用于q t l 定位软件开发中,q t l n e t w o r k 阈值的确定也是基于 该方法。 2 2 6q t l 定位软件 基于现有的q t l 定位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论