(计算机软件与理论专业论文)拟南芥基因倍增过程的分析和建模.pdf_第1页
(计算机软件与理论专业论文)拟南芥基因倍增过程的分析和建模.pdf_第2页
(计算机软件与理论专业论文)拟南芥基因倍增过程的分析和建模.pdf_第3页
(计算机软件与理论专业论文)拟南芥基因倍增过程的分析和建模.pdf_第4页
(计算机软件与理论专业论文)拟南芥基因倍增过程的分析和建模.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆邮电大学硕十论文 摘要 上世纪七十年代o h n o 提出的基因倍增理论认为基因在功能多样化之前。必需 先发生基因倍增,基因倍增在生物进化过程中的重要性甚至超过突变与自然选 择。基因倍增指含有基因的d n a 片断( 段序列、整条染色体甚至整个基因组) 在 基因组中增加一个或多个拷贝的过程。绝大多数倍增基因很快假基因化失活,少 数通过突变产生功能分歧,是基因组生成新的功能基因、进化出新物种的主要机 制。基因倍增有两种模式:连续基因倍增和大规模基因倍增,两种基因倍增过程 均产生大量基因家族。 在2 r 模型的基础上,提出了m r + c 模型描述脊椎动物的基因倍增过程,即 m 次的大规模基因倍增加上连续基因倍增。但是基因倍增的过程具有较高的复杂 性,如此简单的模型并不能全面反映基因倍增过程。为了清楚的认识植物基因倍 增过程,本文采用新的数据和方法研究拟南芥基因组的基因倍增过程,通过分析 连续基因倍增和大规模基因倍增的存在比例和同义置换率分布,并估计丈规模倍 增后基因丢失情况,揭示拟南芥基因倍增特征;并基于寻找到的大规模基因倍增 片段,构建拟南芥基因倍增片段图谱数据库;在拟南芥基因倍增数据支撑下,基 于粗略倍增模型m r + c 细化基因倍增的每个细节,得到拟南芥具体的基因倍增 模型,并将该模型应用于拟南芥的基因倍增的描述,模拟拟南芥基因倍增的全过 程,揭示拟南芥基因倍增的详细过程和倍增后基因的丢失过程,并评估大规模基 因倍增和连续基因倍增模式对于拟南芥基因组进化的作用。 关键字:拟南芥,基因组,大规模基因倍增,连续基因倍增,建模 重庆邮电大学硕十论文 a b s t r a c t g e n ed u p l i c a t i o ni sd e f i n e da ss e g m e n to fd n aw h i c hm a yb eas m a l lg e n e m e s e q u e n c e ,t o t l ec h r o m o s o m e ,e v e nw h o l eg e n o m ed u p l i c a t eo n eo rm o r ec o p i e s g e n e d u p l i c a t i o ni so n eo ft h ep r i m a r yd r i v i n gf o r c e si nt h ee v o l u t i o no fg e n o m e sa n d g e n e t i cs y s t e m s t h ed i v e r s i f i c a t i o no fg e n ef i m c t i o n sd u r i n ge v o l u t i o nr e q u i r e sp d o r g e n ed u p l i c a t i o n ,g e n ed u p l i c a t i o ni ss oi m p o r t a n ti nt h ee v o l u t i o n d u p l i c a t eg e n e s f i r eb e l i e v e dt ob ea m a j o rm e c h a n i s mf o r t h ee s t a b l i s h m e n to f n e wg e n ef u n c t i o n sa n d t h eg e n e r a t i o no f e v o l u t i o n a r yn o v e l t y f o ri n v e s t i g a t i n gt h eg e n ed u p l i c a t i o no ft h ev e r t e b r a t e s ,r e s e a r c h e r ss u g g e s ta s i m p l em o d e lb a s e do nt h e2 rt h e o r y , i ti sm r + c ,mr o u n dl a r g e s c a l ed u p l i c a t i o n p l u sc o n t i n u o u sd u p l i c a t i o n h o w e v e r , t h ew h o l e8 e n ed u p l i c a t i o np r o c e s si st o o c o m p l i c a t e dt ob ed e s c r i b e db yt h es i m p l em o d e l i nt h i sp a p e r , an e wm o d e lb a s e do n t h a tm o d e li sc o n s l r u c t e dt os i m u l a t et h eg e n ed u p l i c a t i o np r o c e s s e si na r a b i d o p s i s g e n o m e t h r o u g hm o d e le m u l a t i o n , w ec a r li n v e s t i g a t et h ew h o l ep r o c e s s e so fg e n e d u p l i c a t i o n :t oe v a l u a t et w od i f f e r e n tp a t t e r n so fg e n ed u p l i c a t i o nd u r i n gt h e i r e v o l u t i o n ,a n dt or e v e a lt h en u m b e ro fg e n e sw h i c hl o s ta f t e rt h eg e n ed u p l i c a t i o ni n a r a b i d o p s i sg c n o m e k e yw o r d s :a r a b i d o p s i s , g e n o m e ,l a r g e s c a l ed u p l i c a t i o n , t a n d e md u p l i c a t i o n , m o d e l i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得重庆噬血盎堂或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:唿彩p 签字日期:p 。5 年月8 日 学位论文版权使用授权书 本学位论文作者完全了解重廑哩电太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文 被查阅和借阅。本人授权 重庆邮直太堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位做作者躲毽i 岛1 0导师徘谚 签字日期: 矿6 年6 月台日签字日期:厶西年 一 伊 辱扣 重庆邮电大学硕士论文 第一章绪论 1 1 研究背景 第一章绪论 生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术 研究生物大分子,其研究重点主要在脱氧核糖核酸( d n a ) 和蛋白质两个方面, 包括它们的序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为源头, 破译遗传语言,认识遗传信息的组织,辨别隐藏在d n a 序列中的基因,掌握基因 调控信息,对蛋白质空间结构进行模拟和预测,依据特定蛋白质的结构和功能进 行药物分子设计。与生物信息学相关的概念还有计算分子生物学,计算分子生物 学主要研究分析方法,开发分析工具,促进生物分子数据的分析。与生物信息学 相关的另一个名词是生物计算,生物计算特指用计算机技术分析和处理生物分子 数据。 生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人 类基因组计划的实施。其实在2 0 世纪5 0 年代生物信息学就已经形成萌芽,2 0 世纪7 0 年代就已经产生生物信息学的基本思想,但生物信息学的真正发展则是 在2 0 世纪的9 0 年代,在人类基因组计划的推动下。生物信息学得以迅速发展。 人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所 需要解决的问题则是生物信息学发展的动力。 在生物信息学领域,常常要对数据进行分析,对数据的分析和挖掘能够获得 新的设想和猜测,基于这些基本的数据分析结果。可以建立合适的数学模型,再 利用计算机进行模拟仿真验证模型的可靠性,根据模拟的结果再改进模型,依次 循环,直到得到满意的仿真结果为止。计算机模拟在生物信息中的步骤如下图: 反馈,改进壤撄 图1 1 计算机模拟试验 重庆邮电大学硕士论文 第一章绪论 信息技术特别是计算机科学技术的快速发展让人们能够依靠高性能的计算 机完成传统生物学不可能完成的任务,采用高性能计算机对大量生物数据进行全 面的分析,通过数学建模以及计算机模拟技术能够使生物学得到快速的发展。通 过收集、组织、管理生物数据,使研究人员能够迅速地获得和方便地使用相关信 息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生 物世界的认识;在生物学、医学研究和应用中利用生物分子数据及其分析结果, 可以大大提高研究和开发的科学性及效率。计算机建模以及仿真技术在生物信息 分析中也具有重要作用,从分子或者原子水平上的相互作用出发建立分子体系 的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力 学及熟力学等方面的性质等。建模和仿真技术在生物信息学各个方向都得到了广 泛应用。 基因的起源及其进化过程一直是研究者们热衷于研究的问题。生物进化经 历了一个漫长而复杂的过程,而基因作为生物体的基本元素,它的起源及其进化 过程更加复杂,如何由少数的基因进化到现今的众多的基因,基因倍增在进化过 程中具有十分重要的作用,所谓基因倍增是指d n a 片段在基因组中倍增出一个或 更多的拷贝,这种d n a 片段可以是- - 4 , 段基因组序列、整条染色体甚至是整个基 因组。早在上世纪七十年代o h n o 就提出了基因倍增理论,认为基因功能在具备 多样化之前,必需先发生基因倍增,生物的进化过程中基因倍增的重要性可能超 过突变与自然选择。基因倍增是基因组进化最主要的驱动力之一,是产生具有 新功能的基因和进化出新物种的主要原因。基因倍增研究对揭示早期基因组进化 的神秘面纱具有重要意义。 基因进化过程中的倍增过程非常复杂,传统的试验生物学无法阐明这个过 程,通过对基因数据的分析和处理发现基因倍增有两种模式:连续基因倍增和 大规模基因倍增,两种基因倍增过程均产生大量基因家族。连续基因倍增是d n a 分子倍增出一个或多个邻近拷贝的过程,其通过高频率的基因产生和死亡实现 基因家族的进化;大规模基因倍增是染色体中大片段基因组倍增甚至全基因组 倍增,其发生频率较低,且倍增基因通常大量丢失,存留下来的倍增基因积聚 突变或者获得新的功能,或者退化成没有功能的假基因。尽管能够通过对基因 数据的分析找到两种倍增模式的存在,然而在整个基因组进化过程中,基因倍 增的许多细节并不清楚。利用计算机建模和模拟对基因倍增过程进行研究在该 领域取得突破性的进展,l y n c h 和c o n e r y 第一次研究了全基因组中基因倍增和基 因丢失的程度,发现倍增年代对应的倍增基因数量关系曲线呈现l 形状于是提 出一个随机模型来动态刻画基因数量的增长过程,由此推断基因倍增和丢失的 比例。该模型对基因倍增的研究具有启发意义,揭示了基因组的倍增过程, 2 重庆邮电大学硕七论文 第一章绪论 其缺点在于模型并没有考虑两种倍增模式在进化中的不同作用。 随着许多基因组测序列计划的完成,基因组数据飞速增长,这为基因倍增的 研究提供了更多的数据支撑。目前,通过大量的基因组数据的研究揭示了许多物 种的基因倍增情况,基因倍增现象的普遍存在证明了o h n o 关于基因倍增重要性 的观点。随着对基因倍增研究的深入,不能再局限于发现基因倍增的现象,而是 研究基因倍增的整个过程,动态刻画基因倍增两种模式对基因组进化产生的影 响,从而更深刻的理解基因倍增过程。 尽管对基因倍增进行了大量的研究,仍然存在许多问题需要解决:1 基因起 源的争论( 大规模基因倍增还是连续的小规模基因倍增) ;2 由于倍增基因的丢 失,基因积聚突变发生了更大的变异,基因组中存在隐藏的倍增区域,在探测大 规模基因倍增时,仍然难以确定基因倍增发生的程度;3 用基因之间的同义置换 率c 鼢) 估计基因倍增年代并非完全稳定可靠,因此,在估计基因倍增的年代时存 在差异;4 基因倍增的过程仍然无法清楚的认识;5 目前新的基因测序数据不断 涌现,迫切需要发展新的方法,新的思路来研究基因倍增过程。 1 2 研究任务和目标 本文在已有模型m r 十c 的基础之上“1 ,细化基因倍增的每个过程,综合考虑 了连续基因倍增和大规模基因倍增对基因进化的影响,得出一种揭示基因倍增全 过程的具体的模型。本文对拟南芥基因组进化过程中发生的基因倍增现象进行了 研究,通过对拟南芥连续基因倍增和大规模基因倍增的存在状况和同义置换率 ( 脚分靠进行分析,并对大规模倍增后基因丢失比例进行估计,揭示拟南芥的全 基因组倍增。讨论了之前一些研究在技术方法上的不足,并运用恰当的方法和选 择新的基因组注释数据进行研究,说明了结果具有可靠性,并总结出一种解释拟 南芥基因倍增过程更合理的模型,对于揭示拟南芥基因倍增过程具有启发意义 通过分析基因组中两种倍增模式的倍增,估计大规模倍增发生的年代构建 p r o t e i n ,g e n e ,c d s ,i n t r o n ,e n a o n 等序列的倍增片段图谱数据库。本文通过数学 建模和计算机模拟对拟南芥基因组倍增的过程进行了研究,模拟结果表明拟南芥 基因组在进化中的实际倍增过程与本文提出的模型能够较好的吻合本文提出的 模型考虑了两种基因倍增模式的影响,并结合了特定基因组实际的倍增特点,动 态描述了基因倍增的过程。运用模型对基因倍增过程进行模拟,更深入的理解了 基因倍增在基因进化中的重要作用。 重庆邮电大学硕十论文 第一章绪论 1 3 论文结构 本文共分五章,各章的内容安捧如下: 第一章主要介绍生物信息学的发展,基因倍增研究的背景和有待解决的问 题,以及本文的任务和目标。第二章介绍基因倍增研究基础,介绍了脊椎动物、 模式植物和酵母基因倍增的研究和发展,以及基因倍增研究的方法和发展方向。 第三章介绍两种基因倍增模式:连续基因倍增和大规模基因倍增:并对拟南芥的 两种基因倍增模式进行了分析,构建了拟南芥基因倍增片段图谱数据库。第四章 在简单模型基础上,建立基因倍增具体模型;利用模型对拟南芥基因组倍增过程 进行模拟。第五章总结全文,并提出有待进一步解决的问题。 重庆邮电大学硕士论文第二章基因倍增研究基础 2 1 基本概念 2 1 1 基因倍增 第二章基因倍增研究基础 生物信息学( b i o i n f o r m a t i c s ) 是生物学与计算机科学以及应用数学等学科相 互交叉而形成的- - f 3 新兴学科。它通过对生物学实验数据的获取、加工、存储、 检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信 息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸 和氧基酸序列的存储、分类,检索和分析等方面,所以目前生物信息学可以狭 义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、 分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。 基因是d n a ( 脱氧核糖核酸) 分子上具有遗传效应的特定核苷酸序列,是具有 遗传效应的d n a 分子片段。基因位于染色体上,并在染色体上呈线性排列。基因 不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。不同 人种之间头发、肽色、眼睛、鼻子等不同,是基因差异所致。 染色体( c h r o m o s o m e ) :是染色质在细胞分裂过程中经过紧密缠绕、折叠、 凝缩和精细包装形成的具有固定形态的遗传物质存在形式。简而言之,染色体是 一个大的单一的双链i ) n a 分子与相关蛋白质组成的复合物,d n a 中含有许多贮存和 传递遗传信息的基因。 基因组( g e n o m e ) 就是一个染色体组上遗传物质的总称。大部分动植物细胞都 含有两个基因组,为双倍体;而真菌、藻类和细菌大多只含有一组染色体,为单 倍体。 基因倍增是指d n a 片段在基因组中倍增出一个或更多的拷贝,这种d n a 片 段可以是一小段基因组序列,整条染色体甚至是整个基因组。基因倍增是基因组 进化的一种重要机制,是基因功能多样化的前提,也是物种进化的主要推动力。 基因倍增有两种模式:连续基因倍增和大规模基因倍增,两种基因倍增过程 均产生大量基因家族。连续基因倍增是d n a 分子倍增出一个或多个邻近拷贝的过 程,其通过高频率的基因产生和死亡实现基因家族的进化;大规模基因倍增是染 色体中大片段基因组倍增甚至全基因组倍增,其发生频率较低,且倍增基因通常 大量丢失,存留下来的倍增基因积聚突变或者获得新的功能,或者退化成没有功 能的假基因。 5 重庆邮电人学硕+ 论文 第二章基因倍增研究基础 同源基因是经过共同祖先基因进化而来的不同基因。分为种内同源和种问同 源。 同义置换是指不影响氨基酸编码的d n a 序列变异,同义置换率( x s ) 是指同义 置换在基因组序列中发生的概率。 2 1 2 拟南芥及其基因组 拟南芥是一种小的双子叶植物,属于十字花科拟南芥属。广泛用于植物遗传 学、发育生物学和分子生物学的研究,已成为一种典型的模式植物。拟南芥基因 组小,只有5 对染色体,染色体数量仅是玉米基因组的二十分之一。另外,该植 物生长较快,形态特征简单,适宜用作研究其它植物的模型。因此,科学家于 1 9 9 6 年决定以拟南芥为突破口,绘制它的完整基因图谱。 2 0 0 0 年,拟南芥的全部基因组序列测序完成并公开发表,这是人类首次全部 破译的植物基因组。拟南芥基因组特征有:1 包含大约1 3 亿个碱基对;2 编码 大约2 5 5 0 0 个基因;3 包含与其他己测序真核生物基因组相似数量的基因功能分 类;4 有3 5 为独特基因 5 3 7 5 的基因作为大的基因家族成员而存在( 家族 有5 个或以上成员) ;6 表现出古多倍体的证据:估计有5 8 6 ( f o 的拟南芥基 因组以重复形式存在。拟南芥基因组虽小,但大多数基因与其他复杂的植物基因 具有很高的同源性,由于这种植物的全部基因组测序已经完成,因此拟南芥在植 物学所有领域的研究中将发挥更大的作用。 2 2 基因倍增研究进展 2 2 1 基因倍增现象及其重要性 基因倍增现象广泛存在,据估计,人类基因组中大约有1 5 的基因由基因倍 增产生,而在果蝇、线虫和酵母基因组中有8 - 2 0 的基因由此产生,模式生物的 基因倍增率大约为每个基因每百万年倍增0 2 2 r s l 近年来对基因倍增研究发 现脊椎动物、模式植物、酵母等中存在不同程度的大规模基因倍增,有的甚至是 全基因组倍增m 。 在基因倍增的研究中,存在大量对应同源基因的两个片段被称为同线性 ( s y n t c n y ) 区域,通过寻找这些片段并结合片段中丢失的基因来判断大规模基因倍 增的范围:利用同源基因的平均同义置换率( 腼) 估计基因倍增的年代,结合系统 发育分析来研究基因倍增和物种分化的前后顺序。基于以上的理论和方法,近年 6 重庆邮电大学硕七论文 第二章基冈倍增研究基础 来对基因倍增研究发现脊椎动物,模式植物,酵母等中存在不同程度的大规模基 因倍增,有的甚至是全基因组倍增。 美籍日本科学家o h n o 在上世纪七十年代发表了题为基因倍增进化的文章,从 而引发了对基因倍增进化理论的研究和讨论。在o h n o 关于基因倍增的专论中提 到:从一个细菌到形成大量种类的细菌,进化完全取决于自然选择吗? 从一个单 细胞有机体发展到多细胞动物,脊椎动物,再到后来的哺乳动物是很不可思议的。 这样的进化飞跃需要产生先前不存在的新功能的基因,只有那些冗余的顺反子能 够逃脱残酷的自然选择压力。它通过逃脱自然选择积聚了先前禁止的突变来形成 一个新的基因位。后来,o h n o 意识到d n a 能够作为一个强大的手段,通过这个手 段可以形成新的基因或者旧的基因的新功能基因可以在进化过程中通过多种方 式产生新基因“。 基因功能在具备多样化之前,必需先发生基因倍增,由此可见基因倍增在进 化中的重要性。基因倍增是基因组进化最主要的驱动力之一,是产生具有新功能 的基因和进化出新物种的主要原因之一。 2 2 2 脊椎动物基因倍增研究进展 o h n o 于上世纪七十年代提出了基因倍增学说,即在脊椎动物进化历程中发生 过一次或多次的全基因组倍增。后来的研究者将其修正为二轮的基因组倍增,即 二轮( 2 r ) 基因组倍增学说”,该学说提出时被广泛接受,并引发后来对基因倍增 研究的热潮,随着近年来对基因倍增进行广泛和深入的研究,该学说却引起了越 来越多的争论。 二轮( 2 鼬基因组倍增学说提出时并没有足够的数据可为其提供证明,支持该 学说主要有两点理由,一是无脊椎动物如节肢动物、海胆和头索动物文吕鱼都只 有一个h o x 基因簇,而脊椎动物除鱼类有7 个h o x 基因簇外,其余都具有4 个h o x 基因簇”;二是不同物种的基因组不同区域内有许多结构、功能和捧列次序相似 的基因形成的同线性( s y n t e n y ) 区域。随着脊椎动物基因组数据的不断增长,研究 者开始对- - e ( 2 r ) 学说进行数据测试对脊椎动物基因进行系统进化分析的结果 并不支持二轮( 2 r ) 学说,认为早期脊椎动物的基因进化并不能用简单的模型( 2 r ) 描述,由此引发了对二轮学说的一系列争论。w a n g 等分析t 4 9 + 产生于脊椎 动物进化早期的脊椎动物基因家族。1 ,通过估计具有三个基因成员的2 6 个基因家 族前两次基因倍增的年代t l 和1 2 ,得到的结果与二轮( 2 r ) 学说在较大程度上一 致。然而分析具有四个基因成员的2 3 个基因家族的基因倍增年代却仅有5 个基因 家族与二轮( 2 r ) 学说一致,说明对于一些复杂的基因家族,早期脊椎动物基因 倍增模式比预想的二轮( 2 r ) 学说模式更加复杂。 7 重庆邮电大学硕十论文 第二章基因倍增研究基础 近年来对二轮( 2 9 ) 基因组倍增学说的争论越演越烈,其中2 0 0 3 年几篇相关 文献最具有代表性,争论的焦点主要有:一是脊椎动物基因倍增的模式( 全基因 组倍增模式或连续倍增模式) ;二是全基因组倍增的次数和年代。随着人类全基 因组测序计划的完成,为研究者提供了更多可供分析的序列数据。为了分析人类 基因组的全基因组倍增,使用基于作图的方法寻找到的种内( p a r a l o g o ) 同源序 列超过人类基因组的4 0 * * ,对其进行系统进化分析,结果表明脊椎动物进化中在 3 5 0 6 5 0 百万年前之间发生过一次全基因组倍增“”。而通过比较人类和无脊椎动 物的基因家族大小,结果表明脊椎动物和无脊椎动物基因家族的成员数目之比并 非之前提出的4 :1 ,同时系统进化分析也不支持2 r 学说,基因倍增的年代在进化 历史上广泛分布,并不集中于某个时问范围,该研究彻底否定了2 r 学说,提出脊 椎动物基因倍增是连续倍增t t l 。大规模脊椎动物基因家族的系统进化分析结果对 2 r 学说提出新的质疑,从7 4 9 个脊椎动物基因家族的系统进化分析中标注了1 7 3 9 个基因倍增事件发生的年代,结果表明由连续倍增产生的基因占3 0 5 2 ,并提 出一种新的解释模型;m r + c ,即r n 轮全基因组倍增加上连续的连续倍增,该理论 修正了二轮( 2 r ) 学说的一些不足。因此,全基因组倍增和连续倍增都对脊椎动 物早期进化过程起了重要的作用。 综上所述,脊椎动物的基因倍增模式并不象二轮( 2 r ) 基因组倍增学说那样单 一,连续基因倍增占有相当大的比例,因此两种混和的倍增模式对于解释其进化 过程更为合理,对脊椎动物早期基因的进化有了更深入的了解。 虽然脊椎动物的基因倍增不能完全由2 r 学说来解释,然而基因倍增现象在脊 椎动物中广泛存在。对文昌鱼、线虫、果蝇、酵母单拷贝的种问( o r t h o l o g o u s ) 同 源基因、大肠卡t 菌的e s t s 、小鼠和人类的基因进行比对分析,在人类染色体中探 测到4 8 5 个倍增片段,这些片段中的基因在线虫,果蝇和酵母中具有种间 ( o r t h o l o g o u s ) 同源基因,其中3 3 1 个片段在小鼠基因组中发生过倍增,并且存在于 小鼠和人类基因组的同线性( s y n t e n y ) l 爰域中,由此表明:较大部分基因倍增发生 在小鼠和人分化之前,而且在脊椎动物起源时期至少发生过一次全基因组倍增, 而在鸟类和哺乳动物分化时期附近发生过一些连续基因倍增“o 。分析4 9 个具有人 类、小鼠、鸡、非洲爪蟾、斑马鱼和河豚鱼的种问( o r t h o l o g o u s ) 源基因,并在 斑马鱼基因组中找到l o 个倍增区域,这些倍增区域具有2 至5 个种i 勾( p a r a l o g o u s ) 同源基因,系统进化分析和共线性数据说明斑马鱼和河豚鱼具有共同的祖先,而 且鱼类的进化经历了一次全基因组基因倍增o ”。最近的研究延续着对基因倍增模 式的讨论,并对大规模基因倍增和基因表达分歧进行了深入讨论。人类基因组的 4 是大片段基因组倍增,而2 4 个染色体之中,大片段基因组倍增所涵盖的比率 为1 1 4 。在1 5 个染色体中,染色体内的倍增比染色体问的倍增普遍“”。此外, 8 重庆邮电大学硕十论文 第二章基因倍增研究基础 人类基因组中种内0 a t a l 0 9 0 璐) 同源序列占人类基因组的“ t o o 小鼠基因组中约 1 2 的序列的产生与最近一次大片段基因组倍增有关,这个倍增率低于人类基因 组( 约4 ) 的大片段基因组倍增率”1 。综上所述,脊椎动物进化过程中发生过大 规模基因倍增这一事实已经毋庸置疑。 2 2 3 模式植物基因倍增研究进展 2 2 3 1 拟南芥 双子叶模式植物拟南芥基因组中存在大量的基因倍增区域,不同的研究者提 出了从一次到多次可能发生过的基园倍增事件“。l y n c h 和c o n e r y 发现多数拟 南芥基因的倍增发生在6 5 0 0 万年前,由此表明拟南芥发生了一次基因倍增事件 “。g u i l l a a m e 等利用蛋白质序列相似性搜索来探测在基因组中的倍增区域,并分 析基因倍增发生的年代和邻接倍增区域的重叠度,结果表明拟南芥至少经历了两 次截然不同的基因倍增事件,一次是大约发生在比先前估计的年代更久远的多倍 化事件,在拟南芥和芸苔分化之前,大约地球上出现十字花科的时期( 2 4 4 0 百万 年前) ;另一次更古老的倍增发生在单子叶和双子叶植物分化之后“”。分析拟南 芥基因组中一个严重退化的倍增区域表明形成这个双子叶植物模式生物的基因 组很可能是三次多倍化事件“”。 研究拟南芥倍增片段发现其中大部分基因丢失,大约有2 8 的倍增基因保留 下来,虽然基因倍增后严重的基因丢失减少了拟南芥基因组中的同线性( s y n t e n y ) 区域“”,但拟南芥基因组仍然包含大量的倍增染色体片段,以上研究由于采用不 同的方法导致基因倍增的年代和规模的不同解释,在今后研究拟南芥基困组倍增 的年代和规模中,运用恰当的方法和新的基因组注释数据变得更加重要。此外, 最近的研究发现伴随一次基因组倍增事件存留下来的副本基因在接下来的基因 倍增中将有大于5 0 甚至更大的可能性继续存留下来“”,该研究将引发研究者 对其他物种基因组是否存在同样或类似的规律的讨论。 2 2 3 2 水稻 水稻具有较小基因组,能更好的理解遗传和进化问题。早在7 0 多年前便有研 究者第一次提出水稻是一个多倍体,但水稻基因组的多倍性起源却长期没有证据 支撑。2 0 0 2 年水稻基因组测序完成后有许多文献报道水稻基因组中存在大量的基 因倍增,主要根据水稻基因倍增的年代与范围的不同来研究水稻的多倍性起源。 水稻基因倍增研究比较表明( 如表l 所示) :较多的研究趋向于水稻基因倍增 9 重庆邮电大学硕士论文 第二章基因倍增研究基础 年代在7 0 m y a 在基因倍增范围上,随着基因数据的完善,最近的研究多数也支 持水稻的全基因倍增。关于水稻基因组倍增的年代和范围的不同结果是由于不同 的方法或者数据造成的不同的解释。 表2 1 水稻基冈倍增研究比较( m y a 指百万年前) 水稻谢种倍增年代倍增程度作者 结论 发表年代 j a 刚c a 4 0 - 5 0m y a5 9 g o 嘴 全基因组倍增2 0 0 2 j a p o a l 龆7 0 m y d 1 5 v 硼d e p l e 等 非整倍体2 0 0 3 佃州妇7 0 衅4 2 0 s 吐枷咖等 非整倍体 2 0 0 4 j a p o n i c a 7 0 m y a6 1 9 p e t m o n 荨 多倍律2 0 0 4 i n d i c a6 6 7 0m y a4 5 w 锄g 等一1两次全基囚组倍增2 0 0 5 i n d i c a5 5 7 0m y a6 57 e y u 等 全基因组倍增 2 0 0 5 2 2 4 真菌基因倍增研究进展 2 2 4 i 酵母 基因佶增在脊椎动物和植物中广泛存在,在酵母基因组中的存在状况成为近 年来研究的热点。事实上,在酿酒酵母基因组中存在大量的副本基因,早在1 9 9 3 年l a l o 就发现酿酒酵母染色体和i v 之间存在大量的倍增现象,该发现为酵母 基因组倍增提供了第一个证据。此后更深入和详尽的研究不断揭示其基因倍增。 w o l f e 等研究表明酿酒酵母基因组中的基因倍增与o h n o 的全基因组倍增学说一 致,并提出酿酒酵母是由一次全基因组倍增产生的退化的四倍体,仅仅有小部分 副本基因在基因倍增后保留下来。s e o i g h e 等通过计算机仿真实验研究酵母基 因组倍增的范围,酿酒酵母的多数染色体倍增区域被认为是由发生在1 0 0 百万年 前年前的全基因组倍增产生,计算机仿真表明8 的原始基因在基因倍增后保留 在副本基因中0 1 。a c h a z 等在核酸序列水平上研究酿酒酵母染色体内的倍增,通 过寻找每条染色体上较长的近似的重复序y l j ( 3 0 - 3 8 8 5 b p ) ,发现正向重复和反向重 复序列对表现出不同的特征:正向重复的两个拷贝基因比反向重复的基因更长并 且更相似;与反向重复序列相比,大量的正向重复序列间隔更小“。 2 2 4 2 酵母比较基因组学研究 酵母基因组内部序列的比对说明了酵母基因组内存在着基因倍增。而近年 来,随着基因数据飞速增长,通过不同物种基因组序列之问的比对来揭示基因组 进化成为有力工具,以下综述由基因组之间对比来研究酵母基因倍增的最新成 重庆邮电大学硕七论文 第二章基因倍增研究基础 果。 k e l l i s 等将最近测序完成的克鲁雄酵母菌k l u y v e r o m y c e sw a l l i i ( 缩写为正 w a l t i t 3 的基因组与已被研究多年的模式生物酿酒酵母比对。发现两者是l :2 对应 的同线性( s y n t e n y ) 关系,即j 【w a l l i i 基因组的每一区段均对应于酿酒酵母的两个 区段。k e l l i s 等在w a l t i i 与酿酒酵母的基因组中找寻到2 5 3 个同线性( s y n t e n y ) 区 域,涵盖了k w a l t i i 全部基因的7 5 以及酿酒酵母全部基因的8 1 。由此认为酵母 基因组经历了全基因组倍增。由于每一足w a l t i i 的基因组区段,在酿酒酵母均有 两个对应区段,则酿酒酵母的基因组大小应为丘w a l t i i 两倍而基因数目也应为两 倍。事实上两者基因组的大小和基因数目相差不大,研究认为这个差距是由大量 的基因丢失所造成,同线性( s y n t e n y ) 区域中8 8 的同源基因丢失。d i e t r i c h 等人 完成一种细丝状子囊菌a s 坳9 0 四伊f 缩写为a g o s s y p i t ) 基因组的测序并注释其 所含的基因。a g o s s y p i t 基因组的9 0 可以在酿酒酵母上找到对应区段,而勘 g o s s y p i i 的- - 个区段也对应于酿酒酵母的两个区段,正如前述酿酒酵母与足w a l t i i 的对应关系;而两个酿酒酵母的区段合并起来,其基因内容与基因顺序与 g o s s y p i i 酐j 对应区段完全相符。由一g o s s y p i i 与酿酒酵母h2 对应的同线性( s y n t e n y ) 区域,推断在两者分化之前有一个带有7 个或8 个染色体的共同先祖。o u j o n 等 人选择了半子囊菌纲内的四种酵母,通过定序其基因组序列及定义其基因,并与 酿酒酵母相比较,揭示了酵母的演化过程。由于现在己知的酵母种类超过7 1 ) 0 种, 今后更多种类的酵母会完成基因组测序,整个的演化进程将更为清楚。 综上所述,基因倍增在脊椎动物、植物和酵母基因组中广泛存在,其在生 物进化中的重要性不言而喻。 2 3 基因倍增研究方法和发展方向 2 3 1 基因倍增的研究方法 2 3 1 1 数据收集 收集数据并进行必要的数据整理是进行数据分析的基础。首先下载所有需要 使用的数据到本地计算机,由于基因公若数据库中的数据格式并不完全相同,因 此要对数据进行格式化,常用的文件格式有f a s t a ,g e n b a n k 格式等;在下载数据 时,不同数据库之间的数据存在的冗余序列,为了避免在数据分析中由于数据重 复产生偏差,必须去除数据库中的冗余序列。而根据不同的研究需求,还需要做 更多的数据整理工作,例如,在基因倍增研究中,去除较短的序列以保证寻找同 重庆邮电大学硕士论文第二章基因倍增研究基础 源序列的可靠性。经过数据整理后,构建一个可靠的本地数据库。 2 3 1 2 寻找同源序列 b l a s t 是目前常用的数据库搜索程序,它是b a s i cl o c a la l i g t m a e n ts e a r c ht o o l 的缩写,意为“基本局部相似性比对搜索工具”。国际著名生物信息中心都提供基 于w e b 的b l a s t 服务器。b l a s t 程序之所以使用广泛,主要因为其运行速度比 f a s t a 等其它数据库搜索程序快,而改进后的b l a s t 程序允许空位的插入。通过 访i b l n c b i 的p 罔站在线进行b l a s t 和f a s t a 的搜索b l a s t 软件包实际上是综合在 一起的一组程序,不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜 索,而且可以将检测序列翻译成蛋白质或将数据库翻译成蛋白质后再进行搜索, 以提高搜索结果的灵敏度。位置特异性叠代b l a s t ( p o s i t i o n s p e a z i f i ci t e r a t e d b l a s t ,简称p s i - b l a s t ) 则是对蛋白质序列数据库进行搜索的改进,其主要思 想是通过多次叠代找出最佳结果。具体做法是利用第一次搜索结果构建位置特 异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类 推,直到找出最佳搜索结果。此外,b l a s t 不仅可用于检测序列对数据库的搜 索,还可用于两个序列之问的比对。 b l a s t 家族戈有5 个程序,基本上是核酸和氨基酸序列的任意组合的查询都 可以进行,它们允许所有的d n a 或蛋白质化合物序列对于d n a 或蛋白质库的搜 索。通常使用那一种b l a s t 程序是依据需要搜索的序列和已经选择的数据库的 类型。以n u c l e o t i d e - n u c l c o f i d e 搜索为例,b l a s t n 和t b l a s t x 都可以使用,一般 b l a s t n ,t b l a s t x 主要应用于e s t s 比较,尤其是怀疑其中有可能的编码区,注 意用t b l a s t x 时,有缺口的序列是不能被利用的。 使用b l a s t 进行同源序列搜索,为确保搜索出有价值的同源序列,将参数e 值设为e 4 0 ,e 值必须大于0 ,其数值越小,搜索的同源序列相似度越高。构建一 个数据挖掘的管道来寻找所有符合条件的同源序列。例如,在脊椎动物进化模式 的研究中,研究者收集了各种用于估计基因倍增的年代的脊椎动物基因家族。从 数据库中获得了超过3 0 0 0 种脊椎动物的蛋白质序列,它们中每一种都有至少两个 人类同源基因,去除冗余的序列,然后去除不适合做分析的序列。通过b l a s t - p 搜索无脊椎动物的同源体。通过系统进化分析鉴别估计的基因家族的4 1 的潜在 黄果蝇同源共生基因。 2 3 1 3 构建系统树 系统树分有根( r o o t e d ) 和无根( t m r o o t e d ) 树,如下图所示。有根树反映了树上 重庆邮电大学硕士论文第二章基因倍增研究基础 物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的 祖先的问题。 图2 1 物种( a b c 和d ) 的2 种有根树 有根树;有根树;( c ) 无根树 用于构建系统树的数据有二种类型:一种是特征数据( e h a r t e rd a t a ) ,它提 供了基因、个体、群体或物种的信息;二是距离数据( d i s t a n c ed a t a ) 或相似性数据 ( s i m i l a r i t yd a t a ) ,它涉及的则是成对基因、个体、群体或物种的信息。距离数据 可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离 矩阵( d i s t a n c em a t r i x ) 是在计算得到的距离数据基础上获得的,距离的计算总体上 是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统树的构 建质量依赖于距离估算的准确性。 系统树的构建主要有三种方法:距离矩阵法( d i s t a r t c * m a t r i xm e t h o d ) 是根据每 对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质 量。距离通常取决于遗传模型。最大简约( m a x i m u mp a r s i m o n y ) 法较少涉及遗传 假设,它通过寻求物种间最小的变更数来完成的。对于模型的巨大依赖性是最大 似然( m a x i i i l u ml i k e l i h o o d ) 法的特征,该方法在计算上繁杂,但为统计推断提供了 基础。 2 3 1 4 测定基因倍增 c h a p m a n 等提出一种测定全基因组倍增的系统比较法,该方法首先为每一 对倍增序列寻找参照物种和外群物种的最佳同源序列,将外群物种韵最佳同源序 列作为根节点构建四序列的系统树,进一步测定全基因组的倍增事件。系统进化 分析会产生两种可能的不同序列顺序的系统树,若倍增序列对相互之间比其中一 重庆邮电大学硕七论文 第二章基因倍增研究基础 个与参照物种的最佳同源序列更为相似,则参照物种的最佳同源序列被认为是倍 增序列对的外部序列( 物种分化后基因倍增) ,若参照物种的同源序列与倍增序列 对中的其中一个序列比倍增序列对之间更相似,则参照物种的最佳同源被认为是 倍增序列对的内部序列( 基因倍增后物种分化) ,如图2 2 所示。 该方法得到了广泛的应用,研究者用该方法对拟南芥和水稻的基因组倍增进 行了分析,发现水稻和拟南芥中大量的倍增区域。同时,研究选择的基园家族必 需符合一些统计错误和抽样偏差标准,这是为了使基因倍增时间的检测结果具有 可靠性。近年来出现了一些对基因组进行大规模比对分析的撮新的工具软件,如 m u m m e “2 0 0 3 ) ,d a g e h a i n e r ( 2 0 0 4 ) 等,这些工具都能迅速的寻找基因组中发生 倍增的区域。 叩 倍增序列对 参照物种的最佳 同源 口口囵- 系统发育分析 外群物种的最佳 同源 图2 2 系统比较法测定全基因组倍增 ( a ) 表示倍增序列对之同比其中任何一个基因同对照物种最佳同源更相似,代表基因倍 增发生在物种分化后;( b ) 表示对照物种同源基因与倍增序列其中一个基因更相似,代表物 种分化后基因倍增 1 4 重庆邮电大学硕士论文第二章基因倍增研究基础 2 3 1 5 同义置换率( k s ) 和基因倍增年代的计算 同义置换即是指不影响氨基酸编码的d n a 序列变异,同义置换率( 缸) 是指 同义置换在基因组序列中发生的机率。使用软件c l u s t a l w 对大量的倍增序列对 进行联配,序列之间的同义置换率“e o 可以使用工具软件包进行计算,例如 p a m l 等,该工具包采用最大似然法来计算同义置换率( 脚,常用的方法还有邻 接法。在l i n u x 系统下可以结合s h e l l 控制批量序列的同义置换率( 缸) 的计算。由 公式t ;k s 2 2 计算基因倍增的年代,五指同义置换的平均速率,不同的物种具 有不同速率,例如在拟南芥中名为每10 9 年发生6 1 次同义置换。通过这样的过 程可以估算基因倍增的年代,这套方法建立在中性进化理论之上,也就是指基因 在进化时,每个碱基发生突变的概率是均等的,并且与时间成正比。 2 3 2 基因倍增研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论