




已阅读5页,还剩83页未读, 继续免费阅读
(生物物理学专业论文)原核生物基因识别新算法研究及dna序列分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 目前,随着d n a 测序技术的发展,从细菌到高等真核生物,越来越多的全 基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作 为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物 信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识 别算法的研究,以及对d n a 序列的相关分析。 论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背 景作了简要介绍。 论文第二部分利用一些生物信息学工具,如z c u r v e 、g l i m m e r 以及b l a s t 等软件,对一株蜡状芽孢杆菌( b a c i l l u sc e r e u sa t c c1 0 9 8 7 ) 基因组中的蛋白质 编码基因进行了分析,并将原r e t s e q 数据库标注的5 6 0 3 个基因重新注释为5 1 8 0 个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保 守基因的比例、平均基因长度以及g c 含量等指标上明显优于原始注释,证明了 重新注释的基因的合理性。 论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基 因的算法一z c u r v e 2 0 的研究。该算法以相位特异性z 曲线理论为基础,综合 考虑密码子内部相邻碱基之间的相关性,发展了新的特征变量和样本。并在编码 与非编码o r f s 的分类算法方面,使用了支持向量机方法进行训练与判别。另外 对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能 的参考数据集。依据这4 1 9 条染色体序列数据,将z c u r v e2 0 与z c u r v e1 0 2 、 g l i m m e r3 0 2 进行比较。结果表明,三者的平均识别率相差很小;z c u r v e2 0 和 g l i m m e r3 0 2 的平均附加预测率处于同一水平,且均比z c u r v e1 0 2 有明显降低; 另外z c u r v e 程序的运行速度和易用性要远好于g l i m m e r3 。0 2 。当把z c u r v e2 0 和g l i m m e r3 0 2 联合使用时,预测成绩通常会显著提高。 论文第四部分描述了z 曲线数据库和必需基因数据库的更新。z c t l r v e d a t a b a s e2 1 提供了一个方便可视化分析基因组数据的有力平台;d e g3 0 为分 析必需基因的统计特征,开发预测必需基因的算法提供了基础。 关键词:z 曲线,细菌和古细菌基因组,基因识别,重新注释,数据库 a bs t r a c t n o w a d a y s ,af l o o do fs e q u e n c ed a t am e a r l s t h a tm a n yo ft h ec h a l l e n g e si n b i o l o g ya r en o wc h a l l e n g e si nt h e o r e t i c a lc o m p u t a t i o n b i o i n f o r m a t i c s h a sn o wf i r m l y e s t a b l i s h e di t s e l fa sad i s c i p l i n ei nm o l e c u l a rb i o l o g y ,a n de n c o m p a s s e sa w i d er a n g e o fs u b j e c ta r e a s i d e n t i f i c a t i o no fp r o t e i n - c o d i n gg e n e si nm i c r o b i a lg e n o m e s i so n eo f t h em o s ti m p o r t a n t 。t a s k si nb i o i n f o r m a t i c s t h i s d i s s e r t a t i o nd e s c r i b e sal i t t l e i m p r o v e m e n ti nr e c o g n i z i n gp r o t e i n c o d i n gg e n e si nb a c t e r i a lg e n o m e s u s i n gt h ez c u r v em e 也o d t h ef i r s tp a r to ft h ed i s s e r t a t i o ni n t r o d u c e st h em a i nc o n t e n t so ft h ec u r r e n t b i o m f 0 衄a t i c sr e s e a r c h ,a n dt h eb a c k g r o u n dk n o w l e d g ea b o u tg e n er e c o g n i t i o ni n p r o k a r y o t e si sa l s or e f e r r e di nb r i e f t h es e c o n d p a r t o ft h ed i s s e r t a t i o nd e s c r i b e s 也er e 。a n n o t a t m n o nt h e d r o t e i n c o d i n gg e n e si nb a c i l l u sc e f g u sa t c c10 9 8 7g e n o m eb yj o i n ta p p l i c a t i o n so f z c u r v e 卸dg l i m m e rp r o g r a m t ov e r i f yt h ea d d i t i o n a lo r f sw h i c h a r en o ti n c l u d e d i nt h eo r i g i n a la n n o t a t i o n , w ea l s ou t i l i z et h em e t h o do fb l a s t d a t a b a s es e a r c hf o r b e t t e ra c c u r a c y c o n s e q u e n t l y , t h en u m b e ro fr e - a n n o t a t e dp r o t e i n 。c o d i n gg e n e si nt h e b 口c f ,m sc p 您w sa t c c10 9 8 7g e n o m ei sf o u n dt ob e5 18 0 ,w h i c hi se v i d e n t l yl e s st h a n 5 6 0 3a c c o r d i n gt or e f s e qa n n o t a t i o na n dm o r ea u t h e n t i c t h e s eg e n e st h e nb e c o m e t h eb a s i sf o rm u c hf u r t h e rs t u d yi n t ot h eb i o l o g yo fr e l a t i v eo r g a n l s m s t h et h i r dp a r to ft h ed i s s e r t a t i o np r o p o s e st h ea p p l i c a t i o no fzc u r v em e t h o di n t h er c c o g n i t i o no fp r o t e i n 。c o d i n gg e n e si np r o k a r y o t i cg e n o m e s b a s e do i lt h ez c u r c e t h e o r yo fd n as e q u e n c e s ,a l la bi n i t i ob a c t e r i a lg e n e f i n d i n gp r o g r a m z c u r v e2 0h a s b e e nd e v e l o p e d ,w h i c hn e w l ym a k e su s eo ft h es v ma l g o r i t h mt oc l a s s i f yc o d i n g o r f sa n dn o n c o d i n go r f s a f t e rc o m p r e h e n s i v ec o m p a r i s o nw i t hz c u r v e1 0 2a n d g l i m m e r3 0 2t o w a r d s419c h r o s o m e s ,z c u r v e2 0 i sf o u n dt oh a v et h ei d e n t i c a l a c c u r a c vt oz c u r v e1 0 2o rg l i m m e r3 0 2 ,a n dm u c hl o w e ra d d i t i o n a lp r e d i c t i o nr a t e t 1 1 a nz c u r v e1 0 2 b e s i d e s ,z c u r v e2 0c a nb ee a s i l yu n d e r s t o o dt oe x e c u t ea n dt h e s p e e do fi ti sh i g h e rt h a ng l i m m e r3 0 2 i ti ss h o w n t h a tt h ej o i n ta p p l i c a t i o n so fb o t h s y s t e m sg r e a t l yi m p r o v eg e n e f i n d i n gr e s u l t s - t h ef o u r t hp a r to ft h ed i s s e r t a t i o ng i v e sab r i e fi n t r o d u c t i o nt ou p d a t eo ft h e z c u r v ed a 讪a s ea n dd a t a b a s eo fe s s e n t i a lg e n e s ( d e g ) z c u r v ed a t a b a s e 2 。1 d r o v i d e sau s e f u lp l a t f o r mt oa n a l y z et h ed a t ao fg e n o m ei nap e r c e i v a b l em a n n e r ,a n d d e g3 0p r o v i d e sab a s i st od e v e l o pt h ea l g o r i t h mi np r e d i c t i o no f e s s e n t i a lg e n e s k e yw o r d s :t h ezc u r v e ,b a c t e r i a la n da r c h a e a lg e n o m e s ,g e n er e c o g n i t i o n , r e - a n n o t a t i o n ,d a t a b a s e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨盗盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:谢乙名 签字日期: 2 _ o od 年1 2 b2 7 日 学位论文版权使用授权书 本学位论文作者完全了解苤盗态堂有关保留、使用学位论文的规定。 特授权墨鲞盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:二沭名 导师签名: 琢锭 签字日期:2 0 0 侔2 月2 7 日 签字日期:2 0 0 睁f 2 月2 9 日 第一章绪论 第一章绪论 1 1 生物信息学及其主要内容 由高通量的d n a 测序技术带来的序列数据,后基因组时代的功能基因组研 究产生的蛋白质结构数据和蛋白质相互作用信息,d n a 芯片技术带来的表达和 突变数据,为生物学研究走向定量化奠定了基础。面对海量数据的涌现,生物信 息学( b i o i n f o r m a t i c s ) 应运而生,它已经成为现代生物学研究的一个内在组成部 分,并且随着数据量和问题复杂性的增加而显得更为重要i l 】。美国人类基因组计 划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交 叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所 有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量 数据所包含的生物学意义。在研究分子生命科学的许多关键问题中,生物信息学 显得尤为重要【2 】。随着基因组学的研究从结构基因组学过渡到功能基因组学,生 物信息学开始为理解细胞和生物体的系统功能与行为提供理论基础和实际方法 【3 】,已成为当今生命科学和自然科学的重大前沿领域之一( 图1 1 ) 。 生物信息学 数学信息掌 化掌医药掌 图1 1 生物信息学 基因组信息是生物信息中最基本的表达形式,基因组信息量在现有的生物信 息量中比重极大。但广义来说,生物信息不仪包括基因组信息,如基因的d n a 第一章绪论 序列、染色体定位,也涉及基因产物( 蛋白质或l 矾a ) 的结构和功能以及各生 物种间进化关系等多层次、多类型的信息资源。目前国际上公认的生物信息学的 研究内容,主要可以分为以下几个领域【4 5 】: 1 ) 生物学数据的收集、存储、管理与分发。生物学数据库是一切生物信息 学工作的出发点。基因组工程带来的不仅是序列数据在数量上的增长, 而且是分子生物学数据的多样化。现有的生物学数据库大体可以分为以 下4 类:a ) 基因组数据库,来自基因组作图;b ) 序列数据库,来自序 列测定;c ) 生物大分子结构数据库,来自x 射线衍射和核磁共振技术; d ) 以上述3 类数据库和文献资料为基础构建的二次数据库。根据生命科 学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白 质结构以及文献数据进行分析、整理、归纳、注释,构建具有特殊生物 学意义和用途的二次数据库,是生物学数据库开发的有效途径。然而将 各种生物学数据进行有效整合仍然是一个需要努力的方向。最终整合的 数据库形式将会把所有生物信息完全用计算机表示,那么这时生物系统 的各个方面都可以通过计算方法来研究【3 】。 2 ) 序列比对( s e q u e n c ea l i g n m e n t ) 。序列比对是生物信息学的基础,其基 本问题是比较两个或两个以上符号序列的相似性。两个序列的比对已有 较成熟的动态规划( d y n a m i cp r o g r a m m i n g ) 算法,和在此基础上发展起 来的免费软件包b l a s t 6 】和f a s t a t 7 1 ,其在数据库搜索中有重要的应 用。多序列比对常用的程序有c l u s t a l w 8 j 和g c g 软件包的p i l e u p 程序( h t t p :w w w g c g c o m ) 。 3 ) 基因组序列信息的提取和分析。包括基因的发现和鉴定;基因组中非编 码区的信息结构分析;模式生物完整基因组的信息结构分析和比较研 究;利用生物信息研究遗传密码起源、基因组结构演化、基因组空间结 构与d n a 折叠的关系以及基因组信息与生物进化关系等重大问题。 4 ) 功能基因组学。包括用于分析大规模基因表达谱的算法研究和基因表达 调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和 模拟,以及蛋白质功能预测的研究。 5 ) 生物大分子结构模拟和药物设计。包括r n a 的结构模拟和反义r n a 的 分子设计:蛋白质空间结构模拟和分子设计:生物活性分子的结构预测 与设计;纳米生物材料的模拟与设计;基于d n a 结构的药物设计等。 6 ) 分子进化和比较基因组学( c o m p a r a t i v eg e n o m i c s ) 。这是最重要的课题 之一,它对结构和功能相似的蛋白质或编码蛋白质的基因进行比较,进 而来研究分子进化,揭示生物进化的历程。近年来越来越多的模式生物 第一章绪论 全基因组序列的完成,为从全基因组的角度来研究分子进化提供了基 础。分子进化和比较基因组学的分析对揭示生命起源有着非常重要的意 义,将为基因组时代的研究开辟新的领域。 1 2 原核生物基因组和原核生物基因识别 生命是由基因组决定的。每个生物的基因组,携带着构成和维持该生物体生 命形式所必需的所有生物信息。绝大部分基因组,包括所有细胞生命形式的基因 组,由d n a 组成,但有一些病毒具有r n a 基因组。原核生物主要包括细菌 ( b a c t e r i a ) 和古细菌( a r c h a e a ) ,其基因组与真核生物基因组有很大的区别。 1 ) 原核生物基因组较小,大部分由单一的d n a 分子组成。原核生物基因组紧密, 基因间隔很少,编码区在基因组中所占的比例很高( 8 0 9 0 ) ,基因常以操 纵子形式组织。2 ) 除少数几种生物外( 主要是古细菌【9 】) ,原核生物基因组中缺 乏断裂基因。3 ) 原核生物基因组中几乎没有类似于真核生物基因组中那样广泛 分布的重复序列( r e p e a ts e q u e n c e s ) ,但存在一些可在基因组中移动,并可在生 物体间转移的转座元件( t r a n s p o s a b l ee l e m e n t s ) ,如插入序列( i n s e r t i o ns e q u e n c e s ) 。 计算机辅助基因识别( g e n ei d e n t i f i c a t i o n ,g e n ef i n d i n g ,o rg e n er e c o g n i t i o n ) 的基本问题是给定基因组序列后,正确预测出基因在基因组序列中的精确位置。 这是基因组注释工作中最重要的组成部分,也是生物信息学最重要的课题之一, 为基因组的大规模测序起到了巨大的推动作用。2 0 多年来,对于蛋白质编码基 因的预测,已有十多种重要算法和相关软件提供网络服判1 0 】。 原核生物基因识别算法主要分为两大类:基于序列同源性的算法( 外在的, e x t r i n s i c ) 和基于序列组成统计学特征的算法( 内在的,i n t r i n s i c ) 。前一种算法 使用序列比对工具b l a s t 或f a s t a 来搜索数据库中的已知序列,更多考虑的 是已知序列的比较信息,代表程序有o r p h e u s t 】和c r i t i c a t l 2 】。后一种算法 也称为从头预测( a bi n i t i o ) 方法,主要利用蛋白质编码区组成特性和一些功能 位点的保守信号,代表程序有g e n e m a r k l l 3 , 1 1 】,g l i m m e r t l 5 , 1 6 1 和z c u r v e 1 7 】。 这两种方法各有优缺剧旧】:前者依赖于数据库中已知的序列,错误识别率低, 但对于一个新测序的基因组,经常只能识别出7 0 左右的基因,大嚣未知的新基 因可能被舍弃。后者的基因识别率常常可以达到9 8 ,但仍然存在以下难题有待 解决:1 ) 原核生物基因容易发生重叠,翻译起始位点难于预测:2 ) 短基因的组 成特征不明显,统计模型很难正确识别:3 ) 统计模型过度依赖于训练集,对碱 基组成“非典型”的基因( 如水平转移基因) 识别率低,对一些假基因常会错误 识别为基因:4 ) 对于一些基因组,识别率与伪证率很难同时取得优秀的成绩。 第一章绪论 因此,如果两种算法能够有效地结合使用,基因识别的结果将更为准确。 1 3 与本论文相关的生物学知识 细胞细胞是生命的基本单位。在形态上细胞大体由细胞核、细胞质及细胞 膜三部分组成。根据细胞的结构和遗传物质在细胞内的分布,生物可以分为原核 生物和真核生物两大类。原核细胞除了表面的细胞膜以外,没有成型的细胞核, 也没有其它细胞器,其遗传物质存在于整个细胞之中,有时虽然有相对集中的核 区,但并无核膜围绕,只以裸露的核酸分子方式存在。原核生物主要包括细菌和 古细菌。真核细胞比原核细胞大,细胞质中还有许多具有一定结构和功能的细胞 器,其遗传物质集中在有核膜包围的细胞核中,并与特定的蛋白质相结合,经过 一定的等级结构形成染色体,基因组更为复杂。与细胞生命不同的是病毒,病毒 是非细胞形态的生命体,其主要生命活动要在细胞内实现。 d n a ( 脱氧核糖核酸) 是细胞核内的遗传物质,d n a 的基本单位是核苷酸, 不同的核苷酸是通过所含的碱基来区分的。d n a 包含的碱基有四种,即腺嘌呤、 鸟嘌呤、胞嘧啶、胸腺嘧啶,分别用字母a 、g 、c 、t 表示。多个核苷酸排列 聚合形成多聚核苷酸,再由多聚核苷酸形成d n a 大分子。1 9 5 3 年,w a t s o n 和 c r i c k 提出了d n a 的双螺旋结构模型,认为d n a 分子是由两条碱基互补的单链 反向平行围绕中心轴而形成的双螺旋结构。碱基互补是指a h t ,g h c 配对形 成氢键,其中a 与t 形成两个氢键,被称为弱氢键:g 与c 形成三个氢键被称 为强氢键。构成双螺旋结构的这两条链分别被称为w a t s o n 链( 正链) 和c r i c k 链( 负链) 。 基因d n a 分子往往可以划分出不同的区域,不同区域有不同的生物学功 能。基因作为遗传的基本单位,是指编码一个蛋白质或一个r n a 分子的完整的 d n a 片断。本论文中所涉及的基因特指编码蛋白质的基因。在原核生物中,基 因由一段连续的d n a 序列构成。真核生物中,基因内部还可能有插入序列,这 些插入的d n a 序列并不用来编码蛋白质,称之为内含子( i n t r o n ) 。而其它用来 编码的部分则称之为外显子( e x o n ) 。 o r f ( o p e nr e a d i n gf r a m e ,开放阅读框) 是和基囚密切相关的一个概念,它 是指以密码子a t g ( g t g 、t t g 、c t g ) 开始、并以与其同相位的密码子t g a ( t 从、t a g ) 结束的一段连续的d n a 序列。形成o r f 结构需满足以下条件: 1 ) 序列长度是3 的整数倍:2 ) 在序列内部,与起始密码子同相位的位置上不能 出现终止密码子。显然,原核生物的基因结构满足o r f 的条件;而对于真核生 物的基因,除非包含的所有内含子的长度之和恰好是3 的整数倍且内含子内部与 第一章绪论 起始密码子同相位的位置上不出现终止密码子,否则不是o r f 结构。 由于基因是以3 个碱基编码1 个氨基酸,基因序列就具有3 碱基的周期性。 因此我们把一段基因序列中的位置分为3 个相位:与第1 、4 、7 、个碱基对 应的位置称为第1 相位;与第2 、5 、8 、个碱基对应的位置称之为第2 相位: 与第3 、6 、9 、个碱基对应的位置称之为第3 相位。这第l 、2 、3 相位分别 对应3 个密码子位。 基因组遗传学科对于基因组的定义发生了如下变化:经典遗传学把基因组 定义为所有基因的总和;而细胞遗传学则定义为个细胞内所有染色体的总和; 分子遗传学则把基因组定义为所有d n a 分子的总和,这就是说包括细胞核基因 组和核外遗传物质的基因组。本论文涉及到的为细胞核内染色体上的d n a 分子。 基因组的g c 含量则是指染色体上d n a 序列中g 和c 这两种碱基在四种碱基中 所占的百分比,它是基因组分析的一个重要指标。 分子生物学的中心法则基因携带的遗传信息体现在d n a 序列中四种核苷 酸的不同排列组合方式上。基因指导蛋白质的合成,先将d n a 分子转录成与其 互补的r n a 分子( 即m r n a ) ,然后利用m r n a 翻译出特定功能的蛋白质分子。 m r n a 上每3 个相连的核苷酸决定着某一种氨基酸。遗传密码就是指m r n a 上 每3 个相连的核苷酸组成的三联体密码。密码子共有6 4 种,其中6 1 种构成氨基 酸,另外3 种( t 从、t a g 、t g a ) 为终止密码子,决定着编码过程的结束。基 因上的核苷酸序列与蛋白质上的氨基酸序列的关系就是通过遗传密码子来体现 的。以上这种遗传信息从d n a 到m r n a 再到蛋白质的整个复制、转录、翻译的 过程称为分子生物学的中心法则( 图1 2 ) 。 d n a 墓型d n a c 一趔茎上二 卜 功能 相互作用下倩 图1 - 2 分子生物学的中心法则 第一章绪论 1 4 本论文的主要工作 本论文的主要研究对象是细菌和古细菌基因组,主要工作将围绕原核生物的 基因识别以及d n a 序列分析这些关键问题展开。首先,针对现有基因识别算法 存在的问题,通过分析基因组的编码和非编码o r f s ,试图开发新的基因识别算 法,用于大规模基因组注释工作。其次,对这些基因的功能进行了分析,将个别 原来注释存在错误的基因组进行了重新注释;并对几种微生物的必需基因进行了 收集,为最终确定生物的“最小基因集合”( m i n i m a lg e n e s e t s ) 和物种起源提供 了帮助f 1 8 】。 论文第一部分为绪论部分,对生物信息学的主要研究内容和原核生物基因识 别的背景作了简要介绍。 论文第二部分对蜡状芽孢杆菌( b a c i l l u sc e r e u s ) a t c c1 0 9 8 7 基因组中的蛋 白质编码基因进行了重新注释与分析。主要基于z c u r v e 与g l i m m e r 程序联合使 用进行打分的方法,并结合b l a s t x 数据库同源性搜索,将原始标注的5 6 0 3 个 基因重新确定为5 1 8 0 个基因。一些评价指标如已知功能基因( 或保守基因) 的 比例、平均基因长度以及平均g c 含量等,表明了新的注释更为合理。同时,预 测结果在与丑c e r e u s 亲缘物种比较时体现的一致性,也证明了重新注释的基因 具有更高的可信度。 论文第三部分提出了一种新的识别细菌和古细菌基因组蛋白质编码基因的 a bi n i t i o 算法,以及相应的自动识别软件z c u r v e2 0 。该算法以相位特异性z 曲 线理论为基础,主要利用了3 个密码子位碱基分布的偏向性,强调了编码序列的 全局统计特征。在编码与非编码o r f s 的分类判别算法方面,采用了近来广泛用 于计算生物学领域中模式识别问题的支持向量机( s v m ) 方法,它可以较好地 解决传统方法中存在的有限样本( 小样本) 、过度训练、高维数、非线性、局部 最优解等问题。在变量选取方面,综合考虑密码子内部相邻碱基之间的相关性, 将z 曲线参数进一步发展,从z c u r v e1 0 的3 3 参数改进为现在的新参数,能够 更广泛地代表这些碱基相关性的特征。在样本构造方面也做了一些必要的处理。 另外,我们分析了现有的细菌和古细菌基因组蛋白质编码基因的注释文件,统计 了每个基因组的序列大小、g c 含量、基因数目、假定基因( h y p o t h e t i c a l ) 的比 例、重叠基因( o v e r l a p p e d ) 的比例,以及其中每个基因的起始密码子与终止密 码子使用、基因长度、相位信息等特征,并依据这些信息对识别算法的一些细节 进行了改进。 除了z c u r v e2 0 的前一版本z c u r v e1 0 2 ,目前使用最为广泛的程序是 g l i m m e r ,其最新版本为3 0 2 。g l i m m e r 基于马尔可夫链,利用上万个参数来训 第一章绪论 练模型。与之相比,我们的算法具有更好的适应性和稳定性。我们选用了4 1 9 条 没有明显注释问题的染色体序列,将z c u r v e2 0 分别与z c u r v e1 0 2 、g l i m m e r3 0 2 进行全面比较。结果表明,在平均识别率方面z c u r v e2 0 与z e u r v e1 0 2 有少量 差别:但比g l i m m e r3 0 2 稍好。而在平均附加预测率方面,z c u r v e2 0 由z c u r v e 1 0 2 的1 1 1 9 降为4 7 7 ,具有明显的改善;与g l i m m e r3 0 2 相比也基本保持 在同一水平上。特别对低g c 含量基因组,z c u r v e2 0 在平均识别率方面明显优 于g l i m m e r3 0 2 。当把两种算法有效地联合应用时,发现基因识别的成绩会显著 提高,这将有助于细菌和古细菌基因组的基因注释工作。 论文第四部分主要描述了天津大学生物信息中心( n m i c ) 维护的两个公共 数据库的更新,即z c u r v ed a t a b a s e 和d e g 。1 ) z c u r v ed a t a b a s e 是一个与基因 识别关系密切的原核、真核生物基因组和质粒序列的z 曲线数据库,它提供了一 个方便可视化分析基因组数据的有力平台。我们将原1 0 版本的1 3 2 0 条序列信 息更新为现在2 1 版本的4 5 8 3 条序列信息。2 ) d e g 提供了维持细胞生命活动所 必不可少的基因。我们收集了当时所能得到的通过实验方法确定的必需基因数 据,把d e g2 0 更新到d e g3 0 ,使其中的必需基因从原来的9 种生物( 共2 7 5 5 个) 发展到现在的11 种生物( 共4 2 7 3 个) 。这一数据库为分析必需基因的统计 特征,开发预测必需基因的算法提供了基础。 第二章蜡状芽孢杆菌a t c c1 0 9 8 7 基因组蛋白质编码基因的重新注释与分析 第二章蜡状芽孢杆菌a t c c1 0 9 8 7 基因组蛋白质编码基因的 重新注释与分析 2 1 引言 目前已有4 0 0 多种细菌、古细菌生物体完成了全基因组测序工作,此外还有 上千种正在测序过程或计划之中( h t t p :w w w g e n o m e s o n l i n e o r g ) 【1 9 】。快速累积 的基因组序列为在生物体遗传、进化、生化等方面取得新进展提供了可能性,而 这些方面的深入研究极大地依赖于相应基因组中蛋白质编码基因的注释质量【2 0 1 。 在测序完成之后,一般由计算机软件识别遗传信息区域并确定基因功能,但这种 方法并不十分安全可靠,其中很大一部分预测的基因为“h y p o t h e t i c a l 9 99 功能未 知或可疑【2 1 1 。甚至有些注释的基因实际上并不编码蛋白质,而一些真正编码蛋白 质的基因却被舍弃。对于一些原始注释存有较大缺陷的基因组,重新检查并进行 功能注释是至关重要的,否则问题数据的使用很可能会导致严重的错误扩散效 应,从而降低数据库的有效使用。如对于嗜热泉生古细菌a e r o p y r u m p e r n i x k l 2 2 1 , 一些不同的研究组就给出了各自预测的,且明显不一样的新基因注释结果【2 3 】。 一个合理的编码蛋白质功能注释,既要提供尽可能多的生物学信息:又要避 免过度预测,得到一些错误的结果【z 0 1 。美国国家生物技术信息中心( n c b i ) 对 g e n b a n k 数据库中的序列数据进行检查,建立了更为准确全面的l 沁f s e q 数据库, 一般作为相对标准的基因组注释数据来使用f 2 4 1 。然而,r e f s e q 的注释也不是完 美的,它仍然存在或多或少的问题,需要时常改正和更新。这种注释不准确的情 形在蜡状芽孢杆菌( b a c i l l u sc e r e u s ) a t c c1 0 9 8 7 的基因组中尤为明显。 蜡状芽胞杆菌是一种球状的革兰氏阳性细菌,在通常情况下,是一种土壤微 生物,有时会造成人的一些非致命性疾病,如眼内炎,食物中毒引起的腹泻、呕 吐等 2 5 , 2 6 】。蜡状芽胞杆菌与炭疽芽胞杆菌( b a c i l l u sa n t h r a c i s ) 及苏云金芽胞杆 菌( b a c i l l u st h u r i n g i e n s i s ) 具有高度的亲缘关系,染色体序列极其相似,甚至可 以认为属于同一物种1 2 7 1 。这些细菌具有很高的经济、医药和疾病预防价值,在比 较基因组学分析中有重要意义,并得到广泛应用和研究,是微生物基因组不可多 得的理想模型1 2 剐。如z h a n ga n dz h a n g 对其进行比较分析,用于基因组岛的识别 研究【2 9 】。 b a c i l l u s c e r e u s a t c c1 0 9 8 7 是一种从乳制品中分离出的细菌品种,全基因组 测序完成于2 0 0 4 年。它与曾被用作生物武器的、会引起炭疽热致死的病原菌一 第二章蜡状芽孢杆菌a t c c1 0 9 8 7 基因组蛋白质编码基因的重新注释与分析 曰口c f 蛐a n t h r a c i sa m e s 非常接近。b c e r e u sa t c c10 9 8 7 有一些独特的代谢能 力,如利用尿素酶和木糖的能力,但缺少硝酸盐和亚硝酸盐的利用能力。另外, 它含有一个大质粒p b c l 0 9 8 7 ,该质粒与b a n t h r a c i s 的p x o l 质粒在基因组成上 具有相似之处,但是缺少与炭疽热毒性相关的致病岛( p a t h o g e n i c i t y a s s o c i a t e d i s l a n d ) 。b c e r e u sa t c c1 0 9 8 7 与b a n t h r a c i sa m e s 在染色体和大质粒上的相似 性,使得b c e r e u sa t c c1 0 9 8 7 成为研究炭疽热的病原菌b a n t h r a c i sa m e s 的很 好模型【2 6 】。 2 2 材料与方法 2 2 1 原始数据分析 研究中所用到的数据主要包括两部分:一是细菌和古细菌染色体的全基因组 序列;二是这些物种所有编码蛋白质的基因注释信息。这两类数据来源于n c b i 维护的微生物基因组数据库的 r e f s e q 数据 ( h t t p :w w w n c b i n l m n i h , g o v g e n o m e s l p r o k s c g i ) ,我们下载了2 0 0 6 年1 1 月1 5 日之前能够得到的所有细菌和古细菌的最新的染色体序列数据,其中2 9 种古细 菌( a r c h a e a ) 、3 8 1 种细菌( b a c t e r i a ) ,共包括4 4 9 条染色体( c h r o m o s o m e s ) ,这 些数据的详细信息请参见附录l ( 或补充材料,表s 1 ) 。 在附录i 中,显示了物种的名称、组群、染色体序列编号等信息。此外,还 显示了基因组大小和r e f s e q 注释的基因数目的信息。可以想象,原核生物染色 体序列的大小与其中包含的基因数目可能会有一些关联。m i m ,e ta l 3 0 】及 d o o l i t t l e 2 l 】都分别描述了这种相关性,这在我们新收集的细菌和古细菌基因组数 据中也仍然被观察到。如图2 1 所示,r e f s e q 注释的基因数目与染色体序列的大 小呈现明显的线性关系。其中,类l 包含了3 种细菌,分别为m y c o b a c t e r i u ml e p r a e t n ( n c 一0 0 2 6 7 7 ) ,s o d a l i sg l o s s i n i d i u ss t r m o r s i t a n s ( n c 一0 0 7 7 12 ) 和 t r i c h o d e s m i u me r y t h r a e u mi m s l o l ( n c0 0 8 3 1 2 ) 。m ,印馏p 的蛋白质编码区仅占 整个序列的4 9 5 ,假基因( p s e u d o g e n e ) 的数目为1 1 1 6 个川;sg l o s s i n i d i u s 的蛋白质编码区也只占到完整序列的5 1 ,另有9 7 2 个假基因【3 2 】;ze r y t h r a e u m 的假基因数目也已经超过了6 0 0 个。这些基因组含有大量的假基因,或者非编码 区占整条序列的比例远高于通常细菌的比例范围。因此我们排除了类i 的3 个基 因组,而使用余下的4 0 7 个物种( 共4 4 6 条染色体序列) 进行线性回归拟合,相 关系数r 达到了o 9 8 8 。 第二章蜡状芽孢杆菌a t c c1 0 9 8 7 基因组蛋白质编码基因的重新注释与分析 8 0 0 0 6 0 0 0 4 0 0 0 2 0 0 0 0 024681 0 g e n o m es i z e ( m b ) 图2 - 1 细菌和古细菌染色体中基因数目与基因组大小的关系蚰 a )图中显示了2 9 种古细菌( 3 2 条染色体) 和3 8 1 种细菌( 4 1 7 条染色体) 的蛋白质编码基因数目与基因 组大小的关系。其中,类i 包括编码区比例过低、假基因过多的物种:m y c o b a c t e r i u mj e p r a e i n ,s o d a l i s g l o s s i n i d i u ss t r m o r s i t a n s 。,t r i c h o d e s m i u me r y t h r a e u mi m s i o i ;类u 包括与b c e r 跚sa t c c1 0 9 8 7 高度 同源的物种:且c p 理螂a t c c1 4 5 7 9 ,且c e l 訾l l se 3 3 l ,且t h u r i n g i e n s i sf 沱* l - o v f l , rk o n k u k i a ns t r , 9 7 2 7 ,口 a n t h r a c i ss i t a m o s a n c e s t o r b a n t h r a c i ss 缸a m e s b a n t h r a c i s 啦s t e r n e 。 b )图中的回归曲线由除类j 以外的4 4 6 个数据点拟合而成:y = 1 0 5 2 7 + 8 7 3 1 2 x 。相关系数r ;0 9 8 8 , 显著性概率值p a ,c c ,g g ,t t ,r g ,y c ,s c ,w a ,m 一 c ,k g ,b c ,d a ,h c ,v 一 c , o t h e r s c 。 由于复杂多样的生物体之间的差异,也可能会有一些其它的人为原因,基因 注释文件中的某些基因的表现并不符合一般的特征或规律。这些具有特殊形式的 基因,一般很难被基于序列统计特征的基因识别算法预测出来,我们把出现的这 些异常状况主要分为以下几类( 附录i i i ) :1 ) 相移或移位( f r a m e s h i f t ) ,一般编 码蛋白质的基因具有3 的周期性,基因的长度应该是3 的整数倍,而发生相移的 基因长度不再是3 的整数倍,即不能满足o r f 结构的条件。2 ) 所注释的基因位 置与氨基酸序列长度不匹配,可能的原因是去掉了按位置找到的基因内部的部分 片段,或者同样由相移引起。3 ) 起始密码子使用了除基本的a t g 、g t g 、t t g 、 第三章蛋白质编码基因注释文件的解读 c t g 以外的其它密码子。4 ) 终止密码子使用了除通常的t 从、t a g 、t g a 以外 的密码子,但对于支原体类( m y c o p l a s m a ) 基因组来说,t g a 由于编码氨基酸, 也认为是异常的终止密码子。5 ) 在基因内部与起始密码子同相位处出现终止密 码子,即“i n - f r a m es t o p ”情况,包括t 从、t a g 、t g a ( 支原体类基因组只包 括t 从、t a g ) 。值得注意的是,一个注释的基因可能同时具有多种上述异常情 况出现。 统计结果表明,很多基因组中都有上述状况出现,但异常基因数目所占比例 一般小于1 ,对评价基因识别算法优劣影响不大,只需将这些异常基因移除即 可。然而,仍然有部分基因组存在为数不少的区别于一般特征的注释基因,如 ft u l a r e n s i s 的几个基因组出现相移情况的达到3 左右,而部分支原体的基因组 则使用了4 0 以上与前面所述相区别的起始密码子。另外需要说明的是,对这 几类有特殊状况的注释基因,基因识别程序也会有可能识别出来,但起始密码子 的位置不会相同,这对使用了非一般起始密码子的基因组尤为如此。原因在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全培训的宗旨课件
- 经济师基础模拟练习题及答案
- 高危、易混淆药品管理知识试题(附答案)
- (完整版)HDPE施工方案
- 2025年护师考试必须掌握的试题及答案
- 灌木栽植方案
- 安全培训的几大要素课件
- 2025年查对制度考试练习题及答案
- 查对制度、身份识别制度试题含答案
- (完整版)PICC护理考试题及答案(学习资料)
- 《ABB工业机器人虚拟仿真技术》(1+X) 课件全套 项目1-7 工业机器人仿真软件基本操作 -双机协同关节装配工作站虚拟仿真
- 消化内科课件模板
- 拍摄与剪辑基础知识培训课件
- 项目实施进程汇报
- 医学检验质量安全管理培训
- 医院副主任护师职称竞聘报告
- 2025年人教版新教材数学三年级上册教学计划(含进度表)
- 2025-2030AI辅助药物研发创新趋势分析与投资机会评估报告
- 2025秋教科版(2024)小学科学三年级上册教学计划及进度表(2025-2026学年第一学期)
- 2025仓库保管员试题及答案
- 融资专员考试题含答案
评论
0/150
提交评论