生物信息学考试.doc_第1页
生物信息学考试.doc_第2页
生物信息学考试.doc_第3页
生物信息学考试.doc_第4页
生物信息学考试.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生 物 信 息 学 考 试数据库论文翻译题目:GOBASE: the organelle genome database (GOBASE:细胞器基因组数据库)刘 凯学 号:021401007(山东大学生命科学学院 2002级 生命科学与技术基地班)2005 年 6 月核酸研究,2001,第29卷,第1期:128-132 2001 牛津大学出版社GOBASE:细胞器基因组数据库Nelli Shimko, Lin Liu, B. Franz Lang and Gertraud Burger* Program in Evolutionary Biology, Canadian Institute for Advanced Research, Dpartement de Biochimie, Universitde Montral, 2900 Boulevard Edouard-Montpetit, Montral, Qubec, H3T 1J4, Canada 收到:2000年10月2日;接受:2000年10月17日摘 要GOBASE (http:/megasun.bch.umontreal.ca/gobase/)是一个可以通过网络访问的生物学数据库,它在以下方面是独一无二的:将分类上覆盖很广的各种关于细胞器的生物学数据整合在一起,以及提供已被专家尽全力校正和完善的数据。目前我们主要关注线粒体数据。GOBASE包括所有已经发表的由线粒体基因组编码的核酸和蛋白质序列、经过筛选的由线粒体编码的RNA二级结构、全基因组遗传图谱、在数据库中出现其序列的物种的分类信息,以及重要原生真核生物的生物学描述。所有这些数据被整合和组织在一个正式的数据库结构中,它允许用生物学概念中固有的术语进行复杂的生物学检索。最重要的是,数据已经过确认、完善、校正和标准化,这是进行有意义的分析的一个先决条件。而且,对于缺少的关键数据,比如遗传图谱和RNA二级结构,则由GOBASE团队及其合作者补充到数据库中。这个数据库在数据库管理系统中得以实现,但又以www界面实现的生物数据的面向对象的外观为特征。最后,我们发展了用于数据库完善的软件(如数据更新,确认和校正),这将在这篇论文中做较为详细的介绍。介 绍生物背景:细胞器和它们的基因组线粒体和叶绿体是被严格定义的,含有自身独特遗传物质的真核细胞的亚细胞组分(细胞器)。线粒体(mt)和叶绿体(cp)只编码一小部分参与细胞器翻译机制和呼吸/氧化磷酸化或者光合作用的细胞器组分。大部分的细胞器蛋白质是由核基因编码,在细胞质中翻译,并运输进细胞器的。(1)在某些物种中,一些结构RNA也是由细胞核编码而运入细胞器的。线粒体和叶绿体的研究覆盖了多种主题。细胞器的细菌起源提出了一个进化问题,它关于从内共生细菌到亚细胞组分的转换,细胞器基因组和核基因组在功能上的和系统发生上的关系,以及细胞器基因组、基因和基因表达模式的多样性。尤其是快速进化的线粒体产生了大量迷人的分子机制,比如通过核苷酸删除、插入和修饰实现的RNA转录后编辑,以及前-信使RNA的反式剪接。从生物化学的角度看,研究主题包括细胞器在能量产生中的作用(如氧化磷酸化和光合作用),蛋白质运输的分子机制,多次跨膜的膜结合酶复合体的组装过程,蛋白质和RNA的二级和三级结构。另一个热点集中于线粒体在人类疾病中的作用,种群内线粒体基因组的遗传多样性和染色体外遗传的规律。这个显然不完全的主题列表表明了细胞器研究的多样性。多年来,人们在进行大规模的细胞器全基因组测序方面做出了协调的努力,例如细胞器基因组百万测序项目OGMP(2);http:/megasun.bch.umontreal.ca/ogmpproj.html,真菌线粒体基因组项目FMGP (3); http:/megasun.bch.umontreal.ca/People/lang/FMGP/FMGP.html,以及线粒体基因组工作组(4); /jboore/index.html。现在,在公共数据库上可以获得116个完整线粒体DNA和17个叶绿体DNA序列。除了病毒,细胞器DNA构成了最大规模的完全测序的基因组系列,这使它们成为比较基因组研究的理想材料。现在可以获得的细胞器数据主要包括细胞器酶复合体结构的详细信息和它们的催化功能,蛋白质运输和包装途径,DNA复制和转录机制,超结构组件,以及基因组成和遗传。但是,这些数据广泛地分布于多种数据来源,比如书籍,杂志,论文和电子数据库,所以,即使对于本领域的专家,搜索相关信息也是十分困难和费时的。由于这些原因,一个充分组织和整合的数据库成为了能够利用这些难于使用的信息财富的关键。细胞器数据的统一框架为了充分利用大部分分散的细胞器信息和将它们同储存这些细胞器的物种的信息(分类,形态等等)相整合,1995年,细胞器基因组数据库项目(GOBASE)被发起。从1996年起,这个数据库开始运作和通过因特网进行公开访问,由于它具有经过充分确认的内容,直观的界面和强大的搜索能力,它已经被线粒体研究领域的科学家们所经常使用。GOBASE的第一版以前已经在这本杂志(5)中描述过,包括数据库外观,数据库结构和它的运行的详细描述。在这篇论文中,我们将关注GOBASE同其他数据库的比较,然后讨论有重要帮助作用的用于数据库完善、数据确认和更新的软件工具。序列仓库与可检索的数据库公共的生物序列数据库,比如GenBank(6)(现在由美国国家生物技术信息中心维护),日本DNA数据库(DDBJ)(7),和欧洲分子生物学实验室(EMBL) (8),是分子生物学研究的重要财产。然而,这些数据库中的信息只是自然的被保存,比如,储存的序列只是在有限的水平上被确认(比如蛋白质翻译),而且基因和基因产物的术语没有标准化,同时数据获得系统(如Entrez)只支持适中复杂度的检索。一些现象将能够充分表明公共序列数据库在检索方面的局限性。首先,序列记录的提交者可以对不同物种中的同源基因,甚至特定物种中的相同基因使用不同的名称(例如,5S, rrn5 和rrf都被用来指5S rRNA的编码基因,核糖体的一个组成部分)。这个矛盾和不支持以基因产物名称为基础进行搜索的事实,使得在公共数据库中直接鉴别基因同源性几乎不可能实现。序列相似性搜索可以在一定程度上弥补这个弱点,但是这个方法不仅费时而且对于保守性差的基因(如5S rRNA)会产生不明确的结果。第二,序列特征注释不完善或不正确的记录经常被发布出来(例如,缺少基因名称,或者序列来源基因组的细胞定位不明确)。第三,许多重要的生物学特征,如细胞定位和基因产物的主要功能,在公共序列数据库是不可搜索的领域。定位这些关键特征的唯一办法是在全部领域中进行全文搜索,但是这个过程经常返回大量的假阳性信息。例如,用高级Entrez搜索短语:mitochondr*cellular_location AND translation All fields检索参与翻译的线粒体组分,不仅产生一小部分期望的基因,而且获得数百条的假信息。 GOBASE的特征GOBASE消除了许多上述的限制。为了反映基本的生物学概念,它的数据库方案把生物学信息划分为10个具有大量精确定义的特征的基本的类别或实体(序列,基因,蛋白质,信号,分类,等等)(见表1)。需要指出,我们没有采用国际核苷酸序列数据库(NCBI, EMBL, DDBJ)的分类方式,因为,它不能有效的区分高水平和低水平的生物学范畴(例如,不能区分一般的范畴,如保守结构域、外显子、内含子,与特殊的范畴,如iDNA,D-环,CAAT信号,而是同样的表示为“特征属性”)。GOBASE的第二个特征在于,它将各个类别中的信息交联起来,从而实现了在公共数据库中不可行的复杂生物学检索。作为例证,我们列出了以下几个在GOBASE中可以阐明但在其它可访问的公共数据库中无法实现的检索实例:(i)找到所有的线粒体编码的5S rRNA;(ii)找到所有参与动物线粒体翻译的蛋白质;(iii)找到所有来自原生生物的细胞色素c氧化酶的完整编码序列;(iv)找到所有的真菌线粒体质粒编码的完整蛋白质;(v)找到所有定位于线粒体内含子的确定的基因(不是开放阅读框);(vi)找到地钱中除了内含子开放阅读框以外的所有线粒体DNA的开放阅读框;(vii)找到所有使用TGA作为色氨酸线粒体翻译密码的生物。种 类特 征 属 性序列类型,物种名称,分类名称,分类门类,完整性,质粒,拓扑,图谱可用性,序列长度,提交日期,最后更新日期,GBK, PIR, SWISS-PROT, Entrez 和 EMBL索取号,GOBASE号基因基因,产物,物种和分类名,分类门类,内含子基因,遗传密码,假基因,局部,反式剪接,叶绿体起源,内含子,质粒编码,基因定位,上游基因,下游基因,Entrez 和 GBK索取号,GOBASE基因和序列号蛋白产物,基因,物种和分类名,主要功能,酶复合体,EC号,分类门类,局部,质粒,序列长度,SWISS-PROT 和 Entrez索取号,GOBASE号核糖核酸基因,产物,物种和分类名,核糖核酸类型,分类门类,局部,二级结构可用性,Entrez 和 GBK 索取号,GOBASE号外显子基因,物种和分类名,分类门类,外显子数,局部,定位,Entrez 和 GBK 索取号,GOBASE号信号启动子,加工位点,茎环结构,翻译起始,复制起始,D-环,定位,Entrez 和 GBK 索取号,GOBASE号内含子基因,物种和分类名,分类门类,内含子数,局部,包含的基因或开放阅读框,二级结构可用性,定位,Entrez 和 GBK 索取号,GOBASE号基因和产物种类基因和产物名称,产物类型,产物主要功能,酶复合体,EC号,GOBASE号图谱物种名,PID记录可用性,序列可用性分类门,等级,学名,同义,线粒体遗传密码,图谱,PID记录可用性,GOBASE号表1.GOBASE数据分类:生物学信息被划分为10个基本的有大量专门用于比较基因组学研究的特征的类别。类别名称对应于数据库中检索页面的名称。很显然,只有当数据完整、正确和更新的情况下,复杂的检索能力才有意义,这也是GOBASE的另一个重要使命。在呈现给公众之前,从GenBank提取的数据在基因和基因产物的术语、遗传密码、细胞定位和更多的方面被校正。由于这项工作需要生物学家大量的输入,我们使用了大量的帮助工具,这将在下面进行说明。除了来自GenBank的可获得信息(序列和分类数据)外,还有多种其它数据类型被整合进GOBASE。例如,对于数据库中所有呈现的序列,相关的基因功能信息可以获得(搜索页面“基因和产物”,表格1),通过指向专门的酶数据库的网站链接可以查看生化途径,通过指向原生生物数据库的链接(http:/megasun.bch.umontreal.ca/protists/protists.html)关于关键原生真核生物的物种信息可以获得,经过筛选的RNA二级结构图表和线粒体DNA遗传图谱也可以获得。这些后来的数据中的相当大的一部分是由GOBASE团队与M. W. Gray 和 M.Schnare (Dalhousie University, Halifax, NS, Canada)合作产生的。最后,GOBASE采用了真核生物分类的四界系统(动物,真菌,植物和原生生物),从而反映了一个广泛接受的观点,否则将不能被大多数其它分子生物学数据库所支持。GOBASE与其它线粒体数据库在过去的五年中,几个其它的线粒体数据库已经形成,但是,他们的目的、数据内容和功能性都与GOBASE十分不同。MitoDat(9)、MITOMAP(10) 、 MitOP(11) 和AmmtDB(12)专攻与线粒体突变和丧失功能有关的人类疾病和紊乱,以及人类和动物中线粒体DNA的与种群相关的变化。MitBASE(13)在分类上涉及更广的范围,正是在这个意义上,与其它线粒体数据库相比,它与GOBASE有着更广泛的共同基础,但是MitBASE关注于数据的编辑,更强调植物中线粒体DNA的变化和RNA编辑,而GOBASE关注于为比较基因组学研究提供检索能力。总之,GOBASE是独一无二的,因为它整合最多样的与真核生物线粒体相关的数据类型(不久它也将包括来自叶绿体和模式真细菌的数据,这将在下面进行说明),而且提供经过仔细校正和完善的序列注释,这与数据复杂检索能力相关联。在当前的形式下,GOBASE可以被认为是最精确的线粒体序列信息来源之一。数 据 校 正作为公共数据库,比如GenBank,其信息只是自然的被保存,数据的校正只是在有限的水平进行,这造成记录注释的质量和完整性相差很大。结果,公共数据库中序列信息的相当大的一部分很难去辨认(缺少来源、性质和遗传特征类型的注释),甚至由于不正确的注释而造成误导。这些限制的去除正是GOBASE存在的理由。然而,对于GOBASE现有的大约84000(DNA, RNA和蛋白质)条序列记录,不可能实现专家逐条数据的检查校正,而是需要软件工具的大力帮助。所以,我们已经研发了大量的SQL程序来提取潜在的矛盾和错误的序列特征(重叠基因,没有下游外显子的内含子,过大/过小的基因等等)。在UNIX下运行的批处理基因识别程序现在用于检查其它的更加隐蔽的错误和冗长,比如错误识别的和忽略的(尤其是tRNA)基因(注意,由于线粒体tRNA非正统的结构,利用现有的搜索方法通常很难辨别它们)。在校正网页(图1.)上,问题记录一览表被提交给专家,它允许对所有可获得的和新近检测到的特征进行检查以及直接修改数据库后台的数据值。应该注意到,我们通过结果页上的超链接“专家注释”提供给GOBASE用户这种校正的性质和基本原理的说明。图1. GOBASE以网络为基础的专家校正形式。潜在的错误数据按以下类别提交给专家:缺少基因名称,重叠基因,重复基因,等等。专家形式允许绘图表示一段特定序列的遗传元素(页面的上半部分),访问相关的实体,如内含子、外显子(页面的下半部分)。专家通过“选择”按钮选择一个特定的特征(“特征键”),修改它的属性,比如位置(“从” “到” “链”)、反式剪接(“反式剪接”)、完整性(“局部”)、基因名称(“基因名称”,是一个处在页面中间的单独的选框),为向公众的发布添加专家注释(“专家注释”),删除特征(“删除”)。在输入新的值后,通过按“更新特征信息”或“更新特征名称”,它们被提交给数据库后台来修改相应的表格。现行的管理机制数据交流决定一切的价值,尤其是对指数增长的分子序列数据库。为了赶上公共数据库序列记录的快速扩张,我们发展了一套程序来从GenBank数据库获得数据,并在最少的人为干扰的情况下移植入GOBASE表格。我们的目标是GOBASE的序列和分类数据每月至少更新一次。现行的数据实现过程涉及以下三个连续的步骤:(i)辨别GenBank累积的更新文件夹中与线粒体编码序列有关的更新记录和新的条目;(ii)基因和产物名称的标准化;(iii)移植入GOBASE表格,转移以前做出的专家校正。为了进行这些步骤,我们在自动化方面加强了独创的流通管理器(现在被称为AUTOPOP)。如图2所示,AUTOPOP协调三个专门的帮助工具(GOUP, GETGI 和POP2)的运行,对GenBank版本进行扫描来寻找相关记录,分析和提取全新的或更新的感兴趣的条目,移植入GOBASE表格。对于Genbank版本118号(2000年9月1日),它花了大约5天来完成植入过程,为了填充GOBASE的主要表格,运行了近20个SQL程序。AUTOPOP不仅被设计用来代替单调乏味的手工工作,而且与以前主要由手工进行的过程相比,它的错误更少,因为它在每一步都核实过程已被正确完成,并且当问题发生时,它将请求人类(数据库管理人员和/或生物学专家)的干预。图2. 软件工具AUTOPOP流程图,它可以使GOBASE的数据与GenBank的新版本同步化。AUTOPOP开始于向GOUP提出请求,它从NCBI的 ftp服务器下载发布的分区序列文件夹(以ASN.1格式)。一旦被下载下来,这些序列文件夹将被用ASN工具(NCBI工具箱)进行解压缩和解码,记录的摘要也被产生出来。摘要包括提交和修改日期,GI号,以及在ASN.1记录的“基因组来源描述”、“修饰描述”和“名称描述”数据域中是否出现了关键词“线粒体”或者“动基体”。接着,摘要被传给GETGI,它将提取已存在于GOBASE、但已经被更新的记录的GI号,以及不存在于GOBASE中、但是包含了关键词“线粒体”或“动基粒”的记录的GI号。提取的GI号被POP2用作NCLEVER(14)的输入,通过NCBI的网络获得系统来下载相应的ASN.1记录。为了避免重复,以前处理过(储存的)的记录将被跳过。最后,获得的ASN.1记录被用于植入GOBASE表格。未来的发展我们将继续改进GOBASE已有的线粒体数据安排,包括更加完善的原生生物物种信息(指向外部数据库的超链接),遗传图谱,tRNA的二级结构,核糖体RNA,核糖核酸酶P RNA,以及第一组和第二组内含子。 为了把GOBASE从一个线粒体数据库转变成一个广泛的细胞器数据库,我们正在向数据库中添加叶绿体的数据。我们预计在2001年初发布这个GOBASE第五版。接下来,我们将向数据库中加入-变形细菌和蓝细菌的完整基因组,它们与线粒体和叶绿体的祖先有着紧密的关系。 最后,我们计划在GOBASE中建立一个序列分析平台(工作台),来通过GOBASE检索进行数据的快速分析。这个工作台将支持基本的序列分析功能,比如阅读框、序列相似性和构型的识别;多序列比对;系统发生和蛋白质结构分析;细胞器tRNA和内含子检测;基因顺序分析;遗传图谱的产生;以及序列特征注释(这是我们目标的一部分,我们的目标是为向公共序列数据库提交的记录提供在线的秘密的数据准备)。致 谢我们想感谢Tim G. Littlejohn(澳大利亚国家基因组信息服务中心,ANGIS, Sidney, NS, AU)在GOBASE设计阶段的有价值的贡献,Pierre Rioux(Incyte基因组公司,Palo Alto, CA, USA)和Nicolas Brossard (Wysdom, Montreal, PQ, Canada)对数据库和网站界面发展的贡献,Maria Korab-Laskowska (美国国家生物技术信息中心, Bethesda, MD, USA)在数据库设计和管理方面发挥的重要作用。我们感谢Alexander Nip在原稿的准备阶段提供的充分的技术支持和协助,M. W. Gray 和 M. Schnare (Dalhousie University, Halifax, NS, Canada)在使得GOBASE可进行核糖体RNA二级结构模型设计方面的贡献。这项研究由加拿大医学研究理事会(MRC)/加拿大健康研究会(CIHR)(当前的获准号为GOP-15331),IMASCO奖金以及加拿大高级研究会(CIAR)提供给B.F.L. 和G.B的加拿大国家基金资助,由SUN微系统公司(Palo Alto, CA, USA).慷慨的提供了仪器设备。脚 注*通讯作者 电话:+1 514 343 7936; 传真:+1 514 343 2210;电子信箱:gertraud.burgerumontreal.ca参考文献1 Lang,B.F., Gray,M.W. and Burger,G. (1999) Mitochondrial genome evolution and the origin of eukaryotes. Annu. Rev. Genet., 33, 351397.ISIMedline 2 Lang,B.F., Seif,E., Gray,M.W., OKelly,C.J. and Burger,G. (1999) A comparative genomics approach to the evolution of eukaryotes and their mitochondria. J. Eukaryot. Microbiol., 46, 320326.ISIMedline 3 Paquin,B., Laforest,M.J., Forget,L., Roewer,I., Wang,Z., Longcore,J. and Lang,B.F. (1997) The fungal mitochondrial genome project: evolution of fungal mitochondrial genomes and their gene expression. Curr. Genet., 31, 380395.ISIMedline 4 Boore,J.L. (1999) Animal mitochondrial genomes. Nucleic Acids Res., 27, 17671780.Abstract/Free FullText 5 Korab-Laskowska,M., Rioux,P., Brossard,N., Littlejohn,T.G., Gray,M., Lang,B.F. and Burger,G. (1998) The organelle genome database project (GOBASE). Nucleic Acids Res., 26, 138144.Abstract/Free FullText 6 Benson,D.A., Karsch-Mizrachi,I., Lipman,D.J., Ostell,J., Rapp,B.A. and Wheeler,D.L. (2000) GenBank. Nucleic Acids Res., 28, 1518.Abstract/Free FullText 7 Tateno,Y., Miyazaki,S., Ota,M., Sugawara,H. and Gojobori,T. (2000) DNA data bank of Japan (DDBJ) in collaboration with mass sequencing teams. Nucleic Acids Res., 28, 2426.Abstract/Free FullText 8 Baker,W., van den Broek,A., Camon,E., Hingamp,P., Sterk,P., Stoesser,G. and Tuli,M.A. (2000) The EMBL nucleotide sequence database. Nucleic Acids Res., 28, 1923. Updated article in this issue: Nucleic Acids Res. (2001), 29, 1721.Abstract/Free FullText 9 Lemkin,P.F., Chipperfield,M., Merril,C. and Zullo,S. (1996) A World Wide Web (WWW) server database engine for an organelle database, MitoDat. Electrophoresis, 17, 566572.ISIMedline 10 Kogelnik,A.M., Lott,M.T., Brown,M.D., Navathe,S.B. and Wallace,D.C. (1997) MITOMAP: an update on the status of the human mitochondrial genome database. Nuclei

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论