生物信息学中的数据库资源及其应用.doc_第1页
生物信息学中的数据库资源及其应用.doc_第2页
生物信息学中的数据库资源及其应用.doc_第3页
生物信息学中的数据库资源及其应用.doc_第4页
生物信息学中的数据库资源及其应用.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学中的数据库资源及其应用摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。关键词:生物信息学;数据库的建设及其应用生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。美国人类基因组计划中1,对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组2。正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程3。1 生物信息学数据库简介近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。而数据库的类型则几乎覆盖了生命科学的各个领域4。国际上主要的DNA序列数据库有GenBank,EMBL,DDJB,ESTdb,OMIM,GDB,GSDB 等;蛋白质一级结构数据库有SWISS-PROT,PIR,OWL,ISSD,MIPS等;蛋白质二级结构数据库有PROSITE,BLOCKS,PRINTS等; 蛋白质和其他生物大分子的三维结构数据库有PDB,NDB,CCSD 等;与蛋白质结构分类有关的数据库有SCOP,CATH,FSSP 等5。上述这些数据库只是对原始生物学实验数据进行简单的整理和归类,可称它们为基本数据库;随着生物数据库在种类和数量上的急剧增长,其复杂程度也不断增加,这就对数据库的管理带来了挑战,一些将多个基本数据库整合在一起提供综合服务的二次数据库便出现了,常用的有UniGene,TransFac,EPD,Prosite,Prints,Pfam,Blocks,Prof iles,DSSP,PubMed 等数据库。这样用户可以方便地进行多个数据库的多种查询。现在大多数数据库能实现自动投送数据、在线查询、在线计算和空间结构的可视化浏览等多种功能6。目前,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。1.1 生物信息学数据库的分类及特点按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,如由美国NCBI所维护的GenBank等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整) 而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。SWISS-PROT就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就整合数据库。生物信息学数据库具有以下一些特点:数据库种类的多样性,生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。数据库的更新和增长很快,数据库的更新周期越来越短,有些数据库每天都要更新,数据的规模也以指数形式增长。数据库的复杂性增加,层次加深,许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB 就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。数据库使用的高度计算机化和网络化,越来越多的生物信息学数据库与互联网联结,从而为生物学家利用这些信息资源提供了前所未有的机遇,特别是绝大多数网上生物信息学数据库的信息资源可以免费检索或下载使用7。1.2 常用生物学数据库1.2.1 核酸序列数据库目前,国际上最权威、最主要的3大核酸序列数据库是:美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)所维护的GenBank数据库,欧洲生物信息学研究所(European Bioinformatics Institute,EBI)的EMBL(European Molecular Biology Laboratory)数据库和日本国立遗传学研究所(Japan National Institute of Genetics for Information Biology )的DDBJ(DNA Data Bank of Japan)数据库。1998年它们共同成立了国际核苷酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC),每天进行数据交换,同步更新,确保用户在任何一家数据库得到的信息是完整、全面的8。除3大核酸数据库外,还有很多特殊类型的核酸序列数据库,如人类基因组数据库(HGD)、非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、核苷酸三维结构数据库(NDB)、人类基因变异数据库(HMGD)等,更细类别的核苷酸数据库如miRBase、tRNAdb等9。GenBank是具有目录和生物学注释的核酸序列综合公共数据库。该数据库中包含已公开的可获得的38万余种以属或属以下水平命名的生物核酸序列,这些数据主要来源于序列发现者提交的序列、成批提交的表达序列标签、基因组勘测序列和其它测序中心提供的高通量数据,还包括美国专利商标局提供的已发表的序列数据,自GenBank建立以来,随着测序技术的不断发展,数据库的序列数据量持续呈指数增长,大约每35个月翻一番11。EMBL核酸序列数据库是欧洲最主要的、世界上最早的核酸序列数据库,收存了欧洲大部分核酸序列生物等生物学数据,其序列来源于基因组测序中心、世界各地的研究人员、欧洲专利局及其合作伙伴GenBank和DDBJ交换的数据。该数据库目前由欧洲生物息学研究所EBI负责维护12。DDBJ数据库是亚洲唯一的核酸序列数据库,由日本国立遗传学研究所遗传信息中心维护。其数据库首先是反映日本所产生的DNA数据,同时与GenBank和EMBL合作,互通有无,同步更新,每年4版。DDBJ数据库与GenBank的格式一致。1.2.2 蛋白质序列数据库蛋白质序列数据库有很多,主要有PIR-PSD、Swiss-Prot和TrEMBL等。PIR是较全面和权威注释的蛋白质序列数据库,具有非冗余、高质量和全面的分类等特点。Swiss-Prot由瑞士生物信息学研究所和欧洲生物信息学研究所EBI共同维护,通常认为Swiss-Prot中的蛋白质注释信息是黄金标准,有经验的分子生物学家和蛋白质化学家通过计算机查阅相关文献资料仔细核实了该数据库的所有序列条目。TrEMBL提供蛋白质序列的自动注释信息。2002年,PIR、Swiss-Prot和TrEMBL在美国国立卫生研究院(NIH)的资助下,将PIR、Swiss-Prot和TrEMBL合并,建立了全球范围内统一的蛋白质序列和功能数据库UniProt(Universal Protein Resource)。1.2.3 生物大分子结构数据库如蛋白质结构数据库(Protein Data Bank,PDB)是目前国际上著名的生物大分子结构数据库,含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括DNA、RNA、蛋白质与核酸复合物的三维结构。同核酸序列数据库一样,可通过网络直接向PDB数据库递交结构数据。截止2013年9月5日,PDB数据库中共含有93624个结构数据13。由于PDB主要由生物大分子三维结构所组成,具有以下几种功能:能够查找目的蛋白质的结构;可进行蛋白质一级到高级结构的简单分析;与互联网上的其他一些数据库链接,如GenBank、Swiss-Prot、PIR等,从而可查询蛋白质的其他信息;通过关键词或PDB标识符等进行查询,可下载有关的结构信息以供进一步使用。在蛋白质分析中,PDB主要应用于蛋白质结构预测和结构相似性比较。1.2.4 基因组数据库如Ensembl,是一个综合基因组数据库,它是由欧洲生物信息学研究所(EBI)与Sanger研究所、Wellcome基金会(Wellcome Trust Sanger Institute,WTSI)共同合作开发的一个系统。Ensembl是一个有关人类基因组和其他物种基因组的全面资源的基因组信息库,为研究人员提供了全面的基因组信息,包括基因数据存储、信息整合、数据分析及生物信息可视化处理等功能。Ensembl试图跟踪这些基因组的序列片段,并将其组装成单个长序列,分析这些经过组装的DNA序列,搜索其中基因,发现生物学家或医学工作者感兴趣的特征。此外,Ensembl数据库还提供疾病、细胞等方面的信息,且提供数据搜索、数据下载、统计分析等服务。目前,Ensembl共收录50多个物种的数据14。2 数据库的应用2.1 序列比对与电子克隆数据库检索是一个重要工具,在分子生物学研究中,研究者获得的新的核酸或蛋白序列,并不一定知道其相应的生物功能。可以利用数据库检索,找出相似性的序列,根据检索的序列信息,来推测自己的序列可能属于哪个基因家族,以及可能的生物学功能。对于氨基酸序列还可以在Swiss-Prot库中寻找已知三维结构的同源蛋白质,从而推测其可能的空间结构。通过计算分析可以从EST数据库发现新基因,利用现有某一物种的基因序列,在GenBank数据库中进行同源检索,选择其中的EST数据库、高通量基因组序列(HTGS)数据库,以及GDB基因组数据库,将得到的高度相似的序列用综合序列分析软件进行拼接,可以获得基因的同源电子克隆15。在检索过程中,重要的依据是序列比对,基本问题是比较两个或两个以上基因序列的相似性或不相似性,实际上序列比对是生物信息学的基础。2.2 蛋白质结构比对与预测蛋白质的结构与功能是密切相关的,蛋白质的分子结构决定了蛋白质的生物学功能。因此,分析蛋白质的结构,研究结构与功能之间的关系也是蛋白质组的重要内容,具有重大的意义。结构相似的蛋白质,应该具有相似功能。而且蛋白质在进化过程中三维结构比其一级结构即序列更保守,而且所含的信息也比氨基酸序列信息多。如果两个蛋白质的氨基酸序列有50%相同,那么约有90% 的-碳原子的位置偏差不超过0.3nm16。这就为利用生物信息学分析蛋白质三维结构及其功能提供了依据,是蛋白质同源建模方法在进行结构预测方面成功的保证。生物信息学分析的基本技术问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。通过对已知蛋白结构进行分析总结,建立其结构模型数据库。2.3 分子进化和比较基因组学采用生物信息学方法研究生物进化是对传统方法的有益补充,并起到越来越重要的作用。通过研究不同物种中同一种基因序列的序列差异来研究生物的进化,基于DNA序列或其编码的氨基酸序列,在分子水平上构建进化树,而且也可以用蛋白质结构来研究分子进化17。随着大规模基因组测序的展开,各物种基因组数据库日益丰富,诞生的新的学科比较基因组学,是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。现在比较基因组学已经成为生物科学中最引人瞩目的领域。基于比较不同物种的基因组数据,着重分析基因组之间的相似性和差异性,以了解不同物种间进化上的差异。而且研究扩展到基因位置、序列相似性分析、外显子内含子数的变化,非编码区信息等内容,超越了基因编码区,能够获得更多的信息。应用比较基因组学,可以分析复杂性状的遗传,加深对基因组结构的认识,而且可以指导新基因的发现18。2.4 基于结构的药物设计酶或其它蛋白质体现生物学活性的主要依据是其结构,蛋白质中有能够与配体结合的特殊结构靶点,在结合过程中遵循诱导契合学说。药物在与人体相关蛋白质受体结合的过程与之相同。这种结合与蛋白质结构密切相关,因此,可以基于蛋白质三维结构的药物了解,通过计算机智能和数据挖掘技术等手段与之互补、能够互作的化合物,即候选药物,然后在对设计的药物合成、筛选,加快药物筛选针对性和时效性,这是目前前沿的发现药物方法,受到广泛关注19。2.5 在农业上的应用生物信息学在农作物基因组分析中的深入应用无疑会加速农业生产的发展。近年来,以“水稻基因组计划”为代表的农作物基因图谱研究为生物信息学的农业应用打下了良好基础。一方面,通过比较基因组学、表达分析和功能基因组分析,识别重要基因、发现新基因、加快基因克隆的速度,为培育转基因作物、改良作物的质量和数量性状奠定基础20。另一方面,生物信息学应用于农业可以充分利用植物遗传资源,保护农作物遗传多样性。通过生物信息学推动农业基础研究及应用研究的关键在于获取主要农作物的完整基因组建立基因组数据库。3 前景展望生物信息学的发展将对分子生物学、药物设计、工作流管理和医疗成像等领域产生巨大的影响,极有可能引发新的产业革命。此外,生物信息学所倡导的全球范围的资源共享也将对整个自然科学乃至人类社会的发展产生深远的影响。有理由相信,今日生物学数据的巨大积累将导致重大生物学规律的发现。对于我国学者而言,网上生物信息学资源可以免费检索或下载、见效快、效益大,更适合我国国情。因此,应充分利用免费的生物信息学数据库信息资源,大力发展其在生命科学各领域的研究,使我国成为生物信息学领域强国。参考文献1 The U.S.Human Genome Project : The First Five Years FY 1991-1995, by NIH an d DOE.2 陈润生. 生物信息学J. 生物物理学报, 1999, 15(1): 5-12.3 郑伟国, 郭英, 常春艳. 生物信息学的现状与未来J. 口岸卫生控制, 2004, 9(5): 40-43.4 张春霆. 生物信息学的现状与展望J. 世界科技研究与发展, 2000, 22(6): 17-20.5 李勇, 倪福太, 贺福初. 英特网上生物信息资源的利用J. 生物化学与生物物理进展, 1999, 26(3): 295-296.6 Dicks J, Anderson M, Cardle L, et al. UK Crop Net: A collection of databases and bioinformatics resources for crop plant genomicsJ. Nucleic Acids Research, 2000, (1): 104- 107.7 姜鑫. 生物信息学数据库及其利用方法J. 现代情报, 2005, 6: 185-187.8 孙清鹏,贾栋,万善霞生物信息学应用教程M北京:中国林业出版社,2012:23-56.9赵屹, 谷瑞升, 杜生明. 生物信息学研究现状及发展趋势J. 医学信息学杂志, 2012, 5: 004.10 Dennis AB, Ilene KM, David Jl, etal. GenBankJ.Nucleic AcidsRes, 2010, 38(Database issue): 46- 51. 11 Brooksbank C, Cameron G, Thor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论