生物信息数据库综述_第1页
生物信息数据库综述_第2页
生物信息数据库综述_第3页
生物信息数据库综述_第4页
生物信息数据库综述_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 生物信息数据库生物信息数据库1、模式生物、模式生物2、数据库、数据库第二节第二节 数据库数据库生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 (1)数据库的更新速度不断加快)数据库的更新速度不断加快 数据量呈指数增长趋势数据量呈指数增长趋势 (2)数据库使用频率增长更快)数据库使用频率增长更快 (3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 (4)数据库网络化)数据库网络化 (5)面向应用)面向应用(6)先进的软硬件配置)先进的软硬件配置 分

2、子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。 通常分法:序列数据库序列数据库 结构数据库结构数据库生物信息生物信息 学数据库学数据库 工具工具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据库蛋白质序列蛋白质序列数据库数据库蛋白质结构蛋白质结构数据库数据库二级数据库二级数据库 复合数据库复合数据库基因组作图基因组作图序列测定序列测

3、定结构测定结构测定国际著名的生物信息中心 NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS Nati

4、onal Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)国内生物信息资源 北大生物信息中心 中科院上海生物信息中心 华大基因 国家人类基因组北方研究中心 博奥芯片 国际上权威的核酸序列数据库国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.n

5、/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/GenBankDDBJEMBL 三个数据库中的数据基本一致,仅在三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。三个数据库的响应结果一样。 这三个数据库是综合性的这三个数据库是综合性的DNADNA和和RNARNA序序列数据库,每条记录代表一个单独、连列数据库,每条记录代表一个单独、连续、附有注释的续、附有注释的DNADNA或或RNARNA片段。片段。美国的核酸数据库

6、美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从从1979年开始建设,年开始建设,1982年正式运行;年正式运行;NCBI下子数据库下子数据库 欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据库也于数据库也于1982年开始服务年开始服务日本于日本于1984年开始建立国家级的核酸数年开始建立国家级的核酸数据库据库DDBJ,并于,并于1987年正式服务。年正式服务。一、GenBank数据库 GenBank(/genbank/)是一个综合数据库,该数据库

7、中包含了已是一个综合数据库,该数据库中包含了已经公开的经公开的30万余种不同物种生物的核酸序万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。室和大规模测序计划项目。 GenBank是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(兰国家健康研究所(NIH)。)。GenBank数据库的序数据库的序列数据来源于序列发

8、现者提交的序列、批量提交的列数据来源于序列发现者提交的序列、批量提交的表达序列标签(表达序列标签(expressed sequence tag, EST)、)、基因组测序序列(基因组测序序列(genome survey sequence, GSS)和其他测序中心提供的高通量数据,还包括)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。美国专利商标局提供的已发表专利的序列数据。 GenBank数据库每天与欧洲分子生物学实数据库每天与欧洲分子生物学实验室的核酸序列数据库(验室的核酸序列数据库(European Molecular Biology Laboratory

9、 Nucleotide Sequence Database,EMBL)和日本的和日本的DNA数据库(数据库(DNA Data Bank of Japan DDBJ)进行数据交换,以保证数据)进行数据交换,以保证数据库内容在全世界范围的同步性。库内容在全世界范围的同步性。 在在NCBI(/)的主)的主页上提供了进入页上提供了进入GenBank的路径、相关检索和分的路径、相关检索和分析服务。析服务。 通过通过NCBI的检索系统(的检索系统(Entrez)可以进入)可以进入GenBank。Entrez检索程序整合了主要的检索程序整合了主要的DNA和

10、蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。的生物医学文献信息。 BLAST程序提供程序提供GenBank和其他序列数据库中和其他序列数据库中序列相似性搜索服务。序列相似性搜索服务。 (一)GenBank数据库结构 1. 依据序列的物种来源分类依据序列的物种来源分类 2. Genbank记录和分类记录和分类 2.1 表达序列标签表达序列标签(EST) 2.2 序列标签位点序列标签位点(STS)、基因组勘测序列、基因组勘测序列(GSS)和环和环境样品序

11、列境样品序列(ENV) 2.3 高通量基因组高通量基因组(HTG)和高通量和高通量cDNA(HTC)序列序列 2.4 全基因组鸟枪测序序列全基因组鸟枪测序序列(WGS) 2.5 转录组鸟枪组合序列转录组鸟枪组合序列 (一)GenBank数据库结构 3. 特殊记录类型特殊记录类型 3.1 第三方注释(第三方注释(TPA) 3.2 GenBank CON记录记录 较小记录组合记录较小记录组合记录 (二)构建数据库 1直接电子提交 1.1 使用BankIt提交 1.2 使用Sequin和tbl2asn提交 1.3 条形码序列提交 2. 序列标识符和记录号 (三)检索GenBank数据 1. Entr

12、ez系统系统 (/sites/gquery) 2. 与测序计划检索相关的序列记录与测序计划检索相关的序列记录 (/genomeprj) 3. BLAST 序列相似性搜索序列相似性搜索 (/Blast.cgi) 4. 用用FTP获取获取GenBank (/genbank) 二、EMBL数据库 EMBL建立于1980年,EMBL核苷序列数据库(http:/ www.edi.ac.uk/embl/)

13、是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。 核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。 三、DDBJ数据库 日本日本DNA数据库(数据库(DDBJ)是在亚洲唯一的核酸)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于酸序列编号。由于DDBJ每天将搜集的数据与每天将搜集的数据与EMBL-Bank

14、/EBI和和GenBank/NCBI进行交换,进行交换,使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同数据。数据。DDBJ主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国家的研究者。家的研究者。 四、其他重要的核酸序列数据库 dbEST:dbEST是是GenBank中的一个子数据库,中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。标签序列的其他信息。 ncRNAdb:非编码:非编码RNA(

15、non-coding RNA ncRNA)数据库旨在提供非编码)数据库旨在提供非编码RNA的序列和功的序列和功能信息。能信息。 miRBase:miRBase序列数据库主要存放已发表序列数据库主要存放已发表的微小的微小RNA(microRNA miRNA)序列和注释的序列和注释的数据库。数据库。 (美国、加拿大)(美国、加拿大)The Genome Database 1990年,年,John Hopkins大学建立,后由加拿大儿童医院生物信息大学建立,后由加拿大儿童医院生物信息中心管理中心管理.基因单位、基因单位、PCR位点、细胞遗传标记、位点、细胞遗传标记、EST、contig、重复片段、基

16、、重复片段、基因组图谱因组图谱与其它分子生物信息网络资源(与其它分子生物信息网络资源(EMBL、GenBank)的链接)的链接 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各提供很好的图形界面,用户能够从大到整个基因组小到序列的各 个层次观察和分析基因组数据。个层次观察和分析基因组数据。 限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献 (欧洲欧洲) (美国美国)蛋白质功

17、能、结构域和蛋白质家族有关的数据库: PROSITE InterPro Pfam ProDom SMART 等 蛋白质三维结构相关数据库: PDB BioMagResBank SWISS-MODEL Repository ModBase CATH SCOP ReLiBase TOPS SWISS-3DIMAGE BioImage等 蛋白质二维凝胶电泳数据库: WORLD-2DPAGE Phoretix links 信号传导及蛋白质-蛋白质相互作用相关数据库: DIP INTERACT ProNet KEGG CANSITE SPAD CSNDB等 DNA和蛋白质相互作用数据库:DPIntera

18、ct 蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质 1. 瑞士日内瓦大学瑞士日内瓦大学 (Geneva )医学生物化学系和欧洲生物信息学研究所)医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(合作维护(1986年);年); 2. 在在EMBL和和GenBank数据库上均建立了镜像站点数据库上均建立了镜像站点; 3. 数据库包括了从数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;翻译而来的蛋白质序列,这些序列经过检验和注释; 4. 数据记录包括两部分:数据记录包括两部分: 序列序列 注释注释 (结构域、功能位点、跨膜区

19、域、二硫键位置、翻结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等译后的修饰、突变体等) 5. 数据存在滞后性数据存在滞后性 TrEMBL数据库的建立数据库的建立SWISS-PROT的网址:的网址: /sprotTrEMBL的网址:的网址: http:/www.ebi.ac.uk/trembl/index.htmlSWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核

20、酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据 1. 由美国由美国NCBI翻译自翻译自GenBank的的DNA序列序列(1984年年); 2. 在在EMBL和和GenBank数据库上均建立了镜像站点;数据库上均建立了镜像站点; 3. 数据依据注释的质量分为数据依据注释的质量分为4类。类。 网址:网址: /分类名称分类名称(Name)说明说明(Comment)记录数记录数(Number of entries)PIR1已分类、已注释已分类、已注释(Clas

21、sified and annotated)13572PIR2已注释已注释(Annotated)69368PIR3未核实未核实(Unverified)7508PIR4未翻译未翻译(Unencoded or untranslated)196 目的:目的:帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。 它是一个全面的、经过注释的、非冗余的蛋白质序列数它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。据库。 所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%99%的序列已按蛋白质的序列已按蛋白质家族分类,一半

22、以上还按蛋白质超家族进行了分类家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(Protein Information Resource)除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻蛋白质功能和蛋白质的一般特征,包括基因表达、翻 译后处理、活化等;译后处理、活化等; (4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。PIR提供三种类型的检

23、索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。四个子数据库Uniprot- 通用蛋白质资源通用蛋白质资源数据库数据库iProClass-蛋白质知识整蛋白质知识整合数据库合数据库PIRSF-蛋白质家族分类系蛋白质家族分类系统统iProLINK-蛋白质文献、信蛋白质文献、信息和知识整合数据库息和知识整合数据库 1.UniProt-通用蛋白质资源库通用蛋白质资源库 UniProt(/) 存储

24、和链接其他蛋白质数据库的资源库,并且是存储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源蛋白质序列和具有综合功能注释目录的中心资源库。使用库。使用UniprotKB可以检索准确、可靠的蛋白可以检索准确、可靠的蛋白综合信息。使用综合信息。使用UniRef可以减少冗余,加速序列可以减少冗余,加速序列相似性搜索。使用相似性搜索。使用UniParc可以检索存档序列和可以检索存档序列和它们来源的数据库。它们来源的数据库。 2. iProClass-蛋白质知识整合数据库蛋白质知识整合数据库 iProClass(/iprocl

25、ass/) 提供来自提供来自90多个生物学数据库的大量整合数据,包括蛋白多个生物学数据库的大量整合数据,包括蛋白ID图谱服务、图谱服务、UniProtKB编注蛋白质摘要描述和筛选编注蛋白质摘要描述和筛选UnParc数据库的蛋白质序列。使用数据库的蛋白质序列。使用iProClass可以检索最新的蛋白可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(基因和基因组、功能注释标准体系(ontology)、文献和分)、文献和分类学信息。使用类学信息。使用iProClass还可以检索还可以检索ID图

26、谱、蛋白质词典图谱、蛋白质词典和相关序列。和相关序列。 3. PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF(/pirsf/) 分类系统概要论述家族的特征,如家族名称、分分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以及家族成员,包类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、功能注释标准体系括功能、结构、传导通路、功能注释标准体系(ontology)和家族分类。利用这些信息可以获)和家族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所得蛋白质的准确功能或预测的功能和该蛋白

27、质所属家族成员共有的其他特征。属家族成员共有的其他特征。 4. iProLINK-蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库 iProLINK(/iprolink/) 提供有关注释内容的文献、蛋白质名称词典和其他有助于提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(蛋白质名称标记和功能注释标准体系(ontology)。使)。使用用iProLINK可以获得描述蛋白质记录的文本文献资源,可以获得

28、描述蛋白质记录的文本文献资源,在在UniProtKB记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(蛋白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标)文献和获得蛋白质功能注释标准体系(准体系(ontology)()(PRO)信息。)信息。 1. 目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,年代建立,美国美国Brookhaven国家实验室国家实验室维护管理维护管理; 3. 1988年,由美国年,由美

29、国RCSB(research collaboratory for structural biology)管理;管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;者信息、一级结构、二级结构等; 5. PDBsum数据库:数据库:PDB注释信息综合数据库,具有检索、分析、可注释信息综合数据库,具有检索、分析、可视化的功能。视化的功能。PDB的网址:的网址:/pdb(美国美国) PDBsum的网址:的网址:http:/www.biochem.ucl.ac.

30、uk/bsm/pdbsumHEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EX

31、PRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论