




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020/5/20,1,生物信息学,第二章分子生物信息数据库,2020/5/20,2,生物信息学,第一节分子生物信息数据库第二节核酸与蛋白质序列格式转换,简介,2020/5/20,3,生物信息学,第一节、分子生物信息数据库,一、分子生物信息数据库简介二、各大类主要数据库介绍,2020/5/20,4,生物信息学,一、分子生物信息数据库简介,2020/5/20,5,生物信息学,一、分子生物信息数据库简介,生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,2020/5/20,6,生物信息学,一、分子生物信息数据库简介,生物分子数据库几个明显的特征:,(1)数据库的更新速度不断加快,数据量呈指数增长趋势;(2)数据库使用频率增长更快,接近500;(3)数据库的复杂程度不断增加;(4)数据库网络化;(5)面向应用;(6)先进的软硬件配置。,2020/5/20,7,生物信息学,一、分子生物信息数据库简介,2020/5/20,8,生物信息学,二、各大类主要数据库介绍,基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库蛋白质结构分类数据库功能数据库生物信息学数据库导航系统,2020/5/20,9,生物信息学,二、各大类主要数据库介绍,基因组数据库,基因组数据库的主体是模式生物基因组数据库,其中主要有世界各国人类基因组研究中心,测序中心构建的各种人类的基因组数据库。还有模式生物基因组数据库,如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组数据库也纷纷上网。基因组信息资源除了基因组本身信息外,还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因的调控与表达、放射杂交、基因图谱等各种数据库,2020/5/20,10,生物信息学,二、各大类主要数据库介绍,基因组数据库,(一)GDBTheGDBHumanGenomeDatabase/,于1990年由美国JOHNSHOPKINS大学建立,现在由加拿大儿童医院生物信息学中心负责管理。,基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述,2020/5/20,11,生物信息学,二、各大类主要数据库介绍,基因组数据库,(一)GDBTheGDBHumanGenomeDatabase/,目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoints、细胞遗传标记cytogeneticmarkers、易碎位点fragilesites、EST序列、综合区域syndromicregions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、contentcontig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。,2020/5/20,12,生物信息学,二、各大类主要数据库介绍,基因组数据库,2020/5/20,13,生物信息学,二、各大类主要数据库介绍,基因组数据库,2020/5/20,14,生物信息学,二、各大类主要数据库介绍,基因组数据库,2020/5/20,15,生物信息学,二、各大类主要数据库介绍,基因组数据库,(二)人类基因组数据库Ensembl/,Ensembl试图跟踪所有人类基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的DNA序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。Ensembl包括所有公开的基因组DNA序列,如人类基因组、小鼠和大鼠基因组等。通过注释形成的关于序列的特征。基因就是一种特征,基因或者是通过实验发现的,或者是通过Ensembl的程序预测的。Ensembl所用的基因预测程序为GenScan。其他的特征包括单核苷酸多态性(SNP)、重复序列与其它序列高度相似(或同源)的序列。,2020/5/20,16,生物信息学,二、各大类主要数据库介绍,基因组数据库,(二)人类基因组数据库Ensembl,2020/5/20,18,生物信息学,二、各大类主要数据库介绍,基因组数据库,(二)人类基因组数据库Ensembl,2020/5/20,19,生物信息学,二、各大类主要数据库介绍,基因组数据库,(三)其他基因组数据库,1、EcoGene大肠杆菌(E.coli)K-12的序列/2、MITOMAP人类线粒体基因组/3、SGD酵母基因组数据库/Saccharomyces,2020/5/20,20,生物信息学,二、各大类主要数据库介绍,核酸序列数据,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank欧洲分子生物学实验室的EMBL-Bank日本遗传研究所的DDBJ三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。,2020/5/20,21,生物信息学,(一)Genbank,Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。,2020/5/20,22,生物信息学,Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。,(一)Genbank,2020/5/20,23,生物信息学,,(一)Genbank,2020/5/20,24,生物信息学,(一)Genbank,2020/5/20,25,生物信息学,(二)EMBL,EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)服务完成。,2020/5/20,26,生物信息学,http:/www.ebi.ac.uk/embl/,(二)EMBL,2020/5/20,27,生物信息学,(三)DDBJ数据库,日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:http:/www.ddbj.nig.ac.jp/index-e.html,2020/5/20,28,生物信息学,(三)DDBJ数据库,2020/5/20,29,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,1、PIR(ProteinInformationResource),/,由美国生物医学基金会NBRF(NationalBiomedicalResearchFoundation)于1984年建立的。目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,2020/5/20,30,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,1、PIR(ProteinInformationResource),/,除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,2020/5/20,31,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,1、PIR(ProteinInformationResource),PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FASTA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。目前,PIR包括三个子数据库,分别是:蛋白质序列数据库PIR-PSD蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库PIR-NREF。,2020/5/20,32,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,1、PIR(ProteinInformationResource),2020/5/20,33,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,2、SWISS-PROT(http:/www.ebi.ac.uk/swissprot/曾经的网址)/是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:(1)注释(2)最小冗余(3)与其它数据库的连接,2020/5/20,34,生物信息学,二、各大类主要数据库介绍,2、SWISS-PROT(http:/www.ebi.ac.uk/swissprot/),2020/5/20,35,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,3、TrEMBL(http:/www.ebi.ac.uk/trembl/index.html曾经的网址)/TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,2020/5/20,36,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,3、TrEMBL(曾经的网址和界面),2020/5/20,37,生物信息学,二、各大类主要数据库介绍,蛋白质序列数据库,4、UniProt蛋白质数据仓库将Swiss-Prot、TrEMBL、PIR3个蛋白质数据库统一起来,建立了一个蛋白质数据仓库UniProt。UniProt包含4个部分:(1)UniProtKnowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProtNon-redundantReference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;(3)UniProtArchive(UniParc),是一个资源库,记录所有蛋白质序列的历史。(4)UniProtMetagenomicandEnvironmentalSequence(UniMES),记录metagenomic和环境微生物序列数据。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。,2020/5/20,39,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,1、PDBProteinDataBank/pdb,蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。,2020/5/20,40,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,1、PDBProteinDataBank/pdb,PDB中的每条记录有两种序列信息一种是显式序列信息(explicitsequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。一种是隐式序列信息(implicitsequence)PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,2020/5/20,41,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,2020/5/20,42,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,PDB显示分子结构(RasMol,ChemView),2020/5/20,43,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,2、MMDB(MolecularModelingDatabase),分子模型MMDB是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。,2020/5/20,46,生物信息学,二、各大类主要数据库介绍,蛋白质结构数据库,2、MMDB(MolecularModelingDatabase),2020/5/20,47,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,1、SCOP蛋白质结构分类数据库(STRUCTURALCLASSIFICATIONOFPROTEINS)http:/scop.mrc-lmb.cam.ac.uk/scop/详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全、全、/、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白分类等。在此基础上按折叠类型、超家族、家族三个参次主级分类。,2020/5/20,48,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,1、SCOP蛋白质结构分类数据库,2020/5/20,49,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,1、SCOP蛋白质结构分类数据库,2020/5/20,50,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,1、SCOP蛋白质结构分类数据库,2020/5/20,51,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,、蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)andHomologoussuperfamily(H)./,CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即主类、主类,-类(/型和+型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由螺旋和折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。形象地说来,就是蛋白质分子的构架,如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。,2020/5/20,52,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,、蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)andHomologoussuperfamily(H).,第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列相似性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。,2020/5/20,53,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,、蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)andHomologoussuperfamily(H).,2020/5/20,54,生物信息学,二、各大类主要数据库介绍,蛋白质结构分类数据库,、蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)andHomologoussuperfamily(H).,2020/5/20,55,生物信息学,二、各大类主要数据库介绍,功能数据库,KEGGDIPASDBTRRDTRANSFACEPDPROSITE,2020/5/20,56,生物信息学,KEGG,京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。,2020/5/20,57,生物信息学,KEGG,http:/www.kegg.jp/,2020/5/20,58,生物信息学,DIP,相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。DIP的网址是:/,2020/5/20,59,生物信息学,DIP,/dip/main.cgi,2020/5/20,60,生物信息学,ASDB(旧),可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。ASDB的网址是:/asdb,2020/5/20,61,生物信息学,ASDB-ASTD,2020/5/20,62,生物信息学,TRRD,转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。TRRD的网址是:http:/wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/,2020/5/20,63,生物信息学,TRRD,2020/5/20,64,生物信息学,EPD,EPD(http:/www.epd.isb-sib.ch/)是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。,2020/5/20,65,生物信息学,EPD,2020/5/20,66,生物信息学,PROSITE,PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户经理年终个人工作总结模版
- 社区护理资源配置优化策略
- 快速充电技术的探索
- 风险管理套期保值讲解
- 火电厂生产工艺流程
- 养老护理标准化流程
- 余姚四中教师考试试题及答案
- 有关古代法律的考试题及答案
- 银行行长面试题目及答案
- 老人晨起护理
- 武汉市2025届高中毕业生四月调研考试 试卷与解析
- 2025北京各区高三一模数学分类汇编解析 答案
- 第18课《井冈翠竹》 课件
- (四调)武汉市2025届高中毕业生四月调研考试 英语试卷
- 广西壮族自治区2025年4月高三毕业班诊断学考试英语试卷(广西三模)
- 2025年山东省枣庄市滕州市中考历史模拟试卷(一)
- 2025华阳新材料科技集团有限公司招聘(500人)笔试参考题库附带答案详解
- 2024年美睫技术考核试题及答案
- 运维岗笔试题及答案
- 余杭塘路(俞家圩路-光明路)工程环评报告
- 中国化的马克思主义(毛泽东思想)概论知到课后答案智慧树章节测试答案2025年春上海思博职业技术学院
评论
0/150
提交评论