




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物数据库资源及其应用,中山大学生科院2004年3月,2,主要内容:,基因组数据库的相关背景。主要的基因组数据库资源。GenBank序列数据库。GenBank序列格式。相关资源的应用介绍。序列查询(EntrezandSRS)序列提交(BankItandSequin),3,基因组数据库的发展历史,从历史上来看,蛋白质数据库是先于核苷酸数据库出现的。早在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffetal.,1965)。这一蛋白质数据库后来成为PIR(Georgeetal.,1997)。这个在1965年可以很容易地存放在一张软盘上的数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。,4,基因组数据库的发展历史(续),DNA序列数据库最早于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。(如下图)此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。,5,基因组数据库的发展历史(续),1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数据,并在三者之间发布。,6,基因组数据库的发展历史(续),7,基因组数据库的发展历史(续),如今,伴随核酸测序技术的发展,存储于数据库种的核酸序列的数目增长迅速。差不多10个月就翻一番。到去年年底2003.12,仅仅genbank的核酸序列数目就超过3000万,存储了大概365亿个碱基的信息量。,8,主要的数据库资源,数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等,蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等,三维结构数据库有PDB,NDB,BioMagResBank,CCSD等,蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等,与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等,文献数据库有Medline,Uncover等。,9,三大基因数据库,GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。NCBI的网址是:。EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:http:/www.ddbj.nig.ac.jp/。,10,GenBank,PublicfreeAvailableviaInternet,EMBLDataLibrary,DDBJ(DNADataBankofJapan),三大基因数据库之间的关系,11,GenBank数据库,GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。,12,ThisGenBankflatfilereleaseconsistsof570files.,Uncompressed,theRelease139.0flatfilesrequireroughly122GB(sequencefilesonly)or138GB(includingtheshortdirectory,indexandthe*.txtfiles).,AverageSeq.Filesizeca.226M,PHG-PhageVRL-ViralBCT-BacterialPLN-PlantINV-InvertebrateVRT-OthervertebrateMAM-OthermammalianROD-RodentPRI-PrimateEST-expressedsequencetagGSS-genomesurveysequenceHTC-highthroughputcDNAsequencingHTG-highthroughputgenomicsequencingSTS-sequencetaggedsiteSYN-SyntheticandchimericPAT-PatentUNA-Unannotated,Thetotalnumberofsequencedatafilesincreasedby8withthisrelease:-theESTdivisionisnowcomprisedof288files(+9)-thePATdivisionisnowcomprisedof11files(+1)-thePLNdivisionisnowcomprisedof10files(+1)-thePRIdivisionisnowcomprisedof27files(+1)-theRODdivisionisnowcomprisedof11files(+1)-theHTGdivisionisnowcomprisedof61files(-1)-theGSSdivisionisnowcomprisedof98files(-4),GenBank有什么?,数据库分类,13,序列文件格式,文本格式简单文本格式Line,PlainTextStadenFASTABionet(allowscomments)加入注释的文本格式GenBankGCG二进制格式(通常都带有注释)MacVector,14,序列文件格式例子(Fasta),gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。一种最简单的fasta序列形式可以表示为:D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.,15,序列文件格式例子(GenBank),LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995DEFINITIONRatmRNAforobese.ACCESSIOND49653KEYWORDS.SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeTokushima770JapanPhone:+81-886-33-7184Fax:+81-886-31-9495.,16,序列文件格式例子(GenBank)continued,NCBIgi:995614FEATURESLocation/Qualifierssource1.539/organism=Rattusnorvegicus/strain=OLETF,LETOandZucker/dev_stage=differentiated/sequenced_mol=cDNAtomRNA/tissue_type=adiposeCDS30.533/partial/note=NCBIgi:995615/codon_start=1/product=obese/translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPECBASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc/,17,序列文件格式例子(GCG),LOCUSRATOBESE.G539BPSS-RNAENTERED09/23/95DEFINITIONRatmRNAforobese.ACCESSION-KEYWORDS-SOURCERattusnorvegicus;NorwayratORGANISMEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;RattusREFERENCE1AUTHORSMurakami,T./organism=Rattusnorvegicus;/strain=OLETF,LETOandZucker;/dev_stage=differentiated;/sequenced_mol=cDNAtomRNA;/tissue_type=adiposeBASECOUNT121A167C133G118T0OTHERORIGIN?RATOBESE.GLength:539Jan30,1996-05:32PMCheck:5797.1CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGT61GGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACA121CCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGG181TATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGA241GTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTT301CCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGC361TGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCC421TGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGC481AGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC/,19,序列文件格式例子(ASN.1)ASN.1是NCBI用来存储和维护所有数据的格式,Seq-entry:=setlevel1,classnuc-prot,descrpubpubsubauthorsnamesstdnamenamelastMurakami,initialsT.,affilstrTakashiMurakami,SchoolofMedicine,UniversityofTokushima,DepartmentofLaboratoryMedicine;Kuramotocho3-chome,Tokushima,Tokushima770,Japan(E-mail:muraclin.med.tokushima-u.ac.jp,Tel:+81-886-33-7184,Fax:+81-886-31-9495),mediumemail,datestdyear1995,month3,day10,pubpubmuid95251725,articletitlenameCloningofratobesecDNAanditsexpressioninobeserats.,authorsnamesstdnamenamelastMurakami,initialsT.,namenamelastShima,initialsK.,affilstrDepartmentofLaboratoryMedicine,SchoolofMedicine,UniversityofTokushima,Japan.,fromjournaltitleiso-jtaBiochem.Biophys.Res.Commun.,ml-jtaBiochemBiophysResCommun,issn0006-291X,nameBiochemicalandbiophysicalresearchcommunications.,impdatestdyear1995,month4,day26,volume209,issue3,pages944-952,languageeng,idspubmed7733988,medline95251725,pmid7733988,update-datestdyear2000,month2,day1,sourceorgtaxnameRattusnorvegicus,commonNorwayrat,dbdbtaxon,tagid10116,orgnamenamebinomialgenusRattus,speciesnorvegicus,modsubtypestrain,subnameOLETF,LETOandZucker,lineageEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Rattus,gcode1,mgcode2,divROD,subtypesubtypetissue-type,nameadipose,subtypedev-stage,namedifferentiated,seq-setseqidddbjnameRATOBESE,accessionD49653,version1,gi995614,descrtitleRatmRNAforobese(leptin),completecds.,genbanksourceRattusnorvegicus(strain:OLETF,LETOandZucker)differentiatedadiposecDNAtomRNA.,keywordsobese(ob),leptin,obesity,obproduct,secretoryprotein,molinfobiomolmRNA,create-datestdyear1995,month9,day22,instreprraw,molrna,length539,seq-datancbi2na508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A384500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DCD048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4H,annotdataftabledatagenelocusobese(ob),locationintfrom0,to538,idgi995614,seqidddbjaccessionBAA08529,version1,gi995615,descrtitleleptin(obproduct)Rattusnorvegicus,molinfobiomolpeptide,create-datestdyear1995,month9,day22,instreprraw,molaa,length167,seq-datancbieaaMCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC,annotdataftabledataprotnameleptin(obproduct),locationwholegi995615,dataprotprocessedsignal-peptide,commentsecretoryprotein,locationintfrom0,to20,idgi995615,dataprotnamesecretedprotein,leptin,processedmature,locationintfrom21,to166,idgi995615,annotdataftabledatacdregionframeone,codeid1,productwholegi995615,locationintfrom29,to532,idgi995614,20,认识GenBank文件格式(头部),头部包含关于整个记录的信息(描述符)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995,LOCUS行中的日期是数据最后被公开的日期,这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人-珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码。,序列长度,GenBank一般不接受50bp以下的记录,生物分子的类型,这里是单链的mRNA,GenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因。,21,认识GenBank文件格式(头部),DEFINITIONRatmRNAforobese.DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义。这里,说明了序列的来源。,22,认识GenBank文件格式(头部),ACCESSIOND49653检索号,是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5或2+6格式。1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库的记录采取后一种方式。,23,认识GenBank文件格式(头部),KEYWORDS.KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词。,24,认识GenBank文件格式(头部),SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.SOURCE行中有生物的通用名或科学名称。ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.ORGANISMS行中包括所有关于分类的信息。,25,认识GenBank文件格式(头部),REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chomeTokushima770JapanPhone:+81-886-33-7184Fax:+81-886-31-9495.这部分是参考文献部分,每个GenBank记录至少要有一篇参考文献,许多情况下有两篇或多篇。后面部分是评论部分这一部分包括关于整个记录的许多不同的注释和评论(也称之为“描述部分”)。有些人在这一部分中加入自己的内容,以及致谢等。有许多GenBank记录没有这一部分,这是可选的,26,认识GenBank文件格式(特性表),FEATURESLocation/Qualifierssource1.539/organism=Rattusnorvegicus/strain=OLETF,LETOandZucker/dev_stage=differentiated/sequenced_mol=cDNAtomRNA/tissue_type=adiposeCDS30.533/partial/note=NCBIgi:995615/codon_start=1/product=obese/translation=MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC,来源(source)是唯一一个必须在所有GenBank记录中出现的特性,包含属和种的科学名称,存在的或者潜在的编码区,编码序列的翻译产物,编码序列的gi号,27,认识GenBank文件格式(序列),BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc/,结束符号,碱基统计信息,序列开始,序列主体,28,相关工具的使用,一,获取序列(entrez,SRS)/entrez二,序列提交1,www形式(bankit)/BankIt/2,客户端软件(sequin),29,在线获取序列(entrez),Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。,30,在线获取序列(entrez),1.进入entrez,2.选择数据库,3.查询关键词,4.开始查询,各类数据库的介绍,31,在线获取序列(entrez),显示格式,相关记录,点击进入,每页显示数目,符合条件的记录数,点击可以将结果保存到文件,32,在线获取序列(entrez),Genbank格式的序列记录,33,在线获取序列(entrez),Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成,对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果。为了获得更贴切的搜索结果,还可以设定搜索的字段和其他范围(如下图),34,在线获取序列(entrez),限定查询的字段范围,限定其他的查询范围,35,在线获取批量序列(Batchentrez),此外,Entrez还提供了批量获取GenBank序列的功能(BatchEntrez)/entrez/batchentrez.cgi(如下图),36,在线获取批量序列(Batchentrez),选择数据库。,选择文件,文件内容,GI号或者accessionnumbers的列表,开始获取序列,37,在线获取批量序列(Batchentrez),结果序列列表,点击可以将结果保存到文件,列表中的记录数,38,Entrez的特点,Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Relatedsequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。Entrez系统的开发基于特殊的数据模型NCBIANS.1(AbstractSyntaxNotation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“RelatedArticles”继续查找相关文献。,39,在线获取序列(SRS),SRS是SequenceRetrievalSystem的缩写,由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。随着分子生物信息数据库应用和开发的需求不断增长,SRS已经成为欧洲各国主要生物信息中心必备的数据库查询系统。目前,SRS已经发展成商业软件,由英国剑桥的LIONBioscience公司继续开发,学术单位在签定协议后可以免费获得该软件的使用权,而非学术单位则需要购买该软件的使用权。,40,展开所有数据库,选取数据库,快速查找,标准查找,扩展查找,41,设定更多限定的标准查找,42,更为精确的扩展查找,43,SRS的特点,是一个功能强大的数据库查询功能,其主要特点作有以下几个方面。SRS系统1.统一的用户界面SRS具有为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等。2.高效的查询功能生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必須解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选。,44,3.灵活的指针链接通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费体验体察活动方案策划(3篇)
- 北京商家线下活动策划方案(3篇)
- 心理主题团日活动策划方案(3篇)
- 隧道模专项施工方案(3篇)
- 专科电工考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期第一次月考数学试题含参考答案
- 北京市门头沟区2023-2024学年八年级上学期第一次月考数学试题含参考答案
- 心脏病科普题目及答案
- 心理讲师面试题目及答案
- 校长职务面试题目及答案
- 心房颤动患者的健康宣教
- 基本药物知识课件
- 骨盆骨折护理疑难病例讨论
- 2025年贵州省中考英语试题(附答案和音频)
- 得意温控器DEI-107F使用说明书
- 包扎伤口急救课件
- 2025至2030牙科实践行业项目调研及市场前景预测评估报告
- 小学科学新教材培训心得分享
- 心理工会活动方案
- 2025秋人教版(2024)八年级上册地理 【教学课件】1.2《人口》
- 2025年广西中考物理真题含答案
评论
0/150
提交评论