山大生物信息学课件03生物信息学数据库及检索策略_第1页
山大生物信息学课件03生物信息学数据库及检索策略_第2页
山大生物信息学课件03生物信息学数据库及检索策略_第3页
山大生物信息学课件03生物信息学数据库及检索策略_第4页
山大生物信息学课件03生物信息学数据库及检索策略_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bioinformatics database and retrieval strategy重要生物信息数据库生物信息数据及其格式数据库检索工具EntrezContent1、重要生物信息中心 Bioinformatics CentresNCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) www.ebi.ac.ukDDBJ DNA Data Bank of Japan (JP) www.ddbj.nig.ac.jpExPASy Expert of Pr

2、otein Analysis System (Switzerland ) www.expasy.chPDB Protein Data Bank (US) /pdb/ CBIPKU 北京大学生物信息中心 (CN) /chinese/BioSino 中国生物信息中心 (CN ) Tools for Bioinformatics ResearchEntrezSRS数据库的集成与检索界面的统一XMLXMLSite ASite BData IntegrationSRS(Sequence Retrieval System )SRS是欧洲分子生物学网EMBnet的主要检索工具SRS, Sequence Re

3、trieval System, is a powerful database management system developed specifically for biological databases. The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they available and allowing for complex search criteria.数据库记录的格式与检索路口核酸/蛋白质数据

4、库记录的组成由于历史原因,各种生物数据库采用了不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式。一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和EMBL两种风格。GenBank RecordsHeaderFeature TableSequenceThe Flatfile FormatGenBank格式GenBank格式:每个条目都是一份纯

5、文本文件。每行左端为空格或为识别字,识别字均为完整英文字,不用缩写。 格式可以分成3个部分:1)头部包含关于整个序列的信息(描述字符),从 LOCUS行到ORIGIN行;2)注释这一序列的特性(Feature Table),为注释核心部分;3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以/结尾。GenBank格式EMBL格式EMBL格式:欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBa

6、nk和DDBJ统一。下欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。 EMBL格式数据库记录注释代码和内容说明 EMBL识别标志 GenBank识别字 意义ID LOCUS 序列名称DEDEFINITION序列简单说明AC ACCESSION 唯一的提取号OSSOURCE序列来源的物种名OC ORGANISM 序列来源的物种学名和分类学位置DT 建立日期 KW KEYWORDS与序列相关的关键词RNREFERENCE相关文献编号,或递交序列的注册信息RAAUTHORS相关文献作者,或递交序列的作者RTTITLE相关文献题目RLJOUR

7、NAL引文出处相关文献刊物杂志名,或递交序列的作者单位RXMEDLINE 相关文献Medline引文代码RP相关文献其它注释p18数据库记录注释代码和内容说明(cont.)EMBL识别标志 GenBank识别字 意义RCREMARK相关文献注释DR相关数据库交叉引用号XX为阅读清晰而加的空行 CC COMMENT 评注 NI VERSION 可更新的序列版本号 FH FEATURES 序列特征表起始FT FEATURES 特性表 SQ EMBL序列开始标志,后随长度、字母数 BASE COUNT GenBank碱基数目 ORIGIN GenBank序列开始标志,该行空 / / 序列结束标志,空

8、行 p18LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000序列和数据库标识位置, 提取号, 版本 Definition accession versionDEFINITION Limulus polyphemus myosin III mRNA, complete cds.GB DivisionLocus名字简单描述 (标题)修改日期序列类型mRNA (= cDNA)rRNAsnRNADNA序列长度VERSION AF062069.2 GI:7144484ACCESSION AF062069提取号Accession.versiongi number最古老的

9、甲壳动物鲎(hu)肌球蛋白III关键字,生物体来源 Keywords and sourceKEYWORDS .SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.序列来源的物种名序列来源的物种学名和分类学位置可更新的序列版本号后生动物 REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrew

10、s,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In pressREFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. T

11、ITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission J

12、OURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.引用(参考文献)Reference以前版本号相关文献编号,或递交序列的注册信息相关文献作者,或递交序列的作者相关文献题目引文出处相关文献刊物杂志名

13、,或递交序列的作者单位评注FEATURES Location/Qualifiers source 1.3808 /organism=Limulus polyphemus /db_xref=taxon:6850 /tissue_type=lateral eye CDS 258.3302 /note=N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA /codon_start=1 /product=myosin III /protein_id=AAC16332.2 /db_x

14、ref=GI:7144485 /translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL特性表(Features)编码序列Biosource阅读框GenPept Protein IdentifiersBASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3721 a

15、ccaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa/Sequence记录结束标记指示序列数据的起始GenBank碱基数目PDB数据库文件格式分子类别-水解酶类(氧连接糖基化) 该文件的公布日期 该结构的pdb代码 该化合物名称人类唾液淀粉酶 该化合物的来源 结构测定者名字 REMARK是此pdb文件的参考书目、最大分辨率、注解等 REMARK 的部分讲解图中1处指出蛋白质原子数为3946,2处指出核酸原子数为0,3处指出异型原子数为2,4处指出溶

16、剂原子数为169 指出蛋白质原子数核酸原子数异型原子数溶剂原子数SEQRES部分 EQRES部分表示了该分子包含496个氨基酸残基,并将每个残基符号依次列出:HELIX部分下面HELIX部分显示的是分子中螺旋的组成和信息,如图:折叠然后下面就是折叠的组成和信息了,如下图:分子的原子信息下面就是该分子的原子信息,我们先给出Format列的格式列表,然后进行一下详细的说明,如下图:列号 目录 fmt 1-6 ATOM或HETATM All 7-11 原子序列号(可以有空格) All 13-16 按IUPAC标准格式的原子名称All 17 构象标识符,用A,B,C表示All 18-20按IUPAC标

17、准格式的残基名称 All 23-26残基序列号 All 27插入残基的编码(如:66A&66B) All 31-38X坐标轴 All 39-46Y坐标轴 All 47-54 Z坐标轴 All 55-60 位置 All 61-66 温度因子 All 68-70 脚注编号 9273-76 片段指示符(左对齐) 9677-78 元素符号(右对齐) 9679-80 原子带的电荷 96p21分子的原子信息详解表示所指为原子 该原子序列号 IUPAC标准格式的原子名称 残基名称残基序列号原子的X坐标轴Y坐标轴Z坐标轴位置温度因子片段指示符TER、HETATM、CONECT、ENDTER记录,它记录主链分子

18、中的链末端,在TER后面的HETATM就是记录异型原子的信息。 在HETATM记录的后面还有一些CONECT记录。CONECT详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。CONECT记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。 最后,在整个文件的结尾还有一个END记录表示文件结束。 快速准确的检索策略semanticmappingAttributesRelations查询语义映射和处理过程结果语义匹配Knowledge Discovery in DatabasesData WarehousePrepareddata

19、DataCleaningIntegrationSelectionTransformationDataMiningPatternsEvaluationVisualizationKnowledgeKnowledgeBaseThe National Center for Biotechnology Information (NCBI)Created as a part of the National Library of Medicine in 1988Tools: Entrez (1992) ,BLAST(1990), GenBank (1992)Free MEDLINE (PubMed, 199

20、7)Other databases: dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeqThe National Institutes of HealthBethesda, MDThe National Center for Biotechnology InformationAccepts submissions of primary dataDevelops tools to analyze these dataCreates derivative databas

21、es based on the primary dataProvides free search, link, and retrieval of these data, primarily through the Entrez systemNCBI WWW Users per DayNumber of Users and Hits Per Day 1997 1998 1999 2000 2001 2002 2003Christmas & New YearHome accessing the dataallfilterp53allfilter1/11/200529/10/2008Molecula

22、r DatabasesPrimary DatabasesOriginal submissions by experimentalistsDatabase staff organize but dont add additional informationExample: GenBankDerivative DatabasesHuman curatedcompilation and correction of dataExample: SWISS-PROT, NCBI RefSeq mRNAComputationally DerivedExample: UniGeneCombinationsEx

23、ample: NCBI Genome AssemblyPrimary vs. Derivative DatabasesGenBankSequencingCentersUniGeneRefSeq:Entrez Gene andGenomes pipelinesRefSeq:annotation pipelineLabsUpdated ONLY by submittersESTUniSTSSTSGSSHTGPRIRODPLNMAMBCTINVVRTPHGVRLCuratorsATTGAATTCGACGACCCATTTAACTUpdated by NCBIRefSeqThe GenBank Reco

24、rdA Typical GenBank RecordLOCUS NM_019570 4279 bp mRNA linear INV 28-OCT-2004DEFINITION Mus musculus REV1-like(S. cerevisiae)(Rev1l),mRNAACCESSION NM_019570VERSION NM_019570.3 GI:50811869 KEYWORDS .= TitleEntrezGenBank Record: Feature TableEntrezGenBank Record: Feature TableGenPept identifierBlastEn

25、trezGenBank Record: sequenceskipBlastBLASTMendelian Inheritance in ManNCBI HomepageEntrezOnline HelpUsing EntrezAn integrated database search and retrieval systemGenomesTaxonomyEntrez: Neighboring and Hard LinksPubMed abstractsNucleotide sequencesProtein sequences3-D Structure(MMDB)3 -D StructureWor

26、d weightVASTBLASTBLASTPhylogenyGEO(gene expression omnibus, 基因表达汇编):收集、存贮微阵列基因表达数据的数据库。 p51Database Searching with Entrez Using limits and field restriction to find mouse GAPD Linking and neighboring with mouse GAPDEntrez NucleotidesMouseDocument Summaries: MouseAll Fields7 million recordsData Rich,

27、 Knowledge Poor不要把自己淹没于数据信息的海洋中,要去找知识的岛屿。什么是数据、信息、知识?一定注意现在生物信息学存贮数据库叫DATABASEEntrez Nucleotides: Limits: Preview/IndexMouseEntrez Nucleotides: LimitsAccessionAll FieldsAuthor NameEC/RN NumberFeature keyFilterGene NameIssueJournal NameKeywordModification DateOrganismPage NumberPrimary AccessionPrope

28、rtiesProtein NamePublication DateSeqID StringSequence LengthSubstance NameText WordTitle WordUidVolumeField RestrictionOnly FromRefSeqGenBankEMBLDDBJExclude unwanted categories of sequencesMoleculeGenomic DNA/RNAmRNArRNAGene LocationGenomic DNA/RNAMitochondrionChloroplastMouseEntrez Nucleotides: Lim

29、its: OrganismMouseDocument Summaries: MouseOrganism 7,247,131All Fields-6,850,905Organism 397,226Exclude Bulk Sequences, mRNA502497Preview / IndexAdding Terms: Preview/IndexSearch Historyglyceraldehyde 3 phosphate dehydrogenasemouse AND glyceraldehyde 3 phosphate dehydrogenaseTitle161Mouse GAPD Reco

30、rds193History#18 AND # 6Displaying RecordsDisplaying Mouse GAPD RecordsSummaryBriefGenBankASN.1FASTAGI listLinkOutPubMed LinksProtein LinksNucleotide NeighborsPopSet LinksStructure LinksGenome LinksTaxonomy LinksOMIM LinksFormatsLinks and neighbors (related records)Entrez GenBank / GenPeptGenPeptgi|

31、193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glyceraldGGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCCAGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACCACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCTCCACCTCCACCAC

32、CACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCCCTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCTGACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATTAGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCACACATGGTAGATACAAAGGAAACGTGGAACATA

33、AGAATGGACAACTAGTTGTGGACAACCTTGAGATCAACACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGTACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCACTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTATGACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCA

34、AGGTTATTCATGAAAACTTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGCCATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGCCAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACCCCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGGCTG

35、TGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCACGGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTCGTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACATGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCGGCTTCCACTCAAAGGCGCCGCCA

36、CCGGGTCAACAATGAAATAAAAACGAGAATGCGC FASTA FormatFASTA Definition Linegi|193425|gb|M60978.1|MUSGAPDSgi numberDatabase IdentifiersgbGenBankembEMBLdbjDDBJspSWISS-PROTpdbProtein DatabankpirPIRprf PRFrefRefSeqAccession numberLocus NameSeq-entry := set level 1 , class nuc-prot , descr title Mus musculus testis-specific isoform of glyceral

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论