二生物信息学数据库及检索PPT课件_第1页
二生物信息学数据库及检索PPT课件_第2页
二生物信息学数据库及检索PPT课件_第3页
二生物信息学数据库及检索PPT课件_第4页
二生物信息学数据库及检索PPT课件_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

常用数据库简介 数据库 Database 用于收集 整理 储存 加工 发布和检索数据的系统 生物类的数据库种类很多 投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中 数据库记录通常包括两部分 原始数据对这些数据进行的生物学意义的注释 一个数据库通常链接了多个相关数据库 核苷酸数据库 水稻抗病相关基因OsDR8DQ176424 Taxonomy数据库 Pubmed数据库 NCBI Protein数据库 一 数据库工具 建立纯文本数据库 GenBank数据库 EMBL核苷酸数据库 MySQL数据库工具 SQL 结构化查询语言 是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像下载网址 AceDB数据库工具 AceDB AC elegansDataBase 线虫数据库 被广泛应用的管理和提供基因组数据的工具数据形式丰富 遗传图谱 物理图谱 新陈代谢途径 序列等 1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac 二 各种生物数据库 1 核苷酸数据库 DNA mRNA tRNA rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列 主要是非实验来源数据codingsequence CDS 数据库种类很多 GenBank EMBL核苷酸数据库 DDBJ信息资源共享 以天为基础进行数据库之间的序列数据交换收集了专利的核苷酸序列 UnitedStatesPatentandTrademarkOffice USPTO EuropeanPatentOffice EPO JapanPatentOffice JPO 三大核苷酸数据库 国际核苷酸序列数据库合作协议 InternationalNucleotideSequenceDatabaseCollaboration 收集的核苷酸来源 1 GenBankhttp www ncbi nlm nih gov genbank 美国NCBI的数据库 有部分蛋白质序列数据每天更新 每年发行 release 六版Release185 2011 8 15 142284608sequences130671233801bases142284608loci下载全部序列大概需要511GB 来源于500 000多个物种大约12 2 来源于Homosapiens 10 在GenBank数据库中序列最多的20个物种 GrowthofGenBank 1982 2009 Basepairs 1 000 000 000Entries 1 000 000 Locusname 位点名 Accessionnumber 注册号或登陆号 GI GenInfoidentifier NID NucleotideID 每个序列有一个flatfile每条序列有三个专有的编号或标识 identifier LOCUSline Thedivisions 分支 ofGenBank Thedivisions 分支 ofGenBank 2 dbEST DatabaseofExpressedSequenceTags http www ncbi nlm nih gov dbEST index html GenBank的二级数据库EST cDNA序列的一个片断 5 端 3 端 CDS 300 400bpSingle passsequenceGenBank中64 以上的序列是EST 3 UniGene数据库http www ncbi nlm nih gov UniGene NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群 人 大鼠 小鼠 斑马鱼 牛 蛙等拟南芥 水稻 小麦 大麦 玉米等共计97个物种 UniGene主页输入关键词检索 17 4 dbSTS DatabaseofSequenceTaggedSites http www ncbi nlm nih gov dbSTS index html GenBank的二级数据库短序列 200 500bp 已定位于染色体上的 序列已知的单拷贝DNA短片段检索 GenBank主页选择UniSTS后输入关键词 检索到的条目 每一条目详细内容 点击 mv 查看染色体定位 19 5 dbGSS DatabaseofGenomeSurveySequences http www ncbi nlm nih gov dbGSS index html G181 0 42 0 84 RM224 0 21 R1506 0 21 Xa26 S12886 1 47 0 00 0 63 L1044 NBS119 RM144 Y6855RA 0 00 11 TheGSSdivisionofGenBankissimilartotheESTdivision withtheexceptionthatmostofthesequencesaregenomicinorigin ratherthancDNA mRNA GenomeSurveySequencesaretypicallygeneratedandsubmittedtoNCBIbylabsperforminggenomesequencingandareused amongstotherthings asaframeworkforthemappingandsequencingofgenomesizepiecesincludedinthestandardGenBankdivisions 21 GenBank的二级数据库 TheGSSdivisioncontains butisnotlimitedto thefollowingtypesofdata random singlepassread genomesurveysequences cosmid BAC YACendsequencesexontrappedgenomicsequencesAluPCRsequencestransposon taggedsequences 6 HTG High ThroughputGenomicSequences http www ncbi nlm nih gov HTGS GenBank的二级数据库尚未完成测序的重叠群 2kb 的序列新序列的增加速度很快 AtypicalHTGrecordmightconsistofallthefirstpasssequencedatageneratedfromasinglecosmid BAC YAC orP1clonewhichtogethermakeupmorethan2kbandcontainoneormoregaps a b c a b c d Phase0 Phase1 Phase2 Phase3 未知序列 e cosmid BAC YAC 7 基因组数据库http www ncbi nlm nih gov entrez query fcgi db Genome NCBI的另一个数据库测序完成和正在测序物种基因组序列 遗传图 物理图等序列收集在GenBank数据形式丰富已经完成测序的基因组 25 Taxonomiccoverage 8 dbSNP DatabaseofSingleNucleotidePolymorphisms http www ncbi nlm nih gov SNP NCBI的数据库 创建于1998 9约每100 300bp有一个SNP数据种类 Singlenucleotidepolymorphism SNP Shortdeletion Insertionpolymorphism Insertion deletion Indel Deletion insertion substitution DIS dbSNP主页输入关键词 检索到的条目 每一条目详细内容 标准碱基多意代码 tyrosinekinase 酪氨酸激酶 29 30 9 EMBL EuropeanMolecularBiologyLaboratory NucleotideSequenceDatabase EBI EuropeanBioinformaticsInstitute 管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank不同 数据库主页http www ebi ac uk embl Access index html输入关键词 检索到的条目 每一条目详细内容 10 DDBJ DNADataBankofJapan 主要是日本产生的DNA和RNA序列 数据库主页http www ddbj nig ac jp Welcome e html输入关键词 检索到的条目 每一条目详细内容 发表文章要提供Accessionnumber 11 EPD EukaryoticPromoterDatabase http www genome ad jp dbget dbget2 html 由WeizmannInstituteofScienceinRehovot Israel 开创4806条真核生物启动子序列 2010 11 release105 人类基因组中的启动子大约19万个同一个基因具有多个启动子 2 蛋白质数据库 1 SWISS PROT 由EBI和瑞士创办有详细注释的序列 数据来源于实验与44个数据库相互参照 cross reference 数据库主页http www ebi ac uk swissprot 点击Access 在DatabaseAccess网页选择数据库 输入关键词 检索到的条目 2 TrEMBL TranslationofEMBL http www ebi ac uk swissprot EBI的数据库提交到EMBL核苷酸数据库中所有CDS的氨基酸序列 UniProt UniversalProteinResource 合并了SWISS PROT和TrEMBL数据库检索方法与检索SWISS PROT相同数据格式 3 PIR ProteinInformationResource http pir georgetown edu 由NationalBiomedicalResearchFoundation创办可将蛋白质序列分类结构域 4 PRF ProteinResearchFoundation http www prf or jp 由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序列修饰位点 S S键等两月更新一次 5 PDBSTR Re OrganizedProteinDataBank http www genome ad jp 蛋白质序列和二级结构 螺旋结构 6 Prositehttp www expasy org prosite 蛋白质家族结构域 3 结构数据库 1 PDB ProteinDataBank http www rcsb org 由BrookhavenNationalLaboratories创办 蛋白质核酸 DNA RNA 其它 蛋白 核酸复合物 71516个结构图 2011 3 1 可通过BLAST系统检索 X射线衍射图 核磁共振 NMR 光谱图和电镜图 文字和三维结构图 Total Yearly PDBContentGrowth 2 NDB NucleicAcidDatabase http ndbserver rutgers edu 核酸的结构 3 DNA BindingProteinDatabasehttp ndbserver rutgers edu DNA结合蛋白质的X射线衍射结构图 4 SWISS 3DIMAGEhttp www expasy ch sw3d 蛋白质的平面和立体图 来源于实验结果理论模型 4 酶和代谢数据库 1 KEGG KyotoEncyclopediaofGenesandGenomes 各种代谢 遗传等路径图可检索参于各种路径的基因 KEGG主页http www genome ad jp kegg 点击 PATHWAY PATHWAY 网页点击任何代谢路径 如糖酵解 糖原异生途径 Glycolysis Gluconeogenesis 检索GeneticInformationProcessing KEGG主页点击 PATHWAY PATHWAY 网页点击任何遗传信息路径 如Proteinexport路径 可以查看参加这一路径蛋白质的信息 检索EnvironmentalInformationProcessing KEGG主页点击 PATHWAY PATHWAY 网页点击任何EnvironmentalInformationProcessing路径 如MAPKsignalingpathway路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息 检索CelluarProcesses KEGG主页点击 PATHWAY PATHWAY 网页点击任何CellularProcesses路径 如Cellcycle路径 可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息 2 PKR ProteinKinaseResource http www kinasenet org pkr Welcome do 多种检索内容 已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构与疾病相关的蛋白激酶其它内容 5 物种分类数据库 物种分类 界 Kingdom 门 Phylum 纲 Class 目 Order 科 Family 属 Genus 种 Species 每一分类等级下可加设亚级 Sub 如亚门 亚纲 亚科等 每一分类等级上可加设总级 Super 如总纲 总目 总科等 动物界 Animal 脊索动物门 Chordata 脊椎动物亚门 Vertebrata 哺乳纲 Mammalia 啮齿目 Rodentia 鼠科 Muridae 小家鼠属 Mus 小家鼠种 musculus 举例 Mouse MusmusculusHuman HomosapiensArabidopsis Arabidopsisthaliana 52 Poplars Populustrichocarpa JGI Pine 火炬忪 PinustaedaThePineGenomeInitiative http pinegenomeinitiative org Eucalyptus 桉树 Eucalyptusglobulus bluegum TheInternationalEucalyptusGenomeNetwork http www fabinet up ac za eucagen 几个林木基因组 Papaya 番木瓜 Caricapapayahttp asgpb mhpcc hawaii edu papaya Taxonomyhttp www ncbi nlm nih gov Taxonomy taxonomyhome html 拟南芥系谱 lineage 各个物种的系谱树 在NCBIEntrezTaxonomyHomepage网页点击 tree 在 tree 网页点击任一物种名 如 Eukaryota 真核生物的系谱树 6 文献数据库 各种杂志 书刊上发表的文章大多数有摘要 1 PubMedhttp www ncbi nlm nih gov PubMed 美国国家医学图书馆的数据库医学分子生物学基础生物学4800多种刊物 来源于70多个国家刊物年限 60年代中期至今 2 OMIM OnlineMendelianInheritanceinMan NCBI的数据库人类基因遗传疾病每天更新数据 http www ncbi nlm nih gov Omim 检索网页 3 Agricolahttp agricola nal usda gov 美国农部农业图书馆的数据库农业类刊物 7 向数据库提交和修改核苷酸和蛋白质序列 提交 Submission修改 Update 数据库中的数据由大家无偿提供 共同享用 1 向GenBank提交或修改核苷酸序列 用BankIt功能提交序列 网上直接提交 简单方便提交后立刻得到临时编号一周内得到Accessionnumber 用Update功能修改GenBank中的序列和相关信息 修改一次 version的编号就进一位 用Sequin方法提交序列 可下载的电子表格自动确定CDS ORF和查找重复序列 2 向SWISS PROT提交或修改蛋白质序列 网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL JGI animals Ensembl 66 67 68 69 70 71 72 数据库检索 检索数据库的方法 用关键词或词组进行数据库检索 Text baseddatabasesearching 用核苷酸或蛋白质序列进行数据库检索 Sequence baseddatabasesearching 关键词或词组为基础的数据库检索 关键词 检索体系 检索须知 1 连接词AND OR NOTriceANDenzymericeANDenzymeNOTkinaseretrotransposonORretroelement 用引号将两个单词组成一个词组 diseaseresistance diseaseresistance diseaseANDresistance 检索须知 2 wildcard 放在单词后使检索范围扩大 但专一性降低Wan 所有以Wan开头的单词enzyme enzyme enzymes 1 Entrez http www ncbi nlm nih gov Entrez NCBI的检索体系优点 三种检索体系中最容易操作的体系缺点 检索范围有限 8大类35个与Entreze体系相连的数据库 NucleotideSequenceDatabases 8 CoreNucleotide EST GSS SNP Gene HomoloGene UniSTS PopSetProteinSequenceDatabses 2 Protein ProteinClustersStructureDatabases 4 Structure PubChemCompound 3DDomains CDDTaxonomyDatabases 1 Taxonomy GenomeDatabases 2 Genomes GenomeProjectExpressionDatabases 4 UniGene GEOProfiles GEODataSets GENSATLiteratureDatabases 9 PubMed PubMedCentral SiteSearch Books OMIM OMIA Journals NLMCatalog MeSH OtherDatabases 5 Probe dbGaP PubChemSubstance CancerChromosomes PubChemBioAssay Entrez主页http www ncbi nlm nih gov Entrez Entrez系统中部分数据库之间的连接 检索方法 1 数据库之间检索 NCBI主页选择 EntrezHome 或Entrez主页 输入关键词 各个数据库中检索到的信息数量 点击相应数据库查看信息目录 每一条信息与其它数据库的相关信息链接 检索方法 2 选择数据库检索 NCBI主页选择数据库 输入关键词 检索到的信息目录 每一条信息与其它数据库的相关信息链接 查看信息内容 选择数据库后 可选择在这一数据库中的检索内容 时间范围 分子类型 基因位点等 检索到的信息目录 点击 Limits 修改检索时间范围 点击 Go 检索选择时间范围内的数据 分子量检索 检索一个分子量为2002的蛋白质 输入 2002 MOLWT 结果目录 详细内容与其他检索词相结合 如检索人类分子量为2002的蛋白质 输入 2002 MOLWT ANDhuman ORGN 其他专一检索 关键词 栏目缩写或全名 如 2002 MOLWT 或2002 molecularweight 检索在 Keywords 栏目中出现 kinase 的蛋白质数据 输入 kinase Keyword 结果目录 范围检索 检索分子量在2002 2009之间的蛋白质 输入 2002 2009 MolecularWeight 结果的详细内容检索核苷酸长短在3000 4000之间的DNA 输入 3000 4000 SLEN 结果目录检索注册号在AF123456 AF123478之间的核苷酸数据 输入AF123456 AF123478 Accessionnumber 结果目录 2 SRS SequenceReterievalSystem SRS http srs ebi ac uk 是一个开放的数据库查询系统 不同的SRS系统 版本 可以根据需要安装不同的数据库EuropeanBioinformaticsInstitute EBI 的检索体系优点 检索面宽缺点 操作复杂 17大类194个数据库与SRS体系相连 Literature BibliographyandReferencedatabasesNucleotidesequencedatabasesUniprotUniversalProteinResourceOtherproteinsequencedatabasesDeprecatedProteinDatabasesNucleotiderelateddatabasesProteinfunctiondatabasesProteinstructuredatabasesEnzymes reactionsandmetabolicpathwaydatabases 17大类194个数据库与SRS体系相连 续 MutationandSNPdatabasesGeneontologyresourcesBiologicalResourcesCataloguesMappingdatabasesOtherdatabasesUserowneddatabasesApplicationresultdatabasesEMBOSSresultdatabases SRS基本检索规则 与常用检索规则不同的检索规则 用 代表 OR 用 代表 AND 用 代表 NOT 数字和日期检索 片段长度检索时用 代表 或 用 代表 如 12 表示 12 12 表示 12 12 表示 12 12 表示 12 12 15表示 12而 15可以识别两种日期格式 YYYYMMDD或DD MMM YYYY 如20020619或19 Jun 2002 索引检索 indexsearch 由数据库名 域名和检索词三部分组成 数据库和域名之间用 连接 域名与检索词之间用 字符串检索 或 范围检索 分开 如 pir des elastase 表示在蛋白质数据库PIR的des description 域搜索关键词 elastase swissprot date 20010415 200220414 表示在蛋白质数据库SWISS PROT中检索从2001年4月15日到2002年4月14日的所有记录 swissprotswissnewsptrembl des kinase 表示在SWISS PROT SWISSNEW和SPtrEMBL三个数据库中的des域搜索关键词 kinase 检索方法 1 快速检索 操作简单 检索数据库有限适用于目标明确的检索 在SRS主页选择数据库种类 输入关键词 检索到的信息目录 每一条信息与其它数据库的相关信息链接 查看信息内容 检索方法 2 深入检索 操作稍微复杂 可以检索所有数据库适用于范围广泛的检索 在SRS主页点击 LibraryPage 在 LibraryPage 网页选择数据库 然后点击 QueryForm 在 QueryForm 网页输入关键词检索 检索到的信息目录 每一条信息与其它数据库的相关信息链接 3 DBGET Integrateddatabaseretrievalsystem http www genome ad jp dbget 日本的检索体系优点 与KyotoEncyclopediaofGenesandGenomes KEGG database相连操作简单缺点 检索面较SRS和Entrez窄DBGET与41个数据库相连 检索方法 1 在DBGET主页 默认选择所有数据库 或选择数据库后输入关键词 查看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论