生物信息学之数据库及在线分析工具_第1页
生物信息学之数据库及在线分析工具_第2页
生物信息学之数据库及在线分析工具_第3页
生物信息学之数据库及在线分析工具_第4页
生物信息学之数据库及在线分析工具_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学之数据库及在线分析工具第1页,课件共62页,创作于2023年2月一、数据库(Database)用于收集、整理、储存、加工、发布和检索数据的系统。生物类的数据库种类很多(序列、结构、生物分子互作、其他)投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中第2页,课件共62页,创作于2023年2月

数据库记录通常包括两部分

原始数据对这些数据进行的生物学意义的注释

一个数据库通常链接了多个相关数据库

核苷酸数据库-水稻抗病相关基因OsDR8

DQ176424Taxonomy数据库Pubmed数据库NCBI-Protein数据库第3页,课件共62页,创作于2023年2月(一)数据库工具

建立纯文本数据库GenBank数据库、EMBL核苷酸数据库

数据库工具SQL(结构化查询语言)是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像下载网址

/AccessSQLOracle第4页,课件共62页,创作于2023年2月AceDB数据库工具AceDB:AC.elegansDataBase(线虫数据库)被广泛应用的管理和提供基因组数据的工具数据形式丰富遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011新陈代谢途径物理图谱1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac第5页,课件共62页,创作于2023年2月(二)各种生物数据库1、核苷酸数据库

DNA、mRNA、tRNA、rRNA序列

RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列

主要是非实验来源数据

codingsequence(CDS)第6页,课件共62页,创作于2023年2月EXONINTRONCDS(codingsequence)ORF(openreadingframe)第7页,课件共62页,创作于2023年2月

数据库种类很多

三大核苷酸数据库GenBank、EMBL核苷酸数据库、DDBJUnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换第8页,课件共62页,创作于2023年2月(1)GenBank

/美国NCBI的数据库,有部分蛋白质序列数据每天更新,每年发行六版release

/genbank/gbrel.txtRelease172(2009.6.15)106,073,709entries105,277,306,080bases来源于260,000多个物种大约12%的序列来源于人(Homosapiens)第9页,课件共62页,创作于2023年2月……GrowthofGenBank第10页,课件共62页,创作于2023年2月Locusname(位点名)Accessionnumber(注册号或登陆号)GI(GenInfoidentifier)

NID(NucleotideID)

每个序列有一个flatfile

每条序列有三个专有的编号或标识(identifier)LOCUSlineSamplerecord/Sitemap/samplerecord.html第11页,课件共62页,创作于2023年2月ThedivisionsofGenBank分支缩写分支全称PRI灵长类序列(primatesequences)ROD啮齿类序列(rodentsequences)MAM其它哺乳类序列(othermammaliansequences)VRT其它脊椎动物序列(othervertebratesequences)INV无脊椎动物序列(invertebratesequences)PLN植物、真菌和海藻类序列(plant,fungal,andalgalsequences)BCT细菌序列(bacterialsequences)VRL病毒序列(viralsequences)PHG噬菌体序列(bacteriophagesequences)SYN合成序列(syntheticsequences)第12页,课件共62页,创作于2023年2月ThedivisionsofGenBank分支缩写分支全称UNA未注释的序列(unannotatedsequences)EST表达序列标签(expressedsequencetags)PAT已专利的序列(patentsequences)STS序列标签位点(sequencetaggedsites)GSS基因组勘察序列(genomesurveysequences)HTG高产出基因组序列(highthroughputgenomicsequences)HTC高产出cDNA序列(highthroughputcDNAsequences)ENV环境样品序列(Environmentalsamplingsequences)第13页,课件共62页,创作于2023年2月(2)dbEST(DatabaseofExpressedSequenceTags)

/dbEST/index.html

GenBank的二级数据库5’端或3’端的cDNA序列(EST)

200-500bp “Single-passread”sequenceGenBank中60%以上的序列是EST第14页,课件共62页,创作于2023年2月(3)UniGene数据库

/UniGene/NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群人、大鼠、小鼠、斑马鱼、牛、蛙等拟南芥、水稻、小麦、大麦、玉米等共计100多个物种UniGene主页输入关键词检索第15页,课件共62页,创作于2023年2月(4)dbSTS(DatabaseofSequenceTaggedSites)

/dbSTS/index.html

GenBank的二级数据库

UniSTS短序列(200-500bp),仅在基因组中出现一次已定位于染色体上

如何找到一个STS

检索:GenBank主页选择UniSTS后输入关键词检索到的条目每一条目详细内容点击“mv”查看染色体定位第16页,课件共62页,创作于2023年2月contig第17页,课件共62页,创作于2023年2月(5)dbGSS(DatabaseofGenomeSurveySequences)

/dbGSS/index.html

GenBank的二级数据库基因组短序列

cosmid/BAC/YAC外源插入片段的末端序列

AluPCR序列cosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011第18页,课件共62页,创作于2023年2月(6)HTG(High-ThroughputGenomicSequences)

/HTGS/

GenBank的二级数据库尚未完成测序的重叠群(>2kb)的序列

新序列的增加速度很快cosmid/BAC/YAC第19页,课件共62页,创作于2023年2月Phase0Phase1Phase2Phase3第20页,课件共62页,创作于2023年2月逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.第21页,课件共62页,创作于2023年2月水稻基因组全基因组大小:430Mb;

每个Reads读长450bp;

故覆盖每个水稻基因组所需反应:100万;

覆盖水稻基因组8X,需要800万反应;

每个反应的测序成本为19元,800万反应总共需15200万人民币;

人力费800万人民币。中国水稻基因组计划的经费预算第22页,课件共62页,创作于2023年2月(7)基因组数据库

/sites/entrez?db=genomeNCBI的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank已经完成测序的基因组(截止2009年2月)

GenomeProject——Statistics第23页,课件共62页,创作于2023年2月(8)dbSNP(DatabaseofSingleNucleotidePolymorphisms)

单核苷酸多态性数据库

/sites/entrez?db=snp

NCBI的数据库,创建于1998.9约每300bp有一个SNP

数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)

发现致病基因、进化分析…第24页,课件共62页,创作于2023年2月dbSNP主页输入关键词检索到的条目每一条目详细内容代码碱基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C标准碱基多意代码第25页,课件共62页,创作于2023年2月

(9)EMBL(EuropeanMolecularBiologyLaboratory)

NucleotideSequenceDatabaseEBI(EuropeanBioinformaticsInstitute)管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank不同数据库主页http://www.ebi.ac.uk/embl输入关键词检索到的条目每一条目详细内容第26页,课件共62页,创作于2023年2月(10)DDBJ(DNADataBankofJapan)

主要是日本产生的DNA和RNA序列数据库主页http://www.ddbj.nig.ac.jp/Welcome-e.html输入关键词检索到的条目每一条目详细内容

发表文章要提供Accessionnumber第27页,课件共62页,创作于2023年2月(11)EPD(EukaryoticPromoterDatabase)

http://www.epd.isb-sib.ch/由WeizmannInstituteofScienceinRehovot(Israel)开创4809条真核生物启动子序列(2009.2)人类基因组中的启动子大约19万个同一个基因具有多个启动子第28页,课件共62页,创作于2023年2月2、蛋白质数据库(1)SWISS-PROT由EBI和瑞士创办有详细注释的序列,数据来源于实验与44个数据库相互参照(cross-reference)数据库主页http://www.ebi.ac.uk/swissprot/点击SRS在查询网页输入关键词检索到的条目第29页,课件共62页,创作于2023年2月(2)TrEMBL(TranslationofEMBL)EBI的数据库提交到EMBL核苷酸数据库中所有CDS的氨基酸序列SWISS-PROT和TrEMBL数据库合并

UniProt(UniversalProteinResource)

检索方法与检索SWISS-PROT相同

查询结果和数据格式第30页,课件共62页,创作于2023年2月(3)PIR(ProteinInformationResource)

由NationalBiomedicalResearchFoundation创办蛋白质家族分类

蛋白质整合信息第31页,课件共62页,创作于2023年2月(4)PRF(ProteinResearchFoundation)

http://www.prf.or.jp/en/os.html由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序列修饰位点、S-S键等两月更新一次第32页,课件共62页,创作于2023年2月(6)Prosite /prosite

蛋白质家族结构域第33页,课件共62页,创作于2023年2月3、结构数据库(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories创办

蛋白质核酸其它57,103个结构图(2009.2)

可通过BLAST系统检索第34页,课件共62页,创作于2023年2月X射线衍射图、

核磁共振(NMR)光谱图和电镜图(文字和三维结构图)第35页,课件共62页,创作于2023年2月(2)SWISS-3DIMAGE

http://www.expasy.ch/sw3d/蛋白质的平面和立体图

来源于实验结果理论模型第36页,课件共62页,创作于2023年2月4、酶和代谢数据库(1)KEGG(KyotoEncyclopediaofGenesandGenomes)

各种代谢、遗传等路径图可检索参于各种路径的基因KEGG主页http://www.genome.ad.jp/kegg/点击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis)第37页,课件共62页,创作于2023年2月

检索GeneticInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,如Proteinexport路径可以查看参加这一路径蛋白质的信息第38页,课件共62页,创作于2023年2月

检索EnvironmentalInformationProcessingKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何EnvironmentalInformationProcessing路径,如MAPKsignalingpathway路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息第39页,课件共62页,创作于2023年2月

检索CellularProcessesKEGG主页点击“PATHWAY”“PATHWAY”网页点击任何CellularProcesses路径,如Cellcycle路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息第40页,课件共62页,创作于2023年2月(2)PKR(ProteinKinaseResource)/pkr/Welcome.do多种检索内容

已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构其它参考资料第41页,课件共62页,创作于2023年2月5、物种分类数据库

物种分类界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species)每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。第42页,课件共62页,创作于2023年2月动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)小家鼠属(Mus)小家鼠种(musculus)举例:Mouse:MusmusculusHuman:HomosapiensArabidopsis:Arabidopsisthaliana

第43页,课件共62页,创作于2023年2月Taxonomy/Taxonomy/taxonomyhome.html拟南芥系谱(lineage)各个物种的系谱树在NCBIEntrezTaxonomyHomepage网页点击“tree”在“tree”网页点击任一物种名,如“Eukaryota”真核生物的系谱(lineage)第44页,课件共62页,创作于2023年2月6、文献数据库

各种杂志、书刊上发表的文章大多数有摘要第45页,课件共62页,创作于2023年2月(1)PubMed

/PubMed/

美国国家医学图书馆的数据库医学分子生物学基础生物学

5300多种刊物,来源于70多个国家刊物年限:1948年至今第46页,课件共62页,创作于2023年2月(2)OMIM(OnlineMendelianInheritanceinMan)NCBI的数据库人类基因遗传疾病

每天更新数据

条目/sites/entrez?db=OMIM第47页,课件共62页,创作于2023年2月(3)Agricola

/

美国农部农业图书馆的数据库农业类刊物第48页,课件共62页,创作于2023年2月7、向数据库提交和修改核苷酸和蛋白质序列提交:Submission修改:Update数据库中的数据由大家无偿提供,共同享用第49页,课件共62页,创作于2023年2月GrowthofSequenceand3DStructureDatabases第50页,课件共62页,创作于2023年2月Signedby256researchers第51页,课件共62页,创作于2023年2月(1)向GenBank提交或修改核苷酸序列

用BankIt

功能提交序列网上直接提交,简单方便提交后立刻得到临时编号一周内得到Accessionnumber用Update

功能修改

GenBank中的序列和相关信息

修改一次,version的编号就进一位

用Sequin方法提交序列

可下载的电子表格自动确定CDS、ORF和查找重复序列第52页,课件共62页,创作于2023年2月(2)向SWISS-PROT

提交或修改蛋白质序列

网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL第53页,课件共62页,创作于2023年2月(三)上机操作

熟悉各种数据库重点了解GenBank和SWISS-PROT

的各种功能和适用范围第54页,课件共62页,创作于2023年2月Xa26nucleicacidsequence(DQ426646,6000bp):…ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAA…Xa26aminoacidsequence(ABD84047,1103aa):…MALVRLPVWIFVAALLIASSSTVPCASSL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论