生物序列的数据库信息检索_第1页
生物序列的数据库信息检索_第2页
生物序列的数据库信息检索_第3页
生物序列的数据库信息检索_第4页
生物序列的数据库信息检索_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物序列的数据库信息检索第1页,共69页,2023年,2月20日,星期一本章内容提要1,序列数据库2,功能数据库3,检索系统4,双序列Blast比对实例5,序列数据信息检索实例第2页,共69页,2023年,2月20日,星期一第3页,共69页,2023年,2月20日,星期一1,序列数据库核酸序列数据库国际三大核酸序列数据库:GenBank,EBML,DDBJRefSeq:TheReferenceSequence

DatabasedbEST:ExpressedSequencesTags数据库UniGene等蛋白质序列数据库UniProt(Swiss-prot&TrEMBL,PIR)基因组数据库:Ensembl第4页,共69页,2023年,2月20日,星期一NCBI数据资源第5页,共69页,2023年,2月20日,星期一Nucleotide:核酸序列数据库PubMed:生物医学科学文摘数据库GEO:基因表达谱数据库。收集存储微阵列基因表达数据Protein:蛋白质序列数据库SNP:单核苷酸多态性数据库Taxonomy:物种分类学数据库Gene:基因数据库。提供序列及基因描述信息Structure:大分子三维结构数据库3DDomains:特定功能域的三维结构数据库UniGene:GenBank分离的非冗余基因簇。包含已确定基因和EST。每个簇包含唯一的非冗余的基因序列、表达的组织类型和基因图谱位点。第6页,共69页,2023年,2月20日,星期一UniSTS:序列标签位点数据库,用于作图位点PopSet:人口研究数据库Books:在线生物医学图书数据库OMIM:在线人类孟德尔遗传目录数据库ConservedDomains:保守结构域数据库CancerChromosomes:癌症染色体数据库Homologene:基因同源物数据库Journals:杂志及出版社信息数据库Genome:基因组数据库,提供完成的基因组/染色体图形GDS:GEO的基因表达实验与生物芯片数值结果数据库第7页,共69页,2023年,2月20日,星期一NCBI主要基因序列数据库

GenBank:包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。其数据直接来源于测序工作者提交的序列,为原始数据积累的开放数据库,数据可能存在重复以及不准确。

UniGene:对核酸序列数据库的数据进行适当处理,剔除冗余部分后,同一基因包括表达序列标签的序列簇,多用于研究基因的转录图谱。

RefSeq:提供非冗余的,高质量的,经检验校正的序列信息;包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、RNA等。第8页,共69页,2023年,2月20日,星期一NucleotidedatabaseincludingGenBank,RefSeq,TPAandPDB.Genome,geneandtranscriptsequencedataprovidethefoundationforbiomedicalresearchanddiscovery.第9页,共69页,2023年,2月20日,星期一Entres-Gene数据库序列来源于Refseq数据库;

详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构等;基因的命名主要来自权威命名委员会的官方符号以及Refseq记录中的基因名,由NCBI工作人员进行数据收集并注释。NLM的索引部门对基因功能进行阐述。沿用人类孟德尔遗传网(OMIM)中的疾病名称并与NCBI其他数据库形成交互链接。第10页,共69页,2023年,2月20日,星期一NCBIGene/sites/entrez?db=gene第11页,共69页,2023年,2月20日,星期一UniProtUniversalProteinResource:Swiss-prot(TrEMBL),

PIR两大蛋白数据库的整合体;收录蛋白质序列目录最广泛、功能注释最全面的数据库;包含三个子库:UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)第12页,共69页,2023年,2月20日,星期一第13页,共69页,2023年,2月20日,星期一PROSITE收集了生物学有显著意义的蛋白质位点和序列模式;根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族;序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;第14页,共69页,2023年,2月20日,星期一PROSITEhttp://www.expasy.ch/prosite/第15页,共69页,2023年,2月20日,星期一2,功能数据库相互作用的蛋白质数据库DIP转录调控区数据库TRRD…GeneOntology(GO)第16页,共69页,2023年,2月20日,星期一相互作用的蛋白质数据库DIP收集了由实验验证的蛋白质-蛋白质相互作用;包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分;用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库;/第17页,共69页,2023年,2月20日,星期一转录调控区数据库TRRD

在不断积累的真核生物基因调控区结构-功能特性信息基础上构建;每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等;http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/第18页,共69页,2023年,2月20日,星期一GeneOntology(GO)基因功能归类注释;

最基本的概念是term;每个term都有一个唯一的数字标记(GO:nnnnnnn)和一个term名,比如“signaltransduction”。每个term都属于一个ontology。一个基因或蛋白质可从三个Ontology层面来注解:molecularfunction;cellularcomponent;biologicalprocess;第19页,共69页,2023年,2月20日,星期一GeneOntology/第20页,共69页,2023年,2月20日,星期一3,检索系统NCBI:EntrezEBI:SRSExPASy…第21页,共69页,2023年,2月20日,星期一NCBI:Entrez/Entrez第22页,共69页,2023年,2月20日,星期一NCBI:Entrez第23页,共69页,2023年,2月20日,星期一检索规则逻辑运算符(大写):AND,OR,NOT运算过程由左至右,()部分优先空格分隔默认逻辑关系为AND多个单词短语加双引号模糊检索使用*用[]限定字段,如限定基因名称为ATG1的检索:ATG1[GENE]第24页,共69页,2023年,2月20日,星期一EBI-SRS:SequenceRetrievalSystem欧洲生物信息研究所(EBI)开发的基于WEB的数据库检索及导航系统;http://srs.ebi.ac.uk/第25页,共69页,2023年,2月20日,星期一ExPASyExpertProteinAnalysisSystem;瑞士生物信息研究所SIB下属的蛋白质分析专家系统;ExPASy的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。/第26页,共69页,2023年,2月20日,星期一4,双序列Blast比对实例PDGF-related-transformingproteinsis(Woollymonkeysarcomavirus)

MTLTWQGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGKRSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQRAKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGAPlatelet-derivedgrowthfactorsubunitB(Homosapiens)

MNRCWALFLSLCCYLRLVSAEGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGRRSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQRAKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA第27页,共69页,2023年,2月20日,星期一BCNI:Blast/第28页,共69页,2023年,2月20日,星期一第29页,共69页,2023年,2月20日,星期一双序列比对结果第30页,共69页,2023年,2月20日,星期一ScoreScore:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Identities:exactmatchesPositives:similaritiesbasedonthescoringmatrixused.第31页,共69页,2023年,2月20日,星期一E-ValueExpectvalue:在一个特定大小的数据库中碰巧搜索到打分值约为Score的不同序列的个数。E值随Score增加,呈指数减少;实质上,E指反映随机本底噪音;越接近零,表明该打分值的显著性越好。

相同序列相似性的比对,序列越长则E-Value越小,反映偶然发生的概率越小。第32页,共69页,2023年,2月20日,星期一5,序列数据信息检索实例某天,Prof.Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC第33页,共69页,2023年,2月20日,星期一问题一:这是什么基因?第34页,共69页,2023年,2月20日,星期一nucleotideblast/第35页,共69页,2023年,2月20日,星期一提交序列输入序列第36页,共69页,2023年,2月20日,星期一Blast结果第37页,共69页,2023年,2月20日,星期一Blast结果2Geneinfo:基因信息Accession:NM_001168.2第38页,共69页,2023年,2月20日,星期一BIRC5(survivin)第39页,共69页,2023年,2月20日,星期一Geneinfo:17号染色体第40页,共69页,2023年,2月20日,星期一功能注释:GeneOntology第41页,共69页,2023年,2月20日,星期一结论一1.该基因为人的BIRC5(survivin)基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;2.初步的功能分析:细胞周期,caspase酶的抑制因子,等等。第42页,共69页,2023年,2月20日,星期一问题二:编码的蛋白质序列是怎样的?第43页,共69页,2023年,2月20日,星期一NM_001168.2第44页,共69页,2023年,2月20日,星期一获取蛋白质的序列信息第45页,共69页,2023年,2月20日,星期一NP_001159.2:142aa第46页,共69页,2023年,2月20日,星期一结论二人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2第47页,共69页,2023年,2月20日,星期一问题三:

有没有保守的功能结构域(domain)?第48页,共69页,2023年,2月20日,星期一获取FASTA序列第49页,共69页,2023年,2月20日,星期一FASTA格式的序列第50页,共69页,2023年,2月20日,星期一查询保守结构域/第51页,共69页,2023年,2月20日,星期一输入蛋白质的FASTA序列第52页,共69页,2023年,2月20日,星期一BIRdomain第53页,共69页,2023年,2月20日,星期一结论三Survivin具有保守的功能结构域BIR第54页,共69页,2023年,2月20日,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论