版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物序列的数据库信息检索第1页,课件共69页,创作于2023年2月本章内容提要1,序列数据库2,功能数据库3,检索系统4,双序列Blast比对实例5,序列数据信息检索实例第2页,课件共69页,创作于2023年2月第3页,课件共69页,创作于2023年2月1,序列数据库核酸序列数据库国际三大核酸序列数据库:GenBank,EBML,DDBJRefSeq:TheReferenceSequence
DatabasedbEST:ExpressedSequencesTags数据库UniGene等蛋白质序列数据库UniProt(Swiss-prot&TrEMBL,PIR)基因组数据库:Ensembl第4页,课件共69页,创作于2023年2月NCBI数据资源第5页,课件共69页,创作于2023年2月Nucleotide:核酸序列数据库PubMed:生物医学科学文摘数据库GEO:基因表达谱数据库。收集存储微阵列基因表达数据Protein:蛋白质序列数据库SNP:单核苷酸多态性数据库Taxonomy:物种分类学数据库Gene:基因数据库。提供序列及基因描述信息Structure:大分子三维结构数据库3DDomains:特定功能域的三维结构数据库UniGene:GenBank分离的非冗余基因簇。包含已确定基因和EST。每个簇包含唯一的非冗余的基因序列、表达的组织类型和基因图谱位点。第6页,课件共69页,创作于2023年2月UniSTS:序列标签位点数据库,用于作图位点PopSet:人口研究数据库Books:在线生物医学图书数据库OMIM:在线人类孟德尔遗传目录数据库ConservedDomains:保守结构域数据库CancerChromosomes:癌症染色体数据库Homologene:基因同源物数据库Journals:杂志及出版社信息数据库Genome:基因组数据库,提供完成的基因组/染色体图形GDS:GEO的基因表达实验与生物芯片数值结果数据库第7页,课件共69页,创作于2023年2月NCBI主要基因序列数据库
GenBank:包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。其数据直接来源于测序工作者提交的序列,为原始数据积累的开放数据库,数据可能存在重复以及不准确。
UniGene:对核酸序列数据库的数据进行适当处理,剔除冗余部分后,同一基因包括表达序列标签的序列簇,多用于研究基因的转录图谱。
RefSeq:提供非冗余的,高质量的,经检验校正的序列信息;包括染色体、基因组(细胞器、病毒、质粒)、蛋白质、RNA等。第8页,课件共69页,创作于2023年2月NucleotidedatabaseincludingGenBank,RefSeq,TPAandPDB.Genome,geneandtranscriptsequencedataprovidethefoundationforbiomedicalresearchanddiscovery.第9页,课件共69页,创作于2023年2月Entres-Gene数据库序列来源于Refseq数据库;
详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构等;基因的命名主要来自权威命名委员会的官方符号以及Refseq记录中的基因名,由NCBI工作人员进行数据收集并注释。NLM的索引部门对基因功能进行阐述。沿用人类孟德尔遗传网(OMIM)中的疾病名称并与NCBI其他数据库形成交互链接。第10页,课件共69页,创作于2023年2月NCBIGene/sites/entrez?db=gene第11页,课件共69页,创作于2023年2月UniProtUniversalProteinResource:Swiss-prot(TrEMBL),
PIR两大蛋白数据库的整合体;收录蛋白质序列目录最广泛、功能注释最全面的数据库;包含三个子库:UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)第12页,课件共69页,创作于2023年2月第13页,课件共69页,创作于2023年2月PROSITE收集了生物学有显著意义的蛋白质位点和序列模式;根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族;序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;第14页,课件共69页,创作于2023年2月PROSITEhttp://www.expasy.ch/prosite/第15页,课件共69页,创作于2023年2月2,功能数据库相互作用的蛋白质数据库DIP转录调控区数据库TRRD…GeneOntology(GO)第16页,课件共69页,创作于2023年2月相互作用的蛋白质数据库DIP收集了由实验验证的蛋白质-蛋白质相互作用;包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分;用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库;/第17页,课件共69页,创作于2023年2月转录调控区数据库TRRD
在不断积累的真核生物基因调控区结构-功能特性信息基础上构建;每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等;http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/第18页,课件共69页,创作于2023年2月GeneOntology(GO)基因功能归类注释;
最基本的概念是term;每个term都有一个唯一的数字标记(GO:nnnnnnn)和一个term名,比如“signaltransduction”。每个term都属于一个ontology。一个基因或蛋白质可从三个Ontology层面来注解:molecularfunction;cellularcomponent;biologicalprocess;第19页,课件共69页,创作于2023年2月GeneOntology/第20页,课件共69页,创作于2023年2月3,检索系统NCBI:EntrezEBI:SRSExPASy…第21页,课件共69页,创作于2023年2月NCBI:Entrez/Entrez第22页,课件共69页,创作于2023年2月NCBI:Entrez第23页,课件共69页,创作于2023年2月检索规则逻辑运算符(大写):AND,OR,NOT运算过程由左至右,()部分优先空格分隔默认逻辑关系为AND多个单词短语加双引号模糊检索使用*用[]限定字段,如限定基因名称为ATG1的检索:ATG1[GENE]第24页,课件共69页,创作于2023年2月EBI-SRS:SequenceRetrievalSystem欧洲生物信息研究所(EBI)开发的基于WEB的数据库检索及导航系统;http://srs.ebi.ac.uk/第25页,课件共69页,创作于2023年2月ExPASyExpertProteinAnalysisSystem;瑞士生物信息研究所SIB下属的蛋白质分析专家系统;ExPASy的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。/第26页,课件共69页,创作于2023年2月4,双序列Blast比对实例PDGF-related-transformingproteinsis(Woollymonkeysarcomavirus)
MTLTWQGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGKRSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQRAKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGAPlatelet-derivedgrowthfactorsubunitB(Homosapiens)
MNRCWALFLSLCCYLRLVSAEGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGRRSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQRAKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA第27页,课件共69页,创作于2023年2月BCNI:Blast/第28页,课件共69页,创作于2023年2月第29页,课件共69页,创作于2023年2月双序列比对结果第30页,课件共69页,创作于2023年2月ScoreScore:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Identities:exactmatchesPositives:similaritiesbasedonthescoringmatrixused.第31页,课件共69页,创作于2023年2月E-ValueExpectvalue:在一个特定大小的数据库中碰巧搜索到打分值约为Score的不同序列的个数。E值随Score增加,呈指数减少;实质上,E指反映随机本底噪音;越接近零,表明该打分值的显著性越好。
相同序列相似性的比对,序列越长则E-Value越小,反映偶然发生的概率越小。第32页,课件共69页,创作于2023年2月5,序列数据信息检索实例某天,Prof.Gene发现人的Hela细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype):CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC第33页,课件共69页,创作于2023年2月问题一:这是什么基因?第34页,课件共69页,创作于2023年2月nucleotideblast/第35页,课件共69页,创作于2023年2月提交序列输入序列第36页,课件共69页,创作于2023年2月Blast结果第37页,课件共69页,创作于2023年2月Blast结果2Geneinfo:基因信息Accession:NM_001168.2第38页,课件共69页,创作于2023年2月BIRC5(survivin)第39页,课件共69页,创作于2023年2月Geneinfo:17号染色体第40页,课件共69页,创作于2023年2月功能注释:GeneOntology第41页,课件共69页,创作于2023年2月结论一1.该基因为人的BIRC5(survivin)基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;2.初步的功能分析:细胞周期,caspase酶的抑制因子,等等。第42页,课件共69页,创作于2023年2月问题二:编码的蛋白质序列是怎样的?第43页,课件共69页,创作于2023年2月NM_001168.2第44页,课件共69页,创作于2023年2月获取蛋白质的序列信息第45页,课件共69页,创作于2023年2月NP_001159.2:142aa第46页,课件共69页,创作于2023年2月结论二人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2第47页,课件共69页,创作于2023年2月问题三:
有没有保守的功能结构域(domain)?第48页,课件共69页,创作于2023年2月获取FASTA序列第49页,课件共69页,创作于2023年2月FASTA格式的序列第50页,课件共69页,创作于2023年2月查询保守结构域/第51页,课件共69页,创作于2023年2月输入蛋白质的FASTA序列第52页,课件共69页,创作于2023年2月BIRdomain第53页,课件共69页,创作于2023年2月结论三Survivin具有保守的功能结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年包头轻工职业技术学院单招职业技能测试题库含答案详解(模拟题)
- 2026年南昌交通学院单招职业技能测试题库含答案详解ab卷
- 2026年北京戏曲艺术职业学院单招职业适应性考试题库附答案详解(a卷)
- 2026年内蒙古能源职业学院单招职业适应性考试题库带答案详解(达标题)
- 2026年包头职业技术学院单招综合素质考试题库附答案详解(考试直接用)
- 2026年内蒙古建筑职业技术学院单招职业倾向性考试题库带答案详解ab卷
- 2026年兰州职业技术学院单招职业倾向性测试题库附参考答案详解(b卷)
- 2026年内蒙古兴安盟单招职业适应性考试题库及参考答案详解一套
- 2026年兰州外语职业学院单招职业适应性考试题库附参考答案详解(预热题)
- 2026年南京工业职业技术大学单招职业适应性考试题库及答案详解(名师系列)
- 2026中国国新基金管理有限公司相关岗位招聘14人笔试模拟试题及答案解析
- 7.2《“白山黑水”-东北三省》课件-人教版地理八年级下册
- 燃气管道施工工序安排
- 2025年大学《法医学-法医毒物分析》考试模拟试题及答案解析
- 中北大学大一高数期末试卷及答案
- 大学藏语考试题目及答案
- 2026届潍坊市中考联考英语试题含答案
- 中国海洋石油有限公司油气田跟踪经济评价:体系构建与实践应用
- 金矿买卖合同协议书范本
- 黄酒培训课件
- 销售业绩统计图表模板(销售数据)
评论
0/150
提交评论