生物信息学第三章生物信息数据库及其信息检索详解演示文稿_第1页
生物信息学第三章生物信息数据库及其信息检索详解演示文稿_第2页
生物信息学第三章生物信息数据库及其信息检索详解演示文稿_第3页
生物信息学第三章生物信息数据库及其信息检索详解演示文稿_第4页
生物信息学第三章生物信息数据库及其信息检索详解演示文稿_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学第三章生物信息数据库及其信息检索详解演示文稿本文档共56页;当前第1页;编辑于星期二\3点6分优选生物信息学第三章生物信息数据库及其信息检索本文档共56页;当前第2页;编辑于星期二\3点6分生物信息学数据库的地位和作用经典生物医学实验大量零碎数据数据收集整理大规模组学实验海量组学数据数据存储、注释数据库生物医学应用理论分析检索查询生物学研究本文档共56页;当前第3页;编辑于星期二\3点6分生物信息学数据库类型核酸研究(NucleicAcidsResearch)杂志的每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库,归类并展示在。核酸序列数据库RNA序列数据库蛋白质序列数据库结构数据库基因组数据库(非脊椎动物)代谢与信号通路数据库人类与其他脊椎动物基因组人类基因与疾病微阵列数据库与其他基因表达数据库蛋白质组资源其他分子生物学数据库细胞器数据库植物数据库免疫学数据库细胞生物学数据库本文档共56页;当前第4页;编辑于星期二\3点6分生物信息学数据库类型序列数据库结构数据库功能数据库其它专业数据库本文档共56页;当前第5页;编辑于星期二\3点6分GooglevsBaidu肤浅的百姓工具他可以更厉害!甚至超过windows、Linux或Mac等操作系统本文档共56页;当前第6页;编辑于星期二\3点6分一、序列数据库主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列。基因组序列数据库:GenomeDatabase(GDB)数据库(

)包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL-EBI和Sanger研究所联合开发。UCSCGenomeBrowser()加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据。本文档共56页;当前第7页;编辑于星期二\3点6分核酸序列数据库GenBank(

)EMBL(

)DDBJ(

)三个数据库每天互相交换数据GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息其他各种专业核酸数据库非冗余参考序列数据库RefSeq密码子使用数据库CodonUsageDatabaseCUTG基因可变剪接数据库ASDB转录因子数据库TRANSFAC本文档共56页;当前第8页;编辑于星期二\3点6分NCBI(NationalCenterofBiotechnologyInformation)美国国立生物技术信息中心本文档共56页;当前第9页;编辑于星期二\3点6分三大数据库之间的联系本文档共56页;当前第10页;编辑于星期二\3点6分ATTGACTAPrimaryvs.DerivativeDatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA本文档共56页;当前第11页;编辑于星期二\3点6分GenBank中测序最多的20个物种本文档共56页;当前第12页;编辑于星期二\3点6分humanArabidopsisThermotogamaritimaEscherichiacoliBuchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物与基因测序本文档共56页;当前第13页;编辑于星期二\3点6分virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibians本文档共56页;当前第14页;编辑于星期二\3点6分蛋白质序列数据库UniProt()

由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息。IPI()国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-InvDB翻译的蛋白数据),整合过程中,直接接受手工注释结果。Nr(

)NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇。本文档共56页;当前第15页;编辑于星期二\3点6分二、结构数据库核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得。结构数据库(核酸)NDB核酸结构数据库()收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT(theAutoDepInputTool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片Rfam数据库()RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式本文档共56页;当前第16页;编辑于星期二\3点6分结构数据库(蛋白质)PDB()RCSB(ResearchCollaboratoryforStructuralBioinformatics)专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构。蛋白质结构分类数据库SCOP(

)包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系MMDBNCBI的分子模型数据库。NCBI蛋白结构数据库()包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。本文档共56页;当前第17页;编辑于星期二\3点6分三、功能数据库收录生物分子的功能数据,由ID号与序列和结构数据链接组织表达谱和亚细胞定位根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:BodyMap()Unigene(

)SAGEmap()GEO()StanfordMicroarrayDatabase()本文档共56页;当前第18页;编辑于星期二\3点6分亚细胞定位数据库PSORTdb()DBSubLoc()膜蛋白质数据库TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/)

线粒体蛋白质数据库MitoP2(http://www.mitop.de:8080/mitop2/)蛋白翻译后修饰dbPTM()磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。O-GlycBase()只收录O糖基化数据PhosphoBase()只收录磷酸化位点的数据RESID()收录蛋白质修饰的注释和结构的数据本文档共56页;当前第19页;编辑于星期二\3点6分蛋白质-蛋白质相互作用数据库DIP()由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术IntAct()提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释进行网络的扩充代谢网络和信号途径KEGG大百科()系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息。本文档共56页;当前第20页;编辑于星期二\3点6分反应通路(KEGG)glycolysispathway(糖酵解)京都基因与基因组百科全书(KyotoEncyclopediaofGenesandGenomes)本文档共56页;当前第21页;编辑于星期二\3点6分全细胞通路本文档共56页;当前第22页;编辑于星期二\3点6分四、其它专业数据库人类基因和疾病数据库OMIM()收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息dbSNP(SNP)收录已经识别的SNPs的数据库HapMapProject()收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性CGED(http://lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据,更新到2007年本文档共56页;当前第23页;编辑于星期二\3点6分基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGE()收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDE()数据库收集国际蛋白质组计划所产出的鉴定结果数据PeptideAtlas()收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEP()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年本文档共56页;当前第24页;编辑于星期二\3点6分免疫学数据库IMGT()关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHC()提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具本文档共56页;当前第25页;编辑于星期二\3点6分Taxonomy分类学数据库本文档共56页;当前第26页;编辑于星期二\3点6分北京华大基因研究中心(中科院基因组研究所)杨焕明国家人类基因组南方研究中心(上海)陈竺、赵国屏国家人类基因组北方研究中心(北京)强伯勤清华大学生物系生物信息研究室孙之荣北京大学生物信息学中心罗静初复旦大学理论生物中心钟扬我国的一些主要研究中心和数据库本文档共56页;当前第27页;编辑于星期二\3点6分生物信息学数据库的检索检索方法概述检索实践和案例本文档共56页;当前第28页;编辑于星期二\3点6分生物信息学数据库的检索主要检索系统和工具Entrez(NationalCenterforBiotechnologyInformation,NCBI)SRS(EuropeanBioinformaticsInstitute,EBI)ExPasyExpertProteinAnalysisSystem(SwissInstituteofBioinformatics,SIB)日本、欧洲、美国其他研究机构的工具平台……本文档共56页;当前第29页;编辑于星期二\3点6分复杂检索1、限制字段类别常用的有:Author:BaoYM[au]Title:stress[ti]Tilte/Abstract:stress[title/abstract]Date:1999:2009[dp]2、布尔逻辑运算:AND、OR、NOT必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。布尔逻辑检索允许在检索词后面附加字段标识例如:rice[ti]ANDBaoYM[au]AND2008:2009[dp]本文档共56页;当前第30页;编辑于星期二\3点6分同样存在限制字段:常用的有:Author:BaoYM[au]title:SNARE[ti]organism:rice[organism]或者直接输入:Accession:AY077725[Accession]GeneName:ZFP15[GeneName]ProteinName:ZFP15[ProteinName]如:BaoYM[au]ANDSNARE[ti]ANDrice[organism]如果没有限定,就是任意字段。如何获取GenBank中的序列?本文档共56页;当前第31页;编辑于星期二\3点6分Entrez(NationalCenterforBiotechnologyInformation,NCBI)选择数据库当没有进入号时输入关键词(英文和拉丁文)当有进入号时输入进入号可编译本文档共56页;当前第32页;编辑于星期二\3点6分NCBI主页最下面的区域,是NCBI的快捷连接区域本文档共56页;当前第33页;编辑于星期二\3点6分举例:GAPDH或g3pdh是甘油醛-3-磷酸脱氢酶(glyceraldehyde-3-phosphatedehydrogenase)的英文缩写。该酶是糖酵解反应中的一个酶。该酶基因为管家(housekeeping)基因,几乎在所有组织中都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的,且不受含有的部分识别位点、佛波脂等的诱导物质的影响而保持恒定,故被广泛用作抽提totalRNA,poly(A)+RNA,Westernblot等实验操作的标准化的内参。GAPDH一般是由4个相同亚基组成的四聚体,每个亚基均含有催化结构域和辅酶结合域。GAPDH与辅酶烟酰胺腺嘌呤二核苷酸(

NAD+)组成全酶才具有催化活性。本文档共56页;当前第34页;编辑于星期二\3点6分基因序列搜索本文档共56页;当前第35页;编辑于星期二\3点6分本文档共56页;当前第36页;编辑于星期二\3点6分本文档共56页;当前第37页;编辑于星期二\3点6分STS序列标签位点(sequence-taggedsite),是已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100~500bp之间。任何DNA序列,只要知道它在基因组中的位置,都能被用作STS标签。作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测出STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。本文档共56页;当前第38页;编辑于星期二\3点6分不能用任何其它的特征关键词表述的具有生物学意义的区域;新的或少见的特征本文档共56页;当前第39页;编辑于星期二\3点6分本文档共56页;当前第40页;编辑于星期二\3点6分蛋白序列搜索本文档共56页;当前第41页;编辑于星期二\3点6分本文档共56页;当前第42页;编辑于星期二\3点6分本文档共56页;当前第43页;编辑于星期二\3点6分蛋白质结构搜索本文档共56页;当前第44页;编辑于星期二\3点6分本文档共56页;当前第45页;编辑于星期二\3点6分MMDBID:34532PDBID:1U8F本文档共56页;当前第46页;编辑于星期二\3点6分Nicotinamide-Adenine-Dinucleotide烟酰胺腺嘌呤二核苷酸O、P、Q和R为GAPDH的四个亚基蛋白链,其和1(烟酰胺腺嘌呤二核苷酸)的相互作用关系本文档共56页;当前第47页;编辑于星期二\3点6分课堂练习:Homosapiensp53,人体抑癌基因,该基因编码一种分子量为53kDa的蛋白质,命名为P53。p53基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,p53是一个重要的抗癌基因使癌细胞自杀,防止癌变;还具有帮助细胞基因修复缺陷的功能。基因序列搜索,标注(Searchthetargetgene,andannotatethegene)蛋白序列搜索,标注(Searchthetargetprotein,andannotatetheprotein)蛋白质结构搜索,标注(Searchthestructureofthetargetprotein,andannotateit)Question:从小鼠中查找Bao实验室发布的p53蛋白相关的DNA序列.本文档共56页;当前第48页;编辑于星期二\3点6分一些生物信息学相关的名词和知识本文档共56页;当前第49页;编辑于星期二\3点6分参考P74,关键字的定义Attenuator:regionofDNAatwhichregulationofterminationoftranscriptionoccurs,whichcontrolstheexpressionofsomebacterialoperons,sequencesegmentlocatedbetweenthepromoterandthefirststructuralgenethatcausespartialterminationoftranscription.Enhancer:acis-actingsequencethatincreasestheutilizationofeukaryoticpromoters,andcanfunctionineitherorientationandinanylocation(upstreamordownstream)relativetothepromoter.

Promoter:regiononaDNAmoleculeinvolvedinRNApolymerasebindingtoinitiatetranscription.Terminator:sequenceofDNAlocatedeitherattheendofthetranscriptthatcausesRNApolymerasetoterminatetranscription.polyA-signal:recognitionregionnecessaryforendonucleasecleavageofanRNAtranscriptthatisfollowedbypolyadenylation,consensus=AATAAA.本文档共56页;当前第50页;编辑于星期二\3点6分PromoterEnhancerGeneTerminatorTranscriptionunit+1-1DownstreamsequenceUpstreamsequence-10TranscriptionstartsiteRegulatoryelement-2-3-4-5-6-7-8-9-11-12-13-14-16-17+2+3+4+5+6+7+8polyA-signalAttenuator调节基因阻遏子启动子操纵基因终止子lacZlacYlacAlac

操纵元AttenuatorAAAAAAAendonucleasecleavageendonuclease本文档共56页;当前第51页;编辑于星期二\3点6分CAAT-signal:CAATbox,partofaconservedsequencelocatedabout75bpup-streamofthestarpointofeukaryotic

transcriptionunitswhichmaybeinvolvedinRNApolymerasebinding,consensus=GG(CorT)CAATCT.GC-signal:GCbox,aconservedGC-richregionlocatedupstreamofthestartpointofeukaryotictranscriptionunitswhichmayoccurinmultiplecopiesorineitherorientation,consensus=GGGCGG.TATA-signal:TATAbox,Goldberg-Hognessbox,aconservedAT-richseptamerfoundabout25bpbeforethestartpointofeacheukaryoticRNApolymeraseⅡtranscriptunitwhichmaybeinvolvedinpositioningtheenzymeforcorrectinitiation,consensus=TATA(AorT)A(AorT).-10-signal:pribnowbox,aconservedregionabout10bpupstreamofthestartpointofbacterialtranscriptionunitswhichmaybeinvolvedinbindingRNApolymerase,consensus=TAtAaT.-35-signal:aconservedhexamerabout35bpupstreamofthestartpointofbacterialtranscriptionunits,consensus=TTGACa本文档共56页;当前第52页;编辑于星期二\3点6分+1-50Transcriptionstartsite-25-75-100HognessboxGCboxGCboxCAATbox+1-50Transcriptionstartsite-25-100-190CorepromoterGCboxGCboxUpstreamcontrolelementGCboxGCboxGCboxBasalpromoterUpstreamelementDownstreamelement+50Transcriptionstartsite+1HognessboxOctamermotifIntragenicpromoter+90PSEAboxCboxIEClassⅠpromoterClassⅡpromoterClassⅢpromotereukaryotic

transcriptionunits本文档共56页;当前第53页;编辑于星期二\3点6分λPR:TTATTCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCAT+1Transcriptionstartsite-10Pribnowbo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论