




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,计算机应用,生物信息数据库与生物信息中心,授课大纲,生命信息学生命科学与计算机技术的交叉。生物信息学的研究内容:(1)生物信息中心(2)生物信息数据库及格式。生物信息数据的检索工具Entrez文献的检索与管理软件Referencemanager序列同源搜索分析工具Blast核酸、蛋白质序列比对分析软件DSgeneDNASIS生物大分子空间三维结构显示与分析软件Rasmol生物图像对比分析软件ScionImage(NIHimage)生物科学数据处理软件Origin,重要生物信息中心重要生物信息数据库数据库检索工具生物分析相关软件,生物信息研究内容,一、重要生物信息中心BioinformaticsCentres,NCBINationalCenterforBiotechnologyInformation(US)EBIEuropeanBioinformaticsInstitute(EU)www.ebi.ac.ukDDBJDNADataBankofJapan(JP)www.ddbj.nig.ac.jpExPASyExpertofProteinAnalysisSystem(Switzerland)www.expasy.chPDBProteinDataBank(US)/pdb/CBIPKU北京大学生物信息中心(CN),NCBI:,/,二、重要生物信息数据库,生物信息学数据的表示形式,生物信息学数据的表示形式,平面文件(flat-file)信息在文件中顺序存放且具有特定格式记录(Entry)通过“获得号”(accession#)唯一确定同一文件间和不同文件间信息的联系均通过accession#实现,信息表示:关系数据库,semanticmapping,Attributes,Relations,语义匹配,生物信息学数据存在的问题,信息源分布在世界各地不同的站点上涉及多个数据源的全局问题无法立刻得到答案PainfullycollectingunstructuredinformationaroundthesitesManuallyputtingpiecestogetherHopefullygettingtherightpicture.总之,信息源的特点是:自治的(autonomous)分布式的(distributed)异构的(heterogeneous),数据集成,XML,XML,SiteA,SiteB,DataIntegration,生物信息学最重要的任务是从海量数据中提取新知识,生物数据库的种类,序列数据库核酸序列数据库(EMBL、GenBank、DDBJ)常用蛋白质序列数据库(Swissprot,PIR)结构数据库蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP、CATH)其它数据库,生物数据库的种类,序列数据库,主要核酸序列数据库:GenBank、EMBL、DDBJ主要蛋白质序列数据库:Swissprot,PIR,美国的核酸数据库GenBankBanson,D.A.etal.(1998)NucleicAcidsRes.26,1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,核酸序列数据库,核酸序列,核酸序列是由4种核苷酸的单字母(ATGC)符号排成的序列。,蛋白质序列数据库,SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像(mirror)站点。SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。,蛋白质序列,MNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLD,蛋白质序列是由20种氨基酸的单字母符号排成的序列。,蛋白质数据库种类和特点,生物大分子三维结构数据库,蛋白质结构数据库PDB蛋白质分类数据库SCOP和CATH,蛋白质结构库(PDB),实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(/pdb)中。PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。,蛋白质结构,蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。,蛋白质结构分类数据库,SCOP(StructuralClassificationofProteins)CATH(Class,Architecture,Topology,Homology),蛋白质结构分类数据库SCOP,描述了结构和进化关系。SCOP数据库从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。第一个分类层次为家族,通常将序列相似性程度在30%以上的蛋白质归入同一家族,有比较明确的进化关系。超家族:序列相似性较低,结构和功能特性表明它们有共同的进化起源,将其视作超家族。折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。,蛋白质结构分类数据库CATH,类型Class、构架Architecture、拓扑结构Topology和同源性Homology。分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由螺旋和折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。,第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。,蛋白质结构分类数据库CATH,基因组数据库,GDB人类基因组数据库AceDB线虫(Caenorhabditiselegans)基因组数据库,四、数据库检索工具,EntrezSRS,http:/www.ncbi.nlm.nih.giv/Entrez/,Entrez-GenBank,SRS,(SequenceRetrievalSystem)SRS是欧洲分子生物学网EMBnet的主要检索工具。,SRS,SequenceRetrievalSystem,isapowerfuldatabasemanagementsystemdevelopedspecificallyforbiologicaldatabases.ThegoalofSRSistoprovideanefficientaccesstodatabaseswithbiologicalcontentsnomatterinwhatformataretheyavailableandallowingforcomplexsearchcriteria.,数据库记录的格式与检索路口,核酸/蛋白质数据库记录的组成,由于历史原因,各种生物数据库采用了不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式。一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和EMBL两种风格。,GenBank格式,GenBank格式,GenBank格式:每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同embl对照,一并列在下表中。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个部分:1)头部包含关于整个序列的信息(描述字符),从LOCUS行到ORIGIN行;2)注释这一序列的特性(FeatureTable),为注释的核心部分;3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以/结尾。,EMBL格式,EMBL格式,EMBL格式:欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBank和DDBJ统一。下欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。,数据库记录注释代码和内容说明,数据库记录注释代码和内容说明(cont.),一个简单的GenBank记录,LOCUSAF0620693808bpmRNAINV02-MAR-2000DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.ACCESSIONAF062069VERSIONAF062069.2GI:7144484KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.,FEATURESLocation/Qualifierssource1.3808/organism=Limuluspolyphemus/db_xref=taxon:6850/tissue_type=lateraleyeCDS258.3302/note=N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA/codon_start=1/product=myosinIII/protein_id=AAC16332.2/db_xref=GI:7144485/translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQBASECOUNT1201a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt3781aagatacagtaactagggaaaaaaaaaa/,GenBank记录(cont.),LOCUSAF0620693808bpmRNAINV02-MAR-2000,序列和数据库标识,位置,提取号,版本,DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.,GBDivision,Locus名字,简单描述(标题),修改日期,序列类型mRNA(=cDNA)rRNAsnRNADNA,序列长度,VERSIONAF062069.2GI:7144484,ACCESSIONAF062069,提取号,Accession.version,ginumber,关键字,生物体来源,KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemusEukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.,序列来源的物种名,序列来源的物种学名和分类学位置,可更新的序列版本号,REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.,引用,以前版本号,相关文献编号,或递交序列的注册信息,相关文献作者,或递交序列的作者,相关文献题目,引文出处相关文献刊物杂志名,或递交序列的作者单位,相关文献注释,评注,FEATURESLocation/Qualifierssource1.3808/organism=Limuluspolyphemus/db_xref=taxon:6850/tissue_type=lateraleyeCDS258.3302/note=N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA/codon_start=1/product=myosinIII/protein_id=AAC16332.2/db_xref=GI:7144485/translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKNKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL,特性表,编码序列,Biosource,阅读框,GenPeptProteinIdentifiers,BASECOUNT1201a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt3721accaatgttataatatgaaatgaaataaagcagtcatggtagcagtggctgtttgaaata3781aagatacagtaacta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省苏州市2019年高三物理模拟试题集
- 干细胞微环境影响调控机制及体外培养技术优化
- 企业组织结构优化方案报告
- 企业新员工入职培训全流程方案
- 工程项目合同范本及条款解读
- 初中信息技术课程算法模版设计与应用
- 2025广东广州市越秀区光塔街招聘社区助老员1人笔试参考题库附答案解析
- 2025广东江门台山市教育系统下属事业单位招聘教辅人员86人笔试参考题库附答案解析
- 餐饮连锁企业成本控制方案实践
- 大型活动场地搭建安全规范
- 【大型集装箱船舶港口断缆事故预防应急处理及案例探析7500字(论文)】
- 律师事务所人事管理制度
- 脑梗塞并出血护理查房
- 三对三篮球赛记录表
- 中医基础之五行学说与五脏六腑
- 某水库调度规程完整
- 鲁班锁制作技术
- 画魂空手套无删减全文下载
- 五猖会原文 五猖会
- 主题教育苏轼生平介绍人物经历等PPT模板(内容完整)
- GB/T 12599-2002金属覆盖层锡电镀层技术规范和试验方法
评论
0/150
提交评论