生物信息数据库.ppt_第1页
生物信息数据库.ppt_第2页
生物信息数据库.ppt_第3页
生物信息数据库.ppt_第4页
生物信息数据库.ppt_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机应用 生物信息数据库与生物信息中心 授课大纲 生命信息学 生命科学与计算机技术的交叉 生物信息学的研究内容 1 生物信息中心 2 生物信息数据库及格式 生物信息数据的检索工具 Entrez文献的检索与管理软件 Referencemanager序列同源搜索分析工具 Blast核酸 蛋白质序列比对分析软件 DSgene DNASIS生物大分子空间三维结构显示与分析软件 Rasmol生物图像对比分析软件 ScionImage NIHimage 生物科学数据处理软件 Origin 重要生物信息中心重要生物信息数据库数据库检索工具生物分析相关软件 生物信息研究内容 一 重要生物信息中心BioinformaticsCentres NCBINationalCenterforBiotechnologyInformation US www ncbi nlm nih govEBIEuropeanBioinformaticsInstitute EU www ebi ac ukDDBJDNADataBankofJapan JP www ddbj nig ac jpExPASyExpertofProteinAnalysisSystem Switzerland www expasy chPDBProteinDataBank US www rcsb org pdb CBIPKU北京大学生物信息中心 CN www biosino org NCBI http www ncbi nlm nih gov http www biosino org 二 重要生物信息数据库 生物信息学数据的表示形式 生物信息学数据的表示形式 平面文件 flat file 信息在文件中顺序存放且具有特定格式记录 Entry 通过 获得号 accession 唯一确定同一文件间和不同文件间信息的联系均通过accession 实现 信息表示 关系数据库 semanticmapping Attributes Relations 语义匹配 生物信息学数据存在的问题 信息源分布在世界各地不同的站点上涉及多个数据源的全局问题无法立刻得到答案PainfullycollectingunstructuredinformationaroundthesitesManuallyputtingpiecestogetherHopefullygettingtherightpicture 总之 信息源的特点是 自治的 autonomous 分布式的 distributed 异构的 heterogeneous 数据集成 XML XML SiteA SiteB DataIntegration 生物信息学最重要的任务是从海量数据中提取新知识 生物数据库的种类 序列数据库核酸序列数据库 EMBL GenBank DDBJ 常用蛋白质序列数据库 Swissprot PIR 结构数据库蛋白质结构数据库 PDB 蛋白质分类数据库 SCOP CATH 其它数据库 生物数据库的种类 序列数据库 主要核酸序列数据库 GenBank EMBL DDBJ主要蛋白质序列数据库 Swissprot PIR 美国的核酸数据库GenBank Banson D A etal 1998 NucleicAcidsRes 26 1 7 从1979年开始建设 1982年正式运行 欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ 并于1987年正式服务 从那个时候以来 DNA序列的数据已经从80年代初期的百把条序列 几十万碱基上升至现在的110亿碱基 这就是说 在短短的约18年间 数据量增长了近十万倍 核酸序列数据库 核酸序列 核酸序列是由4种核苷酸的单字母 ATGC 符号排成的序列 蛋白质序列数据库 SWISS PROT和PIR是国际上二个主要的蛋白质序列数据库 目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 mirror 站点 SWISS PROT数据库包括了从EMBL翻译而来的蛋白质序列 这些序列经过检验和注释 PIR数据库的数据由美国家生物技术信息中心 NCBI 翻译自GenBank的DNA序列 蛋白质序列 MNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLD 蛋白质序列是由20种氨基酸的单字母符号排成的序列 蛋白质数据库种类和特点 生物大分子三维结构数据库 蛋白质结构数据库PDB蛋白质分类数据库SCOP和CATH 蛋白质结构库 PDB 实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB http www rcsb org pdb 中 PDB是国际上主要的蛋白质结构数据库 虽然它没有蛋白质序列数据库那么庞大 但其增长速度很快 PDB贮存有由X射线和核磁共振 NMR 确定的结构数据 蛋白质结构 蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值 蛋白质结构分类数据库 SCOP StructuralClassificationofProteins CATH Class Architecture Topology Homology 蛋白质结构分类数据库SCOP 描述了结构和进化关系 SCOP数据库从不同层次对蛋白质结构进行分类 以反映它们结构和进化的相关性 第一个分类层次为家族 通常将序列相似性程度在30 以上的蛋白质归入同一家族 有比较明确的进化关系 超家族 序列相似性较低 结构和功能特性表明它们有共同的进化起源 将其视作超家族 折叠类型 无论有无共同的进化起源 只要二级结构单元具有相同的排列和拓扑结构 即认为这些蛋白质具有相同的折叠方式 在这些情况下 结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构 蛋白质结构分类数据库CATH 类型Class 构架Architecture 拓扑结构Topology和同源性Homology 分类基础是蛋白质结构域 与SCOP不同的是 CATH把蛋白质分为4类 即a主类 b主类 a b类 a b型和a b型 和低二级结构类 低二级结构类是指二级结构成分含量很低的蛋白质分子 CATH数据库的第二个分类依据为由 螺旋和 折叠形成的超二级结构排列方式 而不考虑它们之间的连接关系 第三个层次为拓扑结构 即二级结构的形状和二级结构间的联系 第四个层次为结构的同源性 它是先通过序列比较然后再用结构比较来确定的 CATH数据库的最后一个层次为序列 Sequence 层次 在这一层次上 只要结构域中的序列同源性大于35 就被认为具有高度的结构和功能的相似性 对于较大的结构域 则至少要有60 与小的结构域相同 蛋白质结构分类数据库CATH 基因组数据库 GDB人类基因组数据库AceDB线虫 Caenorhabditiselegans 基因组数据库 四 数据库检索工具 EntrezSRS http www ncbi nlm nih giv Entrez Entrez GenBank SRS SequenceRetrievalSystem SRS是欧洲分子生物学网EMBnet的主要检索工具 SRS SequenceRetrievalSystem isapowerfuldatabasemanagementsystemdevelopedspecificallyforbiologicaldatabases ThegoalofSRSistoprovideanefficientaccesstodatabaseswithbiologicalcontentsnomatterinwhatformataretheyavailableandallowingforcomplexsearchcriteria 数据库记录的格式与检索路口 核酸 蛋白质数据库记录的组成 由于历史原因 各种生物数据库采用了不同的信息格式 许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式 一个数据库记录 entry 一般由两部分组成 原始序列数据和描述这些数据生物学信息的注释 annotation 注释中包含的信息与相应的序列数据同样重要和有应用价值 值得注意 序列部分和注释部分两者都有固定格式 以便计算机读取 各个数据库的具体格式又有所不同 大致分成GenBank和EMBL两种风格 GenBank格式 GenBank格式 GenBank格式 每个条目都是一份纯文本文件 每行左端或为空格或为识别字 识别字均为完整英文字 不用缩写 为了同embl对照 一并列在下表中 GenBank条目 使用一大批与EMBL和DDBJ数据库统一的关键字 格式可以分成3个部分 1 头部包含关于整个序列的信息 描述字符 从LOCUS行到ORIGIN行 2 注释这一序列的特性 FeatureTable 为注释的核心部分 3 序列本身 Sequence 注 所有的核苷酸数据库记录 EMBL GenBank DDBJ 都在最后一行以 结尾 EMBL格式 EMBL格式 EMBL格式 欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件 每一行最前面是由两个大写字母组成的识别标志 常见的识别标志列举在后面的表中 识别标志 特性表 FT包含一批关键字 它们的定义已经与GenBank和DDBJ统一 下欧洲国家的许多数据库如SWISS PROT ENZYME TRANSFAC等 都采用与EMBL一致的格式 数据库记录注释代码和内容说明 数据库记录注释代码和内容说明 cont 一个简单的GenBank记录 LOCUSAF0620693808bpmRNAINV02 MAR 2000DEFINITIONLimuluspolyphemusmyosinIIImRNA completecds ACCESSIONAF062069VERSIONAF062069 2GI 7144484KEYWORDS SOURCEAtlantichorseshoecrab ORGANISMLimuluspolyphemusEukaryota Metazoa Arthropoda Chelicerata Merostomata Xiphosura Limulidae Limulus REFERENCE1 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEAmyosinIIIfromLimuluseyesisaclock regulatedphosphoproteinJOURNALJ Neurosci 1998 InpressREFERENCE2 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEDirectSubmissionJOURNALSubmitted 29 APR 1998 WhitneyLaboratory UniversityofFlorida 9505OceanShoreBlvd St Augustine FL32086 USAREFERENCE3 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEDirectSubmissionJOURNALSubmitted 02 MAR 2000 WhitneyLaboratory UniversityofFlorida 9505OceanShoreBlvd St Augustine FL32086 USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2 2000thissequenceversionreplacedgi 3132700 FEATURESLocation Qualifierssource1 3808 organism Limuluspolyphemus db xref taxon 6850 tissue type lateraleye CDS258 3302 note N terminalproteinkinasedomain C terminalmyosinheavychainhead substrateforPKA codon start 1 product myosinIII protein id AAC16332 2 db xref GI 7144485 translation MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQBASECOUNT1201a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt3781aagatacagtaactagggaaaaaaaaaa GenBank记录 cont LOCUSAF0620693808bpmRNAINV02 MAR 2000 序列和数据库标识 位置 提取号 版本 DEFINITIONLimuluspolyphemusmyosinIIImRNA completecds GBDivision Locus名字 简单描述 标题 修改日期 序列类型mRNA cDNA rRNAsnRNADNA 序列长度 VERSIONAF062069 2GI 7144484 ACCESSIONAF062069 提取号 Accession version ginumber 关键字 生物体来源 KEYWORDS SOURCEAtlantichorseshoecrab ORGANISMLimuluspolyphemusEukaryota Metazoa Arthropoda Chelicerata Merostomata Xiphosura Limulidae Limulus 序列来源的物种名 序列来源的物种学名和分类学位置 可更新的序列版本号 REFERENCE1 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEAmyosinIIIfromLimuluseyesisaclock regulatedphosphoproteinJOURNALJ Neurosci 1998 InpressREFERENCE2 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEDirectSubmissionJOURNALSubmitted 29 APR 1998 WhitneyLaboratory UniversityofFlorida 9505OceanShoreBlvd St Augustine FL32086 USAREFERENCE3 bases1to3808 AUTHORSBattelle B A Andrews A W Calman B G Sellers J R Greenberg R M andSmith W C TITLEDirectSubmissionJOURNALSubmitted 02 MAR 2000 WhitneyLaboratory UniversityofFlorida 9505OceanShoreBlvd St Augustine FL32086 USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2 2000thissequenceversionreplacedgi 3132700 引用 以前版本号 相关文献编号 或递交序列的注册信息 相关文献作者 或递交序列的作者 相关文献题目 引文出处相关文献刊物杂志名 或递交序列的作者单位 相关文献注释 评注 FEATURESLocation Qualifierssource1 3808 organism Limuluspolyphemus db xref taxon 6850 tissue type lateraleye CDS258 3302 note N terminalproteinkinasedomain C terminalmyosinheavychainhead substrateforPKA codon start 1 product myosinIII protein id AAC16332 2 db xref GI 7144485 translation MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKNKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL 特性表 编码序列 Biosource 阅读框 GenPeptProteinIdentifiers BASECOUNT1201a689c782g1136tORIGIN1tcgacatctgtggtcgctttttttagtaataaaaaattgtattatgacgtcctatctgtt3721accaatgttataatatgaaatgaaataaagcagtcatggtagcagtggctgtttgaaata3781aagatacagtaactag

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论