生物信息学数据库检索_第1页
生物信息学数据库检索_第2页
生物信息学数据库检索_第3页
生物信息学数据库检索_第4页
生物信息学数据库检索_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学数据库信息检索教研室薛晓芳2010年 11月 2日生物信息学概念 生物信息学是对生物学数据进行收集、处理、存储、检索和分析的一门交叉学科 研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,通过综合数学、计算机科学和生物学的工具与技术来揭示大量而复杂的生物数据所赋有的生物学奥秘 研究目标是发展和利用先进计算技术解决生物学难题生物信息学数据库 大量生物学数据的存储和利用离不开数据库 用于结构化存储生物数据,以便进一步对数据进行分析和利用数据库的数据来源 两大主要来源经典的生物医学研究:大量生物医学科研工作者根据自己的兴趣开展的个别研究大规模组学研究:代表性工作是大规模人类基因组学和蛋白质组学研究 经典生物医学研究 针对某较小领域开展深入研究,采集的生物学数据 对大量零碎的生物学数据,进一步收集、整理和利用,对推动生物医学的研究有重要意义 最具代表性的是 KEGG数据库,该数据库整理收录了大量代谢网络( PATHWAY)的研究成果,描绘了生物体内代谢网络涉及的各种分子及关系大规模组学研究 上世纪 90年代初启动人类基因组计划,短时间内产生海量生物学数据 随着基因组计划进行,多种相关高通量研究逐渐开展起来 基于表达序列标签( EST)和 DNA微阵列的高通量转录组研究 基于生物质谱的蛋白质组表达谱和修饰谱研究 基于酵母双杂交等技术的高通量蛋白质 -蛋白质相互作用组研究 代谢组等相关的组学研究组学数据库分类 一级数据库:通过收集组学数据构建的数据库 二级和三级数据库:对一级数据库数据进一步分析、归纳和整理,目的性和实用性 TRANSFAC:转录因子和结合位点数据库 SMART、 pFam数据库:收录了可能的蛋白质结构域信息,并提供了特定算法工具生物信息学数据库的地位和作用经典生物医学实验大量零碎数据数据收集整理大规模组学实验海量组学数据数据存储、注释数 据 库生物医学应用理论分析检索查询生物学研究生物信息学数据库类型 核酸研究( Nucleic Acids Research)杂志 每年第一期为生物信息学数据库专刊 ,收录最主要的生物学相关数据库 2010年的核酸研究杂志提供的数据库列表将国际上生物学数据库归纳为 14类(/nar/database/c/) 核酸研究 的 14类数据库 Nucleotide Sequence Databases 核酸序列数据库 RNA sequence databases RNA序列数据库 Protein sequence databases 蛋白质序列数据库 Structure Databases 结构数据库 Genomics Databases (non-vertebrate) 基因组数据库 (非脊椎动物 ) Metabolic and Signaling Pathways 代谢和信号通路 Human and other Vertebrate Genomes 人和其他脊椎基因组 Human Genes and Diseases 人基因和疾病 Microarray Data and other Gene Expression Databases Proteomics Resources微阵列和其他基因表达数据库蛋白质组资源 Other Molecular Biology Databases 其他分子生物学数据库 Organelle databases 细胞器数据库 Plant databases 植物数据库 Immunological databases 免疫学数据库常用分类类型 序列数据库 结构数据库 功能数据库 其它专业数据库主要内容 生物信息学数据库类型 序列数据库 结构数据库 功能数据库 其它专业数据库 生物信息学数据库的检索 检索方法概述 检索实践和案例一、序列数据库 主要收录核酸和蛋白质序列数据 包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列一、序列数据库 (基因组 ) Genome Database(GDB)数据库 Ensembl,由 EMBL - EBI和 Sanger研究所联合开发 ,对后生动物基因组的自动注释和维护/ 包括人、鼠、斑马鱼和果蝇 4种真核生物基因组的注释分析,主要依据已测序获得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息; Ensembl基因组注释的核心是基因预测,考虑到现有预测方法的限制,该系统整合了多种预测方法,并提供了各种预测方法结果的下载 UCSC Genome Browser,加州大学圣克鲁兹分校建立 ,包括各种脊椎和无脊椎动物 , 以及主要模式生物的基因组数据/一、序列数据库 (核酸 ) GenBank、 EMBL、 DDBJ /Genbank,http:/www.ebi.ac.uk/embl/,http:/www.ddbj.nig.ac.jp/ 三个数据库每天互相交换数据 GenBank可通过 NCBI的检索系统 Entrez获取, Entrez集成来自主要 DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息 各种专业核酸数据库 非冗余参考序列数据库 RefSeq 密码子使用数据库 Codon Usage Database CUTG 基因可变剪接数据库 ASDB 转录因子数据库 TRANSFAC一、序列数据库 (蛋白质 )国际主要蛋白质数据库的数据来源及其关系吴松锋等 , 遗传 , 2005, 27(5): 687-693 主要蛋白质序列数据库 UniProt 由 Swiss-Prot、 TrEMBL和 PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:( 1) UniProtKB,知识库(2) UniRef:参考簇 ( 3) UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 IPI http:/www.ebi.ac.uk/IPI/ 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新 整合国际上主要的蛋白质数据库( SwissProt, Refseq, PIR, TrEMBL, RefSeq, Ensembl, H-Inv DB翻译的蛋白数据),整合过程中,直接接受手工注释结果 Nr NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的 gi号,并将序列完全一致的非冗余蛋白质合并成簇蛋白质功能模体和结构域数据库 功能模体或活性位点数据库 (protein domains, families and functional sites) PROSITE /prosite,收集了上千个序列模体 PRINTS(Protein motif fingerprint database) http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 结构域数据库 (families,domains,regions,sites) Pfam http:/pfam.sanger.ac.uk/ SMART http:/smart.embl-heidelberg.de InterPro http:/www.ebi.ac.uk/interpro 二、结构数据库 核酸和蛋白质的空间结构数据库,一般通过 X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得二、结构数据库 (核酸 ) 核酸结构数据库 (NDB, /) 收录核酸的晶体结构数据,包含 X射线衍射和核磁共振的结果,可通过 ADIT (the AutoDep Input Tool)同时将结构存储到 NDB和 PDB中,提供序列号检索功能,可以用 NDB或 PDB的 ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库 , http:/rfam.sanger.ac.uk/ RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码 RNA家族的变异模式二、结构数据库 (蛋白质 ) PDB /pdb/ RCSB(Research Collaboratory for Structural Bioinformatics) 国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及 PDB数据文件格式和其它文档的说明,使用软件可对 PDB数据库记录用多种模式显示生物大分子三维结构 蛋白质结构分类数据库 SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/ 包含从 PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库/sites/entrez?db=structure/ 包括由 x射线衍射和核磁共振实验得到的所有 PDB生物分子三维结构,与原始的 PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与 MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配三、功能数据库 收录生物分子的功能数据,由 ID号与序列和结构数据链接 组织表达谱和亚细胞定位 根据不同组织中的 EST、 SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱: BodyMap http:/bodymap.ims.u-tokyo.ac.jp/ Unigene /sites/entrez?db=unigene SAGEmap /projects/SAGE/ GEO /projects/geo/ Stanford Microarray Database /microarray 亚细胞定位数据库: PSORTdb / DBSubLoc /dbsubloc.html 膜蛋白质数据库 TMPDB http:/bioinfo.si.hirosaki-u.ac.jp/TMPDB/ 线粒体蛋白质数据库 MitoP2 http:/www.mitop.de:8080/mitop2/三、功能数据库 蛋白翻译后修饰 dbPTM .tw/ , 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息,确认的修饰信息、 Swiss-Prot蛋白中可能存在的三类修饰信息、部分针对某种修饰的数据库 部分某种修饰数据库 O-GlycBase(http:/www.cbs.dtu.dk/databases/OGLYCBASE/)只收录 O糖基化数据;PhosphoBase( /)只收录磷酸化位点的数据; RESID( http:/www.ebi.ac.uk/RESID/) 收录蛋白质修饰的注释和结构的数据 蛋白质 -蛋白质相互作用数据库 DIP /,由实验验证的蛋白质 -蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术 IntAct http:/www.ebi.ac.uk/intact ,提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过 GO注释或 InterPro结构域注释进行网络的扩充 三、功能数据库 代谢网络和信号途径 KEGG(Kyoto Encyclopedia of Genes and Genomes)http:/www.genome.ad.jp/kegg/ 系统分析基因功能、联系基因组信息和功能信息的知识库 GENES收录完整和部分测序的基因组序列; PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、酶分子和酶反应等信息四、其它专业数据库 人类基因和疾病数据库 OMIM(/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息 dbSNP(/sites/entrez?db=SNP )收录已经识别的 SNPs的数据库 HapMap Project()收录了三大人群 (非洲人 ,高加索人和亚洲人群 )主要的变异模式 ,所选择的 SNPs具有相对代表性 CGED(http:/lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据 ,更新到 2007年四、其它专业数据库 基于电泳和生物质谱的蛋白质组数据库 SWISS-2DPAGE(/ch2d/)收录各种双向电泳或 SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(http:/www.ebi.ac.uk/pride/)数据库收集国际蛋白质组计划所产出的鉴定结果数据 PeptideAtlas(/)收录大规模 LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到 Ensembl数据库 dbLEP()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息, 更新到 2007年四、其它专业数据库 免疫学数据库 IMGT( http:/imgt.cines.fr)数据库是关于免疫球蛋白、 T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成 dbMHC( http

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论