生物信息学资源检索_第1页
生物信息学资源检索_第2页
生物信息学资源检索_第3页
生物信息学资源检索_第4页
生物信息学资源检索_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学资源检索演示文稿当前第1页\共有52页\编于星期四\19点生物信息学资源检索ppt课件当前第2页\共有52页\编于星期四\19点3生物信息学数据库概述一生物信息学数据库的类型二生物信息数据收集与存贮三生物信息学数据库的查找3当前第3页\共有52页\编于星期四\19点4一、生物信息学数据库的类型文献数据库

突变数据库

图谱数据库

结构数据库

序列数据库

类型按收录信息内容分

4当前第4页\共有52页\编于星期四\19点5二、生物信息数据收集与存贮(一)生物信息数据的收集生物信息数据收集与存贮

(二)生物信息数据的存贮5当前第5页\共有52页\编于星期四\19点6(一)生物信息数据的收集数据库与数据库合作数据库与测序中心合作数据库与期刊合作

建库的初期4.数据交换

3.成批发送

2.直接发送

1.人工收集

6当前第6页\共有52页\编于星期四\19点7(二)生物信息数据的存贮1.记录格式主要有:EMBL格式、GenBank格式存贮格式2.序列格式:FASTA格式,又称Pearson格式

7当前第7页\共有52页\编于星期四\19点三、生物信息学数据库的查找通过搜索引擎查找通过专门的生物信息学数据库目录查询从2000年开始,《NucleicAcidsResearch》设立了一个数据库目录()。通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。

8当前第8页\共有52页\编于星期四\19点9核酸序列数据库GenBank

:由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释。网址:9当前第9页\共有52页\编于星期四\19点10国际核酸序列数据库协作体INSDC

DDBJ

EMBL

GenBank

10当前第10页\共有52页\编于星期四\19点GenBank检索Entrez是NCBI生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。11当前第11页\共有52页\编于星期四\19点例如,查找H1N1流感病毒(H1N1FluVirus)的核酸序列。其检索步骤是:12当前第12页\共有52页\编于星期四\19点(1)进入Entrez主页(),在提问框输入H1N1FluVirus。13当前第13页\共有52页\编于星期四\19点

(2)点击“GO”,得到各个数据库的检索结果。14当前第14页\共有52页\编于星期四\19点(3)点击“Nucleotide:Coresubsetofnucleotidesequencerecords”,得到GenBank核酸序列数据库中的4801条记录简要格式(Summary)。15当前第15页\共有52页\编于星期四\19点(4)点击记录的标题,即可获取该记录的详细信息。16当前第16页\共有52页\编于星期四\19点17蛋白质数据库一蛋白质序列数据库二蛋白质结构数据库

三蛋白质功能数据库17当前第17页\共有52页\编于星期四\19点18一、蛋白质序列数据库(三)TrEMBL

(四)GenPept

(二)SWISS-PROT

(一)PIR

(五)UniProt

(六)OWL

18当前第18页\共有52页\编于星期四\19点(一)PIR创建于1984年。1988年,美国NBRF、日本国际蛋白质信息数据库(JapanInternationalProteinInformationDatabase,JIPID)与德国的慕尼黑蛋白质序列信息中心(MunichInformationCenterforProteinSequences,MIPS)合作成立国际蛋白质序列信息中心(PIR-International)。第75.03版的PIR数据库按照数据的性质和注释详略分成四个子库:PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加检验,也未加注释;PIR4包括其他渠道获得的序列,既未验证,也无注释。网址:19当前第19页\共有52页\编于星期四\19点PIR主页20当前第20页\共有52页\编于星期四\19点(二)SWISS-PROT创建于1986年由瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)和欧洲生物信息研究所(EBI)共同维护和管理。1994年,SIB创建蛋白质专家分析系统(ExpertProteinAnalysisSystem,ExPASy)(http://www.expasy.Ch),除了开发、维护和管理SWISS-PROT数据库外,还提供蛋白质序列、结构、功能和蛋白质2D图谱等蛋白质信息资源到2009年10月,SWISS-PROT(57.11版)收录了512994条序列,包含180531504个氨基酸。网址:/sprot/

21当前第21页\共有52页\编于星期四\19点(三)TrEMBL创建于1996年,意即“TranslationofEMBL”,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中的cDNA序列翻译得到的。记录采用SWISS-PROT数据库格式。TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。22当前第22页\共有52页\编于星期四\19点(四)GenPept由GenBank中的cDNA序列翻译得到的蛋白质序列数据库。网址:)23当前第23页\共有52页\编于星期四\19点(五)UniProt将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一起来组建而成,包含3个部分:(1)UniProtKnowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;(2)UniRef(UniProtNon-redundantReference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProtArchive),是UniProt存档库,收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。网址:24当前第24页\共有52页\编于星期四\19点(六)OWL1994年由英国里兹(Leeds)大学和Warrington的Daresbury国家实验室合作创建并维护的一个复合型数据库。数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去重后整合而成的非冗余蛋白质序列数据库。网址:

25当前第25页\共有52页\编于星期四\19点小结:①SWISSPROT的序列经过严格审核,注释完善,但数量仍较少。②PIR数据量较大,但包含未经验证的序列,注释也不完善。③TrEMBL和GenPept的数据量最大,且随核酸序列数据库的更新而更新,但是由于TrEMBL和GenPept均是由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。④OWL中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。⑤UniProt中的序列具有较好的代表性,数据较完整。26当前第26页\共有52页\编于星期四\19点27二、蛋白质结构数据库(三)DSSP

(四)HSSP

(二)MMDB(一)PDB

(五)SCOP

(六)CATH

27当前第27页\共有52页\编于星期四\19点(一)PDB创建于1971年,是国际上最著名、最完整的蛋白质三维结构数据库。最先由美国Brookhaven国家实验室负责维护和管理,从1998年开始,由结构生物信息学合作研究协会(RCSB)负责管理。到2009年12月统计,PDB数据库已经收录了利用X线衍射、NMR、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质/核酸复合物等结构数据61808条,而且数据增长速度相当快。28当前第28页\共有52页\编于星期四\19点PDB数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献等基本注释信息。此外,还包括分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。网址:

29当前第29页\共有52页\编于星期四\19点PDB主页30当前第30页\共有52页\编于星期四\19点31当前第31页\共有52页\编于星期四\19点32三、蛋白质功能数据库(三)STRING(二)DIP

(一)BOND

(四)KEGG

32当前第32页\共有52页\编于星期四\19点(一)BONDBOND是生物分子网络数据库,创建于2005年,由UnleashedInformatics公司管理和维护。主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包括蛋白质、DNA、RNA、配基、复合体、基因、光子(photon)等。BOND集成了多个重要数据库,如BIND(生物分子相互作用网络数据库)、SMID(小分子相互作用数据库)、Genbank、GO(基因本体)、OMIM、conserveddomains(保守功能域)、交叉参考数据库、完整基因组等。网址:

33当前第33页\共有52页\编于星期四\19点BOND主页34当前第34页\共有52页\编于星期四\19点(二)DIPDIP专门存放实验确定的蛋白质之间相互作用的数据,既包括经典实验手段确定的蛋白质相互作用,也包括高通量实验手段确定的蛋白质相互作用数据。数据要经过人工审核和采用计算方法自动验证后加入数据库。数据的自动验证有3种指标,即EPRIndex、PVMScore和DPVScore。在目前缺乏蛋白质相互作用数据金标准的现实情况下,DIP为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。DIP还利用XML技术专门开发了一种用来存放和交换蛋白质相互作用数据的xin格式。网址:35当前第35页\共有52页\编于星期四\19点(三)STRINGSTRING不仅存贮实验确定的蛋白质相互作用数据,而且还存贮预测的蛋白质相互作用数据,并对各种预测方法的准确性给出了相应的权重,对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义。数据来源有4种,一是高通量实验技术产生的蛋白质相互作用数据,二是由保守的共表达数据推导出的蛋白质功能联系,三是文献搜索得到的蛋白质相互作用数据,四是采用预测蛋白质相互作用的方法,根据基因组中基因的上下文关系(genomiccontext)预测得到的蛋白质相互作用数据。目前STRING数据库已经包括179个物种中的736429个蛋白,覆盖率相当高。网址:36当前第36页\共有52页\编于星期四\19点(四)KEGG京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存贮在GENES数据库里,包括完整和部分测序的基因组序列;功能信息存贮在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。网址:

37当前第37页\共有52页\编于星期四\19点KEGG主页38当前第38页\共有52页\编于星期四\19点39当前第39页\共有52页\编于星期四\19点40基因组数据库一EntrezGonomes

二Ensembl

三UCSCGenomeBrowser

四其他基因组数据库

40当前第40页\共有52页\编于星期四\19点一、EntrezGonomesNCBI提供的,是世界上最大、最完整的多物种的基因组资源。目前已收录5937个物种的8500多条记录,按生物体分成古细菌(Archaea)、细菌(Bacteria)、真核生物(Eukaryotae)、病毒(Viruses)、类病毒(Viroids)和质粒(Plasmids)六大类。提供了各种基因组图谱,包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子(contigs)图谱。可以通过Entrez进行关键词搜索,也可以通过MapViewer进行浏览、检索及编辑。网址:41当前第41页\共有52页\编于星期四\19点EntrezGonomes主页42当前第42页\共有52页\编于星期四\19点(一)MapViewerMapViewer是一种从众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水平,通过浏览单个染色体图谱或某染色体上的特定区域,探查完整基因组信息。对于每一个基因组,MapViewer从4个层次揭示其信息:生物体主页(HomePage)基因组浏览(GenomeView)图谱浏览(MapView)序列浏览(SequenceView)43当前第43页\共有52页\编于星期四\19点(二)MapViewer的使用MapViewer主页44当前第44页\共有52页\编于星期四\19点检索结果45当前第45页\共有52页\编于星期四\19点46鼠基因组数据库人类基因组数据库线虫基因组数据库四、其他基因组数据库(一)GDB(二)MDB(三)ACEDB46当前第46页\共有52页\编于星期四\19点47疾病基因数据库一OMIM

三GeneExpressionOmnibus四突变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论