获取DNARNA和蛋白质序列信息PPT课件.ppt_第1页
获取DNARNA和蛋白质序列信息PPT课件.ppt_第2页
获取DNARNA和蛋白质序列信息PPT课件.ppt_第3页
获取DNARNA和蛋白质序列信息PPT课件.ppt_第4页
获取DNARNA和蛋白质序列信息PPT课件.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章获取DNA、RNA和蛋白质序列信息,第一节引言,1,.,生物信息学(Bioinformatics),在生命科学研究中发展起来的一门由分子生物学和计算机信息处理技术相结合,以计算机为工具对生物信息进行储存、检索、传播、模拟和分析的交叉学科,它利用数据库技术和软件技术对大量积累的生物大分子序列数据和实验测定的序列进行比较和分析,揭示出生物大分子的分子结构、功能和进化关系以及基因组构成与基因表达等生物学事件对生命活动的影响。,2,生物信息数据库种类:,基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以上述三类一次数据库和文献资料为基础构建的二次数据库。,3,一次、二次数据库特点,一次数据库的数据量大、更新速度快、用户面广,存在过多的甬余数据。而二次数据库的容量比较小,更新速度也没有一次数据库那样快,经过筛选后,避免了过多的甬余数据。,4,根据数据库存储的内容可将生物信息学数据库分为:,核酸、蛋白质、基因图谱、结构、文献等数据库,5,第二节核酸序列数据库,一、GenBank数据库GenBank是一个综合数据库,该数据库中包含了已经公开的260000余种不同物种生物的核酸序列,这些数据主要是由全世界不同实验室和大规模测序计划提交给GenBank的。,6,GenBank是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆(NLM)的国家生物技术信息中心(NCBI)构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。NCBI构建GenBank数据库的序列数据来至序列发现者提交的序列、批量提交的表达序列标签(EST)、基因组测序序列(GSS)和其它测序中心的高通量数据,以及美国专利商标局提供的已发表专利的序列数据。,7,GenBank、EMBL、DDBJ组成国际核酸序列数据库合作组织(INSDC),该组织成员远程合作,每天相互交换数据以保证序列信息的一致性和完整性。,8,检索GenBank数据,Entrez检索系统BLAST序列相似性搜索程序用FTP获取GenBank数据库,9,Entrez系统使用Entrez(/sites/gquery)可以访问GenBank中的序列记录,Entrez是一个灵活的数据库检索系统,可以检索35个数据库。Entrez数据库包含来源于GenBank和其它资源的DNA和蛋白序列,还包括基因组图谱、种群、进化和环境序列序列数据集、基因表达数据、NCBI分类学、蛋白结构域信息和来源于MolecularModelingDatabase(MMDB)的蛋白结构数据库,每个数据库经由PubMed和PubMedCentral与学术文献关联。,10,BLAST序列相似性搜索序列相似性搜索是GenBank数据最基本和使用最多的分析方式。NCBI提供BLAST(/Blast.cgi)系列程序检测一条查询序列与数据库所有序列的相似性。BLAST搜索可以在NCBI网站上运行,也可以在FTP站点下载独立的程序集运行。,11,用FTP获取GenBankNCBI以传统的纯文本文件格式发布GenBank,还以ASN.1格式用以内部维护。通过NCBI匿名FTP()站点可以获得每两个月的全文公告和每天与EMBL和DDBJ数据更新内容,还可以从印第安纳大学的镜像站点(ftp:/bio-,12,EMBL数据库,EMBL核苷序列数据库(http:/www.edi.ac.uk/embl/)是欧洲主要的核苷序列收集单位。这个数据库是由欧洲生物信息中心EBI(欧洲分子生物学实验室(EMBL)在德国海德堡的站点)维护的。,13,EBI核苷数据来自基因组测序中心、个别科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。为了达到最佳的同步性,每天DDBJ/EMBL/GenBank之间都要交换最新的数据。用户只要进入三者中任意一个数据库都能得到最新数据。这三个数据库之间坚持统一的文件指导方针,规范了数据库登录的内容和语法。这种指导方针确保了这些数据库的信息以一种便捷的格式进行交换,它与当今的生物信息学软件兼容,反映了分子生物学领域的发展。,14,DDBJ数据库,日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是公认搜集研究者获得的核酸序列数据库,并且,发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EML-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。这种几乎统一的数据库被称作“国际核酸序列数据库(INSD)”。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其它国家的研究者。,15,其他重要的核酸序列数据库:,dbESTncRNAdbmiRBase,16,dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其它信息。非编码RNA(ncRNA)数据库旨在提供非编码RNA的序列和功能信息。非编码转录物不编码蛋白质,但在细胞中起调节作用。目前,该数据库包含来源于99种细菌、古生菌和真核生物的30000多条单个序列。miRBase序列数据库是主要存放已发表的microRNA(miRNA)序列和注释的数据库。,17,第二节蛋白质序列数据库,PIR数据库MIPS数据库其他重要的蛋白质序列数据库:PRINTS、Pfam,18,PIR数据库,蛋白质信息库(PIR)是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。PIR是由美国国家生物医学基金会(NBRF)于1984年建立,帮助研究者确认和解释蛋白序列信息的数据库。,19,MIPS数据库,生物信息学和系统生物学研究所(IBIS)是慕尼黑亥姆霍兹中心-德国环境卫生研究中心的一部分,主办慕尼黑蛋白序列信息中心(MIPS),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统,可以提供比较分析细菌、真菌和植物基因组服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。,20,PRINTS是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。,21,Pfam数据库是一个大的蛋白质域家族集合;Pfam家族有两个质量等级:Pfam-A和Pfam-B。,22,第三节NCBI与EBI,NCBI的简介NCBI的使命是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,NCBI肩负建立存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界方便使用的数据库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进方法研究。,23,EBI简介EMBL-EBI研究团队旨在通过开发新方法解释生物学数据,了解生物学。研究领域包括:进化途径的基因组分析(PaulBertone);序列数据进化分析(NickGoldman);神经信号计算系统生物学(NicolasLeNovere);蛋白质组学:结构、功能和进化(JanetThorton);基因组规模调节系统分析(NickLuscombe)和功能基因组学(WolfgangHubert)。,24,第四节通过EntrezGene从NCBI获取序列信息,Entrez是用于NCBI主要数据库的综合的、基于文本的搜索和检索系统。Entrez综合了科学文献、DNA和蛋白序列数据库、3D蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息形成一个紧密链接的系统。它是被设计用于搜索NCBI的链接数据库的检索系统。可以执行单个子数据库检索,还可以进行跨库检索。,25,EntrezGene检索,EntrezGene检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。检索EntrezGene最简捷的方法是登录到NCBI(/)的首页。,26,27,28,29,30,31,第五节通过SRS从EBI中获取蛋白序列信息,SRS是世界上主要的生物信息学、基因组和相关数据综合、分析和显示工具。SRS检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在EBI的数据库有200多个。SRS有三种检索方式,快速检索、标准检索和批量检索。,32,我们可以通过网址(http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+quickSearch+-id+76e2D1aC0Ri)进入SRS开始页面,33,34,35,在详细记录页面显示了蛋白的一般信息、蛋白来源和描述信息、产考文献信息、交叉链接、关键词和系列信息。点击“Sequence”按钮,查看蛋白序列,36,第六节小结,三大核酸数据库:GenBank数据库、EMBL数据库和D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论