生物信息数据库-类型_第1页
生物信息数据库-类型_第2页
生物信息数据库-类型_第3页
生物信息数据库-类型_第4页
生物信息数据库-类型_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学,一草生命科学学院,第2章生物信息数据库,数据库类型,07:24,3,第1节简介,随着生物分子数据的快速增长,分子生物学及相关领域的研究人员迅速获得了最新的实验数据,并建立了生物分子数据库、序列数据库、结构数据库、基因组数据库、初级数据库、DNA序列、蛋白质序列、蛋白质结构、人类基因组及其他生物基因组、生物信息学数据库、序列数据库、结构数据库、基因组数据库、二级数据库、文献数据库、专家数据库、生物信息学数据库,07336024 生物分子数据库应满足五个方面的主要要求(1)及时性(2)注释(3)支持数据(4)数据质量(4) 07:24,7,生物分子数据库的几个明显特征(1)数据库更新速

2、度加快,数据量呈指数级增长,(2)数据库使用频率加快,(3)数据库复杂性增加,(4)数据库网络化,(5)面向应用,(6)先进的软硬件配置,07336024,8, 生物分子数据库的初级数据库中的数据直接来自实验获得的原始数据,通过次级数据库的简单排序和注释对原始生物分子数据进行排序和分类的结果是基于初级数据库、实验数据和针对特定应用目标的理论分析而建立的。07:24,9,核酸序列数据库第2节,国际权威核酸序列数据库(1) EMBL http:/www。欧洲分子生物学实验室的EMBL-海德堡(2)美国生物技术信息中心的/Web/Genbank/基

3、因银行。Index.html(3)DDBJ http:/www.ddbj.nig.ac.jp/,1和日本遗传研究所核酸序列数据库,1988年,由此三家公司组成了国际核酸序列数据库合作组织(INSDC),其中规定:数据交换和共享应每24小时进行一次,提交的数据应以统一的数据记录格式进行处理,以确保每个数据库中相应记录内容的一致性以及数据的维护和更新。三个数据库中的数据基本相同,只是数据格式不同。对于特定的查询,三个数据库的响应结果是相同的。这三个数据库是脱氧核糖核酸和核糖核酸序列的综合数据库,每个记录代表一个单一的、连续的和注释的脱氧核糖核酸或核糖核酸片段。GenBank:http:/www.n

4、/Genbank/,EMBL http:/,DDBJ http:/www.ddbj.nig.ac.jp/,Total核苷酸:301,588,430,608,条目数:199,575,971,07:24,17,073:24,18,“ID”是序列的标识符行,包括登录号、分子类型和长度,“AC”是登录号行;“XX”是分隔线;“DT”是创建和更新日期行,“DE”是序列描述行;“KW”是关键词行;线“OG”描述细胞组织;线“操作系统”描述生物的种类和属;“OC”线描述生物体分类信息;“RN”描述参考号;“RP”描述参考的页码;“RA”描述了参考文献的作者;“RT”描述参考文献

5、的标题;“RL”描述引用的来源;“RC”描述引用的注释;“接收”和“恢复”线描述交叉引用信息;“FH”是特征开始符号;“FT”是1)特征表行(1)中的特征关键字,它是描述该域的生物学功能的关键字;(2)位置,表示特征在序列中的具体位置;(3)限定符,描述关于特征的辅助信息;文件体由序列本身组成,从标记为“SQ”的行开始。序列末尾的标记是“/”。EMBL核酸数据库中的每个序列数据都被分配了一个登录号,这是一个永久的唯一标识符。EMBL的序列数据由一个外部的ASCII文本文件表示,每个文件分为一个文件头和一个文件体。文件头由一系列信息描述行组成,文件头实际上对应于一个序列注释(07:24,19)。

6、Embr,(1)光盘格式,(2)ftp服务器,(3)Gopher服务器和(4)WWW服务器是目前最常用的形式。07:24,20,EMBL提供了一些与序列相关的检索操作(基于3W服务器),(1)序列查询,最简单的查询是通过序列登录(2)核酸同源性搜索3W服务器支持用户使用FastA程序搜索核酸同源性。FastA根据给定的目标序列在数据库中搜索其同源序列。07:24,21,基因组数据库(GDB),Ensembl表达序列标记数据库(dbEST)是面向由基因聚类数据库UniGene,07:24,22,2,基因组数据库(GDB),人类基因组计划获得的图谱数据。目前,GDB包含对以下三个对象的描述:(1)

7、人类基因组区域包括基因、克隆、聚合酶链反应标记、断点、细胞遗传学标记、脆弱位点、无害环境技术、综合区域、重叠群、重复序列等。(2)人类基因组图,包括细胞遗传学图、连锁图、辐射混合图、重叠群图和整合图,所有这些都可以直观显示;(3)人类基因组的变化,包括基因突变和基因多态性,加上等位基因频率数据。07:24,23,与染色体有关的信息,07:24,24,其他模式生物基因组数据库,如小鼠基因组数据库mgd (http:/www .信息学. /),酵母基因组数据库SGD(http:/genome-www . Stanford . edu/Saccharomyces/),07336024,

8、25,系综(3358/),3。系综,即人类基因组数据库,包括所有已发表的人类基因组DNA序列,以及由注释形成的序列特征。现在它包括其他基因组,如老鼠、线虫、果蝇等。例如,通过实验发现或由基因工程计划预测的基因的其他特征:单核苷酸多态性、重复序列等。07:24,26,集成数据库结构图,07:24,27,Ensembl提供了多种查询方法,通过关键字查询使用BLAST来搜索相似的序列。另一种更直观的方式是显示每个染色体的使用者可以在染色体水平上选择感兴趣的位点,并逐层浏览整个基因组,07:24、28、07336024、29,人类9号染色体和相应的大鼠染色体片段,07:2

9、4、30、4。表达序列标签数据库(DBEST)已被证明是鉴定转录序列最有效的方法,EST序列覆盖了约90%的人类基因。DBEST(/dbEST/)是GenBank的一部分,其中包括不同生物体的EST序列数据和其他相关信息,主要是从大量不同组织和器官中获得的短基因片段。网页或电子邮件、FTP、关于EST的数据、dbEST数据库、07:24、31、5、面向基因簇的数据库unigene、unigene(/UniGene/)数据库自动对基因库中的序列进行分类,形成一个非冗余的基因组集合。每个单基因组

10、包含代表一个独特基因的:个序列,带有与该基因相关的信息,如基因表达的组织类型和图谱。除了基因序列之外,它还包括大量的EST序列。目前,UniGene包括人类、大鼠、小鼠和牛的相关数据,因为这些生物有大量的EST数据。07:24,32,第三节蛋白质序列数据库。目的:帮助研究人员识别和解释蛋白质序列信息,研究分子进化和功能基因组。这是一个全面的,注释和非冗余的蛋白质序列数据库。所有的序列数据都已整理出来,99%以上的序列已按蛋白质家族分类,其中一半以上已按蛋白质超家族分类。1.蛋白质信息资源,07:24,33,除了蛋白质序列数据,蛋白质信息资源还包含以下信息:(1)蛋白质名称、蛋白质分类和蛋白质来

11、源;(2)原始数据参考;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后加工、激活等。(4)序列中的相关位点和功能区。07336024,34,PIR提供三种类型的检索服务:一种是基于文本的交互式查询,用户通过关键词查询数据。第二是标准序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括相似性搜索和按注释分类的领域搜索。07:24,35,三个子数据库,07:24,36,2,SWISS-PROT,Swiss-prot(http:/www.expasy.ch/sprot/sprot-top.html)是目前世界上最权威的蛋白质序列数据库,

12、其中蛋白质序列被注释,SWISS-prot中的数据来自不同的来源:(1)它们是通过翻译从核酸数据库中获得的。(2)从PIR中选择合适的数据;(3)科学文献摘录;(4)研究人员直接提交的蛋白质序列数据,07:24,37,(1)注释在瑞士-PROT,数据可分为核心数据和注释。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)。注释包括:(1)蛋白质的功能描述;翻译后修改;(c)结构域和功能位点;蛋白质的二级结构;(e)蛋白质的四级结构;与其他蛋白质的相似性;(g)蛋白质缺乏引起的疾病;(h)顺序矛盾、变化等。SWISS-PROT有三个明显的特征:(2)最小冗余,(3)与其他数据库的

13、连接,07:24,38,07:24,39,07:24,40,提交序列数据(a)编辑电子表格(b)使用授权程序(c)使用SWISS-PROT的万维网服务器(a)光盘格式(b)ftp服务器(c)Gopher服务器(d)万维网服务器(SRS)序列相关操作(a)序列查询(b)搜索同源颤抖分为两部分:(1)自然颤抖,(2)快速颤抖,(3)颤抖,07336024,42,生物大分子结构数据库的第四部分。1.PDB(蛋白质数据库)蛋白质、核酸、糖类和其他复合物是显式序列信息和隐式序列信息,07:24,43,当前持有数据,提交数据,关键字搜索,选定分子数据的介绍,07:24,44,下载数据,PDB文件格式,相关

14、软件,07:24,45,标题水解酶19-FEB-97 1ADZ标题第二个KUNITZ结构域的溶液结构标题2组织因子途径抑制剂,核磁共振,30结构化合物复合物2分子:组织因子途径抑制剂;化合物8生物单元:单体源MOL _ id : 1;来源7表达_系统_纤溶: PFLAG基威斯水解酶,抑制剂,凝血抑制剂核磁共振,30结构作者M.J.M .伯格林,L.P.M .奥尔本斯,REVDAT 1 25-FEB-98 1 adz 0 JRNL AUTH M . j .伯格林,L.P .奥尔本斯,A.VAN DER DOELEN .注释1参考1注释1作者M . T.STUBBS II注释1因子XA抑制的所有结构方面.注释999序列注释999 1ADZ SWS P10646 1 - 111不在原子列表中注释999 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论