生物分子数据库_第1页
生物分子数据库_第2页
生物分子数据库_第3页
生物分子数据库_第4页
生物分子数据库_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1生物分子数据库生物分子数据库生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 以下着重介绍以下着重介绍EBMLEBMLMBL中的数据分类情况(单位:Gigabases)(EST-Expressed sequence tags; STS-sequence tag

2、ged sites)(取自http:/www3.ebi.ac.uk/Services/DBStats/)21 Mar 2003 37,943,364,438 bases in 24,353,128 records. “ID”为序列的标识符行,包括登录号、类型,分子的长度 “AC”为登录号行;“XX”为分隔符号行; “DT”为创建和更新日期行 “DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的

3、出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH” 为特征开始符号;“FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(

4、annotation)提交数据提交数据(1)编辑电子表格(2)利用Authorin程序(3)利用基于WWW网络环境的序列提交系统使用使用EMBLEMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是目前最常用的一种形式 EMBLEMBL提供一些与序列相关的检索操作(基于提供一些与序列相关的检索操作(基于3W3W服务器)服务器)(1)序列查询最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包

5、含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引,也返回相应的链接例如: 登录号为J00231的核酸序列具有这样一个交叉索引行:DRSWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索 3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目标序列在数据库中搜索其同源序列。 人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 目前GDB包含对下述三种对象的描述:(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱, 包含

6、细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化, 包括基因突变和基因多态性,加上等位基因频率数据。与染色体相关的信息其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGDMGD(//)酵母基因组数据库酵母基因组数据库 SGDSGD(/Saccharomyces//Sac

7、charomyces/)Ensembl (Ensembl (//)EnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列,通过注释形成的关于序列序列,通过注释形成的关于序列的特征。的特征。 现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基例如:基因因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征:其他的特征:单核苷酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复

8、序列等Ensembl 数据库结构图 Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组人的第人的第9号号染色体及大染色体及大鼠对应的染鼠对应的染色体片段色体片段EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法 ,EST序列大约覆盖了人类基因的90%。 DbEST (/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组

9、织和器官得到的短mRNA片段。 WEB页面或emailFTP有关EST的数据dbEST数据库STS(Sequence Tagged Sites)是序列标记位点dbSTS(/dbSTS/)是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定位信息。可以通过BLAST搜索STS序列。UniGene( /UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。 每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息, 如基因表达的组

10、织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。1 1、PIRPIR(Protein Information ResourceProtein Information Resource)PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。三个子数据库 SWISS-PROT (http:/www.expasy.c

11、h/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据 SWISS-PROT有三个明显的特点 : (1 1)在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白

12、质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。 尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。 对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。 提交序列数据提交序列数据(a a)编辑电子表格)编辑电子表格(b) b) 利用利用AuthorinAutho

13、rin程序程序(c c)WWWWWW服务器服务器 使用使用SWISS-PROTSWISS-PROT(a a)CD-ROMCD-ROM形式形式(b b)ftpftp服务器服务器(c c)GopherGopher服务器服务器(d d)WWWWWW服务器(服务器(SRSSRS) 与序列相关的操作与序列相关的操作(a a)序列查询)序列查询 (b b)搜索同源蛋白质序列)搜索同源蛋白质序列TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些

14、序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。(2)REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。包括: Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。UniProt包含3个部分:(1)UniProt Knowledgeb

15、ase(UniProt) 蛋白质序列、功能、分类、交叉引用等信息存取中心蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度;(3)UniProt Archive(UniParc) 资源库,记录所有蛋白质序列的历史。HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY

16、 INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS

17、REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT

18、 IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES

19、 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS AS

20、N ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000

21、ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 图4.5 PDB文件 PDB文件 示意显示分子结构(显示分子结构(RasMol RasMol , ChemView ChemView )MMDB 实用工具1、单碱基多态性数据库db

22、SNP(/SNP/), 实例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tgg

23、tctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G 单倍型数据The DSSP codeH = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in bet

24、a ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例:From PDBFrom Swiss-prot多重序列比对多重序列比对已知结构 未知结构:80/entrez/query.fcgi?db=OMIM (biogen.fr/services/dbcat/)数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18L

25、iterature43Miscellaneous153序列s:序列 t: 找出两个序列具有最大匹配的相对位移1、FASTA算法位移 = 6 6 8 10s: -A-A-T-t: -A-A-T- 3 5 7位移 = 3 1 2 3 4 5 6 7 8 9 10 11 s = H A R F Y A A Q I V L 查找表 A 2,6,7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 1 2 3 4 5 6 7 8 t = V D M A A Q I A 位移 +9 -2 -3 +2 +2 -6 +2 +1 -2 +3 +2 -1位移向量-7 -6 -5 -4 -3 -2

26、 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 1 1 2 1 1 4 1 1最大匹配位移位移累计最大值意义:(1)该位移下匹配最多(2)计算相应动态规划矩阵对角线附近区域实际处理:将在同一位移下距离较近的多个k元组联合起来,形成区域。一个区域可被看成是一个片段对,或无空白的局部对比排列,根据匹配或失配对区域进行打分。对产生的5个最好区域按PAM矩阵进行重新打分,最高的得分就是序列s和序列t相似性的初始得分。对于数据库中的每一个序列,按上述方法计算与查询序列比较的初始得分。根据初始得分将所有数据库序列按非递增顺序排序,对于排在前面的几个具有最高初始得分的序列,利用动态

27、规划算法计算它们与查询序列最优对比排列的得分,但计算过程仅限于初始对比排列(对应于初始得分的对比排列)附近区域。FastA的最新版本是FastA3软件包,下表2列出FastA3家族所有成员:FastA家族程程 序序查询序列类型查询序列类型数据库类型数据库类型FastADNADNA蛋白质蛋白质FASTXFASTYDNA蛋白质 TFastA蛋白质DNATFASTXTFASTY蛋白质DNAFASTSTFASTS一系列多肽片段蛋白质DNAFASTFTFASTF有序多肽混合物蛋白质DNAFastA使用界面序列S:序列t: 找出两个序列共同的短片段经过扩展后形成更长的相似片断扩展扩展BLAST 使用界面实际应用中倾向于蛋白质序列搜索实际应用中倾向于蛋白质序列搜索 4 4种字符种字符 Vs. 20Vs. 20种字符种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论