




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质结构、分类和相互作用数据库蛋白质一级结构是氨基酸的排列顺序,二级结构主要是由氢键维持的alpha螺旋和beta片,三级结构是完全折叠好的蛋白质的空间结构,四级结构是多个蛋白质亚基组成蛋白质复合体的结构。在最细的层次,由X射线衍射和核磁共振(NMR)等实验方法确定的蛋白质中原子的三维坐标,构成PDBR-519这样的蛋白质结构数据库的主要内容.二级结构和三级结构之间的模体(motif)、结构域(domain)和“折叠”或“折叠单元”(fold),对于蛋白质结构的分类和预测有重要作用。R-519 PDB,蛋白质结构数据库(Protein Data Bank)。1971年建立于美国布鲁克海文国家实验室R-171,当时只有7个结构。它搜集由X射线衍射和核磁共振实验测定的生物大分子三维结构数据。从1998年10月1日起PDB的管理交给RCSBR 520。 2002年8月13日PDB库中有18 464个条目。 2001年每月新增约275个结构。关于PDB库的较近介绍见:J.Westbrook et al., Nucl.Acids Res.30(2002)245-248.网址:/(自动转如下网址:)/pdb/在世界许多地方设有PDB镜像点。R-520 RCSB,结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics),现在是PDBR-519数据库的管理者。网址:/R-521 MSD,大分子结构数据库(Macromolecular Structure Database),乃是交由RCSB管理后的PDB库的正式名称,不过PDB仍然是当前通用的名字。请看PDBR-519。R-522 PDBNEW,下一版PDB库正式发布前收到的全新或更新条目。网址:/R-523 PDBFinder,在PDBR-519、DSSPR-546、HSSPIR-547基础上建立的二级库,它包含PDB序列、作者、R因子、分辨率、二级结构等。这些信息不易从PDB中直接读取。请参看:R.W.W.Hooft,C.Sander,M.Scharf,G.Vriend,CABIOS 12(1996)525-529.网址:http:/www.sander.embl-heidelberg.de/pdbfinder/(自动转到下面的当前网址;)http:/www.cmbi.kun.nl/gv/pdbfinderR-524 PDB ataGlance清单。 PDBR-519数据库中的每个条目由4位数字和字母编号,无法简单地从编号看出是什么样的蛋白质。NIH的分子模拟网页上名为“PDB at a Glance”的这个超文本清单,帮助用户按蛋白质的功能分类迅速查找其PDB编号。网址:http:/cmm,/modeling/pdb_at_a_glance.htmlR-525 PDBselect数据库。PDB库中有大量同源蛋白的数据。研究工作中往往需要从中挑选出每个同源家族的代表,形成不含高度同源蛋白的结构数据子集合。PDBselect库就是这样一个子集合。其最初描述见:U.Hobohm,C.Sander,Protein Science 3(1994)522.网址:http:/swift.embl-heidelberg.de/pdbsel/ftp:/ftp.embl-heidelberg.de(/pub/databases/protein_extras/pdbelect)R-526 PDBsum是PDBR-519库中数据的更便于阅读的总结和分析,以及一些衍生数据。例如,原来的坐标数据变成了图形,增加了从CATHR-534、 PROSITER-479等库得到的简明信息等。这是University College London维护的一个项目,描述见:R.A.Laskowski,Nucl.Acids Res.29(2001)221-222.网址:http:/www.biochem.ucl.ac.uk/bsm/pdbsum/R-527 BioMagResBank,简称BMRB,是关于多肽、蛋白质和核酸的核磁共振数据库。它的结构数据与PDBR-519)有些重复,但也收入了化学位移、 J耦合、弛豫速率等PDB中没有的数据。网址:/R-528 CSD,剑桥结构数据库(The Cambridge Structural Database)。这实际上是最老的一个结构数据库。它不限于生物大分子,目前包含20万种以上有机和金属有机化合物的由x射线或中子衍射测定的结构数据。每一条目按“维数”组织:一维是文献数据,二维化学式,三维分子结构和三维晶体结构。此库虽不常用于蛋白质折叠的模拟,但对于配位结合位点的模拟以及蛋白质设计颇为有益。请参看:D.G.Watson,上Res.Natl.Inst.Stand.Technol.101(1996)227-229.网址:http:/www.ccdc.cam.ac.uk/prods/csd.htmlR-529 NRL-3D,三维结构已经确定的蛋白质序列库。可以把新的蛋白质序列与此库中序列比较,以判断是否与结构已知的蛋白质相似。关于此库描述请参看RESID数据库R-539的引文. 网址:/pirwww/dbinfo/nrl3d.html/NRL-3D/R-530 ProtFam,同源蛋白质序列数据库。它是PIRR-477库的有机组成部分。同源性涉及整个序列的蛋白质组成蛋白质超家族(super- family),超家族中高度同源者(超过50)组成家族(family),局部相似者构成同源结构域(homology domain)。网址:http:/mips.gsf.de/desc/protfam/R-531 SUPFAM是可能有联系的蛋白质同源结构域数据库。它基于PfamR-562和PALI数据库.描述见:S.B.Pandit eCaL,Nucl.AcidsRes.30(2002)289-293.SUPFAM和Pali的网址在:http:/pauling.mbu.iisc.ernet.in/supfamhttp:/pauling.mbu.iisc.ernet.in/paliR-532 SUPERFAMILY, 蛋白质超家族库,基于SCOPR-533的分类。学术性用户可在注册后自由使用数据库及其配套软件。最近描述见:J.,Gough,C.Chothia, SUPERFAMILY:HMMs representing all proteins Of known structure.SCOP sequence searches,alignments and genome assignments,Nucl.Acids Res.30(2002)268-272.网址:/R-533 SCOP,蛋白质结构分类数据库(Structural Classification Of Proteins)。这是对已知的蛋白质三维结构进行手工分类得到的数据库。请参看:L.LOConte et al., Nucl.Acids Res.30(2002)264-267.网址:http:/scop.mrc-lmb.cam.ac.uk/scop/它在世界许多地方设有镜像点。R-534 CATH,蛋白质结构与功能关系分类数据库。这是把蛋白质结构域按四个层次进行分类的数据库。这四个层次是“类别”(Class即C), “构架”(Architecture即A),拓扑(Topology即T),以及同源超家族(Homologoussuperfamily即H).库名即来自这四个字母。它有通向PDB总结文件和OWL库的超链接.详细描述见:P.M.C.Pearl et al., Nucl.Acids Res.29(2001)223-227.网址:http:/www.biochem.ucl.aC.uk/bsm/cath/R-535 PIR-ALN,蛋白质序列联配数据库,包括同一家族内(彼此差异在55以内)序列的联配,一个超家族内不同家族代表序列的联配,以及不同蛋白质的同源结构域序列片段的联配。2000年1月底的22.03版收入4 076个条目。库的描述见:G.Y.Srinivasarao et al., Nucl.Acids Res.27(1999)284-285.G.Y.Srinivasarao et al., Bioinformatics 15(1999)382-390.网址:/pirwww/dbinfo/piraln.html/pir/alndb.htmlR-536 3Dee,蛋白质结构域定义的数据库,包括了PDBR-519库中含20个以上残基的蛋白质序列的结构域定义,但不包括理论模型。所有结构域按序列相似性和结构相似性分成聚类。所得家族按层次组织存储。3Dee具有与SCOPR-533类似的、到本地计算机上RasMol程序R-953的接口,可用后者显示三维图像。网址:http:/circinus.ebi.ac.uk:8080/3Dee/R-537 ProTherm,蛋白质及其变异体热力学数据库,设在日本理化研究所(RIKEN)。它包括多种热力学参数的值,如吉布斯自由能、焓、热容、转变温度等。这些参数有利于理解蛋白质变异的结构和稳定性。它还包括关于二级结构、野生型残基、实验条件(pH值、温度等)、每种数据的测量方法等信息。 ProTherm 3.0版的描述见:M.M.Gromiha et al., Nucl.Acids Res.30(2002)301-302.网址:http:/www.rtc.riken.go.jp/jouhou/ProTherm/protherm.htmlR-538 ASTRAL是基于SCOPR-533数据库的一组分析蛋白质结构和蛋白质序列用的数据库和工具,包括SCOP结构域对应的序列库、按所需相似度组织的低冗余子集、由SCOP 1.38产生的结构对比库,以及工具和索引。请参看:J.-M.Chandonia et al., Nucl.Acids Res.30(2002)260-263.网址:/R-539 RESID,蛋白质翻译后修饰情况的数据库,包括描述性的关于化学、结构和文献的信息。 2002年6月此库发行了30.03版。对过去 版本的描述见:J.S.Garavelli et al., Nucl. Acids Res.29(2001)199-201.网址:/pirwww/dninfo/resid.html/RESID/R-540 SMART,是简单模块构架搜索工具(Simple Modular Architecture Research Tool)的缩写。它的最初目的是研究涉及真核生物信号转导(signal transduction)的蛋白质结构域。 此库后来扩充到细胞外蛋白质的活动结构域、细菌双组元调控系统,以及与DNA、 RNA、染色质和细胞骨架功能有关的结构域。这个基于网页的数据库的最近描述见:I.Letunic,et al., Nucl.Acids Res.30(2002)242-244.网址:http:/SMART.embl-heidelberg.de/R-541 Biolnfo Bank是日本理化研究所(RIKEN)维护的一个综合数据库,包括核酸、蛋白质序列与结构、蛋白质和核酸复合体、碱基氨基酸相互作用等多种数据库和工具。详情见网址:http:/www.rtc.riken.go.jP/jouhou/jouhoubank.htmlR-542 PROMISE数据库。其名称来自The PROsthetic groups and MEtal Ions in protein SitEs短语中的一些字母,即蛋白质活性位点的辅基中心(prosthetic center)和金属离子这些有生物学意义的无机组分的数据库。详见:K.N.Degtyarenko,A.C.T.North,J.B.C.Findlay,Nucl.AcidsRes.27(1999)233-236.网址:http:/bmbsgill.1eeds.ac.uk/bmbknd/promise/MAIN.htmlR-543 MMDB,蛋白质分子模型数据库(Molecular Modeling Database),由NCBI的MMDB组维护。这是Entrez检索工具所使用的三维结构数据库,它以ASN.1格式R-188反映PDB库中的结构和序列数据,引文链接到MEDLINER-706。 MMDB有一个配套的三维结构显示程序Cn3D,请参看R-955。最近描述见:Y.Wang et al., Nucl.Acids Res.30(2002)249-252.网址:/Structure/(/mmdb)R-544 VAST,矢量联配搜索工具(Vector Alignment Search Too1)。此库包含PDB中所有结构域的结构和序列的联配数据,是寻找相近三维结构时的原始数据。但它使用ASN.1格式R-188,一般用户不易直接阅读。描述见:J.F.Gibrat,T.Madej,S.Bryant,Curt.Opin.Struct.Biol.6(1996) 377-385.网址:/Structure/vast.html(/mmdb/vastdata/)R-545 CDD, 是蛋白质保守的结构域数据库。描述见:A.Marchler-Bauer et al., Nucl.Acids Res.30(2002)281-283.网址;/Structure/cdd/cdd.shtmlR-546 DSSP, PDB库中所有蛋白质条目的二级结构归属数据库(Database Of Secondary Structure assignments for all Protein entries)。网址:http:/swift.embl-heidelberg.de/dssp/ftp:/ftp.embl-heidelberg.de(/pub/databases/dssp/)此库最早的描述见:W.Kabsch,C.Sander,BiopoJgmers 22(1983)2577-2637.R-547 HSSP,按同源性导出的蛋白质二级结构数据库。每一条PDBR-519项目都有一个对应的HSSP文件。因此,应先按蛋白质的PDB编号,例如1dba,在HSSP的INDEX中查找ldba.hssp,然后再读取压缩文件ldba.hssp.Z。当然,通过WWW服务器查找更为方便。关于HSSP请参看:C.Dodge,R.Schneider:C.Sander,Nucl.Acids Res.26(1998)313-315.网址:http:/www.sander.embl-heidelberg.de/hssp/R-548 Dali/FSSP,基于PDB数据库中现有蛋白质三维结构,用自动结构对比程序Dali逐一比较而形成的折叠单元和家族分类库。描述见:S.Dietmann et al., Nucl.Acids Res.29(2001)55-57.此库在PDB库每次新版后自动更新,其网址:http:/www.ebi.ac.uk/dali/domain/R-549 3d-ali数据库,搜集彼此相关的蛋白质序列和结构数据。描述见;S.Pascarella,F.Milpetz,P.Argos,Prot.Eng.9(1996)249-251.网址:http:/www.embl-heidelberg.de/argos/ali/ali.htmlftp:/ftp.embl-heidelberg.de(/pub/databases/3d_ali/)ftp:/Stp.ebi.ac.uk(/pub/databases/3d_ali)R-550 DEF,蛋白质折叠类的预测数据库(Database of Expected Fold classes)。它的构建基于3d-aliR-549数据。 请参看:M.Reczko,nKarras,H.Bohr,Nucl.Acids Res.25(1997)235.网址:http:/zeus.cs.uoi.gr/neural/biocomputing/def.htmlR-551 PASS2, 按结构超家族组织的蛋白质联配数据库。描述见:V.Mallika,A.Bhaduri,R.Sowdhamini,Nucl.AcidsRes.30(2002)284-288.网址:http:/www.ncbs.res.in/ZYEfaculty/mini/campass/pass.htmlR-552 GTOP, 由基因组序列预测的蛋白质结构数据库。描述见:T.Kawabata et al., Nucl.Acids Res.30(2002)294-298.网址:http:/spockgenes.nig.ac.jp/genome/gtop.htmlR-553 Predictome, 蛋白质中推测的功能关联数据库。描述见:J.C.Mellor et al., Nucl.Acids Res.30(2002)306-309.网址:/R-554 INFOGENE,Sanger中心计算基因组学小组维护的、各基因组测序计划所提供的序列中已知的蛋白质和预测出的基因与蛋白质的数据库。它有一个名为Genes in Pictures的Java图形界面。描述见:V.V.Solovyev,A.A.Salamov,Nucl.Acids Res.27(1999)248-250.网址:http:/genomic.sanger.ac.uk/inf/infodb.html更新较为及时的版本在下面网址,学术性用户可适度地自由使用:/inf/infodb.htmlR-555 TMBase,跨膜蛋白质数据库。主要基于SWISS-PROTR-474的跨膜蛋白质片段。描述见:K.Hoffmann,W.Stoffel,Bi01.Chem.Hoppe-Seyler.374(1993)166.网址:ftp:/ulrec3.unil.ch(/pub/tmbase)ftp:/ncbi.nlm.nihgov(/repository/TMbase)R-556 PRESAGE是关于结构基因组学的一个数据库,它为库中每个蛋白质搜集了反映当前实验状况、结构、模型和研究建议的注释。详见:S.E.Brenner,D.Barken,M.Levitt,Nucl.Acids Res.27(1999)251-253.网址:/R-557 SBASE,带有注释的蛋白质序列片段、即蛋白质结构域的数据库,由ICGEBR-1591建立和维护。关于其9.0版的介绍见:K.Vlahovicek,J.Murvai,E.Barta,S.Pongor,Nucl.Acids Res.30(2002)273-275.网址:http:/hydra.icgeb.trieste.it/kristian/SBASE/(试运行中的新服务器)http:/www3.icgeb.trieste.it/sbasesrv/index_old.html(仍在运行的老服务器)由于从测序得到的DNA翻译出来的氨基酸序列迅速增长,对这些可能的新蛋白质的功能和结构的预测越来越多地依靠同已知蛋白质序列的比较。蛋白质结构域的比较对于确定同源性极为重要,现在已经有一批把各种蛋白质数据库中的模体、轮廓、结构域等局域模式信息集成起来的数据库,如InterProR-558、 BLOCKS+R-561等。R-558 InterPro,集成的蛋白质结构域和功能位点数据库。它把SWISS-PROTR-474、TrEMBLIR-475、PROSITER-479)、PRINTSR-563、PFAMR-562、ProDomR-5641等数据库提供的蛋白质家族中的各种局域模式(pattern),如结构域、模体、功能位点等信息统一起来。此库在果蝇基因组R-419的注释和酵母、线虫与果蝇的比较基因组学研究中已经发挥作用。最近描述见:R.Apweiler et al., Nucl.Acids Res. 29(2001)37-40.网址:http:/www.ebi.ac.uk/interpro/R-559 HITS,瑞士ISRECR-150)新近建立的一个蛋白质结构域数据库,它的方便之处在于给定蛋白质序列立即回答其中含有哪些模体,给出模体立即返回SWISS-PROT等数据库中含有该模体的蛋白质清单,并且带有相关链接。网址:http:/www.isrec.isb-sib.ch/cgi-bin/hits/hits_indexR-560 BLOCKS,蛋白质分类与同源性数据库,包含蛋白质家族中保守区域的组块(blocks)多序列联配的数据。这个数据库是根据PROSITER-479中的条目,用BLOSUMR-747打分矩阵作序列联配生成,并随PROSITE库的每个新版更新。 详见:J.G.Henikoff,E.A.Greene,S.Pietrokovski,S.HenikoR,Nucl.Acids Res.28(2000)228-230.原始数据库在美国西雅图的FHCRC,即FredHutchinson癌症研究中心,网址:/(/repository/blocks/UNIXDOS)关于BLOCKS库的查询,还可用电子邮件(在主文中写HELP):mailto:blocks*R-561 BLOCKS+数据库。BLOCK数据库基于专家审读过的PROSITE库,质量较好,但库中条目有限。因此,同一批作者又发展了一个BLOCK+数据库。它由三个经过专家审读的数据库PROSITER-479、PRINTSR-563和PFAM-AR-562,以及两个自动产生的库ProDomR-564)和DOMOR-566)出发,使用PROTOMAT程序逐步添加新的组块。目前,http:/WWW./网页的首选库就是BLOCK+。请参看:S.Henikoff,JG.Henikoff,S.Pietrokovski,Bioinformaticsl5(1999)471-479.R-562 PFAM或PFAM-A,高质量的蛋白质结构域家族数据库。它搜集蛋白质多序列联配和隐马尔可夫模型数据,已经达到同SWISS-PROTR-4741和TrEMBLR-475中半数以上蛋白质匹配。2002年8月发行的7.5版,有4176个蛋白质结构域家族。PFAM的重要用途是迅速自动地把DNA序列中预测出的蛋白质分成结构域家族,从而有助于对翻译出的蛋白质做注释。这时或者使用HMMerR-926软件,或者用Wise2程序包,后者的网址:http:/www.sanger.ac.uk/Software/Wise2/PFAM库第6.6版的描述见:A.Bateman et al., Nucl.Acids Res.30(2002)276-280.网址:http:/WWW.sanger.ac.uk/Software/Pram/(英国网点)http:/www.cgr.ki.se/Pfam/(瑞典网点)/(美国网点)R-563 PRINTS和PRINTS-S,是蛋白质家族的指纹(6ngerprint)和模体数据库,可用于确定未知蛋白质的家族关系。它们也是InterProR-558系统的依据之一。最近描述见:T.K.Attwood et al., Nucl.Acids Res.30(2002)239-241.网址:http:/www.bioinf.matu.ac.uk/dbbrowser/PRINTS/R-564 ProDom,自动产生的蛋白质结构域家族数据库。 详见:F.Corpet,F.Servant,J.Gouzy,D.Kahn,Nucl.Acids Res.28(2000)267-269.网址:http:/www.toulouse.inra.fr/prodom.htmlhttp:/protein.toulouse.inra.fr/prodom.htmlR-565 ProDomCG数据库与ProDomR-564类似,是从完全基因组自动产生的蛋白质结构域家族数据库。请参看ProDom的引文和网址。R-566 DOMO,蛋白质结构域数据库。法国国家生物信息中心INFO-BIOGENR-155,维护的DOMO数据库,自动分析蛋白质一级序列库SWISS-PROTR-474和PIRR-477,找出其中的结构域并且把它们分组。 1999年7月DOMO 2.0版中共有来自83 054个蛋白质序列的99 058个结构域,后者又分为8 877组。请参看:J.Gracy,P.Argos,Bioinformatics 14(1998)164-173.网址:biogen.fr/services/domo/biogen.fr(/pub/domo/)R-567 GRBase,这是参与基因调控的蛋白质的数据库(Gene Regulation database)。描述见:B.Collier,M.Danielsen,Nucl.Acids Res.24(1996)219-220.网址:/regulate/(/pub/Tfactors/)R-568 PMD,蛋白质突变体数据库(ProteinMutantDatabase),是一个集成了蛋白质序列和三维结构的显示和提取系统。描述见:T.Kawabata,M.Ota,K.Nishikawa,Nucl.Acids Res.27(1999)355-357.网址:http:/pmd.ddbj.nig.ac.jp/R-569 O-GLYCBASE,蛋白质糖基化位点数据库。它搜集了至少有一个实验证实的糖基化位点的序列。它的一个子集O-Unique是不含相同糖基化位点的库。 请参看:R.Gupta et al., Nucl.Acids Res.27(1999)370-37
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高二化学晶体的结构与性质专项训练单元-易错题测试综合卷学能测试试题
- 【语文】黑龙江省哈尔滨市经纬小学四年级上册期末复习试题(含答案)
- 20xx超市员工辞职报告范文
- 2025-2026学年安徽省阜阳市临泉县二中高一上学期开学考数学试题及答案
- PICC导管维护护理知识试题附有答案
- 2025年三级公共营养师实操复习题及答案
- 电力消防安全知识考试题库含答案2025
- 继电保护练习题库含参考答案
- 2025电力部门两种考试题库及答
- 轻轨造价咨询实施方案
- 基于STM32智能书桌设计
- 《北京市基本概况》课件
- 设备维保中的环境保护与能源管理
- 混合型脑性瘫痪的护理课件
- 眼科专业视野培训教材
- 青蓝工程教师成长档案
- 中建室内中庭墙面铝板、玻璃安装施工方案(改)
- 中秋佳节给客户的一封信(10篇)
- 学生心理健康档案表格
- 雨污水管道专项工程施工组织设计方案
- 毕业论文-线路二次电弧熄灭时刻扑捉方法研究及仿真分析
评论
0/150
提交评论