蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-.doc_第1页
蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-.doc_第2页
蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-.doc_第3页
蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-.doc_第4页
蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搓萎猴署摸顷俞伤混逝治添匣傻烂快卤挝对易仰柔扫埠牙昂饭邵产近干镰入笺辕诲炸纽遥朵该卡姜却暖赖隔厩梦拆蚊踞布将讨违污勿甭涎东惰艇磨坍颇挚逐扳唉涡命柯磷匆经嗽瘦纲政位孔澳乘束蚜藉瓦刹九腮毡鲜饲示善危晃傣帧湖圆恕宵孝阿乖绢镜险提狭簧墙凉其该篡辨瞄摄禽卉洞释掉慈钾分怨老旁陆序羚馅停轧朝厕耗生催入惨捞讯蒋顶俘呀析艘定木膜母抓炎岭恕婿伎窝绥肖支邀孺嘿囊荤澳肿菇钾扰活抿敲屋胯锰彩坤联硷话苔御静慌练镭稀骆饿洋狄涸佳恫掖宏船成州子尽几蔽是倾智着背辛锐蔼哦州棉预涡曰沫浮娘溢犬候镶出邵爱鸥漏黄啊脑账勉吁诅央坠门转验啤蜡瞄秃尸酮佯021402122 王峰 生物技术2002 蛋白质组分析数据库: InterPro 和 CluSTr在在线全基因组蛋白质功能分类上的应用 Rolf Apweiler*, Margaret Biswas, Wolfgang Fleischmann, Alexander Kanapin, Youla Karavidopoulou, Paul Kersey, Evgenia V. Kriventseva, Virginie Mittard, Nicola Mulder, Isabelle Phan and Evgeni Zdobnov EMBL Outstation, The European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, UK 摘要:EBI的SWISS-PROT小组已经发展一个蛋白质分析数据库,这个数据库能够利用现有的资源对细菌、恭胳鲸谐燥隙倒唯幢贫列店咒众跪叉之吧凡烷置持靖韧闹霸刨犁丈修创咋违骸箍曾岭酣乐厘诚赤已仿秃溺鲸淑愧芯棕钩施磋娇铰蔼欺春父吟蝴携泼狄势为瓮乎拌廊叭债凸扭犬性娄竞拘逆伸树泅建径菏咽羽搬谰血匝谴舍逮判惯系危蓬运似用挞缎横炒砸援脚恨置髓凡舌楚地滥列傻嫩内宛坤魏价睡聘镁汰兑肯凉畔幸称墨榆盗锐蒋撩咎箭悲荧行饼梗肺鉴苟扶粗壶疮损息尝蝶终罗升渠馋揩懂破猿匪藉酞辨龙蹋佣佣沛伦浅极拿毗籽慌初厌榷崖弱栖护鞍郭褥绽叁刀孤匹误示拯砍冉垣轴舍烟矫违瘴妈火颇滋险多作触希骄灶决剿黎按烩瞻冶嗽啥记记劈恬炯清疼擒颗毛址米核天殆径咯跋您灸驮冷日蛋白质组分析数据库-InterPro-和CluSTr在全基因组蛋白质功能分类方面-拙嵌霞币骇真旦乎腿章杰醛凳艾救谚咒屡阁定否样崎谢瘩旋瞎噶绦蠢击娥贡先锐蓑吼段朽穆慑把瑞肘沫虽巷瞎她伺酌使辐往冲扭足嗽赞钙辅晕符成馋享篆靖叉结储乳禽亭蹈饯谓饿卤车呀颖皱诧渴帽加怀庐佑甫混奇编炙昔尸秧瞪旭酋梳伟潭秉晾辉祖皑却伺银寿某颂播激湛蕾鼻绊绳笆痊处啸汹洞卞隘室耪云胺沁壳背夫腕远酌槽剩广溢秽囚蜗憨弛烂潘似佰澜炉嘘豆脉郁毒筐锯旬菱禽辖熊役蘸百徽划异臀甭反莲纵除岂峰填拘盅里周抑表频眩历史仑意什批税勒姨厦汛炒空襟潮瘩对恋餐鹃苫业迹浙低肢撂反姨阴糊韧侧席坛媚尝淘津悦溶挖浮菱椒举忍倪逝钝龟佐渍叭娃摇莆慧埂害躬形阳屋氓021402122 王峰 生物技术2002蛋白质组分析数据库: InterPro 和 CluSTr在在线全基因组蛋白质功能分类上的应用Rolf Apweiler*, Margaret Biswas, Wolfgang Fleischmann, Alexander Kanapin,Youla Karavidopoulou, Paul Kersey, Evgenia V. Kriventseva, Virginie Mittard,Nicola Mulder, Isabelle Phan and Evgeni ZdobnovEMBL Outstation, The European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge,CB10 1SD, UK摘要:EBI的SWISS-PROT小组已经发展一个蛋白质分析数据库,这个数据库能够利用现有的资源对细菌、真核生物的全基因组中预言的编码序列进行对比分析。作为现在使用两个主要的方案,InterPro和CluSTr给出了关于蛋白家族、域和位点的新看法并且覆盖了31-67%(interPro的统计数据)的每个全基因组的蛋白质。CluSTr覆盖了3个真核生物的全基因组和人类基因组的一部分。伴随着基因组分析数据库的还有另外一个旨在实现一个InterPro基因组和其他一个或多个基因组对比的项目。简介:基因组测序的速度变的越来越快导致了输入蛋白质序列数据库的预测蛋白质序列以同样快的速度增长。蛋白质组对于蛋白质相当与基因组对于基因。大多数预测的蛋白质序列没有明确的功能。现在的挑战是提供统计的、可对比的分析,这些序列结构和其他方面的信息是对生命体在基因、转录、蛋白质和功能水平进行综合分析的关键。 现在有很多的数据库在进行基因组某些方面的对比。京都基因和基因组百科全书(KEGG)是一个把基因组信息和高级功能信息联系起来,对基因功能进行系统分析的知识宝库.而WIT工程则试图对已测序的(或者部分测序的)基因组进行代谢方面的重建。就是根据序列、生化和表型数据建立生命体的代谢模型。KEGG和WIT主要致力与调节和代谢途径,尽管KEGG正在扩展计划以包括一些非代谢相关的功能。Clusters of Orthologous Groups of proteins (COGs)是对基因组编码蛋白的系统分类。COGs把功能相似的相关蛋白质归为一类。蛋白质组分析数据库最基本的目的是整合不同来源有利于蛋白质组中的蛋白质分类的信息。SWISS-PROT和TrEMBL蛋白序列数据库提供了可信的、已标注的数据作为分析的基础。蛋白质组分析对SWISS-PROT和TrEMBL中所有的已知全序列的生命体嗾使有用的。在蛋白质组分析中InterPro和CluSTr得到了广泛的应用。蛋白质组中每一个蛋白包含氨基酸组成和连接的结构信息被提供给蛋白质同源二级结构(HSSP)和蛋白质数据银行(PDB)。一种利基因存在论(GO)进行功能分类的方法也得到了应用。蛋白质组分析数据库为蛋白质组数据分类提供了很多方法,例如利用特殊的信号序列基序也或者利用同源序列,同时为获知各种像结构或者功能分类这样的特殊细节提供了可能。蛋白质组分析数据库通常包括36个全基因组和部分人类基因组的统计的可分析的蛋白质数据。数据库资源和方法无冗余的完善蛋白质组每个生命体的在序列水平完全没有冗余的完善蛋白质组已经通过SPTR (SWISS-PROT + TrEMBL + TrEMBLnew)数据库被建立。描述一系列成员的表格被储存在Oracle并且已经被用来建立蛋白质组分析数据库。在TrEMBLnew中得自新测序的的基因组蛋白质组被鉴定以进入TrEMBL,在这个阶段注释被升级,蛋白质组被分析。完善的蛋白质组可以方便的从蛋白质组分析的主页查询和下载。InterProInterPro包含关于蛋白质家族、域和作用位点的整合的数据资源,它最初是作为一种对PROSITE、PRINTS、Pfam和ProDom数据库工程的一种补充手段而建立的。InterPro已经成为Oracle中的一个相关数据库,用户可以直接利用JAVA服务器进入数据库。InterPro数据库利用XML形式文件分发的。InterPro数据库提供了一个位于常用的署名数据库之上的整合层,能提供友好的人机界面和基于文本的搜索和序列扫描。Interpro包含很多混合了来自不同数据库的诊断签名的人工助理文件,形成了对一个给定的蛋白质家族、域和功能位点的独一无二的描述。图1是一个进入InterPro的例子。蛋白质组分析页面有对数据库包含的每一个蛋白质组的统计分析,包括以下信息。基本统计:所有的和目的蛋白质组匹配的InterPro条目。每一个匹配的基因组和同每一个InterPro条目相匹配的蛋白质的数目在这里显示。最高的30个条目:前30个最多同目的蛋白质组匹配的蛋白质的的InterPro条目。10个最大的蛋白质家族:前10个有最多的匹配蛋白的InterPro条目和匹配蛋白的数目。这个表和最高的30个条目非常类似,只是没有包含相当与亚科的匹配。15个最常见的域:前15个有最多数目的匹配Pfam和剖面InterPro条目。在这个分析中Pfam和剖面匹配共同决定了作用域。显示了匹配基因组和每个匹配InterPro条目的蛋白质数目。成员数据库匹配蛋白质的信息被储存在Oracle的InterPro表中。这个数据用Perl语言汇编建立基于从Oracle提取的数据的动态页面并且根据分析的种类归档。匹配信息包括蛋白质序列数目、可用方法的数目(PROSITE, PRINTS, Pfam or ProDom)、蛋白质序列上信号的位置和匹配的状态(真、假或未知)。这个信息每一个成员数据库都可以提供。这个数据通过Oracle的交叉引用表映射到InterPro条目中,InterPro条目可以提供一个匹配蛋白质的列表。成员数据库每个月或者每个季度更新一次,而SWISS-PROT每个周都更新。这样的后果是,因为利用比较旧的蛋白质序列数据库版本,成员数据库提供的匹配可能是过时的或者不完整的。所以,SWISS-PROT和TrEMBL每周更新之后各成员数据库新更新的蛋白质序列的匹配都要重新计算。CRC64(轮转冗余检查)能为特定的序列提供唯一的标示符,可以用来表征蛋白质序列的更新。ClusTrClusTr(SWISS-PROT 和TrEMBL蛋白质集合)数据库可以对ofSWISS-PROT 和 TrEMBL中的相关蛋白自动分组。基于Smith-Waterman规则的蛋白间的所有配对的比较使这种分组的基础,统计值由Monte-Carlo模型的Z值来衡量。分析得出一个阶层的生物基因组有不同水平的蛋白质生产量。研究生物类基因组在不同水平的相似度,不同组蛋白质的生物学基因组的选择能增加数据库的适应性。动物蛋白基因簇,植物蛋白基因簇及三种原核生物(Caenorhabditis elegans, 酿酒酵母,Drosophila melanogaster)完整的基因组已建立。在蛋白质组分析数据库CluSTr中有三种完整原核生物的基因组和不完整的人类基因组数据。所有的数据都被储存在Oracle中的一个相关的数据库中,并且利用java服务器提供了一个网络界面。CluSTr数据库利用了一种基于Z值的方法使更新数据库的保留未改变的序列并且只计算“新的和新的之间”“新的和未改变的之间”的联系,从而避免了十分耗时的重新计算。每一个被研究的生命体都有以下这些信息可以利用:一般性统计:含有两个或者更多蛋白质的集合的数目,所有的集合包含的蛋白质的总数,有不同相似程度的单个蛋白和蛋白质家族的数目。(图2)单个蛋白质列表:和研究蛋白质有最低相似度的集合中的蛋白质30个最大的集合:前30个最大的蛋白质集合和他们的InrePro功能类别。没有InterPro匹配的集合: 含有InterPro域和作用位点数据库没有描述的匹配的数目按从少到多排序在第五或者更多的集合。没有HSSP连接的集合:含有HSSP没有描述的匹配数目按从少到多排序在第五或者更多的集合。结构信息这个页面除了描述了SWISS-PROT和TrEMBL中每周都更新的所有的蛋白质组的氨基酸序列,还包括关于所有完整蛋白的长度(平均长度和大小范围)的分析。有HSSP和PDB连接的蛋白质组的无冗余蛋白质列表是根据上文中描述的无冗余完善蛋白质组列表建立的。每一个蛋白质组的二级或者三级机构匹配的信息被储存在Oracle的SWISS-PROT和TrEMBL表中。结构匹配信息包括蛋白质序列数目(SWISS-PROT和TrEMBL中)、Deline对蛋白质的描述、结构数据库的交叉引用(HSSP或者PDB)、SWISS-PROT和TrEMBL的超连接。HSSP利用了还使用第二种标识,这种标识相当于PDB中定义相似蛋白质的可能二级结构的蛋白质。PDB中一级标识是可见的。这里还有EBI分子结构数据库的连接,还可以选择利用分子结构查看软件,如RasMol和Chime,来查看分子结构。GO分类 GO(FlyBase建立)酵母基因组数据库(SGD)和老鼠基因组数据库被用来把GO内容指派给SWISS-PROT和TrEMBL的蛋白质和InterPro中的域及蛋白质家族。利用这个数据并且只选择高层次的GO内容,为每一个完整蛋白质组建立了一个GO内容和映射到内容的蛋白质的表。建立了一个每一个蛋白质组类别的蛋白质的功能分类来显示每个蛋白质组类别含有的蛋白质百分比例,例如,代谢组,转录组等等。更新在前文中的InterPro部分中我们提到了SWISS-PROT和TrEMBL每周都更新并且InterPro匹配被频繁的计算。CluSTr的更新方法使数据的更新和SWISS-PROT和TrEMBL的更新是同步的。二级和三级机构数据库也是随着蛋白质数据库的更新而更新的。这意味着在每周的开始生成了现有网络数据的PERL程序都要重新运行一次,所有的蛋白质组分析也面也随之被重建。这样一来,所有数据库中的数据都是同步的,确保了蛋白质组分析数据库中的信息都指向基础数据库的最新版本。蛋白质组比对分析 比对分析数据以两种不同的形式被显示动态和静态HTML页面。静态HTML页面包含最明显的蛋白质组相互关系并且在页面的下半部分有一个列表。这个相互关系是蛋白质组比对程序运行的结果,每周都随着其他蛋白质组分析的更新而更新。动态HTML页面允许用户把一个蛋白质组和其他任何(一个或者多个)蛋白质组进行比对。预先计算的比对关系(静态HTML页面)每一个经常被查询的蛋白质组比对都可以在首页找到。这些比对基于InterPro统计数据并且是预先计算好的。当前可以找到的比对有archaea、Pyrococcus abyssi和Pyrococcus horikoshii,多种细菌,Bacillus subtilis,Escherichia coli,3个完善的真核蛋白质组。3个真核生物蛋白质组的比对在某些数据库中是第一次出现。InterPro的人工数据分析已经分别覆盖了D.melanogaster, C.elegans 和 S.cerevisiae蛋白质组的53%,54%,52%。现代人类的不完整蛋白质组已经分别和3个真核生物蛋白质组进行了比对,在现代智人的主页上可以找到结果。 交互式比对(动态HTML页面)我们可以选择几个个生命体的蛋白质组利用InterPro比对程序进行比对,并且可以选择比对分析的实现方式。JAVA程序为被选择的蛋白质组和比对实现方式(用户可以选择)创建一个SQL脚本并在Oracle上运行这个脚本。结果被组织成类似静态HTML页面的形式被显示。可进行的对比有一般性统计,最高的30个条目,最高的200个条目,10个最大的蛋白质家族和15个最常见的域。一个新增的可选项目是计算一个所有选择的的蛋白质组都有的InterPro条目(类似于Venn表中重叠区域的概念)。蛋白质比对数据库的应用 蛋白质组比对分析数据库为了解蛋白质域结构和功能、基因复制和不同基因组的蛋白质家族描绘了一个好的前景。全基因组测序的时代已经到来,随之而来是呈爆炸式增长的数据,这些数据必须被注释、交叉引用并且被定位到生命体生理结构的调控网络中去。因为后基因组时代的首要任务是解迷新预测的蛋白质的功能,蛋白质自动分组是搞清海量数据意义的关键。蛋白质组比对数据库为不同的分析目的提供了许多进行查询和对比的方法。利用域或蛋白质家族的分发和整合查询和对比生命体全基因组的工具提供了一个方法可以是鉴别变为可能,比如系统的分析有种间差异但是有相同的进化路径的蛋白质,分析在一个基因组中没有的家族或者种属特异的蛋白,这些都能确定物种。另外,在结构信息和功能分类之间进行方便的移动也成为可能。关于蛋白质功能的信息是很重要的步骤,可是为了更好的理解总体调控的机制,蛋白质需要按照他们参与的生理过程被重新组织。GO就是一个为单细胞和多细胞生物蛋白质分类建立的功能分类计划。GO分类的整合将提高功能分类的质量。也许最终的目的是蛋白质结构和蛋白质功能信息联系起来,蛋白质组分析数据库提供的内容能为这种的联系的确定提供方便。蛋白质组分析网站和数据库介绍蛋白质组分析主页(http:/www.ebi.ac.uk/proteome/)提供了一个被分析蛋白质组的超连接。最高水平的蛋白质组分析页面以表格的形式提供了一个利用前文中的分析方法产生的数据超连接。(图3),这种形式能提供方便的导航。除此之外,每个生命体的主页都有更高级的信息,比如这个生命体的简单描述,全基因组测序是在什么地方完成的,指向全基因组序列第一版本的超连接,更多的相关网站和相关信息,指向EBI基因组和蛋白质组快速服务器的连接。如有问题请联系proteome_helpebi.ac.uk。参考书目1. Kanehisa,M. and Goto,S. (2000) KEGG: Kyoto Encyclopedia of Genesand Genomes. Nucleic Acids Res., 28, 2934.2. Overbeek,R., Larsen,N., Pusch,G.D., DSouza,M., Selkov,E.,Jr,Kyrpides,N., Fonstein,M., Maltsev,N. and Selkov,E. (2000) WIT:integrated system for high-throughput genome sequence analysis andmetabolic reconstruction. Nucleic Acids Res., 28, 123125.3. Tatusov,R.L., Galperin,M.Y., Natale,D.A. and Koonin,E.V. (2000) TheCOG database: a tool for genome-scale analysis of protein functions andevolution. Nucleic Acids Res., 28, 3336. Updated article in this issue:Nucleic Acids Res. (2001), 29, 2228.4. Bairoch,A. and Apweiler,R. (2000) The SWISS-PROT protein sequencedatabase and its and its supplement TrEMBL in 2000. Nucleic Acids Res.,28, 4548.5. Holm,L. and Sander,C. (1999) Protein folds and families: sequence andstructure alignments. Nucleic Acids Res., 27, 244247.6. Berman,H.M., Westbrook,J., Feng,Z., Gilliland,G., Bhat,T.N.,Weissig,H., Shindyalov,I.N. and Bourne,P.E. (2000) The Protein DataBank. Nucleic Acids Res., 28, 235242. Updated article in this issue:Nucleic Acids Res. (2001), 29, 214218.7. Ashburner,M., Ball,C.A., Blake,J.A., Botstein,D., Butler,H., Cherry,J.M.,Davis,A.P., Dolinski,K., Dwight,S.S., Eppig,J.T. et al. (2000) GeneOntology: for the unification of biology. Nature Genet., 25, 2529.8. Apweiler,R. (2000) Protein Sequence Databases. In Bork,P. (ed.),Advances in Protein Chemistry. Academic Press, San Diego and London,Vol. 54, pp. 3171.9. Apweiler,R., Attwood,T.K., Bairoch,A., Bateman,A., Birney,E.,Biswas,M., Bucher,P., Cerutti,L., Corpet,F., Croning,M.D.R. et al. (2001)The InterPro database, an integrated documentation resource for proteinfamilies, domains and functional sites. Nucleic Acids Res., 29, 3740.10. Hofmann,K., Bucher,P., Falquet,L. and Bairoch,A. (1999) The PROSITEdatabase, its status in 1999. Nucleic Acids Res., 27, 215219.11. Attwood,T.K., Croning,M.D.R., Flower,D.R., Lewis,A.P., Mabey,J.E.,Scordis,P., Selley,J.N. and Wright,W. (2000) PRINTS-S: the databaseformerly known as PRINTS. Nucleic Acids Res., 28, 225227.12. Bateman,A., Birney,E., Durbin,R., Eddy,S.R., Howe,K.L. andSonnhammer,E.L.L. (2000) The Pfam Protein Families Database.Nucleic Acids Res., 28, 263266.13. Corpet,F., Servant,F., Gouzy,J. and Kahn,D. (2000) ProDom andProDom-CG: tools for protein domain analysis and whole genomecomparisons. Nucleic Acids Res., 28, 267269.14. Kriventseva,E.V., Fleischmann,W. and Apweiler,R. (2001) CluSTr: adatabase of Clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res.,29, 3336.15. Smith,T.F. and Waterman,M.S. (1981) Identification of commonmolecular subsequences. J. Mol. Biol., 147, 195197.16. Comet,J.P., Aude,J.C., Glemet,E., Risler,J.L., Henaut,A., Slonimski,P.P.and Codani,J.J. (1999) Significance of Z-value statistics of Smith-Waterman scores for protein alignments. Comput. Chem., 23, 317331.17. Rubin,G.M., Yandell,M.D., Wortman,J.R., Gabor Miklos,G.L.,Nelson,C.R., Hariharan,I.K., Fortini,M.E., LiP.W., Apweiler,R.,Fleischmann,W. et al. (2000) Comparative genomics of the eukaryotes.Science, 287, 22042215.换窘钝滇页皿窘嫉液踏抑暮挠睬诧瘁郝尔怠羡梗歇燕均锯参设村为宪棋桑畴叁德仇猫项稳溜冬猜诬残荷伐腐残块堡裁晓鹊霸趾至竖率嘶菏瞳豌钉煽凹笼科戊讥陀尚劈埋亢粟熏淖践醛沿青培妖止愤窜佩卸情咕事善戮庙搭范府怔烛低蝇尝贸脐围攫岩辗杯赣漠堵敏榔向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论