序列相似性工具Enzyme Similarity Tool_第1页
序列相似性工具Enzyme Similarity Tool_第2页
序列相似性工具Enzyme Similarity Tool_第3页
序列相似性工具Enzyme Similarity Tool_第4页
序列相似性工具Enzyme Similarity Tool_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、序列相似性工具引言1985年人类基因组计划首先被美国科学家提出,并在1990年正 式启动。此后,随着技术的飞速发展,现在基因的测序已经不再是需 要举世界科研之力去完成的事了,测序的方法、通量不断更新,测序 成本愈加低廉,基因组的测序也已经成了日常工作。随之而来的结果 是,数据库中全基因组的测序情况在近几年呈指数式增长,其蛋白序 列当然也是如此。数据资源的日益丰富对我们科研工作的益处不言而喻,然而一些 问题也逐渐暴露出来。编码蛋白质的序列在指数式增长,但对经过挖 掘、表征、解析功能的酶的增长速度却远远不如前者,比如截止2014 年十月29 B,TrEMBL数据库中自动注释的序列高达86,536,

2、393条, 而SwissProt数据库中手动注解的序列只有546,790条。在数据库中 或一些工具可以实现对酶的自动标注,但是保守估计基因组计划中发 现的蛋白仅约有50%的蛋白的功能的注释是可靠的。其他的蛋白序列 的功能是未知的,或者其功能注释是不正确的(1)。随着一系列基因组计划的进行,越来越多不同生物体的基因组的 大量测序,如何寻找一种更好的未知蛋白的功能解析方法或手段越来 越引起人们的重视。最近,由Enzyme Function Initiative (EFI) (2)提 供的一种酶相似性工具(Enzyme Similarity Tool, EST) (3)来帮助解 决这一问题,已经成功

3、应用在了很多具有新功能的酶的发现。1.酶相似性工具(Enzyme Similarity Tool, EST)这个工具是以网页的形式,最核心的内容就是生成的Sequence similarity networks (SSNs),,也就是这个网络工具可以生成一种蛋白序列相似性网络,可以可视化地去分析整个蛋白家族中的序列关系, 最常见的应用是将整个蛋白家族分成单一功能的蛋白簇,以便解析更 多的功能或代谢途径。1.1. SSNs的基本组成与特点在SSNs(见图1)中,最基本的元素有两个,一个是节点,一个 是边。节点是一种代表蛋白序列的符号,可以是代表一条序列,也可 以是多个蛋白序列的代表,因为数据库中

4、蛋白超家族中的序列动辄成 千上万,一般计算机的计算能力需要简化序列相似性网络。当其序列 相似性高于用户设置的参数后,两个节点所连的线,另一个元素边即 是两个节点所连的线。图1 SSNs的基本形式Fig. 1 The basic form of SSNs其实与SSNs比较类似的、比较常见的工具是系统进化树,但是SSNs与系统进化树又不一样,有着各自的特点和作用。其中系统进 化树这种工具的使用和构建需要先进行精确的序列比对,这已要求使 得他很难应用于大规模的的数据库,但是现在数据库中数据的爆炸性 增长使得常规的这些工具在进行一些全面整体的分析上面临困难。而 SSNs相比前者来说,在计算机资源方面更

5、加容易的实现去评估酶家 族中的序列关系。在可视化和操作方面,SSNs比系统进化树等工具 做的更好,更易于操作,可视化效果更好。1.2. SSNs的应用很多研究者在最新的研究中都将SSNs作为一种重要的研究工具 用于课题研究中,尤其是各种解析未知酶功能的假说中。在2013年,Hao Fan(4)等学者对酰胺水解酶家族中一个未知功能 的蛋白进行解析,主要运用同源建模和对接手段成功解析到了它的蝶 吟脱氨酶活性。酰胺水解酶超家族(AH)是一个以功能多样性为特 点的一类超家族,是常用的解析功能方法构建的一个检测模板。AH 超家族大约包括25000个蛋白,主要的反应包括磷酸酯、酯和酰胺的 水解,据估计,这

6、个超家族催化的反应超过100多种。如此众多的蛋 白序列和催化反应类型,不可能用实验的手段去解析全面,即使运用 建模对接等技术也存在一定障碍。所以作者首先运用EST得到酰胺 水解酶家族中cog0402的SSNs(见图2),并对其进行分析,选择了一 个单独成簇的小蛋白簇中的来自 Agrobacterium radiobacter K84的 Arad3529,并克隆对其进行研究,解析到了一个新的未知蛋白的功能。图2 cog0402的序列相似性网络Fig. 2 Sequence similarity network for cog0402.萜类化合物是一类结构非常多样的天然化合物,在宿主中承担着 一系

7、列的功能,但是这也给在大量基因组信息中准确精确解析萜类合 成酶的功能带来了来挑战。2015年,Poulter(5)的团队阐述了一种新的 预测萜类合成酶功能的策略。这种策略主要是一种基于同源结构的一 种算法。而这种算法最开始的工作,就是建立了萜类合成酶2子群的 序列相似性网络来进行前期的分析工作(见图3)见图。从图中可以 看出,在e-value为10-50时萜类合成酶2子群的序列相似性网络主要 分为14个簇,每个簇最少含有10个成员。一些簇很明显的主要是一 种萜类合成酶,如簇7为2-甲基异茨醇合成酶,但是同时一些簇像簇 3却含有多个功能的合成酶。对簇三在e-value为10-75生成序列相似 性

8、网络,两个不同功能的合成酶被分成了不同的簇。作者最后选择了 簇3中一个假定的pentalenene合成酶进行研究,运用算法对其进行 功能解析,并用实验验证,结果发现了一类新的萜类合成酶。Tv口巳 isnqanismFungiP1?nb$FunctionPentalenerveAvfiirfiibifil lynflhe LjnslBCiliNefiNtdd1syrrlhawB5GLM7D5SLIJ6Other known function图3萜类合成酶2子群的序列相似性网络Fig. 3 Sequence similarity network of terpene synthase-like 2

9、 subgroup注:A:e-value 为 10-50 B:e-value 为 10-75Gerlt的团队(6)在烯醇酶超家族中发现了一个独特的顺式3-羟基 -L-脯氨酸脱氢酶。Labrenzia aggrega的!基因组中编码了一个烯醇酶 超家族中MLE子群的一个未知蛋白A0NXQ8。烯醇酶超家族的特点 便是功能多样,可以催化很多不同的反应。为了了解该酶超家族复杂 的序列-功能关系,作者建立了该超家族MLE子群的一个SSNs(见图 4)。当SSNs的参数设置在e-value为10-50时,可以观察到很多簇, 这些簇中,标记为“Roseo”的簇包含该文献所研究的未知功能的酶 (UniProt

10、 ID A0NXQ8)。在作者之前发表的文献中所表征过的一个 酶Uniprot ID Q0FPQ4 (PDB 2PMQ)也在这个标记为“Roseo”的簇中, 当SSNs的参数设置在e-value为10-80时,更高分辨率下,A0NXQ8 和Q0FPQ4被分到了两个不同的簇中,所以根据SSNs所展示的该家 族的序列-功能关系,作者便以A0NXQ8为研究重点。图4 MLE子群的序列相似性网络Fig. 4 SSN of the MLE subgroup注:A:e-value 为 10-50 B:e-value 为 10-802.结语基因组计划是一个生物学发展中的一个重要里程碑,后基因组时 代的开始同

11、样对生物学乃至整个科学的发展都具有重要意义。基因组 计划后的这几年,相关学科及技术迅猛发展,大量基因序列、蛋白质 序列等数据库如雨后春笋般迅猛增长,非常明显的改变了学者在科研 中的一些实验思路和实验手段,从基础上大大推动了科研的发展。然 而,后基因时代面临的问题依然严峻,海量序列的注释、未知基因或 蛋白功能的解析的相关技术的滞后导致一些问题的发生和大量的数 据无用武之地甚至给科研工作者带来误导,所以解析未知蛋白的功能 方法和策略的探索是现在国际学者研究的热点,在蛋白质工程、代谢 工程和生物信息学中都具有重要的意义在众多技术、工具与策略中,以蛋白空间结构、分子对接为主的 生物信息学技术仍然是解决

12、问题的主流方式,而序列相似性工具是一 个操作简单,用途广泛的工具,给研究者们一个新的视角分析现有数 据库中大量的生物信息,是一个良好的辅助工具,这个工具可以利用 现代计算机的优势,大大减少实验的盲目性和科研资源的浪费。参考文献Schnoes AM, Brown SD, Dodevski I, Babbitt PC. 2009. AnnotationError in Public Databases: Misannotation of Molecular Function inEnzyme Superfamilies. PLOS Computational Biology 5:e1000605.

13、Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE, Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W.2011. The Enzyme Function Initiative. Biochemistry 50:9950-9962.Atkinson HJ, Morris JH, Ferrin TE, Babbitt PC. 2009. UsingSequence Similarity Networks for Visualization of Relationship

14、s Across Diverse Protein Superfamilies. PLOS ONE 4:e4345.Fan H, Hitchcock DS, Seidel RD, Hillerich B, Lin H, Almo SC, Sali A,Shoichet BK, Raushel FM. 2013. Assignment of Pterin DeaminaseActivity to an Enzyme of Unknown Function Guided by HomologyModeling and Docking, Journal of the American Chemical Society135:795-803.Chow J-Y, Tian B-X, Ramamoorthy G, Hillerich BS, Seidel RD, AlmoSC, Jacobson MP, Poulter CD. 2015. Computational-guided discovery and characterization of a sesquiterpene synthase from Streptomyces clavuligerus. Proceedings of the National Aca

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论