prediction蛋白质功能预测的计算机方法概述生物.doc_第1页
prediction蛋白质功能预测的计算机方法概述生物.doc_第2页
prediction蛋白质功能预测的计算机方法概述生物.doc_第3页
prediction蛋白质功能预测的计算机方法概述生物.doc_第4页
prediction蛋白质功能预测的计算机方法概述生物.doc_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Computational Approaches for Protein Function Prediction: A SurveyGaurav Pandey, Vipin Kumar and Michael Steinbach Department of Computer Science and Engineering, University of Minnesota 蛋白质功能预测的计算机方法:概述 译蛋白质是生命中最必需和最通用的大分子,对它们的功能的认识与新药的发展、农作物的收成以及生化合成如生物燃料的发展有着重要的联系。实验手段来预测蛋白质功能本身就是低通量的,已经不能用来注释在高速发展的基因组测序技术中所获得的大量蛋白质。这促使人们通过计算机技术,利用各种高通量的实验数据来进行蛋白质预测,如蛋白质和基因组序列、基因表达数据、蛋白质相互作用网络以及系统发生谱等等。事实上,在过去的短短的十年里,关于这个课题已经发表了几百篇文章。本概述的目的在于,根据这些预测方法所用到的数据类型将它们分类并加以讨论,以便对这一重要领域的发展趋势作出预测。希望本文能帮助计算生物学家和生物信息学工作者获得一个关于蛋白质功能的计算机预测这一领域的总览,并找出那些值得进一步研究的地方。关键词和短语:蛋白质功能预测 生物信息学 基因分类 多重生物数据类型 高通量实验数据 数据挖掘 基于非同源性方法1 前言52 什么是蛋白功能72.1功能分类计划(Schemes)82.2 GO是途径102.3讨论123蛋白质序列133.1介绍133.2基于同源性的注释转换:用于功能预测的优点153.3简单同源注释转换之外的方法153.3.1基于同源性的方法(homology-based)173.2.2基于亚序列的方法(subsequence-based)183.3.3基于特征的方法(feature-based)223.4讨论244。 蛋白质结构254。1 简介254.2 结构与功能有联系吗?284。3 已存在的方法294.3.1 基于结构相似性的方法(structural similarity-based)304.3.2基于三维基序的方法(three-dimensional motif-based)314.3.3基于表面的方法(surface-based)334.3.4 基于学习的方法(learning-based)344.4讨论355 基因组序列355.1 简介355.2 现有方法355.2.1基于基因组范围的同源性的注释转换(genome-wide homology-based)365.2.2利用基因邻居的方法(neighborhood)375.2.3 利用基因融合的方法(fusion)385.3 方法的比较和互补(comparison and assimilation)406 系统发生数据(phylogenetic data)426.1 简介426.2已有方法436.2.1 使用系统发生谱的方法(phylogenetic profiles)446.2.2 系统发生树方法(phylogenetic trees)466.2.3 杂合方法(hybrid)486.3讨论497 基因表达数据497.1 简介497.2 已有方法517.2.1 基于聚类的方法(clustering-based)527.2.2基于分类的方法(classification-based)567.2.3基于动态性的分析方法(temporal analysis-based)577.3讨论598 蛋白相互作用网络618.1 简介618.2 蛋白相互作用网络的功用628.3已有方法638.3.1基于邻接的方法(neighborhood-based)648.3.2基于全局最优化的方法(global optimization)668.3.3基于聚类的方法(clustering-based)698.3.4基于相关分析的方法(association analysis-based)708.4讨论719文献和文本729.1简介729.2已有方法729.2.1 基于IR的方法749.2.2基于文本挖掘的方法749.2.3基于NLP的方法769.2.4关键字搜索779.3.3标准化举措(standardization initiatives)789.3.1 BioCreAtIvE799.3.2 TREC 2003 Genomics Track819.4讨论8110 多样数据类型8210.1简介8210.2已有方法8210.2.1使用一个普通数据格式的方法8310.2.2 使用独立的数据格式的方法8610.3讨论9111 结论911 前言蛋白质是构成一个细胞的组成和功能成分的大分子,是继水之后细胞重要的第二大组成。蛋白质对应于生物体中的一些最重要的功能,如器官的构造(结构蛋白),新陈代谢所需的生化反应的催化(酶),细胞环境的维持(跨膜蛋白)。所以,蛋白质是生命中最必需和用得最多的大分子,对它们功能的认识联系到新药的发展、农作物的收成以及生化合成如生物燃料的发展。早期预测蛋白质功能的方法是实验而且经常集中于一个特定的基因或蛋白,或者一小簇形成蛋白质复合物等天然组成的蛋白质。这些途径有基因敲除、定位突变以及基因表达抑制。然而,在不要求非常细致的情况下,这些方法是低通量的而且需要大量的实验和人力来分析一个单独基因或蛋白。结果是,即便是大规模的实验注释,如EUROFAN计划,还是不能充分注释在高速发展的基因组测序技术中产生的大量蛋白。这导致序列和功能之间的空白在现有蛋白质中不断扩大。为了缩小这个差距,大量高通量的实验手段被用来研究导致蛋白质功能得以完成的机制。这些方法产生了多种有用的数据,从单个蛋白序列到复杂的高通量数据,如基因表达数据簇和蛋白质相互作用网络。这些数据提供了对一个蛋白质的功能和相关概念的不同见解。例如,蛋白质相互作用数据展示了一些蛋白共同执行一个特定的功能,同时蛋白质的三维结构决定了其它蛋白与它结合的精确位点。而且,近年来这些数据被记录在非常标准和专业的数据库里如SWISS-PROT、MIPS、DIP和PDB。人工分析近年大量堆积的数据使得生物学的发掘变得乏味和枯燥。现在使用来自生物信息学的技术已成为必要。这种方法当今迅速产生和储存的生物数据所必需的。生物信息学主要利用来自计算机科学的技术以及新发展的计算机方法来解决分子生物学和相关科学中的问题。实际上,最近更多的提到一个生物学研究的途径是通过适当的生物信息学方法来缩小研究的范围并提出假说,然后通过验证这些假说得到最后的结论。标准的序列比较工具如BLAST、数据库如PROSITE、Pfam、PRINTS等,都是生物信息学对分子生物学有好处的证据。随着计算机技术在解决一些重要问题中的成功,如序列比对和比较,基因组片段聚类等,加上蛋白质功能十分重要,大量的计算机技术也被用于预测蛋白质功能。早期的方法利用序列相似性工具如BLAST,从最相似的蛋白质中得到功能注释。之后,另一些计算机技术使用其它类型的生物数据来进行蛋白质功能预测,如基因表达数据、蛋白质相互作用网络和系统发育谱系。在短短十年里,关于这个课题已经有数百篇文章,包括几篇概述文章,试图提供不同时期的不同工作的总览。根据Hodgman的研究,这个领域的发展分为四个不同的阶段:利用BLAST进行双序列比对,使用如motif之类的序列特征,利用数据挖掘方法进行单序列分析,最后是基因组水平的序列分析。Rost等分析了生物学上的重要信号,如序列同源性,亚细胞定位,转录后修饰以及蛋白质相互作用,对蛋白质功能预测的优势和劣势。他们同时也提出了建立一个标准数据库的重要性如DIP(Database of Interacting Proteins),并且通过数据挖掘技术从这些数据库中提取有用信息。Seshasayee和Bahu概述了关于直接预测功能的技术。本文作者讨论了最为广泛的利用基因组和大规模实验数据的技术,如蛋白质相互作用网络,转录调控网络,和基因共表达网络。他们也讨论了最早用来提出一个多重数据类型的综合的技术,如marcotte。然而,对这篇文章的全面关注是对利用一个蛋白质可用的上下文关系的技术的回顾。最终,形成了关于功能基因组这一领域的一系列的概述,涉及到使用基因组信息来预测蛋白质的功能和功能相关性。除了讨论最流行的基于基因组的功能预测技术(第5章),这些文章也促进了新的使用基因组信息的方法,如基因组水平的蛋白质功能网络,和基因组序列的生物学相关特征,如核苷酸频率和重复以及调控区域,来进行功能预测。早期的使用计算机技术从不同生物学数据来预测蛋白质功能的工作已经得到了认可。尽管大量的方法都集中于发掘计算机在预测蛋白质功能的潜力,仍然有一部分通过计算机手段预测的相互作用或者功能的例子被实验所证实。Table I列出了一些在基因融合,基因邻接法以及系统发育谱(PP)等方面成功的例子(第5章)。即便多种多样的计算机技术被用来进行蛋白质功能预测,也很难弄清这一领域和知道它的优势,弱势和需求。根据它的需求,我们确保这篇概述能提供一个广泛的视角关于蛋白质功能预测。下面是这篇概览的目的和贡献:(1)提供一个包括使用各种类型的生物学数据来进行蛋白质功能的计算机预测的集合。许多提到的方法已经表明可以得到有希望的结果,另一些方法的结果用来进一步证实。(2)强调不同生物学数据之间的内在联系,并举例说明用来分析一种数据类型的思想如何是影响分析其它数据类型的思想的。例如,为了发掘基因组数据的全部潜能,了解使用蛋白质序列的方法所表达的新思想是有益处的。类似地,将多种数据综合起来分析比单个分析它们要更有用。实际上,有些好的结果总是来自于应用这种思想的方法。(3)识别这一领域的开放性问题是迫切需要的。如同现在看到的一样,这个领域中的大多数方法是特定的和有限制的,例如它们仅可用于蛋白和功能类别的特定亚集。因此,一些理论和数据方法被提出以适应更加全面的功能预测问题。(4)展示数据挖掘和机器学习(machine learning)对于功能预测的潜力,从大量的数据噪音中得到想要的结果。实际上,这一领域中的最好结果已经通过智能学习和预测技术得到。我们相信这篇概论有助于计算机学家和进行大量生物数据工作的实验生物学家。我们将每种主要的生物数据作一节,最后把这些数据综合起来进行蛋白功能预测。如下:(1)氨基酸序列(第3节)(2)蛋白质结构(第4节)(3)基因组序列(第5节)(4)系统发育数据(第6节)(5)芯片表达数据(第7节)(6)蛋白相互作用网络和蛋白复合物(第8节)(7)生物医学文献(第9节)(8)多种数据综合(第10节)在我们进行这些技术的讨论之前,有必要了解两个关于蛋白质功能的要点。第一,蛋白质功能是一个难以捉摸的概念,在分子生物学中对它的定义还有争论。所以,第2节对这个概念中的多种观点和使用这些策略的不同计划进行了详细讨论。技术上讲,一个基因的真实功能是编码一个或多个有实际功能的蛋白。然而,因为在遗传水平进行实验要相对简单,许多时候基因产物的功能被视作基因自身的功能。所以我们在下文中没有把基因功能和蛋白功能区分讨论。2 什么是蛋白功能蛋白功能的概念具有高度的上下文敏感性而且没有被很好地定义。实际上,这个概念就像一个伞状的术语一样涉及到蛋白的所有活性类型,如细胞的、分子的或是生理上的。一个蛋白的功能类型的分类已被Bork等提出。(1)分子功能(molecular function):由一个蛋白质实现的生化功能,如连接结合,生化反应的催化以及形态改变。(2)细胞功能(celluar function):许多蛋白合在一起行使复杂的生理功能,如新陈代谢通路的操纵以及信号转导,保持生物体多种成分工作正常。(3)生理功能(phenotypic function):生理亚系统的整合,行使细胞功能的多个蛋白质的结合,以及与环境刺激相互作用的系统决定了表型特征以及生物体的行为。很明显,这三个类别不是独立的,而且如Fig 1中一样是等级相关的。这也不是唯一被提出的分类。例如,Gene Ontology分类计划将蛋白功能分为细胞成分、分子功能和生物学过程。面对这样一个有多种形式的概念,我们遵从Rost提出的定义:功能是任何在蛋白中发生或通过蛋白发生的事情。实际上,我们通过考虑功能上的联系以及一个蛋白的功能信息来扩展这个概念。2.1功能分类计划(Schemes)根据上面的讨论,蛋白功能作为一个非常主观的概念出现,不同的研究者对此会有不同的观点。第一步是给这些蛋白分派自然语言标签,如同它们的功能被定义一样。实际上,这种命名习惯有时会造成完全不同的标签如:Yippe和Starry Night。很清楚,这样一个命名系统无法由一个人或者一台计算机来进行分析,因为它的可变性太大了。所以,一个标准化的功能标签计划必须确立,一些小组针对这个需要提出了一些非常新的建议。在讨论这些建议之前,有必要列出这个计划应具有的一些特性。(1)广泛的覆盖度(wide coverage):这是最重要的特性,任何功能计划都必须尽可能多地覆盖各种功能情况,在尽可能多的物种中。(2)标准化格式(standardized format):功能标签应该具有最小的可变性并且可以接受一个标准的数据结构,以便这个计划能够更容易地被计算机程序所阅读,并显著增加它们的印象。(3)等级结构(hierarchical structure):如被看到的一样,可能的功能并不形成一个平面列表,而是形成概念上的等级结构。功能分类从特定的功能到普通的功能,使研究者能够选择合适的水平来进行自己的分析。(4)类别分解(disjoint categories):功能有多种类型:细胞成分、分子功能和生物学过程。所以,一个分散的层次能够为每一种类型构建,而没有之间的联系。这使得可以选择合适的功能类型进行研究。(5)多种功能(multiple functions):将一个涉及到上下文多种生物学过程的蛋白的可能的生物学功能模型化,有必要作一个功能计划使一个具有多个功能的蛋白标签化。(6)动态属性(dynamic nature):这项计划至少不能是静态的,当新的功能知识被发现时,它要被修饰。如同被提到的,许多功能计划被提出来定义这些特性,已经被成功地运用到这些范围,每一个都有不同的领域。最早的系统计划在这个领域提出是酶分类(EC, enzyme classification),由生化和分子生物学国际联盟提出。这个计划分割了酶的分类,这些酶是催化新陈代谢反应所必需的,基于它们的化学组成,分为6组。这个分类随后又被分成3个等级,进一步指定一个特定的酶所涉及到的精确反应。然而,这个计划的局限在于,它本质上是一个对反应的分类,而不是多个催化酶的特性。在酶分类之后,许多功能计划被提出作一个更广泛的蛋白质分类。Ouzounis2003和Rison2000对这些计划作了完美的综述,列在Table II中。这些计划中的很多,如EcoCyc和SubtiList,最初是为特别的物种设计,为了研究它们的基因组和一致基因的特性。它们不久就被改进并应用得更加广泛。这些功能计划中最流行的是那些不为任何一个特定物种设计的计划,而是基于多种生物体包括真核生物中广泛具有的生物基本现象。MIPs/PEDANT是当前最受欢迎的一种计划,用来进行功能预测技术的验证,由于它具有广泛的覆盖度和一个标准的等级结构。不过,Gene Ontology(GO)是最近提出的一个功能分类系统,基于计算机科学和生物学原理,被认为是进行功能注释计划的最普遍的计划,涉及到大量的生物数据。TIGR家族是另一个被用来进行全基因组功能注释的计划。总的说来,几乎所有计划都给出了上面提到的一个功能分类计划的一个子集,涉及到其中之一的方法的证实,并给出了关于这些方法的普遍适用度的一个估计,缓解了对一个特别的标签计划的“过适”的担心。一个非常有趣的关于Table II中列出的前六种计划的一个定量比较被Rison等报道。这是一个艰巨的任务,因为所有这些计划都是独立发展,而且很难将一个与其它的比较。然而,Rison等仍提出了一个两步联合的策略来进行比较。第一步,一个结合计划(CS)被创建,通过人工定位功能簇到这些计划中的每一个,并用过滤技术消除了针对任何一个特定计划的偏见。第二步,每一个原始计划的代表性子集被挑出来,通过将CS返回定位到计划中。因而,一个关于所有计划的代表性的和可比较的版本被获得。根据评估,MIPS与CS有最大的覆盖度,表明它有最好的覆盖度和普遍性。这是对MIPS功能分类在蛋白质功能预测文献中广泛使用的定量证明。关于这个研究的另一个结论是所有这些计划与CS的总体重叠度很高,因而表明所有这些计划在概念上是相似的。这个结论被Ouzounis提出,他提出功能分类计划之间的重叠要高于结构分类计划如SCOP和CATH之间的重叠,尽管其可变性也比后者高。因此,这些研究为上面提到的计划提供了证明。根据这些计划得到的功能预测技术计划,如果处理正确,就会提供可信的结果。不过,还应该通过努力使用最好的选择。现在,如果没有对GO和它的重要特性的讨论,对功能预测计划的任何综述都是不完全的。这些特性已被大量使用GO进行不同类型的功能分类的研究所展示。关于GO的流行性的一个数字证明是GO文献学最近列出了1081篇根据Gene Ontology发表的研究,给人印象深刻。这里,我们将要提出一个详细的讨论关于Gene Ontology为什么是最合适的进行基因和蛋白功能分析的计划。2.2 GO是途径本体论(ontology)被认为是对所有重要的物体和概念的分类的系统编排,存在于这一领域的相关综述中。这个概念,最初起始于哲学,是对一定区域内可用知识进行组织的最有效的方法。由于这些优点,本体论在计算机的多个领域应用广泛,如数据挖掘,人工智能,软件工程和电子商务等。有效组织知识的能力,对生物学来说是关键的,研究是高度分散的,引导着Gene Ontology的构建。在最高水平,GO是一个功能分类系统,由三种不连续的功能本体组成,即细胞成分(Fig 2a);分子功能(Fig 2b)和生物学过程(Fig 2c),每一个都代表蛋白功能的不同方面。每个本体都是等级结构并且是一个directed acyclic graph(DAG)的模型,每个节点对应一个功能标签,每一页对应一个和一部分关系。因此,尽管GO看上去在方法论上和其它功能计划如MIPS和TIGR相似,基本的不同是GO比其它计划更加普遍。几乎所有别的计划都为特定基因组的功能注释而设计,并在随后产生。不过,GO的设计者的目的是创建一个普遍的多维功能本体,而不考虑整个基因组,因而使得GO具有广泛的适用性。这个认识中的根本区别使得GO对基因产物的功能分类重新进行了思考。有趣的是,GO提出了前面列出的一个功能分类系统所有合适的特性。实际上,它的设计理念合并了所有这些特性。下面描述的是GO如何满足这些特性,并且说明了它的多个方面和提供历史信息。(1)广泛覆盖(wide coverage):GO是三个物种特异的基因组数据库FlyBase,SGD和MGI的综合,它第一次意识到需要创建一个物种交叉的功能分类系统,去解决大量独立的基因组测序计划所造成的数据整合问题。最近,另一些数据库,如TAIR,也加入了GO合作体,所以GO的覆盖度变得非常宽广,一个广泛多样的生物系统中发生的生物现象被考虑,当给本体加上的新的标签时。关于这个覆盖度的一个证据是大量的基因组,包括人的基因组,已经被GO标签所注释。(2)标准化格式(standardized format):构成GO的本质模式化为一般的图形类别,即directed acyclic graphs(DAGs),在计算机科学中有大量的应用,如Bayesian网络,由编译器创建的编译树。这些图形中的每个节点都代表一个特异的功能标签,给每个GO格式分派一个独立的GO id,每个边界代表一个is:a或一个part:of联系。这个完美定义的结构使得GO容易被人和计算机共同使用。(3)等级结构(hierarchical structure):如Fig 2所示,GO中所有的本体都是天生具有等级结构的。不过,它比如MIPS之类的其它计划(等级模式是一棵树)要复杂得多。GO中的本体模式化为DAGs,使节点不只一个起源。这是生物上适用的,因为一个特定的功能可能是多个高级功能的一部分。(4)不连续分类(disjoint categories):GO是由三个不连续的本体所组成:细胞成分(Fig 2a)、分子功能(Fig 2b)、生物过程(Fig 2c),每一个都是蛋白质功能的不同方面。任意两个本体之间并没有连接,因而满足不连续的条件。这也是与一个分类计划的多维属性是一致的,这个计划由Riley提出,为的是分别针对一个蛋白的不同功能方面,依赖于研究的上下文(context)。(5)多重功能(multiple functions):GO的结构具有内在的多维性,如上面讨论的一样。另外,在一个单个的本体中,一个蛋白在等级化的不同水平用多个节点来打标签。每个等级定义好的结构使它既能延伸一个注释到所有祖先,或者在相反方向上归纳它们。实际上,所有根的注释的可延伸性是几种功能预测策略的基础。(6)动态属性(dynamic nature):最后但不是最少,GO是一个开放的行为,在Sourceforge网站上有一个用户界面,作为一个提交新的功能标签和其它形式的功能知识的渠道。这些提交被管理者不断地回顾并科学地勘误然后将其整合到GO数据库中。上面的计划列举了关于GO是一个成功的详细原因。这个成功不仅是由于GO的强大的理论基础,而且是因为它在功能预测方面的应用取得了很好的成果。另外,大量的蛋白功能预测策略都使用GO作为功能标签的来源,并作为证实。对功能预测的逐渐增加的计算机方法被提议将GO的等级结构整合到预测算法中。而且,迅速增加的操作GO的简易工具,如AmiGO浏览器,以及采用运行Semantic web革命的技术,也显著地增强了GO,使它前景光明。这个讨论使Gene Ontology在任何功能预测计划中的使用变清楚,不管是算法设计上的证实,还是自然地将重要的生物学概念整合到策略中,因此使GO变得更加可靠并可用,另外提供了其它优势如覆盖度和精确性的增强。这就是为什么我们要写这一节给蛋白功能预测。2.3讨论在前面的讨论中,尝试着对蛋白功能的意思作更精确的定义。不过,蛋白功能是一把概念伞,有多个面,如分子功能,细胞功能和表型功能,最合适的形式化一般是将功能看作是分等级的、多维的概念。这种模式被大量的功能分类计划所接受,有的强,有的弱一些。这一节最重要的结论是Gene Ontology相比其它分类计划的优势。它考虑了一个广泛的有价值的特性即可以提出任何在生物学上的有意义的计划。由于GO的广泛覆盖性、普遍性以及生物学索引,它有利于蛋白质预测技术将GO以一些形式整合到它们的策略中。3蛋白质序列3.1介绍分子生物学的中心法则是通过转录和翻译将基因转换成蛋白质,如Fig 3所示。这个过程的结果是一条由20个氨基酸构成的序列,是蛋白质的初级结构。这个序列是蛋白质中可用的最基本的信息格式,它决定了蛋白质的不同特性,如它的亚细胞定位,结构和功能。识别蛋白质序列最常用的实验方法是质谱(mass spectrometry),结合ProFound算法,有多种形式,如肽质量指纹图谱,肽片段化和其它比较方法。不过,这些方法是低通量的,因此,随着基因组序列的指数增长,重心转移到能够从这些基因组中识别基因的计算机方法上来。一旦一个基因被识别,一个繁琐的任务就是利用编码氨基酸的翻译密码来预测基因编码的蛋白质序列。在真核生物进行基因识别任务中,最流行的工具是GenScan和GeneParser,分别使用HMM模型(hidden markov models)和动态规划算法(dynamic programming),结合对应于一个基因结构的多种成分的信号。氨基酸序列是一个蛋白可用的最基本的信息,这些序列大量积累在几个标准数据库中。这些中最流行的是SWISS-PROT和TrEMBL数据库。SWISS-PROT是一个综合的,人工检查的数据库,它提供广泛的蛋白质信息,如它们的功能注释,氨基酸序列和关键词及特征信息等。TrEMBL(Translated EMBL)是SWISS-PROT的一个自动勘误的补充,它包括EMBL/GenBank/DDBJ中所有核酸序列的翻译的结果,以及自动的分类和注释。2006年5月2日,SWISS-PROT和TrEMBL中的条目是217551和2851442条。由于在指定的功能分类中的相联系的可信度,许多使用这些来自这两个数据库的数据的方法使用SWISS-PROT作为训练序列的来源,同时将TrEMBL子集作为测试。其它广泛的蛋白质序列数据库有MIPS,PIR和IPI。除了上面的通用数据库之外,许多组织创立了物种和类型特异的蛋白质序列数据库。Table III和IV列出其中一些。大多数这样的数据库也包含成员蛋白质的功能信息。最后,还有另外一些类别数据库给基因提供功能注释,如GDA和GenBank。信息的广泛可用性以及与蛋白序列的相联系导致在生物信息研究中的蛋白序列的使用迅速增加。3.2基于同源性的注释转换:用于功能预测的优点计算机生物学领域的第一个主要突破是序列相似性系统的设计,如FASTA和BLAST(后来增强为PSI-BLAST)。这些系统使用合适的序列比对算法,搜索标准数据库如SWISS-PROT来寻找同源蛋白,例如,在另一个物种中的相似蛋白。另外,BLAST和PSI-BLAST给数据库中每一个匹配的S产生一个E值,用来指示在与目标数据库相同大小的由随机序列组成的数据库中,找到一个比对分数等于或者高于S的可能性。这个可能性用极性分布来计算。这些系统的发展的结果是形成一个预测未分类蛋白的功能的方法,即基于同源的注释。在这个方法中,最同源的蛋白(BLAST结果E值比预定的threshold高)转换成可考虑的蛋白。尽管这个方法的早期应用产生了有前途的结果,但随后的研究发现了许多限制。造成同源蛋白之间功能不一致的最主要因素是进化中的复制,原始基因的一个拷贝吸收了一个新的功能应答于选择压力。对这类基因和它们的产物,同源方法得到的注释会产生错误的结果,这已被许多研究所证实。为了给序列同源性不等于功能一致性这个早期的显示定量,一些研究给序列和功能相似性之间的相关性估值。Devos和Valencia给这种相关性定量了四个不同蛋白质功能水平的值:酶功能分类,由酶分类(EC)号码表示SWISS-PROT关键词的功能注释细胞功能分类结合位点氨基酸的保守性。另外,这个研究的作者也对序列同源与三维蛋白结构的保守性之间的关联作了估值。蛋白的结构被认为比它的功能更加接近于序列,如第4节所讨论。实际上,结构比较被认为是给远源序列估值的黄金标准,这个估值首先来自于序列数据。在这个框架中,对E.coli基因组的估值产生的序列和功能相关性 (structure - EC number - SwissProt Keyword -Functional class - binding site) 展示了序列相似性与结构相似性的联系更加紧密,相对于功能上的相似性。这个结果与其它研究者报道的一致,所以强调了这个注释转换系统的限制。不过,从积极的层面上讲,这个方法提出一个新的路线来从序列预测功能,即序列结构功能,假定这个路线的两部分有强烈的关联性。最后,在计算机方面,注释转换技术无法精确地决定蛋白功能,有来自于数据库污染的间接影响,也经常涉及到错误的传播。自从注释的主要部分在使用注释转换技术的自动注释的序列数据库中提供,导致给功能预测技术创造了一个错误的参考设置。由此,重点从简单的比对预测功能转移到使用更加复杂的序列相似性形式。3.3简单同源注释转换之外的方法在自动的功能预测结构域中,序列被大量地使用,不管是在直接的同源比对还是间接的以亚序列和特征为基础的方法中。特别地,从序列预测蛋白质功能的技术可被归为三类:基于序列序列同源的方法,基于亚序列的方法和基于特征的方法中,下面对它们作了解释:基于同源性的方法(homology-based):如3.2节讨论的结果那样,简单同源性技术并不总是准确的。所以这个类别中的方法试图用多种手段使同源搜索过程更加灵敏,如使搜索更有可能加上从其它数据获得的证据,以获得更加精确的和可信的注释给查询蛋白。基于亚序列的方法(subsequence-based):在许多研究中,没有蛋白的全序列,而仅仅是一个片段,也对决定一个给定蛋白的功能很重要。结果,这个类别中的方法将这些片段或者亚序列当作一个蛋白的特征,并构建了一些模式将这些特征与蛋白功能定位。这些模式随后被用来预测一个提交蛋白的功能。基于特征(feature-based)的方法:最后一类方法,试图利用氨基酸序列作为一个蛋白的独特的特性,并决定它的许多物理和功能特征。这些特征被用来构建一个预测模式,能够将一个提交的蛋白的特征值载体定位到它的功能。从以上分类得到一个重要的观察是基于序列和基于特征的方法在基础水平上是非常相似的,当所有这些涉及到功能定位的模建。所以,这些类别被归为基于模式的类别,在本质上遵从图4的路线。下面是关于这个路线的三个阶段的描述:特征提取(feature extraction):这个阶段涉及一个序列的特征的定义,即用于编码蛋白质的特征。一些常用的特征是来自一组功能或进化相关蛋白的基序(motif)、功能域(function domains)、n-grams以及更多有生物意义的特征,如等电点(isoelectric point),范德华体积 (Van der Waals volume) 和翻译后修饰。特征选择(feature selection):一般地,不是所有用来编码蛋白质的特征是有用的,有些特征是噪音或冗余。为了解决这个,有些方法使用来自数据挖掘的特征选择技术,如X2和Backward Elimination。分类模型(classification model):最后,一个分类模型被构建,通过训练一个带有特征值向量的分类子和它们对应的功能分类。这个模式能够被用来分配功能标签给提交蛋白,使提交蛋白转换成它们对应的特征值向量。几种分类子在这一领域中经常使用,被称为support vector machines(SVMs),neural networks(NNS)以及naive Bayesian classifier。不过,在基于亚序列和基于特征的方法之间也存在巨大的差别,最基本的是基于亚序列的方法提取特征,如有意义的亚序列,来自一组功能相关序列的基序和结构域。另一方面,基于特征的方法提取并评估它们的特征,基于单个蛋白序列。因此,后一种方法更“直接”,相对于基于亚序列的方法。另一个相关的区别是基于特征的方法使用的特征更加有生物学意义,它们的定义基于可用的蛋白质功能知识,以及可能影响一个蛋白功能的模式因子。另一方面,亚序列如基序和结构域代表一个蛋白有生物学意义的部分,但是很难给它们加上一个特定的意义。如在随后的章节讨论的,这是基于特征的方法成功的首要原因。现在,伴随对基于序列的功能预测这一领域的高水平的观察,我们进一步讨论这三种类别的方法中的细节,基于同源性,基于亚序列的和基于特征的方法。3.3.1基于同源性的方法(homology-based)在3.2节讨论了从最同源的序列得到的简单注释转换并没有产生非常精确的结果,原因是蛋白质序列和功能之间的微弱联系。这一节讨论了一些使这个技术更加精确的手段,通过多种方法使用同源搜索过程更加灵敏。GeneQuiz是第一个完全自动的系统用于序列分析和注释。GeneQuiz的注释模块使用标准序列比较系统如FASTA和PSI-BLAST,也执行额外的功能如序列过滤去识别一条序列最重要的部分,使用一些方法如:模型发掘、多重比对和结构推断。所以,这个系统既利用off-the-shelf软件来进行功能预测,也给推断加上多个证据。结果是对提交蛋白的功能的更可信的估计。PEDANT和Auto-FACT是另外的基因组数据库系统集中相似的目标,基于相似的技术。这些系统一起完成一个整合的序列比较分析,经常包括来自其它物种的蛋白。基于同源性功能预测的下一个主要发展是将Gene Ontology类别整合到注释过程中。GO的使用使这个过程标准化,因为物种独立和等级结构功能类别被使用。随后,许多基于同源性的注释系统基于这个思想提出,如GOblet,OntoBlast,GOFigure和GOAnno,本质上是基于相似技术的注释技术的简单延伸。GOtcha是一个更加精密的系统,使用GO等级结构来发现一个提交序列的最贴切的注释。这个过程,首先BLAST搜索多个物种发现一组同源,为这些同源设置的注释按照一组类似GO的DAG排列。基于各自注释的发生频率和相应匹配的E值,一个新的计分P-VALUE用于计算每一个注释。这个打分作为一个可信度的手段发挥作用,给每个提交序列的注释加上这个术语,因此,最后一组注释由简单地开始这个打分反馈回来。D.melanogaster的实验表明结果更加灵敏和特异,比那些通过最高BLAST匹配的注释转换得到的结果。所以,与更早的系统比较,GOtcha更好地将GO分类整合到注释过程中。除了直接的注释转换,序列同源已被用于更间接的方法对功能预测。Abascal和Valencia讨论一些问题关于传统的注释过程,如下:通过“经典的”注释策略将功能预测错误介绍给标准蛋白数据库。一个序列中多个结构域的存在,有助于蛋白质的功能预测,因此,考虑一个蛋白的结构域,对任何功能预测策略是必须的。不同功能注释的细节水平之间的矛盾。为了解决这个问题,Abascal和Valencia以及Xie等提出了一个多步骤的策略用于功能注释,从提交序列开始。Fig 5展示了在这两个研究中采用的基本策略的流程图。这个算法从一个相似性矩阵的构建开始,这个矩阵存储在原始训练组中的蛋白序列之间的BLAST相似值。这个矩阵然后被用来对这些序列进行聚类,在这些方法中,一个序列的注释不是依赖于单个的同源序列,而是一个许多这种序列的簇。这使得这个过程对单个entries中的错误更加有力。然后,在一个更高的水平上,这两种方法使用同源检测仅作为完整注释过程中的一个中间步骤,因此,减少了与传统注释过程相关问题的影响。基于同源的功能转换被更新的另一个方向是使这个过程更加可能。Levy等通过假定一个蛋白只属于一个功能类别,如果这个类别的成员的BLAST打分与这些成员自身的打分相同。为了模型化这个假说,一个单变量和一个多变量的概率计划被提出。前一个计划简单基于目标蛋白的总分,通过将这个蛋白分配到一个可能的组别。不过,这经常会导致不明确的结果,所以这个计划延伸到一种多变量计划,通过对构建一个打分载体给所有目标蛋白的所有类别,并将它与每一组中的分布作比较。一组酶中的结果显示一个90.6%的高精确性。不过,这些结果表达了这样一个事实,即酶功能与它们的序列联系更加紧密,比其它的蛋白。而且,这些计划被希望用于非常特别的类别,例如,GO的最特异水平,当更多的普通类别之间有显著的覆盖,因此预测可能变得模糊。所以,在这个方向上需要更多的工作对它的概念问题的基于同源的预测有帮助。3.2.2基于亚序列的方法(subsequence-based)全序列的特异部分对蛋白质行使功能是关键的。一个相关的例子是一个基因序列中的外显子,是一个被翻译成一个氨基酸链的子链,以及内含子,来自翻译的亚序列,所以并没有一个清晰的功能在序列中。因为,为了清楚地将一个蛋白功能模型化,许多方法试图定义蛋白序列的有用部分,可能有助于蛋白功能的完成。这一节回顾了许多这样的方法。不过,这些方法定义了不同途径的有用部分,一些定义被讨论。在继续这个讨论之前:基序(motif):基序作为亚序列被定义在一组蛋白序列之间是保守的,属于一个家族。由于它们的保守性特征,它们是蛋白中功能位点的候选子,如连接结合,DNA结合以及与其它蛋白相互作用的位点,因此可作为线索预测一个蛋白的功能。结构域(domain):假定一个蛋白行使多个功能是由于蛋白序列的不同区域有不同的结构和功能定义。这些区域已知为功能结构域,一个蛋白的功能是每个这些结构域的功能的集合。不过,这会引起多结构域问题,现在识别一个蛋白序列中的所有结构域对完全阐明其功能是很重要的。上面的定义表明识别结构域和基序能被用于预测蛋白功能。如前面提到的这些亚序列提供的一个新的编码蛋白的途径,根据一条序列中存在的是否编码一个特定的基序或结构域的特征,以及一个期望匹配的可信值。一旦这样一个特征载体被用来计算目标组中的每个蛋白,多种统计和数据挖掘技术,如分类,可以被使用。基于这个思想许多技术被提出,首先是Hannenhalli和Russell(2000)。这个方法试图识别一条序列上最好区分一个特定功能或亚型的区域。这个可以通过识别在一个家族S中多重蛋白序列比对的位点,并找出每个位点相应的熵,带有S和S-。最有辨别力的位点是那些有最高的总的熵值,在每个被考虑的家族中。因此,一旦这组可分辨的位点(特征)被构建,一条新序列的分类被执行,使用HMMER程序。四个特定酶类别和42个pfam家族的实验表明这个方法几乎一直比HMMER有更高的精确性,尽管这个区别不是非常高。Wang等提出的解决办法代表了一个n-gram和基于基序方法之间的中间位点,自从他们使用这些类型的特征进行分类,使用一个Bayesian神经网络(BNN)。使用的特征编码两类相似性在序列之间,命名为全局的和本地的相似性,分别通过n-grams和基序模型化。合适的特征选择技术也被用来减少特征的总数。最终的分类使用结果特征来执行。一组四个来自PIR数据库的超家族中的结果比BLAST和两个SAM版本更好。不过,对每一类别,一个负类被使用,可使分类更加简单。然而,这个研究表明结合基于基序的特征与基于序列的特征对蛋白质分类的价值。一个完全地基于基序的策略曾被Liu和Califano采用。这是一个直觉的方法用来将蛋白按功能家族聚类。因为基于作为普通家族成员的强烈信号,一个给定序列组被定义,按照基序存在或缺失,从SPLASH算法得到。开始的一组基序是精确的,并延伸到去发现一个特定的有统计显著性的基序的数量。一个管理严密的树随后被构建,通过将每一个节点上的蛋白按它们是否包括下一个最重要的基序来分开。获得的树叶假定包括属于相同功能家族的蛋白,代表一个管理严密的序列聚类。根据G蛋白受体(GPCRs)的使用证实,一个分类概率在57-72%之间是成功的。这是一个可信的方法,当GPCRs被认为是一个高度多样性的家族,在序列水平,因此很难使用自动方法来分类。一个非常相似的方法存在于Wang 2003中,它提出使用蛋白可能包含或不包含的基序来对蛋白进行定义。不过,这个方法不同于Liu and Califano 2001,那是个管理的方法,训练例子在那里被打上功能类别的标签。因此,一旦蛋白被转换成上面方法中的二进制向量,一个决定树就在训练组中构建,并用来作测试组的分类。使用人工检查的蛋白家族(来自MEROPS database)和基序(来自PROSITE database)来训练能够给这个方法一个明显的界定,按照分类准确性。另一个基于基序的方法对蛋白质分类是使用神经网络(neural networks)见Blekas 2005,那里提到两种使用基序的途径:类别独立的基序(class-independent motifs):基序从整个训练序列组中提取。类别依赖的基序(class-dependent motifs):基序从每个类别中分别提取,然后再组成一个全局。在两种情况中,MEME算法被用来提取30个这样的基序来构建每个序列的向量,然后被送到神经网络来建立一个分类模型。在PROSITE实验中,发现分类依赖的基序形成最好的编码策略,期望是基序的计算更具有分类敏感性。对GPCR超家族的分类来说,这个方法被展示超过SAM和MAST,对应于ROC50手段。不过,现在将简单Bayesian分类子与X2特征选择程序结合是对GPCR超家族最有效的技术。这个工作在3.3.3节中讨论。一个精确的机器导向的基于基序的蛋白分类研究在BenHur and Brutlag 2005中报道。这里提出了一个motif kernel,简单使用一条序列中每个基序的发生数,作为基序和序列之间的一个相似性手段,用于SVM的分类。另外,这篇论文也研究了如SVM的特征选择,使用SVM的多重分类,以及蛋白质的多功能属性。最理想的构造被决定由三方面组成:(i)使用RFE方法的特征选择Guyon 2002(ii)结合许多个分类子(iii)计算一个蛋白的多重分类作为一个类别。在这个理想的构造中,基于一组酶数据,结果表明SVM比KNN分类子更好。尽管在整个应用中酶不是最好的标准尺度,一个SVM的执行使用一个基序kernel将对未来的基于基序的方法是有价值的。然而另一个方法报道基于基序的酶SVM分类的好的结果,由Kunik2005展示。上面的描述展示了基于基序的方法从序列基序可能代表一个蛋白的功能单位,这一思想起始经历了一个长的过程。不过,一个更直接的关于这些单位的近似是蛋白质结构域,它用于功能预测的任务在下面讨论。最先使用结构域作功能预测出现在Schug 2002的简单策略中。在这个分类中,结构域从两个标准数据库中提取,ProDom和CDD(保守结构域数据库),功能分配的规则基于BLAST搜索构建,并基于一组从三个基因组中获得的11679个GO注释蛋白,这三个基因组是D.melanogaster,M.Musculus和S.cerevisiae。将这些规则应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论