版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
后基因组时代的生物信息学第1页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院2§8.1
引言随着人类基因组计划的顺利进行,人类全基因组测序工作已经完成。测序工作的完成并不代表基因组计划的结束,相反标志着“后基因组信息学”的开始。基因组学研究也由结构基因组转向了功能基因组的研究,通过对基因组的分析来了解生物体的功能成为后基因组时代的主要目标。第2页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院3人们愈来愈认识到,基因与蛋白质很少单独起作用,它们倾向于组成相互作用网络来行使生物学功能。特别是我们看到这样的局面,鉴定了基因组大部分基因之后,我们仍然无法仅仅凭序列信息来推断基因的功能。对功能的研究必须分析其相互作用的网络,或者更准确地说,把基因组或蛋白质组看作一个系统来进行分析。第3页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院4所以,后基因组生物信息学有时也称为功能基因组系统学。功能基因组系统学的出现,是生物信息学领域的一个重大变化,它由主要以整理、储存、分析生物学数据或知识转变为综合多种生物分子及其相互作用的知识来了解生物系统的功能。第4页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院5后基因组生物信息学在研究方法上的重大变化也标志着生物学的研究正在经历一场革命。如果说过去生物学研究主要以生物实验来进行,那么对于具有复杂网络的系统功能的分析,离开了理论分析和指导,几乎无法进行实验。因此,生物学尤其是分子生物学的研究方法将转变为在理论分析的指导下,将实验与理论相结合的研究过程,理论生物学的出现就成为必然。第5页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院6基因组信息学是为了处理基因组计划产生的大量数据而诞生的,它的主要任务是支持实验工作。后基因组生物信息学是以综合为特征的,其研究意义比基因组信息学更为深刻。后基因组生物信息学定义为对一系列生物学知识的综合,包括从基因组信息到对生命基本规律的理解等方面。如果说,基因组信息学是以对各种生物分子进行分析,获取有关生物知识的话,则后基因组生物信息学的研究使我们进入对生命基本规律的认识。第6页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院7§8.2后基因组生物信息学基本概念8.2.1历史的机遇当前生物学的状况可以类比17世纪时的物理学,正处于科学公式化的阶段。生物学仍是一门经验性学科,只拥有很少的原理来预测各种生物学现象。19世纪开始的遗传细胞学技术,20世纪发展起来的分子生物学最终使收集生物学基本数据成为可能。人们期望随之会产生类似开普勒定理的经验规律、类似牛顿定律的基本原理和类似玻尔H量子论的重要理论。第7页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院88.2.2生物还原论与生物综合论还原论成为20世纪后半叶生物学发展的主流。按照还原论的方法,为了研究生物系统某一方面的功能,只需寻找并鉴定出与此功能直接相关的基因或蛋白质即可。基因组计划揭开了综合论研究方法的序幕。综合论方法研究基因和各种生物大分子是怎样通过网络调控方式形成一个生物系统的。虽然还原论方法研究生物学问题取得巨大成功,但在后基因组时代我们需要综合全部生物信息重构生物体,综合论研究思路将成为生物学研究的主流。第8页/共101页图8-1生物学研究中的还原论和综合论方法第9页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院10物理学和化学中,基本粒子如何组装成物质,元素如何组成化合物的一般规律已经被发现。但在生物学研究中,我们还未能取得这种令人鼓舞的进展。实际上,我们至今还不清楚基因组上的信息是否足以建立一个完整的生物体系。在物理学基本粒子的标准模型中,包括有两类基本粒子:物质组成和作用力介质。换句话说,只有各组成部分的信息是不够的,各部分之间的相互作用信息是非常重要的(如物理学中作用力介质)。基因组包含了其组成部分的信息,但很难说它含有各部分间相互作用的信息。第10页/共101页图8-2物理学、化学和生物学的基本原理对比第11页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院128.2.3层次抽提除相互作用概念外,层次抽提是另外一个重要的概念。如图8-3所示,半胱氨酸在原子层次上是由碳、氮、氧、氢和硫原子组成的网络结构,但是在分子层次上,则被抽象为字母C,同其它19种抽象过的字母(氨基酸)一起构成了蛋白质一级序列。在网络层面上,蛋白质被抽象为一种符号,Ras,各个符号(蛋白质)之间的连线代表着一种通路。后基因组生物信息学的一个重要思想是从分子网络层次研究生物学。第12页/共101页图8-3层次抽提的概念第13页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院14传统生物学关注的是一个一个的通路,而后基因组生物信息学则希望研究各个通路之间的相互作用,构成一个复杂的相互作用网络,从而从更高的层面上理解生命过程。通俗地说:传统生物学看到的是树木,后基因组生物信息学则看到的是森林。图8-4为细胞内多种信号传导通路在相互作用网络视角的示意图。图8-5显示了构建网络的部分方法。第14页/共101页图8-4在网络层面对细胞内生命过程的理解第15页/共101页图8-5构建网络的方法示例第16页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院17网络从结构上可分为指数式网络和自由标度网络。指数式网络是均匀的,大部分节点有近似相同的连接数。自由标度网络是不均匀的,大多数节点只有一个或两个连接,但少数节点有大量连接,从而保证系统是全部连通的。第17页/共101页图8-6指数式网络和自由标度网络的差异第18页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院198.2.4后基因组生物信息学的重大挑战后基因组生物信息学是生物信息学中具有极大挑战性的领域。给定一个生物的全基因组,剩下的问题就是如何在计算机上重构这个生物体的功能体系。这个问题包括对所有组成部分(基因和其它生物分子)之间连线(相互作用)的预测。传统的看法是基因组是生命的蓝图,包含了构建生物体的全部信息。第19页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院20但现在更加合理的看法是基因组只是细胞中分子之间相互作用的整个网络的一部分。基因组只是细胞指令的大仓库,相互作用网络本身才是那个所谓的指令系统,这个系统遵循固有程序引导发育过程,并产生生殖细胞。后基因组生物信息学是以对一系列生物学知识的综合为特征的。是在网络观点下、在分子网络层次上研究和理解生命的基本规律。第20页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院218.2.5后基因组研究对象的多层次性后基因组研究对象是多层次的,人们从包括基因组(Genome)、转录组(Transcriptome)、蛋白质组(Proteome)、相互作用组(Interactome)、定位组(Localizome)、折叠子组(foldome)、代谢组(Metabolome)、表型组(Phenome)等方面,从组的角度研究各类生物学过程。如果说基因组问题涉及遗传图谱(Geneticmap)、限制性图谱(Restrictionmap)和物理图谱(Physicalmap),那么其它所有的组涉及功能图谱(Functionalmaps)。第21页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院228.2.6功能基因组发展趋势功能基因组学发展的一个最新和重要领域是系统生物学(SystemsBiology),系统生物学研究问题有如下三个特点:1、更好整合生物过程不同阶段的分散数据如整合基因组、转录组、蛋白质组和代谢组的数据,得到对生物学过程的总体认识。另外一个方面是为了满足整合数据库的复杂查询。2、对复杂生物过程的更好模拟包括蛋白质折叠和复杂系统建模(如信号/代谢通路和发病机理)3、生物过程动态研究从一个通路的成分到一个通路的动力学第22页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院238.2.7系统生物学研究框架要解决生物体重构问题,首先要用计算机将有关相互作用的生物学知识计算机化,然后设计一些新实验。图8-7描述了功能基因组学实验,在这些实验中应用了活细胞对于各种环境变化的应激反应,还融合了全基因组序列和不完全的生物学知识,所有这些都被用来揭示潜在的相互作用关系。利用这样一个全新水平的信息技术,也许将来的某一天我们可以解决生物体重构问题。第23页/共101页图8-7系统生物学实验框架第24页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院258.2.8功能基因组系统学正如前面所述,在相互作用网络背景下阐释“功能”是功能基因组系统学的一个主要特点。另外一个特点是复杂系统的思想,把生物体看作一个复杂系统进行研究。主要有三个特征:1多层次数据整合
整合包括基因组、蛋白质组、转录、表达和调控路径等方面数据2系统的复杂性特点具有复杂系统的自组织、自调控和突变等特点3信息学分析采用信息学方法对多种数据进行分析是功能基因组系统学的又一特点第25页/共101页图9-8显示了基于信息学方法、整合多层次数据在网络层面研究细胞内复杂生物过程的基本思想。图8-8基于知识的网络预测第26页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院27§8.3分子相互作用的网络分析8.3.1“功能”的新涵义在单个分子层次,比如说当一个氨基酸序列与那些蛋白质激酶高度相似时,可以认为其功能被鉴定出来。在细胞功能层次,只有当对应的被磷酸化的靶蛋白被鉴定出来,甚至需要弄清楚该蛋白在生化途径中扮演的角色,才说其功能是已知的。现在认为功能是分子间相互作用或相互作用关系的一种属性。第27页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院288.3.2后基因组时代对功能的理解变化分子生物学中心法则总结了序列水平遗传信息的流动:热动力学原理建立了单个蛋白质分子遗传信息的流动方式:第28页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院29传统的观点认为,这种流动是在适宜的生理条件下自发产生的,基因组本身包含蛋白质结构的所有必需信息。这些观点过于简单并有太多的还原论色彩,任何一种生物学功能都涉及分子相互作用网络,分子相互作用信息比单分子信息更加重要。因此,必须从新的角度理解信息的流动。启示:应该在更高的分子网络而不是单个分子层面分析生物学功能。第29页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院308.3.3分子相互作用的网络分析
分子网络在单个分子层面,生物学功能信息编码在序列信息里,即在核酸和氨基酸序列里。在分子网络层面,生物学功能信息编码在分子相互作用网络信息里。我们在一般意义上定义“网络”这个术语。网络包含元素和元素之间的二元关系(图8-9)。元素可以是分子或基因,二元关系是分子相互作用、遗传相互作用或其他的两个元素之间的关系。第30页/共101页图8-9网络表示。网络包括一组元素(点)和一组而元关系(边)。第31页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院32
网络的分类网络可以分为两类,一类来自生物学知识,另一类来自对二元关系的计算。通路是分子相互作用形成的网络。如代谢途径、信号转导通路、细胞循环通路、发育途径及其它调控途径。分子复合物也是一种分子相互作网络。基因组是基因的网络,表示基因在染色体上的物理次序。第32页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院33图8-9也显示了通过二元关系计算得到的网络。近邻表示特定分子或基因的相似关系。序列相似性分析是典型的近邻网络的例子—查询序列与多个序列通过序列相似性的二元关系相互连接。聚类表示完整的一类分子或基因的相似关系。典型的例子是通过聚类分析获得分类,所有成对元素的相似性分数在某种程度上用来确定相似性分类。层级树是层次聚类分析的结果,不断改变序列相似性阈值得到不同的聚类结果。第33页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院34
网络的比较网络是一个图,是顶点和连接顶点的边的集合。图G包括顶点集V和边集E,G=(V,E)。图8-10显示了网络比较的例子:通路—通路、通路—基因组、基因组—基因组以及聚类—同路的比较。生物学比较问题就简化为寻找两图之间的共同子图或同构的子图。假定我们希望知道来自不同物种的两个生化途径是否具有任何相似性,这不是简单地基于单个分子的序列相似性而是基于分子之间的连接线路模式的相似性。这可被称做局部通路比对。第34页/共101页图8-10网络比较的例子第35页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院36在分子网络比较问题中(图8-11),假定两个图中有结点的对应关系,我们希望确认局部相关的区域。图9-11为已知两个网络及其对应关系下的一种启发式网络比较。让我们考虑两个图G1=(V1,E1)和G2=(V2,E2)第36页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院37和一组对应关系。一般来说,一个图中的结点可以对应于另一个图中的多个结点,对应关系还可以是多对多,但是所有的对应关系仍然用成对(二元)关系来表示。如果集合包括n对对应关系,问题就变成依据一定的距离来对这n个数据点进行聚类。聚类后可以发现在通路意义下的对应关系,显然和一般的序列比对有本质的差别。网络比较在更高层次给我们提供两个系统的相似或对应关系,使我们可以在系统水平、网络层面对生物过程进行分析。第37页/共101页图8-11网络比较的启发式算法第38页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院39
二元关系和演绎一条边表示一种二元关系,一条路径是一种推导步骤,一个图是所有可能的推导步骤组成的完整网络。一旦不同类型的数据和知识依照二元关系组织起来,它们可用于路径的自动计算。下表是三种二元关系的总结。相关的二元关系被分成三种类型:事实关系、相似性关系和功能关系。事实关系表示不同数据库录入的数据之间最繁琐的连接,以交叉参考的生物学数据库形式储存。通过序列或结构数据库的比较,计算得出相似关系。更为重要的二元关系是以相互作用形式多样体现的功能关系。第39页/共101页关系类型内容举例事实关系数据库录入数据事实数据和文献数据核酸序列和氨基酸序列蛋白质序列和三维结构相似性关系计算相似性序列、三维结构相似性计算互补性三维结构互补性功能关系分子反应底物—产物关系分子相互作用分子通路,分子复合物遗传相互作用正向共表达基因负向共表达基因染色体关系基因位置相关性进化关系直系同源和共生同源基因表8-1二元关系类型第40页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院418.3.4几个应用实例元素是分子和基因,二元关系是分子相互作用、遗传相互作用和其它分子或基因的相互作用。网络是KEGG(基因和基因组京都百科全书,http://www.genome.ad.jp/kegg)最独特的特征。表8-2总结了不同类型网络的实际应用。通路图包括代谢途径、调控途径和分子复合物的信息。基因组图谱是染色体上基因的一维网络。表达图谱表示基因组中所有基因依赖于环境和时间的表达,其中包括基因调控网络如正向和负向共表达基因的聚类。直系同源组的表达是不同生物体中属于同一功能单元的直系同源基因的集合。第41页/共101页网络类型KEGG数据内容通路通路图谱代谢途径,调控通路,复合物基因组基因组图谱基因在染色体上的位置比较基因组图谱聚类表达图谱微阵列差异基因表达谱近邻直系同源组表通路种基因功能单元层级数基因分类基因的层次分类生物学分类分子的层次分类疾病分类疾病的层次分类表8-2KEGG中的网络数据表示第42页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院43图8-12显示:一组在基因组中位置相关的基因对应于代谢途径的一个功能单元。通过基因组—通路比较可以发现这一点。第43页/共101页图8-12基因组-通路比较,基因组物理位置上关联的基因与代谢途径中
功能上关联的基因产物之间相关第44页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院45图8-13显示了一类特定类型蛋白质,/折叠蛋白在代谢途径中搜索的结果,这是KEGG中另一种网络比较即层级树—通路比较的例子。它表明结构相似的酶催化连续的反应,提示基因复制在代谢途径形成中的作用。第45页/共101页图8-13层级树—通路比较,显示进化上关联的基因和代谢途径
中功能上关联的基因产物之间相关第46页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院47从全基因组预测完整的生化网络的网络预测问题是极具挑战性的课题。和基于知识的蛋白质结构预测一样,基于知识的生化网络预测也有望随着已知生化途径和复合物知识的积累变得愈来愈有效。下表比较了结构预测和网络预测问题。第47页/共101页蛋白质折叠问题生物体重建问题预测结构预测—从氨基酸序列预测蛋白质结构网络预测—从全基因组序列预测完整的生化网络知识已知的蛋白质三维结构已知的生化途径和复合物基于知识的预测反向折叠(Threading)网络重建从头预测能量最小化路经计算扰动状态预测蛋白质工程通路工程表8-3蛋白质折叠和生物体重建问题的比较第48页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院49§8.4几种生化网络8.4.1代谢网络代谢网络粗分为中间代谢和次级代谢:中间代谢是反应途径的核心部分,在许多生物体中是保守的。图8-14显示中间代谢的核心部分:糖酵解、三羧酸循环和戊糖磷酸途径。每个节点是一个化合物,旁边显示其名称,每个边是化合物之间的酶催化的化学反应。第49页/共101页图8-14将糖酵解、三羧酸循环和戊糖磷酸途径看作化合物网络。每个圆
圈表示一个化合物,圆圈内部数字表示该化合物的碳原子数第50页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院51这些核心途径不是一个孤立的网络。它与其它代谢网络有大量的连接,还有一些与细胞转运系统连接。带阴影的节点是12个代谢前体,是中间代谢中许多重要的生化合成途径的起始点。第51页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院528.4.2基因组视角代谢网络代谢是化合物网络,也是酶的网络。图8-14的糖酵解网络部分用酶的基因符号表示就成为一个代谢的基因视角网络。这里,一个结点是一个酶,用标有EC编号的方框表示。一条边是两个酶的连接,包括两者之间的化合物,分别为一个酶的产物和另一个酶的底物。由于每个生物体中酶的网络等价于编码酶的基因的网络,这个图示在把基因组信息添加到代谢途径知识上最为有用,有助于推导生物体的代谢情况。第52页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院53图8-15中所示的糖酵解途径中,代谢途径中有三段是位置相关的成组基因。从丙酮酸到乙酰辅酶A,最后一步反应被EC、2和等3个基因产物催化,他们都在一个操纵子结构中。第53页/共101页图8-15将糖酵解看作酶的网络(基因的产物)。每个方框是一个酶,方框里
面是EC编号第54页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院558.4.3蛋白质相互作用网络代谢是生化途径中一个相对熟知的部分,除了次级代谢外,它可用小分子化合物之间的化学反应的简单逻辑来解释。相比之下,有许多其它有待确定的各种各样的网络,尤其是来自全基因组序列的分析。这些途径涉及到蛋白质相互作用,比简单的化学反应远远复杂。第55页/共101页图8-16蛋白质相互作用的概念归纳第56页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院57研究所有不同分子之间的相互作用是一项极其复杂的任务。我们这里做一个简化,只考虑蛋白质的二元相互作用,这可能是研究代谢网络的可行办法。图8-16显示了蛋白质二元相互作用的概念。有蛋白质之间的直接相互作用如结合意义下的相互作用,包括生物大分子复合物的形成,磷酸化的共价修饰,糖基化等。有蛋白质之间的间接相互作用,如两个酶由连续的化学反应间接地相互作用。另一种重要的蛋白质之间的间接的相互作用类型是基因表达,一个蛋白质的信息被传递到另一个蛋白质要经过依赖分子模板(基因)的蛋白质的合成过程。第57页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院58图8-17显示了从全基因组序列预测或重建蛋白质相互作用网络的策略。首先,所有生化网络的知识保存在一如KEGG的参考数据库中。然后,参考基因组中基因的类别进行基于知识的预测。接着,依据二元关系集合的路经计算,预测网络。第58页/共101页图8-17从基因组信息重建网络的策略第59页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院608.4.4基因调控网络基因表达调控网络的概念是遗传决定论的自然延伸。这种观点认为特定基因表达的有序网络决定诸如一个胚胎如何发育或一个细胞如何应答外界刺激。基因组不仅包括基因的模板,也包括决定基因表达网络的调控信号。第60页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院61相比之下,现在的观点恰好相反。基因表达是蛋白质相互作用的一种方式,细胞用它来限制和选择蛋白质。调控信号是恢复蛋白信号的指令。何时、何地以及如何恢复这种指令由细胞中相互作用分子的网络决定。第61页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院628.4.5复杂系统生命本质上是一个开放体系,如果将生物体隔离于动态环境,必然产生生物体是稳定的结论。以蛋白质结构预测为例,现在更倾向于认为结构是分子相互作用动态过程的一部分。第62页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院63二元关系和演绎(路径计算)的概念和它在KEGG中的实际应用,可能仅仅是对基因组和生化网络静态方面的应用。目前,已有模拟代谢网络的时间依赖行为的尝试,例如微分方程组和Petri网络。生物网络的集体行为来自网络中以及与动态环境的复杂的非线性相互作用,我们有必要揭示这种相互作用并理解网络行为的一般规律。第63页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院64后基因组信息学研究定位在分子网络层面,从分子或基因相互作用网络的角度来理解单个细胞的行为。相互作用网络的构建及网络一般规律的理解将成为生物学的主流。这实际上是所谓的复杂系统的一个例子。最终,生物复杂系统自组织的高级层次如脑功能、生态学乃至人类文明,可能都与基因组信息学相联系,从而成为后基因组生物信息学的主题。第64页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院65系统结点边蛋白质三维结构原子原子相互作用生物体分子分子弹相互作用脑细胞细胞相互作用生态系统生物体生物体相互作用文明人人相互作用表8-4复杂系统的示例第65页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院66§8.5蛋白质—蛋白质相互作用研究进展8.5.1研究意义蛋白质—蛋白质相互作用在诸如DNA复制、转录、剪切和转译,到分泌、细胞周期的控制、代谢、细胞宏观结构和酶复合物形成等生命过程都是一基本问题。大的细胞结构如细胞骨架、有丝分裂、纺锤体的形成,小的结构如核仁、中心体和着丝点的形成等过程中,蛋白—蛋白相互作用都起着关键作用。除此而外,还有大量短暂蛋白—蛋白相互作用控制或调控许多细胞过程。第66页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院67例如,激酶、磷酸酶、糖基转移酶、酰基转移酶和蛋白酶等其作用物时间均很短暂。这种蛋白修饰酶涉及到大量基本生命过程,如细胞生长、细胞循环、代谢途径和信号转导等。第67页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院68蛋白—蛋白相互作用还与疾病有关,因此这一问题的研究还有潜在的医疗价值。与基因组相比,蛋白质组更加易变。蛋白质形成大的相互作用网络,进行调控和相互支持。为了理解细胞的机制,简单地罗列蛋白是不够的,必须搞清楚全部的相互作用。第68页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院698.5.2实验手段传统地有遗传学、生化、生物物理等技术。最有效手段是酵母双杂交系统,还有关联mRNA表达谱,二维凝胶电泳,生物质谱仪分析蛋白复合物。外加从基因组上下文比较预测的相互作用(基因融合、基因近邻、基因共存和形态发生等方法)。已研究酵母、幽门螺杆菌的相互作用谱,也有人发展软件用图更加直观地图示这些网络。第69页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院709.5.3理论方法由于实验技术不仅费时、强度大、假阳性大,而且远远不能满足理论工作的要求。所以,有必要发展理论的预测方法,预测蛋白质对间有无相互作用。第70页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院71结构基因组学方法基本思想:如果两蛋白或两蛋白功能域的相互作用模式已知,那么可以推测:其它结构同源物(特别是具有结构相似的活性位点)之间也会有同样的相互作用。第71页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院72Park等分析了PDB库中多肽链内功能域间的相互作用。他们用5个小于5Å的原子间的接触作为阈值确定PDB输入条中SCOP功能域间的相互作用。在1.48版SCOP库中,已知结构蛋白的功能域分成771个超家族。其中,334个不同超家族的278种相互作用发生在同链功能域间,91%的超家族仅与一个或两个超家族有联系。也有少数复杂情形下,一个超家族会与多达14种不同的超家族有联系。用Park工作可以预测结构未知的多肽链中功能域间的相互作用。第72页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院73
从基因组序列预测过去两三年来,已发展了一系列从基因组序列预测蛋白间相互作用的方法。大致归纳为三类。(1)从基因表达水平的关联预测思路:如果两多肽链为同一蛋白或蛋白复合物的一部分,它们常常作为相互作用对在DNA水平一起表达或调控。方法:通过基因关联表达数据的分析可以预测同一蛋白或蛋白复合物中多肽链之间的相互作用。使用范围:该法只适用于同一蛋白或蛋白复合物中两多肽链,因为一般来说两相互作用蛋白对在基因表达水平并无关联。第73页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院74(2)寻找基因的保守近邻或同一操纵子中的共存基因Ouzonis和Karp分析E.coli的代谢途径,发现同一蛋白的不同亚基在基因组中几乎总是相邻的(超过90%)。方法:通过寻找不同基因组间基因顺序的保守性,或者通过寻找两个蛋白的基因,它们在某一基因组中相邻,在另一基因组中是单一基因的两部分,可以预测处于同一蛋白上的两亚基间的相互作用。第74页/共101页图8-18基因近邻法示意图第75页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院76Dandekar等研究了9个细菌基因组直系同源对的基因顺序的保守性,发现尽管基因顺序的保守性很差,但还是有大量保守的基因对。这些保守基因对编码的蛋白有直接的物理相互作用。Dandekar等从每一基因组中找到了100个蛋白用于以基因顺序为基础的相互作用的预测。Huynen估计大约有63%的保守相邻基因的结构复合物有直接的相互作用。第76页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院77大多数基因的前后近邻一般是变化的,但也有一些基因在多个基因组中有高度保守的近邻(如trpA和trpB),这种保守性是由于基因产物的物理或功能相互作用引起。当然,这种保守性并不具有普遍性。Lathe注意到:尽管基因近邻千变万化,但在同一功能相关基因集合中上下文会有共存基因出现。他们将这种在高级组织水平的保守基因簇称为Uber-operon。然后用于讨论转译、鞭毛虫蛋白和ABC运输操纵子中的基因近邻问题。这一概念可以用于功能注释和蛋白质相互作用预测。第77页/共101页图8-19不同生物体中色氨酸操纵子的结构
第78页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院79箭头表示转录的方向。黑线表示通过插入基因组序列对操纵子的割裂。双黑线表示大于50个基因的割裂。基因编码的蛋白质如下:trpA,色氨酸合成酶α链;trpB,色氨酸合成酶β链;trpC,吲哚-3-丙三醇磷酸合成酶;trpD,氨基苯甲酸磷酸核糖基转移酶;trpE,氨基苯甲酸合成酶I;trpF,氨基苯甲酸磷酸核糖基异构酶;trpG,氨基苯甲酸合成酶II;基因数字在基因组上按顺序排列。trpA-trpB基因对在7个基因组中保守。第79页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院80Overbeek等则主要研究在染色体上相互近邻的代谢途径中基因簇中基因产物间的相互作用。他们定义了一系列量对基因进行分簇,然后借助一个或多个PCBBH或PCH,建立蛋白对之间的功能耦合。Overbeek给出了一系列通路(如purinebiosynthesis,Glycolysispathway等)中基因簇中各蛋白相互作用的耦合分值。基因分簇在细菌中很常见,使用大量基因组的保守基因簇可以预测其它基因组中的基因或蛋白质之间的相互作用。第80页/共101页图8-20PCBBHs和PCHs定义示意图第81页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院82(3)用基因融合法预测蛋白—蛋白相互作用一般认为,基因融合是进化过程中功能水平选择压力作用的必然结果。其基本原理:进化过程中,基因可以融合(fusion)成一个较大的“CompositeGene”,也可分裂(fission)成较小的“ComponentGene”。在一个基因组中出现的“CompositeGene”(也叫RosettastoneSequence)可以推测在其它基因组中ComponentGenes之间的功能相互作用。第82页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院83比如在E.coli中DNA旋转酶GyrA和GyrB在yeast中熔入单一肽链中成为拓扑异构酶II,这样一来我们可以推测E.coli中GyrA和GyrB有相互作用(图8-21)。对E.coli的4290个蛋白搜索发现6809个候选相互作用对。第83页/共101页图8-21基因融合法原理示意图第84页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院85Enright使用BLAST确定蛋白间的直系同源物,发现EC,HI,MJ和SC中的64个融合事件。Huynen发现63%的预测涉及物理相互作用,15%为同一代谢途径的基因,即功能相互作用。Marcotte等使用Pfam和ProDom蛋白质家族库中所列的远亲同源物确定蛋白质功能域间的同源性。这一方法假定:如果一蛋白中出现两功能域,那么来自这两家族中的所有功能域均相互作用。第85页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院86这一方法存在较大的假阳性和假阴性。假阴性(丢失真实相互作用)的原因是许多蛋白—蛋白相互作用由其它机制导致,这种情况中无法找到Compositeprotein或Rosettastone序列。假阳性(假相互作用)可能是由于功能(或基因)有熔合,但相互作用只是功能意义上的,而非真正的物理相互作用。第86页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院87一般来说,以同一调控约束(换句话说:染色体上近邻或处于同一肽链)为基础的蛋白相互作用预测方法仅限于对同一蛋白(或复合物)亚单位,同一代谢途径中的蛋白有效。第87页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院88
使用种系发生轮廓法预测蛋白—蛋白相互作用假定功能相关的蛋白以关联形式进化,那么在机体的同一子集中的蛋白会有同源性。一般地,功能相关蛋白并无氨基酸序列上的相似性,传统的序列比对技术不能使用。对每一蛋白构建一种系发生轮廓。该轮廓有n个输入基因组,用1表示第n个基因组有给定蛋白的同源物,0表示没有。第88页/共101页2023/3/23BIOINFORMATICS数理与生物工程学院89以RL7(ribosomeprotein),FlgL(flagellarstructureprotein)和HIS5(histidinebiosyntheticprotein)为例,建立种系发生轮廓。结果表明:具有相似轮廓的蛋白在功能上相关。因此,可以说:通过蛋白的种系发生轮廓描述组织中同源物的有/无,比较该轮廓是识别有蛋白相互作用复合物或通路的有效工具。第89页/共101页图8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公务员考试时事政治考题库及参考答案
- 2025年公共体育发展与管理考试试题及答案
- 2025年公共基础知识考试试题及答案
- 2025年燃气供应合同协议(GF-2004-2502)
- 2025年建筑施工合同补充协议
- 2025年铁路局货物运单(GF-91-0403)货运合同合同补充通知协议
- 投融界代写融资计划书
- 低空经济2025年动力系统研发产业链上下游协同发展报告
- 2025年储能电池在电网储能系统中的储能设备故障处理报告
- 2025年低空经济报告:飞行器动力系统与「暗物质能源」的集成技术探索
- 出口木箱定作合同范本
- 第九章 静电场及其应用
- 2025年国家开放大学(电大)《组织行为学基础》期末考试备考试题及答案解析
- 水下玻纤灌浆施工方案
- 幼儿园静电课件
- 知识产权知识竞赛题库(含答案)
- 财务总监岗位招聘笔试题及解答(某大型团公司)2025年
- 团务知识技能培训方案课件
- 食品安全标准培训课件
- 禅茶养生师初级考试试卷与答案
- 生鲜乳安全培训班课件
评论
0/150
提交评论