




已阅读5页,还剩147页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学,第九章生物分子网络与通路,哈尔滨医科大学李霞、李永生,生物信息学,学习提纲,重点,生物分子网络和通路的基本概念和表示方法生物分子网络的拓扑属性概念和计算方法生物分子网络的重构方法,学习提纲,难点,生物分子通路的重构与分析,生物分子网络和通路相关数据库,熟悉,第一节引言,Introduction,网络是复杂系统存在的普遍形式,公路交通网,互联网,社会网络示意图,发展历史-1,4000多年前,中国的黄帝和岐伯撰写了中华医学经典黄帝内经阐述了经络理论和针炙。,该理论认为经络遍布人本各个部位,有运送全身气血、沟通身体上下、内外之功能。现在看来,经络系统就是利用网络观点观察复杂的人体系统并抽象而成的一种生物网络模型。,人体经络网络,思考:如果说经脉图就是一个网络的话,那么网络的节点应该是什么?网络的边又应该是什么?,人体穴位就是该网络的节点,其医疗功能不同且相互联系。经络理论和针炙是网络科学初创时期有文字记载的最早的人体生物网络模型及成功的医学应用。,发展历史-2,生命活动本身的复杂性和迅速增加的海量数据资源要求生命现象必须要在成千上万个生物分子组成的复杂系统层面上予以认识。为揭示数量巨大的生物大分子及其间的相互作用如何在复杂的生存环境中行使生物学功能,需要研究者采用不同于传统生物学研究手段的新技术。网络是复杂系统存在的普遍形式。本章将介绍网络分析在系统生物学中的应用。,网络生物学,目前,网络生物学研究的主要目标是分子和在一个活细胞中的分子之间的相互作用,了解这些分子和在他们之间的相互作用如何决定这些功能非常复杂的机制。网络生物学研究表明细胞网络服从网络科学的普遍规律,它提供了一个新的重要框架,在21世纪可能引起生物学和医学的革命性变化。,分子生物网络,分子生物网络:是指生命系统中形态与功能上特化的细胞集团之间,以及各种生物大分子在组合上相互关联的结构形式。分子生物网络相互联系并跨越生命系统各层次,使生命运动呈现组织性、确定性、稳定性、协调性的功能;分子生物网络是生命系统细胞与细胞内、外环境之间进行物质、能量、信息转换的渠道。,第二节生物分子网络和通路概述,OverviewofBiomolecularNetworkandPathway,分子生物网络分析,分子生物网络分析:基于复杂网络的技术研究分子生物网络的结构形式,分析各组分之间的调控关系、以及物质、能力、信息转换的渠道等。分子生物网络构建、分析方法,以及网络功能注释是掌握的重点。,网络的基本概念,网络定义有向网络与无向网络加权网络与等权网络二分网络网络中的路径与距离,网络定义,网络定义:通常可以用图G=(V,E)表示网络。其中,V是网络的节点集合,每个节点代表一个生物分子,或者一个环境刺激;E是边的集合,每条边代表节点之间的相互关系。当V中的两个节点v1与v2之间存在一条属于E的边e1时,称边e1连接v1与v2,或者称v1连接于v2,也称作v2是v1的邻居。,有向网络与无向网络,根据网络中的边是否具有方向性或者说连接一条边的两个节点是否存在顺序,网络可以分为有向网络与无向网络,边存在方向性,为有向网络,否则为无向网络。生物分子网络的方向性取决于其所代表的关系。如调控关系中转录因子与被调控基因之间是存在顺序关系的,因此转录调控网络是有向网络,而基因表达相关网络中的边代表的是两个基因在多个实验条件下的表达高相关性,因此是无向的。,A.无向网络;B.有向网络,加权网络与等权网络,网络中的边在网络中具有不同意义或在某个属性上有不同的价值是网络中普遍存在的一种现象。比如交通网中,连接两个城市(节点)的道路(边)一般具有不同的长度,而在互联网中两台直接相连的计算设备间通讯的速度也不尽相同。,如果网络中的每条边都赋予相应的数字,这个网络就称为加权网络,赋予的数字称为边的权重。如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络。,权重可以用来描述节点间的距离、相关程度、稳定程度、容量等等各种信息,具体所代表的意义依赖于网络和边本身所代表的意义。,加权网络,等权网络,二分网络,如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络(bipartitenetwork)。,二分网络,生物学通路,生物学通路(Biologicalpathway)是指由生物体内一系列生物化学分子(包括基因,基因产物以及化合物等)通过各种生化级联反应来完成某一具体的生物学过程。生物体内最主要的生物学通路包括代谢通路和信号传导通路。,同样可以用图的形式来表示生物分子通路,其中节点代表参与生化级联反应的底物、产物或者酶,而网络的边表示节点之间的联系。大部分的生物分子通路网络是有向网络。,分子生物网络的分类,分子生物网络的分类标准基于分子生物学的分类标准。,分子生物网络分类,转录调控网络,信号转导网络,表观遗传调控网络,蛋白互作网络,代谢网络,转录后调控网络,转录调控网络,转录调控是基因表达调控中最重要、最复杂的一个环节,也是当前研究的重点。转录因子可以结合在基因上游特异的核苷酸序列上,以此调控基因的表达。通过基因转录调控数据构建基因转录调控网络。,转录调控网络-1,基因转录调控网络(transcriptionalregulatorynetwork)描述转录因子及其调控的基因之间的关系。有向图其中点表示转录因子或者被调控的基因,边表示转录因子对基因的调控关系,箭头指向被调控的基因。正调控负调控,转录调控网络-2,转录调控网络-检测技术,ChIP是一项比较流行的研究转录因子与启动子相互结合的实验技术。CHIP与基因芯片相结合建立的CHIP-on-chip方法已广泛用于特定反式因子靶基因的高通量筛选;CHIP-SEQ新一代测序技术。,基本流程,转录调控数据库,TRANSFAC数据库MATCH软件TRRD数据库ChIPBase数据库,ChIPBase,生物分子网络分类,转录后调控网络,miRNA,miRNAprocessing,Pri-miRNA(miRNA初级转录产物)Drosha(1)pre-miRNA(miRNA前体)Dicer(2)miRNA,Exportin5(Exp5)transportspre-miRNAtothecytoplasm,miRNA是基因调控网络中的主要组分,在人类细胞中有1200miRNA,miRNA可以在转录后和翻译水平上调控多于30%的编码基因的表达。miRNA和靶基因间不是简单的一对一的关系,而是复杂的多对多的关系,形成了复杂的转录后调控网络。其中网络中包含两种类型的节点,miRNA和靶基因,网络的边代表miRNA对于靶基因具有调控作用。,miRNA-靶基因的转录后调控网络是一种典型的二分网络,网络的边只存在于miRNA集合和靶基因集合之间,而miRNA集合和靶基因集合内部并不存在调控关系。,转录后调控网络资源,miRNA靶基因数据库,生物分子网络分类,蛋白质互作网络,单独蛋白通过彼此之间的相互作用构成蛋白质相互作用网络来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。系统分析大量蛋白在生物系统中的相互作用关系,对于了解生物系统中蛋白质的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制,以及了解蛋白间的功能联系都有重要意义。,蛋白质互作通常可以分为物理互作和遗传互作。蛋白质互作网络(Proteininteractionnetwork)是系统显示蛋白质互作信息的基本方法。蛋白作为节点,相互作用关系作为边。,蛋白质互作数据库,HPRD数据库BIND数据库DIP数据库IntAct数据库BioGRID数据库,HPRD数据库,/,下载,BioGRID:蛋白互相作用数据库,BioGRID:是一个开放的用于储存基因和蛋白质相互作用的数据库,这些基因和蛋白质来源于最初有关主要生物物种的生物医学文献。http/直至2012年9月,BioGRID储存了来自30多种模式生物的500000多个手动注释相互作用。,BioGRID,BioGRIDDatabaseStatistics,下载,生物分子网络分类,代谢网络,代谢通路(Metabolicpathway)是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。代谢网络则是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。,完全网络最完整的保存代谢通路中各个反应,以及每个反应中的底物、产物和酶。多反应物网络代谢物只由一个节点表示,边由底物指向产物,酶与底物、产物之间的边则可以由双向边来表示。主要反应物网络只包含主要代谢底物指向主要产物的网络。,代谢网络,生物分子网络分类,信号传导网络,生物中的信号传导(Signaltransduction)则是指细胞将一种类型的生物信号或刺激转换为其他生物信号最终激活细胞反应的过程。同代谢通路一样,信号传导的过程中多个生物分子在酶作用下按照一定顺序发生一系列生理化学反应,由此得到了信号传导通路。信号传导网络即是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。,信号传导网络,代谢和信号传导网络资源,KEGG数据库,其他类型的分子网络,组合调控网络协同调控网络二分网络,生物分子网络分析,对于一个复杂网络,我们如何来分析网络?,第三节生物分子网络分析,AnalysisofBiomolecularNetwork,网络的拓扑属性,连通度聚类系数介数紧密度拓扑系数直径平均距离分布函数和连通度函数,连通度,连通度(degree)是描述单一节点的最基本的拓扑性质。节点v的连通度是指网络中直接与v相连的边的数目。例如在图A中节点A的连通度为3。对于有向网络往往还要区分边的方向,由节点v发出的边的数目称为节点v的出度,指向节点v的边数则称为节点v的入度。,我们用符号k来表示连通度,kout表示出度,kin表示入度。在图B中节点A的入度为1,出度为2。,连通度描述了网络中某个节点的连接数量,整个网络的连通性可以使用其平均值来表示。对于由N个节点和L条边组成的无向网络其平均连通度为Knet=2L/N。连通度较大的节点称为中心节点(hub)必需基因或其翻译产物的比例在中心节点中出现的频率显著高于一般节点。,练习,计算图A和B中A点的连通度,以及图A的网络的连通度。,K=5,Kout=3,Kin=2,Knet=16/7=2.29,聚类系数,在很多网络中,如果节点v1连接于节点v2,节点v2连接于节点v3,那么节点v3很可能与v1相连接。这种现象体现了部分节点间存在的密集连接性质,可以用聚类系数(clusteringcoefficient)CC来表示,在无向网络中,聚类系数定义为:,公式中,K表示节点V的邻居数目,n表示节点V的K个邻居两两之间连接的边数,Ck2表示K个邻居两两相连的最多边数。,请同学们给出CCv的取值范围,并说明原因。,因为n表示在节点v的所有的k个邻居间边的数目,则在无向网络中,n的最大数目可以由邻居节点的两两组合数k(k-1)/2来确定,所以CC值位于0,1区间。当节点v的所有邻居都彼此连接时,v的聚类系数CC=1;当v的邻居间不存在任何连接时,CC0。,从几何上看,聚类系数的等价定义:,与节点i相连的三元组是指包括节点i的三个节点,并且至少存在从节点i到其他两个节点的两条边。,网络的聚类系数:网络中各个节点的聚类系数的平均值,反映网络的聚集程度。聚类系数满足:0C1若C=1:任意两个节点有连接若C=0:无三角形连接大部分复杂网络有较大的聚类系数小世界特征,例:图A中,节点A有三个邻居B,C,D,其间只有B和C有一条边连接,所以节点A的聚类系数:,练习,请同学们计算B、C的聚类系数。,在有向网络中,由于两个节点间可以存在两条方向相反的边,则标准化的聚类系数被定义为:其中,kout指v的出度,K指节点A指向的连接的邻居个数,n指所有A所指向的连接的节点彼此之间存在的边数。,例:在图B中,节点A连接2个节点B,C,其间只有1条边,则节点A的聚类系数为,介数,一个节点的介数(betweenness)是衡量这个节点出现在其他节点间最短路径中的比例。节点v的介数Bv定义如下:其中,表示节点i到节点j的最短路径的条数,表示其中通过节点v的路径条数。,介数也可以用标准化至0,1区间的形式表示:介数表明了一个节点在其他节点彼此连接中所起的作用。介数越高,意味着在保持网络紧密连接性中节点越重要。,例:在图A中,A以外的节点间有4个节点,彼此间存在共有6对节点关系,即BC,BD,DE,CD,CE,DE,每对关系都只能找到1条最短路径,则所有的。,BC最短路径(BC)1条,经过A的路径为0条BD最短路径(BAD)1条,经过A的路径为1条(BAD)BE最短路径(BCE)1条,经过A的路径为0条CD最短路径(CAD)1条,经过A的路径为1条(CAD)CE最短路径(CE)1条,经过A的路径为0条DE最短路径(DACE)1条,经过A的路径为1条(DACE)所以A的介数为(0/1+1/1+0/1+1/1+0/1+1/1)*2=6,在图B中,由于存在方向性,节点A以外4个节点间彼此间可能存在的连通关系有条。,BC,BD,BE,CB,CD,CE,DB,DC,DE,EB,EC,ED.,真正连通的关系只有C,B,D,A,B,D,A,C,B,D,A,C,E,C,B,E,C是连通的。其中通过节点A的最短路径有2条,则节点A的介数为2。,边介数,边介数:网络中所有最短路径中经过该边的路径的数目占最短路径总数的比例。边的介数衡量的是边作为“桥梁”的作用。最短路径:从起点到终点所含边的数目最少的路径。最短路径问题是图论研究中的一个经典算法问题。,例:计算下图中边CD的介数、JK边的介数。图中共有55条最短路径,其中24条包括CD边,CD边的介数为0.69(24/55),JK边的介数为0.02(1/55),边介数的不足,如图CD的介数为0.44(24/55),ST的介数为0.56(20/36)。然而ST似乎是更重要的连接者。,紧密度,紧密度(closeness)是描述一个节点到网络中其他所有节点平均距离的指标。节点v的紧密度Cv定义如下:其中dvj表示节点v到节点j的距离。紧密度测度衡量节点接近网络“中心”的程度,紧密度测度越小,节点越接近中心。,在图A中,节点A到B、C、D、E的距离分别为1,1,1,2则节点A的紧密度为1.25。,请计算B和C的紧密度。,拓扑系数,拓扑系数(topologycoefficient)是反映互作节点间共享连接比例的测度,节点v的拓扑系数Tv可以定义为:其中,表示与节点v和节点t都连接的节点数。为所有与节点v分享邻居的节点集合。拓扑系数反映了节点的邻居间被其他节点连接在一起的比例。,例如图A中,与A节点共享邻居的节点共有3个,则MA=B,C,E其连通度分别为2,3,1则节点A的拓扑系数。,请计算B和C的拓扑系数。,TB=3/4TC=11/18,直径,直径(diameter)是描述网络总体性质的一个属性。网络的直径是指网络中任意两个连通节点间距离的最大值。网络的直径代表了网络中节点连接可能出现的最远距离,标志着网络紧密的程度。,平均距离,网络的平均距离(averagedistance)也是描述网络总体性质的一个属性。网络的平均距离是指网络中任意两个连通节点距离的平均值,也是衡量网络紧密程度的重要指标。,连通度的分布函数和聚类系数函数,除了平均连通度以外,连通度的分布P(k),k=1,2,.是另一种重要描述网络连通性的属性。而类似的针对网络还可以建立起随连通度变化的聚类系数的连通度函数C(k),这个函数被定义为当函数自变量等于k时,C(k)等于所有连通度为k的节点的聚类系数的平均值。,与连通度分布函数P(k)类似,C(k)也广泛应用于描述网络结构的基本性质。相比于拓扑性质指标的平均数由于连通度的分布函数以及依赖于连通度的聚类系数函数包含更多的信息,对分布函数的分析往往可以揭示更为深刻的网络性质。C(k)连通度为k的节点聚类系数的平均值。,分布函数P(k),A,B,C,D,E的度分别为:3,2,3,1,1,则连通度的分布P(K)为,聚类系数的连通度函数C(k),A,B,C,D,E的度分别为:3,2,3,1,1,A,B,C,D,E的聚类系数分别为:1/3,1,1/3,0,0。C(K=1)=0,C(K=2)=1,C(K=3)=1/3,平均路径长度,平均路径长度:反应了网络的规模大部分复杂网络具有小的平均距离小世界特征,计算下图的平均路径长度,无标度网络,网络中节点的度的分布情况可用分布函数P(k)描述P(k)表示的是一个随机选定的节点的度恰好为k的概率常见的网络度分布:Delta分布泊松(Poisson)分布(完全随机网络)幂律分布(无标度网络),Delta分布,规则网络有着简单的度序列:因为所有的节点具有相同的度,所以其度分布为Delta分布,它是单个尖峰。,规则网络,其度分布为Delta分布,单个尖峰,Delta分布,Poisson分布,完全随机网络的度分布近似为Poisson分布其形状在远离峰值处呈指数下降。,幂律分布,近几年的大量研究表明,许多实际网络的度分布明显地不同于Possion分布。许多网络的度分布可以用幂律形式p(k)k-来更好的描述。,幂律分布,无标度网络,许多复杂网络包括Internet、WWW以及新陈代谢网络等的连接度分布函数具有幂律(powerlaw)形式。由于这类网络的节点连接度没有明显的特征长度,故称为无标(尺)度网络。特征长度是属于分形几何的概念。对于某个物体,特征长度通常是指该物体长度中有代表意义的长度,如我们考察一个球体,那么它的特征长度就是该球体的半径或直径。,自然界中的物体或图形,要么具有特征长度,要么不具有特征长度。对于具有特征长度的物体,只要其特征长度不变,其性质就不会发生什么变化。还有的事物没有特征尺度,就必须同时考虑从小到大的许许多多尺度(或者叫标度),这叫做“无标度性”的问题。,分形几何学的基本思想是:客观事物具有自相似的层次结构,局部与整体在形态、功能、信息、时间、空间等方面具有统计意义上的相似性,称为自相似性。例如,一块磁铁中的每一部分都像整体一样具有南北两极,不断分割下去,每一部分都具有和整体磁铁相同的磁场。自相似的层次结构,适当的放大或缩小几何尺寸,整个结构不变。,自相似性,近年来,人们在互联网和人际关系网络等社会学网络的研究中都发现了“无标度”特性。无标度网络中,大部分节点通过少数中心节点连接到一起,这就意味着节点在网络中的地位是不平等的,中心节点在连接网络完整性方面起更加重要的作用。定义:无标度网络,是指网络中连通度的分布符合幂率分布,即P(k)k-r的网络,在无标度网络中大部分节点的连通度较低,但存在少数连通度非常高的节点使网络连接在一起。在这种网络中,平均连通度等标度已经不足以描述网络的规模和结构。,思考题,无标度网络模型具有哪些特性?真实网络中,若某些节点被攻击,会出现什么结果?,鲁棒性和脆弱性,阿喀琉斯,无尺度网络的鲁棒性和脆弱性,无标度网络服从powerlaw分布即幂律分布;在无标度网络中存在一个显著的特点就是网络中存在少数度很高的节点(远远超过平均度),这样的节点称为“Hub”;往往认为这样的节点在网络中具有重要的作用,在这样的节点周围存在保守的网络结构。,鲁棒性和脆弱性,这种网络结构可以允许一些破坏行为。如果干扰随机的发生,网络中大多数的节点度很低,hub节点的数目很少,因此破坏hubs节点的概率很低。即使hubs节点受到干扰,网络也会因为其他的hubs节点的存留而保留原来的拓扑结构。另一方面,如果将网络中的大部分hubs节点摘除,这样网络中就会出现一些孤立的点的图。因此无尺度网络中的hubs节点高度影响网络的鲁棒性。,社会网络的模块性,生物分子网络的模块性,模块性,模块(module)是指一组物理上或功能上连接在一起的、共同完成一个相对独立功能的节点。例如:相对固定的蛋白质-蛋白质和蛋白质-RNA联合体(物理模块)就是许多基本生物功能的核心。一个细胞中的绝大多数分子或者是具有模块化活动的一个细胞内的联合体的一部分(如核糖体),或者是参与到一个功能上更广的模块以作为一个相对独立过程的调控单元(如信道中的信号放大)。,工具和度量,网络模块化?,模块及模块间的关系,模块辨别?难或易,网络模体,近期研究表明,模体(motif)可能是复杂网络的基本模块。单个模块出现的前提:具有高聚类性的网络在局部可能包含各种由高度连接的节点组构成的子图(subgraph)。如三角形,正方形和五角形,其中一些子图所占的比例明显高于同一网络的完全随机化形式中这些子图所占的比例。这些子图就称为模体。,网络模体,网络的层次性,生物网络的动态性,生物网络的动态性,生物网络的保守性,第四节生物分子网络的重构和应用,ReconstructionandApplicationofBiomolecularNetwork,生物分子网络的重构和应用,网络数据结构在计算机中,存储网络的数据结构有很多形式,其中最常用的是连接矩阵表示法和边列表表示法。,网络的数据结构,基因共表达网络重构方法,为了完整系统地展示和分析基因间的共表达关系,可以构建基因表达相关网络。利用基因表达谱计算表达相关矩阵选定阈值,获取显著相关的基因对构建基因表达相关网络,其他方法:WGCNA,/horvath/CoexpressionNetwork/R
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 解析卷人教版八年级上册物理物态变化《熔化和凝固》专项训练试题(含答案解析)
- 达标测试人教版八年级上册物理声现象《声音的特性》定向攻克试卷(解析版含答案)
- 2025国考鄂尔多斯市文物保护岗位行测模拟题及答案
- 2025国考大庆市文化管理岗位申论必刷题及答案
- 2025国考承德市价格监管岗位行测高频考点及答案
- 消防设施工程竣工验收与质量评估方案
- 2025国考安徽金管法律专业科目题库含答案
- 智慧城市照明系统集成方案
- 市政管网地下管线探测方案
- 考点解析-人教版八年级上册物理《声现象》专项练习试卷(含答案解析)
- 冰雪文化英语谈知到章节答案智慧树2023年哈尔滨师范大学
- 2022年上海市经济信息中心(上海市公共信用信息服务中心)招聘笔试备考题库及答案解析
- TCTCA 13-2023 凉感织物席规程
- 心血管急救药物用法总结
- 1新疆大学考博英语历年考博真题20-21年
- GB/T 17194-1997电气导管电气安装用导管的外径和导管与配件的螺纹
- GB/T 12224-2005钢制阀门一般要求
- GA/T 1481.2-2018北斗/全球卫星导航系统公安应用第2部分:终端定位技术要求
- 科技项目研发经费归集课件
- 杨青山版-世界地理第第六章-亚洲(原创)课件
- 基础教育改革专题课件
评论
0/150
提交评论