




已阅读5页,还剩113页未读, 继续免费阅读
(计算机应用技术专业论文)基于网络节点拓扑参数的关键蛋白质识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 蛋白质分子功能的重要性与它在蛋白质网络中对应节点的拓扑特性 紧密相关。关键蛋白质的识别有助于从系统水平上理解生命活动的内在组 织和过程,在疾病诊疗及药物设计等方面有重要的应用前景。与生物学实 验方法及其它方法相比,基于拓扑结构的生物信息学方法在关键蛋白质识 别上有独特优势。针对已有方法对关键蛋白质识别度不高的现状,认为进 一步提高识别度有两条途径:一是发现与关键蛋白质关系更密切的参数, 二是充分挖掘现有参数的信息并进行有效地整合。对于第一种途径,根据 点覆盖在网络( 图) 拓扑结构上的重要地位而研究将其引入关键蛋白质的 识别中;对于第二种途径,主要探讨复合参数的构造及异步识别方法,通 过将多个参数所隐含的关键蛋白质信息进行有效整合而提高识别度。 点覆盖问题虽然可以在参数计算理论的架构内求精确解,但是目前在 理论及应用上有一定的局限性。将参数计算理论引进随机网络领域,利用 随机网络统计和概率分布等特性,从全局和整体上分析并揭示参数化点覆 盖问题低度( 1 度和2 度) 节点核化过程中问题的核及度分布演变的内在 机制和变化规律。同时,根据核与节点度分布以及边的关系,提出随机网 络参数化点覆盖问题的小核化可决策性。 在1 度点核化的研究中,首先分析节点之间的映射关系,然后将它们 的邻接关系进行量化,得出1 度点核化算法对平均度为0 2 2 3 的随机网络 点覆盖问题的核化强度最高,同时指出它的小核化( 萨1 ) 可决策性。在2 度点核化的研究中,提出2 度点三角形子网的计数方法;通过研究子网对 节点的共享关系,分析2 度点核化过程中核及度分布演变的动态过程,得 出2 度点核化算法对2 度点分布概率在0 7 5 左右的随机网络的核化强度 最高,同时也指出它的小核化( 存2 ) 可决策性。初步结果表明,对随机网 络点覆盖问题低度点核化过程的分析方法不但具有理论上的意义,而且随 着问题随机度的大小而对问题有不同程度的把握能力,并提供了随机网络 上这一n p 完全问题的求解方法,也为参数计算在包括蛋白质网络在内的 已知度分布的一类不确定问题中的应用提供了可能。 对一给定的网络( 图) 来说,虽然最小点覆盖集的大小是一个固定值, 但就一般情况而言可以求解出多个节点构成不同的最小覆盖集。为此,提 出骨干点覆盖集、非骨干覆盖集及非覆盖集等概念,然后对蛋白质网络进 行最小点覆盖分析并获得一种新的拓扑参数点覆盖参数,从另一种角 度描述节点的拓扑重要性。为了避开点覆盖参数精确求解方法中可能出现 的n p 难问题,根据稀疏网络中存在大量的、a 2 、人2 子网的特点,将确 定算法与非确定算法相结合,提出基于随机核化的快速算法( a q 算法) 。 该算法通过引进参数计算的相关算法将复杂度大幅度降低,同时通过随机 和统计方法使得到的结果尽可能接近实际解。结果显示,该算法得到的点 覆盖参数与关键蛋白质有着密切的联系,在识别仿真上也表现出较好的性 能,因此在描述节点的拓扑特性上具有重要意义。 把关键蛋白质识别看作是一类特殊的模式识别。从相关分析出发对关 键蛋白质与其主要拓扑参数的相互关系进行研究,发现参数对关键蛋白质 识别能力的大小与两者之间的相关性有关;研究复合参数识别度与独立参 数识别度、与独立参数相关性之间的关系,发现参数之间相关性的大小在 很大程度上预示它们所蕴含的关键蛋白质信息之间互补性的强弱;根据上 述发现,探讨利用包括点覆盖在内的各个参数的有限信息进行整合的方 法,提出有效的复合参数构造方法及异步识别方法。实验结果证实,通过 该技术获得的识别度明显高于其它识别技术。 关键词:关键蛋白质,模式识别,蛋白质网络,拓扑参数,参数计算 a b s t r a c t r e c e n tr e s e a r c hd i s c o v e r st h a tt h ee s s e n t i a l i t yo fap r o t e i nm o l e c u l ei n f u n c t i o ni sc o r r e l a t e dw i t hi t st o p o l o g i c a lp r o p e r t i e si nap r o t e i nn e t w o r k t h e s t u d yo fe s s e n t i a lp r o t e i n ( e p ) i sn oo n l ym e a n i n g f u li nt h eu n d e r s t a n d i n go f t h eo r g a n i z a t i o na n dp r o c e s so fl i f ea c t i v i t i e s ,b u ta l s oi m p o r t a n ti nd i a g n o s i s t r e a t m e n ta n dm e d i c a m e n td e s i g n c o m p a r i n gw i t hb i o l o g i c a le x p e r i m e n t sa n d o t h e rm e t h o d s ,b i o i n f o r m a t i c sm e t h o d sb a s e do nt o p o l o g i c a ls t r u c t u r ep o s s e s s p a r t i c u l a ra d v a n t a g ei nt h ei d e n t i f i c a t i o no fe eh o w e v e r , t h e r ei s s t i l ls o m e d i s s a t i s f a c t i o ni nt h ei d e n t i f i c a t i o n t oi m p r o v et h ep e r f o r m a n c e ,t w ow a y sa r e p r o p o s e di nt h i sp a p e r :o n ei st of i n dn e wp a r a m e t e r sc l o s e rt oe p , t h eo t h e ri s t oi n t e g r a t et h ee pi n f o r m a t i o nf r o mk n o w np a r a m e t e r s f o rt h ef o r m e r , t h e m i n i m a lv e r t e xc o v e r ( m v c ) i si n t r o d u c e dt og e tan e wt o p o l o g i c a lp a r a m e t e r v e r t e xc o v e rp a r a m e t e r ( v p ) f o rt h ef i r s tt i m e f o rt h el a t e r , t h ec o m b i n a t i o n o fk n o w np a r a m e t e r si se x p l o r e d t h ee x a c ts o l u t i o nt oam i n i m a lv e r t e xc o v e rp r o b l e m ( v c p ) c a nb e f o u n dw i t h i nt h ef l a m eo ft h et h e o r yo fp a r a m e t e r i z e dc o m p u t a t i o n h o w e v e r , t h e r ea r es t i l ls o m el i m i t si nt h e o r ya n dp r a c t i c a l i nt h i sp a p e r , t h et h e o r yi s i n t r o d u c e di n t ot h er e a l mo fr a n d o mg r a p h ,s oa st ou s es t a t i s t i cp r o p e r t i e sa n d p r o b a b i l i t ym e t h o d st od e a lw i t hav c pw h o l l ya n du n c o v e rt h ei n h e r e n c ea n d e v o l v e m e n tl a w so ft h ek e m e la n dt h ed e g r e ed i s t r i b u t i o ni nt h ek e r n e l i z a t i o n b yl o w ( 1a n d2 ) d e g r e ev e r t e x ( 1 一d va n d2 - d v ) o nt h eb a s e o f f i x e d p a r a m e t e rt r a c t a b i l i t y , t h ed - d e c i d a b l eb yw a yo fk e r n e l i z a t i o n ( d - d b k ) o ft h ep a r a m e t e r i z e dv c po fr a n d o mg r a p hi sp r o p o s e d i nt h es t u d yo f1 - d v k e r n e l i z a t i o n ( 1 一d v k ) ,t h em a p p i n go f1 - d vi n t ot h e o t h e rn o d e si nar a n d o mg r a p hi sa n a l y z e d ,a n dt h e i ra d j a c e n c yr e l a t i o n s h i pi s q u a n t i f i e d i t i sf o u n di nt h i sp a p e rt h a tt h es t r e n g t ho f1 - d v kg e t si t s m a x i m u mw h e n0 9 的节点,一 般称这类网络为均匀网络( h o m o g e n e o u sn e t w o r k ) 。大量研究表明,许多实际网络的度 分布曲线下降的速度要明显低度于p o i s s o n 分布而更接近于幂律分布,即p ( d ) o c 。 幂律分布表明,这些网络节点度的分布是非常不均匀的,极少数节点的度很大( 即集 散节点) 而绝大多数节点的度很小,这种具有较强异质性的网络就是无尺度网络,异 质性的强弱可以由幂指数,在一定程度上刻划,厂越大则网络的异质性越弱。 7 博十学位论文 第2 章基于网络拓扑的关键蛋白质识别 ( 2 ) 聚集系数中心性( c l u s t e r i n gc o e f f i c i e n tc e n t r a l i t y ,c u ) 【3 0 】:度为域”) 的节点甜 的政材) 个邻居之间实际存在的边数或与它们之间最多可能边数顶“) ( 政“) 1 ) 2 之比即 为 的聚集系数,即 c u 产2 邑( 吠z f ) ( 以甜) - 1 ) ) 从几何特点看,上式的一个等价定义为 c u 产与u 相连的三角形数目与甜相连的三元组数目 节点的聚集系数刻画了这个节点周围的节点彼此之间联系的紧密程度,整个网络 的聚集系数c u 就是所有节点聚集系数的平均值。显然,o c u i ;c u = 0 当且仅当所 有的节点为孤立节节点;c u = i 当且仅当网络是完全连接的。对于m 个节点的完全随 机网络,当m 很大时,c u = o ( 朋r 1 ) ;许多大规模网络都具有明显的聚集效应,它们的 聚集系数尽管远小于1 但却比d ( m 1 ) 要大得多。聚集系数与网络模块化的程度有关 4 2 , 4 8 1 ,后者可以约化为密度由聚集系数c u 反映的一系列三角形,所有节点的平均聚 集系数 则表征了相互作用的节点聚集成节点群( 模块) 的整体趋势。 ( 3 ) 中介数中心性( b e t w e e n n e s sc e n t r a l i t y ,b e ) t 5 0 j :根据直觉和经验,如果节点 处于网络的许多通路上,那么它在网络也应该具有某种特殊地位,因为它的存在与否 有可能能影响到其它节点之间的关系,甚至可以通过控制或曲解信息的传递而影响到 其它节点。中介数定义为网络所有的最短路径中经过当前节点的数目,它反映节点在 特定网络拓扑结构中所处位置的枢纽程度,通过它可以有效地区别出模块内、外的边。 许多信息、资源的流通和传递必须通过中心枢纽节点才得以最短路径( 或最快捷方式) 到达网络中的其他节点。根据f r e e m a n 的研究,如果一个节点处于多个节点对之间, 那么它的度数一般比较低,但因可能起到重要的“中介 作用而处于网络的中心。设 1 ,、w 之间存在的最短路径的数目为,这些最短路径中有踟h 条经过u ,那么“处 于1 ,、w 之间最短路径的概率,u 的绝对中介数为: b e 。= hu , 材v w 且1 , ) 。在代谢网络中,3 到4 个反应的路径就能连接多 数成对的代谢物,而代谢物浓度的局部扰动也能够迅速地遍及整个网纠4 3 】;蛋白质网 络的有关研究中也观察到这样的现象。一般认为,具有小世界效应的网络更有利于信 息在节点之间的迅速传播。表2 1 将几种现实中的小世界网络、代谢网络和蛋白质网 络的小世界的特性进行了对比( 数字来源于参考文献4 4 1 和 3 9 1 ) 。 表2 - 1 蛋白质网络及其它几种复杂网络的小世界效应 乒疆点数,伽平均度,一平均最短路径,c u 平均聚集系数,产幂指数 1 2 博士学位论文第2 章基丁网络拓扑的关键蛋白质识别 细胞内分子相互作用网络的结构特性,包括度分布、最短路径、聚集性等与其它 复杂系统网络在很大程度上是一致的,说明可能存在相似的法则控制着包括蛋白质网 络、代谢网络、基因网络等各种生物网络在内的多数现实中的复杂网络系统。除了这 几个特征外,在蛋白质网络具体研究中还可以结合复杂网络新近研究的其它参数如网 络结构熵1 4 5 1 或基尼系数【4 6 】等进行分析。 2 3 2 蛋白质网络的层次结构 模块是由网络的一些节点相互连接形成的区域,模块内部节点之间的连接非常紧 密,而模块之间的连接则比较松散。至今研究所涉及的生物网络,包括蛋白质相互作 用网络、蛋白域网络、代谢网络等,都有着很高的平均聚集系数,表明高聚集性或模 块化是生物网络的一个本质特性【2 , 4 3 】。对于许多真实网络而言,模块不是孤立的,而 是连接起来形成层次结构【5 5 1 ,它的聚集系数c u 依赖于节点的度值d ,并且成反比关系 1 4 引。低度节点有着较高的聚集系数,属于联系紧密的小模块;高度连接的中枢节点其 聚集系数较低,它们在不同的模块间建立起连接。n e w m a n 等【5 6 , 5 7 1 使用模块性概念对网 络的模块化结构进行定量描述: 上 m o = :【e s e - ( d j ( 2 e ) ) z 】 面 式中,是模块数,应是网络的边数,度和职分别是模块s 内部的边数和节点度数。 m o 一般为0 3 0 7 2 ,当节点划分为随机划分时m o = 0 。网络的模块性朋就是它所有 可能划分中的最大模块性,即m = m a x ( m o ) 。 高聚集性表明网络在局部可能包含各种由高度连接的节点组成的子网。模体可能 是生物网络的基本模块【5 8 铷】,每一个实际网络都是由其自身一组特定的模体刻划的。 酵母蛋白质交互网络中模体的高度进化保守性、不同物种的转录调控网络中朝着相同 模体类型进化的趋势,表明模体具有直接的生物学意义【2 1 。v a z q u e z 等人【6 1 】通过对5 种细胞网络的研究表明,通过无尺度和等级拓扑两个参数可以完全预测子网或模体的 密度,而且网络的大尺度拓扑和局部子网结构是互为因果及预测的。文献 5 5 】从拓扑 方面研究7 5 种不同生物的代谢网络,指出几乎所有的子网都表现出与全局代谢网络 类似的高度模块化的蝴蝶结( b o w t i e ) 拓扑模式,小的模块层次地嵌套在更大的模块 之中,最终构成完整的代谢网络。 细胞的组织体系可以抽象地描绘成一个复杂的金字塔。塔底是分别负责信息储 存、加工和执行功能的成分基因、r n a 、蛋白质、代谢物;这些基本的结构单元 组成小的、重复出现的模式代谢网络中的通路( p a t h ) 或基因调控网络中的基序 ( m o t i f ) ;通路及基序又分别整合形成功能模块( f u n c t i o n a lm o d u l e ) ,执行独立的细 胞功能;这些模块再以层次嵌套的方式构成大规模的功能组织全基因组的基因调 博士学位论文第2 章基丁网络拓扑的关键蛋白质识别 控网络、蛋白相互作用网络、代谢网络。模块化结构能避免网络内不同功能模块之间 不必要的相互影响,同时也有利于把各种干扰控制在有限的范围内,从总体上提高了 网络的鲁棒性。 2 4 关键蛋白质及其相关研究 已有研究表明细胞内存在数以千计的错误,但生物体却极少因此发生严重的后 果,这种强韧性的来源是什么呢? 对随机网络而言,如果大部分节点发生瘫痪,将不 可避免地导致网络的分裂,因为网络必然溃散成彼此无法通讯的小型孤岛。由于具有 无尺度网络的拓扑特性,蛋白质网络则展现了全然不同的情况,即使在细胞内随机制 造较高比例的突变,那些没有改变的蛋白质还是会j 下常地继续合作 4 1 】。总的来说,蛋 白质网络对突变具有惊人的强韧性,这一特性本质上源于它所具有的无尺度网络的非 同质拓扑结构。随机去除的方式所破坏的主要是那些非关键节点,因为它们的数目远 大于关键( 集散) 节点。与那些几乎连接所有节点的关键节点相比,非关键的节点只 拥有少量的连接,去除它们不会对网络拓扑结构产生重大的影响。不过对关键节点的 依赖也带来了一个严重问题:面对蓄意攻击时,网络可能不堪一击。通过一系列的模 拟发现,只要去除无尺度网络少数几个主要关键节点,就可导致网络溃散成孤立无援 的子网。酵母蛋白质网络的生物学实验也显示,去除那些高连接性的蛋白质,比去除 其他节点更容易导致酵母菌死亡。这些关键节点是决定性的,一旦发生使它们无法运 作的突变,极有可能会导致整个细胞死亡。 对关键节点的依赖,既有利也有弊。利的一面表现在:使细胞能够应付随机出现 的突变而不至于引起大的危害;细胞对关键节点的依赖也给药物研究者提供了新的方 法,通过找到能针对性地攻击关键分子的药物,既使它们失效又不会影响健康的组织。 弊的一面在于:少数关键分子突变就足以致命,这正是人们关心的焦点。针对无尺度 网络的这一致命缺陷,为了避免因此而带来的大规模破坏,最好是识别出网络中的关 键节点并加以保护。那么,到底哪些节点是关键( 必不可少) 的? 对这一问题最直接 的看法就是以节点度的大小作为判断依据:把节点按度从大到小排列,然后按一定比 例取度最大的节点作为关键节点。这样的做法对一些网络如因特网是比较有效的:一 次有组织的协同攻击,只要去除掉若干个集散节点( 先去除最大的,再去除次大的, 依次类推) ,就足以造成重大破坏;相反,如果保留这些集散节点而去掉其它节点, 网络的主要结构和功能还可以保持在相对稳定的水平。从另一方面来看,并非所有的 集散节点都是必不可少的。对蛋白质网络来说,高集散度的节点中只有5 0 左右是关 键的,而低度节点中也有相当部分是关键的,节点度的大小只是其关键性的一个方面, 仅凭它还不足以从中判断出更多的关键蛋白质,所以有必要进一步进行研究。 1 4 博+ 学位论文第2 章基丁网络拓扑的关键蛋白质识别 2 4 1 节点重要性研究的一般方法 b u r t 和m i n o r 6 2 1 将节点的重要性等价于该节点与其他节点的连接而使其具有的显 著性,基本思路是从网络中寻找某种有用的属性信息( 如度、最短路、路径中包含的 信息量等) 来凸现网络节点间的差异,充分地反映节点在网络中的位置特性,通过节 点的拓扑显著性来定义其重要性。已提出的指标( 参数) 分为核心性( c e n t r a l i t y ) 和 声望( p r e s t i g e ) 两大类,度量方法主要包括前面介绍的节点度、接近度、中介性、 信息、特征向量等。p o u l i n 等嘟l 提出了稳定而且适用于大网络和多分支网络的累计提 名指标。这类方法是在保证网络整体性的前提下进行指标研究的,而且通常都不考虑 节点集的重要性。 基于节点删除方法的节点重要性判别,主要是依据系统的“核与核度 理论 6 4 1 。 该理论将系统的“核”定义为那些对系统功能来讲具有重要的或支配性作用的,且一 旦遭到破坏会使整个系统瘫痪或造成重大损失的节点或节点的集合;在“核度 的计 算上采用点断集和连通分支数来定义:通过度量节点( 集) 被删除后对网络连通的破 坏程度来定义其重要性,对网络连通的破坏程度越大就说明被删除的节点( 集) 越重 要,因为网络连通( 或系统功能) 的维持依赖于它们的存在。点断集的运用能够方便 地考虑节点( 集) 的重要性,囊括了对系统进行破坏的所有可能的形式。 “你不能只用一种指标,每个指标都有它的优点和用处,【6 5 】,不同的指标是从不 同的角度来探讨同一问题的,每个指标都可能有自己的优势和缺陷。从指标的计算原 理来看,接近度指标反映节点的居中程度,中介性指标反映节点对其他节点间沟通的 控制能力,特征向量指标和累计提名指标反映的是节点的名望和地位特性。删除法指 标反映节点对保持整个网络的连通所起的作用,它是从网络被攻击和破坏的角度来考 虑节点重要性的。它与度指标相关性较强,但它既考虑网络的局部特性也考虑整体特 性。 2 4 2 蛋白质网络节点之间的关系 在生物学上,关键蛋白质的研究方法主要以基因敲除式突变( n u l lm u t a t i o n ) 将 研究的蛋白质排除在生物培养过程中,然后通过观察生物是否能正常生存而辨别蛋白 质的关键性,其结论非常明确和有效,但代价高且效率低。基于蛋白质网络拓扑结构 的生物信息学方法把节点的拓扑显著性看成其重要性,在观察并参数化节点拓扑特征 的基础上,根据参数的大小及其相互关系来区分关键节点。这些参数的获取不破坏网 络的整体性,目前的研究主要集中在与这些参数有关的计算上,而且大多与图论有关。 图2 1 示意了酵母菌( y e a s t ) 的蛋白质网络中具有不同重要性的节点之间的交互关系 【5 i l : 1 5 博士学位论文 第2 章基于阿绍拓扑的戈键蛋冉质识别 罔2 - 1 酵母苗( y c o 蛋自质网络中具有不同重要性曲节点之间的交互关 系,其中红点、蓝点,黄点舟剐代表羌健、非羌健及关键性未知蛋白质 文献 6 6 1 研究了酵母蛋白质网络的连接情况,发现关键蛋白质之m 呈现出偏好连 接的特点:关键关键蛋白质连接显现出比较跃的延伸并形成一个子阚,其中的巨型分 量包含了9 7 的蛋白质,这些予网呈现出幂律度分布。在种系范围内的进一步研究中, 这些核心蛋白质及其相互作用代表着从祖先流传f 来的酵母蛋白质网络的状态。在文 献【6 7 】的研究中,疾病相关的蛋白质的平均干甘互作用数f i 要比非疾捕蛋白质高3 2 , 高连接度蛋白质比低度连接度蛋白质更有可能由疾病基因编码。他们的研究还发现, 关键蛋白质( e s s e n t i a l m e i ) 倾向十与集散节点( h u b s ) l j 接,这种倾向明品地高于疾病 蛋白质。 就度分布而占,m a ”怫慵出不仅关键蛋白质倾向于分布在高度节点上,而且类 似的趋势也出现在毒性调制蛋白质中( t o x i c i t y m o d u l a t i n gp r o t e i n s ) 。在整个非关键蛋白 质集台中( 即具有显型表达的数据) ,毒性调制蛋白质的平均度要高于整个非关键蛋 白质集合和非显型蛋白质( n o d h c n o t y p ep r o t e i n s ) 集合。就总体情况而言,毒性调制蛋 白质比随机选择的蛋白质和非关键及非显型的蛋白质包含有更多的交互。进一步来 讲,非显型蛋白质集合的分布呈现相反的特征,它具有比随机选择的节点集、非关键 节点集、以及塞! 个网络的节点集更低的节点度。在酵母虽白质网络中。个具有高竹 点度( 度1 5 ) 的节点成为关键蛋白质的可能性两倍于随机选择的节点;一个具有高 节点度的非关键节点成为对毒性调制有重要意义蛋白质的可能性l5 倍于随机选择的 非关键节点。 针对蛋门质的”重要性”可以山它的节点度进j r 度量的看法可以通过这样的方法 进步舰察:把毒性调制蛋白质按岛、中、低等不同的敏感度进行分类,然后计算各 博士学位论文第2 章基于网络拓扑的关键蛋白质识别 个类别的平均节点度和特征路径长度。结果显示,敏感度高的变异在这些拓扑属性上 明显区别于那些敏感度低的类别;在大多数情形下,高敏感度对应于较高的节点度和 较短的特征路径。这些结果进一步支持了这样的观点:具有较高节点度、处于中心位 置的蛋白质一般来说比那些低节点度、处于边缘地带的蛋白质的重要性更高。 通过子网可以进一步观察每一个类别内蛋白质的组织及其局部结构,这里的子网 分别由同一个表现型类别内的蛋白质及其相互作用构成:节点对应于具有给定表现型 的蛋白质,边对应于由实验已经确定存在的这些蛋白质之间的相互作用;将整个蛋白 质网络分成关键子网、非表现型子网、毒性调制子网等3 大类7 个不同的子网,发现关 键子网和毒性调制子网中连接分量的规模要远远大于那些由原来整个网络中随机选 择的节点构成的子网或非关键节点构成的子网。这些关键和毒性调制蛋白质具有较高 节点度的现象,说明共信号路径( c o h e s i v es i g n a l i n gp a t h w a y s ) 、蛋白复合物( p r o t e i n c o m p l e x e s ) 以及生化路径( b i o c h e m i c a lp a t h w a y s ) 等至少部分地显现在这些子网中。 在局部结构的进一步研究中发现,关键子网和毒性调制子网内蛋白质聚集的趋势更显 著,它们的聚集度数倍于那些由原来整个网络中随机选择的节点构成的子网,而非表 现型子网的聚集度小于这样随机选择子网。平均聚集系数的研究结果表明,这些子网 中蛋白质表现型的影响是置于那些具有密度大于常态的交互连接的生化路径、信号路 径及蛋白复合物等的控制之下。具有非0 聚集系数的节点所占的百分比显示某种程度 的局部聚集的存在:与随机选择的子网相比,这样的百分比在关键及毒性调制子网中 显著地高,而在在非表现型子网中显著地低;就孤立节点来说刚好相反,它们在关键 及毒性调制子网的比率显著低,而在在非表现型子网中显著地高。 由于它们在细胞生存中的表现型角色,毒性调制蛋白质可能是关键蛋白质与非表 现型蛋白质之间的一个中间过渡。关键蛋白质规定在生命的各种条件下细胞的生存及 发育能力,它们在网络中的位置使得它们最具有权威。关键蛋白质的中心性可能在维 持固有细胞功能的重大生命过程与动态平衡之间起着沟通作用;与前者相比,毒性调 制蛋白质可能只是在细胞生存的某些时段需要。 2 4 3 关键蛋白质的识别研究 目前关键蛋白质的识别研究大多集中在节点度的大小上,生物学上通过对 s c e r e v i s i a e 和e c o l i 的移除分析已经证实,一个蛋白质参与交互作用的多少与它在网 络中的重要性有关,关键蛋白质通常比其它具有更多的交互数量1 2 5 6 9 7 0 】。文献【7 1 】从 由4 7 4 3 个酶母蛋白质及其2 3 2 9 4 种交互所构成的网络中,按节点度从高到低取的1 0 6 1 个节点作为中枢节点( h u b s ) ,发现其中的4 3 属于关键蛋白质,显著高于随机选择2 0 的期望值,同时还发现关键蛋白质的度大概是非关键蛋白质的2 倍。通过对聚集系数 及特征路径长度的分析发现,该网络中的关键节点倾向于具有更高的聚集度,相互之 间也显现出更密切的关联。图2 2 示意关键节点在酵母菌( y e a s t ) 蛋白质网络中形成的交 1 7 博士学位论文第2 章基于网络拓扑的关键蛋白质识别 互关系【5 1 】: 图2 - 2 酵母菌y e a s t ) 蛋白质网络中关键节点之间形成的交互关系 文献【5 1 】研究显示,从酵母蛋白质组中移除某个蛋白质引起的致命性与节点在网 络的中心性测度的大小有关,这些测度包括蛋白质的度、中介数以及子网数等,它们 在识别关键蛋白质时显著优于随机选择方法。尤其是子网数,它从结构上提供了关于 蛋白质个体在网络中所扮演角色的重要信息,按它的值从高到低取1 的节点时最多可 以包含有6 0 的关键蛋白质。 文献 7 2 ,7 3 把蛋白质网络和对应的遗传网络综合起来识别关键蛋白质( 简称p i g i 方法) 。他们把蛋白质的交互作用作为物理交互( p h y s i c a li n t e r a c t i o n s ,p i s ) ,把影响 到表现型( 致命或病态) 的并且它们之问具有交互作用的任意两个遗传扰动当作遗传 交互( g e n e t i ci n t e r a c t i o n ,g i ) ,同时定义路径( p a t h w a y ) 为蛋白质网络中的一个连 通子网而关联路径模式( b e t w e e n p a t h w a y m o d e l ,b p m ) 定义为在g i 网络中相互之 间有密集交互的两个不同路径,这些关系通过贪婪算法获得。他们从b i o g r i d 数据库 收集了由1 8 6 9 个基因的1 2 8 5 0 种交互所组成的g i 网络,从多种来源中收集了涵盖6 1 8 4 种蛋白质的6 8 1 7 2 种交互构成的p i 网络。通过b p m 分析获得1 4 0 种模式及1 2 4 种与各自 所在模式的两条路径都有密集关联的枢纽( p i v o t ) 蛋白质,结果显示b p m 路径与对应 表现型的相关度显著高于实际网络同一尺度下随机连接的对照组。在这些枢纽点中发 现其中的7 2 个是关键蛋白质,大大高于预期的2 2 6 个。尽管已经存在有关于关键点与 度高相关度的观察,这里所获得结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源行业工业互联网在能源数据采集与分析中的应用报告
- 2025年新能源汽车自动驾驶技术法规与新能源汽车产业布局优化研究报告
- 工程管理服务包括哪些
- 零售店铺租赁补充协议范本(租赁期限及装修规范)
- 跨境贸易公司股东股权转让与供应链管理合同
- 美甲美睫门面房租赁与美甲美睫服务协议
- 离婚协议书:夫妻共同债务清偿与个人财产分割
- 神东矿区劳务派遣员工同工同酬实施细则合同
- 2025年关于心电监护考试试题及答案
- 2025年高考建筑试题题库及答案
- 口腔咨询顾问入门知识培训课件
- 公司金融学 课件 第三章:货币的时间价值
- 2025年中国质量协会质量专业能力考试(质量经理)历年参考题库含答案详解(5套)
- 高三试卷:河北省2025届高三上学期新高考单科模拟综合卷(二)数学数学试卷
- 高速公路零碳服务区评价技术规范 (TCCTAS 36-2022)
- 2025年校长专业标准试题及答案
- 共产党员因私出国(境)保留(停止)党籍审批表(科级以下工作人员版)
- 电力系统介绍课件
- ERP上线奖惩管理办法
- DB11∕T 2232-2023 轨道交通车辆基地规划设计标准
- 幼儿发展评价手册使用培训
评论
0/150
提交评论