




已阅读5页,还剩95页未读, 继续免费阅读
(计算机应用技术专业论文)基于多源数据融合的代谢网络重构技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t a b s t r a c t m e t a b o h cp r o c e s s e sa r et l l ef o u n d a t i o no fa 1 1l i v e s t h em e 劬0 1 i cm o d e l sp l a y i m p o r t a n tr o l e si na n a l y z i n ga n dc o m p r e h e n d i n gm em e t a b o l i s mo fo 唱a n i s m i nm e p o s t g e n o m ee r a ,i ti se s s e n t i a lt 0s t u d yt l l eo 玛a n i s mi nag e n e r a lv i e wo fb i o l o g y r e s e a r c h r r i l eg e n o m e - s c a l em e 劬o l i cn e t w o r kr e c o n s t r u c t i o ni st 0r e c o n s t m c ta n da n - a l y z et h em e t a b o l i cn e t w o r k i ng e n e r a lv i e w e s p e c i a l l yf o rg e n ei n f o 衄a t i o no fm o l e c u l a rp h y s i o l o g y 。m e t a b o l i cr e c o n s t r u c t i o ni sap r o c e s so fi d e n t i f y i n g ,c a t e g o r i z i n ga n d i n t e r c o n n e c t i n gg e n e s ,p r o t e i n s ,r e a c t i o n sa n dr n e t a b o l i t e st of o man e t w o r k b yf 弛 m o s tt r a d i t i o n a lm e t a b o l i cn e t w o r kr e c o n s 锄c t i o nr e s e a r c h e sa p p l yc l a s s i c a lb i o l o g i c a lk n o w l e d g ei n c l u d i n gg e n e ,p r o t e i n ,e 芏l z y m e ,r e a c t i o n ,p a t h w a yd e r i v e df 硒mm u l t i 。 s o u r c ed a t a b a s e s b a s e do nt h ep r e v i o u sr e s e a r c ho fm em e t a b o l i cn e t w o r kr e c o n s m l c t i o n ,w r ed e s i g n a n di m p l e m e n t sam e t a b o i i cn e t w o r kr e c o n s t m c t i o ns y s t e mb a s e do ni n t e g r a t i n gt h e m u l t i s o u r c ed a t a b a s e s ,w h i c hc a nu s ea u t o m a t i cp r o c e s s ,w i mt l l eb a s eo fd n ad a t ao f o 略a n i s m s ,r e c o n s t r u c t e da n di n t e g r a t e dm e t a b o l i cn e t w o r ke f n c i e n t l ya n da c c 眦a t e 王y - t h ec o n t e n t sa r ea sf 0 1 1 0 w s ( 1 ) a f t e ra n a l y z i n gt h ep r o p e r t yo fm e t a b o l i cn e t w o r k sa n d 出er e l a t i o no f a l lk i n d s o fm e t a b o l i t e s ,w ed e s i g n e da n da c c o m p l i s h e dam e t a b o l i cn e t w o r km a r k i n gl a n g u 鹋e w h i c hc a nd e s c r i b ea l lk i n d so fm e t a b o l i t e sa n dn l e t a b o l i cm o d e l s 。 ( 2 ) s e l e c t i n gt y p i c a ld a t a b a s e s ,w ed e s i g n e da l o c a lm e t a b o l i cd a t a b a s ew h i c hi n t e g r a t e dal a 略ea m o u n to fm e t a b o l i s mr e l a t e dd a t a b a s e s i to f ! f 色r e ds o u r c ef o rm e t a b 0 1 i c n e t w o r l ( sr e c o n s t r u c t i o n ( 3 ) w i c ht h eb a s eo fa n a l y z i n gt h ef l e a t u r e so fd n ad a t a ,w ep r c i p o s e dah y b r i d p a r t i c i p l ea l g o r i t h mt oi d e n t i f y i n ge n z y m eo fd n a e x p e r i m e n t a la n da n a l y t i c a lr e s u l t s s h o wt h j sa l g o r i t h mm o r ee 伯c i e n ta n da c c u r a t e ( 4 ) f 0 rm ep u 印o s eo fe v a l u a t i n gt h en e t w o r kr e l i a b i l i t yd u r i n gt h ep r o c e s so fr e c o n s t r u c t i o n ,t h ec o n c e p to fc o n f i d e n c ew a si n t r o d u c e dt oi 1 1 u s t r a t et h ep a t h w a yh 0 1 e s i nm e t a b o l i cn e t w o r k f u r m e r n l o r e ,n l ep a t h w a yh o l e sw e r en l l e da n dt h e nv a l i d a t e d f i n a l l y w ea u m e n t i c a t e dt h ei i n p o r t a n c ea n dt h ee f :i e c t i v e n e s so fo u rs y s t e m o u r s y s t e m i sa na u t o m a t i cr e c o n s t n 】c t i o nt o o lw i t hg o o du n i v e r s a l i t ya n dh i g he f f i c i e n c y i t h a sg o o da p p l i c a t i o nv a l u ea n dt h e o r e t i c a ls i g n i 矗c a n c ef b rr e c o n s t r u c t i o no ft h el a r g e s c a l en e l w o r ka n df h r t i l e ru n d e r s t a n d i n gm e t a b o l i s mf u n c t i o no fo 玛a n i s m s 1 【e yw b r d s :m e t a b o l i cn e t w o r kr e c o n s t n l c t i o n ,d a t a b a s ei n t e g r a t e ,m e t a b o l i cn e t m 第一章绪论 第一章绪论 各种基因组计划的开展使我们积累了大量生物基因组相关的数据,使我们 了解了许多生命现象的细节,但如何把这些细节组织到一起,从整体的角度理 解生命过程还知之甚少。而在后基因组时代,如何利用大量基因组数据从综合 整体的角度研究生命将成为生物学的研究重点和核心。 为了在系统水平上理解生物,我们必须研究细胞和生物体的结构,动态性 和功能,而不是细胞或者生物体的某个个别组织的特性。现在之所以能够在系 统水平上研究生物,最主要是因为人们在分子生物学,特别是基因测序和高通 量测量方法上取得了重大的进展,使得人们能够在系统水平上收集数据,并且 能够在分子水平上获得有关信息,这些信息为我们从基因尺度上重构代谢网络 提供了可能性。 1 1 代谢网络概述 代谢网络是一系列按序进行的生物化学反应构成的生化反应途径,生化反 应途径按生物化学规律汇成生化反应网络,分解代谢途径和合成代谢途径与输 送系统相互的结合,加上细胞内辅酶再生与回用的协调,形成横跨生物活细胞 内外的、可调节的、无尺度的网络( b i l k ea 1 1 dp c t e r s o n ,2 0 ( ) l ;g a g n e u re ta 1 ,2 0 0 3 ; w 她n c ra n df e l l ,2 0 0 1 ) 。 代谢网络模型是以主代谢物作为节点,而以反应的主代谢物之间的转化作 为节点之间的连接。不可逆的反应用带箭头的连线表示,可逆的反应直接用直 线连接( s m o l d e r se ta 1 ,1 9 9 5 ) 。代谢网络理论把细胞的生化反应以网络整体,而 不是孤立地来考虑。细胞代谢网络是由上万种酶催化的系列反应系统、膜传递 系统,信号传递系统组成,并且既受精密调节,又互相协调。各种代谢都不是 孤立地进行的,而是相互作用、相互转化、相互制约的一套完整、统一、灵敏 的调节系统。 生物体的代谢网络可以分不同层次来讨论:基因组( d n a 层次) 、代谢途 径及生化反应网络( 蛋白质层次) 、代谢流( 物流层次) 、代谢生理( 微生物 细胞层次) 等。对蛋白质层次的代谢网络来说,一个代谢物分子就是一个节 点,而节点之间的连结则是生化反应。从低层次到高层次,从大平台到小平 台,需要相应的逐级激活。基因组里的一部分基因被激活而得到表达,形成代 谢途径及生化反应网络;任何时刻代谢流只在生化反应网络局部或某些途径中 流动;只有一部分代谢流促成微生物细胞的某种生理状态的出现。 为了理解代谢网络的复杂性,许多方法被开发出来了。首先被开发出 来的方法是平衡流量分析法( f l u xb a l a n c ea n a l y s i s ,f b a ) ( e d w a r d se ta 1 ,1 9 9 9 ; k a u 胁a ne ta 1 ,2 0 0 3 ) 。但是f b a 被开发出来的初衷仅仅是为了计算代谢途径的 代谢通量,而不是为了理解代谢网络的复杂性。这个方法是基于质量守恒原理 第章绪论 并且应用优化原理来预测代谢网络中的代谢资源的优化分配。而且这个方法是 从基于反应的角度来预测基因型和表型的关系。如果除了从基于单个反应的角 度出发,还从途径的角度出发,人们就能更好地理解基因型和表型之间的复杂 关系。因为从途径的角度出发将会系统地为那些由反应构成的途径提供通量分 析。而用通量平衡的方法,仅仅只能分析单个反应的通量。于是途径分析的方 法就被开发出来。现阶段,存在着两个非常接近的途径分析的概念,一个是 基元模式( e l e m e n t a 巧m o d e s ) ( p a p i ne ta 1 。2 0 0 4 ;s c h u s t e re ta 1 ,2 0 0 0 ;s t e l l i n ge ta 1 , 2 0 0 2 ) ,另外一个是极端途径( e x t r e m ep a t h w a y ) ( p a p i ne ta 1 ,2 0 0 2 ,2 0 0 4 ) 。 组建代谢网络模型需要知道参与生物体或者细胞代谢的所有代谢反应。包 括需要知道参与代谢反应的反应物,产物,还有相应的酶,及该反应的可逆 性。现在能够通过数据库系统得到这些信息。现在,在因特网上存在着两种类 型的数据库:一种是特定生物体的数据库,例如e c o c y c ,另外一种是通用型的数 据库,例如京都基因和基因组百科全书( k e g g ) 。利用这些数据库,再加上 一些生化数据和特定菌株的数据就能够用来定义代谢基因型,能够重组对应生 物体的代谢网络模型。 代谢网络重构有着非常重要的意义。对生物体代谢网络的重构,有利于用 基因工程方法修饰改造代谢途径。根据功能基因组研究提供的生物体整体物理 图谱,有可能构建正向表达次级代谢基因簇的超级宿主,以表达本身或外源导 入的目标基因簇。其社会意义和工业意义有:( 1 ) 改造次级代谢途径获得高产 菌株:传统高产菌株的获得主要是育种改良生产菌种,通过诱变如紫外、氮芥、 乙烯亚胺等大规模筛选,虽然稳定但工作量大。2 0 世纪7 0 年代发展起来的原生 质体融合技术成为抗生素生产菌选育菌种的重要途径之一,但由于菌株需带标 志,选育同样费时费力。2 0 世纪9 0 年代后期开始有意识地利用基因工程方法改 造修饰次级代谢途径,随着更多次级代谢基因簇信息和基因组信息的获得,利 用分子手段改造次级代谢途径成为可能。由于基因组信息研究提供了比较清晰 的代谓j 路径信息,因此可以操纵代谢途径、增加目标代谢物前体,敲除非目标代 谢物的代访j 途径以提高目标代谢物的产量( f e i s te ta 1 ,2 0 0 6 ) 。( 2 ) 预测生物体在 不同条件下对于环境的反应。( 3 ) 在医学领域,对某些人体组织代谢模型的研 究对于代谢相关疾病的治疗具有重要意义。( 4 ) 通过利用代谢物平衡法,研究 代谢通量家族谱系,可用于研究公共或工业菌种保藏中心各种菌之中的家族谱 系,追踪菌种改进的历史,获得不同生物系统的代谢功能及调控方面的知识,为代 谢工程菌种改进提供基础。( 5 ) 利用微生物的代谢调控能力的自然缺损或通过 人为方法获得突破代谢调控的变异株,生产积累有关特殊代谢物。 从不同角度、不同层面分析微生物代谢,可以发现有不同的代谢网络,我 们主要研究的是基因层次上的的代谢网络。 2 第一+ 章绪论 1 2 基因层次上的代谢网络重构 基因层次上的代谢网络重构是一个把生物系统中参与代谢活动相关的基 因,蛋白质,反应和代谢物进行鉴别,分类和相互连接以形成一个网络的 过程( f e i s te ta 1 ,2 0 0 6 ) 。重建过程把生物体的代谢途径划分成对应的反应和 催化的酶,并且从整个网络的角度给以分析。各种各样的代谢途径包括有 糖酵解( g l y c o l y s i s ) 、三羟酸循环( k r e b sc y c l e ) 、戊糖磷酸盐途径( p e n t o s e p h o s p h a t e p a t h w a y ) 等。一般情况下,重构包括收集一种生物体的全部的新陈代 谢相关的信息,然后把它们以有生物意义的方式汇编起来以为方便各种各样的 分析所用。相关的基因和新陈代谢通过搜索基因数据库的方式获得,如k e g g , g e n b a n k ,搜索可以通过输入酶名字、蛋白质名字或者酶的编号( e cn u m b e r ) 等来找到相关的基因( f r a n c k ee ta 1 ,2 0 0 5 a ) 。 g a a s t e r l a n da n ds e l k o v ( 1 9 9 5 ) 提出了利用不完整的信息重构代谢网络的一般 原则和步骤,从理论上解决了基因层次上的代谢网络重构问题,不过当时的条 件还无法重构一种具体生物的代谢网络。目前已经重构的代谢网络和正在重构 的代谢网络主要有: 2 0 0 3 :f 街s t e r 和p a l s s o nb d 重构了酵母菌( s a c c h a r o m y c e sc e r e v i s i a e ) 的 代谢网络。他们采用了人工的方法,利用了大量的基因,生化和生理学 方面的信息,花了1 人年的工作量重构出了整个网络。该网络鉴别出了大 约7 0 8 个o r f ,1 0 3 5 个代谢反应,其中1 4 0 个基本的代谢反应证据产生了一个包 含1 1 7 5 个代谢反应和5 8 4 个代谢物的网络。这是真核生物中的第一个全面被重构 的网络( d u a r t ee ta 1 ,2 0 0 4 ;f a m i l ie ta 1 ,2 0 0 3 a ;f o r s t e re ta 1 ,2 0 0 3 ) 。 加0 4 :幽门螺杆菌( h e l i c 曲a c t e rp y l o r i ) 的构造网络被重构出来了,该模型 包含3 4 1 个代谢基因,4 7 6 胞内反应,7 8 个交换反应( e x c h a n g er e a c t i o n s ) ,4 8 5 种 代谢物( p a l e ya n dk a r p ,2 0 0 2 ;t h i e l ee ta 1 ,2 0 0 5 ) 。 2 0 0 5 :金黄色葡萄球菌( s t a p h y l o c o c c u sa u r e u s ) 的代谢网络被构造出来 了,它主要利用了基因组,文献和分子生理学信息。该网络包含了金黄色链霉 菌的大约2 3 的蛋白质编码区域对应的7 7 4 个代谢过程,在后一个版本中,该模 型包含了6 1 9 个基因和6 4 0 个代谢反应( b e c k e ra n dp a l s s o n ,2 0 0 5 ;h e i n e m a n ne ta 1 2 0 0 5 ) 2 0 0 6 :甲烷八叠球菌( m e m a n o s a r c i n ab a r k e f i ) 的代谢网络被构造出来了, 采用的是基于约束的方法,这是第一个产烷生物和太古代种群生物的代谢网络 重构( 民i s te ta 1 ,2 0 0 6 ) 。 2 0 0 7 :绿脓杆菌( p s e u d o m o n a sa e r u g i n o s a ) 的代谢网络被构造出来了,该 文提出了一种新的方法来鉴别缺失的基因编码对应的酶,它采用了该细菌的基 因组信息,化学结构信息等来对网络进行验证。( y a m a n i s h ie ta 1 ,2 0 0 7 ) 。 2 0 0 7 :红细胞( r e db 1 0 0 dc e l l ) 的代谢网络被构造出来了( n e m e n m a i l , 2 0 0 7 ) 。 3 第一章绪论 2 0 0 7 :大肠杆菌的代谢网络被构造出来了,该网络包含1 2 6 0 个o l 强( f e i s te t a 1 2 0 0 7 ) 。 2 0 0 7 :乳酸菌( l a c t o b a c i l l u sp l 觚t a n l m ) 的代谢网络被构造出来了,该网 络的构造采用了基因,代谢途径数据库和手工筛选的方法,最终的网络包 含了1 2 9 个代谢途径,7 0 4 个代谢反应,6 7 卟代谢物和7 1 0 个酶( t e u s i n ke ta 1 , 2 0 0 5 ) 。 2 0 0 7 :m yd 构造了人的代谢网络,不过目前构造的网络大多都是局部的 而不是全部的( v oe ta 1 ,2 0 0 4 ) ,d u a 他n c ( d u a n ce ta 1 ,2 0 0 7 ) ,m ah ( m a e ta 1 , 2 0 0 7 ) 。 重组代谢网络之后,接下来要做的工作就是分析代谢网络。o u z o u n i sa n d l r p ( 2 0 0 0 ) 分析了大肠杆菌的代谢网络,m aa n dz e n g ( 2 0 0 3 b ) 不仅从基因组数 据重组了8 0 种生物体的代谢网络,而且分析和比较了8 0 个生物体的平均途径 长度( 所有代谢物之间的途径长途的平均值,而每两个代谢物之间的途径长度 用这两个代谢物之间的最短途径长度表示) 。并且分析了这些生物体的代谢物 的连接度分布,发现连接度分布符合幂定律( p o w e r l a w ) 规则,这显示所有的代 谢网络结构都具备小世界网络特征。m aa n dz e n g ( 2 0 0 3 b ) 通过进步研究代 谢网络结构发现,代谢网络主要由四个子集构成:主体部分是一个每个代谢物 之间完全连接的部分( g i a n ts 们n gc o m p o n e n t ,g s c ) ,还有底物子集( s u b s t r a t e s u b s e t ,s ) ,产物子集( p r o d u c ts u b s e t ,p ) ,独立反应子集( i s o l a t e ds u b s e t ,i ) 。 而且发现g s c ,s 和p 三个子集形成的连接结构和世界范围内的网络的蝴蝶结结 构( b o w t i e ) 很相似。由于独立反应子集中的反应没有和代谢网络的其他部分连 接到一起,因而就可以用g s c ,s 和p 这三个子集形成的结构代表整个代谢网络, 从而为代谢网络的结构和功能分析提供了便利。 有关代谢数据库方面也取得不少进展。主要包括大肠杆菌代谢大全 数据库( e c o c y c ) ( k a 叩e ta 1 ,2 0 0 0 ,2 0 0 2 a ) ,代谢途径大全数据库( m e t a c y c ) , 东京基因和基因组大全数据库( k e g g ) ( k a n e h i s a ,2 0 0 2 ) ,酶和代谢途径数据库 ( e m pd a t a b a s e ) ,基因组序列分析与代谢重建系统( w r r ) 和代谢途径数据 库( m p w ) ( s e l k o ve ta 1 ,1 9 9 8 ) 。其中e c o c y c 专门针对最有代表性的模式生物大 肠杆菌,该工作是一项很有影响的平台技术,最近在s c i e n c e 作为计算机符号理 论的典型案例进行了详细介绍( k a r p ,2 0 0 1 ) 。 根据上述定义,代谢网络重构的主要工作分为2 部分,第一部分是基因,蛋 白质,酶,代谢反应和代谢途径的鉴别过程,第二部分是把这些代谢物分类、 互联以形成代谢网络的过程。从生物意义的角度出发,代谢网络的重建过程 见( 图1 1 ) 4 第牵绪论 图1 1 基因尺度上的代谢网络重构( f o r s t e re ta 1 ,2 ( ) 0 3 ) 1 3 代谢网络重构的研究现状 4 1 3 代谢网络重构研究组及其研究现状 霞前世界上研究代谢网络卓有成效的研究维主要宥: k e g g 代谢研究组 , 京都基因秘基困缀西科全书( k y o t oe n e y e l o p e 蕊ao fg e 秘e sa 砖 g e n o m e s ,k e g g ) ( k a n e h i s ae ta l 。,2 0 0 4 ) 是系统分析基因功能,联系基 因组信息和功能信息的数据库。基因组信息存储在g e n e s 数据库墨,包括 完整和部分测序的基因组序列;更高级的功能信息存储在鼢汀 董w 错数据 库里,包括图解的细脆生化过程如代谢、膜转运、信号传递、细胞闫期, 还包括同系保守的子途径等信息;k e g g 的另一个数据库是i g a n d ,包 含关于化学物质、酶分子、酶反应等信息。k e g g 提供了j a v a 的图形工具 来访问基因组图潜,比较基因组图谱和操作表达图谱,以及其它序列 比较、图形比较和途径计算的工具,可以免费获取。k e g g 是比较全面 研究代谫 的数据库,但是没有公开出版的各舀的代谢途径预测算法的描 述( o g a ae ta 1 ,1 9 9 8 ) 。尽管k e g g 的开发者指出他们采用e cn u m b e r 来匹配 代谢途径中的酶,但是这种描述是不全谣的,由于很多的k e g gp a 如w a v m a p 包含的酶没有e cn u m b e r ,k 琶g g 采用了一些未公开的特殊步骤。它并 不精确指出相关的代谢途径究竟是不是出现在对应的生物体中,它给出对 5 第章绪论 6 应生物体的所有可能的代谢途径,用户需要自己确定一个代谢途径是否出 现在对应的生物体中。但是,由于很多代谢途径中存在很多假阳性的证 据,这是一个很困难的过程。 p a l s s o n 的代谢研究组 美国加利福尼亚大学圣地亚哥分校( u n i v c r s i l yo fc a i i f o m i as a nd i e g o ) 的 系统生物学研究组中的的p a l s s o nb 1 z i 等人从1 9 9 7 年开始研究代谢工程,目 前在代谢网络重构、基因标注r e i i n i n g 、基于基因序列比较观察的细菌进 化,细胞行为理解等方面的研究方面非常活跃,目前已经重构的代谢网络 有大肠杆菌( b a 玎e t te ta 1 ,2 0 0 5 :c h oe ta 1 ,2 0 0 8 ;e d w a r d se ta 1 ,2 0 0 1 b ;f e i s te t a 1 ,2 0 0 7 ;r e e de ta 1 ,2 0 0 3 ) ,酵母菌( d u a n ee ta 1 ,2 0 0 4 :f a m i l ie ta 1 ,2 0 0 3 a : f o r s t e re ta 1 ,2 0 0 3 ;h e r r g r de ta 1 ,2 0 0 6 ;h j e r s t e de ta 1 ,2 0 0 7 ) ,流感嗜血杆 菌p a p i ne ta 1 ( 2 0 0 2 ) ;s c h i l l i n ga n dp a l s s o n ( 2 0 0 0 ) ,幽门螺杆菌( p r i c e e ta 1 。2 0 0 2 ,2 0 0 6 ;s c h i l l i n ge ta 1 ,2 0 0 2 ;t h i e l ee ta 1 ,2 0 0 5 ) ,巴氏甲烷八叠球 菌( f e i s te ta 1 ,2 0 0 6 ) ,金黄色葡萄球菌( b e c k e ra n dp a l s s o n ,2 0 0 5 ) 等。整在正 在研究的生物有人的心脏线粒体( h u m a nc a r d i a cm i t o c h o n 嘶a ) ,心肌细 胞( c a r d i o m y o c y t e ) 等。他们和t e c h n i c a lu n i v e r s i t yo fd e n m a r k 合作重构 的关于s a c c h a r o m v c e sc e r e v i s i a e 的代谢网络是第一个真核生物的全面的新 陈代谢网络重建,它被作为很多细胞表形功能的分析和仿真实验的基础。 s r i 生物信息学研究组 s r i 生物信息学研究组的p e t e rd k a r p 等人很早就开始研究代谢网络 了( c h a u d 腼e ta 1 ,1 9 9 8 ;k a 印a n dp a l e y ,1 9 9 6 ) ,他们研究侧重点在生物 信息学的计算方法上面,他们跨学科的研究组开发了一些生物信息学相关 的软件,数据库和本体关系。他们的主要工作有: 一b i o c y c 一有关基因组代谢途径的数据库集合( k a r pe ta 1 ,2 0 0 5 ) 。 一e c o c y c 有关大肠杆菌的肌体建模数据库。该数据库整合了有 关e c o l i 的基因,代谢,遗传网络的超过1 1 0 0 0 种出版物( k a r pe ta 1 , 2 0 0 2 a ) 。 一m e t a c y c 来自超过4 5 0 种生物体的基于实验的代谢途径和酶的百科全 书( k a 巾e ta 1 ,2 0 0 0 ) 。 一t h ep a t h w a yt o o l ss o f t w a r e 用来查询、可视化、分析b i o c y c 中 存在p a t l l w a y g e n o m ed a t a b a s e s ,然后根据标注基因组来创建新 的p a t h w a y g e n o m ed a t a b a s e s ( k a 叩e ta 1 ,2 0 0 2 b ) 。 一b i o w a r e h o u s e 一个数据库交互环境,他支持数据挖掘,包括u n i p r o t , b i o c y c ,n c b i1 r a x o n o m y g e n b a n k ,c m r ,e n z y m e ,g e n eo n t o l o g y a n d k e g gd a t a b a s e s 等的多数据库整合( l e ee ta 1 ,2 0 0 6 ) 。 第一章绪论 一b i o d b l o a d e rt o o u d t 一个生物信息学的l i s p 工具。它把很多生物信息 学数据库整合成l i s p 以进行简单处理( k a i p e ta 1 ,1 9 9 9 ) 。 m a & z e n g 研究组 德国的生物工程和微系统基因研究中心( g e 肌a l lr e s e a r c hc e n t e rf b r b i o t e c h n o l o g y ,m i c r o b i a ls y s t e m s ,g b f ) 的h 0 n g w um a 在这方面也做了卓 有成效的工作。他们的工作主要侧重在利用代谢网络分析生物体的结构, 利用复杂网络的方法来分析代谢网络,对代谢网络进行功能性分解等等 方面。m aa n dz e n g ( 2 0 0 3 b ) 不仅从基因组数据重组了8 0 个生物体的代谢网 络,而且分析和比较了8 0 个生物体的平均途径长度( 所有代谢物之间的途 径长途的平均值,而每两个代谢物之间的途径长度用这两个代谢物之间的 最短途径长度表示) 。并且分析了这些生物体的代谢物的连接度分布,发 现连接度分布符合p o w e rl a w 规则,这显示所有的代谢网络结构都具备小世 界网络特征。m aa n dz e n g ( 2 0 0 3 a b ) 通过进一步研究代谢网络结构发现, 代谢网络主要由四个子集构成:主体部分是一个每个代谢物之间完全连接 的部分( g i a n ts d n gc o m p o n e n t ,g s c ) ,还有底物子集( s u b s t r a t es u b s e t ,s ) ,产物子集( p r o d u c ts u b s e t ,p ) ,独立反应子集( i s o l a t e ds u b s e t ,i ) 。而且 发现g s c ,s 和p 三个子集形成的连接结构和世界范围内的网络的蝴蝶结结 构( b o w t i e ) 很相似。由于独立反应子集中的反应没有和代谢网络的其他部 分连接到一起,因而就可以用g s c ,s 和p 这三个子集形成的结构代表整个 代谢网络,从而为代谢网络的结构和功能分析提供了便利( m aa n dz e n g , 2 0 0 4 ;m ae ta 1 ,2 0 0 4 a ,b ,2 0 0 5 ) 。 1 3 - 2 代谢网络重构研究进展总结 当前的代谢网络重构集中在少数几种研究非常深入的非常简单的菌体上, 如酵母菌,天蓝色链霉菌,大肠杆菌,甲烷八叠球菌等。其主要特点是: 1 对这些生物体的研究都非常深入,它们也被广泛应用于工业和实验室的对 于细胞研究的首选。s a c c h a r o m y c e sc e r e v i s i a e 是第一个被完整测序的真核 生物体,第一个基因范围内的c 融妊阵列也是为他设计的,有非常多的文 献和研究资料来帮助我们理解酵母菌的细胞行为,专门研究酵母菌的数据 库也很多。 2 这些菌体都比较简单,大多是单细胞生物。不管是从细胞行为,还是基因 组的大小,相对其他生物来说,都是比较简单的。 3 当前的基因层次上的代谢网络重建大部分都是手动的过程。由于缺乏相关 的精确的工具,重建工作大部分都需要靠手动来完成。这是一个低效的和 不精确的过程。 7 第一章绪论 1 4 基于多数据源的代谢网络重构 目前的代谢网络重构,主要是采用已有的生物学知识,包括基因的信息, 蛋白质的信息,酶的信息等等来完成的。这些知识是多方面的。按照其数据来 源的不同,大致可以分为以下几个方面( 图1 2 ) : 利用数据库进行网络重构 采用数据库,包括基因的数据库,蛋白质的数据库,酶的数据库,途径的 数据库以及一些专用数据库( 如y e a s t 的专用数据库s g d ( c h e n 了e ta 1 ,1 9 9 8 ) , 大肠杆菌的数据库e c o g e n e ( r u d d ,2 0 0 0 ) 等等) ,对代谢网络中的信息鉴 别,分类和互联,重构出生物体完整的代谢网络。 利用文献,r e v i e w 进行网络重构 从生化文献,出版物、r e v i e w ,r 印o r t 等中进行生物代谢知识的挖掘,从中 挖掘出与微生物代谢相关的信息,构造出其代谢网络。 利用生物实验数据的进行网络重构 利用实验手段,如基因测序技术,高通量蛋白质识别的质谱( m s ) 技 术,酶的鉴别技术等生物技术,获取实验数据,对相应的生物体中包含的 基因,酶,蛋白质进行鉴别,从而构造出其代谢网络。 其他人工方法进行网络重构 采用人工的方法来获取生物知识,对代谢网络中包含的代谢物进行手工查 找或者验证,获取其代谢网络。 上述的几种多源数据方法都不是孤立的,更多的重构是使用多个数据源, 而不是单一数据源的。一般地说来,使用数据库可以很方便地获得,搜索和存 储大量的生物数据和知识,并且可以批量操作,自动化程度比较高。不过缺点 是数据库中一般存放的是通用的信息,重构的网络很难比较精确到某一种具体 的微生物,而且网络比较容易有缺失。使用文献的方法则可以迅速获得大量最 新的研究成果,从而可以把最新的知识加入到网络中去。不过由于文献挖掘方 法不够成熟( n i c h o l s o n ,2 0 0 3 ) ,这种方法自动化程度不高,准确率也不高。采用 实验的手段可以获得大量的第一手资料,并且可以对网络的所有“缺口”进行 实验验证,从而可以得到比较精确的网络。不过大规模实验需要大量资源,成 本很高,而且生物实验的周期很长,对每种微生物都进行实验显然不可行,并 且生物实验数据的积累缓慢,用实验手段重构一种微生物的代谢网络代价会很 大,而且不易于采用自动化的方法。采用手工的方法可以得到精确的网络,而 且可以利用数据库,实验,文献等等数据,不过由于即使最简单的微生物的网 络都包括成千上万的代谢物和代谢反应,重构一种微生物的网络周期很长,代 价极大,而且很 x 第章绪论 过增加多个数据库来增加最新的生物知识,通过改进和优化代谢物的鉴别算法 来提高网络的规模和精度,使得最终重构的网络既能够有一定的规模,又能有 一定的精确度。 1 5 本文的主要工作、特色与内容安排 1 5 1 本文的主要工作 本文主要开展与生物体代谢相关的基因,蛋白质,酶,代谢反应和代谢途 径之间的功能关系研究,在此基础上研究代谢网络重构的原理和通用流程,同 时整合网络重构中需要的与代谢相关的多源数据库信息,设计和实现一个代谢 网络重构的自动化系统,使之能够从对应生物体的d n a 数据出发,全面可靠地 构造出其完整的代谢网络。 本文重点研究内容为: 1 0 1 研究代谢网络中基因、蛋白质、酶,代谢反应和代谢途径之间的关系,研 究代谢网络重构的流程,在此基础上,研究基于多源数据的代谢网络重构 系统的设计和实现方法。 代谢网络重构的出发点是生物体的d n a 数据,最终重构出来的网络主要包 括酶,代谢反应,代谢途径等数据,而生物体中的d n a 数据并不包含这些 与代谢相关的信息。因此,我们首先需要弄清楚各种代谢物质之间的相互 关系,如基因、蛋白质、酶、代谢反应之间的关系。这些是我们进行网络 重构的理论依据。 目前已经发布的代谢网络重构结果大多是手工构造的,不同的生物体的构 造过程并不是完全一样的,因此我们要研究针对一般生物体的网络重构流 程,设计并实现一个通用的系统,使得能够针对任意生物体进行代谢网络 重构。 2 研究代谢网络中各种代谢物质以及代谢模型的表示方法和描述格式。 代谢网络重构的本质是代谢相关的数据整合。数据整合的首要问题就是要 整合哪些数据,这些数据如何表示( p o o l m a ne ta j ,2 0 0 6 ) 。为了进行代谢网 络重构,我们需要了解各种代谢物质以及代谢网络的表示方法和描述格 式,以对要整合的数据进行规范和统一。这是我们进行代谢网络统一和自 动化重构的基础。 3 研究与代谢相关的数据库的信息整合方法,为代谢网络重构提供资源支 持。 第一章绪论 代谢网络重构涉及到代谢数据的整合,这些数据都来源于数据库,是我们 重构的核心。我们需要对与代谢相关的数据库进行充分的调研,选取与代 谢相关的并且公认的比较有影响的数据库,深入了解它们的数据格式和访 问接口,必要的时候要把它们整合到本地,为我们的网络重构提供资源支 持。 4 研究代谢网络重构中代谢物质的鉴别( 尤其是酶鉴别) 的主要方法,分析 问题的特性,提高酶鉴别的鉴别率和重构的效率。 代谢网络重构的主要难点是代谢物的鉴别( 尤其是酶鉴别) ,需要鉴别的 数据是基因标注中的数据,另一部分是酶途径数据库中的数据,它来源于 酶和途径数据库。最终鉴别出来的酶来自两部分:匹配算法匹配的部分和 手动筛选的部分。后者由于是手工的过程,因此前者匹配算法是关键。匹 配算法的好坏决定了鉴别的代谢物质的数量,进而决定了代谢网络的正确 性和完备程度。因此我们需要对匹配算法进行改进和优化,以提高代谢网 络的准确度和完备程度。 5 研究代谢网络的可靠性评估的方法,代谢网络中空白的发现、填充方法以 及网络的验证方法。 经过对d n a 数据中蛋白质、酶等代谢物的鉴别,我们已经得到了一个包含 代谢反应和代谢途径的证据集合。但是这些证据并不是完备的,代谢途径 中存在大量代谢反应缺少相应的酶证据( 即代谢网络中的“空白”) ,同 时,网络中还存在很多不一致的地方。因此我们需要对代谢网络可靠性进 行评估,寻找网络中的空白以及空白填充的方法,对网络进行验证。 代谢网络的可靠性评估和验证将减少代谢网络中的不一致的情况,并且补 充了大量网络中的漏洞,对于加强对生物体的精确理解,提高网络重构的 规模和精度都有重要的意义。 1 5 2 本文的特色和创新之处 本文研究成果的创新之处主要体现在以下几个方面: 1 设计并实现了一个自动化的代谢网络重构工具,该工具能够从生物体 的d n a 数据出发,全面可靠地重构出其代谢网络。 目前已经重构的为数不多的几种生物体的代谢网络大部分都是手动创建 的,如酵母菌的代谢网络的构建就花了1 人丰年的工作量,还没有公开发布 的自动化或者半自动化的创建工具。创建一个自动的重构系统能够大大提 高代谢网络的重建效率,而且使得网络重构能够适应于几乎所有生物体, 而不再局限于几种实验室常用的微生物体,重构的代谢网络为生物化学和 第一章绪论 1 2 生命科学研究提供更加深入地资料。 目前还没有发布过这样的系统。虽然已经有不少代谢数据库,但是其中的 提供的数据是不完整的,而且还有很多是无法证实的。我们的系统可以对 任意一种生物体,都能从其基因数据出发,全面可靠地重构出其完整的代 谢网络。 2 定义了一种代谢网络的完整描述格式, 网络重构相关的代谢物质,包括基因, 和代谢模型。 该描述格式能够完整地描述所有与 蛋白质,酶,代谢反应,代谢途径 目前系统生物学领域已经存在一些与代谢系统建模分析相关的标记语言, 例如s b m l ( s y s t e m sb i o l o g ym a r k 叩l 锄g u a g e ) ( h u c k a e ta 1 ,2 ( ) ( ) 3 ;s t r o m - b a c ka n dl a m b r i x ,2 0 0 5 ) 和b i o p a x ( b i o l o g i c a lp a t h w a y se x c h a n g e ) ( b a d e re t a 1 ,2 0 0 5 ) 等,不过它们都是单一地描述某一种物质的标记语言,例 如s b m l 主要描述的是代谢反应,b i o p a x 主要描述的是途径的( p a t h w a y ) 信息。根据我们的调研,目前还没有一种描述格式能够描述所有与代谢重 构相关的物质,这为代谢网络的统一重构带来了很大的困难。我们在分析 各种代谢物质关系和已有的描述格式的基础上,定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 考点解析-河南省辉县市七年级上册基本平面图形专项攻克试题(含解析)
- 推拿治疗学复习试题及参考答案详解【满分必刷】
- 2025年纺织服装制造业智能化生产智能生产设备智能化改造市场机遇报告
- 2025年基因治疗药物临床研究进展与市场趋势报告
- 押题宝典高校教师资格证之《高等教育心理学》考试题库及参考答案详解一套
- 贸易合同范本
- 解析卷华东师大版7年级下册期末测试卷及答案详解(名校卷)
- 解析卷-四川成都市华西中学7年级数学下册第六章 概率初步专项训练试题(含详解)
- 2025代办消防系统验收及整改施工合同范本
- 2025年度建筑材料购销与全程物流配送合同
- GoodsFox-2025年全球电商营销趋势报告
- 2025年人造粉云母制品行业深度研究报告
- 医工交叉培养提升医疗人才的综合能力
- 以诺书999中英对照
- 2025年初级会计考试试卷及答案
- 人教版三年级下册数学 期中测试卷
- 中学师德师风建设专题培训
- 高速公路养护合同模板
- 放射科护理质控与安全管理
- 倍智tas人才测评系统题库及答案
- 重大事项决策合法性审查制度
评论
0/150
提交评论