(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf_第1页
(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf_第2页
(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf_第3页
(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf_第4页
(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(计算机应用技术专业论文)面向多细胞生物代谢网络重构系统的设计与应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 代谢网络重构是一个把生物系统中参与代谢活动相关的基因、蛋白质、酶、 反应和代谢物质进行鉴别、分类和互联以形成一个代谢网络的过程,它从综合整 体的角度对生物体的代谢网络进行构造和分析。 针对现有代谢网络重构工具的现状和不足,本文在已有的微生物代谢网络重 构系统的基础上,设计并实现了一个面向多细胞生物的代谢网络重构系统 m c m n r s ( m u l t i c e l lm e t a b o l i cn e t w o r kr e c o n s t r u c t i o ns y s t e m ) 。该系统能够从基 因标注文件、蛋白质表达数据或者基因芯片数据出发,高效、自动地重构微生物 和多细胞生物的代谢网络。本文的主要工作包括: ( 1 ) 在已有工作的基础上,通过对酶名字和基因产物名字进行特征分析,设 计和实现了一种基于混合分词匹配的酶鉴定算法,进行了最优参数选择,并且通 过与p a t h o l o g i c 算法的实验对比验证了该算法具有良好的效率和很高的适用性。 ( 2 ) 设计了m c m n r s 的系统架构,完成了其输入数据处理模块、大规模网 络重构模块以及代谢网络分析模块的设计和实现,完善了数据库信息提取模块和 标准网络重构模块,并且将各模块集成为一个完整的面向多细胞生物的代谢网络 重构系统。 ( 3 ) 根据基因标注文件重构了大鼠、小家鼠、家犬和野马等哺乳动物的代谢 网络,并分析了这些代谢网络的基因鉴别率、网络中酶的分布情况以及各类酶的 底物特异性。 ( 4 ) 根据基因芯片数据重构了小家鼠1 2 个组织细胞表达的代谢网络,进行 了网络特异性分析发现了这些组织的特异代谢反应,并且依据网络距离、网络反 应关系矩阵、网络特异反应关系矩阵等三种方式对这些代谢网络进行了聚类分 析。 目前,m c m n r s 已经从基因标注文件出发重构了超过6 0 种微生物和多种 哺乳动物的代谢网络,并且根据生物组织细胞的蛋白质表达数据或者基因芯片数 据重构了多个组织表达的代谢网络,取得了较好的效果。 关键词:多细胞代谢网络重构酶鉴定算法m c m n r s 网络特异性聚类 i a b s t r a c t m e t a b o l i cn e t w o r kr e c o n s t r u c t i o ni sap r o c e s sw h e na l lt h eg e n e s ,p r o t e i n s , e n z y m e s ,r e a c t i o n sa n dm e t a b o l i t e st h a tp a r t i c i p a t ei nt h em e t a b o l i s ma r ei d e n t i f i e d , c a t e g o r i z e da n di n t e r c o n n e c t e dt o f o r mam e t a b o l i cn e t w o r k i tc a nb eu s e dt o r e c o n s t r u c ta n da n a l y z et h em e t a b o l i cn e t w o r ko fo r g a n i s m sf r o m a i li n t e g r a l p e r s p e c t i v e a c c o r d i n gt op r e s e n ts i t u a t i o na n dd e f i c i e n c yo fc u r r e n tt o o l s f o rm e t a b o l i c n e t w o r kr e c o n s t r u c t i o n ,w eh a v ed e s i g n e da n di m p l e m e n t e dam u l t i c e l lm e t a b o l i c n e t w o r kr e c o n s t r u c t i o ns y s t e m ( m c m n r s ) b a s e do nt h ef o r m a lm e t a b o l i cn e t w o r k r e c o n s t r u c t i o ns y s t e mf o rm i c r o o r g a n i s m s t h i ss y s t e mc a nn o to n l yr e c o n s t r u c tt h e m e t a b o l i cn e t w o r k so fm i c r o o g r a n i s m sb u tc a na l s or e c o n s t r u tt h em e t a b o l i cn e t w o r k s o fm u l t i c e l lo r g a n i s m s t h em e t a b o l i c n e t w o r k so fo r g a n i s m sc a l lb er e c o n s t r u c t e d e f f i c i e n t l ya n da u t o m a t i c a l l yf r o mg e n ea n n o t a t i o nf i l e s ,p r o t e i ne x p r e s s i o nd a t ao r g e n ec h i pd a t a t h em a i nw o r k o ft h i sp a p e ri sa sf o l l o w s : ( 1 ) a c c o r d i n gt ot h ef o r m e rw o r ki no u rl a ba n da f t e rt h ef e a t u r ea n a l y s i so f t h e e n z y m en a i l l e sa n dg e n ep r o d u c t s ,w ed e s i g n e da n di m p l e m e n t e dah y b r i dp a r t i c i p l e e n z y m ei d e n t i f i c a t i o na l g o r i t h m w ef i n dt h eo p t i m a la r g u m e n t sf o rt h i sa l g o r i t h m a n dv a l i d a t e dt h ee f f i c i e n c ya n du t i l i t yo ft h i sa l g o r i t h mb yc o m p a r i n gi tt ot h e p a t h o l o g i ca l g o r i t h m ( 2 ) w ed e s i g n e dt h ef r a m e w o r kf o rm c m n r sa n di m p l e m e n t e dt h ei n p u td a t a p r o c e s sm o d u l e ,t h el a r g e s c a l en e t w o r kr e c o n s t r u c t i o nm o d u l ea n dt h em e t a b o l i c n e t w o r ka n a l y s i sm o d u l e w ea l s oi m p r o v e dt h ed bi n f o r m a t i o ne x t r a c t i o nm o d u l e a n dt h es t a n d a r dn e t w o r kr e c o n s t r u c t i o nm o d u l e a r e rt h a tw ei n t e g r a t e da l lt h e m o d u l e si n t oaw h o l em u l t i - c e l lm e t a b o l i cn e t w o r kr e c o n s t r u c t i o ns y s t e m ( 3 ) w er e c o n s t r u t e dt h em e t a b o l i cn e t w o r k so fr a t u sn o r v e g i c u s ,m u sm u s c u l u s , c a n i sf a m i l i a r i sa n de q u u sc a b a l l u sb a s e do nt h eg e n ea n n o t a t i o nf i l e sf o rt h e s e o r g a n i s m s ,a n da n a l y z e dt h eg e n ei d e n t i f i c a t i o i nr a t i o ,t h ee n z y m ec l a s s i f i c a t i o i na n d t h es u b s t r a t es p e c i f i c i t yo fe n z y m e si nt h o s en e t w o r k s ( 4 ) w er e c o n s t r u c t e dt h em e t a b o l i cn e t w o r k sf o rt h e12t i s s u e so fm u sm u s c u l u s b a s e do nt h eg e n ec h i pd a t ao ft h e s et i s s u e sa n dw ea n a l y z e dt h es p e c i f i c i t yo ft h e s e n e t w o r k st of i n do u tt h es p e c i a lr e a c t i o n si nt h e s en e t w o r k s w ea l s op e r f o r m e dt h e n e t w o r kc l u s t e r i n gi nt h r e ed i f f e r e n tw a y s :n e t w o r kd i s t a n c e ,t h en e t w o r kr e a c t i o n m a t r i xa n dt h es p e c i f i cn e t w o r kr e a c t i o nm a t r i x i i i a b s t r a c t a tp r e s e n t ,m c m n r sh a sb e e nu s e dt or e c o n s t r u c tt h em e t a b o l i cn e t w o r k so f m o r et h a n6 0m i c r o o r g a n i s m sa n dm a n yk i n d so fm a m m a l i a n s i th a sa l s ob e e nu s e d t or e c o n s t r u c tt h em e t a b o l i cn e t w o r k so ft i s s u e sb a s e do nt h ep r o t e i ne x p r e s s i o nd a t a o rg e n ec h i pd a t a a l lt h i sh a sg a i n e dg o o dr e s e a r c hr e s u l t s k e yw o r d s :m u l t i - c e l l ,m e t a b o l i cn e t w o r kr e c o n s t r u c t i o n ,e n z y m ei d e n t i f i c a t i o n a l g o r i t h m ,m c m n r s ,n e t w o r ks p e c i f i c i t y , c l u s t e r i n g i v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 作者签名:金聋生 伊fo 年朋砖,日 第一章绪论 第一章绪论 随着各种基因组计划的开展和测序工作的完成,我们积累了大量的生物基因 组方面的信息,通过大量的生物实验,我们了解了许多生命现象的细节,但如何 把这些细节组织到一起,从综合、整体的角度理解生命过程还知之甚少。而在后 基因组时代,如何利用基因组数据以及各种生物实验数据从综合整体的角度研究 生命将成为生物学的研究重点和核心。为了在系统水平上理解生物,我们必须研 究细胞和生物体的整体结构、动态性和代谢功能,这要求我们必须能够从基因层 次上重构生物体的代谢网络。 1 1 代谢网络重构概述 生物的代谢网络是由生物活细胞内维持生命活动的一系列按序进行的化学 反应构成的生化反应代谢途径、生化反应代谢途径按生物化学规律汇成生化反应 代谢网络、分解代谢途径、合成代谢途径与输送系统相结合、再加上细胞内辅酶 再生与回用的协调而形成的横跨细胞膜内外、可调节的代谢网络( b i l k es2 0 0 1 ; w a g n e r a 2 0 0 1 ;g a g n e u rj2 0 0 3 ) 。在生物体的代谢网络、基因调控网络以及 蛋白质相互作用等各种生物网络中,代谢网络是研究得最多的网络。这是因为: 首先,经过几十年的生物化学研究,代谢网络是最全面、可靠的网络;其次,代 谢网络是唯一一种可以将各种类型的实验数据结合在一起的生物网络;第三,与 基因和蛋白质相比,代谢物与生物体的表型联系更加紧密( m aa n dg o r y a n i n 2 0 0 8 ) 。 代谢网络模型是以主代谢物作为节点,而以反应的主代谢物之间的转化作为 节点之间的连接。不可逆的反应用带箭头的连线表示,可逆的反应直接用直线连 接( s m o l d e r sg1 9 9 5 ) 。代谢网络理论把细胞的生化反应从整个代谢网络进行 考虑,而不是孤立地来考虑。细胞代谢的网络由上万种酶催化的系列反应系统、 膜传递系统、信号传递系统组成,并且既受精密调节,又互相协调。各种代谢都 不是孤立地进行的,而是相互作用、相互转化、相互制约的一套完整、统一、灵 敏的调节系统。 代谢网络重构是一个把生物系统中参与代谢活动相关的基因、蛋白质、酶、 反应和反应物等进行鉴别、分类和相互连接以形成一个代谢网络的过程( f e i s t , s c h o l t e ne ta 1 2 0 0 6 ) ,它给我们提供了一个深入的视角来理解特定生物体的分子 机制特别是与基因组相对应的分子生理学信息( f r a n c k e2 0 0 5 ) 。重构过程将生物 体中的代谢途径拆分为与其相对应的反应和酶的集合,并且从整个代谢网络的角 1 第一章绪论 度分析它们。 重构生物体的代谢网络需要知道参与生物体或者细胞代谢的所有代谢反应。 包括参与代谢反应的反应物、产物、催化该反应的酶咀及该反应的可逆性等等信 息。我们现在可以通过各种生物数据库获得这些信息。因特网上发布的生物数据 库一般有两种形式:一种是特定生物体的专用数据库,例如:e c o c y c ( k e s e i e r , c o l l a d o v i d e se ta l2 0 0 5 ) 是细菌大肠杆菌的科学数据库,描述了大肠杆菌的基因 组信息以及其生物化学机制:另外一种是通用型的数据库,例如:京都基因和基 因组百科全书( k e g g ) ( k a n e h i s a2 0 0 2 ;k a n e h i s a ,g o t o na l2 0 0 4 ) 是一个通用的关 于基因组、酶、代谢物阻及代谢途径的在线数据库的集合,以及m c t a c y c ( c a s p i , f o e r s t e r e ta l2 0 0 8 ) 是一个没有冗余的、通过实验验证了的代谢途径的集合。利用 这些数据库,再加上一些生化数据和特定菌株的基因组数据或者某些能够提供足 够信息的生物实验数据就能够重构出生物的代谢网络。 一个典型的基因层次上的代谢网络重构的流程见图11 。该图是2 0 0 3 年 f o r s t e r 他们在重构酵母菌的代谢网络时的重构过程( f o r s t e r , f a m i l ie ta l2 0 0 3 ) 。我 们可以看出他们在重构酵母菌时用到了酵母菌的基因标注文件、生化代谢途径 ( p a t h w a y ) 数据库、生化课本以及出版的文献等等信息。在重构过程中,对于每一 个反应都需要根据是否有催化该反应的酶存在、反应的计量信息以及其它约束判 断该反应是否应该加入网络中。而且这还是一个迭代的过程:对于重构出来的代 谢网络,我们通过模拟的方法对某些特性或者表型进行预测,然后将模型预测的 结果与实验结果进行对比,再将比较的结果产生的约束条件加入到重构过程调 整、优化重构出来的网络。 图1l 酵母苗的代谢嗣络重构 第一章绪论 生物体的代谢网络重构有着非常重要的意义。对生物的代谢网络进行重构, 有利于用基因工程的方法修饰改造代谢途径。根据功能基因组研究提供的生物体 的整体物理图谱,有可能构建正向表达次级代谢基因簇的超级宿主,以表达本身或 外源导入的目标基因簇。其社会和工业意义有:( 1 ) 改造次级代谢途径以获得高 产菌株:传统高产菌株的获得主要是通过育种改良生产菌株,通过紫外、氮芥、 乙烯亚胺等各种诱变手段进行大规模筛选,该方法虽然需要进行大量的工作才 能保证有稳定的结果。2 0 世纪7 0 年代发展起来的原生质体融合技术成为抗生素 生产菌选育菌株的重要途径之一,但由于菌株需带标志,选育同样费时费力。2 0 世纪9 0 年代后期开始有意识地利用基因工程方法改造修饰次级代谢途径,随着 更多次级代谢基因簇信息和基因组信息的获得,使得利用分子手段改造次级代谢 途径成为可能。由于基因组信息研究提供了比较清晰的代谢路径信息,因此可以 操纵代谢途径、增加目标代谢物前体,敲除非目标代谢物的代谢途径以提高目标 代谢物的产量( f e i s t ,s c h o l t e ne ta 1 2 0 0 6 ) 。( 2 ) 人体的代谢与人体的疾病之间有着 非常紧密的联系。对人体的代谢网络进行重构有助于通过对网络的系统分析鉴定 出更多的可以作为药标的酶,而且通过对代谢网络的分析还可以用来分析药物发 现过程中这些药物的副作用。重构出来的人的代谢网络为我们提供了一个前所未 有的研究疾病以及在新的系统级别上发现药物的大的系统( m aa n dg o r y a n i n 2 0 0 8 ) 。( 3 ) 对某些高级哺乳动物的代谢网络进行重构,能够使我们更好地进行 生物制药特别是单克隆抗体和疫苗的生产( s h e i k h ,f o r s t e re ta 1 2 0 0 5 ) 。( 4 ) 应用 代谢物平衡法,研究代谢通量家族谱系( m e t a b o l i cf l u xg e n e a l o g y ) ,可用于研究 公共或工业菌种保藏中心各种菌株的家族谱系,追踪菌株改进的历史,获得不同 生物系统的代谢功能及调控方面的知识,为代谢工程菌株改造提供了基础。( 5 ) 利用微生物的代谢调控能力的自然缺损或通过人为方法获得突破代谢调控的变 异株,生产积累有关特殊代谢物。 目前的代谢网络重构都集中在少数几种研究非常深入的微生物上,如大肠杆 菌、酵母菌、甲烷八叠球菌等。但是随着生物科学的快速发展,对小家鼠、大鼠 等多细胞哺乳动物的代谢网络重构也在进行之中。2 0 0 5 年,s h e i c k 等人依据基 因组数据对小家鼠的代谢网络进行了重构,这是第一次对哺乳动物的代谢网络重 构。在此之后对哺乳动物的代谢网络重构也开展起来了。 1 2 基因尺度上的代谢网络重构 基因尺度上的代谢网络重构是一个把生物系统中参与代谢活动相关的基因、 蛋白质、酶、反应和反应物等进行鉴别、分类和相互连接以形成一个代谢网络的 3 第一章绪论 过程( f e i s t ,s c h o l t e ne ta 1 2 0 0 6 ) ,它给我们提供了一个深入的视角来理解特定生物 体的分子机制特别是与基因组相对应的分子生理学信息( f r a n c k e2 0 0 5 ) 。重构过 程将生物体中的代谢途径拆分为与其相对应的反应和酶的集合,并且从整个代谢 网络的角度分析它们。 生物的代谢网络重构需要收集与生物代谢相关的所有代谢信息,然后将这些 信息按某种方式合理地组织起来,以便于我们对其进行系统分析和模拟。在代谢 网络重构中涉及到的p a t h w a y 包括诸如糖酵解( g l y e o l y s i s ) 、三羟酸循环( k r e b s c y c l e ) 、戊糖磷酸盐途径( p e n t o s ep h o s p h a t ep a t h w a y ) 等等。其中,关键问题是 要找到酶与编码酶的基因的关联性。现在,人们一般是通过三种方式来确定的: ( 1 ) 通过搜索基因、酶、蛋白质、反应以及p a t h w a y 等数据库来确定编码某个 代谢物的基因。例如,我们可以通过输入蛋白质名字或者e cn u m b e r 到网上生 物数据库中去找到去其相对应的基因。( 2 ) 利用教材、期刊、文献中发布的相关 数据、结果来确定基因和代谢的关联。例如文献中的实验数据可能含有这这方面 的信息,我们可以通过人工或者机器学习的方法来提取信息。( 3 ) 通过生物实验 的数据来对基因、代谢物的对应关系进行鉴定。例如,利用基因敲除实验可以判 断该基因编码的蛋白质或者酶。 为了保证重构出来的代谢网络的准确性和完整性,我们需要将几种方式结合 在一起,以尽量准确、完整地重构出生物的代谢网络。例如,为了重构出一个高 质量的人的代谢网络,m a 等人将从基因标注文件出发重构出来的代谢网络用文 献和实验数据进行验证,得到了一个比原来更精确、更完整的代谢网络( m a , s o r o k i ne ta 1 2 0 0 7 ) ,见图1 2 。 图1 2 人的高质量的代谢网络重构流程( m 如s o r o k i ne ta 1 2 0 0 7 ) 4 第一章绪论 在生物的代谢网络重构出来以后,我们就可以将它们应用在代谢工程、模型 指导的发现、表现图谱的解释、网络特性的分析以及进化过程等方面的研究。例 如,经过超过1 5 年的研究,大肠杆菌的代谢网络已经完成了基因尺度的重构, 并且已经用于处理代谢工程、细菌进化、网络分析、表型行为以及生物发现等各 种应用问题,见图13 。 图13 大肠杆苗的代谢网络模型的应片i ( f e i s ta n dp a l s s o n2 0 0 8 、 总体来说,生物代谢网络重构的发展过程中主要事件有: 1 9 9 5 :g a a s t e r l a n d 和s c l k o v 等人提出了利用不完整的生物信息重构生物体 代谢网络的一般原则和步骤,解决了基因层次上的代谢网络重构的理论问题 ( g a a s t e r l a n da n ds e l k o v1 9 9 5 ) ,不过当时的信息量还无法重构一种具体生物的代 谢网络。 2 0 0 3 :f o r s t e r 等人利用手工的方法花了1 人年的时间重组了s a c c h a r o m y e e s c c r e r v i s i a e 的代谢网络( f o r s t e r , f a m i l ie ta l2 0 0 3 ) ,该网络包含了7 0 8 个o r f 、1 1 7 5 个代谢反应和5 8 4 种代谢物。这是第一个被重构出来的真棱生物的代谢网络。改 组在随后的工作中又对已经重构的代谢网络利用新的约束条件或者实验验证进 ; 亍完善( d u a r t e ,h e r r g r de t a l2 0 0 4 ) 。 2 0 0 3 :m a 和z c n g 等人用基因组数据重组了8 0 个生物体的代谢网络( m a a n dz e n g2 0 0 3 ) ,他们把那些流通代谢物从网络连接圈的节点中删除,使得代谢 第一章绪论 物之间的途径有更明显的生物学意义。流通代谢物( 例如a t p 、a d p 、n a d h 、 n a d + 、h 2 0 和p i ) 是指那些作为电子载体或者作为某些功能团( 例如:磷酸基团, 氨基基团,一个碳原子基团,甲基基团等等) 的载体的代谢物。如果两个代谢物 之间的转化途径完全以上述流通代谢物作为中间代谢物,那么该途径就没有生物 学意义。 2 0 0 5 :f o r s t e r 等人重构了幽门螺杆菌的代谢网络( t h i e l e ,v oe ta 1 2 0 0 5 ) ,该 模型包含3 4 1 个代谢基因、4 7 6 胞内反应、7 8 个交换反应( e x c h a n g er e a c t i o n s ) 以及4 8 5 种代谢物。 2 0 0 5 :s h e i e h 等人重构出了小家鼠的代谢网络( s h e i k h ,f o r s t e re ta 1 2 0 0 5 ) 。 该网络包括8 7 2 个胞内代谢物和1 2 2 2 个反映,虽然并不完整,但是这是第一次 对哺乳动物细胞的代谢网络进行重构。通过对重构出来的网络模型的分析,对细 胞制药,特别是单克隆抗体和疫苗的生产有重要的知道意义,而且对分析、解释、 预测生物的基因型和表现型之间的关系有重要的作用。 2 0 0 6 :f e i s t 等人基于约束的方法重构出了甲烷八叠球菌( m e t h a n o s a r c i n a b a r k e r i ) 的代谢网络( f e i s t ,s c h o k e ne ta 1 2 0 0 6 ) 。这是第一个被重构出来的产烷生 物和太古代种群生物的代谢网络重构。 2 0 0 7 :f e i s t 等人根据最新的基因标注文件和e c o c y c 数据的信息重构了大肠 杆菌的代谢网络( r e e d ,v oe ta 1 2 0 0 3 ;f e i s t ,h e n r ye ta 1 2 0 0 7 ) 。该代谢网络模型可 以用来预测高通量的实验增长和基因敲除表现图谱,对于加深基础生物学和应用 系统生物学的研究都有很大的帮助。 2 0 0 7 :d u a r t e 等人从基因标注文件和文献数据出发手工重构了人的代谢网络 ( d u a r t e ,b e c k e re ta 1 2 0 0 7 ) ,并演示如何将网络模型用于缺失信息的发现、计算 模拟模型的形成以及作为一个结构化的环境分析高通量的生物数据。该代谢网络 的建立,使我们朝人的基因尺度的系统生物学的研究迈进了重要的一步。 2 0 0 7 :m a 等人将不同数据库中人的基因标注信息和文献中的代谢反应信息 整合起来手工重构了人的代谢网络( m 如s o r o k i ne ta 1 2 0 0 7 ) 。该网络包含超过 2 0 0 0 的基因、接近3 0 0 0 个代谢反应,组织成大约7 0 个与人相关的代谢途径。 通过功能而不是结构的视角,再次发现了一个蝴蝶结型的连通性结构,并且也对 蝴蝶结结构中的与代谢相关的疾病的分布也进行了研究。 从上面我们可以看到,现在已经有不少微生物在进行代谢网络重构,但是这 些重构工作绝大部分都集中在少数几种简单的微生物上,对哺乳动物等多细胞生 物的代谢网络重构还处于探索阶段。而且由于缺乏自动的重构系统,大部分工作 都是手工完成的,耗费了大量的人力、物力。用手工的方式重构代谢网络,每个 人的工作量都是以年计算的,重构效率很低,跟不上生物数据海量增长的趋势。 6 第一章绪论 1 3 代谢网络重构的研究现状 1 3 1 代谢网络重构现状 代谢网络重构的数据来源包括: 1 生物信息数据库:利用网上的生物数据库,包括基因数据库、蛋白质数 据库、酶数据库、代谢反映数据库、代谢途径数据库以及一些生物的专 用数据库( 大肠杆菌的专用生物数据库e c o c y c ( k e s e l e r , c o l l a d o v i d e se t a 1 2 0 0 5 ) ;酵母菌的专用数据库s g d q o d ie h i r s c h m a n2 0 0 6 ) ;人的基因 命名数据库h u g o ( e y r e ,d u c l u z e a ue ta 1 2 0 0 6 ) 等等) ,对生物体的基因 进行鉴别、分类和互联,重构出其完整的代谢网络。 2 生物文献、期刊:从生化文献、出版物、r e v i e w 等文献进行提取相关的 生物信息,用以验证或构造其代谢网络。 3 生物实验数据:利用生物实验的方法,如基因测序技术、基因敲除技术、 高通量蛋白质识别的质谱技术、基因芯片等等生物技术,来获得实验数 据,对相应的生物体中包含的基因、酶、蛋白质等代谢物进行鉴别、分 类和互联,从而构造出其代谢网络。 在现阶段,代谢网络重构是一个涉及多个流程并且需要大量手工劳动的过程 ( r e e d ,f a m i l ie ta 1 2 0 0 6 ;d e j o n g hm2 0 0 7 ;r a n t a n e na2 0 0 8 ;f e i s ta m2 0 0 9 ) 。重构 是基于已经标注了或者未完全标注的生物的基因组文件,然后通过将从多个生物 体或者通用代谢数据库中提取出来的相关代谢反应组装成代谢网络模型。然后根 据实验数据或者文献中提取的信息,通过手动或自动的方法将模型中的不一致的 地方移除掉。最后,再用计算的方法对模型进行验证,在这一步中经常包括模型 测量数据的整合。重要的是,整个代谢网络重构流程实际上是一个迭代的过程: 模型预测与实验观察结果的不一致将会对下一次重构产生影响,例如可能会反映 到生物的基因标注文件的修改上来。 单独地使用某种数据源进行代谢网络重构都有各自的缺点,而其重构出来的 网络也不完整。利用生物信息数据库进行代谢网络重构时,由于生物数据库中的 信息比较容易获取,而且生物信息都是按照一定的格式存储的,使得重构的自动 化程度比较高,提高了重构的效率。但是由于生物数据库中存放的一般都是通用 的信息,而且生物数据也没有统一的格式标准,在生物数据库中存放的信息在一 定程度上都有一些损失,所以单独利用生物数据库进行代谢网络重构很难重构出 高质量的代谢网络。利用生物文献、期刊进行代谢网络重构可以通过人工或者自 动的方法进行。用人工的方法进行重构,耗费的人力、物力十分巨大,很难满足 7 第一章绪论 现代生物学发展的要求。用机器学习和数据挖掘等自动方法也可以从文献中提取 信息,但是由于生物数据格式多种多样,而且我们对目标约束条件也很难有准确 地描述( n i c h o l s o n2 0 0 3 ) ,所以这种自动化的方法也很难重构出高质量的代谢 网络。用生物实验数据进行代谢网络重构,通过各种实验方法,我们可以获得准 确的信息,可以用来对已有的代谢网络进行验证或者构造新的代谢网络。但是重 构一个生物的代谢网络需要大量的实验,其中需要耗费大量的人力、物力,成本 很高,而且实验周期很长,使得用实验的手段重构生物的代谢网络的代价非常大, 效率也很低。 当前的代谢网络重构主要集中在少数几种研究非常深入的微生物菌体上,如 酵母菌、大肠杆菌、甲烷八叠球菌等等。但是随着生物科学的快速发展,对红细 胞、小家鼠、人等多细胞生物的细胞或组织的代谢网络重构也在进行之中,但是 由于基因功能信息和文献实验数据的相对不足,使得重构出来的网络的质量不 高。而对于当前重构得很多的微生物菌体,例如:大肠杆菌和酵母,现在重构的 代谢网络质量比较高。这些微生物的主要特点: 1 对这些生物体的研究都非常深入,它们也被广泛应用于工业生产和实验 室生物研究之中。例如:酵母菌是第一个被完整测序的真核生物体,第 一个基因范围内的c r n a 阵列也是为它设计的,而且也是第一个重构了 代谢网络而的真核生物,有大量的文献和生物实验数据来帮助我们在基 因尺度上理解酵母菌的细胞行为。而且还存在很多专门研究这些微生物 的生物数据库,如s g d ( j o d ie h i r s c h m a n2 0 0 6 ) 是酵母菌的专用数据库, e c o c y c 是大肠杆菌的专用数据库( k e s e l e r , c o l l a d o v i d e se ta 1 2 0 0 5 ) 。 2 这些生物体细胞结构都很简单,大部分都是单细胞生物。不管是基因组 规模、反应数量还是从网络规模等角度看,相对小家鼠等其它多细胞生 物来说,都是非常简单的。 当前的基因尺度上的代谢网络重构的大部分工作都是手动完成的。由于缺乏 精确度和自动化程度都比较高的自动重构工具,重构的大部分工作都需要手工完 成,耗费了大量的人力、物力而且重构效率很低,跟不上生物研究的需要。 1 3 2 代谢网络重构方法 随着越来越多生物的基因组测序工作的完成,基因编码区域的快速鉴定和功 能标注已经成为可能。而且为了从基因标注序列信息出发推断生物的代谢网络模 型,人们提出来了大量的计算方法。e s a 等人根据重构过程中需要考虑的网络因 素多少,将这些方法分为基于酶、代谢途径以及代谢网络等三组,见图 1 4 ( p i t k a n e n ,r o u s ue ta 1 2 010 ) 。 8 第一章绪论 墨警 糍謦篓瓣瓣势每等铡 图14 备种代谢网络重构方法在重构过程中的位置 从图14 我们可以看出,e s a 等人根据重构过程中需要考虑的网络因素多少, 依据基因标注、代谢网络集成、网络模型验证以及与实验数据的测试等4 个步骤 将重构方法进行定位、分类。其中,网络集成阶段叉可划分为基因一蛋白质一反 应的连接和将包含反映计量信息的代谢反应集成为代谢网络。蓝色、绿色和黄色 分别表示在酶、代谢通路、代谢网络环境下的计算。在酶环境下是单独预测每个 酶是否在生物体中。而在大写通路和代谢网络环境下,预测的结构则分别依赖于 在代谢通路和代谢网络中的其它酶。 我们可以看到这些重构方法涉及到了重构的每个步骤,从基因标注到测试都 覆盖到了。但是,现阶段,人们在重构生物的代谢网络时,可以利用很多现有的 信息,比如生物现有的基因标注文件,而不需要自己对其进行功能分析。 现夸在代谢网络重构中,用得最多重构工具是p a t h w a yt o o l s 工具集( k a p , p a l e ye ta 1 2 0 0 2 ) 。它利用p a t h o l o g i c 方法从已有的基因标注文件出发,推断出生 物体内存在的反应和p a t h w a y 。p a t h o l o g i c 实际上是一种基于规则的推断方法, 它将一系列的规则应用于作为输入的e cn u m b e r 和基因产物名字上。首先,用 e cn u m b e r s 、基因产物名字和通用多生物数据库m e t a c y e 中的反应进行匹配。 然后p a t h o l o g i c 算法考虑数据库中的每个代谢途径如果有足够的证据证明该 p a t h w a y 在生物体中,则将该p a t h w a y 及其包含的反应加入到网络中。p a t h o l o g i c 算法在代谢网络重构方面有着广泛的应用。例如,b i o c y c 数据库( c a s p i ,f o e r s t e r e ta l 2 0 0 8 ) 中,有大概5 0 0 个p g d b s 是通过p a t h o l o g i c 算法计算得到的。很多 代谢重构组在重构代谢网络时,会利用p a t h o l o g i c 算法来重构出生物的初始代谢 网络,然后再利用文献、实验数据或者其它网络模型的信息对网络进行验证,修 第一章绪论 正、完善已有的代谢网络。例如,r o m e r o 等人在2 0 0 5 年就用p a t h o l o g i c 算法重 构出了人的代谢网络,然后对其进行了网络特性分析( r o m e r o ,w a g ge ta 1 2 0 0 4 ) 。 另外,在k e g g 数据库( k a n e h i s a2 0 0 2 ;k a n e h i s a , g o t oc ta 1 2 0 0 4 ) 中,也有生 物的p a t h w a y 信息,但是我们对于他们用于推断p a t h w a y 存在与否的策略并不清 楚,无法对其进行分析与改进。而p a t h o l o g i c 算法在酶鉴定时,采用的是基于字 符串完全匹配的策略,准确性比较高,但是对于大量同义的但是功能描述不一样 的基因产物则无法找到与其相对应的酶,从而使得该算法在重构的完备性方面有 一定的缺陷。 1 4 论文的主要工作与内容结构 从2 0 0 6 年9 月开始,我们实验室开始了“代谢网络重构系统 的建设,工 作目标是构建一个从基因标注文件出发,利用蛋白质、酶、p a t h w a y 等生物数据 库信息的微生物的代谢网络重构系统,该工作得到了中国科学院知识创新项目 ( k s c x 2 s w 3 2 9 ) 和国家重点基础研究发展计划( 2 0 0 6 c b 9 1 0 7 0 0 ) 的支持。到 2 0 0 8 年6 月已经基本走通了微生物重构的技术路线,能够重构基因规模比较小 的微生物的代谢网络,但是当时的微生物代谢网络重构系统存在下列问题: 1 重构数据源单一:原系统只能从基因标注文件出发重构生物体的代谢网 络。对于生物实验数据,比如某些组织的蛋白质表达数据、基因芯片数 据等等,则无法用来进行代谢网络重构。 2 对基因标注文件的解析缺乏通用性;由于对基因标注文件的信息组织形 式、字段的唯一性和可选性等的调研不够,原系统对需要重构生物的基 因标注文件的格式要求很苛刻,只能处理一部分微生物的基因标注文件, 缺乏灵活性和通用性。 3 重构能力有限:原系统只能重构规模很小的微生物的代谢网络,对于o r f 数量超过5 0 0 0 左右的微生物的代谢网络则不能进行稳定重构。比如原系 统对于红霉糖多孢菌、小家鼠、家犬、野马、大鼠等生物都不能重构其 代谢网络,不能满足现代生物学发展的要求。 4 酶鉴定算法存在的问题:原系统在酶鉴定过程中采用的是字符串完全匹 配策略,虽然对需要匹配的字段做了一些归一化处理,但是对于描述形 式有微小区别的基因产物,则不能鉴定出来。虽然后来实验室师兄提出 了混合分词的想法,但是由于时间仓促等原因,并没有进行很细致的研 究,也没有实现该算法。 5 重构系统的重构质量未经实验验证:原系统虽然能够重构基因规模比较 1 0 第一章绪论 小的微生物的代谢网络,但是对于重构过程中的酶鉴定算法以及其后推 断出的网络的质量我们没有做过验证,也就是说不知道我们重构的网络 到底好不好。 6 缺少对重构网络的分析功能:原系统除了最基本的统计功能外,基本没 有什么网络分析功能,不利于我们对生物代谢活动的认识和研究。 针对以上问题,我们在原来的微生物代谢网络重构系统的基础上,设计和实 现了一个面向多细胞生物的代谢网络重构系统( m c m n r s ) ,该系统从生物体的 基因标注文件、生物实验中的蛋白质表达数据或者基因芯片数据出发,从蛋白质、 酶、反应以及p a t h w a y 等多种生物数据库中提取信息,将参与代谢活动的基因、 酶、蛋白质、反应和p a t h w a y 等进行分类、互联,重构出其代谢网络。m c m n r s 不仅能够重构细胞构造简单的微生物的代谢网络而且能够重构小家鼠、大鼠、野 马、家犬等等多细胞哺乳动物的代谢网络。本文的主要工作和内容安排如下: 1 定义m c m n r s 重构系统框架,其中包括输入数据处理模块、数据库信 息提取模块、标准网络重构模块、大规模网络重构模块以及代谢网络分 析模块等,从整体上介绍了m c m n r s 的重构流程。介绍了一个基于 s b m l 和b i o p a x 的代谢网络描述格式( m n r n l ) ,它可以描述基因、蛋 白质、酶、反应、p a t h w a y 、代谢物鉴别信息以及p a t h w a y 置信度等与代 谢相关的信息。这两部分内容将在论文第二章进行介绍。 2 在已有工作的基础上,通过对酶鉴定算法中相关数据进行特征分析,设 计和实现了一个基于混合分词匹配的酶鉴定算法。通过大量的实验,对 算法进行了最优参数选择。对大肠杆菌和酵母菌分别用混合分词匹配算 法和p a t h o l o g i c 算法进行了酶的鉴定,并通过对实验结果的分析验证了 我们的酶鉴定算法具有很高的效率和较好的适用性,可以在保持鉴定准 确率的情况下,鉴定出很多p a t h o l o g i c 算法不能鉴定的酶。这部分内容 将在论文第三章进行介绍。 3 设计了m c m n r s 的系统架构,完成了其输入数据处理模块、大规模网 络重构模块以及代谢网络分析模块的设计和实现,完善了数据库信息提 取模块和标准网络重构模块,并且将各模块集成为一个完整的系统。输 入数据处理模块可以处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论