已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)微分方程系统在基因调控网络和代谢途径中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p r o f c l h e ny u e h u i at h e s i ss u b m i t t e dt ot h eu n i v e r s i t yo fj i n a n i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t s f o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n g u n i v e r s i t yo fj i n a n j i n a n ,s h a n d o n g ,p r c h i n a m a y2 0 ,2 0 1 0 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的 研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名: 拯毯 e l 期:碰:丝 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 扭丛导师签名:2 塞丝堡日期: 济南大;。硕 :学何论文 目录 摘要i i i a b s t r a c t v 第一章绪论l 1 1 研究背景和意义1 1 2 课题的研究动态。2 1 2 1 基因调控网络2 1 2 2 代谢途径5 1 3 本文的研究思路6 1 4 本文的研究结构和安排7 第二章微分方程模型9 2 1 微分方程模型9 2 2 实际的应用1o 2 3 解微分方程1o 第三章进化算法建模微分方程13 3 1 进化算法1 3 3 1 1 遗传编程1 4 3 2 多表达式编程1 5 3 2 1m e p 编码方式l5 3 2 2m e p 适应值函数16 3 2 3m e p 的遗传操作1 7 3 2 4m e p 的优点1 7 3 2 5m e p 的流程1 8 3 3 粒子群优化算法1 9 3 3 1 粒子群优化算法概述1 9 3 3 2p s o 的流程19 第四章微分方程的演化2 1 4 1 微分方程的演化2 1 4 1 1m e p 优化微分方程组2l 4 1 2 适应值的度量2 2 4 1 3 方法的改进2 3 l 微分方稃系统存幂冈调摔网络和代谢途径中的府f f l 研究 皇曼1 曼! 一一1 l l 鼍曼曼曼曼曼皇曼曼曼曼曼曼皇曼曼曼曼曼曼 4 1 4 混合优化策略2 3 4 2 仿真实验2 4 4 2 1 化学反应模型2 5 4 2 2l o t k a v o l t e r r a 模型2 6 4 2 3 双分子反应模型2 6 4 2 4 小规模基因调控网络2 8 4 2 5 中规模基因调控网络3 0 第五章灵活树模型3l 5 1 灵活树模型31 5 1 2 灵活树参数优化3 3 5 1 3 灵活树优化流程3 3 5 2 灵活树模型仿真实验3 4 5 2 1ec e l l 仿真3 4 5 2 2 三类l o t k a v o l t e r r a 模型3 6 5 2 3t c p 车辆数据测试3 7 5 3 限制性灵活树模型4 0 5 4 限制性灵活树模型仿真4 1 5 4 1 小规模基因调控网络4 2 5 4 2 中规模基因调控网络4 2 5 4 3 大规模基因调控网络。4 3 第六章总结与展望4 5 参考文献4 7 致谢一5 3 攻读学位期间发表论文情况5 5 i l 济南人学硕f j 学位论文 曼曼曼! 曼! 苎曼! ! 曼! 曼! 曼! 曼曼! ! 曼! ! 曼曼曼曼! 曼曼曼曼曼! 曼! 曼! 笪曼曼! 曼曼曼! 曼! ! 曼曼皇i 一一 一 i i i 一= i i i 詈 摘要 随着完成测序的生物数量的迅速增加及更深入广泛的了解了基因功能,生物 网络( 包括代谢网络、基因调控网络、信号转导网络等) 的研究在生物信息学中 越来越受重视。这主要是因为人们认识到生物中各成分( 基因、蛋白质、代谢物 等) 的功能都是通过与生物网络中的其他部分的相互作用体现出来,所以,只有 在系统水平上对所有成分进行整体分析才能对生物的生理功能有全面的了解。问 题是如何利用基因组数据分析基因调控网络和代谢途径。近年来,由于计算机技 术的发展,调控网络和代谢途径的建模模型越来越多。随着大量数据的收集,利 用一般的模型难以从数据中提取出信息。由于微分方程系统非常强大灵活,有利 于描述生物网络中的复杂关系,所以近年来研究者主要以此作为网络模型来分析 基因调控网络和代谢途径。微分方程系统的演化过程还处于初级阶段,存在结构 与参数有较大误差、建立模型的计算量过大等问题,所以需要一种新的优化策略 得到准确的微分方程,这样才能更好的解决系统生物学中的实际问题。本文在充 分研究多表达式编程和粒子群优化算法的基础上,提出了一种利用多表达式编程 优化微分方程的结构,并使用粒子群优化算法优化方程的系数的混合优化策略, 来识别基因调控网络和代谢途径,同时使用一种分裂的思想,大大减少了方程优 化过程中的搜索空间,还结合灵活树模型接近微分方程的形式的特点,使用灵活 树模型编码微分方程和基于树结构的优化算法进化微分方程的结构,同时对于灵 活树模型做了限制和改进,来完成规模较大的基因调控网络的识别。 本课题研究的主要内容包括: ( 1 ) 对基因调控网络和代谢途径的基本理论进行了详细的综述,概述了基因 调控网络和代谢途径的概念、发展动态和研究方法,着重介绍了识别基 因调控网络的各种模型方法,总结出识别基因调控网络和代谢途径的思 路。然后对微分方程模型的概念、应用领域以及解法作了详细的综述。 ( 2 ) 介绍了多表达式编程算法和粒子群优化算法。首先描述了进化计算的基 本思想,然后重点介绍了遗传编程的基本理论,和阐述了多表达式编程 和粒子群优化算法的思想和实现过程。 ( 3 ) 研究了用多表达式编程优化微分方程的结构,并使用粒子群优化算法优 化方程的系数的混合优化策略,在此基础上提出了使用灵活树模型编码 i i l i v 济南,j i 学硕l 学位论丈 a b s t r a c t a st h en u m b e ro fb i o l o g yc o m p l e t e dt h eg e n es e q u e n c i n gg r o w i n gr a p i d l ya n d m a k i n gaw i d eo fu n d e r s t a n d i n go ft h eg e n ef u n c t i o n , b i o l o g i c a ln e t w o r ki n c l u d i n g m e t a b o l i cn e t w o r k ,g e n er e g u l a t o r yn e t w o r k ,s i g n a lt r a n s d u c t i o nn e t w o r k ,e t c ,h a sb e e n e m p h a s i z e do ni nt h eb i o i n f o r m a t i c sa r e a i ti sr e a l i z e dt h a tv a r i o u sb i o l o g i c a lc o m p o n e n t s i n c l u d i n gg e n e s ,p r o t e i n s ,m e t a b o l i t e s ,e t c ,f u n c t i o nt h r o u g h t h ei n t e r a c t i o nw i t ho t h e rp a r t s , s ow eu n d e r s t a n dc o m p r e h e n s i v e l yb i o p h y s i o l o g i c a lf u n c t i o nb ym a k i n gt h eo v e r a l l a n a l y s i so fa l lr e l e v a n tc o m p o n e n t so nt h es y s t e ml e v e l i ti sa d i f f i c u l tp r o b l e mt h a th o wt o u s et h eg e n o m i cd a t at oa n a l y s i st h eg e n er e g u l a t o r yn e t w o r ka n dm e t a b o l i cp a t h w a y i n r e c e n ty e a r s ,a st h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , m o r ea n dm o r em o d e l i n g p a t t e r n sa r eu s e di nt h eg e n er e g u l a t o r yn e t w o r ka n dm e t a b o l i cp a t h w a y w i t ht h el a r g e a m o u n t so fd a t ac o l l e c t i o n ,t h em o d e li ng e n e r a li sd i f f i c u l tt oe x t r a c ti n f o r m a t i o nf r o mt h e d a t a b e c a u s et h es y s t e mo f d i f f e r e n t i a le q u a t i o ni sv e r yp o w e r f u la n df l e x i b l e ,i ti si nf a v o r o fd e s c r i b i n gt h ec o m p l e xr e l a t i o n s h i po fb i o l o g i c a ln e t w o r k sa n du s e da sm o d e lt o a n a l y s i st h eb i o l o g i c a ln e t w o r k sb yt h er e s e a r c h e r sr e c e n t l y t h ee v o l u t i o n a r yp r o c e s so f d i f f e r e n t i a le q u a t i o ni ss t i l li nt h ei n f a n c y , t h es t r u c t u r ea n dp a r a m e t e rh a v el a r g ee r r o r s , a n dm o d e l i n gp r o c e s sn e e d st h ee x c e s s i v ec a l c u l a t i o n t h e r e f o r e ,t h e r ei st h en e e df o ra n e wo p t i m i z a t i o ns t r a t e g yt og a i na na c c u r a t ed i f f e r e n t i a le q u a t i o n ,s oa st ob e t t e ra d d r e s s p r a c t i c a lp r o b l e m si ns y s t e m sb i o l o g y i nt h i sp a p e r , w ep r o p o s ea ne v o l u t i o n a r ym e t h o d f o ri d e n t i f y i n gt h eg e n er e g u l a t o r yn e t w o r ka n dm e t a b o l i cn e t w o r kf r o mt h eo b s e r v e dt i m e s e r i e sd a t au s i n gas y s t e mo fo r d i n a r yd i f f e r e n t i a le q u a t i o n s ( o d e s ) a sam o d e lo fn e t w o r k t h es t r u c t u r eo fo d ei si n f e r r e db yt h em u l t ie x p r e s s i o np r o g r a m m i n g ( m e p ) a n dt h e o d e sp a r a m e t e r sa r eo p t i m i z e db yu s i n gp a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) a n db y p a r t i t i o n i n gt h es e a r c hs p a c eo fs y s t e mo f o d e sc a nb er e d u c e ds i g n i f i c a n t l y b e c a u s et h e a d d i t i v et r e em o d e li ss i m p l ei nt h ef o r ma n dv e r yn e a rt ot h et r a d i t i o n a lr e p r e s e n t a t i o no f t h es y s t e m ,t r e e - s t r u c t u r eb a s e de v o l u t i o na l g o r i t h ma n dp a r t i c l es w a r mo p t i m i z a t i o n e m p l o y e dt oe v o l v et h ea r c h i t e c t u r ea n dp a r a m e t e r so ft h ea d d i t i v et r e em o d e l sf o rt h e s y s t e mo fo d ei d e n t i f i c a t i o n ,r e s p e c t i v e l y a n dw e m a k es o m er e s t r i c t i o n st ot h ea d d i c t i v e t r e em o d e li no r d e rt oi d e n t i f yt h el a r g eg e n er e g u l a t o r yn e t w o r k v t r e et oal a r g en u m b e ro fg e n er e g u l a t o r yn e t w o r k sa n dm e t a b o l i cp a t h w a y s i n s t a n c e t h er e s u l t ss h o wt h a tt h eh y b r i ds t r a t e g ya n do u rm o d e l sa r em o r e e f f e c t i v et h a nt h et r a d i t i o n a lm e t h o d sa n dm o d e l s k e y w o r d s :m u l t ie x p r e s s i o np r o g r a m m i n g ;d i f f e r e n t i a le q u a t i o n ;a d d i t i v et r e em o d e l ; g e n er e g u l a t o r yn e t w o r k ;m e t a b o l i cp a t h w a y v i 济南人学硕l :学f _ :i :论文 第一章绪论弟一早珀下匕 1 1 研究背景和意义 生物信息学( b i o i n f o r m a t i c s ) 是应用计算机科学管理生物信息的一门新兴学科, 它是将现代生命科学与计算机科学、数理科学、化学科学等领域交叉在一起而形成的 一门学科。它是对通过生物学实验而得到的数据的加工、存储与分析,从而实现揭示 这些生物数据所隐含的生物方面的意义。尤其随着人类基因组计划( h g p ) 的不断推 进,生物信息学已经成为当今生命科学和自然科学的核心领域和最具活力的前沿领域 专一【l 】l o 生物信息学初期主要研究对象是序列,通过序列分析来发现基因,确定基因功能, 对蛋白结构进行分析预测掣1 1 。近几年随着完成测序的生物的迅速增加及对基因功能 的更深入广泛的了解,对生物网络( 包括代谢网络、基因调控网络、信号转导网络等) 的研究在生物信息学中越来越受重视【2 胡。这主要是人们认识到生物中各组成成分( 基 因、蛋白质、代谢物等) 的功能都是通过与其他部分的相互作用体现出来,因此,只 有在系统水平上对所有相关成分进行整体分析才能对生物的生理功能有全面正确的 了斛5 1 。 主要的问题是如何利用基因组数据分析基因调控网络和代谢途径。这是因为随着 基因测序和高通量测量技术的高速进展,已经能够在系统水平上发掘、收集和综合数 据,并且能够在分子水平上获取有关信息6 。特别是,利用d n a 芯片技术能够同 时检测大量基因的差别表达【8 】,这使得能够鉴别生物反应器中跟细胞生长和代谢状况 密切相关的基因表达指纹图谱 9 1 。利用二维凝胶电泳等技术能够同时检测和分析大量 蛋白,甚至定量分析蛋白组【l o l 。最近利用n m r 、l c m s 、i r 等技术能够同时检测 甚至定量分析代谢物纠1 1 】。利用这些高通量技术产生的海量数据使得重建代谢网络和 基因调控网络成为了可能。但是如何从系统的水平上理解和分析代谢网络和调控网络 却是研究者面临的一个重要问题,并且由于系统具有所涉及的变量众多、强耦合性、 随机性、时变、强非线性等特点,所以很难用传统的物理、化学原理创建其精确的数 学模型,而且对这类系统的预测、决策和控制等一系列的应用也很难实现。 复杂的非线性动态系统,通常可以用微分方程组或者差分方程组来模拟,而微分 方程组又包括常微分方程组、偏微分方程组和随机微分方程组。在方程组中,每个方 程表示单个变量的变化率与其它变量的耦合关系。对于一些结构较简单的动态系统, 微分方程系统在堆i 夭i 调控网络和代谢途径巾的j 每用研究 或者理化机制较明确的动态系统,其方程的结构可以根据动态系统的具体的特征手工 建立,要做的就是用回归算法推出方程中的参数。在科学研究中,人们经常用非参数 化方法,如非线性递归、模糊系统和神经网络,来模拟这些非线性动态系统,然而非 参数化方法通常不能给出系统的内部结构,所以难于揭示系统的内部机制。 应用计算智能的算法自动地演化出隐含在数据背后的微分方程组或者差分方程 组是一个具有挑战性的研究课题。解决这个研究方向的问题有两个困难:一是缺乏有 效的在微分方程空间进行搜索的计算智能算法;二是是否有足够的数据供算法演化微 分方程组或者差分方程组。另一方面,由于这些系统通常是随时间变化的,仅从事先 采集好的静态数据很难揭示出系统变化的内在机制。因此传统的被动机器学习算法, 如神经网络、模糊系统等计算智能算法,很难用于这个问题的求解。主动学习算法由 于可以通过干扰、探测等技术来获取系统的动态数据,跟踪系统的变化和捕捉系统的 动力学特性【5 1 。5 2 】,因而可以成为解决复杂动态系统演化建模的有力工具。 基因表达的情况决定生命的健康、疾病等状态。基因调控网络、蛋白质调控网络、 代谢网络等分子调控网络的研究是理解基因组功能、进而理解复杂疾病本质正在发展 的方向,并将为复杂疾病多基因之间的关系、基因型一表型各部分、各层次的相互作 用、调控通路提供背景和依据【7 8 】。通过建立动态模型识别基因调控网络和代谢途径可 以了解生物的生理过程以及结构和功能,从而可以解决了大量的关于复杂疾病的成因 和治疗等问题,具有广泛的理论和经济价值。 1 2 课题的研究动态 1 2 1 基因调控网络 基因调控网络( g e n er e g u l a t o r yn e t w o r k ,g r n ) 是指一组调控因子如何调控一套 基因表达的过程【j 7 1 。构建和分析基因调控网络,可以从分子水平认识细胞内的生理活 动和功能,了解通路中的相互作用,以及如何使生物体产生变化,这有助于了解复杂 的基因调控网络中的调控关系,系统地进行生物体生命运动进程的行为预测等【7 j 。总 的来说,一个基因的表达受其他基因的影响,而这个基因又影响其他基因的表达,这 种相互影响相互制约的关系构成了复杂的基因表达调控网络。更一般些,几乎所有的 细胞活动都被基因网络所控制【7 9 1 。 2 0 世纪5 0 年代d n a 双螺旋结构的发现,揭开了分子生物学的新篇章。自此, 在分子水平上研究基因和基因表达,促进了生物学的大发展【7 9 1 。不过,在当时的条件 下,生物学家主要是解析地研究单个基因及其表达,以及单个基因的表达引起疾病的 2 济南入学硕 :学位论文 情况。随着基因测序技术的发展,尤其是高密度d n a 芯片和蛋白质质谱等技术的应 用,可以在短时间内获得生物体基因表达的大量数据【7 9 1 。这为研究和揭示大量基因及 其产物之间的相互作用关系,特别是基因表达的时空机制奠定了基础【_ 珂】。传统分子解 析研究方法也受到了系统地研究错综复杂的基因网络方法的挑战,特别是很多模式生 物的全基因组测序已经或即将完成,甚至一些模式生物的整个基因组的基因表达数据 如酵母( y e a s t ) ,可通过微阵列技术获得,这为从基因组水平上研究基因网络准备了条 件【7 9 】。 微阵y l j ( m i c r o a r r a y ) ,又称基因芯片,是将大量生物分子样品微缩排布在一块载体 上而制成的【7 】。微阵列可检测d n a 、r n a 或蛋白质分子的变化情况,记录不同条件 下基因表达水平的变化【7 1 。目前主要有两类微阵列数据:一种是扰动实验( p e r t u r b a t i o n e x p e r i m e n t ) 微阵列数据,通常是排除特定基因,研究其下游效应,以确定与该基因存 在调控关系的基因;另一种是时间序y i j ( t i m e s e r i e s ) 微阵列数据,可以反映一组基因在 生命活动周期的时间序列条件下的表达水平的变化,其表达水平变化的时间延迟关系 可反映基因调控关系【_ 7 1 。扰动实验可以识别被调控基因的直接调控子,但是往往对必 需( e s s e n t i a l ) 基因无能为力,而由于时间序列微阵列数据可以反映基因表达水平的连续 变化,进而提示蛋白质活性和生物学网络的动态变化情况,因而近年来被广泛地用于 基因之间转录调控关系寻找和基因调控网络的构建1 7 j 。 基因调控网络的研究是后基因组信息学研究的主题之一,运用生物信息学的方法 和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因 组层次上揭示有关的作用机理也是当前生命科学的前沿1 7 圳。 基因网络的研究始于2 0 世纪6 0 年代,r a t e r 描述了控制原核生物的分子基因系统 组织的特点,另一项研究是k a u f f m a n 通过简单的逻辑规则研究基因网络动力学【7 9 1 。 2 0 世纪9 0 年代,由于实验数据的增加加速了基因调控网络的研究 7 9 o 从分子水平来说, 基因调控网络中包含许多相互作用的分子,单分子之间的生化反应实际上是一个随机 过程f 5 3 j 。从基因调控网络中各组分的浓度来看,各组分的浓度变化或动力学过程可以 用一组常微分方程、偏微分方程或者随机微分方程来刻画【5 4 1 。如果基因调控网络中的 各部分被离散化为一些等级,基因调控网络的建模又可以用离散的动态系统来模拟。 所以说,基因调控网络可以看成是一个随机的或确定性的、离散的或连续的动态系统。 但是,生化网络也可以根据组分之间的连接和相互影响情况来建模,这就是目前常用 的有向图和无向图方法,如互信息网络模型1 5 - 1 6 1 、布尔网络1 7 - 18 1 、p e t r i 网 1 9 】、随机布 微分方程系统订:幂冈调栉网络和代谢途径中的应用珂f 究 尔网络、贝叶斯网络和动态贝叶斯网络【2 0 之3 】【2 4 2 5 1 、微分方程模型 2 6 - 2 9 1 等。 互信息网络模型是最简单的网络模型之一,它是一种无向图。如果两个基因表达 水平的相关系数或互信息高于预先设定的阈值,那么这两个基因就是相互作用的。该 模型简单且计算量低,但是该模型仅能表征两个基因的相互作用关系,不能表征多个 基因的调控网络,且该模型是静态的 1 5 - 1 6 】。布尔网络是一种离散动态模型,每一对关 系的确定是由布尔函数的确定性,只能产生0 和1 两个值,所以使得基因网络中的调控 关系仅能表示为“存在”或“不存在”两种状态,不能考虑到基因表达水平的不同,过于 简化1 引。贝叶斯网络【2 3 】【2 4 彩1 是一无环有向图,它既可以对所给的数据进行描述, 又可以产生与所给定数据性质相同的数据,因此常用于对离散或连续变量的多项式数 据建模。贝叶斯网络中一个结点代表一个变量;两个结点之间的边代表变量之间的关 系【2 4 。2 5 】。虽然贝叶斯网络能够刻画基因之间的调控关系,但预测精确度较低,且存在 计算资源消耗大的问题1 2 0 - 2 3 1 。 微分方程模型【2 6 _ 2 9 】把基因表达的变化表示为基因表达水平与环境因素的函数,对 基因调控网络的动态行为建立了定量的动态模型,微分方程模型作为基因调控网络重 构的优点是强大灵活,利于描述基因调控网络中的复杂关系。曹宏庆、康立山、康卓 等人对动态系统常微分方程的演化建模进行了一系列深入的研究,提出了常微分方程 组混合演化建模算法】,将遗传算法嵌入到遗传程序设计,用遗传程序设计优化模型 结构,用遗传算法优化模型参数。在文献【6 2 】中,他们建立了一个基于遗传程序设计与 自然分形相结合的多尺度的动态预测系统。它以微分方程描述系统的宏观行为,以自 然分形刻画系统的微观行为。2 0 0 0 年,t o m i n a g ad 提出微分方程系统的s s y s t e m 模 型并用g a 优化系统参数,但微分方程的结构不变,只是优化参数来识别基因调控 网纠2 6 】。2 0 0 2 年,h i t o s h ii b a 提出使用遗传编程( g p ) 和最小平均误差( l m s ) 优化微分 方程的结构和参数,来推导出较简单的基因调控网络【2 。7 】;2 0 0 7 年,p g e n n e m a r k 和d w e d e l i n 使用启发式搜索算法演化常微分方程组,用于基因调控网络和代谢途径的识 别【2 8 】。2 0 0 8 年,钱立钧等提出使用遗传编程和卡尔曼滤波器优化微分方程模型2 9 1 。 在这些研究中,微分方程组中的右边部分是用遗传程序设计中的树形染色体来表示 的。该类方法的缺点是编码方式单一,没有考虑动态数据的获取问题,没有考虑随机 因素,仅适用于小规模基因调控网络的重构。 除了以上研究方法,人们还提出了大量的反向工程学方法实现利用微阵列大量的 数据进行基因调控网络的构建,然后评估这些算法的优点和不足,目的是有助于选择 4 济雨入学坝r # 化论文 合适的方法来生物建模7 1 。代表性的评估工作例女i w e r h l i 等对于各种用于构建基因 调控网络的反向工程学方法进行的比较研究m 。该项工作以3 种不同的模型和推断范 例比较其构建调控网络的精确性,包括成对联合分数独立于网络的其他部分的相关网 络模型( r e l e v a n c en e t w o r k s ,r n s ) ,基于约束推导的无向图模型图形高斯模型,以及 基于分数推论的有向图模型贝叶斯网络【7 1 。 在网络尺度方面,小规模网络分析,可利用已知的生物实验作验证,因此这类研 究相对比较普遍;由于缺乏有效的验证手段,大尺度的网络构建研究目前比较岁。 通过基因表达谱数据推导并构建基因调控网络,还存在着由于基因表达谱数据的精度 有限,不能够精确确定调控网络的结构的问题,因此除进一步发掘微阵列数据外,还 需要引入更多其他种类的数据【7 j 。 总之,一个急需自动建模的研究领域是系统生物学5 5 - 5 6 1 。在基因调控网络中,不 同的基因是高度相互依赖的。当处理规模较大的基因网络时,如果能够通过隔离的办 法给一个网络的组件分别自动建模,然后再综合到一起将是十分有用的【5 5 j 。另外,在 建模的过程中,不停的寻找或利用新数据而不是仅仅依靠事先采集好的一个样本集, 对于动态系统建模来说是至关重要的【5 6 】。 1 2 2 代谢途径 活细胞需要能量和物质来构建膜、储存分子、补充酶、复制和修复d n a 、运动 以及完成许多其他生理过程3 0 1 。细胞通过代谢获得能量并将其用于构建新的细胞,代 谢是细胞生存和繁衍的手段,它大致分为以下两大类:分解代谢( 分解复杂化合物以 获取能量和构建细胞所需模板) 和合成代谢( 构建细胞功能所需的复杂化合物) 3 0 】。 代谢是一种高度有组织的过程,它涉及了由酶催化的数以千计的反应【3 0 1 。代谢途径 ( m e t a b o l i cp a t h w a y ) 在生物化学中是一连串在细胞内发生的化学反应,并由酶催化, 形成使用或储存的代谢物、或是引发另一个代谢途径,多种途径都是精细的,并且涉 及原物质的逐步修饰成所需的化学结构的化合物,细胞内不同的代谢途径组成了代谢 网络 3 0 1 。代谢网络是由分子从一种形态转换为另一种形态的反应所组成,代谢网络模 型的基本元件有( 1 ) 物质及其浓度;( 2 ) 改变物质浓度的反应或转运过程【3 0 】。在生物 环境中,反应通常由酶催化,而转运步骤由转运蛋白或相关通道来执行,因此,他们 能被看作是同等地位的生化成分【3 0 】。 化学和生化力学依赖于如下假设【3 0 】:在特定时空的反应速率v 能够被该时空点中 所有底物浓度的唯一函数所表达。经典酶动力学为了简化处理,假设反应速率的空间 与 微分方柞系统钔i 屡冈调拧网络和代谢途径中的戍用研究 分布是均一化的,而且不依赖于时间。质量作用定律:反应速率与反应物的碰撞概率 成比例,而碰撞概率又与以相应反应分子数为幂的反应物浓度成正比例3 0 1 。对于一个 简单的反应如:s 。+ s 2 专2 尸,反应速率为:1 ,= 一一也= t 墨最一舡p ,是净速率, v + 是正反应速率,v 是逆反应速率,辟和k 分别是相应的比例因子,即所谓的动力学 或速率常数【3 0 1 。 对于一个含有,1 种物质和,种反应的代谢网络,系统的动力学可由以下系统方程 来描述: 堕:圭n u 。 江l ,m (11)ct j = i 一般假设反应是浓度变化的唯一原因,其中表示第f 个物质的浓度,v j 表示第,个 反应的速率,坳为代谢物i 在反应中的化学计量系数( 化学计量系数表示反应中底物 和产物分子的份数) 【3 0 1 。 在2 0 t 彬? , 8 0 年代末期,s e r e s s i o t i s 和b a i l e y l 3 1 1 提出了用数学理论来构造代谢途径 的方法。然而该方法构造的代谢途径只能有一个底物和一个产物,并不适用于实际 的复杂的代谢途径。为了解决这个难题,m a v r o v o u n i o t i o s 等提出了改进的算法,但 在计算代谢途径之前该方法必须将代谢物分成四类,所以改进的方法的适用范围也 有了一定的限制。为了提出应用范围更广的算法,f e l l 3 2 】和r e d e 3 3 1 应用线性代数理 论形成代谢途径,并且认为代谢网络所对应的计量系数矩阵的线性解的线性组合可 以形成代谢途径的所有的情况。由于一些代谢反应具有不可逆性并且为了得到惟一 的一组代谢途径,凸分析( c o n v e xa n a l y s i s ) 方法【3 4 - 3 5 被广泛的应用到代谢途径上。 目前,存在着两个非常接近的基于凸分析的途径分析概念:基元模式( e l e m e n t a r yf l u x m o d e s ,e f m s ) 1 3 4 和极端途径( e x t r e m ep a t h w a y s ,e p s ) 3 5 1 。极端途径所有反应受流的方 向性约束,而基元模式准许可逆反应,为了获得极端通路,可逆反应被分解为正、 反两个部分【3 5 1 。基元模式能够被用于了解网络中的代谢通路,被用于检验催化目标 产物生成的酶和检测非冗余的通路,被用于从注释的基因组序列中重构代谢网络和 分解酶缺失的效应,被用于分析药效以及鉴定药物靶标【3 0 1 。微分方程作为传统的动 力学模型,在代谢途径动态分析中有着相当重要的作用,建立微分方程的困难在于 建立反应速率表达式的困难,以及缺乏数据而难以对各模型参数准确的估计【8 0 1 。 1 3 本文的研究思路 近些年来,由于计算机技术的发展,基因组的调控网络和代谢途径的建模型式 6 济南大学硕f :学位论文 曼曼曼! 曼曼蔓曼! 曼曼曼曼曼! ! 苎曼曼曼曼曼! 鼍i ;_ 一 一i _ 一 一 一i 一。曼i 皇曼曼皇皇 越来越多。随着大量数据的收集,利用一般的技术很难从数据中提取出信息。一般 选取种非线性模型,来模拟各个组成部分的反应。由于微分方程系统非常强大灵 活,利于描述生物网络中的复杂关系,所以近年来研究者主要以此作为网络模型来 推到基因调控网络和代谢途径2 6 棚l 。结果证明,这是一种比较有效地研究手段。目 前,关于这方面的研究主要集中在两个方面:( 1 ) 微分方程结构的优化;( 2 ) 微分方 程系数和常数的优化。可以看出微分方程演化的越准确,得到的生物网络模型越精 确,越接近目标网络模型,所以关键任务是微分方程的演化。微分方程组的演化过 程还处于初级阶段,存在结构与参数有较大误差、建立模型的计算量过大等问题。 所以需要一种新的优化策略得到准确的微分方程,这样才能更好的解决系统生物学 中的实际问题。 本文提出一种新的混合优化策略,即使用多表达式程序设计优化常微分方程的结 构,并伴随着使用粒子群优化算法优化微分方程的参数。多表达式程序设计是遗传编 程的改进算法,相对于传统的遗传编程,它具有许多优点。本文还重点结合灵活树模 型接近微分方程的形式的特点,使用灵活树模型编码微分方程和基于树结构的优化算 法进化微分方程的结构,同时对于灵活树模型做了限制和改进,来完成规模较大的基 因调控网络的识别。 1 4 本文的研究结构和安排 本文共分为六章,具体内容包括: 第一章:绪论,介绍本课题研究领域的背景及意义、发展过程、国内外研究现状 及本论文的研究内容和结构。 第二章:微分方程模型的理论基础,主要介绍微分方程的基本理论、实际应用以 及解法。 第三章:多表达式编程算法以及理论基础,系统介绍了遗传编程、多表达式编程 和粒子群优化算法的基本理论基础以及它们的实现方法。 第四章:基于多表达式编程的混合优化策略的理论基础,主要介绍了多表达式编 程算法优化微分方程组的结构、粒子群优化算法进化微分方程的参数的实现方法,并 给出了仿真实验,并对结果给出了比较分析。 第五章:灵活树模型的理论基础,主要介绍了灵活树模型的编码方式、进化方法 以及实现方法,并给出了仿真实验,并对结果给出了比较分析。 第六章:全文总结及展望,总结全文,并指出自己所作的工作和成果,同时指出 7 8 济南大学硕f 学位论文 2 1 微分方程模型 第二章微分方程模型 微分方程( d i f f e r e n t i a le q u a t i o n ) 表示未知函数的导数以及自变量之间的关系的 方程。它是最常用的一种动态系统模型。微分方程又可以分为常微分方程和偏微分方 程,常微分方程描述的系统通常称为集中参数系统,即以时间参数为自变量的系统。 偏微分方程描述的系统通常称为分布参数系统,即主要表现为具有多个自变量的系 统。假如一个微分方程只包含一个未知数,即只有一个自变量,那么这个微分方程就 叫做常微分方程,通常简单地叫做微分方程。以后所说的微分方程就是常微分方程。 一般而言,对于m 阶微分方程的解必须包含m 个任意常数,这种解一般称为微分 方程的通解。 应用常微分方程理论在现实的领域中已经取得了很大的成果,这些领域的问题都 可以模拟成常微分方程模型,或者化为研究方程解的性质的问题。但是,它的理论知 识还不够完善,还不能够满足应用的领域的广泛需要,还有待于进一步的发展。 在生物系统建模中,一个重要的问题是特征化时间和空间上特定属性的依赖关 系。一个通用的策略是采用微分方程描述状态变量的改变【3 0 1 。在基因调控系统和代谢 途径中,用时间效应变量来代表r n a 、蛋白质、小分子或者代谢底物的浓度,并且 这些变量都是非负的。那么这些成分的调控关系可以表示成常微分方程( o r d i n a r y d i f f e r e n t i a le q u a t i o n ) 的形式: x f = ,俐,f = 1 ,2 ,m ( 2 1 ) 这样的方程也称之为动力学方程( k i n e t i ce q u a t i o n s ) 或率方程( r a t ee q u a t i o n s ) , 式中向量x 2 t x l ,镌9o ,j 表示各种成分的浓度,t 是一个函数,可以是线性的,也 可以是非线性的【3 9 1 。由此,第f 个r n a 、蛋白质或者代谢底物在t 时刻浓度变化率依 赖于其他r n a 、蛋白质或者底物浓度石,也可能包括而,同时,模型中还可以包括一 些外部影响因素的输入,如外界对生物系统的干扰1 3 圳。 函数- ,r 的结构表明了基因之间的内部调控机制,最简单的情形为线性函数,此时 解析的方法能够用于问题的解决,但是这个模型无法很好地理解生化系统的动态本质 【3 9 1 。在大多数情况下,非线性函数能够更好地说明生物体内的真实情况。考虑函数, 是连续可微,并且单调增加的有界函数,最简单的例子是s i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年医学科老年心衰管理规范
- 耳鼻喉科慢性耳炎治疗方案
- 多囊卵巢治疗科普
- 宫颈癌放疗康复护理措施培训
- 团队意识培训课程
- 2025年检验类之临床医学检验技术中级考前冲刺模拟试卷A卷含答案
- 2020-2025年初级经济师之初级经济师人力资源管理通关试题库(有答案)
- 2020-2025年教师资格之中学教育学教育心理学通关题库(附带答案)
- 2025咖啡厅装饰装修合同
- 2025智能工厂设备维护与管理指导技术服务合同书
- 2025年宁夏电力投资集团有限公司招聘笔试参考题库含答案解析
- 环卫公司物资管理制度
- EPC总承包管理实施方案
- 一年级拼音试题
- 中医理疗师职业发展与前景
- 设施设备故障应急预案
- 2025年度福建省职业院校技能大赛-物联网应用与服务赛项-中职组考试题库-含答案
- 教学事故认定与处理办法
- 湖南省衡阳市衡阳县实验中学2024-2025学年九年级上学期期中考试化学试卷(含答案)
- 《光传输原理与技术》课件
- 广西田林八渡金矿 资源储量核实报告
评论
0/150
提交评论