(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf_第1页
(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf_第2页
(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf_第3页
(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf_第4页
(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(动物遗传育种与繁殖专业论文)利用贝叶斯网络模型推断基因调控网络方法的比较研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在利用基冈芯片的高通量特性的情况下,研究者们希望利用这些数据获得基网间的调控关系, 提出的推断方法很多,如布尔嘲络、相关分析、微分方程、贝叶斯网络等。本文研究了现在较为 热点的贝叶斯j j 【) 9 络模型,主要对它的结构学习算法进行了比较分析,期望找到适合分析基因表达 数据的特异性结构学爿算法。具体比较的算法有k 2 、马尔可夫链蒙特卡洛( m c m c ) d 贪婪搜索( 6 s ) 三种。 当样本小j 。1 0 时,很难获得数据问的正确关系。随着样本量的增多其推断出的结构与真宴 图相近,随着样本最的增多其推断出的结构与真实图相近,利用m c m c 法在基冈数为5 时需要 5 0 个芯片数据;基因数为9 和1 1 需要1 0 0 个芯片数据:基阁数为1 3 时需要2 0 0 个芯片数据。利 用k 2 算法在给定合适的顺序的前提下与m c m c 算法情况相似,但其需要提供有效的先验信息, 这一点是其推断嗍络结构的最大限制。利用g s 算法在基因数目在1 3 个以下时都需要约2 0 0 个样 本,当将基因数增加到2 0 ,这时约需要1 0 0 0 个样本。 k 2 在给定适合的先验顺序后可推断出较准确的结构,且推断速度很快,但其缺点是对先验 的依赖性强。利用m c m c 算法小需要任何先验值,在样本量达到1 0 0 时会在6 0 8 5 分钟的时间 内学习出小于1 5 个基因的调控网络。g s 算法所需要的样本最较大,消耗机时较长,且获得的值 多为局部最优解,本实验建泌舍弃此法。 利用k 2 、g s 和m c m c 三种算法学习部分细胞周期网络所扶得的结果其正确率在2 0 3 5 问。但利用a s i a 非基因表达数据这二种算法在芯片数达到1 0 0 、1 0 0 和2 0 0 时都能获得正确的结 构图。 关键词; 贝叶斯网络,遗传调控网络, 1 ( 2 算法,贪婪算法,m c m c ,比较研究 a b s t r a c t t h ed e v e l o p m e n ti ng e n o m i c sh a sl e dh u m a ng e n o m ep r o g r a mi n t ot h ep o s t g e n o m et i m ew h i c h i sh i g h l i g h t e db yd e c i p h e r i n gt h ei n t e r a c t i o n sb e t w e e ng e n e s e x p l o r i n gi n t e r g e n i er e a c t i o n sa sw e l la s i n f e r r i n gg e n er e g u l a t o r yn e t w o r k sh a v eg r o w n a so o eo ft h ec r i t i c a lg o a l sw i t h i ng e n o m i c s ,m o r ea n d m o nr e s e a r c h i n gg r o u p sh a v eb e e ne n g a g e di nt h i sf i e l dc a r r y i n go u ta l l r o u n ds t u d i e s i no r d e rt o f u r t h e re l u c i d a t et h ep o t e n t i a lr u l e si ng e n ee x p r e s s i o na n dr e g u l a t i o nu n d e r l y i n gb i o l o g i c a lp h e n o m e n a , u pt od a t e ,r e s e a r c h e r sf r o mv a r i o t l sg r o u p sh a v ed e v e l o p e dm o d e l st oc a p t u r ei n t e r a c t i o n sa n d f u n c t i o n a li n t e r d e p e n d e n c ei ng e n e t i cn e t w o r k s t h e s em o d e l si n c l u d eb o o l e a nn e t w o r k s ,b a y e s i a n n e t w o r k s ,d i f f e r e n t i a le q u a t i o n se t c i nt h i sp a p e r ,w ea p p l i e dt h eb a y e s i a nn e t w o r k sm o d e lt oi n f e r r i n gg a n er e g u l a t o r yn e t w o r k w e c o m p a r e dt h er e s u l t so fu s i n gk 2m e t h o d ,g r e a d y s e a r c h i n gm e t h o d ( g s ) a n dm a r k o vc h a i nm o n t e c a r l o ( m c m c ) m e t h o dt ol e a r n i n gb a y e s i a nn e t w o r k sf r o ms i m u l a t e dm i c r o a r r a yd a t aa n dr e a l m i c m a r r a yd a t a o u ra n a l y s i ss u g g e s t st h a tm c m cp e r f o r m e db e r e rt h a na n o t h e rm e t h o d s w e d i s c o v e rw h e nl e n g t ho f d a t ai sm o r et h a n1 0 0 ,a n dt h en u m b e ro f g e n ea r el e s st h a n1 5 ,w ew i l li n f e ra b e t t e rr e s u l t ,t a l l i e dw i t ht i u eg e n en e t w o r k s ,u s i n gm c m c i f y o uw i l lu s ek 2m e t h o d , y o us h o u l do f f e r ap d o ro r d e r a sf a ra sg s sc o n c e r n e dt h a ti tn e e dai n f f i a ln e t w o r k f u r t h e r m o r e ,u s i n gg s a l g o r i t h m ,y o uw i l lg e ta l o c a lo p t i m a lr e s u l t k e yw o r d :b a y e s i a nn e t w o r k s ,g e n e t i c sn e t w o r k s ,k 2m e t h o d ,g r e a d y s e a r c h i n g , m c m c ,c o m p a r a t i v es t u d y 独创性声明 y9 3 8 5 1 6 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示了谢意。 研究生签名:1 ,f 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议l 研究生签名 导师签名: ? 易聊 勘 时间知年石月循 时间:撕年月矿日 第一章文献综述 1 基因调控网络的生物学意义 1 1 生物网络分类 在对生物网络的研究领域叶1 ,通常将研究对象分为二种网络【jj :生物分子代谢刚络,蛋白质 作用嘲络和基冈调控网络。代谢网络主要包括细胞内转换能量的酶促反应。蛋白质作用网络主要 描述的是蛋白质之问的相互作用,通常是信号传导过程,比如说g 蛋白和g 蛋白偶联受体作用从 而调控核内特定基因的表达。所以蛋自质作用可以看成是通过蛋向质问作用的动态性来传递信 息。蛋白质作用网络是晟复杂的网络之一。基因调控网络在d n a 水、i ? 、r n a 水平和蛋白质水平上 调控基因产物的活性和种类。需要注意的是上述三种生物网络并不是独立的,而是相互重叠,相 互作用影响的。其中最适合研究的是基因调控网络。代谢叫络最基础,也就最保守。尽管不同物 种代谢劂络差别可能很大,但生物多样性的主要原因还是在基因调控网络和蛋白质相互作用网络 上。由于蛋白质相互作用网络更加复杂,所咀目前的研究热点在基固调控网络上。在原核生物中, 一些小的调控删络研究的比较清楚比如枯草杆菌孢子化选择和x 噬菌体的溶源选择。在真核 生物中,调控网络更加复杂。大部分工作都集中在为单个基因的调控建模上。研究的比较清楚的 例子是海胆的e t r d o l 6 基因1 4 j h ,在2 0 0 0 b p 长度的调控区宵七个相互作用的模块,几十个d n a 结合 位点,形成了一套非线性的调控逻辑。 1 2 基因调控网络的结构 就目前的研究情况生物学家以嗣络的视角和可能的进化历史提出了对转录调控系统结构的 整体理解,将组织中具有转录关系的转录因子与目标基因联接为一个有向图,其中转录因子与目 标基因作为结点,调控关系作为边,最终的网络是一个非线性的多层次结构,大体可分为四层”】: 1 ) 转录因子、下游的目标基因以及d n a 上的绑定位点最基本的一层是构成网络的各成分。 关于调控网络大部分工作是以e e o t i 和酵母菌为主要研究对象。在e c o l i 中单个互作关系已被收 集构成r e g u l o n d b 数据库。酵母有1 8 0 个转录因子3 4 7 4 个目标基因7 4 1 9 条互作边,大肠杆菌有 1 1 6 个转录因子,5 7 7 个互作边【6 j 。 2 ) 模体( m o t i f ) 将基本元件构建成称为网络模体的互作结构在整个网络中出现的频率较 高。模体是网络结构中最简单的单元,是转录子与目标基因问互作关系的特定模式。模体并不代 表独立于网络其他部分而执行功能的功能单元。但在理论和实验上显示出在决定目标基因时空程 序上表达的一种特定动态属性。 在众多模体中根据调控目标基因是单个还是多个转录因子可有单输入和多输入模体,另外还 存在前馈环、自调控、多成分环、调控链等几种表达模体i r 3 2 ,具体结构见下图: 瞥输入 白调控 黼 多输入 多成分环 o _ + c h o 调控链 圈1 - 1 基因调控网络的六种模体引自参考文献 f i g1 - 1 m o t i f o f g e n er e g u l a t i o nn e t w o r k s 3 ) 模块是由模体聚类成半独立的转录单元。 4 1 网络由模块问相互作用形成的。 大部分目标基因被相似数目的因子调控,在酵母中9 3 的基冈被l 到4 个因子调控,这意味 着基因调控嘲络是一种含有h u b 的网络结构,即在调控过程中,选取少数几个转录冈子来调控大 量的目标因子,在酵母中调控h u b 如果被删除,调控网络倾向于崩溃。另外,基因调控网络是动 态的,网络的不同部分会随时空关系而部分表达。 1 3 生物网络特点 基因调控网络有如下特点: ( 1 ) 网络结构的高维性网络中节点和边的数目庞大且形成一个非常高维的结构。 ( 2 ) 网络结构的时空变化【8 两个顶点会有多条边存在,而那条边是否存在、作用的方向在 不同时期是可能不一样的。 ( 3 ) 相互作用的类型多变1 在生物体中,基因间相互作用可以有很多类型。目前的研究表 明,基因间的相互作用可能是一种非线形的作用关系。 节点类型多样1 7 j 网络节点的元素可以是d n a 、m r n a 、蛋白、小分子、外界环境等。 ( 5 ) 节点状态多变基因的表达量的变化会影响到相互作用的变化会引起网络结构的变化。 ( 6 ) 有向循环结构”o 】【2 1 在生物体中有各种生理周期现象,生物体中的相互作用也存在周期 性。对e c o l i 的表达调控网络的研究中已经发现了循环的结构。 2 生物网络的数学描述 2 1 基本的网络术语 2 巾国农业大学硕十学位论文 第章文献综述 生物网络由各种分子和分子间的相互作用构成,将其抽象为数学中的“图”来描述,其中结 点表示网络中的各种分子,边表示分子间的相互作用。例如在代谢网络中,整个代谢途径被抽象 为一个由点和边构成的图表示为g = ( v ,e ,矿) ,其中v 表示顶点集合,代表参与反应的生物分 子;e 表示边集合,代表相对应的酶促反应;驴表示v 与e 的元素问关系。对于各种图又可以 分为有向图和无向图两种:在有向图中任意两个顶点都有相关的方向定义,例如在代谢嘲绍中从 一个底物反应到另一个底物的物流方向,在基因调控网络中从转录因子到它所调控的基因的信息 流方向:对于无向图而言,各顶点问没有相关的方向定义,例如在蛋门质柏互作用嘲络中,顶点 代表了具有相互绑定关系的各蛋白,如果a 蛋白与b 蛋白连接,则b 蛋白也定与a 蛋白相绑定, 也就是说它们洲无方向性。 对于一个图而言,其整体的拓扑结构常用下面的术语加以表达: ( 1 ) 度与度的分布 度是用来描述顶点特性的一个指标,它定义了一个顶点连接到其他顶点的边的数量,用矗表 示。在有向图中连接到它的边的总数称为入度,由它连出去的边的总数称为出度:对于胄n 个顶 点和l 条边的无向图而言常用平均度来表示,即= 2 l n 。 度的分布( p ( k ) ) 足指某一确定顶点有k 条边的概论分布,一般常用它的频度来近视。度的分 布常可以区别各种不同的嘲络。 ( 2 ) 最短路径和平均路程 在网络巾用连接两个顶点的边的数量来表示网络中的距离其中在两个顶点问最少的边的条 数称为摄短路径,对于有向图,顶点a 到顶点b 的距离与b 到a 的距离是不同的。平均路程,指 所有两点问的最短路径的平均值,用来评价整个网络的“适航性”。 ( 3 ) 聚类系数 在许多网络中,如果顶点a 连接顶点b ,b 连接到顶点c 。则a 与c 连接有较大概率。对于 这种现象用聚类系数来表述,c j - 2 n ,k i ( k i - 1 ) ,其中。表示与i 顶点相关联豹所有顶点。中彼 此间有连接的数。聚类系数平均值c 表示顶点聚成一类的总体趋势。c ( k ) 函数表示有k 条边的 所有顶点平均聚类系数。 参数芷,c 依赖于网络的顶点数和边数而p 函数和c ( k ) 函数与网络的大小无关,表 证了网络的一般特性,从而对不同网络进行分类。 2 , 2 网络拓扑结构的特点 网络结构模型用来解释一些网络的主要特性与行为,为了理解复杂网络结构,特别是对于生 物学网络现已提出一些重要模型【”】。分别如下所述: ( 1 ) 随机网络( r a n d o mn e t w o r k s ) 随机网络模型是由e r d o s 和r e n y i 在1 9 5 0 提出。对于有n 个顶点的蜊络,每一对顶点以概 率p 连接。表现出小世界属性( s m a l l - w o r l d p r o p e r t y ) ”应分布服从p o i s s o n 分布,大部分顶点具 有相近的连接数,而与平均度有显著差异的顶点极为稀少。 ( 2 ) 无尺度网络( s c a l e - f l e en e t w o r k s 】 3 中国农业大学硕士学位论文 第一章文献综述 ! 目目! 目| ! 蔓i i w 由于现实网络具有生长性( g r o w t h ) 和偏好性( p r e f e r e n t i a la t t a c h m e n t ) t 也就是说网络会随着新 顶点的增加而膨胀,顶点特别是新顶点有向那些具有多连接边的点连接的趋向,当考虑这些因素 将随机网络改进后得到s c a l e f r e e 网络。度分布服从p o w e r l a w 分布删】,p ( k ) k 。,在生物学中 ,( 2 ,3 ) ”,网络中少数度高的点出现的概率增加,且这些点构成一个h u b ,网络的属性由这 个h u b 所决定。当h u b 中的点受到破坏整个网络就会瘫痪,若h u b 外的点受损,对于整个网络 而言无多大影响,体现出网络的容错性。j e o n g 和a l b e r t 3 1 1 3 等人对覆盖了真核生物、原核生物 和古细菌的4 3 种生物的代谢嘲络、蛋白质相互作用网络等分析认为大部分细胞网络为s c a l e - f r e e 网络,但对于e c o i l 等生物的转录调控网络是s e r e f l e e 和指数特性相混合的模型,进一步分析 指出并不是大部分转录因子调控几个基因而是少数几个转录因子调控众多基因且每个基因会有 一到三个转录因子调控。 ( 3 ) 等级网络( h i e r a r c h i c a l n e t w o r k s ) 将几种模块相互连接,使备小h u b 问连接形成更高一级的 核心集,其入度分布与聚类系数分布均服从p o w e r _ l a w 分布。 图l - 2 、1 3 、l 4 分别给出了三种主要生物学网络结构的性质 r a 埘啡b 删麓诎bs c j l e 0 侍n 。1 w o 陡cw i 科凯h 池jn 曲w o 拣 莎蜷a 翟f j 公毒霎八 日a j 蚶姗h o 呐r i c 1 。 1 i m 1 , 5mi , 0 3 u 吐0 图1 - 3 三种网络结构模型的p 函数特性 f i g1 - 3t h ep ( ”f u n c t i o no f n e t w o r km o d e l s 4 r a 喇o mn o e , v o r kbs c a l o h 培n 氍w o 噍eh i 钟蛋i n 0 黼o 图l _ 4三种网络结构模型的c ( 1 0 函数特性 f i g1 - 4t h ec ( k ) f u n c t i o no f n e t w o r km o d e l s 3 基因调控网络的重构 基因网络重构指的是利用己知的基因数据构建一个调控网络模型,使得所建立的网络模型能 够很好的与所得的实验数据吻合,或者说保持两者之削的一致性。目前已利用微积分、统计学、 图论、矩阵理论以及神经网络等各种方法与手段在计算机上进行分析和模拟并推断网络结构【l9 】。 在推断中我们主要通过测量基因的表达水平来获取删络中基因相互关系的信息最近已发展起来 的各种实验工具使得我们可以同时观察许多基因的表达。这些技术巾最重要的是d n a 微阵列技 术,这个技术可以大规模的测试生物学样本m r n a 在h i 同时间点或文验事件下的表达水平,以 及基因活性在这些阶段巾产生的表达图谱,以此用来监督m r n a 水平的基因表达。相似的,通过 如双向电泳、酵母双杂交、蛋白质切片等方法,我们可快速鉴别大量蛋白质。所有这些技术最重 要的贡献就是使得我们可以同时监督大量的基因产物,从而可以进行整个细胞的整体表达分析。 对丁| 计算分析而言,计算机的运行速度不断提高,对海量数据的操作已成为可能,而且各种新的 高效的数值计算方法也被提出。这些分子生物学和计算机科学的飞速发展为我们研究基因调控网 络提供了很好的工具,随着这些新技术的应用,基因调控网络的重构已成为当前生物信息的研究 热点。在最近几年,此类文章呈指数级增睦,在s i n c e 、p n a c 等高水平的杂志中也多有出现。 而且这个领域还吸引了许多非生物领域的专家包括数学、自动化控制以及计算机科学等领域。进 行基因网络的准确重构有许多好处,从基因网络推测获利的主要研究包括:癌症研究、药物发现、 毒物学、疾病预防、遗传发育等,但该领域还处于研究初期存在很多问题,其中一个主要问题就 是基因调控网络的推断研究耍受制j 丁f 生物学家所进行的生物学实验所产生的基因表达数据。就目 前推断方法的主要约束是所检测的基因数目巨大但基因芯片却有限,甚至芯片数要远远小于基因 数。另外在数据前处理过程中,对于作用影响大但表达量低的基因如何有效的与噪音区分也是一 个难点。 就目前而言,基因调控网络通过有向图或无向图来表示基园间的调控关系。在基因网络中, 结点表示基因,边表示基因间的调控如激活或抑制。从己有文献报道可知,国内外的研究人员推 断基因调控网络主要的模型有如下几类【1 6 】【1 ”:布尔网络模型、微分方程模型、相关分析模型、加 5 中国农业大学硕士学位论文 第一章文献综述 权矩阵模型、线性组合模型、贝叶斯网络与图模型、互信息关联网络模型、神经网络模型、分子 级的随机组分模型、p e t r i e 阿 以j ;6 乏规则推断等。本节将详细介绍其巾一些主要模型。 3 1 布尔网络( b o o l e a nn e t w o r k ) 布尔网络模型是确定型的离散模犁,是生物网络最早使用的一种模型,最早由k a u f f m a n 于 1 9 6 9 年【峒引进,1 9 9 8 年y u h 等成功地建立了反映这种逻辑关系的算法口l ,在这种模型中,基因被 定量为两种状态“开”和“关”。状态“开”表示一个基因转录表达形成基冈产物,而状态“关”则代表 一个基因未转录。基因之间的相互作用关系可由逻辑规则即布尔表达式来表示。布尔表达式是由 布尔算符“与”,“或”和“非”施丁布尔变量的一种关系表达式,并约定布尔算符的优先顺序从高到 低为n o t 、a n d 、o r ,并且a n d 和o r j 日从左结合。最近的有关布尔网络使用的综述可在k a u f f m a n 的 专著以及h u a n g 1 9 9 9 4 7 1 ;k a u f f i n a n1 9 9 3 4 8 1 ;s o m o g y i s n i e g o s k i ,1 9 9 6 h 明的文献巾找到。 采用布尔网络建模的目的是研究基因网络的粗粒度特性,在特定定量细节未知情况下,来表 示基因之间的逻辑互作关系。在功能状态的调控中,细胞具有类似开关的行为,如正常细胞生长 过程中从一个状态转移到另一个状态,或者细胞在外界信号下的反应等,而这往往是确定性的行 为。因此,这是用布尔网络对遗传调控网络建模的生物学基础。例如在细胞周期这个生物过程中。 细胞为了从g 1 期转向s 期,其遗传物质d n a 需要复制以便为子细胞所利用。其中r b 蛋白可以激活 d n a 复制这个过程,但r b 蛋白又受到如c y c h ne 辛u c d k 2 ( c y c l i nd e p e n d e n tk j n a s e2 ) 等分子的磷酸 化作用,而r b 蛋白磷酸化后会抑制其生物作用。c y c l i n h 和e d k 7 这两个基因的产物形成复合体 c a k ( c d k a c t i v a t i n gk i n a s e ) 可以激活c d k 2 ,p 2 1 w a f l 可以抑$ 1 1 c y c l i n e 和c d k 2 的复合体。这个生 物过程见图1 5 左图,其可咀抽象为图1 5 右图所示的布尔网络图。 c 越7 c 缸h c w h e n l 驸i 图1 - 5 细胞周期中的r b 蛋白相关的部分网络图与其抽象的布尔结构图 f i g1 - 5 p a r to f n e t w o r k si nr e l a t i o nt or bp r o t e i na n di t sb o o l e a nn e t w o r k s 在这一模型中,每个基因的表达水平或状态可通过逻辑规则( 布尔函数) 从其它一些基因的表 达状态来推断得到。布尔网络g ( v , f ) 由描述n 个抑制或激活的基因并取值0 或1 的布尔变量 v = ( v l , ,和反应网络的动力学的一组布尔表达式f = ( ,i ,国组成,其中每个结点v i 有其自己 特定方程v j l ,v ,0 ,表示接受来自k 个指定结点的输入坞l ,札。表达模式甲为基于变量v 取值的 函数,即,每个结点被假定取值为o ( 不表达) 或1 ( 表达) 作为其表达状态值,在时间点t + l 的表达模 式巩+ ”能从时间点t 的表达状态模式h 中所有的相关布尔表达式来确定,即 甲h “聊o i 】) ,( 7 j k ) ) 6 甲固 中国农业大学硕士学位论文第一章文献综述 简写为t ”1 ( v 。) = b + 1 王。,其中b ,为将k 个输入映射成输出值的逻辑规则,对于k 个输入其可能的布 尔函数总数为2 7 2 个,例如当k - - 2 ,则有1 6 中可能的布尔函数。在a k u t s u ( ”1 的研究中当设定k - - 2 , 对于大样本而言穷尽搜索所有可能的布尔函数直到组与数据虽吻台的函数出现,其复杂度为一 个多项式。l i a n g 等人p ”开发 拘r e v e a l ( r e v e r s e en g i n e e r i n g al g o r i t l m a ,反向工程算法) 的最大优 点是事先无须确定k 值,每个结点的最小k 值需要在算法中确定,从而推断出最小有效网络。该方 法基于输入和输山数据信息熵的比较,以此用柬确定k 值。一旦输入结点被指定与a k u t s u 的方 法相似。 在布尔网络中可有效的描述网络的动态性,k a u f f m a n 在早期将各个网络的状态转移描述为一 个序y d ( s e q u e n c e ) 并定义为轨迹( t r a j e c t o r y ) ,发现轨迹会有多个初始值并最终达到一个稳定态或多 个稳定态,重耍的是多个稳定态会形成一个循环,事例如下图,并分别定义为点吸引子和动态吸 引子,对于非吸引子部分的状态称为过度态。w u e n s c h e 口”开发出d d l a b 可以计算n = 3 1 的网络的吸 引子。k a u f f m a n ”“在后期研究中发现吸引子数目与所含变量的数目的、l 方根成正比例,有趣的是 当变量数目的数量级与生物基因总数相仿是,其吸引子数目与细胞类型个数的观察结果相一致, 进一步的研究表明生物体细胞类型个数也随着基因个数的平方根的变化而变化。k a u t i t a n 从而将 布尔网络的一个吸引子解释成与某个细胞类型对应的基因表达方式,从这些大型、随机的布尔网 络中观察到的高度有序度_ i j z k a u f m a n 断言,一旦具有某种局部性质的生物系统有了自然选择压力, 必然会出现有序的整体动力学。 总之大部分研究都表明很多真实的生物学问题可通过看似简单的布尔规则米回答,布尔网络 强调基本,普遍的全局网络而不是一种定量的生化模型。这类网络的动态行为可以对很多生物学 现象建模,例如,细胞状态动力学,处理类似开关电路的过程稳定和滞后现象。另外,布尔网 络提供了一种能表示基因复杂互作的结构,如异或关系x o r ,而且已被证明与生物学基因网络的 性质相符,如全局复杂性,自组织,冗余等。 布尔9 目络建模的缺点在于其本质上的确定性( d e t e 删i n i s m ) 。它把内部的遗传功能和互作理解 为逻辑规则,但是在生物体内,基因之问的关系复杂具有自组织稳定性,因此单纯从基因表达 水平,用每个基因一条逻辑规则来推断会导致错误的规则。与真实的基因网络相比,布尔网络显 然是一种粗糙的简化模型。在布尔网络体系中,基因被看作开或关而忽略了中间的表达水平,基 因表达并不是有或无这样简单状态,另外,在使用布尔网络模型的算法中每个基因的输入结点数 量指定为k 是一个必要条件,而这在真实条件下并非如此。算法在基因量大的情况下,计算复杂 性也是制约实际应用的一个主要因素。同时,在算法中假设基因的行为状态之间的转移是同步发 生,当这些转移不再同时发生时,算法的推断与分析是比较不准确的。尽管如此,布尔函数可以 找到可能的基因互作关系,这可以作为真实基因网络建模的基础。 3 2 微分方程模型 为了能考查连续变量,研究者借米氏方程的建立提出用微分方程来构建生物网络。以图1 - 6 所示的生物过程为背景构建微分方程组并通过数值计算求解。 f e e d b a c k ( o l l r v o l 图1 - 6 构建微分方程的生物过程背景 f i g1 - 6t h eb i o l o g i c a lp r o c e s st oc o n s t r u c td i f f e r e n t i a le q u a t i o n 在忽略m r n a 对基因、蛋白质对m r n a ,代谢产物对转录二种反馈,并假设n d n a 和蛋 白质的降解是随机的,各组分在绌胞中足可循环利用,得到如下非线性动态系统模型 i d r :- 厂( p ) 一v r n : f 塑:上r 一劬 i 出 其中每个变量是时间t 的函数,方程中各参数定义如下: n 基因组中基因的数目 fm r n a 的浓度,为t 的函数,n 维向量 p 蛋白质的浓度,为t 的函数,n 维向量 伽) 转录函数, l 翻译常数,n * n 非退化对角矩阵 vr a l 喇a 的降解率,n * n 非退化对角矩阵 u 蛋白质的降解率,n * n 非退化对角矩阵 m r n a 浓度的改变等于转录减去降解,同理蛋白质浓度的改变等于翻译减去降解。 若假设转录函数为线性m 户c p 带入可得模型为 堡:o 一玢 d ,t f 翌:三r 一劬 【出 1 若假定转录函数为非线性,利用一阶泰勒展开式近似后也可化简为上式。 考虑到基因芯片技术的应用,将模型一整理为应用于m r n a 浓度的r n a 模型 窘- ( _ c u c 吲妾+ ( _ c u c 。+ c l ) , 在模型中c 。是个广义逆,表明转录矩阵c 已经退化,而且r 与p 的初始值有关,表明蛋白质和 其他亚反馈是转录和翻译的主要调控子,并决定基因的表达。 若使基因表达以蛋白质浓度来建模: 8 窘_ ( _ 上陌l 鲁+ ( _ 三盯1 u + l c ) p 在实际的基因表达机制中,转录和翻译的时间存在时问的延迟。利用n 维向量a 利b 分别表示转 录和翻译的延迟,t 为全局时钟,模型定义如下: i 冬:c p ( t 一卜v r ( o 碍2 i 譬:l r ( t f 1 ) 一u p ( t ) 进行傅立叶转换的解为l 1 = q ( t ) e “其中q ( t ) 矩阵中的元素是一个t 的多项式,五是经过傅立 p j 叶转换形成的矩阵的特征值。在本模型中尽管时间的延迟进行了考虑,但实际麻用中并未得到有 价值的结论,其限制可能来源于忽视了大量的调控子和反馈途径。 有些研究者以上面的思路提出了基因调控网络模型,设有n 个基因参加调控网络,x ( t ) 表示t 时间。个基因的所转录的m r n a 含量,竺:a x ( t ) 表示第t 个时间点的调控方程,其中a 为 h n 矩阵表示为基因问的相互作用,元素a 。取0 表示i 基因对j 基因无作用,小于0 表示i 基冈对j 基因有抑制作用即负调控,大于0 表示i 基因对j 基因有促进作用即正调控,但均不表示 1 基因对i 基冈有作用。将上模型改写为差分方程并加入随机项后: x ( f + a t ) 一x ( 0 = a t a x ( 0 4 - s o ) 其中( ) 表示t 时间点的随机误差,服从正态分布,即s ( f ) n ( o ,d 2 1 ) ,其分布密度函数为: 1 r 一丛f ) 7 f ( 堕、 ,( s ( f ) ,口2 ) = ( 杀一) “。2 一 在实际实验中。我们可得到有限个时间点的测量值,设有m 个时间点,这r f i 个时间点的似然函 数为琊) - - 詈l n ( 2 船2 ) _ 古喜如其呐= x i x i _ 1 - - ( t t - - t i _ 1 ) a x i 得到 似然估计值为:= 上m n 妻占j t 其中爿i 善h 一_ i r 一_ i j l 父卸a 一j b = o ,- t 。) “- - x 。) x :】 对于a 而言,当m ”时可逆否则不可逆,所以选择基因数目不能大丁时间点数。根据生物学 戋n 识可知一个基困不可能同其他所以基因有作用,故人是个稀疏矩阵,可采用穷举法利用a i c 法则选择a 1 c 值:最小的组合。h o n g - c h uc h e n 5 利用上述模型并考虑m r n a 自身降解的速度对 表达调控的影响,且将基因分为目标基因和调控基因,用周期函数对两类基因的表达进行拟和 然后找出与目标基因表达周期函数相关性最高的调控基因表达周期函数,并假定此相关性的高低 反席生物学因子的相关性,此研究组处理了酵母细胞的基因表达数据 为了增加用来推断网络的数据量,d i - i a e s e l e e r l 5 6 利用非线性查值曲线对各时间点的数据进 行拟和,并分析了大鼠脊髓和海马回的基因表达数据,建立了一个包含有6 5 个基因的模型,而 且所得到的调控矩阵也是一个稀疏矩阵。 9 3 3 相关分析 用相关分析模型生物学因果关系是一种经典的方法,虽然相关分析不能提供一个因果关系的 实际依据,但它能给我们提供一种假设。根据基因调控原则,基因a , n 基因b 之间的一个高的相 关意味着( 1 ) 基因a 调控基因b ( 2 ) 基因b 调控基因a ( 3 ) 基 a - i j 基因b 共同被第三个基冈c 调控( 4 ) 俏然调控。此分析的基本前提假设是若两个基陶之间相关性很高,则预示这两个基因一定存在某 些联系,很可能参与同一个表达调控过程。把那些关联强度高于设定的闽值的有相互联系的基冈 归入同一个调控网络,从这个意义上讲构建的是基因表达调控网络。 目前心用于基冈调控网络分析的相关系数模型有( 1 ) 线性相关系数( p e a r s o n 秘差相关系数) , a t u t s u 【4 ”等应用此法筛选 n c l 6 0 的药物。( 2 ) 秩柏关系数( s p e a r m a n 秩相关系数) ,该方法没有直接 用到基因的表达数据,而是利用表达数据的大小排序信息。( 3 ) 信息熵相关系数,这是一种广义的 相关系数,它描述了x 与y 具有多少共同的信息,当用不同的方法离散连续变量时会得到不同的 结果,具有不确定性,正由于这种不确定性能够更敏感地反映出基因之间是否具有调控关系。 b u t t e 4 0 研究组提山与此算法相似的种方法互信息关联网络,此法只根据基因表达数据计算 所有基因对之间的互信息m ( x ,y ) ,取所有互信息值大于给定阈值的基因对,建立这些基因对之 问的连接关系从而形成基因关联网络。此研究组对酵母的基因芯片数据进行分析构建了共有信息 关联刚。( 4 ) 模糊相关系数,此算法是基于基因功能的模糊特性提出的,借签模糊隶属度思想构建 出的一个系数,从而体现基因间功能上的差异和交叠的不分明性。易尔研究组利用此法分析了人 类胚胎期r r l 枢神经系统发育过程中脑组织的三个不同部位的基因芯片表达数据mj 。上述不同的算 法有不同的特点,其中以p e a r s o n 积差相关系数应用最为广泛。 3 4 贝叶斯网络与图模型 图模型理论是概率论与图论相结合的产物,它为解决应用数学和工程应用中的不确定性和复 杂性问题提供了一种自然、直观的方法。将条件独立性和与之对应的概率依赖关系用于知识表示, 并利用系统不同部分之间的一致条件独立性,可将关于整个系统的联合概率分解为若干因子式, 从面将系统分解为一系列较简单的子系统。 图模型正是上述思想的体现。从拓扑结构上看,图模型是一种图,其结点代表问题域中的属 性,边则描述结点间的概率依赖关系。此外,还利用条件概率密度函数定量地描述这种概率依赖 关系,从而将不确定问题表示和推理纳入统一的理沧框架,为表示问题域中的概率依赖关系提供 了定性和定量手段。根据拓扑结构中是有向边还是无向边,可以将图模犁分为无向图模型和有向 图模型。无向图模型广泛应用于图像处理、数值优化、计算物理等领域,也称为马尔柯夫随机域 ( m a r k o v r a n d o m f i e l d ) 或马尔柯夫网络( m a r k o v n e t w o r k ) 。有向图模型在人工智能领域具有广泛 的应用。有向图模型有一个比无向图模型更复杂的独立性定义,人们可以简单地将一个从a n b 的弧看作是a 引起b 的一种表示,这可以用来指导人们如何建立有向图模型结构。 贝叶斯网络是一种有向无环图,是用来表示变量问概率分布的图形模式,具有稳固的数学基 础,是基于贝叶斯统计和图论而发展起来的。在十八世纪数学家和神学家r e v e r e n dt h o m a sb a y e s 在其“关于几率性问题求解的评论”的论文中为贝叶斯理论做了奠基性的工作。而在1 9 3 0 s 遗传学家 s e w a l l w r i g h t i 是出了一种叫通径分析的图形化方法来表示因子阃的因果关系,这后来成为了经济 1 0 中国农业大学_ 硪士学位论文 第一章文献综述 学、社会学、心理学方面对于因果模型的同定的表示。1 9 7 4 年,d e d o m d a l 等人研究了一个眦叶 斯网概率推理系统,该系统能够根据已有证据进行诊断和在证据不充分的情况下能够近一步选择 可能的问题进行测试,以获得充分的证据。2 0 世纪8 0 年代随着人工智能、专家系统和机器学爿在 实践中的广泛应用,催化了贝叶斯网络的发展。1 9 8 2 年,p e a r l 0 用有向无环图作为一种计算结构 和认知行为模型。在其论文中提出“贝叶斯网络”这一术语并且奠定了贝叶斯嘲络的理论基础。一 十世纪9 0 年代扁期h e c h e r m a n 把贝叶斯网络用于数据挖掘,由于叶斯网络具育独特的不确定表 达形式、丰富的概率表达能力、综合先验知谚 的增量学习特性成为数据挖掘众多方法中研究的热 点之一。 贝叶斯网络的具体定义为【2 6 】:给定一个有i 硎( d i r e c t e da c y c l i cg r a p h ,d a g ) 和一个离散 变量集合v ;f v b v 2 ,v n 上的联合概率分布p ,如果在v 巾的变量和d a g 的结点之州存在一一对应 关系,使得p 可以进行如下的递归乘积分解( x 1 ,x n ) = r i p ( x i p a l ) ,这里p a 是d a g 中托的直接祖 先( 父结点1 ,则将图d a g 和概率p 的联合称为贝叶斯网络。 关于一组变量v = ”1 y 2 ,v n ) 的贝叶斯网络由以下两个部分组成: 一个表示v 中变罱的条件独立断言的网络结构d a g 一个具有n 个结点的有向无环图,图中的结点代表随机变量,结点州的有向边代表了它们问 的相互关联关系。结点变量可以是任何问题的抽象用以代表属性、状态、客体、命题或其它的实 体,如测试值、观测现象等。结点之问的有向边( 弧) 反映了变量问的依赖关系,指向结点x 的所 有结点称为x 的父结点。尽管从结点x 指向结点y 的弧频繁地被用来表示x 引起了y ,但在贝叶斯 网络里这不是对弧的唯一解释。例如,y 可能只与x 有关联,但是它1 i 是由x 引起的。因此,虽然 贝叶斯网络可以表示因果关系,但它们并4 i 局限于表示因果关系。除了被称为贝叶斯网络外,它 还有另一些术语通常认为有向边表达了一种因果关系,故贝叶斯网络有时叫做因果网( c a u s a l n e t w o r k ) 。重要的是,有向图蕴涵了条件独立性假设,贝叶斯网络规定图中的任一结点x i 条件独 立于在x i 的父结点给定的情况下其非x i 后代结点构成的任何结点子集,即如果用a ( x i ) 表示非x i 后代结点构成的任何结点子集,用n 表示变量x i 的父结点集( 或v a ) , 与每一个变量相联系的条件概率分布表( c o n d i t i o n a l p r o b a b i l i t y t a b l e ,c p t ) ,它表达了结点同其 父结点的相关关系的条件概率。投有任何父结点的结点概率为其先验概率。因为有了结点及其相 互间关系和条件概率表,所以贝叶斯网络可以表达网络中所有结点( 变量) 的鞋合概率分布。 通常贝叶斯刚络记为b = ,这里每个节点v i e v 表示领域变量,每条边a ea 表示变量问的 概率依赖关系。 上 根据条件独立的性质,联台概率分布为:p ( v l v 2 ,v 。| 0 = ll p ( v iv i ,v 2 ,v i - 1 ) f ) 对于每 l = 】 个变量v 。,令p a ( v ;) v l ,v 2 ,v h ) 是v i 的父结点,则:p u h ,也,v f :i 孝 _ p ( v i l p a ( v i ) ,f ) 。 马尔可夫独立性:在上式中的递归分解表明给定父结点集合p a ( v i ) ,每个变量v i 都是条件独立予它 的非祖先集合“,v 2 ,v h ) p a ( v 。) 。这种独立性可以表示为: v 】上 h ,v 2 ”,v j j ) z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论