




已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 生物信息学是_ l , - j 新兴的交叉学科,它需要生物学、计算机科学以及数学三 门学科的高级研究人员通力合作来完成。生物信息学以计算机、网络为工具,用 数学和信息科学的理论、方法和技术去研究生物大分子,发现生物分子信息的组 织规律。生物信息学的研究重点是d n a 分子和蛋白质分子的各个方面,包括它 们的序列、结构和功能。而基因调控网络是功能基因组学研究的一个热点。一个 基因的表达受其他基因的调控或影响,而这个基因又调控或影响其他基因的表 达,这种相互调控或影响的关系构成了复杂的基因表达调控网络。在基因调控网 络中,基因的相互关系能帮助研究者更深入地认识真实的调控过程。对调控过程 的深刻了解,将会对药物研制和生物医学产生深远的影响。因此,基因调控网络 在研究基因之问的调控关系及揭示复杂的生命现象方面有着重大的意义。 本文回顾了基因调控网络研究的历程以及现有的一些调控网络模型,像布尔 网络模型、静态和动态的贝叶斯模式、线性微分方程模型以及递归神经网络模型 等,并指出这些网络模型存在的缺点,以及一些文章对这些模型的改进。 模式植物拟南芥是研究基因调控网络的一种良好的材料,而拟南芥花药的发 育由复杂的基因网络所调控。至今为止,人们只是构建了小规模的花药调控网络, 而对大规模且精确的调控网络了解非常有限。本文利用最大团算法整合基因表达 芯片数据与启动子序列分析的生物信息学方法构建拟南芥花药基因调控网络。基 于这种方法,一共预测到6 8 3 6 对基因调控关系对,其中9 5 对为高可信的调控关 系对。在这9 5 对基因中,有5 对调控关系已被之前的实验验证。这些数据表明, 我们构建的基因调控网络是较为精确的,为研究拟南芥生长过程中的调控机制和 未知基因的功能提供了有意义的参考信息。 利用我们方法构建的基因调控网络不仅精确度较高,而且具有快速、高通量 的优势,可以建立一个大规模的基因调控网络。我们构建的基因调控网络为生物 学家建立真实的转录因子和靶基因之间的调控关系提供了理论依据。而生物学家 的实验结果反过来进一步验证了构建的基因调控网络,这种相互作用可以促进生 物信息学和生物学的快速发展。 关键词:拟南芥,花药,最大团,基因调控网络,基元,生物信息学 a b s t r a c t b i o i n f o r m a t i c si san e ws u b j e c tt h a ti ss t u d i e db ys c i e n t i s t sw h om a s t e r k n o w l e d g ei n v o l v i n gi nb i o l o g y , s c i e n c eo fc o m p u t e ra n dm a t h e m a t i c s b a s e do n c o m p u t e r sa n dn e t w o r k s ,p e o p l eu s et h ea p p r o a c ho fm a t h e m a t i c sa n di n f o r m a t i c s s c i e n c et or e s e a r c h b i o l o g i cm o l e c u l e sa n dt h er e g u l a t o r ym e c h a n i s mb e t w e e n m o l e c u l e si nb i o i n f o r m a t i c s g e n er e g u l a t o r yn e t w o r ki sa na c t i v ea r e ao fr e s e a r c hi n t h ep o s t - g e n o m er e s e a r c h t h ee x p r e s s i o no fag e n em a yb er e g u l a t e do ri n f l u e n c e d b yo t h e rg e n e s ,t h i sg e n ei nt u r nh a st h ep o t e n t i a lt or e g u l a t eo fi n f l u e n ta d d i t i o n a l g e n e s b yi d e n t i f y i n ga n do r g a n i z i n gt h e s et r a n s c r i p t i o n a lr e l a t i o n s h i p s ,ag e n e r e g u l a t o r y n e t w o r kc a nb e c o n s t r u c t e d u n d e r s t a n d i n gm e c h a n i s m s o f g e n e e x p r e s s i o nw o u l dn o to n l yf a c i l i t a t et h ea c q u a i n t a n c eo ft h ep r o c e s so fr e a lr e g u l a t o r y , b u tw o u l da l s op r o v i d ev a l u a b l ei n s i g h ti n t ot h ed e v e l o p m e n to ft h e r a p e u t i cd r u g sa n d t h ef i e l do fb i o m e d i c i n ei ng e n e r a l i na d d i t i o n ,g e n er e g u l a t o r yn e t w o r ka l s op l a ya n i m p o r t a n tr o l ei nr e v e a l i n gc o m p l i c a t e dp h e n o m e n o no fl i v e sb e c a u s eo ft h e r e g u l a t o r yo ri n f l u e n tr e l a t i o n s h i p sb e t w e e ng e n e si no r g a n i s m i nt h i sp a p e r , f i r s t ,w ed e s c r i b et h eh i s t o r ya n dm o d e lo fs o m er e p r e s e n tg e n e r e g u l a t o r yn e t w o r k ,s u c ha ss t a t i ca n dd y n a m i cb a y e s i a nn e t w o r km o d e l s ,b o o l e a n n e t w o r km o d e l s ,d i f f e r e n t i a le q u a t i o nm o d e l sa n dn e u r a ln e t w o r km o d e l s f o rt h e s e m o d e l s ,w ef u r t h e rs t u d yt h e i rd i s a d v a n t a g e sa n dg i v es o m ep a p e r st h a tf o c u s eo nt h e d e s i g no fe f f e c t i v em e t h o d s a r a b i d o p s i st h a l i a n a ,t h em o d e lp l a n t ,i sag o o de x a m p l eo ft h ec h a l l e n g e so f n e t w o r kr e c o n s t r u c t i o n t h eg r o w t ho fa r a b i d o p s i sa n t h e ri sr e g u l a t e db yg e n e n e t w o r k sw h i c ha lek n o wr a r e l yb yr e s e a r c h e s i nt h ep r e s e n tp a p e r , b a s e do nt h e m a x i m u m - c l i q u ea l g o r i t h m ,w eu s e dab i o i n f o r m a t i c sa p p r o a c ht h a ti n t e g r a t e st h e a n a l y s i so fg e n ee x p r e s s i o nd a t aw i t ht h ep r e d i c t i o no ft r a n s c r i p t i o nf a c t o rb i n d i n g s i t e si nt h ep r o m o t e rr e g i o n s ,t oc o n s t r u c tag e n e r e g u l a t o r yn e t w o r k u s i n g b i o i n f o r m a t i c s ,at o t a lo f6 8 3 6t f g e n ep a i r sw e r ea n a l y z e d ,9 5o fw h i c hw e r e i i i c h a r a c t e r i z e da sh i g h l yc o n f i d e n t ,a n d5w e r ec o n f i r m e db yp r e v i o u s l yp u b l i s h e d e x p e r i m e n t a ld a t a t h e s er e s u l t ss u g g e s tt h a tt h ep r e d i c t i o n sb yt h i sm o d e la r er e l i a b l e h a st h ep o t e n t i a lt oi m p r o v eo u r u n d e r s t a n d i n go ft h er o l eo ft h e s ep r o c e s s e si np l a n t d e v e l o p m e n t u s i n gt h eb i o i n f o r m a t i c sm e t h o d ,al a r g e - s c a l e a n dm o r ea c c u r a t e g e n e r e g u l a t o r yn e t w o r kc a nb ec o n s t r u c t e d as i g n i f i c a n ta d v a n t a g eo ft h i sm e t h o di sm o r e e f f i c i e n ta n dh a sah i g h e rt h r o u g h p u tc a p a c i t y w eh o p et h a tt h eg e n er e g u l a t o r y n e t w o r kw eb u i l tw i l lp r o v i d ea c a d e m i cg u i d et h a ta r eu s e dt op r e d i c tt h er e l a t i o n s h i p s b e t w e e nt a r g e tg e n e sa n dt f sf o rb i o l o g i s t s ,w h i l et h ee x p e r i m e n t a lr e s u l t sc a ng u i d e t h ec o n s t r u c t i o no fg e n e n e t w o r k s o ,t h e m u t u a le f f e c t s m a yl e a d t o r a p i d d e v e l o p m e n to fb i o i n f o r m a t i c sa n db i o l o g y k e y w o r d s :a r a b i d o p s i s ,a n t h e r , m a x i m u m - c l i q u e ,g e n er e g u l a t o r yn e t w o r k ,m o t i f , b i o i n f o r m a t i c s i v 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名:建盾局r 期:w 汐,夕 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 作者签名i 後枷燧名曦恁,舻期:川口f ,9 上海师范人学硕十学位论文 第一章绪论 第一章绪论 在后基因组时代,各种基因组学技术( 基因组学,转录体学,蛋白质组学, 糖体学,代谢组学) 产生了大量的信息,如何利用这些信息是生物学研究者面临 的重大挑战。一般来说,生物学家已经意识到,在研究方法上,需要突破单个基 因或单个蛋白质,从系统的角度柬收集数据、信息处理、信息解释、知识获取、 域发现、假设产生和后实验设计。系统生物学不仅是一个新兴领域:它还代表用 一种新颖的方式来思考生物学,要求在研究过程中施于动念的作用。基因调控网 络是系统生物学研究的一个热点,并为揭示在生物体内真实的调控机制和研究病 理原因提供了可能。而模式植物拟南芥为人们研究基因调控网络提供了一种良好 的材料。 1 1 选题背景和选题意义 生物信息学( b i o i n f o r m a t i c s ) 是一门生物、计算机和数学的交叉学科,是在生 命科学的研究中,以计算机为工具对生物信息进行存储、检索和分析的科学。它 是当今生命科学和自然科学的重大前沿领域之一,同时也是2 1 世纪自然科学的 核心领域之一。它的研究重点主要体现在基因组学( g e n o m i c s ) 和蛋白质 ( p r o t e o m i c s ) 两个方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达 结构功能的生物信息。生物信息学充分利用计算机这一高科技工具,以数学为基 础,快速分析和精确模拟植物生长过程,与传统生物学相比具有较多的优点,如 具有快速和高通量性,系统性和真实性等。 在转录因子的调控下,每一个基因通过产生m r n a 来影响细胞的活性。 m r n a 可以通过细胞质中的核糖体来指导蛋白质的合成,而这些核糖体位于生 物化学反应和分子事件发生的细胞中。一些由蛋白质自身产生的转录因子返回到 细胞核( 在真核生物中) 去控制一个或几个基因的表达。这种复杂的控制基因表 达就可以认为是一个基因调控网络( g l 斟) 。用得到的信息来推测g r n s 是由于 生物学家描述自然界复杂现象的需要。 基因调控网络是系统生物学研究的一个热点,并为揭示在生物体内真实的调 控机制和研究病理原因提供了可能。而模式植物拟南芥为人们研究基因调控网络 第一章绪论上海师范人学硕十学位论文 提供了一种良好材料。拟南芥( a r a b i d o p s i st h a l i a n a ) 是十字花科,被子植物门,双 子叶植物纲。它是二年生草本,高达7 - 4 0 厘米。基生叶有柄呈莲座状,叶片倒 卵形或匙形;茎生叶无柄,披针形或线性。总状花序顶生,花瓣4 片,白色,匙 形。长角果线性,长l 1 5 厘米。花期3 5 月。拟南芥植株小、每代时间短( 从 发芽到开花不超过6 周) 、结子多、生活力强。拟南芥的基因组是目前已知植物 基因组中最小的。每个单倍体染色体组( n = 5 ) 的总长只有7 0 0 0 万个碱基对,这就 使克隆它的有关基因相对来说比较容易。拟南芥是白花授粉植物,基因高度纯合, 用理化处理突变率很高,容易获得各种代谢功能的缺陷型。基于这些优点,拟南 芥是进行遗传学研究的好材料,也是目前分子生物学和生物信息学研究的热点。 在本文中,我们不仅研究了转录因子和靶基因、转录因子和转录因子之自j 的调控 关系,而且还研究了用转录数据来揭示基因和包含g r n 的蛋白质之间的复杂关 系和调控网络中基因的功能预测。 1 2 研究现状 高等植物个体发育从受精开始,经过胚胎发生、器官形成等营养发育过程, 又进入开花、授粉、受精等生殖发育,形成孢子体一配子体一孢子体的世代交替。 植物的有性生殖不仅是植物繁殖的主要途径,也是植物进化及对环境适应的基础 之一。花药是植物的雄性生殖器官,是花粉发育的场所,花药发育涉及复杂而精 细的细胞发育和分子机制,故对花药及花粉发育的研究具有重大的理论意义,植 物雄性不育是作物杂种优势利用的重要途径,因此对花药及花粉发育的深入研究 又有重要的应用价值。 在花药发育过程中,许多基因参与了作用并相互协调,这是一个复杂而真实 的调控过程。这个调控过程影响着花药发育和繁殖。目前,由于很多条件的限制, 人们对花药的研究还停留在单个基因和蛋白质的水平上。随着生物芯片和计算机 的高速发展,在实验数据和技术上为深入而全面研究这种调控机制提供了可能。 结合相应的生物芯片数据和数学抽象以及计算机,人们可以建立这种调控机制的 模型。这种模型的建立为构建调控网络准备了理论基础。而调控网络的构建是人 们认识复杂调控网络的又一大进步。它的发展为生物学家认识生物体内生长过程 及病理说明提供了现实性的意义。 2 上海师范人学硕十学位论文第一章绪论 近年来,随着拟南芥全基因组测序的完成与分子生物学技术的进步,对雄性 不育突变体与相关基因的研究也取得了巨大的进展。截至2 0 0 7 年在拟南芥中鉴 定分析的雄性不育相关基因就超过4 0 个。对这些基因与突变体的研究极大的丰 富了人们对花药与花粉发育的认识。这些雄性不育相关基因可以大致分为以下4 类:花药早期发育必需基因,减数分裂必需基因,绒毡层功能必需基因与花药开 花必需基因。而对于这些基因的研究往往是独立的,目前仅初步分析了其中部分 与绒毡层发育相关转录因子的可能的调控途径【l 】。而精细的花药发育的转录调控 网络目前还未见报道。由于目前鉴定出与花药发育必需基因很多都是转录因子, 暗示花药发育过程可能由一系列复杂的基因调控网络所控制,所以对于基因调控 网络及特定基因与其它基因调控关系的研究有利于深入理解花药发育分子机理。 用传统的方法构建植物基因调控网络是以生物实验为基础的,这种方法非 常的耗时。利用生物信息学的方法构建调控网络便成为构建调控网络的热点。在 实验数据方面,生物信息学方法构建调控网络包含的芯片数据较多,所以构建的 网络能够很好地反映生物体内真实的调控机制。因此,以芯片为基础的c h i p c h i p 是当前用得最广泛的鉴定基因调控关系的方法1 2 】。该方法要求所研究物种的全 基因组序列得到测定,并且需要有全基因组基因芯片。针对每一个调控基因( 转 录因子) ,需要有高质量的抗体。因此,该方法在实际应用过程中受到很多限制。 当前,由于计算机的迅速发展和生物芯片公司的急剧增多,产生了多而精确 的基因表达数据和生物实验数据。充分利用这些数据并结合转录因子结合位点这 种生物学背景来研究基因之间的调控关系成为构建基因调控网络的一种很成熟 而被普遍使用的方法。从基因之间相关表达性出发,我们可以利用反向工程 ( r e v e r s ee n g i n e e r i n g ) 1 3 1 的方法来构建基因调控网络。最常用的基因调控网络模 型包括离散变量和连续变量两大类,其中离散变量模型主要有布尔网络模型、概 率布尔网络模型和贝叶斯网络模型;连续变量模型主要有微分方程模型和神经网 络模型。t a m a d a 等人研究并利用了贝叶斯模型建立了酵母的基因调控网络【4 】, 并取得了很好的效果。通过模型来建立基因调控网络,加入了太多的数学和抽象 的思想,而缺少相应的生物学背景。从充分考虑生物学意义的角度出发,基因调 控网络也可以依据转录因子结合位点( t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e st f b s s ) 信 息进行构建,基因表达在很大程度上受基元的控制,而转录因子能识别这些基元, 3 第一章绪论上海师范人学硕士学位论文 从而控制整个基因的表达。根据这种基因之问的调控关系可以构建基因调控网 络。总的来说,在基于已有的预测方法上,基因调控网络的构建主要可以分为两 大类:基于经典的数学抽象模型和利用生物学知识背景的方法。前者主要是从数 学抽象开始,建立生物数据和数学参数的对应关系,建立调控网络。后者主要充 分利用生物知识和生物芯片数据,利用生物分析软件构建调控网络。 基因调控网络的研究突破了单个基因或单个蛋白质的研究方法,并从整体的 角度来收集数据、分析数据、解释并构建调控网络,很好地反映了生物体内的调 控机制。因此,调控网络的研究受到人们的广泛关注。目前,人们用各种方法构 建了模式生物酵母、人、果蝇等的基因调控网络,并利用构建的基因调控网络进 行生物基因功能、调控关系和病理产生等方面的分析,取得很好的效果。例如, s e g a l 等人采用概率模型推断了特定条件下的基因调控网络1 5 j ,该模型使用了1 7 3 个芯片实验数据共2 3 5 5 个基因。利用此基因调控网络预测了以前未知的几个蛋 白质功能。o d o m 等人构建了人类肝细胞的基因调控网纠6 1 ,这个网络主要涉及 到了肝细胞的六个调节基因,并进一步分析了这六个肝细胞调节的靶基因和其结 合的转录因子结合位点的信息。为人们深入认识有关肝细胞的疾病提供了有意义 的数据。人们不仅构建了各种模式生物的基因调控网络,而且利用调控网络对特 定的生物进行基因功能、转录因子的相互作用和病理原因等方面的分析,取得了 突破性的进展【7 。10 1 。如t s a i 等人利用基因表达数据和染色质免疫沉淀反应数据结 合统计模型对酵母细胞周期调控网络进行了预测【l 。分析了细胞分裂过程中调控 因子之间相互作用的过程。最近,为了精确地构建基因调控网络,j o s h i 等人用 联合概率统计模型中提取类质心的方法来推断和说明基因调控网络l l 引。此外,一 些研究者提出转录因子全基因组的鉴定为构建基因调控网络提供了更多有意义 的信息【l 孓”j 。这种整合不同来源数据的方法使构建的基因调控网络更加精确。随 着不断增加的计算机影响力和快速计算方法的发展,很多复杂的基因网络已经被 描述出来。虽然人们建立了各种模型和生物信息学的方法来构建基因调控网络, 但是这些调控网络的构建是建立在大量基因表达数据和生物信息学分析软件之 上的。由于人们对拟南芥研究较少,缺少大量的拟南芥基因共表达数据、基因功 能注释数据和真实的基因调控数据,人们只是在小规模范围上建立了拟南芥基因 调控网络。拟南芥大范围的基因调控网络和体内调控机制还未被构建起来。 4 上海师范大学硕士学位论文第一章绪论 1 3 研究内容 基因的表达( g e n ee x p r e s s i o n ) 是指细胞在生命过程中,把存储在n d a 顺序 中遗传信息经过转录和翻译,转变成具有活性的蛋白质分子。一个基因的表达在 很大程度上受到一些转录调控元件的控制,我们称这些转录调控元件为基元 ( m o t i f ) ,它们本质上是一些比较短的d n a 序列,一般长度为5 1 5 个碱基。这 些序列一般都处在受调控基因的上游区域,特异性的n d a 结合蛋白( 即转录因 子结合位点) 识别这些调控元件,并与之结合调节d n a 的代谢和转录。而这些 转录因子结合位点反过来调控与之对应的基因。 拟南芥是一种研究基因调控网络的模式植物,全基因组包含大约2 8 0 0 0 个基 因和大约2 0 0 0 个转录因子基因,也有大量起调控作用的编码蛋白基因。人们已 经用很多经典算法来构建拟南芥某些组织和全基因组的调控网络,取得了很好的 效果。利用基因之间的相关性和转录因子结合位点( t r a n s c r i p t i o nf a c t o rb i n d i n g s i t e st f b s ) 的信息也可以构建基因调控网络。用此方法构建的网络有很强的生 物学背景,为进一步揭示生物分子机理和调控机制都有很重要的意义。本文就是 利用这种思路和图1 1 调控网络构建原理束构建拟南芥花药基因的调控网络,首 先,从大量的芯片数据中鉴定花药基因和筛选花药基因共表达组;然后,预测共 表达基因组中的基元,并将基元转化为相应的转录因子( t r a n s c r i p t i o nf a c t o r s t f s ) ;最后,构建调控网络。依据此方法我们在这篇文章中重点研究了以下几方 面的内容:第一,用最大团算法提取拟南芥花药的共表达基因,并用拟南芥代谢 通路下的基因对结果进行了验证。第二,重点分析了几种经典的基元( m o t i f ) 预测工具,加以改进和整合,提高了基元预测的j 下确率。第三,对预测得到的调 控关系对,用拟南芥全基因组的相似数据进行筛选,得到了一些高可信的基因对, 用这些调控关系对来构建调控网络。本文研究的构建基因调控网络的方法与经典 调控网络模型相比有所改进:首先,本文构建的调控网络比以往的调控网络在精 确度上有所提高;其次:文章利用的原理有较强的生物学意义,因为这些原理取 代了一些经典模型中较多的数学抽象和建模,为真实反映拟南芥花药发育提供了 可能;最后,文中对一些经典的生物软件进行了改进,并对实验结果进行了验证。 5 第一章绪论 上海帅范人学硕+ 学忙论文 搬糍篇黜警嚣滕燃絮:“”“。“” bn d1elj 、( ,s ll ( :p r 【m 洲二) 1 4 论文结构 蚓i 1 调控网络构建原理 本文由5 章组成,备章内容如下: 第1 章为绪论,分为4 个小节。第l 小节介绍了课题研究的背景和研究意义: 第2 小节介绍了课题的研究现状;第3 小节则介绍课题的主要研究内容;最后小 节介绍了本文的章节安排。 第2 章是对现有的基凶调控网络模型的介绍。在这一章中,首先,简单地介 绍了社j 建基因调控网络的意义,以及怎样利用构建的丛冈调控网络柬解决疾病和 生长发育的问题;其次,给出了现有几种构建肇刖调控网络的经典模型,对比这 些模型的优点和缺点:最后,简单地阐述r 我们构建的基因调控旧络的优点和存 在的不足之处。 第3 章对文中所用到的拟南芥网络数据库和生物数据分析软件的介绍。第1 小节简要介绍了本文用的拟南芥数据库;第2 小节简要介绍各种基元预测工具, 对比了各种基元预测工具;第3 小节主要阐述了最大团算法的基本原理和应用。 第4 章详尽阐述了我们构建的基因调控网绕。其中4l 小节蜕明了我们如何 对花药共表达基凼的筛选:4 2 小1 i 讲述了其表达单田的耻几预测:43 小节是基 6 上海师范大学硕士学位论文 第一章绪论 元信息到转录因子信息的转化;4 4 小节是调控网络的构建;最后是本章小结。 第5 章为总结与展望。在这一章里,主要是对本文进行了回顾总结,并对以 后的工作和方向进行了展望。 7 上海师范人学硕士学位论文第二章基冈调控网络模型 第二章基因调控网络模型 基因网络模型是用基因表达谱数据来描述一个研究系统的表观行为。传统上 说,为了在实验数据下重构一个基因调控网络,我们需要构建一个初始的模型, 并利用这个模型模拟特定实验或者环境下的系统行为。在提出新条件下的模型 后,把它预测得到的结果和观察到的基因表达数据相比较以给出一个比较适当的 模型。如果实验数据是可靠性的,而预测的系统行为与实验数据不匹配,那么这 个模型就要进行修改。如果是用常规的手工构建调控网络模型,系统行为的模拟 和预测结果的测试是不断重复直到获得一个合适模型的过程。 图2 - 1 用反向上程法构建基冈调控网络的框架酣1 6 1 图注:图的右边描述了用计算方法估计网络参数,并用这些参数构建、模拟和评估一个模 型。图的左边显示了一些有用的信息( 如功能知识和结构信息) ,这些信息可以从数据集中 提取到,对重构网络起到一定作用。 正如上面提到的,网络模型的过程是非常耗时的,我们期望拥有一个程序 化的过程。逆向工程在分析和构建生物网络方面有着很好的前途1 1 7 】:另外,逆 向工程是利用实验数据来检测给定模型中潜在网络的一个有效方法。为了重构 网络,我们需要多次实验迭代和和足够的先验知识来推断网络结构。就基因调 控网络而言,这个过程涉及到基因网络的完善,结果的观察,以及运用数学和 9 第二章基冈调控网络模型上海师范人学硕+ 学位论文 逻辑( 计算方法) 束推断网络中的潜在规则。为了得到一个实际可行的模型, 我们要把计算方法和可用的生物背景知识( 包括功能和结构信息) 结合起来。 图2 1 描述了用定量的表达数据,并结合反向工程法来构建g r n s 模型的一般 过程。图的右边表示的是所使用计算方法的一般过程,我们可以利用这些计算 方法获得给定模型的网络参数、构建和模拟模型,我们还可以通过对比推测模 型的行为和原始数据集的方法来评估模型。正如图中所显示出的,除了直接运 用表达数据,我们还可以从这些数据集中提取一些有用的信息来重构网络。例 如,基因名字可以与背景知识数据库( 例如:基因注解) 建立映射关系来获得 生物知识( 例如:基因功能) ,获得的生物知识可以用来建立进一步的解决方案。 如果结构信息的一部分是可用的,那么它可以用来估计网络的重要特征( 像边 介数或网络密度) ,或者用来证实所推断出的网络。在本章中,我们从计算方法 和生物两种角度讨论大量的基因调控网络方法,这些根据网络大小( 在我们方 法处理的范围内) 不同而有所变化。 既然不同类型的逆向工程已经得到一定的发展,那么下一步主要关注的就是 怎样用实验的方法来验证由基因调控网络产生的假设。最近发展成熟的一个战略 是怎样把不同来源处的信息与网络中尽可能小的研究空间结合起来,以节省验证 和发现过程中的时间和精力。 2 1 基因调控网络的概述 对于现代的生物学家来说,设计并实施某些实验是比较传统的实验方式。在 后基因组时代,真正的挑战常常不是获取数据,而是那些获得数据后的工作,像 数据的处理、分析、知识的产生和对有意义问题的进一步研究。预测基因调控网 络( g i 州s ) 的方法已经盛行了很多年。不仅如此,由数学、信息科学、工程和 社会科学产生的一些新颖方法也已被应用到这一领域。在本章中,我们回顾了多 种构建基因调控网络的计算方法,这些方法可以在不同程度上来评估网络的准确 性和复杂性。生物学家主要关注的是如何用实验的方法验证基因调控网络产生的 假想。以生物学家的角度,我们认真分析了预测哺乳动物细胞中g r n s 的几种方 法,更重要的是说明怎样用不同类型的不同知识数据库来识别基因调控网络的模 型和子网,这种能力可以降低复杂性并为产生可实验的假想提供了方便。 1 0 上海师范大学硕士学位论文第二章基冈调控网络模型 基因调控网络是系统基因组学研究的一个重要方面,它是从整体的角度来揭 示复杂的生命现象,更能深刻的解释动植物整个生长过程,也能使研究者快速地 认识特定基因在生长过程的作用。不仅如此,基因调控网络在预测未知基因功能 和基因功能注释也起着重要的作用,通过分析基因调控网络,对药物研制和病理 分析都会产生深远的影响。 2 2 基因调控网络模型 从表达数据到构建基因调控网络过程中,最重要的一步是选择合适的网络模 型和拟合可用的数据到网络结构参数中。人们提出了很多基因调控模型,这些模 型可以根据研究的生物背景分为从非常抽象到非常具体等很多种。抽象的模型涉 及很少的生物知识,仅仅注重定性的动态行为。然而,使用它们却可以构建大规 模的调控网络。另一方面,具体的模型可以详细地描述网络的动态性,并能接近 生物本身,但是使用它们只能构建小规模的基因调控网络。在这一部分中,我们 以计算的角度把基因调控模型分为两种主要的类型:离散和连续变量模型。离散 变量模型主要包括贝叶斯网络模型和概率布尔网络模型等。连续变量模型主要包 括微分方程模型和神经网络模型等。下面我们介绍一下这几种模型。 2 2 1 贝叶斯网络模型 贝叶斯模型是有向无环图,利用此方法建立调控网络图可以很清楚的表达图 中各网络节点之间的概率关系。通过指定一些列条件独立性假设和条件概率,该 模型可以详细地描述可控制大量变量的概率分布。因此,网络中连接节点之间的 弧不仅代表它们之间的调控关系,也描述了它们之间以一定条件的依赖性( 例如: 家族中所有节点的联合概率分布) 。用这种方法,网络模型中任何变量的联合概 率都可以计算出来i l 引。在这里,我们构建的贝叶斯网络是离散变量模型,但是在 实际过程中,贝叶斯网络中的变量也可以使连续的。 根据我们所用的表达谱数据的动态性,可以将贝叶斯方法分为静态或动态 的。因为有向网络图被定义为无环的,所以没有自动调整和时问序列调控。由于 有这些限制,静态贝叶斯网络不能用来推断有反馈回路的贝叶斯调控网络。为了 考虑网络的动态过程,就必须发展动态贝叶斯方法,这样可以产生出更准确的模 型。值得注意的是,计算复杂性显著增长【1 9 圳】。 第二章基冈调控网络模型 上海师范人学硕士学位论文 构建贝叶斯网络设计两个步骤:模型的选择和参数的学习。模型的选择涉及 网络结构的创建,参数的学习涉及到有关网络节点表中概率值的评估。利用贝叶 斯得分制,可以实现网络结构的模型评估。对每一个可能模型,这种得分机制根 据概率算法定义了一种得分,而概率算法正确地描述了一组给定的数据集。为了 避免出现过拟合问题,这种可能性通过平均所有参数后有所缓解,这些参数值可 能定义了每一个模型的条件概率分布。应当指出的是,尽管贝叶斯网络有丰富的 统计和概率背景,但是学习这些模型的网络结构丌销是很大的。为了降低这种开 销,我们可以采取一些补救措施,像网络分解( 降维) 、采用随机抽样的蒙特卡 洛战略被开发出来以提高性能【2 2 】。 2 2 2 神经网络模型 神经网络模型是常用的连续变量模型。神经网络中最成功的是递归神经网络 ( r n n ) 2 3 - 2 5 】。在生物学上,这种模型似乎是合理的,并且是抗噪音的。它在 时间上是连续的,并且使用转移函数将输入转换成与自然过程相似的景象。另外, 它的非线性特征也提供了控制规则的信息,以及模型系统元素之间的本质联系。 更重要的是,这种模型不仅考虑了反馈回路,而且在整个操作过程中考虑了内状 态。在缺少外反馈的情况下,内状态是允许这种网络摆动的关键,并且对于内状 态的这种作用,除了需要反应物的浓度,不需要其他附加的特定元素。鉴于此, 这种模型可以产生摆动特性和周期活动,并能够较好地展现出系统的动态行为。 这里有几种从严格限制的反馈类到节点之间的全连接r n n 架构。作为一个 典型实例,我们讨论一种广泛用于g r n 建模的r n n 模型完全递归神经网 络。在一个完全递归网络中,每个结点都与网络中的所有节点有连接,包括它自 身。g r n s 假设:每个节点代表一个特定的基因,节点之间的连线描述了调控作 用。在任何时期,一个基因的表达水平都可以通过其他基因结点来评估,并且在 下一个时期,一个节点的输出可以从表达水平和连接权重推导出来,这里的连接 权重是与这个节点连接的所有基因的权重值。换句话说,对一个确定基因的调控 作用,可以认为是所有调控它的其他基因的加权和。为了计算基因表达率,通常 用下面的转换规则: 1 2 上海师范大学硕士学位论文第二章基冈调控网络模型 鲁吨g ,也x , g = 1 + p 一( 坳_ + 6 f ) ) _ 1 其中x i 是第i 个基因的实际连接;毛,k :,分别是基因产物的集聚和降解率 常数;g i 是任一基因i 的调控作用,它通过一组权重( 如w i ,i 表示基因j 对基因 i 的调控作用) 定义,并且外部输入历表示反应延迟参数。 用模型构建的g r n 不仅会产生一个具有节点和边的网络,这些节点和边与 芯片实验( m i c r o a r r a ye x p e r i m e n t s ) 中测量的基因表达水平相符合,还会得到描 述基因间关系的相应系数。通过引入评估网络性能的得分函数,就可以将前面的 任务看作是以最大网络性能( 或最小等价失误测量) 为目标的参数评估问题。已 经开发了基于梯度下降( 如反向传播通过时间( b p t t ) 【2 6 】) 的贪心算法,用于 在离散时间内有效地更新链路网络中的相关参数。然而,在学习程序中,错误现 象经常沿着每个权重方向呈现不同梯度,因此,每个权重需要不同学习比率。这 样,因为需要从所有的学习率中同步选出相应值,所以很难获得有效的训练。为 了简化选择过程,采用像d e l t a b a r d e l t a 2 7 l 。样的启发式算法( h e u r i s t i ca l g o r i t h m s ) 用于自动调整参数。另外,为了便利于评估,全局参数优化技术,包括进化算法 和群体智能算法,常常和局部搜索法结合使用。然而,由于该技术的计算复杂性, 这个建模方法当前只能应用于小型系统。 2 2 3 布尔网络模型 g r n 模型的第一个类型假设基因仅存在离散状态中。这种近似性通常通过 布尔变量柬执行,在布尔变量中,基因要么是开( 活跃的或者被表达的) ,要么 是关( 不活跃的或者是未被表达的) 。布尔网络很容易模拟,因此计算上耗费较 少,但是经证实得知布尔网络无法获取特定系统行为,而连续变量模型【2 8 , 2 9 贝1 j 可 以获取到。 为了构建布尔网络,可以采用很多计算方法。如果仅可用定量的知识,许多 基于文献( 1 i t e r a t u r e b a s e d ) 的方法是很有用的。在这些方法中,通过分析、比 第二章基因调控网络模型上海师范大学硕十学位论文 较不同文档的句子,提取出基因之间的关系和连接。另外,如果实验数据是可用 的,布尔网络可以由时间序列数据来推断出。两种方案经常用于推测布尔网络。 一个是基于相互关系的测量,在这种方案中,采用不同的方法提取基因关系的信 息,然后用这些信息来设计基因之间连接的拓扑结构。例如,信息理论的方法通 常被用于计算基因之间的相互信息,这被作为一个相互关系的测量。另外一种方 案是基于机器学习,在机器学习中,遗传算法( g a ) 是最常用的网络建模方法。 对网络结点的调控作用和结点之间的关系,用在g a 中经常用到的字符串来进行 编码,并且自适应算子( 像交叉和变异( c r o s s o v e ra n dm u t a t i o n ) ) 可以用来创建 新的解决方案。除了在g a 中使用线性编码方法,图结构( 一般描述为一棵树) 也可以用来代表一个布尔网络,用随后的遗传程序( g e n e t i cp r o g r a m m i n g ,g p ) 来直接推断出网络结构。 因为传统的进化算法是全局搜索方法,全局搜索方法主要集中在探索解决方 案,而没有考虑局部信息,这样就不能通过局部微调来进行优化。因此,提出了 许多将g a 和局部搜索技术结合的增强方法。这些局部搜索技术包括禁忌搜索、 爬山法、模拟退火和单纯形法( s i m p l e xm e t h o d ) ;所有技术都是利用局部信息来 确定在搜索空削的有前途的方向。最近,一个新的基于群智能优化技术( i n t e l l i g e n t p o p u l m i o n b a s e do p t i m i z m i o nt e c h n i q u e s ) 的体系作为传统进化算法的替代被提 出。这个算法被称作群智能算法( s w a r mi n t e l l i g e n c em e t h o d s ) ( 包括蚁群系统和 粒子群优化) 。现在已提出了一些整合方法,该方法有效地利用这两种方法的特 性。现在普遍认为:包含进化算法和群情报算法的整合模型可以使性能得到进一 步的提高。 2 2 4 概率布尔网络模型 尽管布尔网络在较低计算成本的条件下很容易模拟,但是人们认为它是不能 获取很多重要的系统行为。布尔网络的动态是确定的,并且它们依赖于初始结点 的状态。这些意外的特征使布尔网络模型缺少了现实意义。为了解决这个问题, 提出了一个相似的但经过改进的模型概率布尔网络模型( p b n ) 3 0 , 3 “。引进 一个“不确定”参数,给这个新模型中的每一个网络结点提供多重调控功能,每 一个网络都有一个预定函数。每一个结点的功能都有相应的概率来确定。在每一 步,根据给定的概率,每一个结点的调控功能是随机地从它们的功能集中选择出 1 4 上海师范人学硕十学位论文第二章基冈调控网络模型 的。因为这个随机的效果,p b n s 也是随机的,并且网络的动态系统也不再具有 确定性。任何给定的初始结点状态集都可以推出多重后继网络状态。 产生p b n 模型的第一步是用上述的方法来识别出一些候选的行尔网络。一 旦候选网络确定了,下一步就是要编辑功能,这些功能根掘指定的概率把不同候 选网络中的每一个结点归于预测功能中的n 集合中。p b n 的主要缺点,是它增 加的计算复杂性。布尔网络预测中所用到的方法可以修改并应用到p b n 中,但 是需要更多的计算时问去计算预测概率( p r e d i c a t o rp r o b a b i l i t i e s ) 。因此把它的规 模扩大到大的网络中就是个难题了。一些启发式的方法被提出用于减少大量的计 算。 2 3 用基因相关性和t f b s 构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校物资库管理制度
- 学校营养餐管理制度
- 学生休复学管理制度
- 学生请销假管理制度
- 安保部卫生管理制度
- 安全监测与管理制度
- 安费诺公司管理制度
- 定制店员工管理制度
- 实训室学生管理制度
- 审核岗薪酬管理制度
- 16J914-1 公用建筑卫生间
- 2024年南昌市产业投资集团有限公司招聘笔试参考题库附带答案详解
- 等级医院评审汇报课件
- 火场侦察和督查的组织与实施
- 2021年中日青年交流中心有限公司二十一世纪饭店校园招聘笔试试题及答案解析
- 食用菌生产技术 大球盖菇栽培技术课件
- 小班语言课《水果歌》PPT
- TSG11-2020 锅炉安全技术规程
- 人才培养方案编写质量标准
- 静脉输液-PPT课件
- (外研社)新编进出口英语函电答案-Unit-2-11-包含部分test-yourself
评论
0/150
提交评论