（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：42 大小：1.66MB 积分：12 举报 版权申诉

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf_第2页

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf_第3页

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf_第4页

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf_第5页

已阅读5页，还剩37页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

实验时间点的选取对基因调控网络构建的影响分析及相关研究中文摘要实验时间点的选取对基因调控网络构建的影响中文摘要众所周知，生命现象具有很强的时空性。近年来，随着生物学科的蓬勃发展，时间序列数据已经成为构建动态生物网络的必要资源。在时间序列数据的捕获中，时间是关键因素，能够较好地选择和测定合理的实验时间点是建立正确生物网络关系的必要条件。本文所做的研究是考察实验时间点的选取对基因调控网络构建的影响，并作相关的分析。本文共五章。第一章是绪论；第二章阐述了用g 1 d b n 从时间序列的基因芯片数据构建基因调控网络的思想原理；第三章，利用g 1 d b n 预测拟南芥8 0 0 个基因间的调控网络并作相关的一些分析；第四章，用不同时间点来构建拟南芥8 0 0 个基因间的调控网络，利用r 软件包s n a 比较分析实验时间点对调控网络构建的影响，并找出了受时间点影响小的较为稳健的一些调控关系。第五章，对本文所做工作进行总结和展望进一步研究目标。关键词：时间序列数据，条件独立，动态贝叶斯网络，有向无圈图，网络推断，基因调控作者：朱黄琼指导老师：沈百荣指导老师：王过京 t h ee f f e c to f t i m ec o u r s ed a t am e a s u r e m e n to nt h ec o n s t r u c t i o no f g e n er e g u l a t i o nn e t w o r k a b s t r a c t t h ee f f e c to ft i m ec o u r s ed a t am e a s u r e m e n t o nt h e c o n s t r u c t i o no fg e n er e g u l a t i o nn e t w o r k a b s t r a c t i t sw e l l k n o w nt h a tb i o l o g i c a l t h ep o s t - g e n o m i ce r a ，t i m es e r i e s s y s t e mi ss p a t i a la n dt e m p o r a ld y n a m i c i n d a t ab e c o m et h ee s s e n t i a lt or e c o n s t r u c t r e a s o n a b l eb i o l o g i c a ln e t w o r k s w h e no b t a i n i n gt h et i m es e r i e sd a t a ，w es h o u l d c h o o s er e a s o n a b l et i m ep o i n t st om e a s u r et h ed a t a i nt h i sp a p e r , w ei n v e s t i g a t e h o wt h ec h o i c eo ft i m ep o i n t sc o u l da f f e c tt h ei n f e r r i n go fg e n en e t w o r k 1 1 1 i sp a p e ri s o r g a n i z e da sf o l l o w s s e c t i o n li st h eb a c k g r o u n do ft h e r e s e a r c h i ns e c t i o n2 ，w es h o wh o ww eu s e t h er p a c k a g eg 1d b nt oe x t r a c tt h e g e n en e t w o r kf r o mt i m es e r i e sd a t a w ea p p l i e dt h er p a c k a g eg 1d b nt oi n f e r t h er e g u l a t e dn e t w o r ko f8 0 0a r a b i d o p s i st h a l i a n ag e n e sa n dt h en e t w o r ki s a n a l y z e di ns e c t i o n3 i ns e c t i o n4 ，w eu s ed i f f e r e n tg r o u p so f t i m es e r i e sd a t at o i n 衔t h ed i f f e r e n tr e g u l a t o r yn e t w o r k so f8 0 0a r a b i d o p s i st h a l i a n ag e n e s ，t h e n c o m p a r ea n da n a l y z et h e s en e t w o r k sw i t hrp a c k a g es n a 舡t h er e s u l t s ，t i m e p o i n t sw h i c ha r em o r ei m p o r t a n tt h a no t h e r sa r ei d e n t i f i e d w ea l s oi d e n t i f i e d s o m ec o i l l m o l lr e g u l a t o r yr e l a t i o n si na l lc o n s t r u c t e dn e t w o r k s i nt h el a s ts e c t i o n , w ed i s c u s st h ef m d i n ga n dg i v ec o n c l u s i o n s k e y w o r d s ：t i m ec o u r s ed a t a ；c o n d i t i o n a li n d e p e n d e n c e ；d y n a m i c b a y e s i a nn e t w o r k ；n e t w o r k si n f e r e n c e ；d i r e c t e da c y c l i cg r a p h ；g e n er e g u l a t i o n n w f i r e nb yz h uh u a n g q i o n g s u p e r v i s e db yp r o f s h e nb a i r o n g a n dp r o f w a n gg u o j i n g 苏州大学学位论文独创性声明及使用授权声明学位论文独创性声明本人郑重声明：所提交的学位论文是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含其他个人或集体已经发表或撰写过的研究成果，也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名：生盘五盎日期：兰塑21 竺：8 学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致，除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名：生董蕴日期：兰! 呈2 。垡：霪导师签名：遨亘考量鱼圣日实验时间点的选取对基因调控网络构建的影响第一章第一章绪论目前，随着生物高通量实验技术的迅猛发展，各种生物的数据日趋庞大。芯片技术的出现使得我们可以在细胞循环、细胞代谢等生理过程中观澳, l j n 多个基因表达的时空变化，即可以记录多个基因的瞬时表达量。这在生物学上来讲无疑是一个重要的突破，如今，对于某一生理现象我们可以在不同水平上得到各种数据，根据这些数据，我们可以重建生物网络。如何从大批量数据中挖掘出有用的生物信息和构建真实的生物网络已经成为眼下全球生物学家最关注的问题之一。伴随着交叉学科的兴起，各类算法和各式各样的软件纷纷涌现，一些原本应用在数学、计算、工程等方面的算法和软件通过改进移植应用于生物学，取得了让生物学家们大为惊叹的成果。研究已有数据库中的一些描述基因表达的实验数据，不难发现大部分数据都为静态数据。我们都知道生命活动是具有时空性的，生物体在其一生会经历生长、发育、衰老死亡等若干个时期，而在不同的时期生物体往往会有不同的生命表象。对于某个生命现象，若光用一个瞬时的静态数据去描述它，在多数情况下，是过于粗略的。生物学家们希望能用一段时间内的连续数据来描述它，但基于现阶段的生物技术水平，我们目前还很难得到连续时间的基因表达量，只能用基因芯片等生物技术测得基因在某些时间点的瞬时表达量。生物学家们就希望取较多的离散时间点来拟合逼近一段连续的时间，这就有了时间序列的基因芯片数据。时间序列基因芯片数据是一批描述一段时期内基因表达情况的动态数据，与静态数据相比，它可以更精确更客观地记录生物体在某一生理过程或生命现象中基因的动态表达和相互关系，它隐含着比静态数据更为丰富的内涵信息，是眼下构建动态生物网络的最佳资源之一。时间序列数据的分析研究已引起了很多生物学家和计算科学家的关注，同时，越来越多的动态数据正从全球的实验室收集到各地的数据库，以便生物学家和计算科学家能更好的分析，挖掘生物中的重要信息。实验时间点的选取对基因调控网络构建的影响第一章尽管基因芯片的动态数据在全球的数据库中飞速增长，但与静态数据相比，数据量却是相差甚远。这主要归因于：首先，动态数据的获得要耗费更多的人力、物力、财力，动态数据的分析方法还有待于进一步发展。事实上，动态数据是在一定时间内若干静态数据的有机组合，故时间点分割得越细，需要捕获的数据就越多，从而耗费也就越多。其次，实验时间点的选取一直困扰着许多的实验科学家。理论上来讲，测量的时间点越多，我们捕获的数据就越多，从而可以更好地来分析，研究生物体。但在实际生活中，由于受到经费、材料样品等的限制，只允许选取一定量的时间点来进行实验，我们总希望自己所选时间点下的数据能够较全面地反映网络的动态特征，而究竟该如何来选取实验时间点成了现阶段一个未解决的问题。再者，对于现阶段实验人员选定实验时间点的方法一般都通过主观的判断，缺乏一种理性的分析，这样的选取到底有多大程度的合理性? 或者这样条件下挖掘的生物信息可靠性如何? 哪部分结论是可信的? 对于这些问题，至今尚未有人进行过系统的研究。这个问题的研究将帮助我们回答以下两个问题：( 1 ) 实验时间点的取值对生物网络的重构有何影响? ( 2 ) 在不同实验时间点的选择构建的网络哪些是可靠的，即哪部分结果对时间点选择不敏感。至今为止，生物学家们已经发现许多蛋白的合成通常不仅仅只与某一个基因有关，常出现与多个基因相关的情况，基因之间存在着较为复杂的相互作用，一个基因在指导合成一个蛋白时可能会受到其他一个或多个基因的影响。从基因表达数据中找到基因间调控关系已经成了热点问题，现在生物学家们试图寻找出基因间的一些简单关系，比如“基因i 激活基因j 的表达。除此之外，生物学家们还希望得到基因间一些较复杂的关系，比如基因的自调控，反馈环，多重环等等，这一类研究被称为“r e v e r s ee n g i n e e r i n g 。基因间的相互作用形成网络，网络中的边代表的是基因之间的依赖关系。这样的基因网络起初是用静态模型来构建的，并且网络中的边为无向边，主要有r e l e v a n c en e t w o r k 5 】，c o r r e l a t i o nn e t w o r k 2 s 】，c o v a r i a n c eg r a p h 7 等多种方法来描述基因间的相互作用。然而这些方法检验的是成对基因间的相关性，其缺陷在于引入了较多的伪边，比如，有时两基因间不存在直接的相关性，可能是实验时间点的选取对基因调控网络构建的影响第一章由于某个其他的基因的连接而使之产生了伪边，这样的伪边的产生部分归因于无向依赖关系。贝叶斯网络模型的应用使得基因间的调控具有方向性，它基于一个概率测度，用一个有向无圈图和每个变量的条件概率分布集来定义。尽管贝叶斯网络模型与上述方法相比取得了较为显著的进步，然而无圈性使得贝叶斯网络模型不能建模基因调控中的反馈情况。动态贝叶斯网络模型恰好克服了这一缺陷，弥补了贝叶斯网络模型不能构建反馈这一局限性。动态贝叶斯网络模型对数据集的要求为各个变量的时间序列数据集，一个基因不再由一个顶点来表示，它与实验时间点相结合。在模型中，一个基因在每个给定的实验时间点上表现为网络顶点。直观上，动态贝叶斯网络模型与贝叶斯网络模型很相似，都是有向无圈图，但前者通过时间点可以描述系统的反馈环信息。考虑到模型的维数等问题，我们假设基因间的调控关系不随时间的迁移而变化，即在某一实验时间段内调控关系具有相对的稳定性。至今，基于不同概率模型的各种动态贝叶斯网络模型纷纷提出，比如：离散模型 t 9 ，2 4 ，多维白回归过程【2 0 1 ，隐马氏模型 2 1 ，2 2 ，2 3 ，l o 等等。构建基因间调控网络时所用的基因表达数据通常为基因芯片数据，基因网络的构建必须注意到系统的临时依赖性和维数问题。在生物学上，大多数基因不参与系统的短暂变化。从基因芯片得到的数据一般都具有较大的p ( 基因数) ，较小的1 3 ( 试验次数) 这样的特点，即n l ，v f j ，x ：与x ? 独立。由于d b n 是时间序列变量的贝叶斯网络，故对于d b n 的定义，只需在 6 实验时间点的选取对基因调控网络构建的影响第二章 b n 的定义中将静态变量集换为时间序列的动态变量集。 x = x ：，霹，x 。哇，x ：。，x 7 。x ：、其中，掣表示第i 时刻第j 个变量，爿表示第i 时刻第j 个变量的值，五= ( 卅，砰，矸) 表示第i 时刻各变量构成的向量， x 7 = ( 舛，础，耐) 表示第j 个变量在各个时刻点构成的向量。表( 1 ) ：变量的时间序列数据变量1变量2变量3 变量p 时问1 爿# 时间2 吐霹时间3 葛写砖时间n z 对于d b n ，我们仍记其网络结构为s ，其上的概率分布集为p ，其节点、弧、父代节点的定义皆同于b n 上的定义。由一阶m a r k o v 性可知：尸( 爿，群) = 尸( 五) 尸( 五i 五) p ( 五i 鼍。) 另外，由贝叶斯网络的相关定义及之前的假设，有只i “) = 只zl 磁。) 只鲜i 蹦) 其中，铂是第j 个节点的父代节点在i 一1 时刻所构成的向量。由上两式，我们可以得到所有节点变量的联合概率 n p 尸( 叫，群) = n 兀p ( f ip 口，j ) i = lj = l 其中，删= 西实验时间点的选取对基因调控网络构建的影响第二章与b n 类似，对于给定网络结构s 的d b n ，若我们拥有一些变量的时间观测数据，则可通过相关的概率计算得到所有变量的联合概率，及其他条件分布值。反之，也可以通过观测数据集来推测优化d b n 中的参数，即进行参数学习。至今，对b n 和d b n 的参数学习方法已作了较多较深的研究。在观测数据集完全的情况下，可用样本统计法来学习参数鼠。若观测数据集不完全，则可用em 算法来学习参数鼠。当网络结构未知时，我们就必需根据观测数据，通过一定的学习规则和相应评判网络好坏的标准来构建网络。在b n 和d b n 的理论中，这可以表述为：给定变量集x 的一个实际观察数据集，通过学习找出一个最匹配此数据集d 的网络( s ，刃。其中，s 表示网络结构，秒表示网络所包含的参数。然后再用一个评分函数来表达这种“最匹配的情况，即使得下式的值最大。尸吲d ) ：坐! 塑幽：p ( s ) o p ( d is,o)p(os ) d o 、7 尸( d )p ( d ) 至今为止，相对于参数学习，d b n 的网络结构学习还是非常困难的。一般都是通过将构建贝叶斯网络的方法移植，延伸，扩展等手段来构建，通常分为两大类：第一类，基于搜索与评分的方法，运用评分函数对网络模型进行评价。一般是给定一个初始结构，逐步增减连接便，改进网络模型，从而搜索和选择出一个与样本数据集匹配得最好的网络结构。第二类，基于依赖关系的分析方法，用统计测试估计节点之间的依赖关系，然后在此估计的基础上来构建网络结构。在处理各类实际问题时，由于构建网络方法的不同，一般都会有不同的模型结构，对于这些所建的模型孰好孰坏，还难以确定，因为每种方法都有其自身的优劣性，我们应该具体问题具体分析，结合实际情况来选择建模方法，选择模型。本文所用的r 软件包g 1 d b n 构建基因调控网络的思想大致上属于第二类方法，其通过运用概率统计的相关知识来构建基因间的网络模型，预测一些可能存在的基因调控关系，理解生物系统及其功能，从而为实验人员提供理性的指导，减少 8 实验时间点的选取对基因调控网络构建的影响第二章实验的盲目性。一一 9 实验时间点的选取对基因调控网络构建的影响第二章 2 2 用低阶条件依赖的d b n 逼近完全阶条件依赖的d b n 先定义一些记号： p = 1 i p 只= p i ) n = 1 t 靠) 观测到的基因集，去掉第i 个基因的基因集观测到的时间序列集， x = 寥；f p ，t n ) 基因表达的随机过程， x 7 = x ：；k e p j 屯，= ( x ， ( 剧- ，倒) he ，川) ， s = ( z ， ( x ；，x ? ) i 在给定碟。下，z ；。与x ；不独立) i , j 。，e ) 完全阶条件依赖的有向无圈图。 j s ( 9 = ( x ， ( 硪。，z ) i v q 弓，lqi = q ，召考锻l 下z 一。与嘭刁批) ) v g p q 阶条件依赖的有向无圈图。 e ( s ) 图s 的边集合由上节中的假设可知，f 时刻的基因只接受t 一1 时刻基因的调控。x 为基因表达的时间序列数据，s 。为一个有向无圈图，图中描述的关系为，在给定f l 时刻的p 1 个基因下，研究z 九与z ? 是否相互独立。在此，我们打算根据有向无圈图s 利用d b n 模型从基因表达的时间序列数据中构建基因的调控网络，故我们的目标是推断图s 。的拓扑结构。s 是一个完全阶条件依赖的有向无圈图，l b b r e s 叩h i e 【4 】已经证明了允许d b n s 建模的s 舢的最小子图s 。的存在性。在s 的拓扑结构的推断中，对每一个变量z0 我们需要检验与zj 有条件依赖关系的所有 x l ( 在给定变量集硝下) 。当n p 时，我们就无法用一些经典的估计方法来推断回归模型的参数。与此同时，维数问题也是我们面临的一大难题。为了解决维数问题，一般考虑的是寻找一种降维的方法。于是试图用q 阶条 1 0 实验时间点的选取对基因调控网络构建的影响第二章件依赖的有向无圈图s ( 9 ( g p ) 逼近有向无圈图s 的方法来达到降维效果。 s ( g ) 提供了一种构建变量间依赖关系的方法，但它不再和b n 的表示形式相联系，因为b n 的表示形式更多要求的是全局中变量间依赖关系，而不仅仅是在局部中的变量间依赖关系。一般情况下，有向无圈图s ( g ) 不同于有向无圈图s 一，在s ( 口) 中易出现一些在s 一中不存在的伪边。但如果s 的项点只有较少数的父代节点时， s ( g ) 通常能较好地反映s 的拓扑结构，此时即使g 的取值较小，s ( g ) 与s 一的拓扑结构也很接近。在现已知的一些基因调控机制中，生物学家发现只有少数一些基因调控很多其它的基因【2 1 】。然而，我们所希望的是在同一时刻一个基因不受其他多个基因的调控，即在基因的相互作用网络中顶点的父代节点数目能相对地小。若记 ( z ，s 。) = p a ( 卅，s “) l ，蹬( s 。) = 朋撕( ( 掣，s 。) ) ， j e ，t e r 则有如下一些结论【4 1 ： 1 如果( z ，s 。) g ，且( 科。，f ) 正e ( s ) ，则有( 科。，卅) 譬e ( s ) 。 2 对所有q 竽( s 。) ，有s s 。 3 x 是一个高斯过程，如果竽( s 。) l ，那么s 一= s 。另外，s p i r t e s 3 5 1 给出 f a i t h f u l 的定义：有向无圈图s 的分布驴是f a i t h f u l ( 真实的) 矿中真的独立性是由s 引起的。假设分布矿对于s 一是f a i t h f u l ( 真实的) ，那么相应地可以得到如下结论： 4 对所有g 眦为误差项，独立同分布且服从分布( o ，呸) 。另外，矩阵 ( 默，碟。) 融的秩为2 。我们给出的原假设为h ：：a 圳t = o ，备择假设日j 山：a 圳i 0 ，然后用最d , - - 乘法估计( l s ) 或其它估计方法( t u k e yb i s q u a r eo rh u b e re s t i m a t o r ) 来估计系数口，i k ，从标准的显著性检验中得出p v a l u e ，即p 叫。 a 当日p ：口。，i = o 成立时，估计系数a 。i j lk 满足葫( n - 4 ) 这样，给定变量肆。下，对于每一对变量( 掣，h 。) ，可以用p v a l u e 来描述它们之间的依赖关系，p v a l u e 越小，依赖关系越显著，反之越不显著。然而，在遍历给定变量默。时，会得到p - 1 个描述变量( 群，科。) 依赖关系的p v a l u e ，于是选取最大的朋缸。，( a 小) 作为( z ，科。) 依赖关系的得分，这可以提高对s n 有向边估计的可信度。接下来，用一个临界值q 来选择信度较高的有向边。当实验时间点的选取对基因调控网络构建的影响第二章 p v a l u e 2 为误差项，独立同分布且服从分布( 0 ，盯：) 在原假。, 一h 。i 7 ：= o 下，估计系数a 。i , j , k 满足；兹雨。咖- 1 一i p a ( x 。, ，9 耻) i ) 于是通过显著性检验，对于每一对( f 力，可以用p v a l u e 来描述其依赖关系。最小的p v a l u e 所指向的边为最显著的边，而p v a l u e 越大，边的显著性越差。然后，用一个临界值来选择较为显著的有向边。当p v a l u e 口：时，认为变量 ( x ，x ) 间存在有向边关系，从而标注有向边。反之，认为变量( z ，科。) 间的边关系不明确，不标注边。这样，我们从s ( 1 卜推断出了r 另外，对于临界值，口：的选择，一般要考虑到的是查全率和查精率的权衡， y o a vb e n j a m i n i 【1 6 给出了一种取临界值的启发式方法。就g 1 d b n 这个算法，我们还可采用“宽进严出的方法，在q 的选取时，我们采取“宽进措施，降低门槛，使得能有较多的变量进入第二步推断，从而使得s s 1 ) 一有较高的信度。事实上，当取0 值时，就有s 一s u ) = s m 。在选取时，我们采取“严出措施，升高门槛值，这可以保证得到的调控关系有较高的信度。经过上面的两步推断，我们可以从基因芯片的时间序列数据集中推断出满足 d b n 形式的基因调控网络s 1 。实验时间点的选取对基因调控网络构建的影响第二章 2 46 1 d b n 的主要函数简介函数d b n s c o r e s t e p l ：给定p 个基因的时间序列数据集，此函数推断了一阶依赖的打分矩阵s l 。返回值为一仰p 的矩阵，矩阵元素为对应行列变量间的一阶依赖下的分值。 s 1 - d b n s c o r c s t e p l ( d a t a ，m e t h o d = i s ，) 0 函数d b n s c o r e s t e p 2 ：在给定p 个基因的时间序列数据集，一个一阶依赖的打分矩阵s l 及临界值q 下，此函数推断了完全阶依赖的打分矩阵s 2 。返回值为一个p p 的矩阵，矩阵元素为对应行列变量间的完全阶依赖下的分值。 s 2 - d b n s e o r e s t e p 2 ( s 1 ，d a t a ，m e t h o d - - i s ，a l p h a l = q ，) 函数b u i l d e d g e s ：给定一个打分矩阵，该函数建立了矩阵所描述的网络的边的列表，并根据边的打分值进行排序。返回值为一个m 3 的矩阵，表示m 对有向边关系，其中第l 列为起始节点，第2 列为末节点，第3 列为打分值。 e d g e s b u i l d e d g e s ( s c o r e ，t h r e s h o l d ) 园函数b u i l d n e t w o r k ：给定矩阵e d g e s 和变量的标签向量，此函数汇集了相关网络的描述信息，返回的值为一个列表，包括顶点数，顶点标签，项点连接，网络边概率，网络边数目，邻接矩阵，打分矩阵等。 o u t 顶点v j 一个顶点v i 的邻居n 定义为： m = 以：岛eve j f 毋那么，有向图的聚类系数为 c ：黑：v j ，v 。n 豫e 。 k i ( k i 1 ) r ” e = 去喜c t 聚类系数用来描述网络中节点的聚集情况。一般情况下聚类系数都小于1 ，在全连通网络中聚类系数等于l ，聚类系数越接近。表明节点间聚集程度越小。介数( b e t w e e n n e s s ) - 设勖k 是从顶点v i 到顶点v k 并且经过顶点v j 捷径条数， g i k 是从顶点v 到顶点v k 的捷径条数，则顶点v 介数 ( b e t w e e n n e s s ) 定义如下：洲2 川丕，却詈i j ：拇j j 卸j 柳若一个顶点的介数用来衡量该顶点控制其它顶点之间信息流的能力，反映了该顶点在网络中的重要性程度。捷径是信息传播最快的途径，在网络中信息大量是通过捷径传播的，具有最高介数的顶点是控制其它顶点之间信息流的顶点。在网络中，若把最高介数的一些顶点去掉，那么很多顶点间的捷径长度会增加，严重 1 7 实验时间点的选取对基因调控网络构建的影响第三章影响信息的传输速度。中心势：网络中心势是分析网络整体结构的一个指数，与介数不同的是，中心势刻画的是网络中各点的差异性程度，而非单个顶点的特性。我们这里用的是中间中心势，定义如下： f ( 回= im a x ( c ( v ) - 印) ) l i 6 - h g ) e y 【“l 上式中符号的定义与前面定义一致。网络的中间中心势越高，表示该网络中的节点差异性越大，节点可能分为多个小团体而且过于依赖某几个节点传递关系。表( 2 ) 平均直平均聚类系中心介数度= 0 的基因间线性 n e t w o r k s i z e 度径距离数势排名顶点数调控关系拟南芥8 0 0 前4 0 基因调控 8 0 0 2 3 39 0 30 0 10 0 0 8 位， 1 2 6 8 0 3 对网络g o5 现在我们来分析表( 2 ) 中的数据，由于聚类系数= o 0 0 0 1 1 ，这表明基因线性调控网络中小团体现象不显著。中心势= 0 0 0 7 5 = 4 的顶点有5 1 个，占63 7 5 出度) = 3 的顶点有1 4 个占17 5 出度 = 4 的顶点有1 个，占0 1 2 5 上述可说明，在拟南芥8 0 0 个基因线性调控网络中大多数基因与其他基因间具有调或被调控的关系，但一个基因一般至多受4 个其它基因的线性调控，一个基因一般也只线性调控3 个或少于3 个基困。实验时间点的选取对基因调控网络构建的影响第四章第四章不同时间点构建拟南芥8 0 0 个基因间的调控网络及分析 4 1 不同时间点构建拟南芥8 0 0 个基因间的调控网络对于g 1 d b n 构建的网络，一般来讲，样本时间点选取得越细，预测所得调控关系的可信度越高，但在实际实验时，要记录每时每刻的基因表达量是件不容易的事。另外，由于一些实验误差或人为因素，总存在某些时间点的芯片数据与实际的基因表达量有较大差异的这一情况，这时，实验人员常常会选择删去这个时间点的数据。事实上，很多时候，我们只需要准确把握住若干个关键时刻点就能预测出可信度较高的调控关系。为了比较不同时间点选择对拟南芥调控网络构建的影响，我们需要若干组不同的时间序列数据，但在现实生活中要得到这样多组的芯片数据显然是非常困难的。于是我们想到了一种通过敲去时间点的方法来模拟不同组的时间序列芯片数据。原样的基因芯片数据为8 0 0 个基因分别经过1 1 个时间点后的表达量，记录的时间为0 ，1 ，2 ，4 ，8 ，1 2 ，1 3 ，1 4 ，1 6 ，2 0 ，2 4 。在原样时间序列芯片数据中分别敲去1 个时间点的数据，然后分别用r 软件包g 1 d b n 来构建拟南芥8 0 0 个基因间的调控网络，再选取相同的临界值q = 0 5 ，口：= o 0 1 ，这样可得到1 1 张网络，我们将其记为g 1 ，g 2 ，g 3 ，g l l ，并将完全数据下构建的网络记为g o 。实验时间点的选取对基因调控网络构建的影响第四章我们通过r 软件包s n a 计算这1 2 张网络的相关指标，再加以分析比较：表( 3 ) n e t w o r ks i z e 平均距离直径聚类系数中心势调控对 g 08 0 02 0 19 0 33 3 0 0 0 0 10 0 0 88 0 3 g 18 0 02 1 28 3 73 00 0 0 1 70 0 0 8 8 4 9 g 28 0 02 1 58 8 62 80 0 0 1 00 0 1 18 5 8 g 38 0 02 0 61 2 3 s3 1 0 0 0 2 90 0 0 88 2 4 g 48 0 02 2 14 9 42 10 0 0 3 20 0 1 7 8 8 3 g 58 0 02 2 s6 9 5 2 50 0 0 3 80 0 4 38 9 9 g 68 0 02 1 27 8 52 50 0 0 2 20 0 1 28 4 7 g 78 0 02 1 16 6 02 10 0 0 0 4 0 0 l8 4 2 g 88 0 02 1 37 0 72 00 0 0 1 50 0 1 18 5 3 g 98 0 02 0 78 8 52 30 0 0 1 7 0 0 1 68 2 8 g 1 08 0 02 21 3 6 33 80 0 0 0 20 0 3 88 8 0 g 1 18 0 02 1 69 4 53 30 0 0 0 90 0 1 38 6 5 a v e r a g e 8 2 1 38 6 62 7 30 0 0 1 6o 0 1 6 8 5 2 差异度 o0 2 9 2 3 s 2 1 27 1 26 0 2 9 s c o r e 田7 0 q 田7 田7 0 1 ) 田7 ( ) 图( 7 ) 2 1 署暑暑薹导是口田7 【c ) i 0 0 0 2 0 4o e铆0 田7 t o b 哩甲实验时问点的选取对基因调控网络构建的影响第四章入度 = 2 的入度 - - 3 的入度 = 4 的出度 = 2 的出度 _ 3 的出度 = 4 的 n e t w o r k 顶点数项点数顶点数顶点数顶点数顶点数 g 01 8 2 9 45 12 1 81 41 g 11 9 0 1 0 44 92 3 71 32 g 2 1 8 71 0 26 42 2 91 51 g 3 1 8 79 85 72 1 91 50 g 41 5 81 0 27 12 4 62 03 g 51 6 31 0 27 02 5 22 41 g 62 0 19 54 92 4 22 21 g 71 7 71 0 86 42 2 31 61 g 81 7 39 76 72 4 990 g 91 6 49 35 6 2 2 48 1 g 1 01 7 29 7 5 62 4 52 11 g 1 11 9 71 0 16 12 3 11 50 甜0 1 0 田 0 00 20 40 1 0 田 8 8 誊茎零品 0 0 0 2 0 40 80 t 0 田8 0 0 ) 舶0 2o060 t o 田冀) ：乳 r 薹：田图( 8 ) ：1 2 张网络项点度的比较 0 00 20 40 60 8 0 1 0 田咐 0 00 2o060 1 0 田骱是暑品p 8 f 8 震_嚣由丑实验时间点的选取对基因调控网络构建的影响第四章为了能较好的分析网络间的差异性，我们定义一个相对差异度量s c o r e 值： s c o r e 值：盥簧鳖掣，其中q 。为第价指标第阶图的指标值。 i ；杀， l a v e r a g e lj 一一个指标的s c o r e 值可反映该组数据的相对波动性大小。s c o r e 值越大，波动性越大；反之，波动性就小。我们来分析表( 3 4 ) 和图( 7 8 ) ，不难发现，在表( 3 ) 中，平均度和基因调控对数的相对差异度s c o r e 值都相对较小，聚类系数和中心势的相对差异度 s c o r e 值相对较大。这说明平均度和基因调控对数这两个指标在不同时间点的网络中具有较好的稳健性，而聚类系数和中心势的波动性较大。但在一般意义上来看，这1 2 张网络的聚类系数和中心势都远远小于1 ，都描述了网络中小团体现象不显著，网络中基因间差异不显著的信息。再来看表( 4 ) 中节点度的情况，发现1 2 张网络都有着较为一致的特点：入度 = 3 的顶点数比出度 = 3 的顶点数要多，入度 = 4 的顶点数比出度 = 4 的顶点数也要多。这使得我们可以更加确信地推断，在拟南芥8 0 0 个基因线性调控网络中，一个基因一般至多受4 个其它基因的线性调控。我们再来研究顶点度的分布和对数分布情况( 图9 1 0 ) ，用k 表示节点的度， p ( k ) 表示度为k 的概率，发现1 2 张图的度分布大致都呈现如下的幂率分布形式： p ( k ) = k 吖= ，l n ( p ( k ) ) = - yi nk + i n 夕这里，我们用度等于k 的节点在网络中所占的百分比来估计p ( k ) 。比较图( 1 0 ) 中1 2 张网络，易发现g o 的度分布对幂率分布拟合得最好，其它敲去时间点的1 l 张网络似乎拟合得要略微逊色一些。由复杂网络的相关知识可知，度分布呈幂率分布的网络为无标度网络，无标度网络具有一些重要的特性值得系统科学界的高度重视：如具有的稳健性和脆弱性，不但对说明系统进化的机理有重要的理论意义，而且在系统工程的应用方面也具有重要的实际价。由于很多生物网络的度分布呈现幂率形式，故从某种定义上来看，我们可把这种幂率分布的拟合度作为网络构建好坏的一个指标。从上述指标的分析，可知1 2 张网络大体上具有较为一致的网络结构，这说明从时间序列的芯片数据构建拟南芥8 0 0 个基因的调控网络具有一定的稳健性。实验时间点的选取对基因调控网络构建的影响第四章 - r - - _ 岫，哪_ _ - 一_ 啊m i - 蛳 u 哺曲 - 竹- - r _ _ - _ h _ _ i - _ - - - 一帕- - - - - 柚- - _ h _ - r - 岫_ - _ l j _ m - h 一- - n _ - - - - _ u l - _ _ - 一一瞳_ - - h - ，- - - 忘鞋 l - o 一_ _ - - 啊l 一- - - 一 - - 二芦l - - - _ 一图( 9 ) 1 2 张网络的项点度分布。其中，横坐标表示度值，纵坐标表示节点个数 _ ： l ，；： i t ，；： e l 1 ，；： - i 1 1 ，；： l ：， l ： i ： i ，；：图( 1 0 ) 1 2 张网络的顶点度分布( 对数坐标系) 其中，横坐标表示度的对数值，纵坐标表示节点度的概率对数值 2 4 t，，，，， t 吁，，，量ltt-iet-_f o-，工-eti口_一口-，t-，-ti掌实验时间点的选取对基因调控网络构建的影响第四章 4 2 比较分析实验时间点对调控网络构建影响对于g i d b n 构建的网络，一般来讲，样本时间点选取得越多，预测所得调控关系的可信度越高。若我们将原样的网络g o 视为标准网络，来计算1 1 张网络中调控关系的s e n s i t i v i t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf

文档简介

温馨提示

最新文档

评论

（概率论与数理统计专业论文）实验时间点的选取对基因调控网络构建的影响.pdf

文档简介

温馨提示

最新文档

评论

相关文档