




已阅读5页,还剩52页未读, 继续免费阅读
(运筹学与控制论专业论文)复杂基因逻辑网络的构建及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 基因逻辑网络是国际上引人注目的新兴领域,已经渗透到数理、生命、工程 等众多领域。数据分析和理论方法成为理论生物学研究中探索生物机理的重要途 径,也是人类认识自然科学世界的重要工具。特别是对于基因复杂的功能系统, 建立基因网络这种理论方法的意义更为突出。 2 0 0 4 年,b o w e r s 在蛋白质相互作用的分析中引入了高阶逻辑关系,从而建立 了系统发生谱数据的逻辑分析( l a p p ) 的系统方法,可以揭示网络中元素之间的 一些更深入的逻辑关系。l a p p 和传统建立基因逻辑网络模型的方法不同,它给出 了一个从复杂网络的元素( 或部件) 的表达数据出发,通过逻辑分析,找到元素 之间的逻辑关联性的建模方法。这种方法能够从蛋白质表达谱数据出发,利用信 息熵的算法发现两种蛋白对一种蛋白的联合作用,对于发现蛋白质之间的新的作 用机理有重要意义。它对网络调控的发展有相当的意义。 本文借鉴b o w e r s 的l a p p 方法,构建了拟南芥芽部基因在不同刺激下的逻辑网 络,并对网络的动力学进行了分析,具体如下: 理论上,改进原有发掘逻辑关系的u 值算法,给出支持度的概念,以此得到 更精确的结果。给出用基因逻辑网络解决实际问题的一般步骤。 应用上,将复杂逻辑网络应用到拟南芥芽部数据上。在拟南芥的应用上,比 较了在不同刺激下,拟南芥芽部的反应机制,给出未知蛋白的功能的推断方法和 基因在芽部上的相互逻辑关系。对构建的拟南芥芽部基因逻辑网络进行了动力学 分析,研究了基因调控路径。 所有结果都指出,在生物系统中,结构决定功能。因此,基因逻辑网络可以 更全面、更精确地表达了生物系统的结构,它有广泛的应用范围和研究空间。 关键词:生物信息学,基因网络,系统发生谱的逻辑分析( l a p p ) ,逻辑相关性,动力学 分析 摘要 a b s t ra c t g e n el o g i cn e t w o r ki sah o tf i e l di ni n t e r n a t i o n a la c a d e m e ,a n dh a s p e n e t r a t e d i n t os e v e r a l f i e l d s , m a t h e m a t i c sa n dp h y s i c s ,l i f e , e n g i n e e r i n g ,a n ds oo n d a t aa n a l y s i sa n dt h e o r ym e t h o d sh a v eb e c o m e i m p o r t a n tf o re x p l o r i n gb i o l o g i c a lm e c h a n i s mi nt h e o r e t i c a lb i o l o g y r e s e a r c h e s p e c i a ll y ,t h i sm e t h o di ss i g n i f i c a n tf o rt h es t u d yo fc o m p l e x g e n ef u n c t i o ns y s t e m 2 0 0 4 ,b o w e r su s e dh i g h e ro r d e rl o g i cr e l a t i o n s h i pt od e c i p h e rp r o t e i n n e t w o r ko r g a n i z a t i o n ,w h i c hi sas y s t e m i cm e t h o dc a l l e dl o g i ca n a l y s i s o fp h y l o g e n e t i cp r o f i l e s ( l a p p ) l a p pi sad a t am o d e l i n ga n dd i f f e r e n tf r o m t r a d i t i o n a lc o m p u t a t i o n a lm e t h o do fm o d e l i n gg e n el o g i cn e t w o r k s t h i s c o m p u t a t i o n a la p p r o a c hi d e n t i f i e sl o g i cr e l a t i o n s h i p so ft h ee l e m e n t s ( o r c o m p o n e n t s ) i nc o m p l e xn e t w o r k st h r o u g ht h el o g i ca n a l y s i so ft h e i r e x p r e s s i o nd a t a t h em e t h o dc a nb eu s e dt oi n f e rf u n c t i o n a lr e l a t i o n s h i p s o ft w oa s s o c i a t e dp r o t e i n st oo n ea n o t h e r i ti si m p o r t a n tf o rd i s c o v e r i n g t h en e wf u n c t i o nm e c h a n i s mo ft h ep r o t e i mi ti sc o n v e n i e n tf o rt h e r e g u l a t i o no fg e n et h r o u g ht h en e t w o r k m yt h e s i su t i l i z e st h em e t h o do fl a p pb o w e r sp r o p o s e dt oc o n s t r u c t a r a b i d o p s i st h a l i a n as h o o tg e n el o g i cn e t w o r k su n d e rd i f f e r e n ts t i m u l u s a n da n a l y z ed y n a m i c so ft h en e t w o r k ,a sf o l l o w s : i nt h et h e o r e t i c a la s p e c to fg e n el o g i cn e t w o r k s ,i m p r o v e do r i g i n a l a l g o r i t h mo fu n c e r t a i n t yc o e f f i c i e n to ft h el o g i cr e l a t i o n ,a n dp r o p o s e d t h es u p p o r t e dv a l u et og e t sm o r eb e l i e v a b l er e s u l tw i t ht h i s a n d ,w eg a v e t h eg e n e r a lp r o c e s st h a tr e s o l v e sa na c t u a lp r o b l e mt h r o u g ht h eg e n el o g i c n e t w o r k t h i sa r t i c l ea p p l i e dt h ep r o p o s e dt h e o r ya n d t h ea l g o r i t h m st o a r a b i d o p s i st h a l i a n as h o o tg e n ee x p r e s s i o nd a t a i na r a b i d o p s i st h a l i a n a g e n ee x p r e s s i o nd a t a ,w ec o m p a r ed i f f e r e n tr e s p o n s e sm e c h a n i s mu n d e r d i f f e r e n ts t i m u l u s ,d e c i d ei n f e r e n c em e t h o do fu n k n o w t lp r o t e i nf u n c t i o n , a n dl o g i c a lr e l a t i o n s h i pb e t w e e ns h o o tg e n e s w es t u d yi t sd y n a m i c s b e h a v i o r sa n dg e n er e g u l a t o r yp a t h a 11r e s u l t si n d i c a t et h a tt h ed i f f e r e n tn e t w o r ks t r u c t u r es h o w st h a t s t r u c t u r ed e c i d ef u n c t i o mi tp r o v e dt h a to u rm e t h o d sm a k es e n s ea n dw o r t h 北京丁业大学理学硕士学位论文 t os t u d ya l o n g k e yw o r d s :b i o i n f o r m a t i c s ,g e n en e t w o r k s ,l o g i ca n a l y s i so fp h y l o g e n e t i c p r o f il e s ( l a p p ) ,l o g i cr e l a t i o n s ,d y n a m i c sa n a l y s i s i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:蓝:壶! 日期犁 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 期: 第1 章绪论 1 。1 基因逻辑网络 第1 章绪论 随着人类基因组计划的实施,通过基因组测序、蛋白质序列测定结构解析等 实验以及d n a 芯片和分子阵列等技术的应用,分子生物学家提供了大量的基因组 数据。在解释和理解这些数据时,生物学家认为:储存生命信息的各基因并不是 孤立地发挥作用,而是参与在复杂的、相互联系的通路、网络和分子系统中,它 们相互作用、相互影响,通过形成“基因网络 这样一个复杂系统来推动生命演 化。在分析这些数据时,传统的以描述为主的生物学和分解分析的研究方法受到 了极大的挑战,这就需要科学家另辟蹊径,运用分子生物学、信息学、数学以及 计算机科学等诸多学科的理论和方法来对这些数据进行收集、整理、管理并进行 比对、分析,建立计算模型,然后进行仿真、预测与验证。 传统建立基因网络的计算方法主要是指用统计的方法关联生物学实体。这些 基本的度量方法主要包括p e a r s o n 相关系数法,e u c l i d e a n 和h a m m i n g 距离法, 互信息方法,超几何分布和最短路径分析法。2 0 0 3 年,m a r c o t t e 等n j 提出的表 达去卷积法证明了细胞周期的动力学和细胞的重复状态能用微阵列表达谱关联 进行建模。近些年,基因组数据分析则以无监督学习,b a y e s i a n 分析,逻辑回 归,流体关联等方法为依据,应用到蛋白质的鉴定中,以预测细胞的功能和疾病 的状态。值得注意的是,逻辑回归分析也应用到单个核苷多态现象的数据中,从 而生成与二进制描述符集相关联的结果显型的权重决策树。通常,这些传统的建 立基因网络的方法是基于一对蛋白质或基因出现或行为模式间的等同性或相似 性的观念上的,从而提取它们之间的关联性。例如,在许多试验中,两个基因具 有相似的表达,则可预测它们在功能上是相关的。然而,随着生物学研究的不断 发展,发现基因组集合中的各个成员之间在实现功能表现的过程中存在着一定的 联系。传统的通过表达量及其变化的数据分析方法是无法挖掘出基因组中这些复 杂的联系。可以说,这些计算方法对于揭示生物体的普遍规律却有着不可忽视的 缺陷与不足。 为了克服上述方法的缺陷,2 0 0 4 年,b o w e r s 心1 在分析蛋白质相互作用时引入 了高阶逻辑关系,建立了系统发生谱数据的逻辑分析( l a p p ) 的系统方法。l a p p 和通常建立模型的方法不同,它从复杂网络的元素( 或部件) 的表达数据出发, 通过逻辑分析,找到元素间的逻辑关联性。这种方法能够从蛋白质表达谱数据出 发,利用信息熵的算法发现两种蛋白对一种蛋白的联合作用,对于发现蛋白质之 间新的作用机理有重要意义。由于涉及功能的基因组通常是一个大的群体构成的 系统,因此l a p p 方法也是一个生成复杂的基因逻辑网络的方法。这种方法可以 北京工业大学理学硕士学位论文 应用在很多方面,如物种进化、肿瘤诊疗等等。本章系统阐述并分析了l a p p 方 法,并指出其在方法和应用方面的新进展以及评述。 1 2 系统发生谱的逻辑分析方法( l a p p ) 在生物学中,经常利用大规模网络来研究复杂的生物学现象。随着研究的不 断深入,研究者已经不满足于揭示元素( 蛋白质、基因) 之间简单的相关性,还 希望知道两个( 或多个) 元素之间具有“怎样”的相关性,或者说元素之间“怎 样”通过相互影响而联系在一起。2 0 0 4 年b o w e r s 阻1 系统地建立了对蛋白质系统 发生谱数据的逻辑分析方法( 1 0 9 i ca n a l y s i so fp h y l o g e n e t i cp r o f i l e s ,简 称l a p p ) ,正在改变这样的局面。由于对一个复杂系统来说,清楚地了解所有元 素( 或部件) 之间的关系是十分困难的( 例如基因之间作用机理) ,直接进行机 理性建模并不是普遍可行的。在b o w e r s 的文章中给出的l a p p 与通常的机理建模 方法不同,它是一种从元素的表达数据出发,通过一系列有效的逻辑分析,发现 元素之间的逻辑关联性的方法。这就使得通过数据分析建立逻辑性的机理模型成 为可能。 对于网络节点的表达谱数据,通过离散化处理可以变成0 、i 数据。如果将 这些数据理解成布尔逻辑值的时候,即0 表示节点不表达而1 表示节点表达,则 两个节点之间形成布尔逻辑。本文将两个节点之间的逻辑关系称为一阶逻辑,而 将三个、四个节点之间的逻辑称为二阶、三阶逻辑,或统称为高阶逻辑。 元素彳和b 之间的一阶逻辑有两类:a - - b ( 卅一书) 和 么一书( 刊j b ) ,通常也称为同步和异步逻辑关系。元素ab 、c 之间的二阶 逻辑有8 类,除了用布尔表达式表示之外,还可用文氏图表示,具体见图卜1 。 ! 。自c - bc 秘e 措鼠当且悝当 b _ 耐m 目 ;! ! 。图c 一( 删如果 出姒b 不出酬c 口魂 13 。程0 c - v b 目果 斑吐b 鼠削c m a ;| j :星翌 ( v j )如果 不岍柏自不m a 川c 岍 一:参“m “c a n 。嚣:紫黼:嚣器盟 。”l 囵团c - 一s c 嚣:翟瓣盟:嚣 一:圆 一自器襞;蛳”“ ”圆 c - * e 紧盎8 ”。“8 “5 峨 ( )岱)忙) 囝l 一1 ( a ) 8 种逻辑类型的文氏圜和布尔表达式;( b ) 用系统发生谱表示8 种逻辑类型;化) 8 种逻辑类型的文字表述。 如何通过节点的样本数据计算发现节点之间的逻辑关系,是l a p p 方法的基 础。b 删e r s 用信息论中信息熵的方法计算节点间的逻辑关系。若将节点、b 看 作两个不同的信息源或者随机变量它们对应的数据向量用z 、r 表示: z :j 却 屯 l l p “x p ( 屯x ,州) j r j , ,:,一 l 【p ( y 。x “y :x ,p ( y 。) j 其中p “) 表示信号( 或随机变量的值) 的表达概率。自然地用日) 和日盯) 表示信息熵,则节点ab 的联合熵和条件熵分别表示为: 日“,r ) ;- z ,“,n ) 】o g p ( t ,y ,) ,j 日何r ) = p ( iy ,) l o g p “y ) , 显然可得,h ( xr ) 一s ( x ,y ) 一日叮) 。b o w e r s 使用以下不确定性系数来界 定逻辑关系的存在性: u ( x i y ) = 咿( z ) + 胄( y ) 一日似,r ) 】耳僻) = l 一汀( z i y ) h “) ( 卜1 ) 式( 卜1 ) 表示当r 确定的时候对z 的确定性的影响,u ( x l r ) 的大小表示了节点 北京t 业大学理学硕士学位论文 ab 之间不确定逻辑关系“4 _ b ”在统计上存在性的大小。 在计算蛋白质或基因间二阶逻辑关系时,需要计算u ( cf ( a ,b ) ) ( 函数厂是 二阶逻辑) 。b o w e r s 在文献 2 中指出,只有在不存在一阶逻辑的时才会去找二 阶逻辑,所以常常要同时计算u ( ci 彳) 和u ( cb ) ,只有在 u ( cl 么) u ( ci 厂( 4 b ) ) 和u fb ) u ( cf ( a ,b ) ) 时,才会考虑二阶逻辑的存 在性。l a p p 方法的重要性在于给出了三个因素( 或节点) 之间的二阶逻辑,确 定了细分的逻辑类型。b o w e r s 阻1 研究同源蛋白质在不同物种中的存在性,使用的 是系统发生谱数据1 。通过对4 8 7 3 种同源蛋白质家族在6 7 个物种中表达谱数据 以及利用几何的文氏图分析,确定两个因素对一个因素逻辑决定性的类型共有8 类,并给出每一类的布尔表达式以及这种二阶逻辑的生物学意义( 见图卜1 ) 。 他利用以下的u 值计算来确定8 类逻辑在三个因素之间的存在性。 u ( cf ( a ,b ) ) = 【h ) + h ( f ( a ,b ) ) - h ( c ,f ( a ,b ) ) i h ( c ) ( 卜2 ) 其中厂是指因素ab 之间存在的某个2 阶逻辑类型中的某一类别。 例如:下面三个蛋白a 及c 的数据向量为: a = ( 1l01110001001 1111101 1001 1 1 1ll 111 1000000l 1 l 1 1 1 100111 1 1 1 1 1 1 10101l1 1 10 ) b = ( 100l00l 1o1 1 1 10l1 l lo110011 1 111 10000000l 11 1 1 1 11 l00111 1 1ll1 101001 1 1 111 ) f = ( 000001 1l001 10101 1 10l0001l 100001 11000011 1 10000000111 1001001 1 10l01 1 11 ) 么的数据里1 出现的概率是p ( x = 1 ) = 4 7 6 7 = o 7 0 1 5 ,p ( x = o ) = 0 2 9 8 5 ,b 的数据里p ( y = 1 ) = o 6 8 6 6 ,p ( y = 0 ) = o 3 1 3 4 ,a 、b 联合事件中,( o o ) ,( 0 1 ) , ( 1 0 ) ,( 1 1 ) 出现的概率分别是0 1 7 9 1 ,0 1 1 9 4 ,0 1 3 4 3 ,0 5 6 7 2 ,则么与b 的 熵、联合熵以及u i 么) 分别为: h ( a ) = - p ( x = 0 ) x l o g p ( x = 0 ) 一p ( x = 1 ) x l o g p ( x = 1 ) = 0 6 0 9 6 日( b ) = - p ( y = o ) x l o g p ( y = o ) 一p ( y = 1 ) x l o g p ( y = 1 ) = o 6 2 1 8 1 系统发生谱是指对每个蛋白质表达数据处理后的n 维沪1 向量,其中n 表示n 个物种( 样本) ,0 表示某个蛋白( 成蛋白质家 族) 在某个物种中不出现,l 表示出现 - 4 - 第1 帝绪论 h ( a ,b ) = 一p ( 0 0 ) l o g p ( o o ) 一p ( 0 1 ) l o g p ( 0 1 ) 一p ( 1 0 ) l o g p ( 1 0 ) 一p ( 1 1 ) l o g p ( 1 1 ) = 1 1 5 3 1 u ( 占l 以) = 【日( 彳) + h ( b ) - h ( a , b ) 】月( b ) = ( 0 6 0 9 6 + 0 6 2 1 8 1 1 5 3 1 ) 0 6 2 1 8 = 0 1 2 6 0 同理分别计算出a 及c 之间的所有两两u 值,及二阶逻辑c = a v b 的u 值, 如表1 :1 所示。要注意的是,二般只有在元素间不存在二阶逻辑的时才会去找 元素间的二阶逻辑。 表1 - 1a ,b ,c 之间一阶逻辑的u 值和c = a vb 的u 值 二一阶逻辑u ( x i y ) a0 1 2 6 0o 0 1 0 6 b0 1 2 8 50 0 3 3 9 c0 0 1 2 00 0 3 7 8 abc 二阶逻辑u ( x f f ( y ,z ) ) l a p p 方法可以揭示这些元素之间更深入的关系,即逻辑关系,而b o w e r s 纶 出的方法能够批量地发现这类逻辑关系。这种方法可以帮助生物医学研究者了解 一些未知蛋白或基因之间的可能的逻辑功能,从而通过实验发现它们之间新的生 物学机理。更有意义的是,用l a p p 方法揭示复杂网络中元素( 部件) 之间的因 果关系或制约关系之后,启发人们对网络的调控发展出更多更有效的方法。在研 究和揭示生物学现象的复杂性和规律性中,这种系统的方法显然有相当的价值。 值得注意的是,l a p p 方法也有其局限性。s h o e m a k e r 口3 的综述中提到了一些 缺陷:大计算量,对高信息谱的依赖性和对遗传距离远的物种的同源检测。有人 也提到,计算方法找出的元素之间的相互作用可能是假阳性的。此外,还有一些 人也提到了l a p p 算法在应用上要注意的问题,即原核生物和真核生物的蛋白不 能放在一起比较h 。 1 3 高阶逻辑方法 自2 0 0 4 年b o w e r s 的文章发表以来,关于逻辑关系,特别是分析高阶逻辑的 方法已经有了进一步的发展。 北京丁业大学理学硕十学位论文 1 3 1 贝叶斯方法 上节中u 值的方法并不是唯一鉴别逻辑关系的方法,而且逻辑关系也不是只 能用在系统发生谱数据上。z h a n g 1 的文章介绍了一种b a y e s i a n 模型结构方法, 它把两种数据类型:蛋白质系统发生谱( d p p ) 和r o s e t t as t o n e 数据( d r s ) :阳7 8 1 联合应用,得到蛋白质的逻辑关系。 用醴。表示蛋白质衍口蛋白质和k 相关:墨 = 一f ,k 专i a 从给出的d p p 和d r s 数据得到s :。的对数后验概率: l o g p ( s ;,id 易,以) = l o g p ( d 坤,d ,li 譬i ,。) + i o g p ( s ;,。) 一l o g p ( d 即,以) = l o g p ( d p v ,巩i 彰,i ) + c = i o g p ( d q ,i ) + l o g p ( d t 叩i i ,t ) + c 1 - 3 ) 其中,l o g p ( d 1 , ) = l o g p ( s j ,td 。) 一l o g p ( s j ,i ) + l o g p ( d ) ( 1 4 ) 。 注意到,l o g p ( s i j kl d 。) 是r o s e t t as t o n e 数据给出的j 专i 卜后先验概率,且 l o g p ( s j ti 哦) = l o g p q 哼i i 以) + l o g p ( k i i 以) ( 卜5 ) 其中,l o g p q i ld r , ) 是在r s 数据中,f 和j 功能相关的置信水平。p ( j f ) 的缺 省值是0 3 。 把公式( 1 - 4 ) 和公式( 卜5 ) 代入公式( 1 3 ) ,有: l o g p ( s ;,id 刀,4 ) = l o g p q 哼i l 巩) + l o g p ( k 专i l q ) + l o g p ( l 彰,i ) + c 。 ( 1 - 6 ) 由于式( 卜6 ) 的前两项是常数,可以考虑l o g p ( d v pi 彰,。) 。极大似然化 l o g p ( d v vi 。) 就可以学习出- ,、k 蛋白预测i 蛋白的可靠程度。选择适当的逻辑 函数厂:i = f ( j ,七) ,使厂极小化预测误差,极大化对数似然l o g p ( d 刀l 影。七) 。当 每个贬。的最佳函数厂找到,那么p ( d 即i 影。) 的似然定义如下: 鼬c 啦s t o n e 数据和方法 。 r o s e t t as t o n e 蛋白:两个非同源蛋白之间可能有相互作用,如果它们在另一个物种中的同源蛋白是融合在一起的这样的蛋 白称之为r o s e t t as t o n e 蛋白。在实际应用中如果两个非同源蛋白和第三个蛋白都有7 喁以上的相似性那么就称第三个蛋 白是r o s e t t as t o n e 蛋白。用r o s e t t as t o n e 蛋白来计算蛋白质a 和蛋白质b 之问相互作用的方法称为r o s e t t as t o n e 方法 在随机情况下两个蛋白相关的概率为p ( k i 力,朋,) 一c :c :c :- 其中k 是r 惦e t t as t o n e 蛋白序列教,n 是蛋白质 的同源蛋白质序列个敦- 是蛋白质b 的同源蛋白质个敦n 是总体序列数。那么l 一尸他 l | 。) 就是两个蛋白融合的概率 第1 章绪论 p ( d 即iq ,。) - - u o if ( j ,七) ) , 中u ( x ly ) 是不确定性系数,u 的阂值取法同b o w e r s 的文章。高阶逻辑关系的方法类似可得到。 采用b a y e s i a n 模型结构方法是为了把r o s e t t as t o n e 数据引入模型作为先 验概率。因为单一使用系统发生谱数据或r o s e t t as t o n e 数据计算可能会遗漏一 些显著的三阶关系晦1 。 1 3 2 概率方法 另一种度量系统发生谱的逻辑关系则是概率度量方法瞪1 。这个方法主要是通 过比较某种关系的观测频率和随机情况下出现这种关系的概率的差异来判断数 据谱与谱之间是否存在着某些关系。 用概率的方法度量两个系统发生谱之间的关系:假设有个基因组,蛋白 质x 在工个基因组中出现,蛋白质】,在y 个基因组中出现,x 和】,共同出现在虬 个基因组中。p ( ki ,x ,y ) 是随机观测到k 个的共发生的概率,对应一个概率 分布。蛋白质三元组的二阶关系的概率度量类似可以得到。 因为p ( 心i ,工,y ) 计算的是随机出现某些共同发生情况的概率。如果观测 值的p ( 心in ,工,y ) 远远大于随机概率,就可以认为x 、y 之间之间存在着某些关 系,然后再研究究竟是什么关系( 逻辑关系或其他) 。这个方法也可以应用到别 的数据上。可以证明,第二节的u 值算法是概率方法在一0 0 的一个特殊形式旧1 。 但是,这个证明只是理论上的,在实际中哪种方法对于确定逻辑相关性的“可信 度”更大并没有明确的结论。 1 3 3 数据挖掘方法 数据挖掘中的置信度一支持度方法与统计相关性的改进方法n 叭1 1 1 同样可以 判断元素间的逻辑关系。 两个属性集a ,b 之间若存在关联规则,只要对于给定的两个阈值s 与c 使 得: s u p p o r t ( a j b ) = p ( a n b ) s ,c o n f i d e n c e ( a j b ) = p ( b i a ) c 这里阈值s 与c 和问题的目标有关。这种方法计算简单,但是涉及两个变量 的比较,有些选择变得困难。而且置信度一支持度方法难于区分正、负相关性。 因此引入相关系数,a 与b 之间的相关系数为: c o t 九b = p ( a u b ) p ( a ) p ( b ) ) 北京工业大学理学硕士学位论文 当c o r k 。 1 是正相关。由相关性计算后再进 行逻辑方向的计算可以在一定程度上克服置信度一支持度方法的一些问题。 但是无论是基于熵的算法还是概率的算法,事实上各有利弊。这些算法都可 能在关联规则的确定上有不同的不确定性,也就是说是逻辑关系的发现即可能有 “不适当的选择,也可能有“遗漏的选择”,也就是说规则的确定性计算都有 不同的误差。 1 3 4 三阶逻辑 逻辑关系的一个非常自然的拓展就是把二阶逻辑扩展到了三阶甚至更高阶。 三阶逻辑的鉴别可以根据第二节的u 值算法得到,即 u ( d if ( a ,b ,c ) ) = 【日( d ) + h ( f ( a ,b ,c ) ) - h ( d ,f ( a ,b ,c ) ) 】h ( d ) 。( 1 7 ) z h a n g 1 给出了三阶逻辑的类型和分布。在他的文章里给出了三阶逻辑的一 些类型( 见附录1 ) 和分布( 见图1 - 2 ) 。 最频繁出现的逻辑类型 爵 逻 蕾 絷 律 逻辑类型 图卜2 - - 逻辑类型的分布频率直方图( 只有频率最高的1 0 类) ,本图引自文献 5 。 三阶逻辑类型一共有6 8 类,包含了2 1 6 个有效函数。附录1 只给出了出现频率 最高的1 0 类逻辑的文氏图。注意,同一种类型的逻辑可能有多个不同的有效函数, 二阶逻辑的逻辑类型是8 个,但有效函数是1 0 个( 见图卜1 ) ;三阶逻辑的a 类型 有三个不同的有效函数( 见附录1 ) 。那么力阶逻辑的有效函数厂的个数p ( n ) 容 易计算出它的公式如下璐1 : f 0 , 胪0 p 玎2 t 2 r 一喜( 7 ) p c r x 玎- 1 8 铕1 章绪论 三阶逻辑比二阶逻辑复杂,但是在生物现象中,也有一些三阶逻辑关系的 例子。例如一个类型a 的例子哺1 :当蛋白质c o g l l 2 1 出现,或c o g 3 8 3 9 不出现,或 c o g 3 8 4 2 不出现时,c o g 0 5 1 7 才会出现。在这4 个蛋白质中,c o g l l 2 1 是a b c 型的 m n z n 转运子a t p 绑定蛋白,c o g 3 8 3 9 是a b c 型的糖转运子a t p 绑定蛋白,c o g 3 8 4 2 是a b c 型型亚精胺丁二胺运输系统中的一员,c o g 0 5 1 7 被归类为假设或想像的蛋 白质。这意味着c o g 0 5 1 7 可能在a b c 型的运输系统中作为a t p 的绑定蛋白产生作用。 1 3 5 与取值有关的逻辑关系 逻辑关系另一种类型是与取值有关的逻辑。例如,根据控制元素c 的数值高 低,另外两个元素a 、b 出现不同的相互作用关系正相关和互斥。文献n 如研 究基因之间的作用时发现这个规律,并称三个基因a 、b 、c 之间这样的关系为三 基因交互作用。 这种逻辑完整系统的理论和计算的方法目前尚未建立。文献丑2 3 给出了一个简 单的鉴别方法:根据控制基因- c 的表达水平把样本分成低表达组( 个样本) 和 高表达组( 玎,个样本) 。分别计算这两个样本组中基因a 和b 的相关系数和吃。 用f i s h e r - z 转换把相关系数转化成统计量z ,用z 值的t 检验来判断两组是否 有显著差异。如有差异,则基因a 、b 、c 之间可能存在与取值有关的逻辑关系。 这种逻辑关系也可以看成一个因素多个结果的逻辑,它的理论和算法亟待发展和 完善。由此看出,连续值数据也可以研究它们的逻辑关系: 厂 z = ( z 2 一乞) “一3 旷+ ( 一3 ) - l , 其中z l = o 5 h l 【( 1 + ) ( 1 一) 】,z 2 = 0 5x l n o + r o l ( 1 一) 】。 1 4 基因逻辑网络的应用 利用上述的鉴别逻辑的方法,可以得到不同元素之间的显著的逻辑关系。这 些逻辑关系进一步可以生成网络含有高阶逻辑的网络。这种网络作为揭示复 杂系统结构的模型,在各方面都有着广泛的应用。 在物种上,它可以揭示一些未知的蛋白质通路、网络或者未知蛋白质的功能 ( 图1 - 3 ( a ) ) 圆。逻辑关系应用在肿瘤样本的基因表达数据上则可能发现一些 致病机制( 图1 - 3 ( b ) ) n 引,这对临床治疗有很大的意义。 j ! 奎王訾銮茎呈兰至圭兰堡耋兰 晤 ( a ) 图卜3 ( a ) u 值最高的5 0 个二阶关系形成的网络( 数据是6 7 个物种的4 8 7 3 个g ) ( 本 图引自文献 2 ) :( b ) 与g l u t i o 蛋白通过逻辑关系产生癌症表型h c 黯的蛋白质( 本圈引自 文献 1 司) 。 文献 2 中同样的数据( 6 7 个物种的4 8 7 3 个c o g 系统发生谱) r o b b i n s “1 则从 另一个角度来研究。他分析其中的一些特殊诺( 有重复的谱) ,来说明不确定性 预测( u 值) 对蛋白质网络生成的意义。发现重复谱更具有相似性距离更近, 保守性可能越强重复谱更有可能发现相互关系。重复谱之间更容易产生二阶关 系或者网络,它们生成的二阶关系或网络也可能更保守。 逻辑关系的方法还有其他方面的应用:它可以鉴别蛋白质之间的功能联系, 这些联系可以用来推断无特征蛋白可能具有的功能( 在很多情况下,功能相关的 蚩白( 基因) 保守性较强) :分析数据之间的( 高阶) 逻辑关系的方法可以帮助 发现类蛋白质之间相互作用;逻辑关系的方法也是研究相似性的新的方法:通过 研究高通量数据的这种新的方法,帮助生成基因网络,等等。 1 5 拟南芥逻辑网络 拟南芥( a r a b i d o p s i st h a l i a n a ) 是一种模式植物。基因组小,且其25 万 多个基因在功能类别上却和其他开花植物大致相似。此外,拟南芥生命周期短, 个体较小,适于实验室内种植。所有这些特点都使得拟南芥成为遗传学和分子生 物学研究中的理想的对象。 开花是高等植物由营养生长向生殖生长转变的一个重要过程。为了揭示植物 开花转变的分子基础,人们利用模式生物拟南芥分离了大量晚花和早花突变体, 并克隆了相应的突变基因,根据这些突变基园在拟南芥开花控制中的作用,确定 至少有4 条调控开花时间的信号途径,即光周期途径、春化逢径、自主途径和赤 爹爹 第1 章绪论 霉途径朝,如图i - 4 所示。光周期途径和春化途径分别对环境中光信号和低温做 出反应n 町n 7 1 ,而自主途径和赤霉途径在很大程度上独立于上述这些外部信号,受 植物自身内部发育状况和内源激素水平的影响n 耵n “。 先月羽造径 春化径 皇主鼍径 蠢追径 蕾莽生长j ,_ _ 开花 图卜4 调控拟南芥开花时间的4 条途径,本图引自文献e 1 5 3 。这4 条开花途径的信号通过整合 基因f 、s o c i 、l f y 而被整合,整合基因的表达进一步激活花分生组织特性基因l f y 和a p i 的 表达,从而启动开花。开花抑制因子f l c 是春化途径和自主途径的主要目标基因,c d 是光周 期途径的下游基因。带箭头线条表示对基因的上调,t 型线条表示对基因的抑制。 通常情况下,拟南芥花期同一途径( 或功能) 中所涉及基因各不相同,但却 会与其他基因之间发生激励或抑制的作用,这即是基因逻辑网络中基本的一阶逻 辑。例如,赤霉素途径中,基因g a i ,r g a ,g a i 会对基因f d 、f e 、f w a 、p d f 2 、 f t 、s o c i 、l f y 、a p i 、t f l i 、c a l 产生激励作用:g a m y b 基因对基因s o c i 和l f y 产生激励作用呦m 1 凇儿矧。这可以揭示为赤霉素途径激活整合基因s o c i 和l f y 。 自主途径中,基因f r i 能促进f l c 的高水平表达:基因f e s i 、f r l i 对f l c ,基 因e m f i 对t f l i ,a g 对a g 、p i 、a p 3 ,均会产生激励作用;而基因f v e 、f p a 、f y 、 f c a 、l d 、f l d 、f l k 对f l c ,基因f l c 对f d 、f e 、f w a 、p d f 2 、f t 、s o c i 、l f y 、 a p i 、t f l i 、c a l ,基因e m f i 对f t 、l f y 、a p i ,基因a g 对a p i 、w u s ,则会产生 抑制作用删2 1 胎旧瑚3 。特别的是,春化途径中的基因v i n 3 、v r n i 、v r n 2 、v i p i 、 v i p 2 、v i p 3 、v i p 4 、v i p 5 、v i p 6 、v i p 7 、h o s i 均对f l c 产生抑制作用啪m l m 3 m 引。 光受体功能中,基因c r y l 、c r y 2 对l h y 、c c a i 、e l f 3 、t o c i 、e s d 4 、g i 产生激 励作用:基因z t l 、l k p 2 、f k f i 对c 0 会有激励的作用,而基因c r y l 、c r y 2 、p h y a 、 p h y b 、p h y c 、p h y d 、p h y e 则会对c 0 有抑制作用;值得一提的是,基因f k f l 与 g i 、e l f 3 、c d f i 具有相互调控作用,例如:f k f i 能和c d f l 相互作用,在f k f l 突变体中c d f l 蛋白更稳定乜们船1 。生物节律钟功能中,基因l h y 、c c a i 、e l f 3 、 t o c i 、e s d 4 是g i 的激励基因,其中基因t o c l 也是c c a l 、l h y 、c o 的激励基因; 基因l i l y 、c c a i 对t o c l ,基因e l f 3 对c o 均具有抑制作用;特别是,基因e l f 3 与f l ( f 1 具有相互调节作用呦舵凇m 刀。在节律调节基因功能中,基因c 0 上调f t | 七i m 4 # z 基因表达也通过诱导开花整合因子l f y ,f t ,s o c l 的表达而促进开花;基因g i 位于节律钟和c o 之间,是c 0 的促进基因,且通过上调c 0 和f t 基因的表达而促 进拟南芥的开花:另外,c d f i 可结合在c o 基因启动子上并抑制其表选。o 。”“。 将拟南芥开花时间调控基因间关系“5 州按照拟南芥花期途径( 或功能) 所涉 基因进行分类,根据与其他基因问发生的激励或抑制的作用,绘制了拟南芥花期 基因调控网络图,见图卜5 。图卜5 中深绿色圆矩形内基因是分属于拟南芥花期 同一途径( 或功能) 所涉及基因:浅绿色虚线矩形框内基因作为一个整体,与其 他基因之间发生激励或抑制作用,例如:途径中的r g a ,g a i 和g a i 基因都分 g 激励花序分生组织基因c a l ,l f y ,a p i ,t f l l 和成花途径整合因子中的f d ,f e , f w a ,p d f 2 ,a g l 2 0 ,f t ,s o c i 基因;t 型线条表示抑制关系( 负调节) 。带箭头 线条表示激励关系( 正调节) ,无向实线条表示目前已知这两个基因有关,但不 能确定是激励还是抑制关系,虚线表示其间关系尚未证实。 圈1 - 5 拟南芥花期基因调控网络图 从拟南芥花期基因网络调控网络图( 见图卜5 ) 中,我们不难发现。先前基 于拟南芥基因网络的工作是通过建立一对蛋白质或基因出现或行为模式间的关 联性,从而提取它们之间一对一的逻辑关系。然而,随着生物学研究的不断深入, 生物学家更希望解密拟南芥基因网络中两个( 或多个) 基因是通过怎么样的相互 第1 章绪论 影响而联系在一起的。所以,本文从拟南芥芽部数据出发,通过改进的系统发生 谱逻辑分析方法,帮助生成复杂的基因逻辑网络。 1 6 本文的工作 在回顾了传统的构建拟南芥网络的方法之后,一方面认识到构建基因网络的 广阔的研究前景,另一方面也注意到先前基于拟南芥基因网络的工作仅仅只是在 传统建立逻辑网络的方法上提取一对蛋白质或基因之间一对一的关联性。目前生 物学研究的大都是多个因素影响一个因素的逻辑分析,事实上还存在一个因素影 响多个因素和多个因素影响多个因素的逻辑关系。这对于研究高等植物更复杂的 生物学机理还是远远不够的。l a p p 方法的核心是通过对系统中元素的表达数据 分析发现元素之间的逻辑关系。目前使用的数据谱是离散的二值0 和1 ,从而发 现的是比较简单的布尔逻辑。值得注意的是,目前l a p p 方法的使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年黄山市徽城投资集团有限公司招聘10人考前自测高频考点模拟试题含答案详解
- 2025年上海越剧院公开招聘考前自测高频考点模拟试题及答案详解1套
- 2025黑龙江富裕县龙安桥镇人民政府招聘公益性岗位人员1人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025北京中国热带农业科学院香料饮料研究所第一批工作人员招聘(第2号)考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025年5月广东深圳市光明区应急管理局选聘一般特聘专干1人模拟试卷附答案详解
- 2025年甘肃省天水市第四人民医院招聘编外人员模拟试卷及1套完整答案详解
- 2025年河北雄安新区财政局(国资委)公开选聘兼职外部董事人才库人选模拟试卷及答案详解(典优)
- 2025贵州铜仁开放大学引进专业技术人才考前自测高频考点模拟试题完整参考答案详解
- 2025广东广州市越秀区建设街招聘辅助人员1人考前自测高频考点模拟试题及参考答案详解一套
- 2025河北雄安新区新建片区学校选聘校长及骨干教师13名模拟试卷含答案详解
- 跨境电商股权分配协议范文
- 2025年深圳中考化学试卷真题(含答案)
- 三甲医院影像科管理制度
- T/CCAS 015-2020水泥助磨剂应用技术规范
- 江苏省南京市2024-2025学年高二物理上学期10月月考试题
- TSG D2002-2006燃气用聚乙烯管道焊接技术规则
- GB/T 320-2025工业用合成盐酸
- 2024年公路水运工程助理试验检测师《水运结构与地基》考前必刷必练题库500题(含真题、必会题)
- 2025年社工招聘考试试题及答案
- 病理检查报告审核制度
- 2024秋季新教材人教版体育与健康一年级上册课件:1我们爱运动
评论
0/150
提交评论