(生物医学工程专业论文)基因组调控元件的分析.pdf_第1页
(生物医学工程专业论文)基因组调控元件的分析.pdf_第2页
(生物医学工程专业论文)基因组调控元件的分析.pdf_第3页
(生物医学工程专业论文)基因组调控元件的分析.pdf_第4页
(生物医学工程专业论文)基因组调控元件的分析.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 a b s t r a c t t h e s l st l t l e :t h ea n a i y s i so fr e g u i a l o r ye i e m e n t sl nw h o f eg e n o m e g r a d u a t es t u d e n tn a m e :w e lf e n a s u p e r v l s o rn a m e :s u nx i a of p r o f e s s o n s c h 0 0 ln a m e : s o u t h e a s tu n i v e r s l t y t h es t u d y0 ft r a n s c r i p l i o n a ir e g u l a “o nn e t w o r k sh a sb e c o m ear e s e a r c he m p h a s i si nt h e p o s t g e n o m ee r a d n a _ b i n d i n gt r a n s c r l p t i o nf a c t o r sa r eo n eo ft h ei m p o n a n tc o m p o n e n t si nt h i s n e h o r kt h er e c i p r o c i t yo ft 阳n s c r i p t i o nf a c t o ra n dr e g u i a l o 叫e i e m e n tc o n t r o i st h et r a n s c r i p t i o n a n de x p r e s s i o no fg e n e st h e r e f o r e o n em a j o rt a s kf od e c i p h e rl r a n s c r i p t i o n a ir e g u l a t i o n n e t w o r k si st o | d e n t j f ya n da n a l y z ea l ll r a n s c r jp t i o n a lf a c f o rb i n d i n gs i t e s ( t f b s ) o rr e g u l a t o 吖 e l e m e n t sh e r ew e v ed o 几es o m ew o r ka b o u tr e g u l a t o r ye i e m e n t sb a s e do ng e n o m e d ur i n gt h er e s e a r c ho ft f b sr e c o g n i t i o n w ec h o o s es e a r c hm e t h o dt h a tu s em o d e ( p o s i t i o n w e i g 瞰m a n | xa n dc o n s e n s u s ) w ef e t c hs o m ef e g u l a b 吖e l e m e n 毽 f o ms c p ot ot e s to u f a r i t h m e t j c ,j ti sp r o v e dt ob ea v a i l a b el nt r a n s c r i p t i o n a lf a c l o rb i n d i n gs i t e s ( t f b s ) s e a r c hs y s l e m a n df u r t h e rr e s e a r c h ,恤rw ed e v e i o pt h em e t h o dt h a tc a nr e a i i yp r e d i c tt f b s s ,w eu s et h i s m e t h o dt om a k es o m es l a t i s t j c st 0t h ed i s t a n c eb e t w e e nt w oc h o s e nt f b s s ,w et h o u g h tt h a t w o u l db eh e i p f u it ot h er e s e a r c ho fc o m p o s l t ee i e m e n t f o rt e s 廿f y i n gt h i st h o u g h t ,w ec h o o s e s o m ec o m p o s i l ee i e m e n t sf r o mc 0 m p e id a t a b a s ea n ds u mu pa t h ed i s t a n c e sb e h e e n t h e p o t e n t i a it f b s so ft w oe i e m e n t s f r o ms o m er e s u l t sw e v eg o t ,w e 打g u r et h a lt h j ss t a t i s t i cm e t h o d c o u i db ear e f e r e 几c ei fw ew a n tt or e s e a r c hs o m eu n k n o w ne l e m e n ip a i r s w ea l ik n o wt h a tr e g u l a t o 吖e i e m e n t se x i s tj nt h eu p s t r e a mr e g j o no fg e n e ,b u td ot h e y d i s t r 怕u t ei n0 t h e rn o n c o d l n gr e g j o no re v e nc o d j n gr e g i o n ,i ft h e yd oe x i s t ,w h a t sf h e i r e n r i c h m e n ti nt h ed i 仟e r e n tr e g i o n s ? t h eq u e s t i o n sa b o v ec o n s l s to u rn e ) ( tj o b w ea n a l y z ef h e e nr i c h m e n to ft f b s si ni n t e r g e n i cr e g i o n ,u p s t r e a mr e g i o no fg e n e ,e o na n di n t r o ni nt h e s a c c h a r o m y c e sc e r e v l s i a eg e n o m ea n dh oc h r o m o s o m e s ( 2 1 ,2 2 ) o fh u m a ng e n o m e ,a n dw e 行n d t h a tm o s t ( 7 7 2 7 ) t f b s sa r eo b s e r v e dt ob eo v e r r e p r e s e n t e di nt h e6 0 0 b pu p s t r e a mo f s a c c h a r o m y c e sc e r e v i s i a e ,b u tj no t h e rr e g i o n st f b s sd o n ls h o wd i s “n c te n r c h m e n ti nh u m a n g e n o m e ,t f b sd o n ts h o ws i g n i 忾c a n te n r i c h m e n tj nu p s t r e a mr e g i o na 5e x p e c t e d ( 5 0 ) ,m a n y t f b s sa r ea l s od j s t r 怕u t ei no t h e rn o n c o d i n gr e 9 1 0 n 瞅ei 几t e r g e n i cr e g i o na n di n t r o nr e g i o n ,s 0 w ea s s u m e dt h a tm a y b et h e r ea r em o r ec o m p l e xt r a n s c r i p t j o n a im e c h a n i s m si nh u m a ng e n o m e w ea l s o 厅n dt h a tm o s tr e g uj a t o r ye l e m e n t si ne x o na r eo b s e r v e df ob eu n d e r _ r e p r e s e n t e d ( a b o u t 2 2 ) ,a j r ”o s tt h ee n r i c h m e n t0 ft f b sl ne v e r yn o n c o d i n gr e g i o ni sh i g h e rt h a n | nc o d i n gr e g i o n 1 i 东南大学硕士学位论文 s i n c er e g u i a t o 吖ej e m e n t si nh od j f r e r e n lc h r o m o s o m e sh a v eb a s i c a i i yt h es a m ed j s t b u t i o ni n d j f r e r e n tr e g j o n s i ti sp o s s m l et oe v a l u a t et h ea c c u r a c yo fe x p er i m e n t a id e t e r m i n e dr e g u i a t o r y e l e m e n t sa c c o r d i n gt 0t h e j re n r l c h m e n ti nd i f e r e n lr e g i o n s f 1 n a 眦w ed e v e i o paw e b - b a s e ds o f t w a r et h a lc o m b i n eg s f da n dg r l sd a t a b a s el no u rl a b , i ti sah ej p f u lt o o it os e a r c hp o t e n “a lr e g uj a t o r ye l e m e n t sa n di tc o m b | n e sas i a f i s t i cm e i h o da b o u t c o m d 0 s l t e 剖e m e n t s k e yw o r d s : b i o l n f o m l a t i c ss o f t w a r e , r e g u i a t o r ye i e m e n t , g e n o m e ,t r a n s c r i p t l o n a ir e g u b t i o n c o m d o s i t ee i e m e n t n 【 东南人学硕士学位论文 1 1 基因表达调控 第一章绪论 基因表达( g e n ee x p r e s s i o n ) 是指储存遗传信息的基因经一系列步骤表现出其生物功能的整个 过程:d n a 分子中的的遗传信息转录( t r a n s c r 吼i o n ) 或反转录( r e v e r s el 旧n s c r 慨i o n ) 到r n a 分子中,再由r n a 翻译( t 怕n s l a t i o n ) 生成各种蛋白质,行使特定的生物功能。这个过程就被称为 分子生物学中的中心法则( c e n t r a ld o g m a ) ,如图1 1 所示。基因表达存在多种阶段包括基因的 准备、转录、r n a 加工、r n a 转运、r n a 去处、蛋白合成、蛋自修饰、蛋白定位等m3 “。 i i 、,、 、 ,+ :j ,z j 毫:刚。胁。 l h r ”1 甩| 晰d p i i o “ t 、r ,n i l i i 、a , 图1 1 中心法则 在一个生物体中,任何细胞都带有同样的遗传信息,带有同样的基因,但是,一个基因在不同 组织、不同细胞中的表现不一样,这是由基因调控机制决定的。生物体完整的生命过程是基因组中 的各个基因按照一定的时空次序开关的结果。 基因的表达过程不是杂乱无章的,是受到严格调控的。虽然我们现在对丁i 这方面的了解还不多, 但已经可以认识到,不仅生命的遗传信息是生物生存所必需的,遗传信息的表达调控也是生命本质 所在。 基因表达调控主要表现在几个方面: 1 染色质水平上的调控。基因转录前染色质结构需要发生一系列重要变化,这是基因转录的 前提,活化的基因处于染色质的伸展状态之中,可以被转录,而非活化的染色质d n a 不 能被转录。 2 转录水平上的表达调控,这是最主要的基因调控方式。转录水平调控的重点是在特定组织 或细胞中、在特定的生长发育阶段、在特定的体内外条件下,选择特定基因进行转录表达。 3 转录后调控,这是指基因转录起始后对转录产物进行的一系列修饰、加工等调控行为主 要包括提前终止转录过程,对m r n a 前体进行加工剪切,m r n a 通过核孔和在细胞质内 一瘪 第一章绪论 定位等。 4 翻译水平上的调控,这是基因表达调控的重要环节。翻译的速率和细胞生妖的速度之间是 密切协调的。 5 蛋白质活性的调节。来自m r n a 遗传信息翻译成蛋白质后,这些蛋白质如何活化并发挥其 生物学功能,涉及到蛋白质合成后的加工问题。从m r n a 翻译产生的多肽中,经过正常折 叠有些已经具有生物活性,然而对于真核生物中犬部分蛋白质来说,还需要进一步加工、 修饰和活化,才具有生理功能。这种修饰有时还是不可逆转的过程。 基因调控可以在复制、扩增、基因激活、转录、转录后、翻译和翻译后等多级水平上行,但实 际上,m r n a 转录起始是基冈表达调控的基本控制点,也是最主要的控制点。因为这是表达的最初 阶段,可以避免那些不需要的转录所造成的资源浪费。 以下我们就重点介绍基因转录水平上的调控。 1 1 1 原核基因转录水平上的调控 原核生物同一群体的每个细胞个体都和外界环境酉接接触,它们通过转录调控,以开启或关闭 某些基因的表达来适应自然环境的变化。一个体系在需要 被打开,而再不需要时被关闭。环境因 子往往是调控的诱导物,群体中每个细胞对环境变化的反应都是直接和基本一致的。原核细胞基因 调控的一大特征是调控因子结合到与结构基因启动子区紧密相邻的d n a 序列上,这种作用决定转录 发生与否,因而调节位点总是与启动子相邻。 以大肠杆菌乳糖操纵子为例来说明。大肠杆菌能以乳糖为唯一碳源生长,这是由于它能产生一 套利用乳糖的酶,这些酶受乳糖操纵子的控制。大肠杆菌乳糖操纵子( 如图12 ) 是大肠杆菌d n a 的 一个特定区段,由调节基冈l ,启动基因p ,操纵基因0 和结构基因z 、y 、a 组成。p 区是转录起始时 r n a 聚合酶的结合部位。0 区是阻遏蛋白的结合部位,其功能足控制结构基因的转录。平时i 基因经 常进行转录和翻译,产生有活性的阻遏蛋白。当大肠杆菌在含有葡萄糖而不含乳糖的培养基中培养 时,阻遏蛋白与操纵基因结合,从而阻挡了r n a 聚台酶的前移,使结构基因不能转录,也就不产生 利用乳糖的三种酶。当大肠杆菌在只含乳糖而不含葡萄糖的培养基中培养时,乳糖便与结合在操纵 基因上的阻遏蛋白以及游离的阻遏蛋白相结合,并改变阻遏蛋白的构型,使其失活,从而伎阻遏蛋 白不能与操纵基因结合,这时r n a 聚合酶可以通过。区而到达结构基因,使结构基因开始转录和翻 译,产生出利用乳糖的三种酶。如果培养基中同时舍有葡萄糖和乳糖,细菌只利用葡萄糖丽不利用 乳糖,原因是在这种情况下r n a 不能与启动基因结台,因此也就不能使结构基因进行转录和翻译。 2 东南大学硕士学位论文 调节基因启动子操纵基凼结构基因 r _ 人 厂h 厂 操纵子 图12 大肠杆苗乳糖操纵子的结构示意图 1 1 2 真核基因转录水平上的调控 真核基因组比原核基因组大得多。而且真核基因的调控具有更多的环节。 1 、顺式作用元件( c i s a c 帅ge l e m e n t s ) : 真核基因的顺式调控元件是基因周围能与特异转录因子结合而影响转录的d n a 序列。其中主要 是起正性调控作计j 的顺式作用元件,包括启动于( p r o m o t e r ) 、增强子( e n h a n c e r ) 、沉寂子( s i l e n c e r ) 、 绝缘子( i n s u l a t o r ) 等。 启动子:与原核启动子的含义相同,是指r n a 聚合酶结合并启动转录的d 卜l a 序列。但真核启 动子问不像原核那样有明显共同一致的序列,而且单靠r n a 聚合酶难以结合d n a 而启动转录,而 是需要多种蛋白质因子的相互协调作用,不同蛋白质因子又能与不同d n a 序列相互作用,不同基 因转录起始记起调控所需的蛋白因子也不完全相同,因而不同启动子序列也很不相同,耍比原核更 复杂、序列更长。启动子中的元件可以核心启动子元件和上游启动子元件。核心启动子元件指r n a 聚台酶起始转录所必需的最小的d n a 序列,包括转录起始点及其上游一2 5 3 0 b p 处的1 _ a _ r a 盒。核 心元件单独起作用时只能确定转录起始位点和产生基础水平的转录。上游启动子元件包括通常位于 一7 0 b p 附近的c a a t 盒和g c 盒、以及距转录起始点更远的上游元件。这些元件与相应的蛋白因子 结合能提高或改变转录效率。 增强子:是一种能够提高转录效率的顺式作用元件。在多种真核生物。甚至在原核生物中都发 现了增强子。增强子通常占1 0 0 一2 0 0 b p 长度,也和启动子一样有若干组件构成,基本核心组件常为 8 1 2 b p 可以单拷贝或多拷贝串联形式存在。增强子作用于其序列的正反方向无关,将增强子方向 倒黄依然能起作用。而将启动子倒过来就不能起作用,可见增强子与启动子是很不相同的。增强子 要肯启动子才能发挥作用。但增强子对启动子没有严格的专一性,统一增强子可以影响不同类型启 动子的转录。 绝缘子:是一种阻止激活或失活效应的顺式作用元件。绝缘子有以下两种作用情况:当绝缘子 位于增强子和启动子问时,能阻止增强子激活启动子作用;当绝缘子位于一个活化基因和异染色质 之间时,它保护基因免受由异染色质扩展造成的失活效应影响。绝缘子至少拥有这两种特性,说明 它们影响染色质的一般排列。h 沉寂子:是种能降低转录效率的顺式调控元件。沉寂子的作用可不受序列方向的影响,也能 1 第一章绪论 远距离发挥作用,并可对异源基因的表达起作用。 应答元件( r e s p o n s j v eej e m e n t s ) :真核细胞中对某些特定的环境作出应答的基因,常具有相同 的顺式调控元件应答元件。应答元件能被在一些特定情况下表达的调控因子识别。1 6 】 转座元件( t r a n s p o s a b i ee i e m e n t s ) :转座元件的重复序列家族占据了相当大一部分的非编码区 域,转座元件可以通过r n a 中间产物的逆转录或d n a 自身的切割和整合米完成转座功能。已知 的转座因子可分为四类:短散在元件( s i n e ) 、长散在元件( u n e ) 、长末端重复顺序逆转录病毒 样元件和d n a 转座子。 2 、反式作用园子( t r a n s a c t i n gf a c t o r s ) : 以反式作用影响转录的园子可统称为转录因子( t r a n s c r i p t i o nf a c t o r s t f ) 。r n a 聚合酶是一 种反式作用与转录的蛋白园子。在真核细胞中r n a 聚合酶通常不能单独发挥转录作用,而需要与 其他转录园子共同协作。 不同基因由不同的上游启动子元件组成,能与不同的转录因“f 结合,这些转录因子通常与基础 的转录复合体作用而影响转录效率。现在已经发现有许多不同的转录因子,看到的现象是:同一d n a 序列可被不同的蛋白园子所识别;能直接结合d n a 序列的蛋白闻子是少数,但不同的蛋白因子问 可以相互作用,因而多数转录因子是通过赁白质一蛋白质间作用与d n a 序列联系并影响转录效率的, 如图13 所示。转录因子之间或转录因子与d n a 的结合都会引起构象的变化,从而影响转录的效率。 图13 转录因子与转录复合体相互作用模式图 作为赁白质的转录因子从功能上分析其结构可包含有不同区域,d n a 结合域( d n ab i n d i n g d o m a 【n ) 、转录激活域( a c t i v a t l n gd o m a i n ) 和连接区( f i e x i b i ec o n n e c t o r ) 。不与d n a 直接结台的转 录园i 二没有d n a 结合域,但能通过转录激活域直接或问接作用于转录复合体而影响转录效率。 从以上内容可以看出,不论原核生物还是真核生物转录起始调控的实质是d n a 蛋白质,蛋白 质- 蛋白质间的相互作用对r n a 聚合酶活性的影响。核酸链上的顺式作用元件与反式作用蛋白因子 相互作用而调控基因表达。因而,对于一个特定的转录因子而言,找到其结合位点,也就是受调控 的调控元件具有重要意义。同时,对于一个基因来说,能找到相关的调控元件,对于研究该基因的 功能也具有重要的意义。 1 2 基因转录调控信息分析 在过去的几年中,高通量的测序技术已经对很多物种进行了全基因组的测序( 包括人类,小鼠 4 东南大学硕士学位论文 大鼠等等) ,这些结果使基因组范围的系统发生印记对比得以实施:另外,高通量的表达数据建立技 术如微阵列( 基因芯片) 和基因袭达系列分析( s e n a ia n a i y s i so f g e n ee x p r e s s i o n ,s a g e ) 技术 往在一次实验中迅速发现成百上千的表达数据成为可能。利用这些高通量表达技术的一个潜在的猜 测就是一系列共调控基因拥有一类相似的调控特征。 在转录和后转录水平,基闻的表达在很大程度上受到一些顺式作用元件( 调控元件) 的控制, 它们本质上是一些比较短的d n a 序列,这些序列一般都处在受调控基因的上游区域,特异性d n a 结合蛋白( 即转录园子) 识别这些调控元件,并与之结台,调节d n a 的代谢和转录;或者由r n a 结合蛋白识别,并与之结合,影响r n a 的修饰、定位、翻译和降解。因此,解码转录调控网络的 一个主要任务就是识别基因组中的所有转录因子结合位点,进而发现所有共调控区域中的调控元件。 调控序列的分析主要涉及三类问题: 1在给定基囡的基因组序列中寻找已知的调控元件: 2 在一系列共表达或者共调控基冈的上游区域中发现未知的调控元件; 3 寻找由一个己知转录因子调控的未知基因。 在一系列共表达摹因的启动子区域中发现新的调控元件,通过分析和提取d n a 序列特征识别 调控元件,这一类算法统称为序列驱动的调控元件识别方法。相应地,第一类问题称为模式驱动的 调控元件识别方法。 无论是搜索已知的调控元件,还是预测新的调控元件,都会遇到三个基本问题: 1 该用什么样的语言来描述调控元件,即为调控元件建立什么样的模型; 2 定义一个衡量序列片断是否为调控元什的度量或得分: 3 当给定稠控元件模型和得分函数后,如何从待分析的序列中找出得分最高的候选元件,即 算法如何设计。 下文将分别从这三个方面介绍目前调控元件_ i = l 别中的常用的知识和技术。 1 2 1 调控元件的建模 转录因子与结台位点是通过序列间的氢键发生特异性结合的。相对于随机序列片断而言对应 同一种转录因子的结台位点具有较高的保守性,这种保守性构成丁用计算方法来识别调控元件的基 础。目前有三类m o t | f 模型。 ( 一) 、串模型( s t r i n g - b a s e dr e p r e s e n t a “o n ) 串模型是最早出现的序列模式表示方法,其中最常用的是一致型模型( c o n s e n s u sm o d e i ) ,是 指用通配符表( w | l d c a r dc h a r a c t e r s ,如表11 所示) 中的字符组成的单一字符串来表示序列模式。 表1 1 通配符表 符号含义说明 gg 腺嘌呤 a a 鸟嘌呤 t t 胸腺嘧啶 第一章绪论 cc 胞嘧啶 rg0 r a 嘌吟 yto r c 嘧啶 m a0 r c 氨基 k g0 r t酮基 sgor c 强氢键( 3 个氢键) wa o r t 弱氢键( 2 个氢键) ha0 r cor t 非g bgo r t 0 r c 非a vgo r c0 r a 非t ( 非u ) dg0 r a o r t 非c ng0 r a 0 r to r c 任意碱基 共有序列是描述核酸序列中功能位点的最常用方法、它描述了功能位点每个位置上核菅酸进化 的保守性,而这种保守性是与功能相关的。共有序列中既有保守的位置,在这些位置上仅允许出现 特定类型的核营酸,也有可变的位置,任何位置j 二的核苷酸可以用表1 1 中的1 5 种字符之一来表示, 一致性序列是关于序列特征的一种定性描述。对于d n a 序列,它能够说明序列每个位置可能 出现的碱基类型,但是不能准确表示各个位置上不同类型碱基出现的可能性大小。因此需要定量的 序列特征揣述方式。 ( 二) 、矩阵模型( m a t r i xm o d e i ) 相对于串模型而言,矩阵模型能够更好的表示m o t j f 特性,如表12 所示,其大小为4 。n ,4 代 表碱基的种类数目,n 代表m o 卅的长= 度。矩阵的行表示4 种碱基,列表示m o 卅中的各个位置,矩 阵元素为行对应的碱基在列对应的位置上出现的频数。 表1 2 矩阵模型 1234567 a1 4o01 5029 co02 211 235 g 8 2 2 04043 to0o21 01 35 串模型和矩阵模型各有优缺点,可以将两者结合起来使用,如在算法识别过程中可采用矩阵模 型,而最后的结果用串模型来表示。 ( 三) 、可视化模型吲 可视化模型( i o g o 模型,图16 所示) 是根据一些信息论知识用形象直观的图形方式来表示结 合位点比对。 6 东南大学硕士学位论文 兰一 5 , t l i e - 1 0r e 砻o n0 f3 5 0e i ip r o m o t e r s :j , ; 工l r 一= 勇 二_ 兰乞一兰兰 一“一一一1 一f 图16 可视化模型图例 在i o g o 模型中,每个位置上由出现在该位置的所有碱基堆叠而成,碱基堆的总高度对应于该位 置上总的信息含量月。,计算过程如f 所示。 日( ,) = 一厂( 6 ,o g :( 6 ,) 其中:h ( ,) 表示位置,的不确定性,6 表示某个碱基( a 、g 、c 或t ) ,厂( 6 ,f ) 代表碱基6 在位 置,出现的频率某个位置的整体信息含量表示如下 其中只。,。( ,) 表示位置f 的信息含量,2 是每个位置的最大不确定度,p ( ) 是一个修正因子 用于分析序列的序列较少的情况下。月。( f ) 的每个值就对应l o g o 图中每个位点的高度。绘制 i o g o 图示,将每个碱基按照它在某个位置出现地频率的大小排列,使频率大的碱基位于i o g o 图中 对应位置的顶端,该碱基的高度有以下公式决定: a p 瞎向,= ( 6 ,) r ( ,) 其中自p 垃 f 表示碱基6 在调控元件中的位置f 上的高度。 各碱基按照信息量大小按其出现比例从上而下排列。因为某一位置的信息含量能反映该位置上 碱基的保守性,所以l o g o 模型可以非常直观地表示出结合位点的保守程度及哪些位置上的哪些碱 基起着相对重要的作用。 11 2 - 2 调控元件模式的得分函数 计算方法中衡量一个模式是否为候选调控元件首先要基于一定的标准对该模式进行打分。目前 广泛使用的得分函数主要有以下几种: 1 、z 分数:给定模式j ,它的z 分数可定义为: 五:掣 ( 1 1 ) 3 盯( x ;) 、 第一章绪论 其中,;表示模式j 在序列爿中的实际出现次数,e ( ,) 和盯( _ ,) 分别表示模式s 在序列x 中 期望出现数目和方差。很显然,z ,被归一化成均值为o 方差为1 的标准量,它可从统计意义上来 比较不同长度、不同出现次数的模式的重要性,值越大则对麻的模式越重要。 2 、卡方统计量: 序盟轰半 卅z ,45 e ( x 、 “ 该统计量衡量了模式s 的实际出现次数与基于统计假设得到的模式期望出现数目之间的差异 性。 3 、信息含量:该得分函数是采用信息论中状态前后不确定性的降低来描述模式的保守陛。与随机 序列相比,模式的不确定性降低得越大,则对应的信息含量越高,因此该模式越保守,就越有可能 是候选调控元件。给定以矩阵形式表示的长度为的模式,则信息含量可定义为: 庀2 善州磊,崦zc 等, n 。, f = l6 爿c ,g ,r 吖6 其中,q 。是碱基6 在背景序列中的出现频率。 4 、一致性得分:这也是衡量模式保守肚的指标。假设以矩阵形式表示模式,定义一致性得分为 c s = 2 一专几l o g ,( ) f - 1k “c ,6 ,r ( 14 ) 当模式是完全保守时,一致性得分为最大值2 ,当模式完全不保守( 即所有位置上各个碱基出 现的频率完全相同) 时,该得分为0 。因此一致性得分的大小刻画了模式的保守性。 5 、l o 酬i k e i i h o o d :通常以似然估计法来识别调控元件时,候选调控元件及其出现位置是最大似然估 计的结果,冈此用似然值来表示模式的得分是合理的,取对数是为了计算的方便。i o g 一队e h h o o d 可 定义为: c 棚3 l o g 一,砘p ,油o o d = 1 0 9 ( y 。p ( s 爿。,吼,b 。) p ( 爿。| 臼。,b 。) ) ( 1 5 ) f = o 其中,c ,。表示模式s 在序列中最大实例数目,儿表示每个实例的出现概率,爿。表示模式实例在 序列中的出现位置t 凡和b 。分别表示模式模型和背景分布。 前两种方法是根据模式出现的统计重要性计算其得分的:后三种是基于模式的保守特性而设计 的得分函数。因此前两种得分函数常被应用于基于统计的调控元件识别方法中,而后三种是以序列 比对为核心的算法常采用的得分函数。 东南大学硕士学位论文 1 2 3 调控元件的识别 可以通过实验的方法来标识调控元件,主要的方法是通过对目标基因或者假想的调控区域进行 突变分析识别调控元件。另一种方法是通过分析转录因子结合的dna 序列来识别调控元什。通过 这些实验方法虽然发现了一些调控元件但是这些结论的得出需要经过无数次的尝试性实验,花费 了大量的人力物力,有时得出的结论还不全面。因此为了更加有目的地设计实验,减少其实验过程 中的尝试性工作,需要有调控元件信息分析工具的支持。 原核生物的调控元件特征比较明显,容易识别:真核生物的调控元件相对复杂,真核生物调控 元什长度和空间分布变化较大,它们的出现没有固定的位置,也没有公共的结合位点,相同元件可 能结合不同的因子,因此,识别调控元件有较大的困难,而且要设计一个能识别所有调控元件的方 法几乎是不可能的。针对不同的生物和不同特点的调控元件,出现了很多算法和模型。 常用的识别方法基本e 分为两类:模式驱动( p a t 【e m d r i v e na l g o r i t h m s ) 的调控元件识别和序 列驱动( s e q u e n c e 一洲v e na i g o r m s ) 的调控元什识别。前者主要是通过用调控元件的模型( 串模 型或矩阵模型) 来搜索序列的潜在位点,后者是基于共调控基因簇的公共元素预测方法。口 后来,还有一些其他的算法运用到预测调控元什中,如统计分析、神经网络、聚类预测、字识 别。随着各种技术的发展和人们对分子生物学认识的深入,出现了越来越多的其它方法来识别调控 元件,如采用比较基因组学来发现在进化过程中保守的结合位点,考虑调控元件之间的协同作用而 设计的调控元件模块识别方法等。 在实际情况t p ,绝大部分转录因子作用的调控元件包括碱基组成及其在序列中的出现位置都是 未知的,因此,从序列中识别并发现未知的调控元件的模式特征是识别首先要解决的主耍问题。通 过未知调控元件的模式特征的发现来指导实验研究,从而增加模式驱动算法所需的模式特征,然后 通过模式驱动的搜索方法来发现调控元件再米指导实验研究。如图17 所示。 f1f1 一扩展增加模式卜f1 序列驱动 卜辐的调控元件叫 实验研究模式驱动 【j j i 新的调控元件一i 图1 7 序列驱动和模式驱动 1 2 3 1 序列驱动的调控元件识别 调控元件是一种功能序列,而功能序列在进化过程中比非功能序列更加保守。几乎所有的算法 都假设调控元件具有一定的序列模式,这种序列模式是| 吏_ 朗进化的结果它们的出现频率比较高。 通过提取共调控和共表达基因的共有保守序列进而分析这些序列的共有特征是识别调控元件的重要 任务。 根据算法搜索策略的不同,研究调控元件的计算方法主要分为两大类: 一类是穷尽式搜索算法,该类算法对问题所有的解进行考察,最后给出满足某种条件的解,因 此能找到问题的最优解。这类方法虽然看起来非常简单,但却具有最复杂的计算复杂度,只适台搜 索短的调控元件。穷尽式搜索算法中最典型的就是枚举方法。 9 第一覃绪论 另一类属于启发式算法,启发式算法是一种近似算法,这类算法首先对调控元件的信息进行某 种近似描述、然后通过不断迭代的过程对调控元件信息进行调整优化,直至满足迭代终止条件。启 发式算法具有较低的汁算复杂度,适合在大空间中搜索解,它的缺点是不能保证得到问题的最优解, 但很多实际应用都证明了启发式算法得到的近似解基本上能满足解决问题的需要。大部分机器学习 方法都属于启发式算法,这类方法主要是通过机器学习来识别调控元件,如隐马尔柯夫模型( h m m ) i “、神经网络【1 0 】、e m 法【1 1 】、g i b b s 采样算法等。 此外,还有一些其它类型的算法,如基于特定数据结构的方法和系统发生痕迹方法。 一般调控元件识别主要有以下几个步骤组成:( 1 ) 选择显著的子序列;( 2 ) 对所有被选的子序 列进行分类;( 3 ) 对每一类进行多序列比对,取得每类的特征条件;( 4 ) 在基斟启动子序列中搜 索满足条件的序列片段,作为调控元件。 下面介绍几种常用的序列驱动调控元件识别方法。 计数法”2 】计数法的基本做法是枚举所有可能的模式并对它们计数,采用某种得分函数计算这 些模式的得分,根据得分大小进行排序则排在越前的模式越有可能是候选调控元件。计数法是一 种撮直接、最简单的穷尽搜索算法,其时间复杂度与序列模式长度的指数呈正比。因此,这种算法 只适合于发现短的调控元件。 m m ( m i x t u 陀m o d e l ) 算法口3 1m m 算法是最大期望算法的一种改进,该算法主要觯决的问题 是:在一系列不知其调控元件位置信息和特征矩阵的共调控序列中,如果存在共同的调控元件,确 定调控元件的位置和对应的特征矩阵。基本思想在于调控元件具有保守性,且有对应的特征矩阵, 在不断迭代的过程中只有当两者适应时最大似然函数值才能达到最大。对于得到的保守序列、感知 矩阵或者调控元件特征模型,需要经过评估,确定其统计的显著性。可以从不同方面进行评估,例 如序列模式的信息含量、序列模式敏感性、序列模式与随机序列匹配的概率等。 g - b b s 采样算法g 吣b s 采样算法是一种特殊的马尔柯夫链蒙特卡罗方法( m a f k o vc h a i n m o n t e c a r i o ,m c m c ) ,该算法最早是由l a w r e n c e l l l 】等引入蛋白质序列中的m o 埘识别。后来l 4 】 等将g b b s 采样整台迸贝叶斯模型并应用于多重序列比较,获得了较好的结果。目前,g b b s 采样 算法以及一些改进算法被广泛应用调控元件的识别,并出现了一些较为成熟的软件以供用户在线和 下载使用,如m o t 什s a m p l e 一1 ”,a l i g n a c e ,b i o p r o s p e c t o 一1 7 蝽口g b b sm o t 行s a m p i e 一1 8 1 等。g i b b s 采样算法识别调控元件的基本原理是通过随机采样不断更新调控元件模型和在各条序列中的出现位 置以优化目标函数,当满足一定的迭代终止条件时就得到了最终的候选调控元件。 目前较为普遍的软件还有c o n s e n s u s ,m e m e 【2 0 】,a n n s d e c f 2 1 】,p r o j e c t l 0 n 【2 2 】, m d s c a n l 2 3 1 ,还有最近出现的y m f 。 1 2 3 2 模式驱动的调控元件识别 模式驱动的转录调控元件识别的主要任务是在基囚组序列中寻找满足调控元件特征模式的序列 片断。最常用的方法是以矩阵形式描述序列特征模式,搜索可能的转录因子结合位点。 模式表示为一致性序列在给定的序列中搜索一致性序列匹配的序列片断是一个很简单的过 程,只需检查序列片段在对应位置的成分是否与一一致性序列的描述相符合。但是,在很长段d n a 1 0 查堕查兰望兰壁竺苎 序列中或者在众多的数据库序列中找到一条符合条件的序列片段可能并不是我们期望的结果,可能 由于随机因素的影响使一个序列片段被选中。一致性序列越短、被搜索的序列越多、越长,则随机 影响越火,必须对查找结果进行统计的显著性分析,只有当显著性大于某个给定的闽值时,才能认 为是真正找到了与共有序,0 相一致的序列片段。 模式表示为矩阵形式根据与相同转录因子作用的所有调控元件构建矩阵模型。令表示长度为n 的调控元件的矩阵为( 6 ,) 。,假设各个位置上出现的碱基是相互独立的,即任何两个位置上的 碱基是不相关的,那么对于给定一个序列s = a l a ”a 。,可以计算u 该序列为调控元件的概率为: n p ( s = q 口:口。i j 是调控元件) = n p ( q ,) ( 16 ) 然后根据背景序列计算背景模型( 各个碱基的出现频率) ,记为q = 白( 6 ) ,则序列s 由背景 模型产生的概率是: p ( s = 口l 口2 n 。1s 为背景序列) = 兀g ( 口j ) ( 17 ) 因此,在进行已知调控元件识别时,训算两种概率的比值,并与给定的闽值比较,如果比值大 丁阕值,则序列s 可能是已知调控元件的个。为了简化计算并确保在概率很小的情况下能正确计 算,可以将对比值取对数,计算公式如下: :密等= 磐z 筹 s , 目前有若干这样的软件芳法,比如s i g n a ls c a n 忙鼬c o n s l n s p e c t o 一2 8 1 ,t f s e a r c h ,t e s s 帆, m a t j n s p e c t o 一2 ”c o n s 计e 【2 ,m a t c h 【3 0 1 等等。 在利用模式驱动进行转录因子结合位点的搜索过程中,以一致性序列为模式的算法对于候选序 列只能简单的提供是或者不是,信息量不高;而以矩阵为模式的方法则含有更多的信息量,敏感度 较高。上述方法大都是基于矩阵模式的搜索算法。矩阵模式大都是从t r a n s f a c 数据库提取, 上面的c o n s i n s p e c l o r ,m a t j n s p e c t o r ,m a t c h 的搜索方法基本相似,下一幸会详细介绍。但是,后两 者在搜索之前都对序列先进行预搜索,提高了搜索效率,而c o n s i n s p e c o r 包括了对结合位点周围 区域的分析,特别适用于特异性不高的矩阵( 比如t a t ab o x ) ,但是搜索速度较慢。c o n s i l e 方法 在搜索过程中采用了系统发生印迹方法,大大减少了搜索结果的假阳性。 虽然出现很多以模式为基础的搜索方法,但是模式库是搜索的前提,改善矩阵库本身的质量和 准确率比探索不同的搜索算法更为重耍。矩阵库的改善跟实验也是不可分的,只有计算机辅助和实 验紧密结合,才能保证研究顺利进行。 随着基因芯片的应用,我们获得越来越多的基因表达数据。基因表达数据中蕴含着比基因组数 据更为复杂、数据量更大的信息,对基因表达数据的分析可以获碍基因功能和基因表达调控信息。 基因转录在基因表达各环节中起着非常重要的作用,基因的转录过程是反式调控因子与顺式调控元 件相互作用后启动的,调控因子和调控元件的结台具有序列特异性,可以利用上述的调控元件模式 驱动和序列驱动的识别方法发现更多的调控元件。调控元件和调控因子的特异组合关系,再结合基 第一童绪论 园表达数据,就构成了基因之间相互作用的网络模型。 1 3 课题研究内容与章节安排 本文的研究目标是对调控元件搜索的算法研究,然后结合本实验室的两个数据库( 基因组序列 特征数据库和转录调控信息数据库) 开发出转录调控元件的搜索平台,最后对于所研究的算法用于 基因组搜索。主要研究工作分为三部分: 对调控元件基本搜索算法的研究,确定利h 模式( 矩阵或者一致性序列) 对基固组调控元 件进行搜索的算法,并通过实验数据来确认算法的有效性和可行性。 确定了搜索算法,结合本实验室的数据库开发用转录调控矩阵和一致性序列来搜索基因组 转录调控元件的搜索平台,并实现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论