(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf_第1页
(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf_第2页
(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf_第3页
(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf_第4页
(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(生物医学工程专业论文)基于结构数据的转录因子结合位点分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 t h e s ist i t l e : s l u d e n tn a m e s u p e r v is o rn a m e u n i v e r s i t vn a m e a b s t r a c t t h ea n a l y s i so f l r a n s c r i p t i o nf a c t o r s ,b i n d i n gs i t e sb a s e do ns t 兀l c t u r a ld a t a l i h u at a n g x i a os u n ( p r o f e s s o r ) s o u t h e a s lu n i v e r s i t v t h o u g hv i t a l l yi m p o r t a n lt oc e l lf u l l c t i o n ,t h em e c h a t l i s mo fp r o t e i n d n ab i n d i n gh a sn o t y e tb e e nc o m p l e t e l yu n d e r s t o o d t h e r e h a v e b e e nn u m e r o u sa t t e m p 抬t od e v e l o pa dh o c p r o c e d u r e sf o rt h ea n a l y s i so fd n ab i n d i n g s i t es e q u e n c e s h e r e ,a c c o r d i n gt ot h e3 ds t r l l c t u r e d a t ;lo fp r o t e i n d n ac o m p l e x e s ,a 耐n oa c i d _ b a s ep a j ri n t e r a c “o n sa r ea n a l y z e d ,a n dt h ep r e d i c t i o n m e t h o d so ft r a n s c r i p t i o nf a c t o r sb i n d i n gs i t e sa r es t u d i e d a l lp r o t e i n d n ac o m p l e x e si np d bd a t a b a s ew e r eu s e d b a s e do nt h e3 - ds t r u c l u r ed a t ao f p r o t e i n - d n ac o m p l e x e s ,n u c p l o ts o f r w a r ew a su s e dt oc o m p u t ea 1 1t h ei n t e r a c t i o n sb e t w e e n a m i n o a c i d s s i d ec h a i n sa n dd n as e q u e n c e s w i t hs w i s s p r o t sa n n o t a t i o no ft h ep r o t e i n s w h i c ha r ep a n so fp r o t e i n d n ac o m p l e x e s ,t h ec o m p i e x e sw e r ed i v i d e di n t od i f f e r e n t s e t s , i n c l u d i “gs e t st h a ta r er e l a t e dt og e n er e g u l a t j o np r o c e s sa n do n es e tt h a tj sn o t t h ei n t e r a c t j o n sb e t w e e na i l l i n oa c i d s s i d ec h a i n sa n dd n ab a s ee d 2 ei np r o i e ;n d n a c o r 叩l e x e s h y d r o g e nb o n d sa n dn o n - b o n d e di n t e r a c t i o n s w e r ea n a l v z e d d e i a i l e da n a l y s i so f b i nd i n gr e s i d u e ss h o w st h a ls o r n et h r e e a n df i v e r e s i d u es e g m en l sf i e q u e n t l yb i n dt od n aa n d t h a h i sb i n d i n gs e q u e n c em o t i fp l a y sar r 吼j o r r o l ei nb i n d i “g ,s ow eh l a d ea na s s u m p t i o nt h a ta r e s i d u e sb i n d i n gs t a t ei sd e t e r i 血n e db yi t s s e q u e n c en e i g h b o r h o o da n dt r i e dl ou s em a c h i n e l e a r i l i n gm e 【h o d st op r e d i c tt r a n s c np l i o nf a c l 0 r sb i n d i n gs i t e s u s i n gn o n er e d u n d a n td a 姐b a s e s0 fp f o t e i n _ d n ac o m p l e x e s ,b pn e u r a ln e t w o r km o d e l s w e r ed e v e l o p e dt ou t i l i z et h ei n f o r i m t i o np r e s e n ti nt h i sr e l a t i o n s h i pt op r e d i c tdnab i n d i n g p r o c e j n sa n dt h e j rb i n d j n gr e s i d u e s s e q u e n c en e 唔h b o r h o o dw a sf o u n dt op m v i d es u m c j e m i n f b r r n a “o nt op r e d i c lt h 。p i - 0 b a b i l i t yo fi t sb i n d i n gt od n aw i t hn e a r l y6 5 8 5 n pa t5 3 2 8 p r e c i s i o nf o rt h ec o n s i d e r e dp r o t e i n s w ea l s od e v e l o p e dan o v e lm e t h o df o r p r e d i c i i n gt r a n s c r i p t i o nf a c t o r sb i n l i n g s i t e sb y e x 仃a c t i n gs e q u e n c ef e a t u r e su s i n gs u p p o nv e c t o rm a c h i n e ( s v m ) t h i sm e t h o dc o u l dc l a s s i f y b i n d i n gs i t e s i n n u c l e i ca c i do fp r m e i n _ d n ac o m p i e x e sw i l h6 6 71 s e n s i t i v i t ya t8 9 7 2 p r e c i s i o nb yu s i n gk e m e lo fm d i a lb a s i sf u n c t i o n m a c h i n el e a r n i n gm e t h o d sc a np r e d i c t 仃a n s c r i p t i o nf a c t o r s b i n d i n gs i t e sf a i d yw e l la n d i n c r e a s ei nt h en u m b e ro fs t r i i c t u r ed a t aw i l lm a k et h i sm e t h o dp r o m i s i n g h o w e v e lm ep o w e ro f t h i sm e t h o dj s 【h a lw ec a ne x a l l l i n et h es t 兀l c i u r a le f 诧c t so nt h es p e c m c “yi na q u a n t i t a t i v e m a n n e r k e yw o r d s :g e n er e g u l a t i o n ,p r o l e i nd n ac o m p l e x ,t r a n s c r i p t i o nf a c t o r ,b i n d i n g s i t e ,a r t i f i c i a ln e u r a ln e t w o r k , s u p p o r tv e c t o rm a c h i n e 第一章结论 第一章绪论 2 0 0 3 年4 月1 4 日,围际人类基因组测序组宣布提前2 年成功绘制人类基因组序列图, 亦称“完成图”。至此,生物学被重新划分为自u 基因组和后基凼组两部分,人类正生活在后 基因组时代,开始了“后基因组计划”的研究。所谓“后基凼组计划”就是对基因功能的研 究,即所谓“功能基因组学”。基因功能的体现取决于其结构和表达调控状况。基因表达的 调控就是把这些基因结构变换成多种多样基因功能的操作者。毋庸置疑,基因表达调控的 研究对重要生命现象的阐明、解释细胞行为和疾病的发病机理等研究都具有重要意义。生物 体内存在着一整套复杂m j 冉序的基凶表达调控体系。基凶表达的调控可在多级水平r 进行, 但m r n a 转录起始调控是调控的基本控制点,也是最重要的一环。奉课题就属于基囚转录起 始调挖的研究范畴。 1 1 基因表达调控原理 1 1 1基因表达 基因表达( g e n ee x p r e s s i o n ) 是指储存遗传信息的基凶经过一系列步骤表现出其生物功 能的整个过柠”。典型的基因表达是基凼经过转录、翻译,产生有生物活性的蛋白质的过 程。以最简单的形式,基因表达可以总结为分了生物学的q 心法则( c e n t r a ld o g m a ) ,如图 1 1 。基囚表达存在多种阶段,包括基因的准备、转录、r n a 加工、r n a 转运、r n a 去除、蛋 白合成、蛋白修饰、蛋白定位等。 。n 一磊一m i 蛋白正 转录 矗译 一 图1 1 中心法则 基凶组( g e n o m e ) 是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息 的整套核酸。但生物基因组的遗传信息并不是同时全部都表达出来的。生物个体的各种组织 细胞般郜有相同的染色体数目,每个细胞含的d n a 量基本相近。生殖细胞和体细胞都含有 个体发育、生存和繁殖的全部遗传信息。但这些遗传信息的表达是受到严格调控的,通常各 组织细胞只合成其自身结构和功能所需要的蛋白质。不同组织细胞中不仅表达的基因数量不 相同而且基因表达的强度和种类也各不相同。 从上所述不难看出:生物的基因表达j i 是朵乱无章的,而是受着严密、精确调控的, 尽管我们现在对调控机理的盟妙所知不多,但已经可以认识到,不仅生命的遗传信息是生物 l 东南大学硕士学位论文 牛存所必需的,叮且遗传信息的表达调控也是生命本质所在。 1 1 2基因调控 基因调控( g e n er e g u l a “o n ) 是指细胞用来j 卉制各基囚产物产出量的机制。基因调控 可以在复制、扩增、基凶激活、转录,转录后、删泽和翻译后等多级水平上行,但实际上, m r n a 转录起始是基因表达调控的基本控制点,也是最土要的控制点。术文研究的课题也主 要是基十转录调控水平而进行的。 l 、原核基凶表达调控 相对而言,原核生物具有较小的基因组。基因组的大部分序列都为基因编码,而且基 因为蛋白质编码的序列绝大多数是连续的。原饮生物的多数基因按功能相关成串排列,组成 操纵元的基因表达调控的单元,共同开启或关闭,转录出多顺反子( p 0 1 y c is l r o n ) 的m r n a 。 操纵元学说是关于原核生物基因结构及其表达涮控的学说。操纵元的最基本组成元什 有:结构丛因群、启动子、操纵了:、调控基因、终止子。 操纵元中被调控的编码蛋白质的基因可称为结构摹因( s t r u c t u r a lg e n e ,s g ) 。一个操 纵元中含有2 个以j 的结构基因,多的可达十几个。每个结构基因是一个连续的开放闻凄框 ( o p e nr e a d i n gf r a m e ) ,57 端有翻译起始码( d n a 存储链上是a t g ,转录成m r n a 就是a u g ) , 37 端有翻 翠终止码( d n a 存储链上是t a a 、t g a 或t a g ,转录成m r n a 就是u 从,u g a 或u a g ) 。 各结构基因头尾衔接、串连排列,组成结构基因群。 启动r ( p r o m o t e r ,p ) 是指能被r n a 聚合酶识别、结合并启动基因转录的一段d n a 序列。操纵元至少有个启动子,一般在第一个结构基因5 侧上游,控制整个结构基因群 的转录。 操纵子( o p e r a t o r ) 是指能被调控蛋白特异性结合的一段d n a 序列,常与启动r 邻近或 与启动子序列重叠,当调控蛋白结合在操纵子序列上,会影响其下游丛凼转录的强弱。 调控基因( r e g u l a t o r yg e n e ) 是编码能与操纵序列结合的调控蛋白的基凶。与操纵子结 合后能减弱或阻止其调控基因转录的调控蛋白称为阻遏蛋白( r 印r e s s i v ep r 。t e i n ) ,其介导 的调控方式称为负性调控( n e g a t i v er e g u 【a t i o n ) ;与操纵子结合后能增强或启动调控基因 转录的调控蛋白称为激活蛋白( a c t i v a t i n gp r 。l c i n ) 所介导的调控方式称为正性调控 ( p o s i t i v er c g u l a t i o n ) 。 终止子( t e r m i n a t o rt ) 是给予r n a 聚合酶转录终止信号的d n a 序列。在一个操纵元中 至少在基因群最后一个基因的后面有一个终止子。 图1 2 示例了乳糖操纵元的肩动于和操纵子。c a p 结合位点是一种起正性调控作用的操 纵于,c a p 则是对转录起止性调控作用的蛋白,即激活蛋白。 2 第一章结论 _ 一,。t 。_ - _ _ _ _ _ - 一j ;i ;i :! l 图1 2 乳糖操纵元的启动子和操纵子 以上5 种元件是每一个操纵元必定含有的。其一 | 启动于、操纵子位于紧邻结构基因群 的上游,终止子在结构基因群之后,它们都在结构丛凶的附近,只能对同条d n a 链上的基 因表达起调控作用,这种作用在遗传。学实验上称为顺式作用( c is a c l i o n ) ,启动子、操纵 子和终止子就属于顺式作用元件( c is a c t i n ge l e m e n t ) 。调控基因可以在结构基因群附近、 也可以远离结构基凶,它是通过其基因产物的调控蛋白来发挥作用的,因而调控基因不仅能 列同一条d n a 链上的结构基因起表达调控作用,i u 且能刘不在一条d n a 链上的结构基因起作 削,在遗传学实验上称为反式作用( l r a n s a c t i o n ) ,调控基因就属于反式作用元件( l r a n s a c t i n ge l e m e n t ) 其编码产生的调控蛋白称为反式调控凼子( t r a n s a c t i n gf a c t o r ) 。 由此也可见,基因表达调控机理的关键在蛋白质与核酸的相互作用e 。 2 、真核盐凼转录水平的调控 真核基因组比原核基冈组大得多,且哺乳类基因组。p 仅约l o 的序列为蛋白质、r r n a 、 t r n a 等编码,其余约9 0 的序列功能至今还不清楚。真核牛物为蛋白质编码的丛凼绝大多数 是不连续的,即有外显子( e x o n ) 和内含子( i n l r o n ) 。而且真核基冈的调控具有史多的环节。 图1 3 示例了一个完整的基因结构。 图1 3 基因结构示例 ( 1 ) 顺j 作用元件( c js a c t i n gej e m e n t s ) 真核基因的顺式调控元什是基因周围能与特异转录因子结合而影响转录的d n a 序列。 其中主要是起正性调控作用的顺式作用元什包括启动子( p r o m o t e r ) 、增强子( e n h a n c e r ) 3 东南大学颁士学位沦文 近年又发现起负性调控作用的元什即沉寂子( s i l e n c e r ) 。 启动j r :与原核肩动子的含义相同,是指r n a 聚合酶结合并起动转录的d n a 序列。但 真栈启动了间不像原核那样有明显共同一致的序列,而h 单靠r n a 聚合酶难以结合d n a 而起 动转录,而是需要多种蛋白质冈子的相互协调作用,不同蛋白质因子又能与不同d n a 序列相 百作用不同基因转录起始及其调控所需的蛋白凼子也不完全相同,凶而不同启动子序列也 很小相同,要比原桉更复杂、序列也更长。启动r 中的元什n 丁以核心启动子元件和上游启动 子元件。核心启动子元件指r n a 聚合酶起始转录所必需的最小的d n a 序列包括转录起始点 及其e 游2 5 一3 0 b p 处的t a t a 盒。核心元件单独起作用时只能确定转录起始位点和产生 基础水平的转录。上游启动子元件包括通常位于一7 0 b p 附近的c a a t 盒和g c 盒、以及距转 录起始点更远的上游兀件。这些元件与相应的蛋白因子结合能提高或改变转录效率。h i 同基 因具有不同的e 游启动子元件组成,其位胃也币相同就使得不同的基冈表达分别何、同的 调控。 增强子:是种能够提高转录效率的顺式调控元件。在多种真饮牛物,甚至在原核生 物中都发现了增强子。增强于通常占l o o 一2 0 0 b p 长度,也和启动子一样由若t 组件构成, 基本核心组件常为8 一1 2 b p 可以单拷贝或多拷贝串连形式存存。增强子作用与其序列的正 反方向无关,将增强子方向倒置依然能起作用。而将启动子倒过来就小能起作用,町见增强 子与肩动子是很不相同的。增强子要有启动子才能发挥作用。但增强子对启动子没有严格的 专一性,同一增强f 可以影响不同类型启动于的转录。 沉寂了:足一种能降低转录效率的顺势调摔元件。沉寂子的作用可不受序列方向的影 响,也能远距离发挥作用,并可对异源基因的表达起作用。 ( 2 ) 反式作用凶予( t r a n s a c ti n gf a c t o r s ) 以反式作用影响转录的因了可统称为转录因子( t r a n s c r i p t i o nf a c t o r s ,t f ) 。i i n a 聚 合酶是一种反式作用于转录的蛋白因子。在真核细胞中r n a 聚合酶通常不能单独发挥转录作 用,而需要与其他转录凶于其同协作。 不同基因山不同的上游启动子元件组成,能与不同的转录因子结合这些转录因了通 过与基础的转录复合体作用而影响转录的效率。现在已经发现肯i 午多不同的转录因子,看到 的现象是:同 d n a 序列可被1 i 同的蛋白因子所识别:能直接结台d n a 序列的蛋白因子是少 数,但不同的蛋白因子问可以相互作用,因而多数转录因_ 是通过蛋白质一蛋白质问作用与 d n a 序列联系并影响转录效率的( 见图1 4 ) 。转录因子2 问或转录因子与d n a 的结合部会引 起构象的变化,从而影响转录的效率。 4 笫一章绪论 图1 4 转录网子与转录复合体相互作用模式图 如吲1 4 所示,蛋白质的转录因子从功能r 分析其结构可包含有不同区域:d n a 结合域 ( d n ab i n d i n gd o m a i n ) ,转录激活域( a c l jv a l i n gd o m a l n ) 和连接区( f l e x i b l ec 。n n c c t o r ) 。 因而,不论原核生物还足真核生物,转录起始调控的实质是d n a 一蛋白质蛋白质一蛋 白质问的相百作用对r n a 聚合酶活性的影响。核酸链上的顺式作用元件与反式作用蛋白因了 相互作用l 叮调控基凶表达。因m ,对于一个特定的转录凶了而言,找到其结合位点,也就是 受其调控的调摔元件具有茕要的意义。同时,对于一个基凶来说,能找到相关的调控元件, 对十研究浚基冈的功能也具有重要的意义。 1 2 调控元件预测 在基因表达调控研究中,识别调控元什是关键的步。随着人类基冈组计划的进行, 火量的各种数据被_ 存储在各种生物数据库中。系统分析非编码序列所需要的实验工作量已超 过了研究者的能力,因m j 迫切地需要借助生物信息学这个强有力的信息处理工具,研究识别 调控元件的方法,冉用预测得到的可能调控元什来指导实验研究”】。下面,我们从研究数据 和算法两个方面出发做个介绍。 1 2 1 预测调控元件的数据 目前,预测调控元件的方法有很多。如果从研究的生物数据角度出发,可分为基于基 因组序列、基于结构数据和基,十基因表达数据的研究“1 。 随着基因表达调控研究的进行产生越来越多的结合位点序列、包含结合位点的调控 区域序列和共调控表达序列等各种序列信息,这些序列包含了丰富的生物信息,利用一些算 法i _ 以从中j 找调控元件的预测方法。下嘶介绍的各种算法都可以出用在这种基因序列信息 分析中。这些方法比较直接,但也有相当的局限性,其准确性依赖r 所给序列信息的质量。 亓u 且由于转录因子经常结合多个目标位点、并以协作的方式调控多条基因,因m 结合位点预 东南人学硕士学仲论文 测是一个相当复杂的问题。 为了解决这个问题,我们需要尽可能地利用已有信息。x 射线结晶学( x r a y c r y s t a l l o g r a p h y ) 、核磁共振( n m r ) 等研究物质微观结构技术清楚展示了蛋白跟核酸相互 作用的伞面的特征,其发展促使大量蛋白一核酸复合物的三维结构数据的产牛。转录因r 结 合调控元件的过程中形成了蛋白一核酸复合物,核酸结合蛋白在基因表达调控中起着重要作 用,通过对这些复合物的三维结构数据进行分析,就町以更好地理解蛋白同核酸结合的市体 化学规则、理解因子如何识别特异目标序列。冈为结构信息与序列信息是独立的,所以用结 构数据进行转录因子结合位点的预测可以弥补基于序列信息的方法的不足。 但是,总的来说,因际上从结构角度进行调控研究还是比较少的。h a r r i s o n ”1 等人最先 对d n a 结台蛋白进行结构分类,分成不同家族,这种分类简化了不同结台方法问的比较,也 强调了蛋白一核酸复合物几何学图形上的差异,还发现a 螺旋同d n a 主沟间的作用占了半数 以上蛋白家族的丰要结合模式。研究发现沿a 螺旋的每个氨基酸何置同d n a 碱基问的作用随 家族的不同i u 1 ;同”。”。 近年来,l u s c o m b e 与t h o n t o n 分析了蛋白核酸复合物中氨基酸保守性以及突变埘结 合特异性的作用。p n b o 与n e l ( 1 u d o v a ”“开发了几何模犁,描述氨基酸侧链跟核酸碱基之间的 相互作用以及相关的研究对象。m a n d e l g u t f f e n d 与m a 瞪a l i t - l “以及m a n d e l g u t f r e n d 等人1 证明了氢键、疏水作用、c h o 等相互作用在蛋白桉酸复合物中的重要作用。另外,对r 蛋白核酸复合物集合中的氢基酸跟碱基对之间的相互作用的系统分析,使生物学家们能够建 立模型,预测核酸结合调控蛋白的目标位点( k o n o 与s a m 严1 ) 。从那以后,生物学家们不 断修止对碱基氨基酸相互作用的分析,并且成功应用它来归类、区分核酸结合蛋白的对称与 非对称的结合”“。但是,识别蛋白核酸结合的机制仍然没有完全弄清楚。 另外有些研究者在分子水平上研究r 单个氨基酸一碱基问的作用,看是否存在对某些 氮基酸碱基作用对的使用偏好”“。建立在类似这些对结构研究的基础i :,可以进行转录因 了结合位点预测1 ”1 。m a n d e 卜g u l f r e u n d ,m a r g a l i t ”“等人选取p d b 数据库中的所有蛋白 一核酸复合物,统计氨基酸一碱基作用对的使用情况,并用打分矩阵来反映碱基与氨基酸相互 结合的可能性,发现每类集合中都存在特定的氨基酸一碱基使用偏向性。转录因子通过一定 的结合模式同d n a 发牛作用,以z i f 2 6 8 类锌指蛋白和c a p 蛋白为例,利用结合模式和打分 矩阵来预测转录因子在基因上游调挎区域内的可能结合位点。这种方法本质j :是基于统计的 方法,对某些转录因子结合位点的预测比较成功,但存在着局限性,因为它实际上是假设各 个氨基酸一碱基作用对是相互独立的,未考虑相邻的碱基环境或者残基环境对r 结合的影响; 而且必须利用特定家族的特定的结合模式来预测,推广性小是很强。 1 2 2预测调控元件的算法 从算法上看,有模式驱动算法( p a t t e r n d r i v e na l g o r i t h s ) 、序列驱动算法 ( s e q u e n c e d r i v e na l g o r i t h m s ) 和其他一些方法。 1 ) 模式驱动算法 弟章绪论 由于蛋白因子结合d n a 丌启了转录,凶而最初的识别方法采用了这种简申的模式驱动算 法。算法的具体步骤是:先用一批真实的结合位点来构造一个特征定义( c h a r a c t e r i s t i c d e f i n i t io n ) 、模式( r e p r e s e n t a t i o n ) 或轮廓( p r o f “e ) ,然后用得到的特征来识别结合位 点找到的结合位点可能不止个,最后按照粜些原则把这些识别的结合位点绢装起来。 2 ) 序列驱动算法 这个方法要处理的是一批包含结合位点的序列,但结合位点的位置和序列信息都不知 道。功能相似的凋控区域中,功能结合位点在相对顺序上经常是保守的;相反非功能结台位 点是随机出现的。这种算法足基于这个事实来构建的。如果这些序列共享某些功能特性,那 通过序列比较分析能提取出他们的共同特征。色含结合位点的序列可以来自试验方法,例如 通过d n a 阵列( d n a a r r a y s ) 技术得到的一组萸表达基囚;还可以来自比较基因组,因为不 同物种之间的基因调控模经常是保守的,因而通过各物种之间的序列比对可以氓别调控序 列。 3 ) 后来,还有些机器学习的算法运用到 贞测调控元件中,如统计分析、神经网络、 聚类预测、字识别。 统计分析中,判别分析是一种标准的统计模式识别技术,它根据已知类别( 曲类以上) 的事物的,陀质( 表明观察量特征的变量值) ,建立函数式,利用已建立的函数式对未知类别 的新事物进行判断并将之归入已知的类别的分析方法。m i c h a e l0z h a n g ”“曾利用这种方法 来侦测核心启动子。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 是一个用大量的简单处理单 元绎广泛并行互连所构成的人工网络,用于模拟人脑神经系统的结构和功能,它具有自学习、 自组织、自适应、联想、模糊推理等方面的能力。缺乏解释能力是a n n 的一个缺陷。要对 做m 的决定和网络中每个节点所用方法做出解释是很困难的,因而无法对网络进行确认。目 前a n n 主要用十蛋白质结构和功能预测等领域。h o n o np b ,k a n e h is am “,0 n e i l l m c 1 1 利用神经网络来预测大肠杆菌启动子位点,s k n u d s e n “利用神经刚络来分类一个序 列是否属十调控序列集台。因为a n n 适合于非线性识别过程,所以可以用来处理大最的退化 结合位点。利用遗传算法对a n n 权重进行优化,可以得到最好的识别效果。这种方法只能判 断一条序列是否是推定的调控元什,但无法判断调控兀件所在的具体位置。 通俗得讲,聚类分析”“就是根据事物彼此不同的属性进行辨认,将具有相似属性的事 物聚为一类,使得同类的事物具有高度的相似性。在生物体中,个明显止确的信号如果 放到前后关系错误的基因组序列中,就不具有任何生物意义上的重要性。相反,如果把一个 高度异常的调控元件放到同其他调控元件关联很强的位置上,那或许它就具有了生物功能。 功能结合位点通常都是以炎的方出j 见的,例如启动了和增强予。而可以利用这个方法搜 索聚类的潜在结合位点。lp ic k e r l ”“等人用二维模糊聚类分析方法来分析结合位点聚类。 东南大学硕士学位论文 1 3 机器学习 什么叫做机器学习”? 至今还没有一个大家公认的“机器学习”定义,一般认为机器学 习就是一个通过经验修证系统的过程。提供一绀含有各种类型的训练和测试样本给学习机 器,机器经过学习后,从中定义 j 假设。对于一组确定的测试样本,机器必须具备通过对假 设的逼近从面获得最佳假设的能力。机器学习的常崩技术包括:神经网络、支持向量机、隐 马尔可夫模型、贝叶斯分类器、决策树、聚类分析等等。 作。 目前机器学习主要有三类方法 ( 1 ) 指导性学习,学习过程q ,每一步的输入、输m 情况郜可以观察到 ( 2 ) 强化学刊,对机器学习的动作给予坪价,佃是不告诉正确的动作 ( 3 ) 无人监督学习,学习机器对于输出的正确结果0 i 给山仟何解释,完全是“黑箱”操 1 、学习系统的基本结构 图1 5 是学习系统的摹本结构。其中学习要素负责改进机器代理的表现,执行要素负责 决定选择执行的动作,批评要素负责告诉学习要素、机器代理应该怎样做,问题发生器则提 出i j 能产生新经验的或增进知识的动作。 2 、学习问题的界定 机器学习代理 夺 学习要素 夺 执 t 要素 寸 批评要素 夺 问嗣发生器 环境l 图1 5 学习系统的基本结构 在设计学习系统的过程中,学习问题的界定是非常重要的一步。学习系统的任务是什 么? 同标功能是什么? 怎样表达? 怎样训练这个学习系统? 怎样评价学爿系统的表现? 通 常,在基本的学习模型中有三方面的学习问题:首先是经验的来源,换句话说就是训练资料 的问题;其次是仟务的划分、学爿系统准确目标的确定;最后是对学习系统性能的测定。学 习模型的评价取决于学习机器的精确性和效率,输出结果的质量,模型的一致性以及完成任 第一章绪论 务所花费的时问。可用( 1 ) 式对上述三个主要问题进行概括 学习( ,r ,p ) 式中,e 经验,t 二任务,p 性能测定。 3 、机器学爿方法在生物信息学叫 究中的应用 机器学二= | 的观点是设计出一种像人类一样可以学二= | 的机器,从经骑巾获得智慧,从而在 有用的资料中挖掘信息。生物信息学的研究课题涉及到高度复杂的生物系统,因此,这种手 段n j 能比较适用。事实上,机器学习最早的应用领域之一就是分子牛物学。s t o r m o 1 等人用 感知器算法对大肠杆菌起始转录位置进行了定位。 机器学习技术之所以在生物信息学研究中人受欢迎,主要原因就在于它是以任务导向。 人们能够理解它的岬论基础以及这些技术所形成的舰则。除使用例予( 实验资料) 外,生物 学系统内的许多问题都无法给出满意的答复。人们可以对配列的输人输出进行详细描述, 但就是搞4 i 清楚它们之间的关系( 例如蛋白质的折叠机制) 。而机器学习则可以通过自动调 整其内部结构,对特定的问题给山近似的解。机器学习的另一个优势,就是它们很容易适应 新的环境。这一点对于分子生物学的研究极为重要,因为每天部有新的资料形成,而且这些 新资料n j 能会对原来的概念或学习得到的假设进行修正。因此,一种方法或技术为了获得新 知识并形成新的假设,不断的修正就显得尤其重要。这对于具有自适应特性的机器学习来说 则很容易做到。 货自核酸结合的机制是相当复杂的,科学家们还未找到以别转录因子结台位点的一般规 律。我们在下面的工作中就从蛋白一核酸复合物结构数据角度出发,尝试使用机器学习的方 法进行转录因子结合伉点的预测。 1 4 课题研究内容 转录因子结合调控元件的过程中形成了蚩白一核酸复合物,核酸结台蛋白在基因表达调 控t p 起着垒关重要的作用,通过对这些复合物的三维结构数据进行分析,就可以更好地理解 蛋白同核睃结合的立体化学规则、理解因子如何识别特异目标序列。鉴于目前国内从结构角 度m 发进行调控研究相对较少的情况,本课题从蛋白一核酸复合物结构数据角度出发,通过 分析氨基酸一碱基作用对,以及d n a 跟转录因子的氨丛酸残基作用的局部环境信息,提出了 大胆的设想:蛋白一核酸复合物中,局部的氨基酸残基讣境或者碱基环境在一定程度上决定 了中央残基或者碱基是否为作用位点。并尝试使用机器学习的方法,探索转录因于结合位点 的预测方法。 本文选取p d b 数据库中的所何蛋白一核酸复合物,通过作用力计算软什求出每个复合物 1 可能存在的作用力,别有计算结果的复台物进行分类,然后统计氨基酸一碱基作用对的使 东南大学埘! 士学位论文 用情况。尝试使用人工神绎网络和支持向量机来预测转录因子结台位点,并对两种方法的预 测性能进行了比较和讨论,较为成功的预测证明我们的设想是有意义的。 本文结构安排如下 第一章:绪论概要基因研究、基因表达调控原理、生物信息学、机器学习及其在预测 调控元件中的应用和木课题的研究内容。 第二章:选取蛋白- 核酸复台物数据,计算复合物中可能存在的氮基酸碱基作用对( 包 括氢键跟非键作用) ,并列有计算结果的复合物进行了分类。对蟹白一核酸复合物中的氮基酸 侧链同核酸之间的作用对进行数据处珲,并分析了d n a 跟转录因子的氨基酸残基作用的局 部耶境信息,提山残基环境或者碱基环境在一定程度上决定了中央残基或者碱基是青为作用 位点的猜想。 第二章:人工神经网络的基本思想和m a t l a b 神经网络工具箱的应用。利用蛋白一核酸 复台物- f 的氨基酸一碱基作用位点数据,建立反向传播神经网络,充分利用蛋白同核酸结合 的信息,不断调整参数,优化网络结构,反复进行训练学习,对d n a 结合蛋白的结合残摹进 行预测。 第四章:支持向量机分类的原理。利用蛋白一核酸复合物中的氨基酸一碱基作用位点数 据,采用支持向量机方法对结合碱基进行预测,选择不同商宽和参数对数据进行训练和预测, 并与神经网络方法进行比较和讨晗。 第五章:总结和展望。 第一章蛋白一核酸复合物的研究与数据处理 第二章蛋白一核酸复合物的研究与数据处理 核酸结合蛋白在基因表达调控中起者重要作用,x 射线衍射分析、核磁共振技术清楚 展示了蛋白跟核酸相可_ 作用的全面的特征。转录因子结合调控元件是个蚩白特异识别核酸 的过程,这一章中,我们对蛋白核酸复合物集合中的氩基酸碱基刘之问的相互作用进行统 计分析,发现而这个特异性相互作用的主要形式是蛋白侧链同碱基问的千h 互作用。然后着重 对d n a 跟转录因子的氦基酸贱基作用的局部环境信息进行分析,发现某些残基序列模。支持 结合,并且它们存核酸结合蚩白中的出现可能有助于定位结合位点。因此我们提出大胆的猜 想:在蛋白一核酸复合物中局部氮基酸残基环境或者碱基环境在一定程度上决定了- p 央残 基或者碱基是否为作用位点。 2 1蛋白一核酸复合物的空间结构 2 1 1脱氧核糖核酸( d n a ) 的空间结构 脱氧核精核酸d e o x y r 泊o n u c l e i ca c i d ( d n a ) 是一种分了量很大、能自行复制的双 链分子,存在十一切活细胞内是携带遗传信息的币要物质。其基本单位足脱氧核苷酸。d 一2 脱氧核糖和碱基缩合形成脱氧核糖核莆,然后脱氧核糖核苷巾的戊糖被磷酸酯化形成脱氧核 苷酸“2 ”。图2 1 咀胞嘧啶为例。在所有的d n a 分子巾磷酸和脱氧核糖足永远不变的, 而含氮碱基却是可变的。丰要有4 中,即:腺嘌呤a d e n i n e ( a ) 、鸟嘌呤g u a n i n e ( g ) 、胞嘧 啶c y t o s i n e ( c ) 、胸腺啼啶l h y m i n e ( t ) 。脱氧核苷酸之间以去氧核糖一磷酸酯键共价连接 而形成脱氧核糖核苷酸链,两条互补的脱氧核糖核苷酸链互相缠绕,形成一条d n a 分子。见 图2 2 。 蚰 肆:。舔 肿r “0 冀犁建耐 蔫嚏 胞嘧啶晨氧拄甘 肿1 - o h 0 3 嚏哇膈氧技甘瞳 图2 1脱氧核苷酸的形成,以胞嘧啶为例 d n a 小仅有严格的化学组成,还有特殊的空间结构它主耍以有规则的双螺旋( d o u b l e 东南大学硕十学位论文 h e l i x ) 形式存在。d n a 分了由两条互相平行的脱氧核苷酸长链盘绕而成。脱氧核糖和磷酸 交替连接,排在外测,构成螺旋的主链( b a c k b o n e ) ,碱基排列在内侧,因而受外界环境影 响较小。两条链上的碱基通过氢键相结合,形成碱基刘,它的组成有一定的枷律。这就是嘌 呤与嘧啶配对,h 腺喋呤( a ) 只能与胸腺嘧啶( t ) 配对,鸟嘌呤( g ) 只能与胞嘧啶( c ) 配对。碱基之间的这种一一对应的关系叫碱基互补配对原则。由于碱基可以仟何顺序排列, 构成了d n a 分了的多样性。每个d n a 分子所具有的特定的碱基排列顺序构成了d n a 分子的特 异一件。 h d 呶蠕蓝结柯中碱基配对示意圈 图2 2d n a 双链的分子下意图 由于碱基问的相互作用使得螺旋的表面并不是光滑的,叮是有较宽的大沟( m a j o r g r o o v e ) 和较窄的小沟( m i n o rg r o o v e ) 相间隔,这有利于序列特异的蛋白质与d n a 间的相 互作用。碱基分子中处十大沟和小沟表而的分子如图2 3 所示”。w 1 指外侧( o u t e r ) 主沟 位置,包括a 的n 7 原子和g 的n 7 原子。w 2 指中心( c e n t r a l ) 主沟位置,包括t 的0 4 原 予,g 的0 6 原子,a 的h 6 原了和c 的m 原子。s 1 指外侧( o u t e r ) 小沟位置,包括t 的0 2 原子,c 的0 2 原子,a 的n 3 脉子和g 的n 3 原f 。s 2 指中心( c e n t r a l ) 小沟位置,包括g 的n 2 原子。 2 第二章蛋白一核酸复合物的研究与数据处理 a j o r r o o v e l 2 t 2 s l s l t 2 2 一h h 个h 妥m 5 1 s ; 图2 3 人、小沟中d n a 位置图不 2 1 2 蛋白质的空间结构 2 0 f 蛋白质是由一条或多条肽链组成的生物大分子,每一条多肽链是由一系列氨基酸贱基 通过肽键一个一个连接而成的1 。见图2 4 。氨基酸( a m i n 。a c i d s ) 足蛋白质的结构单体, 具有h 拼一c h rc 0 0 h 的普通结构的两性分子。每一个氮基酸都有一个中心的四价碳麒子,它 具有四个配位摹团,其巾三个( 氨基、羧基和氢原子) 是不变的,形成多肽链的( m a i nc h a i n ) 。 第四个基凼被称为残余基团( r e s i d u a lg r o u p ) 或侧链( s i d ec h a i n ) 。 卫回 j 图2 4 氨基酸和肽链示意l 利 天然存在于蛋白质巾的氨基酸共有2 0 种。氦基酸町根据其侧链的物婵化学性质归为不 同的类别。一些完全由碳氢基团组成,是疏水的:另一些是极性的,包含酰氨基团或羧基, 可以形成氢键;其他的包含带电荷残基,_ 形成盐桥。如图2 5 所示。氨基酸还存在其他的 一些分类方式。氨基酸可用三个宁母或单字母简称来表示。 姐 o r r 一 。 东南人学硕士学位论文 蕊水侧髓 r 丙氨酸异亮氨酸亮氨酸 轧a 1 ai ,i l e l ,l e u 极性( 不带电荷) 删钵 特 咱丫涉 c h,l 】 酸季恩 酸餐曩字餐要擎p p h e v ,v a l p ,p r o 娑萝酸苏氨酸色氨酸 s ,s e rt t h r 盯。t r 口 r 酪氨酸 lt y r 图2 52 0 种氯基酸按贱基的理化性质分类 甘氨酸 g ,g l y 各种蚩白质分子都何特定的空间结构,即构象( c o n f o r m a t j o n ) 。在大然蛋白质巾观察 到结构组织的几个不同水平。一级结构( p r i m a r ys t r u c t u r e ) 就是指蛋白质分子r r | 多肽链 的数目,多肽链之问的连接方式和连接部位多肽链中氧基酸的数目、种类和顺序等。二级 结构( s e c o n d a r ys t r u c l u r e ) 是指蛋白质分子中的肽链向单一方向卷曲m 形成的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论