




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 生物信息学中的一个重要研究内容就是对基因转录调控的研究。转录因子结合位点 的正确识别既是揭示转录因子功能的关键之一,又是理解基因转录调控机理的重要环 节。转录因子是一种特异性d n a 结合蛋白,它能够识别一段特定的d n a 序列( 转录因 子结合位点) 并与之结合,进而调节d n a 的代谢和转录。随着对基因研究的不断深入, 为了更好地了解基因表达调控机制特别是转录调控机制,人们已经开发了许多识别和预 测转录因子结合位点的算法和软件,但还有很多方面需要进一步完善和加强。 作为模式识别的有力工具,神经网络具有良好的非线性逼近性和鲁棒性,已经被广 泛并成功地应用于序列分析中。b p 神经网络的学习规则多采用梯度下降法,梯度下降 法虽然速度快,但是却容易陷入局部极小,导致其全局寻优性能不高。遗传算法具有可 靠的全局搜索能力,它不依赖梯度信息,而是通过模拟自然进化过程来搜索最优解。所 以,本文结合遗传算法与梯度下降法的优点,设计了一种训练神经网络权值的混合优化 算法,可以利用它来解决网络学习初始权值的选取问题。并将基于遗传算法优化的b p 网络模型用于转录因子结合位点识别问题上。实验所需的数据,本文利用m e t l n s p e e t o r 打分方法结合一致性序列模型的方式来产生。根据一致性序列模型生成若干序列片段, 然后利用m e t l n s p e c t o r 打分函数打分,按分值比例选取试验样本。通过这种数据处理方 式可以获得更多更接近真实数据的实验样本,弥补转录因子结合位点数据量少的不足。 本文使用m a t l a b 语言来实现算法功能,对应于5 组实验数据,分别构建了5 个 遗传算法优化的b p 网络。文章最后对遗传算法优化的b p 网络和同规模的纯b p 网络以 及遗传算法预测的实验结果做了比较。结果表明,遗传算法优化的b p 网络的性能优于 纯b p 网络和遗传算法。 关键词:转录因子结合位点;b p 网络:遗传算法;一致性序列模型 a b s t r a c t u n d e r s t a n d i n gg e n et r a n s c r i p t i o nr e g u l a t i o nh a sb e c o m eo n eo ft h ec e n t r a lr e s e a r c h p r o b l e m si nb i o i n f o r m a t i c s i d e n t i f y i n gt r a n s c r i p t i o nf a c t o rb i n d i n gs i t e s ( t f b s ) i sn o to n l y t h ek e yt ou n d e r s t a n d i n gt h ef u n c t i o n so ft r a n s c r i p t i o nf a c t o r , b u ta l s ot h ei m p o r t a n ts t e pt o u n d e r s t a n d i n go ft h et r a n s c r i p t i o nr e g u l a t i o n , a n da l s ot h ef o u n d a t i o no fg e n er e g u l a t o r y n e t w o r k s c o n s t r u c t i o n t r a n s c r i p t i o nf a c t o r sa r ep r o t e i n st h a tb i n dt od n a ,t y p i c a l l y u p s t r e a mf r o ma n dc l o s et ot h et r a n s c r i p t i o ns t a r ts i t eo fag e n e ,a n dr e g u l a t et h ee x p r e s s i o no f t h eg e n eb ya c t i v a t i n go ri n h i b i t i n gt h et r a n s c r i p t i o nm a c h i n e r y n o w , m o r ea n dm o r em e t h o d s a n ds o f t w a r ea r eu s e dt oi d e n t i f yt f b s h o w e v e r , t h ep r e d i c t i o na c c u r a c yo ft h e s ea l g o r i t h m s i ss t i l l q u i t el o w , s ot h em e t h o d so fi d e n t i f y i n gt f b sn e e dt ob ef u r t h e ri m p r o v e da n d s t r e n g t h e n e d a sap o w e r f u lt o o lf o rp a t t e r nr e c o g n i t i o n , a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) h a sg o o d n o n l i n e a ra p p r o x i m a t i o na n dr o b u s t n e s s ,a n dh a sb e e nw i d e l ya n ds u c c e s s f u l l ya p p l i e dt o s e q u e n c ea n a l y s i s b pn e u r a ln e t w o r ku s e sg r a d i e n td e s c e n tm e t h o d a si t sl e a r n i n gr u l e s s o ,i t i se a s yt ob et r a p p e di n t ol o c a lo p t i m u ma n dl e a d st oa nu n s a t i s f a c t o r yp e r f o r m a n c e g e n e t i c a l g o r i t h m ( g a ) 谢t 1 1r e l i a b l eg l o b a ls e a r c hc a p a b i l i t y , i td o e sn o tr e l yo ng r a d i e n ti n f o r m a t i o n , o n l yb ys i m u l a t i n gt h ep r o c e s so fn a t u r a le v o l u t i o nt os e a r c ht h eo p t i m a ls o l u t i o n 黝t h e m e r i t so ft h eg e n e t i ca l g o r i t h ma n dt h eg r a d i e n td e s c e n ta l g o r i t h m ,am i x e do p t i o na l g o r i t h m ( g a - b p ) t ot r a i nt h en e u r a ln e t w o r k si sp u tf o r w a r d b yg a - b pa l g o r i t h m ,b pn e t w o r k sc a n o b t a i nb e r e ri n i t i a lw e i g h t s l a s t ,w eu s eg a - b pa l g o r i t h mt os o l v ep r o b l e m st h a th o wt o i d e n t i f yt r a n s c r i p t i o nf a c t o rb i n d i n gs i t e i nt h i sp a p e r , t h ee x p e r i m e n t a ld a t aa r ey i e l d e db y m e t l n s p e c t o ra l g o r i t h ma n dc o n s e n s u sm o d e f i r s t , i ty i e l d sal o to f n u c l e i ca c i ds e q u e n c eb y c o n s e n s u sm o d e t h e n , w ec a l c u l a t e st h es c o r eo fa l lo fn u c l e i ca c i ds e q u e n c ea n ds e l e c t st h e n u c l e i ca c i ds e q u e n c e st h a ts c o r e sa r el a r g e rt h a nt h r e s h o l da l se x p e r i m e n t a ls a m p l e s b yt h i s w a y , w ec a no b t a i nm o r ed a t at h a tc l o s e rt ot h er e a le x p e r i m e n t a ld a t at om a k eu pf o rl a c k i n g o f d a t a t h eg a - b pa l g o r i t h mi nt h i sp a p e ri si m p l e m e n t e db ym a t l a w ec o n s t r u c t5g a - b p n e t w o r k sf o r5s e t so fd a t a m o r e o v e lw ec o m p a r eo u rm e t h o dw i mb pa l g o r i t h ma n dg e n e t i c a l g o r i t h m ,a sar e s u l t ,i ti l l u m i n a t e st h a t0 1 1 1 n e wm o d e lt a k e s0 1 1f a v o r a b l ec a p a b i l i t y k e yw o r d s :t r a n s c r i p t i o n f a c t o rb i n d i n gs i t e s ( t f b s ) ;b pn e u r a ln e t w o r k ;g e n e t i c a l g o r i t h m ( g a ) ;c o n s e n s u sm o d e l ; h 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 西f o 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技 术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:堂望 日 期: ! ! :! ! 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:勉 e l期:! z 受:! ! 电话: 邮编: 东北师范大学硕士学位论文 第1 章绪论 1 1 基因表达调控及其研究意义 生物信息学( b i o i n f o r m a t i c s ) 是8 0 年代末随着人类基因组计划( h u m a ng e n o m e p r o j e c t ) 的启动而兴起的- - f 生物学与计算机科学以及应用数学等学科相互交叉的新兴 学科。它研究的生物信息不仅包括基因组信息,如基因的d n a 序列、染色体定位,也 包括基因产物( 蛋白质或r n a ) 的结构和功能及各种生物间的进化关系等其他信息资源。 因此,生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及 蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据 库的建立、相关分析软件的开发和应用等方面的内容,还涉及基因与蛋白质的关系,如 蛋白质编码基因的识别及算法研究、蛋白质结构和功能预测等内容。另外,新药研制、 生物进化也是生物信息学研究的热点。所以,生物信息学是一门理论概念与实践应用并 重的学科,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数 据所蕴含的生物学意义的目的 1 - 5 】。 对非编码区信息进行分析是生物信息学中重要研究课题之一。非蛋白编码区在高等 真核生物基因组占的比例很大,人类基因组中的非编码区就占了大约9 5 ,它们对生物 体来说并非无关紧要的,这些非编码区中包含着重要的生物学功能元件:基因的顺式调 控元件。生物体通过非编码区中的调控元件的协同工作来完成一套复杂而有序的调控机 制。所以在转录和后转录水平,基因的表达很大程度上受到这些调控元件的控制。本课 题研究的内容属于基因的表达调控范畴。 基因表达( g e n ee x p r e s s i o n ) 是指细胞在生命过程中,把储存在d n a 序列中的 遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子或者转录后直接产生 其r n a 产物如r r n a 、t r n a 等的过程睁7 1 。在这一过程中,基因的启动和关闭、活性的 增加与减弱等都是受到严格的调控的。在真核和原核细胞中,基因表达调控的原理机制 是基本相似的,但由于这两类细胞的结构差异和生活环境差异,使得某些调控机制存在 很大差异。原核细胞中,每个细胞为一个自给的有机体( s e l f - c o n t a i n e do r g a n i s m ) ,基因 的表达过程相对简单,而大多数真核细胞的基因表达调控机制都较为复杂,需要一定的 辅助才能完成基因的表达;因此,真核细胞为了完成它特有的功能,必须在某个时期或 某个部位合成某些特有的蛋白或产生某些特有的结构。 任何影响基因开启与关闭、转录和翻译过程速率的直接因素,统称为对基因表达的 调控。在真核和原核细胞中,基因表达调控点主要可以分成两个部分:转录调控 ( t r a n s c r i p t i o nc o n t r 0 1 ) 和转录后调控( p o s t t r a n s c r i p t i o nc o n t r 0 1 ) 。转录调控是指以d n a 为模板合成r n a 的调控,所有的细胞都拥有大量序列特异的d n a 结合蛋白,这些蛋白 能准确地识别并结合特异的d n a 序列,在转录水平上起着开关的作用。转录后调控是 i 东北师范大学硕士学位论文 指在r n a 转录后对基因表达的调控,转录后调控主要包括:r n a 加工调控,它仅在 真核细胞中发生,由它控制初级转录物如何及何时进行剪接形成可用的m r n a ;翻译 调控,通过翻译调控确立哪些m r n a 翻译成蛋白质以及什么时候翻译:m r n a 降解 调控,这可影响到某些m r n a 种类的稳定性;蛋白质活性调控,可选择性地使某些 特异的蛋白分子激活、失活、修改或区域化,从而影响到蛋白质怎样或何时起作用。转 录是基因表达的第一阶段,转录的调节控制是基因表达调节控制中的一个重要环 节。转录( t r a n s c r i p t i o n ) 是指细胞接收到某种外界刺激之后,激活特定的转录因子,然 后这些转录因子与d n a 上相应的结合位点结合,吸引r n a 聚合酶的到相应的基因转 录起始位点附近,以d n a 为模板合成m r n a 的过程。转录因子结合到d n a 上的特 定核苷酸序列被称为转录因子结合位点( t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e ,t f b s ) ,转录 因子结合位点通常是一段5 b p - 3 0 b p 的d n a 序列片段,这些序列本身并不执行任何功能, 只有当其被调控蛋白( 转录因子) 识别、结合后才能发挥作用,它们共同控制着基因的转 录。不同的基因表达需要特定的转录因子结合到这段d n a 序列上,对于同种转录因子, 其结合的d n a 序列比较相似,但又不完全一样,这是由于对不同的基因需要不同的结 合亲和力。同种高等生物个体的各个体细胞都有全套相同的基因,但是最后发育成 各种不同的组织和器官,这是由于在发育过程中基因表达的调节控制( 包括转录的 调节控制) 的不同。同样,研究认为动物( 包括入) 都含有癌基因,有的致癌,有的 却不致癌,这也有可能是由于转录与翻译的调控不同而造成的 s - 9 ) 。因此,了解基 因表达调控机制特别是转录调控机制的需求就显得尤为迫切起来,它对于我们了解正 常的细胞生长过程以及异常疾病相关过程的发生都是至关重要的,它可以帮助我 们更好的了解生命。随着新技术、新思路的出现,人们将逐步认识转录调控过程 中影响因子、复合物的结构,并能确定转录调节的各个细节,甚至可以根据获得 的知识设计新的调节复合物或新的调节过程,改变基因表达模式,造福人类。 目前,研究人员对真核细胞基因转录的调节控制机制知道的还很少。对转录 因子结合位点的计算预测将有助于分析其与转录因子间的相互作用机理,为构建 转录调控网络奠定基础,推动对基因表达调控的研究。如果能正确的预测出基因的 调控区中有哪些转录因子的结合位点,我们就能知道这个基因受到哪些转录因子的控 制,可能会在什么情况下表达。因此,在转录调控的研究初期,转录因子的结合位点的 预测是一个热点问题。 1 2 转录因子结合位点识别方法的研究现状 随着功能基因组学研究领域的快速发展,人们已经开始系统地研究全基因组的转录 以及全部基因发挥功能的动态机制。但是,要揭示转录调节的机制,首先必须确定有哪 些调节因子参与了基因转录,这些因子有哪些功能,它们自身的表达和活性是如何调节 的,以及染色质上一些蛋白的变化是如何调控的、其机理又怎样。另外,确定这些转录 调节因子与d n a 元件是如何发生相互作用的、转录因子之间的作用又是如何的网络关 2 东北师范大学硕士学位论文 系,以及转录复合物按什么样的次序、机制组装,如何进行调节的机理制等等都是目前 所要进一步研究和待解决的问题。 传统的实验方法如凝胶电泳、足迹法等,虽然可以逐一鉴别出与特定转录因子结合 的d n a 序列片段,但是费时费力,效率低下。为了更加有目的地设计实验,减少实验过 程中的尝试性工作,生物信息学技术作为一项有效的辅助手段为生物实验提供指导。 随着基因组序列数据的不断积累和计算机技术的发展,人们利用各种形式把转录因 子信息组织起来。经过近2 0 年的不懈努力,陆续出现了一些专门收录基因表达调控信息 的数据库【1 0 1 6 ,例如:t f a n s f a c ,t r r d ,c o m p e l ,p r o d o 砌c ,t r a c t o rd b 等等。研究人员可利用数据库中提供的有用信息对各类转录因子进行有针对性的分析。 随着数据量的增加和不同的研究应用需求,针对转录因子的结合位点的计算预测算法和 工具也越来越多。几乎所有的方法都以结合位点信号的特异保守性作为预测的出发点。 根据识别策略和搜索对象的不同,已有的预测方法可大致分成两类:基于保守m o t i f ( e l 转录调控元件,也可称为模式) 的方法和基于比较基因组学的方法。前者主要在同一物 种基因组的协同调控基因调控区域内通过发现或搜索过显现的保守m o t i 睐预测可能的 结合位点。而后者则利用比较基因组学方法,通过比对多个相关物种基因组的对应区域 来发现具有公共保守特性的模体位点【l 丌。 ( 1 ) 基于保守m o t i f l 能j 方法 基保守m o t i f 方法的主要目标就是在一组协同调控序列区域中识别出符合阈值条件 的过显现m o t i f 。在某一种生物基因组内,受同一种转录因子调控的一组基因称为协同 调控基因。这些基因调控区域中的过显现m o t i f ( 在多个区域内出现频率均高于随机水平 的短序列片段) 很可能具有一定的调控功能,可作为此种转录因子的备选结合位点。这 类方法都是基于一致性序列模型和p w m 模型做研究。典型方法有:c o n s e n s u s i s 】、 m e m e t l9 1 、g i b b s d n a l 2 0 】、a l i g n a c e t 2 i i 。 ( 2 ) 基于比较基因组学的方法 比较基因组学方法可以通过比对来发现不同物种基因组序列中的公共保守区域,而 这些在进化过程中显示保守特性的区域应该具有重要的功能。相关研究已经表明,相关 物种基因组的非编码公共保守序列区域富含调控功能元件。因此,可以通过比对不同物 种的同源基因的非编码序列区域来发现公共保守模体,并将其作为可能的转录因子结合 位点。比较基因组学方法又称为系统发生足迹法( p h y l o g e n e t i e sf o o t p r i n t i n g ) 1 2 引,如何进 行比对是系统发生足迹法的一个重要问题。无论是全局比对还是局部比对,目前都已经 有很多成熟的算法和工具,可以根据实际需求来确定使用哪种方法。至于阈值的选取和 结果的统计显著性计算等问题,与基于保守模体的方法十分类似。另外,用于比对的物 种也需精心选择,进化距离太近或太远都可能导致方法失效。 以上两种方法都是基于d n a 序列信息的预测方法。目前,随着研究的深入,很多研 究人员认为,转录因子与d n a 序列的结合,除了可以从序列的保守性的角度出发,也可 以从蛋白质一核酸结构的角度出发,通过实验测定的转录因子和结合位点相互作用的结 构信息出发,然而由于缺少实验数据,现有的研究只限定在某几类转录因子团埘】。 东北师范大学硕士学位论文 1 3 本文主要工作及意义 目前已有多种机器学习的算法运用到预测调控元件中,如统计分析、神经网络、聚 类预测等。利用计算机技术预测转录因子结合位点是一项充满挑战性的工作。如何解决 预测过程中存在着的过度预测始终是一个值得考虑的问题。本文着重介绍了基于遗传算 法改进的b p 网络的算法,将该算法用于识别五套转录因子结合位点( c a r l 、p o u 3 f 1 、 m a t a l p h a 2 、a t f 和z e s t e ) ,并将实验结果与同规模的b p 网络和遗传算法分别做了比 较,证明遗传算法优化的b p 网络能够取得较好的效果。 本文的主要框架: 第一章:介绍生物信息学和基因表达调控的相关背景知识,阐述了本文的研究目的 和意义。 第二章:介绍了转录因子结合位点的表示模型以及实验数据的来源、预处理方法。 这章的主要工作是结合转录因子数据库t r a n s f a c q b 获得的转录因子结合位点的位置 频率矩阵和位点的一致性序列模型,通过利用m e t i n s p e c t o r 打分方法来产生实验训练所 需的样本集。 第三章:介绍了b p 网络和遗传算法的基本原理。首先,较为全面地介绍了人工神 经网络的基本知识;特别是b p 神经网络模型;再则,介绍了遗传算法,包括遗传算法 的数学模型,基本算法框架以及实现的主要因素。 第四章:设计了一种训练神经网络权值的混合优化算法,利用它来解决网络学习初 始值的选取问题,并用m a t l a b 实现了该算法。然后将基于遗传算法优化的b p 网络 模型用于转录因子结合位点识别问题上,最后还对实验结果作了分析,证明本文提出的 模型及识别方法都有较好的优越性。 第五章:结束语。对所作的工作做了概括,并指出当前工作中所存在问题,为下一 步的研究工作指出了方向。 4 东北师范大学硕士学位论文 第2 章转录因子结合位点的表示模型及数据处理 基因非编码区的一个主要研究方向是对调控元件的研究,调控元件本质上是一些较 短的d n a 序列。特异性d n a 结合蛋白( 即转录因子) 识别这些调控元件,并与之结合。 经过对生物实验验证的已知位点进行分析可知,转录因子结合位点往往以保守短序列片 段( 也称m o t i f 的形式出现。对于原核基因组,m o t i f 的长度一般为1 0 b p 一3 0 b p ,而对于 真核基因组,其长度更短,通常为5 b p 一1 5 b p 。 2 1 转录因子结合位点的描述类型 转录因子结合位点相对于随机序列片段而言,具有较高的保守性。对于结合位点的 保守性,目前主要有三种描述模型【5 1 。 2 1 1 一致性序列模型 一致性序列是描述核酸序列功能位点的最常用方法,它直观地表示了模式序列的碱 基的组成情况,描述了功能位点中每个位置上核苷酸进化的保守性。在一致性序列模型 中,保守位置上仅允许出现特定类型的核苷酸。如转录因子a t f 结合位点的一致性序列 可以表示为c n s t g a c g n 胁i y c 。每个位置上允许出现的核苷酸可以用表2 1 中的1 5 种字符之一来表示。 表2 - 1 扩展到遗传学字母表或i u p a c 编码 代码碱基说明 腺嘌呤鸟嘌呤胸 k | g | 弋| c鲥g 喱| c 腺嘧啶胞嘧啶 rg o ra 嘌呤 yto rc 嘧啶 mao rc 氨基 kgo rt 酮基 sgo rc 强氢键( 3 个氢键) wao rt 弱氢键( 2 个氢键) ha o rco rt非g bgo rto rc 非a vg o rco r a 非t ( 非四 dgo rao rt 非c ng o r a o r t o r c 任意碱基 5 东北师范大学硕士学位论文 2 1 2 矩阵模型 一致性序列模型的描述方式虽然很直观,但是却在一定程度上掩盖了各个位置上碱 基出现的差异性。矩阵表示法能够比一致序列表示方法包含更丰富的信息,它通过统计 每个位置上碱基出现的次数,弥补了一致性序列模型位点信息含量模糊的不足。矩阵模 型是如表2 2 所示。它的大小为4 * n ,4 代表碱基的种类数目,n 代表模式序列的长度。 矩阵元素为行对应的碱基在列对应的位置上出现的频数。 表2 - 2 最简单的矩阵模型( 矩阵元素由该位置上的碱基出现数目构成) 。a ,5230 02 50047 96l2 1 3 5 5 2 1 3 可视化模型 可视化模型可以非常直观地表示结合位点的保守程度以及哪些位置上的哪些碱基 起着相对重要的作用。它依据一些信息论知识,用形象、直观的图形方式来表示结合位 点的特征。每个位置上由出现在该位置的所有碱基堆叠而成。碱基堆的总高度对应于该 位置上总的信息含量,而碱基按照信息量的大小及其比例出现从上而下排列。图2 - i 给 出了一个l o g o 模型的典型例子。 i 焉石。篓垒g 叁一夏互 图2 - 1c a p 结合位点的l o g o 图 三种模型各有优缺点,可以根据需要而选择使用不同的描述模型。也可以结合起来 使用。 6 n 4 9 7 7 5 1 7 8 11 3 4 8 2 1 l 5 o 2 0 52 0 o 0 o 0 5 o 2 0 5 o 0 2 o 0 1 1 2 6 8 9 ,1 2 4 。聋: 糍 c g t 锄 ,强。匹 。鹱赣at寸。0ic面。一。缝一骖, c k 。拿a 丁西, qllhl逸以 东北师范大学硕士学位论文 2 2 数据的获得 随着人类基因组计划的完成以及近年来大量生物学实验数据的积累,形成了当前数 以百计的生物信息数据库。这些数据库是生物信息学研究的基础和出发点,它们各自按 一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。这 些数据库对科学研究的深远影响是以前任何人未曾预料到的。 分子生物信息数据库种类繁多,大体可以分为4 个大类:基因组数据库、核酸和蛋 白质一级结构数据库、生物大分子( 主要是蛋白质) 三维空间结构数据库以及由上述3 类 数据库和文献资料为基础构建的二级数据库。基因数据库来自基因组作图,序列数据库 来自序列测定,结构数据库来自x 射线衍射和核磁共振结构测定,这些数据库是生物信 息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命 科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文 献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数 据库,是数据库开发的有效途径和必然趋势【2 引。国际上著名核酸序列数据库有g e n b a n k 、 e m b l 、d d b 等,蛋白质序列数据库有s w i s s p r o t 、p i r 、o w l 、n r l 3 d 、t r e m b l 等,蛋白质片段数据库有p r o s i t e 、b l o c k s 、p r i n t s 等,三维结构数据库有p d b 、 n d b 、c c s d 等,国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要 而各具特色,如人类基因组图谱库g d b 、转录因子数据库t r a n s f a c 、j a s p a r 、t r r d 、 r e g u l o n d b 等。 本文使用的数据来自转录因子数据库t r a n s f a c ( h t t p ;w 帆 g e n e - r e g u l a t i o n c o m ) 和核酸序列数据库e m b l ( h t t p :w w :e b i a c u k e m b l ) 。t r a n s f a c 数据库d 0 q 2 l 由德国生 物工程研究所开发的真核生物基因调控转录因子数据库,它是一个比较完善的二次数据 库,始建于1 9 8 8 年,采用关系数据库模式。t r a n s f a c 数据库是一流的转录因子数据 库,由s i t e 、g e n e 、f a c t o r 、c l a s s 、m a t r i x 、c e l l s 、m e t h o d 和- r e f e r e n c e 等数据表构成。还有几个与t r a n s f a c 密切相关的扩展库:p a t h o d b 库、s m a r t d b 库、t r a n s p a t h 库、c y t p m e r 库。核酸序列数据库e m b l 是由欧洲生物信息学研 究所( e b i ) 维护的核酸序列数据构成,它是最早的d n a 序列数据库,于1 9 8 2 年建立。 它是一个综合性的d n a 和r n a 序列数据库,数据库中的数据来源于众多的研究机构和 核酸测序小组,来源于科学文献。 t r a n s f a c7 0 中收录了很多转录因子及其相关信息,实验数据的选取首要考虑的 是转录因子相关的各种数据信息量是否丰富,注释是否足够详细。一套完整的转录因子 信息,至少应该包含有位置权重矩阵,结合的位点详细信息和所结合的基因在e m b l 数据库中的相关链接。我们从中挑出了五套转录因子数据:c a r l 、p o u 3 f 1 、m a t a l p h a 2 、 a t f 和z e s t e 作为验证数据。利用数据库提供的结合位点的一致性序列模型产生训练样 本,通过转录因子结合位点的信息中的相关链接在e m b l 数据库找到其结合位点的真实 信息作为验证数据集。如表2 3 所示。 7 东北师范大学硕士学位论文 表2 - 35 组实验数据 转录因子一致性序列所结合的基因的e m b l 索引号 k 0 1 8 1 3 m 1 0 11 0 m 1 0 4 1 4x 0 5 5 7 1 x 13 0 2 8x 0 4 6 2 5 x 0 3 2 15m 17 2 4 2 c a r ln n n t a g c c g c c ra 】、i n n x 6 0 1 5 7m 2 2 0 4 0x 0 2 5 4 9v 0 1 3 1 6 v 0 1 3 2 1x 1 2 9 2 6k 0 3 0 7 7 j 0 1 9 0 33 0 1 9 6 4j 0 1 9 6 5j 0 1 9 9 3 p o u 3 f 1n n k gaa 兀a 、j :f 气v t d n j 019 9 4x 0 7 5 3 9j 0 0 4 4 0x 5 3 7 7 4 m 1 4 6 7 8x 6 3 8 5 3x 0 3 0 1 0x 0 3 0 1 1 m a t a l p h a 2 n c a t g t n a ,n m 1 2 8 4 2m 2 6 3 7 6x 1 5 4 2 8 j 0 1 9 1 7x 0 2 9 9 8x 0 2 9 9 6k 0 0 6 5 0 m 1 5 4 2 9j 0 3 7 6 5x 0 4 2 4 9m 1 1 5 4 8 k 氏c n s t g a c g 耶n n y c m 118 4 7m 6 3 7 4 6m 1 9 8 7 0m 16 4 7 3 l 0 5 6 3 2 u 6 3 8 5 7u 6 3 8 5 7 y 0 0 0 4 9 x 0 5 4 2 7 z e s t en n w n t t g a g t ( 孙小小小外j u 3 1 9 6 1x 0 2 9 7 4 由于数据库中每一套转录因子所提供的结合位点的信息是有限的,用来作为实验的 训练数据是不足的。因此,本文利用数据库中提供的一致性序列和位置矩阵来产生实验 训练所需的数据。 2 3 数据的处理 由转录因子数据库t r a n s f a c 获得的一致性序列,并不直接用于实验。由于一致 性序列模型本身存在的局限:某些保守性不强的位点的信息描述是不全的,造成很多有 用信息的丢失。如果依赖数据库获得的原始一致性序列构建训练集可能会使得训练集数 据特征向量中不能充分涵盖其特有的转录因子结合位点,而遗漏某些被实验证实的转录 因子结合位点序列的信息,使得在对未知序列进行预测时,作为判定依据的特征向量无 法完全发挥特征的作用,从而影响到预测性能。为此,需要对一致性序列做出一些相应 调整,以便更好地表示结合位点的特征。在考察真实结合位点序列及位置矩阵后,通过 在某些位置上增加可能出现碱基类型,生成新的涵盖更多位点信息的致性序列。另外, 还要对数据库中获得的比对矩阵进行转换,转换为位置权重矩阵,然后利用m e t l n s p e c t o r 算法对根据一致性序列生成的片段进行打分,最终确定实验样本。 8 东北师范大学硕士学位论文 具体的数据预处理流程如图2 2 所示。 获得位点 的一致性 序列p 获得位点 的比对矩 阵 生成新的 一致性序 列p 由p t 按规 则生成样 本序列 转换为位 置权重矩 阵 图2 - 2 数据预处理流程图 2 3 1 位置权重矩阵表示方法 从数据库t r a n s f a c 中得到的位置矩阵是比对矩阵( a l i g n m e n tm a t r i x ) ,它记录的 是比对好的m o t i f 在第,个位置4 种碱基上各自出现的次数,由于比对矩阵表示方法和 频率矩阵表示方法都不能反映转录因子结合位点所在的背景序列的信息,而在不同的背 景序列下即使碱基出现的次数或者频率( 刀m 或六j ) 相同,它所蕴含的模式的保守程度也 是不同的,因此,需要将比对矩阵转换为位置权重矩阵,整体考察m o t i f 的保守程度。 位置权重矩阵( p o s i t i o ns p e i c f i cw e i g h tm a t r i x ,p s w m ) 是一种被广泛使用的转录因子识 别m o t i f 的表示方法。该方法的原理是基于b e r g 和y o nh i p p e l ( 1 9 8 7 ) 提出来的关于调控 蛋白( 转录因子) 选择d n a 结合位点的理论【2 6 】。该方法识别它是一个行4 列的矩阵, 在这个 r 行4 列的矩阵中描述了每一个碱基在每一个位置上的出现频度。 比对矩阵转换为位置权重矩阵的步骤大致如下: ( 1 ) 比对矩阵为 吩,t ,乒( i 2 1 ,2 ,n ,h ,c ,g ,t ) ,其中是转录因子识别m o t i f 所对应的位点的总数,n j 。表示碱基k 在第,个位置出现的次数。将比对矩阵转换为频 率矩阵,表示为i 乃,量 , b = n n ( 2 - 1 、 表示碱基在第,个位置上出现的频率或者概率。 ( 2 ) 将频率矩阵( f r e q u e n c ym a t r i xm a t r i x ) 再进一步处理,变为位置权重矩阵p s w m ,表 示为 叶力, w j ,七= l o g ( f j ,七p o ,七) ( 2 2 ) 其中( k - - a ,c ,g ,t ) 是背景序列( 非m o t i f 位置) 上碱基k 出现的比例。取对数使得 对应于背景频率而出现的序列得到较小的分值,而偏离背景频率的结合位点序列能得到 较大的分值,因此能够很好的区分出真正的转录因子结合位点序列和非转录因子结合位 点序列。 9 东北师范大学硕士学位论文 下面,以转录因子a t f 为例,给出其识别位点m o t i f 的三种不同矩阵表示方法,如 表2 4 所示。 显然,转录因子a t f 的识别m o t i 啪一致序列描述为c n s t g a c g n 心烈y c ,可以看 出矩阵表示法要比一致序列表示方法包含的信息更丰富,特别是位置权重矩阵表示法。 表2 - 4 转录因子a t f 的识别m o t i f 的矩阵表示 2 3 。2 序列的打分 由于通过实验所获得转录因子结合位点的数据是少量的,为了获得更多更接近真实 数据的实验样本,可以对由转录因子结合位点的一致性序列模型所产生的序列片段进行 打分,然后把大于某一得分阈值的序列用于训练。在计算方法中衡量一个模式是否为候 选的调控元件,首先要基于一定的标准对该模式进行打分。 根据位置权重矩阵,使用m e t l l l s p e c t o r 算法对生成的序列片段计算得分函数【2 7 】,确 定最终用于训练的实验正样本集。具体做法如下: ( 1 ) 首先计算每个位置上碱基的保守程度,得到一个保守索引向量( c o n s e n s u si n d e x v e c t o r ) = 0 0 0 l i l 5 ) f ( j , k ) x l n f ( j , k ) + l n s ( 2 3 ) l t a 0 3 表示m o t i f l 拘g j 个位置的保守程度,取值在。一1 0 0 之间,巧越大则保守程度越高。厂( ,七) 表示在:m o i l 伸碱基脏第个位置出现的概率。 i d 东北师范大学硕士学位论文 ( 2 ) 计算某一序列片段的得分值。 。一姜点塑旦( 2 - 4 ) :。一x m 强 用s c o r e 来衡量给定的短片段( m o d o 和权重矩阵之间的相似程度。这样算出来的矩阵相似 度的取值范围是0o 到1 0 。相似度打分越高( 越接近于1 ) 说明短片段( m o t i o e 权重矩阵之 间的相似程度越大。 ( 3 ) 根据一致性序列的碱基编码规则,利用打分函数生成实验的正样本集。具体做法如 下:根据一致性序列的碱基编码规则生成若干条长| 的序列片段,对这些片段利s c o r e 函数进行打分,保留达到某一s c o r e 值的序列片段作为正样本。另外,实验所需的负样本 采用随机生成的办法获得。 根据不同的阈值,对同一组一致性序列,所生成的样本数是不同的。因此,需要比 较每个可能的阈值水平下测试集和验证集的区别。 2 3 3 样本的生成 通过s c 0 r e 函数的打分计算,每条序列片段的s 佗值都在00 到1 0 之间,根 据一致性序列生成的序列的得分分布在整个区间,为了从中选出那些更可能接近于真实 结合位点的序列用于训练提高训练精度。具体操作如下:根据一致性序列生成可能的 转录因子结合位点的序列片段,然后对每个片段进行打分,如果s c o f e 大于阈值则保留 作为样本数据,否则丢弃,接着对下一个片段做同样处理,直至所有片段均处理完毕。 根据这种要求,使用c 语言编写了样本处理程序来完成这项任务。 设计样本生成模块是为了解决正负样本获得,由于目前通过生物实验获得的真实 的转录园子结合位点的数据量不足以用来进行神经网络的训练,需要对实验数据据进行 扩充。图2 3 是样本生成嚣的界面。通过这个样本生成器,可以得到所有符合一致性序 列模型的序列片段。由样本生成器生成的符合一致性序列模型的序列片段和生物实验获 得的真实数据构成了本课题实验所需的正样本,负样本则随机生成。 图2 3 样本生成嚣的界面 样本生成器生成的正负样本生成别保存在两个文本中,如图2 4 所示。 由于神经网络训练时需要对碱基进行编码,本文采用了使用一个特性数值来表示碱 东北师范大学硕士学位论文 基的编码方式,即1 对应碱基a 、2 对应碱基g 、3 对应碱摹t 、4 对应碱基c 。 口* 口 22 1 14 : ,l 11 iii 112 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年乡村旅游与非物质文化遗产传承报告
- 玛利亚vip门诊协议书
- 聘用退休人员签合同范本
- 猪场合作养殖协议书范本
- 首封人债权转让合同范本
- 淘宝与快递合作合同范本
- 汽油餐饮车转让合同范本
- 涂料机低价转让协议合同
- 签订借款合同后的协议书
- 篮球互租合同协议书范本
- 多组学整合分析方法
- 2024劳务分包合同范本下载
- 中国移动公开竞聘考试题库(含答案)
- 退学费和解协议书模板
- 【课件】2025届高三生物一轮复习备考策略研讨
- 某集团国企改革三年行动工作台账
- HJ 636-2012 水质 总氮的测定 碱性过硫酸钾消解紫外分光光度法
- 《公平竞争审查条例》微课
- 2024-2029年中国热成型钢行业市场现状分析及竞争格局与投资发展研究报告
- 2024年四川成都市第八人民医院人员招聘13人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 广东省韶关市翁源县2023-2024学年七年级12月月考语文试题
评论
0/150
提交评论