（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：43 大小：2.55MB 积分：12 举报 版权申诉

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf_第2页

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf_第3页

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf_第4页

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf_第5页

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东北师范大学硕士学位论文摘要随着生物信息学的发展，全基因组序列不断被测序，对于转录的研究变得越来越重要，转录因子，作为一种重要的转录调控元件，它与d n a 序列的结合位点转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识别算法有助于人们识别不同转录因子的目标基因，进而研究转录因子结合位点在上游调控区中的位置对转录调控的影响。构建转录调控网络，从而指导生物学研究。是一个充满挑战和价值的研究方向。本文提出一种改进的方法基于h m m 的转录因子结合位点识别方法。h m m 是一种强大的概率模型，它在识别转录因子结合位点中已有突出的成绩。本文将h m m 与特定类型转录因子的结构特征相结合，利用不同类型的转录因子结合位点在序列上的特性，构建新的隐马尔科夫模型。再结合碱基保守性判断约束提高转录因子结合位点识别的准确性。本文算法的实现采用的是c + + 语言，应用该方法对转录因子存在可疑区域d n a 序列，进行了转录因子结合位点的识别，文章最后对算法的实验结果进行了分析，通过实验证明了其可行性和有效性，实验结果表明，这种改进的方法是有效的，它能够提高转录因子结合位点识别的准确率。关键词：转录因子结合位点( t f b s ) ；隐马尔科夫模型；转录因子结构特性东北师范大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p i n go fb i o i n f o r m a t i c s m a n yw h o l eg e n o m es e q u e n c eh a v e b e e n s e q u e n c e d i ti sm o r ea n dm o r ei m p o r t a n tt od ot h er e s e a r c ho nt r a n s c r i p t i o nr e g u l a t i o n t r a n s c r i p t i o nf a c t o ri sa ni m p o r t a n tt r a n s c r i p t i o ne l e m e n t i d e n t i f y i n gi t sb i n d i n gs i t ei nd n a s e q u e n c e - - t r a n s c r i p t i o nb i n d i n gs i t e s ( t f b s ) i s ah o tp o i n ti nn o w a d a y sr e s e a r c h r e l i a b l e p r e d i c t i o no ft r a n s c r i p t i o nf a c t o rb i n d i n gs i t e sc a nb eu s e dt oi d e n t i f yt h et a r g e tg e n e so f t r a n s c r i p t i o nf a c t o r sa n di n f e rt h er e l a t i o n s h i pb e t w e e nt h ep o s i t i o n so ft h eb i n d i n gs i t e sa n d r e g u l a t i o na c t i v i t yo ft r a n s c r i p t i o nf a c t o r s i no r d e rt ou s ei tt oc o n s t r u c tt r a n s c r i p t i o n r e g u l a t i o nn e t w o r k ，t h i sw i l lb eag u i d e l i n ef o rb i o l o g i c a lr e s e a r c h s ot h i si sar e s e a r c hf u l lo f v a l u ea n d c h a l l e n g e i n t h i sd i s s e r t a t i o n ，w ep r o p o s ea ni m p r o v e dt r a n s c r i p t i o nf a c t o rb i n d i n gs i t e sf i n d i n g m e t h o db a s e do nh i d d e nm a r k o vm o d e l h i d d e nm a r k o vm o d e li sa s t r o n gp r o b a b i l i t ym o d e l w i t hm a t hb a c k g r o u n d ，i th a dd o n ev e r yw e l li nt r a n s c r i p t i o nf a c t o rb i n d i n gs i t e sf i n d i n g w e c o m b i n e dh i d d e nm a r k o vm o d e lw i t ht h es p e c i a lf e a t u r e sc h a r a c t e ro fs p e c i a lt r a n s c r i p t i o n f a c t o r d i f f e r e n tc l a s s e so ft r a n s c r i p t i o nf a c t o rh a v ed i f f e r e n ts e q u e n c ec h a r a c t e ri nb i n d i n g s i t e s w ec o n s t r u c t e dn e wh i d d e nm a r k o vm o d e l sj u s tf i t st h o s et r a n s c r i p t i o nf a c t o r w ea l s o c o m b i n e dr e s t r i c tc a l c u l a t ei nn u c l e i cd e p e n d e n c et oi m p r o v ee x a c t i t u d e si no u ra l g o r i t h m t h ea l g o r i t h mi si m p l e m e n t e db yc + + i ti sa p p l i e dt ot h ed n a s e q u e n c ew h e r et f b s m a y b ei na n di d e n t i f yi t i nt h ee n do fo u rp a p e rw ea n a l y z e dt h ee x p e r i m e n tr e s u l t s i tc a l lb e p r o v e do u ri m p r o v e da p p r o a c hi sr e a s o n a b l ea n de f f i c i e n t i tg o tah i g h e ra c c u r a c yr a t e k e yw o r d s ：t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e s ( t f b s ) ；h i d d e nm a r k o vm o d e l ；t f b s s t r u c t u r ef e a t u r e s i i 独创性声明本人郑重声明：所提交的学位论文是本人在导师指导下独立进行研究工作所取得的成果。据我所知，除了特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体，均已在文中作了明确的说明。本声明的法律结果由本人承担。学位论文作者签名：弛日期：口望五、! 三学位论文使用授权书本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定，即：东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版，允许论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技术信息研究所) 等数据库中，并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名：乏丝垂日期：里2 ，学位论文作者毕业后去向：工作单位：通讯地址：指导教师签名：豸丢i i 数日期：电话：邮编：东北师范大学硕士学位论文第一章引言弟一早j ii 1 1 生物信息学背景知识生物信息学( b i o i n f o r m a t i c s ) 是一门交叉科学，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。生物信息学的主要任务是研究生物分子数据的获取、存储和查询，发展数据分析方法。研究重点主要落在核酸和蛋白质两个方面，包括它们的序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为出发点，破译遗传语言，认识遗传信息的组织规律，辨别隐藏在d n a 序列中的基因，掌握基因调控信息，对蛋白质空间结构进行模拟和预测。它主要包括以下几个研究领域h 1 ： 1 序列比对：比对两个或两个以上的生物序列的相似性或不相似性，是生物信息学的基础。 2 非编码区分析和基因表达调控研究：研究基因表达调控机理，主要是研究基因表达调控的时间和空间规律，进而了解生物的生长发育的规律、形态结构特征和生物学功能。 3 蛋白质结构预测：包括二级或三级结构预测，主要是预测和研究蛋白质的结构和折叠过程。 4 计算机辅助基因( 蛋白质编码基因) 识别：在给定基因组序列后，正确识别基因的范围和基因组序列的精确位置。 5 结构比对：比较蛋白质分子空间结构的相似性或不相似性。 6 分子进化和比较基因组学：利用不同物种中同一基因序列的异同来研究生物的进化，构建进化树。 7 基于结构的药物设计：研究人的约1 0 万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系，寻求治疗和预防的方法，包括药物治疗。 8 生物信息数据库的设计与实现：建立数据库对大量的生物信息数据资源进行管理和维护，以便做进一步的分析、处理和利用。生物信息学是当今生命科学和自然科学的重大前沿领域之一，同时也将是2 l 世纪自然科学的核心领域之一。目前，多种模式和非模式生物的基因组计划，产生了大量的序列数据，这些原始的序列数据中包含大量的未被注释的功能信息，因此对基因组功能的注释已经成为基因组时代的一个重大挑战。人类基因组计划对人类的全基因组进行测序，随着该计划的顺利完成，我们进入“后基因组学时代，而生物信息学的工作重心也相应的从基因组测序转移到对已测序的全基因组进行功能注释。其中的二个研究重点东北师范大学硕士学位论文即基因编码区的研究和非编码区的研究。本文关于转录因子结合位点识别的研究就是针对基因非编码区的研究。 1 2 转录因子结合位点识别方法的研究目的与意义揭示基因组水平上的基因表达调控规律是现代分子生物学所面临的重大挑战之一。原核生物的转录调控相对简单，真核生物的转录调控比较复杂。真核生物基因组的d n a 序列中，编码了两类信息，一类是d n a 序列的编码区，决定了基因产物的结构和功能；另一类是调控区，即非编码区，高等的真核生物中非编码区占了基因组的很大一部分，基因表达的实际过程非常复杂，通常需要多种调控蛋白和相应序列调控元件的协同参与。因此，在基因组序列中对各种调控元件进行准确的预测是进行表达调控研究的前提和基础。由中心法则可知，转录是基因表达的第一步，对转录过程的调控是表达调控的重要形式。而转录过程的激活、抑制和调节则主要通过特异性d n a 结合蛋白转录因子 ( t r a n s c r i p t i o nf a c t o r ) 与其在序列中对应的结合位点之间的交互作用来实现，基因的调控区存在着一些能够和转录因子( t r a n s c r i p t i o nf a c t o r ) 结合的顺式作用元件，即转录因子结合位点( t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e s ，t f b s ) 。在细胞中，转录因子扮演着信使的角色。细胞接到某种外界刺激后，激活某些转录因子，然后这些激活了的转录因子与d n a 上相应的结合位点结合，将r n a 聚合酶吸引到相应的基因的转录起始位点附近，启动转录过程的发生【2 。在转录调控的研究初期，转录因子结合位点的预测和识别成为一个热点问题，分析和识别转录因子结合位点及了解它们的功能是理解和解释整个基因组行为的重要步骤。转录因子结合位点识别就是对基因序列的转录因子进行预测，识别出其结合位点，其研究对象是基因序列。在生物信息学领域中，转录因子结合位点的预测算法的研究开始于9 0 年代，目前仍是生物信息学研究的热点问题，同时转录因子结合位点的预测也是基因组功能注释的一部分，其主要是对其序列的转录因子进行功能注释。一些基因功能注释算法也适用于转录因子结合位点的预测。如果能正确的预测出基因的调控区中有哪个转录因了的结合位点，我们就能了解这个基因受到哪些转录囚子的控制，可能会在什么情况下表达，即对基因的非编码区的功能进行注释。迈入了后基因组时代后，研究人员已经从基因组序列中解析出可能存在的大部分基因的阅读框架，因而对基因表达调控机制的研究就显得尤为迫切。对于基因表达调控机制的研究，无论是对于我们了解讵常的细胞生长过程，还是对于异常的疾病相关过程的发生都是至关重要的。它可以帮助我们了解生命，帮助我们解决分子生物学或医学领域中的一些难题。通过对转录冈子性质的研究将有助于阐明基因表达调控机制。而要弄清出转录因子性质的首要之处在j 二找出与其结合的全部d n a 序列片段转录因子结合位点。通过对转录因子结合位点的研究，将有助于深入了解转录因子的性质，进而为探索基因表达调控机制打开方便之门。因此，在基因组水平上对潜在的转录因子结合位点进行识别、筛选的计算机技术，已经成为功能基因组研究的一项非常重要的辅助手段。 2 东北师范大学硕士学位论文作为一种重要的转录调控元件，转录因子结合位点( t f b s ) 的计算预测可作为传统实验识别方法的辅助手段，从而加速推动表达调控机理的研究和转录调控网络的构建。 1 3 转录因子结合位点预测理论的研究现状传统的转录因子结合位点的识别方法主要是生物学手段，利用现代分子生物学实验技术，例如凝胶电泳、足迹法，可以逐一鉴别出与特定转录因子结合的d n a ) - 芋y ) j 片段h 1 。但是，仅仅依靠这类技术，科研人员不得不花费漫长的时间、极大的耐心以及昂贵的费用，来对几百个或上千潜在的结合位点进行全面的检测，这将是一个巨大的工程。随着基因组序列数据的积累和计算技术的发展，针对转录凶子结合位点计算预测的算法和工具也越来越多。根据识别策略和搜索对象的不同，已有的预测方法啪1 可大致分为方法两类：基于保守模体的方法和基于比较基因组学的方法。前者主要在同一物种基因组的协同调控基因( c o r e g u l a t e dg e n e ) 调控区域内通过发现或搜索过显( o v e r - r e p r e s e n t e d ) 的保守模体来预测可能的结合位点。而后者则利用比较基因组学方法，如基于特定数据结构的方法和系统发生痕迹方法。其中基于特定数据结构的方法，有后缀树法和图方法。后缀树瞳3 1 是表示字符串和序列的一种有效的数据结构。表示一条长度为l 的序列s 的后缀树是一棵有根有向树，共有l 个叶节点表示序列中的个字符，其任何一个内部节点( 非根节点) 至少含有两个子节点，每一条边都对应与序列s 的一个子串。后缀树最重要的一个特点是：对于任何一个叶节点f ，连接根节点到该叶节点路径上的所有子串正好组成序列s 从第f 个字符到最后一个字符形成的后缀。表示一组序列所有后缀的树称为扩展后缀树。利用扩展后缀树这种特别的数据结构，可以发现一组序列中存在的共同序列模式。基于后缀树方法的主要特点是简化了算法对序列的操作，降低了时空复杂度。基于图论的方法借用另外一种数据结构( 即图) 进行调控元件识别。图中的每个顶点表示一个子串，而图中的边表示子串之间的关系。而系统发生痕迹法( p h y l o g e n e t i cf o o t p r i n t i n g ) 的概念最早由t a g l e 于1 9 8 8 年提出，他们认为序列中的功能片段的进化速度要比非功能序列慢，因此，同源序列中的保守片段能对序列的功能有重要的提示。系统发生痕迹法口的基本做法就是首先从不同物种中选出一系列直向同源基因，然后在直向同源基因的上游区域中寻找保守的序列片段。通过比对多个相关物种基因组的对应区域束发现具有进化保守特性的模体位点。与比较基因组学的方法相比，基于保守模体的方法思路简单，不需要进行大规模的基因组比对，对较短模式的识别精度更高，因此在实际中得到了较多的应用。根据结合位点的模体是否已知，基于保守模体的方法又可分为两类：模体发现方法和模体搜索方法。模体发现方法适用于模体或位点未知的情况，主要根据保守序列片段的显现度差异来确定可能的模体，常用的算法有基于片段穷举搜索的i t b 、w e e d e r 、 y m f ；基于片段启发搜索；基于多序列比对的c o n s e n s u s 、m e m e 、g i b b s d n a 和 a l i g n a c e 等等。模体搜索方法则对应模体或位点已知的情况，通过为已知模体选取适当的描述模型，在基因组序列中对同类位点进行预测。理想的描述模型应该在适当的参 3 东北9 币范大学硕士学位论文数规模下，尽最大可能的表征结合位点的生物特征信息。位置特异得分矩阵( p o s i t i o n s p e c i f i cs c o r i n gm a t r i x ，p s s m ) 、字典模型( d i c t i o n a r ym o d e l ) 、人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k ，a n n ) 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l ，h m m ) 以及贝叶斯网络( b a y e s i a nn e t w o r k ) 等等都可以用于结合位点模体的描述和预测，其中以形式简单、计算方便的p s s m 最为通用。还有一类方法是基于转录因子的蛋白质结构识别转录因子结合位点，主要是通过实验测定的转录因子和结合位点相互作用的结构信息出发，然而由于缺少实验数据，现有的研究只限定在某几类转录因子中，女1 c y s 2 h i s 2 转录因子结合位点的预测。 1 4 本文主要内容转录因子结合位点的识别是理解基因转录调控机理的重要环节，准确的预测、识别算法有助于人们识别不同转录因子的目标基因，进而研究转录因子结合位点在上游调控区中的位置对转录调控的影响。通过对已经经过生物实验验证的结合位点进行分析可知，转录因子结合位点主要以保守序列片段的形式出现，这些保守序列片段所体现的特异序列模体，称作m o t i f ，而实际序列中的保守片段则称为m o t i f 的实例( i n s t a n c e ) 。本文提出一种改进的方法一基于h m m 的转录因子结合位点识别方法，在本文中，利用不同类型的转录因子有特异的结合位点特征，同时结合相应的相关性评判标准，构建相应的新隐马尔科夫模型，在共调控序列中找到该种转录因子的结合位点。文章的内容安排如下：第一章引言简要介绍了生物信息学背景知识，阐述了转录因子结合位点识别方法的研究目的和意义以及转录因子结合位点预测与识别算法的研究现状，以及本文的主要内容和基本结构框架。第二章基本概念与原理这一章对本文算法所涉及到的生物学基础知识进行了简要的介绍，主要介绍了基因表达调控机制及转录调控的一些基本概念和原理，和几种比较重要的转录因子类型，以及每种类型的转录因子，在结合位点序列上的特征。重点对转录调控中转录因子及转录因子结合位点的知识进行了简要的叙述。同时为后文中应用不同类型转录因子，结合位点序列特征打下基础。第三章隐马尔科夫模型的基本原理和问题及应用。本文的算法是隐马尔科夫模型为理论基础实现的，本章主要对隐马尔科夫模型的基本原理进行介绍。首先简要介绍了隐马尔科夫模型中的基本概念及其基本问题，以及解决基本问题的基本算法，然后对隐马尔科夫模型在生物序列分析中的一些已有应用加以介绍。第四章基于h m m 的转录因子结合位点识别方法 4 东北师范大学硕士学位论文本章主要对本文所做的工作进行叙述。给出了新隐马尔可夫模型的构建，算法流程，实验数据的选取，算法实现的具体方法，其中碱基相关性的评价计算方法是本文中打分函数的一个重要组成部分，在本章中对各种相关性的计算方法加以总结并对本文选用的计算方法详细的描述。最后对实验结果进行了分析。第五章结束语总结全文，归纳工作要点，对本文算法所存在的不足之处给出建议和展望。 5 东北师范大学硕士学位论文第二章基本概念与原理 2 1 基因表达和调控一个生物体内的d n a 序列蕴涵了该生物体的全部生物信息。如果仅仅知道生物体 d n a 序列的完整描述并不可能使我们再次重建这个生物体，因此，我们还需要了解d n a 序列中的基因是如何表达、如何被使用的乜7 1 。基因表达( g e n ee x p r e s s i o n ) 指储存遗传信息的基因经过一系列步骤表现出其生物功能的整个过程。典型的基因表达是基因经过转录、翻译以后，产生有生物活性的蛋白质的过程啪1 。这个过程是遵守中心法则的。如图2 1 。复制复翻6 k 。调控 - - - - - - - - - - - - - - - - - - - - - - - - 4 翻译、奄蛋白质图2 1 中心法则生物体中的每个细胞都包含有一套完整的基因组，它存储着支配细胞生命活动的所有遗传指令。但由于在生物体的成长发育过程中发生了分化，细胞类型变得互不相同，因而我们在成熟生物中能见到广泛的细胞类型，显然，在基因表达的过程中存在某种调控机制，控制着基因的表达。一些动植物实验的结果也证实了这一点，即使在分化的细胞中，d n a 仍含有形成整个生物体所需的全套指令。因此可以说，生物体的各种细胞的不同，不是因为它们的基因不同，而是由于它们表达了不同的基因啪3 。基因表达不是杂乱无章的，而是受着严密的、精确的调控。尽管我们现在对调控机制的奥秘还知之甚少，但是我们知道它的存在。生物只有适应环境才能生存，生物体通过基因表达调控机制进行自我调节，以适应环境的变化所带来的影响。当周围的营养、温度、湿度、酸度等条件变化时，生物体就要改变自身基因表达状况，以调控体内执行相应功能蛋白质的种类和数量，从而改变自身的代谢、活动等以适应环境。在一个生物体中，任何细胞都带有同样的遗传信息，带有同样的基因，但是，一个基因在不同组织、不同细胞中的表现并不一样，这是由基因调控机制所决定的。基因表达是指遗传信息从d n a 传递到蛋白质的过程，而对这个过程的调节即为基因表达调控。从广义来说，细胞内任何一个生理生化反应都会给基因表达带来影响，但是若把这些影 6 东北师范大学硕士学位论文响都划归基冈表达的调控范畴，就没有意义了。因此，基因表达调控的严格定义应该是，任何影响转录过程和翻译过程的开启与关闭以及影响这两个过程的速率的较为直接的因素及其作用心。一个细胞在特定的时刻仅产生很少一部分蛋白质，也就是说，基因组中只有很少一部分基因得以表达。基因调控机制根据各个细胞的功能要求，精确地控制每种蛋白质的生产数量。无论是原核细胞还是真核细胞，都有一套精确的基因表达和蛋白质合成的调控机制。虽然生物体内的每一个细胞都有完整的基因组，但各种基因在不同细胞中表达的规律是不一样的。要了解生物的生长发育规律、形态结构特征和生物学功能，就必须要研究基凶表达调控的时间和空间规律，掌握基因表达调控的秘密。在基因表达调控的舞台上，主要有以下三种相互作用：一是核苷酸序列之间的相互作用，包括核酸分子内部核苷酸序列之间的相互作用以及两个核酸分子之间核苷酸序列的相互作用；二是核酸分子的核苷酸序列与蛋白质分子之间的相互作用；三是蛋白质分子之间的相互作用。在这三种相互作用中，第二种作用居于首要地位，是基因表达调控的核心问题。其余两种作用也常常借助于第二种作用才能实现对基因表达的调控啪1 。基因表达调控主要表现在以下几个方面：第一是染色体水平上的调控。基因转录前染色质结构需要发生一系列重要变化，这是基因转录的前提，活化的基因处于染色质的伸展状态之中，可以被转录，而非活化的染色质d n a 不能被转录。第二是转录水平上的表达调控，这是最主要的基因调控方式。转录水平调控的重点是在特定组织或细胞中、在特定的生长发育阶段、在特定的机体内外条件下，选择特定基因进行转录表达。第三是转录后调控，这是指基因转录起始后对转录产物进行的一系列修饰、加工等调控行为，主要包括提前终止转录过程，对m r n a 前体进行加工剪切，m r n a 通过核孔和细胞质内定位等。第四是翻译水平上的调控，这是基冈表达调控的重要环节。翻译的速率和细胞生长的速度之i 日j 是密切协调的。在肽链合成的起始、延伸和终止三个阶段中，对翻译起始速率的调控是最重要的，而在翻译的延伸和终止阶段也存在着调控因素。最后一个方面的调控是蛋白质活性的调节。来自m r n a 的遗传信息翻译成蛋白质后，这些蛋白质如何活化并发挥其生物学功能，涉及蛋白质合成后的加工问题。对于由 m r n a 翻译产生的多肽，经过正常折叠后，有些已经具有生物活性，然而，对于真核生物中大部分蛋白质来说，还需要进一步加工、修饰和活化，才具有生理功能。 2 2 转录调控真核基因调控与原核基因调控都主要是在转录水平上进行的。基因表达的过程起始于基冈的转录，转录过程的调控在基因表达调控的过程中起着至关重要的作用，正确的转录调控能使得生物体内的能量和资源得到正确的利用和分配。基因转录调控目前已经 7 东北师范大学硕士学位论文成为生物信息学领域的个重要研究内容，转录是基因表达的第一步，也是最为关键的一步。在基因表达过程的不同阶段，基因都会受到某种程度的调控。其中最为关键的步骤发生在转录起始阶段，原核生物的基因表达的调控是这样，真核生物的基因表达的调控也是这样。在这个阶段中，转录因子通过与其靶基因上的转录起始位点附近的一段特定序列- 靶位的结合，可以方便、有效地调控靶摹因是否表达，以及表达水平的高低1 。对于大多数基因来| 兑，这是最重要的调控机制；在有些情况下甚至是唯一的调控机制。 2 2 1 转录因子转录调控是在转录起始阶段实现的，如图22 所示”“。r n a 聚合酶自身无法启动基因转录，必须相关于一系列蛋白质因子爿能识别启动子，进而使基因得以表达。这些特异性d n a 结合蛋白称为转录因子( t r a n s c r i p t i o n f a v o r ) 。基因转录有正调控和负调控之分。负调控机制是一种阻遏蛋白( r e p r e s s o r p r o t e i n ) 结合在受调控的基因上时，使得基因不表达；而从靶基因上去除阻遏蛋白后，r n a 聚合酶识别受调控基因的启动于，使基因得以表达，这是正调控。真核生物的转录受特定顺式作用兀件的影响，这类元件大多与所调控的结构基因保持一段距离。此外，真核生物的转录还受到反式作用因子的调控。真核生物的转录大多足通过顺式作用元件和反式作用因子的结合，并通过复杂的相互作用来实现的。上面所说的阻遏蛋白是起负调控作用的反式作用因子，而转录因子是起正调控作用的反式作用园子，它是在转录起始过程中r n a 聚合酶所必须的辅助因子。转录因子之所以能识别一段特殊的d n a 序列，一个重要的原因是因为蛋白质的表面和与其年目当的那段d n a 双链的表面特别吻合。d n a 的表面性质取决于核苷酸序列的不同。因此不同的转录因子会识别特定的核昔酸序列。蛋白质与d n a 之间的这种相互作用是生物学上己知的最紧密和最专一的分子相互作用之一。转录目子。o 。一- ( o 外”信转录吲子。 “。 j 0 7 ( b 譬l _ l ：一：融l 鬯_ 图2 2 转录调控机制模型东北师范大学硕士学位论文 2 2 2 转录园子结合位点细菌和真核生物的启动子包括起始位点即转录真正开始的地方和个位于起始位点上游的天约5 0 个核苷酸长的序列。这个区域包括了r n a 聚合酶与启动子结合所需的位点。除了启动子以外，几乎所有的基因都还有激活靶基因所需的d n a 结合位点，也称为转录咐f 结合位点。转录因子结合位点( t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e s ，t f b s ) 又称为调控元件，是基因序列中的保守短序列片段，是转录因子调节摹园表达时与之结合的区域，如图2 , 3 所示。对于原核基因组，转录因子结合位点的长度一般为1 0 3 0 b p ，对于真核基闪组，其长度一般为5 1 5 b p 。转录因子结合位点具有定的保守性，如图 2 , 4 所示，u 见同一个转录因子在不同的序列中的结合位点，虽然并不完全相同，但是还是存在很强的保守性的。这也是我们用计算方法识别”1 转录因予的一个重要基础。转录田簟少鼬 a c g 丁g a c a c a a t t g g c a t a c g a t c t a c g t a c a a 图2 3 转录冈子结合位点图示、 g a t c a t c a t c a t t g t g c g c a g t cc ct cc c t g a a g a g a g a g a a c a t g a c a a c 触 a c a a c g t c t g 1 。g t g c c c a g t cc ct c t t = | c a c , g r n t 丌似c a c c g t g c c a t c c a c g t g a c g t a a c c r g c a t c a c ac ct c t ta c a c g t g a c c c a a t a t a t g g a c f i a g t c t c g a c a g c c t t c c c ( ：t c g c gc ct t t tc a o b a t g c c g m t t g t t t 7 6 。6 1 “1 从c c 。t g “7 g c c c 6 4 。1 。76 凹血c c 从。4 6 “。“。6 c a 。4 6 瞳2 4 同一转录网子在多条序列中的结合位点在细胞中，转录因子常常扮演着信使的角色。细胞接收到某种外界刺激后，激活某些转录因子，然后这些被激活的转录因子与d n a 上相应的结合位点结合，将r n a 聚台酶“吸”到相应的基因的转录起始位点附近，启动转录过程的发生。转录因子结合位点本身并4 ：行使任何功能。这些序列片段必须被转录因子识别、结合后爿能发挥作用。转录因子结台位点和相关的蛋白质分子的组合是控制转录的开关。到目前为止，已发现了数以白计的转录因子结合位点，每一个都被一个或多个转录因子所识别。在转录调控的研究初期，转景因子结合位点的预测与识别成为一个热点问题。如果结p+ 川中东北师范大学硕士学位论文能正确预测出基因的调控区域中有哪个转录凶子的结合位点，我们就能了解这个基因受到哪些转录因子的调控，以及该基因可能会在什么情况下表达。 2 2 3 转录因子的类型转录因子是一些特异的d n a 结合蛋白，它们有自己特有的蛋白结构，根据其结构特征，转录因子的结构可以分为很多种类心7 1 ，根据t r a n s f a c 数据库中把转录因子分为四个超类【1 0 l z i n c c o o r d i n g a t i n g ( 锌协调) ，b a s i cd o u m a i n ( 基本域) ，h e l i x t u r n - h e l i x ( 螺旋转角螺旋) 和b e t as c a f f o l d 在本文中我们我们着重介绍以下六类它们隶属于上面的四个超类：第一类、c y s 2 h i s 2 型。和其他的锌协调( z i n c c o o r d i n g a t i n g ) 相关的转录因子一样，c y s ：h i s 。型蛋白质包含一个自折叠d n a 结合域。其中锌结构对于它的稳定二级结构是一个重要的组成。这个结合域被叫做锌指结构。每个指包括一个口螺旋和一个卢薄片，组合在一起称为z i n ci o n 通常属于这一类的转录因子，有很多这样的指结构。每个指和d n a 的大沟发生一系列作用。这个类的名字来源是因为，每个锌指结构有二个半胱氨酸( c y s t e i n e ) 和二个组氨酸( h i s t i d if l e ) 残基。第二类、c y s 4 型。和第一类一样c y s 4 型也是属于锌协调z i n c - c o o r d i n g a t i n g 大类的，它也是核受体。这种类型的转录因子，通常在和激素结合之前先和d n a 结合。帮助细胞发现和作出转录改变，来响应各自的激素变化。c y s 4 型的d n a 结合域，包含二个大小不同功能不同的锌指基元，每个指包含四个半胱氨酸( c y s t e i n e ) 残基和一个锌离子。第三类、b h l h 型。 b h l h ( b a s i ch e l i x l o o p h e l i x ) ，碱性螺旋一环一螺旋转录因子构成了真核生物蛋白质中的一个大家族，其成员在生物的生长发育调控过程中起着极为重要的作用，它们参与调控神经元发生、肌细胞生成、血细胞生成、性别决定和肠组织发育等。b h l h 转录因子的名称来自其结构中的b h l h 基序。就像名字所表示的在这个超类中的转录因子，有一个基本的域与d n a 结合，在b h l h 型蛋白质中基本域之后通常跟随着一个h l h 基元，这个基元包含一个短的口螺旋通过一转角连接到一个长一些的口螺旋。转角的灵活性允许一个螺旋折叠与另外一个螺旋结合，这个h l h 基元作为一个d n a 结合的前提，在与d n a 结合中基本域起到很重要的作用。第四类、b z i p 型碱性亮氨酸拉链蛋白属于超类b a s i cd o m a i n s ，这类蛋白质都是含有4 个或5 个亮氨酸残基，彼此之问精确的相距7 个氨基酸残基。这样，在口螺旋的每一个侧面就出现一个 l e u ，这些l e u 排成一排，两个蛋白质分子的口螺旋之间靠l e u 残基之l 日j 的疏水作用形成一条拉链。这类蛋白与d n a 的特异性结合都是以二聚体形式起作用的，但t j d n a 结合的结构域并不在拉链区b z i p 型蛋白是真核生物的转录因子和阻抑蛋白中最大而且最保守的类型之一。迄今为止，分子克隆研究证明，b z i p 蛋白分布在从高等植物至哺乳动物等不同 1 0 东北师范大学硕士学位论文的真核生物物种之中。在植物中，b z i p 蛋白与种子贮藏基因表达、光形态发生及器官建成的控制相关。第五类、f o r k h e a d 型插头( f o r k h e a d ) 转录因子超家族是一组翼状螺旋叉头型转录因子调节家族，包含一个特有的f o r k h e a dd n a 结合域属于超类h t h 型转录因子，最早在细菌蛋白中发现，其 h t h 域包含二个a 螺旋：一个d n a 的宽沟罩，另一个在d n a 的角交叉( a n g l e a c r o s s ) 处，插头( f o r k h e a d ) 转录因子有1 0 0 个氨基酸在进化上是非常保守的并且对于d n a 识别是很有用的。插头( f o r k h e a d ) 转录因子家族在胚胎发育过程中起着关键性的调控作用，该家族基因的突变与许多人类发育性、免疫性疾病及肿瘤的发生相关，这些基因的突变可引起循环系统、免疫系统、骨骼系统及颜面部等的缺陷。插头( f o r k h e a d ) 家族的成员可能在早期胚胎谱系决定，特别是内胚层发育及随后的内胚层来源的器官形成中起着重要作用。插头( f o r k h e a d ) 转录因子超家族成员有很多。第六类、h o m e o d o m a i n 型同源异形域( h o m e o d o m a i n ) 蛋白是真核生物中一类重要的转录因子。根据同源盒基因及其同源异形域产物的肽链结构可以分为多型蛋白质。它也是属于h t h 超类的，同源异形域( h o m e o d o m a i n ) 蛋白由三个口螺旋组成，它们通过氢键影响结合我在一起，后面二个螺旋，组成h t h 基序，识别螺旋，和d n a 的大沟有重要的连接，碱基对同样的也通过活动臂结合到第一个螺旋和小沟有连接。不同类型的转录因子在其结合位点序列上，都有不同的特征，其中有的已知，有的未知，如表2 1 所示是部分已知的转录因子结合位点的序列特征1 。表2 1 不同类型转录因子的结合位点序列特征 2 3 本章小结本章主要介绍了基因表达调控的生物学背景知识，对基因表达调控机制进行了简要的叙述，描述了基因表达调控在生物体生命过程中的重要性，重点介绍了转录调控的原理以及与转录因子结合位点识别问题相关的主要生物学概念，同时介绍了不同类型的转录因子的结构特征，及其结合位点序列的特征。 1 1 东北师范大学硕士学位论文第三章隐马尔科夫模型及其应用隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ，h m m ) 是由马尔可夫链发展而来的一种随机模型。它对马尔可夫链做了推广，使得可观察的是状态的一个概率函数，而状态本身则是不可观察的。隐马尔可夫模型可以被看作为一个双重随机过程，一个是系统状态变化的过程，另一个是由状态决定输出的随机过程。的基本概念。考虑一个有限符号表卧s ：，s n 通常符号表s 被称为状态空间，s 中的符号墨( 1 s isn ) 被称为状态。随机符号序列s ，、s ：，s n 代表不同时刻的系统状态，假设在任意时刻f ，随机序列 z ；) 二。可以处于个不同状态卧是，s n 中的任意一状态s 的概率相关，而与时刻f 之前系统所处状态无关，即：其中，f ，k 为正整数，s 、s ：，墨，s + 。e s 则称石；) 二。为取值于状态空问特别地，当足= 1 时，简称转移概率，记为a q ( 1s i ，j sn ) 。全部转移概率构成一个转移相既率矩阵月，即彳2 三二：j 三二二其中。s 口“s l 耋口驴2 1 。3 ，即根据转移概率矩阵a 求不出鼍= t ( 1 sis n ) 的概率j p “= _ ) 的值。因此，还需引入初显然，o a a ：，s 1 ，且曩= 1 由此可见，一条马尔可夫链可以仅仅通过初始概率向量万和东北师范大学硕士学位论文转移概率矩阵月完全确定。在这里，我们只观察状态空间和时间参数都为离散状态下的情况。此时的马尔可夫链被称为离散马尔可夫链。对于离散马尔可夫链中的状态i 而言，如果a 。= 1 ，那么称该状态i 为吸收状态。具有转移概率矩阵a 的吸收马尔可夫链中至少存在一个吸收状态，并且每一个非吸收状态总能通过一步或者多步的状态转移过程进入吸收状态。下面具体举例，计算马尔科夫模型产生某条观测序列的概率。对于一个简单的3 状态马尔可夫模型，其状态转换概率矩阵如下： 0 4 o 3 o 3 1 a ， a j 。1 0 2 0 6 0 2 l 【0 1 0 1 0 8 j 假如输出观察序列为o = s ，是，墨，s ，墨，s ，s ：，s ，，相关于时间序y l j t = 1 ，2 ，3 8 ，那么o 的概率可以这样计算： p ( oi m o d e l ) = p s 3 ，s ，s ，墨，墨，s ，是，s 3lm o d e l 一p s 3 e s ，is ，】e s ，is 。 p s 。is ，】p 【墨is , 】 p s ，is e s ：is 3 e s 3is ：】 2 刀- 3 。口3 3 口3 3 。口3 1 口l l 。口1 3 。口3 2 。口2 3 = 1 ( o 8 ) ( 0 8 ) 。( o 1 ) ( o 4 ) ( o 3 ) 。( 0 1 ) ( o 2 ) ；1 5 3 6 1 0 - 4 3 2 隐马尔可夫模型在以马尔科夫链，作为模型的时候，必要条件是可以观测到这条链的样本现实，但是许多实际问题比马尔可夫模型所能描述的情况更为复杂。例如，在一类实际问题中会出现一条马尔科夫链，但是不能直接观测到这个链

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于hmm的转录因子结合位点识别方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档