




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着人类基因组计划的完成,生物信息学已经进入了后基因组时代。对基因非编码 区的研究已经成为研究的热点问题之一,其中一个主要研究方向是对转录因子结合位点 的研究。目前,人们已经开发了许多识别和预测转录因子结合位点的算法和软件,如 m a t i n s p o c t o r 、m e m e 、a l i 鲫a c e 、a b b ss a m p l e r 等。随着各种技术的发展,转录因子 结合位点的识别已经得到了飞速的发展,但还有很多方面需要进一步完善和加强,转录 因子结合位点的识别和预测,能够促进基因调控网络的研究和发展,有利于人们尽快掌 握基因的调控机制,所以,转录因子结合位点的研究是生物信息学领域的一个非常重要 的研究课题。 本文将z 曲线理论引入到转录因子结合位点的研究中来,提出了基于z 曲线理论的 坐标矩阵模型z c c m ( zc u r v ec o o r d i n a t i o nm a t r i x ) ,z c c m 模型本质上是一条能够表 示转录因子结合位点特性的中心曲线的坐标矩阵,能够较全面、较准确的描述转录因子 结合位点的特征和保守性信息,提出了计算转录因子结合位点序列与中心曲线之间的相 似性距离向量,并以其为特征,进行b p 神经网络训练和分类,在大肠杆菌e c o l i 的转 录因子结合位点的识别实验中取得了较好的结果,并与m e t h l s p e c t o r 方法进行了比较, 实验表明,z c c m 模型具有良好的性能,能够较准确表示转录因子结合位点的特征,对 数据信赖性较小,自身较为完善,有较好的稳定性和准确性。 总之,本文提出了新的表示转录因子结合位点的模型z c c m ,给出构建模型的方法、 算法步骤,并结合实验证明了该模型的优点和有效性,z c c m 模型能够较全面的表示转 录因子结合位点的特征,实验表明本文提出的识别方法简洁、高效、准确,本文构建的 z c c m 模型对于转录因子结合位点的研究具有一定的理论和实际意义。 关键字:转录因子结合位点;z 曲线理论;欧几里德距离;b p 神经网络 a b s t r a c t a l o n gw i t h 舭d e v e l o p 脒m to fh u m 觚g e i l o m ep r o j e c t ( h g p ) ,m eb i o i n f 0 肌a t i c sl 瑚 b e e ni nt h el a t e r 靴m e 雄r e s t i 】d y i n gm ec o d i i 玛a r e ao ft l l eg 饥ei s0 1 1 eo f h o t s p o tp r o b l e l i l s , 锄dm es 砌yo f 舭衄l s c r i p t i o nf a c t o rb i n d i n gs ( t f b s ) i so n e 研m 哪a s p 鳅p r e s 肌t l y p e o p l eh a v eo p e i lo u tm a n ys o f t w a r ea i l da r i 廿l i n 以ci 1 1i d 胁t i 研n ga n dp r e d i c t i n gt h et f b s , s u c l l 舔m a t h l s p e 咖r ,m e m ,砧i 孕认c e ,a ss 锄叩l e ra n ds o0 n w i mm ep r o 伊懿so f a l l k i n d so ft e c t u l o l o g y ,t l l es n l d yo fm et f b sm a k e s 蓼e a tp r o g r e s s ,b u tm a n yf a c t so ft h i sf i e l d s t i l lh a v es o m ep r o b l e m s 觚da r ei i l c 0 m p l e t e ,s i i i m l t a n e i t y ,m o r ei m p o r t a n t l es 砌yc a n a c c e l e r a t et l l ed l w d o p m to f l e 仃a n s c r i p t i o n a l r 9 9 u l a t e dm e c h a m s m t h e r e f o r e , r e c o g n i z i n gt 1 1 et f b sl 粥b e e i lo n eq u e s t i o nf o rm o r ci 1 i l l ,o r t a n td i s c l l s s i o 娜i i lt h ed o m a mo f b i o i n f o m a t i c s m p 印e ri i l _ 昀d u c e sm e 1 c o 巧o f z - c u r v ei i l8 t u d 姐n gt f b s ,舳db 曲g sf 0 刑a r dan e w m o d c lt 0d e s c 曲en 坨p e c u l i a r i t yo ft f b sb 嬲e do n 1 ez - - c u r v e ,彻m e l yz - c u e c o o r d 砌i o nm a _ t r i x ( z c c m ) i n o d e l z c c mm o d e li so n ec l 】r v ec a l l e dt l 圮c e n t c rc i l r v e 髓s 训a l l y 也a tc a i lc o n l p l e t e l yd e s 函b em ec h a 删嘶s t i c 锄di l l 仍m a t i o no ft f b s ,i e a c o o r d i m t i o nm 撕xo fn l ec e n t e rc u r v c mm e 耐t h m e t i c ,w ec o m p l l t et l l es i m i l 撕锣d i s t a i l i c e v e 咖r sb 咖矿e l ezc h v eo fas e q u 锄c ec l l r v e 髓d 血ec e n t e rc u r v e ,a n dm a k et l l e s i m i l 撕t ) rd i 嗽哪c ev e c t o r s 嬲m ec 0 i n p a r d b i l i 够c h a 嬲e r st o 仃a i n l eb p n e t 、) i ,o r ka n dg e tt l l e d 弱s i 黟r e s u l t s i i la d d i t i o 玛w el l s e0 u rm e l l l o dt 0i d 即畸矽t h et f b si i le c 0 1 i ,a n d0 b t a i l l p r e f h 曲l er 懿u l t s m o r v e r ,w ec c i m p a r eo u rm e t h o d 、7 l ,i mm em a t h l s p e c t o r ,嬲ar e s u l t ,i t i l l u n l j n a t 鹳廿l a to u ri l c 、) l ,m o d e l 缸墩懿0 nf a v o r a b l ec a p a b i l i 劬a n dc 姐e x 剃yd c p i c tm e p e 伽l i 撕t yo f l et f b s 觚d i tt a l 治;o nw e l ls t a b i l 埘a n dv e r i 戗a n di tt 粥l e s sd c p e n d 饥c e 0 nn l ed a t ao fd n as e q u e n c 销t 0 劬i n 硷b p 玳七w o r k i naw o r d ,0 1 1 rn e wi n o d c lz c c mi s m o r c 咖p l e t ea n dm o r e 删o l l s i i ld e s 砸b i n gm et f b s i i law o r d ,t l l ep 印e rp u t sf o 刑a r dan e wm o d e lb a u s eo nz - - c u r v em e 0 巧c a l l e dz c c mt o d e s 嘶p tt 1 1 ct f b s ,觚ds h o w s t l l ep r o c e s s 趾ds t 印so f b u i l d i n gn l en e wm o d e l f u n l l e fm o r e m ee x p e r i m e n tp r o v e s l ea d v 舡姆i i lm em o d e la i l do u rm 甜1 0 di i li d e n t i 研n gt f b si i le c o l ii sv e 巧l a o d i l i c ,e 伍c i e n ta n dv e r a c i o u s ,a n d l en e wm o d e lz c c mh 嬲as p 晒f i e d s i 叫f i c a l l c c i n m e a b s 仃a c t 缸d i n p r a c t i c e f o r 删y i n g m e t f b s k e yw o r d s :亿m s 嘶p t i o nf a c t o rb i n d 吨s i t 懿;z _ 咖et h e 0 嬲e u c l i dd i s t a i l c e ;b pn e u r a l n e t w o r k i l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 雀数 吼 沙8 山6 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技术 信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 引言 生物信息学兴起于2 0 世纪8 0 年代末,是由生物、数学、物理、化学、计算机科学、 信息科学等多学科交叉产生的新兴学科,是当今生命科学和自然科学的重大前沿领域之 一,并且逐渐成为2 1 世纪自然科学的核心领域。随着人类基因组计划的完成,生物信 息学进入“后基因组学【l 】,时代,对基因非编码区的研究已经成为研究的热点问题之一, 其中一个主要研究方向是对转录因子结合位点的研究。 生物信息学( b i o i i l f o m a t i c s ) 是一门整合了生物学、统计学、应用数学、计算科学以 及医学,并正在迅速发展的交叉学科,它包含了生物信息的获取、处理、存储、分发、 分析和解释等在内的所有方面,综合运用数学、计算机科学和生物学的各种工具,如数 据库技术和数据挖掘【2 】、机器学习和模式识别、人工神经网络、数学统计方法以及动态 规划等方法,来阐明和理解大量数据所包含的生物学意义。生物信息学的主要任务是研 究生物分子数据的获取、存储和查询,发展数据分析方法,主要研究对象和任务是基因 组、蛋白质组、蛋白质结构、数据获取、数据解释、三维结构预测、数据库构建和检索、 药物设计、仪器设计、基因预测、同源比较、分子建模、分子进化等。研究重点主要落 在核酸和蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组d n a 序 列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在d n a 序 列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测。 目前,生物信息学的工作重心已经从基因组测序转移到对已测序的全基因组进行功 能注释【3 】。研究内容主要可以分为两个方面:即基因编码区和非编码区的功能注释。目 前对基因功能的注释主要是集中在编码区,而基因是由编码区和非编码区组成的,就人 类基因组而言,其中编码区只占5 ,非编码区占9 5 ,显而易见,非编码区在基因中 的功能是不容忽视的,并且起着至关重要的作用。转录因子结合位点的研究是基因非编 码区研究的一个主要方面,转录因子结合位点的主要有三种描述模型,即一致性序列模 型( c o i l s e n s l l sm o d e l ) 、位置权重矩阵模型【卅( p o s i t i o n a lw 萌曲tm a t r i x ,p w m ) 和可视化模 型,还有位置权重模型的改进模型及其他模型,如字典模型【5 】,隐马尔可夫模型【6 】、贝 叶斯网络【_ 7 】等。同时,基因转录调控【8 】是整个基因表达调控体系的一个重要方面,是基 因遗传信息传递和表达的枢纽,也是基因表达调控机制发挥作用重要环节,只有当转录 因子结合到d n a 序列的结合位点上,才能启动转录起始,因此识别转录因子结合位点 是理解转录调控机制和基因表达模式的基础,对转录因子结合位点的研究,有助于分析 其与转录因子之间的相互作用机理,为构建转录调控网络【9 】奠定基础,能够推动对基因 表达调控的研究。 识别转录因子结合位点,传统的实验方法如凝胶电泳、足迹法,可以逐一鉴别出与 特定转录因子结合的d n a 序列片段,但需要科研人花费漫长的时间、极大的耐心以及 东北师范大学硕士学位论文 昂贵的费用,有时得出的结论还不一定全面,为了更加有目的地设计实验,减少其实验 过程中的尝试性工作,需要有转录因子结合位点信息分析工具的支持,通过生物信息学 的方法来识别结合位点能够为生物实验提供指导,因此,在基因组水平上对潜在的转录 因子结合位点进行识别、筛选的生物信息学技术,已经成为一项非常重要的辅助手段。 转录因子结合位点的长度通常都不长,而且同一个转录因子识别的结合位点常常会有较 大的变化,当前许多转录因子结合位点的识别和预测程度的精度都比较低,在结果中, 人们常常很难分辨哪些位点是真正能结合转录因子的有功能的位点,而哪些其实是没有 功能的假位点,实验科学家迫切需要一个能够给出有参考价值的结果的转录因子结合位 点的识别方法。另外,由于种类的繁多和功能的多样性,所以即使针对当前研究较多的 基因组,其大多数转录因子以及结合位点的相关知识都还比较有限,上述的种种因素使 得转录因子结合位点的计算预测成为一项困难的任务。 z 曲线理论是由张春霆教授提出来的,是d n a 序列的对称性理论,也称z 曲线理 论,它是指将任意一条给定的d n a 序列表示为惟一的一条三维空间曲线( 称之为z 曲 线) ,d n a 序列与代表它的z 曲线是一一对应的,给定一方可惟一求出另一方,z 曲线 理论开拓了用几何学方法分析d n a 序列的新途径。目前,z 曲线理论已经应用于基因 识别、基因组的比较、分子进化以及d n a 序列的长程关联研究等方面,开拓了独树一 帜的研究思路,已经在国际上产生了强烈的凡响并深受瞩目,得到国内外学术界的普遍 好评和认可,越来越多的研究人员已经加入到z 曲线研究的行列中来。 本文将z 曲线理论引入到转录因子结合位点的识别研究中,提出了新的描述模型及 识别方法,并在大肠杆菌的转录因子识别中取得了较好的实验效果。 2 东北师范大学硕士学位论文 第1 章生物信息学简介 生物信息学是2 0 世纪分子生物学和计算机科学交叉结合产生的新学科,这门新学 科的焦点是使用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部基 因组,生物信息学的一个主要挑战就是弄清楚那些由基因组测序计划、蛋白质和其大规 模分子生物学手段产生的大量序列和结构数据的意义。生物信息学工具包括的计算机程 序,可以用来帮助提示与大分子的结构和功能、生化途径、疾病发生以及进化相关的生 物学问题所内含的基本机制。 1 1 生物信息学概念 生物科学和技术的发展以及人类基因组计划( h o m a ng e n o m ep l 矾h g p ) 的提出和 实施【胁1 1 】,使研究人员需要利用现代计算技术对这些数据进行收集、整理、存储、注释、 搜索、建模和使用,从而就促成了一门新兴的交叉学科一生物信息学( b i o i n f 0 衄a l i c s ) u 2 】 的诞生,生物信息学可以用来帮助揭示与大分子的结构和功能、生化途径、疾病发生以 及进化相关的生物学问题所内含的基本机制。根据美国国立卫生研究院( n a t i o n a l h l s t i t u _ 慨o fh e a l 饥n m ) 的定义,生物信息学是“研究、开发或者应用计算机工具和方 法来扩展对生物学、医学、行为科学和卫生数据的使用,包括获取、储存、组织、分析 和可视化这些数据。计算生物学是“开发和应用数据分析和理论方法、数学建模和计 算模拟技术来研究生物、行为和社会系统。 目前,生物信息学的长远目标是揭示生物分子数据的内涵是,主要任务是研究生物 分子数据的获取、存储和查询,发展数据分析方法。生物信息学研究是从理论上认识生 物本质的必要途径,通过生物信息学研究和探索,可以更为全面和深刻地认识生物科学 中的本质问题,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间 的关系,破译和阐明生物信息的本质将使得人类对生物办的认识跨越一个新台阶。 1 2 生物信息学的主要研究内容 生物信息学作为一门新的交叉学科,其研究范畴是以基因组d n a 序列的信息分析 作为出发点,分析基因组结构,寻找或发现新基因,分析基因调控信息,并在此基础上 研究基因的功能,研究基因的产物即蛋白质,模拟和预测蛋白质分子改性设计提供依据。 生物信息学主要有以下几个方面的研究内割1 3 】。 1 生物分子数据的收集与管理 核酸的序列测定是分子生物学的一大突破,并已经取得了非常大的进展,目前已测 东北师范大学硕士学位论文 定的核酸序列的数量巨大,有组织地搜索和管理这些数据是各项工作的前提。为了便于 其他研究人员共享这些数据,及时得到最新的实验结果,也为保证数据的一致性、可靠 性和完整性,国际上有专门的机构搜集和管理这些数据,具体的工作包括构建数据库, 建立网络服务器,开发数据查询和搜索工具,设计数据分析软件和可视化软件。 2 数据库搜索及序列比较 对于许多新得到的生物分子序列,我们并不知道其相应的生物功能,生物学研究人 员希望能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序 列的生物功能。一个普遍的规律是序列决定结构,结构决定功能,所以,当研究序列的 相似性时,我们最终希望根据这个普遍规律推测出与新序列相应的结构或功能,也就是 发现新的生物分子数据的内涵。目前,在序列搜索方面有很多不同的实用程序,但较成 功的是b l a s t 和f a s t a ,已经被广泛应用于d n a 或蛋白质序列分析。 3 基因组序列分析 目前生物信息学的大量工作是针对基因组序列的,d n a 序列是遗传信息的源泉, 识别蛋白质编码区或识别基因是非常关键的,从编码区域可以推导出基因的结构及其对 应的蛋白质序列。实际上,许多蛋白质序列就是从为其编码的d n a 序列直接推导而获 得的,然而,直接由d n a 序列得到蛋白质序列并非易事。非编码区的分析研究也是非 常重要有意义的。目前的主要工作是分析基因表达调控相关的信息,分析各种功能位点, 分析基因转录调控元件。 4 基因表达数据的分析与处理 基因表达数据的分析是目前生物信息学研究的热点和重点,研究基因表达数据的处 理和分析方法已成为生物信息学发展的一个重要方向。目前对基因表达数据的处理主要 是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基 因的功能,分析基因的转录调控,所用方法主要有相关分析方法、模式识别技术中的聚 类方法和分类方法、人工智能中的自组织映射神经网络、主元分析方法等。 5 蛋白质结构预测 蛋白质结构预测分为二级结构预测和空间结构预测。二级结构预测,主要方法有: 立体化方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子 动力学方法和人工神经网络方法等。空间结构预测,比较成功的理论方法是同源模型法, 运用同源模型方法可以完成所有蛋白质1 0 3 0 的空间结构预测工作,得到蛋白质结构 以后,就可以进一步分析研究蛋白质的生物功能。 1 3 生物信息学的发展方向 生物信息学的发展大致经历了3 个阶段,即前基因组时代、基因组时代和后基因组 时代。前基因组时代主要是以各种算法法则的建立、生物数据库的建立以及d n a 和蛋白 质序列分析为主要工作;基因组时代以各种基因组计划测序、网络数据库系统和建立和 基因寻找为主要工作;后基因组时代的主要工作是进行大规模基因组分析、蛋白质组分 4 东北师范大学硕士学位论文 析以及其他各种基因组学研究。随着人类基因组计划的完成,以及新基因的发现,系统 了解基因组内所有基因的生物功能成为后基因组时代的研究重点,生物信息学进入了功 能基因组时代,其发展方向【1 4 】主要有以下几方面。 1 各种生物基因组测试及新基因的发现 人类基因组和许多模式生物的基因组测序已经完成,接下来的首要工作是对更多生 物基因组的测序,获得更多物种的全部基因。从基因组序列中发现新基因也是生物信息 学研究的热点之一。对于从人类基因组这类复杂的基因组中发现新基因,可以利用表达 序列标签( e x p r 懿s e ds e q 啪c c1 a g ,e s t ) 和比较基因组学方法进行研究。通过比较基因 组学的多种分析方法,可以从与已知基因和蛋白质的序列同源性得到证据,区分出基因 组上的编码蛋白质区域和非编码蛋白质区域,从而确定新基因的编码区。 2 单核苷酸多态性( s n p ) 分析 单核苷酸多态性( s i n 百en l l c l e o t i d ep o l y m o r p l l i s m ,s n p ) ,是指在给定的一个群体中, 超过1 的个体在给定的遗传区域内发生一次核苷酸改变。在群体的颁中,基因的多态性 使得生物表现型表现出对外界物质的反应各不相同,这些便是基因s n p 造成的结果。 s n p 被认为是一个物种中不同个体表型差异的主要遗传来源,是研究序列变化与可遗传 的表型变化的有力工具,在基因与疾病方面大有可为,已经成为生物信息学研究的热点 之一。 3 基因组非编码区信息结构与分析 对于生物完整基因组,原核生物与真核生物的非编码区域占整个基因组的比例大不 相同。微生物中的原核生物所含非编码区或内含非常少,人类基因组测序完成后的研究 表明,真正编码蛋白质的区域只占5 左右,9 5 的区域是非编码区,从生物进化的角 度看,这样庞大复杂的非编码区必然包含着与生物进化有关的信息。因此生物体的复杂 结构和功能不仅仅是由基因决定的,也不仅仅是由基因组中大量的非编码区信息决定 的,而是由这些元素在生物体各个层次上复杂、动态的相互作用决定的。 4 比较基因组学和生物进化研究 比较基因组学是在基因组水平对各种生物进行比较,发现蛋白质功能,揭示生命起 源和进化,它是通过比较人类基因组与其他模式生物基因组,从而为了解人类基因组结 构、发现新基因和功能提供依据。生物进化是比较基因组学的重要研究方向之一,通过 比较基因组学构建系统进化树可以对生命的起源、生物的进化等若干重大生物学问题进 行分析研究。正是全基因组的比较研究使得生物信息学的研究实现片面向全面的突破。 5 蛋白质结构和功能的研究 蛋白质空间结构预测已成为生物信息学研究的焦点之一,所谓蛋白质空间结构预测 是指从蛋白质的氨基酸序列预测出其三维空间结构,蛋白质结构预测对于理解蛋白质结 构和功能关系,加强蛋白质工程研究及基于结构的药物分子设计具有十分重要的意义。 人类进入了信息时代,正经历着一场深刻的革命,信息时代带来了挑战,更带来了 机遇,生物信息学作为多学科交叉的新兴学科,受到了世界各国的重视,我国虽然起步 较晚,但对生物信息学的研究和应用十分重视,国内生物医学研究与开发对生物信息学 5 东北师范大学硕士学位论文 的需求市场非常广阔,然而真正开展生物信息学研究和服务的机构或公司却相对较少, 与发达国家相比,在人力和财力投入上明显不足,同时也急需要生物信息学人才的培养。 特别是要跨学科地培养生物学和信息科学的复合型人才,我国已经开始较大规模地培养 生物信息学专业人才,这为我国今后生物信息学的发展奠定了良好的基础。 目前我国基因组和蛋白质组研究在国际上已经占据了重要的地位,在生物信息学研 究和应用在一些领域取得了一定的成绩,有的在国际上还占有一席之地,相信经过科学 家们的努力和多学科专家的合作,完全有可能赶上甚至超过世界先进水平。 1 4 论文主要工作和框架 本文的主要工作是提出了基于z 曲线理论的坐标矩阵模型z c c m 来描述转录因子 结合位点的特征信息,提出了用于判定序列曲线与模型之间相似性的距离向量,在此基 础上提出了新的识别转录因子结合位点的方法,以相似性距离向量为特征进行b p 训练 和分类,识别大肠杆菌的c r p 、f i s 、m f 和撇四类转录因子的结合位点,对实验结 果进行了全面的分析,比较四类转录因子的实验结果,并与m e t h l s p e c t o r 方法进行比较, 结果表明本文提出的模型及识别方法都有较好的优越性。 本文的主要框架: 第1 章:介绍生物信息学的发展历程、研究内容及发展方向; 第2 章:介绍转录因子结合位点的研究现状和研究意义、基本描述模型、常用方法、 数据库等; 第3 章:3 1 节介绍z 曲线理论及在各个领域的应用情况;3 2 和3 3 节提出了基于 zc u r v e 理论的坐标矩阵模型,定义建模公式、建模依据、方法和模型含义;3 4 节将 本文提出的模型与位置权重矩阵模型进行了全面的比较,3 5 节提出信号强度,以反映 单个位置的特异性;3 6 节、3 7 节、3 8 节给出相似性距离向量,用以判定序列与模型 之间的相似程度,给出基于新模型识别方法、实验步骤和流程图; 第4 章:选取大肠杆菌的4 类转录因子的结合位点序列进行识别,给出性能指标, 并对实验结果进行全面分析,并与经典m c t h 塔p e c t l w 方法进行比较,结果表明本文提出 的基于z 曲线理论的坐标矩阵模型z c c m 和识别方法具有多方面的优点; 第5 章:对本论文提出的z c c m 模型、识别方法进行全面的总结,指出下一步工 作和努力方向。 总之,本文较全面的介绍了生物信息学及转录因子结合位点的研究状况和发展趋 势,总结了现有的研究方法,将z 曲线理论引入到研究中来,提出新的基于z 曲线理论 的坐标矩阵模型,该模型携带了转录因子结合位点较全面的特征信息,可以作为新的描 述模型表示转录因子结合位点,对于该模型的更进一步的信息和性能还有待于更全面更 深入的研究。 6 东北师范大学硕士学位论文 第2 章转录因子结合位点的识别研究 生物信息学的主要研究对象是生物分子,因而生物信息学最重要的生物学基础是分 子生物学。分子生物学是研究核酸、蛋白质等生物大分子的结构、功能和相互关系的科 学,是人类从分子水平上研究生命活动规律、揭开生物世界奥秘的科学。分子生物学的 研究成果促使人类认识生命现象,认识生命的本质,使人类逐步从被动地适应自然转向 积极主动地改造自然界。半个世纪以来,生物科学家经过不懈的努力,实现了2 0 世纪 自然科学的伟大革命,揭示出d n a 结构、l m a 在蛋白质合成中的功能、蛋白质的结构 和功能、遗传密码子及基因表达调控的本质等。对非编码区的研究主要集中在转录因子 结合位点的识别和预测上。 2 1 转录因子和结合位点 转录起始是基因表达的关键,需要砌叮a 聚合酶识别并且结合基因上游特定的序列 区域,在各种不同的d n a 结合蛋白质的配合下启动,同时这些结合蛋白还控制着转录 的效率,影响基因转录效率的结合蛋白被为转录因子,与转录因子结合的特异性d n a 序列,称为结合位点( 也被称为调控元件) ,结合位点本质上是一段较短且较保守的d n a 片段,原核生物中长度一般为1 0 3 0 b p ,真核生物中一般为5 1 5 b p ,有的长度可以达到 几十个b p ;通常是连续的,但也有不连续的情况出现,它们本质上是一些比较短的d n a 序列,这些序列一般处在受调控基因的上游区域,转录因子识别这些结合位点,并与之 结合,调节d n a 的代谢和转录,因此分析和识别转录因子结合位点及了解它们的功能 是理解和解释整个基因组行为的重要步骤。转录因子及其结合位点如图2 1 所示。 转 妒j 结舍位点 # o 竹“# 。1 尊4 l a c g t g a c a c a a 丫1 - g g 辙e g 撇丫a c g t a c a a 一,# # 黼藏i 篇i m 。,。搿1 _ 乳赫赫 图2 1 转录因子和结合位点 通常,转录因子结合位点有近程作用,也有远程作用。由于远程作用和下游调控相 对复杂,难于进行计算,因此主要关注近程作用,大部分研究集中在基因上游启动子区 7 东北师范大学硕士学位论文 域,即基因转录起始位点( t s s ) 上的1 k b 左右区域。转录因子结合位点在基因组中分布 范围较广,但大多数多集中在转录单元或基因上游的启动子区域内,但也有一些分布在 转录单元或基因的下游,甚至在内含子或编码区内,即使只考虑启动子区域,也使得识 别和预测转录因子结合位点成为一项较为困难的任务【l 孓1 6 】。 2 2 转录因子结合位点的研究现状和意义 随着人类基因组计划的完成和越来越多的转录数据的积累,对非编码区的研究已经 成为后基因组时代的巨大挑战旧。转录因子结合位点的研究是基因非编码区的一个主要 研究方向,是基因组功能注释中的有待于进一步解决的问题。因为在转录和后转录水平, 基因的表达在很大程度上受到一些转录调控元件【l8 】的控制,转录因子识别这些结合位 点,并与之结合,调节d n a 的代谢和转录,因此分析和识别转录因子结合位点及了解 它们的功能是理解和解释整个基因组行为的重要步骤。 识别转录因子结合位点,传统的实验方法如凝胶电泳、足迹法,可以逐一鉴别出与 特定转录因子结合的蛆序列片段,但需要科研人花费漫长的时间、极大的耐心以及 昂贵的费用,有时得出的结论还不一定全面,为了更加有目的地设计实验,减少其实验 过程中的尝试性工作,需要有转录因子结合位点信息分析工具的支持,通过生物信息学 的方法来识别结合位点能够为生物实验提供指导,因此,在基因组水平上对潜在的转录 因子结合位点进行识别、筛选的生物信息学技术,已经成为一项非常重要的辅助手段。 另外,由于种类的繁多和功能的多样性,所以即使针对当前研究较多的基因组,其大多 数转录因子以及结合位点的相关知识都还比较有限,上述的种种因素使得转录因子结合 位点的计算预测成为一项困难的任务。 2 0 世纪9 0 年代,分子生物学实验逐渐确定出了许多转录因子和它们相就的结合位 点,同一个转录因子的结合位点具有一定的保守性,于是最初人们用保守序列来描述转 录因子的结合位点,随着研究的深入,人们发现位置权重矩阵能够更精确地描述结合位 点的性质。人们已经开发了分别基于保守序列和位置权重矩阵的预测转录因子结合位点 的算法,因为共转录的基因常常受到同一组转录因子的调控,一些基于已知序列模式的 转录因子结合位点算法也被开发出来。有人针对选定的转录因子优化了结合位点的模 型,用优化后的模型在基因组识别转录因子的结合位点,提高了识别的精度,但这种优 化只是限于个别的转录因子。随着越来越多的模式生物全基因组测序的完成,如果非编 码区中的某个片段是某个转录因子的结合位点,那么在进化的过程中,这些片段应该能 被保留下来。从非编码区发现的较保守的片段很可能就是转录因子的结合位点,比较基 因组学也被运用到转录因子结合位点的识别和预测上来。转录因子结合位点的长度通常 都不长,而且同一个转录因子识别的结合位点常常会有较大的变化,当前许多转录因子 结合位点的识别和预测程度的精度都比较低,在结果中,人们常常很难分辨哪些位点是 真正能结合转录因子的有功能的位点,而哪些其实是没有功能的假位点。实验科学家迫 切需要一个能够给出有参考价值的结果的转录因子结合位点的识别方法。 8 东北师范大学硕士学位论文 2 3 转录因子结合位点的建模方法 转录因子结合位点是一种功能序列,而功能在在进化过程中比非功能序列更加保 守,对于结合位点序列的保守性,目前主要有3 类描述模型【”】。为转录因子结合位点所 建立的模型称为m o 砸模型,这个模型能够描述这些结合位点所携带的重要信息,可以 说l n 0 时是转录因子结合位点保守性或某些特征的提取和表示,而并不等于结合位点。 如何构建n l o 酐就是对转录因子结合位点的建模过程,基于保守性对n 1 0 t i f 的建模主要 有三种表示方法。 1 一致性序列表示法 串模型是最早出现的序列m o t i f 表示方法,其中最常用的是一致性序列模型 ( c o n s e i l s 吣r d e l ,或称共有序列) ,它是指用通配符表( w i l d c a r dc h 嬲砝e r s ) 中的字符组 成的单一字符串来表示序列n 1 0 t i f ,它描述了功能位点在每个位置上核苷酸进化的与功 能相关的保守性,在一致性序列中,既有保守的位置,也有可变的位置,任何位置上的 核苷酸都可以用通配符表中的字符之一来表示。 表2 1 :通配符表 符号含义 说明 gg鸟嘌呤 aa腺嘌呤 tt 胸腺嘧啶 cc胞嘧啶 rg0 f a嘌呤 yt0 rc嘧啶 m a o f c 氨基 k go f t 酮基 sgo f c 强氢键( 3 个氢键) wa o f t 弱氢键( 2 个氢键) ha 0 r c o r t非g bg o r t o r c非a v g o f c o f t非t dg 0 r a o r t 非c ngo r a 0 r t0 r c任意碱基 一致性序列是关于序列特征的一种定性描述,对于d n a 序列,它能够说明序列每 个位置可能出现的碱基类型,但是不能准确地说明各位置上不同类型碱基出现的可能性 大小,在一定程度上掩盖了各个位置上碱基出现的差异性。 9 东北师范大学硕士学位论文 2 位置权重矩阵表示法 因此一个更好的表示m o t i f 的模型是类似于序列特征统计图谱的方法,即基于矩阵 的方法,最基本的矩阵模型大小为4 刀,4 代表碱基的种类数目,咒代表m o 酊序列的 长度,矩阵的行表示4 种碱基,列表示序列中的各个位置,矩阵元素为行对应的碱基在 列对应的位置上出现的频数,称这样的矩阵为位置权重矩阵,如下表2 2 所示。 表2 2 位置矩阵模型 123456789 a0o04oo10o g40o1oo1o4 c 0 55oo4o1 1 t1ooo51340 将碱基频数除以所在列的碱基总数所得到的矩阵即为位置特异性频率矩阵 ( p o s i t i o n _ s p 嘶f i cf r e q u 铋c ym a 仃i x ,p s f m ) ,p s f m 及其变异( 如l o g o d ds c o r c 等) 是目 前使用最广泛的序列模型。 3 可视化模型表示法 可视化模型中最有名的是由s c h n e i d e r 和s t e p h 锄于1 9 9 0 年提出的l o g o 模型【1 9 1 , 该模型是依据一些信息论的知识,用形象、直观的图形方式来表示结合位点的特征。如 图2 2 所示,在l 0 9 0 模型中,每个位置上由出现在该位置的所有碱基堆叠而成,碱基堆 的总高度对应于该位置上总的信息含量,而各碱基按照信息量大小及其出现比例从上而 下排列,因为某一位置的信息含量能反映该位置上碱基保守性,所以1 0 9 0 模型可以非常 直观地表示结合位点的保守程度以及哪些位置上的哪些碱基起着相对重要作用,信息含 量的计算公式为: ,d 、 伦2 善挺 磊刀昂1 0 9 2 【刊 仁1 ) f - l6 e 。g ,c ,r 吁6 其中,舶是碱基在背景序列中的出现频率,r f 则i n o t i f 序列中第f 个位置上碱基6 的出 现频率,得分越高,表明保守性越强,反之保守性越低。 乇令鲤鳢焉,譬“n 廷蟹k 东北师范大学硕士学位论文 2 4 常用数据库 转录因子结合位点的识别研究,离不开数据库的搜索使用,目前转录因子结合位点 的数据库有很多,下面介绍几个常用数据库。 1 t r a n s f a c 数据库 t r a n s f a c 数据库【2 0 抛1 由德国生物工程研究所开发的真核生物基因调控转录因子 数据库,是一个比较完善的二次数据库,始建于1 9 8 8 年,采用关系数据库模式,用表 格存放数据,是关于转录因子、它们在基因组上的结合位点和与d n a 结合的p r 0 6 l e s 的数据库,包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分 布6 个子库,目前该数据正在进一步开发,如构建各种转录因子在不同细胞组织中的表 达特异性数据等,嗽n s f :a c 数据库是一流的转录因子数据库,由s 1 1 r e 、g e n e 、 f a c l o r 、c l a s s 、m a r r 、c e l l s 、m e t h o d 和r e f e r e n c e 等数据表构成。还 有几个与t r a n s f a c 密切相关的扩展库:p 棚o d b 厍、s m a r t d b 库、t r a n s p 删 库、c y r p m e r 库。t ra n s f 褂c 及其相关数据库可以免费下载,也可能通过w 曲进行 检索和查询。 2 t r r d 数据库 1 1 源d ( t h e 1 m n s 函p t i o nr e 粤吡l a t 0 巧r c 西o i l sd 吡山嬲e 转录调节区域数据库) 【2 3 】由俄 罗斯科学院与遗传学研究所建立的,其目的是通过实验方法收集有关真核基因调节区域 的数据,并不断积累真核生物基因延伸调控区的实验数,是关于基因调控信息的集成数 据库。弧r d 包括5 个相关的数据表:t r r d g e n e s ( 基因描述表) 、1 1 r r d s r r e s ( 转录因 子结合位点表) 、咖醐c t o r s ( 转录因子表) 、t 融e x p ( 表达模式表) 、1 1 r r d b m ( 实验来源表) ,脉r d 6 o 除了包括上述5 个表之外,还包括了另外两个表,即t r r d l c r ( 控制区域表,包含控制区域的定位) 和t r r d u n i ,r s ( 调控区域表,包含启动子、增 强子、静默子等) 。目前t r r d 6 o 有关于1 1 6 7 个基因的信息,包括5 5 3 7 个转录因子结合 位点,1 7 1 4 个调控区域,5 3 3 5 个基因表达模式,t r r d 主页提供对数据表的检索服务以 及可视化工具。1 1 r r d 收录的基因根据种属特异性、基因编码的蛋白质的类型以及基因 的功能等进行分类,今后将着重于控制造血作用、内分泌、免疫系统和应急反应的基因 的收录。 3 j a s p a r 数据库 j a s p a r 数据库阱】是有注释的、高质量的多细胞真核生物转录因子结合部位的开放 数据库。所有序列均来源于通过实验方法证实能结合转录因子,而且通过严格的筛选后 再通过模体识别软件龇州s p e c 进行联配。创蝌s p e c 利用人工神经网络和吉布斯( a b b s ) 采样算法寻找特征序列模式,然后再利用生物学知识对联配后的序列进行注释。目前该 数据库收录了1 1 1 个序列模式,现仅限于多细胞真核生物,用户可到c o n s i t e 服务器进 行浏览和搜索转录因子结合的序列模式或进行更复杂的查询。该数据库收集了经过实验 l l 东北师范大学硕士学位论文 证实的转录因子的结合位点的序列,便于查询。把每个位置出现a g c t 的可能性用数值 表示,为查询转录因子的识别序列提供方便。 除此之外,还有许多有关非编码区和转录因子的数据库,如基因启动子数据库【2 5 2 6 】 ( n l ee u k a r y o t i cp r 0 1 r n o t e rd 稚如勰e ,e p d ) ,带注释的结合位点数据库【2 刀( 心协t e d b i n d i n gs i t e s ,a b s ) 、序列模式数据库( p i 的s i t e ) 以及真核基因复合调控元件数据库 ( t r a n s c 0 玎叩e 1 ) 等,这些数据库为研究转录调控元件提供重要而保贵的数据。 2 5 常用识别方法 根据算法策略的不同,研究转录因子结合位点的计算方法【1 2 】主要分为两在类:一类 是穷尽式搜索算法,该类算法对问题所有解进行考察,最后给出满足某种条件的解,因 此能够找到问题的最优解;另一类是启发式算法,这类算法首先对转录因子结合位点的 信息进行某种近似描述,然后通过不断迭代的过程对转录因子结合位点的信息进行调整 优化,直到满足迭代终止条件。穷尽式方法较简单,但却有最高的计算复杂度,只适合 搜索短的结合位点序列。启发式算法具有较低的计算机复杂度,适合在大空间中搜索解, 缺点是不能保证得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业废水处理与环保技术进展
- 工业机器人技术在生产线中的运用
- 工业污染源监测与控制技术
- 工业机器人技术详解
- 工业生产中的智能环境监控解决方案
- 工业机器人的人机交互设计
- 工业机械设计的未来发展方向
- 工业自动化中的机器视觉技术应用
- 工业管道设计与安全保障措施
- 工业领域用高效厢式车的探索与研究
- 商业街区广告牌更换施工方案
- DB21T 3806-2023 电梯检验检测全程录像工作规范
- 图论及其应用知到智慧树章节测试课后答案2024年秋山东大学
- 【MOOC】电子技术实验基础一:电路分析-电子科技大学 中国大学慕课MOOC答案
- 【MOOC】经济数学-微积分(二)-武汉理工大学 中国大学慕课MOOC答案
- DB22T 3053-2019 地理标志产品 乾安羊肉
- 《药物代谢学》课程教学大纲
- 起重机械吊具、索具检查记录表(钢丝绳)
- 信息科技大单元教学设计之七年级第二单元直播网络我来建
- 2024年山东省青岛市中考地理试题卷(含答案及解析)
- 瑞得全站仪RTS-822R3说明书
评论
0/150
提交评论