(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf_第1页
(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf_第2页
(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf_第3页
(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf_第4页
(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基因组中motif预测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重庞整虫太堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:叛殳签字日期:少一7 f 年厂月;2 日 学位论文版权使用授权书 本学位论文作者完全了解 重麽由e 电太堂 有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权 重庆自e 电太堂 可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后适用本授权书) 学位做储躲弓丕嗖聊躲诨生 签字日期: 砂一c 年歹月二z 日 签字日期:函哆年f 月哲日 重庆邮电大学硕士论文 摘要 摘要 基因组中的m o t i f 预测算法研究结合了生物学、应用数学、计算机等学科领域, 是当前生物信息学研究的一个热点。本文在研究m o t i f 预测算法基础上,针对海量 生物基因组数据库的查询搜索需求,改进了贪心e m 算法用于m o t i f 的预测和分析。 m o t i f 的预测首先将生物序列中的碱基或氨基酸转化成为字符串,在不同字符 串序列中寻找最大公共子串,再通过生物学特征将这些字符串提取出来,与利用 实验方法得到的海量生物信息数据库匹配。寻找最大公共子串的算法设计思想和 数学模型是m o t i f 预测的关键所在,目前常用的算法有模式驱动和序列驱动之分, 本文主要是对序列驱动的代表算法e m 进行改进。 本文分别对常用的预测算法进行了算法分析研究和实验比较。 首先,归纳总结常见m o i t f 模型和算法,应用模式生物的数据库信息进行实验 验证,比较了各种算法工具对真实数据集中的预测。以m e m e 算法为基础,结合 g i b b s 采样和w e e d e r 等算法,对实验结果进行比较。实验结果表明,g i b b s 采样算 法和w e e d e r 算法分别具有预测长、短m o t i f 效率高的特点,而m e m e 算法预测长度 范围广,但准确度不高。 其次,以m e m e 的来源e m 算法为基础,将贪心e m 算法作为研究对象,分 析算法模型和特点,进行重新划分后并应用k d 树初始化参数的思想,然后改进算 法。 最后,本文对改进的贪心e m 算法进行仿真。采用人工数据集、真实数据集 进行测试,并用m e m e 和我们的算法进行对比实验,通过i c 值和r o c 曲线的比 较对预测效果进行评估。结果证明,我们的算法较m e m e 有更好的预测性。 关键词:m o t i f 预测,m e m e 算法,贪心e m 算法,k d 树,算法比较 a b s t r a c t r e c e n t l y r e a r c ho na l g o r i t l l i t lo fm o t i fi ng e n o m eh 觞b e c o m eah o tt o p i ci n c 岍e n tb i o i n f o m a t i c s r e s e a r c h , w h i c hc o m b i n e s b i o l o g y , a p p i i e dm a m e m a t i c s , c o m p u t e rs c i e n c e 觚do t h e rf i e l d s i tm a i m ys t u d i e st l l ec h a r a c t e r i s t i c so fv 暑l r i o u ss e a r c h a l g o r i m m si nm ef o r e c 2 u s to fm o t i o u ra i mi st 0i m p r o v ef o r e c a s t i n ga l g o r i t l m l s ,锄d e v e n t u r a l l y 印p l i e st h e mt os e a r c hr e l a t i v ei n f 0 珊a t i o ni nm a s s i v eb i o g e n o m ed a t a b 觞e i l lm o t i ff o r e c 嬲tp r o c e s si nc o m p u t e r f o l l o w i n gb a s e so rp r o t e i nf 如t o rs y m b o l s i i l b i o l o g i c 甜q u e n c e sa r e 戗m s f o 肋e di n t 0c h a r a c t e rs 仃i n g s ,w | eu s u a i l ys e a r c ht 王l e l a r g e s tc o m m o ns u b 。s t r i n g si nd i 虢r e n ts e q u e n c e 矧n g ,e x 仃a c tt l l e s e 嘶n g sa c c o r d i n g t 0b i o l o g i c a lf e a t l l r e ,趴dt l l e nm a t c ht l l e mi nm a s s i v eb i o i n f o r m a t i o nd a t a b 嬲e t h e i m p r o v e m e n to ff o r c c a u s t i n ga l g o r i 锄de s t a 【b l i s t l r i l e n to fm a t h m a t i c a lm o d e lh a v e b e c o m et l l ek e yp o i n t si 1 1m o t i ff o r e c 嬲t s o 细jt l l e r ea r et 、oc o m m o na l g o r i t l u l l s , i n c l u d i n gm o d e l 一鲥v e n锄ds e q u e n c e “v e na 1 9 0 r i t h m a st l l e r e l ) r e s e n t a t i v eo f s e q u e n c e - “v e na l g o r i t l l m ,e ma l g o r i t l l l l l 、v 勰i m p r o v e di nt l l i sp a p e r i n “sp 印e r w e 锄m y z e d 锄dc o m p a r e d 、i t l lc o 舢【i l o nf o r e c 嬲t i n ga l g o r i t h m so f f o r e c 硒t i n gm o t i f f i r s t l y t 0o b s e et h ef o r e c 嬲t i n ge f 凫c to fv a r i o u sa l g o r i t h m so nt m ed a 饥w e s w m n a r i z e dc o m m o nm o i t fm o d e l s 觚da l g o r i t h m s ,n l e n 印p l i e dm o d e l o 唱a n i s m d a k l b a s ei i lo u re x p e r i m e n t b a s e do nm e m e a l g o r i t l l i t l ,w ec o m b i n e dg i b b ss 锄p l i n g a l g o “t l l m 孤dw b e d e ra l g o r i t l l mt 0c o m p a r ee x p e r i m e n t a lr e s u l t s ,w h i c hs h o w e dg i b b s s 锄p l i n ga l g o r i t l l ma i l dw e e d e ra l g o r i t l l m s 、e r ee 硒c i e n ti nl o n g 甜l ds h o nm o t i f r e s p e c t i v e l y 她dm e m eh a da d v 锄t a g e si i lf o r e c a s to fd i 毹r e n tw i d e r a n g em o t i fa t 恤 c o s to fa c c u r a c yo ff o r e c 硒t s e c o n d l y ,b a u s e do ne ma l g o r i t ,w ea n a l y z e dm ea d v a n t a g e sa n dd i s a d v a n t a g e s i n g r e e d ye ma l g o r i t a n dp r o p o s e dm ei d e ao fp a r 锄e t e ri n i t i a l i z a t i o nt h r o u g h r e d r a w i n ga n dk d - t r e e f i n a l l y ,w es i m u l a t e di m p r o v e dg r e e d ye ma l g o r i t h m a n i f i c i a ld a _ c as e t s 锄d t r u ed a t ad a t a s e t sw e r eu s e di nal o n g i t u d i n a le x p e i l i m e n t ,a tt l l es 锄et i m e ,m e m e 觚d o i l ra l g o r i t l l l m sw e r eu s e di nac r o s s - s e c t i o n a le x p e r i m e n t ,w e 嬲s e s s e dt h ee 脏c i e n c v o f m o t i ff o r e c a s tb ym e 肌so fi cv a l u ea n dr o cn l r v e s t h e 托s u l t ss h o w e dt h a to u r a l g o r i t h m 、 r 嬲s u p e r i o rt om e m ei nf o r e c 觞t i n gm o t i h n i 重庆邮电大学硕士论文目录 目录 摘要i a b s t r a c t i i 第一章绪论1 1 1 引言1 1 2 转录调控预测的研究现状和进展2 1 2 1 转录因子结合位点的预测2 1 2 2 转录调控网络的研究3 1 3 研究的目的及意义5 1 4 论文组织与结构5 第二章m o t i f 预测算法的研究基础7 2 1m o t i f 预测的基本概念7 2 1 1m o t i f 的概念7 2 1 2 预测m o t i f 的问题描述7 2 2m o t i f 数据库8 2 2 1d b t s s 8 2 2 2j a s p a r 8 2 2 3t ra n s f a c 9 2 2 4t l 9 2 3m o t i f 预测的基本方法1o 2 3 1 模式驱动的m o t i f 识别l0 2 3 2 序列驱动的m o t i f 识别1 0 2 3 3 基于各种算法的预测识别软件。1 6 2 4 小结17 第三章m o t i f 预测算法的比较分析18 3 1 材料的收集与处理1 8 3 1 1 基因序列的收集和下载1 8 3 1 2 材料的处理1 8 3 2 预测m o t i f 19 3 2 i 软件的下载与安装1 9 3 2 2 具体运行软件识别m o t i f l9 重庆邮电大学硕士论文目录 3 3 结果的比较分析2 0 3 3 1 验证软件的有效性2 0 3 3 2 软件性能比较2 2 3 4 小结2 8 第四章一种基于贪心e m 算法的改进预测算法2 9 4 1 贪心e m 算法在m o t i f 预测中的应用2 9 4 1 1 混合m o t i f 模型2 9 4 1 2 贪心混合学习3 2 4 2 改进初始化模型参数3 3 4 3 基于贪心e m 算法的改进预测算法3 6 4 4 小结3 7 第五章算法的预测实验和结果对比3 8 5 1 采用人工数据集的实验3 8 5 2 采用真值数据集的对比实验3 8 5 2 1f i n g e 印r i n t s 法测试3 8 5 2 2m e m e m a s t 算法测试4 0 5 3 小结4 3 第六章总结及未来的工作4 4 6 1 结论4 4 6 2 未来的工作4 4 致谢4 6 攻硕期间从事的科研工作及取得的研究成果4 7 参考文献4 8 附录5 2 2 重庆邮电大学硕士论文 第一章绪论 1 1 引言 第一章绪论 生物体在进化过程中形成了一套复杂的调控机制,包括基因的表达过程、代 谢过程、信号传导过程等等,在细胞中和细胞之间都受到非常严格的调控。人类 基因组计划( h u m 锄g e n o m ep r o j e c t ) 的完成,是生物信息学研究新的一页。随着对 多种模式生物基因组测序的完成,人类对多个物种的基因组有了进一步的了解。 但是,仅仅知道基因组中有哪些基因还是远远不够的,我们还需要了解每一个基 因受到怎样的控制,在哪些组织器官中表达,在什么时间或什么情况下发生表达。 遗传密码子的破译使得人类对生命过程的理解大大前进了一步,现在我们面 临着破译基因组的调控密码【l l 的问题。高等的真核生物中非编码区占了基因组的很 大一部分,这部分序列对于生物体来说并非是无关紧要的,其中包含着决定基因 组中的每一个基因如何转录表达的重要信息,也就是基因调控编码。 基因表达的过程起始于基因的转录,转录过程的调控在基因调控的过程中起 着至关重要的作用。正确的转录调控使得生物体内的能量和资源得到正确的分配。 基因的调控区存在着一些能够和特殊的转录因子结合的顺式作用元件( m o t i f ) 。在 细胞中,转录因子常常扮演着信使的角色。细胞接收到某种外界刺激之后,激活 某些转录因子,然后这些激活了的转录因子与d n a 上相应的结合位点结合,将 i 斟a 聚合酶吸引到相应的基因的转录起始位点附近,启动转录过程的发生。因此 在转录调控的研究初期,m o t i f 的预测成为一个热点问题。如果能正确的预测出基 因的调控区中有哪个转录因子的结合位点,我们就能了解这个基因受到哪些转录 因子的控制,可能会在什么情况下表达。 m o t i f 的长度通常都大,从5 b p 到几十b p ,而且同一个转录因子识别的m o t i f 长度常常会有较大的变化。当前许多m o t i f 的预测程序的精确度都比较低。在预测 结果中,人们常常很难分辨哪些位点是真正能结合转录因子的有功能的位点,而 哪些其实是没有功能的假位点。实验科学家迫切需要一个能够给出有参考价值的 结果的m o t i f 预测算法。在这种需求背景下,开发了各种预测算法,这些算法在多 条相关序列中寻找出现频率高的序列片段。在多个相关序列中都出现的序列片段 是假位点的可能性很小,保证了预测结果的可信度。算法利用已知转录因子的相 关信息进行预测,预测结果可以直接和相应的转录因子联系起来,方便了对预测 结果的分析和利用。 重庆邮电大学硕士论文第一章绪论 1 2 转录调控预测的研究现状和进展 1 2 1m o t i f 的预测 m o t i f 的预测是生物信息学较早开展研究的课题,2 0 世纪9 0 年代,分子生物 学实验逐渐确定出了许多转录因子和它们相应的结合位点,同一个转录因子的结 合位点具有一定的保守性,于是最初人们用保守序列来描述转录因子的结合位点, 随着研究的深入,人们发现用位置权重矩阵( p o s i t i o n a lw 色i g h tm a t r i x ,p w m ) 能够更 精确地描述结合位点的性质。随着转录因子数据的增加,人们用数据库的形式把 转录因子及其结合位点的信息组织起来,方便查询和使用,比较常用的有 t 凡气n s f a c f 2 】【3 1 、t 砒m 【4 】【5 】和p l a c e 【6 】【7 】等。最近还新出现了拟南芥转录因子数据 库d a t f 【8 l 。基于这些数据,人们又开发了分别基于保守序列和位置权重矩阵的预 测t f b s 的算法,比如m a t i i l s p e c t o r 例等。 共转录的基因常常受到同一组转录因子的调控,依据这个原理,一些基于未 知序列模式的m o t i f 预测算法也被开发出来,如m e m e 【1 0 】,a l i 鲫a c e 【1 1j 等。这类算 法的目标是从一组共调控的基因的调控区中找出出现频率高的序列片段。利用表 达谱数据的聚类可以得到在一组条件下同调控的基因,因此这类算法也常常和表 达谱数据聚类结合起来使用,预测转录因子的结合位点【l 引。用这样的方法找出来 的序列片段还需要和相应的转录因子联系起来,以确定哪些转录因子参与了转录 调控。这使得对预测结果的分析变得比较困难。 基于已知结合位点模式的预测算法也同样存在着局限性,其中重要的一点就 是算法的预测准确度非常有限。f i c k e n 对m y o d 这个转录因子的研究发现,用 m y o d 的结合位点模型进行预测,大概平均5 0 0 b p 左右就能得到一个预测位点i l 3 1 。 这样在人类基因组中就能得到大约1 0 6 个预测结果,而其中有功能的位点可能只 有不到1 0 3 个。也就是说实际上有功能的真实位点大概只有预测位点的千分之一。 出现这种情况的根本原因在于我们对转录因子识别结合位点的机制了解地还十分 有限。因此,即使是随便地提交一条序列,许多预测算法依旧会给出许多预测结 果,这便是所谓的假阳性问题。这些结果很难给实验科学家提供有用的信息。 针对这种情况,有人针对特定的转录因子优化了结合位点的模型,用优化后 的模型在基因组中预测该转录因子的结合位点,提高了预测的精度。但是目前这 种优化还只是限于个别的转录因子。 随着越来越多的模式生物全基因组测序的完成,比较基因组学也被运用到 m o t i f 的预测上来【1 4 】。如果非编码区中的某个片段是某个转录因子的结合位点,那 么在进化过程中,这些片段应该会被保留下来。如果我们研究几个具有一定亲缘 2 重庆邮电大学硕士论文第一章绪论 关系的基因组,从非编码区中发现的较保守的片段可能就是转录因子的结合位点。 这些功能位点好像是进化过程在基因组上留下的脚印,所以这个方法也被叫做遗 传系谱印记法( p h y l o g e n e t i c sf o o t p r i n t i n g ) 。利用比较基因组预测m o t i f 的时候,物 种的选取是很关键的,如果物种的亲缘关系太近,非功能序列还来不及发生改变, 这时候功能片段和非功能片段就会混杂在一起。反过来,如果用于比较的物种之 间间隔很远,经过漫长的进化历程之后,功能位点也有可能发生比较大的变化。 l e i l i l 硼等人把p h y l o g e n c t i c sf o o t p r i n t i n g 和基于已知结合位点序列模式的预测方 法结合到一起,取得了不错的效果【i6 1 。在高等真核生物中,非编码序列占了基因 组相当大的部分,利用遗传系谱印记法可以先把可能存在m o t i f 的区域确定下来, 从而提高了下一步预测的效率和准确性。 准确的m o t i f 的预测可以为实验研究提供重要的参考信息。新的预测算法应该 能够综合多个方法的优点,既能提高预测结果的可信度,又能方便的把预测结果 和已知的转录因子联系在一起。只有预测结果的可信度提高了,算法才能为实验 生物学家提供真正有用的信息。准确的m o t i f 的预测对于转录调控网络的研究也具 有重要的意义。 1 2 2 转录调控网络的研究 在后基因组时代,生物信息学面临的一大挑战就是重建基因的转录调控网络。 上面所说的m o t i f 的预测也是研究转录调控网络的过程中非常重要的一个环节。在 重建调控网络的过程中,需要在整个基因组的水平上来考察每个基因的转录调控, 研究基因的转录调控区如何接收转录因子传递的信号,实现动态的调控过程。 为了从已有的数据描绘出完整的转录调控网络,需要解决几个方面的问题, 一个是确定转录因子的目标调控基因,其次是确定转录因子在各个不同条件下的 活性,最后利用这个活性研究基因在不同条件下对转录因子的组合调控信号采取 的响应方式17 1 。 目前,已经有比较成熟的实验技术可以用来研究转录因子的目标基因。染色 质免疫共沉淀芯片( c h i p c h i p ) 技术可以用来检测转录因子和d n a 相互作用,它的 出现大大丰富了研究转录调控网络需要的信息。这项技术已经在酵母上取得了大 规模的实验数据。h a r b i s o n 等人利用c h i p c h i p 得到的有关酵母转录因子和d n a 相互作用的数据总结出了酵母基因组中部分的转录调控编码( r e g u l a t o 硝c o d e ) 【1 8 】, 其中包括了1 0 0 多个酵母的转录因子和它们所调控的基因。但是c h i p c h i p 技术也 有它的局限性,因为有许多转录因子只有在特定的条件下才能与相应的顺式作用 元件结合。目前已经取得的c h i p c h i p 数据所覆盖的条件依然非常有限,所以用 重庆邮电大学硕士论文第一章绪论 c h i p c h i p 数据得到的只是基因组中转录因子和d n a 相互作用的部分信息l l7 j 对细 胞中的转录因子( 的含量) 加以扰动( 比如敲除或者过表达) ,然后测量基因的表达谱, 也可以用来推测转录因子的目标基因。这种实验也称为t f p e ( t r a n s c r i p t i o nf a c t o r p e m 曲a t i o ne x p e r i m e n t ) 。w n g 等人利用t f p e 数据和启动子的序列分析,证明了 利用t f p e 数据识别转录因子的目标基因的可行性引。 得到转录因子的目标基因,我们还只是得到了有关转录调控网络的静态的结 构。为了研究转录调控网络的动态变化,需要知道在不同条件下转录因子的活性 【1 7 】。这一直以来是转录调控网络研究的一个难点。因为目前还没有在不同的条件 下大规模的直接测定转录因子活性的实验技术【r 丌。由于缺少转录因子的活性数据, 许多研究小组提出了许多新的方法来研究基因在不同条件下对转录因子组合调控 的响应。s e g a l 等人用转录因子的表达谱数据来代替转录因子的活性数据,构建了 一个m o d u l en e t 、o r k ,利用贝叶斯网络和决策树,给出了一些酵母中可能存在的组 合调控关系【2 1 1 。当然,这种方法的应用是受限制的,因为转录因子的活性通常不 仅仅决定于编码这个转录因子的基因的表达量i l 。b a r k a i 等人开发了一个用于识 别在部分条件下共表达的基因的算法,如果这些共表达的基因都受到某个转录因 子的调控,那么就可以反过来推导出这个转录因子在这些条件下起作用( 有活性) 。 利用c h i p c h i p 数据和基因表达谱数据,b 锄e i j e e 等研究了在酵母细胞周期中 可能有合作调控的转录因子。如果两个转录因子共同的目标基因在表达谱上具有 更高的相关性,就认为这两个转录因子之间存在某种合作调控的机制。注意到他 们的方法只是利用了基因表达谱数据和从c h i p c h i p 数据得到的有关转录因子的目 标基因的数据,不同条件下转录因子的活性依旧是未知的。b e e r 等人则从另一个 全新的视角来研究转录因子的组合调控。他们并不构建转录因子到基因的网络, 而是构建了一个从上游调控区的序列模式到基因表达谱的贝叶斯网络【2 0 j 。他们得 到了能够最好的解释基因属于哪一个表达谱聚类的序列模式,并且能利用这些序 列模式预测没有在训练集中的基因属于哪一个聚类。在缺乏转录因子活性数据的 情况下,这两种方法还是得到了很有意义的结果,同时也说明了转录因子的组合 调控机制在转录调控网络中的重要作用。 两个转录因子对基因的组合调控可以说是最简单的一种组合关系。从理论上 讲,如果假定转录因子有两种活性状态、基因的转录也有两种活性状态,那么仅 仅是两个转录因子就能组合出4 种不同的信号,基因对每种信号可能采取2 种响 应方式,于是在两个转录因子调节一个基因的情况下就可以有2 4 = 1 6 种不同的组 合逻辑关系1 2 列( 如果把基因的活性看成是转录因子活性的逻辑函数( l o g i c f u n c t i o n ) ,这就相当于有1 6 个逻辑函数) 。b u c h l e r 等人对原核生物的理论分析指 出,通过改变上游调控序列中m o t i f 的保守性以及结合位点之间的相对位置,原核 4 重庆邮电大学硕士论文第一章绪论 生物就可以在基因组上实现许多复杂的组合调控逻辑( l o g i cf u i l c t i o n ) 瞄2 1 。 真核生物的组合调控是否遵循类似的机制,为了研究这个问题,我们需要深 入理解转录因子间的相互作用,以及基因上游调控区的转录过程的影响。两个转 录因子的组合可以看成是更复杂的组合调控的基本构成单元。研究两个转录因子 的组合调控逻辑,对于理解整个调控网络如何运转起了关键的作用。有关酵母这 个模式生物的大规模实验数据的增加,为进一步研究组合调控创造了机会。 1 3 研究的目的及意义 更进一步地提高m o t i f 的预测准确性,需要我们对转录因子识别顺式作用元件 这个过程更深入的理解。越来越多的大规模实验数据,如基因芯片数据,蛋白质 相互作用数据以及新近出现的c l l i p c h i p 实验数据为我们更精细地了解基因的转录 调控,尤其是转录因子和调控区的相互作用机制创造了条件【1 7 j 。 一个基因常常受到多个转录因子的调控。通过多个转录因子的组合,可以用 有限的一套转录因子完成十分复杂的调控过程,使基因能够在多个不同信号的刺 激下发生转录。转录因子之间的相互作用可能对于转录因子与顺式调控元件的识 别过程起着非常重要的作用。理解两个或多个转录因子之间如何相互作用,共同 调节同一个基因的转录,也就是转录因子的组合调控,成为近年来转录调控研究 的重点。其中的一个重要问题是:不同的转录因子的活性对基因的转录活性有什 么样的作用,基因转录调控区的序列模式对组合调控又有什么样的影响。目前尚 未有实验方法可以大规模地测定转录因子在不同条件下的活性状态。 本课题的研究目的是深入研究基因调控知识,利用网络资源快速查找相关文 献,了解调控元件识别算法,优化和构建新的预测算法来有效的获得m o t i f 。通过 整个实验操作过程,掌握文献查找、数据下载、数据处理、m o t i f 预测软件的操作 及选择、结果分析、设计预测算法来预测m o t i f 的全过程,对生物信息学有进一步 深入的了解。 1 4 论文组织与结构 第一章介绍了选题意义,调控序列预测的进展,以及本论文的研究背景和研 究工作。 第二章我们对m o t i f 预测中常用的一些理论和算法进行介绍。 第三章我们用不同算法测试数据后进行比较分析,并整理出了预测算法特点。 第四章对贪心e m 算法和相关模型和数据结构做了介绍,改进初始化部分并 5 重庆邮电大学硕士论文第一章绪论 设计p k g 算法,最后进行仿真。 第五章介绍了利用p k g 算法进行的对比测试,并通过比较预测结果的i c 值 和真( 假) 阳性,证明我们改进后的算法能有效提高预测效率。 第六章对本文进行了总结,提出下一步的研究计划。 6 重庆邮电大学硕士论文第二章m o t i f 预测算法的研究基础 第二章m o t i f 预测算法的研究基础 2 1m o t i f 预测的基本概念 2 1 1m o t i f 的概念 在几乎所有基因的上游区域中都还存在着激活基因所需的一段特定的d n a 序 列( 转录因子结合位点) 。这些特定的d n a 序列也被称作转录调控元件( m o t i f ( 模 体) ) 。 m o t i f 本身并不执行任何功能,只有当其被调控蛋白( 转录因子) 识别、结合后 才能发挥作用,它们共同控制着基因的转录。在转录和后转录水平,基因的表达 在很大程度上受到一些m o t i f 的控制,它们本质上是一些比较短的d n a 序列,这 些序列一般处在受调控基因的上游区域,转录因子识别这些m o t i f 后,并与之结合, 调节d n a 的代谢和转录,或者由r n a 结合蛋白识别,并与之结合,影响r n a 的 修饰、定位、翻译和降解。 因此,分析和识别m o t i f 及了解他们的功能是理解和解释整个基因组行为的重 要步骤。 2 1 2 预测m o t i f 的问题描述 目前m o t i f 的分析和识别主要涉及三类问剐2 3 】: 1 ) 在给定基因的上游区域寻找已知的转录调控元件; 2 ) 在一系列共表达或者共调控基因的上游区域中发现未知的m o t i f 3 ) 寻找由一个已知t f 调控的未知基因( 转录调控元件) 。这里由于第一类和第 三类问题涉及到生物试验的方法,需要大量投入且周期过长,故本文的研究内容 是针对第二类问题展开的。 无论是搜索已知的m o t i f ,还是预测新的m o t i f ,都会遇到三个基本问题,一 是为m o t i f 建立什么样的特征模型;二是要定义一个衡量序列片断是否为m o t i f 的 度量或得分;三是当给定了m o t i f 模型和得分函数后,如何从待分析的序列中识别 得分最高的候选元件。 从生物学意义上描述m o t i f 所具有的特点: 1 ) 与同一转录因子相作用的结合位点在序列组成上可能存在差异。而造成这 种差异的的主要原因可能是功能上的差异。 7 重庆邮电大学硕士论文 第二章m o t i f 预测算法的研究基础 2 ) 结合位点的序列中的某一些碱基对结合是必要的,有些并不是必要至关重 要的。这些并不是至关重要的碱基位置可以是几种不同的碱基其中的一个。 通过对以上问题的描述,可以将生物问题这样简化,即在行个字符串 ,s :, 中根据给定的规则来找聊个近似公共子串而,s :,这里朋个字串就代表这,l 条 序列,按照生物学功能聚类后得到m o t i f 。 2 2m o t i f 数据库 转录是遗传信息传递过程中第一个具有高度选择性的环节,近2 0 年来,对基 因转录调控的研究一直是基因分子生物学的研究中心和热点。随着生物信息学的 飞速发展,建立了大量很有价值的转录调控位点和转录因子数据库,为进一步研 究t f 带来了极大的便利。这里简要介绍其中一些数据库【2 3 】: 2 2 1d b t s s d b t s s ( d 砒l b 嬲eo ft r 觚s c r i p t i o n a ls t a ns i t e s ) 由东京大学人类基因组中心维 护( 网址:t l n p :d b t s s h g c i 。最初该数据库收集用实验方法得到的人类基因的 t s s ( t r 孤s c r i p t i o n a ls t a ns i t e s 转录起始位点) 数据。对t s s 的确切了解具有非常重 要的意义s 可更准确的预测翻译起始位点;可用于搜索决定t s s 的核苷酸序列; 可更精确地分析上游调控区域( 启动子) 。自2 0 0 2 年发布第一版以来已作了多次更 新,最新版本为3 o 。目前包含的克隆数为1 9 0 9 6 4 个,含盖了1 1 2 3 4 个基因,在s n p 数据库中显示了人类基因中的s n p 位点,而且现在还包含了鼠等其他生物的相关数 据。 2 2 2j a s p a r j a s p a r 是有注释的、高质量的多细胞真核生物转录因子结合部位的开放数据 库( 网址:h 婶:m o r d o r c 曲k i s e c g i b i 嘶硒p a r 2 0 0 5 j 舔p a r d b p l ) 。所有序列均来源于通 过实验方法证实能结合转录因子,而且通过严格的筛选,通过筛选后的序列再通 过模体( m o t i f ) 识别软件a 1 州s p e c 进行联配。a 1 州s p e c 是利用人工神经网络和吉 布斯( g i b b s ) 采样算法寻找特征序列模式。联配后的序列再利用生物学知识进行注 释。目前该数据库收录了1 1 1 个序列模式( p r o f i l e s ) ,但仅限于多细胞真核生物。通 过主页界面,用户可进行下列操作: 1 ) 浏览转录因子( t f ) 结合的序列模式; 2 ) 通过标识符( i d e n t i f i e r ) 和注解( a r m o t a t i o n ) 搜索序列模式; 8 重庆邮电大学硕士论文第二章m o t i f 预测算法的研究基础 3 ) 将用户提交的序列模式与数据库中的进行比较; 4 ) 利用选定的转录因子搜索特定的核苷酸序列,在服务器( 网址: h t t p : 狲w p h y l o f o o t o r g c o n s i t e ) 上可进行更复杂的查询。 2 2 3t r a n s f a c t 凡州s f a c ,是一个一流的转录因子商业数据库,只有部分是可以免费使用 的( 网址:h t t p :肌m 眦g e n e r e g u l a t i o n c o m p u b d a t a b 嬲e s h t m l ) 。它收集的数据十分广 泛,包涵了大部分真核生物转录因子及其基因结合位点和d n a 结合序列,并进行 了分类。还提供许多按不同关键词( c e l l 、c l 嬲s 、f a c t o r 、g e n e 、m a t r i x 、s i t e 等) 进行搜索的途径,并与e m b l 等核酸序列数据库链接。 2 2 4t i 泐 t i u m ( t h et r a n s c r i p t i o nr e g u l a t o d ,r e g i o n sda _ t a b 嬲e ,转录调节区域数据库) 由西伯利亚分校细胞与遗传学研究所于1 9 9 3 年组建( 网址: m p :、v 、 ,、砌g s b i o n e t n s c m m g s d b 硒e s 腑d 4 ) 。它包括转录调节区域的模块结构以 及它们在所有组成调控单元中的分类地位,主要包括: 1 ) 顺式元件; 2 ) 提供d n a 蛋白质和蛋白质一蛋白质在相邻部位作用的复合元件; 3 ) 组成基本转录复合物的启动子; 4 ) 调节转录水平的增强子和沉默子; 5 ) d n a5 和3 区的转录调节区域; 6 ) 完整的基因转录调节体系。 目前的最新版本为4 o ,它通过引入新的数据表示格式,提供了更全面关于基 因表达调控m o t i f 的描述以及这些调控区域的结构特征。t i u m 收录的基因根据种 属特异性、基因编码的蛋白质的类型以及基因的功能等进行分类。今后收录的基 因将着重于控制造血作用、内分泌、免疫系统和应急反应的基因。 除了上面介绍的数据库以外,还有许多有关转录调控位点和转录因子的数据 库,如a c t i v i t y ( 功能性d n 删a 位点活性数据库) ;p r o s i t e ( 蛋白质家族数 据库) ;t 凡州s c o m p e l ( 真核基因复合调控元件数据库) 等。 这些数据库的建立,为转录调控的进一步研究提供了丰富的资源,它是用计 算机方法构建转录预测模型的基础。同时,这些汇编的数据又促进了识别转录因 子结合位点算法和程序包的发展。 9 制,m o t i f 的识别是目前基因组序列分析的一个重要方面。模式驱动的识别的主要 任务是:在基因组序列中寻找满足m o t i f 特征模式的序列片段。最常用的方法是以 矩阵形式描述序列特征模式,搜索可能的m o t i f 。可分为两种情况:模式表示为一 致性序列及模式表示为矩阵形式。 2 3 2 序列驱动的m o t i f 识别 实际情况中,绝大部分转录因子作用的m o t i f 是未知的,包括其碱基组成及其 在序列中的出现位置。因此,从序列中识别并发现m o t i f 的序列模式特征是m o t i f 识别要解决的主要问题。序列驱动的m o t i f 识别的主要任务是:在一组序列中,发 现满足共同特征的序列片段。下面介绍几种常用的序列驱动m o t i f 识别方法。 基于字串的方法 此类方法比较直观,具体思想如下:假定具有统计显著性的m o t i f 长度为i l 并且这个m o t i f 是连续的,启动子区域长度m ,则对于此区域,可得到k 种 m o t i f ( k 细n + 1 ) 。然后对于一组共调控基因的启动子区域作上述穷举法计数统计, 将m o t i f 的观测次数和期望次数进行比较,挑出具有统计显著性的m o t i f o 对m o t i f 进行统计学显著性的评估主要有下列方法 2 4 】。 1 ) h e l d e n 方法 这种方法的特点是简单快速,能够识别5 “个碱基长度的m o t i f 。对于给定长 度的m o t i f ,首先从研究对象的基因组中非编码区统计每种可能出现的m o t i f 的期 望频率,根据这个频率表计算给定一组共调控基因的启动子区域中某一m o t i f 期望 出现的次数,把这个次数和实际观测到m o t i f 次数作比较。最后得到一个显著性系 数来判断这个m o t i f 是否过表达,从而找到在这组共调控基因的启动子区域中的共 有m o t i f o 这种方法的缺点是严格要求m o t i f 的连续性,也就是说这个m o t i f 中每 个位置都是严格保守的,不能有替换发生。m o t i f 的实际情况不是这样。一个转录 因子通常可以结合多个m o t i f ,反之亦然。通过与多个m o t i f 不同的亲和性,一个 l o 重庆邮电大学硕士论文 第二章m o t i f 预测算法的研究基础 转录因子可以控制不同基因的表达水平。所以对于m o t i f 来说,它的保守性相当有 限。 为了解决这种问题,v 觚h e l d e n 等又扩展了上述方法,新方法能够识别两端 保守、中间有固定长度的不保守序列m o t i f o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论