(计算机软件与理论专业论文)基于禁忌搜索的rna二级结构预测研究.pdf_第1页
(计算机软件与理论专业论文)基于禁忌搜索的rna二级结构预测研究.pdf_第2页
(计算机软件与理论专业论文)基于禁忌搜索的rna二级结构预测研究.pdf_第3页
(计算机软件与理论专业论文)基于禁忌搜索的rna二级结构预测研究.pdf_第4页
(计算机软件与理论专业论文)基于禁忌搜索的rna二级结构预测研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

nl 一 飞 、 一 lq u l l1 1 1i i ii t l 1 l l l1 4 y 18 0 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 日期:沙一年r 月叫箔 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导师签名: 之墨! 三i 日期:加产年f 月“日 ,氟惦 “ h r _ 他 i j 摘要 摘要 核糖核苷酸( r i b o n u c l e i c a c i d ,r n a ) 是重要的生物分子,不仅充当遗传 载体和传递工具,还具备催化r n a 剪接,加工和修饰r n a 前体,调控基因 等重要功能。r n a 如何发挥上述功能,还具备哪些功能,如何利用r n a 功能设 计药物,治疗疾病等问题亟待解决。此外,人类基因组计划( h u m a ng e n o m ep r o j e c t , h g p ) 于2 0 0 1 年完成序列测定,产生海量生物数据,加快r n a 功能研究具有重 要意义。 r n a 功能与其特定结构紧密相联,其结构分为三个层次:一级结构,二级结 构和三级结构。相对于r n a 的一级结构而言,二级结构和三级结构对于r n a 功 能研究具有较多生物意义。了解r n a 的功能机制,需要从研究r n a 的具体结构 入手。由于r n a 分子具有降解速度快,难以结晶等特点,利用x 射线晶体衍射方 法和核磁共振( n u c l e a rm a g n e t i cr e s o n a n c e ,n m r ) 方法,虽然可以精确测定r n a 空间结构,但是费时费力,代价高昂。尤其面对海量生物数据,上述物理实验方 法并不适合采用。目前,r n a 二级结构研究是r n a 空间结构研究的重要课题, 基于计算机仿真的预测方法已成为预测r n a 二级结构的重要途径。 本论文探讨基于禁忌搜索的r n a 二级结构预测问题,论文工作包括: l 、阐述r n a 分子的生物学背景,给出r n a 二级结构相关描述; 2 、从算法的设计思想角度,比较分析现有主要的r n a 二级结构预测方法, 包括比较序列分析方法,动态规划方法和启发式方法,指出上述方法的优点和不 足; 3 、给出一个基于禁忌搜索的r n a 二级结构预测方法( r n as e c o n d a r ys t r u c t u r e p r e d i c t i o nb a s e do nt a b us e a r c h ,r n a t s ) 。r n a t s 算法基于禁忌搜索思想,建立 茎区相似度度量方法,通过增加、删除和替换茎区策略构造当前解的邻域和扩充 域,设计禁忌表和已访问区域表及其访问区域半径,避免陷入迂回搜索并搜索未 访问区域,采用集中性搜索和扩充性搜索两阶段搜索最小自由能r n a 二级结构。 仿真实验表明,r n a t s 算法能有效获得最小自由能并预测r n a 二级结构。 关键词:r n a 二级结构,最小自由能,禁忌搜索算法 1 t l i,0p 厶 。 r 幡 i _ a b s t r a c t a bs t r a c t r i b o n u c l e i ca c i d ( r n a ) i sa ni m p o r t a n tb i o l o g i c a lm o l e c u l e ,w h i c hp l a y sak e y r o l e i nc a t a l y z i n gr n a c l e a v a g ea n ds p l i c i n g ,m o d i f y i n gp r e r n a ,r e g u l a t i n gg e n e e x p r e s s i o ne r e ,n o to n l yc a r r y i n ga n dt r a n s f e r r i n gt h eg e n e t i c i n f o r m a t i o ni nc e l l h o w t op l a yt h eb i o l o g i c a lf u n c t i o n so fr n a ,w h a to t h e rp o t e n t i a lf u c t i o n sr n ah a s ,a n d h o wt ou t i l i z et h ek n o w nr n at od e s i g nd r u g sa n dc u r ed i s e a s e s t h e s et a s k sa r eb e f o r e u s e s p e c i a l l y , a f t e rd e t e r m i n i n ga l lg e n es e q u e n c e si n2 0 01 ,h u m a ng e n o m ep r o j e c t ( h g p ) b r o u g h tam a s sb i o l o g i c a ld a t a i ti ss i g n i f i c a n tt oa c c e l e r a t et h es t u d y o fr n a r n as t r u c t u r ei se s s e n t i a lf o ri t sb i o l o g i c a lf u n c t i o n t h e r ea r et h r e es t r u c t u r a l l e v e l si nr n a :p r i m a r y , s e c o n d a r ya n dt e r t i a r ys t r u c t u r e i nc o n t r a s tt or n ap r i m a r y s t r u c t u r e ,i t ss e c o n d a r ya n dt e r t i a r ys t r u c t u r eh a sr i c hb i o l o g i c a ls i g n i f i c a n c e t h er n a s t r u c t u r ei sk e yt ok n o wt h ef u n c t i o nm e c h 【a n i s mo fr n a d u et of a s td e c o m p o s i t i o n a n dh a r dc r y s t a l l i z a t i o no fr n a ,i ti sa c c u r a t et od e t e r m i n er n at e r t i a r ys t r u c t u r eb y t h ew a yo fx r a yc r y s t a l l o g r a p h ya n dn u c l e a rm a g n e t i cr e s o n a n c e ( n m r ) ,b u tt h e s e m e t h o d sa r ee x p e n s i v ea n dc o s t l y e s p e c i a l l y , t h e s em e t h o d sd on o tw e l la d o p tt o a n a l y z et h em a s sb i o l o g i c a ld a t a s of a r , t op r e d i c tr n as e c o n d a r ys t r u c t u r e i sa n i m p o r t a n ts u b j e c tt o f u r t h e rs t u d yt h er n at e r t i a r ys t r u c t u r e i ti sam a i na v e n u eo f r e s e a r c ho fr n as e c o n d a r ys t r u c t u r ei nv i r t u eo ft h ea l g o r i t h mb a s e do r lc o m p u t e r s i m u l a t i o n i nt h i st h e s i s ,w ed i s c u s san o v e lm e t h o df o rp r e d i c t i n gr n as e c o n d a r ys t r u c t u r e b a s e do nt a b us e a r c h t h et h e s i si n c l u d e st h ef o l l o w i n gw o r k : 1 s e tf o n ht h eb i o l o g yb a c k g r o u n do fr n a ,a n dg i v et h ed e s c r i p t i o no fr n a s e c o n d a r ys t r u c t u r er e l a t e d ; 2 a n a l y z et h em a i n l yk n o w nm e t h o d so fp r e d i c t i n gr n as e c o n d a r ys t r u c t u r e f r o mt h ep e r s p e c t i v eo fa l g o r i t h md e s i g ni d e a ,i n c l u d i n gt h ec o m p a r a t i v e s e q u e n c ea n a l y s i sm e t h o d ,d y n a m i cp r o g r a m m i n gm e t h o d ,a n d h e u r i s t i c m e t h o d ,a n dg i v et h em e r i t sa n ds h o r t a g eo ft h em e t h o d s ; 3 p u tf o r w a r dan o v e lm e t h o df o rp r e d i c t i n gr n as e c o n d a r ys t r u c t u r ec a l l e d r n as e c o n d a r ys t r u c t u r ep r e d i c t i o nb a s e do nt a b us e a r c h ( r n a t s ) r n a t s i i b a s e do nt a b us e a rc _ h ,t a k e st h em e a s u r eo fs t e ms i m i l a r i t y , c o n s t r u c t s t h e n e i 2 b b o u r h o o da n d d i v e r s i f i c a t i o nr e g i o nb ya d d i n g ,d e l e t i n ga n ds u b s t i t u t i n g s t a c k ,d e s i 鲷st h et a b ul i s t ,t h e v i s i t e dr e g i o nl i s ta n dt h er a d i u so fv i s l t e d r e g i o nt oa v o i dc i r c u i t ys e a r c ha n de x p l o r et h eu n v i s i t e dr e g i o n s ,a n da d o p t s 铆op h a s e so fi n t e n s i f i c a t i o ns e a r c ha n dd i v e r s i f i c a t i o ns e a r c ht o e x p l o i tt h e r n as e c o n d a r ys t r u c t u r e w i t hm i n i m u mf r e ee n e r g y t h ee x p e r i m e n t a l s i m l 】1 a t i o np r o v e st h a tr n a t si se f f i c i e n tt os e a r c ht h em i n i m u m f r e ee n e r g y a n dp r e d i c tr n as e c o n d a r ys t r u c t u r e k e y w o r d s :r n as e c o n d a r ys t r u c t u r e ,m i n i m u mf r e ee n e r g y , t a b us e a r c h a l g o i i t l l i i l i i i 篆;o以0 目录 第一章绪论。1 1 1 研究背景及意义1 1 2 国内外研究现状2 1 3 论文工作与安排4 第二章r n a 序列与结构6 2 1r n a 的生物学背景一6 2 2r n a 的生物学知识8 2 2 1r n a 的组成一8 2 2 2r n a 的种类及功能1 1 2 2 3r n a 的生物结构1 2 2 3r n a 的二级结构定义1 4 2 3 1r n a 的二级结构1 4 2 3 2r n a 二级结构图形表示1 5 2 3 3r n a 二级结构数学定义16 2 4 本章小结1 7 第三章r n a 二级结构预测模型。1 8 3 1 比较序列分析法1 8 3 1 1 共变模型18 3 1 2 随机上下文无关语法模型1 9 3 2 动态规划算法1 9 3 2 1 最大碱基配对算法1 9 3 2 2 最小自由能算法2 3 3 3 启发式算法2 4 3 3 1 遗传算法2 5 3 3 。2 基于排列的进化算法2 6 3 4 本章小结3 0 第四章基于禁忌搜索的r n a 二级结构预测3 1 4 1 禁忌搜索算法31 i v 目录 4 2r n a 的禁忌搜索算法3 3 4 2 1r n a 的禁忌搜索算法模型3 3 4 2 2r n a 结构模型转化中的问题3 4 4 2 3r n a 的禁忌搜索算法实现的技术问题3 6 4 3r n a 的禁忌搜索算法实现4 1 4 3 1 算法流程描述4 1 4 3 2 集中性搜索实现步骤4 l 4 3 3 扩充性搜索实现步骤4 2 4 3 4r n a t s 算法终止条件4 4 4 3 5r n a t s 算法4 4 4 3 6r n a t s 算法开发平台4 5 4 3 7r n a t s 算法编程实现4 6 4 4r n a 的禁忌搜索算法实验5 0 4 4 1 集中性搜索实验对比5 0 4 4 2 参数设置51 4 4 3 两种算法实验对比5 5 4 5 本章小结5 9 第五章总结与展望6 0 5 1 总结6 0 5 2 展望6 1 致谢6 2 参考文献6 3 攻读硕士学位期间研究成果6 6 v tl,i 第一章绪论 1 1 研究背景及意义 第一章绪论 2 0 世纪初,遗传学、生物化学、微生物学等生物学分支的研究迅猛发展,在 生物信息科学领域内不断取得重大突破和进展。遗传学方面从1 9 0 0 年孟德尔定律 的再发现以后与细胞学相结合而建立的基因论,到3 0 年代,基因论已经成为了生 物个体水平和群体水平上研究性状遗传的指导理论。生物化学方面自18 7 7 年提取 出离体的“酿酶”以后,对生物体内新陈代谢的研究进展迅速,到4 0 年代生物体 内分解代谢途径已经基本阐明。微生物学方面在2 0 世纪3 0 4 0 年代阐明了病毒与 噬菌体的本质。遗传学、生物化学和微生物学三个分支学科各自的发展和相互交 叉,为分子生物学的出现奠定了基础。第二次世界大战之后,生物学领域的研究 渗透到了其它领域的研究,如神经生物学中对大脑的研究对医学领域的研究产生 了巨大影响。可以说2 0 世纪的生物学研究为农学,医学,产业革命的发展起到了 巨大的推动力作用。 随着分子生物学的不断研究发现,核糖核苷酸( r i b o n u c l e i c a c i d ,r n a ) 在生 命活动中所发挥的功能倍受生物学家们的关注。研究发现r n a 在细胞中不仅充当 着遗传信息的载体和传递工具,还具有催化r n a 的剪接,加工和修饰r n a 前体, 调控基因表达等重要功能。具有催化作用的r n a 称为核酶,它的发现使得人们对 r n a 进一步研究的探求欲望加深。r n a 干涉可以用于功能基因组学研究,也可用 于克服转基因生物的基因沉默现象,使外源基因在遗传改良生物中能更好地表达, 还用于基因治疗,抑制有害基因的表达等。经过多年的研究,生物学家们已经在 细胞的不同部位发现了许多功能各不相同的r n a ,如核糖体r n a 、信使r n a 、 转运r n a 、核内不均一r n a 和微r n a 等。r n a 的研究逐渐取得了与d n a 和蛋 白质同等重要的地位。 1 9 8 6 年,人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 由诺贝尔生理医学 奖得主d u l b e c c o 提出,在美国国立卫生研究所、美国能源部的3 0 亿美元资助下, 美国、英国、法国、德国、日本和中国六国共同参与下,从1 9 9 0 年开始,于2 0 0 1 年全部完成序列测定,输出了海量的生物数据。基于r n a 在生命科学中所发挥的 重要功能,加之随着h g p 的完成而产生海量生物数据,有关r n a 的结构与功能 电子科技大学硕士学位论文 的研究愈加成为了人们关注的热点。 r n a 的各种功能是与其特定的结构紧密相联的,如核糖体r n a 的结构保证 了核糖体功能的发挥,核内小r n a 的结构保证了其可以参与核内不均一r n a 的 剪切和转运的功能等。深入探索r n a 的复杂功能和特性及其在细胞中的运作机制, 需要从r n a 的具体结构入手。因此,r n a 结构与功能的研究已经成为当今生物 科学领域的一个非常重要的课题【1 2 ,3 1 。 r n a 的结构分为三个层次:一级结构,即r n a 核苷酸链;二级结构,即碱 基a ,u ,g ,c 互补配对,核苷酸链自我折叠形成的结构;空间结构,即二级结 构中的结构单元间通过氢键长程关联或发生其他相互作用折叠形成的结构。研究 中发现,r n a 结构上的保守性要大于其在序列上的保守性。目前,关于r n a 真 实结构的了解还相当贫乏,这对于r n a 复杂功能的研究形成了很大的阻碍,因此 加快研究r n a 空间结构这一问题已经引起了研究者们越来越多的重视。 目前,r n a 的空间结构可以通过x 射线晶体衍射和核磁共振( n u c l e a rm a g n e t i c r e s o n a n c e ,n m r ) 等物理实验方法精确地测定出,但是由于r n a 分子具有降解速 度快,难以结晶等特点,并且面对的是海量的生物序列,因此使用物理实验方法, 花费成本高且时间长,显然不适合直接用于测定r n a 的空间结构。因为r n a 的 空间结构的形成是通过对二级结构自身折叠进而产生空间结构中所有碱基相互作 用的事实,另外二级结构只需要考虑序列在二维平面上的排布,所以借助r n a 的 二级结构的计算机模拟仿真预测是研究r n a 空间结构的一个捷径,这也是目前 r n a 结构的主要预测方法。 1 2 国内外研究现状 有关r n a 二级结构预测已经经历了3 0 多年,随着生物信息科学的不断发展, 对r n a 二级结构的研究也在随之不断完善和深入。研究现状最明显的表现为:一 是研究者们对已有预测模型的不断改进或者是新的预测模型的提出,使r n a 结构 预测精度进一步提高;二是r n a 结构预测由不包含假结的预测到目前含有假结的 结构预测【4 ,5 ,6 ,7 】,使r n a 预测的结构更加趋向完整化。 国内外研究预测r n a 结构的方法主要分为两种:其一是用实验的方法,如x 射线晶体衍射方法和核磁共振方法等,该方式对r n a 空间结构预测准确,但其耗 时且花费高昂;其二是借助数学理论和计算机模拟,通过软件预测r n a 二级结构, 再在r n a 二级结构的基础上进一步研究r n a 的空间结构。目前,有关r n a 空间 2 第一章绪论 结构的研究更多地是基于软件预测r n a 二级结构来实现,其应用具有一定的可靠 性。如z u k e r 教授提出的最小自由能算法,其通过相关的软件m f o l d 实现预测r n a 二级结构预测,对于小于1 0 0 0 个碱基的r n a 序列预测可靠性高,并且己应用到 了实际的药物研制中。 有关r n a 二级结构的主流算法可必分成如下几类:比较序列分析法,动态规 划法【9 , 1 0 ,组合优化法,启发式算法等。 比较序列分析法是在已知的r n a 二级结构的序列的数据库中,首先,搜索与 被预测r n a 序列具有类似结构的同源性的已知的r n a 序列,然后,根据互补碱 基共变联配的规则,对被预测的r n a 序列和搜索到的相似的r n a 序列建立通用 的二级结构共变模型,最后,通过对共变模型的不断训练使之达到预定的状态, 从而将得到的最优的共变模型视为被预测r n a 序列的二级结构。比较序列分析法, 在r n a 二级结构预测模型中,是预测准确性仅次于物理实验方法的一种传统方法。 但是对于小样本的序列或者在序列来源差异很大的情况下,比较序列分析法的比 较结果其可靠性将降低,因为联配的结果直接影响着预测结果。 n u s s i n o v 和j a c o b s o n 首次设计出一个用于预n - 级结构的算法最大碱基 配对算法【1 1 】,它是一种动态规划算法。该算法使用了两个矩阵:一个是b ( f ,歹) ,表 示由弭口,之间任意间隔形成的碱基对的最大数目;另一种是h ( i ,j ) ,表示碱基i 和 ,相配对情况的矩阵。利用上述两个矩阵,通过回溯过程推导出r n a 序列中含有 的最大碱基对数目的配对碱基。这个含有最大碱基对数目的结构被视为预测r n a 的真实结构。通过计算r n a 序列的碱基对数目来预测r n a 结构,该方法未能考 虑各结构的相互作用所带来的结构稳定性的影响,所以算法简单但却可靠性不高。 z u k e r 和s t i e g l e r 提出了最小自由能算法【1 2 , 1 3 】,是动态规划法中经典的算法之 一。最小自由能算法认为在一定温度下,r n a 分子通过自身折叠螺旋堆积后调整 到某种热力学平衡,使自身达到最小自由能,从而形成最稳定的状态,此时的二 级结构被认为是r n a 的真实二级结构【1 3 】。该算法采用动态规划的思想和能量规则 来计算二级结构的最小自由能,其针对各种不同的r n a 基本结构单元并具体到结 构中不同的碱基组成,通过实验测得具体结构单元的自由能参数表,计算所要预 测的r n a 序列自由能的全局最小值。该算法多用于预n d , 于1 0 0 0 个核苷酸长度 的序列的结构。随着序列长度的增加,其可靠性随之下降。最小自由能思想被许 多预测模型广泛采用。 螺旋区堆积法【1 4 】是一种组合优化法,其实现过程是给定一条序列,首先列出 其中所有可能的由连续碱基配对构成的茎区,然后根据中心极限定理,用m o n t e 气 电子科技大学硕士学位论文 c a r l o 随机试验的方法估计出每一茎区的出现概率,然后再每一步迭代当中挑选茎 区列表中概率较大自由能最小的那一个加到当前结构上并消除产生冲突的情况, 直到再也没有茎区可加了,则当前结构就作为r n a 序列的最终二级结构。 遗传算法是一种启发式算法,它是根据生物进化中优胜劣汰的思想,首先把 各种可行解或非可行解进行某种形式的编码,构成一个“生物群体”,然后基于某 个适应度函数,对这些解进行选择、交叉、突变等一系列遗传操作,产生一个进 化了的新群体,这样一代一代进化下去最终达到我们所希望得到的优化解。在该 算法的基础上,提出了许多新的改善方法,如将模拟退火算法与其结合来预测r n a 二级结构【15 1 。 h o p f i e l d 神经网络算法 16 ,1 1 7 】可以看成一个连续动力系统,有相应的l y a p u n o v 能量函数。随着系统的运动,其存储的能量随时间的增长而衰减,直至趋于能量 极小的平衡状态。h o p f i e l d 神经网络算法首先构造出它的一个适当的能量函数,然 后根据能量函数求解出相应的动力系统方程,最后用数值计算方法求出动力系统 方程的平衡点,而平衡点就是所求的最优解。相应于r n a 二级结构即是考虑它的 各种可能的茎区组合,通过能量函数求得其平衡点。 上述简单描述了r n a 二级结构预测研究史上较为经典的几种方法,此外还有 模拟退火算法,动态权重匹配模型【1 8 】等。 随着生物信息科学的不断发展,有关r n a 二级结构预测也面临着许多问题: ( 1 )已有的算法大都局限于长度较短的r n a 序列; ( 2 ) 预测方法运行效率不高,时间复杂度和空间复杂度较高; ( 3 ) 大部分算法都没有预测r n a 二级结构中的假结结构。生物科学的研究发展 证实,r n a 中的假结结构在生命活动中起着重要作用。 综上所述,有关r n a 二级结构预测的进一步研究重点将是如何提高算法的运 行效率并使之可以预测更长的r n a 序列。 1 3 论文工作与安排 本论文介绍了有关r n a 的生物学知识,总结了r n a 二级结构预测方法的研 究现状及进展,提出了基于禁忌搜索算法的r n a 二级结构预测的新思路,并详细 介绍了r n a 二级结构的禁忌搜索模型。 本论文共分为五章,具体安排如下: 本章,从r n a 结构研究的背景出发,阐述了r n a 结构预测的重要研究意义 4 1 j r 及其必要性。同时介绍了 预测算法的优缺点,进而 第二章,介绍了有关 的种类及其功能,然后描 的结构图形表示法,最后 数学定义。该章内容为后 第三章,介绍当前主要的一些r n a 二级结构预测方法,并分析了这些方法存 在的一些问题。首先简单介绍了比较序列分析方法中的共变模型和随机上下文无 关语法模型,其次介绍了动态规划算法中的最大碱基配对算法和最小自由能算法, 并对两个算法的实现过程做了描述。最后详细介绍了启发式算法中的遗传算法和 基于排列的进化算法的思想和实现步骤。 第四章,研究了r n a 二级结构的禁忌搜索模型。我们首先阐述了禁忌搜索算 法的基本思想,然后给出了r n a 的禁忌搜索模型,实现技术及算法流程的描述。 最后对算法中的参数取值作了讨论,并与第三章中介绍的基于排列的进化算法进 行了实验对比分析,实验结果证明了该算法的有效性。 第五章,对全文工作进行了总结,指出了基于禁忌搜索的r n a 结构预测模型 的优点和不足,并对今后的研究工作进行了展望。 5 电子科技大学硕士学位论文 第二章r n a 序列与结构 2 1r n a 的生物学背景 核糖核苷酸( r i b o n u c l e i c a c i d ,i 姒a ) 从最初的发现到最终其命名的提出,时 间经历了6 0 多年。早在1 8 6 8 年,瑞士生物化学家米歇尔从脓细胞的细胞核中提 取出一种富含磷的酸性物质,并将其命名为“核素”。1 8 8 9 年,德国生物化学家奥 尔特曼恩建立并完善了从酵母和动物组织中制备这种“核素 的方法,并将其命 名为“核酸 。1 8 9 3 年,德国化学和生理学家科塞尔成功地识别了组成核酸的四种 碱基。1 9 0 0 年,德国化学家阿斯科里又发现了以一定比例存在于核酸中的另一个 重要碱基尿嘧啶,为区分d n a 和r n a 打下了基础。1 9 0 9 年,俄裔美国生物 化学家莱文等学者就已经准确地鉴定出存在于酵母核酸中的碳水化合物是一种戊 糖( 五碳糖) ,将其命名为“核糖”。1 9 2 9 年,莱文及其同事琼斯成功地鉴定了胸 腺核酸中的碳水化合物,确定它是一个戊糖,但缺少核糖的一个氧原子,被称为 2 一脱氧- d - 核糖【1 9 】。 近年来,随着生物科学领域不断取得重大的突破和进展,r n a 在生命科学中 的重要地位日益显著。对于生物的遗传现象,是人类早已认识到的。1 9 世纪6 0 年 代,遗传学的奠基人奥地利人孟德尔( g r e g o rj o h a n nm e n d e l ,1 8 2 2 1 8 8 4 ) 从生 物的性状出发,发现了遗传学的两个基本规律基因的分离定律和基因的自由 组合定律。到2 0 世纪中叶,科学家们已经从分子水平上来探讨遗传的本质。1 9 5 7 年,科学家克里克提出了遗传信息在细胞内生物大分子间转移的基本法则中 心法则,其阐明了在生命活动中核酸与蛋白质的分工和联系,核酸的功能是贮存 和转移遗传信息,指导和控制蛋白质的合成,蛋白质的主要功能是作为生物体的 结构成分和调节新陈代谢活动,使遗传信息得到表达。如图2 1 为中心法则图解, 我们可以清楚地理解r n a 在遗传学上所发挥的重要作用。 ( 基因) 墨( ,一r n 。a 一竺兰蛋白质( 性状) jv ( 基因) 声i 弓蛋白质( 性状) 逆转录、一。 图2 1 中心法则图解 6 第二章r n a 序列与结构 1 9 世纪6 0 年代,遗传学家们提出了生物的性状是由遗传因子控制的观点, 2 0 世纪初期,遗传学家们通过果蝇的遗传实验,认识到基因存在于染色体上,并 且在染色体上呈直线排列,从而得出了染色体是基因载体的结论。2 0 世纪5 0 年代 以后,随着分子遗传学的发展,尤其是在沃森和克里克提出d n a 双螺旋结构模型 以后,人们才真正认识了基因的本质,即基因是具有遗传效应的d n a 片段。基因 的复制是通过d n a 分子的复制来完成的。基因不仅可以通过复制把遗传信息传递 给下一代,还可以使遗传信息以一定的方式反映到蛋白质的分子结构上来,从而 使后代表现出与亲代相似的性状,遗传学上把这一过程叫做基因的表达。基因的 表达是通过d n a 控制蛋白质的合成来实现的。d n a 主要存在于细胞核中,蛋白 质的合成是在细胞质里进行的,基因的表达需要r n a 的参与。在细胞核中先把 d n a 的遗传信息传递给r n a ,此过程称为转录,然后,r n a 进入细胞质,在蛋 白质合成中起模板作用,此过程称为翻译。转录是以d n a 的一条链为模板,按照 碱基互补配对原则,合成r n a 的过程。翻译是以信使r n a 为模板,合成具有一 定氨基酸顺序的蛋白质的过程。d n a 分子就把遗传信息传递到r n a 上,这种r n a 叫做信使r n a 。信使r n a 在细胞核中合成以后,从核孔进入到细胞质中,与核 糖体结合起来。核糖体是细胞内利用氨基酸合成蛋白质的场所。转运r n a 将氨基 酸运送到核糖体中的信使r n a 上去。当转运r n a 运载着一个氨基酸进入到核糖 体以后,就以信使r n a 为模板,按照碱基互补配对原则,把转运来的氨基酸放在 相应的位置上,直到信使r n a 上出现终止密码子为止,最终合成一个具有一定氨 基酸顺序的有一定功能的蛋白质分子。遗传学上把信使r n a 上决定一个氨基酸的 三个相邻的碱基称为一个密码子。在基因表达的过程中,r n a 是细胞中重要的遗 传物质,它按照d n a 序列来制造蛋白质,充当着遗传信息的载体和传递工具。最 新研究显示,人类和其他哺乳动物的基因组中包含有一种源自伯尔纳病毒插入的 d n a ,这种r n a 病毒能够在细胞核内进行复制和转录。据美国每日科学网站 报道,日本和美国科学家最新研究发现,人类8 的遗传物质来自一种r n a 病毒。 r n a 不仅充当着遗传信息的载体和传递工具,还具有催化r n a 的剪接,加 工和修饰r n a 前体,调控基因表达等重要功能。随着研究人员对r n a 的不断研 究,r n a 的多种功能也不断被发现。2 0 0 7 年,伦敦帝国学院和法国i n s e r mu 1 4 5 及e m l0 3 6 3 的科学家们共同发现了一种m i c r o r n a 分子,被称为m i r l 2 4 ,该分 子可以抑制胰岛素分泌,从而帮助治疗糖尿病。此项发现并发表在了生物化学 杂志( j o u m mo f b i o l o g i c a lc h e m i s t r y ) 上。2 0 0 9 年,在基因和发育杂志网络 版上,美国怀特海德研究所和新加坡国立大学的研究人员发表报告称,他们发现 7 电子科技大学硕士学位论文 了可破坏肿瘤抑制基因p 5 3 活性的一小段r n a ( 即小r n a ) 。此项研究结果将对 癌症诊断和治疗产生重要影响。经过多年的研究,生物学家们已经发现了许多功 能各不相同的r n a ,它们对于人类的生产生活产生着很大的影响。 2 2r n a 的生物学知识 2 2 1r n a 的组成 在2 0 世纪早期,生物学家们化学降解分析从细胞核内提取出的一类物质,认 识到核苷酸这种高分子质量物质是由很多个单独的核酸单位构成。核苷酸分为四 种:鸟嘌呤核苷酸、腺嘌呤核苷酸、胞嘧啶核苷酸和胸腺嘧啶核苷酸。核苷酸单 元具体是由磷酸和核苷组成,其中核苷是由一个核糖和不同种类的含氮杂环类的 碱基构成。因此,一个磷酸基团、一个核糖和一个碱基构成一个核苷酸单元,再 由重复的核苷酸单元构成核酸聚合体。 碱基分子是一个平面的方向杂环,分为两类:嘌呤碱和嘧啶碱。在r n a 中, 它含有的碱基分子为腺嘌呤( a d e n i n e ,a ) 、鸟嘌呤( g u a n i n e ,g ) 、胞嘧啶( c y t o s i n e , c ) 、和尿嘧啶( u r a c i l ,u ) ,这四种碱基的分子结构如图2 - 2 。 c y t o s i n e 日 h c 一一k n b 久n 人。h n n o l g u a n i n e 国 h 一x i x 凰 a d e n i n e 冈 - _ _ _ _ _ _ _ _ - _ _ i 忑1 u r a c i l 田 kn h 人n k 。,n o 图2 - 2r n a 的四种碱基分子 8 5 a p u p g p c p u p c p a p u p g p c p a p a p a p a p c p u p g p c p a p u p g p a p a p u p g p c p c p c p c p u p a p a p g p g p g p a p u p g p c p 3 , 通常序列中间的磷酸常常省略不写,a i m v - 3 序列可以简写为如下形式: a u g c u c a u g c a a a a c u g c a u g a a u g c c c c u a a g g g a u g c 糖环 图2 3m 、j a 结构组成 9 电子科技大学硕士学位论文 h d 冈鼬 ,i i d 朝细瞎 :溆同b 。豉 a u r a e l i 图2 - 4 碱基对间的氢键构成 d n a 中的碱基分为四种:腺嘌呤( a d e n i n e ,a ) 、鸟嘌呤( g u a n i n e ,g ) 、胞 嘧啶( c y t o s i n e ,c ) 、和胸腺嘧啶( t h y m i n e ,t ) 。对于双螺旋结构的d n a ,其中 碱基对中的两个碱基分别来自于d n a 的两条单链,通过氢键相互连接并保持着 d n a 双螺旋的结构的稳定性。r n a 与d n a 结构相似,但在组成成份上略有不同。 d n a 中的胸腺嘧啶在r n a 中被尿嘧啶代替。d n a 的胸腺嘧啶t 和r n a 的尿嘧 啶u 的结构如图2 5 。r n a 中的尿嘧啶碱基在戊糖2 - 的位置多了一个额外的羟基, 少了一个甲基,但不影响其同腺嘌呤的配对结合,而且由于少了甲基团的影响使 得r n a 在空间中弯曲折叠时比d n a 具有更大的柔性。游离的2 羟基则使得r n a 较d n a 能产生更多的修饰组分,使r n a 除了能产生3 - ,5 - 磷酸二酯键外,还可 跟核苷酸形成2 ,5 磷酸二酯键,从而r n a 链甚至还可以具有分支和套索结构。如 第一类内含子的自剪接就是其5 端以5 ,2 磷酸- n 键与其下游的一高度保守的腺 嘌呤a 相连,形成一个套索结构再被切断释放。此外,由于2 羟基的存在使得r n a 主链构象角因羟基( 或其上的修饰基团) 的立体效应而不同于d n a 的主链构象角, 也导致了r n a 呈现出复杂多样的折叠结构。r n a 的复杂多样的折叠结构决定了 其功能的多样性【”】。 h o o o h c h l 。 甲基 一 h o 胸腺嘧啶+ 糖环 o o ho h 图2 5 胸腺嘧啶和尿嘧啶 1 0 尿嘧啶+ 糖环 2 羟基 ? 是核蛋白体的组成成分,形象地称其为核蛋白体r n a ;s n r n a 称为小核r n a , 在h n r n a 向m r n a 转变过程的剪接中起十分重要的作用 2 0 1 。 1 、信使m q a ( m e s s e n g e rr n a ,m r n a ) 在细胞核中把d n a 的遗传信息传递给r n a 的过程称为转录。在真核生物中, 将最初转录生成的r n a 称为不均一核r n a ( h e t e r o g e n e o u sn u c l e a rr n a ,h n r n a ) , m r n a 是蛋白质的氨基酸序列的合成模板。h n r n a 是m r n a 的未成熟前体。两者 之间的差别主要有两点:一是h n r n a 中分为两类片段,一类片段就是内含子,这 些内含子将不会出现在m r n a 中,而另一类片段将保留于m r n a 中,称这类片段 为外显子。h n r n a 经过剪接,去掉了内含子片段,余下的片段重新连接在一起转 变为m r n a ;二是m r n a 的5 末端有一个甲基化的鸟苷酸,称为“帽结构”,在 m r n a 3r 末端有一段长达2 0 0 个核苷酸左右的聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论