(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf_第1页
(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf_第2页
(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf_第3页
(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf_第4页
(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(基础数学专业论文)氨基酸与密码子的进化及其相关问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学博士学位论文 摘要 生物信息学( b i o i n f o r m a t i c s ) 中的氨基酸和密码子的进化是生命起源的核心问 题而密码子使用偏好( c o d o nu s a g eb i a s ) 是基因或基因组的方言,与基因的结构功 能乃至蛋白质的结构都有着本质的联系它们在研究基因表达、基因识别、寻找药 物靶点和探讨蛋白质结构与功能上都有着广泛的应用本文以这两方面为重点展开 研究,具体工作如下: 在第二章,基于同义密码子域的逐步细化思想( s t e p w i s es u b d i v i s i o n ) 和通用密 码子表的网络结构( n e t w o r ks t r u c t u r e ) ,论文提出了一种新的氨基酸进化模型,并且 把所得的氨基酸进化次序与经典的共进化理论( c o - e v o l u t i o nt h e o r y ) 所给出的次序相 比较,在验证了共进化理论正确性的同时,又提出了关于氨基酸和密码子进化的几 点建议 在第三章,基于共进化理论和不同密码子位置上的不同核苷酸之间的突变概 率,论文提出了衡量密码子用法非对称性的最优方案a d c t ,并且在密码子序列比 较和计算机辅助基因识别( g e n ei d e n t i f i c a t i o n ) 方面进一步验证了它具有的优势 在第四章,证明了密码子适应指数( c a l ) 、香农熵( s h a n o o ne n t r o p y ) 和密 码子效率数( e f f e c t i v en u m b e ro fc o d o n s ) 之间的相关性( c o r r e l a t i o n ) ,证明了成” 比疵和成更有效,更无偏第二个问题是f _ 【l g k a n g 在2 0 0 5 年提出来的,至今没 解决证明了基因组序指数s 的“负熵”的作用,并讨论了s 和h 的分段等价性的 来源这两个问题是张春霆等( 2 0 0 5 ) 提出来的 在最后一章,根据氨基酸的理化距离( p h y s i e s - c h e m i c a ld i s t a n c e s ) 和密码子之间 的突变概率( m u t a t i o nf r e q u e n c i e s ) ,论文提出了一个新的“密码子挥发度”( c o d o n v o l a t i l i t y ) 度量方案同时,也展示了新方案在序列相似性分析上具备的优势 关键词:生物信息学;氨基酸进化;密码子;非对称性;突变;密码子偏好性;相 关性;等价性;挥发度 氨基酸与密码子的进化及其相关问题的研究 a m i n oa c i da n dc o d o ne v o l u t i o na n dr e l e v a n tq u e s t i o n s a b s t r a c t i nb i o i n f o r m a t i c s a m i n oa c i da n dc o d o ne v o l u t i o ni sn u c l e a rp r o b l e m so fl i f eo r i g i n t h ec o d o nu s a g eb i a si sc a l l e d “d i a l e c t ”o fg e n e so rg e n o m e s ,w h i c hi sf i r m l yc o n n e c t e d w i t hg e n es t r u c t u r ea n df u n c t i o n ,a sw e l la sp r o t e i ns t r u c t u r e m e a n w h i l e ,t h e ya r ew i d e l y a p p l i e dt og e n ee x p r e s s i o n ,g e n ei d e n t i f i c a t i o n ,s e a r c h i n gf o rd r u gt a r g e t sa n ds t u d y i n g s t r u c t u r ea n df u n c t i o no fp r o t e i n s t h et w oa s p e c t s8 x ee m p h a s e so ft h i st h e s i s t h em a i n c o n t e n t so ft h i st h e s i sa r el i s t e da sf o l l o w s : i nc h a p t e r2 ,b a s e do nt h et h o u g h to fs t e p w i s es u b d i v i s i o no fs y n o n y m o u sd o m a i n s a n dt h en e t w o r ks t r u c t u r eo ft h eg e n e t i cc o d e an e we v o l u t i o nm o d e lo fa m i n oa v i d si s p r o p o s e d m e a n w h i l e ,b yc o m p a r i n gt h ea l 丑i n oa c i de v o l u t i o no r d e rw i t ht h a tp r o p o s e d i nc l a s s i c a lc o - e v o l u t i o nt h e o r y , t h i st h e s i sv e r i f i e st h ev a l i d i t yo fc o - e v o l u t i o nt h e o r y , a n d g i v e ss e v e r a ls u g g e s t i o n sa b o u ta m i n oa c i da n dc o d o ne v o l u t i o n i nc h a p t e r3 ,b a s e do nt h ec o - e v o l u t i o nt h e o r ya n dm u t a t i o nf r e q u e n c i e sb e t w e e n d i f f e r e n tb a s e si nd i f f e r e n tc o d o np o s i t i o n s t h eo p t i m a ls c h e m et om e a s u r et h ea s y m m e t r y o fc o d o nu s a g ea d c ti sp r o p o s e d ,f u r t h e r m o r e ,i t sa d v a n t a g ei ns e q u e n c ec o m p a r i s o na n d g e n er e c o g n i t i o nb yc o m p u t e r si sv e r i f i e d i nc h a p t e r4 ,t h i st h e s i sp r o v e st h ec o r r e l a t i o n so fc a lw i t hs h a n n o ne n t r o p ya n d e f f e c t i v en u m b e ro fc o d o n s ii ta l s op r o v e sr :“i sm o r ee f f i c i e n ta n du n b i a s e dt h a nr : a n d c t h es e c o n dq u e s t i o nw a sp u tb yf a g l s a n gi n2 0 0 5a n du n s o l v e d t h i st h e s i s , p r o v e ssp l a y sar o l eo fn e g a t i v ee n t r o p y , a n dd i s c u s s e st h ed e r i v a t i o no ft h ee q u i v a l e n c e o fsa n dh i ns e g m e n t i n gd n a s e q u e n c e s t h et w oq u e s t i o n sw e r ep u tb yc t z h a n gi n 2 0 0 5 i nt h el a s tc h a p t e r ,b a s e do nt h ep h y s i c c h e m i c a ld i s t a n c e sb e t w e e na n l i n oa c i d s a n dm u t a t i o nf r e q u e n c i e sb e t w e e nc o d o n s ,an e ws c h e m em e a s u r i n gc o d o nv o l a t i l i t yi s p r o p o s e d m e a n w h i l e ,t h i st h e s i sb r i n g sf o r t ht h ea d v a n t a g eo fn e ws c h e m ei ns i m i l a r i t y a n a l y s i s k e y w o r d s :b i o i n f o r m a t i c s ;a m i n oa c i de v o l u t i o n ;c o d o n ;a s y m m e t r y ;m u t a - t i o n ;c o d o nu s a g eb i a s ;c o r r e l a t i o n ;e q u i v a l e n c e ;v o l a t i l i t y i i 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料与我一同工 作的同志对本研究所做的贡献均已在论文中做了踞确的说明并表示了谢 意 作者签名:日期: 大连理工大学博士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解。大连理工大学硕士、博士学位论文版权 使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印 件和电子版,允许论文被查阅和借阅本人授权大连理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段 保存和汇编学位论文 作者签名 导师签名 丞么 年月日 大连理工大学博士学位论文 1 绪论 二十世纪后期,随着物理、化学和数学的理论和技术的进步,生物学已经不再 仅仅是宏观的描述学科,从微观的角度进行多学科、多角度的运作已经成为主流, 这也使得从d n a 水平和蛋白质水平探索生命的奥秘成为现实生物学是2 0 世纪自 然科学中发展最快、影响最大的学科之一,被称为激学的第二个物理学”,同时, 它对数学、物理、化学以及技术科学提出许多新问题,并与这些学科交叉引发了科 学研究新的生长点生物信息学便是在这一背景下产生的最有代表性的新兴学科之 1 1 生物信息学产生的历史 1 8 6 6 年孟德尔从著名的豌豆实验上提出基因是以生物成分存在后来m i e s c h e r 从死的白细胞核中分离出脱氧核糖核酸( d n a ) 1 9 5 3 年j a m e s w a t s o n 和f r a n c i s c r i c k 在n a t u r e 杂志上发表文章,推测出d n a 的双螺旋三维结构,并且表明d n a 具 有自身互补的结构,正是这篇文章奠定了分子生物学蓬勃发展的的基础c r i c k 于 1 9 5 4 年提出的遗传信息传递的规律一中,t :- 法则( c e n t r a ld o g m a ) td n a 是合成r n a 的模板,r n a 又是合成蛋白质的模板后来,经过n i r e n b e r g 和m a t t h a i ( 1 9 6 3 ) 的 努力研究,编码2 0 种氨基酸的遗传密码得到了破译,生物学开始了新纪元到2 0 0 0 年6 月2 6 日,人类基因组草图绘制完毕;到2 0 0 3 年4 月1 4 日,美,英,日,法,德 和中国科学家经过1 3 年努力终于完成了人类基因组计划( h u m a ng e a o m ep r o j e c t , h g p ) ,使生物信息学又走向了一个高潮到2 0 0 7 年4 月2 6 日止,世界上已经发表 的基因组有5 4 0 个( 其中4 8 7 个是细菌的) ,测序的字母总数超过7 0 0 亿而且,这 个数字还在飞快增长对于这些序列的生物意义的理解( 即:注释) 则远远没有跟 上这个步伐但也应看到,数据量的巨大积累往往为突破性的发现提供可能,我们 正处在从积累数据向解释数据的转变点上“生物信息学”也正是适应这些历史要 求而产生的交叉学科严格地说,生物信息学是用数理和信息科学的观点、理论和 方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科它研究 遗传物质的载体d n a 及其编码的大分子蛋白质,以计算机为其主要工具,对浩如 氨基酸与密码子的进化及其相关问题的研究 烟海的d n a 和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分 析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本 质,破译隐藏在d n a 序列中的遗传语言,揭示人体生理和病理过程的分子基础,为 人类疾病的预测、诊断、预防和治疗提供最合理和有效的方法科学界普遍认为, 生物信息学是当今生命科学和自然科学中最关键、最重要的部分,是2 1 世纪自然 科学的核心领域之一1 1 一f 3 1 1 2 生物信息学的研究对象 在分子和细胞生物学、生物物理学,脑和神经科学、医药学、农牧渔林学和分 子和生态进化研究领域,生物信息学都有广泛和深入的应用但从整体上来讲,生 物信息学的研究对象主要为两种信息载体,即核酸( d n a 和r n a 分子) 和蛋白质分 子 核酸是重要的生物大分子,包括脱氧核糖核酸( d n a ) 和核糖核酸( r n a ) ,它 们的构件分子是核苷酸其中,构成r n a 的核苷酸是核糖核苷酸,构成d n a 的核 苷酸是脱氧核糖核苷酸核苷酸又由核苷和磷酸组成,而核苷由碱基( b a s e ) 和戊糖 组成其中,碱基包括嘧啶( p y r i m i d i n e ) 和嘌呤( p u r i n e ) ,其中,嘌呤碱包含腺嘌呤 ( a ) 和鸟嘌呤( g ) ,嘧啶碱包括胞嘧啶( c ) 、胸腺嘧啶( t ) 和尿嘧啶( u ) d n a 和 r n a 所含的戊糖不同;前者中的戊糖是脱氧核糖,而后者的则是核糖d n a 和 r n a 在组成上的另一个区别体现在它们所含的碱基组成上d n a 中的碱基有a , g ,c ,t r n a 中没有胸腺嘧啶t ,取而代之的是尿嘧啶u 可见,仅就d n a 或者 r n a 分子而言,不同核苷酸之间的区别仅在于它们所含的碱基不同因此,a , g ,c 、t ( u ) 也常被用来直接表示相应的核苷酸核酸的一级结构是由核苷酸 聚合而成的生物大分子核酸中的核苷酸以3 7 ,5 磷酸二酯键构成无分支结构的 线性分子d n a 二级结构即双螺旋结构( d o u b l eh e l i xs t r u c t u r e ) ,核一l - 特征是互补 基对即a 与t 配对,g 与c 配对这种配对是由于氢键作用,原理是d n a 单 链( 按从5 到3 ,的次序) 与相反方向写的互补链配对 2 大连理工大学博士学位论文 蛋白质 蛋白质( p r o t e i n ) 是生命的物质基础,没有蛋白质就没有生命因此,它是与 生命及与各种形式的生命活动紧密联系在一起的物质机体中的每一个细胞和所有 重要组成部分都有蛋白质参与蛋白质的种类很多,性质、功能各异,但都是由2 0 多种氨基酸按不同比例、不同次序组合而成的,并不断进行代谢与更新这2 0 种 标准氨基酸中文名称、英文三字母和单字母表示见表1 1 的第一第三和第四列 表1 1 :2 0 种标准氨基酸的密码子以及它们的兰字母和单字母表示 3 氨基酸与密码子的进化及其相关问题的研究 中心法则和遗传密码 c r i c k 于1 9 5 4 年提出了遗传信息传递的规律,d n a 携带遗传材料,即生物功能 所要求的信息( 某些病毒除外,它们的遗传材料是r n a ) d n a 分子中的遗传信息转 录( t r a n s c r i p t i o n ) 到r n a 分子中( 即r n a 聚合酶以d n a 为模板合成r n a ) ,再由 r n a 翻译( t r a n s l a t i o n ) 生成体内各种蛋白质,行使特定的生物功能分子生物学家 称之为中心法则( c e n t r a ld o g m a ) 此外,生物界还存在由r n a 指导下的c d n a 合成 过程,即逆转录,这一过程发现于逆转录病毒中经过n i r e n b e r g 和m a t t h a i ( 1 9 6 3 ) 的努力研究,编码2 0 种氨基酸的遗传密码得到了破译在翻译过程中,每三个碱基 构成一个三联体,对应一个氨基酸或者一个终止密码子我们称这种对应为遗传编 码表i i 第二列已经给出了这个对应 1 3 生物信息学主要研究内容 生物信息学的研究内容非常丰富,例如序列比较、数据库建设、分子进化和比 较基因组学、计算机辅助基因识别、r n a 和蛋白质结构预测,遗传密码及其起源、 序列重叠群装配、基于结构的药物设计等等,都是生物信息学中重要的研究领域 下面对其中与本文的工作密切相关的部分作简要介绍 序罗嘲:较 序列比较( s e q u e n c ea l i g n m e n to rc o m p a r i s o n ) 是生物信息学中最基本、最重要的 操作,通过序列比较可以发现生物序列中的功能、结构和进化的信息【4 】 第一种策略:序歹比对( s e q u e n a l i g n m e n t ) 观察这样两条d n a 序列:g c a t g a c g a a t c a g 和t a t g a c a a a c a g c 一眼 看上去,这两条序列并没有什么相似之处,然而如果将第二条序列错移一位,并对 比排列起来以后,就可以发现它们的相似性 gca t g acga a tcag ta t gaca a aca gc 如果进一步在第二条序列中加上一条短横线,就会发现原来这两条序列有更多 的相似之处 4 大连理工大学博士学位论文 g c a t g a c ga a t c a g t a t g a c a a a c a g c 为了解决字符插入和删除问题,引入字符蠕辑操作”( e d i to p e r a t i o n ) 的概念 1 9 6 6 年,l e v e n s h t e i n 引入了编辑距离”( e d i td i s t a n c e ) 的概念后来, s m i t h - w a t e r m a n 提出改进算法 5 】,缺点是计算量太大于是就有一些快速启发式算法应 运而生 序列两两比对的做法实际上是来自计算机算法中的字符串比较算法实际上, 不同类型的字符替换,其代价或得分是不一样的,直观地讲,比较保守的替换比起 较随机替换更可能维持蛋白质的功能,且更不容易被淘汰这也正是我们在最后一 章用氨基酸理化距离矩阵来代替汉明距离,重新计算密码子挥发度的理由之一以 下介绍一些常用的打分矩阵 ( 1 ) 核酸打分矩阵,设核酸序列所用的字母表为a = a ,c ,g ,t 等价矩阵是最简单的一种打分矩阵相同核苷酸匹配的得分为“1 ”,而不同核苷酸的 替换得分为c 铲( 没有得分) 在b l a s t 中,如果被比的两个核苷酸相同,则得分 为“+ 5 ”,反之得分为“- 4 ”转换一颠换矩阵核酸的碱基按照环结构分为两类,一类 是嘌呤( 腺嘌呤a ,鸟嘌呤g ) ,它们有两个环;另一类是嘧啶( 胞嘧啶c ,胸腺 嘧啶t ) ,它们的碱基只有一个环如果d n a 碱基的变化( 碱基替换) 保持环数不 变,则称为转换( t r a n s i t i o n ) ,如a 讳g ,c 铮t ;如果环数发生变化,则称为颠 换( t r a n s v e r s i o n ) ,如a 铮c ,a 铮t 等在进化过程中,转换发生的频率远比颠 换高,相应的打分值也应该高实际上,这种频率的差异也是本文中“直接互补密 码子”提出的理论依据之一( 见第三章) ( 2 ) 蛋白质打分矩阵,设蛋白质的字母表如表1 1 所示它的等价矩阵相似于 核酸的等价矩阵它的遗传密码矩阵g c m 通过计算一个氨基酸残基转变到另一个 氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价g c m 矩阵 反映了人们对于氨基酸与密码子的哄进化关系( c o - e v o l u t i o n ) ”的理解般来说, 相关的氨基酸总是有连续的密码子的,所以,氨基酸打分的等价矩阵用密码子距离 来代替氨基酸的距离这里存在的问题是,使用0 ,1 ,2 来表示的距离可能过粗正 是基于这种考虑,在第三章中,我们采用了更细致的度量方法后来,d a y h o f f 【6 】的 小组又提出蛋白质p a m 矩阵,h e n i k o f f 【7 1 提出了b l o s u m 矩阵 在多重序列比对的方法中,人们引入概形( p r o f i l e ) 这一概念 8 】它本质上代表 了一个亚群已经计算好的多重比对这一比对在剩余的计算中是冻结的在数据库 5 氨基酸与密码子的进化及其相关问题的研究 搜索中,概形搜索简单地运用了动态规划比对算法来将数据库中的每一序列与概形 相比较1 9 9 4 年,h a s s l e r 9 1 等人将隐马尔可夫链( h m m ) 移入到数据库的家族 鉴定过程中近年来,单序列搜索方法和基于概形h m m 的搜索方法都已证实是 有效的蛋白质的比较主要就是试图指定待询序列属于哪个蛋白质家族的成员或其 所包含的结构域解决这一问题的简单有效方法是p r o s i t e 数据库f l o 】,该数据库含 有用于描述特定结构域,家族或功能的氨基酸模式e x p a s y 服务器提供了对一个 序列进行所有p r o s i t e 模式筛选的检索服务 第二种策略:基于矩阵描述的特征指数方法 近2 0 年来,一些针对d n a 和蛋白质序列的图表示相继被提出这是一种生物 分子数据可视化的方法,它不但使我们可以比较直观地考察生物序列,从相似的序 列中发现它们的差别,还为生物序列的矩阵表示提供了一种途径:对于一个给定的 图,人们总可以按照某些规则将它转化为矩阵目前文献中常见的由图转换而来的 矩阵主要有e d ,d d ,m m ,l l 矩阵以及它们的。高阶”矩阵 s s 的对称矩阵是r a n d i c 【8 1 】提出的假设s = 研s 2 是一条d n a 序列, 则它的s s 矩阵的( t ,f ) 一元素定义为: 吲幽:鬻愀 l0 i fo = j , 这里表示子串最+ 1 岛中毋所对应的碱基的个数 s s 矩阵是从序列本身直接得到的还有一些基于序列图表示的矩阵;e d 、 g d ,p d ,d d 和l l 矩阵等 8 2 ,8 3 】,这些矩阵也都是对称的,具体构造方法 如下: 假设某生物大分子数据的图形是由k - d 空间中n 个点连接而成的曲线则 e d 矩阵的( t ,j ) 一元素定义为曲线上两顶点和叶之间的e u c l i d e a n 距离: 【e d o = ( 戤1 一x j l ) 2 + ( z t 2 一) 2 + ,+ ( z “一x j ) 2 g d 矩阵的( t ,j ) 一元素定义为曲线上两顶点v i 和之间的图论距离: 【g d i j = 协一i l 6 大连理工大学博士学位论文 p d 矩阵的( ,j ) 一元素定义为曲线上顶点,地+ 1 ,吩之间相邻两点的e u c l i d - e a n 距离之和: t p 。b = 。k 件1 + 旧纠件1 ,i + 2 + + e 。b l 。:三; d d 矩阵的( 幻) 一元素定义为e d 和g d 矩阵相应元素的商: 隅= 脚k 篙 l l 矩阵的( ,j ) 一元素定义为e d 和p d 矩阵相应元素的商: f e d i j p d i j i ff j l l i j 210 i f i = j 矩阵一经给出,便可以从中提取特征指数,例如,平均矩阵元素、平均行和以及最 大特征值等等,其中最大特征值可以衡量一个几何图形的卷曲或折叠程度这些特 征指数在相似性分析方面很有效当然,提取特征指数的方法是多种多样的只要 是能抓住序列的本质特征而且能正确地反映序列之间的关系的量都可以用作特征指 数为了减少信息损失,有时我们可以利用几个特征指数作为分量共同刻画一条序 列,而且一旦生物序列具有了向量的形式,两条序列之间的比较就被与这两条序列 相对应的向量之间的比较所代替在当前的序列研究中,如何尽量减少信息损失, 抓住更多特征,减少计算量一直是特征指数抽取的关键问题 氨基酸和密码子进化 许多科学家认为,基因组d n a 序列并非是一种简单的生物分子序列,而可能 是一种语言,该语言描述遗传信息,控制生物体的性状,规定生物个体的生老病死 【1 3 】- 【1 7 】这种语言使得基因控制着蛋白质的合成 1 9 6 1 年【1 2 】遗传密码的发现揭 示了该语言在编码区间的“字”是以三联体的形式出现的,6 4 个三联体密码子对 应着2 0 种氨基酸和一个终止符与此同时,一个关乎生命起源的根本问题就自然 出现了;2 0 种氨基酸和他们的三联体密码子是如何进化的,即密码子表是如何逐 步形成的? 从历史上看,主要有如下几个理论: ( 1 ) s o n n e b e r g 【1 8 】,w o e s e 【1 9 ,2 0 ,y a r u s 和c h r i s t i a n 2 1 】等人的立体化学相 7 氨基酸与密码子的进化及其相关问题的研究 互作用论,他们认为遗传密码子起源于氨基酸和三联体的直接配对;( 2 ) 而c r i c k 【2 2 】则认为氨基酸和他所对应的密码子的关系是偶然发生的,并在以后的进化过程 中被确定下来( 3 ) 在此之后,w o n g 2 3 和d ig i u l i om 2 4 ,2 5 提出和发展的 “氨基酸和密码子共进化的理论”有着很大影响,他们认为密码子的起源和进化应 根植于氨基酸之间的生物合成关系( 4 ) 在1 9 9 3 年,h o r n o s 和h o r n o sf 2 7 1 给出 用李群的解释,他们认为,s p ( 6 ) 的对称破缺导致密码子表向s p ( 4 ) 与s u ( 2 ) 的积 乃至三个s u ( 2 ) 的积的方向转化,并且在没用完全完成破缺的情况下,终止了这种 进程,使密码子表就停留在现在这个样子( 5 ) 适应性理论或称物理化学理论或 突变危险f p - 最d , 理论( ( 3 0 】- 3 6 】) 是一种对密码子表构型的解释这个理论的支持者 认为,密码子表的构型主要是为了能把单基突变所导致的影响降至最小 在各种理论之间,既有斗争的一面,又有相容的一面d ig i u l i o 在2 0 0 5 年系统 讨论了共进化理论,立体化学相互作用理论和物理化学理论的相容关系【3 7 】应该 说,对于氨基酸进化,密码子表起源是生物学的一个基本问题,它的进展会对整个 学科的发展产生巨大的推动但是,我们无法回溯到史前时代,重建那时的环境, 这就使得这项研究所能凭借的基本信息十分有限,最重要的就是分子化石和我们所 看到的密码子表而且,现存的数学模型所推出的氨基酸次序缺乏生物学意义,而 纯生物学模型由于没有统一的数学框架,结论又相差很远 密码子使用的偏好性 由于三联体密码的密码子数目大于氨基酸种类数目,所以,对于一种氨基酸,可 能存在多个同义密码子基因对同义密码子的使用存在着偏好,但不同物种偏好的 密码子不同,程度也不同,这被称为基因组的方言”用以衡量密码子偏好的指数 有许多,包括;香农熵( s h a n n o ne n t r o p y ) ( 【4 3 】一【4 7 】) ,权重熵( w e i g h t e ds u n l o fe n t r o p y ) 4 7 】,相对熵( r e l a t i v ee n t r o p y ) 4 8 】,权重相对熵( w e i g h t e ds u m o fr e l a t i v ee n t r o p y ) 4 9 】, 密码子适应指数( c a i ) s o ,密码子效率数( 成) 5 1 】和它的两个修正形式: 妮【5 2 】 与艟【5 3 】等等一般地,关于这些方法的优劣及它们之间的相关性是用数理统计 的方法来研究的但由此得来的结论不可避免地要依赖于所用的数据,我们无法确 定是否对于所有的生物序列,这些既得的规律仍然成立所以,我们要用数学公式 来研究了这些关系,争取得到一些更加一般性的结论 计算机辅助基因识别 到2 0 0 7 年4 月2 6 日止,世界上已经发表的基因组有5 4 0 个( 其中4 8 7 个是细 菌的) ,测序的字母总数超过7 0 0 亿而且,这个数字还在飞快增长但是,对于这 8 大连理工大学博士学位论文 些序列的生物意义的理解( 即:注释) 则远远没有跟上这个步伐分析序列,寻找基 因。确定功能都急需更好的算法和软件的诞生。但现有的算法总体来说精度不够, 生物学家不得不操作一些基因识别的实验,很浪费时间与精力总的来说,编制基 因识别算法无非包括两个方面:( 1 ) 构建能识别组成特征( 如:外显子统计偏好, 内含子剪接模式,启动子,增强子等) 的子算法( 2 ) 构建合并算法,使它能识别 何时这些组成模式发生在一个与所研究的基因相兼容的模式中但对于小基因和一 些包含不完全o r f 的部分翻译序列,识别变得十分困难f i c h e t t 和t u n g 5 5 】指 出,基于六聚体的识别方法应该较优,精度7 0 ,窗口长至少5 0 碱基实际上,用 m z e f 和g e n s c a n 就可以解决大部分基因识别问题,或者可以乐观地说,当同类 的c d n a 克隆能被p c r 前体或探针所识别的话,基因识别的问题就算是解决了 但是,不让人乐观的是,有一半的预测蛋白质是错的,几乎全部的预测基因两端的 边界都不对,所以,要达到注释的标准还有很长的路要走 基因识别的方法大体有:基于碱基使用的偏好性或密码子偏好性对未知序列进 行统计学分析方法,语言学的方法,线性识别分析方法,决策树方法,动态规划方 法,马尔科夫模型方法和基于供体和受体位点的方法等但整体上可分为两类:基 于相似性的“外在方法”和其他的“内在方法。相似性搜索只能解决一半的基因识 别问题,对于另一半的基因,则有许多工作要做许多基因识别的应用程序被保存 于网站h t t p :l i n k a g e r o c k e f e l l e r e d u w l g e n e 中 我国在基因识别方面的发展也是令人瞩目的天津大学张春霆等人发表了酿酒 酵母基因组基因识别软件z c u r v e _ y ,细菌与古细菌基因组a bi n i t i o 基因识别软 件z c u r v e ,冠状病毒基因组基因识别软件z c u r v e _ c o v ,病毒和噬菌体基因组 基因识别软件z c u r v e n ,以及人类基因组外显子识别 5 6 一 6 0 】 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化 树在分子进化的研究中,木村资生( m o t o ok i m u r a ) 的中性突变理论有较大的影 响他认为,突变是与选择无关随机产生的,除了有害突变,大部分是中性的, 有益突变很少【6 1 ,6 2 】n a n d y 和张春霆分别将他们提出的d n a 序列2 、3 维曲线 表示应用到分子进化和基因组比较研究中【6 3 ,6 4 ,6 5 ,6 6 ,6 _ 7 】李文雄也对分子进化 进行了很深的探讨f 6 8 ,6 9 】 9 氨基酸与密码子的进化及其相关问题的研究 蛋白质的结构研究 蛋白质只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能 蛋白质的结构分为一级结构二级结构三级结构,除此之外还有超二级结构和四级 结构等2 0 世纪6 0 年代后期,a n f i n s e n 首先提出蛋白质折叠的信息隐含在蛋白 质的一级结构中从此,科学家们对蛋白质结构的预测进行了大量的研究为了尽 可能多地挖掘出蛋白质序列及二级结构中所包含的有用的信息,z h a n ga n dz h a n g 【7 0 】通过将蛋白质二级结构类抽象为三个字符p ,c 进而给出了蛋白质二级结构的 s - 曲线表示目前,美国布鲁克海文国家实验室的蛋白质结构数据库p r o t e i nd a t a b a n k ( p d b ) ,剑桥结构数据库( c s d ) ,蛋白质结构分类数据库( s c o p ) 等都为我 们从生物信息学的角度上的研究蛋白质的结构提供了有利的支持 1 4 本文的主要工作 基因是生命的蓝图,蛋白质是生命的机器蛋白质序列由相应的核酸序列所决 定,通过对基因的转录和翻译。将原来四字符的d n a 序列,根据三联体密码规则翻 译成2 0 字符的蛋白质氨基酸序列,然后通过修饰,折叠和运输定位就可以执行蛋白 质的功能了我们不难发现,密码子在研究中占有承上启下的关键地位而且,氨基 酸与密码子的起源和进化是生物信息学的重要分支另外,密码子使用偏好( c o d o n u s a g eb i a s ) 是基因或基因组的方言,与基因的结构功能乃至蛋白质的结构都有着本 质的联系它们在研究基因表达、基因识别、寻找药物靶点和探讨蛋白质结构与功 能上都有着广泛的应用本文围绕这两方面及其相关问题展开研究 历史上有多种学说来解释密码子表的形成机制和氨基酸的进化次序,其中主要 分为侧重于数学的理论和侧重于生物学的理论前者包括s p ( 6 ) 群理论和k l e i n - 4 群理论,而后者的代表是冷冻理论,立体化学理论和共进化理论各个理论之间缺 乏统一的数学框架我们根据同义密码子域的逐步细化思想和密码子表的网络结构 提出了一个新模型,尝试着给出氨基酸和密码子进化的一个框架然后根据这些结 果,对古典进化论提出了几点建议,希望这些结果对这个领域的研究有所帮助 密码子使用的非对称性可以用来刻画生物序列一般说来,编码序列的这种非 对称性要强些,非编码序列的非对称性要弱些6 4 个密码子如果两两配对,会有多 种方式现在已知的有;互补码( s a m ) ,镜像码( c a m ) 和循环码科学家们用前两 种配对方式来区分编码和非编码区间,依据是密码子与氨基酸的语法与句法的独立 性我们根据共进化理论可知,进化相关的氨基酸一般拥有连续的密码子,这就是 1 0 大连理工大学博士学位论文 说,语法和句法的独立性并不完全,从而会导致非对称性衡量的偏差我们根据共 进化理论和不同密码子位置的碱基突变概率差异,提出用直接互补密码子( a d c t ) 来做非对称性研究并且,在序列相似性分析和基因识别方面,我们也展示了直接 互补密码子的明显优势实际上,根据我们的推理,这也应该是最佳的配对方式 密码子偏好指数有好多种,包括密码子适应指数( c 灿) ,香农熵( h ) 和密码子效 率数( 成) 以及效率数的两种变化形式:窥”和豌而在以前的工作中,这些指数 之间的相关性总是用统计方法来做的,我们用数学证明的方法推出了这种相关性, 指出了这些相关性的数学起源同时,我们又证明了成”比疵+ 和成更有效,更 无偏,这个问题是f u g l s a n g 在2 0 0 5 年提出来的,至今没解决张春霆等( 2 0 0 5 ) 发 现基因组序指数s ( g e n o m eo r d e ri n d e x ) 有某种“负熵”的作用,我们给出了严格 证明;同时,论文指出,基因组序指数s 与香农熵h ( s h a n n o ne n t r o p y ) 在“基因组 d n a 序列分块”中的等价性应该来源于s 和2 一日的等价性 密码子的挥发度是一个密码子非同义的单基突变数与所有有义突变数的比值, 而通过自举法( b o o t s t r a p ) 生成的同义密码子序列的挥发度的值与原序列挥发度比 较,就可以大体估计这条序列的正向选择程度p l o t k i n 等人在n a t u r e 杂志上 的阐述这一方法的文章引起了很大的争论,两个主要的不足是它涉及到的氨基酸太 少( 只有四种) 和挥发度的变动太小根据氨基酸的理化距离和不同密码子位置上的 不同核苷酸之间的突变概率,我们提出了一个度量“密码子挥发度”的新方案,而 且发现,对于上面公认的原定义的两个不足都有很大程度的改进 大连理工大学博士学位论文 2 氨基酸和密码子的进化 2 1 氨基酸和密码子的进化的主要理论 遗传密码是自然界最伟大的创造之一在密码中包含着蛋白质的工作原理和生 命形成与进化的丰富信息现在的通用密码子表共包含6 4 个密码子,共编码2 0 个 氨基酸和一个终止信号其中大部分的氨基酸存在密码子的简并现象,即由多于一 个的密码子编码一个氨基酸自从1 9 6 1 年n i r e n b e r g 和m a t t h a e i 【1 2 】给出密码子表 以来,关于氨基酸进化和密码子表的起源问题就一直存在着很多解释历史上有多 种学说来解释密码子表2 1 的形成机制和氨基酸的进化次序,其中主要分为侧重于 数学的理论和侧重于生物学的理论前者包括s p ( 6 ) 群理论【27 】和k l e i n - 4 群理论 【2 8 】,而后者的代表是冷冻理论【2 2 】,立体化学理论【1 9 ,2 0 】和共进化理论但是, 侧重于生物学的理论缺乏统一的数学框架,结果相差很大;侧重于数学的理论所展 示的序关系往往缺乏确定的生物含义我们的工作力图寻找一种统一的数学模型, 尝试着给出氨基酸和密码子进化的整体框架 偶然事件冻结论 c r i c k ( 1 9 6 8 ) 【2 2 】认为氨基酸和他所对应的密码子的关系是偶然发生的,并在 以后的进化过程中被确定下来( 即,偶然事件冻结论) ,这种理论显然不能解释密 码子表中可见的一些序关系c r i c k 的根据就是密码子表有很大的无规则性长期 以来,偶然事件冻结论受到适应性理论,共进化理论以及立体化学相互作用论的质 疑对它的挑战源于密码子表的反常现象,比如,人体的线粒体的密码子表就与通 用密码子表不同:a u a 编码m e t ,u g a 编码t r p ,这显然是偶然事件冻结论所不 能解释的 1 3 氨基酸与密码子的进化及其相关问题的研究 表2 1 :通用密码子表 ( 1 ) 型号笋 ( 3 ) g u gg u 口m a g u ug u c 口m 圮 篙筹 f 7 1 苎坚堡 7 m e t h w n m e f 9 1 坚堡璺 、7t r y p t o p h a n ( 1 1 ) 警 墨堡里墨竺里 s e r i r u e a u a a u 【,a u c u g au g uu g c s t o pc y s t e i n e u u u u u c p h e r y l a l a n i n e ( 1 3 ) c g g _ c g r a 9 l n c w g m u c g c ( 1 5 ) c u g c l u e a u m c n u e u c u c ( 2 ) 。g a g 。g a a 。老等瓮 ,、g c gg c a g c ug c c ( 4 ) 二j i 磊7 一 ( 6 ) a a 。g a a a _ a a ua a 。c l y s t n ea s p a r a g t n e ( ) 8a c g _ a c aa c u a c c 1n r e o n 1 e ,鼍老坐黑等o c d p1 ,r d s ( 1 2 ) u c g u c a u c uu c c o e r ”记 似,器三嵩名警墨箸 ( 1 6 ) c c g c ,c r a 。“c c u c c c 立体化学相互作用论 w o e s e ( 1 9 6 7 ) 【1 9 ,y a r u s 和c h r i s t i a n ( 1 9 8 9 ) 【2 1 】等人认为氨基酸和他所对应的密 码子存在着立体化学的关联( 即,立体化学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论