(理论物理专业论文)密码对的使用与基因组进化.pdf_第1页
(理论物理专业论文)密码对的使用与基因组进化.pdf_第2页
(理论物理专业论文)密码对的使用与基因组进化.pdf_第3页
(理论物理专业论文)密码对的使用与基因组进化.pdf_第4页
(理论物理专业论文)密码对的使用与基因组进化.pdf_第5页
已阅读5页,还剩110页未读 继续免费阅读

(理论物理专业论文)密码对的使用与基因组进化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

密码对的使用与基因组进化 摘要 密码子水平的生物信息学分析是研究基因组进化、蛋白质功能以及遗传和环境相 互作用等课题中的一个重要环节。已知同义密码子的使用是非随机的。正如密码子的 使用一样,两个紧邻的密码子,即密码对的使用也是高度偏好的,这种偏置现象在原 核和真核生物中都广泛存在。为了探寻基因组中密码对使用的进化约束,本文分析了 不同进化水平生物基因组密码对使用的规律,主要研究结果如下: 1 以1 0 种真核、6 0 种细菌和4 0 种古菌生物基因组为样本,分析了编码序列 中密码对和基因间序列中三联体对的相对模式数随频数的分布( d n m ) ,验证了这种 分布符合r 0 ,) 分布;通过研究r 仁,) 分布的形状参数口值,发现其与生物基因组进 化存在明显的相关性;编码序列与基因间序列的进化方式截然不同。对编码序列,从 古菌、细菌到真核生物口值逐渐增大,即口值将生物分成三类:古菌,细菌,真核生 物。对基因问序列,口值将生物分成两类:一类是细菌,另一类是古菌和真核生物。 这个结果显示密码对上下文关系包含了生物进化的信息,暗示真核生物、细菌和古菌 在调节基因组一级结构进化压力方面存在基本区别。 2 提出了一种以密码对使用偏好性和密码对中二核苷酸频率分别构建系统发育 树的基因组相似性分析方法。发现以4 0 种模式生物基因组中密码对的二核苷酸频率 构建的系统发育树,明显将生物按进化分成三类,即细菌,古菌,真核生物;用密码 对使用偏好性为指标构建的系统发育树与基于密码对中二核苷酸频率的系统发育树基 本一致。结果表明反映生命进化信息的密码对中二核苷酸组分是密码对偏好的决定因 i 素之一。 3 分析了基因组组分极其偏向的厌氧性粘菌和立克次氏体基因组中密码对的使 用。发现它们前导链与滞后链密码对的使用偏好性存在差异。这表明密码对的搭配受 到链的特异性影响。这些特性可能包括:基因方向性偏好、密码子使用偏好、密码子 的前后文关系等。因此,造成以上两物种d n a 双链间密码对使用不对称的原因可能 是d n a 链特异的突变偏好性和在复制、转录、翻译水平上的自然选择约束。 4 鉴于伽玛分布的形状参数口值与基因组进化存在相关性,首先,以5 种真核、 1 5 种细菌和1 0 种古菌生物基因组为样本,对密码对使用偏好性指标厂与密码对随 基因组进化的指标口之间作相关性分析,发现部分密码对的,值与口值之间有显著的 线性关系。其次,分析了密码子第三位点与紧邻密码子第一位点的二核苷酸( c p 3 c a l ) 使用,结果表明这两个位点二核苷酸使用有显著差异。最后,分析了三类生物中密码 对的偏好与稀有模式,发现它们都有各自偏好与稀有的密码对模式。以上结果进一步 肯定了密码对的使用与基因组进化存在相关性。 5 全面分析了厌氧性粘菌( a n a e r o m y x o b a c t e r _ d e h a l o g e n a n s _ 2 n - c ) 基因组中密 码对的使用,发现其密码对的使用有很强的偏置,在全基因组中有5 2 的密码对模 式是缺失的。分析结果表明其密码对的偏好性至少可能是三个方面的压力的结果:基 因组局部及整体的g c 含量,密码对中二核苷酸的组分,二肽的保守水平。 关键词:密码对使用;三联体对使用;r 仁,) 分布;基因组进化;系统发育树; 二核苷酸;系统聚类;前导链;滞后链;不对称性 c o d o n p a i ru s a g ea n dg e n o m ee v o l u t i o n a b s t r a c t c o d o na n a l y s i sa n di t sa p p l i c a t i o ni nb i o i n f o r m a t i c sa n de v o l u t i o n a r ys t u d i e sa r e i m p o r t a n ti s s u e s f o ri n v e s t i g a t i n gt h eg e n o m ee v o l u t i o n ,p r o t e i nf u n c t i o na n di n t e r a c t i o n b e t w e e ng e n e t i c sa n de n v i r o n m e n t i ti sw e l lk n o w nt h a ts y n o n y m o u sc o d o nu s a g ei s n o n r a n d o m c o d o n - p a i ru s a g e ,l i k ec o d o nu s a g e ,h a sa l s ob e e nf o u n dt ob eh i g h l yb i a s e d t h ev a s tm a j o r i t yo fp r o k a r y o t i ca n de u k a r y o t i cs p e c i e sh a v ean o n r a n d o mc o d o n - p a i r u s a g e i nt h i sd i s s e r t a t i o n ,i no r d e rt od e m o n s t r a t ep o s s i b l ee v o l u t i o n a r yc o n s t r a i n t st h a t s h a p ec o d o n - p a i rc o n t e x t ,w ei n v e s t i g a t e dt h ec o d o n p a i ru s a g ei nd i f f e r e n te v o l u t i o n a r y l e v e lg e n o m e so fo r g a n i s m s t h em a i nc o n t r i b u t i o n sa r es u m m a r i z e da sf o l l o w s : i t h ed i s t r i b u t i o n so fn u m b e r so fm o d e s ( d n m ) o fc o d o n - p a i r si np r o t e i nc o d i n g s e q u e n c e s ( c d s s ) a n dt h ef r e q u e n c yo f b a s et r i p l e tp a i r si ni n t e r g e n i cs e q u e n c e s ( i g s s ) a r e a n a l y z e di n110f u l l ys e q u e n c e dg e n o m e s w ep r o p o s et h a t t h e s ed i s t r i b u t i o n sa r ei n a c c o r d a n c ew i t hag a m m ad i s t r i b u t i o n b ys t u d y i n gt h es h a p ep a r a m e t e r 口v a l u eo f g a m m ad i s t r i b u t i o nad i s t i n c tr e l a t i o nb e t w e e nt h e 口v a l u ea n dt h eg e n o m ee v o l u t i o ni s o b t a i n e d t h em o d e so fe v o l u t i o nf o rp r o t e i nc o d i n gs e q u e n c e sa n di n t e r g e n i cs e q u e n c e sa r e s i g n i f i c a n t l yd i f f e r e n t f o rc o d o n p a i r si nc d s s ,t h ea v a l u ei n c r e a s e si nt h eo r d e ra r c h a e a , a n de u k a r y o t a ,a n dd i v i d e st h es p e c i e si n t ot h r e ee v o l u t i o n a r yg r o u p s ,a r c h a e a , b a c t e r i aa n de u k a r y o t a f o rt r i p l e tp a i r si ni g s s ,o nt h eo t h e rh a n d ,t h e 口v a l u ec l a s s i f i e s t h es p e c i e si n t ot w og r o u p s ,o n ei sb a c t e r i aa n dt h eo t h e ri sa r c h a e aa n de u k a r y o t a t h e f i n d i n g si n d i c a t et h a tt h ec o d o n p a i rc o n t e x t sc o n t a i nb i o l o g i ce v o l u t i o ni n f o r m a t i o n ,a n d s u g g e s tt h ee x i s t e n c eo ff u n d a m e n t a ld i f f e r e n c e so fe v o l u t i o n a lc o n s t r a i n t si m p o s e do n c d s sa n di g s sa m o n ga r c h a e a ,b a c t e r i a , a n de u k a r y o t a 2 b a s e do nt h ec o d o n p a i r su s a g e ,am e t h o do fs i m i l a r i t ya n a l y s i so fg e n o m e s ,w h i c h c o u l db eu s e dt oc o n s t r u c tp h y l o g e n e t i ct r e e su s i n gt h ec o d o n p a i ru s a g eb i a sa n dt h e d i n u c l e o t i d ef r e q u e n c i e sw i t h i nc o d o n p a i r s ,i sp r o p o s e d ap h y l o g e n e t i ct r e et h a ti s c o n s t r u c t e du s i n gt h ed i n u c l e o t i d e sf r e q u e n c i e sw i t h i nc o d o n p a i r si n4 0m o d eo r g a n i s m s s h o w st h a tt h eo r g a n i s m sa r ea p p a r e n t l yd i v i d e di n t ot h r e ee v o l u t i o n a r yg r o u p s ,b a c t e r i a , a r c h a e a ,a n de u k a r y o t a a n o t h e rp h y l o g e n e t i ct r e ec o n s t r u c t e du s i n gt h ei n d e xr e f l e c t i n g c o d o n p a i ru s a g eb i a si sc o n s i s t e n tw i t ht h ep h y l o g e n e t i ct r e ec o n s t r u c t e db a s e do nt h e d i n u c l e o t i d e sf r e q u e n c i e sw i t h i nc o d o n p a i r s o u rr e s u l t si n d i c a t et h a tt h ec o m p o n e n to f d i n u c l e o t i d e sw i t h i nc o d o n p a i r st h a t r e f l e c t si n f o r m a t i o no fl i f ee v o l u t i o ni so n eo ft h e d e t e r m i n a n t so fc o d o n - p a i rb i a s 3 t h ep a t t e r n so fc o d o n - p a i ru s a g ei nt h e g e n o m e so f a n a e r o m y x o b a c t e r _ d e h a l o g e n a n s _ 2 c p - c t h a t h a v e e x t r e m e l y b i a s e d g e n o m i c c o m p o s i t i o n sa r ea n a l y z e d t h er e s u l t ss h o ws i g n i f i c a n td i f f e r e n c e so fc o d o n p a i ru s a g e b i a s b e t w e e nt h el e a d i n ga n dt h el a g g i n gs t r a n d s ,s u g g e s t i n gt h a tc o d o n p a i r i n gi si n f l u e n c e db y s t r a n d - s p e c i f i cf e a t u r e s t h es t r a n d - s p e c i f i cf e a t u r e sm a yi n c l u d et h eb i a s e dc o d o nu s a g e , g e n e o r i e n t a t i o n b i a s ,c o n t e x t d e p e n d e n tc o d o nb i a se t c t h e r e f o r e ,a s y m m e t r yo f c o d o n p a i ru s a g eb e t w e e nd n a d o u b l es t r a n d si na b o v et w og e n o m e ss e e m st ob et h er e s u l t o fs t r a n d - s p e c i f i cm u t a t i o n a lb i a s e sa n dn a t u r a ls e l e c t i o np r o b a b l ya c t i n ga tt h el e v e l so f r e p l i c a t i o n ,t r a n s c r i p t i o na n dt r a n s l a t i o n 4 i nv i e wo ft h ev a l u eo ft h es h a p ep a r a m e t e r 口o fg a m m ad i s t r i b u t i o ni sr e l a t e dw i t h g e n o m ee v o l u t i o n ,f i r s t l y ,t h el i n e a rr e g r e s s i o nb e t w e e nt h erv a l u e so fc o d o n - p a i ra n dt h e p a r a m e t e r 口v a l u e so fg a m m ad i s t r i b u t i o ni sa n a l y s e di nt e na r c h a e a ,f i f t e e nb a c t e r i aa n d f i v ee u k a r y o t e sg e n o m e s t h er e s u l t ss h o wt h a tt w op a r a m e t e r sh a v eas i g n i f i c a n tl i n e a r c o r r e l a t i o nf o rp a r to fc o d o n p a i r s s e c o n d l y , t h eu s a g eo fd i n u c l e o t i d e sc o m p o s e do ft h e t h i r dp o s i t i o nn u c l e o t i d ea n dt h ef i r s tp o s i t i o nn u c l e o t i d e ( c p 3 c a l ) w i t h i nc o d o n - p a i ri s a n a l y z e d ,a n dt h er e s u l ti n d i c a t e st h a tt h eu s a g eo fc p 3 c a li ss i g n i f i c a n tb i a s e d f i n a l l y ,t h e m o d e so fp r e f e r r e da n dr e j e c t e dc o d o n p a k sa r ea n a l y z e di nt h r e ed o m a i n so fl i f e ,a n di ti s f o u n dt h a tt h em o d e so fp r e f e r r e da n dr e j e c t e dc o d o n p a i r sa r ed i f f e r e n tf r o mt h r e ed o m a i n s t h ea b o v er e s u l t sc o n f i r ma g a i nt h a tc o d o n p a i ru s a g ei sa s s o c i a t e dw i t hg e n o m ee v o l u t i o n 5 t h e c o d o n p a i ru s a g e i s a n a l y z e d i nt h e g e n o m e o fa n a e r o m y x o b a c t e r d e h a l o g e n a n s _ 2 n - c i ti sf o u n dt h a tt h ec o d o n - p a ku s a g ei sh i g h l yb i a s e d ,a n da b o u t5 2 m o d e so fc o d o n p i a r sa r ea b s e n ti nt h eg e n o m e o u ra n a l y s i ss h o w st h a tt h ep a a e r no f c o d o n - p a r i n gi nt h eg e n o m ec o u l db et h er e s u l to f a tl e a s tt h r e ed i f f e r e n tf o r c e s :( i ) t h el o c a l a n dt o t a lg e n o m eg cc o n t e n t ,( i i ) c o m p o s i t i o no fd i n u c l e o t i d e so fc o d o n - p a i r , a n d ( i i i ) t h e l e v e lo fd i p e p t i d e sc o n s e r v a t i o n k e y w o r d s :c o d o n p a i ru s a g e ;t r i p l e t - p a i ru s a g e ;历d i s t r i b u t i o n ;g e n o m e e v o l u t i o n ;p h y l o g e n e t i ct r e e ;d i n u c l e o t i d e ;h i e r a r c h i c a lc l u s t e r ;l e a d i n gs t r a n d ;l a g g i n g s t r a n d ;a s y m m e t r y v 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已 经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内墓直太堂及 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:样 日 期:么啐脚 指导教师签名: 日 趁 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全 部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索, 也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权作者在学期 间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古 大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名: 日期: 趔秘曲日期:趁孕上 博士学位论文:密码对的使用与基因组进化 1 1引言 第一章绪论帚一早 三百下匕 理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字 母来代表d n a 化学亚基的字母表,出现了生命过程的语法。阐明和使用这些字母来组成新 的“单词和短语 是分子生物学领域的中心焦点。其中遗传密码的破译是分子生物学和分子 遗传学发展中的一个重大里程碑,也是后来蓬勃兴起的基因工程和人类基因组计划得以实现 的基础。 生物最本质的特征是进化,其中密码子的进化是当今基因组学研究的热点命题之一。揭 示不同基因组中密码子的使用模式以及影响这种模式形成的内在因素,对于了解基因组特征 和分子进化历史事件具有重要的启示。有关基因组进化的信息必须会在其d n a 序列中反映 出来,也就是说序列的组成和碱基的搭配必须包含基因组进化的信息,为了寻找这些信息, 本文将分析编码序列中密码对( 密码对指编码序列中紧邻密码子) 的搭配和非编码序列中三 联体对搭配与基因组进化的相关性,密码对中二核苷酸偏好与基因组进化的关系等相关问题。 如同密码子的非随机使用一样,密码对的使用也是高度偏好的。由于密码对组合模式( 6 1x 6 4 ) 的高维性,使分析难度大大增加,往往一些重要信息被湮灭在复杂的背景噪音之中。因 此从核苷酸序列出发来研究密码对的使用在生物信息学研究领域是一个比较棘手的问题。但 是近年来,随着基因组学研究技术的快速发展,全基因组测序不断大规模地进行,庞大的基 因组数据信息源源不断地从一系列新技术中产生,使得通过对不同物种的基因组数据进行比 较分析,揭示不同物种间进化上的差异成为可能。 博士学位论文:密码对的使用与基因组进化 1 2 研究背景 1 2 1 遗传密码的特点 遗传密码是指d n a 或m r n a 的碱基序列与其编码的蛋白质的氨基酸序列间的相互关 系。遗传密码具有以下特点: ( 1 ) 密码的基本单位,即三个核苷酸组成一个密码子( c o d o n ) ,每个密码子e h - - 个前后相 联的核苷酸组成,一个密码子只为一种氨基酸编码。共有6 4 个密码子。 ( 2 ) 密码子之间不重叠使用核苷酸,也无核苷酸间隔。从起点至终止信号之间所阅读的 碱基对,称为一个读码框架( r e a d i n gf r a m e ) 。插入或去掉一个碱基,就会使以后的读码发生 错误,称为移码,由于移码引起的突变称移码突变。 ( 3 ) 密码子中第三位碱基具有较小的专一性,称“摆动性”或“变偶性”。 ( 4 ) 一种氨基酸可有多个密码子,这个特点称为密码子的简并性。大多数氨基酸有几组 不同的密码子,这一现象称密码的简并,可以编码相同氨基酸的密码子称同义密码子,仅t r p 和m e t 只有一个密码子。 ( 5 ) 6 4 个密码子中,有三组不编码任何氨基酸,而是多肽合成终止密码子:u a a ;u a g ; u g a 。此外,a u g 既是甲硫氨酸的密码子,又是肽链合成的起始密码子。 ( 6 ) 密码子的通用性,所有生物从最低等的病毒直至人类,蛋白质合成都使用同一套密 码子表。仅有极少的例外,如特殊细胞器线粒体,叶绿体所用的密码稍有不同,称变异性。 1 2 2 同义密码子使用偏好性及其生物学基础 从2 0 世纪6 0 年代中期开始,人们就对密码子的特性进行了深入研究,发现2 0 种氨 基酸中,除色氨酸和甲硫氨酸只有一种密码子外,其余氨基酸都由一种以上的密码子编码。 编码同一种氨基酸的密码子称为同义密码子。这种现象称为遗传密码子的多态性或简并性。 而同义密码子的使用几率并不相等,这种现象称为同义密码子使用的偏好性。同义密码子偏 好性的研究一直是进化领域中一个较为热门的话题。多年的研究结果表明从原核生物到真核 生物,其基因组中同义密码子使用偏好性的现象广泛存在【卜引,这一现象的产生有诸多生物学 基础,如翻译机制阴引,基因的碱基组分1 9 。2 3 1 ,基因长度【2 4 1 ,t r n a 丰度等等【2 5 - 3 0 1 ,下面对 这些因素进行简要概述。 ( 1 ) 基因序列碱基组成的偏好性。在不存在弱的自然选择压力的情况下,一定方向的突 变压力会影响序列本身的碱基组成,而这一效应同时也会反映在同义密码子的第三位上,如 博士学位论文:密码对的使用与基因组进化 细菌基因组中核苷酸含量变化范围较广。在某些细菌中g c 至a t 突变压力高,使得密码 子第三位a t 含量很高,而另一些细菌中,a t 至g c 突变压力高,因而密码子第三位a t 含量很高。这样的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无关【3 1 1 。 ( 2 ) t r n a 丰度。i k e m u r a 4 2 4 6 】的实验证明在大肠杆菌( e s c h e r i c h i ac o l d 、鼠伤寒沙门氏 菌( s a l m o n e l l at y p h i m u r i u m ) 和酿酒酵母( s a c c h a r o m y c e sc e r e v i s i a e ) 中密码子的偏好性与同 源t r n a 的丰度有关。其中蛋白质拷贝数和那些同源t r n a 含量最高的密码子关联最强。 由于密码子在蛋白翻译过程中需要和携带对应反密码子的t r n a 相互识别作用,才能把游离 的氨基酸残基转移到多肽链上,因此这些对应t r n a 的丰度决定了蛋白质合成的资源。在高 表达基因中那些偏好使用的密码子对应t r n a 含量也较高,这些密码子被称为最优密码子, 它们靠减少与对应的t r n a 匹配时间而加快翻译速度。 ( 3 ) 基因长度【2 4 捌。基因越长,能够容纳的密码子越多,在没有其他压力情况下,则同义 密码子被选择的概率不会受样本容量限制而出现统计上的误差;反之,基因长度越短,可以 编码的密码子数量和种类越少,甚至有的密码子根本不会出现。这种使用偏好性和其他进化 压力无关。 ( 4 ) m r n a 二级结构【1 7 1 。有报道对具有不同超二级结构的蛋白编码基因按照同义密码子 使用模式进行聚类分析,结果表明这两种蛋白的密码子使用模式有明显差异,暗示着密码子 使用与蛋白质结构具有一定相关性。 ( 5 ) 蛋白质的亲疏水性以及氨基酸保守性【2 6 2 8 1 。不同的基因编码序列其氨基酸含量有可能 不同,一方面稀有氨基酸由于本身出现机率小,一旦使用某种密码子,则其他密码子出现几 率更小;另一方面,对于比较保守的氨基酸,不容易发生突变,则其密码子使用模式固定为 序列本身组成。 ( 6 ) 基因水平转移和重组。如果某些基因是由其他基因组中水平转移而来,则基因序列 上的一些特征如g c 含量会出现与原基因组中不一样的模式;如果某基因是重组而来,则在 基因内部会出现g c 异质区,这些不同寻常的变异同时也会反映在密码子使用模式的差异 上。 ( 7 ) 密码子碱基组成的上下文关系( c o d o nc o n t e x t ) 。密码子的上下文关系是影响m r n a 译码精确性的基因一级结构的主要特征。其研究内容主要包括两个方面:密码子所处环境对 碱基偏好【4 7 - 6 2 】和对密码子偏好 6 3 , 6 4 1 。 如果密码子第一、二位是g 、c ,那么密码子第三位倾 向于使用a 或u ,反之亦然。由于碱基互补配对原则的关系,a 与u 配对,g 与c 配 对,如果密码子三个位点都是a 、u 或g 、c ,则密码子和反密码子配对容易出现位置差错, 博士学位论文:密码对的使用与基因组进化 或是影响配对速度,这样会影响到基因表达的速度。 1 2 3 遗传密码子的集中研究 遗传密码子的研究集中在以下几个方向: ( 1 ) 遗传密码子的通用性与变异性的研究。无细胞提取液体外实验和大量事实表明从低 等的原核生物到高等的真核生物,大多都使用相同的遗传密码,即遗传密码子具有通用性, 这已成为现代分子生物学的理论基础。但1 9 7 9 年b a r r e l 掣6 5 】首次发现在人的线粒体中,通 用密码子a u a ( 异亮氨酸) 和u g a ( 终止密码) 分别编码甲硫氨酸和色氨酸。随后,人们又在 牛、酵母和链孢霉等的线粒体及支原体、腺病毒和几种原生动物中发现了变异密码子的存在, 如草履虫将2 个终止密码子u 蛆和u a g 作为编码谷氨酸或谷胺酰胺的密码子。变异密 码子在一定程度上反映了遗传密码的进化过程。生物界丰富的多样性要求遗传信息也存在相 应的多样性,而密码子的多样性是遗传信息多样性的重要组成部分。由于存在这些变异密码 子,大大地增加了遗传信息的含量,这样可能提高进化的速度,促进生物的进化和生物多样 性的发展。 ( 2 ) 遗传密码子的起源和进化。虽然遗传密码的发现已经有近5 0 年的历史,但是有关 其起源和进化仍然是悬而未决的问题。从2 0 世纪6 0 年代中期遗传密码宣告全部破译之后, 就出现了两个对立的理论。1 9 6 7 年w o e s e 删提出立体化学相互作用论,认为遗传密码子起 源于三聚体与氨基酸的直接配对;1 9 6 8 年c r i c k 6 7 】贝0 提出偶然事件冻结论,认为密码子与氨 基酸得到对应关系的出现,纯粹是一种偶然现象,而后在进化过程中被固定下来。半个世纪 以来,两条研究路线各有进展,后来又陆续提出一些新的理论,影响较大的有:氨基酸和密 码子共进化论、离体选择理论、解码机理起源理论、第二密码观点、信息理论和流体静力学 压力假说等等。这些理论和假说各执一词,莫衷一是。虽然在几乎所有的生物中,遗传密码 都是通用的,但是在生物进化的过程中,遗传密码也是不断进化的。现在关于遗传密码的进 化主要有两种假说,分别是渐进进化与随机进化。关于遗传密码的起源和进化理论至今仍未 得到令人满意的诠释,各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述 理论的真伪提供了新的素材;现代生物技术的组合运用也为研究密码子的进化提供了新的思 路。 ( 3 ) 遗传密码的扩张。遗传密码的“扩张 是指通过化学的、离体生物合成的或活体蛋 白突变等方法,促使“渗漏”型终止密码子u a g 或u g a 编码2 0 种标准氨基酸以外的任 何非自然氨基酸6 8 1 。这不同于硒代半胱氨酸和吡咯赖氨酸的发现 6 9 , 7 0 】。后者是生物体的自主 4 博士学位论文:密码对的使用与基因组进化 行为,而前者则是人为的结果。目前,对应无义密码子u a g ,至少已经有3 0 种以上的非 自然编码氨基酸被稳定和高效率地整合进了相应的蛋白质,获得了具有新或强化属性的蛋白 质【7 l 】。随着密码子研究手段、技术和策略的完善和发展,研究者发现遗传密码并非必须为三 联体,在某些情况下4 碱基密码子和5 碱基密码子也可编码新的氨基酸 7 2 7 4 1 。 ( 4 ) 遗传密码子简并性( 多态性) 的研究【7 5 7 9 1 。密码子简并主要取决于第三位碱基。这 样,两种生物的基因中碱基的组成可以不相同,但其编码的蛋白质中氨基酸的组成和功能可 能基本相同。如果没有简并性的存在,变异的影响会非常大,这是不利于生物生存的。正因 为有了简并由变异引起密码子一个核苷酸的改变,其结构只是变成了一个氨基酸的另一个密 码子,而合成出与原来没有区别的蛋白质,这样密码子的简并性起到了防错的作用,从而维 持了物种的稳定性。 1 2 4 衡量同义密码子偏好性的指标 为了进行同义密码子用法模式分析,2 0 世纪8 0 年代以来,一些与密码子偏好性计算有 关的统计量陆续被提出,在此作简要介绍: ( 1 ) 相对同义密码子使用频率( r e l a t i v es y n o n y m o u sc o d o nu s a g e ,e s c u ) 。该指标由 s h a r p 等于1 9 8 6 年提出,用于标准化那些来自不同氨基酸组成的密码子用法。由于该指标比 较直观地反映了密码子使用的偏好性,因此应用最为广泛。r s c u 的定义是以某一同义密码 子使用次数的观察值为分子,以该密码子出现次数的预期值为分母。其中,密码子预期出现 的次数为当该密码子所编码的氨基酸的所有密码子平均使用时的次数。对于一个给定的氨基 酸f ,其第,个密码子的r s c u 值计算公式为: r s c u 扩= 睾= 瓦x u 一乙x o 这里,x 甜为是该密码子出现次数的实际观察值,n ;是编码此给定氨基酸的密码子简并数, 其数值范围从1 到6 。 如果密码子无偏好性,则r s c u 值为1 ;如果该密码子比其他同义密码子出现更为频繁, 则其天值大于1 ,反之亦然。 ( 2 ) 密码子适应指数( c o d o na d a p t a t i o ni n d e x ,c _ d 。由s h a r p 和l i 在19 8 7 年提出, 对于某个基因编码序列,c a 是指实际编码该蛋白的所有密码子对完全使用最优密码子编码 该蛋白的情况下的适应性指数,通过计算实际使用的密码子与其对应的最优密码子的r s c u 5 博士学位论文:密码对的使用与基因组进化 值的几何平均数比值所得。用公式表示,对特定基因的第k 个密码子: f = 一 伽:丝:逛= j 匝壹r s c u k c a i 峨 f 占v 西尺j o u 呱 f 乞r 粥仉一 。 这里,r s c u 。一指与第k 个密码子编码同一氨基酸的最优密码子的r s c u 值,三指基因 ( 4 ) 有效密码子使用个数( e f f e c t i v en u m b e ro f c o d o n s ,e n c 或c ) 。由w r i g h t 于1 9 9 0 七 户。= ( 疗。只2 1 ) ( 甩。- 1 ) 这里,万。是氨基酸实际使用的密码子的观察数量,即该氨基酸实际出现次数,只是第f 个 密码子的频率即刀加口,k 是编码目标氨基酸的同义密码子种类数目。根据同义密码子个数, 氨基酸可分为5 种类别,分别由1 、2 、3 、4 、6 个密码子编码,对某一类别,个密码子编 码家族,其平均用法由1 2 式定义: 万= 上声。 ( 1 2 ) f ,2 一乙凡 【卜纠 n 置ca e 置c 这里,l r c 是属于该类别的氨基酸数目,则e n c 由( 1 3 ) 式计算: 对。- - 2 + z ) = 口 得拒绝域: 矿 z o 一1 ) ( 不需估计参数) z 2 zr m 一1 )( 估计,个参数) 如果根据所给的样本值凰,噩,五算得统计量z 2 的实测值落入拒绝域,则拒绝 原假设,否则就认为差异不显著而接受原假设。对于一个好的拟合,每个自由度的z 2 值小于 o 1 f 1 2 9 1 。 1 7 挈 ,料 = 驴 博士学位论文:密码对的使用与基因组进化 2 2 基于密码对使用偏好的基因组相似性分析方法 聚类分析是研究分类问题的一种多元统计方法,是数据挖掘领域中最活跃的研究分支之 一,在生物学、经济学、人口学、生态学等科学领域有广泛的应用。由于这种方法能解决许 多实际问题,应用比较方便,因此越来越受到人们的重视。迄今为止已经提出了大量的聚类 算法,常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分 割、概率聚类等方法。其中系统聚类算法因其很多优点而显得越来越重要。本文第二章提出 了一种基于密码对中二核苷酸频率的系统聚类方法来构建物种进化的谱系图。因此文中重点 介绍系统聚类法。 2 2 1 两样本间距离的定义【1 2 8 】 把一个样本视为s 维空间中的一个点,则两样本之间的距离定义为j 维空间中两个点 之间的距离。距离是反映两个向量相异的指标,当两个向量完全相同时取最小值,当两个完 全不同时取最大值。定义距离的种类很多,其中欧氏距离在聚类分析中用得最广,本文选用 欧氏距离定义两物种间距离,其计算公式为: 妒酾 ( 2 7 ) 其中坛表示第i 个样品的第后个指标的观测值,琢表示第个样品的第七个指标 的观测值,西为第f 个样品与第,个样品之间的欧氏距离。若西越小,那么第f 与第j 两 个样品之间的性质就越接近。性质接近的样品就可以划为一类。 2 2 2 类与类间距离的定义【1 2 8 】 对于类与类间的距离,其定义有多种形式,本文选用类平均法。 设类q 和q 中分别有,和m 个元素,则类g 与类岛中任意两个元素之间距离的 平均值为两类之间的类平均距离,用d ( p ,g ) 表示,则有: 川伽b 壶乏留业2 ( 2 - 8 ) 其中d 弦表示g p 和q 两个类中任意两个元素之间的距离。 2 2 3 系统聚类方法【1 2 8 】 当确定了样本之间的距离及类与类之间的距离之后,就要对样本进行分类。分类的方法 博士学位论文:密码对的使用与基因组进化 很多,其中系统聚类方法是聚类分析中应用最广泛的一种方法。这种聚类方法的基本指导思 想是,从一批样本的多个观测指标中,找出能度量样本之间相似程度的统计数,构建一个相 似矩阵,在此基础上首先将刀个样品每个自成一类,计算出样本之间或样本组合之间的相似 距离,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这 个过程一直持续到所有样品归为一类为止,形成一个亲疏关系谱系图。 应用系统聚类法进行聚类分析的步骤如下: ( 1 ) 确定待分类样品的指标( 本文选取4 0 个物种的全基因组) 。 ( 2 ) 收集数据( 本文以各基因组的密码对中二核苷酸频率为参数) 。 ( 3 ) 对数据进行变换处理( 如标准化或规格化,本文对数据作了标准化处理) 。 ( 4 ) 使各个样品自成一类,即靠个样品一共有刀类。 ( 5 ) 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类。 ( 6 ) 并类后,如果类的个数大于1 ,那么重新计算各类之间的距离,继续并类,直至所 有样品归为一类为止。 ( 7 ) 最后绘制系统聚类谱系图。 2 3 密码对使用在d n a 双链上的不对称性分析方法 在进行密码对使用模式分析时,密码对偏好性的程度需要有一定的量化指标来衡量。从 上世纪八十年代以来,一些与密码对偏好性计算有关的统计量陆续被提出,如利用密码对的 卡方值估计偏差等,下面详细介绍本文评估密码对偏好的指标。 2 3 1 密码对使用偏好性指标的定义 ( 1 ) 密码对的观察频数 定义0 为一个密码对出现的观察频数。 ( 2 ) 密码对的期望频数 定义e 为密码对出现的期望值。则密码对彳4 州的期望值为: e = p a 。p a 时l x n t o t ( 2 - 9 ) t o t 是基因组中密码对的总数,珧和尉x + 1 是两个紧邻密码子以和以+ 1 的概率, 脚工和尉工+ 1 分别定义为 1 9 博士学位论文:密码对的使用与基因组进化 p a ;= o b s ( 彳。) r 。d 咄p a ,+ 。= b b 。( 4 ,+ ,) 。由。 ( 2 - 1 0 ) n 。0 。) 和n o b 。0 川) 是基因组中密码子a 工和a 州的总数,是一个基因组中 ( 3 ) 标准化密码对的期望频数8 7 】 为消除二肽偏好性对统计结果的影响,对密码对的期望值作如下修正,得到标准化的期 望值风o r r = 斛e 弘 盯代表相应同义密码对所编码的二肽,上式中求和是对所有编码二肽k l 的密码对的观 察值( 或期望值) ,即同义密码对的观察值( 或期望值) 求和。这样修正后使基因组中每个 二肽的观察值与期望值相掣8 7 1 。 ( 4 ) 随机偏差期望值 dexp=4nrorx(papa+i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论