




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 密码子使用偏性是指生物体中编码同一种氨基酸的同义密码子的非均匀使用 现象。在后基因组时代的今天,大量的研究表明从原核生物基因组到真核生物基 因组密码子使用偏性广泛存在,并且已经提出了“选择一突变一漂变 ( s e l e c t i o n - m u t a t i o n - d r i f t ) ”理论来解释密码子偏性的进化机制。已经知道在大多数细 菌、酵母和果蝇等基因组中同义密码子趋向于使用以g - 或c 结尾的密码子。这些 密码子是稍微有利的,因为它们对应了相应基因组中的t r n a 丰度分布,从而有利 于基因编码产物的高效合成。“选择一突变一漂变”理论的一个重要推论是,如果一 个基因经历了较强的选择压力( 如高表达) ,那么它应该有更大的密码子使用偏性。 真核生物基因远比原核基因复杂,大多数真核基因的编码区域是非连续的, 编码区域被内含子分割为若干个小片段。最近,一个群体遗传理论研究表明,内 含子的插入可能是稍微有害的( l y n c h2 0 0 2 ) 。因此,如果一个基因经历了较强的选 择压力,那么它应该有较少的内含子。根据以上的两个推论,我们可以预测一个 基因的内含子数目与密码子使用偏性应该有一个负相关关系。本文的目的就是利 用模式生物果蝇基因组信息证明这一预测。 我们的结果表明果蝇基因内含子数与密码子使用偏性有显著关系,随着内含 子数目的增加,基因中的g c ( 包含内含子) 含量及密码子使用偏性( t h es c a l e d 矿 值减小, ,r 值增大) 随之减小,而g c 3 与g c 3 s 及密码子适应系数( c a t ) 值先随 着内含子数的增加而增大,在内含子数为2 时最大,然后随内含子数的增加而减 小。对于只有一个内含子的基因,内含子插入位点的不同对g c 含量及密码子使用 偏性也有影响,内含子插入位点离起始密码子距离越远,基因中的g c 含量、c d s 的g c 含量及密码子使用偏性也越小。 对于作为蛋白质翻译终止信号的终止密码子,统计结果显示:在没有内含子 的基因中,终止密码子的使用具有极大的偏好性,随着内含子数的增加,这种偏 好性逐渐减弱,但仍然偏好于使用t a a 作为终止密码子,其次是t a g ,t g a 的 使用量最少,终止密码子的这种使用偏性在高表达基因中表现得更加强烈。另外, 我们还发现内含子长度与c d s 长度的比值与g c 含量及密码子使用偏性也有显著 关系。 我们的结果是与密码子使用的“选择一突变一漂变”理论相一致的,意味着在真 核生物如果蝇基因组中,密码子使用偏性与其基因结构( 内含予数) 的进化有耦 联性,并且不仅是由突变、漂变也是由选择所决定的。 关键词:内含子密码子使用偏性果蝇 两南大学硕+ 学何论文 a b s t r a c t c o d o nu s a g eb i a si st h ep h e n o m e n o no f n o n u n i f o r m i t yu s eo f t h es y n o n y m o u sc o d o mt h a t m a n yc o d o n sc o d ef o rt h es a m ea m i n oa c i d i nt h ep o s t - g e n o m ee r a ,al o to f i n v e s t i g a t i o n si n d i c a t e t h a tc o d o nu s a g eb i a si sw i d e s p r e a di nb o t he u k a r y o t i ca n dp r o k a r y o t i cg e n o m e s ,a n dt h e ”s e l e c t i o n m u t a t i o n - d r i f t ”t h e o r yh a sb e e np u tf o r w a r d t oe x p l a i n i n gt h ee v o l u t i o n a r ym e c h a n i s mo f t h ec o d o nu s a g eb i a s i nt h eg e n o m e so f s o m eo r g a n i s m ss u c ha st h eb a c t e r i a , y e a s ta n dd r o s o p h i l e , s y n o n y m o u sc o d o i l st e n dt ou s ec o d o n st h a tt h et h i r db a s ei sg o rc t h e s ec o d o u sm a yh a v eal i t t l e a d v a n t a g e ,b e c a u s et h e yc o r r e s p o n dt ot h et r n a a b u n d a n c ed i s t r i b u t i o ni nt h eg e n o m ea n dh e n c e m a yf a c i l i t a t es y n t h e s i so f t h eg e n ep r o d u c t i o n a ni m p o r t a n tp r e d i c t i o no f ”s e l e c t i o n m u t a t i o n - d r i f t t h e o r y i s t h a t i f a g e n ee x p e r i e n c e sa h i g h l ys e l e c t i v e p r e s s u r e ,s u c h a s h i g he x p r e s s i o n , i t m a y b e i n c l i n e dt os t r o n g e rc o d o nu s a g eb i a s e u k a r y o t i cg e n e i sm o r ec o m p l e xt h a np r o k a r y o t i co n e m o s to fc o d i n gr e g i o n si nt h e e u k a r y o t i cg e n ea l en o n - c o n t i n u o u s ,a n dc o d i n gr e g i o n sa r eo f t e l ls p l i tt om a n ys m a l ls e g m e n t sb y i n t r o a s r e c e n t l yap o p u l a t i o ng e n e t i c sr e s e a r c hr e v e a l e dt h a tt h ei n s e r t i o no ft h ei n t r e nm a yb e s l i g h t l yd e l e t e r i o u s ( l y n c h2 0 0 2 ) s o ,i f ag e n ee x p e r i e n c e sas o n gs e l e c t i v ep r e s s u r e 。i tm a yh a v e f e w e ri n t r o n s a c c o r d i n gt ot h ea b o v et w od e d u c t i o n s ,o n ec a np r e d i c tt h a tt h en u m b e ro f i n t r o n si na g e n em a yh a v en e g a t i v er e l a t i o n s h i pw i t hc o d o nu s a g eb i a s t h ep a r p o s eo f t h i sp a p e ri st ov a l i d a t e t h es p e c u l a t i o nb yu s i n gt h eg e n o m ei n f o r m a t i o no f am o d e lo r g a n i s m , d r o s o p h i l am e l a n o g a s t e r t h er e s u l t sr e v e a l e dt h a tt h ea m o u n to f t h ei n t r o n sh a v eas i g n i f i c a n t l yn e g a t i v ec o r r e l a t i o nw i m c o d o nu s a g eb i a s a st h ei n c f e mo f t h ei n t r o n s ,t h ec o n t e n t so f t h eg ca n dc o d o nu s a g eb i a s ( t h e s c a l e dz 2a n d c ) d e c r e a s e b u tt h ev a l u e so fg c 3 ,g c 3 sa n dc o d o na d a p t a t i o ni n d e x ( 翻,) i n c r e a s ew i t hi n t r o nn u m b e r , a n db e c o m em a x i m u mu n t i li th a s2i n 仃o n s ,a n dt h e nd e c r e a s e w i t ht h ei n c r e a s eo fi n t r o nn u m b e r w h e nag e n eo n l yh a so n ei n t r o n ,t h ed i f f e r e n c eo ft h ei n t r o n i n s e r t i o np o s i t i o n sm a yh a v ei n f l u e n c eo ng cc o n t e n t sa n dc o d o nu s a g eb i a s t h em o r ed i s t a n t f r o mt h es t a r tc o d o n ,t h el o w e rt h eg cc o n t e n t so f c d si sa n dt h el e s sc o d o nu s a g eb i a si s f o rs t o pc o d o n sw h i c ha r et h et e r m i n a t i o ns i g n a li np r o t e i nt r a n s l a t i o n ,t h er e s u l t sr e v e a lt h a tf o r t h eg e n e sw i t h o u ti n t r o n ,t h eu s a g eo ft h es t o pc o d o n sh a sas 扛o n gp r e f e r e n c e h o w e v e r , a st h e n u m b e ro fi n f f o n sp e rg e n ei n c r e a s e s ,t h ep r e f e r e n c eb e c o m e sw e a k t h em o s tc o m m o n l yu s e ds t o p c o d o ni st a a ,t h en e x ti st a ga n dt h eu s a g eo f t g ai st h ef e w e s t t h i sp r e f e r e n c ei sm o r ee v i d e n t i nt h ei t i g h l ye x p r e s s e dg e n e s a d d i t i o n a l l y , i tw a sf o u n dt h a tt h el e n g t hr a t i oo fi n t r o nt oc d sa l s o h a sas i g n i f i c a n tr e l a t i o n s h i pw i t ht i l eg cc o n t e n t sa n dc x d o nu s a g eb i a s o u rr e s u l t sa r ec o n s i s t e n tw i t ht h ep r e d i c t i o n so f ”s e l e c t i o n - m u t a t i o n - d r i f t ”t h e o r y , 岫, l y m gt h a t i nt h ee u k a r y o t i cg e n o m e s 。s u c ha sd r o s o p h i l a ,t h es t r u c t u r eo f t h eg e n e ( t h en u m b e ro f i n t r o n s ) a n d c o d o nu s a g eb i a sm i g h th a v ec o e v o l v e da n dt h e i re v o l u t i o nw a sd r i v e nn o to n l yb ym u t a t i o na n d d r i f tb u ta l s ob ys e l e c t i o n k e y w o r d s :n t r o n c o d o nu s a g eb i a s d r o s o p h i l a i i 独创性声明 学位论文题目:墨蝇基因塑圭凼金王熬旦生窒塑王篮周堡丝鲍差歪 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西南大学或其他教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者:曾孜哨 签字日期: 产矽月亿日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。 学位论文作者签名:曾弱砑导师签名:彳凯纩孚 签字日期:7 年g 月,日签字日期:徊7 年么月,2 日 学位论文作者毕业后去向: 工作单位: 通讯地址:邮编: 第一章文献综述 第一章文献综述 1 1 基因的有关概念 1 1 1 内含子与外显子 基因是对某一特殊功能至关重要的基因组d n a 或r n a 的一个序列【1 1 ,除了 某些病毒外,所有生物的遗传信息都是由脱氧核糖核酸d n a 分子链上的长短不同 的片段所携带,这些包含遗传信息的长短不同的片段即是“基因”【2 1 。根据其是否具 有转录和翻译功能可以把基因分为三类,第一类是编码蛋白质的基因,它具有转 录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因; 第二类是只有转录功能而没有翻译功能的基因,包括t r n a 基因和r r n a 基因;第 三类是不转录的基因,它对基因表达起调节控制作用,包括启动基因和操纵基因, 启动基因和操纵基因有时被统称为控制基因。 对于编码蛋白质的结构基因来说,基因是决定一条多肽链的d n a 片段,j 但是 有些基因并非整段d n a 片段都是蛋白质的编码序列,在这段d n a 序列中有些序 列段不编码蛋白质,这种插于结构基因内不编码蛋白质的序列段称为内含子。内 含子的数目因基因而异,原核基因没有内含子,在简单的真核基因组中内含子一 般出现得较少。比如,酵母基因组6 0 0 0 个基因中总共只有2 3 9 个内含予而绝大 部分人类基因至少有一个内含子,人类的某些单个基因中就可能有1 0 0 个或更多 的内含子【3 fp n 习;本文研究的果蝇( d r o s o p h i l am e l a n o g a s t e r ) 基因序列中,最多的 含有7 8 个内含子,也有很大一部分果蝇基因不含内含子。不同的真核基因不仅在 内含子数量上有很大的差异,在内含子的长度上差异也很明显。如登录号为 f b g n 0 0 0 5 6 3 0 的果蝇基因,其内含子长度为4 3 6 1 2 个碱基;而登录号为 f b g n 0 0 3 9 8 8 3 的果蝇基因的内含子长度仅有6 5 个碱基。在真核细胞中有多种明显 不同的内含子,为便于转录时编码区域的识别,与真核细胞蛋白质编码基因有关 的内含子都遵循“g t - a g 规则”,所谓“g t - a g 规则”就是所有内含子d n a 序列的 头两个核苷酸是g t ,而结尾的两个核苷酸是a g t 3 1 。 结构基因除了内含子外,其余编码蛋白质的序列被内含子分成多段,每段就 是一个外显子。含有内含子的真核生物刚从d n a 转录出来的m r n a 并不是翻译 蛋白质的m r n a ,称为前体m r n a ,还要继续加工,才能成为成熟的m r n a ,加 工的主要内容是剪去不表达的内含子,并将其两侧要表达的外显子重新连接起来。 真核基因大都含有内含子,也有一部分不含内含子。对于内含子,究竟是古 代基因在进化过程中插入一段非编码序列形成,还是含有内含子的古代基因在进 两南犬学硕十学何论文 化过程中,有一些基因丢掉内含子而形成现在没有内含子或内含子很少的基因, 还是争论的焦点【5 3 1 。本文不探究内含子的形成原因,主要分析内含子有无及个数 与密码子使用偏性的关系,结果显示密码子使用偏性与基因内含子数目之间有着 非常密切的关系。 1 1 2 遗传密码 d n a 含有4 种碱基a 、t 、c 、g ,转录成的信使r n a 的4 种碱基为a 、u 、 c 、g ,这些碱基是构成遗传密码的符号。通常所说的遗传密码是按信使r n a 的4 种碱基编码的。1 9 6 1 年,克晕克和布伦纳等科学家,解决了遗传密码是“三联码” 还是“四联码”的问题,1 9 6 4 年著名的化学家考拉纳证明了密码子确实是由三个核 苷酸所组成的,1 9 6 4 年尼伦伯格直接地最后地证明了密码子是三联体【3 9 p 2 7 l 2 9 】 3 1 【1 l 。 m r n a 分子中含有的a 、g 、c 、u 四种核苷酸,从5 - 3 方向,每3 个相互 临近且不相重叠的核苷酸为一组构成的三联体,称为遗传密码,又称密码子或密 码。四种核苷酸可组成6 4 ( 4 3 ) 种密码子,其中6 1 种密码子分别编码2 0 种氨基 酸,还有三个密码子u a a 、u g a 、u a g 是蛋白质翻译过程的终止密码子。自从 1 9 6 1 年证明遗传密码是三联密码,并且发现u u u 编码苯丙氨酸以后,各国生物学 界燃起破译遗传密码的热潮:到1 9 6 6 年,译完全部“种密码子,建立了密码子 与氨基酸之问的对应规则一遗传密码( g e n e t i cc o d e ) 。除了几个例外情况( 线立体 基因,叶绿体基因) ,几乎所有真核生物的细胞核基因和原核生物的基因的翻译都 是由同一组通用规则( 表1 1 ) 所决定的。 传递生物遗传信息的遗传密码除了具有表1 - 1 所具有的密码子与氨基酸的对 应规则外,还具有如下的一些特点1 3 1 1 , 2 7 3 】【3 2 p 1 7 7 1 【3 3 i ) 1 5 8 1 眇p 2 7 】) : 、起始密码和终止密码。各种生物在蛋白质的合成过程中,都需要以m r n a 上的某个密码子作为起始密码,代表合成肽链的第一个氨基酸的位置:同时也需 要以某个或某些密码作为合成过程的终止信号。这种在肽链合成过程中起着起始、 终止信号作用的密码子分别称为起始密码子( s t a r tc o d o n ) 和终止密码子( s t o p c o d o m ) 。大多数生物以a u g 作为起始密码子,但也有少数细菌中用g u g 作为起 始密码子;而在真核生物中,c u g 偶尔也用作起始蛋氨酸的密码。密码子u a a 、 u a g 、u g a 是肽链合成的终止密码,不代表任何氨基酸,它们单独或共同存在于 m r n a 3 末端。 、方向性。m r n a 中密码子的排列具有方向性,即起始密码总是位于m r n a 的5 端,而终止密码位于3 端,每个密码的三个核苷酸也是沿5 一3 的方向阅读, 不能倒读。这种方向性决定了翻译过程是沿m r n a 的5 一3 方向进行的。 第一章文献综述 表i - 1 通用遗传密码表 t a b l e1 - 1 u n i v e r s a lg e n e t i cc o d e 第一个核苷酸第 一二 个核苷酸第三个核昔酸 ( 5 ) ucag ( 3 ) 苯丙氨酸( f )丝氧酸( s ) 酪氨酸( y )半胱氰酸( c ) u p h e n y l a l a n i n e s t r i n e t y r o s i n ec y s t e i n e 苯丙氨酸( f )丝氯酸( s ) 酪氨酸( y ) 半胱氨酸( c )c u p h c n y l a l a n i n e s e r i t i e 1 ) v r o s i n ec y s t e i n e 亮氨酸( l )丝氨酸( s )无意义无意义 a l e u e i n es e 一l e融t c r 亮氨酸( l )丝氨酸( s )无意义色氨酸( mg l e u c i n e s e r i n et e r t r y p t o p h a n 亮氨酸( l ) 脯氯酸( p )组氰酸( h )精氨酸( r ) u l e u c i n ep r o l i n eh i s t i d i n e a r g i n i n e 亮氨酸( l )脯氨酸( p )组氨酸( h )精氯酸( r ) c cl c u e i n ep r o l i n eh i s t i d i n e a r g m i n e j 亮氨酸( l )脯氨酸俨) 谷氨酰胺( q )精氨酸( r ) a l e l l c i n ep r o l i n eg l u t a m i n e a r g i n i n e 亮氨酸( l )脯氨酸( p )谷氨酰胺( q )精氨酸( r ) g l e u e m ep r o l i n eg l n a r g i n i n e 异亮氨酸( i ) 券氨酸( d天冬酰胺( n ) 丝氰酸( s ) u i s o l e u e i n et h r e o n i n e a s p a r a g i n e s e r i n e 异亮氨酸( i )苏氨酸( n天冬酰胺( n )丝氨酸( s ) c al i et h r e o n i n ea 锄 s e r i n e 异亮氨酸( i ) 苏氨酸( n 赖氧酸( k )精氨酸( r ) a l i et h r e o n i n e l y s i n ea r g i n i n e 甲硫氨酸( m )苏氨酸( n 赖氨酸( k ) 精氨酸( r )g m e t h i o n i n et h r e o n m el y s i n e a r g m i n e 缬氨酸( v )丙氯睫( a )天冬氯酸( d )甘氨酸g ) u v 矾i n ea l a m i n e a s p a r t i ca c i dg l y c i n e g 缬氨酸( 、,)丙氰酸( a )天冬氨酸( d )甘氨酸( g ) gv a l i n ea l a m i n e a s pg l y c i n e 缬氨酸( v )丙氨酸( a )谷氨酸( e )甘氨酸( g ) i n ea l a m i n eg l u t a m i ea c i d g t y c i n e 缬氨酸( v ) 丙氨酸( a )谷氰酸( e ) 甘氨艘( 0 ) v a l i n ea l a m i n eg l u g l y c i n e ( d 、连续性。三联体密码在m r n a 上是连续排列的,直至终止密码子,两个 密码子之白j 没有任何标点或核苷加以间隔。因此,要正确地阅读密码,必须从一 两南大学硕十学何论文 个正确的起点( 起始密码子a u g ) 开始,每3 个相互临近的碱基一组连续不断地 阅读下去,直至终止密码为止。如果m r n a 链上插入一个碱基或者删除一个碱基, 就会导致读码错误,这种错误叫移码。移码可引起突变,可能使下游翻译的氨基 酸完全改变。 ( d 、不重叠性。从起始密码a u g 开始,后面每三个相邻核苷酸组成一个密 码子,且前后两个密码子之间没有重叠的核苷酸。例如,对序列 a u g a a g g u c u u c ,若a u g 为起始密码,则该序列的密码子是a u g 、a a g 、 g u c 、u u c 。 、简并性。除甲硫氨酸和色氨酸外,其余1 8 种氨基酸的密码子均为两种 或两种以上,最多的可达6 种。这种同一种氨基酸具有多种密码子,或者几个密 码子编码同一种氨基酸的现象称为密码子的简并性。为同一种氨基酸编码的一组 密码子称为同义密码子。由于密码子的简并性,当氨基酸密码子第三位置上的碱 基发生同义替换( s y n o n y m o u ss u b s t i t u t i o n ) 时p p 5 剐,新产生的密码子编码的氨基 酸不变,从而不影响蛋白质的合成,这对减少突变的有害效应、维持物种的稳定 性具有重要的意义。 、摆动性。翻译过程中氨基酸的正确加入,需要m r n a 上的密码子与t r n a 上的反密码子相互以碱基配对辨认,密码子与反密码子配对,有时会出现不遵从 碱基配对规律的情况,称为遗传密码的摆动现象。这一现象常见于密码子的第三 位碱基对反密码子的第一位碱基,二者虽然不严格互补,也能相互辨认。t r n a 分 子含有较多稀有碱基,其中次黄嘌呤( i n o s i n e ,i ) 常出现于反密码子的第一位,是 最常见的摆动现象。由于遗传密码的摆动现象,在翻译6 1 种密码子时用不着6 1 种反密码子。 ( d 、密码的通用性和例外。从最简单的生物例如病毒,一直到人类,在蛋白 质的生物合成中都使用同一套遗传密码,也就是说遗传密码在很长的进化时期中 保持不变,上面的这张遗传密码表是生物界通用的。但密码子的通用性也不是绝 对的,动物细胞的线粒体、植物细胞的叶绿体这些细胞器,在翻译过程中,虽然 也是三联体密码子,但和普遍使用的“通用密码子”有相当多的差别。例如线粒体和 叶绿体以a u g 、a u u 为起始密码子,而a u a 兼有起始密码子和甲硫氨酸密码子 的助能:a g a 、a g g 不是精氨酸的密码子,而是终止密码子,加上通用密码中的 u a a 、u a g ,线粒体中共有4 个终止密码子:而通用密码表中的终止密码子u g a 成为色氨酸的密码子。 、密码子使用的不均衡性。编码同一氨基酸的同义密码子的使用是不均等 的,其中会有一二个是被优先选用的。例如,果蝇基因组编码精氨酸的密码子 ( c g u 、c g c 、c g a 、c g g 、a g a 和a g g ) 中,果蝇偏好于使用密码子c g c ( 3 3 ) 4 第一章文献综述 其余五个密码子每个出现频率约为1 3 1 :p u 2 j ( d r o s o p h i l am e l a m o g a s t e rc o d o n u s a g ed a t a b a s e :h t t p :w w w k a z u s a o r j j p e o d o n ) ;对于一种生物,高表达基因倾向于 使用的部分特定的同义密码子( 使用较频繁的同义密码子) 称为该生物的最佳密 码子( o p t i m a lc o d o n ) 1 1 s 1 5 6 1 研究翻译过程对密码子的“偏好性”,是生物进化研究 中的一个有兴趣的课题,这也正是本文研究的主要内容。 1 2 密码子使用偏性 1 2 1 密码子使用的偏好性及形成原因 由于编码氨基酸的密码子的简并性,同一氨基酸可以使用不同的密码子编码。 在2 0 种氨基酸中,除了甲硫氨酸、蛋氨酸只有一个密码子外,其余1 8 种氨基酸 中每个氨基酸都有2 - 6 个同义密码子。在生物界,蛋白质编码基因的同义密码子的 使用并不随机、也不平均,各种生物体都偏爱使用同义密码子中的某些个别的密 码子,而且不同物种、不同生物体的基因在密码子使用上存也在着很大的差异i ”1 。 例如果蝇( d r o s o p h i l am e l a n o g a s t e r ) 基因偏好以c 结尾的密码子【2 ,6 4 2 9 的密 码子是以g c 结尾( d r o s o p h i l am e l a n o g a s t e r c o d o n u s a g e d a t a b a s e , h t t p :w w w k a z u s a o r j p c o d o n ) ,本文研究的基因中除了起始、终止密码子外,共 有5 0 5 8 7 1 4 个密码子其中g c 结尾的密码子占6 3 2 :线虫基因组明显偏好以a 或u 结尾的密码子【2 0 】:伪狂犬病病毒i e l 8 0 基因g c 含量高达8 0 1 ,偏向于使 用富含g 和c 的密码子1 2 习;人类基因组偏好以c 或g ,尤其是以c 结尾的密码子 1 2 5 l ;e s c h e r i c h i ac o l i 基因组4 3 3 9 8 1 7 个密码子中以g c 结尾的密码子占5 1 2 8 ( h t t p :w w w k a z u s a o r j p c o d o n ) 。这种生物体中编码同一种氨基酸的同义密码子 的非均匀使用现象称为密码子使用偏性( e o d o nu s a g eb i a s ) 。对应于某一物种或某一 特定的基因都有相对应的密码子使用偏性,不同种属的生物基因氨基酸偏爱的密 码子和偏性的程度是不一样的。例如,在e s c h e r i e h i ac o l i 基因组中,精氨酸的各 个同义密码予的使用频率c g u 为3 3 0 4 1 伊,c g c 为3 1 6 2 1 8 ,c g a 为7 7 6 9 3 , c g g 为1 2 7 7 ,a g a 为9 3 2 2 2 ,a g g 为5 a 7 5 1 ( h t t p :w w w k a z u s & o r j p e o d o n ) : 在整个酵母基因组中,所有精氨酸的4 8 由密码子a g a 确定,而其余五种编码精 氨酸的同义密码子( c g t ,c g c ,c g a ,c g g ,和a g g ) 则以较低的大致相等的 频率被使用( 每种l o 左右) ;而果蝇则以完全不同的密码子使用偏性编码精氨 酸,其更倾向于使用密码子c g c ( 3 3 ) b p l 2 。 l ( d r o s o p h i l am e l a n o g a s t e rc o d o nu s a g e d a t a b a s e :h t t p :w w w k a z u s a o r j p c o d 0 1 】) 。从原核生物到真核生物,其基因组中同 义密码子使用偏性的现象广泛存在,这一现象的产生与诸多因素有关: 、密码子与反密码子的相互作用、t r n a 的丰度以及基因转录和翻译的效 5 两南丈学硕十学仲论文 率1 5 。密码子的使用偏性与细胞内的t p u n a 含量成正相关,与t p - a 的解读能力相 匹配【3 9p 3 6 1 。 ( d 、基因表达的水平。同义密码子的使用与翻译速度及表达量密切相关,高 表达的基因的密码子使用偏性远远大于低表达的基因【h 1 1 2 2 1 ( 本文4 1 3 中的结论与 此一致) 。这可能是高表达的基因要求翻译速度快,从而在密码子的选择上,选择 那些与反密码子配对快、分手也快,相应t r n a 分子数量多且解读能力高的密码子 【3 9 p 3 6 i 。这些偏好能够有效地翻译密码子,达到优化翻译的效应【3 6 】。 ( d 、基因组中的g c 含量。基因组中的g c 含量高时,密码子的第三位碱基 多选择g ,c ,密码子使用偏性高,反之亦然p ”。 ( d 、避免使用类似于终止密码子的密码子i 玉p 1 2 2 。文献 4 6 】指出,终止密码子 对编码区碱基的使用起重要限制作用,蛋白质编码区3 个密码子位碱基分布具有 明显的不对称性,与终止密码子对应的一些单、双核苷酸出现的频率很低,从而 影响密码予的使用。 ( d 、物种的差别。不同的物种全基因组密码子使用偏性不同。 ( d 、氨基酸的保守性。保守位胃的氨基酸密码子使用偏性明显高于非保守位 置【3 9 】 ( d 、蛋白质的结构功能。基因密码子的使用与基因编码的蛋白的结构和功能 有关。蛋白质折叠方式与m p u n a 序列之间存在一定的相关性,蛋白质的三级结构 与密码子使用概率有密切的关系f 5 0 】;在不同物种中,类型相同的基因具有相近的 同义密码子使用偏性,对于同一类型的基因由物种引起的同义密码子使用偏性的 差异较小。 ( d 、内含子的长度。文献【5 4 】指出在某些单细胞生物中密码子的使用偏性与 内含子的长度成正相关,而对于多细胞生物则刚好相反。 ( d 、内含子数目。本文研究结论显示内含子数目与密码子使用偏性之白j 有显 著相关性。 除了上述原因外,密码子使用偏性还与重组率、基因密度【1 9 1 、突变偏性【3 6 】、 基因长度【5 5 1 【1 9 j 、氨基酸的组分【3 6 1 等有关。 由于密码子使用偏性与诸多生物信息有着相关的联系,因此,密码子使用偏 性的研究具有许多生物学意义,对于后基因组时代的生物信息的处理有着重要的 应用价值。通过密码子使用偏性的研究,可以判断未知基因是高表达基因还是低 表达基因:通过密码子使用偏性的研究,根据编码区和非编码区的密码子使用偏 性的不同,可以对基因组进行扫描,发现新基因:由于密码子的使用偏性与基因 的功能相关,通过密码子的使用偏性可以对待测基因的功能进行预测等。 第一章文献综述 1 2 2 密码子使用偏性的度量指标 生物信息学发展至今,已经产生了许多度量密码子使用偏性的指标,常用的 一些指标包括密码子使用频数夕、密码子使用的绝对频率f r e 、密码子使用的相对 频率r s c u 、基因g c 含量、s c a l e d z 2 值、密码子偏爱参数c p p 、基因的有效密 码子数目n c 、内在密码子偏离指数i c d i 、最大可能密码子偏性m c b 、基因的密 码子适应系数c a i 、最佳密码子使用频率f o p 和密码子偏爱指数c b i 等。上述评 价基因密码子使用偏性的指标可以分为两大类【4 1 : ( i ) 描述单个密码子使用偏性的指标,如密码子使用频数后、密码子使用 的绝对频率p e 和相对同义密码子使用频率r s c u 等: ( i i ) 描述整个基因密码子使用偏性的指标,这类指标又根据有无比较的对 象及比较对象的不同分为下述三类: ( 一) 直接描述基因密码子偏性的指标,如密码子第三位置上的g c 3 及g c 3 s 含量; ( 二) 与同义密码子平均使用相比较,以衡量基因密码子实际使用偏离密码 子平均使用的程度,如密码子有效数n c ( t h ee f f e c t i v e n u m b e r o f c o d o n ) 、s c a l e dr 2 值、密码子偏爱参数c p p ( c o d o n p r e f e r e n c e p a r a m e t e r ) 和内在密码子偏离指数i c d i ( t h ei n t r i n s i ce o d o nd e v i a t i o ni n d e x ) 及最大可能密码子偏性m c b ( m a x i m u m 1 i k e l i h o o dc o d o nb i a s ) 等: ( - - ) 与参考基因( 一般为高表达的基因) 的密码子用法相比较,度量基因 密码子使用接近参考基因密码子用法的程度,如密码子适应指数c a ( t h ec o d o n a d a p t a t i o ni n d e x ) 和最佳密码子使用频率f o p ( t h ef r e q u e n c yo f o p t i m a le o d o n s ) , 密码子偏爱指数c 町( t h ec o d o nb i a si n d e x ) 等。 上述两大类指标各有自己的特点,下面对这些密码子使用偏性指标作简要介 绍: 、密码子使用频数( f c ) 。密码子i 在基因中出现的次数就定义为密码子i 的 使用频数,记为向。 、密码子使用的绝对频率( f r e ) 。基因中密码子i 使用的绝对频率分为相 对于整段基因的密码子使用频率加一f 和相对于编码同一氨基酸的各同义密码子 的使用频率f r e a j ,f r e m 是密码子i 在整段基因中出现的频率,其计算方法为 f r e 一,= f c , n ,f r e 一嚷是密码予i 在编码同一种氨基酸的同义密码子中出现的频 率,其计算方法为p e a j = f c , 口q ,这里代表基因中所包含的所有密码子数量 ( 排除起始密码子和终止密码子) ,a a i 代表密码子f 所编码的氨基酸出现的次数。 与尼相比,f r e m 虽然剔除了基因序列中的密码子数量对密码子使用频数的影 响,但与氨基酸的组成有关,还是不能比较不同长度基因之间密码子偏性;与 7 ( d 、相对同义密码子使用频率尺5 c u ( r e l a t i v es y n o n y m o u se o d o nu s a g e ) 【8 l 【7 】。 子,每个同义密码子的实际使用次数为,u = 1 ,2 ,n ,) ,则氨基酸i 的第j 个密 姗2 誊2 等 一个整体,在密码子使用方面的偏性程度3 吼p 3 8 。 第一章文献综述 、密码子有效数目n c ( t h ee f f e c t i v en u m b e ro f c o d o n ) l o l 。反映基因有效使 用的密码子种类的多少,即基因密码子使用的偏性程度。其数值一般在2 0 - - 6 1 之 间,考虑到不同基因的长度的不同、编码的氨基酸组分不同,在计算时引入了处 理以消除这一影响,故f 值可非整数,且可能大于6 1 ;当坼 6 1 时,调整为6 l 。 0 值越小,基因对密码子的使用偏性越大。 7777 j c = 2 + ( 9 e ) + ( 1 e ) + ( 5 只) + ( 3 e ) ( 2 ) ( 2 ) 式中t 表示密码子简并数为i 的氨基酸组的平均纯合性,( 3 ) 式中丘。表 示密码子简并数为i 的第k 个氨基酸的纯合性。 在计算中,若某氨基酸很少被用( 克= ( n 。p 毳,- 1 ) ( n 。一1 ) 的分子或分母为 零) ,则作为缺失氨基酸处理;若密码子简并裂为i 的第k 个氨基酸缺失,则丘等 于该同义族中其它非缺失氨基酸纯合性的平均值。但是,若异亮氨酸( i l e ) 缺失或很 少被用,只将取e 和丘的平均值。若其它任何同义族类缺失或很少被用,有可能 是基因太短,或显示氨基酸使用的极端偏好【6 1 ,这时不能计算密码子有效数目。文 献【6 模拟结果显示:当基因密码子数少于1 0 0 时,统计量 0 会低估同义密码子使 用偏性,但当基因密码子数多于1 0 0 时, l 很好地近似同义密码子使用偏性的真 实值,且很少受基因长度的影响;文献 1 l 】 1 3 】模拟结果也表明在g c 3 的不同含量 和基因的不同长度下统计量 0 值几乎不受影响。 “ 按照文献【6 】的方法计算忘、丘、丘和危时,有可能出现1 丘 2 、l e , 3 、 1 只 4 和l i e , 6 的情形【4 9 1 ,从而计算出的 0 值大于6 1 ,此时按照【6 】中的方法 调整为6 l ,似乎有太大的主观因素,文献 4 9 给出一个计算各个户方法: 上 吒= 乞p 矗 ( 4 ) 卢l 文献 6 】中对于异亮氨酸( 1 1 e ) 缺失或很少被用时,只将取丘和只的平均值,对 于丘的这种估计,文献【4 8 】指出其缺陷,并给出丘的新估计( 5 ) ,这个估计利用丘、 只和定的值,在密码子的使用完全无偏性时是对定的最好估计。 互:i 1 【i 2 一1 ) - i + ( ;+ i lj - i + ( ;+ 争】 ( 5 ) e3 e o 5 e 3 本文中计算密码子有效数目心时,利用( 4 ) 式计算各个户值,当异亮氨酸( 1 1 e ) 缺失时,用( 5 ) 式估计定。 、s c a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年惠州市公务员考试行测试卷历年真题及一套完整答案详解
- 农业灾害防控技术-洞察及研究
- 抗玉米赤霉烯酮纳米抗体噬菌体展示库构建和纳米抗体制备研究
- “X然”类描摹性副词多角度研究
- 董事高管责任保险对企业环境信息披露质量的影响研究
- CrFeNiAl0.3Ti0.3高熵合金耐磨蚀涂层的制备及其性能研究
- 不同升温情景下福寿螺牧食压力对沉水植物的影响研究
- 初中生英语课堂无聊、无聊应对策略和英语学业成绩的关系研究
- 2025年希腊语等级考试希腊语商业报告阅读专项训练试卷
- 绿色环保建材推广应用项目2025年市场分析报告
- 租房合同到期交接协议书
- 中国废旧轮胎橡胶粉项目投资计划书
- 子宫内膜异位性疾病护理
- 人工智能芯片研究报告
- 2025贵州中考:历史高频考点
- pc构件吊装安全专项施工方案
- 汽车质量意识培训
- 新疆开放大学2025年春《国家安全教育》形考作业1-4终考作业答案
- 管网工程有限空间内清淤作业检测修复安全专项施工方案
- 成本预算绩效分析实施案例
- 2025年中质协注册质量经理认证考试题库大全(含答案)
评论
0/150
提交评论