




已阅读5页,还剩59页未读, 继续免费阅读
(植物学专业论文)基于生物信息学的冷休克结构域蛋白家族进化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于生物信息学的冷休克结构域蛋白家族进化研究 中文摘要 本文基于公共数据库数据,以冷休克结构域( c o l d s h o c k d o m a i n ) 蛋白超家 族为例,利用生物信息学的理论和方法,对冷休克结构域蛋白超家族的分子进化 进行深入研究,目的是揭示冷休克结构域蛋白超家族基因起源和进化的分子机制 以及基因非编码区调控作用,并为深入研究其他基因家族以及超家族进化机制提 供新的思路和方法。本文的主要研究结果如下: ( 1 ) 运用n j 法和m l 法对8 4 条冷休克结构域蛋白的氨基酸序列进行系统发 育进化树构建,发现该系统发育树由3 个大簇( c l a d e i 、c l a d e l i 和c l a d e l l l ) 构 成,其中c l a d e l 是包含物种种类最多的一簇,从鱼类黑青斑河豚到哺乳动物人 类,从基因结构看这一簇成员基本都包含长度为6 4 、3 4 、9 0 的外显子,并且内 含子的插入相位也大致相同,这个位置正是编码冷休克结构域的氨基酸位置,说 明冷休克结构域在这些成员当中是很保守的;c l a d e l i 多是无脊椎动物一簇,从 低等的克氏锥虫到蜜蜂、果蝇,该簇在基因结构上表现为外显子数目少,且碱基 数较多,同时在线虫中还发现4 种旁系同源产物c e y l 、c e y 2 、c e y 3 和c e y 4 蛋 白;c l a d e i 是植物一簇聚集到一起,从系统发育树中看a a d e i i i 和c l a d e l i 聚集 在一个树枝上,该簇含有的外显子数目也是很少的,且内含子数量少甚至不含有 内含子。 ( 2 ) 通过对氨基酸序列m o t i f 进行分析,发现高等动物比低等动物含有更多 数量的m o t i f ,而在植物中含有的m o t i f 数量更少,但植物中单个m o t i f 种类的重 复则较多。 ( 3 ) 对冷休克结构域蛋白基因的m r n a 的3 、5 u t r 区域进行研究,结 果表明在3 u t r 区域的功能元件比5 u t r 区域的多。采用同源序列比对发现 在u t r 区域的序列保守性相对较差,碱基间也发生了较大的突变。 ( 4 ) 对各个冷休克结构域蛋白基因中的内含子做重复序列分析,发现在由无 脊椎动物到脊椎动物进化的过程中,内含子重复序列元件在增多,但重复序列元 件增加的数量各有不同,说明内含子在插入外显子中的位点也相应的增多。此外, 亲缘关系相近的物种,其重复序列元件在基因结构上又具有一定的相似性。更进 一步的研究发现重复序列元件的种类与内含子总长度和g c 含量密切相关。 通过对上述研究结果的综合分析,初步模拟出了冷休克结构域蛋白家族的 进化模型,即在物种形成冷休克结构域蛋白的初期是由基因复制产生直系同源蛋 白,随着物种的进化由于选择性剪接进而产生旁系同源蛋白,从而使得该蛋白家 族成为一个多功能蛋白家族。本文的研究结果也为更深入地研究基因家族以及超 家族进化机制提供了新的方法和启示。 关键词:生物信息学,冷休克结构域,基因家族进化,基因结构,重复元件 基于生物信息学的冷休克结构域蛋白家族进化研究 a b s t r a c t b a s e do nt h ep u b l i cd a t a b a s e s ,t h em o l e c u l a re v o l u t i o no ft h ep r o t e i n s u p e r f a m i l yw i t hc o l ds h o c k d o m a i nw a ss y s t e m a t i c a li n v e s t i g a t e du s i n gt h e o r i e sa n d m e t h o d so fb i o i n f o r m a t i c sa n de v o l u t i o n a r yg e n o m i e s t h ep u r p o s e so fp r e s e n tw o r k a r et of u r t h e ru n d e r s t a n dt h em o l e c u l a rm e c h a n i s m so fg e n eo r i g i na n de v o l u t i o n ,a n d t h ef u n c t i o n so fg e n en o n - c o d i n gr e g i o n , a sw e l la sp r o v i d en e wm e t h o d sf u r e l u c i d a t i n gt h ee v o l u t i o n a r ym e c h a n i s m o fo t h e rg a n ef a m i l i e sa n d o rs u p e r - f a m i l i e s t h em a i nr e s u l t so ft h i ss t u d yw e l td e m o n s t r a t e da sf o l l o w s : 1 ) t h ep h y l o g e n e t i ct r e eo f8 4c o l ds h o c kd o m a i np r o t e i ns e q u e n c e sw a s c o n s t r u c t e du s i n gn ja n dm lm e t h o d s ,w h i c hs h o w st h a tt h et o p o l o g ys t r u c r t r e c o n t a i n st h r e ec l a d e s ,n a m e l yc l a d e lc l a d e l ia n dc l a d e l h c l a d e lc o n t a i n st h em o s t s p e c i e sf r o mf u g ur u b r i p e st oh o m os a p i e n s ,a n da l m o s ta l lg e n e so ft h i sc l a d e l c o n t a i nt h et h r e ek i n d so fe x o n so f 6 4 b p ,3 4 b pa n d9 0 b pi nl e n g t hw i t hn e a r l yu n i f o r m p h a s e so fi n t r o ni n s e r t i o n p a r t i c u l a r l y , t h el o c a t i o ni sj u s tt h es i t eo fe n c o d i n gc o l d s h o c kd o m a i n , w h i c hi m p l i e st h a tt h ec o l ds h o c kd o m a i ni sh i g h l yc o n s e r v a t i v ei nt h e s u p e r - f a m i l y c l a d e hc o n t a i n st h em o s ts p i e so fi n v e r t e b r a t ef r o mt r y p a n o s o m a c r u z it o 却i sm e l l i f e r aa n d d r o s o p h i l am e l a n o g a s t e r c o m p a r i n gw i t hc l a d e , c l a d e l l g e n e sc o n s i s to ff e w e re x o n sw i t hm o r en u c l e o t i d ea c i d s i ti sa l s oi n t e r e s t i n gt of i n d t h a tt h e r ea r e4p a r a l o g o u sp r o t e i n si e c e y l ,c e y 2 ,c e y 3a n dc e y 4i nc a e n o r h a b d i t i s e l e g a n s c l a d e c o n t a i n sp l a n t sw i t ho n l yf e w o rn o n ei n t r o n s 2 、a n a l y s e so nt h em o t i fi na m i n oa c i ds e q u e n c e so fc o l ds h o c kd o m a i np r o t e i n s s h o wt h a tt h e r ea r em u c hm o r em o t i f si nh i g h e ra n i m a l s i na d d i t i o n ,t h er e s u l t sa l s o d i s p l a y t h a tt h e r ea r em u c hl e s sm o t i f si np l a n t st h a ni na n i m a l s ,b u tt h ep l a n t ss e e mt o h a v em o r er e p e a t so fs i n g l em o t i ft h a nt h ea n i m a l sd o 3 1a n a l y s e so us t r u c t u r ep r o p e r t i e so f3 a n d5 u t ro fm r n aw i t hc o l ds h o c k d o m a i n si n d i c a t et h a tt h ef u n c t i o n a le l e m e n t sa r em o r ei n3 叨tt h 锄i n5 u t l l f u r t h e r m o r e ,h o m o l o g ys e q u e n c ea l i g n m e n ts h o w st h a tr e l a t i v e l yl e s sc o n s e r v e d s e q u e n c e se x i s ti n3 u t ra n d5 u t r a n dt h e r ei sh i g hl e v e lo fn u c l e i ca c i d m u t a t i o n si nt h e s er e g i o n s 4 、i n v e s t i g a t i o no nt h er e p e a ts e q u e n c e so fi n t r o n si ng e n e so fd i f f e r e n tc o l d s h o c kd o m a i np r o t e i n ss h o w st h a tr e p e a te l e m e n t si nt h ei n t r o n sa r ei n c r e a s e ds h a r p l y f r o mi n v e r t e b r a t et ov e r t e b r a t ed u r i n gt h ee v o l u t i o n h o w e v e r ,i ts h o u l db en o t e dt h a t t h ei n c r e a s e dn u m b e r so fr e p e a t e de l e m e n t si nd i f f e r e n ts p e c i e sa r er e m a r k a b l y 2 基于生物信息学的冷休克结构域蛋白家族进化研究 d i f f e r e n t , w h i c hs u g g e s t e dt h a tt h ea m o u n to fi n t r o ni n s e r t i o np h a s e si sc o r r e s p o n d i n g i n h e r e i na d d i t i o n t h ed o s e rr e l a t i v es p e c i e sh a v es i m i l a rr e p e a t e dd e m e n t si n g e n es t r u c t u r e f u r t h e r m o r e ,t h ed i f f e r e n tk i n d so fr e p e a te l e m e n t sa r ec l o s e l y c o r r e l a t i v et ot h el e n g t ho fi n t r o n sa n dt h ec o n t e n to fg c i nc o n c l u s i o n ,i nt h ep a p e r , ap h y l o g e n e t i cm o d e lo nt h ee v o l u t i o no fc o l ds h o c k p r o t e i nf a m i l yh a db e e nr e c o n s t r u c t e d i nt h i sm o d e l ,t h eo r t h o l o g o u sp r o t e i n sw e r e o r i g i n a l l yp r o d u c e db yg e n ed u p l i c a t i o na n dt h e np a r a l o g o u sp r o t e i n sw e r ep r o d u c e d b ya l t e r n a t i v es p l i c i n gd u r i n ge v o l u t i o n w h i c hm i g h tr e s u l ti nt h em u i t i f u n c t i o no f c o l ds h o c kp r o t e i nf a m i l y t h e s ef i n d i n g sn o to n l yi l l u m i n a t e dt h em e c h a n i s mo f m o l e c u l a re v o l u t i o no ft h ep r o t e i ns u p e r - f a m i l yw i t hc o l ds h o c kd o m a i n ,b u ta l s o p m v i d e dan e wm e t h o da n dc l u ef o rf u r t h e rs t u d y i n gt h ee v o l u t i o n a r ym e c h a n i s mo f o t h e rg e n ef a m i l ya n d o rs u p e r - f a m i l y k e y w o r d s :b i o i n f o r m a t i c s ,c o l ds h o c kd o m a i n ,g e n ef a m i l ye v o l u t i o n , g e n es t r u c t u r e ,r e p e a te l e m e n t 3 基于生物信息学的冷休克结构域蛋白家族进化研究 学位论文独创| 生声明 本人承诺:所呈交的学位论文是本人在导师指导r 所取得的研究成果。论文中除特别 加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果其他同志 的研究成果对本人的启示和所提供的帮助,均已在论文中做了明确的声明并表示谢意。 学位做作者签名涨玮气 7 日期 泗、7 62 学位论文版权的使用授权书 本学位论文作者完全了解辽宁师范大学有关保留、使1 _ 学位论文的规定,及学校有权 保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权辽宁师 范大学,可以将学位论文的全部或部分内容编入有关数据库并进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后使用本授权书。 学位论文作者签名= 獭 韦串 指俐m 虢马曜 日 期:砷7 f 五 基于生物信息学的冷休克结构域蛋白謇族进化研究 第一章基因与基因组进化研究中的生物信息学 1 1 生物信息学概述 生物信息学( b i o i n f o m a t i c s ) 是2 0 世纪9 0 年代以来,随着人类基因组计划 ( h u m a ng e n o m ep r o j c c t :h g p ) 和计算机科学的发展而出现的一门新兴的边缘 交叉学科。其核心是研究基因组结构与功能间的关系,涉及生物信息的采集、分 析和应用等方面,也即用计算机辅助数据管理的方法来收集、分析、再现生物信 息以了解生命过程生物信息学不仅仅是针对生物信息本身,还应包括医疗 ( m e d i c a l i n f o 彻a t i 鳓和制药( p h a 珊a i n f o 曲砒i c s ) 等与生命活动相关信息的管理 和分析随着功能基因组学、蛋自质组学、比较基因组学以及代谢组学等学科的 飞速发展,生物信息学所涵盖的范围也在不断的扩大1 1 - 5 1 。 生命过程包含着信息的存储、处理和转化,而其中最根本的信息则蕴含于基 因组( g e n o m e ) 中从上世纪末期开始,科学界便开始了模式生物全基因组的 测序工作,同时也宣告了后基因组时代( p o s t - g e a o m i ce r a ) 的到来伴随着2 0 0 3 年人类全基因组序列测定的完成,生命科学研究的重点也推进到基因组解码的阶 段。生物信息学的出现和发展无疑提供了一条新的研究途径:其强大的数据管理 和分析能力。往之能够大海捞针、去滢还清,从海量韵生物数据中发现规律,提 取有用的生物信息。生物信息学不仅仅局限于基因组的研究,事实上它已被广泛 地运用于生命科学,医疗、制药研究的各个方面目前,生物信息学的主要研究 内容包括:基因组信息学、比较基因组学、进化基因组学、蛋白质空间结构模拟 与预测、药物分子设计、基因表达的调控、基因功能的预测、芯片表达数据分析、 分子进化与生物起源、分子调控网络、复杂疾病分子网络以及系统生物学等。生 物信息学已成为整个生命科学的重要组成部分,是生命科学研究的前沿热点领 域。生物信息学已在生命科学诸多领域研究中被广泛应用1 5 动,业己成为重要的 研究手段,相信生物信息学的发展将极大地加速生命科学的进步。 1 2 比较基因组学与进化基因组学 随着人类和一系列模式生物全基因组的测序完成,大量的核酸和蛋白质序列 以指数形式迅猛增长,推动了比较基因组学和进化基因组学的快速发展。比较基 因组学以跨物种、跨群体的基因组数据为主体,研究物种的进化、基因功能的演 化和基因的调控;进化基因组学以研究基因组的动态变化和基因的变异为依据, 推演出精确的分子时钟和基因组进化的机制与时闻。越来越多物种的完整基因组 d n a 已经或正在被完全测序,这为在全基因组水平上进行物种间的比较研究创 造了前所未有的条件,因而对基因与基因组结构的形式与演化以及生物进化的研 究是各国科学家当前争夺的热点1 8 , 1 4 - 2 1 | 。 基于生物信息学的冷休克结构域蛋白家族进化研究 1 2 1 比较基因组学与生物进化 比较基因组学的基本研究内容包括:基因组的比较、基因组的进化、基因家 族、结构域和功能域的分析等;基因组自身的比较可以从基因的数目、内容、位 置、d n a 大小、g c 含量、内含子,重复序列的比较等方面来观察基因组的进化 l 砭刎。比较基因组不仅能揭示基因家族和复制基因的数日,而且也能识别直系同 源扬( o r t h o l o g o u s ) 、基因家族和域、古保守区( a n c i e n tc o n s e _ 】r v e dr e g i o n ,a c t ) 以及水平基因转移( h o r i z o n t a lg e n tt r a n s f e r ,h g t ) 等。 比较基因组学是在基因组图谱和测序的基础上,利用某个基因组研究获得 的信息,推溅其它原核生物、真核生物类群中的基因数目、位置、功能,表达机 制和物种进化的学科通过对不同亲缘关系物种的基因组序列进行比较,能够鉴 定出编码序列、非编码调控序列及给定物种独有的序列;基因组范围之内的序列 比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进 而得到基因分祈预测与定位以及生物系统发生演化关系等方面的信息。比较基因 组学的基础是相关生物基因组的相似性。两种亲缘关系较近的生物,互相存在种 属差别,因为它们的基因组是由共同祖先的基因组进化而来,这两种生物在进化 的阶段上越接近,它们基医组的相关性就越高。 1 2 2 进化基因组学与生物进化 进化基因组学( e v o l u t i o n a r yg c 咖j 岱) 研究主要在两个方面上进行一方面 是以进化生物学的手段注释基因组,或从基因组水平试图理解生物学功能和生命 现象;另一方面是依据基因组数据研究基因组自身的进化过程和规律。进化基因 组学的研究将成为连接基因型和表型之间的桥梁,揭示生命现象的过程和机制, 功能的进化伴随着生命有机体的进化,而分子的进化带来功能进化和功能多样性 f 蝴。在基因组水平,生物的进化体现为基因缀的进化。拯今繁杂多样的生 物界其遗传基础其实就是基因组的多样性。理解基因组演化的历史,破解其规律 意味着将达尔文以来的进化生物学推到前所未有的高度和深度,最终有可能实现 遗传,发育和进化的统一。在基因组进化的研究中,基因组的结构和组织形式是 我们研究的重要对象每一个基因组测序工作完成后,研究人员都要研究基因组 的大小、基因分布的形式、重复序列和转座子的多少以及与其它生物的差异等等。 对进化生物学家来讲,最感兴趣的就是新基因和新结构的产生,因为它们就是生 物进化的标志。基因组大小、基因数目与生物复杂度的关系也是科学家们关注的 一个重要问题。基因组大小也称为c 值,是指生物体的单倍体基因组所含d n a 总量。从原核生物到真核生物,c 值变化很大但是基因组及其生物的复杂度与 c 值之间并不一定呈线性相关例如。拟南芥和果蝇各自的基因数是2 5 ,0 0 0 和 1 4 ,0 0 0 ,前者编码的基因数是后者的近两倍,但从生物体的复杂性上看,并不 2 基于生物信息学的冷休克结构域蛋白家族进化研究 能说拟南芥的复杂度是果蝇的两倍。这种现象就称为c 值悖论( c - v a l u ep a r a d o x ) 。 近来对植物和动物基因的研究提示,动物可能多用选择性剪接来增加复杂度,而 植物则似乎是以基因数目来增加复杂度1 3 2 1 但c 值和c 值悖论还远未解开,我 们还有待于更多基因组进化的数据在基因组结构进化的探讨中,基因,特别是 基因组重复也是人们关注的一个重要话题。现在认为基因和基因组重复是生物进 化和复杂性增加的重要原材料l 嬲1 1 3 基因家族进化研究中的若干概念简述 1 3 1 基因家族与蛋白质家族 1 3 1 1 基因家族 染色体上的全套基因,或者更准确地说是单倍体染色体上的全套基因,被称 为基因组。而在基因组进化过程中,一个基因通过基因重复产生了两个或者更多 的拷贝,这些基因即构成一个基因家族,是具有显著相似性的一组基因,编码相 似的蛋白质产物i 明 1 3 1 2 蛋白质家族 蛋白质家族是依序列或者结构相似性聚合成家族,具有大于5 0 的同一性, 且具有相似的生化功能的一组蛋白质其中由序列相似性联系组成的不等长度的 蛋白质家族成员的组合构成蛋白质超家族超家族的成员具有共同的进化祖先, 其序列排列中同一位小但由相当数量共同结构和功能的蛋白质可以分在同一个 家族中。尽管某一蛋白质序列可能包含从几个家族中发现的域,这也表明其复杂 的进化历史,但是通过多重序列的比对,该序列将基于相似性而被划分到唯一一 个同型超家族 2 8 - 3 5 。 结构域的分化和基因复制过程产生了蛋白质家族,随着物种的分化,一个新 衍生的基因组将继承祖先物种的家族,但同时也将发展新的家族以应对进化挑 战。对一个生物编码的蛋白质与其它每一个进行比较( 即全部对全部比较) ,可 以揭示被扩增的蛋白质家族以及进化过程中发生的重分化。当该蛋白质组中两个 或多个蛋白质因具有相同的结构域而拥有高度相似性,它们很可能就是旁系同源 物( p a r a l o g o u s ) ,其基因是由基因复制产生i 妊柏j 经直系同源聚类,若两种生 物的蛋白质组可以比较,裁可以识别直系同源物。然两在许多情形中,每个直系 同源物属于一个家族,该家族由基因复制事件所产生的相关旁系同源序列组成。 因此,在进行数据库搜索时,直系同源物将不仅与第二个蛋白质组中的直系同源 序列相匹配,而且与那些其它的旁系同源序列相匹配,形成个旁系同源簇 ( c o g ) ,将不同生物中相关的直系同源物组进行聚类以形成一个直系同源簇, 其中包括直系同源物和旁系同源物。直系同源基因来自于共同的祖先,在不同物 3 基于生物信息学的冷铼免结构域蛋白家族进化研究 种中垂直传递下来,可能有相同的功能,也可能具有不同的功能;旁系同源基因 是在同一个物种内由于基因复制而分离的,编码具有类似的功能但又不是完全相 同的同源蛋白质i 哪k o o n i n 进一步对旁系同源基因做了定义,即根据复制事件 与物种分化事件发生的先后关系,提出了内旁系同源和外旁系同源的概念,他认 为对于一个给定的世系,在物种分化后发生的复制事件产生的基因称为内旁系同 源( i n p a r a l o g s ) 丽复制事件发生在分化之前,刚称为外旁系两源( o u t p a m l o g s ) 1 4 1 3 2 系统发生分析与系统发生树 早在2 0 世纪初,人们就开始在分子水平上研究生物之间的进化关系,但是 直到2 0 世纪中期,分子数据才被广泛的应用于系统发生分析的研究。2 0 世纪6 0 年代,蛋白质铡序成为可能。2 0 世纪7 0 年代,研究者开始能够获得基因组信息, 特别是d n a 序列蛋白质序列和d n a 序列为分子系统发生分析提供了可靠的 依据【4 2 1 系统发生分析首先是揭示物种之间的进化关系。在这些情形中,需要 选择合适的基因和d n a 序列来进行系统发生分析,这些基因或者序列需要显示 足够的但不是太多的变异即1 例如:分析线粒体序列可以揭示哺乳动物的进化 关系。其次。系统发生分析的新用途是分析基因家族以及追溯特定基因的进化历 史。例如,利用数据库相似性检索可以鉴定植物基因组中的几种蛋白质的相似性, 利用这些蛋白质家族的系统发生分析结果可推知它们可能具有某种功能。在一类 物种中追溯某一基因的进化历史,能够推断出一个基因组中基因长期留存以及物 种闻基因水平转移。因此,系统发生分析也可为了解基因组进化做出贡献。 在分子水平上,进化过程涉及到d n a 中发生插入、缺失、倒位、核苷酸替 换等变异如果发生变异的d n a 片段编码某种多肽,那么这类变异就可能使多 肽链中氮基酸序列发生变化。在长期的进化过程中。这些变异就会被积累起来, 形成与其祖先存在很大差异的分子,因此,在核酸和蛋白质分子组成的序列中, 蕴藏着大量生物进化的遗传信息。在不同物种问,从相应的核酸和蛋白质组成成 分的差异上,可以估测它们之间的亲缘关系远近从分子水平上研究生物的进化 有以下几个优点:根据生物所具有的核酸和蛋白质在结构上的差异程度,可以估 测生物种类的迸化时期和速度,这比任何其它的方法都精确。因为它是从数量上 进行分析的;对于结构简单的微生物的进化,只能采用这种方法进行研究;它可 以比较亲缘关系极其疏远的类型之间的进化信息,这是其它方法难以做到的。而 根据各种生物间在分子水平上的进化关系,可以建立分子进化的系统树 ( p h y l o g c n e t i ct r e e ) ,进而研究他们的进化动态和机制p 2 。 1 3 3 基因或蛋白家族分析方法和步骤 分子系统发生分析的主要步骤:i ) 选择可供分析的序列;2 ) 同源蛋白或者 4 基于生物信息擘的冷体克结构域蛋白家族进化研究 核酸序列的多重序列比对,构建系统发生树并对进化树进行评估。其中,选择蛋 白序列还是核苷酸序列作为研究的对象,各有原因。比如,在大多数情况下。对 于蛋白质的研究是更为可取的,实际应用中更倾向于研究蛋白质的多重序列比 对,因为蛋白质相对d n a 序列而言,氨基酸替换频率较核苷酸替换率低得多, 使其更加适用于比较广泛分化的物种。亦或者蛋白质的序列信息较d n a 的序列 信息更容易获得。 1 3 4 基因家族进化研究中存在的问题 长期以来有关基因及基因家族的研究大都基于基因编码区序列特征,进行分 子进化树的构建,进而推测基因的进化动态和机制,或者主要是利用不同物种中 同一种基因序列的异同来研究生物的进化,构建进化树。既可以用d n a 序列也可 以用其编码的氨基酸序列来进行,甚至可以通过相关的蛋白质的结构比对来研究 分子进化而近几年来由于较多模式生物基因组测序任务的完成,为从整个基因 组的角度来研究分子进化提供了条件。然而先前这些研究都未能充分考虑基因结 构,即上下游调控区、内含子、外显子等序列结构的变化特征,导致了基因进化 上的一些互相矛盾的结果。特别是对。分子钟”的研究一直存在激烈争论例如 在进行蛋白家族进化分析时外群的选择的不同可能导致生成不同的靴带值;做树 软件的选择上的不同也会导致产生不同的结果,因为目前并没有一种统一的定 论。如在2 0 0 5 年n a t u r e 上就对尾索动物和头索动物哪个与脊椎动物的亲 缘关系更近做了讨论,通过选择不同的软件对多个基因家族做进化树发现是尾索 动物与脊椎动物的亲缘关系更近1 4 8 1 0 0 。可以设想,比较两个或者多个完整基 因组这一工作需要新的思路和方法,当然也渴望得到更加丰硕的成果。因此,发 展新的技术和方法为更深入地揭示基因家族以及超家族进化机制已显得十分迫 切。然而,生物信息学和比较基因组学的快速发展,为基因及基因家族的进化研 究提供了新的视角和手段本文将基于公共数据库的数据,以冷休克结构域( c o l d s h o c kd o m a i n ) 蛋白超家族为例,利用生物信息学的理论和方法,对冷休克结构 域蛋白超家族的分子进化进行深入研究,目的是揭示冷休克结构域蛋白超家族基 因起源和进化的分子机制以及基因非编码区调控作用。并为深入研究其他基因家 族以及超家族进化机制提供新的思路和方法。 5 基于生物信息擘的冷俸克结构域蛋白家族进i 匕研究 第二章冷休克结构域蛋白家族研究进展 冷休克结构域( c o z ds h o c kd o m a i nc s d ) 蛋白是一类重要的蛋白质超家族,广 泛存在于从低等原核生物到高等的哺乳动物中早期的研究发现,当原核生物和 植物的环境温度降至1 3 c 时,机体中产生含有冷休克结构域的冷休克蛋白( c o l d s h o c kp r o t e i n ) ,这类蛋白多数表现为对低温环境的应答 4 3 , 4 4 , 5 3 1 相对而言,动 物中也有结构类似的蛋白,即含有冷体克结构域的y - b o x 蛋自,但y - b o x 蛋自 并非冷诱导产生,它们起着转录因子和r n a 掩蔽蛋白的双重作用。这类蛋白中 最早发现的是y b - 1 蛋白,它结合在人类m h c c h s s i 基因的启动子区,即y - b o x d n a 序列( c r g a 朋_ g g c c a a ) 上这些序列的中心为反向的c :a a t b o x ,是 所有y - b o x 结合蛋白都能识别并结合的高度保守区1 4 5 蛔y - b o x 蛋白在细胞生长 过程中表达,目前已在多种生物体内成功克隆出具有冷休克结构域的y - b o x 蛋白 ( 见表一) 。如植物中的拟南芥( a r a b i d o p s i st 蛔l i a n a ) 、水稻( o r y z as a t i v a ) 、大 麦( t r i t i c u m 棚) 以及烟草o v c o t a n as y v e s t r i s ) t 4 7 , 4 s i ;动物中包括果蝇 ( d r o s o 叻i j am e l a n o g a s t e r ) ,涡虫( d u g e s i ae m 拯c a ) ,血吸虫( s c h i s t o s o m am a n s o n ) 、 线虫( c a e n o r h a b d i t i se l e g a n s ) 、海鞘( g o n ai n t e s 矗n a s ) 、非洲爪蟾( x e n o p u sl a e v i ) 、 斑马鱼( z e b r ad a n i o ) 、日本青缀( o r y z i a sl a t i p e s ) 、金鱼( c a r a s s i u sa u r a m s ) 、 家鸡( g a l l u sg a l l u s ) 、大r ( m t t u sn o r v e g i c u s ) 、小鼠( m u sm u s c u l u s ) 、人类等物种 4 9 5 2 ,5 4 - 7 3 。除此之外,本研究还以圆日纲七鳃鳗( l a m p e t r a j a p o n i c a ) 为研究对象, 成功克隆出了七鳃鳗口腔腺的l y b 基因( 未登录o e n e b a n k ) 。经过生物信息学分 析,确定l y b 基因是属于y - b o x 基因家族的成员,包含有保守的c s d 结构域【见 第三章】。 2 1 原核生物冷休克蛋白对低温环境的应答 在原核生物中,最早在大肠杆菌e c o l i 中,发现有对冷激环境做出应答反 应的蛋白生成。将大肠杆菌的环境温度从3 7 c 度降低到1 0 c 时,即可诱导冷休 克反应,此时冷休克蛋白c s p a 大量表达,而绝大多数蛋白质的合成受到抑制, 仅有2 4 种蛋白质被合成,其中1 4 种是被暂时诱导的,这些被冷休克诱导产生的 蛋白统称为冷休克蛋白,这些蛋白对细胞在低温时恢复生长和发挥细胞各种功能 是非常重要的【4 3 ,s 3 ,7 堋原核生物的c s p s 为小分子蛋白,大小约7 0 个氨基酸左 右,仅包含一个核苷酸结合域冷休克结构域。g r a u m a n n 等j 人认为,冷休 克蛋白是在单细胞生物出现之前的一种很古老的分子,在原核和真核生物中表现 为保守状态。在原核生物中,革兰氏阴性、阳性细菌都存在冷休克蛋白,其中大 肠杆菌含有9 种冷休克蛋白,但并不是所有的冷休克蛋白对都能冷环境做出应 答,其中c s p a 含量最多,对冷环境作出应答, 6 表2 1 具有冷休克结构域的蛋白家族成员一览表 t a b l e 五ly - b o xb 叫i n gp r o t e i n sn d 也e 打f e m c t i o 删 脊椎动铀v e r t e b r a e 人类y b - 1 、卸a t 转录调节、肼蛆岱复、抗药耐药、促【5 l 。“l h o m o 掣面口 非洲爪蟾石_ 印z 曲 家i t m w w 础 家鸡c m l l u s g a l l u s 大曩j 陆w , a m m 咖 b 本青蟪。红f 细归 斑马鱼7 曲v dd _ f d 红缩东方纯,细岫口口 金鱼c 盯b $ ,山时删擂缸, 无脊椎动翻i a v t , l r t e b r a 扯 涡虫d u g e s a m 血吸虫s c 船me n o a s o n 海兔由移妇蛳n 妇 线虫o w 缸鼢以鄂w 果蝇a w 砌m 出m 缈 海鞘c 加口d 凼“ 植物p - | 叫 冬小麦t r t 6 c w nd u r u m 水稻0 ,) 口炯 担南莽a r a b , 盔o p s r :s 加“f 细蕾b , w t e r l a 大肠杆菌 曲1 p b f r a y l ,2 m i y 1 a l y b l ,2 虚y b l 0 l a 帅唣 d y l 跏y p l g m l 、g f y p 2 d c y l 进细胞增殖,对p 5 3 负调控,以及与 p 椿蛋白作用 抑制翻译 抑翻转录 作为转录因子 屏蔽m r h a 的翻译 不清楚 转录调节因子 不清楚 与m r n a 结合作用 促进细胞增殖 不清楚 柞为转录因子 发育调节 与r n a 分子结合作用 在体外抑制m e n a l # j 翻译 低温下对环境应簪 1 氏温下对环境应答 彘温下对环境瘟謇 【5 1 j 1 5 2 】 跚 5 5 1 4 9 1 p o l 1 4 8 1 1 4 7 嘲 低温下作为分予伴侣f 5 3 j 苎兰堑苎兰! ! ! 丝 塑呈 堡墨! 茎墨望丝 旦翌一 2 2 动物冷休克结构域蛋白的研究 在真核生物中,冷休克结构域蛋白在结构和功能上都与原核生物存在明显的 7 嘶嘲嗍嗍m嘲 l = 一 一 一 蛳 基于生物信息学的冷体克结构域蛋白家族进化研究 区别。在结构上,冷休克结构域蛋白通常包含多个结构域,这种结构是从一些小 的结构域,如冷休克结构域c s d 和各种核苷酸结合域进化而来的【7 1 。真核生物 冷休克结构域蛋白含有3 个特征结构域:氨基酸n 末端、冷休克结构域c s d 、 亲水结构域c 末端。这特点在不同物种中也不尽相同,常见的还有酸性、碱 性氨基酸交替出现的氨基酸区域、r g 重复的区域、锌指电荷拉链结构等,这样 的结构区别于原核生物只有一个冷休克域的特点。真核生物的冷休克结构域蛋白 也叫y b o x 蛋白,大部分脊椎动物y - b o x 蛋白的功能为转录调节,以及在细胞 质中稳定m r n a 的功能【牾l 。在非洲爪蟾卵母细胞中,冷休克结构域蛋白f r g y 2 与r n a 结合成r n p 的复合体,而此结合也是通过保守结构域c s d ,其作用表 现在对r n a 的屏蔽,所有的这些功能均不表现为对冷环境的应答或适应【舒 7 5 l 。 在植物中,也发现具有c s d 结构域的蛋白,而这些植物冷休克蛋白在结构上与 其他物种有别,包括在番茄、冬小麦和拟南芥中均发现具有c s d 结构域的蛋白, 除了具有保守的冷休克域c s d 外,还有c c h c - t y p e 的锌指结构,它们和植物的 细胞壁有关,但是它们的功能尚不是很清楚 7 6 , 7 s 2 2 1 无脊椎动物y - b o x 蛋白的研究 上个世纪9 0 年代,研究者已利用p c k 技术和末端快速扩增技术( r a c e r a p i d a m p l i f i c a t i o n o f c d n a e n d s ) 在无脊椎动物中成功克隆了多个y - b o x 基因 家族的成员,其中s a l v e t t i 等人垆1 j o l 在涡虫( d u g e s i ae t r u s c a ) 克隆了 d l t l ( a c c e s s i o nn u m b e r :x 9 9 7 4 8 ) 基因,其编码的蛋白包含有一个冷休克结构域 和一个r g 重复单元,这两部分均与r n a 结合,并在涡虫的不同发育阶段表达, 在转录中起调节作用。此后,在涡虫的另一物种的增殖细胞中发现了另一个基因 家族的成员d e y l ( a c c e s s i o nn u m b e r :a j 4 3 9 0 9 4 ) 。t h i e r i n g e r 等人 4 9 1 在果蝇 ( d r o s o p h i l am e l a n o g a s t e r ) 中克隆了y p s ( a c c e s s i o nn u m b e r :1 3 4 9 1 2 0 ) ,与其他真 核生物不同的是,哳的c 末端没有酸性和碱性氮基酸交替出现的区域,但也存 在r n a 结合域r g g 重复单元,这个结构和涡虫的y - b o x 基因d i t l 类似。f r a n c o 等人和v a l a d a o 实验组分别在血吸虫( s c h i s t o s o m am a n s o n i ) 中成功提取了 s m y b l ,并发现它与d n a 和r n a 发生作用1 5 2 j 另外,在海鞘( c i o n ai n t e s t i n a l i s1 中发现了3 个选择性剪接变体c z t b l 、c z t b 2 、c i y b 3 都是属于y - b o x 基因家族 成员【鬟删同时h a y m a n 等人也在比较低等的锥虫( t r y p a n o s o m ab r u c e i ) 中发 现了y b o x 基因家族的成员r b p l 6 ( a c c e s s i o nn u m b e r :a f 0 4 2 4 9 2 ) ,实验证明 该蛋白与r n a 作用并调节r n a 的活性1 8 “。 8 基于生物信息学砖冷铼克结构域蛋白家族进化研究 图2 1 冷体克结构域的结构和y - b o x 结合蛋白的序列结构特征嗍 ( a ) 枯草杆菌( b a c l s u b 妇) c s p b 的c s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- ITK-kinase-IN-1-生命科学试剂-MCE
- Demeton-S-d10-生命科学试剂-MCE
- 消防课安全防范知识培训课件
- 3-Hydroxy-Midostaurin-13C6-CGP52421-sup-13-sup-C-sub-6-sub-生命科学试剂-MCE
- 直播平台合作模式-洞察及研究
- 机械伤害预防培训知识课件
- 中文系毕业论文研究方向
- 2025年检测人员资格考试试题解析+答案
- 微生物功能服务评估-洞察及研究
- 机房租赁知识培训课件
- 湖北省2025届高三(9月)起点考试 英语试卷(含答案)
- 公安基础知识辅警考试1000题
- 佳酿贺喜升学宴金榜题名踏新程热烈庆祝某同学金榜题名模板
- 2024-2029年N-甲基吗啉N-氧化物(NMMO)行业市场现状供需分析及市场深度研究发展前景及规划投资研究报告
- 九年级语文下册3武松打虎省公开课一等奖新名师获奖
- “一带一路”倡议与国际合作课件
- DL-T 572-2021电力变压器运行规程-PDF解密
- (高清版)TDT 1055-2019 第三次全国国土调查技术规程
- 人教版(2019)高中英语必修一二三各单元话题作文与范文汇编(共3册)
- 乳果糖口服溶液说明书用法
- 内科学第一章 肺部感染性疾病概述
评论
0/150
提交评论