




已阅读5页,还剩97页未读, 继续免费阅读
(遗传学专业论文)应用协同学宏观方法对大进化型式及其分子机制的探讨.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 基因组测序计划给我们提供了前所未有的海量序列数据。这为从分子水平研究后生动物 的早期进化( 从多细胞化到三胚层动物的大规模适应辐射) 提供了很有利的条件。为了尽可能 地从序列数据中挖掘信息,需要尝试包括经典的序列联配的多种统计学方法。我们首先对泛 真核生物基因序列进行跨物种比对,在此基础上,我们引入最大信息原理进行序列分析,并 对间断平衡假说和大进化与小进化等问题进行了讨论。我们得到了如下结论: 1 通过对六种多细胞模式生物和七种单细胞模式生物的全基因组( 或转录组) 比对,得到 了在多细胞动物中普遍存在而在单细胞动物中广泛缺失的同源基因。这些基因很可能与 后生动物的多细胞化和早期进化有密切关系。我们从中选出了一些高度保守的基因,希 望通过对这些基因的个例分析( c a s ea n a l y s i s ) ,发现某些后生动物早期进化时分子水平 的重要变化。我们发现与神经递质灭活相关的基因在后生动物中具有强而稳定的保守性 而在单细胞生物中几乎完全缺失。这说明神经递质灭活系统的建立很可能是随着这类动 物的起源而一起发展起来的。已有的一些关于后生动物祖先的推测认为,拥有一个简单 的神经细胞受体系统是后生动物祖先的一个重要特征。虽然目前尚未从后生动物根部的 生物中克隆到神经递质转运蛋白基因,我们推测,一个这样的神经细胞受体系统应该包 括神经递质的灭活机制。依据“个体发育重演系统发育”的规律我们推测,在个体发育 过程的神经系统发育期间,神经递质灭活很可能与活性依赖的突触发生有密切关系。 2 利用上面的泛真核生物基因组数据,我们引用进行最大信息原理分析c d s 序列以验证 d n a 序列的构建是否遵循近中性理论。通过建立数学模型我们将d n a 序列的进化描述 为自然选择约束下随机突变的最大化的过程,并由此预测了一条c d s 中四种核苷酸的 统计分布。通过计算值与实际值的平均相对偏差( a r d ) 可以估计我们建立的模型的可靠 性。先后进行过的两次计算都覆盖了真核生物域的主要分支线系。在第二次计算中,不 同的情况下,有8 2 到9 9 的序列的误差在a r d o 0 1 水平。此结果显示,众多核 苷酸通过其相互作用构建( 组织) 为一条功能性的c d s 的过程,可以描述为自然选择压力 下随机突变使基因中核苷酸分布的信息熵极大化的过程。也就是说,虽然近中性学说建 立在对单个取代位点的研究之上,但是在d n a 序列由单核苷酸的构建的过程中,该学 说仍是一条被遵守的基本定律。 3 在m i p 分析中,对每条序列可以求出其l a g r a n g e 乘子的值对某一个类群的生物可以 求出其l a g r a n g e 乘子的平均值。该平均值可以表示出该类群生物在进化过程中所承受 的选择压力。已有的工作显示,l a g r a n g e 乘子在不同生物类群中系统性地改变。这里 我们进一步发现,包括动物、植物和子囊菌的真核生物的多细胞化过程中,l a g r a n g e 乘子趋于减少,但是对于动物早期的进化过程而言,其多细胞化到双胚层的形成过程中 l a g r a n g e 乘子趋于减少,但是三胚层动物的起源过程的l a g r a n g e 乘子趋于增加。这 种反常的变化很可能与三胚层动物早期进化的大规模适应辐射,即寒武纪生命爆发有关。 1 我们尝试引入间断平衡假说来解释这种反常增加的现象。将l a g r a n g e 乘子的进化相关 性描述为在线性进化过程中趋于减少、而在跳跃进化时趋于增加的过程,并给出了相应 的通式。该式子可以较好的解释动物进化早期阶段的l a g r a n g e 乘子各种变化。该通式 是否同样适用于其他跳跃进化或适应辐射事件的问题尚需要进一步研究。 4 以线虫和人基因组中长度在1 5 k b 到2 5 k b 的c d s 序列进行m i p 分析。结果显示在 一个基因组内,单个基因的进化同样遵循选择压力下随机突变造成的寡核苷酸分布的信 息熵极大化的规律。承受较高选择压力的基因具有较强的核苷酸短程关联以及较小的 m a r k o v 熵。这项结果说明m i p 分析的类平均不仅可用于物种以上的分类,而且可用 在物种以下的小进化事件以及个体水平的表达差异分析。这为大进化和小进化的统一机 制的研究提供了新的理论线索。 关键词:大进化,最大信息原理,多细胞化,间断平衡 2 a b s t r a c t t h ep r o j e c t so fg e n o m es e q u e n c i n go fn u m e r o u sc r e a t u r e sa c c u m u l a t e da m a s so fg e n o m i cd a t a ,w h i c ho f f e r e du sa no p p o r t u n i t yt os t u d yt h em o l e c u l a r e v o l u t i o no fm e t a z o a ne a r l ye v o l u t i o n ,i n c l u d i n gt h em u t i c e l l u l a r i t ya n d a d a p t i v ed e v i a t i o no fb f l a t e r i a n t om i n em o r ei n f o r m a t i o nf r o mt h es e q u e n c e d a t a ,m o r ea p p r o a c h e ss h o u l db ea t t e m p tb e s i d e sc l a s s i cs e q u e n c ea l i g n m e n t h e r ew ep e r f o r m e dc r o s s - s p e c i e sc o m p a r i s o ni n p a n e u k a r y o t i co r g a n i s m s b a s e do nt h i sr e s u l tw ei n t r o d u c e dt h em a c r o s c o p i ca p p r o a c ho fs y n e r g e t i c s , t h em a x i m u mi n f o r m a t i o np r i n c i p l e ( m i p ) ,t oa n a l y s et h e s es e q u e n c e s ,a n d d i s c u s s e da n df o r m u l i z e dt h eh y p o t h e s i so fp a n c t l l a t o te q u i l i b l i u ma n dt h e r e l a t i o n s h i po fm a c r o e v o l u t i o na n dm i c r o e v o l u t i o n t h ef o l l o w i n gc o n c l u s i o n s a r eo b t a i n e d : 1 ) b yg e n o m i cc o m p a r i s o na m o n gs i xp a n - b i l a t e r i a nm o d e ls p e c i e s ,w eg o t t h eo r t h o l o g u eg e n e se x i s t i n gi nb i l a t e r i a nb u t a b s e n ti np a n - e u k a r y o t i c u n i c e l l u l a ro r g a n i s m s t h e s eg e n e sm a yb ec l o s e l yr e l a t e dt ot h ee a r l y e v o l u t i o no fm e t a z o a n w es e l e c t e ds o m em o s tc o n s e r v e dg e n e sa n d p e r f o r m e dc a s ea n a l y s i sw i t ht h e a i mo f d i s c o v e r i n g s o m ei m p o r t a n t m o l e c u l a rc h a n g e si n c o n t e r e di nt h ee a r l ye v o l u t i o no fm e t a z o a n w ef o u n d e d 叻a g e n e sr e l a t e d 幻n e u r o t r a n s m i t t e ri n a c t i v a t i o ns h a r eh i g ha n ds t a b l e s i m i l a r i t yi nm e t a z o a na n da b s e n tf r o mp a n - u n i c e l l u l a re u k a r y o t e s t h i s s u g g e s t st h a tt h es y s t e mo fn e u r o t r a n s m i t t e ri n a c t i v a t i o np r o b a b l yo r i g i n a t e d w i t ht h eo r i g i no fn e r v es y s t e me n c o u n t e r e dt h ee a r l ye v o l u t i o no fm e t a z o a n 2 ) b e s e do na b o v ed a t a w ei n t r o d u c e dm i pt os e tu par o o d e lt oe x a m i n e w h e t h e rt h ec o n s t r u c t i o no fc o d i n gd n as e q u e n c e ( c d s ) o b e y e dt h en e a r l y n e u t r a lt h e o r y w ef o r m u l a t e dt h ee v o l u t i o no fc d sa s a p r o g r e s so f m a x i m i z a t i o no fn e u t r a lm u t a t i o nu n d e rt h ec o n s t r a i n t so fn a t l l r a ls e l e c t i o n , a n dc a l c u l a t e dt h et h e o r e t i c a ld i s t r i b u t i o no ff o u rn u c l e o t i d e si no n ec d sv i a l a g r a n g em e t h o d t h er e l i a b i l i t yo fo u rm o d e lc a nb ee x a m i n e db yc o u n t i n g t 1 1 ea v e r a g er e l a t i v ed e v i a t i o n ( a r d ) b e t w e e nt h e o r e t i c a lv a l u ea n do b s e r v e d v a i u e 。w eh a v ed o n et h ec a l c u l a t i o nt w ot i m e s ,b e t ho fw h i c hc o v e r e dm a i n b r a n c h e so fe u k a r y o t i cd o m a i n i nt h es e c o n dt i m e ,a b o u t8 2 t o9 9 c d s s h a r i n ga nl o wl e v e lo fa r d 0 0 1 t h e s er e s u l t ss h o w e dt h a tt h ep r o c e s so f 3 c o n s t r u c t i n go n ef u n c t i o n a lc d sf r o mi t sc o n s t i t u e n tn u c l e o t i d e sv i it h e i r i n t e r a c t i o n sc a nb ee x p r e s s e dap r o g r e s so ft h em a x i m i z a t i o no fi n f o r m a t i o n a l e n t r o p yo fn u c l e o t i d ed i s t r i b u t i o ni no n eg e n ec a u s e db yr a n d o m em u t a t i o n u n d e rt h ec o n s t r a i n t so fn a t u r a ls e l e c t i o n t h a ti st h en e a r l yn e u t r a lt h e o r y c o m p o s i n gt h ei n t e r a c t i o no fd r i f ta n ds e l e c t i o ni ss t i l lo b e y e da s ab a s i c a l p r i n c i p l e 3 ) i nm i pa n a l y s i sw ec a nc a l c u l a t et h el a g r a n g em u l t i p l i e r sf o re a c h c d s ,s ow ec a nc a l c u l a t et h ea v e r a g el a g r a n g em u l t i p l i e r so fo n et a x a t h i s a v e r a g e d e s c r i b e st h es e l e c t i v e p r e s s u r ee x e r t i n g o nt h et a x ad u r i n g e v o l u t i o n p r e v i o u sw o r kh a ss h o w e dt 1 1 a tt h el a g r a n g em u l t i p l i e r sc h a n g e d s y s t e m a t i c a l l yf r o ms p e c i e st os p e c i e s h e r ew ef o u n dt h a t , i nm u l t i c e l l u l a r i t y o fa n i m a l sp l a n t sa n df u n g i ,t h el a g r a n g em u l t i p l i e r st e n d e dt oi n c r e a s e b u t f u rt h ep r o g r e s so fm e t a z o a ne a l r ye v o l u t i o n ,t h em u l t i p l i e r si n c r e a s e dd u r i n g m u l t i c e l l u l a r i t yb u td e c r e a s e dd u r i n gt h eo r i g i no fb f l a t e r i a n w ed e d u c e dt h a t t h i su n u s u a lc h a n g e sp r o b a b l yb er e l a t e dw i t ht h ea d a p t i v er a d i a t i o ni ne a r l y e v o l u t i o no fb i l a t e r i a n ,o rt h ec a m b r i a nl i f ee x p l o r i s o n w ea t t e m p t e dt o i n t r o d u c ep u n c t u a t e de q u i l i b r i l i u mh y p o t h e s i st oe x p l a i n e da n df o r m u l a t et h e p h e n o n m e n o na n dd e s c r i b e dt h er e l a t i o n s h i po fl a g r a n g em u l t i p l i e r sa n d e v o l u t i o na si n c r e a s i n gd u r i n gc l a d o g e n e t i ce v o l u t i o na n dd e c r e a s i nd u r i n g a n a g e n e t i ce v o l u t i o n t h ef o r m u l a t i o nc a ne x p l a i nt h ec h a n g e so fl a g r a n g e m u l t i p l i e r sd u r i n ge a r l ye v o l u t i o no fm e t a z o a n f u r t h e rs t u d yi sn e e d e dt o e x a m i n ei t sa v a i l a b i l i t yi no t h e rp u c t u a t e de q u i l i b r i u mo ra d a p t i v er a d i a t i o n a f f a i r 4 ) w i t h i no n eg e n o m e ,t h ee v o l u t i o no fo n es i n g l eg e n ea l s oa b i d e sb yt h e s a m em e c h a n i s ma n df o l o w st h em a t h e m a 廿cm o d e l t h o s eg e n e se n d u r e h i g h e rs e l e c t i v ep r e s s u r ep o s s e s sl o w e rl a g r a n g em u l t i p l i e r s ,w h i c he x p r e s sa h i g h e rn u c l e o t i d e ss h o r tr a n g ec o r r e l a t i o n t h e r e f o r e ,t h em i pa n a l y s i sw a s e x t e n d e df r o mc o m p a r i s o na m o n gs p e c i e st oc o m p a r i s o na m o n gd i f f e r e n t o r g a n s t i s s u e s ,d i f f e r e n td e v e l o p m e n ts t a g e s ,d i f f e r e n tp o p u l a t i o n si no n e s p e c i e s t h e s er e s u l t st l l r o wl i g h to i le x t e n d i n gm i pa n a l y s i sf r o mf i e l do f m a c r o e v o l u t i o nt om i c r o e v o l u t i o na n de x p e r i m e n t a lb i o l o g yf i e l d s k e yw o r d s :m a c r o e v o l u t i o n ,m a x i m u mi n f o r m a t i o np r i n c i p l e ,m u l t i c e l l u l a r i t y , p u n c t u a t e de q u i l i b r i u m 4 前言 随着基因组测序计划的开展,分子生物学进入了崭新的时代。分子数据以其独特的优势 为认识和理解生命多样性之下的普适规律提供了丰富的资料。尤其是近十年来,随着人和多 种模式生物的基因组测序和注释工作的完成,关于基因和分子的数据爆炸式增长( 参见 g o f f e a ue ta 1 1 9 9 6 ;j o n a t h a ne ta 1 1 9 9 8 ;p e n n i s ie ta 1 2 0 0 0 ;l a n d e re ta 1 2 0 0 1 ;w a t e r s t o ne ta 1 2 0 0 2 ;d e h a le ta 1 2 0 0 2 ;g a l a g a ne ta 1 2 0 0 3 :g i b b se t a 1 2 0 0 4 等关于全基因组测序的论文) 。海量的序列数据需要强大的分析方法,因而各种对 序列进行分析的方法也随之发展起来。目前广泛运用的基于序列相似性的序列联配分析虽然 已经取得了很大成功,但是,目前我们在分子水平获取的信息和整个生物系统水平的信息之 间仍然存在鸿沟。正如t i ml i t t l e j o h n 评论的,“物理学家和化学家早已能够从基本粒子 和元素来合成化合物了;然而生物学家仍然还不知道基因组信息是否已经足够去构造整个生 物系统”( u t e j o h n2 0 0 1 ) 。显然,后基因组时代的生物信息学需要有新的分析方法来读 懂基因组这部天书。这一过程不只是生物学家的任务,以用方程来理解世界的数学家和理论 物理学家也理应参与其中。 与生物学家不同的是,物理学家们在着手这一问题时并没有采用已经取得巨大成功的基 于核苷酸取代率的序列联配方法,而是不约而同地首先关注了核菅酸的统计关联。所谓核苷 酸的统计关联,是指以核苷酸对或寡核苷酸在序列中的出现概率为基础,对核酸序列上频繁 出现的核苷酸关系的统计学分析( l u oe ta 1 1 9 8 8 ;k a r l i n & b r e n d e l1 9 9 2 ;h e r z e l & g r o s s e1 9 9 5 ;l u oe ta 1 1 9 9 8 ;k a r l i n1 9 9 8 ) ,这种关系并不直接与这些核苷酸的表达 功能有关,但是他们的频繁出现必然是自然选择的结果,从而应当具有一定的生物学意义。 从进化的角度看,d n a 序列受到强大的中性突变压力,它们和随机序列靠得很近,但是, 作为一种遗传语言,d n a 序列必然包含的丰富的信息而不可能是随机序列。这些遗传信息 主要存在于核苷酸关联之中。 在对序列中核苷酸的统计关联的研究基础上,协同学的宏观方法被引入来总结核酸序列 的进化机制。协同学是上世纪七十年代发展起来的一门横断学科。它由德国激光物理学家 h a k e n 创立。这一理论试图在一种较一般的情况下探讨一个开放系统通过内部的子系统之 间的协同合作形成宏观有序结构的机理和规律。协同学的微观方法的核心是伺服原理,宏观 方法的核心是最大信息原理( 或最大信息熵原理) 。协同学的创立者h a k e n 把这两个原理 一起称为协同学的两大支柱。协同学理论体系在上世纪八十年代末基本建立( h a k e n 1 9 8 8 ) ,它的理论体系虽然年轻,但是由于协同学方法具有局限性小向适用面广的特点,所 以很快在物理学,生物学,社会科学等领域得到应用并取得了一些成果( h a k e n1 9 7 7 ; h a k e n1 9 8 8 ;h a k e n1 9 9 5 ) 。协同学的宏观方法应用于d n a 序列的分子进化研究曾得 到过很好的结果( l u o b a i1 9 9 5 ) 。但是由于这一方法的学科跨度大( 横跨非平衡统计物 理和分子进化生物学) ,理论背景要求高。对其推广带来了困难。同时由于当时的基因组测 5 序可提供的数据太少。以至于在以后的近十年间并没有深入的研究。 在本文的工作中,我们最初是利用现有的后生动物基因组注释的数据,试图通过常规的 比较基因组手段,发现那些在后生动物中高度保守的同源基因。并通过对这些基因的系统分 析,发现在后生动物多细胞化及三胚层动物早期适应辐射时期的分子进化规律。在比对搜集 到的基因数据基础上,我们引入协同学宏观方法,即最大信息熵原理,将编码d n a 序列 ( c o d i n gd n as e q u e n c ec d s ) 的构建( 自组织) 过程定量描述为符合近中性理论的过程, 即自然选择约束下序列的信息熵极大化的过程,并在较大样本的c d s 序列中验证了我们的 模型。随后,我们对真核生物多细胞化事件和后生动物多细胞化及三胚层动物早期适应辐射 时期的分子序列数据,用经过验证的m i p 分析方法进行了分析。为了解释得到的结果,我 们引入描述大进化型式的间断平衡理论。将间断跳跃的进化模式和匀速渐变的进化模式的区 别在分子水平解释为l a g r a n g e 乘子的增加和减小的区别,即核酸序列进化过程中短程关 联约束条件的加强和减弱的区别。具体地说,l a g r a n g e 乘子的减少( 约束条件的加强) 对 应于匀速渐变模式,l a g r a n g e 乘子的增加( 约束条件的减弱) 对应于间断跳跃模式。以上 研究,是首次在分子水平用定量的数学模型来描述间断平衡和线系渐变的进化模式。最后, 在以上研究结果的基础上我们以线虫和人为例,对同一基因组内的基因进行了m i p 分析。 发现在在一个物种内,用序列联配区分出的高度相似的基因在m i p 分析中同样是承受较大 选择压力的基因。这一结果一方面说明了m i p 方法的可靠性,同时为大进化和小进化机制 的统一性问题提出一个新的假说:种以上的高级分类单元和种以内的群体的进化在分子水平 都可以描述为选择压力下随机突变最大化的机制。至少在非平衡热力学的角度看,大进化和 小进化的机制是具有某种统一性的,大进化并没有表现出不同的机制。 本论文共分六个小节,第一节论述用常规的比较基因组学手段对后生动物多细胞化及其 早期进化进行的研究。我们用六种多细胞模式生物和七种单细胞模式生物进行了全基因组 ( 或转录组) 比对,得到了在多细胞动物( 严格地说是三胚层动物) 中普遍存在而在单细胞动 物中广泛缺失的同源基因,并对其中保守性很强( e 1 0 - 6 0 ) 的少数基因具体进行了分析。从第 二节开始我们引入最大信息原理进行序列分析。通过对真核生物广泛取样后在较大的数据样 本基础上的最大信息原理( m i p ) 分析,我们初步证实,由单个核苷酸组织为有序的核酸序列 的过程是一个在自然选择约束下随机突变趋于极大化的过程。这一结果显示,基于单个核苷 酸取代的近中性学说同样适用于多个核苷酸的自组织过程。从而为近中性学说提供了一个新 的研究模型。第三节中我们开始关注于m i p 分析中l a g r a n g e 乘子的变化。我们针对后生 动物多细胞化及其早期进化过程对相关序列作了m i p 分析。结果发现多细胞动物在多细胞 化和三胚层动物适应辐射进化中的l a g r a n g e 乘子和信息参数呈现相反的变化。在第四节 我们随后将多细胞化分析扩展到真核生物内动物、植物、真菌三次独立的多细胞化事件,结 果显示了在真核生物内多细胞化过程在分子水平可总结为核苷酸短程关联约束条件加强的量 化机制,即l a g r a n g e 乘子减少的过程。为解释这两节的结果,我们在这节的讨论中引入 了间断平衡理沦并给出了一种可能的数学解释。在第五节,我们对人和线虫基因组内承受不 同选择压力的幕因进行了m i p 分析。在第六节对前五节的结果进行了小结。 6 图l k l 文中提到的真核生物门一级分类单元的系统发育模式图 不同颜色的线条示意不同的类群,分支长度与分歧年代或遗传距离无关( 参见b a l d a u f2 0 0 0 ; b r o o k e h o n a n d2 0 0 3 ;h e d o e s2 0 0 2 等人的综述) 7 第一节多细胞动物的同源保守基因的获取及分析 比较基因组学的理论基础是对所有生物的基因组都有共同的进化历史即进化上的共性的 认同。其基本方法是所谓多生物途径( m u l t i o r g a n i s m a la p p r o a c h ) 或跨种比较( c r o s s s p e c i e sc o m p a r i s o n ) 以及“同种基因组”比较。随着各种物种基因组测序工作的开展,越 来越多的后生动物物种被测序。这为我们用比较基因组的方法研究后生动物的起源与进化提 供了有利条件。 一、后生动物的多细胞化 多细胞化是生物进化历史上重要而神秘的进化事件。说它重要是因为,这一进化事件奠 定了地球生物圈里一切高级生命产生的基础( w h i t t a k e r1 9 6 9 :o l s e n w o e s e1 9 9 3 ) 多细 胞化保证生物有条件向更大的个体发展,从而为生物体组织和器官的分化、结构与功能的复 杂化提供条件;同时细胞的分化使个体内细胞间的关系更为复杂多样,从而为生物个体内部 的细胞间调控,建立稳定的内环境以及更长的个体寿命提供了条件( b o n n e r2 0 0 3 ) 。说它神 秘是因为,多细胞化的机制和过程涉及复杂的分子和细胞水平的机制( b l a c k s t o n e2 0 0 0 : h u e t t e n b r e n n e r2 0 0 3 ) ,对其详细过程我们知之甚少( m i c h o d r o z e2 0 0 1 ) 。 在真核生物中,多细胞化事件曾分别在动物界、植物界、真菌界及粘菌门等类群中多次 独立发生( w h i t t a k e r1 9 6 9 :k a i s e r2 0 0 1 ) 。其中,多细胞动物的起源是生命起源与进化中 的一个重要问题( b r o o k e h o l l a n d2 0 0 3 :k i n g2 0 0 4 ) 。早在1 9 世纪7 0 年代,德国学者海 克尔就提出了后生动物的鞭毛虫起源假说。近代以来随着分子生物学的发展,来自一些编码 蛋白基因的证据,如h s p 7 0 和受体酪氨酸激酶的证据显示,领鞭毛虫是后生动物的单细胞最 近亲( s n e l l2 0 0 1 :k i n g c a r r o l l2 0 0 1 ) 。 后生动物树根部的一些生物的分类及其进化关系仍然存在一些争议,表形特征有时会与 分子证据给出互相矛盾的结论。比较一致的观点是,腔肠动物( c n i d a r i a ) 是三胚层左右对称 动物( b i l a t e r i a ) 的姐妹群,栉水母动物( c t e n o p h o r a ) 和海绵动物( p o r i f e r a ) 是后生动物较早 分支的类群,侧生动物( p l a c o z o a ) 与腔肠动物有较近亲缘关系( a l e s h i n p e r o t v2 0 0 2 ) 。 二、后生动物的早期进化和寒武纪生物大爆发 凡胚胎期有三个胚层的动物统称为三胚层动物( t r i p l o b l a s t s ) ,因为它们多数是左右对 称的,故又名左右对称动物( b i l a t e r i a ) 。这是后生动物中最复杂也最繁荣的一个类群。包 括了我们通常所知的几乎所有主要的门一级动物。化石证据显示,在进化史上大量的左右对 称动物是在早寒武纪的5 4 亿年前大约不到一千万年的时间中突然同时的出现的。这就是著 名的“寒武纪生物大爆发”。较新的研究通过整合后生动物基本的躯体蓝图( b o d yp l a n s ) 的研究,早期进化研究,分子钟研究,初步得出了一些结论( g i r i b e t2 0 0 2 ) 。b i l a t e r i a 通 常被划分为两个大的姐妹群:原口动物( p r o t o s t o m e ) 和后口动物( d e u t e r o s t o m e ) 。在后口动 物中,棘皮动物( e c h i n o d e r m a t a ) 和半索动物( h e m i c h o r d a t a ) 被合称为步带动物,这是脊索 动物的姐妹群。原口动物被分成了两个大的类群,蜕皮动物类( e c d y s o z o a ) 和触手冠动物类 8 ( l o p h o t r o c h o z o a ) 。前者包括了节肢动物( a r t h r o p o d a ) 和线形动物( n e m a t o d a ) 等,如常见的 遗传学模式动物果蝇和线虫;后者包括软体动物( m o l l u s c a ) ,环节动物( h n n e l i d a ) 和扁形动 物( p l a t y h e m i n t h e s ) 等。这类动物的一个突出问题是,虽然从形态上很容易将各主要的门类 区分出来,但是各门之间的亲缘关系却非常难以确定。其中,对三胚层动物最近共同祖先 ( t h el a s tc o l q l o nb i a t e r i a na n c e s t o r ) 的研究成为研究热点( e r 冒i n d a v i d s o n2 0 0 2 ) 。 三、用于研究后生动物的比对方法 近几年随着基因组数据的数据量迅速增长,比较基因组学日渐成为研究后生动物多细胞 化的重要手段。通过在一个多细胞类群及与其最接近的单细胞近亲的基因组进行比较,能揭 示那些在多细胞化过程中伴随发生的分子水平的改变。此外,一个前提条件就是获得在这个 多细胞类群中共有并保守的分子特征。所以需要在这个多细胞类群内部广泛选取物种进行比 较,选取的物种应当包括该类群的所有主要分支及其后代( b r o o k e h o l l a n d2 0 0 3 ) 。由此, 在研究后生动物的多细胞化过程中,理想的情况是,选取后生动物中各个主要分支上的物种 与领鞭毛虫比对,得到后生动物与领鞭毛虫的同源基因代表了它们共同祖先的最小基因组群。 再从这个基因组群种排除与其他和后生动物无亲缘关系的单细胞真核生物同源的基因( 通常 这些基因会是一些持家基因等) ,得到的就是后生动物、领鞭毛虫及其共同祖先所独有的基 因( k i n g2 0 0 4 ) 。但是直到目前为止,领鞭毛虫的基因组仍然没有完成测序。为此我们采用 了一种替代的办法,将后生动物中各个主要分支上的物种进行比对得到一个在后生动物中同 源的基因组群,再将这组基因与泛真核单细胞生物的基因组进行比较,这样将可以碍到后生 动物所独有的基因。通过对这些基因进行个例分析( c a s ea n a l y s i s ) 以发现一些对后生动物 多细胞化及其早期进化起重要作用的基因。 。 材料与方法: 一、比对平台m y s q l 数据库及g e n t b l a s t 软件 我们经过反复摸索,逐步建立了一整套针对多种生物全基因组中编码序列进行自动比对 的生物信息学平台。现已发展到第二代。早期的1 0 版本用j a v a 开发,只能针对若干单独 的小数据组进行比对,现已基本不用。现在主要使用的g e n t b l a s t2 0 版本功能有了很大扩 充。软件的核心仍是基于j a v a 开发,通过调用本地的比对软件b l a s t 2 2 9 进行大量序列的 全自动比对,最新的版本是v 2 1 5 3 版。 在1 o 版本中,我们从一组血吸虫e s t 数据开始( h ue ta 1 2 0 0 3 ) ,与t o g a ( l e ee t a 1 2 0 0 1 ) 网站的十一种真核生物数据库逐个比对。比对流程如图1 - 1 所示。利用血吸虫测 序工作得到的在m a m m a l ,f r u i t f l y 和n e m a t o d e 中高度保守的e s t 序列,获取与之匹配的完 整人基因,将得到的基因提交t o g a 的c e n ei n d e x 网上数据库的五种后生动物物种,得到 在后生动物中的保守基因,再将得到的基因提交该数据库中的六种泛真核生物( p a n - e u k a r y o t e s ) 的单细胞生物基因数据库,得到的基因按照e 值分成三组,在全部后生动物中 存在而在单细胞动物中不存在或只在一个物种中存在( 比对的阀值e = i o “) 的基因归入 9 m u l t i c e l l u l a rs e t 组,在后生动物和泛真核生物中都存在的归入u n i c e l l u l a rs e t 组, 其他在后生动物中保守的基因归入m i d d l es e t 组。 图1 一lg e n t b l a s t 软件1 0 版本比对流程 在2 o 版本,我们采用了通用性更好的思路。我们把研究的毛要方向确定在基因组内的 表达序列( c d s 序列) 。从n c b i 的u n i g e n e 数据库下载所需的全基因组数据( 严格地说应该是 转录组的数据) 。将数据用m y s o l 数据库管理软件进行分类存储和管理。对于一些u n i g e n e 数据库中没有的物种,从互联网上专门网站下载该物种的完整c d s 数据。序列间的比对通过 专门软件g e n t b l a s t 来实现。 我们在m y s q l 中建立了一个名为g e n e 的表组( s c h e m a ) ,其中包括了所有的表( t a b l e ) 。 所有的初始数据由f a s t a 格式的文本文件导入到名为g e n e _ c a t a l o g 的表中,在对基因组a 和b 进行比对时,需要一个在g e n ec a t a l o g 表中而另一个为文本文件( 其中所有的序列用 f a s t a 格式存放) 比对得到的结果保存在名为c o m p a r e d _ r e s u l t 的表中。在比对中我们还 采用了类似断点续传的机制保证比对在突然中断后能保存已比对的结果,重新开始比对时将 从中断的基因继续开始比较。 2 0 版本的核心是g e n t b l a s t 软件该软件严格说来是一个比对软件b l a s t 和m y s q l 数 1 0 据之间的接口。是专业程序员按照我们的比对要求专门设计的商业软件。该软件用j a v a 设 计,采用命令行方式工作,在w i n d o w s 2 0 0 0 x p 平台上运行。g e n t b l a s t 能将符合用户要求 的m y s q l 的序列逐个用b l a s t a l l e x e 与给定f a s t a 格式的序列文件中的所有序列进行比较。 g e n t b l a s t 通过命令行方式提供多种参数搭配建立多种不同的工作模式来实现不同方式的比 对以及日常数据维护。由于m y s q l 是基于网络的分布式数据库,所以g e n t b l a s t 可以提供分 布式的运算能力。用户可以在多台客户机上向服务器提出请求,同时进行多组不同的序列比 对。该软件的详细使用说明见附录。 二、比对涉及的物种 为了尽量覆盖后生动物的各个分支,我们选择了如下全基因组序列已测序的后生动物物 种:三种后口动物是人( h o m os a p i e n s ) ,斑马鱼( d a n l or e r i o ) 和海鞘( 甜d 舾 i n t e s t i n a l i s ) ,两种蜕皮动物线虫( c a e n o r h a b d l t i se l e g a n s ) 和果蝇( p r o s o p m l a m e l a n o g a s t e r ) ,一种触手冠动物是血吸虫( s c h i s t o s o 嬲m a n s o n l ) 。这样五个物种涵盖了 后生动物( 严格地说是三胚层动物) 的主要分支( e r w i n d a v i d s o n2 0 0 2 ) 。同时我们选择了 6 种单细胞真核生物,包括两种藻类:绿藻c h l a m y d o m o n a sr e i n h a r d t i i 和红藻 ( c y a n i d i o s c h y z o nm e r o l a e ) ,两种真菌:啤酒酵母s a c c h a r o m y e sc e r e v i s i a e 和假丝酵母 s c h i z o s a c c h a r o m y c e sp o m b e , 还有三种原生动物:刚地弓形虫( t o x o p l a s m ag o n d j 力 在 1 0 版中使用的是利什曼原虫l e i s h m a n i a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英美文学经典作品导读的教学设计教案
- 关于珍惜友情高一作文11篇范文
- 纪念鲁迅有感课件
- 农民互助土地流转经营合同
- 一年级作文过春节放炮8篇
- 一张难忘的照片作文500字小学作文15篇
- 唐诗的鉴赏方法:古诗语言风格教案
- 2025年全国英语等级考试(PETS)二级试卷:英语词汇与语法同步练习试题
- 合同审核流程及文件存档规范
- 早发型卵巢功能不全课件
- 有限空间安全作业培训试题(含答案)
- 物业应急管理办法
- 设备调剂管理办法
- 脑膜刺激征临床表现
- 蓝天救援队规定管理制度
- 医院药品支付管理办法
- 银监会手机租赁管理办法
- 常见上肢骨折护理常规
- 2025建筑安全员考试题库
- 从2025年河南中考语文试卷中分析阅读理解如何提分
- 军工领域涉密项目保密风险评估及防控措施
评论
0/150
提交评论