(理论物理专业论文)在不同适应值下误差阈的研究.pdf_第1页
(理论物理专业论文)在不同适应值下误差阈的研究.pdf_第2页
(理论物理专业论文)在不同适应值下误差阈的研究.pdf_第3页
(理论物理专业论文)在不同适应值下误差阈的研究.pdf_第4页
(理论物理专业论文)在不同适应值下误差阈的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(理论物理专业论文)在不同适应值下误差阈的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集 体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本声明的法律责任由本人承担。 学位论文作者:两科日期:砌年月2 7 日 q l 7 学位论文使用授权声明 本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。 根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门 或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学 可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印 或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文 或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。 保密论文在解密后应遵守此规定。 学位论文作者: 附哞 日期:叫口年j 月2 7 日 摘要 摘要 本文主要介绍达尔文生物进化论以及对生物演化过程的探究,特别是在微 观层次上,通过对简单的无性生殖物种演化的探究建立起理想化的理论模型。 本文的重点在于对e i g e n 准物种模型的描述以及对此模型的求解。通过对e i g e n 准物种模型的求解我们得到:当物种超过某个阈值时,这个物种的分布将变为 随机性的分布。也就是说当物种的错误率超过这个阈值时,这种物种将会灭亡, 我们把这个阈值叫做误差阈。文章的正文可以分为四个部分,第一部分详细介 绍了达尔文演化体系以及在此体系的基础上建立理想模型准物种模型。第 二部分通过对e i g e n 模型的精确求解以及对有微小突变情况的的微扰近似,从 而得到误差阈的表达式。介绍了在几种不同情况下e i g e n 准物种模型的求解, 并探究在这几种不同情况下的误差阈的情况。第三部分通过对多核苷酸复制的 探究,讨论了在低维和高维情况下大分子聚合物的直接复制和互补( 正一负) 复 制,并将其误差阈与统计学中的相变进行类比。最后,我们通过对e i g e n 模型 选取不同情况的适应值来探究其误差阈的变化。通过分析可以发现,于单峰相 比,当系统存在一系列孤立的峰值时,误差阈会有向较大值方向的平移。 关键词:序列误差阈准物种模型适应面 a b s t r a c t a b s t r a c t t h et h e s i sm a i n l yi n t r o d u c e sd a r w i n sb i o l o g i c a le v o l u t i o na n dt h er e s e a r c ho f b i o l o g i c a le v o l v e m e n t ,e s p e c i a l l yo nm i c r o c o s m i cl e v e l ,b yt h er e s e a r c ho ft h es i m p l e a s e x u a lp o p u l a t i o n sb u i l d i n gt h ei d e a lt h e o r ym o d e l t h i sp a s s a g ei sf o c u so nt h e d e s c r i p t i o no fe i g e n sq u a s i s p e c i e sm o d e la n di t ss o l u t i o n a f t e rt h a tw eg o tw h e nt h e s p e c i e se x c e e dt h et h r e s h o l do fv a l u e ,t h e yw i l lb e c o m er a n d o md i s t r i b u t i o n t h a ti s t os a y ,w h e nt h es p e c i e s e r r o re x c e e d st h et h r e s h o l do fv a l u e ,i tw i l ld i eo u t w ec a l l t h i st h et h r e s h o l do fv a l u ea st h ee a t e rt h r e s h o l d t h eb o d yc a nb ed i v i d e di n t o4 p a r t s :t h ef i r s tp a r ti n t r o d u c ed a r w i n sb i o l o g i c a le v o l v e m e n ta n ds e tu pt h ei d e a l m o d e l - - - q u a s i s p e c i e sm o d e l ;t h es e c o n dp a r tt e l l su st h ea c c u r a t es o l u t i o no fe i g e n a n dt h ep e r t u r b a t i o na p p r o x i m a t e l ya m o n gt h em i n o rs i t u a t i o n t h et h j r dp a r t m a i n l yd i s c u s s e st h ed i r e c ta n dc o m p l e m e n t a r y ( p l u s - m i n u s ) r e p l i c a t i o nb e t w e e n l o w d i m e n s i o n a la n dh i g h d i m e n s i o n a l ,a n dm a k ea na n a l o g yb e t w e e nt h ee r r o r t h r e s h o l da n ds t a t i s t i c s f i n a l l y , w eg e tt h ei m p o r t a n tc o n c l u s i o nt h a tt h ee r r o r t h r e s h o l dw i l lt r a n s l a t et o w a r dt h eb i g g e rd i r e c t i o n k e yw o r d s :s e q u e n c e ,e r r o rt h r e s h o l d ,t h em o d e lo fq u a s i s p e c i c s ,f i t n e s s 目录 摘 目录 a b s t r a c t i i 1 引言1 2 达尔文进化论及微观模型的建立3 2 1 达尔文体系3 2 1 1 适应的概念3 2 1 2 种群的增长4 2 1 3 适者生存( s e l e c t i o no ff i t n e s s ) 5 2 1 4 突变6 2 2 准物种模型的建立6 2 2 1 序列空间7 2 2 2 e i g e n 动力学方程的建立。9 2 2 3 准物种与误差阈1 0 3 e i g e n 准物种模型的求解及讨论1 3 3 1 e i g e n 准物种模型的精确求解1 3 3 2 e i g e n 通过微扰论对出现小突变率的处理1 6 3 3 具有一般适应函数和降解率的e i g e n 模型的精确解1 8 3 3 1 分解率为零的单峰适应函数2 0 3 3 2 存在分解率时的单峰适应函数2 1 3 3 3 平适应函数2 2 3 4 讨论分析2 4 4 多核苷酸自我复制模型2 5 i i i 目录 4 1 核苷酸错误复制简化模型的建立2 5 4 2 低维情况下的检验( v = 3 ) :3 0 4 3 高维( v 3 ) 情况下的模型3 5 4 4 误差阈与相变3 8 4 5 结论4 l 5 不同适应值下误差阈的研究4 3 5 1 理论模型的建立4 3 5 2 结论与分析4 5 5 3 回顾与展望5 1 参考文献5 2 致谢5 5 i v 引言 1 引言 在生命起源的过程中,最主要的问题之一就是通过对最原始的生物体的精 确复制以维持原始基因组编码的信息。不难得到,在物种的进化过程中r n a 的 演化是遗传信息最古老的形式。然而,还没有发现一个单一的一种r n a 基因组 生物体的存在,而另一方面,病毒却经常将r n a 作为它们的遗传物质。r n a 病毒 具有相当短的链,其长度一般在3 0 0 0 3 0 0 0 0 左右。相比较来说d n a 一般都具有 较长的链,以至于它们能够储存更多的遗传信息另外,d n a 的双螺旋结构,使 其能够对序列中的损伤自行修复,减少了自发的突变率。因此,最终有性生殖 体系以d n a 作为遗传代码。 对于生物从最原始的无性生殖体系演化到现在的高等的有性生殖体系,在 生物学上,达尔文提出了著名的生物进化论,即:“优胜劣汰,适者生存”的自 然选择学说。该理论不仅很好的说明了物种由低级到高级,从简单到复杂,种 类由少到多地进化着、发展着,而且它在组织形成分子的演化中也起着重 要的作用。但是随着人们对生物组织细节的深入探究,常常发现它对生命 的自然属性难以给出清晰明确的答案,尤其是对于高等有性生殖动物以及 社会结构,即使对于低等的生物物种,有时候也难以理解达尔文的进化理 论。随着人们对微观领域的深入了解,基因学说有了较大发展。从微观领域 来说,引起其进化的因素有很多,例如基因自发的突变、重组、外界环境的诱 发突变,或由于基因链的断裂或插入等。从微观领域上对生物演化的自然选择 原理的解释以及有关生命现象的理解和探究一直是生物学家以及相关领域的物 理学家和化学家关注的一个课题。对于引起物种演化的因素,通过数学或物理 化学思想,将其诸多演化因素考虑在内,并通过假设和简化手段,建立起合理 的理想化的模型。 在最近的几十年中,生物演化的微观模型吸引了很多科学家学者的注意力。 例如f i s h e r 嘲、h a l d a n e 、w i r g h t 口1 等他们最早开始对物种演化模型进行研究。 后来,e i g e n 、c r o w 和k i m u r a 对生物的演化模型进一步完善。在他们当中,e i g e n 的准物种模型为以后人们在微观领域研究物种演化奠定了基础h 】。 e i g e n 准物种主要是对大分子聚合物复制的研究,因此在实验当中,我们通 常以r n a 为复制模板进行研究,因为r n a 有很高的突变率以及序列长度比较短 引言 方便研究。在准物种模型中,分子相对浓度表示适应,分子的复制速率表示选 择,在复制中的错误则表示突变。通过对准物种的求解我们会发现在物种的分 布当中存在着一个阈值,当物种超过这个阈值时,这个物种的分布将变为随机 性的分布。也就是说当物种的错误率超过这个阈值时,这种物种将会灭亡,我 们把这个阈值叫做误差阈。在实验上,w e i s s m a n n 和他的助手印】 6 7 3 通过对r n a 分子在噬菌体q 中的复制研究中发现,其分布确实存在一个突变分布,并且这 种分布于准物种模型很好的对应了起来。之后,还在手足口病毒阻1 和流感病毒嗍n 0 1 中发现了核苷酸序列的异质性。 e i g e n 准物种模型中预言存在误差阈,这一理论在医学上具有很重要的研究 意义。如何使病毒在演化过程中超过自身的误差阈,从而自身灭亡,即错误灾 变。在最近的p n a s 文章1 中提出,通过对病毒( 这种病毒作为一种抗药物) 序 列的定量研究发现,这种病毒的致突变作用使脊髓灰质炎病毒在复制过程中发 生错误灾变。从l o e k 对艾滋病( a i d s ) 病毒n 2 1 3 1 ,和d o m i n g o 、h o l l a n d 等人 对手足口( f m d v ) 病毒n 町n 钉的研究中,同样能得到类似的结论。误差阈理论的 提出为抗病毒策略开辟了新的研究范例n 阳,即我们不是通过抑制它们的复制而 是通过增加它的突变率,从而使其发生突变灾变。起初,这个过程看起来会使 病毒逃脱免疫系统,但是,最终这个过程可能促使病毒丢失其致病的信息。 e i g e n 的准物种模型是建立在序列在复制过程中突变和选择相互影响做用 下,我们称此模型为耦合的突变一选择模型。另一种不同的模型是由c o r w 和 k i m u r a 建立的,我们称为c - k 模型n 7 】 埔驯。c - k 模型描述的是序列的突变是在 外部因素的影响下导致某个位发生了突变,即突变和选择是无关的两个过程, 我们称为无耦合的突变一选择模型,j h o f b a u e r 研究表明汹1 ,这两种模型在特定 的条件下得到的结果相一致。从物理学的意义上,e i g e n 模型和c - k 模型都很好 的与统计学中的伊辛量子链模型对应了起来,e i g e n 模型中的误差阈和突变率分 别对应于伊辛模型中的相变和温度参数t 。 适应是用来描述生存的一个参数。我们将这个参数通常用适应值( f i t n e s s ) 来表 示。在基因型空间经过每一固定点画一条线,就得到所谓的适应面。为了简化 模型,通常选取单峰的适应面进行研究,但在实际当中,种群中的适应面可能 存在多种不同的情况。我们所做的工作就是,e i g e n 模型的基础上,通过采取不 同的适应值,构造不同的适应面,对准物种的分布和误差阈进行数值模拟,从 而来探讨在抗病毒策略上应用。 2 达尔文进化论及微观模型的建立 2 达尔文进化论及微观模型的建立 达尔文创立了科学的生物进化学说,以自然选择为核心的达尔文进化论, 第一次对整个生物界的发生、发展作出了规律性的解释,使生物学发生了一个 革命变革。该理论不仅很好的说明了物种由低级到高级,从简单到复杂,种类 由少到多地进化着、发展着,而且它在组织形成分子的演化中也起着重要 的作用。但是随着人们对生物组织细节的深入探究,常常发现它对生命的 自然属性难以给出清晰明确的答案,尤其是对于高等有性生殖动物以及社 会结构,即使对于低等的生物物种,有时候也难以理解达尔文的进化理论。 随着科学的进步,基因学的诞生,生物科学家们有宏观到微观开始将单个 的基因而不是整个基因组视为自然选择的基本单位。随着基因学的发展和 对d n a 三维结构有了清晰的图像之后,人们才对信息遗传机制在分子水平 上做了进一步的解释。从而在遗传学上,科学家对突变、选择、重组、迁 移以及遗传飘变在一个种群中如何改变遗传物质做出了更为合理的模型, 从而对自然选择在分子水平对基因组的影响有了新的见解。 2 1 达尔文体系( d a r w inia ns y s t e m ) 达尔文将生命的逻辑大致的归纳为如下四点【2 1 】: ( 1 ) 生命是通过逐步演化而出现的。 ( 2 ) 演化是在远离热力学平衡的条件下通过变异和自然选择的结果。 ( 3 ) a ) 自然选择是在远离热力学平衡的条件下自我复制的结果。 b ) 变异是因为不精确的自我复制或者是在复制过程中其他因素的改 或影响。 ( 4 ) 自我复制是建立在特定的分子结构的互补性的基础之上的。 以上机制的体系被称为达尔文体系。上叙述过于简单,很难对我们有所启 发。因此我们根据此逻辑叙述来定义一个模型并对它的结果进行进一步的探究。 2 1 1 适应的概念 达尔文的自然选择是我们研究的重点,自然选择最原始的表述为“适者生 3 达尔文进化论及微观模型的建立 存 ( s u r v i v a lo f t h ef i t t e s e ) ,并没有对“适者 和“生存 做出很清晰的描述。“生 存 通常用物种存在的数目来衡量,用物理化学的语言即浓度。生存即表示( 物 种、基因型或表型) 数目非零。而“适者”即适应者,即使某个生命体在已给 的环境下得以生存繁衍的某种条件,比如能量、速度、健康等。它是用来描述 生存的一个参数。我们将这个参数通常用适应值( f i t n e s s ) 来表示。个体的适应 值表示在某种环境下自我复制的成功率或者繁殖的有效性f 2 2 1 。 原则上我们应该将适应值赋予个体表型,但基因型决定个体表型。目前基 因型和表型之间的绘图很复杂。除了极个别的之外,其他的都还很不清楚瞄】。 因此我们将适应值w ( c r ) 直接赋予基因型自身,并将其定义为由基因组序列仃代 表的个体所产生后代数目的预期值。这个定义应用在后代之间简并的情况下, 我们称之为w r i g h t i a nf i t n e s s 。通过连续的时间我们可以将其标记为: 形( 盯) = e 矽_ 出1 + w ( o ) a t ,a t 专0 , ( 2 1 ) a t 产生一代的时间,形p ) 叫做w r i g h t i a nf i t n e s s 。 2 1 2 种群的增长 我们以病毒种群的生长法则为例。病毒从周围的媒介物中代谢营养,经过 某个时间段r 后,生长并分裂出两个子体。如果细胞的分裂和消失时同步的,那 么t 时刻后种群的数量为: t ( f ) = n ( t = 0 ) 2 7 r ( 2 2 ) 由于细胞分裂的数目很多,我们可以用病毒种群的浓度c 来表示。种群数目 越多,分裂过程中的涨落波动就可以忽略,我们可以通过构造病毒种群对时间 的对数来精确测量复制的时间,只要种群的浓度足够小,我们便可以得到一条 直线并且能够从图像的斜率中精确地确定增长参数a ,会得到一个新的方程: c ( f ) = c ( t = o ) e 小 ( 2 3 ) 通过微分方程,动力学过程可以很好的被描述。物种增长的比率与母体细 胞的数量成正比: _ - d c = 彳c ( 2 4 ) 一= 月c i 。,4 d t 在现实的情况中,观察时间十分有限,因为病毒浓度的值增长很快,周围 4 达尔文进化论及微观模型的建立 资源限制它的增长,a 的值也和种群浓度有关,我们需要一种特殊的设备来延长 观察时间,我们想恒化器中以恒定的速率注入新的媒介物并抽出病毒培养菌, 使容器里浓度保持不变,那么动力学方程变为: 害叫叫c ( 2 5 ) 2 1 3 适者生存( s o i e c t i o no ff i t n e s s ) 考虑在恒浊器里生长的不同类型的物种,我们假设它们之间没有相互影响, 在某种情况下每个类型的增长率为: a v 墨= 4 c , ( 2 6 ) 以 4 表示类型i 的适应值。因为恒浊器的所有种群保持一个常数,我们可以分 析每个类型在所有物种的相对比率五,因此我们可以得到: 如o ) = 4 一么o ) 五( f ) ( 2 7 ) j 表示在t 时刻所有类型增长率的平均适应值。上述非线性方程( 因为j ( t ) 是和时间有关的物理量) 描述的就是适者生存( s e l e c t i o no f f i t t n e s s ) 。 当类型i 的适应值4 大于平均适应值彳( f ) 时,类型i 增加,反之减少。种群 类型的转变增加了平均增长率彳( f ) ,越来越多类型在么( f ) 以下,直到最后种群 达到了一个最大的生长率,即具有最大生长率的类型生存下来,最后我们得到: 么( f ) 专k ,专l ,m 专u 因此自然选择实际上就是自身催化复制的结果。得到上面的关系需要满足 两个条件: ( 1 ) 同种物种中,一种类型不能转化为其它的类型。 ( 2 ) 选择的过程是远离化学平衡的。 从上面的得到,具有最大选择值的物种最终生存下来,而其他类型的物种 最终都灭绝,也就是说,除了具有最大选择值也就是最适应者,物种的数目和 选择值之间没有数目实际的关系,我们把这种类型称之为“全部或者零 ( a 1 1 o r - n o n e ) ”显然,这种说法是不符合实际的。因为在相互作用下会产生化学 平衡,最终得到的结果应该是物种的浓度比率为一个有限的值。 在实际当中不单单只有自我复制的速率导致选择的发生,物种在自我复制 5 达尔文进化论及微观模型的建立 的过程中还在不断的相继的死亡,因此除了自我复制的速率4 外,还应该具有 一个死亡率日。因此对于最适应类型的物种来说,它具有最大的额外增长率 互= 4 一d f 。对于选择值来说不但可以增加复制率,减小死亡率同样重要。 2 1 4突变 达尔文的进化论说的是发生在一个物种中,物种不同的表型代表由野生型 发生不同的突变而得到,也就是说不同类型代表野生型的不同突变体。引发突 变发生的情况很多,大致可以分为两类:自发突变和诱发突变。自发突变可以 是一种类型在复制过程中发生错误或者某个位的基因自发损伤等情况引起的。 诱发突变可以是由某些粒子的照射,诱变剂的诱发等多种原因引起的。如果我 们将突变项加入到选择动力学中,那么就会得到动力学方程: 堕d t = ( 一云( f ) 誓( f ) ) + ( f ) ( 2 8 ) = q 。4 ,表示由类型i 突变为类型k 的概率,= q :,4 - d , ,类型i 正 确复制的概率,e ( f ) 代表平均额外生长率。 此方程为描述自然选择的动力学方程。显然,如果突变项相对比较小,当 具有最大选择值的序列m 的自我复制速率超过了剩下类型的突变率时,那么序 列m 就会呈现出来。 2 2 准物种模型的建立 因为基因型表型之间的绘图十分的复杂,所以我们需要通过对理论模型做 一系列的简化假设。比如由s a k a u f f m a n 2 4 】【2 5 1 提出的适应行走模型,起潜在的 假设就是群体中所有个体在大部分的时候具有同样的基因型。如果发生了一个 能增加个体适应值的突变,那么它就会很快传播到所有的个体,而使其适应值 降低的突变则很快被淘汰。因此,物种总是在适应面上沿着上坡运动,知道它 达到一个局部的最大值,也就是当它达到一个稳态时,它将停留在那里。 近年来,随着遗传学的发展,人们从更微观的领域来研究遗传学,提出了 将d n a 链或r n a 链映射为适应值的模型。其中一个最重要的模型就是e i g e n 在1 9 7 1 年写的一篇学术论文中体出来的准物种模型( q u a s i s p e c i e sm o d e l ) 【4 】, 与适应行走模型不一样的是,准物种模型描述的是无限群体的无性复制体在高 6 达尔文进化论及微观模型的建立 突变率下的演化【2 6 】f 2 7 1 。e i g e n 通过对生物大分子的错误性自我复制的研究,其目 的是理解生命的起源。他认为,在生命开始和演化的过程中,有一个分子的自 我组织的过程。e i g e n 从选择和进化的微观基础出发,分析总结了那些产生达尔 文进化所必须的物质: ( 1 ) 代谢作用,使得生物体系远离了平衡态。 ( 2 ) 自我复制,作为一种内在的能力指引分子自身的合成。 ( 3 ) 变异性,限制了自我复制的精确性。 2 2 1序列空间 当我们对比各种类型的突变体时,经常将其调整到和一条参考序列相毗邻 的位置,我们通常选取野生型为参考序列。在这个由突变分布组成的序列中, 某些突变体可以看做是由其他序列进行位的对调得来的。显然,在这些突变体 中,有些具有很亲密的关系,它们具有共同的祖先。我们可以通过h a m m i n g d i s t a n c e 来定量它们之间的亲密关系。h a m m i n gd i s t a n c e 表示的是两个序列所拥 有的不同位点或不同碱基的数目。如果在每次突变的过程中只有某个位点发生 替换,那么h a m m i n gd i s t a n c e 就是指从某个参考序列变为另一条序列所需要的 最少的突变次数。 我们选取长度相同的一组序列为例,每条序列包含有n 个碱基位,每个碱 基位可以是k 种不同的单体。如果此序列为r n a 链或者d n a 链,那么每个碱 基位都有四种可能( a ,g ,c ,t 或u ,) 。根据不同的情况我们也可以只考虑嘌 呤( g ,a ) 和嘧啶( c ,t 或u ) ,也就是说k 的值通常取2 或者4 。因此,所 有种类序列的总数就是k ”。其中任意两条序列蜀和幺之间的h a m m i n gd i s t a n c e 我们用d ( i ,k ) 来表示,对于任意给定的参考序列,通过h a m m i n gd i s t a n c e 将 突变体归类,每类都包含了m 种不同序列。相对于主序列的h a m m i n gd i s t a n c 为d 的突变类的序列数目为: 玑= q ( k 1 ) 。 ( 2 9 ) 根据突变体之间的h a m m i n gd i s t a n c e ,我们对突变体进行排列需要用一个n 维的 空间,每一维对应的有k 个点事等价的。在以r n a 链为例的过程中,由于r n a 在复制过程中突变点发生最频繁的就是嘌呤嘌呤,嘧啶嘧啶之间的交换,因此 我们只考虑k = 2 这种简单的情形。 7 达尔文进化论及微观模型的建立 对于任一参考序列。序列空间中的序列可以分为,l + 1 类,每一类中共有d 种 序列,那么所有可能的序列数目就是: = 掣= 2 ”。 ( 2 1 0 ) 一n d = 0 假设在自我复制的过程中,突变体时由于序列的自我复制错误而产生的。 我们引入一个准确度g f ( 0 劬s 1 ) ,它表示在序列占上第i 个位准确复制的概率。 那么在该位上产生一个错误复制的概率就是l q l 。因为每个位上的准确度都不 相同,这里我们用g 表示序列每个位置的平均准确度,那么,正确复制一条完整 的序列s 的概率为g “。通常我们假定所有位置都具有相同的复制准确度,因此, 将长度为n 的序列乞做为模板,则因错误复制而产生的具有h a m m i n gd i s t a n c e 为d 的序列的概率为: 幺= 掣矿j ( 1 - q ) 4 ( 2 1 1 ) 因此,完全正确复制的概率q o = q “代表了复制过程的品质因子。 列乞的错误复制而变为序列q 的概率: 瓯2 总2 q n - d ( o , o ( 1 - )瓯= 詈业=( 1 - g ) 烈叫 j j ,一n 因此,由任意一条序列& 由于错误复制而产生序列q 的概率为: 由于对序 ( 2 1 2 ) 级= q n - d ( k j ) ( 1 一留) d ( 2 1 3 ) 对于任意固定的序列& ,则有,玩= l 。由于q 通常是一个很接近于l 的 数,那么从上式可以看出,从参考序列& 突变为特定的序列岛的概率随着 h a m m i n gd i s t a n c e 距离的增加而急剧减小。 对于长度为n 的链,可以有2 ”种不同的序列,在这所有的序列对( q ,& ) 之 间的突变频率可以用一个突变矩阵q 来表达: q = 级;f ,k = l ,2 ,2 刀 ( 2 1 4 ) 元素q 聃表示的是由序列& 错误复制而得到序列q ( 出现突变体) 的概率。 序列空间的信息关系类似于地形学,它是一个n 维的超立方体。两个突变 体之间的h a m m i n gd i s t a n c e 是从一个序列到另一个序列的最小步骤。对于这个 8 达尔文进化论及微观模型的建立 超立方体我们很难想象,也很难再纸上表达出来,除非n 值特别小。然而,这 个高维的空间具有三个特点: ( 1 ) 它具有很高存储信息的能力,它的数目依赖于链长,其数目非常大。 ( 2 ) 两条序列之间的最小距离保持很小。 ( 3 ) 它们之间的联系非常密切。 2 2 2 e i g e n 动力学方程的建立 我们假设在一个盒子里包含了一系列的n 个基位( i - 1 ,2 ,n ) 它们可以 自我复制或者突变,假设每个物体只能突变为剩下的n 1 种位中的一个,并且 这个容器的容器壁可以允许多余的能量流出或者补充能量的不足。对于这样的 系统,e i g e n 给出的动力学方程为: j 一 , 导= ( 巧一r ) 五+ 九西,i = l 2 ,n ( 2 1 5 ) i = 1 这里而= x i ( f ) 代表了第i 个基位在时间t 时的浓度。我们规定,当t = - o 时五的 值为薯( 0 ) 。巧代表了形成第i 个基位自我复制的速率,r 表示转移出去的速率, 第三项表示的是来自剩下的j i ( 丸= 0 ) 基位的不精确复制,丸可以认为是由 l 突变为i 的概率,最和r 的值可能依赖于而,而,h 的浓度。 为了化简方程( 2 1 5 ) ,e i g e n 写到: 巧= k 0 4 q ,r i = k o q + 九 ( 2 1 6 ) k o 为一恒定的速率,4 表示的是增长的因素,因此乞4 表示的是所有复制 的速率,包括突变率。q 表示有其他的基位复制为第i 种的正确度,0 q l ( 如 果第i 个完全正确复制,那么q = 1 ) 。由于在物种的复制过程中,每个基位在复 制的同时还相继的分解或死亡,我们用屯q 表示的是第i 种基位的分解速率。通 常我们感兴趣的是系统的稳态,因此我们需要对体统不断的补充新的资源,并 且转移出过多的分子以保持整个系统的浓度恒定,因此我们用九。表示第i 种基 位的相对稀释率。屯在今后取值为单位l 。e i g e n 假定: l 旦 o l = 也而 ( 2 1 7 ) 在这里屯表示总的稀释率,它用来补偿所有过多的繁殖率,a p 9 达尔文进化论及微观模型的建立 屯= ( 4 一皿k ( 2 1 8 ) 因此方程( 2 1 5 ) 可以改写为: 鲁= ( 形一e ) + 姜丸西 眨 这里彬= 4 9 一口,表示的是选择值,e = e 。x 。x 。表示的是平均 生产( 繁殖) 率,互= 4 一日表示的是超额生产( 繁殖) 率。 为了获得“选择族系 ,e i g e n 给系统强加了一个限制条件,即: x k = r l ( n 是一个常数) ( 2 2 0 ) k = l 另外e i g e n 假设单位时间里注入系统的新资源是恒定的,这也就是说彬和骂 是一个常数( 和时间t 和x j 无关) 。这里需要注意的是方程( 2 1 9 ) 是齐次的, 因此我们可以添加一个常数( x ij 口五) 使之归一化得到n = 1 那么,在什么样的情况下起主导作用的基位可以显现出来? 它具有怎样的 特征? 在怎样的条件下使得其他的基位都消失? 我们设置在极端的情况: 一1 ,x ij 0 ( 当f 一时) ( 2 2 1 ) e i g e n 断言,如果w r 坍= m a x 。g 删彬,可以证明上面的结论是成立的,也就是 说具有最大选择值的基位最终胜出。在这里,只要突变率丸足够小,我们可以 将其忽略。 但是这样的断言只有是在十分特殊的条件下才是成立的,而实际当中这样 的条件是无法实现的,所得到的结果也就没有很大的价值。但是在下一章我们 会介绍到,只要突变率比较小,具有最大选择值的基位将占主导地位。也就是 说,在突变情况下,只要突变率不大,e i g e n 的断言也基本上是正确的。 2 2 3 准物种与误差阈嗍 如果随机的从种群中挑出一些突变体,并组成序列,我们发现他们会紧密 的排列在一起。他们的形式就像地球上的地貌一样具有很多山峰。如果有两个 1 0 达尔文进化论及微观模型的建立 或更多的物种,就会呈现出相应的孤立的山峰。在达尔文的进化过程中物种适 应景象是连续变化的。如果突变率高或者适应值差别较大,那么变化就快。反 之,变化就慢,最终达到一个稳定的态( d r , = 0 ) ,物种分布将不再变化( 至少 在某一段时间不再变化除非一个突变事件的发生导致一个更高的适应值产生) 。 设在方程( 2 8 ) 中使a x , d t = 0 ,那么将会得到一个和时间无关的值,使之 达到稳定态,而不是热力学意义上真正的平衡态。我们定义: 一e 捌= e 七屯e x , ( 2 2 2 ) k赳|t 越 在一级近似中( 忽略方程( 2 8 ) 中的突变项) 得到: 七t f 一 形,一e k f 五2 - = = 一 ( 2 2 3 ) l e i eb i 、“1 这也就意味着只有当序列i 为主序列m 时,即有一个的值超过任意其它 的值时才有意义。在那样的情况下( 突变项被忽略) ,除非错误率非常接近 误差阈,就会得到彬,e k 耐。我们通过较高的近似得到这样的结果,在这里突 变项超过了它的平均值。 通过对结果的分析我们需要对“适应 和“自然选择 做一个全面的新的 解释。我们概述为以下几点: ( 1 ) 选择的目标,即“适应 不再是单指一种类型,而是指那些中性的或 接近中性的包含他们亲密关系的一个非常宽的散布分布,我们把这个分布叫做 “准物种。因为它的行为类似于物种的野生型,原因是因为微分方程( 2 1 9 ) 的解是矩阵( ) 的最大本征值,只有最大本征值是稳定的。 ( 2 ) “野生型 不再和最适应的类型等同,而是代表了物种适应面上的重 要的一个点,这个点可能是也可能不是序列中的最大适应值。 ( 3 ) 物种分布和适应面也不再等同,这足以证明达尔文的“适者生存 的 原则,不是简单的同义反复。 ( 4 ) 物种分布和突变概率的适应面也不相同。因此,突变体的频率不能简 单的从突变比率中得到。 ( 5 ) 种群的浓度不是随着h a m m i n g 距离的增加而单调的减少的。适应面 中的山峰和谷导致了“突变体族 。 ( 6 ) 物种分布周边的区域是进化过程的根源。在这里,只有在最适应位置 达尔文进化论及微观模型的建立 上的繁殖下来,而他们的环境在很大程度上仍然未开发。相似的关系,类似于 地球上的形成山区,提出一个寻找更适应突变的可能性较大。 准物种表明,由于物种的选择竞争,就存在一个误差阈。根据方程( 2 2 3 ) , 当它的选择值既,等于或小于e 捌时,主序列将会消失,方程( 2 2 3 ) 可能仅仅 只是一个近似,真正解展现的是逐渐消失的选择竞争。然而,这并不是真实的, 因为在精确解里最大本征值显示出来了类似的行为。我们引入选择优势参数: 彳。 = :i _ 一 ( 2 2 4 ) 十乜k m = q m 。以一见,在整个条件不变的情况下是一个定值,但也可能有 变化。除了参数4 ,l 和d 肘之外,吸。和保真参数q 删有关,如果m 序列的链长为 n ,每个碱基位的正确复制率为q ,那么= q ( q 0 ,于是就得到了误差阈的关系式: 1 - q 堕垒 ( 2 2 6 ) 刀 从这个式子可以看出,如果n 是序列m 的长度,吒是它的优势参数,那么 l n c r f 就是每个位点上错误率1 一g 所允许的最大值。超过了这最大值,序列中 的所有信息将全部丢失。这个关系式建立在q 删 1 的基础之上的,即自我复 制所丢失的损失1 一q 册,必须通过优势参数 1 来补偿。 当复制误差达到误差阈处时,遗传信息好像是“全部或者零”( a 1 1 o r - n o n e ) 。在 对病毒的研究过程中,通过对大量的病毒进行实验,可以从实验上得到确定的 误差阈。在实验中已经发现某些剧忉病毒的复制很接近误差阈,那么我们就可 以设想使病毒超过其阈值从而使其灭绝。那么从( 2 2 6 ) 式子中我们可以看出, 可能有两种方法使我们的设想成为可能,那就是降低序列选择优势或者是增加 序列的突变率。然而这样的情况是很不现实的,真正的突变分布包含有从零到 最大值既历之间的所有不同的值,因此也包含了中性的或等于或接近等于呢。的 值。具体的分析需要对系统的微分方程e q ( 2 1 9 ) 进行精确的求解。 1 2 3eig e n 准物种模型的求解及讨论 前面我们讨论了达尔文演化体系以及物种的进化行为,e i g e n ,s c h u s t e r 等 人在早期通过对多核苷酸异质性的理论研究,从微观上建立起物种演化模型。 下面我们通过准物种的动力学模型进行求解并讨论,对物种的演化过程进行进 一步分析。 3 1 e i g e n 准物种模型的精确求解 为了得到方程( 2 1 9 ) 的精确解,那么我们首先要结合上面的限制条件( 2 2 0 ) 而= l ,我们对方程( 2 1 9 ) 进行求和,可以得到: t = 1 在这里 ( 形一局k + 丸而= o n nn f t ll - i i = i r 九= 弓一彬= 4 0 一q ) ,# l ( 3 1 ) ( 3 2 ) 下面我们来推断方程( 2 1 9 ) 精确解。对五( f ) 坐替换: 而( ,) = e x p e ( f ) d f 刁( r ) ( 3 3 ) 把此变换带入方程( 2 1 9 ) ,可以直接得到: 在这里 鲁= 形毛嘻编 | = 4 刁 ,i i ( 3 4 ) ( 3 5 ) e i g e n 准物种模型的求解及讨论 对毛( f ) 做变换从而使非线性方程( 2 1 9 ) 变换成线性方程( 3 4 ) 。因此我们 可以通过基本的方法对其求解,如果a ,五,九为矩阵w ( 为矩阵中的元素) 的本征值,为了方便区分,我们给出它的解【2 8 】: , z f ( f ) = a u e 九 ,- l ( 3 6 ) 其中嘞是由方程( 3 3 ) 中的初始条件确定的一个常数,因此方程( 2 1 9 ) 中的e 我们可以写为: 其中 乙( z ) 2 詈2 詈 是和t 有关的一个函数,类似的,我们可以得到: 如果我们定义: , 磊( f ) = 乓乙( f ) k = l 晦( f ) = # u z t ,( t ) ,i l 则已知于时间t 有关的方程( 2 1 9 ) 就变为一个伯努利方程: 它的解为: 其中 ( 3 7 ) ( 3 8 ) ( 3 9 ) ( 3 1 0 ) 鲁一( 彬+ 也( r ) ) + 磊o ) # = o ( 3 1 1 ) 五( c ) = q ( t ) 磊( f ) e ,( f ) 一1d r ) _ 1 q ( ,) = e x p 一f ( 彬+ 也( f ) ) d f ) 1 4 ( 3 1 2 ) ( 3 1 3 ) 、l - 、“:, 乙& m 五 = 矗巨 捌 i l e 、- ,“:,乙办 闰 五 = 而 九 m e i g e n 准物种模型的求解及讨论 方程( 3 1 2 ) 中的积分f = 限是由初始条件决定的。 在极限的情况下,当所有的谚,= o ,即不出现突变的情况,所有的基位都正 确复制,那么( 3 4 ) 的解很容易得出: 刁( f ) = 薯( 0 ) e 即 ( 3 1 4 ) 从( 3 1 0 ) 式子中可以得到呜( t ) 为零,那么根据定义可得: 磊( f ) = e p ( 一嘶) f ( 3 1 5 ) k - i 因此( 3 1 3 ) 式中的巳( f ) 为: 岛( f ) - - e - 即 并且( 3 1 2 ) 式可以写为 而( r ) = 五( 。) p 即 ( 。) 喜篆 ( p 暇f 一) + ,) - 1 这样的解最早是有e i g e n 推演出来的,当w 胛= m a 】【。型纠形时, 当t o o 时,可以得到: ( 3 1 6 ) ( 3 1 7 ) 得到精确的解, ( f ) 专l 和再( f ) j0 ,i m ( 3 1 8 ) 从此我们可以看到,当丸= 0 时,q = 1i = 1 ,2 ,n 因此可以得到彬= 局( 对于 所有的i ) 和( t ) _ l 。 另外,当有突变出现的情况下,我们容易看出系统的情况会出现明显的不 同,因此从( 3 6 ) 可以清楚的看出,当t - - o o 时: z f ( t ) - - 嘞e 气 ( 3 1 9 ) 这里名表示的是矩阵( 3 5 ) 的最大本征值。相应的当t - - o o 时,从式( 3 8 ) 中 可以得出: 互! f l ( 3 2 0 ) x la h 因此我们可以看出,除非a l l = 0 ,不然基位i 就不会消失。更精确的说,当突 变项九很小而不为零的时候,从( 3 5 ) 式可以看出名将近似的等于最大选择值 1 5 e i g e n 准物种模型的求解及讨论 ( 也就是前面所说的既) ,并且嘞嘞 ,y f 日_ o 丸 厶是可以分 辨开的( 并且分别于彤,十分接近) 。那么我们可以做变换使: a = s d s 一1 ( 3 2 3 ) 这里s 是一个n x n 的矩阵,它的列是矩阵a 的本征矢,d 是一个对角矩阵, 其对角线上的矩阵元为 ,五,九,因此方程( 3 2 2 ) 的解可以写为: z ( t ) = s e 历z ( o ) ( 3 2 4 ) 或者可以将矩阵中的元素写为: 刁( f ) = & 一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论