




已阅读5页,还剩54页未读, 继续免费阅读
(运筹学与控制论专业论文)信息离散性度量方法及其在生物进化中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工人学硕士学位论文 摘要 自1 8 5 9 年d a r w i n 的物种起源发表以来,生物进化理论是对自然科学和自然哲 学发展的最重大贡献之一,进化论是生命科学中最重要的理论。分子生物学的发展,把 进化研究推进到分子水平,因而在分子水平研究亲缘关系已成为生物信息学的重要篇 章。本文的主要工作是信息离散性度量方法及其在生物进化中的应用研究,具体工作概 括如下: 1 多序列比较是分子生物学中的一个基本问题,本文利用了一种新的信息离散性 度量方法f d o d 方法,将其应用于s a i l s 病毒研究中,对s a r s 病毒与已知的三类 冠状病毒的复制酶、m 蛋白、n 蛋白和s 蛋白进行了进化分析,得出的系统发育树与现 有的生物分析基本一致。同时进一步显示了f d o d 方法的优点,数学基础好,不带有 主观因素,能比较客观地度量生物序列间的差异,且计算过程简单快速,是分子进化研 究的一种有效工具。 2 随着越来越多的微生物全基因组测序的完成,人们开始在整个基因组的水平上 研究物种的系统发育关系。本文将f d o d 方法应用于微生物全蛋白质组的系统发育分 析,所得进化树包括1 4 5 个细菌、18 个古细菌和5 个真核生物,大部分低层分支与 伯杰氏系统细菌学手册相一致,并且对高层分支关系给出了一些新的建议。 3 非比对方法可以克服基于序列比对方法在计算规模和主观因素等方面的局限 性。本文将几种非比对方法用于9 4 种哺乳动物线粒体全基因组的系统发育分析研究 中,从结果可以看出,非比对方法中的f d o d 方法得到的结果与传统的分类学最为一 致,在对哺乳动物纲各个目的整合能力上普遍优于其他几种方法。 关键词:生物进化;分子进化;信息离散性度量方法;系统发育;进化树 信息离散性度量方法及其在生物进化中的应用 an e wm e a s u r eo fi n f o r m a t i o nd i s c r e p a n c ya n d i t sa p p f i c a t i o n t o b i o l o g i c e v o l u t i o n a b s t r a c t s i n c et h e o 融g 圳o f s p e c i e s o f d a r w i n v c a s p u b l i s h e d i n1 8 5 9 ,t h e t h e o r y o f b i o l o g i c e v o l u t i o nh a sb e e no n eo ft h em o s tc o n t r i b u t i o n s1 0t h ed e v e l o p m e n to fn a t u r a ls c i e n c ea n d n a t u r a l p h i l o s o p h y e v o l u t i o n i s m i st h em o s ti m p o r t a n tt h e o r yi nl i f es c i e n c e w i t ht h e d e v e l o p m e n t o f m o l e c u l a rb i o l o g y ,t h er e s e a r c ho f e v o l u t i o nh a sb e e n p u s h e d t ot h em o l e c u l a r s t a n d a r d s ot h er e s e a r c ho f p h y l o g e n e f i c so nt h es t a n d a r do f m o l e c u l ei st h ei m p o r t a n tp a r to f b i o i n f o r m a f i c s i nt h i sp a p e r , t h em a i nw o r ki sa b o u tf d o da n di t sa p p l i c a t i o nt ob i o l o g i c e v o l u t i o n , i t i ss u m m a r i z e da sf o l l o w s : 1 m u l t i p l es e q u e n c ec o m p a r i s o n i sab a s i c p r o b l e m f o rm o l e c u l a r b i o l o g y i nt h i sp a p e r , a n e wi n f o r m a l i o nt h e o r ym e t h o d , w h i c hi sn o t e db yf i x ) d , i su s e dt oi n f e rt h ep h y l o g e n yo f s a r sa n dt h r e ek n o w nc o m n a v i r a lg r o u p sb a s e do nf o u rd i f f e m 目a tp r o t e i ns e q u e n c e s t h e p h y l o g e n e t i ct r e ea g r e e sw i t ht h ee x i s t i n gb i o l o g i c a la n a l y s i s f d o do n l yd e p e n d so nt h e o r i g i l l ;a li n f o r m a t i o na b o u ts e q u e n c e s ,n oo t h e rs u b j e c t i v ef a c t o r sa l ei n v o l v e d f u r t h e r m o r e ,t h e 弘o c e s so fc o m p u t a t i o ni ss i m p l ea n dq u i c k t h er e s u l ts h o w st h a tt h ef d o da p p r o a c hi sa u s e f u lt o o ii ns t u d i e so f m o l e c u l a re v o l u t i o n 2 w i t ht h ea c c o m p l i s h m e n to f m o r ea n dm o r em i c r o b i a lg e n o m e s e q u e n c i n g ,p e o p l eh a v e b e g u n t os t u d y p h y l o g e n e t i c so n t h es t a n d a r do f w h o l e g e n o m e i n t h i sp a p e r , f d o dm e t h o di s u s e dt oi n f e rt h ep h y l o g e n yo fw h o l ep r o t e o m em i c r o b i a lo r g a n i s m s 皿ep h y l o g e n e t i ct r e e i n c l u d i n g 1 4 5b a c t e r i a , 1 8a r c h a e a , a n d5e u k a r y a , a g r e e sw i t ht h e b e r g e y sm a n u a lo f s y s t e m a t i cb a c t e r i o l o g y i nam a j o r i t yo f l o w e r t a x a i na d d i t i o n , w eg i v es o m e s u g g e s t i o n so n h i g h e r t a x a 3 a l i g n m e n t - f r e em e t h o d s 舶w i t h l e s si n f l u e n c e o f c o m p u t a t i o n a l a m o u n ta n d s u b j e c t i v e f a c t o r sc o m p a r e dw i t ha l i g n m e n tm e t h o d s i nt h i sp a p e r , a l i g n m e n t - f r e em e t h o d sa r cu s e di nt h e s t u d yo f p h y l o g e n e f i ca n a l y s i so f m i t o c h o n d r i o nc o m p l e t eg c n o m eo f m a m m a l i a n t h er e s u l t s h o w st h a ti ti sm o r ec o n s i s t e n tw i t ht h et r a d i t i o n a lt a x o n o m y b y t h eu s eo f f d o d i n a d d i t i o n , w ef i n dt h a tf d o dd ob e t t e rt h a no t h e r a l i g n m e n t - f r e em e t h o d s t ou n i t em e m b e r so ft h es a m e o r d e ri n t oo n eo rf e wb r a n c h e s k e yw o r d s :b i o l o g i ce v o l u t i o n ;m o l e c u l a r e v o l u t i o n ;f d o d ;p h y l o g e n y ;p h y l o g e n e t i c t r e e 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:丛i 交日期:竺竺! 量:弓 人连理工大学硕士学位论文 引言 传统的生物分类是基于生物表型特征的比较分析,表型是基因型与环境相互作用的 产物,基因型相同的个体在不同环境条件下发育,可能出现显著的表型差异,给分类和 谱系分析带来很多困难和不确定性。自二十世纪中叶,随着分子生物学的不断发展,进 化论的研究进入了分子进化研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理 论方法。通过比较不同物种基因组中d n a 或氨基酸序列的异同来研究生物的进化,称为 分子进化,是当前生物信息学中的热门课题之一 1 。 分子特征用于系统学研究有很大优越性,因生物界不同类群形态学进化速率差异虽 然很大,但分子进化速率相对地恒定。分子进化研究的任务就是从生物大分子的信息推 断生物进化历史,并以进化树的形式表示出来,为分类学家研究不同生物体间的谱系关 系提供依据( 2 。 本文第一章介绍了与生物进化研究相关的背景及其意义;第二章讲述了生物进化的 若干基本知识:第三章介绍了分子系统学和分子进化树的相关知识;第四章描述了信息 离散性度量方法及其性质;第五章将信息离散性度量方法应用于s a r s 病毒的研究中, 得出的系统发育树与现有的生物分析基本一致;第六章将信息离散性度量方法应用于微 生物全蛋白质组的系统发育分析,所得进化树大部分低层分支与伯杰氏系统细菌学手 册相一致,并且对高层分支关系给出了一些新的建议:第七章将信息离散性度量方法 等几种非比对方法用于9 4 种哺乳动物线粒体全基因组的系统发育分析研究中,从结果 可看出,f o o d 方法得到的结果与传统的分类学最为致,在对哺乳动物纲各个目的整 合能力上普遍优于其他几种方法。其中第五章、第六章和第七章是本论文的主要工作。 信息离散性度量方法及其在生物进化中的应用 1 绪论 1 1 背景 1 1 1 人类基因组计划 基因是编码某种特定多肽链、t r n a 、r r n a 的d n a 区域,是d n a 上的功能单 位。基因组( g e n o m e ) 是一种生物体或个体细胞所具有的一套完整的基因及其调控序 列。人类基因组由3 0 亿对碱基组成,原来估计含8 万一l o 万个基因,但基因组与基因 的关系,就像整体往往不是部分的简单加成一样,真核基因组d n a 总是大大超过编码 基因的含量,且同一进化等级物种间基因组含量可差1 0 0 倍之多。人们对基因组的了解 和认识还很贫乏,人类基因组计划( h g p ) 的目的就是在于确定人类d n a 的总体结 构,并弄清其中各种基因的结构、功能、位置、相互关系,从整体上认识遗传信息的组 成及其调控方式,促进生命科学和医学的发展。几千种遗传病包括癌症、心血管病和其 他遗传易感性多因予疾病可能由此得到预测、预防和早期诊断的办法。 1 9 8 6 年,美国d u l b e c c o 提出人类基因组研究计划【3 】,1 9 8 7 年美国国会通过了此计 划,并委托n i h 和d o e 协调此计划的实施。美国国会把此研究计划的战略地位与曼哈 顿原子弹研究计划和阿波罗登月计划相提并论。1 9 9 0 年美国政府拨款1 6 2 亿美元组织 启动,从1 9 9 1 年起平均每年拨2 亿美元,计划用1 5 年时间测出人类基因组全部核苷酸 序列,花费3 0 亿美元。此外,美国科学基金会、农业部和私人机构纷纷提供资助。随 后英、法、德、意、丹麦也出巨资支持。不久日本、原苏联、印度陆续成立相应机构, 互相沟通,从此人类基因组计划发展成国际合作的巨大工程。我国于1 9 9 9 年争取到了 人类基因组计划的国际合作任务,即3 号染色体上的一小片断,约占总体1 。 由于各个国家的积极参与和共同协作,人类基因组计划进展迅速,2 0 0 0 年6 月2 6 日完成了工作草图,2 0 0 1 年上半年人类基因组测序任务基本完成,2 0 0 3 年4 月1 6 曰, 美、中、法、英、德六国联合宣布:除了现有技术无法解决的部分( 约占基因组的 0 0 1 ) 外,人类基因组计划测序任务全部完成。从此人类基因组计划进入了后基因组 时代,开始通过对基因组的分析来了解生物系统的功能。 1 1 2 生物信息学 生物信息学( b i o i n f o r m a t i e s ) 是在原计算生物学( c o m p u t a t i o nb i o l o g y ) 基础上发展 起来的一门生命科学的分支学科【3 】。它是生物学、数学、计算机科学、物理、化学等多 2 大连理工犬学硕士学位论文 学科交叉结合的产物。1 9 9 5 年4 月,美国国立卫生研究院( n i h ) 发表了1 篇报告,题 目为:美国人类基因组计划,第一个五年( 1 9 9 1 - - 1 9 9 5 ) 。这篇报告对生物信息学作了 以下定义:生物信息学是包含了生物信息的获取、处理、存储、分发、分析和解释的所 有方面的- - r 学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的 在于了解大量数据的生物学意义 1 】。 生物信息学的产生除了有学科本身发展的原因外,更重要的是近十年来人类基因组 计划快速发展的推动。美国n a t i o n a lc e n t e rf o rg e n o m i cr e s e a r c h1 9 9 4 年分析和贮存了 2 1 0 8 核苷酸序列信息,至1 9 9 7 年已增至1 0 1 0 9 ,欧洲生物信息研究所( e b i ) 建库时 也仅有7 1 0 5 核苷酸序列,至1 9 9 7 年已达到1 2 1 0 9 ,现在基因库中的数据增长正在加 速。人类基因组计划最终要求每天完成7 旷吨o 个新基因的测序并确定它的功能,若不 结合计算机技术和数学算法确实难以想象。而且近年来基因组序列分析己进入商业化, 国外大型制药公司采用了生物信息学技术筛选新药,社会生产的要求更促进了生物信息 学的产生和发展【3 】。 生物信息学作为- f l 新的学科领域,它是把基因组d n a 序列信息分析作为源头, 在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白 质的功能进行必要的药物设计。因此在基因组研究时代,基因组信息学、蛋白质的结构 模拟以及药物设计必然有机地连接在一起,它们是生物信息学的三个重要组成部分。 当前,生物信息学的重要研究任务有以下几个方面 4 】: ( 1 ) 基因组相关信息的收集、储存、管理与提供: ( 2 ) 新基因的发现与鉴定; ( 3 ) 非编码区信息结构分析; ( 4 ) 生物进化的研究: ( 5 ) 完整基因组的比较研究; ( 6 ) 基因组信息分析的方法研究: ( 7 ) 大规模基因功能表达谱的分析; ( 8 ) 蛋白质分子空间结构的预测、模拟和分子设计; ( 9 )药物设计; ( 1 0 ) 应用与发展研究。 3 一 信息离散性度量方法及其在生物进化中的应_ l _ f j l _ 2 生物进化研究的意义 自18 5 9 年d a r w i n 的物种起源( o r i g i no fs p e c i e s ) 发表以来,进化是对自然科学和自 然哲学发展的最重大贡献之一。“进化论是生物学中最大的统一理论”。生命科学各个层 次的研究以及各分支学科体系的建立无不以生物进化的理论为其指导思想,而生物进化 的理论也随着生命科学各学科的发展而不断地得到补充和深入。现代的进化论已不仅仅 是种思想理论,对生物进化的研究已成为个专门的学科领域,即研究生物进化的历 史过程、进化的原因、进化机制、迸化速率、进化趋向、物种的形成和灭绝、系统发生 以及适应的起源等内容的进化生物学,它的基本理论就是进化论【2 ,5 】。 自本世纪中叶以来随着分子生物学的不断发展,进化论的研究进入了分子水平, 并建立了一套依赖于核酸、蛋白质序列信息的理论方法。分子特征用于系统学研究有很 大优越性,因生物界不同类群形态学进化速率差异虽然很大,但分子迸化速率相对地恒 定。分子进化研究的任务就是从生物大分子的信息推断生物进化历史,并以进化树的形 式表示出来,为分类学家研究不同。物体间的谱系关系提供依据,尤其是病毒来源的调 查和研究将对病毒的变异、病毒的特性、在人群中的流行规律、早期诊断方法的建立, 以及防治病毒药物的筛选和疫苗的研制提供科学依据,因而在分子水平上研究生物进化 的意义十分重大。 1 3 本文的主要工作 多序列比较是分子生物学中的个基本问题,然而现有的基于序列比对的方法要求 使用者设定参数、罚分、插入空位以使序列长度相等【6 ,7 】,这就不可避免地引入了主观 因素,破坏数据的原始状态,导致不同的使用者会得到不同的计算结果,且复杂度随序 列数目或长度的增长呈指数增长。而新的信息离散性度量方法- f d o d ( f u n c t i o no f d e g r e eo fd i s a g r e e m e n t ) 方法【8 , 9 1 只依赖于序列的原始信息,并不涉及任何主观因素,它 能度量相似度很高的序列,对序列中个别基因的变异、插入或删除均能有效度量。 f d o d 方法的计算复杂度随序列规模的增加而呈线性增长,这一优点使其还适于处理大 规模的氨基酸数据。 本文将f d o d 方法应用于生物进化领域,做了如下工作: 1 严重急性呼吸道综合症( s e v e r ea c u t er e s p i r a t o r ys y n d r o m e ,简称s a r s ) 是世界卫 生组织( w h o ) 于2 0 0 3 年3 月1 5 日新公布的名称,国内通称为非典型肺炎。经过许多国 家科研人员的共同努力,现在己初步认定s a r s 的病原体是一种冠状病毒 4 大连理工大学硕士学位论文 ( c o r o n a v i r u s e s ) ,但它是否是某种已知冠状病毒的近期变种,或是一种崭新的冠状病 毒现在还有争议。f d o d 方法是信息论中的一种方法,本文运用此方法研究s a r s 病毒 和各种已知的冠状病毒,并对它们进行进化分析,结果表明,s a r s 病毒与其它三类已 知的冠状病毒在蛋白质的氨基酸残基序列上存在较大差异,这与美国和加拿大的研究人 员在美国科学杂志5 月3 0 日刊登的两份s a r s 病毒基因组序列研究论文的结论基 本一致 1 0 , 11 1 ,进一步证实了s a r s 病毒是一种崭新的冠状病毒,而非某种已知冠状病 毒的近期变种,也显示了f d o d 方法用于分子进化研究是有效的。 2 。原核生物的系统分类因缺乏形态学特征,而成为微生物学中的一大挑战f 1 2 1 。 随着越来越多的微生物全基因组测序的完成,人们开始在整个基因组的水平上研究物种 的系统发育关系【1 3 】。本文运用f d o d 方法,对收集到的1 6 3 个原核生物和5 个真核生 物从完全蛋白质组出发推断其系统发育关系,所得系统发育树划分出了生命领域的三大 主干,这与三界进化理论相一致,并且大部分低层分支与伯杰氏系统细菌学手册 【1 4 】相一致,并对高层分支进化关系给出了一些建议。f d o d 方法最突出的特点之一就 是不带有主观因素,因而能比较客观的反应生物序硼间的关系,它作为一种新的推断系 统发育关系的方法,将会为传统的基于s s r r n a 的,饺生物分类结果提供有价值的参考。 3 在系统发育分析等分子生物学的研究中,传统上要用到基于多序列比对的方 法,然而这类方法有一定的局限性。新的研究系统发育问题的方法非比对方法,可 以克服基于序列比对方法在计算规模和主观因素等方面的局限性以及由于基因重组导致 的比对失效。本文将几种非比对方法用于9 4 种哺乳动物线粒体全基因组的系统发育分 析研究中,从结果可看出,非比对方法中的f d o d 方法得到的结果与传统的分类学最 为一致,在对哺乳动物纲各个目的整合能力上普遍优于其他几种方法。 5 信息离散性度量方法及其在生物进化中的应h ;l 2 1 生物进化的基本概念 生物进化是一个特殊现象,生物进化是通过传代( 遗传) 过程中的变化而实现,生 物进化导致适应;菲生物的物质系统不存在传代,也不存在适应。要给生物进化一个合 适的定义是困难的,因为学者们关于生物进化的观点各异。把遗传学家g l s t e b b i n s 的 生物进化定义略加修正,可表述如下:生物进化是生物与其生存环境相互作用过程中 其遗传系统随时间而发生一系列不可逆的改变,并导致相应的表型的改变。在大多数情 况下,这种改变导致生物总体对其生存环境的相对适应( 2 j 。 2 2 进化论历史发展过程 地球上的生命是如何产生的? 光怪陆离、千姿百态的生物来自何方? 在人类认识史 上存在唯心主义和唯物主义两种截然相反的理论。统治欧洲中世纪达数百年的神创论 ( 特创论) 认为,世间万物,包括人在内,都是上帝仅用6 天的时间创造出来的。进化 论作为神创论的对立面而产生,并最终战胜和替代后者。以下将简述近2 0 0 年来有关生 物进化的几种重要学说 2 ,1 5 】。 2 2 1 早期进化论 法国博物学家兼作家布丰可以说是敢于提出生物物种可变的第一人。他极力倡导生 物“转变论”,提出“生物的变异基于环境的影响”的原理,第一次提出现代动物起源 于原始动物的观点。他的上述提法在反对当时居统治地位的“物种不变论”和“神创 论”斗争中发挥了一定的积极作用。 拉马克是另一位著名的法国博物学家,科学进化论的创始人。后人将他的看法归纳 成“用进废退”和“获得性遗传”两条法则。“进化树”这个名词也是拉马克首创并沿 用至今。但他的这两条法则存在个明显的缺陷。即亲代生物发展,获得的更为有效、 完善( 或衰退、低下) 的功能是通过何种物质载体,以哪种( 些) 途径传给子代的? 拉 马克本人回避了这个本质问题。这是一个颇有争议的学术观点,现代拉马克主义者正在 这个领域进行一番探索。 英国博物学家华莱士年轻时以采集生物标本为生,足迹远及南美及马来群岛。他根 据丰富的第一手材料,终于在1 8 5 8 年6 月独立提出了生物受环境的选择压力不断发生 变化的进化学说,并将他的主要观点写成论文“论变种无限偏离原始类型的倾向”。不 6 大连理工大学硕士学位论文 过华莱士对人类竞进化成如此高等复杂的形式深感困惑,错误地认为必有超自然的力 量进行了干预,从而为上帝创造人类的神话留下了空间。 2 2 2 达尔文进化论 达尔文在他的物种起源中,一方面引举大量现存的或化石的物神及个体作证 据:另一方面他并不停留在证据本身,而是更深入一步,提出假说,试图解释这些现象 之间的内在联系,从理论上加以提高。达尔文的生物进化论主要包括以下五方面: ( 1 ) 生物具有共同的祖先。虽然经历亿万年的曲折演变,形成千姿百态、光怪陆离的 生物大干世界,但应该承认生物具有共同的祖先。( 2 ) 生物总是不断地发生变异,这 些变异有的很明显,一眼可见;有的变异十分微小,人类不易察觉。此外,变异对于生 物本身可以是有利的,也可能是中性的,甚至是有害的:有些变异能遗传,但有些变异 仅限于在当代表现。( 3 ) 自然界是一个最公正的裁判,它无时无刻都在以其犀利的目 光审视生物的各种变异。能与自然界相适应的变异被保留了下来,与自然界相悖的变异 则渐渐被淘汰。久而久之,生物经代代相传,必然与自然相适应。( 4 ) 生物普遍具有 十分强大的生殖能力,这是自然选择的功能性产物。植物需要阳光和土地,动物离不开 食物。过多的生物之间必然要展开激烈的生存竞争。由于同种生物对生存的要求基本相 同,因此种内竞争异常激烈。( 5 ) 由于各种变异的积累,同种生物间逐渐有所不同, 随着时光的流逝最终导致新物种的产生。但只有在中间物种灭亡之后,新物种才能真正 从原始物种中脱颖而出。 由于时代的局限以及科学家个人视角难以避免的缺陷,现在看来,达尔文进化论也 存在显而易见的不足,主要表现在: ( 1 ) 虽然各种生物潜在的繁殖能力很强,但它们 产生的子代中有不少却由于严酷的自然竞争未能活到成年。因此生物普遍生殖过剩的提 法不能成立。( 2 ) 生物从原始物种一步步演化成其他物种,这其中许多“中间环节” 的过渡型生物,作为一个个独立的物种,依然在自然界中占据一定的生态位,在一定历 史时期内顽强地生存着。新物种的产生要经过隔离的阶段,而非中间物种的灭亡。 ( 3 ) 达尔文坦言,他对遗传学的实质知之甚少,因此达尔文进化论未能从遗传学的角 度进行必要的论述( 这项工作6 年后才由孟德尔取得重大突破) 。 2 2 - 3 综合进化论 虽然达尔文进化论的基本原理今天仍然被大多数科学家所接受,但是随着各学科, 特别是物理和化学学科与生物学科的紧密交叉与深入发展,使生命科学的发展进入了实 验生物学与分子生物学阶段。在无数日新月异的科学发现面前。科学家们对达尔文进化 7 一 信息离敞性度量方法及其在生物进化中的应j j 论的内涵进行实质性的修正、补充和提高。2 0 世纪三、四十年代,美国遗传学家杜布 赞斯基发展了达尔文主义,提出了综合进化论,亦称现代达尔文主义。这个学说认为, 基因突变、基因重组、各个阶段的隔离以及自然选择,是推动生物进化的主要因素。现 代综合进化论继承了达尔文进化论的精华和主要内容,同时用现代生命科学的新发现、 新成就对它进行补充和提高,从丽提高了达尔文进化模式对生物进化现象的解释能力, 它在生物小进化的范围内成功地解释了通过环境选择、性选择、种群迁移、区域隔离等 过程实现生物的性状改变和新物种的形成,促进了对生物进化论的深入研究,但它没有 揭示基因的物质结构,以及基因突变在分子水平上的进化现象及其规律。 2 2 4 中性进化学说 1 9 6 8 年,日本遗传学家木村资生在( ( n a t u r e ) ) 杂志上发表了论分子水平上的进化 速率的评述,提出了生物进化在分子水平上的“中性理论”。中性进化学说的主要内容 是:( 1 ) 分子进化速率恒定;( 2 ) 功能较不重要的分子的进化速度比功能上重要的分 子进化速度快;( 3 ) 氨基酸发生了置换而不改变蛋白质的功能,如以组成细胞色素c 的氨基酸为例,人和猕猴相差1 个,人和马相差1 2 个,可它在不同生物中的功能是一 样的;( 4 ) 非功能性d n a 的突变不会改变细胞里合成的蛋白质分子。这就是说,在分 子水平,存在中性基因突变,它对生物个体存在既无益处,也无害处,不受自然选择支 配,而是通过遗传漂变发生进化的。所谓遗传漂变就是中性突变基因在群体里传播,自 由结合,自生自灭。 中性进化学说揭示了分子进化规律,这是它的重要贡献。但它把中性突变绝对化, 生物演变偶然化,认为生物进化是一些无规律可循的纯属偶然的中性突变积累及迭加的 结果,这具有主观臆断与片面性。今天,中性论者承认自然选择在表型进化中的作用, 但否认自然选择在分子进化中的作用。 2 3 分子进化的基本棚念 分子进化一词有两层含义。从生命历史看,在前生命的化学进化阶段( 细胞生命出 现之前) ,进化主要表现在分子层次上,郎表现在生物分子的起源和进化上。换言之, 从时序上说,分子进化是生物进化的初始阶段。但从另一角度来看,在细胞生命出现之 后,进化发生在生物分子、细胞、组织、器官、生物个体、种群等各个组织层次上,分 子进化是生物分子层次上的进化。换言之,从组织层次上说,分子进化是生物组织的基 8 大连理工大学硕士学位论文 础层次的进化。通常所说的分子进化是指后者。前者通常被称为前生命的化学( 分子) 进化。 - 9 信息离散性度量方法及其在生物进化中的应用 3 分子系统学和分子进化树 3 1 原理和概念 传统的生物分类和谱系树( 反映系统发生的树状谱系图) 的建立是基于生物表型特 征的比较分析,这里所谓的表型特征主要指形态学的( 结构的) 特征,也包括某些生理 的、生化的以及行为习性的特征。表型是基因型与环境相互作用的产物,基因型相同的 个体在不同环境条件下发育,可能出现显著的表型差异,给分类和谱系分析带来很多困 难和不确定性。而分子特征用于系统学研究有很大优越性,因生物界不同类群形态学进 化速率差异很大,但分子进化速率相对地恒定。从生物大分子的信息推断生物进化历 史,或者说“重塑”系统发生( 谱系) 关系,并以进化树的形式表示出来,这就是分子 系统学的任务 2 】。 基于表型信息的系统学是追溯表型特征随时间而改变的历史过程。而分子系统学是 追溯生物大分子的进化历史,即追溯某一基因组线系在其进化历史中所有的突变固定事 件的积累过程。某一基因组线系包含了进化过程中顺序发生的突变固定事件的信息。由 于古生物化石几乎没有留下有意义的古生物大分子信息,我们只能从现存着的物种的生 物大分子获得信息,并据此推断大分子进化史,建立进化树。由现代生存的物种的大分 子获得的涉及其进化历史的信息是不完全的,因而所推断出来的进化树具有一定程度的 不确定性和假设性。常常从同一组数据推断出若干不同的进化树,因而分子系统学涉及 方法选择问题和如何从一系列可能的进化树中选择“最合适的”或“最可信的”树的问 题。 假如生物大分子进化速率是相对匣定的,那麽大分子进化改变的量只和大分子进化 所经历的时间呈正相关。换句话说,大分予的进化改变量是进化时间的函数,因而可作 为衡量不同进化单位( 例如物种) 之间亲缘关系的指标。如果我们将不同种类生物的同 源大分子的一级结构作比较( 假定这些大分子的结构顺序己知) ,其差异量( 氨基酸或 核昔酸替换数) 只和所比较的生物由共同祖先分异以后所经历的独立进化的时间呈正 比。用这个差异量来确定所比较的生物种类在进化中的地位,并由此建立进化树,称为 分子进化树。因此,可以这样说,建立分子进化树的理论前提是生物大分子进化速率相 对恒定。 下面简要说明一些关于进化树的概念和专用术语。 1 0 大连理工大学硕士学位论文 ( 1 ) 大多数系统学方法推断的进化树是无根树,或称无根谱系。所谓“无根”, 是指树系中代表时间上最早的部位( 最早的共同祖先) 不能确定。 ( 2 ) 树系的末端代表现代生存的物种,称为顶结,也称外结或顶端。 ( 3 ) 树内的分支点叫内结。 ( 4 ) 两结之间的连接部分称为分枝或枝,也可称之为节或连接。 ( 5 ) 达到并终止于顶结的枝叫周枝,未达到顶结的其他的枝叫做内枝。 ( 6 ) 在一个无根的双分叉( 每个内结有3 个分枝) 的树系中,假如项结数目为 n ,那麽内结数目为n - 2 ,分枝( 节) 的数目为2 n 3 ( 其中内枝数目为n - 3 ,周枝数目为 n ) 。从n 个物种( 顶结) 可以推断出无根树系的数目t ( n ) 为黔丌( 2 f 一5 ) ,其中i 矗亍 为内结的分枝数目。上述术语图解见图3 1 。 图3 1 系统树名词术语图解 f 喀3 1t h ei n t e r p r e t a t i o no f p h y l o g e n e t i c t r e e 3 2 构建分子进化树的方法 构建分子进化树的方法中涉及两个步骤:第一步是获得分析对象( 现生物种同源的 大分子) 的特征数据,并采用一定的统计学方法从这些数据分析中得到若干可供选择的 树系;第二步是根据“最合适性”定义的标准,给所获得的树系以相对客观的评价,这 种评价最好是能数值化,能够定量地比较,便于判断。通俗点说,前一步骤是造 “树”,后一步骤是寻找“最好的树”,即从若干可能的树系中找出最合适的。 信息离散性度量方法及其在生物进化中的应月j 下面是具体方法的简述。 3 2 1 大分子特征数据的获得 用于系统分析的生物大分子的特征包含两类:具体的特征和比较特征。 具体特征是指在表型特征分析中,某一个物种有两种或多种可能状态的某一类特 征。例如,毛色特征可能有白色与黑色两种特征状态,或者有白色、灰色、黑色等多种 状态。对于大分子而言,用于系统分析的具体特征就是大分子序列( 一级结构) ,不同 物种的同源大分子的同源位点就构成一类特征,每一个位点有多种可能的特征状态,对 于d n a 或r n a 来说每个位点有4 种可能的特征状态( 对应于4 种碱基) 。例如,某 一物种的1 8 sr r n a 序列的第1 3 0 位点为g ,位点1 3 0 是一类特征,g 是一种特征状 态。因此,首先要获得每一个分析对象的每类特征的数据,构成一个数据矩阵,它是 由数据5 组成,i 指物种,j 指特征类别,x 就是具体特征状态。要获得分析对象的特征 数据首先要做分子生物学的工作,如大分子的提取、纯化、扩增、测序等。 3 2 2 排序 获得具体的特征数据之前还要确定同源大分子相对应的位点,系统分析的前提是: 不仅分析对象( 大分子) 是同源的,而且所比较的大分子的位点也是同源的,即分析对 象的某一个位点必须能确定可以追溯到共同祖先的同一位点。 这就需要将所比较的大分子序列的对应位点一一确定,并顺序排列,这就是排序。 大分子上的高度保守的序列比较容易排序,而且在操作时大分子上的保守区常常作为排 序中的参考标志。非保守序列的排序比较难,有时所比较的序列差异太大,排序时几乎 无从下手。如果碰到这样的情况,这段序列最好放弃了。 排序可以手工进行,也可以用计算机进行。首先将所要比较的所有的大分子序列作 一个概略的比较,找出它们完全相同的部分( 保守区) ,并以此作为标记,确定同源位 点( 为了确定同源位点还要参考大分子的次级结构) 。然后将所比较的各序列的同源位 点上下对好,就可以一个位点个位点地比较。在比较时可能出现三种情况:( 1 ) 两 个比较的位点为相同的单元( 相同的碱基或相同的氨基酸) ,叫做匹配;( 2 ) 两个比 较的位点为不同的单元,叫做不匹配;( 3 ) 所比较的位点上有一方是空缺,叫做空隙 或断沟。对于核酸分子而言,不匹配意味着发生了碱基替换,空隙则可能是由于碱基丢 失或插入而造成。在序列比较时对于不匹配和空隙应有适当的加权。例如,假定给匹配 1 2 大连理1 二大学硕士学位论文 以正值( 十1 ) ,给不匹配以零值,则给空隙以适当的负值。处理匹配、不匹配和空隙的 方法,不同的学者有所不同。 如果要比较两个以上的序列,可以一对一地比较。将所有的序列成对地比较之后, 选择最接近的( 差异最小的) 一对中的一个序列作为参考序列,然后将其余的序列按照 与参考序列的远近依次排列比较。例如比较下面三个序列: s 1a g a c c t a g t s 2a g a c t a g t s 3a g a a c c t a g t 先比较s 1 和s 2 : s 1a g a c c l a g 五 s 2a g a c t a g t 再比较s 1 和s 3 : s la g a - - c ( 玎a g t s 3a g a a c c t a g t 三者合在起比较,以s 3 为参考序列: s 3a g a a c c t a g t s 1a g a - c c t a g t s 2a g a 一- - c t a g t 在最后一轮的比较中,s 1 和s 2 都出现了空隙。 3 2 3 比较特征:相似性和距离数据 相似性和距离,即所谓的比较特征,是评价一对分子序列之间关系的特征值。它们 是通过序列排比和计算而获得的,通过适当的转换而成为构建进化树的数据基础。 相似性与同源性为同义词,但同源性一词暗指来自共同祖先的相似性。而大分子一 级结构的局部相同( 例如在某一同源位点上匹配) 难以确定它是来自共同祖先或是多次 突变替换的结果。相似性数值通常取l 到0 ( 或1 0 0 至0o ) 之间的数值。与相似性相对 的是相异性或不似性,取0 到1 ( 或0 到1 0 0 ) 之间的数值。设s 为相似性值,d s 为 相异性,则有d s = l s ,距离数值从零到无限大。完全相同的一对序列之间的距离为0 , 但最大的距离值似乎无限。有的人把距离等同于相异性。 相似性的计算通常要考虑如下几个数值: 不匹配的位点数;m 序列位点总数: - 1 3 m 匹配( 相同) 的位点数目;虬 s 空隙数。 信息离散性度量方法及其在生物进化中的应用 最简单的计算是:s = :1 0 0 ,但排序中出现的空隙是不能不考虑的,而且同 v 义替换与变异替换也应当有所区分地对待,此外还要考虑序列末端长度的变化等。如何 处理排序中出现的空隙是很重要的。序列中的空隙区可能是插入、丢失造成,甚至可能 有重复的插入和丢失。一对序列如果除空隙外其他所有位点都相同,也绝非1 0 0 地相 似。 常用的计算相似性的公式是拈瓦耐毫瓦其k 为空隙的加权值。 常用的计算相异性的公式是搬= 一丢i n 【l - j 4 ( 丙 ) 1 一等】+ 等,其中t 代 l v+ f vf, 表匹配、不匹配和空隙的总和,即t = n 。+ 帆+ 。上式中的第一项是位点替换数的 估量,包含对多重突变的校正;第二项是对插入和丢失的估量,即对空隙的估量。 获得相似性或相异性数据,并列出数据矩阵后,就可进行下一步的树系构建。将大 分子序列的具体特征转换为比较特征( 即相似性或距离) 是必要的,不如此就不能进行 系统分析。但这种转换也可能丢失信息,甚至丢失重要信息。大分子上的某一区域可能 在进化过程中发生多次突变,包括回复突变,后来的突变可能使先前的突变结果全部或 部分消除。 3 2 4 进化树的构建 根据相似性和距离数据构建分子进化树系的方法很多,最大简约法是现在最广泛应 用的。按简约性原则( 在所有可能的谱系关系中,所涉及的进化改变事件数目最少的谱 系是最可信的) 构建树系时,要使解释特征数据所需要的附加的假设越少越好,例如构 建树系时所依据的不同物种的共有特征应是来自共同祖先( 同源) ,如果特征与此冲 突,就需要附加的假设,即假设存在趋同或平行进化等造成了非同源相似性。简约性原 则要求尽量避免或减少这样的假设。按简约性原理,只有共同衍征所造成的相似性才有 系统分析价值。因此,在分子系统学分析时,并非序列中的所有位点都有系统分析价 值,至少有两种生物的大分子序列在所比较的位点上具有在进化中获得的相同核昔酸 ( 或氨基酸) ,这样的位点才有系统分析价值。通过分析,在树系的每个分支结点( 内 结) 上推断出祖先序列。最后构建出树系。根据一定的特征数据构建树系时要选择树长 最短的,进化步骤( 从一个特征状态转变为另一个特征状态) 最少的。 1 4 大连理工大学硕士学位论文 3 r 2 5 进化树评估 即使有可靠的特征数据和适当的方法也有可能得出不大可靠的树系,因此对所获得 的分子树系要做统计学检验,评价其可信程度 1 6 】。 目前常用的检验方法是自展法( b o o t s t r a pm e t h o d ) 和折刀法( j a c k l m 旋m e t h o d ) 。 两种方法原理相同,即通过重复取样来观察结果的重复性。两种方法不同之处在于取样 的具体操作上。自展法是原有数据中的性状进行复置重复抽样,折刀法的取样是不复置 取样。自展法最初是由f e l s e n s t e i n ( 1 9 8 5 ) 提出,并应用于树系置信限的分析。分析方法 是这样的:对所比较序列上的替换位点作多次随机取样,用多次抽样产生的新数据构建 系统树,每一个内部分支出现的次数可以表示该分支的可靠程度。例如,若某一分支在 1 0 0 个系统树中出现9 0 次,则该分支的可靠程度为9 0 ,这个数值越高,则该分支越 可靠。 3 3 分子进化与系统发育分析软件 表3 1 列出了常用的分子进化与系统发育分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 芝华士销售合同(标准版)
- 变更公证合同(标准版)
- 性与健康教程试卷及答案
- 2025年高考物理力学试卷及答案
- 2025年不锈钢、镍纤维及纤维毡项目规划申请报告
- 安全用气培训计划课件
- 法院网络安全培训内容课件
- 脱硫阀门检修试卷及答案
- 法的正义价值课件
- 法的基本知识课件
- 甲状腺课件类型
- 单招备考科学方案
- 2025年秋新人教版数学三年级上册全册教学课件
- 医美咨询培训课件
- NoSQL数据库应用与实践 课件 第1-6章 认识NoSQL - 增删改查
- DB37-T4868-2025 既有公路隧道结构健康监测技术规范
- 供应链金融视角下涉农中小企业信用风险评估研究
- 宁夏差旅费管理办法文件
- DB51∕T 3231-2024 公路隧道岩爆防控技术规程
- 新高考考试命题培训心得体会
- 2023CSCO头颈部肿瘤诊疗指南
评论
0/150
提交评论