分子进化与系统发育分析.doc

上传人：g*** IP属地：河南上传时间：2020-04-18 格式：DOC 页数：7 大小：50KB 积分：15 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

系统发育学研究的是进化关系，系统发育分析就根据同源性状的分歧来推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图(进化树) 来描述，这个进化树描述了分子(基因树)、物种以及二者之间遗传关系的谱系。由于“Glade”这个词(拥有共同祖先的同一谱系)在西腊文中的本意是分支，所以系统发育学有时被称为遗传分类学(cladistics) 。在现代系统发育研究中，重点己不再是生物的形态学特征或其他特征，而是生物大分子尤其是序列，对序列的系统发育分析又称为分子系统学或分子系统发育研究。它的发展得益于大量序列的测定和分析程序的完善。比起许多其他实验性学科，分子系统学与其他进化研究一样有其局限，即系统发育的发生过程都是己经完成的历史，只能在拥有大量序列信息的基础上去推断过去曾经发生过什么，而不能再现。由于系统发育分析不太可能拥有实验基础，至多是些模拟实验或者病毒实验:如何处理序列从中得到有用信息、如何用计算的办法得到可信的系统树、如何从有限的数据得到进化模式成为这个领域的研究热点。1进化树构建构建进化树的方法包括两种:一类是基于序列类似性比较，主要是基于氨基酸/核酸相对突变率矩阵计算不同序列差异性积分作为它们的差异性量度而构建的进化树；另一类是在难以通过序列比较构建进化树的情况下，通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立的进化树。2评估进化树和数据现在己经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者，最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验):对于后者，可以对观察到的数据重新取样，进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。本文只阐述几个常用的方法：偏斜实验(Skewness Test)：统计的临界值随着分类群数口的不同和序列中点的不同而不同，对随机数据集呈现的信号很敏感，可以用来决定系统发育信号是否保留着。排列实验(PTP, permutation tail probability)：对MP树的分值和那些通过对每一个位点都进行大量排列组合而得到的数据所推算出来的进化树的分值进行比较，从而决定在原始数据中是否存在系统发育信号。自引导评估(bootstrap )： Bootstrap是由Felsenstein （1985）引入分子分类领域的，现己成为分析分子树置信区间最常用的方法。其原理是假定某序列Ao有N个位点，Bootstrap复制时从Ao中随机取 N个位点。Ao中的某些位点可能被随机遗漏，而某些位点则可能取到不仅一次，由此组成一个新序列A1。对一组数据复制n次，则可得到Ao衍生的n组数据。由此可构建n个分子树，根据“多数规则”( majority rule)从这n个分子树中统计得到一致树(consensus tree )，一致树中各分支结构在n个分子树中出现的比率便表示原始数据对该结构的支持率。可以对任何建树方法进行评估。模拟研究表明，在合适的条件下也就是各种替换速率基本相等，树枝基本对称的条件下，如果自引导数值大于70，那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95 % 。3 线性树(Linearized Tree)在进化中，虽然核酸或氨基酸的替代绝不会是严格恒定的，但是在估计序列间分歧时间方面，分子钟依然有用。当今我们对物种间的分歧时间或基因重复事件发生的时间仍知之甚少，因此为了理解进化过程，即便粗略地估计分歧时间也是十分重要的。排除比平均速率显著慢或快的谱系，并对剩余的谱系按分子钟假说构建进化树，就有可能估计不同谱系对间或不同序列对间粗略的分歧时间。按此途径构建的树称为线性树。线性树始终遵循分子钟假说。线性树的构建分如下几个步骤：（1）用无需速率恒定假说的构树法对一组序列构建可靠的树，并用外类群序列定出树根。（2）对所用序列检验速率恒定假说，并删除与平均速率有显著偏差的序列。 (3)用速率恒定假说对剩余的序列重建一棵系统树。（4）如果己知某一序列对的分歧时间和序列分歧度，则能标定进化时间。进化树的构建方法1 建立数据模型建立一个比对模型的基本步骤包括：选择合适的比对程序，然后从比对结果中提取系统发育的数据集，至于如何提取有效数据，取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的空位状态)。一个典型的比对过程包括：首先应用CLUSTALW程序及类似程序，进行多序列比对，最后提交给一个建树程序。这个过程有如下特征选项：部分依赖于计算机；需要一个先验的系统发育标准(即需要一个前导树);使用先验评估方法和动态评估方法对比对参数进行评估；对基本结构(序列)进行比对；应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。2 决定替代模型替代模型既影响比对，也影响建树。因此需要采用递归方法。对于核酸数据而言，可以通过替代模型中的两个要素进行计算机评估，但是对于氨基酸和密码子数据而言，没有什么评估方案，其中一个要素是碱基之间相互替代的模型。另外一个要素是序列中不同位点的所有替代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如，位点特异性或者系统特异性替代模型)进行评估，同样，现有的建树软件也不可能理解这些复杂变量。（1）碱基取代模型。一般而言，生物化学性质相近的碱基之间的取代频率较高。在DNA中，四种转换(AG，GA,CT,TC)的频率比颠换 (AC,AT,CG，GT)以及它们的反向取代的频率要高。这些偏向会影响两个序列之间的预计分歧。各残基之间的相对取代速率一般用矩阵形式给出：对碱基而言，行和列都是4，对于氨基酸，行和列都是20(如PAM矩阵)。对于密码子，行和列都是61(除去终止密码子)。矩阵中对角元素代表不同序列拥有相同碱基的代价，非对角线元素对应于一个碱基变为另一个碱基的相对代价。固定的代价矩阵就是典型的静态权重矩阵，MP法中使用的就是这种，如图5。又如在ML法中，代价值是山即时的速率矩阵得到，如图6，这个矩阵代表了各种取代可能会发生的概率的ML估计值。图6中，非对角线兀素a 代表一个变化的瞬时速率、不同取代之间的相对速率和目标碱基的频率。而对角线兀素是非零值，很有效说明了一种可能性，即序列之间的分歧度越大，越有可能在很偶然的情况下拥有相同的碱基。还有一种模型称为“时间可逆”，认为“前进”和“进化”的取代速率相同。任何一种“时间可逆”的核葺酸取代模型都可以用图2-5的矩阵来刻画，只用其中任何一个速率和其他任何速率的差异即可，在任意组合中，最多可达6个参数，每个速率参数都是独立的。图5 权重矩阵（2）位点之间取代速率模型。除了前面取代模型的多元化外，序列中各个不同位点之间的取代速率差异也会对进化树的结果产生深远影响。关于位点之间的速率差异(位点异质性)，一个最明显的例子就是在三联体编码中，第三个编码位点比前两个更加容易发生变化。在分析编码序列时，许多发育分析都会将第三个位点排除:然而在某些情况下，速率差异模型会更加敏锐，如rRNA的保守序列。对位点差异的取代速率予以估值的方法有非参数模型、不变式模型和Gamma模型。非参数模型在MP法中使用，对ML 法被认为在计算上不可行。不变式模型对一定比例的位点进行估值，而这些位点不能自由变化，其余的位点假定为等概率变化。Gamma模型假定一给定序列变化的概率服从Gamma分布，据此指定位点的取代概率。Gamma分布的形状决定于其参数，描述了一个序列中各个位点的取代频率分布。目前DNA的替代模型有十种之多，再加上不变位点参数和形状分布参数。Gamma，模型更有几十种之多, 几种有代表性的替代模型是JC, F81, K80, HKY和GTR。（3）取代模型的选择最好的取代模型并不一定总是拥有最多参数的模型。因为对每一个参数进行估值都会引入一个相关变量，从而使整体的变数增加，有时甚至会对模型起到抑制作用。在 PAt中可以对DNA序列的取代模型进行规范一个较好的策略，使用似然法同时评估几个，可逆的取代速率、gamma分布的形状参数和不变位点的比例。通过估算的取代参数，可以通过比较较多参数和较少参数分别评估得到的似然分值，决定一个简化的模型是否合理。目前较好的选择模型方法是似然比检验 (LikelihoodRatio Test) 3建树方法目前,三种主要的建树方法分别是距离法(如Neighbor joining , NJ) 、最大简约（Maximum parsimony, MP ）和最大似然(Maximum likelihood ML)。最大似然方法考察数据中序列的多重比对结果，优化出拥有一定拓扑结构和树枝长度的进化树，这个进化树能够以最大的概率导致考察的多重比对结果。距离法考察数据组中所有序列的两两比对结果，通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大简约方法考察数据组中序列的多重比对结果，优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。距离方法简单地计算两个序列的差异数量。这个数量被看作进化距离，而其准确大小依赖于进化模型的选择。然后运行一个聚类算法，从最相似(也就是说，两者间的距离最短)的序列开始，通过距离值方阵计算出实际的进化树，或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似然方法是评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上，并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸+ A，那么，如果假定原先的核苷酸是“C，得到现在的“A-的.可能性比起假定原先就是“A+的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总，产生一个特定位点的似然值，然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。4 进化树搜索单一的进化树的数量会随着分类群数量的增长而呈指数增长，从而变为一个天文数字。由于计算能力的限制，现在一般只允许对很小一部分可能的进化树进行搜索。具体的数量主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。现在有两种搜索方法保证可以找到最优化的进化树：穷举法(exhaustivealgorithms)和树枝一跳跃法(BB, branch -and-band)。对于一个很大的数据集，这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度，但是对于超过20个分类群的数据集，BB方法很少会得到应用。穷举法要根据优化标准，对每一个可能的进化树进行评估。BB方法提供一个逻辑方法，以确定哪些进化树值得评估，而另一些进化树可被简单屏蔽。因此BB方法通常要比穷举法快得多。绝大多数分析方法都使用“启发式”的搜索。启发式算法(heuristic algorithms搜索出相近的次优化的进化树家族(“岛屿”)，然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR, treebisection-reconnection，进化树对分重接)先把进化树在每一个内部树枝处劈开，然后以任意方式将劈开的碎片重新组合起来。最快的算法(NNI , nearest-neighborinterchange)只是检查一下相邻终端的不太重要的重新组合。因此，倾向于找到最近的岛屿的山顶。降低搜索代价的最好方法是对数据集进行剪除。影响优化搜索策略选择的因素(数据量数据结构，时间量，硬件，分析口的)太复杂，无法推荐一个简单可行的处方。因此，进行搜索的用户必须对数据非常熟悉且有明确的口标，了解各种各样的搜索程序及自己硬件设备和软件的能力。除上述当前应用最广的方法外，还有大量的建立和搜索进化树的其它方法。这些方法包括Wagner距离方法和亲近方法(距离转化方法):Lake的不变式方法 (一个基于特征符的方法，它选择的拓扑结构包含一个意义重大的正数以支持颠换)：Hadamard结合方法(一个精细的代数方阵方法，对距离数据或者观察到的特征符进行修正):裂解方法(这个方法决定在数据中应该支持哪一个基于距离的

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

分子进化与系统发育分析.doc

文档简介

温馨提示

最新文档

评论

分子进化与系统发育分析.doc

文档简介

温馨提示

最新文档

评论

相关文档