基于距离的系统发生分析_第1页
基于距离的系统发生分析_第2页
基于距离的系统发生分析_第3页
基于距离的系统发生分析_第4页
基于距离的系统发生分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 基于距离的系统发生分析第四章 基于距离的系统发生分析分子系统发生学的历史分子系统发生学的历史4.1分子系统发生分析的优点分子系统发生分析的优点4.2系统发生树系统发生树4.3距离矩阵法距离矩阵法4.4最大似然法最大似然法4.5多重序列比对多重序列比对4.1 分子系统发生学的历史 系统发生学系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。 charles darwin (1809-1882)4.1 分子系统发生学的历史20世纪70年代20世纪60年

2、代20世纪50年代1902和1904研究者开始能够获得基因组信息,研究者开始能够获得基因组信息,特别是特别是dna序列序列 蛋白质测序成为可能蛋白质测序成为可能 分子数据开始被广泛应用于分子数据开始被广泛应用于系统发生研究系统发生研究 正确地推断出人和猿比它们和其正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先它灵长类动物有更近的共同祖先 20世纪70年代后至今研究者一直致力于研究研究者一直致力于研究dna序列以及序列以及基因组信息,目前基因组信息,目前dna数据比任何分数据比任何分子信息都要丰富子信息都要丰富 4.2 分子系统发生分析的优点表型分析表型分析 具有一定的局限性 许多生物

3、体没有可 用来进行比较的易于 研究的表型 什么样的表型特征 能用来比较也不特别 明了比较分析比较分析分子系统发生分析分子系统发生分析基于dna和蛋白质序列的分析,能够克服表型分析的缺点问题,能够对生物体进行正确的分组,对于所得数据比较可靠。表性分析表性分析:利用生物体的外观比较来推断生物体的基因型,如外形相似即表型相似则认为编码表型的基因也相似;反之,表型不同,基因也不同。4.3 系统发生树 概念 系统发生树系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示; 大部分系统发生研究都是围绕系统发生树的概念进行的,它不仅表示了数据之间的关系,还体现了他们的分歧时间和他们共同祖先的特征。

4、 4.3 系统发生树重建系统发生树的术语重建系统发生树的术语4.3.1有根树和无根树有根树和无根树4.3.2基因树和物种树基因树和物种树4.3.3特征和距离数据特征和距离数据4.3.1 重建系统发生树的术语 系统发生树系统发生树有时也称为系统树图系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单元。分支末端的节点(外分支末端的节点(外部节点部节点)对应一个基因或生物体;内部节点内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。4.3.1 重建系统发生树的术语4.3.1 重建系统发生树的术语 5个物种个物种 (, , , ) 之间的进化关系的系统发生树之间

5、的进化关系的系统发生树abcd 系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为 newick 格式,用该格式来表示上图中的树,可写成 ( ( (,) , (, ) ) , ) 外部节点外部节点内部节点内部节点根节点根节点4.3.2 有根树和无根树根时间 有根树有根树 无根树无根树有根树种,单一的节点指派为共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;4.3.2 有根树和无根树 只考虑3个物种的时候,有3棵有根树,一棵无根树,如下图所示:有根树有根树无根树无根树4.3.2 有根树和无根树描述少量物种之间

6、可能的进化关系的有根树和无根树的数目物种数目2345101520有根树数目131510534 459 425213 458 046 767 8758 200 794 532 637 891 559 375无根树数目113152 207 0257 905 853 580 625221 643 095 476 699 771 875n 个物种可能的有根系统发生树有根系统发生树 (nr)和无根系统发生树无根系统发生树(nu)数目可用下面的公式计算得到: nr = (2n-3)! 2n-2 (n-2)! nu =(2n-5)!2n-3(n-3)!只有一棵树代表了(基因或物种)的实际系统发生关系!只有一

7、棵树代表了(基因或物种)的实际系统发生关系! 4.3.3 基因树和物种树区别:基因树基因树为基于单个同源基因差异构建的系统发生树;物种树物种树一般从多个基因数据中分析得出。 只考虑一个基因的时候个体可能表现出与其他物种的成员关系更近。基因分化事件常常在物种形成前或后发生。4.3.4 特征和距离数据 用于构建系统发生树的分子数据分子数据分成两类: (1) 距离距离 (distances) 数据数据,常用距离矩阵描述,表示两个数据集之间所有两两差异; (2) 特征特征 (characters) 数据数据,表示分子所具有的特征。 dna 和蛋白质序列数据描述离散的特征; 一旦建立了确定所有可能状态之

8、间相似性的标准,特征数据就很容易转化成距离数据;4.4 距离矩阵法 4.4.1 非加权组平均法(非加权组平均法(upgma) 非加权组平均法非加权组平均法 (unweighted-pair-group method with arithmetic mean,upgma) 是最早的距离矩阵法,是基于统计的,像所有基于距离的方法一样,要求数据能够精简为所有被研究的物种两两之间遗传距离的度量。 一般来说,upgma方法需要建立一个距离矩阵。 例:4个物种a、b、c、d建立的矩阵,假设其两两距离如下所示:数目bcdadabdacdadbdbcdbdcdcddab表示物种a和b之间的距离,dac表示物种

9、a和c之间的距离,依次类推。 upgma 算法先将两个距离最近的物种合成一个复合复合物种组物种组,如上表所示,假设距离矩阵中的最小值是dab,所以物种ab首先组合成一组(ab), 类聚以后,需要更新距离矩阵,计算新组( ab ) 和物种c和d之间的距离:d (ab) c = 1/2 ( dac+dbc), d(ab)d = 1/2 ( dad+dbd ) 然后再将新的矩阵中距离最近的物种再次合成一个复合物种组复合物种组,如此反复,直到把所有物种都聚为一类。 例:两两矩阵之间的不匹配的核苷酸数目a:b:c:d:e:10gtgctgcacgacgctgcacggtgctcgcaggtatcacac

10、gctatcaca t a20gctcagtatagctcagtgcggctcggcgcaactcagcgcagctcagcgca30gcatttacccgtgcttacccgcatttacccgcatttgcccgcatttgccc40ttccatcttctcccatcttctcccatcttctcccgtctcctcccgtcttc50agatcctgaaagatcctgaaagatccta t cagatcctaaaagatctaaaa物种bcdea981215b111518c1013d5最小最小将物种将物种d和和e聚成一类,然后再计算新的距离矩阵聚成一类,然后再计算新的距离矩阵 将物种

11、d和e聚成一类,然后再计算新的距离矩阵物种bcdea98b11c物种bcdea981215b111518c1013d5=1/2(dad+dae)13.516.511.5=1/2(dbd+dbe) =1/2(dcd+dce) 物种acdeb16.5ac 将物种a和c聚成一类,然后再计算新的距离矩阵物种bcdea9813.5b1116.5c11.510=1/2(dab+dbc)12.5=1/2(da(de)+dc(de) 用upgma法重建系统发生树de(d,e)acde(a,c),(d,e)ac bde(a,c),b),(d,e)物种acdeb1016.5ac4.4.2 分支长度的估计 系统发生

12、树的拓扑结构除了描述序列之间的关系,还可以表达有关序列的分歧程度的信息。标度树标度树能够表达这样的信息,通常称为进化分支图进化分支图,它的分支长度对应于推断出的序列独立积累替换的时间。 确定进化分支图进化分支图中每一条分支的相对长度,只要利用距离矩阵中的信息进行简单的计算。如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种距离相等的地方。 例:两两矩阵之间的不匹配的核苷酸数目a:b:c:d:e:10gtgctgcacgacgctgcacggtgctcgcaggtatcacacgctatcacata20gctcagtatagctcagtgcggctcggcgcaactc

13、agcgcagctcagcgca30gcatttacccgtgcttacccgcatttacccgcatttgcccgcatttgccc40ttccatcttctcccatcttctcccatcttctcccgtctcctcccgtcttc50agatcctgaaagatcctgaaagatcctatcagatcctaaaagatctaaaa物种bcdea981215b111518c1013d4.4.2 分支长度的估计 例:a(a,c) (d,e)cde44 2.52.56.256.25这个简单的估计分支长度的方法使得这个简单的估计分支长度的方法使得upgma成为能构造成为能构造有根有根系统发

14、生树系统发生树的少数几种方法之一。的少数几种方法之一。dde = 5dac = 8 如果假设所有家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种距离相等的地方。描述描述4个物种的标度树个物种的标度树4.4.2 分支长度的估计 当不同的家系有不同的进化速率时,确定标度树的分支长度变得略微复杂些baczdac= + dab= + zdbc= + z对上面的等式进行简单的代数变换,分支长度分支长度就可以用两两距离矩阵中的数值表示: = (dab + dac dbc)/ 2 = (dac + dbc dab) / 2z = ( dab + dbc dac )/ 2最简单的树最简单的树

15、(3个物种,1个分支点)4.4.2 分支长度的估计 对于更复杂的树更复杂的树(多于一个分支点的树)的分支长度的估计,可以一次考虑3个分支。 例:在一组5个物种(1,2,3,4和5)的距离矩阵中,用upgma首先将物种1和物种2聚到一组, 前面等式中的dac和dbc就是这两个物种和其他所有物种之间距离的平均值: dac=(d13 + d14 + d15 )/3 dbc =(d23 + d24 + d25 )/bacz123451、先考虑圆圈里的分支2、由于这里不再是三个物种, c所表示的含义不同于三 个物种的系统树,它代表除 1、2之外的所有物种。3、计算dac、dbc dac=(d13+d14

16、+d15) / 3 dbc=(d23+d24+d25) / 34、用新计算出的dac 、dbc替换三个物种系统树公式中的dac和dbc,得到公式 = (dab + dac dbc)/ 2 = (dac + dbc dab) / 2z = ( dab + dbc dac )/ 25、解出x、z之后再考虑下一个分支,最终解出全部的距离4.4.3 距离变换法 距离矩阵法距离矩阵法的一个优点是对于表型数据和分子数据,甚至是两者的结合,都很适用。它考虑了具体分析中所有可能获得的数据,而在第5章中介绍另一种算法简约法则忽略所谓的非信息位点。 upgma算法的一个缺陷是假定所有家系的进化速率是相同的,但是相

17、对速率测试表明情况并不总是这样。替换速率的变化对upgma方法来说是很重要的问题,极易导致它产生错误的拓扑结构的树。4.4.3 距离变换法 除upgma法外,其他的一些基于距离矩阵的方法考虑了不同的家系有不同的进化速率,其中最简单的最早的算法是距离变换法距离变换法。 这种方法充分利用了外群外群或外部参考物种外部参考物种先于其他所有被考虑的物种 内群内群或内部物种内部物种 (从它们的共同祖先中分化出来的那些物种) 。4.4.3 距离变换法 dij=(dij-did-djd)/ 2+dd 公式中dij是物种i和j之间变换后的距离, dd是外部参考物种与全体内部物种之间的平均距离。 dd=did /

18、 (n-1)物种bcda9812b1115c10四个物种两两进化距离(假设树可加)abcd4.4.3 距离变换法 dij=(dij-did-djd)/ 2+dd 公式中dij是物种i和j之间变换后的距离, dd是外部参考物种与全体内部物种之间的平均距离。 dd=did / (n-1)物种bcda9812b1115c10物种bca10/316/3b16/3四个物种两两进化距离(假设树可加)3个物种为内部物种,d为外部物种时的距离矩阵物种bcda9812b1115c10物种bcabdd=(dad+dbd+dcd) / 3 = (12+15+10) / 3 = 37/ 3dab=(dab-dad-d

19、bd) / 2 + dd = (9-12-15)/2+37/3=10/310/3dbc=(dbc-dbd-dcd) / 2 + dd = (11-15-10)/2+37/3=16/3dac=(dac-dad-dcd) / 2 + dd = (8-12-10)/2+37/3=16/316/316/4.4.4 近邻关系法 近邻关系法近邻关系法是由upgma法演变出的另一种常用的方法,强调配对物种,由此构造一棵分支长度总和最小的树。 任意一棵无根树中,仅被一个内部节点分隔的一对物种称为近邻近邻。dabcabcde四个物种四个物种 (a,b,c,d) 之间进化关系的通用系统发生树之间进化关系的通用系统

20、发生树上图中的系统发生树的拓扑结构给出了一些近邻间有用的代数关系,由于树是正确的且可加和,则下面的等式成立: dac + dbd= dad + dbc = a+b+c+d+2e = dab + dcd+ 2e下面的不等式也是成立的: dab + dcd dac + dbd dab + dcd dad + dbc 4.4.4 近邻关系法 例:1977年,s.sattath和a.tversky提出了一种用近邻关系法构建多于4个物种的树的方法。他们建立了一个距离矩阵,用矩阵中的值计算出针对前4个物种的3个数值: dab + dcd dac + dbd dad + dbc。取和最小的两个配对打分为1,

21、而其他的4个配对打分为0 。对数据集中所有可能的4个物种的组合都重复以上的步骤,不断累计得分。最后得分最高的一对物种聚为一组,即这两个物种是近邻,就像upmga法一样,得到一个新的距离矩阵,用新的距离矩阵开始新一轮的打分过程,直到只剩下3个物种(此时,树的拓扑结构已经明确确定了)。 4.4.5 邻近归并法 邻近归并法邻近归并法是对上面的方法做了一些改动。这类算法首先是由一棵星状树开始,不管数目多少,所有的物种都从一个中心节点出发,然后通过最小化树的分支长度和,相继找到近邻。 计算分支长度和公式: 1987年n.saitou和m.nei 提出 s12=(1/(2(n-2)(d1k+d2k)+(1

22、/2)d12+(1/n-2)(dij) 式中树的1和2的位置可以使其中任何一对物种,n是距离矩阵中物种的数目 k 是引入外部参考物种, dij是物种 i 和 j 之间的距离; 1988年,j.studier和k.keppler提出一种快速算法: q12= (n-2) d12 - d1i - d2i 4.5 最大似然法 最大似然法是另外一类完全基于统计的系统发生树重建方法的代表。该法在每组序列比对中考虑了每个核苷酸替换的概率。 例如,在第3章中我们已经知道,转换出现的概率大约是颠换的3倍。在一个三序列的比对中,发现其中有一列为一个c、一个t和一个g,有理由认为,c和t所在的序列之间的关系有可能更接近。最后根据定义,概率总和最大的那棵树最有可能是反映真实情况的系统发生树。4.6 多重序列比对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论