版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 基于间隔的系统发生分析biodiscover第四章 基于间隔的系统发生分析分子系统发生学的历史分子系统发生学的历史4.1分子系统发生分析的优点分子系统发生分析的优点4.2系统发生树系统发生树4.3间隔矩阵法间隔矩阵法4.4最大似然法最大似然法4.5多重序列比对多重序列比对4.6biodiscover4.1 分子系统发生学的历史 系统发生学是研讨物种之间的进化关系的,是进化生物学的一个重要研讨领域,系统发生分析在达尔文时代就曾经开场。从那时起,科学家们就开场寻觅物种的源头,分析物种之间的进化关系,给各个物种分门别类。 Charles Darwin (1809-1882)biodiscov
2、er4.1 分子系统发生学的历史20世纪70年代20世纪60年代20世纪50年代1902和1904研讨者开场可以获得基因组信息,研讨者开场可以获得基因组信息,特别是特别是DNA序列序列 蛋白质测序成为能够蛋白质测序成为能够 分子数据开场被广泛运用于分子数据开场被广泛运用于系统发生研讨系统发生研讨 正确地推断出人和猿比它们和其正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先它灵长类动物有更近的共同祖先 20世纪70年代后至今研讨者不断努力于研讨研讨者不断努力于研讨DNA序列以及序列以及基因组信息,目前基因组信息,目前DNA数据比任何分数据比任何分子信息都要丰富子信息都要丰富 biodis
3、cover4.2 分子系统发生分析的优点表型分析表型分析 具有一定的局限性具有一定的局限性 许多生物体没有许多生物体没有可可 用来进展比较的易用来进展比较的易于于 研讨的表型研讨的表型 什么样的表型特什么样的表型特征征 能用来比较也不特能用来比较也不特别别 明了明了比较分析比较分析分子系统发生分析分子系统发生分析基于基于DNA和蛋白和蛋白质序列的分析,可质序列的分析,可以抑制表型分析的以抑制表型分析的缺陷问题,可以对缺陷问题,可以对生物体进展正确的生物体进展正确的分组,对于所得数分组,对于所得数据比较可靠。据比较可靠。表性分析:利用生物体的外观比较来推断生物体的基因型,如外形类表性分析:利用生
4、物体的外观比较来推断生物体的基因型,如外形类似即表型类似那么以为编码表型的基因也类似;反之,表型不同,基似即表型类似那么以为编码表型的基因也类似;反之,表型不同,基因也不同。因也不同。biodiscover4.3 系统发生树 概念 系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示; 大部分系统发生研讨都是围绕系统发生树的概念进展的,它不仅表示了数据之间的关系,还表达了他们的分歧时间和他们共同祖先的特征。 biodiscover4.3 系统发生树重建系统发生树的术语重建系统发生树的术语4.3.1有根树和无根树有根树和无根树4.3.2基因树和物种树基因树和物种树4.3.3特征和间隔数
5、据特征和间隔数据4.3.4biodiscover4.3.1 重建系统发生树的术语 系统发生树有时也称为系统树图,它是由一系列的系统发生树有时也称为系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单节点和分支组成的,其中每个节点代表一个分类单元。元。分支末端的节点外分支末端的节点外部节点对应一个基部节点对应一个基因或生物体;因或生物体;内部节点代表一个推内部节点代表一个推断的共同祖先,它在断的共同祖先,它在过去的某个时候分歧过去的某个时候分歧出两个独立的分支。出两个独立的分支。biodiscover4.3.1 重建系统发生树的术语biodiscover4.3.1 重建系统发生树
6、的术语 5个物种 (, , , ) 之间的进化关系的系统发生树ABCD 系统发生树构造的根本信息在计算机程序中常用一组嵌套的圆括号表示,称为 Newick 格式,用该格式来表示上图中的树,可写成 ( ( (,) , (, ) ) , ) 外部节点外部节点内部节点内部节点根节点根节点biodiscover4.3.2 有根树和无根树根时间 有根树 无根树有根树种,单一的节点指派为共同的祖先,从祖先节点只需独一的途径进化到达其他任何节点。无根树只阐明了节点之间的关系,而没有关于进化发生方向的信息;biodiscover4.3.2 有根树和无根树 只思索3个物种的时候,有3棵有根树,一棵无根树,如以下
7、图所示:有根树有根树无根树无根树biodiscover4.3.2 有根树和无根树描画少量物种之间能够的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目21133141535105151034 459 4252 207 02515213 458 046 767 8757 905 853 580 625208 200 794 532 637 891 559 375221 643 095 476 699 771 875n 个物种能够的有根系统发生树 (NR)和无根系统发生树(NU)数目可用下面的公式计算得到: NR = (2n-3)! 2n-2 (n-2)! NU =(2n-5)!2n-3
8、(n-3)!只需一棵树代表了基因或物种的实践系统发生关系!只需一棵树代表了基因或物种的实践系统发生关系! biodiscover4.3.3 基因树和物种树区别:基因树为基于单个同源基因差别构建的系统发生树;物种树普通从多个基因数据中分析得出。 只思索一个基因的时候个体能够表现出与其他物种的成员关系更近。基因分化事件经常在物种构成前或后发生。biodiscover4.3.4 特征和间隔数据 用于构建系统发生树的分子数据分成两类: (1) 间隔 (distances) 数据,常用间隔矩阵描画,表示两个数据集之间一切两两差别; (2) 特征 (characters) 数据,表示分子所具有的特征。 D
9、NA 和蛋白质序列数据描画离散的特征; 一旦建立了确定一切能够形状之间类似性的规范,特征数据就很容易转化成间隔数据;biodiscover4.4 间隔矩阵法 4.4.1 非加权组平均法UPGMA 非加权组平均法 (unweighted-pair-group method with arithmetic mean,UPGMA) 是最早的间隔矩阵法,是基于统计的,像一切基于间隔的方法一样,要求数据可以精简为一切被研讨的物种两两之间遗传间隔的度量。 普通来说,UPGMA方法需求建立一个间隔矩阵。 biodiscover 例: 4个物种A、B、C、D建立的矩阵,假设其两两间隔 如下所示:数目ABCBd
10、ABCdACdBCDdADdBDdCDdAB表示物种A和B之间的间隔,dAC表示物种A和C之间的间隔,依次类推。biodiscover UPGMA 算法先将两个间隔最近的物种合成一个复合物种组,如上表所示,假设间隔矩阵中的最小值是dAB,所以物种AB首先组合成一组(AB), 类聚以后,需求更新间隔矩阵,计算新组( AB ) 和物种C和D之间的间隔:d (AB) C = 1/2 ( dAC+dBC), d(AB)D = 1/2 ( dAD+dBD ) 然后再将新的矩阵中间隔最近的物种再次合成一个复合物种组,如此反复,直到把一切物种都聚为一类。biodiscover 例:两两矩阵之间的不匹配的核苷
11、酸数目1020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTA T CD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACA T AGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA物种ABCDB9C811D121510E151
12、8135最小最小将物种将物种D和和E聚成一类,然后再计算新的间隔矩阵聚成一类,然后再计算新的间隔矩阵biodiscover 将物种D和E聚成一类,然后再计算新的间隔矩阵物种ABCB9C811DE物种ABCDB9C811D121510E1518135=1/2(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)biodiscover 物种BACACDE16.5 将物种A和C聚成一类,然后再计算新的间隔矩阵物种ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE)biodiscover 用UP
13、GMA法重建系统发生树DED,EACDEA,C,D,EAC BDEA,C,B,D,E物种BACAC10DE16.512.5biodiscover4.4.2 分支长度的估计 系统发生树的拓扑构造除了描画序列之间的关系,还可以表达有关序列的分歧程度的信息。标度树可以表达这样的信息,通常称为进化分支图,它的分支长度对应于推断出的序列独立积累交换的时间。 确定进化分支图中每一条分支的相对长度,只需利用间隔矩阵中的信息进展简单的计算。假设假设一切家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种间隔相等的地方。biodiscover 例:两两矩阵之间的不匹配的核苷酸数目1020304050
14、A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA物种ABCDB9C811D121510E1518135biodiscover4.
15、4.2 分支长度的估计 例:AA,C) D,ECDE44 2.52.56.256.25这个简单的估计分支长度的方法使得这个简单的估计分支长度的方法使得UPGMA成为能构造有根成为能构造有根系统发生树的少数几种方法之一。系统发生树的少数几种方法之一。dDE = 5dAC = 8 假设假设一切家系的进化速率不变,那么内部节点将置于与分叉树上相对应的两个物种间隔相等的地方。描画描画4个物种的标度树个物种的标度树biodiscover4.4.2 分支长度的估计 当不同的家系有不同的进化速率时,确定标度树的分支长度变得略微复杂些BACzdAC= + dAB= + zdBC= + z对上面的等式进展简单的
16、代数变换,分支长度就可以用两两间隔矩阵中的数值表示: = dAB + dAC dBC/ 2 = dAC + dBC dAB / 2z = dAB + dBC dAC / 2最简单的树最简单的树 (3个物种,个物种,1个分支个分支点点)biodiscover4.4.2 分支长度的估计 对于更复杂的树多于一个分支点的树的分支长度的估计,可以一次思索3个分支。例:在一组5个物种1,2,3,4和5的间隔矩阵中,用UPGMA首先将物种1和物种2聚到一组, 前面等式中的dAC和dBC就是这两个物种和其他一切物种之间间隔的平均值: dAC=d13 + d14 + d15 /3 dBC =d23 + d24
17、+ d25 /3biodiscoverBACz123451、先思索圆圈里的分支2、由于这里不再是三个物种, C所表示的含义不同于三 个物种的系统树,它代表除 1、2之外的一切物种。3、计算dAC、dBC dAC=(d13+d14+d15) / 3 dBC=(d23+d24+d25) / 34、用新计算出的dAC 、dBC交换三个物种系统树公式中的dAC和dBC,得到公式 = dAB + dAC dBC/ 2 = dAC + dBC dAB / 2z = dAB + dBC dAC / 25、解出x、z之后再思索下一个分支,最终解出全部的间隔biodiscover4.4.3 间隔变换法 间隔矩阵
18、法的一个优点是对于表型数据和分子数据,间隔矩阵法的一个优点是对于表型数据和分子数据,甚至是两者的结合,都很适用。它思索了详细分析中甚至是两者的结合,都很适用。它思索了详细分析中一切能够获得的数据,而在第一切能够获得的数据,而在第5章中引见另一种算章中引见另一种算法法简约法那么忽略所谓的非信息位点。简约法那么忽略所谓的非信息位点。 UPGMA算法的一个缺陷是假定一切家系的进化速率算法的一个缺陷是假定一切家系的进化速率是一样的,但是相对速率测试阐明情况并不总是这样。是一样的,但是相对速率测试阐明情况并不总是这样。交换速率的变化对交换速率的变化对UPGMA方法来说是很重要的问题,方法来说是很重要的问
19、题,极易导致它产生错误的拓扑构造的树。极易导致它产生错误的拓扑构造的树。biodiscover4.4.3 间隔变换法 除UPGMA法外,其他的一些基于间隔矩阵的方法思索了不同的家系有不同的进化速率,其中最简单的最早的算法是间隔变换法。 这种方法充分利用了外群或外部参考物种先于其他一切被思索的物种 内群或内部物种 (从它们的共同祖先中分化出来的那些物种) 。biodiscover4.4.3 间隔变换法 dij=dij-diD-djD/ 2+dD 公式中dij是物种i和j之间变换后的间隔, dD是外部参考物种与全体内部物种之间的平均间隔。 dD=diD / (n-1)物种ABCB9C811D121
20、510四个物种两两进化间隔假设树可加ABCD362316biodiscover4.4.3 间隔变换法 dij=dij-diD-djD/ 2+dD 公式中dij是物种i和j之间变换后的间隔, dD是外部参考物种与全体内部物种之间的平均间隔。 dD=diD / (n-1)物种ABCB9C811D121510物种ABB10/3C16/316/3四个物种两两进化间隔假设树可加3个物种为内部物种,D为外部物种时的间隔矩阵biodiscover物种ABCB9C811D121510物种ABBCdD=(dAD+dBD+dCD) / 3 = (12+15+10) / 3 = 37/ 3dAB=(dAB-dAD-
21、dBD) / 2 + dD = (9-12-15)/2+37/3=10/310/3dBC=(dBC-dBD-dCD) / 2 + dD = (11-15-10)/2+37/3=16/3dAC=(dAC-dAD-dCD) / 2 + dD = (8-12-10)/2+37/3=16/316/316/3biodiscover4.4.4 近邻关系法 近邻关系法是由近邻关系法是由UPGMA法演化出的另一种常用的方法,法演化出的另一种常用的方法,强调配对物种,由此构造一棵分支长度总和最小的树。强调配对物种,由此构造一棵分支长度总和最小的树。 恣意一棵无根树中,仅被一个内部节点分隔的一对物种称恣意一棵无根
22、树中,仅被一个内部节点分隔的一对物种称为近邻。为近邻。DABCabcde四个物种四个物种 (A,B,C,D) 之间进化关系的通用系统发生树之间进化关系的通用系统发生树上图中的系统发生树的拓扑构造给出了一些近邻间有用的代数关系,由于树是正确的且可加和,那么下面的等式成立: dAC + dBD= dAD + dBC = a+b+c+d+2e = dAB + dCD+ 2e下面的不等式也是成立的: dAB + dCD dAC + dBD dAB + dCD dAD + dBC biodiscover4.4.4 近邻关系法 例:1977年,S.Sattath和A.Tversky提出了一种用近邻关系法构
23、建多于4个物种的树的方法。他们建立了一个间隔矩阵,用矩阵中的值计算出针对前4个物种的3个数值: dAB + dCD dAC + dBD dAD + dBC。取和最小的两个配对打分为1,而其他的4个配对打分为0 。对数据集中一切能够的4个物种的组合都反复以上的步骤,不断累计得分。最后得分最高的一对物种聚为一组,即这两个物种是近邻,就像UPMGA法一样,得到一个新的间隔矩阵,用新的间隔矩阵开场新一轮的打分过程,直到只剩下3个物种此时,树的拓扑构造曾经明确确定了。 biodiscover4.4.5 临近归并法 临近归并法是对上面的方法做了一些改动。这类算法首临近归并法是对上面的方法做了一些改动。这类
24、算法首先是由一棵星状树开场,不论数目多少,一切的物种都先是由一棵星状树开场,不论数目多少,一切的物种都从一个中心节点出发,然后经过最小化树的分支长度和,从一个中心节点出发,然后经过最小化树的分支长度和,相继找到近邻。相继找到近邻。 计算分支长度和公式:计算分支长度和公式: 1987年年N.Saitou和和M.Nei 提出提出 S12=1/2N-2d1k+d2k+1/2d12+1/N-2dij 式中树的式中树的1和和2的位置可以使其中任何一对物种,的位置可以使其中任何一对物种,N是是间隔矩阵中物种的数目间隔矩阵中物种的数目 k 是引入外部参考物种,是引入外部参考物种, dij是物种是物种 i 和
25、和 j 之间的间隔;之间的间隔; 1988年,年,J.Studier和和K.Keppler提出一种快速算法:提出一种快速算法: Q12= N-2 d12 - d1i - d2i biodiscover4.5 最大似然法 最大似然法是另外一类完全基于统计的系统发生树重建方法的代表。该法在每组序列比对中思索了每个核苷酸交换的概率。 例如,在第3章中我们曾经知道,转换出现的概率大约是颠换的3倍。在一个三序列的比对中,发现其中有一列为一个C、一个T和一个G,有理由以为,C和T所在的序列之间的关系有能够更接近。最后根据定义,概率总和最大的那棵树最有能够是反映真实情况的系统发生树。biodiscover4.6 多重序列比对 在前面第2章提到多重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于大数据的阅读趋势预测
- 2025年海南省公需课学习-医疗卫生服务体系规划1119
- 2025年八大特殊作业安全填空题试题库及答案(共50题)
- 2025年新疆初中语文题库及答案
- 2025年策画师游戏测试题及答案
- 租赁公司租房合同范本
- 超市员工安全 合同范本
- 资产收购公司合同范本
- 因政策终止合同范本
- 荒地旱地出租合同范本
- 加盟2025年房地产经纪协议合同
- 2025至2030中国商业摄影行业市场发展分析及发展前景预测与投资风险报告
- 地球系统多源数据融合-洞察及研究
- 香水销售知识培训内容课件
- 工业产品早期可制造性评估标准
- DB45-T 2757.1-2023 交通运输行业安全风险评估规范 第1部分:总则
- 3.6运动和能量课件-科学三年级上册教科版-1
- 2025年酒店行业全球酒店管理与酒店服务创新研究报告
- 2025年及未来5年中国铜铝复合板带行业市场供需格局及行业前景展望报告
- Unit6Ouranimalfriends单词词汇(课件)-Joinin外研剑桥英语四年级上册
- 第9课 約束教学设计-2025-2026学年初中日语人教版2024七年级全一册-人教版
评论
0/150
提交评论