分子系统发育分析.ppt_第1页
分子系统发育分析.ppt_第2页
分子系统发育分析.ppt_第3页
分子系统发育分析.ppt_第4页
分子系统发育分析.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 分子系统发育分析,系统发育(phylogeny) 也称系统发生、种系发生,是指生物形成或进化的历史。 系统发育学(phylogenetics) 根据现有数据推演进化谱系,研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的物种在遗传学上接近。 系统发育研究的结果描述形式 常以系统发育树(phylogenetic tree)表示,用它描述物种之间的进化关系。通过对生物学数据的建模提取特征,进而比较这些特征,研究生物形成或进化的历史。,系统发育学的发展历史,追溯于达尔文时代(十九世纪) 经典系统发育学中,主要特征为表型特征(phonotype features) 表型特征的

2、局限性(趋同进化现象) 表型特征判定的困难 现代系统发育学进入分子水平 直接利用从核酸序列或蛋白质分子提取的信息,作为物种的特征,通过比较生物分子序列,分析序列之间的关系,构造系统发育树,进而阐明各个物种的进化关系,20世纪中期,分子数据开始被广泛应用于系统发育研究 蛋白质电泳:在分子大小、电荷等一些浅层特征上分离和比较相关的蛋白质 20世纪60年代,蛋白质测序出现 20世纪70年代,开始获得基因组信息,特别是DNA序列 蛋白质序列和DNA序列为分子系统发育分析提供了可靠的数据。,如何根据核酸和蛋白质的序列信息推断物种之间的系统发育关系? 从一条序列转变为另一条序列所需要的变换越多,那么,这两

3、条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可能越小 举例:地球上现代人起源的研究 线粒体DNA非常适合于系统发育分析,因为线粒体DNA从母体完全传到子代,不与父代DNA重组 ,用细胞核基因来研究系统发育关系时存在的问题 基因常常会被复制,导致在个体基因组中,一个基因可能有若干个拷贝 进化过程中,这些拷贝各自演变,形成两个或更多的相似基因 在对不同物种的基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题,线粒体DNA(mtDNA)用作分子进化研究的主要对象,具有如下特点 突变率高:是核DNA的10倍左右,即使是在近

4、期内趋异的物种之间也会很快积累大量的核苷酸置换,可进行比较分析 母性遗传(maternal inheritance):因为精子的细胞质极少,子代的mtDNA基本来自卵细胞,且不发生DNA重组,因此具有相同mtDNA序列的个体必定来自共同的雌性祖先 由于mtDNA在细胞减数分裂期间不发生重排,而且点突变率高,所以有利于检查出在较短时期内基因发生的变化,有利于比较不同物种的相同基因之间的差别,确定这些物种在进化上的亲缘关系,分子进化实质和对象,从物种的一些分子特性出发,从而了解物种之间的生物系统发育的关系。 研究分子进化的主要对象:蛋白和核酸序列 通过序列同源性的比较进而了解基因的进化以及生物系统

5、发育的内在规律。,所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事 可以用树中的各个分支点代表一类生物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切,系统发育树(系统树,进化树),由一系列节点(nodes)和分支(branches)组成 每个节点代表一个分类单元(物种或序列) 节点之间的连线(分支)代表物种之间的进化关系 节点分为外部节点(terminal node)和内部节点(internal node) 外部节点:代表实际观察到的分类单元 内部节点(分支点);它代表了进化事件发生的位置,或代表分类

6、单元进化历程中的祖先,分类单元(Operational Taxonomic Unit, OTU):进化研究中的一种基本单位,由研究者选定。在同一项研究中分类单元应当一致。 本章讨论中,以序列(DNA序列或蛋白质序列)作为分类单元 二叉树:每个节点最多有两个子节点的树 带权树:分支具有一定权值 在带权树中,分支的长度(或权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量形式,系统发育树具有以下性质: 如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; 如果找不到可以作为树根的单元,则系统发育树是无根树; 在有根树中,从根节点

7、出发,到任何一个节点的路径均指明进化时间或者进化距离,对于给定的分类单元数,有很多棵可能的系统发育树,但是只有一棵树是正确的,分析的目标就是要寻找这棵正确的树,序列选择 序列有指定的来源并且正确无误 序列是同源的(也就是说,所有的序列都起源于同一祖先序列) 序列比对中,不同序列的同一个位点都是同源的。 在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如,序列组中不存在核序列与细胞器序列的混合) 样本足以解决感兴趣问题 样本序列之间的差异包含了足以解决感兴趣问题的系统发育信号,系统发育分析步骤,分子序列或特征数据的分析 分析对象:一组同源的序列(取自于不同生物基因组的共同位点) 分析方

8、法:多序列比对(Clustal W手工比对) 通过分析,产生距离或特征数据,确定替换模型,为建立系统发育树提供依据 构造系统发育树 根据所处理数据的类型 ,按距离法/最简约法(MP)/最大似然法(ML)构建系统发育树 检验结果(对建立的进化树进行评估) 执行以上几个步骤的计算机程序都是相互独立的,但是它们都是进行系统发育分析的有机部分,用于构建系统发育树的分子数据 距离(distances)数据:常用距离矩阵描述,表示两个数据集之间所有两两差异 特征(characters)数据:表示分子所具有的特征,距离和特征,距离(相似度):反映序列之间关系的一种度量,是建立系统发育树时所常用的一类数据 通

9、过进行序列比对,累加每个比对位置的得分,直接计算序列间的距离 如果使用打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离,一种简单的距离矩阵,离散特征数据:反映序列中某些特征的离散数据,可分为二态特征与多态特征 二态离散特征:只有2种可能的状况,常用“0”或“1”表示 如:DNA序列上的某个位置若是剪切位点,其特征值为1,否则为0 多态离散特征:具有两种以上可能的状态 如:核酸的序列信息,对序列中某一位置来说,其可能的碱基有、共4种 如果能建立所有可能状态之间相似性的度量,特征数据可被转换成距离数据,系统发育树构建方法,基于距离的构建:列出所有可能的序列对,计算序列之间的遗传距离,

10、选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系 非加权分组平均法(unweighted pair group method with arithmetic means,UPGMA) Fitch-Margoliash法 基于离散特征的构建:建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等 最大简约法(maximum parsimony method) 最大似然法(maximum likelihood method),基于距离的建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根据固定的距离建立进化树 基于特征的建树方法在建立进化树时,优化了每一个

11、特征的真实数据模式的分布,双重序列的距离不固定,取决于进化树的拓扑结构,三种主要的进化树 距离树:考察数据组中所有序列的两两比对结果,通过比较序列两两之间的距离决定进化树的拓扑结构和树枝长度 最大简约树:考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异 最大似然树:考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果,不同情况采用不同的建树方法,距离法(距离矩阵法),给定一种序列间距离的量度,在该量度下构建一棵系统发育树,使该树能最好地反映已知序列间的距离 通过各物种间的比较,根

12、据一定的假设(进化距离模型)推导得出序列间的进化距离,构建进化距离矩阵 距离矩阵:简单计算两序列的差异,该值可被看作是进化距离,准确性大小依赖于进化模型的选择,进化树的构建则是基于这个矩阵中的进化距离关系 通过距离矩阵,根据聚类算法构建进化树 聚类算法:从最相似的序列开始(即两者之间的最短),通过距离方阵计算出实际的进化树,通过距离矩阵建树的方法 由进化距离构建进化树的方法有很多,常见有: Fitch-Margoliash Method(FM法) Neighbor-Joining Method (NJ法/邻接法) Neighbors Relaton Method(邻居关系法) Unweight

13、ed Pair Group Method (UPGMA法) 由于距离法根据双重序列比对的差异程度(距离)建立进化树,因此如果序列能精确反映出所有的进化演变时间,距离法将能重构真实的进化树,不加权配对组算术方法( UPGMA, unweight-ed pair group method with arithmetic mean) 按照配对序列的最大相似性和连接配对的平均值的标准将进化树的树枝连接起来 不考虑权值,而采用平均的方法进行聚类,故只有当序列分歧是近似等于原始的序列差异的时候,才会期望UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构,在实际问题中很少会遇到这种情况,UPGMA算法的

14、执行过程: (1) 初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类,每个类的大小为1,分别用n个叶节点代表每个类; (2)执行下列循环: l 寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(i,j ) l 连接i和j形成新节点(i, j),生长两个新的分支,将i和j连接到(i,j),分支的长度为Di j / 2; l 计算新分类到其它类的距离 其中ni、nj、(ni+nj)分别为i类、j类、(ij)类的元素个数; l 在距离矩阵中删除与类i和类j相应的行和列,为类(ij)加入新的行和列; 重复循环,直到仅剩一个类为止。,UPGMA法,f1+a=f2+c=40.5/2=2

15、0.25 f1=9.25, f2=10.75,举例:比较五种动物的进化关系 线粒体DNA: 人类 GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TTACGACCCC TTATTTACC 黑猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TCACGACCCC TTATTTACC 大猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA TAACAGAGGC TCACAACCCC TTATTTACC 猩猩GTAAATATAG TTTA

16、ACCAAA ACATTAGATT GTGAATCTAA TAATAGGGCC CCACAACCCC TTATTTACC 长臂猿GTAAACATAG TTTAATCAAA ACATTAGATT GTGAATCTAA CAATAGAGGC TCGAAACCTC TTGCTTACC,对DNA差异进行比较,得到5个线粒体序列的差异核苷酸数 其中人类-黑猩猩(hu-ch)间距离最小,合并为一类。新距离为:,下一个简缩后的距离矩阵为 现在人类黑猩猩大猩猩(hu-ch-go)和猩猩(or)之间的距离最小,将其并为一类,从该四合体到长臂猿的距离为11.125,Fitch-Margoliash方法(FM法)

17、UPGMA法的特点:假设各个OTU的进化速率相同,即从每个OTU到树根的距离相同,这种假设在实际中不一定正确 FM法允许OTU间存在不同的进化速率,建出无根树 找出关系最近的序列对(A, B) 将剩余序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值,用这些值来计算A和B间的距离 将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵 确定下一对关系最近的序列,重复前面的步骤计算枝长 从每个序列对开始,重复整个过程 对每个树计算每对序列间的预测距离,发现与原始数据最符合的树,A,B为距离最近的两个类群 C为聚合点,可视为A,B的共同祖先,FM 法,构

18、建基于特征的系统发育树,问题: 给定n个物种 m个用以描述物种的特征 每个物种所对应的特征值 构建一棵系统发育树,使得某个目标函数最大,输入一般为nm的特征矩阵M 在构建系统发育树假设特征是相互独立的,即一个特征的变化不影响另一个特征。 另外,还假设在进化过程中,两个物种分叉后独立进化,互不影响。,最大简约法,简约:上世纪三四十年代开始使用一个贬义词,字面意思是指某人过于节省他的钱,很吝啬;生物学上, 主要是指一个有最小化突变事件的进化路径 突变越少发生,序列间的亲缘关系就越近,进化时间就越短 对一个模型而言,突变越多,表明对于未知事件的假设越多,该模型就越不可靠 简约性:是指基于字符(特征)

19、的方法, 而不是基于距离的方法,最大简约法目标 构造一棵反映分类单元之间最小变化的系统发育树 所谓简约就是使代价最小 如果分类单元为DNA序列,则代价最小即为发生碱基替换的次数最少 对于系统发育树最直观的代价计算就是沿着各个分支累加特征变化的数目,最大简约法的处理过程,针对待比较的物种,选择核酸或蛋白质序列 有些分子比其它分子变化慢,适合于进行距离分析,如哺乳类的线粒体DNA 比较各个序列,产生序列的多重比对,确定各个序列符号的相对位置 根据每个序列比对的位置(即多重对比排列的每一列),确定相应的系统发育树 这样生成的树用最少的进化动作产生序列的差异,最终生成完整的树,对于DNA序列,最大化简

20、约法只考虑信息位点,即只从信息位点进行进化树的构建 信息位点(Informative site) :至少存在2个不同的碱基且每个不同碱基至少出现两次的位点 只有一个碱基且只在一个序列中出现的位点不属于信息位点,因为那种独特的碱基位点是由于在直接通向它所在序列的分枝上发生单个碱基变更所引起的。这种碱基变更可与任何拓扑结构相容,信息位点列举(以4条序列共9个位点为例),对于上例中的线粒体序列,存在5个信息位点:25、39、41、44、55 人类 GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TTACGACCCC TTATTTACC 黑

21、猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA CAACAGAGGC TCACGACCCC TTATTTACC 大猩猩GTAAATATAG TTTAACCAAA ACATCAGATT GTGAATCTGA TAACAGAGGC TCACAACCCC TTATTTACC 猩猩GTAAATATAG TTTAACCAAA ACATTAGATT GTGAATCTAA TAATAGGGCC CCACAACCCC TTATTTACC 长臂猿GTAAACATAG TTTAATCAAA ACATTAGATT GTGAATCTAA CAATAGAGGC TCGAAAC

22、CTC TTGCTTACC,人类: C G C C G 黑猩猩: C G C C G 大猩猩: C G T C A 猩猩: T A T T A 类人猿: T A C T A,根据5个信息位点得到的简约系统树,与距离法找到的系统树具有相同的拓扑结构,但非常有限的资料已产生了某些惊人的效果。,最大似然法(ML),如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树 最大似然法(maximum likelihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也引入了最大似然法

23、的分析方法。,最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。 在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长 。,最大似然法目标: 寻找能够以较高概率产生观察数据的系统发育树 对于给定的一组物种,假设它们的观察值为M(M为向量) 选择一棵树,使得P(M|T)最大 最大似然法是一类完全基于统计的系统发育树构建方法的代表,ML法建树由于在分析过程中对每个步骤都要考虑内部节点的所有可能性,计算量很大,较费时间 优化算法:可加快最大似然法寻找

24、最优树的搜索方法,如启发式搜索,分枝交换搜索等 但ML法具有很好的统计学理论基础,属于成熟的参数估计的统计学方法,在当样本量很大时,ML法可获得参数统计的最小方差 只要使用了一个合理的、正确的替换模型,最大似然法可以推导出一个很好的进化树结果,该方法在每组序列比对中考虑了每个核苷酸替换的概率 例如,转换出现的概率大约是颠换的3倍 概率的计算量复杂 被研究序列的共同祖先序列未知 替换可能发生在一个或多个位点,替换次数也可能发生多次 并不是所有的位点都是相互独立的,碱基变化的通用模型,三种建树方法比较,生成树的棵数 距离法:一棵树;MP/ML树:多棵树 计算时间 距离法 距离法/MP 适用场合 亲

25、缘关系远时,用距离法/ML;亲缘近时,用MP,结果评估,系统发育树的可靠性 对于所构建的系统发育树,统计分析的误差可能会影响所建树的可靠性。 问题: 整棵树和它的组成部分(分支)的置信度是多少? 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少? 方法 自展法:放回随机抽样 折刀法: “留一个在外”原则 参数检验 :用一些指数评价整体可靠性,自举检验(Bootstrap Method) 从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列 重复上面的过程,得到多组新的序列 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性,原始排列 Alpha AACA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论