免费预览已结束,剩余56页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章系统发生分析 主讲人 孙啸制作人 刘志华 东南大学吴健雄实验室 CharlesDarwin 1809 1882 第一节系统发生与系统发生树 基本概念 系统发生 phylogeny 是指生物形成或进化的历史系统发生学 phylogenetics 研究物种之间的进化关系系统发生树 phylogenetictree 表示形式 描述物种之间进化关系 WilliHennig 1913 1976 系统发生学 分支学 创始人 经典系统发生学主要是物理或表型特征如生物体的大小 颜色 触角个数现代系统发生学利用从遗传物质中提取的信息作为物种特征具体地说就是核酸序列或蛋白质分子关于现代人起源的研究 线粒体DNA 所有现代人都是一个非洲女性的后代 分类单元 物种或序列 物种之间的进化关系 系统发生树性质 1 如果是一棵有根树 则树根代表在进化历史上是最早的 并且与其它所有分类单元都有联系的分类单元 2 如果找不到可以作为树根的单元 则系统发生树是无根树 3 从根节点出发到任何一个节点的路径指明进化时间或者进化距离 对于给定的分类单元数 有很多棵可能的系统发生树 但是只有一棵树是正确的 系统发生分析的目标 寻找这棵正确的树 系统发生分析步骤 1 序列比对 2 确定替换模型 3 构建系统发生树 4 评价所建立的树 计算序列之间距离令S i j 是序列i和序列j比对位置得分的加权和 归一化的距离 其中Sr i j 是序列i和j随机化之后的比对得分的加权和 Smax i j 是可能的最大值令Sr i j 0为了适合于处理相似性较小的序列 可以进一步修改距离计算公式 两类数据 距离离散特征离散特征数据可分为二态特征 例如 DNA序列上的某个位置如果是剪切位点多态特征 例如 某一位置可能的碱基有 或 系统发生树的构建方法分为两大类 基于距离的构建方法非加权组平均法邻近归并法Fitch Margoliash法最小进化方法基于离散特征的构建方法最大简约法最大似然法进化简约法相容性方法 根据建树算法在执行过程中采用的搜索方式 系统发生树的构建方法也可以分为以下3类 1 穷尽搜索方法即产生所有可能的树 然后根据评价标准选择一棵最优的树 2 分支约束方法即根据一定的约束条件将搜索空间限制在一定范围内 产生可能的树 然后择优 3 启发式或经验性方法根据先验知识或一定的指导性规则压缩搜索空间 提高计算速度 第二节基于距离的系统发生树构建方法 基本思路是 给定一种序列之间距离的测度 在该距离测度下构建一棵系统发生树 使得该树能够最好地反映已知序列之间的距离 10条核酸序列的距离矩阵 例 如果有三个物种 其两两距离如下 dab 0 08dac 0 45dbc 0 43 通过求解方程 得到如图6 2所示的一棵树 1 最小二乘法 目标是构造一棵树T 该树的叶节点代表物种 用该树预测物种之间的距离 通过优化 使下式最小化 这里 Dij为物种i和j的实际观察距离 或序列之间的计算距离 dij是物种i和j在系统发生树T中的距离 Wij是与物种i和j相关的权值 SSQ T 是树T所有预测值与实际观察值偏差的累加和 权值Wij一般为1 或Wij 1 Dij2 2 连锁聚类方法 选择距离最小的一对序列将这两个序列合二为一 形成一个新的对象 代表这两个序列的祖先 重新计算这个新的对象与其它序列的距离 单连锁聚类 d x u min d y u d z u 最大连锁聚类 d x u max d y u d z u 平均连锁聚类 d x u 1 2 d y u d z u 其中x代表y和z的合并 u代表任意其它对象 3 非加权分组平均法 UnweightedPairGroupMethodwithArithmeticmean UPGMA 在平均连锁聚类过程中 一个新类到其它类之间的距离就是简单的原距离平均值 如果类中分类单元个数不一样 原距离矩阵中各个距离值对新距离计算的贡献就不一样 或者说是经过 加权 的 称这样的聚类为加权分组平均 在非加权分组平均法中 在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理 UPGMA算法的执行过程如下 1 初始化 使每个物种自成一类 如果有n个物种 则开始时共有n个类 每个类的大小为1 分别用n个叶节点代表每个类 2 执行下列循环 l寻找具有最小距离Dij的两个类i j 建立一个新的聚类 ij l连接i和j形成新节点 ij 生长两个新的分支 将i和j连接到 ij 分支的长度为Dij 2 l计算新分类到其它类的距离其中ni nj ni nj 分别为i类 j类 ij 类的元素个数 l在距离矩阵中删除与类i和类j相应的行和列 为类 ij 加入新的行和列 重复循环 直到仅剩一个类为止 4 邻近归并法 基本思想 在进行类的合并时 不仅要求待合并的类是相近的 同时还要求待合并的类远离其它的类 重建时将距离最小的两个叶节点连接起来 合并这两个叶节点所代表的分类 形成一个新的分类 在树中增加一个父节点 并在距离矩阵中加入新的分类 同时删除原来的两个分类 重复上一次循环 直到只剩一个类为止 在每一次的循环中 在树中寻找两个物种的直接祖先 对于节点i 到其它节点的距离ui按下式进行估算 ui k i Dik n 2 这里Dik是分类i和分类k之间的距离选择Dij ui uj最小的一对节点i和节点j进行归并 算法如下 1 初始化 与UPGMA一样 2 循环对于所有的分类单元i 计算ui k I Dik n 2 选择一对分类单元i和j 使Dij ui uj最小 将i和j归并为新的类 ij 在树中添加一个新的节点 代表新生成的分类 计算从i和j到新节点的分支长度 di ij 1 2Di j 1 2 ui uj dj ij 1 2Di j 1 2 uj ui 计算新类与其它类的距离 D ij k 1 2 Di k Dj k Di j 删除聚类i和j 添加新类 ij 如果有两个以上的分类存在 则继续执行循环 否则用长度为Di j的分支连接剩余的两个类 图6 7利用邻近归并算法构造的系统发生树 图6 8利用邻近归并算法构造的系统发生树 第三节基于特征的系统发生树构建方法 一般问题 给定n个物种m个用以描述物种的特征每个物种所对应的特征值 构建一棵系统发生树 使得某个目标函数最大 输入一般为n m的特征矩阵M在构建系统发生树假设特征是相互独立的 即一个特征的变化不影响另一个特征 另外 还假设在进化过程中 两个物种分叉后独立进化 互不影响 1 最大简约法 目标 构造一棵反映分类单元之间最小变化的系统发生树 所谓简约就是使代价最小 对于系统发生树最直观的代价计算就是沿着各个分支累加特征变化的数目 最大简约法的处理过程 1 针对待比较的物种 选择核酸或蛋白质序列 有些分子比其它分子变化慢 适合于进行距离分析 例如哺乳类的线粒体DNA 管家蛋白质等 2 比较各个序列 产生序列的多重比对 确定各个序列符号的相对位置 3 根据每个序列比对的位置 即多重对比排列的每一列 确定相应的系统发生树 该树用最少的进化动作产生序列的差异 最终生成完整的树 对于一棵系统发生树T假设树中的节点用V T 表示 树的边用E T 以uj vj分别表示节点u和v的第j个特征 则树T的代价为 单特征Fitch算法 首先对于每个待分析的物种 分配一个叶节点v 其值vc取对应物种的特征值 然后执行下面两步 1 给每个节点v赋予一个集合Sv 如果v是叶节点 则Sv vc 如果v是内部节点 并且u w是其子节点 如果Su Sw 则Sv Su Sw 否则S v Su Sw 这个过程是从叶节点开始 直至处理到根节点 如果用递归算法 则应该按后序遍历方式处理每个节点 2 给定集合Sv 为每个内部节点v的特征c赋予值vc 如果v有一个父节点u满足uc Sv 则将uc赋予vc 否则任取一个t Sv赋予vc 这个过程的执行方向刚好与上一个过程相反 即从树根出发 直至叶节点为止 最后得到完全标定的树 应按前序遍历方式依次处理每个节点 2 最大似然法 最大似然法目标是寻找能够以较高概率产生观察数据的系统发生树 对于给定的一组物种 假设它们的观察值为M M为向量 选择一棵树 使得P M T 最大 3 相容性方法 定义目标函数考虑的另一方面是相容性 compatibility 即与一棵树相一致的特征个数 很显然 相容的特征数越多越好 相容性方法实际上是简约方法的一种简化 在所有的特征都是二值的情况下 这种方法非常有用 令S代表一组分类单元T是关于S的系统发生树如果在解释叶节点中分类单元的特征数据时 只需要沿T的一条边变化 则称该特征与系统发生树T是相容的 系统发生树的可靠性对于所构建的系统发生树 统计分析的误差可能会影响所建树的可靠性 问题 整棵树和它的组成部分 分支 的置信度是多少 这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少 自举检验参数检验 系统发生分析中可能存在的问题序列的选择基因的水平转移不同的序列 不同的结果全基因组的系统发生分析基于多棵系统发生树的方法基于基因内容的方法基于蛋白质折叠结构的方法基于基因次序的方法基于连接的直向同源蛋白的方法基于代谢途径 pathway 的方法 系统发生分析常用软件 1 PHYLIP 2 PAUP 3 TREE PUZZLE 4 MEGA 5 PAML 6 TreeView 7 VOSTORG 8 Fitchprograms 9 Phylo win 10 ARB 11 DAMBE 12 PAL 13 Bionumerics其它程序见 http evolution genetics washington edu phylip software html 系统发生分析实例 分析的对象13条来自不同物种的同源蛋白质 1 多重序列比对 2 构建系统发生树 根据序列比
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 马来西亚医患关系研究
- 2026届安徽省泗县刘圩高级中学高一化学第一学期期末统考模拟试题含解析
- 2025年高级康复治疗师考试真题及答案
- 2025年假肢装配工岗位能力模拟卷及答案
- 2026届内蒙古呼和浩特回民中学高二化学第一学期期中监测试题含解析
- 2025年安全生产标准化建设现场评审标准试题及答案
- 2025断层解剖学广度试题及答案
- 全民领导面试题及答案
- 青海医疗面试题及答案
- 2026届上海市浦东新区高桥中学化学高一上期中学业水平测试模拟试题含解析
- 保安岗位人员替换方案(3篇)
- 环境生物化学与毒理化学课件
- CSSD特殊感染器械的处理流程-课件
- 职业暴露后的应急处理和报告流程
- 基于项目化学习的红色经典作品整本书阅读教学探索-以《红星照耀中国》为例
- 2024-2025学年广东省五校高二上学期期末联考化学试题(解析版)
- 教育部《高中语文新课程标准》
- 医学生创业计划实施路径
- 新生儿科入科培训
- 建筑材料员培训大纲
- 初中必背词汇1600(带翻译)-初中必背3000单词
评论
0/150
提交评论