五序列的同源比较及分子系统学和分子进化分析PPT课件_第1页
五序列的同源比较及分子系统学和分子进化分析PPT课件_第2页
五序列的同源比较及分子系统学和分子进化分析PPT课件_第3页
五序列的同源比较及分子系统学和分子进化分析PPT课件_第4页
五序列的同源比较及分子系统学和分子进化分析PPT课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

20 04 2020 1 第五章 序列的同源比较及分子系统学和分子进化分析 第一节 简介第二节 相似序列的获得第三节 多序列比对第四节 系统发育分析第五节 其他分子标记在生物系统学中的应用 20 04 2020 2 第一节 简介 生物学研究中常用的方法之一是通过比较分析获得有用的信息 过去进化学家和分类学家为衡量物种间亲缘关系的密切程度 花大量的精力把形态学特征数量化 希望以量化的形态学差异来表示物种间进化距离 但工作量大 标准不统一 导致进展缓慢 现如今 以大量公开的核酸和蛋白质数据为基础 利用序列分析的计算机软件构建生物进化树来研究各物种间的进化关系 20 04 2020 3 在本章里研究进化关系所用的软件 我们在应用这些软件时会遇到很多专业术语和应用的计算机程序 这些陌生的术语对于初学者的我们没必要搞清 只要会用就可以了 但要做出非常专业的进化分析则必须搞清每个专业术语的含义 构建系统树有很多的方法和步骤 我们会逐步学习 但不管采用什么样的方法 都有一些值得注意的问题 20 04 2020 4 第二节 相似序列的获得 对一段序列进行进化分析的基础是获得此序列大量的同源序列 包括同一物种和不同物种之间 当序列有足够的相似性性 我们才能推断序列之间是否具有同源性 同源性的判断是质的判断 进化分析是量的结果 两者之间如何进行统一 就是要有假设 当序列之间相似性超过一个值时 认为其是同源的 序列相似的原因有两个 一是来自于同一祖先 然后发生分歧 二是两个序列来自于不同的祖先 在相似的选择压力下发生趋同进化 形成相似序列 20 04 2020 5 三 VASTVAST是NCBI的相似结构搜索工具 它将一个新的蛋白质三维结构与PDB或MMDB数据库中的结构进行比较 通过结构比较 可以发现通过序列比较而无法发现的远程同源蛋白质 VAST算法是基于统计以下的结构相似性比较算法 VAST在评价结构相似显著性时 不过多的考虑微小子结构因偶然因素而形成的相似关系 而是着重考虑结构域的相似性 http www ncbi nlm nih gov structure VAST 20 04 2020 6 VAST的比较有三个步骤 首先 在数据坐标的基础上 标出所有构成蛋白质核心部分的 螺旋和 片层 然后根据这些二级结构单位的位置计算向量 使用这些向量进行结构比对而不是整个一套坐标 然后算法试图最佳地匹配这些向量 寻找类型和相对方向相同的成对结构单位 并且在这些单位之间还要有同样的连接方式 最后 在每个残基位置上使用蒙特卡洛方法对结构的比对进行优化 1LFL 20 04 2020 7 第三节 多序列比对 用于多序列比对的程序开发是一个很活跃的领域 目前 绝大多数的方法均是基于渐进比对的概念 渐进比对的方法假设了参与比对的序列存在亲缘关系 在算法上下功夫 以寻求计算速度与获得最佳比对之间的平衡 一 CLUSTAL W 20 04 2020 8 CLUSTAL是一个单机版的基于渐进比对的多序列比对工具 由HigginsD G 等开发 有应用于多种操作系统平台的版本 包括linux版 DOS版的clustlw clustalx等 CLUSTAL是一种渐进的比对方法 先将多个序列两两比对构建距离矩阵 反应序列之间两两关系 然后根据距离矩阵计算产生系统进化指导树 对关系密切的序列进行加权 然后从最紧密的两条序列开始 逐步引入临近的序列并不断重新构建比对 直到所有序列都被加入为止 20 04 2020 9 CLUSTAL W工作原理 Clustal输入多个序列 快速的序列两两比对 计算序列间的距离 获得一个距离矩阵 邻接法 NJ 构建一个树 引导树 根据引导树 渐进比对多个序列 20 04 2020 10 CLUSTAL W应用 1 输入输出格式 输入序列的格式比较灵活 可以是前面介绍过的FASTA格式 还可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 输出格式也可以选择 有ALN GCG PHYLIP和NEXUS等 用户可以根据自己的需要选择合适的输出格式 20 04 2020 11 2 两种工作模式 a 多序列比对模式 b 剖面 profile 比对模式 3 一个实际的例子 CLUSTAL W的应用 20 04 2020 12 多序列比对实例步骤 输入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 20 04 2020 13 第一步 输入序列文件 20 04 2020 14 第二步 设定比对的一些参数 20 04 2020 15 第三步 开始序列比对 第三步 开始序列比对 20 04 2020 16 第四步 比对完成 选择保存结果文件的格式 第四步 比对完成 选择保存结果文件的格式 20 04 2020 17 二 BioEditBioEdit程序非常适合序列比对 编辑和分析 是基于Windows平台的一种比对程序 目前应用最多 可免费下载 BioEdit具体用法见三 MultAlinMultAlin从一系列的两联比对开始 得到分值 然后根据这个分值进行分层次的聚类 http multalin toulouse inra fr multalin multalin html四 GCG数据库GCG软件是一套蛋白质 核酸序列分析软件 20 04 2020 18 GCG支持五种数据库供Wisconsin软件包使用 其中包括两种核酸数据库 GenBank数据库 由GenBank中没有的序列组成的简化版的EMBL核酸序列数据库 和三种蛋白质数据库 PIR Swiss Prot SP TrEMBL数据库 GCG支持的数据库两个月更新一次 20 04 2020 19 第四节 系统发育分析课本104页 系统发育分析是根据同源性状的分歧来评估物种或分子之间的进化关系 这种进化关系通常用分支图 系统树 来描述 对序列的系统发育分析又称为分子系统学或分子系统发育研究 比起其他实验性学科 分子系统学与其他进化研究一样有其局限 即系统发育的发生过程都是已经完成的历史 不能再现 如何从序列中得到有用的信息 如何用计算的办法得到可信的进化树 如何从有限的数据得到进化模式已成为这个领域的研究热点 系统发育树是什么 对一组实际对象的世系关系的描述 如基因 物种等 20 04 2020 20 一个系统发育树 末端 物种 顶端 中间节点 中间枝条 根 末端分支 叶子 节点 20 04 2020 21 A B C D E F G 树只代表分支的拓扑结构 F G C D E A B 20 04 2020 22 一般来说 系统树是一种两叉树 由一系列节点和分支组成 每个节点代表一个分类单元 物种或序列 而节点之间的连线代表物种间的进化关系 树的节点又分为外部节点和内部节点 系统发生树有多种形式 可能是有根树 rootedtree 也可能是无根树 unrootedtree 可能是一般的树 也可能是二叉树 可能是有权值的树 或标度树 树中标明分支长度 也可能是无权值树 非标度树 在有根树中 有一个唯一的根节点 代表所有其他根节点的共同祖先 这样的树能够反映进化层次 从根节点历经进化到任何其他节点只有唯一的路径 20 04 2020 23 Rootedbyoutgroup archaea archaea archaea bacteriaoutgroup root eukaryote eukaryote eukaryote eukaryote 无根树 archaea archaea archaea Monophyleticgroup 单源群 Monophyleticgroup 有根树 无根树 外围群 有根树 外围群 20 04 2020 24 分子进化研究的基础 假设 核苷酸和氨基酸序列中含有生物进化历史的全部信息 分子进化研究的基础 理论 在各种不同的发育谱系及足够大的进化时间尺度中 许多序列的进化速率几乎是恒定不变的 分子钟理论 1965 分子进化研究的基础 实际 虽然很多时候仍然存在争议 但是分子进化确实能阐述一些生物系统发生的内在规律 20 04 2020 25 从一个分歧数据可以推测其他 序列分歧度 分歧时间 x 分子钟理论 20 04 2020 26 一 系统树的构建方法系统树的构建主要有三种方法 距离法 最简约法 最大似然法 1 距离法距离法又称距离矩阵法 首先通过各个物种之间的比较 根据一定的假设 进化距离模型 推导得出分类群之间的进化距离 构建一个进化距离矩阵 进化树的构建则是基于这个矩阵中的进化距离关系 计算序列的距离 建立距离矩阵 通过距离矩阵建进化树 20 04 2020 27 一种简单的距离矩阵 20 04 2020 28 由进化距离构建进化树的方法有很多 常见有 1 Fitch MargoliashMethod FM法 2 Neighbor JoiningMethod NJ法 邻接法 3 NeighborsRelatonMethod 邻居关系法 4 UnweightedPairGroupMethod UPGMA法 通过矩阵建树的方法 20 04 2020 29 Fitch Margoliash方法 FM法 20 04 2020 30 1 找出关系最近的序列对 如A和B2 将剩余的序列作为一个简单复合序列 分别计算A B到所有其他序列的距离的平均值3 用这些值来计算A和B间的距离4 将A B作为一个单一的复合序列AB 计算与每一个其他序列的距离 生成新的距离矩阵5 确定下一对关系最近的序列 重复前面的步聚计算枝长7 从每个序列对开始 重复整个过程8 对每个树计算每对序列间的预测距离 发现与原始数据最符合的树 Fitch Margoliash方法 FM法 小结 20 04 2020 31 NJ 邻接法 任意两个节点选为相邻序列的总支长计算公式 20 04 2020 32 把A B看成一个新的复合序列 构建一个新的距离表 重复以上过程 20 04 2020 33 邻居关系法 AB组合出现3次 DE组合出现3次 CD AC BC组合各一次 则AB和DE各为两对关系最近的邻居 关系最近的邻居作为邻居的次数最多 将邻居看成一个新的复合序列 重复这个过程 20 04 2020 34 UPGMA法 d e 10 2 5 20 04 2020 35 c 19 2 9 5g c d 9 5 5 4 5 20 04 2020 36 a b 22 2 11 20 04 2020 37 f1 a f2 c 40 5 2 20 25f1 9 25 f2 11 75 20 04 2020 38 2 最大简约法简约法是分子系统学中应用最广的一种方法 该方法的原则是在所有可能的物种中 最能反映进化历史的树具有最短的树长 即进化步数最少 形状在系统树种改变的次数 树长是所有形状在所有分支上发生的状态改变的总和 20 04 2020 39 最大简约法 maximumparsimony MP 最早源于形态性状研究 现在已经推广到分子序列的进化分析中 最大简约法的理论基础是奥卡姆 Ockham 哲学原则 这个原则认为 解释一个过程的最好理论是所需假设数目最少的那一个 对所有可能的拓扑结构进行计算 并计算出所需替代数最小的那个拓扑结构 作为最优树 优点 最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设 替代模型 此外 最大简约法对于分析某些特殊的分子数据如插入 缺失等序列有用 20 04 2020 40 缺点 在分析的序列位点上没有回复突变或平行突变 且被检验的序列位点数很大的时候 最大简约法能够推导获得一个很好的进化树 然而在分析序列上存在较多的回复突变或平行突变 而被检验的序列位点数又比较少的时候 最大简约法可能会给出一个不合理的或者错误的进化树推导结果 20 04 2020 41 3 最大似然法用于构建基于基因频率的系统树 这种方法是首先选定一个进化模型 计算该模型下 各种分支树产生现有数据的可能性 具有最大可能性的系统树为最优 一个树的似然性等于每一个形状的似然性之和或每一个性状的似然性对数和 20 04 2020 42 最大似然法分析中 选取一个特定的替代模型来分析给定的一组序列数据 使得获得的每一个拓扑结构的似然率都为最大值 然后再挑出其中似然率最大的拓扑结构作为最优树 在最大似然法的分析中 所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长 并对似然率球最大值来估计枝长 最大似然法的建树过程是个很费时的过程 因为在分析过程中有很大的计算量 每个步骤都要考虑内部节点的所有可能性 最大似然法是一个比较成熟的参数估计的统计学方法 具有很好的统计学理论基础 在当样本量很大的时候 似然法可以获得参数统计的最小方差 只要使用了一个合理的 正确的替代模型 最大似然法可以推导出一个很好的进化树结果 20 04 2020 43 由于最大似然法的分析过程需要耗费较多的时间 针对这种情况 发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法 如启发式搜索 分枝交换搜索等 最大似然法具有坚实的统计学理论基础 充分的使用了分析序列中的信息资源 只要采用了合理的替代模型 可以得出很好的进化树分析结果 20 04 2020 44 4 对三种构建方法的评价 1 距离法是一种纯数学计算过程 其算法本身就决定了最优树的选择标准 2 当DNA的进化速率在不同分支上相差很大或亲缘关系太远时 简约法低估了实际发生的碱基替换数而造成数据越多越支持错误的系统树 3 在计算时间上 距离法最快 最大似然法最慢 因此 当数据矩阵过大时 距离法非常有用 4 距离法和最大似然法都可以估计枝长 而简约法不能 20 04 2020 45 5 系统树的统计分析 1 在分子系统学研究中 用重复取样来检验系统树的可靠性 主要有两种方法即自展法和折刀法 自展法是原有数据中的性状进行复置重复取样 即随机抽取一个性状后 再将该性状放回原数据 继续随机抽样 直到新产生的一组数据大小与原有数据相同为止 20 04 2020 46 2 对整个系统树的评价广泛用于评价一个系统树可靠性的指标是一致性系数 CI 和保持性指数 RI Ic R LR 所有性状的范围的总和 即性状可能变化的最小值L 给定系统树的最小进化步数 20 04 2020 47 二 常用的系统树构建程序1 PHYLIPPHYLIP是包含35个独立程序的软件包 基本上包括了系统发育分析的所有方面 可在很多平台上运行 包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html可以免费下载软件及手册 PHYLIP是目前使用较为广泛的系统发育程序 主要包括一下几个程序组 分子序列组 距离矩阵组 基因频率组 离散字符组 进化树绘制组 PHYLIP现版本为3 69 20 04 2020 48 PHYLIP软件包分组介绍 分子序列组 1 蛋白质序列 protpars proml promlk protdist2 核酸序列 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp距离矩阵组 Fitch kitsch neighbor基因频率组 Gendist contml 20 04 2020 49 离散字符组 Pars mix move penny dollop dolmove dolpenny clique factor进化树绘制组 drawtree drawgram其他 restdist restml seqboot contrasttreedist consense retree 20 04 2020 50 PHYLIP软件包的文档是非常详细的 对于每个独立的程序 都有一个独立的文档 详细的介绍了该程序的使用及其说明 此外 PHYLIP软件包还包括程序的源代码 c语言 PHYLIP软件包的文档 20 04 2020 51 软件包的应用 1 根据你的分析数据 选择适当的程序如 你分析的是DNA数据 就在核酸序列分析类中选择程序 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp 如果分析的是离散数据 如突变位点数据 就在离散字符组里面选择程序 2 选择适当的分析方法如你分析的是DNA数据 可以选择简约 DNAPARS 似然法 DNAML DNAMLK 距离法等 DNADIST 20 04 2020 52 3 进行分析选择好程序后 执行 读入分析数据 选择适当的参数 进行分析 结果自动保存为outfile outtree Outfield是一个记录文件 记录了分析的过程和结果 可以直接用文本编辑器 如写字板 打开 Outtree是分析结果的树文件 可以用phylip提供的绘树程序打开查看 也可以用其他的程序来打开 如treeview 20 04 2020 53 加入统计分析 我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的 有很多可能使得这个树并不一定可靠 1 测序的出错 2 多序列比对算法本身的问题 3 其他的问题 我们可以引进一些统计分析来寻找更优的进化树最常见的就是bootstrap分析 20 04 2020 54 分析 Phylip软件包中有两个用于执行bootstrap分析的程序 seqboot exe consence exe 分析过程 1 Seqboot产生大量的数据组2 应用选择的算法对产生的数据组进行分析 3 由consence获得最优树 20 04 2020 55 2 PAUPPAUP是著名的系统发育分析商业软件 具有简单并带有菜单的页面 目前 PAUP中构建系统树的方法包括MP 最简约法 如果针对核苷酸数据 还有距离法和最大似然法 现今有mac win linux等多种版本 该软件不是免费软件 使用者需要向开发者购买 20 04 2020 56 3 PAMLPAML是免费软件包 PAML能够进行ML模型的建立和系统树的构建与评估 4 其他程序 1 FastDNAml是一个独立的最大似然法建树程序 2 MACCLEADE是一个交互式的Macintosh程序 能够对系统树和数据进行操作 研究特性状态下的系统发育行为 3 MEGAplusMETREE 4 MOLPHY是共享软件包 可进行ML分析及核苷酸序列或氨基酸序列的统计 20 04 2020 57 三 一些需要注意的问题 1 到目前为止 在进行系统的发育分析中 最重要的不是进行发育分析采用的方法 而是输入数据的质量 即选择数据永远比比对过程重要 即使是最复杂的发育推断方法都不能矫正数据的错误 2 从尽可能多的角度观察数据 可以分别从距离法 最大简约法和最大似然法分别观察数据 然后比较其所建立的进化树的一致性 尽管不同的方法得到的结果一致 也不能必然意味着结果就是统计显著的 因为达到一致性的因素很多 20 04 2020 58 3 选择合适的外群对分析相当重要 尤其是当外群同一个或几个内在的分类群拥有一个不同寻常的属性时 问题就会复杂化 4 序列的输入顺序不同 程序也会给出不同的系统树 如建树软件PHYLIP和PAUP提供了一个随机选项 可以按照随机的顺序输入程序进行运算 20 04 2020 59 系统树构建案例分析 1 病毒基因组分析病毒受自身突变和自然选择的影响 但病毒基因组的进化速度远远超过其他细胞的基因组 2 运用生物信息学方法研究SARS由一个典型的冠状病毒结构 按照一定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论