分子系统发育分析研究生生物信息学课件07.ppt_第1页
分子系统发育分析研究生生物信息学课件07.ppt_第2页
分子系统发育分析研究生生物信息学课件07.ppt_第3页
分子系统发育分析研究生生物信息学课件07.ppt_第4页
分子系统发育分析研究生生物信息学课件07.ppt_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分子进化与相关分析软件的应用 内容提要 分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用 内容提要 分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用 系统发育 系统发育学 根据现有数据推演进化谱系的科学系统发育分析 根据特征或距离数据确定基因 物种起源和发生关系的方法 分析结果常以系统发育树的形式直观地呈现出来 系统发育树是什么 对一组实际对象的世系关系的描述 如基因 物种等 一个系统发育树 末端 物种 顶端 中间节点 中间枝条 根 末端分支 叶子 节点 A B C D E F G 树只代表分支的拓扑结构 F G C D E A B 从物种的一些分子特性出发 从而了解物种之间的生物系统发生的关系 蛋白和核酸序列通过序列相似性的比较进而了解基因的进化以及生物系统发生的内在规律 分子进化研究的目的 分子进化研究的基础 核苷酸和氨基酸序列中含有生物进化历史的全部信息 假设 在各种不同的发育谱系及足够大的进化时间尺度中 许多序列的进化速率几乎是恒定不变的 分子钟理论 虽然仍存在争议 但是分子进化确实能阐述一些生物系统发生的内在规律 实际 从一个分歧数据可以推测其他 序列分歧度 分歧时间 x 分子钟理论 分子钟概念的提出中性学说认为 分子进化速率取决于蛋白质或核酸等大分子中的氨基酸或核苷酸在一定时间内的替换率 生物大分子进化的特点之一是 每一种大分子在不同生物中的进化速度都是一样的 每年每个氨基酸置换频率为0 3 5X10 9个 是个常数 两个物种在同一蛋白分子中的氨基酸相异的数目即发生置换的数目 与该两种生物分歧的时间成正比 以血红蛋白的 链为例 鲤 马和人的 链都是由141个氨基酸所构成 其中鲤和马有66个氨基酸不同 马和人有18个氨基酸不同 分子进化速率与种群的大小 物种的生殖力和寿命都没有关系 也就是说 分子进化是随机发生的 而不是选择的结果 分子进化的中性学说 非达尔文主义 1968年日本遗传学家木村资生 M kimura 在英国科学杂志 自然 上 发表了 分子水平上的进化速率 一文 翌年 美国的两位科学家雅克 金和托马斯 朱克斯 在美国杂志 科学 上发表了 非达尔文主义进化 一文 以 中性突变 为基础的分子进化学说逐渐形成了 1 中性学说产生的学术背景 同功酶的发现和研究指能催化相同的化学反应 但蛋白质分子结构不同的一类酶 它们在生理上 免疫上 理化性质上都有一定的差异 它们存在于同一个体或同一组织中 例如 乳酸脱氢酶LDH是由4个亚基聚合而成的四聚体 可形成5种LDH同工酶 H4 M4 H3M1 H2M2和HM3 其中M型在骨骼肌 H型在心肌 由此说明 自然群体在分子水平上存在着意想不到的多态性 而这正是综合进化论所解释不通的 这个学说认为 从分子水平看 大部分突变对于生物体的生存既不产生有利的效应 也不酿成不利的后果 因此 这类突变在自然选择中是 中性 的 在亿万年中 生物体内的基因不断地产生 中性突变 它们不受自然选择的支配 而是通过随机的偶然的过程即遗传漂变 在群体中固定下来或是被淘汰 结果就造成了基因和蛋白质分子的多样性 实现了分子的进化 遗传漂变的理论认为多数或绝大多数突变都是中性的 即无所谓好或坏 遗传漂变是随机的 并不是自然选择的结果 2 中性学说的内容 A 分子进化速度的一定性 即同一生物大分子在不同物种中的进化速度是一样的 B 功能上对生命生存制约性低的分子或一个分子中不那么重要的部分 较之对生命生存制约性高的分子或分子中重要的部分 其突变置换率高 C 进化过程中 对分子功能不损害或损害轻的突变 置换 较之损害严重的突变容易发生 D 具有新功能的基因一般起源于基因重复 E 中性突变包括有害程度轻微的突变 分子进化中遗传漂变对中性突变在群体中的固定发挥着重要作用 即遗传漂变是分子进化的基本动力 3 70年代后期分子生物学的蓬勃发展致使中性学说得以正式确立 无表达功能的内含子的进化速度远远高于有表达功能的外显子的进化速度 伪基因 具有与功能基因相似的碱基序列 但是不能产生有活性的基因产物 也不参与调控其他基因的功能 属于死亡了的基因 中的突变 置换 不论是同义置换抑或非同义置换 均较功能基因快上好几倍 这一特点最强有力地支持了中性学说 4 中性学说面临的两大难题 无法解释物种的形成 无法解释表现型水平上的进化 达尔文主义和中性学说是两种完全不同的机制 如何实现这两者的统一 1 分子水平上的进化主要是由中性突变与遗传漂变导致的基因频率的固定所造成的 表现型水平上的进化则是适应性进化 自然选择对此是最合理的解释 2 中性进化不应该说是非达尔文式进化 而应该是进化中的非达尔文式变化 3 两者关键在于对选择对象的解释不同 中性学说 基因即碱基对 分子进化达尔文主义 个体 种群进化 直系同源 orthologs 同源的基因是由于共同的祖先基因进化而产生的 旁系同源 paralogs 同源的基因是由于基因复制产生的 以上定义源自Fitch W M 1970 Distinguishinghomologousfromanalogousproteins Syst Zool 19 99 113 直系同源与旁系同源 paralogs orthologs paralogs orthologs ErikL L SonnhammerOrthology paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol 18No 12December20020168 9525 02 seefrontmatter 2002ElsevierScienceLtd Allrightsreserved 以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的 才能真实反映进化过程 趋同进化的基因 geneshaveconvergedfunctionbyseparateevolutionarypaths 异源基因或水平转移基因 xenologousorhorizontallytransferredgenes Bacterium1 Bacterium3 Bacterium2 Eukaryote1 Eukaryote4 Eukaryote3 Eukaryote2 Bacterium1 Bacterium3 Bacterium2 Eukaryote1 Eukaryote4 Eukaryote3 Eukaryote2 Phylogramsshowbranchorderandbranchlengths进化树 有分支和支长信息 2 进化分支图 进化树 Cladogramsshowbranchingorder branchlengthsaremeaningless进化分支图 只用分支信息 无支长信息 Rootedbyoutgroup archaea archaea archaea bacteriaoutgroup root eukaryote eukaryote eukaryote eukaryote 无根树 archaea archaea archaea Monophyleticgroup 单源群 Monophyleticgroup 3 有根树 无根树 外围群 有根树 外围群 选择外类群 Outgroup 选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与剩余序列关系较近 但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著 bacteriaoutgroup eukaryote eukaryote eukaryote eukaryote archaea archaea archaea 外围群 4 基因树 物种树 Weoftenassumethatgenetreesgiveusspeciestrees a b c A B D Genetree Speciestree 内容提要 分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用 系统发育树重建分析步骤 多序列比对 自动比对 手工比对 建立取代模型 建树方法 建立进化树 进化树评估 BioinformaticsSequenceandGenomeAnalysisDavidW MountChapter6PhylogeneticPrediction TheSourceBelowComeFrom 系统发育树重建的基本方法 最大简约法 maximumparsimony MP 距离法 distance 最大似然法 maximumlikelihood ML 最大简约法 MP 最大简约法 maximumparsimony MP 最早源于形态性状研究 现在已经推广到分子序列的进化分析中 最大简约法的理论基础是奥卡姆 Ockham 哲学原则 这个原则认为 解释一个过程的最好理论是所需假设数目最少的那一个 对所有可能的拓扑结构进行计算 并计算出所需替代数最小的那个拓扑结构 作为最优树 序列个数与树的个数的关系 信息位点 Sitesareinformative 所谓信息位点 它必须在至少2个分类群中具有相同的序列性状 信息位点是指那些至少存在2个不同碱基且每个不同碱基至少出现两次的位点 优点 最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设 替代模型 此外 最大简约法对于分析某些特殊的分子数据如插入 缺失等序列有用 最大简约法 MP 缺点 在分析的序列位点上没有回复突变或平行突变 且被检验的序列位点数很大的时候 最大简约法能够推导获得一个很好的进化树 然而在分析序列上存在较多的回复突变或平行突变 而被检验的序列位点数又比较少的时候 最大简约法可能会给出一个不合理的或者错误的进化树推导结果 最大简约法 MP 距离法 距离法又称距离矩阵法 首先通过各个物种之间的比较 根据一定的假设 进化距离模型 推导得出分类群之间的进化距离 构建一个进化距离矩阵 进化树的构建则是基于这个矩阵中的进化距离关系 计算序列的距离 建立距离矩阵 通过距离矩阵建进化树 一种简单的距离矩阵 由进化距离构建进化树的方法有很多 常见有 1 Fitch MargoliashMethod FM法 2 Neighbor JoiningMethod NJ法 邻接法 3 NeighborsRelatonMethod 邻居关系法 4 UnweightedPairGroupMethod UPGMA法 通过矩阵建树的方法 Fitch Margoliash方法 FM法 DE距离 d e 1 D到ABC间的平均距离 d m 2 E到ABC间的平均距离 e m 3 2 3 1 d 4 e 6 c g e d 2 19 1 c f a b 2 40 2 e d 2 a b 2 f g 41 3 1 2 3 得 c 9 c g e d 2 19 e d 2 5 c 9 则g 5 由 a b 2 f g d e 2 41得 f 20由 a f c 39得 a 10 则b 12 1 找出关系最近的序列对 如A和B2 将剩余的序列作为一个简单复合序列 分别计算A B到所有其他序列的距离的平均值3 用这些值来计算A和B间的距离4 将A B作为一个单一的复合序列AB 计算与每一个其他序列的距离 生成新的距离矩阵5 确定下一对关系最近的序列 重复前面的步聚计算枝长7 从每个序列对开始 重复整个过程8 对每个树计算每对序列间的预测距离 发现与原始数据最符合的树 Fitch Margoliash方法 FM法 小结 NJ 邻接法 任意两个节点选为相邻序列的总支长计算公式 把A B看成一个新的复合序列 构建一个新的距离表 重复以上过程 邻居关系法 AB组合出现3次 DE组合出现3次 CD AC BC组合各一次 则AB和DE各为两对关系最近的邻居 关系最近的邻居作为邻居的次数最多 将邻居看成一个新的复合序列 重复这个过程 UPGMA法 d e 10 2 5 c 19 2 9 5g c d 9 5 5 4 5 a b 22 2 11 f1 a f2 c 40 7 2 20 35f1 9 35 f2 10 85 最大似然法 ML 最大似然法 maximumlikelihood ML 最早应用于系统发育分析是在对基因频率数据的分析上 后来基于分子序列的分析中也已经引入了最大似然法的分析方法 最大似然法分析中 选取一个特定的替代模型来分析给定的一组序列数据 使得获得的每一个拓扑结构的似然率都为最大值 然后再挑出其中似然率最大的拓扑结构作为最优树 在最大似然法的分析中 所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长 并对似然率求最大值来估计枝长 最大似然法 ML 最大似然法的建树过程是个很费时的过程 因为在分析过程中有很大的计算量 每个步骤都要考虑内部节点的所有可能性 最大似然法是一个比较成熟的参数估计的统计学方法 具有很好的统计学理论基础 在当样本量很大的时候 似然法可以获得参数统计的最小方差 只要使用了一个合理的 正确的替代模型 最大似然法可以推导出一个很好的进化树结果 最大似然法 ML 碱基变化的通用模型 L Tree1 L1 L2 L6 L Tree2 L1 L2 L6 似然值最大 即SUM最大的拓扑树则为最优树 由于最大似然法的分析过程需要耗费较多的时间 针对这种情况 发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法 如启发式搜索 分枝交换搜索等 最大似然法具有坚实的统计学理论基础 充分的使用了分析序列中的信息资源 只要采用了合理的替代模型 可以得出很好的进化树分析结果 最大似然法 ML 进化树的可靠性分析 自展法 BootstrapMethod 从排列的多序列中随机有放回的抽取某一列 构成相同长度的新的排列序列重复上面的过程 得到多组新的序列对这些新的序列进行建树 再观察这些树与原始树是否有差异 以此评价建树的可靠性 原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAAC Bootstrap1AlphaACAAACBetaACACCCGammaACCAACDeltaCACCCAEpsilonCACAACBootstrap2AlphaAAAACCBetaAACCCCGammaACAACCDeltaCCCCAAEpsilonCCAAACBootstrap3AlphaACAAACBetaACCCACGammaCCAAACDeltaCACCCAEpsilonCAAACC 内容提要 分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用 常见的分子进化分析程序 1 Phylip由华盛顿大学遗传学系开发 是一个免费的系统发育分析软件包 可以通过以下地址下载 http evolution genetics washington edu phylip html2 PAUP 最早是在苹果机上开发的具有菜单界面的进化分析软件 早先版本只有MP法 后续版本已经包括距离法和ML法 现今有mac win linux等多种版本 该软件不是免费软件 使用者需要向开发者购买 Phylip软件包介绍 Phylip是一个免费的系统发生 phylogenetics 分析软件包 以下链接可以下载 http evolution genetics washington edu phylip html由华盛顿大学遗传学系开发 1980年首次公布 目前的版本是3 67 2007年7月 Phylip软件包介绍 Phylip包含了35个独立的程序 这些独立的程序都实现特定的功能 这些程序基本上包括了系统发生分析的所有方面 Phylip有多种不同平台的版本 包括windows Macintosh DOS Linux Unix和OpenVMX Phylip是目前最广泛使用的系统发生分析程序 主要包括以下几个程序组 分子序列组 距离矩阵组 基因频率组 离散字符组 进化树绘制组 Phylip软件包介绍 分子序列组 1 蛋白质序列 protpars proml promlk protdist2 核酸序列 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp Phylip软件包分组介绍 距离矩阵组 Fitch kitsch neighbor基因频率组 Gendist contml离散字符组Pars mix move penny dollop dolmove dolpenny clique factor Phylip软件包分组介绍 进化树绘制组 drawtree drawgram其他 restdist restml seqboot contrasttreedist consense retree Phylip软件包分组介绍 Phylip软件包的文档是非常详细的 对于每个独立的程序 都有一个独立的文档 详细的介绍了该程序的使用及其说明 此外 Phylip软件包还包括程序的源代码 c语言 Phylip软件包的文档 Phylip软件包的应用 1根据你的分析数据 选择适当的程序如 你分析的是DNA数据 就在核酸序列分析类中选择程序 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp 如果分析的是离散数据 如突变位点数据 就在离散字符组里面选择程序 2 选择适当的分析方法如你分析的是DNA数据 可以选择简约法 DNAPARS 似然法 DNAML DNAMLK 距离法等 DNADIST Phylip软件包的应用 3 进行分析选择好程序后 执行 读入分析数据 选择适当的参数 进行分析 结果自动保存为outfile outtree Phylip软件包的应用 Outfile是一个记录文件 记录了分析的过程和结果 可以直接用文本编辑器 如写字板 打开 outtree是分析结果的树文件 可以用phylip提供的绘树程序打开查看 也可以用其他的程序来打开 如treeview Phylip软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论