MEGA构建系统进化树的步骤(以MEGA7为例)教学文案_第1页
MEGA构建系统进化树的步骤(以MEGA7为例)教学文案_第2页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、MEGA构 建 系统 进 化树的 步 骤(以MEGA7为例)MEGA 构建系统进化树的步骤(以 MEGA7 为例)本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA 序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果 DNA 序列的两两间的一致度 70%选用 DNA 序列。因为,如果 DNA 序列 都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利 的。所以这种情况下应该选用 DNA 序列,而不选蛋白质序列。2)如果 DNA 序列的两两间的一致度70%DNA 序列和蛋白质序列都可以选用。1将要

2、用于构建系统进化树的所有序列合并到同一个fasta 格式文件,注意:所有序列的方向都要保持一致(5-3。想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用 MEGA 建树时可以输入一个已经比对好的多序列比 对,也可以输入一条原始序列,让 MEGA 先来做多序列比对,再建树(一般我 们都是原始序列)。所以我们以后者为例。2. 打开 MEGA 软件,选择主窗口的” FileOpen A File”找到并打开fasta 文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列 比对,所以选择“Align ”。如果是比对好的多序列比对可以直接选择“ Ana

3、lyze”。3.在打开的 Alignment Explorer 窗口中选择” Alignment”- Align by ClustalW ”进行多序列比对(MEGA 提供了 ClustalW 和 Muscle 两种多序列比对方法,这 里选择熟悉的 ClustalW),弹出窗口询问 “Nothing selected for alignment, Select all ? ”选择OK ”。4.之后,弹出多序列比对参数设置窗口。这个窗口和EMBL 在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算 时按负数计算)等参数。MEGA 的所有默认参数都是经过反复考量设置的,

4、这 保证了 MEGA 傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别 要求的时候,直接点击“0K”,接受这些默认参数,开始多序列比对。了解两个参数:1替换记分矩阵,替换记分矩阵是反映残基之间相互替换率的矩阵,也就是说,它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵,蛋白质序列有蛋白质序列的替换记分矩阵,两者不可混用。DNA 序列的替换记分矩阵主要有三种:1)等价矩阵。相同核苷酸得分为1,不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同 的替换,一般只用于理论计算。2)转换-颠换矩阵。转换:DNA 分子中的嘌呤 被嘌呤或嘧啶被嘧啶替换。颠

5、换:DNA 分子中的嘌呤被嘧啶或嘧啶被嘌呤替 换。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,转换-颠换矩阵中,转换的得分比颠换要高为-1 分,而颠换的得分为-5 分。3)BLAST 矩阵。经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5分,不相同为-4 分,这时比对效果最好。这个矩阵广泛地被DNA 序列比较所采用。没有为什么,就是好,实践经验所得。因为这个矩阵最早应用于BLAST工具,因此得名 BLAST 矩阵蛋白质的替换记分矩阵要比核酸的复杂一些:1)等价矩阵。相同得 1 分,不同得 0 分。2)PAM 矩阵。基础的 PAM-1 矩阵反应的是进化产生的每一百个

6、氨基酸平均发生一个突变的量值, 是基于相似度 85%的序列产由统计方法计 算得到的。 由PAM-1自乘 n 次可以外推得到 PAM-n,表示发生了更多次突 变。如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面 跟一个大数字的矩阵;如果亲缘关系近,也就是突变比较少,序列间大多数地 方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。3) BLOSUM 矩阵。后 面也有一个编号,是通过对大量符合特定要求的序列计算而来的。比如 BLOSUM62 是指这个矩阵是由一致度62%的序列计算得到的。如果序列亲缘 关系远,序列相似度低,那就选 BLOSUM 后面跟一个小数字的矩阵;如果序

7、 列亲缘关系近,序列相似度高,那就选 BLOSUM 后面跟一个大数字的矩阵。总结,亲缘关系较近的序列之间的比较,用 PAM 数小的矩阵或 BLOSUM 数大 的矩阵;而亲缘关系较远的序列之间的比较,用 PAM 数大的矩阵或 BLOSUM 数小的矩阵。对于关系较远的序列之间的比较,由于PAM250 是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较,用 PAM 或 BLOSUM 矩阵做出的比对结 果,差别不大。如果关于要比较的序列不知道亲缘关系远近,那么就闭着眼睛 用 BLOSUM62吧!如果你记不住或者听不懂上面讲的种种,那就记

8、 住 BLOSUM62 这个名字,也可以走遍天下全不怕!啟展醸是并PAMIU W M1PAM 1Lt M hi9*110PAM 11BLOSUM90PAM 2 31M.( )SUM 8050PAM 387()40PAM %1MX )SUM fd)5Q卩 AM 灿GGPAM 12BLOSUMto70PAM 159BIX )SUMA0PAM-246BIJOSUM-202空位罚分包括两种:gap 开头(gap open)和 gap 延长(gap extenc)。默认 gap开头罚分高,gap 延长罚分低,这样得出的结果 gap 很集中,有很多长串出 现的 gap,这可以比对两条很相似的序列-同源序列

9、;相反,如果 gap 开头罚分 少,gap 延长罚分高,比对结果 gap 就比较分散,极少出现连续长串的 gap (可 以想象其中的原因,总是要保证得分高),这可以比对两条绝大部分序列都很 相似,但其中一条的一个功能区在另一条序列中是缺失的两条序列,可以找出 这个功能区。5. 比对过程是先进行双序列比对,在进行多序列比对,最后会出现一个多序列 比对结果。将之作为中间结果保存下来。在 Alignment Explorer 窗口中选择 Data”EXportAlignment”TMEGA Format”。这里一定选择 MEGA format 以方便 MEGA 后续分析(其他格式适用于其他软件的分析

10、),MEGA 自动赋予.meg”后缀名,保存后,弹出窗口,“为这组数据命名”,自己看得懂知道就可以,我这里命名为“il1r2 alignment”。6. 生成的 fmeg”文件可以双击直接导入 MEGA。也可以将其拖入 MEGA 主窗口 中。拖入后主窗口增加了一个“ TA ”按钮 ,点击弹出新窗口 “Sequenee DataExplorer”,其是多序列比对结果。再点击“Sequenee Data Explorer 上的 TA ”按钮门夕,点击后多序列最上面增加了一行,这一行是根据多序列比对结果分析得 出的共有序列(consensus sequenCe,也就是一列里出现次数最多的字母。多 序

11、列比对中每一列里的字母如果和共有序列相同则打点,不同则标出不同的字 母,空位还是空位。如果还想进一步了解序列的保守程度,可以点击“ C”按曲,以黄色标记 保守序列;或者点击“V ”按钮,以黄色标记不保守序列。通过进一步的分析,可以淘汰掉一些序列,比如海选的的序列里有一些不合群的序列,就可以 把他们去掉,不让他们参与建树,以免影响建树质量。此外,还可以对这些序列进行分组标记。点击分组按钮駅 1,点击“加号”按钮】,更改组名,然后按住 Ctrl 键同时选中 Un grouped Taxa 列表中的要放 入这个组的序列,选中后点击“箭头”按钮叵1,即可将序列放入分组。同理,可 以创建其他分组。当序列

12、数量较多时,人为分组,可以从树上更加清晰的看出 组内哪些成员叛逃了去了别的组。此外,输入序列的名字较长,作为构建的系统发生树上叶子的名字,会破 坏树的外观也不利于信息的解读。因此,需要人为修改一下序列的名字。选中 序列后点击.,把名字改为能区分彼此的关键词,全部改好之后点击“ save按 钮疋,准备工作全部完成。7.开始建树。点击 MEGA 主窗口上的 Phylogeny 下拉菜单,选择 NeighborJoining (最近邻居法)。弹出窗口询问是否使用当前.meg 里面的数据,选Yes。接下来,弹出参数设置窗口( Analysis Preferences。参数设置对构建的 系统发生树的准确

13、程度非常重要。在树构建好之后,还经常需要根据树的具体 情况,重新设置参数,并重新建树,如此反复,纸质结果令人满意为止。同样 的如果对参数设置摸不着头脑,就接受默认设置,也能做出基本满意的系统发 生树。至少应该掌握其中三个参数的设置:1Test of Phylogeny (建树的检验方法),是用来检验建树的质量的。默认的 检验方法是 Bootstrp method (步长检验)。步长检验需要设定检验次数,通常 为 100 的倍数,默认设置为 500。步长检验是根据所选择的建树方法,计算并 绘制指定次数株系统发生树。因为大多数建树的方法的核心算法都是统计概率 模型,所以每次计算出来的树都会有所差别

14、。而剑豪的系统发生树上每个节点 上都会标有一个数字,它代表了指定次数次计算所得出的系统发生树中有百分 之多少的树都含有这一节点。一般来讲,绝大多数节点上的数值都大于 70%的 树才可信。个别低于 70%的节点可以暂且容忍,或通过添加、山间序列来改善 质量。2Substitution Modelo是选择计算遗传距离时使用的计算模型。理论上应该尝 试各种模型,根据检验结果选择最合适的模型计算。但在实际操作中,可先尝 试选用较简单的距离模型,比如 p-distance。3Gap/Missing Data Treatmen,t 大多数建树方法会要求删除多序列比对中含有 空位较多的列。但是根据遗传距离度

15、量方法的不同,删除原则也不同。如果是 以序列间不同残基的个数来度量遗传距离的话,这里需要选择 Complete deletion(全部删除)。如果是其他方 法,比如这里选用的 NJ 方法,可以选择 Partial deletion (部分删除)。删除程 度定在 50%,即,保留一半含有空位的列8.按照以上方案参数设置后,点击“ Compute”按钮,开始构建系统 发生树。经过一番计算之后,新窗口 Tree Explorer 里展示的就是创建好的系统发生树。这个窗口里有两个标签页。第一个是Original Tree (原始树),第二个是 Bootstrap consen sus tre(步长检验

16、合并出来的树)。Bootstrap consen sustree 上,节点处的数字表示,经步长检验有百分之几的树具有这根树枝,即, 反应了该树枝的可信度。当前构建的这株系统发生树中,绝大多数节点处的数 值都是70 的话,这株树整体上就是可信的。Original Tree 是步长检验构建的 500 株树中的一株,未经过多棵树合并,所 以树枝的长短可以精确代表遗传距离。此外,从这株树也可以看出之前的人为 分组情况是不是发生了意想不到的变化。比如,有的可能似乎脱离了分组,成 为了外类群,从而确定了树根。树构建好之后,外形也许还不太令人满意。比如也许你想要将树的外形改 成圆形或三角型,可以通过乞、按钮选择。或者你想要调整树枝的粗细或字体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论