应用PHYLIP构建进化树的完整详细过程.docx_第1页
应用PHYLIP构建进化树的完整详细过程.docx_第2页
应用PHYLIP构建进化树的完整详细过程.docx_第3页
应用PHYLIP构建进化树的完整详细过程.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、获取序列一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。二、多序列比对目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。三、构建进化树1.N-J法建树依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下:(1)打开seqboot.exe输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000)odd number: (4N+1)(eg: 1、5、9)改好了y得到outfile(在phylip文件夹内)改名为2(2)打开Dnadist.EXE输入2修改M值,再按D,然后输入1000(M值)y得到outfile(在phylip文件夹内)改名为3 (3)打开Neighboor.EXE输入3M=1000(M值)按Y得到outfile和outtree(在phylip文件夹内)改outtree为4,outfile改为402(4)打开consense.exe输入4y得到outfile和outtree(在phylip文件夹内)Outfile可以改为*.txt文件,用记事本打开阅读。四、进化树编辑和阅读outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMF WMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBEDISTRILLOR将PS转化为PDF,就可以解决问题。如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。 NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml,其余步骤相同。据说ML法序列较多是非常耗时,我没有尝试。因为我的序列较多。也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树,TREE菜单输出格式选项(OUTPUT FORMAT OPTION)中的BOOTSTRAN LABELS ON 选NODE(节点)。在treeview里,选择tree菜单 ,然后把show internal edge lables 的选项打勾了,直接打开生成的文件bootstrap的值就可以显示出来。下面介绍几个软件的使用。首先是 PHYLIP。其是多个软件的压缩包,下载后双击则自动解压。当你解压后就挥发现PHYLIP 的功能极其强大,主要包括五个方面的功能软件:i,DNA 和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态时,对序列进行分析的软件。v,按照 DOLLO 简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。在此,我主要对前两种功能软件进行说明。 我们现在有几个序列如下: Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT Mo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT 要对这8个序列进行进化树分析,按照上面的步骤,首先用 CLUSTALX排列序列,输出格式为 *.PHY。用记事本打开如下图: 图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。然后,打开软件SEQBOOT,如下图: 按路径输入刚才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面输入一个4N+1 的数字后,屏幕显示如下: 图中的 D、J、R、I、O、1、2 代表可选择的选项,键入这些字母,程序的条件就会发生改变。D选项无须改变。J 选项有三种条件可以选择,分别是Bootstrap、Jackknife 和 Permute。文章上面提到用 Bootstraping 法对进化树进行评估,所谓Bootstraping 法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。Permute是另外一种取样方法,其目的与 Bootstrap和Jackknife法不同,这里不再介绍。R 选项让使用者输入 republicate 的数目。所谓 republicate 就是用 Bootstrap 法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后,键入 Y按回车。得到一个文件outfileOutfile用记事本打开如下: 这个文件包括了100个republicate。 打开DNAPARS(最大简约性法)或DNAML(最大可能性法)软件。将刚才生成的outfile文件更名后输入。如下图: 选项O是让使用者设定一个序列作为outgroup。一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup(本例子不选outgroup),outgroup 选择的好坏将直接影响到最后的进化树的好坏。选项 M 是输入刚才设置的 republicate 的数目。设置好条件后,键入 Y按回车。生成两个文件outfile和treefile。 Outfile打开如下图: 该文件包括了227个进化树。Treefile可以用TREEVIEW 软件打开同样包含了这227个进化树。 打开CONSENSE 软件,将刚才生成的treefile文件更名后输入。如下图: 键入 Y 按回车。生成两个文件 outfile 和 treefile。Treefile 用 TREEVIEW 打开,如下图: Outfile打开如下图: 我们看出两个树是同样的。但在 outfile 的树上的数字表示该枝条的 Bootstrap 支持率(除以100.6)。到现在,8个序列的进化树分析(最大简约法)已经完成。 如果要用邻位相连法对这 8 个序列进行分析的话,也首先执行 SEQBOOT 软件将这8个序列变成100个republicate。然后,打开DNADIST软件,把SEQBOOT生成的文件输入,如下图: 选项 D 有四种距离模式可以选择,分别是 Kimura 2-parameter、Jin/Nei、Maximum-likelihood 和 Jukes-Cantor。选项 T 一般键入一个 15-30 之间的数字。选项M 键入100。运行后生成文件如下图: 这个文件包含了与输入文件相同的100个republicate,只不过每个 republicate是以两两序列的进化距离来表示。文件中的每个republicate都省略了第一排的Mo3 Mo5Mo6 Mo7 Mo8Mo9 Mo12 Mo13。以这个输出文件为输入文件,执行NEIGHBOR 软件。如下图: 选项 M 键入 100。生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论