




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PhyML利用氨基酸序列建树步骤(核酸建树也可以作为参考)吴碧波前言:本文阅读对象适合建树新手,生物信息学高手请勿嘲笑,其中有什么错误还恳请指点。为什么要建树及其你要解决什么问题这里不做讨论,只是一个纯粹的建树过程,前期的序列收集过程自己费心,根据自己的需要来做。这里主要是最大似然法来建树,NJ法像mega这些软件中都有集成,最新的mega7也集成ML法,不过模型及各种参数不一定适合你,所以学习多种多种方法也是有用的,PhyML速度较慢,如果数列数量较多、步长检验次数多,等待时间会很长,有可能达到几十小时,也与电脑配置有关,一般时间都是以小时计数,所以要有心理准备,如果数据量大,推荐用RaxML或其他方法建树,它处理速度要比PhyML快,不过RaxML是命令操作,对不熟悉命令及参数设置的人有一定难度,我也只在linux下操作过,没有在win环境中使用过。本文是用氨基酸建树过程,如果你是用核酸序列建树,也可以参考这个过程,核酸替代模型请用jmodeltest或其他同功软件计算。由于PhyML计算过程比较长,做一遍很耗时,推荐你用其他软件用NJ法先行试验建树,看看你选择的序列是否有效及符合你的预期结果,调整好序列后再用PhyML跑一遍看结果是否符合自己的要求。PhyML有线上版本,http:/www.atgc-montpellier.fr/phyml/,只需要提交序列比对结果,设置模型参数,留下邮箱等待就会给你返回结果,不过时间不可控,根据试剂情况选择线上还是本地自己建树。水平有限,如有错误遗漏恳请各位指点,文末有微信联系方式,欢迎骚扰-。l 环境准备:电脑-Windows或者Linux都可以(没试过mac,你自己看办吧)、java环境、ProtTest、PhyMl及序列比对的软件,线上或本地都可以的。1. 序列准备:在自己熟悉的数据库中(我自己比较熟悉Ncbi)上做blast,选取跟要建树蛋白同源的各物种序列,下载到本地,整合到一个fasta文件中,注意修改物种名称,字数最好不要太长,序列比对后.phy格式文件对文件名长度有限制(这个可能跟软件有关系,只要自己知道是什么物种,不至于混淆就行),注意规范性,fasta文件中最好除了头标,字母及下划线不要有其他不相关的字符,因为如果后面你要用软件分析.phy文件的时候这些软件对.phy的格式要求比较变态,有其他多于字符它都会报错的(你如果在dos下用命令合并文件请注意文件的最后一行的字符,请删除)。做序列分析,常用的分析软件有clustalW系列,mega也集成了集中蛋白比对工具,线上线下各种软件自由选择,区别不大,保存的格式可以选择多一点,主要是看你后续操作。如clustalx 比对可以保存的结果格式如图1所示。选中你希望的格式保存即可。图1.clustalx2输出文件设置注:有的软件运行打开你需要比对的FASTA格式文件时候是不能有中文路径的,比如clustalx这货就打不开有保存在中文路径下的文件。2. 用ProtTest选择建树中所需要的模型Windows下点击runXProtTestHPC.bat 运行prottest软件(注意这货执行文件不能放到有中文字符路径中,Linux平台下你知道如何运行的-),打开你你要建树的phy格式文件,如果文件没有问题,打开界面如图2,如果打开文件中有其他非规范性字符就会报错。图2.ProtTest打开文件界面点analysis-compute likelihood scores (图3)出现图4设置界面,替代模型默认全部选择,可以不用管,直接默认及好,rate variation 全选默认不变,categories默认是4,这个范围可以设置4-8,数值应该是越大越好,但会增加计算时间,根据你的情况选择,如果不明白就保持默认4。Amino-acid frequencies 勾选Empirical,如果不选这个,计算模型变为60个,会减少计算时间,推荐勾选,最后一个Starting topolpgy 选型改为Maximum Likelihood tree,最后点击Compute计算,长时间等待.(看你用的机器配置情况咯,没办法)图3. ProTest analysis选项图4.analysis设置界面经过长时间等待后计算完成,返回结果,如图5。第一行deltaAIC值为0的即使所需要的建树模型。在结果中翻出如下数据,记下标红这两个参数,在后面用PhyML建树中会用到这两个模型参数。到这里,模型选择算是完成了。Model. : LG+I+G+F Number of parameters. : 50 (21 + 29 branch length estimates) gamma shape (6 rate categories). = 0.524 proportion of invariable sites. = 0.13 aminoacid frequencies. = observed (see above) -lnL. = 8665.99 (seconds)图5.ProTest 结算结果3. PhyML建进化树:模型选择好后就是建树了,请把前面做好比对的filename.phy文件复制到PhyML执行文件同一个文件夹中,点击phyml.bat打开PhyML软件(Linux下你知道如何运行的-),打开界面见图6,输入phy格式文件名字,eg:filename.phy,注意要带格式后缀。图6. PhyML界面输入文件名后出现图7的界面,设置各种参数,选D,改为AA(氨基酸) type,输入序列格式根据你的文件类型选择,有两种,区别见图8。图7. PhyML参数设置界面图8. Interleaved sequential类型区别安“+”号进入下一项模型设置,界面见图9,按M可以选择不同模型,根据前面prottest做的结果选择你需要的模型,按“V”设置proportion of invariable sites,按“A”设置gamma 值。再次提醒,这两个值就是prottest计算结果中的我标红的这个。Model. : LG+I+G+F Number of parameters. : 50 (21 + 29 branch length estimates) gamma shape (6 rate categories). = 0.524 proportion of invariable sites. = 0.13 aminoacid frequencies. = observed (see above) -lnL. = 8665.99 (seconds)注意“C”选项,根据你前面prottest中设置的categories值来确定,两者最好是一致的。图9. 模型设置最后设置好后应该是图10这个样子。图10,模型设置完成模型设置好后继续按“+”,回车进入下一项设置,这里主要设置分析速度相关项,设置好后如图11。“S”项选slow主要是为了分析的正确性。慢一点会更好,当然也有其他选项,根据自己情况选择。(原谅我对是否增加随机树这个不是很清楚,我试了一遍好像没什么影响,对这个也不是特别理解)。图11. 设置继续 “+”“enter”,进入下一项bootstrap 检验设置,“B”选项设置验证次数,数值为100的倍数,数值越大,建树过程越长,如图12图12. Bootstrap设置设置好这些后检查没有问题就按“Y”,回车开始计算过程,经过几个或者十几个或者几天的计算,duang的一声结果就在你的电脑上出现了,意外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年绿色生态玉米种植与电商渠道推广合作合同
- 2025年智能网络安全设备性能评估与维护服务合同
- 2025年度职业院校实训项目课程开发顾问服务合同
- 2025年跨境电商平台国际物流服务战略合作合同
- 2025-2030中国成人英语培训行业发展前景预测与投资建议报告
- 水泥替代品在混凝土中的应用方案
- 2025年名片盒行业研究报告及未来行业发展趋势预测
- 2025年银冶炼行业研究报告及未来行业发展趋势预测
- 电动汽车充电桩用户体验优化方案
- 2026届福建省霞浦县第一中学高三上化学期中统考模拟试题含解析
- 2025版食品加工委托生产合同范本
- 静脉输血并发症护理查房
- 湘美版美术一年级上册全册课件
- 酒水购销合同范本(3篇)
- 师说一等奖优秀课件师说优质课一等奖
- 学习罗阳青年队故事PPT在急难险重任务中携手拼搏奉献PPT课件(带内容)
- 小学生打扫卫生值日表word模板
- 新水浒q传乡试会试测验题目
- 小学一年级开学第一课
- 地基承载力计算
- 象数疗法常见配方
评论
0/150
提交评论