宏基因组上机操作手册.doc_第1页
宏基因组上机操作手册.doc_第2页
宏基因组上机操作手册.doc_第3页
宏基因组上机操作手册.doc_第4页
宏基因组上机操作手册.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录0. 准备工作21. 宏基因组比对22. 宏基因组组装32.1 组装软件:SOAPdenovo32.2 组装软件:Meta-Velvet63 基因预测64 构建基因集70. 准备工作上机步骤如下:mkdir /Metagenome#新建工作目录cd /Metagenome#进入工作目录cp -R /RealBio_Train/Metagenome/01_clean_reads ./#拷贝数据1. 宏基因组比对宏基因组的序列可以通过SOAPaligner比对软件,比对上目标基因组,从而进行物种注释或计算物种丰度。SOAPaligner需要先对目标基因组进行建库,建库命令如下:2bwt-builder SOAPaligner用法:soap a -b -D -o -2 -m -x 其他重要参数:OptionType Content-rINT匹配到多处时的策略:0:不显示;1:随机显示一个;2:全部-MINT匹配模式:0:只允许完全匹配;1:允许一个错配;2:允许两个错配;4:最佳匹配-pINT程序运行的线程个数上机内容为:将拷贝得到的reads比对上微生物的基因组。上机步骤如下:cd /Metagenome#先进入个人目录下的工作目录mkdir 02_alignment#新建02_alignment目录cd 02_alignment#进入比对目录cp /RealBio_Train/Metagenome/02_aligner/soapaligner.sh ./#拷贝比对脚本less test01.pm#查看比对结果less test01.sm#查看比对结果2. 宏基因组组装基因组组装是指将测序仪产出的大量的DNA片段(Reads)拼接成原始的待测物种的染色体序列,可以类比为拼图游戏。本手册指导你如何使用SOAPdenovo(2.04)组装软件对鸟枪法测序数据进行组装。2.1 组装软件:SOAPdenovoSOAPdenovo的功能是对二代测序数据进行从头组装。使用SOAPdenovo前首先要清楚的是它的组装配置文件,该文件包含以下信息:Option Content全局配置max_rd_len记录输入数据的最大读长,并根据这个配置输入缓存大小。文库配置,每个文库需要以LIB表明avg_ins记录当前文库插入片段大小。asm_flags用来配置流程中哪些步骤用到当前文库数据:1,表示当前文库只在构建contig时用到;2,表示当前文库只在构建scaffold时用到;3,表示当前文库在构建contig与scaffold时都用到。rank配置构建scaffold时当前文库的使用优先级,由于单端的reads不用于构建scaffold,该文库不用设置rank参数。q1/q2,q配置当前文库数据路径,q1/q2用于配置双端的reads,q用于配置单端的reads本次上机使用到的完整的配置文件内容如下:配置文件完成后,即可开始进行组装。组装分四步骤操作。四个步骤分别是:1. pregraph,De Bruijn图构建。输入组装配置文件,输出图信息文件,主要参数如下:OptionType Content-sCONFIG指定组装配置文件-oPREFIX指定输出文件的前缀,由用户随意设定-pINT指定使用的线程数目。SOAPdenovo使用了多线程技术以充分利用计算机资源,一般取运行机子的cpu核心数目即可,如你的机器是双核一个cpu的,那么可指定为2-KINT指定需要构建De Bruijn图的kmer大小,应根据SOAPdenovo的版本设定。如使用31mer版本,则可取kmer为31,29,27等-dINT指定构建完De Bruijn图后,需要对深度小于多少的kmer进行过滤,一般设置为12. 构建contig。输入上一步骤产生的图文件,输出contig序列文件,主要参数如下:OptionType Content-gPREFIX输入图文件前缀,应该与上面步骤中的-o参数一致-DINT设定在进行构建contig时,需要对深度低于该设定参数的contig连接边进行过滤。默认取值为1-MINT设定在进行构建contig时,可以先对相似的序列进行合并,参数最大取值为3,表示最大程度合并相似序列;最小取值为0,表示不对相似序列进行合并。这里取经验值2-R选择是否利用reads的相邻kmer信息解决短重复序列,一般选择利用3.测序数据map回contig序列。在搭建scaffold前,需要先将输入数据比对回contig序列中,输出比对信息。SOAPdenovo在这一步中会将reads打碎成kmer,将一个个kmer比对回contig上,涉及到的参数有:OptionType Content-sSTR输入组装配置文件-gSTR输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数一致-pINT指定多线程运行使用的cpu个数4.搭建scaffold。输入上步产生的contig文件和原始数据的比对信息文件,SOAPdenovo将根据比对的pair关系信息,搭建scaffold,主要参数有:OptionType Content-gSTR输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数一致-F可选参数选择是否在搭建完scaffold后对其进行补洞。SOAPdenovo内置有补洞流程,主要思路是把落在内洞中的reads进行局部组装,把装好的序列嵌入到内洞中去,完成补洞工作-u可选参数选择是否需要对高深度的contig进行屏蔽后再搭建scaffold。SOAPdenovo默认会对高深度的contig进行屏蔽,以减少重复序列的影响,选择此参数,将不对高深度的contig进行屏蔽-L INT,可选参数选择选取多长以上的contig进行scaffold搭建。SOAPdenovo默认选取kmer+2上机内容为:将上一步得到的clean reads进行SOAPdenovo组装,得到contig。上机操作的步骤如下:cd /Metagenome#先进入个人目录下的工作目录mkdir 03_assembly#新建03_Assembly 目录cd 03_assembly#进入组装目录mkdir CFGcp /RealBio_Train/Metagenome/03_assembly/CFG/test01.cfg CFG/ #拷贝 组装的config文件到当前目录mkdir shell#新建脚本目录cp /RealBio_Train/Metagenome/03_assembly/shell/test01_Kmer31.sh shell/#拷贝组装脚本到脚本目录mkdir assemble#新建结果目录mkdir assemble/test01sh shell/test01_Kmer31.sh#运行组装脚本less assemble/test01/test01.scafSeq#查看组装结果ss.o assemble/test01/test01.scafSeq#查看组装统计结果模仿CFG/test01.cfg,生成test02文件的config文件CFG/test02.cfg,插入片段长度为412;模仿shell/test01_Kmer31.sh,生成关于test02文件的组装脚本shell/test02_Kmer37.sh,kmer值设为37mkdir assemble/test02sh shell/test02_Kmer37.sh#运行组装脚本less assemble/test02/test02.scafSeq#查看组装结果ss.o assemble/tets02/test02.scafSeq#查看组装统计结果2.2 组装软件:Meta-VelvetMeta-Velvet是在原来基因组组装软件Velvet基础上改进的,适合宏基因组数据的组装软件。主要参数如下:OptionType Content-cov_cutoffINT or autoDe Bruijn图中节点过滤参数,节点层数小于该参数即被过滤-ins_lengthINT插入片段长度,reads长度加上gaps长度-exp_covINT or auto基因组覆盖层数,这里选auto上机内容为:将上一步得到的test03样品的clean reads进行SOAPdenovo组装,得到contig。上机操作的步骤如下:cd /Metagenome#先进入个人目录下的工作目录cd 03_assembly#进入组装目录cp /RealBio_Train/Metagenome/03_assembly/shell/test03_Kmer31.sh shell/#拷贝组装脚本到脚本目录mkdir assemble/test03sh shell/test03_Kmer31.sh#运行脚本less assemble/test03/meta-velvetg.contigs.fa#查看组装结果ss.o assemble/test03/meta-velvetg.contigs.fa#查看统计结果3 基因预测宏基因组一般使用MetaGeneMark预测contig中的cds(coding sequence)序列。OptionType Content-a输出基因碱基序列-d输出基因蛋白序列-f可选参数选择输出格式:L为lst文件,G为gff文件,一般使用gff文件作为输出格式-k利用RBS序列预测基因起始位点-r输出RBS序列的打分与间隔序列上机内容为:将上一步得到的clean reads进行SOAPdenovo组装,得到contig。上机操作的步骤如下:cd /Metagenome#先进入个人目录下的工作目录mkdir 04_gene_predict#新建04_Gene_predict目录cd 04_gene_predict#进入基因预测目录cat .03-assembly/assemble/test01.tst01.scafSeq contig.fa #将上步得到的3个文件的contig文件写入04_gene_predict/contig.faperl filter.pl contig.fa contig.filter.fa#过滤500bp以下的contigcp /RealBio_Train/Metagenome/04_gene_prediction/gene_prediction.sh /Metagenome/04_gene_predict#拷贝基因预测脚本cp /RealBio_Train/soft/metagenemark/MetaGeneMark_linux_64/mgm/gm_key /.gm_key#拷贝权限sh /Metagenome/04_gene_predict/gene_prediction.sh#运行脚本less /Metagenome/04_gene_predict/gene.gff#查看gff文件ss.o /Metagenome/04_gene_predict/gene.cds 100#查看统计信息4 构建基因集宏基因组研究未知菌的方法大多通过基因集,相当于环境中微生物基因的集合。通过预测出来的基因,其中有一部分是序列相近或完全相同的。这里需要进行去冗余的步骤,所用到的软件为CD-HIT。CD-HIT是根据序列相似性,将序列进行聚类的软件。OptionType Content-cDOUBLE配合-G 0,配置identity参数,即完全匹配的碱基数与匹配上的碱基数的比值-aSDOUBLE配置coverage参数,即匹配上的碱基数与较短的基因碱基数的比值上机内容为:将之前得到的基因序列合并,并去冗余,得到非冗余的基因集。上机操作的步骤如下:cd /Metagenome#先进入个人目录下的工作目录mkdir 05_gene_catalog#新建05_Gene_catalog 目录cd 05_gene_catal

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论