版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
®宏基因组分析流程及常见结果解读解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌01
宏基因组基础及流程介绍02CONTENTS课程目录宏基因组binning技术介绍03
宏基因组常见结果及案例宏基因组基础及流程介绍01解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组测序(Metagenomic)基因组DNA抽提Illumina
HiseqX测序基因组DNA片段化构建桥式PCR以特定环境中整个微生物群落作为研究对象,不需对环境中微生物进行分离培养,利用高通量测序平台进行测序,可以鉴定所有微生物组成及种类、系统进化、功能注释,样品间的物种或基因差异以及物种间的代等分析。技术流程解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组常见分析软件及数据库数据质控FASTX-ToolkitNGS
QCToolkitTrimmomaticReadfq去宿主污染SoapAlignerBowtie组装SOAPdenovoMEGAHITIDBA-UDSPAdesmetaSPAdes基因预测MetaGeneMarkOrpheliaMetaGeneAnnotatorGlimmer-MGMetaGUN基因序列聚类CD-HIT注物、功能注释BLASTMetaPhlAn2DIAMONDMEGANKrakenHUMAnN解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组常见数据库DatabaseDescriptionurlKEGGA
database
resource
for
understanding
high-level
functions
and
utilities
of
the
biological
system,
such
as
the
cell,
the
organism
and
theecosystem,
from
molecular-level
information,
especially
large-scale
molecular
datasets
generated
by
genome
sequencing
and
other
high-throughput
experimental
technologies.CAZyThe
CAZy
database
describes
the
families
of
structurally-related
catalytic
and
carbohydrate-binding
modules
(or
functional
domains)
ofenzymes
that
degrade,
modify,
or
create
glycosidic
bonds.COGPhylogenetic
classification
of
proteins
encoded
inplete
genomes.EggNOGA
database
of
orthologous
groups
and
functional
annotation.ARDBAntibiotic
Resistance
Genes
Database.CARDA
bioinformatic
database
of
resistance
genes,
their
products
and
associated
phenotypes.PfamThe
Pfam
database
is
a
large
collection
of
protein
families,
each
represented
by
multiple
sequence
alignments
and
hidden
Markovmodels
(HMMs).ResfamsResfams
is
a
curated
database
of
protein
families
and
associated
profile
hidden
Markov
models
(HMMs),
confirmed
for
antibioticresistance
function
and
organized
by
ontology.NRThe
nr
protein
database
maintained
by
NCBI
as
a
target
for
their
BLAST
search
services
is
aposite
of
SwissProt,
SwissProt
updates,PIR,
PDB.
Entries
with
absolutely
identical
sequences
he
been
merged.Swiss-ProtSwissProt
is
ahighly-curated,
highly-crossreferenced,
non-redundant
database.VFDBThe
virulence
factor
database
(VFDB)
is
an
integrated
andprehensive
online
resource
for
curating
information
about
virulencefactors
of
bacterialpathogens.PHIThis
database
contains
expertly
curated
molecular
and
biological
information
on
genes
proven
to
affect
the
oue
of
pathogen-hostinteractions.
Information
is
also
givenon
the
target
sites
of
some
anti-infective
chemistries.HUMAnNHUMAnN
is
a
pipeline
for
efficiently
and
accurately
determining
the
presence/absence
and
abundance
of
microbial
pathways
in
amunity
frommetagenomicdata.解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌KEGG数据库简介KEGG数据库(KyotoEncyclopediaofGenesandGenomes)是系统分析基因功能、联系基因组和功能信息的大型数据库。KEGG
GENES数据库提供基因和蛋白质序列信息;KEGG
Pathway数据库包括各种代、合成通路、膜转运、信号传递、细胞及疾病相关通路等,并收录各种化学分子、酶以及酶促反应等相关信息;KEGG
Module数据库是KEGG收集的一系列功能单元,用于基因组注释和生物学解释;KEGG
Orthology(KO)系统通过把分子网络的相关信息连接到基因组中,提供跨物种注释流程。ko:表示通路,这个通路是不分物种的,相当于所有物种某一通路的并集。KO(KEGG Orthology):是KEGG中一个“专有名词”,表征一个基因。KO作为ko通路中的基本单位,它是蛋白质(酶)的一个分类体系。通常序列高度相似且在同一通路中具有相似功能的蛋白质被归为一组,即一个KO。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌KEGG-Table
of
Contents功能简介②拥有全局性检索框,在检索框内输入关键词,即可查询KEGG中与关键词相关的Pathway(通路)、Module
(模块)、Orthology
(直系同源)
Genome
(基因组)、Genes(基因)和Enzyme
(酶)等诸多信息;如有特殊需求,也可以进行个性化筛选,比如仅搜索与关键词相关的Module信息。①以分类列表的形式介绍了KEGG所包含各个内容模块,其中蓝色的字体可以直接点击进入以获取更为详细的各模块相关内容介绍;解
螺
旋
|陪伴医生科研成长知识金牌怎么看KEGG中代图方框一般就是酶,方框里面的2.4.1.87是EC编号;小圆圈代表代,鼠标放上去,会出现G00403,C代表pound,00403是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代。Ko00603:代,K12373+K07406+K07407:基因红色的表示要查询的基因所在通路中的位置解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌CAZy数据库---基因组学与酶学研究的重要桥梁碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源。通过研究碳水化合物相关酶可以得到大量有意义的生物学信息。CAZy数据库:专注于分析碳水化合物酶的基因组、结构和生物化学信息。CAZy数据库目前包括六大类家族。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌COG和eggNOGCOGCOG,即Clusters
of
Orthologous
Groups
of
proteins。COG的中文释义即“同源蛋白簇”。由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。eggNOG
(evolutionarygenealogy
of
genes:
Non-supervised
Orthologous
Groups)数据库5.0版本共包含190
k个直系同源类群,以352个病毒在内的2031个物种基因组。EMBL
EggNOG对NCBI
COG
进行扩展,并包含了真核生物信息,被广泛应用于(元)基因组数据分析eggNOG
数据库包含了丰富的注释信息,除了COG/KOG/NOG的分类和注释信息外,还包含了KEGG/GO/SMART/PFAM信息。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌各数据库的详细划分层级解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌LinkDB:
database
of
link
informationLinkDB解析了
KEGG数据库数据的流通以及和其它数据库的联系。宏基因组binning技术介绍02解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组binning(分箱)难点Many
speciesCo-exist
SubspeciesDifferent
abundance
fordifferent
species>10G
short
reads
fromHiseqXplatform100Mb
assembled
contigsBinning的含义指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。可以达到菌株水平。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌核酸组成信息(Homology-based)最开始的binning的依据是来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(oligonucleotide
frequencyvariations),通常是四核苷酸频率(tetranucleotide
frequency),GC含量和必需的单拷贝基因等。基因丰度分布模式position-based)来自同一个菌株的基因在不同的样品中(不同时间或不同病理程度)的丰度分布模式是相似的。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式(co-abundance
patterns
across
multiplesamples)。这种方法更有普适性,一般效果也比较好,能达到菌株的水平。但是值得注意的是必须要大样本量,一般至少要50个样本以上,至少要有2个组能呈现丰度变化(即不同的处理,不同的时间,疾病和健康,或者不同的采样地点等),每个组内的生物学重复也要尽量的多。核酸组成和丰度变化同时依据核酸组成和丰度变化信息,将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件多是同时依据核酸组成和丰度变化信息。宏基因组binning的依据解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组binning的序列类型reads
binning基于reads
binning的优势是可以聚类出宏基因组中丰度非常低的物种,考虑到在宏基因组组装中reads利用率很低,单样品10Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,这样很多物种,尤其是低丰度的物种可能没有被组装出来,没有体现在gene或者contig中,因此基于reads
binning有可能得到低丰度的物种。contig
binning由于核酸组成和物种丰度变化模式在越长的序列中越显著和稳定,基于contig
binning效果可能更好,现在的很多软件也是基于contig
binning。虽然有现成的软件可用,但是计算资源消耗高,需要的时间也比较长。genes
binning基于genes
binning的应用非常广泛,目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes
binning方法,尤其是疾病的MWAS研究中基本都用genes
binning,原因可能是基于genes丰度变化模式进行binning可操作性比较强,宏基因组分析中肯定都会计算gene丰度,同时基于genes
binning有很多可参考的文献,对计算机资源消耗比较低。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌常见宏基因组binning软件Sangwan
et
al.
Microbiome
(2016)
4:8解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌基于Contig-binning分析流程—MetaWRAP分箱Binning:利用MaxBin2,
metaBAT2,和CONCOCT三个软件分别分箱提纯Bin_refinement:对多种Bin结果评估和综合分析,获得更好的结果重组装Reassemble_bins:利用原始序列和评估软件二次组装,改善Bin的N50、完整度定量Quant_bins:估计样品中每个bin的丰度并热图展示气泡图Blobology:blobplots可视化群体的contigs的物种和Bin分布物种分类注释Classify_bins:对Bin物种注释功能注释Annotate_bins:对Bin中的基因进行功能注释解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌宏基因组binning的主要应用关联分析通过binning得到的bins(简称为bins,更确切的说是strain-level
clusters或strain-leveltaxonomicunits)可以进行宏基因组关联分析以及多组学联合分析,将特定功能代与特定物种、特定基因进行关联研究,推动其因果机制的探究,为疾病监控、环境监测提供了菌株水平的生物靶标。单菌组装通过对binning得到的bins进行后续组装,可以得到很多不能在实验室里培养的细菌、古菌、病毒的基因组草图,然后根据单菌组装结果进行菌株水平的基因和功能注释、比较基因组分析、进化分析等,使我们得以洞察这些无法在实验室培养获得的菌株的生态适应机制,营养互作机制和新陈代等,可以研究在生态环境和复杂疾病中起重要作用的菌种以及致病菌和宿主的互作机制及其微进化机制。解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌基于Genes
binning分析流程根据具体的聚类算法和相关性系数的不同,对binning得到的bins的叫法也不同,主要有metagenomic
linkage
groups(
MLG
),metagenomic
clusters
(MGC
),metagenomic
species(MGS),和metagenomic
operational
taxonomicunits(MetaOTUs),同时,MLG,
MGC,MGS和MetaOTUs物种注释的标准也是不一样的。将根据genes丰度变化模式进行
binning得到的bins称为CAG
(co-abundance
gene
groups),将包含有
700个以上的gene的CAG称为MGS,CAG可用进行关联分析,MGS可用进行后续的单菌组装。Nature
Biotechnology,
2014,
32(8):822-828.知识金牌基于Genes
binning的应用案例MGS解
螺
旋
| 陪
伴
医
生
科
研
成
长Zhang
C.,
et.al.
Science.
2018.IDBA_UDMetaGeneMarkCD-HITSOAPaligner膳食纤维选择性富集的肠道细菌可缓解2型糖尿病422解
螺
旋
| 陪
伴
医
生
科
研
成
长知识金牌膳食纤维富集的15株缓解2型糖尿病的细菌共组装出154株高质量的优势菌株的草图,79个菌株在高膳食纤维饮食后没有变化,47个发生显著降低,而还有15个菌株被富集,并在28天时达到最大。这15个菌株主要来源于三个门,在W组,15个菌株均可产生乙酸,其中5个还能产生丁酸,而在U组,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国碳酸锂市场供需格局与价格走势预测
- 极端高温医疗抗暑药品调度
- 极端气候下传染病监测患者管理路径
- 临时保洁应急上门服务协议
- 演奏说课稿2025学年初中音乐苏少版九年级下册-苏少版
- 医学26年老年左心室肥厚查房课件
- 2026年山东省临沂市兰陵县九年级中考一模化学试卷(含答案)
- 26年营养支持随访服务适配要点
- 医学26年:Lambert-Eaton综合征 查房课件
- 医学26年:肺动脉高压MDT讨论要点 心内科查房
- 《电测工具仪表使用》课件
- 应急管理十二讲
- 2024年秋期国家开放大学《电子商务法律与法规》形考任务1-4答案
- 《吹瓶工艺培训》课件
- 移动通信机房设备安装工程施工工艺图解
- 一氧化碳中毒应急预案(6篇)
- 部编新教材小学语文五年级上册第1-4单元同步练习课堂作业课课练课时练(版含答案解析)
- 小企业考勤管理制度模板
- 12J201平屋面建筑构造图集(完整版)
- 冀少版一年级下册第2单元《火车开啦》教学设计
- 项目风险记录及跟踪表
评论
0/150
提交评论