微生物系列专题05宏基因组分析流程及常见结果解读_第1页
微生物系列专题05宏基因组分析流程及常见结果解读_第2页
微生物系列专题05宏基因组分析流程及常见结果解读_第3页
微生物系列专题05宏基因组分析流程及常见结果解读_第4页
微生物系列专题05宏基因组分析流程及常见结果解读_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

®宏基因组分析流程及常见结果解读解

| 陪

长知识金牌01

宏基因组基础及流程介绍02CONTENTS课程目录宏基因组binning技术介绍03

宏基因组常见结果及案例宏基因组基础及流程介绍01解

| 陪

长知识金牌宏基因组测序(Metagenomic)基因组DNA抽提Illumina

HiseqX测序基因组DNA片段化构建桥式PCR以特定环境中整个微生物群落作为研究对象,不需对环境中微生物进行分离培养,利用高通量测序平台进行测序,可以鉴定所有微生物组成及种类、系统进化、功能注释,样品间的物种或基因差异以及物种间的代等分析。技术流程解

| 陪

长知识金牌宏基因组常见分析软件及数据库数据质控FASTX-ToolkitNGS

QCToolkitTrimmomaticReadfq去宿主污染SoapAlignerBowtie组装SOAPdenovoMEGAHITIDBA-UDSPAdesmetaSPAdes基因预测MetaGeneMarkOrpheliaMetaGeneAnnotatorGlimmer-MGMetaGUN基因序列聚类CD-HIT注物、功能注释BLASTMetaPhlAn2DIAMONDMEGANKrakenHUMAnN解

| 陪

长知识金牌宏基因组常见数据库DatabaseDescriptionurlKEGGA

database

resource

for

understanding

high-level

functions

and

utilities

of

the

biological

system,

such

as

the

cell,

the

organism

and

theecosystem,

from

molecular-level

information,

especially

large-scale

molecular

datasets

generated

by

genome

sequencing

and

other

high-throughput

experimental

technologies.CAZyThe

CAZy

database

describes

the

families

of

structurally-related

catalytic

and

carbohydrate-binding

modules

(or

functional

domains)

ofenzymes

that

degrade,

modify,

or

create

glycosidic

bonds.COGPhylogenetic

classification

of

proteins

encoded

inplete

genomes.EggNOGA

database

of

orthologous

groups

and

functional

annotation.ARDBAntibiotic

Resistance

Genes

Database.CARDA

bioinformatic

database

of

resistance

genes,

their

products

and

associated

phenotypes.PfamThe

Pfam

database

is

a

large

collection

of

protein

families,

each

represented

by

multiple

sequence

alignments

and

hidden

Markovmodels

(HMMs).ResfamsResfams

is

a

curated

database

of

protein

families

and

associated

profile

hidden

Markov

models

(HMMs),

confirmed

for

antibioticresistance

function

and

organized

by

ontology.NRThe

nr

protein

database

maintained

by

NCBI

as

a

target

for

their

BLAST

search

services

is

aposite

of

SwissProt,

SwissProt

updates,PIR,

PDB.

Entries

with

absolutely

identical

sequences

he

been

merged.Swiss-ProtSwissProt

is

ahighly-curated,

highly-crossreferenced,

non-redundant

database.VFDBThe

virulence

factor

database

(VFDB)

is

an

integrated

andprehensive

online

resource

for

curating

information

about

virulencefactors

of

bacterialpathogens.PHIThis

database

contains

expertly

curated

molecular

and

biological

information

on

genes

proven

to

affect

the

oue

of

pathogen-hostinteractions.

Information

is

also

givenon

the

target

sites

of

some

anti-infective

chemistries.HUMAnNHUMAnN

is

a

pipeline

for

efficiently

and

accurately

determining

the

presence/absence

and

abundance

of

microbial

pathways

in

amunity

frommetagenomicdata.解

| 陪

长知识金牌KEGG数据库简介KEGG数据库(KyotoEncyclopediaofGenesandGenomes)是系统分析基因功能、联系基因组和功能信息的大型数据库。KEGG

GENES数据库提供基因和蛋白质序列信息;KEGG

Pathway数据库包括各种代、合成通路、膜转运、信号传递、细胞及疾病相关通路等,并收录各种化学分子、酶以及酶促反应等相关信息;KEGG

Module数据库是KEGG收集的一系列功能单元,用于基因组注释和生物学解释;KEGG

Orthology(KO)系统通过把分子网络的相关信息连接到基因组中,提供跨物种注释流程。ko:表示通路,这个通路是不分物种的,相当于所有物种某一通路的并集。KO(KEGG Orthology):是KEGG中一个“专有名词”,表征一个基因。KO作为ko通路中的基本单位,它是蛋白质(酶)的一个分类体系。通常序列高度相似且在同一通路中具有相似功能的蛋白质被归为一组,即一个KO。解

| 陪

长知识金牌KEGG-Table

of

Contents功能简介②拥有全局性检索框,在检索框内输入关键词,即可查询KEGG中与关键词相关的Pathway(通路)、Module

(模块)、Orthology

(直系同源)

Genome

(基因组)、Genes(基因)和Enzyme

(酶)等诸多信息;如有特殊需求,也可以进行个性化筛选,比如仅搜索与关键词相关的Module信息。①以分类列表的形式介绍了KEGG所包含各个内容模块,其中蓝色的字体可以直接点击进入以获取更为详细的各模块相关内容介绍;解

|陪伴医生科研成长知识金牌怎么看KEGG中代图方框一般就是酶,方框里面的2.4.1.87是EC编号;小圆圈代表代,鼠标放上去,会出现G00403,C代表pound,00403是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代。Ko00603:代,K12373+K07406+K07407:基因红色的表示要查询的基因所在通路中的位置解

| 陪

长知识金牌CAZy数据库---基因组学与酶学研究的重要桥梁碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源。通过研究碳水化合物相关酶可以得到大量有意义的生物学信息。CAZy数据库:专注于分析碳水化合物酶的基因组、结构和生物化学信息。CAZy数据库目前包括六大类家族。解

| 陪

长知识金牌COG和eggNOGCOGCOG,即Clusters

of

Orthologous

Groups

of

proteins。COG的中文释义即“同源蛋白簇”。由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。eggNOG

(evolutionarygenealogy

of

genes:

Non-supervised

Orthologous

Groups)数据库5.0版本共包含190

k个直系同源类群,以352个病毒在内的2031个物种基因组。EMBL

EggNOG对NCBI

COG

进行扩展,并包含了真核生物信息,被广泛应用于(元)基因组数据分析eggNOG

数据库包含了丰富的注释信息,除了COG/KOG/NOG的分类和注释信息外,还包含了KEGG/GO/SMART/PFAM信息。解

| 陪

长知识金牌各数据库的详细划分层级解

| 陪

长知识金牌LinkDB:

database

of

link

informationLinkDB解析了

KEGG数据库数据的流通以及和其它数据库的联系。宏基因组binning技术介绍02解

| 陪

长知识金牌宏基因组binning(分箱)难点Many

speciesCo-exist

SubspeciesDifferent

abundance

fordifferent

species>10G

short

reads

fromHiseqXplatform100Mb

assembled

contigsBinning的含义指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。简单来说就是把宏基因组数据中来自同一菌株的序列聚到一起,得到一个菌株的基因组。可以达到菌株水平。解

| 陪

长知识金牌核酸组成信息(Homology-based)最开始的binning的依据是来自同一菌株的序列,其核酸组成是相似的,于是可以根据核酸组成信息来进行binning,例如根据核酸使用频率(oligonucleotide

frequencyvariations),通常是四核苷酸频率(tetranucleotide

frequency),GC含量和必需的单拷贝基因等。基因丰度分布模式position-based)来自同一个菌株的基因在不同的样品中(不同时间或不同病理程度)的丰度分布模式是相似的。因此可以根据丰度信息来进行binning,即在不同样品中的丰度变化模式(co-abundance

patterns

across

multiplesamples)。这种方法更有普适性,一般效果也比较好,能达到菌株的水平。但是值得注意的是必须要大样本量,一般至少要50个样本以上,至少要有2个组能呈现丰度变化(即不同的处理,不同的时间,疾病和健康,或者不同的采样地点等),每个组内的生物学重复也要尽量的多。核酸组成和丰度变化同时依据核酸组成和丰度变化信息,将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件多是同时依据核酸组成和丰度变化信息。宏基因组binning的依据解

| 陪

长知识金牌宏基因组binning的序列类型reads

binning基于reads

binning的优势是可以聚类出宏基因组中丰度非常低的物种,考虑到在宏基因组组装中reads利用率很低,单样品10Gb测序量情况下,环境样品组装reads利用率一般只有10%左右,这样很多物种,尤其是低丰度的物种可能没有被组装出来,没有体现在gene或者contig中,因此基于reads

binning有可能得到低丰度的物种。contig

binning由于核酸组成和物种丰度变化模式在越长的序列中越显著和稳定,基于contig

binning效果可能更好,现在的很多软件也是基于contig

binning。虽然有现成的软件可用,但是计算资源消耗高,需要的时间也比较长。genes

binning基于genes

binning的应用非常广泛,目前已发表的宏基因组关联分析(MWAS)和多组学联合分析文章中,宏基因组binning很多都用genes

binning方法,尤其是疾病的MWAS研究中基本都用genes

binning,原因可能是基于genes丰度变化模式进行binning可操作性比较强,宏基因组分析中肯定都会计算gene丰度,同时基于genes

binning有很多可参考的文献,对计算机资源消耗比较低。解

| 陪

长知识金牌常见宏基因组binning软件Sangwan

et

al.

Microbiome

(2016)

4:8解

| 陪

长知识金牌基于Contig-binning分析流程—MetaWRAP分箱Binning:利用MaxBin2,

metaBAT2,和CONCOCT三个软件分别分箱提纯Bin_refinement:对多种Bin结果评估和综合分析,获得更好的结果重组装Reassemble_bins:利用原始序列和评估软件二次组装,改善Bin的N50、完整度定量Quant_bins:估计样品中每个bin的丰度并热图展示气泡图Blobology:blobplots可视化群体的contigs的物种和Bin分布物种分类注释Classify_bins:对Bin物种注释功能注释Annotate_bins:对Bin中的基因进行功能注释解

| 陪

长知识金牌宏基因组binning的主要应用关联分析通过binning得到的bins(简称为bins,更确切的说是strain-level

clusters或strain-leveltaxonomicunits)可以进行宏基因组关联分析以及多组学联合分析,将特定功能代与特定物种、特定基因进行关联研究,推动其因果机制的探究,为疾病监控、环境监测提供了菌株水平的生物靶标。单菌组装通过对binning得到的bins进行后续组装,可以得到很多不能在实验室里培养的细菌、古菌、病毒的基因组草图,然后根据单菌组装结果进行菌株水平的基因和功能注释、比较基因组分析、进化分析等,使我们得以洞察这些无法在实验室培养获得的菌株的生态适应机制,营养互作机制和新陈代等,可以研究在生态环境和复杂疾病中起重要作用的菌种以及致病菌和宿主的互作机制及其微进化机制。解

| 陪

长知识金牌基于Genes

binning分析流程根据具体的聚类算法和相关性系数的不同,对binning得到的bins的叫法也不同,主要有metagenomic

linkage

groups(

MLG

),metagenomic

clusters

(MGC

),metagenomic

species(MGS),和metagenomic

operational

taxonomicunits(MetaOTUs),同时,MLG,

MGC,MGS和MetaOTUs物种注释的标准也是不一样的。将根据genes丰度变化模式进行

binning得到的bins称为CAG

(co-abundance

gene

groups),将包含有

700个以上的gene的CAG称为MGS,CAG可用进行关联分析,MGS可用进行后续的单菌组装。Nature

Biotechnology,

2014,

32(8):822-828.知识金牌基于Genes

binning的应用案例MGS解

| 陪

长Zhang

C.,

et.al.

Science.

2018.IDBA_UDMetaGeneMarkCD-HITSOAPaligner膳食纤维选择性富集的肠道细菌可缓解2型糖尿病422解

| 陪

长知识金牌膳食纤维富集的15株缓解2型糖尿病的细菌共组装出154株高质量的优势菌株的草图,79个菌株在高膳食纤维饮食后没有变化,47个发生显著降低,而还有15个菌株被富集,并在28天时达到最大。这15个菌株主要来源于三个门,在W组,15个菌株均可产生乙酸,其中5个还能产生丁酸,而在U组,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论