




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京奥维森基因科技有限公司16srDNA 信息分析1. 标准信息分析(初级)1.1 基本数据处理(使用内部撰写的程序对原始的测序数据进行基本处理)通过 Illumina 平台 ( Miseq) 进行 Paired-end测序, 下机数据经过去除低质量reads(Q20, 90%标准过滤),并trim 掉 reads2 尾部 100bp 低质量序列;每个样品数据产出详细统计结果见下表:表 1-1 reads数据统计:# Samples # HQ reads (total) # HQ reads (mean ± SD)CA17110,6516,509± 2,175HC19163
2、,6908,615± 3,081LK13127,4169,801± 2,858Total49401,7578,199± 2,992注:原来的样本中CA15 由于原始Reads数太少(只有23 条)而被删除,因此目前的样本总数为49 个1.2 去除 barcode 序列,引物序列及tags过滤通过 COPE 软件( Connecting Overlapped Pair-End, V1.2.3.3 ) ,利用重叠关系将双末端测序得到的成对reads组装成一条序列。利用内部编写程序去除两端barcode 序列,引物序列。Paired End Reads通过 reads
3、之间的 overlap ( 19 个碱基)关系拼接成Tags;然后去掉barcode 序列,引物序列。为了得到高质量的Tags,将拼接的Tags按照长度过滤,去嵌合体等的处理。(这里等的意思就是按照拼接条件过滤:1, 碱基的 ASCII value 值低于 33 的过滤掉。 2.overlap 取 19 个碱基,这19 个碱基相互匹配率低于98% 的过滤掉。3.去掉引物序列的时候,允许一个错配,错配多于一个的过滤掉。)表 1-2 tags 的详细信息Sample IDRaw Tag NumFinal Tag numHC11756017,319HC296729,604HC31805317,826
4、HC41218112,107HC51155811,477HC81148811,404HC91635416,095HC102158421,270HC1179897926HC121156111,449HC132490924,660HC142297922,736HC152074720,549HC161485714,728HC172117121,002HC181070010,605HC191135911,247CA81620316,040CA101092510,560CA1182547,690CA1294799,053CA1479477,584CA1682218,093CA171066610,479C
5、A181078710,651CA51634416,154CA960475,861CA131029010,1652 高级信息分析2.1 OUT及其丰度分析2.1.1 OUT统计拼接的 Tags 经过优化后,在0.97 相似度下利用qiime( v1.8.0)软件将其聚类为用于物种分类的OTU(Operational Taxonomic Units) ,统计各个样品每个OTU 中的丰度信息, OTU 的丰度初步说明了样品的物种丰富程度。49 个样品共产生3029 个 OTU ,其中 Singletons OTU (即丰度为1 的 OTU )个数为0, Non singletons OTU 个数为
6、3029。表 4.样品OUT 统计SampleNameOTUsTagsHC154117,319HC22699,604HC353017,826HC421512,107HC520611,477HC821411,404HC945516,095HC1060021,270HC1226211,449HC1329424,660CA1045310,560CA117107,690CA126509,053CA145197,584CA162408,093CA1733010,479CA1828910,651CA533616,154CA93475,861HC111427,926CA1326910,165表 5 OTU
7、统计IndexOTU numNo. of OTUs3029Assigned to families1,708Assigned to genera1,172Assigned to species314No. of OTUs per sample368± 147Min no. of OTUs per sample127Max no. of OTUs per sample7192.1.2 OTU分布的韦恩图如下:在 0.97的相似度下,得到了每个样品的OTU 个数, 利用R( v3.1.1 ) 画图软件绘出Venn图可以展示多样品共有和各自特有OTU 数目, 直观展示样品间OTU 的重叠情
8、况。结合 OTU所代表的物种,可以找出不同环境中的核心微生物。图 2-1 OTU venn 分析。 不同颜色图形代表不同样品或者不同组别,不同颜色图形之间交叠部分数字为两个样品或两个组别之间共有的OTU 个数。 同理, 多个颜色图形之间交叠部分数字为多个样品或组别之间共有 OTU 个数。Venn 图容许2-5 个样品或组别。2.1.3 OUT水平的PCA图如下:R( v3.1.1)画图软件PCA 分析 (Principal Component Analysis) ,即主成分分析,是一种分析和简化数据集的技术。 主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过
9、保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。通过分析不同样品OTU ( 97%相似性)组成可以反映样品的差异和距离,PCA运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值两个特征值。如果两个样品距离越近,则表示这两个样品的组成越相似。不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似性。图 2-2 基于 OTU 丰度的 PCA 分析。 横坐标表示第一主成分,括号中的百分比则表示第一主成分对样品差异的贡献值;纵坐标表示第二主成分,括号中的百分比表示第二主成分对样品差异的贡献值。图中
10、点分别表示各个样品。不同颜色代表样品属于不同的分组。2 .2 Core microbiome分析qiime( v1.8.0)软件得到的OTU 数与样本数的关系:2-3 覆盖所有样本的微生物组。横坐标表示样品占的比率,纵坐标表示包含OUT 的数目。这些样本的core microbiome(即覆盖所有样本的微生物组)共包含 17 个OTUs, 其物种2-1。2-1 覆盖所有样本的OTUsOTUTaxonomy levelTaxonomy name400850GenusStreptococcus437590GenusCapnocytophaga368428Speciesdispar645710Gen
11、usCampylobacter417699GenusFusobacterium395972GenusStreptococcus381841GenusStreptococcus140702GenusPeptostreptococcus413823GenusGranulicatella645697GenusCampylobacter414306GenusNeisseria260777GenusFusobacterium2008GenusNeisseria21908GenusNeisseria645708GenusCampylobacter414422FamilyGemellaceaeGenusGr
12、anulicatella12122.3 生物多样性分析2.3.1 单个样品复杂性分析通过计算Shannon index, Chao1 index, Phylogenetic diversity (PD, whole tree) 和 observednumber of species 共四个指数来进行生物多样性分析。通过qiime( v1.8.0)软件计算样品的Alpha 多样性值并用R( v3.1.1 )软件做出相应的稀释曲线,盒型图。稀释曲线是利用已测得16S rDNA 序列中已知的各种OTU 的相对比例,来计算抽取n个( n 小于测得Reads序列总数)Tags时各 Alpha 指数的期望
13、值,然后根据一组n 值(一般为一组小于总序列数的等差数列)与其相对应的Alpha 指数的期望值绘制曲线。如样品有提供分组信息,且每组样品个数不小于3,将对组间的Alpha 多样性指数进行差异分析。差异分析的检验方法为秩和检验,如果组数为2,采用两样品比较的WilcoxonRank-Sum Tes(t R 中的 wilcox.test ) ; 如果组数大于2, 采用多样品比较的Kruskal-Wallis Test( R 中的kruskal.test)。最后利用Alpha 多样性指数绘制盒形图。差异分析与作图均通过R软件( v3.1.1 )进行。基于 OTU 的结果,我们计算了样品的Alpha
14、多样性(表2-2) 。 Alpha 多样性是对单个样品中物种多样性的分析。chao1 多样性估算指数是根据所测得的tags 数和 OTU 的数量以及相对比例来预测样品中微生物的种类(OTU 的数量) , ,是基于已知结果所得相对值。Shannon 指数是一个综合OTU 丰度和 OTU 均匀度两方面因素的一个多样性指数,Shannon 及 observed number of species 、 Phylogenetic diversity (PD, whole tree) 指数越大, 则表示该样品中的物种越丰富。表 2-2 样品的 A lpha 多样性#Alphamean(CA)mean(HC
15、)mean(LK)Pvalue(KW)p-vaule(CA-HC)p-vaule(CA-LK)p-vaule(HC-LK)chao1488.2993557357.6225984422.5433110.10303420.048708660.3593680.2476438observed_species243.0764706161.2631579199.54615380.021409050.015426790.21165110.09132691PD_whole_tree16.4888923513.1660461115.232958770.037857420.016745530.38587990.0
16、6422109shannon3.7781270132.997886233.4041635860.003926270.011310790.21670590.02426458Rarefaction 分析(样本不分组)2-4 单个样品内的Alpha 多样性Rarefaction 分析(样本分组)2-5 每组样品内的Alpha 多样性。 图中红色,黄色,蓝色线分别表示CA, HC, LK组的rarefaction图 2-6 为组 Alpha 多样性盒形图, 更直观显示组间Alpha 多样性差异。盒形图可以显示5 个统计量 (最5 条线) ,异常值以“o”标出。Alpha 多样性的比较,以Shannon
17、 index 为例可以看出多样性CA>LK>HC,其中CA/HC有(P=0.008, Student s t te,而 st) CA/LK, HC/LK差异不显著2.3.2 样品间复杂度比较分析Beta 多样性(Beta diversity)分析是用来比较一对样品在物种多样性方面存在的差异大本分析中通过QIIME ( v1.8.0)软件,采用迭代算法,分别在加权物种分类丰度信息和随机抽取各样品中75% Reads单独进行差异计算,迭代100 次之后综合统计得到最终的统计分析结果表及PCoA 展示图。Beta多样性热图使用R( v3.1.1 )软件中的NMF 包的aheatmap进行
18、作图。UniFrac 是通过利用系统进化的信息来比较样品间的物种群落差异。其计算结果可以作为beta diversity 的指数,它考虑了物种间的进化距离,该指数越大表示样品间的差异UniFrac 结果分为加权UniFrac ( weighted UniFrac )与非加权UniFiracunweighted UniFrac ) 2 种,其中weighted UniFrac 考虑了序列的丰度,unweighted UniFrac不考虑序列丰度。从下面盒形图看,CA 组内的物种丰度最大。Weighted UnifracUnweighted Unifrac图 2-7 Beta 多样性的盒形图北京奥
19、维森基因科技有限公司Unifrac 距离的主坐标分析(PCoA)如下:Weighted Unifrac图 2-8 Beta 多样性的主坐标分析(PCoA)图 。 如果两个样品距离越近,则表示这两个样品的组成越相似。不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似性。图 2-9 UniFrac 距离分布heatmap。通过对UniFrac 结果的聚类,具有相似beta多样性的样品聚类在一起,反应了样品间的相似性。2.3.3 物种组成分析本分析中分组后各水平的分类比较柱形图是用QIIME ( v1.8.0)软件得到的,单个样品的群落分布柱形图和盒
20、型图是根据QIIME ( v1.8.0)软件计算的结果用R( v3.1.1 )软件画北京奥维森基因科技有限公司2.3.3.2 纲 (class)水平比较样品的群落分布图,直观的反应各样品的群落组成。从门水平的群落分布图中可以看出,在这批样品中,占主要地位的门有Firmicutes, Proteobacteria。2.3.3.1 门 (phylum)水平比较图 2-10 分组后门水平的分类比较。从左至右分别为CA,HC,LK的物种组成。图 2-11 样品的门水平群落分布图北京奥维森基因科技有限公司2.3.3.3 属 (genus)水平比较2-12 分组后纲水平的分类比较。从左至右分别为CA,HC
21、,LK的物种组成。2-13 样品的纲水平群落分布图北京奥维森基因科技有限公司2-14 样品的属水平群落分布图25 个属的物种组成如下:Streptococcus, Neisseria, Neisseriaceae (family),Campylobacter, Bacillus, Gemellaceae, TM7-32.3.4 多组样本的比较分析下面的表格都是通过QIIME ( v1.8.0)软件计算出的,热图是用R( v3.1.1 )软件画的。2.3.4.1.1 OTU水平的比较分析OTUs( P<0.05, Kruskal-Wallis test) ,共 35 个OTUP value
22、CA_meanHC_meanLK_meanLineage10825390.00424330.30960880.46149550.3054158s_Streptococcus_infantis10340520.01148961.334E-059.02E-053.309E-05s_Streptococcus_infantisCU.OTU36090.0468380.00077174.302E-057.37E-05s_Streptococcus_infantisCU.OTU39510.04872320.00093470.00017980.0004562s_Streptococcus_infantis5
23、615370.00460564.506E-052.515E-050.0001385s_Selenomonas_noxia27142670.00220150.00024412.728E-053.53E-05s_Prevotella_tannerae9686750.0009910.00145830.00210670.0067938s_Haemophiluspara_influenzae1688170.00580284.681E-057.871E-050.0002216s_Capnocytophaga_ochraceaCU.OTU15120.01886760.0001715.314E-054.729
24、E-05s_Campylobacter_rectusCU.OTU42480.02630483.144E-053.67E-050.0001205s_Actinobacillus_porcinusCU.OTU46690.01292220.000336700.0006268o_LactobacillalesCU.OTU28840.02085850.00030420.00025670.000887o_Gemellales9319500.02998470.0003360.0005880.0003561g_Streptococcus43203170.04066871.213E-057.16E-050.00
25、01015g_Streptococcus44167630.02667630.00040812.432E-054.272E-05g_Streptococcus2699070.01923650.00296490.00026950.000376g_Prevotella3245320.04713650.00020892.607E-055.232E-05g_Leptotrichia43057910.003092108.912E-050.0002187g_Cardiobacterium42949540.0205540.00057660.00043790.001282g_Capnocytophaga1010
26、3290.03950950.00023727.529E-050.0001302g_Capnocytophaga10986550.02105580.012873900.1271655g_BacillusOTU190.0272430.00114440.00373780.0004883g_Abiotrophia43211360.0378650.00039060.00344990.0012684f_StreptococcaceaeCU.OTU44370.01766786.529E-055.103E-060.000202f_StreptococcaceaeOTU20.00418114.005E-059.
27、346E-060.0001607f_PasteurellaceaeCU.OTU38810.03384980.00021416.821E-050.0004476f_NeisseriaceaeCU.OTU20270.04195970.00012438.193E-050.0002474f_Neisseriaceae11016690.03959570.01894740.04067760.01988f_GemellaceaeCU.OTU1600.02701410.00017688.61E-063.201E-05f_Clostridiaceae8517040.03049670.00819870.00065
28、750.0014748f_Clostridiaceae10900596.38E-056.461E-058.711E-050.0003815f_Carnobacteriaceae9497890.00371860.00126510.00208510.003773f_Carnobacteriaceae10659740.01214450.0024050.00456510.0070174f_CarnobacteriaceaeOTU100.02341810.000186800.001004c_BacilliCU.OTU31 0.02864210.0004367 2.232E-053.781E-05 p_F
29、irmicutes2.3.4.2 属水平的比较分析首先,PCA分析能够看出3 组样本之间有一定程度的差异:其次,通过Kruskal-Wallis test 分析可以找出在不同组间有明显差异(P<0.05)的属如下(共19个属或科):CA_meanHC_meanLK_meanP valueg_Streptococcus0.43300460.60816750.39466440.001482408g_Campylobacter0.064858410.029354620.034725140.03853575g_Bacillus0.0129713900.12795236.82332E-05f_Gemellaceae0.023597830.045285970.022507560.0136056f_Carnobacteriaceae0.003761120.0067681990.011273880.0106726g_Haemophilus0.0030465010.0023524870.007705734
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CJ/T 510-2017城镇污水处理厂污泥处理稳定标准
- CJ/T 499-2016剪切式垃圾破碎机
- CJ/T 490-2016燃气用具连接用金属包覆软管
- CJ/T 469-2015燃气热水器及采暖炉用热交换器
- CJ/T 328-2010球墨铸铁复合树脂水箅
- CJ/T 264-2018水处理用橡胶膜微孔曝气器
- CJ/T 209-2005喷泉喷头
- CJ/T 206-2005城市供水水质标准
- CJ/T 180-2014建筑用手动燃气阀门
- 社会工作者与客户的互动试题及答案
- 浙江省杭州市上城区2023-2024学年八年级下学期期末科学试题(解析版)
- 反比例函数函数K的几何意义市公开课一等奖省赛课获奖课件
- JGJ196-2010建筑施工塔式起重机安装、使用、拆卸安全技术规程
- DL∕T 1094-2018 电力变压器用绝缘油选用导则
- (正式版)SH∕T 3541-2024 石油化工泵组施工及验收规范
- 【广州浪奇公司存货内部控制缺陷的案例探析8100字(论文)】
- 潜水主题素材课件
- 项目二 行驶系统检修 资料 Audi空气悬架课件讲解
- 浙江省嘉兴市2023-2024学年八年级下学期6月期末语文试题
- 黑龙江三支一扶考试笔试真题2023
- MOOC 工程制图-重庆大学 中国大学慕课答案
评论
0/150
提交评论