微生物多样性分析美吉生物讲义_第1页
微生物多样性分析美吉生物讲义_第2页
微生物多样性分析美吉生物讲义_第3页
微生物多样性分析美吉生物讲义_第4页
微生物多样性分析美吉生物讲义_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、微生物多样性标准分析微生物生信开发部朱娟中级生信分析工程师meta1234群落组成分析- Diversity排序分析聚类分析群落组成分析第一章群落组成分析概念群落 (Biocoenosis)或称为“生基本原则一个群落环境的小环境越是多样,那么其中的群落就越是物种丰富。(热带雨林)一个群落环境的非生物因素和全球平均值相差越物群落”。指的是学中,在一个群落生境内相互之间具有直接或间接关系的所有生物,即生物的总合。大,其物种也会越少,但数目却会越多。这个区域的群落通常是高特异性的。(盐湖,深海)一个群落环境的生存环境越是缓慢连续的交替改变,群落也会越是丰富。(珊瑚礁)OTUs的数量+丰度=群落展示方

2、法群落otu2otu3otu1otu rep species群落组成分析方法一:柱状图输出文件输入文件R & barplotPhylum表格柱状图TaxonABCD.Actinobacteria12335214239.Bacteroidetes.Cyanobacteria1439230871077010328.Firmicutes297367554034525.Fusobacteria1021.Gemmatimonadetes1030.Parcubacteria91115.Proteobacteria23941624533864702.Saccharibacteria81412.Ten

3、ericutes0001.群落组成分析方法二:饼图输入文件输出文件R & piePhylum表格饼图TaxonABCD.Actinobacteria12335214239.Bacteroidetes.Cyanobacteria1439230871077010328.Firmicutes297367554034525.Fusobacteria1021.Gemmatimonadetes1030.Parcubacteria91115.Proteobacteria23941624533864702.Saccharibacteria81412.Tenericutes0001.群落组成分析方法三:

4、Venn输出文件输入文件R & plotVennVennOTU表格TaxonABCD.Actinobacteria12335214239.Bacteroidetes.Cyanobacteria1439230871077010328.Firmicutes297367554034525.Fusobacteria1021.Gemmatimonadetes1030.Parcubacteria91115.Proteobacteria23941624533864702.Saccharibacteria81412.Tenericutes0001.群落组成分析方法四:热图输入文件输出文件R &

5、 heatmapPhylum表格热图TaxonABCD.Actinobacteria12335214239.Bacteroidetes.Cyanobacteria1439230871077010328.Firmicutes297367554034525.Fusobacteria1021.Gemmatimonadetes1030.Parcubacteria91115.Proteobacteria23941624533864702.Saccharibacteria81412.Tenericutes0001.- Diversity第二章- Diversity概 念u 在地区尺度上,物种组成沿着某个梯

6、度方向从一个群落到另一个群落的变化率。即沿着某一环境梯度,物种替代的速率、物种周转率、生物变化速率等。u 不同群落或某环境梯度上不同点之间的共有种越少,多样性越大。它可以指示生境被物种的程度;多样性的测定值可以用来比较不同地段的生境多样性;多样性与多样性一起生物异质性。了总体多样性或一定地段的Ecological distance = Dissimilarity- DiversitySimilarity- 物种组成越相近,相似性越高- 指数范围: 0 - 1 .Dissimilarity-dissimilarity = 1 - similarity- 通过特定的距离计算方法 (Euclidea

7、n).- Diversity Beta diversity metrics- pairwise sample dissimilarityu Non-phylogenetic(Component-based)“Distance”u Phylogenetic(UniFrac)S1S2S3S4S5S100.19840.2388830.2227630.259351S20.198400.1273240.1537680.160351S30.2388830.12732400.1943980.147496S40.2227630.1537680.19439800.20812S50.2593510.1603510

8、.1474960.208120- Diversity Non-phylogenetic metrics - Component-basedDistanceMethods:EuclideanManhattan Bray Curtis JaccardHellinger Pearson.TaxonS1S2S3Acidobacteria150Actinobacteria30801357642Bacteroidetes113Chlorobi010Chloroflexi51055Cyanobacteria0419Fibrobacteres001Firmicutes119224682732Fusobacte

9、ria031315OTU nameS1S2S3OTU1333150672OTU278015630OTU34168367OTU481367162OTU52549353OTU6471228OTU713239180- Diversity Phylogenetic metrics- Diversity Non-phylogenetic metrics距离名称距离特征Bray_curtis同时考虑物种有无和物种丰度,不考虑各物种之间的进化关系或关联信息。Bray_curtis 和bray_curtis_faith是标准化的曼哈顿距离;而bray_curtis_magurran是定量的sorensen距离

10、Bary_curtis_faithBray_curtis_magurranAbund_jaccardJaccard距离只考虑物种有无,而abund_jaccard添加了物种丰度Manhattan考虑物种丰度,但没有考虑各物种之间的相关性。欧氏距离对(大的)异常值较为敏感,而曼哈顿距离却对异常值不太敏感。若 样本区分不明显,选择欧氏距离,相当于放大异常值,从而放大区分EuclideanCanberra考虑物种丰度,但没有考虑各物种之间的相关性。受异常值的影响较小,使其适合应用于具有高度偏斜或含异常值的数据chisq考虑物种丰度。利用列联表分析的方法得到一个卡方统计量来衡量两之间的差异性。卡方统计

11、量越大,表明的选择对变量的取值有显著影响,这也意味着两之间的差异越大。稀有物种会对距离产生明显影响,应先剔除稀有物种后再进行分析gower考虑物种丰度,对数据进行了标准化,减小异常值的影响hellinger通过物种在样本中的相对丰度进行距离计算,比绝对丰度更精确kulczynski考虑到两样本间物种丰度,及共有和独有物种的丰度- Diversity Non-phylogenetic metrics距离名称距离特征morisita_horn考虑物种相对丰度soergel考虑物种丰度specprof考虑物种相对丰度pearson相关系数是衡量随 量X与Y相关程度的 法,相关系数的取值范围是-1,1

12、。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。考虑物种丰度,适合符合正态分布的样本Spearman_approx利用两变量的秩次大小作线性相关分析,具体是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。Spearman对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些Binary_距离名称算法名称前带有“binary-”的算法为先将OTU表中的数值转换为二进制布尔类型,再进行计算。例如“binary_euclidean”算法,先将OTU表中的数值为零的不变,大于零的

13、变为1,再进行“euclidean”距离分析。所有距离只要换算成二进制算法,均不再考虑物种丰度- Diversity Phylogenetic metrics距离名称距离特征Unweighted_unifrac算法名称中含有“unifrac”的算法需要各个物种分类单元(如OTU、属等)的系统进化树(程序会自动搜索项目中存在的完整进化树),通过计算进化树各物种的系统发育进化关系,从而计算样本间距离,其中unweighted UniFrac距离算法没有计入不同环境样本的序列相对丰度,而weighted UniFrac算法在计算树枝长度时将序列的丰度信息进行 计算,因此unweighted UniF

14、rac可以检测样本间变化的存在,而weighted UniFrac可以更进一步定量的检测样本间不同谱系上发生的变异。如果未添加full_tree信息,默认选择丰度前50的OTU进行构建进化树,而添加full_tree则表明利用所有OTU构建进化树。Unweighted_unifrac_full_treeWeighted_normalized_unifracWeighted_unifrac排序分析第三章排序分析应用群落学数据一般是数据,例如物种属性或环境因子。多元统计分析是群落学常用的分析方法,而排序(ordination)是多元统计最常用的方法。多样性分析中常用的排序分析方法:PCA、PCoA

15、、NMDS、RDA、db-RDA必须强调的是:排序对象(样方,物种和环境因子)在排序空间的坐标值( scores)一般来讲,只有相对意义,没有绝对意义。排序分析何为排序何为排序?排序分析概念u排序的过程是将样方或植物种排列在一定的空间,使得排序轴能够反映一定的梯度,从而,能够解释植被或植物种的分布与环境因子间的关系,也就是说排序是为了揭示植被-环境间的关系。u排序也叫梯度分析(gradient analysis)图: 美国大烟山植被梯度分析一例排序分析分类u 间接梯度排序(indirect gradient analysis):非约束性排序;寻求潜在的或在间接的环境梯度来解释物种数据的变化;

16、如PCA、PCoA;u 直接梯度排序(direct gradient analysis):约束性排序;在特定的梯度上(环境轴)上探讨物种的变化情况; 如:RDA、db-RDA;排序分析物种响应环境梯度模型:u 线性模型:包括直线和曲线线性关系某个植物种随着某一环境因子的变化而呈线性变化或叫线性反应(linear response)u 非线性模型:二次曲线模型:高斯模型(Gaussian m),正态曲线某个植物种的数随某个环境因子值的增加而增加,当环境因子增加到某一值时,植物种的数达到最大值,此时的环境因子值称为该种的最适值(optimum);随后当环境因子值继续增加时,种的演变:单峰模型数逐渐

17、下降,最后消失排序分析物种响应环境梯度模型:注:左边图表示两个种对环境梯度反应的不同模型, 右边图表示模型所对应的关系,ad为线形模型,ef为单峰模型图两个种x、y在某一环境梯度上的关系类型排序分析-PCA 主成分分析Ø PCA:Principal components analysis是一种简化数据集的技术,通过线性变化把数据变换到一个新的坐标系中, 使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。原理和方法:原理是设法将原来变量重新组一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能

18、多地反映原来变量的信息;方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。排序分析-PCAM=0,那么F=1; M=1,那么F=0M或F去掉实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列。IDMF101210310401510601710排序分析-PCA每条可以被表示为一个10维向量:(22347, 5867, 15051, 183, 95, 158, 1.62%, 28707, 2925583, 421)T降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我 们可以想办法在降维的同时将信息的损失尽量降低。“浏览量”

19、和“访客数”往往具有较强的相关关系 “订单数”和“成交数”往往也具有较强的相关关系时段流量时段付款时段上架时段浏览量(PV)访客数(UV)销售额销售量订单数单价转化率成交量总销售额高质宝贝数1日22347586715051183951581.62%2870729255834212日111542638508156331541.25%1092511320451863日51031230234532141681.14%5015526410764日3194737945951890.68%1602181455445日2252555768861281.08%56268447166日51600.95%6277

20、4155137日30369041158971650.77%1013129333168日65642177385342321201.47%5003508392519日24257785810239105621650.79%91581137090211排序分析-PCA计算过程第一步,分别求每组的平均值,然后对于所有的样例,都减去对应的均值。第二步,求特征协方差矩阵第三步,求协方差的特征值和特征向量第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵第五步,将样本点投影到选取的特征向量上 PCA (用欧氏距离方程计算点间距离)PCA本质上是

21、将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了。PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。排序分析-PCA实现方法stats package: prcomp参考文献:Legendre P, Legendre L. Numerical Ecology. 2nd ed. Amsterdam: Elsevier, 1998. ISBN 978-0444892508.Jackson DA (1

22、993) StoppingRules in Principal Components Analysis: A Comparison of Heuristical and Statistical Approaches. Ecology. 74(8): 2204-2214. Ramette A (2007) Multivariate analyses in microbial ecology. FEMS Microbiol Ecol. 62(2): 142160.ter Braak CJF (1994) Canonical commuordination. Part I: basic theory

23、 and linear methods. Ecoscience. 1: 127140.排序分析-PCoA主坐标分析u PCoA (Principal coordinates analysis):主坐标分析u 根据样方之间的差异即距离的数据进行分析u N个样本,在N-1维坐标系中,点间的欧氏距离的平方正好等于原来的差异数据排序分析-PCoA计算过程1)计算样方间的距离系数,N×N 距离矩阵D协方差矩阵S(即离差矩阵)2)3)求S矩阵的特征根和相对应的特征向量4)求排序坐标排序分析-PCoA实现方法stats package: cmdscale参考文献:Gower JC (1966) S

24、ome distance properties of latent root and vector methods used in multivariate analysis. Biometrika. 53(3-4):325-338.Legendre P, Legendre L. Numerical Ecology. 2nd ed. Amsterdam: Elsevier, 1998. ISBN 978-0444892508.排序分析Differences between PCA and PCoA:u PCA是先给出N个点的坐标,去找出刚性旋转的坐标,PCoA是只知其间的距离去重新建立各自的坐

25、标。u PCA is used for similarities and PCoA for dissimilaritties。u PCA仅仅比较的是OTU丰度的不同,PCoA分析可以加入进化距 离的内容。排序分析-NMDS非度量尺度分析尺度法(NMDS):非度量是一种将空间的研究对象(样本或变量)简化到低进行、分析和归类,同时又保留对象间原始关系的数据分析方法。其基本特征是将对象间的相似性或相异性数据看成点间距离的单调函数,在保持原始数据次序关系的基础上,用新的相同次序的数据列替换原始数据进行度量型尺度分析。Ø 间接梯度排序Ø 接受任何距离矩阵Ø 秩次排序方法&#

26、216; 计算量较大,对硬件要求高排序分析-NMDS计算过程Kruskal 算法 在给定的 Rk 空间里选择一个拟合构图, 其 Stress(k) 值越小越好:1. 计算一种距离得到距离矩阵,确定需要降到的纬度,一般是2维;2. 随机选择一个2维的初始数据;3. 在这个二stress值;寻找一组点,满足距离与原始距离的顺序相同,并计算4. 寻找一个新的维度,使得stress减小;5. 重复 3-4 直至 Stress(k=2) 收敛(即Stress不再减小),即为最终结果。如果预先设定的排序轴数量比较少(例如K=2或3),在相同轴数的条件下,NMDS往往能够获得比PCoA更少失真的对象之间的关

27、系。但是NMDS计算需要不断迭代,对计算机要求比较高。排序分析-NMDSstress:依据Kruskal应力公式I计算,是排序空间内对象结构与原始距离矩阵之间的相异程度的度量。lstress<0.2时,可以用NMDS的二维点图表示,其图具有一定的解释意义stress<0.1时,可以认为是一个好的排序stress<0.05时,具有很好的代表性llstress值拟合度0.2以上非常不好0.2不好0.1普通0.05很好0.025非常好0完美排序分析-NMDS实现方法Ø vegan packagemetaMDS: performs multiple NMDS runs an

28、d retains the best solution stressplot: used to visualise the Shepard stress plotexample_NMDS=metaMDS(commu_matrix, # Our commu-by-species matrixk=2) # The number of reduced dimensionsexample_NMDS$stressØisoMDS():所使用的距离矩阵带有isoMDS()函数运行NMDS分析值,这个时候可以用Ølabdsv packagebestnmds:减少仅达到局部最小化应力函数风险

29、参考文献:Legendre P, Legendre L. Numerical Ecology. 2nd ed. Amsterdam: Elsevier, 1998. ISBN 978-0444892508. Legendre P, Borcard D, Peres-Neto PR (2005) Analyzing beta diversity: Partitioning the spatial variation of commucomposition data. Ecol Monogr. 75:435450.Clarke KR (1993) Non-parametric multivaria

30、te analysis of changes in commustructure. Austral J Ecol 18:117-143.Kenkel NC, Orloci L (1986) Applying Metric and Nonmetric Multidimensional Scaling to Ecological Studies: Some New Results. Ecology 67:919928.排序分析-RDA冗余分析llllRedundancy analysis, RDA约束化的主成份分析直接梯度分析数据矩阵和环境矩阵Actually:RDA => constrai

31、ned PCARDA或CCA选择原则:先进行DCA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可, 如果小于3.0, RDA的结果要好于CCA。排序分析-RDA计算过程可以看作是PCA的每一步加上与环境因子线性回归。PCA的轴为物种的线性组成;RDA的轴为环境因子的线性组成,是实际的环境梯度,约束的轴不超过环境因子个数;在寻找最大解释方差的轴时,样方的坐标与环境因子做回归:q+ åbkUkjk =1z j= b0计算样方排序新值zj(j= 1,2, N)Z=Ub排序分析-RDARD

32、A图解1、点与点之间距离越大,分布差异越大;2、环境因子、物种、因子与物种间夹角为锐角则成正相关, 为钝角则成负相关;3、样品在物种上投影点的相对位置代表的是该物种这些样方中拟合的多度值(即能够被排序模型所解释的部分,非观测值) 的排序情况;4. 从样方的点向数量环境因子的箭头做投影,投影点的位置可以近似表示该环境因子数值在这些样方内的排序;5. 环境因子箭头的长短可以代表环境因子对于物种数据的影响程度(解释量)的大小;排序分析-RDA实现方法vegan package: rda参考文献:Legendre P, Legendre L. Numerical Ecology. 2nd ed. Am

33、sterdam: Elsevier, 1998. ISBN 978-0444892508. (2007) Multivariate analyses in microbial ecology. FEMS Microbiol Ecol. 62(2): 142160.Ramette Ater Braak CJF (1994) Canonical commuordination. Part I: basic theory and linear methods. Ecoscience. 1: 127140.排序分析-dbRDAdbRDADistance-based redundancy analysi

34、s,db-RDA可以看作是PCoA的每一步加上与环境因子线性回归;步骤:1.Calculate your distance matrix 2.Run a PCoA3.Run an RDA on the eigenvaluesobtained from the PCoA排序分析-dbRDA实现方法vegan package:capscale参考文献:Legendre P, Anderson MJ (1999) Distance- based redundancy analysis: testing experiments. Ecol Monogr.69:124.multispecies resp

35、onses in multifactorial ecological排序分析 总 结 Ø PCA:Ø PCoA:Ø NMDS:Ø RDA:Principal components analysis Principal coordinates analysisNon-metric multidimensional scalingRedundancy analysisØ db-RDA: Distance based RDARaw data-baseDistance-baselinearunimodalunconstrainedPCACA,DCAPC

36、oA,NMDSconstrainedRDACCAdb-RDA聚类分析第四章聚类分析概念u 聚类是指按照或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。u 为什么聚类?u 从数据的海洋中找到一种模式u 用于理解和分析数据聚类分析层次聚类层次聚类(Hierarchical cluster analysis):通过生成一系列嵌套的聚类树来完成聚类。单点聚类处在树的最底层,在树的顶层有一个根节点聚类。根节点聚类覆盖了全部的所有数据点。自下而上自上而下聚类分析层次聚类(Hierarch

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论