生物统计学必备之—对多元的统计分析_第1页
生物统计学必备之—对多元的统计分析_第2页
生物统计学必备之—对多元的统计分析_第3页
生物统计学必备之—对多元的统计分析_第4页
生物统计学必备之—对多元的统计分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 多元统计分析多元统计分析生物统计学必备之对多元的统计分析 在工业、农业、医学、气象、环境以及经济、在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个管理等诸多领域中,常常需要同时观测多个指标。例如,要了解一个国家经济发展的类指标。例如,要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入、型也需观测很多指标,如:人均国民收入、人均工农业产值、人均消费水平等等。人均工农业产值、人均消费水平等等。 在医在医学诊断中,要判断某人是有病还是无病、也学诊断中,要判断某人是有病还是无病、也需要做多项指标的体检,如:血压、心脏脉需要做多项指标的体检,如:血

2、压、心脏脉博跳动的次数、白血球、体温等等。博跳动的次数、白血球、体温等等。 生物统计学必备之对多元的统计分析 总之,在科研、生产和日常生活中,受多总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在种指标共同作用和影响的现象是大量存在的,举不胜举。上述指标的,举不胜举。上述指标, 在数学上通常称在数学上通常称为变量,由于每次观测的指标值是不能预为变量,由于每次观测的指标值是不能预先确定的。因此每个指标可用随机变量来先确定的。因此每个指标可用随机变量来表示。表示。 生物统计学必备之对多元的统计分析 多元分析也是一种处理大量数据的方法,与多元分析也是一种处理大量数据的方法,与统

3、计分析所不同的是:多元分析所处理的不统计分析所不同的是:多元分析所处理的不是统计意义下的样本,一般并不要求用它们是统计意义下的样本,一般并不要求用它们去推断总体的特征,因而不需要随机取样,去推断总体的特征,因而不需要随机取样,不必了解数据的分布性质,也不涉及显著性不必了解数据的分布性质,也不涉及显著性检验。检验。生物统计学必备之对多元的统计分析 从应用的角度看,多元统计分析就是要研从应用的角度看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。多元统计的内容,并无严格的界限。生物统计学必备之对多元的统计分析 一般认为,

4、典型的多元统计分析主要可归一般认为,典型的多元统计分析主要可归结为两类问题:第一类是决定某一样品的结为两类问题:第一类是决定某一样品的归属问题,即称之为分类,判别分析和聚归属问题,即称之为分类,判别分析和聚类分析就属于此内容。第二类问题是设法类分析就属于此内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系,常称以便更好地说明多变量之间的关系,常称之为排序。主成分分析和因子分析属于此之为排序。主成分分析和因子分析属于此内容。内容。生物统计学必备之对多元的统计分析 多元统计分析有很多的方法,我们只介绍多元统计分析有很多的

5、方法,我们只介绍几种在生物学中较常用的方法。几种在生物学中较常用的方法。生物统计学必备之对多元的统计分析第一节第一节 数据的类型数据的类型 可以把研究的对象叫做实体,描述实体数可以把研究的对象叫做实体,描述实体数量特征的各个信息项目称为属性(变量)。量特征的各个信息项目称为属性(变量)。如在植物生态学研究中,实体可以是样方、如在植物生态学研究中,实体可以是样方、标地、地段标地、地段(林分林分)或群落等等。实体中观测或群落等等。实体中观测的各个种的数据项目的各个种的数据项目(如种的存在不存在、如种的存在不存在、种的频度、盖度或重量等等种的频度、盖度或重量等等),以及环境因,以及环境因素的数据项目

6、素的数据项目(如样地坡度、雨量、日照、如样地坡度、雨量、日照、土壤深度、各种养分元素的含量等等土壤深度、各种养分元素的含量等等)都是都是属性。属性。生物统计学必备之对多元的统计分析 由于属性多种多样,反映它们的数据类型由于属性多种多样,反映它们的数据类型就有所不同。比如,种的频度、雨量、日就有所不同。比如,种的频度、雨量、日照时数等是数值;种的存在和不存在只有照时数等是数值;种的存在和不存在只有两种状态:土壤颜色可分为红、黑、黄等两种状态:土壤颜色可分为红、黑、黄等多种状态等等。所以需要考虑数据的类型,多种状态等等。所以需要考虑数据的类型,以及不同类型间的转化,最后将具有同一以及不同类型间的转

7、化,最后将具有同一类型的数据排列成要求的格式。类型的数据排列成要求的格式。生物统计学必备之对多元的统计分析 具体来讲,属性的类型分为三种:具体来讲,属性的类型分为三种: 一、名称属性(一、名称属性(nominal attributes) 有的属性只能描述为若干种不同的状态,有的属性只能描述为若干种不同的状态,每个实体具有其中一种状态。每个实体具有其中一种状态。生物统计学必备之对多元的统计分析 比如土壤的颜色比如土壤的颜色(属性属性)可分为红、黑、可分为红、黑、黄等等:岩石可分为页岩、砂岩、玄武岩、黄等等:岩石可分为页岩、砂岩、玄武岩、花岗岩等等;植被可分为森林、草原、灌花岗岩等等;植被可分为森

8、林、草原、灌丛、苔原等等。这种属性的基本特点是,丛、苔原等等。这种属性的基本特点是,在作为数据处理时各个状态的地位是等同在作为数据处理时各个状态的地位是等同的,状态之间没有一定的顺序。由于它的的,状态之间没有一定的顺序。由于它的各种状态可用不同名称表示,所以称这种各种状态可用不同名称表示,所以称这种属性为名称属性。属性为名称属性。生物统计学必备之对多元的统计分析 1二元属性二元属性 名称属性的一种重要特别情况,是只具有两名称属性的一种重要特别情况,是只具有两个状态。如物种的存在不存在,某昆虫的个状态。如物种的存在不存在,某昆虫的有翼无翼,某植物的有刺无刺,动物是雌有翼无翼,某植物的有刺无刺,动

9、物是雌是雄,等等。这种属性叫做二元属性,因是雄,等等。这种属性叫做二元属性,因为它往往是确定某种性质的有无,所以也为它往往是确定某种性质的有无,所以也称为定性属性。称为定性属性。生物统计学必备之对多元的统计分析 对二元属性的两个状态常用两个数字对二元属性的两个状态常用两个数字0和和1来表示。当属性是指某种性质的有无时,来表示。当属性是指某种性质的有无时,一般用一般用0表示不具有该性质,表示不具有该性质,1表示具有该表示具有该性质,比如用性质,比如用0表示种不存在,表示种不存在,1表示存在。表示存在。当属性是指两个对立的状态时,当属性是指两个对立的状态时,0和和l各表哪各表哪个状态可以随便指定,

10、比如可用个状态可以随便指定,比如可用0表雄、表雄、1表雌,或者反之。表雌,或者反之。生物统计学必备之对多元的统计分析2无序多状态属性无序多状态属性 具有三个以上状态的名称属性,又称具有三个以上状态的名称属性,又称为无序多状态属性,以强调它的状态间无为无序多状态属性,以强调它的状态间无一定顺序。一定顺序。 假设某属性有假设某属性有n个状态,我们可分别用个状态,我们可分别用数字数字1、2、3、n代表各个状态。比如代表各个状态。比如岩石类型,可用岩石类型,可用1代表页岩,代表页岩,2代表砂岩,代表砂岩,3代表玄武岩,代表玄武岩,4代表花岗岩。代表花岗岩。生物统计学必备之对多元的统计分析二、二、 顺序

11、属性顺序属性(ordinal attributes) 它与无序多状态属性一样,也只能分成它与无序多状态属性一样,也只能分成多个状态。所不同的是,现在的状态有确多个状态。所不同的是,现在的状态有确定的顺序,所以也称为有序多状态属性。定的顺序,所以也称为有序多状态属性。 例如某植物种的多度分为大量、常见、例如某植物种的多度分为大量、常见、普遍、罕见和不出现五种状态;土壤酸碱普遍、罕见和不出现五种状态;土壤酸碱度分为强酸性、弱酸性、中性、弱碱性、度分为强酸性、弱酸性、中性、弱碱性、强碱性等状态;植物种子分成大、中、小强碱性等状态;植物种子分成大、中、小三级,等等。显然各状态之间的顺序是有三级,等等。

12、显然各状态之间的顺序是有意义。意义。生物统计学必备之对多元的统计分析 与无序多状态属性与无序多状态属性样,对顺序属性也没样,对顺序属性也没有理想的数据表示方法。用有理想的数据表示方法。用1、2、3、n依次表示各个状态,虽然数字间的大小差依次表示各个状态,虽然数字间的大小差别反映了属性状态间的顺序关系,但是不别反映了属性状态间的顺序关系,但是不能恰当地表示各状态间的差距。能恰当地表示各状态间的差距。 生物统计学必备之对多元的统计分析三、三、 数量属性数量属性(quantitative attributes) 有许多属性是用数值数据来表示的,比如有许多属性是用数值数据来表示的,比如某植物种的频度、

13、盖度和重量,土壤的深某植物种的频度、盖度和重量,土壤的深度、含水量,各养分元素的含量等等都是度、含水量,各养分元素的含量等等都是这种属性,我们称之为数量属性,或定量这种属性,我们称之为数量属性,或定量属性。描述这种属性的数值可以直接用于属性。描述这种属性的数值可以直接用于通常数学上的各种运算和大多数的相似系通常数学上的各种运算和大多数的相似系数计算。数计算。生物统计学必备之对多元的统计分析第二节第二节数据的处理数据的处理 一、数据的简缩一、数据的简缩 去除极大或极小的数据去除极大或极小的数据二、数据的转换二、数据的转换 将原始数据通过运算转化为新值,有多种将原始数据通过运算转化为新值,有多种方

14、法,最常用的有:对数转换、平方根转方法,最常用的有:对数转换、平方根转换、立方根转换、倒数转换、角度转换、换、立方根转换、倒数转换、角度转换、概率转换等。概率转换等。生物统计学必备之对多元的统计分析三、数据的标准化三、数据的标准化 用数量数据时,由于不同属性的量纲用数量数据时,由于不同属性的量纲不同,可能有的属性数值很大,有的又很不同,可能有的属性数值很大,有的又很小。这样在计算两实体间的相似系数时,小。这样在计算两实体间的相似系数时,往往突出了大数值属性的作用而压低了小往往突出了大数值属性的作用而压低了小数值属性的作用。数据标准化是为克服这数值属性的作用。数据标准化是为克服这种困难的一类方法

15、,标准化方法的选择与种困难的一类方法,标准化方法的选择与相似系数的类型有密切的关系。相似系数的类型有密切的关系。生物统计学必备之对多元的统计分析 数据标准化数据标准化(包括中心化与正规化包括中心化与正规化)引起的数引起的数值变换依赖于原始数据整体的取值,随着值变换依赖于原始数据整体的取值,随着所用的整体值不一样而有各种不同的标准所用的整体值不一样而有各种不同的标准化,标准化的方法常有:用总和标准化、化,标准化的方法常有:用总和标准化、用最大值标准化、用极差标准化、用模标用最大值标准化、用极差标准化、用模标准化、数据的中心化、用离差标准化、用准化、数据的中心化、用离差标准化、用标准差标准化。标准

16、差标准化。生物统计学必备之对多元的统计分析 例例1. 假定有如下假定有如下4个样方个样方4个种的原始数据个种的原始数据样方样方1234种种12000100050015002200100501503201050504020001550500 用总和标准化用总和标准化生物统计学必备之对多元的统计分析 用样方总和的标准化,是对每列数据求出总用样方总和的标准化,是对每列数据求出总和,有和,有 M1:(列列)2000十十200十十20十十02220, M2:(列列1000十十100十十10十十20003110, M3:(列列)500十十50十十50十十15502150, M4:(列列)1500十十150

17、十十50十十5002200生物统计学必备之对多元的统计分析 然后将每列的各个数据分别除以本列的总然后将每列的各个数据分别除以本列的总和,就得到了标准化后的数据。这实际上和,就得到了标准化后的数据。这实际上是将每样方中各个种的数值都变成它占全是将每样方中各个种的数值都变成它占全样方总和数值的比例,显然这样所有数据样方总和数值的比例,显然这样所有数据都变为都变为0与与1之间的小数值,并且每列之和之间的小数值,并且每列之和必为必为1生物统计学必备之对多元的统计分析 对样方标准化引起的数据变化是:对样方标准化引起的数据变化是:生物统计学必备之对多元的统计分析最后结果为:最后结果为:生物统计学必备之对多

18、元的统计分析第三节第三节 相似系数相似系数 相似系数是衡量两个实体,或一个实体相似系数是衡量两个实体,或一个实体与一个实体组之间或两个实体组之间相似程与一个实体组之间或两个实体组之间相似程度的数量指标。这是进行分类的基础。度的数量指标。这是进行分类的基础。生物统计学必备之对多元的统计分析 实际上有两类指标:一类是真正的相似实际上有两类指标:一类是真正的相似性指标,它的数值大小直接反映两成员间性指标,它的数值大小直接反映两成员间的相似程度;而另一类应该叫相异性指标,的相似程度;而另一类应该叫相异性指标,其数值大小反映两成员的差异程度。但是,其数值大小反映两成员的差异程度。但是,从数学上讲,相似和

19、相异是互补的概念,从数学上讲,相似和相异是互补的概念,两种指标都同样衡量相似性,区别仅在于两种指标都同样衡量相似性,区别仅在于前者数值愈大表示越相似,而后者数值愈前者数值愈大表示越相似,而后者数值愈小表示越相似。所以我们无须严格区分这小表示越相似。所以我们无须严格区分这两类指标,而统称为相似。两类指标,而统称为相似。生物统计学必备之对多元的统计分析 相似系数的种类繁多,比较常用的相似系相似系数的种类繁多,比较常用的相似系数按其计算的方法及适用的数据类型可以数按其计算的方法及适用的数据类型可以分为五类:关联系数,距离系数,内积系分为五类:关联系数,距离系数,内积系数,信息系数,概率系数。(见教材

20、)数,信息系数,概率系数。(见教材) 生物统计学必备之对多元的统计分析第四节第四节 判别分析判别分析 判别分析是根据所研究的个体的观测指标来判别分析是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法,在自推断该个体所属类型的一种统计方法,在自然科学和社会科学的研究中经常会碰到这种然科学和社会科学的研究中经常会碰到这种统计问题统计问题生物统计学必备之对多元的统计分析 例如医生要根据某人的各项化验指标的结例如医生要根据某人的各项化验指标的结果来判断该人属于什么病症;在考古学中果来判断该人属于什么病症;在考古学中需要根据人的身长、坐长、鼻骨的高度、需要根据人的身长、坐长、鼻骨的高度、深度

21、等特征判别人的种族。深度等特征判别人的种族。生物统计学必备之对多元的统计分析第五节第五节 聚类分析聚类分析 聚类分析起源于分类学,分类学是一门古聚类分析起源于分类学,分类学是一门古老的学科,从前人们进行分类主要是依靠老的学科,从前人们进行分类主要是依靠经验和专业知识,很少利用数学工具。随经验和专业知识,很少利用数学工具。随着科学技术的发展,特别是近代计算机的着科学技术的发展,特别是近代计算机的发展和普及,数学这个有力的工具逐渐被发展和普及,数学这个有力的工具逐渐被引进到分类学中,形成了数值分类学。后引进到分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐来随着多元分析的引进,聚

22、类分析又逐渐从数值分类学中分离出来而形成一个相对从数值分类学中分离出来而形成一个相对独立的分支。独立的分支。生物统计学必备之对多元的统计分析 聚类分析的目的是建立一定的准则,将聚类分析的目的是建立一定的准则,将“相似相似”的东西聚合成类,其基本思想是,的东西聚合成类,其基本思想是,从一批样品的多个观测指标中,确定能度从一批样品的多个观测指标中,确定能度量样品之间或指标之间相似程度量样品之间或指标之间相似程度(亲疏关系亲疏关系)的统计量,构成一个对称的相似性矩阵。的统计量,构成一个对称的相似性矩阵。生物统计学必备之对多元的统计分析 在此基础上进一步计算出各样品在此基础上进一步计算出各样品(或变量

23、或变量)之之间或样品组合之间的相似程度,按相似程间或样品组合之间的相似程度,按相似程度的大小,把样品度的大小,把样品(或变量或变量)逐一归并成类,逐一归并成类,将关系密切的归并聚集到一个小的分类单将关系密切的归并聚集到一个小的分类单位,关系疏远的则聚集到一个大的分类单位,关系疏远的则聚集到一个大的分类单位,直到所有样品位,直到所有样品(或变量或变量)都聚集完毕、形都聚集完毕、形成一个亲疏关系谱系图成一个亲疏关系谱系图(聚类图聚类图)为止。为止。 生物统计学必备之对多元的统计分析生物统计学必备之对多元的统计分析 1)系统聚类法(等级聚合分类)系统聚类法(等级聚合分类) 其基本作其基本作法已在上述

24、聚类基本思想中叙述了。法已在上述聚类基本思想中叙述了。生物统计学必备之对多元的统计分析 2)分解法(等级分划分类)它的程序恰好和分解法(等级分划分类)它的程序恰好和系统聚类相反,首先将所有的样品并在一系统聚类相反,首先将所有的样品并在一类,然后用某种最优准则把它分成两类,然后用某种最优准则把它分成两类再用同样的准则将这两类各自试图分类再用同样的准则将这两类各自试图分成两类,从中选一个使目标函数较好者。成两类,从中选一个使目标函数较好者。这样由两类变成三类,如此下去,一直分这样由两类变成三类,如此下去,一直分类到每类只有一个样品为止类到每类只有一个样品为止(或用其它停止或用其它停止规则规则),将

25、上述分裂过程画成图。由图便可,将上述分裂过程画成图。由图便可求得各个类。求得各个类。生物统计学必备之对多元的统计分析 3)动态聚类法动态聚类法 开始将开始将n个样品粗糙地分成个样品粗糙地分成若干类,然后用某种最优准则进行调整,若干类,然后用某种最优准则进行调整,一次又一次地调整、直至不能调整时为一次又一次地调整、直至不能调整时为止此法非常类似于计算方法的迭代法止此法非常类似于计算方法的迭代法生物统计学必备之对多元的统计分析 4)有序样品的聚类有序样品的聚类 n个样品按某种原因个样品按某种原因(时间、地层深度时间、地层深度)排成次序。聚成的类要求排成次序。聚成的类要求必须是次序相邻的样品才能在一

26、类必须是次序相邻的样品才能在一类 生物统计学必备之对多元的统计分析 5)预报)预报 聚类分析常可与回归分析和判别聚类分析常可与回归分析和判别分析结合使用,如当变量很多时,在进行分析结合使用,如当变量很多时,在进行回归分析之前,可以先对变量回归分析之前,可以先对变量(指标指标)进行分进行分类,再从每类中挑选一个最有代表性的变类,再从每类中挑选一个最有代表性的变量,参与回归分析;也可在做判别分析之量,参与回归分析;也可在做判别分析之前先进行聚类再从个选出有代表性的变前先进行聚类再从个选出有代表性的变量进行判别,以弥补它们在预报中的不量进行判别,以弥补它们在预报中的不足足 生物统计学必备之对多元的统

27、计分析 6)模糊聚类模糊聚类 将模糊数学用在聚类分析中将模糊数学用在聚类分析中产生的方法就是模糊聚类产生的方法就是模糊聚类生物统计学必备之对多元的统计分析第六节第六节 主成分分析(主分量分析)主成分分析(主分量分析) 主成分概念首先由主成分概念首先由K a r1parson在在1901年引进,不过当时只对非随机变量来讨论年引进,不过当时只对非随机变量来讨论的。的。1933年年Hotelling将这个概念推广到随机将这个概念推广到随机向量。主成分分析是将研究对象的多个相向量。主成分分析是将研究对象的多个相关变量关变量(指标指标)化为少数几个不相关的变量的化为少数几个不相关的变量的一种多元统计方法

28、。这种将多个指标化为一种多元统计方法。这种将多个指标化为少数互相无关的综合指标的统计方法叫做少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。主成分分析或称主分量分析。生物统计学必备之对多元的统计分析 在多变量的分析中,为了尽可能完整地搜在多变量的分析中,为了尽可能完整地搜集信息,对每个样品往往要测量许多项指集信息,对每个样品往往要测量许多项指标,当然这可以避免重要情报的遗漏,然标,当然这可以避免重要情报的遗漏,然而从统计的角度来看,这些变量可能存在而从统计的角度来看,这些变量可能存在着很强的相关性,使得分析问题增加了复着很强的相关性,使得分析问题增加了复杂性因此自然想到用少数几个

29、不相关杂性因此自然想到用少数几个不相关的综合变量来代替原来较多的相关变量的的综合变量来代替原来较多的相关变量的研究。而且要求这些不相关的综合变量能研究。而且要求这些不相关的综合变量能够反映原变量提供的大部分信息,从数学够反映原变量提供的大部分信息,从数学的角度来看,这就是降维的思想。的角度来看,这就是降维的思想。 生物统计学必备之对多元的统计分析 例如,某人要做一件上衣要测量很多尺寸,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得

30、过多、型服装绝不可能把尺寸的型号分得过多、而是从多种指标中综合成几个少数的综合而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析指标,做为分类的型号,利用主成分分析将十几项指标综合成将十几项指标综合成3项指标一项是反映项指标一项是反映长度的指标,一项是反映胖瘦的指标长度的指标,一项是反映胖瘦的指标 一一项是反映特体的指标。项是反映特体的指标。生物统计学必备之对多元的统计分析 例例 为研究山楂园昆虫群落演替,分为研究山楂园昆虫群落演替,分16个时个时期对园中期对园中16种主要昆虫进行了调查,试进种主要昆虫进行了调查,试进行主成分分析。行主成分分析。生物统计学必备之对多元的统计分析生物统计学必备之对多元的统计分析生物统计学必备之对多元的统计分析 从以上结果看出,引起山楂园昆虫演替的从以上结果看出,引起山楂园昆虫演替的主要昆虫群落对第一主成分贡献最大的是主要昆虫群落对第一主成分贡献最大的是梨网蝽,它的特征向量为梨网蝽,它的特征向量为-0.304,其次是草,其次是草履蚧,特征向量为履蚧,特征向量为0.295,再次是桃蚜,特,再次是桃蚜,特征向量为征向量为0.290,这三种昆虫是第一主成分,这三种昆虫是第一主成分的基本代表、它们均为刺吸法液类害虫。的基本代表、它们均为刺吸法液类害虫。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论