详细方差分析课件_第1页
详细方差分析课件_第2页
详细方差分析课件_第3页
详细方差分析课件_第4页
详细方差分析课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 方差分析Chapter 3 ANOVA(Analysis of Variance),方差分析是判断多组数据( K3 )之间平均数差异是否显著的一种假设测验方法。2个样本平均数可用 t 或U测验的方法来评定其差数的显著性。如果有K个平均数,且K3,若仍然用两两比较的方法来测验,则需要作K(K-1)/2次测验,如果K10,则需要45次测验,不但测验程序繁琐,而且在理论上,其显著水平已经扩大了。因此,对于多样本平均数的假设测验,需采用一种更为合适的统计方法,即方差分析法(Fisher, 1923)。,第三章 方差分析,方差是平方和除以自由度的商。,方差分析是将总变异分裂为各个因素的相应变异,

2、作出其数量估计,从而发现各个因素在变异中所占的重要程度,而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。,第三章 方差分析,例如,若有5组数据要比较,则共需要比较(54)/2=10次。若H0正确,每次接受的概率为10.95,10次都接受的概率为0.95100.60,因此,=10.600.40,即犯第一类错误的概率为0.40,这显然是不能接受的。,本章主要内容: 第一节 方差分析的基本原理和方法。 第二节 单向分组资料的方差分析。 第三节 两向分组资料的方差分析。,第三章 方差分析,第一节 方差分析的基本原理和方法,1. 自由度和平方和的分

3、解 2. F分布(F Distribution) 3. 多重比较(multiple comparisons) 4. 方差分析的基本假定 5. 数据转换,第三章 方差分析,1、自由度和平方和的分解 设有K组样本,每样本均具有n个观察值,则该资料共有nk个观察值,数据如下表。,表 每组具n个观察值的k组样本的符号表,第一节 方差分析的基本原理和方法,Xij,i=1,2,k,j=1,2,n。,总变异是nk个观察值的变异,故其自由度为nk1,平方和SST为:,式中,C 称为矫正数。,总平方和 (SST),第一节 方差分析的基本原理和方法,总平方和SST组内平方和SSe处理平方和SSt,总平方和SST的

4、计算:,组内的变异为各组内观察值与组平均数的相差,故每组具有n1个自由度,平方和为 ,而总共有k 组资料,故组内自由度为k(n1),而组内平方和SSe为:,第一节 方差分析的基本原理和方法,上述总变异的自由度和平方和可分解为组间和组内两个部分。组间变异即k个平均数的变异,故其自由度为k1,平方和 SSt 为:,因此,上述资料的自由度和平方和的分解式为: 总自由度组间自由度 组内自由度 (nk-1)(k1)+ k(n-1) 总平方和组间平方和 组内平方和,第一节 方差分析的基本原理和方法,均方的计算:,第一节 方差分析的基本原理和方法,方差分析表,第一节 方差分析的基本原理和方法,例1:测定东小

5、麦品种东方红3号的蛋白质含量()10次,得其平均数为14.3,方差为1.621;测定农大139号的蛋白质含量5次,得其平均数为11.7,方差为0.135。试测验东方红3号小麦蛋白质含量的变异是否比农大139为大。 假设:H0:12 22 ;HA: 12 22 。 显著水平:0.05, DF1=9, DF2=4时, F0.05,(9,4)6.00。,推断:此FF0.05,所以,P0.05 接受HA,即东方红3号小麦蛋白质含量的变异大于农大139。,第一节 方差分析的基本原理和方法,分析:两样本分别来自于两个不同的总体,总体方差均为未知,不能假设12 22。可采用近似 t 分布两尾测验的方法。 假

6、设:H0:1 2;HA: 12。 显著水平:0.05。,回顾t测验法:,东方红3:均数:14.3,方差:1.621,n1=10 农大139:均数:11.7,方差:0.135,n2=5,计算;两个样本的样本容量不同,需转换自由度。,推断:接受HA,否定H0,即两品种蛋白质含量有极显著差异。 在1 2时的t 测验,如果两个样本的样本容量相同n1=n2=n,则在 t 测验时,可不必进行自由度的转换,可直接取自由度为n1。,查表,t0.05,112.301。 计算值|t|=5.98 t0.05,11,故P0.05,计算t值;,例2:以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观

7、察值,结果如下表,试进行自由度和平方和的分解,并测验药剂间变异是否显著大于药剂内变异? 表 水稻不同药剂处理的苗高 假设:H0:12 22 ;HA: 12 22 。 显著水平:0.05, DF1=3, DF2=12时, F0.05,(3,12)3.49。,第一节 方差分析的基本原理和方法,自由度分解: 总变异自由度44115 药剂间自由度413 药剂内自由度4(41)12 平方和分解: SST=222 SSt=104 SSe=SST-SSt=222-104=118 均方: ST2=222/15=14.80 St2=104/3=34.67 Se2=118/12=9.83,其中, Se2为4种药剂

8、内变异的合并均方,是试验误差的估计值;药剂均方St2则为试验误差加上不同药剂对苗高的效应。,第一节 方差分析的基本原理和方法,推断:接受HA,即测验药剂间变异显著地大于药剂内变异,不同药剂对水稻苗高具有不同效应。,查表5(F值表):自由度(3;12),第一节 方差分析的基本原理和方法,F.05=3.49;F.01=5.95,方差分析表,平方和 自由度 均方 F F0.05 SSt=104 3 St2=104/3=34.67 St2/ Se2=3.53* 3.49 SSe=SST-SSt=118 12 Se2=118/12=9.83 SST=222 15 ST2=222/15=14.80,第一节

9、 方差分析的基本原理和方法,2. F分布 F Distribution,第一节 方差分析的基本原理和方法,此F值具有S12的自由度1和S22的自由度2。如果我们在给定的1和2下进行一系列抽样,就可得到一系列的F值,这一系列的F值呈F分布。理论统计研究证明,F分布具有平均数F1和取值区间为【0,】的一组曲线,而某一特定的曲线的形状则仅决定于参数1和2。 1 1或12时,F分布曲线呈反向“J”型;当13时,曲线呈偏态。,定义:在一个平均数为,方差为的正态总体中,随机抽取两个独立样本,并求得其均方S12和S22 ,我们将这两个均方的比值定义为F。,F Distribution,因自由度不同的F分布曲

10、线,F Distribution,当1 1或12时,F分布曲线呈反向“J”型; 当13时,曲线呈偏态。,f(F),F,F分布下一定区间的概率可从已制成的统计表查出。附表5系各种v1和v2下右尾概率=0.05和=0.01时的临界F值(一尾概率表)。如查附表5,v1=3,v2=12时,F0.05 =3.49,F0.01=5.95,即表示如以v1=3(n1 =4)、v2=12(n2 =13)在一正态总体中进行连续抽样,则所得F值大于3.49的仅有5%,而大于5.95的仅有1%。 所以附表5的数值实际是专供测验S12 的总体方差12是否显著大于S22 的总体方差22而用的。 (H0:1222 ;HA:

11、1222)。 在作F则验时,应以取大值的均方(S12)作分子、取小值的均方(S22)作分母计算F值。若所得FF0.05或 F0.01。则该F值即为在=0.05或=0.01水平上显著,应否定H0,接受HA;若所得FF0.05,则接受H0。,F Distribution,在方差分析的体系中,F测验某项变异因素的效应或方差是否真实存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异因素(如试验误差项)的均方作分母。这个问题与方差分析的模型和各项变异来源的期望均方有关。在此测验中,如果作分子的均方小于作分母的均方,则F1;此时不必查F表即可确定P0.05,应接受H0。,F

12、测验需具备: (1)变数 x 遵循正态分布N(,2) (2)S12和S22彼此独立两个条件。当资料不符合这些条件时,需作适合转换。,F Distribution,3. 多重比较(multiple comparisons),在上例中,接受了HA,仅是指出了东方红3号小麦蛋白质含量的变异大于农大139的。但是,是否各个平均数彼此间都有显著差异呢?还是仅有一部分平均数间有显著差异而另一部分平均数间没有显著差异?仅根据上述分析结果是无法确定的。要明确各个平均数彼此间的差异显著性,还必须对各平均数进行多重比较。,3.1、最小显著差数测验法 3.2、最小显著极差测验法 (1) Duncans新复极差测验法

13、(Duncan,1955) (2) q测验 3.3、比较方法的选择,3.1 最小显著差数测验法 least significant difference,简称LSD法。 用此法测验多个平均数时,首先算得平均数差数的标准误:,式中,Se2为方差分析时的误差均方值,n为样本容量。然后查t表得Se2所具有自由度下两尾概率值为的临界t值t,计算得最小显著差数:,若两个平均数的差数LSD,即为在水平上显著。,multiple comparisons,例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。,假设: H0: B= A, C= A,

14、D= A; HA:BA, CA,DA。 显著水平:0.05,multiple comparisons,已经算得Se2=9.83,A为对照。,SS DF MS F F0.05 104 3 34.67 3.53* 3.49 118 12 9.83 222 15 14.8,DF12时,显著水平:0.05 查t分布表, t0.052.179,,可以看出,只有XD与对照在0.05上有显著差异,其余两个药剂和对照无显著差异。,multiple comparisons,SS DF MS F F0.05 104 3 34.67 3.53* 3.49 118 12 9.83 222 15 14.8,注:用LSD

15、法测验多个样本的所有平均数间的差异显著性是不合理的,因为LSD 实质是t测验。,3.2 最小显著极差测验法 least significant ranges,简称LSR法。此法的特点是不同平均数间的比较采用不同的显著差数标准,克服了LSD法的局限性,可用于多样本平均数间的差异显著性比较。这里主要介绍两种类型: (1)Duncans新复极差测验法(Duncan,1955) 又称最短显著极差(Shortest significant ranges, SSR)。,式中, SE为平均数的标准误;Se2为误差均方,n为样本容量。,multiple comparisons,查SSR表,查得Se2所具有自由

16、度下,P2,3,k 时的SSR值,其中P为两极差间所包含的平均数个数。根据上述公式利用SSR值计算最小显著极差LSR 值。 具体做法是:将各平均数按大小顺序排列,用各个P的LSR值测验平均数极差的显著性,凡两极差LSR 者为接受H0;凡两极差LSR 者为接受HA。,multiple comparisons,例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。 由于已经算得Se2=9.83,且A为对照。 假设:H0:B= A, C= A, D= A; HA:B A, C A, D A。 显著水平:0.05,查SSR表, DF12,P2

17、时,SSR0.053.08,LSR0.051.57 3.084.84 同理可得,DF12,P3时,SSR0.053.23,LSR0.051.57 3.235.07 同理可得,DF12,P4时,SSR0.053.33,LSR0.051.57 3.335.23,multiple comparisons,SS DF MS F F0.05 104 3 34.67 3.53* 3.49 118 12 9.83 222 15 14.8,平均数从大到小排序: D 24 B 23 A 19 C 18,D与B比:242315.23 ; 显 著 B与A比:231944.84 ; 不显著 B与C比:231855.0

18、7 ; 不显著 A与C比:191814.84 ; 不显著,比较依据: (显著水平:0.05) P2时,LSR0.051.57 3.084.84 P3时,LSR0.051.57 3.235.07 P4时,LSR0.051.57 3.335.23,multiple comparisons,平均数从大到小排序: D 24 B 23 A 19 C 18,D与B比:242317.35 ; 不显著 B与A比:231946.78 ; 不显著 B与C比:231857.14 ; 不显著 A与C比:191816.78 ; 不显著,比较依据: (显著水平:0.01) P2时,LSR0.051.57 4.326.78

19、 P3时,LSR0.051.57 4.557.14 P4时,LSR0.051.57 4.687.35,结论:4个药剂处理水稻的苗高的显著差异来源于处理D和C在 0.05水平的显著差异,其余皆差异不显著。,multiple comparisons,(2) q测验 q测验与新复极差测验相似,其区别仅在于计 算最小显著极差LSR值时不是查SSR表,而是查q表, 采用下式计算:,multiple comparisons,例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。 由于已经算得Se2=9.83,且A为对照。 假设:H0:B= A,

20、C= A, D= A; HA:B A, C A, D A。 显著水平:0.05,multiple comparisons,DF=12, P=2、2、4,q0.05。查q表 DF=12, P=2时,q0.05=3.08,LSR0.05=1.573.08=4.84 同理可得,DF=12, P=3时,q0.05=3.77,LSR0.05=1.573.77=5.92 同理可得,DF=12, P=4时,q0.05=4.20,LSR0.05=1.574.20=6.59 按同样的方法,可计算出LSR0.01值。详细结果见下表:,表 LSR值,multiple comparisons,平均数从大到小排序: D

21、 24 B 23 A 19 C 18,D与B比:242314.84, 不显著 D与A比:241955.92, 不显著 D与C比:241866.59,不显著 B与A比:231944.84, 不显著 B与C比:231855.92, 不显著 A与C比:191814.84, 不显著,结果表明,各平均数之间差异均不显著。,multiple comparisons,多重比较结果的表示方法 (1)、标记字母法:,表 新复极差测验结果的字母标记,D与B比:242315.23, 显 著 B与A比:231944.84, 不显著 B与C比:231855.07, 不显著 A与C比:191814.84, 不显著,mul

22、tiple comparisons,比较依据: (显著水平:0.05) P2时,LSR0.051.57 3.084.84 P3时,LSR0.051.57 3.235.07 P4时,LSR0.051.57 3.335.23,多重比较结果的表示方法 (1)、标记字母法: 将全部平均数从大到小依次排列; 在最大的平均数上标记字母a; 将该平均数与以下各平均数相比,凡相差不显著的都标记上字母a,直至某一个与之相差显著的平均数则标记字母b。 再以标有字母b的平均数为标准,与上方各个比它大的平均数比较,凡不显著的一律标记字母b。 再以标记字母b的最大平均数为标准,与以下各个未标记的平均数比较,凡不显著的继

23、续标记字母b,直至某一个与之相差显著的平均数则标记字母c。 如此往复循环下去,直至最小的一个平均数有了标记字母为止。,multiple comparisons,(2)、梯形表法 将全部平均数从大到小依次排列,计算出各个平均数间的差数。凡达到0.05水平的差数在右上角标记一个“*”号,凡达到0.01水平的差数在右上角标记两个“*”号,凡未达到0.05水平的差数则不做任何标记。,表 新复极差测验结果的字母标记,multiple comparisons,比较依据: (显著水平:0.05) P2时,LSR0.051.57 3.084.84 P3时,LSR0.051.57 3.235.07 P4时,LS

24、R0.051.57 3.335.23,3.3、比较方法的选择,依据确定的比较标准 与对照或确定的对象相比,一般可用最小显著差数法。 依据否定或接受H0的重要性决定。 (不同比较方法的差异),multiple comparisons,将上述例题中所使用过的最小显著差数法中的LSD0.05, LSD0.01、Duncans新复极差测验中的LSR0.05, LSR0.01、q测验中的LSR0.05, LSR0.01等值列表:,LSD0.05=4.84 LSD0.01=6.78,最小显著差数法,Duncans新复极差测验,q 测验法,multiple comparisons,从上述结果可以看出: (a

25、)当k=2时,LSD法、SSR测验法、q测验法的显著尺度是完全相同的。 (b)当k=3时,三种测验方法的显著尺度是不同的。 LSD法最低、q测验法最高、SSR测验法介于两者之间。因此,对于试验结论事关重大或有严格要求的试验,宜采用q测验;一般试验可采用SSR测验;试验中各个处理皆与对照相比时,可用LSD测验。 LSD测验必须经过F测验确认各平均数间有显著差异之后,才宜应用;而SSR和q测验可以不经过F测验。,LSD0.05=4.84 LSD0.01=6.78,最小显著差数法,新复极差测验,q测验法,multiple comparisons,方差分析的基本步骤小结: 将资料总变异的自由度和平方和

26、分解为各变异因素的自由度和平方和。 计算均方。 计算均方比,做出F测验,以明确各个变异因素的重要程度。 对各个平均数进行多重比较。,第一节 方差分析的基本原理和方法,4、方差分析的基本假定,方差分析的数学模型 期望均方 方差分析的基本假定,第一节 方差分析的基本原理和方法,设在一个平均数为,方差为2的正态总体中随机抽取容量为n的一组样本。由于随机误差,每一个xi都和总体平均数 有差别,这个差别就是随机误差i。另外,不同处理也会有一定差异,因而可得,,方差分析的数学模型,4、方差分析的基本假定, 是总体平均数,i为试验处理效应(i=i - ),i为随机误差,具有分布N(0, 2) 。,方差分析是

27、建立在一定的线性可加模型的基础上,即每一个观察值可以按照变异原因划分为若干个线性组成部分,这是分解平方和和自由度的理论依据。,将总体分成K个组,使每组成为该总体的一个亚总体,分别给予不同的处理,处理效应为ti,则各个亚总体的平均数为:,任一个亚组总体的任一个观察值 xij 的线性模型为:,即,每一个观察值皆由共同原总体平均数、处理效应和随机误差三个部分相加而成。,由样本所估计的线性模型为:,4、方差分析的基本假定,由总体的线性模型为:,样本的线性组成为:,是 的无偏估计量,ti是i的无偏估计量, 是所属亚总体误差方差i2的无偏估计。 但假设H0: 1=2=时 可以看作是总体2的无偏估计。,4、

28、方差分析的基本假定,总体的线性模型为:,K个样本的平方和是 , 处理间的方差是: 因为 ,故 估计了 或写为:,不同类型资料的线性可加模型是各不相同的。,处理效应ti:每一个样本的平方和是,6.17,6.16,4、方差分析的基本假定,期望均方 主要分析(处理效应)的假定,方差分析的线性模型可分为固定模型(fixed model)和随机模型(random model): 从理论上讲,固定模型是指各处理的平均效应 (=i-)是固定的一个常量,且满足i =0,但常数未知;随机模型是指各处理效应i不是一个常量,而是从平均数为0,方差为2 的正态总体中得到的一个随机变量,即i N(0, 2)。 固定模型

29、主要研究并估计处理效应:即仅在供试范围内了解处理间的效应。如,不同品种、肥料、农药,不同处理方法的差异等。 随机模型主要研究并估计总体变异:即通过样本推断总体特征,因为样本仅是总体的随机变量。,4、方差分析的基本假定,固定模型仅在供试处理范围内了解处理间的不同效应。例如,欲了解不同药剂的防治效果、不同品种的产量或抗病性差异、肥料、密度处理效应差异等。 如果想通过不同处理对这些处理所属总体进行推断,则属于随机模型处理的范围。例如通过一个地方的药剂防治试验想了解某种药剂在该地区或更大范围的应用效果如何?或通过品种试验欲了解该品种在该地区的变异情况如何,则属于随机模型的处理范围。,4、方差分析的基本

30、假定,固定模型(fixed model),例:有5个品种,各取样3次,组成简单的方差分析资料。,变异来源 SS DF MS 期望均方 品种间 87.6 3 21.9 品种内 24.0 10 2.4 2 111.6 14,固定模型中i属于固定效应,限制条件为i =0。 为固定效应的方差,即:,方差分析表为:,品种内均方估计了,品种间均方估计了,固定效应的方差,4、方差分析的基本假定,固定模型的F测验:,若处理效应=0(H0:1= 2 = k ), 则F的期望值1。 该例中F1,则接受HA:0。 比较处理效应的试验都应该用固定模型。,4、方差分析的基本假定,随机模型(random model),例

31、:研究水稻杂交F5代系间单株干草重量的遗传变异,随机抽取76个系进行测验,每系取2个样品测定干草重(g/株)。测定结果的方差分析表如下:,变异 SS DF MS 期望均方 系间 5459.25 75 72.79 系内 1350.52 76 17.77 2,随机模型中i是从总体中随机抽出,服从N(0, 2)。 这里 为随机效应的方差。,4、方差分析的基本假定,随机模型的F测验:,查表:当n1=75, n2=76时,F.05=1.48;F.01=1.74 该例F=4.09,说明系间差异大于系内变异。,若处理效应=0(H0:1= 2 = k ), 则F的期望值1。 该例中F1,则接受HA:0。,4、

32、方差分析的基本假定,变异 SS DF MS 期望均方 系间 5459.25 75 72.79 系内 1350.52 76 17.77 2,该例F1,说明 存在, 即系间差异存在。,进一步分析系间差异。,这里27.51表示系间差异,即系间遗传变异 。 2 代表环境条件所导致的变异,记作 。,代表系间表型变异。,数量遗传学中的遗传率(h2)为:,即F5代家系的表型变异中有60是归属于遗传变异的原因。,4、方差分析的基本假定,固定模型与随机模型的区别,方差分析的基本假定,方差分析是建立在一定的线性模型的基础上的。它具有三类原因或效应:(1)处理原因或效应,(2)环境原因或效应 ,(3)试验误差(这是

33、处理内和环境内的其他非可控因素的变异),故其线性模型为 x=+i+j+ij 建立这一模型,有如下3个基本假定:,4、方差分析的基本假定,方差分析的基本假定 处理效应与环境效应应该是“可加性”的。对于非可加性资料,一般需作对数转换或其他转换,使其效应变为可加性,才能符合方差分析的线性模型。 试验误差应该是随机的、彼此独立的,而且作正态分布,具有平均数为零。 N(0, 2) 所有试验处理必须具有共同的误差方差,即误差同质性假定。,4、方差分析的基本假定,(1) 处理效应与环境效应等应该是“可加性”,依据(xij-)=(i+j+ij) 上式两边各取平方求其总和,则得平方和为: (x-)2=bi2aj2ij2 因为三类原因均各自独立,所以右边有三个乘积和,即、和,皆为零值。因而得到总平方和等于处理效应平方和加环境效应平方和再加上试验误差平方和。,4、方差分析的基本假定,可加性特性是方差分析的主要特性,是根据线性模型而产生的必然

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论