8(3)方差分析.ppt

上传人：s*** IP属地：河南上传时间：2020-07-13 格式：PPT 页数：74 大小：726KB 积分：20 举报 版权申诉

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、方差分析,(续),第四节两因素资料的方差分析,两因素资料的方差分析，又称为双向分组资料的方差分析很多情况下，我们需要设计两种不同的因素同时作用于供试动物或在考虑某一因素对供试动物产生影响的同时，还需要考虑不同的环境情况这样，当试验结束后，数据的分析就必须进行两因素（或称双向分类资料）的方差分析同时考虑的这两个因素，我们分别称之为因素 A 和因素 B，他们各有 a个水平和 b个水平,有时候，因素 A 和因素 B 是同等重要的有时候，因素 B 是为了从总变异中分剖出环境因素而特意设置的在设计时，因素 A 和因素 B 相互交叉，形成 ab 个组合即：A 因素的每一个水平包含了 B因素

2、的所有水平 B 因素的每一个水平也包含了 A 因素的所有水平即：A 因素的各个水平与 B 因素的各个水平相逢一次，也只相逢一次例如：A 因素有 5个水平，B 因素有 4个水平，形成54 = 20个组合,根据每一个组合内是一个独立供试动物还是多个独立供试动物，双向分类资料又可分为组合内无重复观测值和组合内有重复观测值两种情况一、组合内无重复观测值的两向分类资料的方差分析这种类型的资料结构是每一组合内仅一个独立供试动物（独立供试单位）其观测值的数学模型为：,这一模型的含义是：每一个观测值包含了总体平均值，同时还受 A因素第个水平的效应和 B因素第个水平的效应，同时还具有一定的误差

3、：这一模型相应的数据结构为：因素 T ：： T T,上页的数据结构表中，T为求和，不同因素的和的下标不同两因素无重复资料的方差分析应从 A 和 B 两个方向进行，我们可以将这种结构看成是两个单向资料的重合即：对 A因素来说，有 a个组（k = a），每一组有 b个观测值（n = b）对 B因素来说，有 b个组（k = b），每一个组有 a个观测值（n = a）因此我们可以直接用方差分析表来表示这种分剖的结果这里，无效假设有两个：,A：设不全相等 B：设不全相等方差分析表 course A因素 B因素误差 T,若显著，应对 A因素各水平的平均值进行多重比较，其标准误

4、为：若显著，应对 B因素各水平的平均值进行多重比较，其标准误为：下面我们以实例来说明具体分析的过程试验 4种药物配伍（因素 A）对仔猪白痢的治疗效果，试验在 5个发病的猪场（因素B）进行，每个猪场随机抽取 4个猪舍小区，每个猪舍小区随机使用其中的一种药物配伍，得如下治愈率，试比较这 4种药物配伍的治疗效果,药物猪场配伍 76 82 83 79 77 83 89 92 87 84 73 77 80 72 80 81 82 79 85 87 由于数据是百分率，因此应作转换：转换后的数据见下面这张表:,药物猪场配伍 60.67 64.90 65.65 62.73 61.34 6

5、5.65 70.63 73.57 68.87 66.42 58.69 61.34 63.43 58.05 63.43 64.16 64.90 62.72 67.21 68.87,得如下一级数据：药物猪场配伍 315.29 19900.4299 345.14 23865.7576 304.94 18623.6440 327.86 21522.5750 B1 B2 B3 B4 B5 A1 63.06 2.17 249.17 261.77 265.37 256.86 260.06 A2 69.03 3.22 A3 60.99 2.55 T = 1293.23 x2 = 83915.6610

6、A4 65.57 2.46,设不全相等设不全相等,将上述数据填入方差分析表中：方差分析表 Course 药物间 3 179.8240 59.94 9.61* 3.49 5.95 猪场间 4 37.5225 9.47 1.52 3.26 误差 12 74.8287 6.24 T 19 292.8297 对于 A因素，应否定无效假设，即不同的药物配伍其治疗仔猪白痢的疗效差异极显著（p0.05）,由于药物配伍间差异极显著（p0.01），因此应对其作多重比较而猪场间差异不显著，没有必要进行多重比较（场间差异也不是我们讨论的重点，因此即使差异显著也不必进行多重比较） 2 3 4 0.05 0

7、.01 3.08 3.77 4.20 69.03 a A 4.32 5.05 5.50 65.57 b AB 3.45 4.22 4.70 63.06 bc B 4.84 5.66 6.16 60.99 c B,作平均数比较图：在作图前，应将各平均值数据转换回原百分率其反转换公式： 63.06 69.03 60.99 65.57 79.5% 87.2% 76.5% 82.9% 90 85 80 75 图1 不同药物配伍仔猪白痢治疗效果比较（下面的注略）,在无重复的两因素资料中，B因素往往是作为区组使用的，如牧场、畜舍、地域等，由于在兽医统计学中一般不作牧场等的比较，因此，即使 B因素显著或

8、极显著，也不对其作多重比较，只有当专门研究场间差异时才对此作多重比较,在试验中设置区组，其作用是统计分析时消除系统误差，即当我们怀疑不同的区组（牧场等）存在系统误差，或将一个试验有意识地分散在不同的地域、以检验试验内容是否可以适应不同的地域时一般可以设置区组：一是通过区组消除系统误差二是检验试验内容是否具有广泛的适应性,当 B因素的 F值小于 1（即表示区组基本不具有系统误差）、而 A因素还未达到显著水平时，还应当将B因素的平方和、自由度合并到误差项中去，得到一个新的误差项均方，以降低误差项的均方值，同时增大误差项的自由度，使得 A因素比较容易地达到显著水平这种情况由于消除了 B因素，其

9、实就变成了单因素（仅考虑 A因素）资料的方差分析了,当 B因素的 F值稍大于 1（亦表示基本没有系统误差）是否需要将其合并到误差项中去，这需要根据具体情况而定：凡能帮助 A因素达到显著或极显著水平的，就应当合并；反之，就不合并,A因素是我们所要研究的对象，B因素的设置只是为了消除系统误差，因此 B因素就没有 A因素来得重要，两者的地位是不等的，但在方差分析中，我们还是应当将其作为一个因素来考虑在考虑 B因素的设置时，一定要注意 B因素不能和 A因素之间产生相互作用（简称为互作），否则这种互作就会存在于误差项中而析不出来因此 B因素一般只能是地域、时间等非试验因子，而不能是可能成为试验的条件

10、,如果在试验前无法判断所设置的 B因素是否会与A因素存在互作，那么就应当用下面的方式进行试验,二、组合内有重复观测值的两因子资料的方差分析当 A、B两个因子都是试验所考察的因子，即在一个试验中同时安排了两个因子，这两个因子之间有可能存在互作，或怀疑其间存在互作，我们就应当在每个组合内安排 2个或以上的独立供试单位（或独立供试动物）这样的试验所得到的数据就是组合内有重复观测值的资料,设 A因素有 a个水平，B因素有 b个水平，共有 ab个组合，每一个组合内有 n（n1）个观测值，整批资料共有 abn个数据，这样的资料就是组合内有重复观测值的两因子资料这种类型资料的数学模型为：数据结构见本

11、书 P83表 5-22（请参看）,任一观测值包含了总体效应，A因子第个水平的效应，B因子第个水平的效应，A 因子和 B因子第、个互作效应，及随机误差，随机误差这一类资料的方差分析表为：,方差分析表变异自由度平方和均方 F值来源 A a-1 B b-1 AB (a-1)(b-1) e ab(n-1) T abn-1,在这种类型资料的方差分析中，人们的注意力和兴趣往往集中于互作的检验上，一般首先完成互作的 F检验如果互作部分的 F检验显著，可不再进行 A因子、B因子的检验（当然习惯上我们还是同时完成 A因子、B因子的检验），而对组合进行多重比较，因为互作的重要性要远大于

12、单个因子的重要性，它所提供的信息量比单个因子要丰富得多,因此，一般的试验应当同时考察两个因子，这样做，一是可以节省时间和财力，二是可以考察因子之间的关系，这种关系在单个因子的试验中是考察不到的当互作不显著，则分别检验 A因子和 B因子是否显著，哪个因子显著，就对哪个因子进行多重比较两个因子都显著，两个因子都应当作多重比较,考察两因子的试验中，什麽时候在组合内设置重复？一是当我们确认试验所设置的 A因子和 B因子间的确存在互作，我们为了检验这种互作二是当我们无法肯定 A、B因子之间是否存在互作，我们为了发现这种互作，必须设置重复三是为了防止可能存在的互作混杂到误差项中去而无谓地扩大误差

13、，因此必须设置重复,下面我们用实例来说明这一类型资料的方差分析（本书 PP8485例 5-7）试验目的：观察不同细菌经不同修饰后其细胞表面凝集素的化学性质 A因子：对细菌的三种修饰方式（a=3）：：高碘酸钠：胰蛋白酶：蛋白酶 B因子：三种细菌（b=3）：：大肠杆菌：乳酸菌：双歧杆菌每个组合内有 4个重复（n=4）：4头仔猪观测指标：固化仔猪小肠黏液蛋白的相对附着量,试验所得数据结构见下表（习惯上，我们总是将细菌作为 A因素，修饰方式作为 B因素）,修饰细菌方式 62.70 60.50 5.02 7.81 102.31 110.20 65.30 59.78 3.24 3

14、.65 108.45 103.84 692.80 =248.28 =19.72 =424.80 20.30 23.51 34.50 37.21 120.73 114.92 17.92 19.35 31.92 31.05 117.22 124.73 693.36 = 81.08 =134.68 =477.60 62.61 59.43 17.82 21.20 103.25 110.23 65.70 62.38 16.02 14.56 105.73 110.39 749.32 =250.12 =69.60 =429.60 579.48 224.00 1332.00 =2135.48,这是一张二维的数

15、据表在计算一级数据时，应从最小单位开始，即首先计算组合的和，然后计算 A和 B因子各水平的和，最后计算总和在逐段计算各类和的时候，不要忘记同时计算平方和、平均数做好上述准备工作后，即进行校正值、各类平方和及自由度的计算：,各平方和、自由度：,修饰方式 A：设不全相等细菌种类 B：设不全相等 AB：设不全相等方差分析表 course 修饰（A） 175.7319 2 87.8660 9.514* 细菌（B）53352.1217 2 26671.0609 2887.979* AB 6623.2556 4 1655.8139 179.294* 误差 249.3500 27 9.235

16、2 T 60390.4592 35 三个无效假设均否定，接受三个备择假设，即修饰方式、细菌种类、细菌与修饰方式的互作其间的差异均达极显著水平这里，仅需对互作进行多重比较,多重比较： 2 3 4 5 6 7 8 9 2.91 3.52 3.88 4.14 4.35 4.51 4.65 4.77 3.93 4.51 4.87 5.12 5.32 5.49 5.63 5.75 4.42 5.35 5.90 6.29 6.61 6.85 7.07 7.25 5.97 6.85 7.40 7.78 8.08 8.34 8.55 8.74 （同学们先自行完成这一多重比较）,将各组合的平均值按从大到小的次

17、序排列：组合 0.05 0.01 119.40 a A 107.40 b B 106.20 b B 62.53 c C 62.07 c C 33.67 d D 20.27 e E 17.40 e E 4.93 f F （请同学们自行完成平均数表或平均数图的设置）,这里我们介绍的是组合内的数据量是一样多的情况当组合内数据量不一样多时，可采用以下两种方法进行方差分析： 1、将每一组合内的数据截取为一样多例如，有的组合是 5个数据，有的为 7个数据，最少的为 3个，则可将所有组合均截为3个数据（取每一组合的平均值周围的数据）进行方差分析 2、使用最小二乘方差分析法进行目前使用的统计软件均为最

18、小二乘方差分析法，这一方法可不考虑组合内样本量的多少，甚至某一组合内为 0都可以进行方差分析,课堂练习：,今有一个试验，其数据分析为 F值极显著，请对资料的 6个平均值进行多重比较： R 2 3 4 5 6 LSR0.05 0.82 0.99 1.10 1.18 1.23 LSR0.01 1.12 1.29 1.39 1.48 1.54 平均值： 1：6.48 2：6.32 3：7.95 4：4.50 5：5.52 6：7.11,附：（待改）,第五节系统分组资料的方差分析,系统分组设计，又称为巢式设计、树状设计、多因子嵌套设计其英文名称为：nested design 假设有 A、B 两个因

19、子，这两个因子的搭配组成不再是上一节的交叉构成，而是 B 因子嵌套在 A 因子内，即 B 因子为次级因子： A 因子的某一个水平包含了 B 因子部分水平 A 因子的另一个水平包含了 B 因子的另一部分水平即：B 因子的水平仅从属于 A 因子的一个水平而 A 因子的水平并不包含 B 因子的所有水平,如果有第三个因子 C，则 C 因子嵌套在 B 因子内如果有第四个因子 D，则 D 因子嵌套在 C 因子内以此类推其数据结构呈现树状结构如行政区划，就是典型的系统结构：国家包含若干个省（A）、一个省（A）包含若干个市（B）、一个市（B）包含若干个县（C）、一个县（C）包含若干个镇（D）、一

20、个镇（D）包含若干个村（E）再如：畜牧生产中：一头公畜（A）交配若干头母畜、一头母畜（B）生产若干头仔畜、每头仔畜（C）有若干次生产成绩,在这种数据结构中，各因子的重要性是不完全相等的，下一级因子的重要性往往低于上一级因子 A1 Ai Aa B11 B12 B1b Bi1 Bi2 Bib Ba1 Ba2 Bab C111 C112 C11c Ca11 Ca12 Ca1c A 因子称为一级因子，B 因子称为二级因子，因子之间是一种从属关系，而非上一节 A、B 因子的交叉构成中所讨论的那种平行关系,下面我们写出两因子系统分组资料的数据结构： A因子 B因子观测值 B因子和 A因子和 T A

21、1 B11 x111 x112 x11. B12 x121 x122 x12. x1. A2 B21 x211 x212 x21. B22 x221 x222 x22. x2. Ai Bi1 xi11 xi12 xi1. Bi2 xi21 xi22 xi2. xi. Ap Bp1 xp11 xp12 xp1. Bp2 xp21 xp22 xp2. xp. x,根据这一数据结构我们可以写出其数学模型：式中，为总体平均 i为 A 因子第 i 个水平的效应 ij为 A 因子第 i 个水平下的 B 因子第 j 个水平的效应 ijk为随机误差，且 p为 A 因子的水平数；qi为第 i 个 A 因子水平

22、下 B 因子的水平数；nij为第 i 个 A 水平中第 j 个 B 水平中的观测值,下面我们先介绍两个概念：固定因子（fixed factor）：如果一个试验中，某一因子的水平是我们有目的地挑选的，因而我们只是希望将这几个水平进行比较，也只是希望知道这几个水平的差异，并不将分析结果引申到其他水平，这样的因子就是固定因子，固定因子的水平所产生的效应就是固定效应（fixed effect）,随机因子（random factor）：如果一个因子的各个水平是从这因子的所有水平中随机挑选出来的，我们的试验目的是希望通过这几个水平的差异情况了解整个因子的变异情况，即对这一因子的方差进行检验和估计，从

23、而知道这一因子的方差组分，这样的因子就是随机因子，随机因子的各个水平所产生的效应就是随机效应（random effect）,在数学模型中：如果 A、B 两个因子所产生的效应都是固定效应，这样的数学模型就是固定效应模型（简称固定模型 fixed model），我们的检验目的是希望比较这一因子各参与试验的水平之间的差异固定模型中，我们总假定：,如果 A、B 两因子所产生的效应都是随机效应，这样的数学模型就是随机模型（random model），我们的检验目的是希望知道每个因子的不同水平效应的方差2 和2 是否为 0 两因子各个水平的效应之间相互独立 A 因子和 B 因子效应之间也相互独立且

24、:,如果两个因子，一个为固定因子（如 A 因子），另一个为随机因子（如 B 因子），由这样的两个因子组成的数学模型即为混合模型（mixed model），我们的检验目的是： A 因子各水平之间是否存在差异 B 因子不同水平效应的方差2是否为 0 这时：且不同的ij彼此独立,我们在上一节讨论的两因子（A、B因子）交叉分组资料也有固定模型、随机模型、混合模型之分，但在一般情况下，这种分组资料更多的是固定模型，因此其方差分析方法是固定效应的分析而系统分组资料则三种模型都有系统分组资料常见于数量遗传学、动物育种学中此时我们往往希望通过方差组分的计算估计遗传参数，从而进行数量遗传学的研究但系统

25、分组资料进行固定效应的估计也是常见的,下面我们给出平方和与自由度的剖分公式：每一观测值的总离均差平方为：等式两边求和（各乘积项的和均为 0 ）上式中，右手第二项称为 A因子内 B因子水平间 SS,为 A 因子第 i 个水平中的观测值个数上一页的仅为推导的理论公式在实际计算时，我们使用以下公式（从理论公式如何到下面的实际计算公式，同学们应当很清楚了）校正值：总平方和： A 因子平方和： B 因子平方和：,A 因子内 B 因子水平间平方和：误差平方和：相应的自由度：相应的均方：,根据试验的要求不同，次级及次级内观测值可分为重复数相等和不等两种情况下面我们以例题来说明具体的分

26、析方法一、次级样本含量相等的系统分组资料例1：对长白猪进行选育，考察 4 头长白种公猪 S，每头种公猪交配 2 头母猪 D，每头母猪考察 3 窝平均后代增重xijk，得数据如下表（数据已经过了简化）,S D xijk D S D SS D S S 后代增重后代后代和平均和平均 1 1 2.2 2.3 2.0 3 6.5 14.13 2.17 2 2.0 2.1 2.3 3 6 6.4 13.70 2.13 12.9 2.15 2 3 1.6 1.5 1.7 3 4.8 7.70 1.60 4 1.8 2.0 1.7 3 6 5.5 10.13 1.83 10.3 1.72 3

27、5 2.6 2.5 2.2 3 7.3 17.85 2.43 6 2.4 2.4 2.2 3 6 7.0 16.36 2.33 14.3 2.38 4 7 1.8 1.5 1.7 3 5.0 8.38 1.67 8 1.5 1.6 1.4 3 6 4.5 6.77 1.50 9.5 1.58 24 24 47.0 95.02 47,上表中，p = 4，q = 2，n = 3 N = 24 校正值 C = 92.0417 SST = (2.22+2.32+.1.42) - C = 95.02 - C = 2.9783 SSS = (12.92+9.52)/6 - C = 94.54 - C =

28、2.4983 （一级样本间） SSD(S) = (6.52+4.52)/3 - (12.92+9.52)/6 = 94.68 - 94.54 = 0.14 （二级样本间） SSe = SST SSS - SSD(S) = 2.9783 - 2.4983 -0.14 = 0.34,自由度： dfT = 423 1 = 23 dfS = 4 1 = 3 dfD(S) = 4 (2 - 1) = 4 dfe = 42(3 - 1) = 16 将平方和及自由度填入方差分析表中，并计算各均方和 F 值：,方差分析表：变异来源 SS df MS F F0.05 F0.01 公猪间S 2.4983 3 0

29、.8328 23.79* 6.59 16.69 (公猪内) 母猪间D 0.14 4 0.035 1.64 3.01 误差e 0.34 16 0.02125 T 2.9783 23 上述计算中，,即：两个不同级别的 F 值均由下一级的 MS 作为比较标准，而不再是统一由误差项均方作为比较标准而查 F所用的自由度也应作相应的变动，即：FS的自由度分别为 df1=3，df2=4 FD的自由度分别为 df1=4，df2=16 由于不同公猪间的增重差异极显著，而母猪间差异不显著，因此，应对公猪（一级样本）作多重比较：,R 2 3 4 公猪 0.05 0.01 q0.05 3.93 5.00 5.76

30、 3 2.38 a A q0.01 6.51 8.12 9.17 1 2.15 a AB LSR0.05 0.30 0.38 0.44 2 1.72 b B LSR0.01 0.50 0.62 0.70 4 1.58 b B 如果母猪间差异亦显著，则应当对母猪进行多重比较，比较时的标准误以误差项均方为分子，每头母猪的样本量为分母进行计算查 q 表时用误差项自由度本例中，我们将公猪、母猪均作为固定因子处理，因此其模型为固定模型,如果是估计遗传参数，则公猪、母猪均为随机因子，则模型为随机模型当然也可以将公猪作为随机因子，母猪作为固定因子处理，则模型为混合模型处理实际数据资料时，样本量肯定要

31、大得多，本例仅是一个说明统计方法的例子而已,二、次级样本含量不等的系统分组资料我们还以例子来说明统计方法调查 3 个县的牧业情况，各县抽取若干个乡镇，每个乡镇抽取若干个调查样点（户），得畜牧业产值（为了方便计算，数据已经过简化）如下，试进行分析,县别乡别各样点观测值乡样县样乡和平方和乡平均县和县平均一级二级点数点数 A B nij ni. Tij xij Ti xi 1 21 19 21 18 20 5 99 1967 19.8 1 2 16 18 18 3 52 904 17.3 3 18 19 20 18 4 12 75 1409 18.75 226 18.83 2 4 16 14 16 13 15 14 6 88 1298 14.7 5 17 16 15 17 4 10 65 1059 16.25 153 15.30 6 15 18 16 17 15 5 81 1319 16.2 3 7 16 14 17 15 15 13 6 90 1360 15 8 17 18 18 3 14 53 937 17.7 224

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

8(3)方差分析.ppt

文档简介

温馨提示

最新文档

评论

8(3)方差分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档