《第八章方差分析》PPT课件.ppt_第1页
《第八章方差分析》PPT课件.ppt_第2页
《第八章方差分析》PPT课件.ppt_第3页
《第八章方差分析》PPT课件.ppt_第4页
《第八章方差分析》PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 方差分析 本章主要介绍方差分析的基本原理,单因子 资料的方差分析方法,两因子资料的方差 分析方法,方差分析的基本假定和数据转 换 第一节 方差分析的基本概念 第六章中,我们已经介绍了两个样本所属总体平均 值的假设检验可用t-test或u-test来检验其差异性 但在大多数情况下,我们的试验有3个或3个以上的 样本需要进行比较 如果这许多样本都只和对照组相比,我们仍然可以 使用t-test或u-test进行,但如果需要样本之间两 两相比较的话,就不能使用t-test或u-test进行了 其理由有以下几个: 1、当有k个样本所属总体的平均值相互两两比较, 就需作 次比较,即作 次假设检验 例如有10个样本平均值相比较,即需作 次比较,其工作量相当繁琐 2、假定每一样本的容量均为n,那么如果我们用t- test来作两两比较时,每一差数的标准误就都只 能由2(n-1)来估计,而不能用总自由度k(n-1)来估 计总的标准误,这就使得误差估计的精确度受到 一定的损失,即我们不能充分使用试验中所有的 信息量,这是十分可惜的 3、这种两两比较会随着样本组数的增加而加大犯 型错误的概率 假定我们要比较5个样本平均数,两两比较就会有 个差数,对这10个差数如果我们都以 进行假设检验,单独对每一差数进行检验时 ,每一差数获得正确结论的概率就是 但这10个差数在一起进行比较、且都获得正确结论 的概率就只有 因此在10个两两比较中至少出现一个错误结论的概 率就不再是 ,而是 这么大的犯错率无论如何是不能容忍的 这说明,当有多个样本相比较时,如果仍然采用t- test法,就大大地增加了犯型错误的概率 因此此时再用t-test法进行检验就不恰当了 如何对 个样本进行假设检验? 这就是本章所要讨论的方差分析 什么叫方差? 方差是对数据(或称资料)变异的度量 方差的公式: 总体: 样本: 一般总体方差称方差,样本方差称均方 能使变量发生变异的原因很多,这些原因我们都将 其称为变异因素或变异来源 方差分析就是发现各类变异因素相对重要性的一种 方法 方差分析的思路就是:把整个试验(设有k个总体) 的样本资料作为一个整体来考虑 把整个试验的总变异按照变异的来源分解成不同因 素的变异 由于方差等于平方和除以自由度,因此总方差分解 成各因素的方差,就是将形成总方差的平方和和 自由度分解为各因素的平方和和自由度 然后对各个因素的方差作出数量上的估计,从而发 现各个因素的方差的相对重要程度 从总方差中除去各可控因素所引起的方差后,剩余 方差又可以准确地估计试验误差,作为统计假设 检验的依据 因此,方差分析可以帮助我们抓住试验的主要矛盾 和技术关键,发现主要的变异来源,从而抓住主 要的、实质性的东西 因此,方差分析是一种十分重要的统计工具 此外,方差分析还有其他十分重要的用途,例如用 于遗传分析,估计参数等 方差分析中F分布的复习: 在一个总体中每次抽取两个样本,这两个样本的容 量分别为 和 ,每个样本计算其均方 ,不断 地抽样,就可以得到一系列的 ,这些F值 就形成了一个分布 F分布是一簇曲线,每条曲线仅决定于 和 F分布的平均数为 ,其分布范围为 本书附表6是不同自由度 、 下的右尾概率0.05 、0.01的概率值 下面我们按不同的数据结构来介绍方差分析方法 第一节 单向分类资料的方差分析及其基本 原理 所谓单向分类资料是指试验时仅考虑一个因素A, 除这一个被考虑的因素A之外,其余因素都控制 在同一个水平上 这一个因素A被分出若干个等级(又称为组),每 一个等级就称为因素A内的一个水平 例如我们考察不同蛋白质种类的饲养效果,其余营 养物质如能量、矿物质等试验者将其都控制在同 一个水平上,试验时仅选择几种需要考察的蛋白 质进行比较 这里,蛋白质种类就是因素A,所选择的几种蛋白 质就是水平:A1、A2、A3、 又如,如果我们仅考察土霉素的疗效,那么其余药 物我们都不考虑,仅将土霉素分为几种不同的剂 量,那么土霉素就是因素A,不同的土霉素剂量就 是水平,如A1:0g、A2:0.1g、A3:0.2g、A4: 0.3g、 再如,考察不同品种鲤鱼的适应能力,其余条件如 水温、饲料、药物、管理等都一样,但鲤鱼的品 种不同,鲤鱼的品种就是所考察的因素A,被我们 所考察的每一个鲤鱼品种就是水平,如A1:黄河 鲤、A2:荷元鲤、A3:锦鲤、A4:建鲤、 这样的试验就是单向分组,所得到的结果就是单向 分类资料(数据) 因素可以是数量型的,也可以是质量型的,如第一 例中所考察的蛋白质种类和第三例中鲤鱼的品种 就是质量型的,其划分的水平也是质量型的 第二例中土霉素的剂量就是数量型的,其划分的水 平也是数量型的 单向分类资料又可以分为组内样本容量相等与组内 样本容量不等两种情况 一、组内样本容量相等的单向分类资料 当每一组(每一个水平)内的试验动物相等,同时 试验结束后每一组内的数据资料相等,这就是组 内样本容量相等的情况 (一)数据结构和数学模型 方差分析是建立在一定的线性数学模型基础上的, 所谓线性模型就是指每一个观测值都可以分割成 若干个线性部分,这是方差分析中平方和、自由 度剖分的理论依据 设从一个 中随机抽取一个样本,容量为 , 这一样本中每一观测值 都可以写成: 其中, 为一随机误差,且 如对这一总体施加效应为 的处理,则总体平均值 为 ,方差仍为 ,因此, 这时, 无偏估计 , 无偏估计 如果将 的总体分成 个亚总体,每一亚总体 给于一个效应为 的处理。则每一亚总体的平均 值就是: 从每一亚总体中抽取样本容量均为 的样本,则我 们有 个样本,这 个样本的数据结构为: 样本 观测值 和 总和 总平均 1 2 上表中任一观测值 均具有线性模型: 且 , ,而 (二)平方和及自由度的剖分 对于整批资料来讲,可以得到一个总的方差: 其中, 称为总平方和 称为总自由度 在第1个样本中,我们可得到: 在第2个样本中,我们可得到: 在第 个样本中,我们可得到: 在第 个样本中,我们可得到: 这 个平方和、自由度相加,就是误差项平方和、 自由度: 样本间(或称处理间、组间)的变异就是这 个平 均值 的变异,其平方和、自由度就是: 由于 估计的是 ,而 估计的是 为了正确地进行F检验,必须使这两个均方都估计 同一个 因此样本间的平方和应为: 这样,我们就有三个均方:总的、组间、组内 现在我们来考察组成三个均方的三个平方和、三个 自由度之间的关系 先考察第一个样本中每一观测值与总平均值的离差 平方和: 同理:第2个样本、第 个样本、第 个样 本也有类似的等式: 将这 个样本的平方和加起来,就得到: 即:总平方和=组内平方和+组间平方和 或:总平方和=误差平方和+处理平方和 同理: 在实际计算时(中间过程请同学们自行推导): 其中: (三)F检验 由于 这两个均方同时独立地估计着总体方差 因此可用 来进行两个均方大小的检验 如果对各亚总体各施加的效应 不够大, 间的距 离就拉不开,组间均方就不会显著大于组内均方 ,F值就达不到显著水平 因此, 可用来检验无效假设 得到三个平方和、三个自由度后,可用表格的形式 列出相应的均方(这就是方差分析表): 方差分析表 变异来源 处理间 误 差 总变异 这张方差分析表中,总变异的作用不大,因此不需 要写出 校正值 需要注意的是: 但 例:设计5种不同的饲料剂型饲养鲫鱼,每种饲料剂 型饲喂6网箱鲫鱼(每网箱鱼规格、数量相同), 试验结束后,统计每网箱鲫鱼的增重情况,得如 下数据,试分析哪种饲料剂型的饲喂效果好? 剂型 观测值 23 17 20 20 21 21 18 16 19 18 14 21 24 25 26 25 28 22 27 21 23 19 24 23 16 15 18 16 14 13 经计算,得一级数据如下: 剂型 122 2500 20.33 3.88 106 1902 17.67 5.86 150 3770 25.00 4.00 137 3165 22.83 7.34 92 1426 15.33 3.06 设 不全相等 画方差分析表,将三个平方和、三个自由度填入表 中: 方差分析表 变异来源 不同剂型间 4 360.54 90.135 18.65 2.76 4.18 误 差 25 120.83 4.83 总的(T) 29 481.37 在方差分析表中,“不同剂型间”也可以写成“组间”、“处理 间”等;“误差”也可以写成“剂型内”等 总的MS一般不必写出,因为总MS没有用 如果所得F值不显著,就不需要打什么标记 (四)多重比较 当所得F值显著、或极显著,表示从整体来讲剂型间 存在着极显著的差异,但是不是所有的剂型都有 极显著的差异?有没有差异不显著的两种剂型? 如何才能知道是哪两种剂型间存在显著或极显著 的差异? 因此我们必须进行多重比较 多重比较的方法很多,但总原则是: 首先构造比较用的显著尺度 第二步是将两个平均值的差数与相应的尺度相比较 凡差值大于尺度的就是显著或极显著 多重比较的方法主要有:PLSD法、Q法、NK法、 SSR法等 PLSD法就是在方差分析保护下的最小显著差数法 ,实际上就是t-test法,但它是在方差分析显著的 基础上进行的两两比较,它所使用的是方差分析 中得到的组内均方,因此其尺度值公式是: 其中, 为组内自由度下 水平的临界值 为组内均方, 为每组样本容量 求得 后,将样本平均值两两求得差值,每一差值 都与 相比较 Q法,又称固定极差法 其中, 为 表中组内自由度下与样本组数 相对应的 值,求得 值后,将样本平均数两两差数与之比 较即可 NK法,又称q法,这一方法是公认比较客观的方法 其中, 又常写为 为组内均方, 为每组样本容量 为组内自由度下不同极差值 下的 值 Q法与NK法的共同点是都使用q表,计算公式相同 ,其不同点是Q法只求一个最大的 值,因此比 较时仅有一个标准 而NK法则根据平均数距离的远近分别设置不同的 值,因此不同距离的平均数之差的比较标准不同 下面我们以上面的这一例题来说明具体的比较方法 第一步,我们求SE值: 以误差项自由度查q表,该例题共有5个处理(药物 配伍),因此应从2,一直查到5的 和 值 将SE值和这些 值相乘,得相应的 值,即: 并建表 各样本平均数的比较,有好多种方法,这里主要介 绍上三角形表示法和字母表示法 上三角形表示法: 将平均数按从大到小的次序排列,逐个减去最小的 平均值,然后减去次小的平均值等等 R 2 3 4 5 2.92 3.54 3.91 4.17 3.96 4.55 4.91 5.17 2.62 3.18 3.51 3.74 3.55 4.08 4.40 4.64 -15.33 -17.67 -20.33 -22.83 25.00 9.67* 7.33* 4.67* 2.17 22.83 7.50* 5.16* 2.50 20.33 5.00* 2.66* 17.67 2.33 15.33 这里的平均数排序,是按照平均数从大到小的次序 排列的,不能按原来的次序排队 首先将每个平均数与最小的平均数相比较,其差写 在相比较的两个平均数相交的位置上 每个差值与LSR表中相应的LSR值相比较: 两个平均数的距离如果是2,其差就与R=2的LSR值 相比,如果这一差值大于LSR0.05的话,就在其右 肩上方打上一个* 如果这一差值大于LSR0.01的,就打上* 如果这一差值小于LSR0.05的,就什么也不打 其余以此类推 字母表示法 字母表示法的标注原则是: 凡差异不显著的两个平均数就标上相同的字母 凡差异显著的两个平均数就标上不同的小写字母 凡差异极显著的两个平均数就标上不同的大写字母 将平均值按从大到小的次序排列,从上往下比较: 凡不显著时就直走 凡显著了就拐弯 比较的标准还是原来的LSR表 R 2 3 4 5 2.92 3.54 3.91 4.17 3.96 4.55 4.91 5.17 2.62 3.18 3.51 3.74 3.55 4.08 4.40 4.64 0.05 0.01 25.00 a A 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论