方差分析.ppt_第1页
方差分析.ppt_第2页
方差分析.ppt_第3页
方差分析.ppt_第4页
方差分析.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲方差分析 应用统计方法选讲 方差分析 学习目标 了解方差分析解决怎样的问题 了解方差分析的一般思想及步骤 了解什么是单因素 双因素及多因素方差分析 能够运用方差分析分析实际问题 掌握R软件 SPSS或者其他软件中相应操作 方差分析 引子 由以前的统计学基本知识 我们知道 统计推断的主要工作由两个方面组成 参数估计和假设检验 均值检验在应用中很常见 一般的基础统计学中都介绍单样本和两样本均值检验方法 往往采用t检验方法 但是对于下面提到的几个问题 采用t检验的方法就不合适了 方差分析 案例 案例 人们经常用t检验来确定两个教学班的教学效果是否存在显著差异 那么对于大学新生的入学成绩 可以通过t检验来考察男女学生间的入学成绩是否有差异 但要是想知道来自于湖南 湖北 上海 北京4个省市的学生 其入学成绩是否有差异 那么是否可以用6次t检验来达成目的 方差分析 案例分析 分析 用6次t检验来考察4个省市的大学生新生入学成绩是否相同 对于某一次比较 其犯I类错误的概率为 那么连续进行6次比较 其犯I类错误的概率是多少呢 不是 6 而是1 1 6 也就是说 如果检验水准取0 05 那么连续进行6次t检验 犯I类错误的概率将上升为0 2649 这是一个令人震惊的数字 结论 多个均数比较不宜采用t检验作两两比较 而应该采用方差分析 1方差分析 问题的提出 引例1 为研究光照条件对某种有机物降解速度的影响 在人工控制的六种不同光强条件下 测定了该有机物24小时内的降解速度 问 1 光照条件是否影响该有机物的降解速度 2 不同的光照条件之间是否有显著性差别 单因素方差分析 1方差分析 问题的提出 引例2 为比较3种松树在4个不同地区的生长情况有无差别 在每个地区对每种松树随机地选取10株 测量它们的胸径 问 3种松树在不同地区的胸径是否有显著性差异 双因素等重复数的方差分析 1方差分析 问题的提出 引例3 为研究3种不同作物对污泥中镉吸收能力的差别 选择了4个地块进行栽培试验 将每一个地块划分成三个小区 三种作物随机地分种在每个地块的三个小区上 在所有地块上施用同等数量的污泥 作物收获后分别测定了其中镉的积累量 ug kg 问 1 不同作物对镉的吸收是否有显著性差异 2 不同地块下作物对镉的吸收是否有显著性差异 双因素无重复数的方差分析 1方差分析 方法的提出英国统计学家R A Fisher于1923年提出方差分析方法 analysisofvariance ANOVA 这种方法是将多个处理的观测数据作为一个整体看待 把观测数据的总变异按照变异来源分解为处理效应和试验误差 并作出其数量估计 方差分析可用于多个样本均值的比较 分析多个因素的交互作用 方差的同质性检验 回归方程的显著性检验 1方差分析 应用前提条件样本的独立性 independence 观察对象是所研究因素的各个水平下的独立随机抽样 游程检验 runstest 分布的正态性 normality 每个水平下的因变量应当服从正态分布 正态性检验 Shapiro Wilktest K Stest 方差齐性 homoscedascity 各水平下的总体具有相同的方差 但实际上 只要最大 最小方差小于3 分析结果都是稳定的 可用Levenetest Brown Forsythe sTest 1方差分析 主要内容 1 1基本概念 1 2单因素方差分析 1 3双因素方差分析 1 4多因素方差分析 1 5多重t test方法主要参考教材与书籍 盛骤 谢式千 潘承毅 概率论与数理统计 第四版 高等教育出版社 2008 方匡南 朱建平 姜叶飞 R数据分析方法与案例详解 电子工业出版社 2015 张良均 云伟标 王路 刘晓勇 R语言数据分析与挖掘实战 机械工业出版社 2015 1 1基本概念 基本概念 一 因素 factor 试验中所研究的影响试验指标的原因或原因组合称为试验因素 experimentalfactor 或处理因素 treatmentfactor 简称因素或因子 factor 通常用A B表示 如引例1中的光照条件水平 level 因素在试验中所取的不同条件或状态 若某因素记为 A 则因素A的多个不同水平分别记为A A A 如引例1中的六种光强条件 12a 1 1基本概念 基本概念 二 主效应 maineffect 某因素单独对试验结果所产生的影响或作用 称该因素的主效应 如引例1中光照条件对有机物降解速度的影响交互效应 interaction 在多因素试验中 两个及以上的因素相互作用 联合对试验结果产生影响或作用 称为交互效应 作用 如引例3中树种 因素A 和地区 因素B 联合对胸径产生影响 称为因素A和B的交互作用 当把交互作用看成一个因素来考察时 可记为因素A和B的交互作用为A B 1 1基本概念 基本概念 三 条件误差 conditionalerror 由试验条件不同所造成的差异 它属于系统误差 方差分析中又称之为组间误差 Withingroups 试验误差 testerror 试验中各种偶然 随机 原因对试验结果产生的影响 在方差分析中所说的误差均指试验误差 又称之为组内误差 betweengroups 通常用E或e表示 误差效应 erroreffect 误差给试验结果带来的影响 1方差分析 基本思想 R A Fisher提出的方差分析的理论基础 将总变异分解为由研究因素所造成的部分和由抽样误差所造成的部分 通过比较来自于不同部分的变异 借助F分布作出统计推断 后人又将线性模型的思想引入方差分析 为这一方法提供了近乎无穷的发展空间 1方差分析 总变异 随机变异 处理因素导致的变异 总变异 组内变异 组间变异 SS总 SS组内 SS组间 这样 我们就可以采用一定的方法来比较组内变异和组间变异的大小 如果后者远远大于前者 则说明处理因素的确存在 如果两者相差无几 则说明该影响不存在 以上即方差分析的基本思想 1方差分析 主要内容 1 1基本概念 1 2单因素方差分析 1 3两因素方差分析 1 4多因素方差分析 概述单因素方差是仅仅讨论一种试验条件对试验结果有无显著影响的分析 单因素方差分析对因素的水平数没有限制 可任意选择 但一般多见的是选3至6个水平 单因素方差分析对重复性有要求 重复次数一般应在3次以上 各水平下的重复次数则可以不同 但这时的计算要复杂一些 精度也相对低一些 原假设H0 1 2 r备择假设H1 1 2 r不完全相等 1 2单因素方差分析 1 2单因素方差分析 重复数相等的单因素方差分析设因素A的a个水平为 A1 A2 Aa 在每一水平下各做r次重复试验 r 2 水平数 a 重复数 r 试验数据总数 N ar 1 2单因素方差分析 单因素方差分析的数学模型 1 模型的结构假设因素A的第i水平Ai下的理论平均值为 i 为所 有 的平均值 即 因素A的i水平 的效应为 ai i 其中满足 ai 则yij 即数据 总平均 水平效应 误差 0 i 1 1 i i ij i ij i Ai 1 2单因素方差分析 绝对值小的 ij远多于绝对值大的 单因素方差分析的数学模型 1 模型的结构 ij表示水平Ai下第i次试验结果yij关于水平理论均值 的试验误差 即 在多次试验中 它的取值具有一定的规律性 N 0 2 E ij 0 ij ij相互独立 i ij yij i 是期望值为0的随机变量 ij 1 2单因素方差分析 单因素方差分析的数学模型 1 模型的结构 方差分析的线性模型 相互独立 1 2单因素方差分析 单因素方差分析的数学模型 1 模型的结构 由yij 可得 i ij i ijr i i ijj 1 i 1 r j 1 i i i i 1 其中 i r ijj 1 i i 1 r iji 1j 1 1 1r y 1 1 1r1 1 iiji y y r y ar 1 2单因素方差分析 单因素方差分析的数学模型 2 离差平方和的结构及无偏估计离差平方和的结构 i ij 22 SST yij y i 1j 1 i 1j 1 2 2 SSA yi y i 1j 1 i i i 1j 1 2 2 yij yi i 1j 1 ij i i 1j 1 r r r r r r SSe 单因素方差分析的数学模型 3 均方差的估计 1 2单因素方差分析 2 2 i N 0 N 0 N 0 2 2 E 2 2 E 2 2 E 2 E ij E i E 0 i 2 r 1 2 iji i 1j 1 2 r 2 1 2 i i 1 j 1 SS E ij ij r A i i r r r r SSe E i 1 r 2 2 i 1 1 1SSe 2 S r 1 i A A e SS S 误差方差是总体方差的无偏估计 单因素方差分析的数学模型 4 构造原假设和统计量 1 2单因素方差分析 H0 1 2 假定原假设成立 H0 1 2 r 2 2 i 1 0 E S 1 1 1 r 1 FA SA Se 1 i A A SSA SSe SS 说明条件引起的波动与试验误差引起的波动差不多 1 2单因素方差分析 方差分析的原理 5 统计量的分布由 2分布定义可知 当x1 x2 xn是来自总体N 2 的一个子样时 有 i 1那么如果原假设是正确的 根据 2分布的性质 有 x x 2 n 1 2 i 1 n y y 2 2 ar 1 2 2 y y 2 2 ar a iji 2 2 2 yi N r r y y 2 i y y 2 2 a 1 i 2 2 2 1SS 1 1SS 1 1 1 T ij e SSA 1 2单因素方差分析 方差分析的原理 5 统计量的分布根据F分布的定义可知 SSA 2 r a 这表明统计量服从F分布 F f fe SA A A Se F 2 1 F 1 r FA e SS 1 2单因素方差分析 方差分析的原理 6 检验统计量对于给定的检验显著性水平 F F 的概率等于 即P F F 当一次试验中出现F F 或sig 这一小概率事件 时 有理由拒绝原假设 认为因素的效应显著 不同条件下的总体均值有明显的不同 否则接受原假设 1 2单因素方差分析 方差分析的主要步骤 提出原假设H0和备择假设H1 H0 1 2 计算各因素离差平方和SS 计算各因素方差S 构造并计算统计量F 构造统计量 并计算其显著性概率 查检验临界值F 设定显著性水平 判断某因素作用是否显著 据此拒绝或接受原假设 P F F sig 1 2单因素方差分析 方差分析的前提条件 正态性及其检验在构造方差分析模型时 即假定子样是来同方差的正态总体 在该前提下 构造方差分析的统计假设 各正态总体的均值相等 在该假设基础上 才有各因素方差服从卡方分布的讨论 并构造服从F分布的统计量 1 2单因素方差分析 方差分析的前提条件 方差齐性 同质性 及其检验设有a个独立子样Y1 y11 y1r Ya ya1 yar分别来自具有相同方差的独立总体 即N 1 2 N a 2 如果 检验原假设H 成立 那么 这 个正态总体方差和均值都相等 因此 从这 个完全相同的正态总体中各抽取一个样本为r的子样 相当于从一个正态总体N 2 中分别抽取了 个子样 012a 1 2单因素方差分析 方差分析的前提条件 样本独立性检验 游程检验 1 2单因素方差分析 案例分析 R函数aov aov formula data NULL projections FALSE qr TRUE contrasts NULL formula Aformulaspecifyingthemodel data Adataframeinwhichthevariablesspecifiedintheformulawillbefound Ifmissing thevariablesaresearchedforinthestandardway 1 2单因素方差分析 案例分析 例1利用4种不同配方的材料A1 A2 A3 A4生产出来的元件 测得其使用寿命如表 问 4种不同配方下元件的使用寿命有无显著的差异 案例分析 R软件实现 x scan dataexample702 txt a factor rep 1 4 c 7 5 8 6 lamp data frame x a lamp aov aov x a data lamp summary lamp aov DfSumSqMeanSqFvaluePr F a34921216404 12 16590 1208Residuals221666227573 7 H0不是小概率事件 所以接受H0 即 不同配方生产的元件的平均寿命无显著的差异 案例分析 例2小白鼠在接种了3种不同菌型的伤寒杆菌后的存活天数如表 判断小白鼠被注射3种菌型后的平均存活天数有无显著差异 x scan dataexample703 txt a factor rep 1 3 c 11 10 12 mouse data frame x a mouse aov aov x a data mouse summary mouse aov DfSumSqMeanSqFvaluePr F a294 25647 1288 48370 001202Residuals30166 6535 555 拒绝H0 即 三种不同菌种的伤寒杆菌后的存活天数有显著差异 1 2单因素方差分析 多重比较 multiplecomparisons 单因素方差分析能够判断各水平之间是否有显著性差异 如果有显著性影响 可以进一步确定不同水平的影响程度如何 以及哪个水平的作用明显不同于其他水平 或哪个水平的作用不显著 本课程仅介绍一种基于学生化极差分布的TUKEY方法 这是J W Tukey 1952 提出的一种多重比较方法 是以试验错误率为标准的 又称真正显著差 honestysignificientdifference HSD 法 1 2单因素方差分析 Tukey法该方法采用学生化极差法 检验统计量为q统计量 服从q分布 其中其中MSE为观测量的组内方差 r为各水平下观测的个数 该方法适用于各水平下观测值的个数相等的情况 另外 该方法对犯第I类错误给予了较有效的处理 在相同的显著性水平下 q分布的临界值远大于t分布的临界值 因此使得拒绝原假设的可能性降低 在R软件中 函数qtukey 用于计算q分位数 函数TukeyHSD 用于计算同时置信区间 其调用格式为说明 x为方差分析的对象 which是给出需要计算比较区间的因子向量 ordered是逻辑值 如果为 true 则因子的水平先递增排序 从而使得因子间差异均以正值出现 conf level是置信水平 TukeyHSD x which ordered FALSE conf level 0 95 1 2单因素方差分析 使用方法 TukeyHSD aov X A sales 例3 某5家商店以各自的销售方式卖出新型手表 连续四天手表的销售量如下表所示 试考察销售方式之间是否有显著差异 销售方式与销售量数据表销售方式销售量数据A123192113A224252827A320181915A422252623A524232627 1 2单因素方差分析 salessummary aov X A sales 得DfSumSqMeanSqFvaluePr F A4212 80053 2007 980 001178 Residuals15100 0006 667 Signif codes 0 0 001 0 01 0 05 0 可见不同的销售方式有差异 1 2单因素方差分析 最后再求均值之差的同时置信区间 R命令为 TukeyHSD aov X A sales 运行结果为 Tukeymultiplecomparisonsofmeans95 family wiseconfidencelevelFit aov formula X A data sales Adifflwruprpadj2 171 36224712 6377530 01201173 1 1 6 6377534 6377530 98056324 15 0 63775310 6377530 09447315 160 36224711 6377530 03443283 2 8 13 637753 2 3622470 00415274 2 2 7 6377533 6377530 80620575 2 1 6 6377534 6377530 98056324 360 36224711 6377530 03443285 371 36224712 6377530 01201175 41 4 6377536 6377530 9805632 1 2单因素方差分析 1 3双因素方差分析 单变量双因素方差分析 Two wayANOVA 遵从单因素方差分析的前提假定 采样的随机性 样本的独立性 分布的正态性 方差的一致性 可以同时研究两个影响因素 包括两个影响因素的独立作用以及他们的交互作用 双因素方差分析的数据来源于二维试验设计 在试验中每个因子取若干水平 1 3双因素方差分析 等重复观测数的双因素方差分析等重复观测数的双因素方差分析不仅分析两个因素的独立作用 同时分析它们之间的交互作用 两个因素的独立作用通常称之为主效应 交互作用通常称之为交互效应 例4 在一个农业试验中 考虑4种不同的种子品种A1 A2 A3 A4和3种不同的施肥方法B1 B2 B3 得到产量数据如表 试分析种子与施肥对产量有无显著影响 这是一个双因素试验 因素A 种子 有4个水平 因素B 施肥 有3个水平 设A有r个水平A1 A2 Ar 因素B有s个水平B1 B2 Bs 1 3双因素方差分析 不考虑交互作用 1 数学模型 无重复试验 H01 1 2 r 0 H02 1 2 s 0 1 3双因素方差分析 2 方差分析 考虑统计量 类似地有 1 3双因素方差分析 方差分析表 3 方差分析表的计算 以例4为例 y scan dataexample709 txt a gl 4 3 b gl 3 1 12 agriculture data frame y a b agriculture aov aov y a b data agriculture DfSumSqMeanSqFvaluePr F a33824 21274 755 22620 04126b2162 581 250 33310 72915Residuals61463 5243 92 拒绝H01 不同品种 A 对产量有显著影响 接受H02 没有充分理由说明施肥方法 B 对产量有显著影响 1 3双因素方差分析 考虑交互作用 因素A B的影响经常会出现相互影响 影响能够叠加 数学模型 每种水平组合 Ai Bj 下重复试验t次 为第k次观测值 H01 1 2 r 0 H02 1 2 s 0 H01 1 2 r 0 H02 1 2 s 0 H03 ij 0 2 方差分析 ST SE SA SB SA B H01成立 H02成立 H03成立 方差分析表 1 3双因素方差分析 例5 研究树种与地理位置对松树生长的影响 对4个地区的3种同龄松树的直径进行测量得到数据如表 A1 A2 A3表示3个不同树种 B1 B2 B3 B4表示4个不同地区 对每一种水平组合 进行了5次测量 对此试验结果进行方差分析 1 3双因素方差分析 y scan dataexample711 txt a gl 3 20 60 b gl 4 5 60 tree data frame y a b tree aov aov y a b a b data tree summary tree aov DfSumSqMeanSqFvaluePr F a2352 53176 2678 95890 000494b387 5229 1721 48270 231077a b671 7311 9560 60770 722890 H01成立是小概率事件 1 3双因素方差分析 方差齐性检验 例5的假设检验R实现结果 1 4多因素方差分析 多因素问题方差分析 全面试验不现实 1用正交表安排试验 L表示正交表 9表示正交表的行数 表示需要试验次数 4是正交表的列数 表示最多可以安排的因素的个数 3是因素水平 表示此表可以安排三水平的试验 表中任一列 不同的数字出现的次数相同 表中任意两列 各种同行数字对 或称水平搭配 出现的次数相同 两性质合称为 正交性 使试验点在试验范围内排列整齐 规律 也使试验点在试验范围内散布均匀 例6 为提高某种化学产品的转化率 考虑三个有关因素 反应温度A 反应时间B 用碱量C 各因素选取三个水平 如表 如何用正交表安排试验得到较好的生产方案 1 4多因素方差分析 R程序实现 rate data frame a gl 3 3 b gl 3 1 9 c factor c 1 2 3 2 3 1 3 1 2 y c 31 54 38 53 49 42 57 62 64 k matrix 0 nrow 3 ncol 3 dimnames list 1 3 c a b c for jin1 3 for iin1 3 k i j mean rate y rate j i plot as vector k lines 1 3 k 1 lines 4 6 k 2 lines 7 9 k 3 abcy111131212254313338421253522349623142731357832162933264 i 1 j 1 rate 1 1mean rate y rate j i mean 31 54 38 最佳工艺条件A3 B2 C2 求n次正交试验中 各因子对应的各水平的平均转化率 1 5多重t test方法 多重t检验方法使用方便 但当多次重复使用t检验时会增大犯第一类错误的概率 从而使得 有显著差异 的结论不一定可靠 所以在进行较多次重复比较时 我们要对p值进行调整 p adjust p method p adjust methods n length p p是p值构成的向量 method是修正方法 包括 Holm 1979 方法 Hochberg 1988 方法 Hommel 1988 方法 Bonferroni方法 Benjamini Hochberg BH 1995 方法 Benjamini Yekutieli BY 2001 方法 p adjust methods 1 holm hochberg hommel bonferroni BH 6 BY fdr none 当比较次数较多时 Bonferroni方法的效果较好 所以在作多重t检验时常采用Bonferroni法对p进行调整 1 5多重t test方法 R软件中函数pairwise t test 可以得到多重比较的p值 x是响应变量构成的向量 g是分组向量 因子 p adjust method是上面提到的调整p值的方法 p adjust method none 表示不作任何调整 默认值按Holm方法调整 pairwise t test x g p adjust method p adjust methods pool sd TRUE 1 5多重t test方法 例7 有一个关于检验毒品强弱的试验 给48只老鼠注射I II III三种毒药 因素A 同时有A B C D4种治疗方案 因素B 这样的试验在每一种因素组合下都重复四次测试老鼠的存活时间 数据如表3所示 试分析毒药和治疗方案以及它们的交互作用对老鼠存活时间有无显著影响 表3老鼠存活时间 年 的实验报告ABCDI0 310 450 821 100 430 450 450 710 460 430 880 720 630 760 660 62II0 360 290 920 610 440 350 561 020 400 230 491 240 310 400 710 38III0 220 210 300 370 230 250 300 360 180 230 380 290 240 220 310 33 1 5多重t test方法 rats data frame Time c 0 31 0 45 0 46 0 43 0 82 1 10 0 88 0 72 0 43 0 45 0 63 0 76 0 45 0 71 0 66 0 62 0 38 0 29 0 40 0 23 0 92 0 61 0 49 1 24 0 44 0 35 0 31 0 40 0 56 1 02 0 71 0 38 0 22 0 21 0 18 0 23 0 30 0 37 0 38 0 29 0 23 0 25 0 24 0 22 0 30 0 36 0 31 0 33 Toxicant gl 3 16 48 labels c I II III Cure gl 4 4 48 labels c A B C D 建立数据框 1 5多重t test方法 下面再用函数interaction plot 作出交互效应图 以考查因素之间交互作用是否存在 R程序为 opplot Time Toxicant Cure data rats with rats interaction plot Toxicant Cure Time trace label Cure with rats interaction plot Cure Toxicant Time trace label Toxicant 1 5多重t test方法 1 5多重t test方法 输出结果如图8 3 a 和图8 3 b 两图中的曲线并没有明显的相交情况出现 因此我们初步认为两个因素没有交互作用 尽管如此 由于实验误差的存在 我们用方差分析函数aov 对此进行确认 其中方差模型格式为x A B 或A B A B 表示不仅考虑因素A B各自的效应 还考虑两者的交互效应 若仅考虑A与B的交互效应则方差模型格式为A B 由R程序 rats aovsummary rats aov 得到检验结果为 1 5多重t test方法 DfSumSqMeanSqFvaluePr F Toxicant21 035630 5178123 22543 326e 07 Cure30 914620 3048713 67454 132e 06 Toxicant Cure60 247820 041301 85260 1163Residuals360 802620 02230 Signif codes 0 0 001 0 01 0 05 0 1 1根据p值知 因素Toxicant和Cure对Time的影响是高度显著的 而交互作用对Time的影响却是不显著的 1 5多重t test方法 我们继续利用该例子的数据 作均值的多重比较 进一步检验H0 i ji j 1 2 3 4 5 1 5多重t test方法 不对p作出调整 R程序为 pairwise t test X A p adjust method none 检验结果如下 data XandA123420 5087 30 77290 7069 40 28930 67930 4335 50 01890 00480 01040 0020Pvalueadjustmentmethod none检验的结果与图一致 即 5与其它4个差异明显 后者差异不明显 1 5多重t test方法 按缺省的 holm 对p值进行调整 R程序为 pairwise t test X A p adjust method holm 检验结果如下 PairwisecomparisonsusingttestswithpooledSDdata XandA123421 000 31 0001 000 41 0001 0001 000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论