《方差分析法》PPT课件.ppt_第1页
《方差分析法》PPT课件.ppt_第2页
《方差分析法》PPT课件.ppt_第3页
《方差分析法》PPT课件.ppt_第4页
《方差分析法》PPT课件.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 2 9 版权所有BY统计学课程组 1 第七章 方差分析AnalysisofVariance ANOVA 2020 2 9 版权所有BY统计学课程组 2 学习目标 掌握方差分析中的基本概念 掌握方差分析的基本思想和原理 掌握单因素方差分析的方法及应用 初步了解多重比较方法的应用 了解双因素方差分析的方法及应用 2020 2 9 版权所有BY统计学课程组 3 学习内容 第一节方差分析简介常用术语基本假定第二节单因素方差分析分析模型基本思想分析步骤多重比较第三节双因素方差分析无交互作用双因素方差分析有交互作用双因素方差分析 2020 2 9 版权所有BY统计学课程组 4 7 1方差分析简介 7 1 1方差分析中的基本概念7 1 2方差分析中的基本假设与检验 2020 2 9 版权所有BY统计学课程组 5 失业保险案例 为什么要进行方差分析 为了减小失业保险支出 促进就业 政府试图为失业者提供再就业奖励 如果失业者可以在限定的时间内重新就业 他将可以获得一定数额的奖金 政策会有效吗 2020 2 9 版权所有BY统计学课程组 6 试验数据 2020 2 9 版权所有BY统计学课程组 7 要研究的问题 总体1 1 奖金 1 总体2 2 奖金 2 总体3 3 奖金 3 总体4 4 奖金 4 2020 2 9 版权所有BY统计学课程组 8 各个总体的均值相等吗 2020 2 9 版权所有BY统计学课程组 9 失业保险案例 实验结果 1 无奖金2 低奖金3 中奖金4 高奖金 根据实验结果 可以认为各总体的平均失业时间相同吗 2020 2 9 版权所有BY统计学课程组 10 研究方法 两样本的t检验 如果采用t检验法对多个总体均值进行差异显著性检验 会出现如下问题 全部检验过程烦琐 做法不经济无统一的总体方差估计 检验的精度降低犯第一类错误的概率增大 检验的可靠性降低 2020 2 9 版权所有BY统计学课程组 11 方差分析可以用来比较多个均值 方差分析 Analysisofvariance ANOVA 的主要目的是通过对方差的比较来同时检验多个均值之间差异的显著性 可以看作t检验的扩展 只比较两个均值时与t检验等价 20世纪20年代由英国统计学家费喧 R A Fisher 最早提出的 开始应用于生物和农业田间试验 以后在许多学科中得到了广泛应用 2020 2 9 版权所有BY统计学课程组 12 ANOVA analysisofvariance 由于方差分析法是通过比较有关方差的大小而得到结论的 所以在统计中 常常把运用方差分析法的活动称为方差分析 方差分析的内容很广泛 既涉及到实验设计的模式 又关乎数据分析模型中因素效应的性质 本章在完全随机试验设计下 讨论固定效应模型方差分析的基本原理与方法 重点介绍单因素方差分析及两因素方差分析的内容 2020 2 9 版权所有BY统计学课程组 13 7 1 1方差分析中的几个基本概念 因变量 我们实际测量的 作为结果的变量 例如失业持续时间 因变量也称试验指标 其不同的取值常称为观察值或试验数据 自变量 作为原因的 把观测结果分成几个组以进行比较的变量例如奖金水平 在方差分析中 自变量也被称为因素 factor 因素的不同表现 即每个自变量的不同取值称为因素的水平 2020 2 9 版权所有BY统计学课程组 14 7 1 1方差分析中的几个基本概念 方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系只有一个自变量的方差分析称为单因素方差分析 研究多个因素对因变量的影响的方差分析称为多因素方差分析 其中最简单的情况是双因素方差分析 2020 2 9 版权所有BY统计学课程组 15 为便于理解 在单因素方差分析中 将因素的任何一个水平 处理 看作是一个总体 该水平 处理 下试验得到的数据可看成是从总体中抽出的一个样本 处理的重复数即为样本容量 7 1 1 固定效应与随机效应模型 2020 2 9 版权所有BY统计学课程组 16 若因素的每一个水平 处理 均做试验 相当于对该因素进行了全面调查 此种情形下 方差分析目的在于 对比较寻优 即确定因素的显著影响水平 且该显著影响水平仅在中有效 在外无效 一句话 试验数据不能对因素做推断 这属于固定效应模型方差分析范畴 固定效应模型 因素的所有水平都是由实验者审慎安排而不是随机选择的 7 1 1 固定效应模型 2020 2 9 版权所有BY统计学课程组 17 若只对因素的部分水平 处理 做试验 相当于对进行了抽样调查 此种情形下 方差分析目的在于 对因素的总体变量所服从的分布进行差异性检验和参数估计 即样本推断总体 这属于随机效应模型方差分析范畴 随机效应模型 因素的水平是从多个可能的水平中随机选择的 固定效应和随机效应模型在假设的设置和参数估计上有所差异 本章研究的都是固定效应模型 7 1 1 随机效应模型 2020 2 9 版权所有BY统计学课程组 18 方差分析与回归分析的联系 回归分析主要用来研究定量自变量和定量因变量之间的关系 第八章学习 回归分析中方差分析常常用来检验回归方程的整体显著性 回归模型中也可以包含定性自变量 这时回归模型与方差分析模型是等价的 2020 2 9 版权所有BY统计学课程组 19 7 1 2 方差分析中的基本假设 1 在各个总体中因变量都服从正态分布 2 在各个总体中因变量的方差都相等 3 各个观测值之间是相互独立的 2020 2 9 版权所有BY统计学课程组 20 1 正态性的检验 各组数据的直方图Q Q图 K S检验 2020 2 9 版权所有BY统计学课程组 21 2 等方差性的检验 经验方法 计算各组数据的标准差 如果最大值与最小值的比例小于2 1 则可认为是同方差的 本例中 最大值和最小值的比例等于1 83 2 Levene检验 2020 2 9 版权所有BY统计学课程组 22 方差分析对前两个假设条件是稳健的 允许一定程度的偏离 独立性的假设条件一般可以通过对数据搜集过程的控制来保证 如果确实严重偏离了前两个假设条件 则需要先对数据进行数学变换 也可以使用非参数的方法来比较各组的均值 3 其它说明 2020 2 9 版权所有BY统计学课程组 23 7 2 1单因素方差分析模型7 2 2方差分析的基本原理7 2 3单因素方差分析的步骤7 2 4方差分析中的多重比较 7 2 单因素方差分析 2020 2 9 版权所有BY统计学课程组 24 7 2 1单因素方差分析模型 2020 2 9 版权所有BY统计学课程组 25 单因素方差分析的数据结构 2020 2 9 版权所有BY统计学课程组 26 同一试验条件下的数据变异 随机因素影响不同试验条件下 试验数据变异 随机因素和可能存在的系统性因素即试验因素共同影响 试验数据变异原因 误差来源 分析 2020 2 9 版权所有BY统计学课程组 27 实验数据误差类型 随机误差因素的同一水平 总体 下 样本各观察值之间的差异比如 同一奖金水平下不同不同人的失业时间是不同的这种差异可以看成是随机因素影响的结果 称为随机误差系统误差因素的不同水平 不同总体 下 各观察值之间的差异比如 不同奖金水平之间的失业时间之间的差异这种差异可能是由于抽样的随机性所造成的 也可能是由于奖金本身所造成的 后者所形成的误差是由系统性因素造成的 称为系统误差 2020 2 9 版权所有BY统计学课程组 28 方差分析的实质与分析目的 方差分析的实质 观测值变异原因的数量分析 方差分析的目的 系统中是否存在显著性影响因素 2020 2 9 版权所有BY统计学课程组 29 7 2 1单因素方差分析模型 1 单因素方差分析 模型中有一个自变量 因素 和一个因变量 在失业保险实验中 假设张三在高奖金组 则张三的失业时间 高奖金组的平均失业时间 随机因素带来的影响 总平均失业时间 高奖金组平均值与总平均值之差 随机因素带来的影响 2020 2 9 版权所有BY统计学课程组 30 7 2 1单因素方差分析模型 2 2020 2 9 版权所有BY统计学课程组 31 7 2 2方差分析的基本原理 2020 2 9 版权所有BY统计学课程组 32 总变差 离差平方和 的分解 数据的误差用离差平方和 sumofsquares 描述 组内离差平方和 withingroups 因素的同一水平 同一个总体 下样本数据的变异比如 同一奖金水平下失业时间的差异组内离差平方和只包含随机误差组间离差平方和 betweengroups 因素的不同水平 不同总体 下各样本之间的变异比如 四个奖金水平之间失业时间的差异组间离差平方和既包括随机误差 也包括系统误差 2020 2 9 版权所有BY统计学课程组 33 总变差 离差平方和 分解的图示 组间变异 总变异 组内变异 2020 2 9 版权所有BY统计学课程组 34 2020 2 9 版权所有BY统计学课程组 35 2020 2 9 版权所有BY统计学课程组 36 离差平方和的自由度与均方 三个平方和的自由度分别是SST的自由度为nk 1 nk为全部观察值的个数SSA的自由度为k 1 其中k为因素水平的个数SSE的自由度为nk k各离差平方和的大小与观察值的多少有关 为了消除观察值多少对离差平方和大小的影响 需要将其平均 这就是均方 也称为方差 均方的计算方法是用离差平方和除以相应的自由度 2020 2 9 版权所有BY统计学课程组 37 2020 2 9 版权所有BY统计学课程组 38 F比值 如果因素A的不同水平对结果没有影响 那么在组间方差中只包含有随机误差 两个方差的比值会接近1如果不同水平对结果有影响 组间方差就会大于组内方差 组间方差与组内方差的比值就会大于1当这个比值大到某种程度时 就可以说不同水平之间存在显著差异 或者说因素A对结果有显著影响 2020 2 9 版权所有BY统计学课程组 39 F比的分布 F分布曲线 2020 2 9 版权所有BY统计学课程组 40 F分布与拒绝域 2020 2 9 版权所有BY统计学课程组 41 7 2 2 方差分析的基本思想 将k个水平 处理 的观测值作为一个整体看待 利用方差的可分解性 把观测值总变异的离差平方和及自由度分解为相应于不同变异来源的离差平方和及自由度 进而获得不同变异来源总体方差估计值 通过计算这些总体方差估计值的适当比值 即F比值 并以此比值的大小来判断各样本所属总体平均数是否相等 目的是检查所讨论因素是否作为系统性因素来影响试验结果 2020 2 9 版权所有BY统计学课程组 42 7 2 3 方差分析的步骤 1 检验数据是否符合方差分析的假设条件 2 提出零假设和备择假设 零假设 各总体的均值之间没有显著差异 即备择假设 至少有两个均值不相等 即 2020 2 9 版权所有BY统计学课程组 43 7 2 3 方差分析的步骤 3 根据样本计算F统计量的值 方差分析表 2020 2 9 版权所有BY统计学课程组 44 7 2 3 方差分析的步骤 4 确定决策规则并根据实际值与临界值的比较 或者p 值与 的比较得出检验结论 在零假设成立时组间方差与组内方差的比值服从服从自由度为 k 1 nk k 的F分布 2020 2 9 版权所有BY统计学课程组 45 失业保险的例子 1 在失业保险实验中 设显著性水平 0 05 试分析奖金水平对失业时间的影响是否显著 2020 2 9 版权所有BY统计学课程组 46 失业保险的例子 2 1 根据前面的分析 数据符合方差分析的假设条件 2 提出零假设和备择假设 H0 1 2 3 4 H1 1 2 3 4不全相等 2020 2 9 版权所有BY统计学课程组 47 失业保险的例子 3 3 计算F统计量的实际值 手工计算可以按照方差分析表的内容逐步计算 由于计算量大 实际应用中一般要借助于统计软件 下面是Excel计算的方差分析表 2020 2 9 版权所有BY统计学课程组 48 失业保险的例子 4 4 样本的F值为3 04 由于因此我们应拒绝零假设 从而得出奖金水平对再就业时间有显著影响的结论 类似的 由于 可以得出同样的结论 2 9 0 0433 0 05 3 04 2020 2 9 版权所有BY统计学课程组 49 例2热带雨林 1 各水平下的样本容量不同时单因素方差分析的方法也完全适用 只是公式的形式稍有不同 在使用软件进行分析时几乎看不出这种差别 一份研究伐木业对热带雨林影响的统计研究报告指出 环保主义者对于林木采伐 开垦和焚烧导致的热带雨林的破坏几近绝望 这项研究比较了类似地块上树木的数量 这些地块有的从未采伐过 有的1年前采伐过 有的8年前采伐过 根据数据 采伐对树木数量有显著影响吗 显著性水平 0 05 2020 2 9 版权所有BY统计学课程组 50 例2热带雨林 2 1 正态性检验 直方图 2020 2 9 版权所有BY统计学课程组 51 例2热带雨林 3 同方差性检验 最大值与最小值之比等于33 19 4 81 1 34 明显小于4 因此可以认为是等方差的 2020 2 9 版权所有BY统计学课程组 52 例2热带雨林 4 2 提出零假设和备择假设零假设 雨林采伐对林木数量没有显著影响 各组均值相等 备择假设 雨林采伐对是有显著影响 各组均值不全相等 2020 2 9 版权所有BY统计学课程组 53 例2热带雨林 5 3 方差分析表4 结论 F值 11 43 3 32 p 值 0 0002 0 05 因此检验的结论是采伐对林木数量有显著影响 2020 2 9 版权所有BY统计学课程组 54 7 2 4方差分析中的多重比较 在方差分析中 不拒绝零假设H0 表示拒绝总体均数相等的证据不足 分析终止 当零假设H0被拒绝时 我们可以确定至少有两个总体的均值有显著差异 但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析 这在方差分析中称为事后检验 PostHoctest 多重比较是同时对各个总体均值进行的两两比较 方法很多 如Fisher最小显著差异 LeastSignificantDifference LSD 方法 Tukey的诚实显著差异 HSD 方法或Bonferroni的方法等 这里我们只介绍最小显著差异方法 2020 2 9 版权所有BY统计学课程组 55 用LSD法进行多重比较的步骤 1 提出假设H0 mi mjH1 mi mj2 计算检验的统计量3a 如果或则拒绝H0 3b 计算的置信区间 如果0包含在该置信区间内则不能拒绝H0 否则拒绝H0 2020 2 9 版权所有BY统计学课程组 56 实例 失业保险实验 根据第一个总体和第四个总体计算的t统计量利用统计软件可以计算出t检验的临界值由于 因此我们有证据表明无奖金组与高奖金组的再就业时间有显著差异 其他奖金水平效应之间差异的显著性也可以用类似的方法计算 2020 2 9 版权所有BY统计学课程组 57 实例 热带雨林采伐 很多统计软件都可以直接进行多重比较 下表是SPSS对热带雨林例子的输出结果 置信区间5 31 14 03 3 26 12 68不包括0 差异显著 置信区间 6 04 3 02包括了0 差异不显著 2020 2 9 版权所有BY统计学课程组 58 7 3双因素方差分析 7 3 1无交互作用的双因素方差分析7 3 2有交互作用的双因素方差分析7 3 3双因素方差分析的步骤7 3 4贡献率分析 2020 2 9 版权所有BY统计学课程组 59 交互作用 交互作用即一个因素对因变量的影响程度受另一个因素的影响的情况 假设学生分两类 在校和在职 把两类学生随机分成两组 分别采用课堂讲授和交互式教学方法 考试结果如下表 可见课堂讲授的方式更适合于在校生 交互式教学方式更适合于在职生 在这种情况下我们说两个因素之间存在着交互作用 2020 2 9 版权所有BY统计学课程组 60 交互作用示意图 2020 2 9 版权所有BY统计学课程组 61 交互作用级 因子间的交互作用会随着因子个数的增加而增加 如四个因子A B C D间的交互作用有以下几类 1 二级交互作用有6个 AB AC AD BC BD CD 2 三级交互作用有4个 ABC ABD ACD BCD 3 四级交互作用有1个 ABCD 交互作用共有11个 比因子个数还多 实践经验表明 多数交互作用是不存在或者很小以至可以忽略不计的 一般我们主要考虑部分二级交互作用 但考察哪些二级交互作用由具体情况来决定 2020 2 9 版权所有BY统计学课程组 62 双因素方差分析的类型和基本假设 双因素方差分析中因素A和B对结果的影响相互独立时称为无交互作用的双因素方差分析 如果除了A和B对结果的单独影响外还存在交互作用 这时的双因素方差分析称为有交互作用的双因素方差分析 双因素方差分析中的基本假设是各个子总体都服从正态分布 有相同的方差 并且各个观测值之间相互独立 与单因素时相同 2020 2 9 版权所有BY统计学课程组 63 7 3 1无交互作用双因素方差分析数据结构 2020 2 9 版权所有BY统计学课程组 64 7 3 1无交互作用的双因素方差分析模型 在无交互作用的双因素方差分析模型中因变量的取值受四个因素的影响 总体的平均值 因素A导致的差异 因素B导致的差异 以及误差项 写成模型的形式就是 2020 2 9 版权所有BY统计学课程组 65 无交互作用的双因素方差分析模型 2020 2 9 版权所有BY统计学课程组 66 离差平方和的分解 2020 2 9 版权所有BY统计学课程组 67 无交互作用的双因素方差分析表 2020 2 9 版权所有BY统计学课程组 68 7 3 2有交互作用的双因素方差分析数据结构 2020 2 9 版权所有BY统计学课程组 69 7 3 2有交互作用的双因素方差分析模型 在有交互作用的双因素方差分析模型中因变量的取值受五个因素的影响 总体的平均值 因素A导致的差异 因素B导致的差异 由因素A和因素B的交互作用导致的差异 以及误差项 写成模型的形式就是 2020 2 9 版权所有BY统计学课程组 70 7 3 2有交互作用的双因素方差分析模型 2020 2 9 版权所有BY统计学课程组 71 离差平方和的分解 2020 2 9 版权所有BY统计学课程组 72 有交互作用的双因素方差分析表 2020 2 9 版权所有BY统计学课程组 73 7 3 3双因素方差分析的步骤 1 双因素方差分析的步骤与单因素分析类似 主要包括以下步骤 1 分析所研究数据能否满足方差分析要求的假设条件 需要的话进行必要的检验 如果假设条件不满足需要先对数据进行变换 2020 2 9 版权所有BY统计学课程组 74 7 3 3双因素方差分析的步骤 2 2 提出零假设和备择假设 双因素方差分析可以同时检验两组或三组零假设和备择假设 要说明因素A有无显著影响 就是检验如下假设 要说明因素B有无显著影响 就是检验如下假设 在有交互作用的双因素方差中 要说明两个因素的交互作用是否显著还要检验第三组零假设和备择假设 2020 2 9 版权所有BY统计学课程组 75 7 3 3双因素方差分析的步骤 3 3 计算F检验值 4 根据实际值与临界值的比较 或者p 值与 的比较得出检验结论 与单因素方差分析的情况类似 对FA FB和FAB 当F的计算值大于临界值F 或者p 值 时拒绝零假设H0 2020 2 9 版权所有BY统计学课程组 76 双因素方差分析 失业保险的例子 1 同时考虑奖金和年龄因素 二者对失业时间有显著影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论