第5章__方差分析_第1页
第5章__方差分析_第2页
第5章__方差分析_第3页
第5章__方差分析_第4页
第5章__方差分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章 方差分析 Analysis of Variance (ANOVA),5.1 方差分析简介 5.2 单因素方差分析 5.3 双因素方差分析,学习目标,掌握方差分析中的基本概念; 掌握方差分析的基本思想和原理; 掌握单因素方差分析的方法及应用; 初步了解多重比较方法的应用; 了解双因素方差分析的方法及应用。,5.1 方差分析中的基本概念和假设,失业保险案例:为什么要进行方差分析?,为了减小失业保险支出、促进就业,政府试图为失业者提供再就业奖励:如果失业者可以在限定的时间内重新就业,他将可以获得一定数额的奖金。政策会有效吗?,要研究的问题,总体1,1(奖金=1),总体2,2 (奖金=2),总体3,3(奖金=3),总体4,4(奖金=4),各个总体的均值相等吗?,失业保险案例:实验结果,1=无奖金 2=低奖金 3=中奖金 4=高奖金。根据实验结果,可以认为各总体的平均失业时间相同吗?,研究方法:两样本的t检验?,用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题需要进行6次t检验 在整体检验中犯第一类错误的概率显著增加: 如果在每次t检验中犯第一类错误的概率等于5%,则在整体检验中等于1-(1-0.05)6=0.2649,方差分析可以用来比较多个均值,方差分析(Analysis of variance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时与t检验等价。 20世纪20年代由英国统计学家费喧(R. A. Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。,5.1.1 方差分析中的几个基本概念,因变量:我们实际测量的、作为结果的变量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素(factor)。 因素的不同表现,即每个自变量的不同取值称为因素的水平。,5.1.1 基本概念,方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方差分析。 研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。,5.1.1 :固定效应与随机效应模型,固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。 随机效应模型:因素的水平是从多个可能的水平中随机选择的。 固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都是固定效应模型。,5.1.2:方差分析中的基本假设,(1)在各个总体中因变量都服从正态分布; (2)在各个总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。,(1)正态性的检验,各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*,(2)等方差性的检验,经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.832 Levene检验 *,(3) 其它说明,方差分析对前两个假设条件是稳健的, 允许一定程度的偏离。 独立性的假设条件一般可以通过对数据搜集过程的控制来保证。 如果确实严重偏离了前两个假设条件,则需要先对数据进行数学变换,也可以使用非参数的方法来比较各组的均值。,5.2. 单因素方差分析,5.2.1 单因素方差分析模型 5.2.2方差分析的基本原理 5.2.3 单因素方差分析的步骤 5.2.4 方差分析中的多重比较,5.2.1 单因素方差分析模型,单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在失业保险实验中假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 +随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响,5.2.2 :总变差(离差平方和)的分解,SSTSSASSE,5.2.2 :组间方差和组内方差,各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r,5.2.2 :组间方差和组内方差,5.2.2 :方差分析的基本思想,组间方差,如果因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,或者说因素A对结果有显著影响。,F=,1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设: 零假设:各总体的均值之间没有显著差异,即 备择假设:至少有两个均值不相等,即,5.2.3 :方差分析的步骤,5.2.3 :方差分析的步骤,3.根据样本计算F统计量的值。,方差分析表,5.2.3 :方差分析的步骤,4.确定决策规则并根据实际值与临界值的 比较,或者p-值与的比较得出检验结论。 在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布,失业保险的例子(1),在失业保险实验中,设显著性水平=0.05,试分析奖金水平对失业时间的影响是否显著 。,失业保险的例子(2),1、根据前面的分析,数据符合方差分析的假设条件。 2、提出零假设和备择假设: H0:1234, H1:1、2、3、4不全相等。,失业保险的例子(3),3、计算F统计量的实际值。 手工计算可以按照方差分析表的内容逐步计算。由于计算量大,实际应用中一般要借助于统计软件。下面是Excel计算的方差分析表。,失业保险的例子(4),4、样本的F值为3.04。 由于 因此我们应拒绝零假设,从而得出奖金水平对再就业时间有显著影响的结论。 类似的,由于 ,可以得出同样的结论。,2.9,0.0433,0.05,3.04,例2 热带雨林 (1),各水平下的样本容量不同时单因素方差分析的方法也完全适用,只是公式的形式稍有不同,在使用软件进行分析时几乎看不出这种差别。,一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。,例2 热带雨林 (2),1、正态性检验:直方图,例2 热带雨林 (3),同方差性检验:最大值与最小值之比等于33.19 / 4.81=1.34,明显小于4,因此可以认为是等方差的。,例2 热带雨林 (4),2、提出零假设和备择假设 零假设:雨林采伐对林木数量没有显著影响(各组均值相等); 备择假设:雨林采伐对是有显著影响(各组均值不全相等)。,例2 热带雨林 (5),3、方差分析表 4、结论。 F值=11.433.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。,5.2.4 方差分析中的多重比较,在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在方差分析中称为事后检验(Post Hoc test)。 多重比较是对各个总体均值进行的两两比较。方法很多,如Fisher最小显著差异(Least Significant Difference,LSD)方法、Tukey的诚实显著差异(HSD)方法或Bonferroni的方法等。这里我们只介绍最小显著差异方法。,用LSD法进行多重比较的步骤,1、提出假设 H0: mi = mj H1: mi mj 2、计算检验的统计量 3a、 如果 或 则拒绝H0。 3b、计算 的置信区间: 如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。,实例:失业保险实验,根据第一个总体和第四个总体计算的t统计量 利用统计软件可以计算出t检验的临界值 由于 ,因此我们有证据表明 无奖金组与高奖金组的再就业时间有显著差异。其他奖金水平效应之间差异的显著性也可以用类似的方法计算。,实例:热带雨林采伐,很多统计软件都可以直接进行多重比较。下表是SPSS对热带雨林例子的输出结果。 置信区间5.3114.03,3.2612.68不包括0,差异显著。 置信区间-6.043.02包括了0,差异不显著。,5.3 双因素方差分析,5.3.1 无交互作用的双因素方差分析 5.3.2 有交互作用的双因素方差分析 5.3.3 双因素方差分析的步骤,交互作用,交互作用即一个因素对因变量的影响程度 受另一个因素的影响的情况。 假设学生分两类:在校和在职。把两类学生随机分成两组,分别采用课堂讲授和交互式教学方法,考试结果如下表。 可见课堂讲授的方式更适合于在校生,交互式教学方式更适合于在职生。在这种情况下我们说两个因素之间存在着交互作用。,双因素方差分析的类型和基本假设,双因素方差分析中因素A和B对结果的影响相互独立时称为无交互作用的双因素方差分析。 如果除了A和B对结果的单独影响外还存在交互作用,这时的双因素方差分析称为有交互作用的双因素方差分析 。 双因素方差分析中的基本假设是各个子总体都服从正态分布,有相同的方差,并且各个观测值之间相互独立(与单因素时相同)。,5.3.1无交互作用的双因素方差分析模型,在无交互作用的双因素方差分析模型中因变量的取值受四个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;以及误差项。写成模型的形式就是:,5.3.1无交互作用的双因素方差分析模型,离差平方和的分解:,无交互作用的双因素方差分析表,5.3.2 有交互作用的双因素方差分析模型,在有交互作用的双因素方差分析模型中因变量的取值受五个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;由因素A和因素B的交互作用导致的差异;以及误差项。写成模型的形式就是:,5.3.2 有交互作用的双因素方差分析模型,离差平方和的分解:,有交互作用的双因素方差分析表,5.3.3 双因素方差分析的步骤(1),双因素方差分析的步骤与单因素分析类似,主要包括以下步骤: 1.分析所研究数据能否满足方差分析要求的假设条件,需要的话进行必要的检验。如果假设条件不满足需要先对数据进行变换。,5.3.3 双因素方差分析的步骤(2),2、提出零假设和备择假设。双因素方差分析可以 同时检验两组或三组零假设和备择假设。 要说明因素A有无显著影响,就是检验如下假设: 要说明因素B有无显著影响,就是检验如下假设: 在有交互作用的双因素方差中,要说明两个因素的交互作用是否显著还要检验第三组零假设和备择假设:,5.3.3 双因素方差分析的步骤(3),3、计算F检验值。 4、根据实际值与临界值的比较,或者p-值与的比较得出检验结论。 与单因素方差分析的情况类似,对FA、FB和FAB,当F的计算值大于临界值F(或者p-值)时 拒绝零假设H0。,双因素方差分析:失业保险的例子(1),同时考虑奖金和年龄因素,二者对失业时间有显著影响吗?,双因素方差分析:失业保险的例子(2),1、同时考虑奖金水平和年龄因素时,每种实验条件 下的数据只有3个,不适合直接进行正态性和等方差 性检验。假设这些条件成立。 2、提出假设(有交互作用的方差分析模型 ): 对奖金因素: 对年龄因素: 对交互作用:,双因素方差分析:失业保险的例子(3),3、方差分析表(Excel) 4、结论: 在5%的显著性水平下奖金水平对就业时间影响显著; 年龄对就业时间有显著影响; 奖金水平与年龄的交互作用的影响不显著,小结 (1),1、方差分析(ANOVA),一般用来分析一个定量因变量与一个或几个定性自变量(因素)之间的关系,它可以对多个总体的均值是否相等进行整体检验。 2、根据研究所涉及的因素的多少,方差分析可分为单因素方差分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论