第13章方差分析.ppt_第1页
第13章方差分析.ppt_第2页
第13章方差分析.ppt_第3页
第13章方差分析.ppt_第4页
第13章方差分析.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第13章,方差分析,【例13-1】用6种不同机器制造某种橡皮制品,为了比较不同机器对橡皮制品张力的影响,从每部机器的制品中,随机抽取4个样品作张力检验,张力单位为kg/m2,其数据如下:,问题的提出,问:不同的机器生产的橡皮制品的张力有无影响?,基本内容,1. 方差分析的概念 2. 方差分析的基本思想和原理 3. 单因素方差分析的方法及应用 4. 双因素方差分析的方法及应用,第13章 方差分析,第1节 基本问题 第2节 单因素方差分析 第3节 双因素方差分析,4,第一节 方差分析的基本问题,一、方差分析的内容 二、方差分析的原理 三、F分布,一、方差分析的内容,(一)方差分析中的常用术语 1、

2、因素(Factor) 2、水平(Level) 3、元素(Element) 4、均衡(Balance) 5、交互作用(Interaction) (二)用方差分析来检验假设有三个假定,1、因素(Factor),因素是指所要研究的变量,它可能对因变量产生影响。一个是因素,因素是一个独立的变量,是方差分析研究的对象。要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。,2、水平(Level),因素中的内容称为水平。水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。,3、元素(Element),元素指

3、用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。,4、均衡(Balance),如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。,5、交互作用(Interaction),如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。,若方差分析只针对一个因素进行,称为单因素方

4、差分析。如果同时针对多个因素进行,称为多因素分析。在多因素方差分析中,双因素方差分析里最常见的。,(二)用方差分析来检验假设有三个假定,1、各个水平的观察数据必须服从正态分布:在水平i下的数据是来自正态总体的一个样本,i=1,2,r。 2、方差相同或者叫方差齐性:r个正态总体的方差相等,即。 3、随机性:所有数据都相互独立。,方差分析中的基本假定,在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等 如果四个总体的均值相等,可以期望四个样本的均值也会很接近 四个样本的均值越接近,推断四个总体均值相等的证据也就越充分 样本均值越不同,推断总体

5、均值不同的证据就越充分,方差分析中基本假定, 如果原假设成立,即H0: m1 = m2 = m3 = m4 四个行业被投诉次数的均值都相等 意味着每个样本都来自均值为、差为2的同一正态总体,X,f(X),1 2 3 4,方差分析中基本假定,若备择假设成立,即H1: mi (i=1,2,3,4)不全相等 至少有一个总体的均值是不同的 四个样本分别来自均值不同的四个正态总体,二、方差分析的原理,方差分析的目的是要检验各个水平的均值1,2r 是否相等,实现这个目的的手段是通过方差的比较。 如果n个总体的均值相等,希望三个样本的均值比较接近,事实上,n个样本的均值愈接近,就愈有证据得出结论:总体均值相

6、等,反之,若n个样本均值的差异愈大,就得出结论,总体均值不相等。 样本均值变动性小支持H0,样本均值变动性大支持H1。,三、F分布,水平间方差(组间方差)和水平内方差(组内方差)之比是一个统计量,数理统计证明,这个统计量服从F分布。 F=,方差分析的基本问题,1 方差分析概念 2 方差分析中的统计思想 3 方差分析中的假定,19,11 方差分析概念,方差分析 方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。,20,1 方差分析概念,【例13.1】某饮料生产企业研

7、制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉分、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市收集了前一时期该饮料的销售情况,如表91所示。试分析饮料的颜色是否对销售量产生影响。 表131 不同颜色饮料在五家超市的销售情况 单位:箱,21,1 方差分析概念,解题思路: 要判断“颜色”对“销量”是否有显著影响,实际上就是要分析四种颜色之间销量是否有显著差异,最终被归结为检验这四种颜色饮料销量的均值是否相等。 如果它们的均值相等,即四种不同颜色饮料之间的销售量没有显著差异,就意味着“颜色”对销售量没有显著影响

8、;反之,如果它们的均值不全相等,则意味着“颜色”对销售量是有显著影响。,22,11 方差分析概念,因素(因子) 在方差分析中,被检验是否有影响作用的对象称为因素或因子。 水平(处理) 因素的不同表现称为水平或处理。 观测值 每个因子水平下得到的样本数据称为观测值。,23,12 方差分析中的统计思想,1两类误差 方差分析名称来源 方差分析两类误差(从误差来源的角度) 随机误差 系统误差 方差分析两类误差(从总误差分解的角度) 组内误差 组间误差 通常数据误差分解是从总误差分解的角度来研究的。,24,2 方差分析中的统计思想,总平方和 如果用平方和表示数据的误差,那么反映全部数据误差大小的平方和称

9、为总平方和,记为SST。 误差平方 反映组内误差大小的平方和称为组内平方和,也称为误差平方和或残差平方和,记为SSE。 因素平方和 反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。,25,2 方差分析中的统计思想,数据误差分解过程如图131所示。,26,图131 误差分解示意图,2 方差分析中的统计思想,2误差分析 组间均方、组内均方 组间误差、组内误差经过平均后的数值分别称为组间均方、 组内均方。 因素(自变量)与因变量的关系判定 如果因素(自变量)对因变量没有影响,那么在组间误差中只包含随机误差,而没有系统误差,这时组间均方与组内均方之比就会接近1; 如果因素(自变量

10、)对因变量有影响,则组间误差中除包含随机误差外,还会包含系统误差,这时组间均方就会大于组内均方,二者的比值就会大于1。当比值大至某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。,27,3 方差分析中的假定,方差分析三个假定 1. 每个总体都应服从正态分布 2. 每个总体的方差相等 3. 观测值彼此独立,28,第2节 单因素方差分析,21数据结构 22 分析步骤 23 计算机实现结果,29,21数据结构,首先引入单因素方差分析的数据结构问题。进行单因素方差分析时,所要求的数据结构形如下表132: 表132 单因素方差分析的数据结构,30,22 分析步骤,单因素

11、方差分析的步骤 1提出假设,即设立原假设与备择假设 2构造检验统计量及确定分布 3依据样本信息汁算该检验统计量的实际值 4设定检验的显著性水平 并确定临界值 5比较理论值(临界值)与实际值大小,进行决策,31,22 分析步骤,1提出假设,即设立原假设与备择假设 各因子水平下因变量的均值相等(因子影响作用不显著) 不全相等 各因子水平下因变量均值不全相等(因子的影响作用显著) 其中, 为因素第 i个水平下的总体均值。,32,22 分析步骤,2构造检验统计量及确定分布 总平方和.反映全部数据误差大小的平方和称为总平方和,记为SST。 组间平方和 反映组间误差大小的平方和称为组间平方和,也称为因素平

12、方和,记为SSA. 组内平方和 反映组内误差大小的平方和称为组内平方和,也称为误差平方和或残差平方和,记为SSE。,33,22 分析步骤,下式可以用于验证计算的正确性: 自由度 SST的自由度为n-1; SSA的自由度为r-1; SSE的自由度为n-r。 n=rm为总观测值个数 r 为因素水平数 m为每个水平下的观测值个数,34,22 分析步骤,组间均方MSA计算公式 组内均方MSE计算公式,35,22 分析步骤,F 统计量 将MSA与MSE进行对比,得到的比值即为需要的检验统计量F统计量。 当原假设 为真时,该比值服从分子自由度为r-1、分母自由度为 n-r的F分布,即,36,22 分析步骤

13、,3依据样本信息计算该检验统计量的实际值 (1)计算各个因素水平下的样本均值 (2)计算所有因素水平下全部样本的总均值 (3)计算误差平方和 (4)计算组间均方和组内均方及检验统计量的样本值,37,22 分析步骤,(1)计算各个因素水平下的样本均值 ( ) (2)计算所有因素水平下全部样本的总均值 ( ) 其中: 表示第i个水平下的第j个样本观测值; m为该水平下的样本观测值个数; r为所有因素水平个数,且 。,38,22 分析步骤,(3)计算误差平方和,39,22 分析步骤,(4)计算组间均方和组内均方及检验统计量的样本值,40,22 分析步骤,4设定检验的显著性水平 并确定临界值 根据事先

14、设定的显著性水平 ,在F分布表中查找分子自由度为 、分母自由度为 所对应的临界值 。 5比较理论值(临界值)与实际值大小,进行决策 通过比较检验统计量的样本值和理论值(临界值)的大小判断原假设的拒绝情况。 具体判断原则为: 如果 ,则拒绝原假设; 如果 ,则不能拒绝原假设。,41,22 分析步骤,这个分析步骤可以用表格133表示,通常称该表格为方差分析表,具体格式如下: 表133 单因素方差分析表的一般格式,42,22 分析步骤,【例132】某新品药进入效果测试阶段,测试人员希望了解该药品在不同年龄段人群身上的药效是否相同,因该药对骨骼生长发育具有强烈抑制作用,故未成年人不在试验范围内,因而将

15、试药人群分为2130、3140、4150和51 60四个年龄段,每个年龄段有10名受试者,在其他各项条件都相同情况下开展试验。试验开始后,分别测量每个受试者某项身体指标值,数据见表134。 根据上面的实验数据,请分析该新药在不同年龄段人群的药效是否相同,即年龄是否影响该药品效果的一个因素?( ),43,22 分析步骤,表134 新品药效果试验数据,44,22 分析步骤,解:首先,根据题意设定原假设与备择假设: 不全相等 接下来,依据样本数据信息计算检验统计量的实际值: 已知: , , 。 (1)计算各个因素水平下的样本均值,45,22 分析步骤,(2)计算所有因素水平下全部样本的总均值 (3)

16、计算误差平方和 显然有:,46,22 分析步骤,(4)计算组间均方和组内均方及检验统计量的样本值 根据事先设定的显著性水平 ,在F分布表中查找分子自由度为 、分母自由度为 所对应的临界值 在 之间,显然, ,因此拒绝原假设,即 不成立,表明该新药在各个不同年龄段水平下的药效存在显著差异,即年龄是影响该新药药效的一个显著因素。,47,23 计算机操作,目前很多统计软件都可以进单因素方差分析的数据分析,在SPSS统计软件中有专门的模块程序One-Way ANOVA进行单因素方差分析。 以例13-2为例,运行该模块后,SPSS会自动分解误差平方和,给出组间方差、组内方差、 统计量及相对应的概率 值等

17、一些分析结果,输出结果如表135所示。 表135 单因素方差分析表(ANOVA),48,第3节 双因素方差分析,31数据结构 32 分析步骤 33 计算机操作方法,49,31数据结构,在无交互作用的双因素方差分析中,获取数据时,往往将两个因素分别作为试验数据表的行因素和列因素。 假如要考虑A因素和B因素对考察对象的影响作用,设试验中,A因素有r个水平,B因素有k个水平,则进行双因素方差分析的试验数据表结构应形如表136。,50,表13-6双因素方差分析的数据结构,32 分析步骤,双因素方差分析的步骤 1提出原假设与备择假设 2构造检验统计量及确定分布 3依据样本信息汁算该检验统计量的实际值 4

18、设定检验的显著性水平 并确定临界值 5比较理论值(临界值)与实际值大小,进行决策,51,32 分析步骤,1提出原假设与备择假设 对行因素提出的原假设应为: 不全相等 其中, 为行因素第i 个水平下的总体均值。 对列因素提出的原假设应为: 不全相等 其中, 为列因素第 j 个水平下的总体均值。,52,32 分析步骤,2构造检验统计量及确定分布 SST是全部样本观察值 ( ; )与 总的样本均值 的误差平方和,用公式表示为: 其中, 表示行因素第i个水平下的样本均值; 表示列因素第j个水平下的样本均值; 表示所有样本的均值。,53,32 分析步骤,总误差平方和的分解部分 1. 行因素角度SSR:

19、2. 列因素角度SSC: 3. 随机因素影响造成的误差平方和SSE: 用于验证的关系: 各平方和的自由度 SST的自由度为n-1; SSR的自由度为r-1; SSC的自由度为k-1; SSE的自由度为(r-1)*(k-1)。 其中,n=rk为总观测值个数,r为行因素水平数,k为列因素水平数。,54,32 分析步骤,各均方计算公式 行因素的均方: 行因素的均方: 随机误差项的均方: 构造行因素和列因素检验统计量F统计量 检验行因素的统计量: 检验列因素的统计量:,55,32 分析步骤,3依据样本信息汁算该检验统计量的实际值 (1)分别计算行因素、列因素各个水平下的样本均值 (2)计算所有因素水平

20、下全部样本的总均值 (3)计算误差平方和 (4)计算行因素、列因素检验统计量的样本值,56,32 分析步骤,4设定检验的显著性水平 并确定临界值 根据事先设定的显著性水平 ,在F分布表中查找行因素、列因素统计量相对应的临界值 、 。 5比较理论值(临界值)与实际值大小,进行决策 分别比较行、列因素检验统计量的样本值与其相对应的理论值(临界值)大小,判断原假设的拒绝情况,进行决策。,57,32 分析步骤,双因素方差分析的步骤可以用表格137表示,该表也称为方差分析表,具体格式如下: 表137 双因素方差分析表的一般格式,58,32 分析步骤,【例13-3】某品牌饮料生厂商要分析饮料颜色和销售地区

21、对该饮料销售量的影响作用,分别将该品牌的饮料调制成四种颜色后,在五个地区进行销售,通过一周的销售试验,得到以下数据(表138):请在置信度 的水平下,分析饮料颜色和地区这两个因素对于销售量是否有显著影响? 表138 饮料销售试验数据,59,32 分析步骤,解:根据题意: , , , 对行、列因素分别建立假设: 行因素: 列因素:,60,32 分析步骤,依据样本数据信息计算检验统计量的实际值: (1)计算各个因素水平下的样本均值,用表格形式表示为: 注:右下角的灰色底纹单元格内表示全部样本观测值的均值,即 。,61,32 分析步骤,(2)计算各项误差平方和 (3)计算各均方及检验统计量的样本值,62,32 分析步骤,(4)行因素和列因素的检验统计量样本值 根据事先设定的显著性水平 ,在 F分布表中分别查找对应的临界值 , , 显然, ,因此拒绝行因素的原假设,即 不成立,说明饮料的颜色是影响饮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论