第七章方差分析.doc_第1页
第七章方差分析.doc_第2页
第七章方差分析.doc_第3页
第七章方差分析.doc_第4页
第七章方差分析.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学 第七章 方差分析目 录第七章 方差分析2第一节 方差分析概述3一、方差分析中的常用术语3二、方差分析的基本思想4三、方差分析的基本假定4第二节 单因素方差分析4一、单因素方差分析的数据结构4二、单因素方差分析的步骤5二、方差分析中的多重比较8第三节 双因素方差分析9一、双因素方差分析的种类9二、无交互作用的双因素方差分析9三、有交互作用的双因素方差分析13英文摘要与关键词17习 题17第七章 方差分析通过本章的学习,我们应该知道:1. 方差分析的基本思想与假定2. 如何做单因素方差分析3. 如何做双因素方差分析4. 会用Excel中有关方差分析的功能在第六章中我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是否相同,可以对零假设检验。但有时销售方式有很多种,如表7.1中列出了四种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。【例7.1】某公司采用四种方式推销其产品。为检验不同方式推销产品的效果,随机抽样得下表:表7.1 某公司产品销售方式所对应的销售量 序号销售方式12345水平均值方式一778681888383方式二959278968990方式三717668817474方式四808479708279总均值81.5例7.1中要研究的问题是这四个销售量的均值之间是否有显著差异,当然我们可以采用第六章的方法进行多次检验,但这显然工作效率低。方差分析(Analysis of Variance, ANOVA),是20世纪20年代由英国统计学家费雪(Ronald Aylmer Fisher)首先提出的,最初主要应用于生物和农业田间试验,以后推广到各个领域应用。它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性。第一节 方差分析概述一、方差分析中的常用术语1. 因素(Factor)因素是指所要研究的变量,它可能对因变量产生影响。在例7.1中,要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。本章介绍单因素方差分析和双因素方差,它们是方差分析中最常用的。2. 水平(Level)水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。3. 单元(Cell)单元指因素水平之间的组合。如销售方式一下有五种不同的销售业绩,就是五个单元。方差分析要求的方差齐性就是指的各个单元间的方差齐性。4. 元素(Element)元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。例7.1中各单元中只有一个元素。5. 均衡(Balance)如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。例7.1是均衡的。6. 交互作用(Interaction)如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。二、方差分析的基本思想要看不同推销方式的效果,其实就归结为一个检验问题,设为第i种推销方式i(i=1,2,3,4)的平均销售量,即检验原假设是否为真。从数值上观察,四个均值都不相等,方式二的销售量明显较大。然而,我们并不能简单地根据这种第一印象来否定原假设,而应该分析、之间差异的原因。从表7.1可以看到,20个数据各不相同,这种差异可能由两方面的原因引起的:一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动;这种由不同水平造成的差异,我们称为系统性差异;另一是随机因素的影响,同一种推销方式在不同的工作日销量也会不同,因为来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称为随机性差异。两个方面产生的差异用两个方差来计量:一是、之间的总体差异,即水平之间的方差,一是水平内部的方差。前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。如果不同的水平对结果没有影响,如推销方式对销售量不产生影响,那么在水平之间的方差中,也就仅仅有随机性差异,而没有系统性差异,它与水平内部方差就应该接近,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于水平内方差,两个方差的比值就会比1大,当这个比值大到某个程度时,即达到某临界点,我们就作出判断,不同的水平之间存在着显著性差异。因此,方差分析就是通过对水平之间的方差和水平内部的方差的比较,做出拒绝还是不能拒绝原假设的判断。三、方差分析的基本假定在方差分析中通常要有以下假定:首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证变异的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。1.对于每个总体都应服从正态分布,也就是说,对于因素的每一具水平,其观察值来自服从正态分布总体的简单随机样本;2.各个总体的方差必须相同,也就是说,对于各组观察数据,是从具有相同方差的总体中抽取的;3.观察值是独立的。在上述假设条件成立的情况下,数理统计证明,水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量,我们可以通过对这个统计量的检验做出拒绝或不能拒绝原假设的决策。F = 水平间方差 / 水平内方差 = 组间方差 / 组内方差第二节 单因素方差分析一、单因素方差分析的数据结构在单因素方差分析中,若因素A共有r个水平,对均衡试验而言,每个水平的样本容量为k,则共有kr个观察值,如表7.2所示。对不均衡试验,各水平中的样本容量可以是不同的,设第个样本的容量是,则观测值的总个数为。表7.2 单因素方差分析的数据结构 观测值水平12因素A水平1水平2水平r二、单因素方差分析的步骤(一)单因素方差模型与建立假设方差分析最初是针对试验设计的试验结果的分析而提出的。设在某试验中,因素A有个水平,在水平下的试验结果服从,这里相互独立。在水平下做了次试验,得到个观测结果,它们可以看作是来自的一个容量为的样本。因为,所以可得单因素方差分析模型如下: (7.1)其中随机误差相互独立,都服从分布。要检验的假设是不全相等。以表示这个总体均值的平均值,即称为一般水平或平均水平,令称为因素的第个水平的效应,由第四章算术平均数的性质易得。把原参数变换成新参数后,单因素方差分析模型则变为: (7.2)其中表示水平的第j个观察值。上述要检验的假设则等价于不全为0。 对于例7.1要比较四种推销方式对应的销售量是否存在差异,那么第一种推销方式中的某个观察值就等于该种方式的平均水平再加上一个随机误差。如果四种方式总体均值都相同,则它就等于总体均值再加上一个随机误差,实际上就变成了同一个变量分布中的某一点。所以原假设和备择假设是:,即推销方式对销售量影响不显著;不全等,即推销方式对销售量有显著影响。(二)构造检验F统计量1. 水平的均值我们令为第i(或)水平的样本均值,则(7.3)当各水平的的观察值个数均相等的时候,公式(7.3)变为: (7.4)2. 全部观察值的总均值我们令为全部观察值的总均值,则 (7.5)当各水平的的观察值个数均相等的时候,公式(7.5)变为: (7.6)对例7.1而言,各都相等,即k=5。计算结果见表7.1。3. 离差平方和在单因素方差分析中,离差平方和有三个:(1)总离差平方和(Sum of Squares for Total,简称SST),计算公式为: (7.7)总离差平方和反映全部观察值的离散状况,是全部观察值与总平均值的离差平方和。(2)误差项离差平方和(Sum of Squares for Error,简称SSE),计算公式为: (7.8)误差项离差平方和又称为组内离差平方和,它反映了水平内部观察值的离散情况,即随机因素产生的影响。(3)水平项离差平方和(Sum of Squares for Factor A,简称SSA)。计算公式为: (7.9)水平项离差平方和又称组间离差平方和,是各组平均值与总平均值的离差平方和。它既包括随机误差,也包括系统误差。由于各样本的独立性,使得变差具有可分解性,即总离差平方和等于误差项离差平方和加上水平项离差平方和,用公式表达为:SST = SSE + SSA (7.10)对例7.1而言,计算结果见表7.3。表7.3 单因素方差分析计算表(1)序号方式一方式二方式三方式四177957180286927684381786879488968170583897482总均值水平均值8390747981.5合计总离差平方85.25571.25379.25147.251183误差项离差平方7421098116498水平项离差平方11.25361.25281.2531.256854. 均方和(Mean Square) 各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方和。计算方法是用离差平方和除以相应的自由度df,见表7.4所示,表中。表7.4 方差分析表方差来源离差平方和SSdf均方和MSF组间SSAr-1MSA = SSA /(r-1)MSA/MSE组内SSEn-rMSE = SSE /(n-r)总方差SSTn-1学生:什么叫“自由度”?教师:自由度,英文是Degrees of Freedom,简称df,我们可能把它理解为一个表达式中可以自由变动的变量个数。举个例子,如:a+b+c=0中,如果a、b自由取值,要使约束条件成立,c就不能自由取值,它必须满足c=-(b+c),所以a+b+c=0的自由度为2。我们再看SSE,对每一种水平而言,其观察值个数为,在其计算过程中,必须满足这样一个条件,故该种水平下的自由度为,总共有r个水平,因此拥有的自由度个数为。5. 构造检验统计量FF= 组间方差 / 组内方差= MSA / MSE (7.11)对例7.1而言,计算结果见表7.5。表7.5 单因素方差分析计算表(2)方差来源离差平方和SSdf均方和MSF组间6853228.33337.3360组内4981631.125总方差118319(三)判断与结论在假设条件成立时,F统计量服从第一自由度为、第二自由度为的 F分布(F分布表见附表五)。将统计量F与给定的显著性水平的临界值比较,可以作出拒绝或不能拒绝原假设的判断,见图7.1。图7.1 F检验示意图若F,则拒绝原假设,表明均值之间的差异显著,因素A对观察值有显著影响;若F,故应拒绝原假设,推销方式对销售量有影响。教师:方差分析的计算比较烦,特别是在不均衡的情况下,不过如果我们学会用Excel中的方差分析功能,就可以轻而易举地得到方差分析表。Excel解决方案 将数据输入工作表中 选择菜单“工具”“数据分析”,打开“数据分析”对话框 选择其中的“方差分析:单因素方差分析”,打开对话框,见图7.2 正确填写相关信息后,点“确定”,结果在H1到N16这个区域内显示,见图7.3根据数据的情况选择行或列填入显著性水平输入时若选行标题,则选择 图7.2 “方差分析:单因素方差分析”分析工具对话框图7.3 “方差分析:单因素方差分析”结果截图学生:哦!这好,可以有两个判断方法。一是用F与F crit比较,FF crit,则拒绝原假设;二是用P-value与比较,如果P-value,则拒绝原假设。异曲同工!二、方差分析中的多重比较方差分析可以对多个均值是否相等进行检验,这是其长处。当拒绝时,表示各均值不全等,但具体哪一个或哪几个均值与其他均值显著不同,或者哪几个均值仍然可能认为是相等的,方差分析就不能给我们答案了,如果要进一步分析,可以采用多重比较的方法。多重比较是通过对总体均值之间的两两比较来进一步检验到底哪些均值之间存在差异,总共要作次比较。 多重比较方法有十几种,但以Fisher提出的最小显著差异方法(least significant difference,简写为LSD)使用最多,该方法可用于判断到底哪些均值之间有差异。LSD方法是对检验两个总体均值是否相等的t检验方法,它来源于我们第六章公式: 多重比较的步骤:1. 提出假设: (第i个总体的均值等于第j个总体的均值): (第i个总体的均值不等于第j个总体的均值)2. 计算检验统计量:公式(6.4)中的是根据两个总体的样本资料计算的,对这里的多个总体进行比较时需要用MSE。于是统计量改造为: (7.12)当时,服从。因此,采用检验。3. 判断: 若,拒绝;若|,不能拒绝。对例7.1而言,若假定为0.05,查表得,其他计算借助Excel工作表,结果见图7.4。图7.4 多重比较结果截图第三节 双因素方差分析一、双因素方差分析的种类在现实中,常常会遇到两个因素同时影响结果的情况。这就需要检验究竟一个因素起作用,还是两个因素都起作用,或者两个因素的影响都不显著。双因素方差分析有两种类型:一种是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一种是有交互作用的方差分析,它假定A、B两个因素不是独立的,而是相互起作用的,两个因素同时起作用的结果不是两个因素分别作用的简单相加,两者的结合会产生一个新的效应。这种效应的最典型的例子是,耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就存在交互作用。两个因素结合后就会产生出一个新的效应,属于有交互作用的方差分析问题。二、无交互作用的双因素方差分析(一)数据结构设两个因素分别是A和B。因素A共有个水平,因素B共有个水平,无交互作用的双因素方差分析的数据结构如表7.6所示。表7.6 无交互作用双因素方差分析的数据结构 因 素 B均值因素A 均值(二)分析步骤1. 模型与假设在水平下的试验结果服从,这些试验结果相互独立。与单因素方差分析模型相类似,令称为一般水平或平均水平,称为因素在第个水平下的效应,称为因素在第个水平下的效应,显然有,。若,则称这种方差分析模型为无交互作用的双方差分析模型,此时只需对的每种组合各做一次试验,观测值记为。把原参数变换成新参数和后,无交互作用的双因素方差分析模型则为 (7.13)其中随机误差相互独立,都服从分布。对这个模型要检验的假设有两个:对因素A:;不全相等对因素B:;不全相等我们检验因素A是否起作用实际上就是检验各个是否均为0,如都为0,则因素A所对应的各组总体均数都相等,即因素A的作用不显著;对因素B,也是这样。因此上述假设等价于对因素A:不全为0 对因素B:不全为0。2. 构造检验统计量(1)水平的均值 (7.14) (7.15)(2)总均值 (7.16)(3)离差平方和的分解双因素方差分析同样要对总离差平方和SST进行分解,SST分解为三部分:SSA、SSB和SSE,以分别反映因素A的组间差异、因素B的组间差异和随机误差(即组内差异)的离散状况。它们的计算公式分别为: (7.17) (7.18) (7.19) (7.20)(4)构造检验统计量由离差平方和与自由度可以计算出均方和,从而计算出F检验值,如表7.7表7.7 无交互作用的双方差分析表方差来源离差平方和SSdf均方和MSF因素ASSAr-1MSA = SSA /(r-1)MSA/MSE因素BSSBs-1MSB = SSB /(s-1)MSB/MSE误差SSE(r-1)(s-1)MSE= SSE /(r-1)(s-1)总方差SSTrs-1为检验因素A的影响是否显著,采用下面的统计量: (7.21)为检验因素B的影响是否显著,采用下面的统计量: (7.22)3. 判断与结论根据给定的显著性水平在F分布表中查找相应的临界值,将统计量F与进行比较,作出拒绝或不能拒绝原假设的决策。若,则拒绝原假设,表明均值之间有显著差异,即因素A对观察值有显著影响;若,则不能拒绝原假设,表明均值之间的差异不显著,即因素A对观察值没有显著影响;若,则拒绝原假设,表明均值之间有显著差异,即因素B对观察值有显著影响。 若 ,拒绝原假设,即销售方式对销售量有影响; 或 P-value=0.0043 或 P-value=0.0000 或 P-value=0.00080.05拒绝原假设,即材料与温度的交互对输出电压的影响显著。英文摘要与关键词When the numerical measurements across three or more groups are continuous and certain assumptions are met, a methodology known as analysis of variance (ANOVA) may be employed to compare the means of the groups. The null hypothesis is not different in the population means. In a sense, the term ANOVA appears to be misnomer because the objective is to analyze differences among the group means. However, through an analysis of the variation in the data, both among and within variations, we are able to draw conclusions about possible differences in group means. “Within group” variation is considered an experimental error, while “among group” variation is attributable to treatment effects.To perform an ANOVA test of equality of population means we subdivide the total variation in the measurements into two parts, that which is attributable to differences among the groups and that which is due to inherent variation within the groups. The total variation is usually represented by the sum of squares total (SST). The among-group variation usually called the sum of squares among groups (SSA), is measured by the sum of squared differences between the sample mean of each group and the overall mean, and then weighted by the sample size in each group. The within-group variation, usually called the sum of squares within groups, measures the difference between each observation and the mean of its own group and cumulates the squares of these differences over all groups. This variation only includes random error, so it called SSE for short.If each of these sums of squares is divided by its associated degrees of freedom, we obtain three variance or mean square terms: MST, MSA and MSE. We compute the test statistic F as the ratio of the variance of MSA to MSE. The results of an analysis of variance are usually displayed in an ANOVA summary table. Excel and many statistical software packages can give us that table. The entries in this table include the sources of variation, the degrees of freedom, the sums of squares, the mean squares, the calculated F statistic and the p-value. This allows us to make direct conclusions about the null hypothesis without referring to a table of critical values of the F distribution. If the p-value is less than the chosen level of significance, the null hypothesis is rejected.We can also consider an experimental design model in which two factors are of interest as well as the effects of their interaction. Owing to the complexity of the calculations involved, particularly because the number of levels of each factor increases and the number of replications in each cell increases, we assume that in practice, Excel will be used when analyzing data obtained from factorial design models. Key Words: Analysis of Variance (ANOVA), the sum of squares total, the among-group variation, the within-group variation, F statistic, two-way ANOVA, interaction effects习 题一、单项选择题1某饮料生产企业研制了一种新型饮料,饮料有五种颜色。如果要考察颜色是否会影响销售量,则水平为()。A2 B3 C4 D52下列指标中包含有系统性误差的是()。ASSA BSSE C D3SST的自由度是()。Ar-1 Bn-r Cr-n Dn-14单因素方差分析的备择假设应该是()。A B不全相等C全不相等 D 5如果要拒绝原假设,则下列式子()必须成立。A BP-value6对双因素方差分析(无交互作用),下列命题哪个是错的()。ASST=SSA+SSB+SSE BSSB的自由度是s-1 CF临界值只有一个 D必须对两个因素分别决策7如果要比较3种化肥(A、B两种新型化肥和传统化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论