




免费预览已结束,剩余16页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 七 章 方差分析第一节 方差分析的基本原理方差分析(Analysis of variance,简称ANOVA)是对多个总体均值是否相等这一假设进行检验的一种方法。一、方差分析的内容1实例例 某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表71。新型饮料在五家超市的销售情况表表71 单位:百箱超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8问饮料的颜色对销售量是否产生影响。解:从表71中看到20个数据各不相同,什么原因使其不同呢?2产生的原因是销售地点的影响;是饮料颜色的影响。A有可能是抽样的随机性造成的;B有可能是由于人们对不同颜色有所偏爱。可以将上述问题就归结为一个检验问题检验饮料颜色对销售量是否有影响,即要检验各个水平的均值是否相等。二、方差分析的原理1基本概念因素:一个独立的变量就称为一个因素。如,颜色水平:将因素中不同的现象称为水平。(每一水平也称为一组)单因素方差分析:方差分析只针对一个因素进行。多因素方差分析:同时针对多个因素进行分析。观察值之间的差异产生来自于两个方面:是由因素中的不同水平造成系统性差异的;是由于抽选样本的随机性产生的差异。方差分析数据结构表7-2 观察值因素(A)ji水平1 水平2 水平k12njX11 X12 X1kX21 X22 X2k Xn11 Xn22 Xnkk在一元情形下假设:,i=1,2nj ,j=1,2,k,为来自总体的随机样本。如果假设也可表达为 其中是第j个水平的偏差。如果各水平下均值相等,则可以表述为: 对于第j个因素有其中为独立同分布随机变量。对于观察值则有将式两端减去然后平方,得等式两边求和,有也即如上例可以建立如下的假设:; 不全相等。总体均值是否相等我们无从知道,但是可以通过样本均值是否有显著差异来检验总体均值是否相等。因为如果为真时,则可以期望也会很接近。如果很 “近”,则推断总体均值相等的证据就很充分,就会接受。否则,当相距很“远”时,就会认为总体均值相等的证据不充分,从而拒绝,接受。如图71、2所示3 1 2 4图71 不同总体的情况1=2 =3 =4图72 相同总体的情况样本均值之间距离的所谓 “远、近”是相对的,是通过假定的共同方差的两个点估计值比较得出的。的第一个点估计是用各个样本方差如估计得到的。由每个样本方差估计的得出的值,只与每个样本内部的方差有关,反映各水平内部随机性的变动,因而被称为组内方差。的第二个估计值是在为真的前提下,由均值抽样平均误差计算得到的。因为当假设成立后,根据中心极限定理可知,都将服从均值为,方差为的抽样分布。由,可得,而的估计量可以由及三者估计的值求得,即这样即得到的估计值。这样得到的方差值包含了两部分的变动,一是各水平内部的随机性变动,二是各水平之间的变动。这样估计得到的方差被称为组间方差。将组间方差与组内方差相比可以得到一个统计量。可以证明该统计量服从F分布。即, ( 7.1)差异来源系统性差异(水平之间)随机性产生的差异(数据之间)影响因素系统性因素随机性因素随机性因素差异大小水平之间的方差水平内部的方差判别方法方差之比2方差分析的假定:各数据(样本)(间隔或比例尺度)相互独立;各水平数据(总体)方差相等;(方差相等)各水平数据(总体)均是正态总体。第二节 单因素方差分析一、单因素方差分析的步骤由假定可知,不同水平下X的概率分布服从正态分布,并且有相同方差。因此,水平间的差异必然体现在各水平均值的差异上。作为单因素的方差分析,其目标是检验水平值是否相等。方差分析按其过程分为以下几步:1建立假设 以饮料颜色对销售量的影响为例,针对问题提出原假设和备择假设。 颜色对销售量没有影响 不全相等 颜色对销售量有影响2计算水平均值 令表示第种水平的样本均值,则 (7.2)式中,为第种水平下的第个观察值; j=1,2,k ; i=1,2, 为第种水平的观察值个数。 结合表71中的数据,将计算结果列入表72中四种颜色饮料销售量及均值表73 单位:百箱观察值水 平合计1 2 3 4无色 粉色 橘黄色 绿色1234526.5 31.2 27.9 30.8 28.7 28.3 25.1 29.625.1 30.8 28.5 32.429.1 27.9 24.3 31.727.2 29.6 26.5 32.8 合计136.6 47.8 132.2 157.3573.9水平均值观察值个数总均值 表72中,计算总均值的一般表达式为: (7.3)式中 3计算离差平方和总离差平方和用SST(Sum of Squares for Total)代表,则 (7.4) 它反映了离差平方和的总体情况 由表7-2中已知,由(7.4)式可以计算出: = 115.04误差项离差平方和用SSE(Sum of Squares for Error)代表,其计算公式为: (7.5) SSE反映的是水平内部,或组内观察值的离散状况。实质上反映了随机因素带来的影响。在表7-2的例子中,对于水平1(即第一组),有 类似地,可以对其它三个组进行计算: (31.229.56)2 + (29.629.56)2 =8.572 (27.926.44)2 + (26.526.44)2 =13.192 (30.831.46)2 + (32.831.46)2 =6.632从而得到SEE=10.688+8.572+13.192+6.632 =38.644水平项离差平方和为了后面叙述方便,把单因素方差分析中的因素称为A。于是水平项离差平方可以用SSA(Sum of Squares for factor A)表示SSA的计算公式为: (7.6) 用各组均值减去总均值的离差的平方,乘以各组观察值个数,然后加总,即可得到SSA。可以看出,它所表现的是组间差异,其中即包括随机因素,也包括系统因素。 SST,SSE,SSA之间存在着一定的联系。这种联系表现在:SST = SSE + SSA (7.7) 在上面例子中,已计算出SST=115.04,SSE=38.644,故 SSA = SSTSSE = 115.0438.644 = 76.396 4计算平均平方(均方MS)用离差平方和除以自由度即可得到平均平方(Mean square)。对SST来说,其自由度为n-1,因为它只有一个约束条件,即 对SSA来说,其自由度为k-1,这里k表示水平的个数。SSA反映的是组间的差异,它也有一个约束条件,即要求 对SSE来说,其自由度为n-k,因为对每一种水平而言,其观察值个数为,该种水平下的自由度为,总共有k个水平,因此拥有的自由度个数为: 。自由度也存在着如(7.7)式中的关系: 对于SSA,其平均平方MSA为: (7.8) 对于SSE,其平均平方MSE为: (7.9) 在上例中:5方差分析表 由(7.1)式,知F值的计算为: 在本例中: 通常把前面一系列的有关计算结果列成表格的形式,称为方差分析表,见表7-3。方差分析表表7-4方差来源离差平方和SS自由度df平均平方MSF值组间组内总差异SSASSESSTk1nkn1MSAMSEMSA / MSE 使用计算机进行方差分析,其输出结果的构造与表7-3类似。ANOVA销售量Sum of SquaresdfMean SquareFSig.Between Groups76.396325.46510.544.000Within Groups38.644162.415Total115.040196统计决策 方差分析的最后一步是进行统计决策,即利用样本统计量对假设问题做出判断。 假设: 颜色对销售量没有影响 不全相等 颜色对销售量有影响 由前已知,计算出的F值为F=10.486。若=0.05,查表知:由于,故拒绝原假设,接受备择假设。即通过检验知,不全相等,说明饮料的颜色对销售量有显著影响,见图7-4。接受域 拒绝域3.24图7-4 F检验示意图它表明,在图7-4中,横轴F=10.4862的右侧,F曲线下的面积仅有0.0466%。二、单因素方差分析中的其他问题1进行方差分析所需要得到的数据如表7-4的结构。可以把方差分析的因素放在列的位置,也可以放在行的位置,但通常放在列的位置。如表7-5所示;2 进行方差分析,各个水平下的样本容量可以相同,也可以不同。例7.2 某课程结束后,学生对该授课教师的教学质量进行评估,评估结果分为优、良、中、差四等。教师对学生考试成绩的评判和学生对教师的评估是分开进行的,他们都不知道对方给自己的打分。有一种说法,认为给教师评为优秀的这组学生的考试分数,可能会显著地高于那些认为教师工作仅是良、中或差的学生的分数。同时认为,对教师工作评价差的学生,其考试的平均分数可能最低。为对这种说法进行检验,从对评估的每一个等级组中,随机抽取出共26名学生。其课程分数见表95,试检验各组学生的分数是否有显著差别。()26名学生考试成绩表7-5 单位:分观察值i学生对教师评估等级优良中差123456789108577798492907380789473798691758164738092766876727085解:若各组学生的平均成绩之间没有显著差别,则表明学生对教师的评估结果与他们的成绩之间没有必然的联系。 H0:各组平均分数相等 H1:各组平均分数不全相等第三节 方差分析中的多重比较方差分析可以对若干平均值是否相等同时进行检验,看它们之间是否存在显著的区别。如果检验结果拒绝原假设,接受备择假设,仅仅表明接受检验的这几个均值不全相等。至于是哪一个或哪几个顽抗值与其他均值不等,前面所进行的分析并没有告诉答案。如果要对此问题进一步分析,就需要采用一些专门的方法。对于这类问题,通常被称为方差分析中的多重比较。 以例7.1中饮料的不同颜色对饮料销售是否有显著影响为例,前面曾计算出四种饮料销售量的均值分别为: 现在我们想知道如下问题: (1)是否显著地大于; (2)是否显著地大于; (3)是否显著地大于。 回答上述问题,可以采用不同的多重比较的方法。一 Fisher最小显著差异法(Least Significant Difference,简写为LSD法)在上一章假设检验中,我们曾讨论过两总体均值之差的检验问题,进行检验的统计量t的计算公式为: (7.16) 其自由度为。 式中是依据取自两个总体中的样本信息计算而得。当对多个总体进行比较里需要用方差分析中的MSE取代,因为MSE是基于k个水平中的所有样本观察值计算而得的。于是统计量t的计算为: (7.17)其自由度为,其中n为全部样本单位数。根据置信区间进行检验的原理,如果则认为与有显著差异,否则可以认为与没有显著差异。如果从各总体中抽取的样本数相同,即,则上式又可简化为: (7.18)在例7.1中,已知,并计算出MSE=2.4428,令,则故水平1和水平2的均值有显著差异,类似地归纳上述结果,我们可以作出如下统计结论:颜色2与颜色4的饮料销售量没有显著差异;颜色1与颜色3的饮料销售量没有显著差异;颜色2与颜色4的饮料销售量显著地高于颜色1和颜色3的销售量。二 q检验 q检验是进行多重比较的另一种方法,进行检验的过程为: 首先计算。 (7.19)式中为水平下的样本单位数,显然。 然后查值。q值的大小取决于三个因素:显著性水平,水平个数,以及MSE的自由度(需查表)。然后利用查到的和,计算出进行检验的临界值D。 进行判断的准则与最小显著性差异法类似,如果便认为与有显著差别,否则认为与没有显著差别。 仍以例9.1为例:已知MSE=2.4428,则又知,令 查表得:,于是 下面我们对不同颜色饮料的销售量之间是否存在显著性差异进行检验。利用前面已得到的结果: 进行归纳,得出的统计结论为: 颜色4的饮料销售显著地高于颜色1和颜色3的饮料销售量。 颜色2的饮料销售显著地高于颜色3的饮料销售量。与最小显著差异法中的相比,检验中的D=2.83,两种方法的统计结论有些差别。一般认为,q检验中的结果更为可靠。 从上式中可以看出,使用q检验时,要求各水平下的样本个数相同,即要求。如果情况不是这样,则需采用调和平均数的方法计算,即 (7.20)三、多重极差检验要求:各水平的样本容量相等方法:取样本均值的任何p个作为一个子集,将此子集的极差与检验统计量作比较,如果该子集的极差小于,则认为子集内的各样本均值是相等的,从而认为相应的总体均值也是相等的。如该子集的极差大于,则认为该子集中距离最远的两个样本均值是有显著差异的,从而其相应的总体均值也被认为是不同的。算法:首先将最大、最小两个样本均值加的极差与比较,然后比较与次最小的极差,在比较与第三小的极差,。依此类推,直到与次最大极差。接着从次最大与最小样本的极差开始比较,直到各样本均值间的关系都得到确定为止。检验统计量 :最小显著学生化级差。需查表,由和自由度决定。t检验F检验R检验多重比较方法的选择:1方差齐性时检验验证性研究宜采用 LSD方法;探索性研究,且各组数量相等宜采用 Tukey 方法;其他情况宜采用 Scheffe 方法。2方差非齐性时检验 四、方差齐性检验 包括Cochran 检验,以及Bartlett检验。最大F比检验, Test of Homogeneity of Variances销售量 Levene Statisticdf1df2Sig.255316.856Bartlett检验的假设:检验统计量 :其中:决策规则: 则拒绝假设。第三节 双因素方差分析一、双因素方差分析的类型 双因素方差分析有两种类型:一个是无交互作用的双因素方差分析(随机分组设计randomized block design),它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析(析因分析 factorial designs),它假定因素A和因素B的结合会产生出一种新的效应。二、无交互作用的两因素方差分析双因素方差分析的数据结构如表7-7所示。表7-7 双因素方差分析数据结构因 素 AA1 A2 Ak因素BB1B2BrX11X21Xr1X12X22Xr2Xr1Xr2Xrk 表7-7中,因素A位于列的位置,共有k个水平,代表第j种水平的样本平均数;因素B位于行的位置,共有r个水平,代表的第i种水平的样本平均数。为样本总平均数,样本容量n=rk。每一个观察值看作由A因素的k个水平和B因素的r个水平所组合成的rk个总体中抽取样本容量为1的独立随机样本。双因素方差分析的假定条件:rk个总体的每一个总体均服从正态分布;且有相同的方差;独立随机样本。 三、离差平方和的分解 与单因素方差分析类似,进行双因素方差分析,需要将总离差平方和SST进行分解。二者的区别在于,这里需要将总离差平方和分解为三个组成部分,即SSA,SSB和SSE,以分别反映因素A的组间差异、因素B的组间差异和随机误差SSE的离散状况。 它们的计算公式分别为: (7.10) (7.11) (7.12) (7.13) 与各个离差平方和相对应的自由度分别是:总离差平方和SST的自由度为 rk 1 = n-1;因素A的离差平方和SSA的自由度为 k-1;因素B的离差平方和的自由度为 r-1;随机误差SSE的自由度为( r-1 ) ( k -1 ) = nr k+1 由离差平方和与自由度可以计算出均方差。 对因素A而言: (7.14) 对因素B而言: (7.15) 对随机误差项而言: (7.16) 由此可以编制出双因素方差分析表。见表7-8。表7-8 双因素方差分析表误差来源离差平方和自由度均方差F值A因素B因素误 差合 计SSASSBSSESSTk1r1(r1)(k1)n1MBA = SSA/(k1)MSB = SSB/(r1)MSE = SSE/(r1)(k1)FA=MSA/MSEFB=MSB/MSE上表中,FA是因素A的F统计量,它是MSA和MSE的比值,可以看出,其计算过程与单因素方差分析中计算F的方式相同,FB是因素B的F统计量,它是MSB和MSE的比值,其计算方式与FA的计算方式类似。四、应用实例 下面通过一个例题,说明双因素方差分析的整个过程。例7.3某商品有五种不同的包装方式(因素A),在五个不同地区销售(因素B),现从每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售资料如表7-9.表7-9 某种商品不同地区不同包装的销售资料包装方式(A)A1 A2 A3 A4 A5销售地区(B)B1B2B3B4B520 12 20 10 1422 10 20 12 624 14 18 18 1016 4 8 6 1826 22 16 20 10 现欲检验包装方式和销售地区对该商品销售是否有显著性影响。 解:若五种包装方式的销售的均值相等,则表明不同的包装方式在销售上没有差别。 (1)建立假设 对因素A: 包装方式之间无差别 不全相等 包装方式之间有差别 对因素B: 地区之间无差别 不全相等 地区之间有差别(2)计算F值。由表7-9中数据计算得,因素A的列均值分别为: 因素B的行均值分别为: 总均值=15.04 于是有: 方差得: 因此 (3)统计决策因为 大于 ,小于所以,拒绝A因素的原假设,接受B因素的原假设。表710 双因素方差分析表差异源SSdfMSFPvalueFcrit行(因素B)列(因素A)误 差总 计199.36335.36346.24880.9644162449.8483.8421.642.3031423.8743070.1031950.0218863.0069173.006917 由表710知,对于因素A,因为故拒绝H0,接受H1,说明不同的包装方式对该商品的销售产生不同的影响。 对于因素B,因为故接受H0,说明不同地区之间在该商品的销售上没有显著的差异。三、有交互作用的两因素方差分析如果我们对两个因素要研究有交互作用的方差分析。这时称两因素为主影响因素;两因素的共同影响,称为交互影响因素。因此,在分析两因素的影响时,要考虑是否有交互影响而采取不同的方法。设有两个因素A和B,A有r个水平,B有c个水平。为了检验A与B交互作用的影响,在试验(观察)时,必须在A与B每个水平的交叉单元上,都要取得的数据。n为每个交叉单元中的数据个数,这里只介绍每个单元数据都相等的情况。数据结构如下,见表7-11。表7-11 , , , , , , , , , , , , , , , , , ,设表示A因素第个水平与B因素第个水平交叉单元的第个观察值。其中,。进行方差分析的假定是,且是独立的。在满足上述假定前提下,可以进行两因素的方差分析,建立假设如下:对于A因素(行因素): ;不全相等。对B因素(列因素): ;不全相等。对于AB交互因素: :不存在交互作用的影响; :存在相互作用的影响。下面给出进行方差分析时的计算公式:1各均值的计算公式 (7.21) (7.22) (7.23) (7.24)2各项离差平方和的计算公式 (7.25) (7.26) (7.27) (7.28) (7.29)可以证明: (7.30)3计算各项的均方 (7.31) (7.32) (7.33) (7.34)4构造F统计量对A、B及交互因素进行检验对于A因素: 对于B因素:对于AB交互因素:对于上述三个因素,如果给定义,当时,则可拒绝各自的,接受;如果,则接受各自的,拒绝。上述计算结果经常用方差分析形式表示。见表7-12。表7-12误差来源离差平方和(SS)自由度均方值因素A因素B交互作用误 差总 计SSASSBSSABSSESSTr1c1(c-1)(r-1)rc(n-1)rcn1例7.3 如果人事部门想同时研究奖励制度和领导人类型两个因素对员工生产力的影响,则需要调查更多的数据。表7-13,给出了每个水平交叉单元都包含三个数据的调查资料。试检验各因素对员工生产力的影响是否一致?表7-13奖励制度领导人类型1231235,4,29,9,74,6,44,3,32,3,54,3,58,9,94,4,66,4,3解:设A因素代表领导人类型,Ai表示第i个水平,i=1,2,3;B因素代表奖励类型,Bj表示第j个水平,j=1,2,3;k代表每个交叉单元的样本数,k=3,根据题意假设如下,对于A因素: :领导人类型对员工生产力影响无差异; :
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 哈尔滨商业大学《概率论与数理统计(三)》2024-2025学年第一学期期末试卷
- 2025年特岗教师招聘面试技巧与常见问题解答初中美术
- 南宁师范大学师园学院《审计学专题》2024-2025学年第一学期期末试卷
- 2025年特岗教师招聘考试历史学科考前模拟试题集
- 幼儿挫折教育的现状及对策研究 -以成都市A园为例
- 遂宁能源职业学院《节事活动策划》2024-2025学年第一学期期末试卷
- 患者身份识别制度考核试卷
- 湖南劳动人事职业学院《足球教学与训练Ⅰ》2024-2025学年第一学期期末试卷
- 铜陵职业技术学院《学前教育质量评价》2024-2025学年第一学期期末试卷
- 2024年医院检验科院感知识培训试题及答案
- 环水保工程监理细则
- DB11-T1834-2021 城市道路工程施工技术规程高清最新版
- 穴位敷贴中医护理技术操作规范
- 冷却塔投标文件
- 手工电弧焊焊接头基本形式与尺寸
- 青年教师专业成长课题结题报告
- 农村公路安全生命防护工程施工方案
- 开拓进取:零碳汽车的材料脱碳之路
- (完整版)自我护理能力量表ESCA
- M2激光模式测量
- 网吧企业章程范本
评论
0/150
提交评论