管理统计学第5章方差分析_第1页
管理统计学第5章方差分析_第2页
管理统计学第5章方差分析_第3页
管理统计学第5章方差分析_第4页
管理统计学第5章方差分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5 方差分析5.1 方差分析基本原理5.2 单因素方差分析5.3 单因素方差分析的SPSS应用5.4 双因素方差分析某饮料生产企业研制出一种新型饮料饮料的颜色:橘黄色、粉色、绿色和无色透明饮料的营养含量、味道、价格、包装相同收集该饮料的销售情况的超级市场地理位置相似、经营规模相仿试分析饮料的颜色是否对销售量产生影响超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8四色饮料在五家超市的销售情况5.1 方差分析基本原理方差分析的实质:检验多个总体均值是否有显

2、著性差异(观测值变异原因的数量分析)将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值通过计算这些总体方差的估计值的适当比值,检验各样本所属总体平均数是否相等5.1.1 基本概念(待续)因素:影响实验结果的条件,常用大写字母A、B、C、等表示单因素实验:当研究中只考察一个因素双因素(多因素)实验:同时研究两个或两个以上的因素因素水平/水平:因素所处的某种特定状态或数量等级,用代表该因素的字母加添足标表示,如A1、A2、,B1、B2、处理:事先设计好的实施在实验单位上的具体项目在单因素实验中,实施在实验单

3、位上的具体项目就是实验因素的某一水平在多因素实验中,实验因素的一个水平组合就是一个处理基本概念(续)两类误差 随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异,由抽样的随机性所造成 系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异,由系统性因素造成两类方差 组内方差:因素的同一水平(同一个总体)下样本数据的方差,组内方差只包含随机误差 组间方差:因素的不同水平(不同总体)下各样本之间的方差,组间方差既包括随机误差,也包括系统误差实例说明不同颜色(水平)对销售量(结果)没有影响组间方差中只包含有随机误差,没有系统误差组间方差与组内方差很接近,二者比值接近1不同的水

4、平对结果有影响组间方差中包含随机误差和系统误差组间方差大于组内方差,二者比值就会大于1当这个比值大到某种程度时,不同水平之间存在着显著差异例5.1 单因素四水平的试验某饮料生产企业研制出一种新型饮料饮料的颜色:橘黄色、粉色、绿色和无色透明饮料的营养含量、味道、价格、包装相同收集该饮料的销售情况的超级市场地理位置相似、经营规模相仿试分析饮料的颜色是否对销售量产生影响超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8四色饮料在五家超市的销售情况例题分析设1为

5、无色饮料 (A1)的平均销售量2粉色饮料(A2)的平均销售量3为橘黄色饮料(A3)的平均销售量4为绿色饮料(A4)的平均销售量用方差分析,分析饮料的颜色对销售量是否有影响,检验假设H0:1234H1:1,2,3,4不全相等颜色是要检验的因素或因子A1、A2、A3、A4四种颜色就是因素的水平每种颜色饮料的销售量就是观察值A1、A2、A3、A4四种颜色可以看作是四个总体,从中抽取的样本数据5.1.2 方差分析中的基本假定(1)变异的可加性(2)每个总体都应服从正态分布(分布的正态性)(3)各组观察数据,是从具有相同方差的总体中抽取的(4)观察值是独立的 如果总体的均值相等,可期望样本的均值也会很接

6、近: 样本的均值越接近,总体均值相等的证据也就越充分 样本均值越不同,总体均值不同的证据就越充分实例分析例5.1中如果原假设成立,即H0:1234四种颜色饮料销售的均值都相等,且没有系统误差每个样本都来自均值为、方差为2的同一正态总体如果备择假设成立,即H1:i(i=1,2,3,4)不全相等则至少有一个总体的均值是不同的,且有系统误差这意味着四个样本分别来自均值不同的四个正态总体不同正态总体同一正态总体5.2 单因素方差分析5.2.1 多个总体均值是否相同的检验5.2.2 多个总体均值的多重比较检验5.2.1 多个总体均值是否相同的检验例5.1中表示总体X的均值,i表示总体Ai的均值,方案i的

7、主效应 i=i反映水平Ai对销售量的影响随机样本Xij,可以视为各个方案的总体均值i与随机误差之和:Xij= i + ij 由于Xij是来自Ai的观察值,于是有Xij= i +ij=i+ ij (i=1,2,4;j=1,2, ,5) 表5-2 单因素方差总体Xij构成表Xij表达为总平均、方案的主效应i与随机项之和ij表示观测过程中各种随机影响引起的随机误差(ij相互独立,服从N(0,2)分布对应于i的样本均值(统计量)是xi ,也就是说,xij -xi表示是随机误差项由i= i- ,若各个方案的主效应都是0,则各个方案的均值相同 单因素方案分析的基本任务是检验如下假设H0:所有 i=0或1=

8、 2 =s= H1:不全相等(至少有两个不相等)Xij的构成i (各方案的总体均值)ij服从N(0,2)i=(i)总体均值主效应随机扰动多个总体均值是否相同的检验考察例5.1中颜色是否是影响该饮料销售量的主要因素若饮料的销售量服从正态分布,不同颜色饮料销售量方差相等考察不同颜色对饮料销售量有无显著影响,即考察4个水平对销售量的影响是否差异显著,即要检验假设:H0: a1= a2= a3= a4=0销售量(箱)试验批号各水平下平均销售量Xi12345因素(颜色)A1(粉色)26.528.725.129.127.227.32A2(无色)31.228.330.827.929.629.56A3(绿色)

9、27.925.124.226.526.526.44A4(桔色)30.829.632.432.832.831.46总平均销量28.695分析过程(待续) 将总体离差分解总体销售量离差平方和ST有两个来源一是由水平不同造成的不同水平下平均销售量差异SA一是由除了颜色之外的随机干扰造成的、同一水平下的销售量差异SE其中,m表示因素A(颜色)的水平数m=4,n表示观测次数n=5 将总体离差的自由度分解分析过程(续) 将离差均方化,得均方和(为了具有可比性)MSA=SA/fA MSE=SE/fE 比较,计算F值:F=MSA/ MSE 检验,所示看F统计量是否落在接受域还是拒绝域中若FF0.05(fA,f

10、E) ,则无显著影响,记为/若F0.05(fA,fE) FF0.01(fA,fE) ,则影响特别显著,记为*单因素方差分析表注: F0.05(3,16)=3.24, F0.01(3,16)=5.29由于F=10.458 F0.01(fA,fE) ,所以颜色对饮料销售量有特别显著影响方差来源离差平方和自由度均方和F值检验结论因素A(颜色)随机干扰E总和TSA=76.85SE=39.08ST=115.93fA=3fE=16fT=19MSA=25.615MSE=2.443F=10.485*方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和TSASESTfAfEfTMSAMSEF=MSA/

11、MSE例5.1的单因素方差分析表例5.2 数学成绩分析40名学生随机分成5个班,每个班的班主任负责不同科目A表示班主任教数学B表示班主任教语文C表示班主任教生物D表示班主任教地理E表示班主任教物理用方差分析的方法检验5组不同班主任的学生数学成绩是否有显著差异ABCDE76766265677867706871657069687272647371697167716174728369697983727365767973696984解题过程 建立假设 H0:1=2=3=4=5 平方和 ST=1160.4,SA=314.4 SE=ST-SA=1160.4-314.4=864 自由度 fA=k-1=5-1

12、=4,fE=k(n-1)=35 均方 MSA=SA/fA=314.4/4=78.6 MSE=SE/fE=846/35=24.17 F检验 F=MSA/MSE=78.6/24.17=3.252查F分布表(单侧)F0.05(4,35)=2.64,FF0.05,p0.05,拒绝原假设,故在不同班主任的班级中数学成绩有显著不同 方差分析表方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和T314.48461160.44353978.624.17F=3.252*注:*表示在0.05水平上显著例5.3 服务质量分析为了对几个行业的服务质量进行评价在零售业、旅游业、航空公司、家电制造业分别抽取了

13、不同的样本记录了一年中消费者对总共23家服务企业投诉的次数试分析这四个行业的服务质量是否有显著差异?(0.05)消费者对四个行业的投诉次数观察值(j)行业(A)零售业旅游业航空公司家电制造业15762517025549496834660486344554556955456476065355747解题过程设四个行业被投诉次数的均值分别为,1,2,3,4,则需要检验如下假设H0:1=2=3=4=5(四个行业的服务质量无显著差异)H1: 1,2,3,4不全相等(有显著差异)计算结果如下:方差来源离差平方和自由度均方和F值检验结论因素A随机干扰E总和T845.21743621207.217319222

14、81.739119.0526314.78741*5.2.2 多个总体均值的多重比较检验多重比较:在因变量的三个或三个以上水平下均值之间进行两两比较检验,检验均值间差异LSD方法:由Fisher提出的最小显著差异方法,是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的,可用于判断均值之间差异LSD的操作步骤(1)提出假设H0:i=j(第i个总体的均值等于第j个总体的均值)H1:ij(第i个总体的均值不等于第j个总体的均值)(2)检验的统计量为(3)若|t|t,拒绝H0;若|t|t,不能拒绝H0基于统计量 的LSD方法的操作步骤为(1)通过判断样本均值之差的大

15、小来检验H0(2)检验的统计量为: ,检验的步骤为 提出假设H0:i=j(第i个总体的均值等于第j个总体的均值)H1:ij(第i个总体的均值不等于第j个总体的均值) 计算LSD 检验若| |LSD,拒绝H0,若| |2.096,颜色1与颜色2的销售量有显著差异|x1-x3|= |27.3-26.4| =0.92.096,颜色1与颜色4的销售量有显著差异|x2-x3|= |29.5-26.4| =3.12.096,颜色2与颜色3的销售量有显著差异|x2-x4|= |29.5-31.4| =1.92.096, 颜色3与颜色4的销售量有显著差异5.3 单因素方差分析的SPSS应用例5.4 根据下列随

16、机抽样数据,试分析各地区平均每天交通事故的次数是否有显著性差异(=0.05)五个地区每天发生交通事故的次数表东部北部中部南部西部1512101413171014912141313791117151014141281079分析过程分析不同的地理位置是否为影响每天交通事故次数的因素因素的每个水平东部、北部、中部、南部、西部看作五个总体设五个地区平均每天发生交通事故的次数分别为1、2、3、4、5,从不同总体抽取的样本数据的个数,分别是4,5,5,6,6检验各地区平均每天交通事故的次数是否有显著性差异,是一个单因素方差分析问题原假设H0:1=2=3=4=5备择假设H1:1、2、3、4、5不全相等One

17、-Way ANOVA对话框设置打开数据文件,需要注意“所在地区”对应的变量值标签定义为1=“东部”,2=“北部”,3=“中部”,4=“南部”,5=“西部”AnalyzeCompare MeansOne-Way ANOVAOne-Way ANOVA放置因变量,可放置多个放置自变量用于比较和分析均值的特性,一元方差分析的时候,一般不用此功能方差相等或方差不相等情况下的检验选项选择统计量和缺少值处理方式One-Way ANOVA Options对话框设置One-Way ANOVA (变量Y(交通事故次数) Dependent List (变量X(所在地区) Factor) Options One-W

18、ay ANOVA: Options 要求输出描述统计量 要求输出固定效应模型的标准离差、标准误差、和95%的置信区间,还输出随机效应模型的标准误差、95%的置信区间和因素水平间方差估计要求进行方差齐次性检验,输出结果 计算Brown-Forsythe统计量,检验各组均值是否相等计算Welch统计量,检验各组的均值是否相等Means plot输出Continue OK Means plot输出描述统计值Descriptives交通事故次数NMeanStd.DeviationStd.Error95% Confidence Interval for MeanMinimumMaximumLowerBo

19、undUpperBound1414.252.5001.25010.2718.2311172513.202.5881.1589.9916.4110173512.801.924.86010.4115.191015469.172.6391.0786.4011.947145611.172.137.8728.9213.41914Total2611.882.833.55610.7413.03717不同地区平均每天交通事故的次数分别是14.25、13.20、12.80、9.17和11.17方差齐性检验表 设不同地区的交通事故次数的方差分别为 原假设H0: 原假设H1: 不全相等方差齐性检验表 Test of

20、 Homogeneity of Variances交通事故次数Levene Statisticdf1df2Sig.096421.983Levene Statistic(统计量)的值为0.096组间、组内自由度分别为4、21,相应的显著性概率p(Sig.)为0.983,非常大因此,没有理由拒绝原假设,认为不同地区的交通事故次数的方差没有显著性差异,即方差具有齐性方差分析表 ANOVA F=3.676,显著性概率(Sig.)=0.02当取=0.05时,Sig.=0.02F0.05(4,21)=2.85,则拒绝原假设H0,表明所检验的因素即地区对平均每天交通事故的次数观测值有显著影响 Sum of

21、SquaresdfMean SquareFSig.Between Groups82.637420.6593.676.020Within Groups118.017215.620 Total200.65425 两两比较不同水平的差异在One-Way ANOVA对话框 变量Y(交通事故次数)移入到Dependent List 框,变量X(所在地区)移入Factor框内 Post Hoc One-Way ANOVA: Post Hoc Multiple Comparisions对话框方差相等假设下的可选择方法 方差非齐次性假设 Equal Variances AssumedEqual Varianc

22、es Assumed:方差相等假设下的可选择方法LSD:最小二乘法,是检验的变形,在变异与自由度计算上利用了整个样本信息,敏感度最高Bonferroni:由LSD修正而来,通过设置每个检验的水平来控制总的水平水,这个方法的敏感度介于LSD和Scheffe之间Sidak:用T检验完成多重配对比较,可以调整显著性水平,比Bonfferroni方法的调整界限小Scheffe:它利用F分布进行均值间的配对比较R-E-G-W F(Ryan- Einot -Gabriel - Welsch F):利用F检验进行多重比较R-E-G-W Q(Ryan-Einot -Gabriel - Welsch range

23、 test):基于t分布进行多重逐步比较S-N-K(Student-Newman-Keuls):它利用 T 分布进行均值间的配对比较Tukey(Tukeys honestly significant difference):利用T化极差分布进行均值间的配对比较 Tukeys-b:利用T化极差分布进行均值间的配对比较,精确值为前两种检验相应值的平均值,利用该方法时一般要选择前两种方法Duncan(Duncans multiple range test):逐步比较一系列分布值,得出结论,适用于分布不明确的情况Hochbergs GT2:利用T化极差分布进行多重比较Gabriel:利用T化极差分布进

24、行配对比较Waller-Duncan:利用t检验进行多重比较Dunnett方法:选择开头一组或者最后一组为对照,其他组跟它进行比较,当选中这一种方法后,Control Category被激活,它后面的下拉菜单框中有两个选项,即:First和Last,可以选择其中一个,它们就是对照组Equal Variances Assumed (续)Equal Variances Not AssumedEqual Variances Not Assumed:方差非齐次性假设下的方法有:Tamhanes T2 :利用t检验进行配对比较,是一种比较老式的方法Dunnetts T3:在T化极差分布下进行配对比较Ga

25、mes-Howell:它是一种较灵活的方差不具齐次时的配对比较检验法Dunnetts C :基于t分布下的配对比较多重比较结果表 Multiple Comparisons选择LSD Tamhanes T2 Continue ANOVA OK 多重比较结果表 Multiple ComparisonsLSD (I) 所在地区0 (J) 所在地区Mean Difference (I-J)Std. ErrorSig.95% Confidence Interval Lower BoundUpper Bound121.051.590.516-2.264.36 31.451.590.372-1.864.76

26、 45.08(*)1.530.0031.908.27 53.081.530.057-.106.2721-1.051.590.516-4.362.26 3.401.499.792-2.723.52 44.03(*)1.435.0101.057.02 52.031.435.171-.955.02(续表)31-1.451.590.372-4.761.86 2-.401.499.792-3.522.72 43.63(*)1.435.019.656.62 51.631.435.268-1.354.6241-5.08(*)1.530.003-8.27-1.90 2-4.03(*)1.435.010-7.0

27、2-1.05 3-3.63(*)1.435.019-6.62-.65 5-2.001.369.159-4.85.8551-3.081.530.057-6.27.10 2-2.031.435.171-5.02.95 3-1.631.435.268-4.621.35 42.001.369.159-.854.85* The mean difference is significant at the .05 level.(*表示在0.05的显著性水平下均值差有显著性差异)只有南部地区的平均每天交通事故次数与东部、北部、中部地区的平均每天交通事故次数有显著性差异5.4 双因素方差分析(待续)双因素:是指

28、问题中有两个(反映条件或前提的)变量As是变量A的一个取值(又称因素A的一个水平)Bn是变量B的一个取值(又称因素B的一个水平)假设在Ai与Bj下的总体Xij,服从N(ij,2)分布双因素方差分析的数据结构表表中,xij表示因素Ai和因素Bj下的试验效果的观察值因素B1因素B2因素Bn因素A1x11x12x1n因素A2x21x22x2n因素Asxs1xs2xsn双因素方差分析(续)总体Xij的总平均:第i行总体的平均: 第j列总体平均:Ai的主效应:Bj的主效应:如果Ai与Bj间不存在交互效应,就有ij=+ ai+bj 5.4.1 无交互作用的双因素方差分析随机样本Xij可以视为其总体均值ij

29、与随机误差ij之和 Xij=ij+ ijij服从N(0,2)分布,并且ij之间相互独立于是有Xij= + ai+bj + ij 称为“无交互影响的双因素(一元)模型”Xij的构成(各方案的总体均值)ij服从N(0,2)i(= i )bi(= j )总体均值主效应随机扰动效果的数据是多元的(向量),就是双因素多元问题无重复实验双因素方差分析方案的假设零假设: 备择假设: 之间不完全相等(至少 有两个不等),或不全等于0 之间不完全相等(至少 有两个不等),或不全等于0 统计量无交互影响的双因素模型下的结论 SA、SB、SE相互独立,且ST=SA+SB+SE SE /2服从分布2(s-1)(n-1

30、) H0A成立时,有 SA /2 服从2(s-1) H0B成立时,有 SB /2 服从2(n-1) H0A成立时,有FA服从F(n-1),(s-1)(n-1) 分布对给定的,查表得 F(n-1),(s-1)(n-1) 若FAF(n-1),(s-1)(n-1) 拒绝H0A,即至少A因素中有两个水平之间的平均效果(均值),差异足够大反之,接受H0A,即A因素的不同水平的效果(均值)没有显著差异若FBF(n-1),(s-1)(n-1) ,拒绝H0B,即至少B因素有两个水平之间的平均效果(均值)差异足够大反之,接受H0B,即B因素中的不同水平的效果(均值)没有显著差异5.4.2 无交互作用的双因素方差

31、分析SPSS应用例5.5 考察原料用量和产地对产品质量是否有影响现有三个产地:甲(A1)、乙(A2)、丙(A3)原料用量有三种情况:现用量(B1)、增加5%(B2)、增加8%(B3)每个水平组合做一次试验现需要分析原料用量及产地对产品质量的影响是否显著表5-17 产品合格率数据观测数据原料用量BB1B2B3产地A1597066A2637470A3616671General Lineral Model:UnivariateAnalyze General Lineral Model Univariate因变量矩形框,将因变量放入其中固定因素栏,放入固定因素 随机因素栏,放入随机因素 协变量栏,放入

32、协变量加权变量栏 Model模型对话框quality 选入Dependent Variable选中group1和group2 选入Fixed Factor(s) “Model” 模型对话框指定模型类型 建立因素全模型 自定义模型 Univariate:Model对话框中选择Cutom单击Custom选项,选择自定义模型选择模型中的主效应的方法用鼠标单击个变量名,然后单击Build Term(s)栏中下面的箭头,该变量出现在Model框中,重复这种操作,就可以设置多个主效应,但是不要同时送入,否则可能是交互效应 在Build Term(s)栏下面的小菜单中选择Main effects项,然后选择

33、多个主效应变量进入Model框中,如果只进行主效应分析,则单击Continue按钮确认并返回主对话框,否则进入下一步建立模型中的交互项Build Term(s) Interaction右侧向下的黑色小箭头Interaction:指定任意的交互效应ALL 2-way:指定所有2维交互效应ALL 3-way:指定所有3维交互效应ALL 4-way:指定所有4维交互效应ALL 5-way:指定所有5维交互效应因素变量的交互效应,要求模型中包括因素变量:group1和group2的交互效应 Build Term(s) Interaction group1 group2 Build Term(s)栏中下

34、面的箭头交互项就出现在Model框中 Build Term(s) ALL 2-way,其他步骤同上选择分解平方和的方法TypeI:分层处理平方和的方法,仅对模型主效应之前的每项进行调整,一般适用于平衡ANOYA模型和嵌套模型,在前一模型中一阶交互效应前指定主效应,二阶交互效应前指定一阶交互效应,依此类推TypeII:对其他所有效应进行调整,一般适用于平衡ANOYA模型、主因素效应模型、回归模型和嵌套设计Type III(默认值):对其他任何效应都进行调整,其优势是把所估计剩余常量也考虑到单元频数中,一般适用于TypeI、TypeII所列的模型,没有空单元格的平衡和非平衡模型Type IV:对任

35、何效应F计算平方和,没有缺失单元的设计使用该法一般使用Type I、Type II所列的模型,没有空单元格的平衡和非平衡模型无重复试验的双因素方差分析表Continue Univariate OK Dependent Variable: QUALITY因素“产地”(用Group1标识)的检验,P=0.2690.05,接受H0A,因此,可有95%的把握可以认为原料产地对产品的质量影响不大因素“原料用量”(用Group2标识)的检验P=0.0260.05,所以拒绝H0B,表明有95%的把握可以认为原料的用量对产品的质量有显著影响SourceType III Sum of SquaresdfMean

36、 SquareFSig.Corrected Model172.000(a)443.0006.143.053Intercept40000.000140000.0005714.286.000GROUP126.000213.0001.857.269GROUP2146.000273.00010.429.026Error28.00047.000Total40200.0009Corrected Total200.0008a R Squared = .860 (Adjusted R Squared = .720)5.4.3 有交互作用的双因素方差分析双因素重复试验的方差分析数据结构表问:(1)因素A的不同水平(方案)的效果(均值)有无显著影响?(2)因素B的不同水平(方案)的效果(均值)有无显著影响?(3)因素A与B之间的交互作用如何?观测数据因素B1因素B2因素Bn因素A1x111x112 x11tx121x122 x12tx1n1x1n2 x1nt因素A2x211x212 x21tx221x222 x22tx2n1x2n2 x2nt因素Asxs11xs12 xs1txs11xs22 xs2txsn1xs22 xsnt分析过程(待续)假设在Ai与Bj下的总体Xij,服从N(i,2)分布(注意:相当于sn个方差相同,均值可能不同)(1)总体平均分布(2)第i行总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论