版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、方差分析原理与单因素方差分析方差分析ANOVA(analysis of variance) 在现实的生产和经营管理过程中,影响产品质量、在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多,如农作物的收获量受数量或销量的因素往往很多,如农作物的收获量受作物品种、肥料种类及数量等的影响;不同地区、作物品种、肥料种类及数量等的影响;不同地区、不同时期对某种产品的销量有影响等等。在众多因不同时期对某种产品的销量有影响等等。在众多因素中,有些因素影响大些,有些则小些。素中,有些因素影响大些,有些则小些。 现实中常常需要分析哪几种因素对生产或销售起显现实中常常需要分析哪几种因素对生产或销
2、售起显著影响,并需知道起显著作用的因素如何进行最优著影响,并需知道起显著作用的因素如何进行最优组合,可以获得最理想的效果。组合,可以获得最理想的效果。 方差分析是解决这些问题的一种有效方法方差分析是解决这些问题的一种有效方法什么是方差分析高产油菜品种的选取问题 品种品种田块田块A A1 1A A2 2A A3 3A A4 4A A5 51 12562562442442502502882882062062 22222223003002772772802802122123 32802802902902302303153152202204 429829827527532232227927921221
3、2平均亩产平均亩产264264277.25277.25269.75269.75285.50285.50212.50212.50消费者对四个行业的投诉次数 行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758方差分析解决的问题 分析不同品种的亩产(四个行业之间的服务质量)分析不同品种的亩产(四个行业之间的服务质量)是否有显著差异,实质是判断是否有显著差异,实质是判断“品种品种”这个分类这个分类型自变量对型自变量对“亩产亩产”这个数值型因变量是否有显这个数值型因变量是否有显著影响(著影响(“行业行业”对对
4、“投诉次数投诉次数”)。)。 做出这样的判断最终被归结为检验四个品种的平做出这样的判断最终被归结为检验四个品种的平均亩产量(平均投诉次数)是否相等。均亩产量(平均投诉次数)是否相等。 如果均值相等,就意味着如果均值相等,就意味着“品种品种” 对对“亩产亩产”(“行行业业”对对“投诉次数投诉次数”)没有显著影响。)没有显著影响。“方差分析”中“方差”的含义 19231923年,年,FisherFisher首先提出了首先提出了“方差分析方差分析”,通常,通常认为他是这一方法的创始人认为他是这一方法的创始人 “方差分析方差分析”所分析的并非是所分析的并非是“方差方差”,而是研,而是研究数据间的究数据
5、间的“变异变异”,是在可比较的群组中,把,是在可比较的群组中,把总的变异按各指定的变异来源进行分解的一种技总的变异按各指定的变异来源进行分解的一种技巧。巧。 方差分析检验的是均值是否相等,而不是方差是方差分析检验的是均值是否相等,而不是方差是否相等否相等方差分析中的有关术语 试验指标试验指标(指标指标): y 如亩产,投诉次数如亩产,投诉次数 因子因子(因素因素)(factor) 影响试验指标影响试验指标y的因素的因素 A,B,C 如品种,行业如品种,行业 因子的水平(处理)(因子的水平(处理)(treatment) 因子的不同表现因子的不同表现 A1,A2,Ar或或 B1,B2,Bs 如五个
6、不同品种,四个行业(零售业、旅游业、航空如五个不同品种,四个行业(零售业、旅游业、航空公司、家电制造业)公司、家电制造业)方差分析中的有关术语 观测值观测值 在每个因子水平下得到的样本数据在每个因子水平下得到的样本数据 yij 水平数水平数: r ;s 单因子方差分析单因子方差分析(one-way ANOVA) 只有一个因子只有一个因子 多因子方差分析多因子方差分析(MANOVA) 两个及两个以上的个因子两个及两个以上的个因子方差分析的基本思想和原理(图形分析)不同行业被投诉次数的散点图不同行业被投诉次数的散点图020406080012345行业被投诉次数 零售业 旅游业 航空公司 家电制造从
7、从散点图上可以看出散点图上可以看出不同行业被投诉的次数是有明显差异的不同行业被投诉的次数是有明显差异的即即使是在同一个行业,不同企业被投诉的次数也明使是在同一个行业,不同企业被投诉的次数也明显不同显不同家电制造也被投诉的次数较高,航空公司被投诉的次数较低家电制造也被投诉的次数较高,航空公司被投诉的次数较低行行业与被投诉次数之间有一定的关系业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近模式也就应该很接近方差分析的基本思想
8、和原理(图形分析)仅从散点图上观察还不能提供充分的证据证明不仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异同行业被投诉的次数之间有显著差异这种差异也可能是由于抽样的随机性所造成的这种差异也可能是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对这个名字也表示:它是通过对数据误
9、差来源数据误差来源的分析的分析判断不同总体的均值是否相等。因此,进行方差分判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。析时,需要考察数据误差的来源。 方差分析的基本思想和原理 比较两类误差,以检验均值是否相等比较两类误差,以检验均值是否相等 比较的基础是方差比比较的基础是方差比 如果系统误差显著地不同于随机误差,则均值就是不相等如果系统误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的的;反之,均值就是相等的 误差是由各部分的误差占总误差的比例来测度的误差是由各部分的误差占总误差的比例来测度的方差分析的基本思想和原理方差分析的基本思想和原理(两类误
10、差)随机误差随机误差因素的同一水平因素的同一水平( (总体总体) )下,样本各观察值之间的差异下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数是不同的比如,同一行业下不同企业被投诉次数是不同的这种差异可以看成是随机因素的影响,称为这种差异可以看成是随机因素的影响,称为随机误差随机误差 系统误差(处理误差)系统误差(处理误差)因素的不同水平因素的不同水平( (不同总体不同总体) )下,各观察值之间的差异下,各观察值之间的差异比如,不同行业之间的被投诉次数之间的差异比如,不同行业之间的被投诉次数之间的差异这种差异这种差异可能可能是由于抽样的随机性所造成的,是由于抽样的随机性所造成的,也
11、可能也可能是由于行是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,业本身所造成的,后者所形成的误差是由系统性因素造成的,称为称为系统误差系统误差方差分析的基本思想和原理(两类方差)数据的误差用平方和数据的误差用平方和(sum of squares)(sum of squares)表示,称为方差表示,称为方差组内方差组内方差(within groups)(within groups)因素的同一水平因素的同一水平( (同一个总体同一个总体) )下样本数据的方差下样本数据的方差比如,零售业被投诉次数的方差比如,零售业被投诉次数的方差组内方差只包含组内方差只包含随机误差随机误差组间方差组
12、间方差(between groups)(between groups)因素的不同水平因素的不同水平( (不同总体不同总体) )下各样本之间的方差下各样本之间的方差比如,四个行业被投诉次数之间的方差比如,四个行业被投诉次数之间的方差组间方差既包括组间方差既包括随机误差随机误差,也包括,也包括系统误差系统误差方差分析的基本思想和原理(方差的比较)若不同行业对投诉次数没有影响,则组间误差中只包含随若不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近平均后的数值
13、就应该很接近,它们的比值就会接近1 1若不同行业对投诉次数有影响,在组间误差中除了包含随若不同行业对投诉次数有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就数值就会大于组内误差平均后的数值,它们之间的比值就会大于会大于1 1当这个比值大到某种程度时,就可以说不同水平之间存在当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响着显著差异,也就是自变量对因变量有影响判断行业对投诉次数是否有显著影响,实际上也就是检验被投判断行业对投诉
14、次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响要是系统误差,说明不同行业对投诉次数有显著影响方差分析的基本假定每个每个总体都应服从正态分布总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本单随机样本比如,每个行业被投诉的次数必需服从正态分布比如,每个行业被投诉的次数必需服从正态分布各个各个总体的方差必须相同总体的方差必须相同各组观察数据是从具有相同方差的总体
15、中抽取的各组观察数据是从具有相同方差的总体中抽取的比如,四个行业被投诉次数的方差都相等比如,四个行业被投诉次数的方差都相等观观察值是独立的察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立比如,每个行业被投诉的次数与其他行业被投诉的次数独立方差分析中的基本假定在上述假定条件下,判断行业对投诉次数是否在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等四个正态总体的均值是否相等如果四个总体的均值相等,可以期望四个样本如果四个总体的均值相等,可以期望四个样本的均值也会很接近的均值也会很接近四
16、个样本的均值越接近,推断四个总体均值相等四个样本的均值越接近,推断四个总体均值相等的证据也就越充分的证据也就越充分样本均值越不同,推断总体均值不同的证据就越样本均值越不同,推断总体均值不同的证据就越充分充分 方差分析中基本假定 如果原假设成立,即如果原假设成立,即H0: m m1 = m m2 = m m3 = m m4四个行业被投诉次数的均值都相等四个行业被投诉次数的均值都相等意味着意味着每个样本都来自均值为每个样本都来自均值为m、方差为差为2的同一正态总体的同一正态总体 方差分析中基本假定若备择假设成立,即若备择假设成立,即H1: mi (i=1,2,3,4)不全相等不全相等至少有一个总体
17、的均值是不同的至少有一个总体的均值是不同的四个样本分别来自均值不同的四个正态总体四个样本分别来自均值不同的四个正态总体 问题的一般提法设因素有设因素有r个水平,每个水平的均值分别用个水平,每个水平的均值分别用m m1、m m2、m mr 表示表示要检验要检验r个水平个水平(总体总体)的均值是否相等,需要提出如的均值是否相等,需要提出如下假设下假设: H0: m m1 m m2 m mr H1: m m1 , m m2 , ,m mr不全相等不全相等设设m m1为零售业被投诉次数的均值,为零售业被投诉次数的均值,m m2为旅游业被投为旅游业被投诉次数的均值,诉次数的均值,m m3为航空公司被投诉
18、次数的均值,为航空公司被投诉次数的均值,m m4为家电制造业为家电制造业被投诉次数的均值被投诉次数的均值,提出的假设为提出的假设为H0: m m1 m m2 m m3 m m4 H1: m m1 , m m2 , m m3 , m m4 不全相等本节小结 方差分析采用数理统计方法对所得结果进行分析,方差分析采用数理统计方法对所得结果进行分析,以鉴别各种因素对研究对象的某些特性值影响大以鉴别各种因素对研究对象的某些特性值影响大小。小。 方差分析是检验多个总体均值是否相等的一种统方差分析是检验多个总体均值是否相等的一种统计方法。计方法。 方差分析是通过对试验结果的分析去判断因子是方差分析是通过对试
19、验结果的分析去判断因子是否显著的一种统计方法。否显著的一种统计方法。 方差分析方法是解决具有相同方差的方差分析方法是解决具有相同方差的(k2) )个正个正态总体的均值是否有显著差异问题的有效方法。态总体的均值是否有显著差异问题的有效方法。单因素方差分析单因素方差分析(one-way ANOVA) 解决一个因子的不同水平的试验结果之间的差异显著性问解决一个因子的不同水平的试验结果之间的差异显著性问题。题。 解决一个因子的不同水平对试验结果的影响程度问题。解决一个因子的不同水平对试验结果的影响程度问题。1、模型与假设的提出考虑因子考虑因子A取取r个水平,分析这个水平,分析这r个水平对指标个水平对指
20、标y的的影响影响在每个在每个Ai下下, ,重复做重复做m次试验,次试验,i=1,2,r一般情况,假定在一般情况,假定在Ai水平下的指标水平下的指标 其中其中要求要求yij 的方差的方差2 2是相同的是相同的2(,)1,2,1,2,ijiyNirjmm 单因子方差分析数据(表)模型 水平水平重复重复 A1 A2 Ai Ar12jm y11 y21 yi1 yr1 y12 y22 yi2 yr2 y1j y2j yij yrj y1m y2m yim yrm假设的提出 在单因子方差分析中就是要通过对数据在单因子方差分析中就是要通过对数据yij的的分析去判断分析去判断1 ,2 , r是否全部相同是否
21、全部相同 yij 的数据结构形式的数据结构形式: : yij = =i+ +ij i 为在为在Ai水平下水平下 yij 的平均水平的平均水平 ij为在第为在第i水平下第水平下第j 次试验的随机误差,且次试验的随机误差,且2(0,)ijN 即要检验假设即要检验假设 H0: 1 =2 =r 是否成立是否成立 讨论因子讨论因子A的不同水平对试验结果之间差异的影响是否显的不同水平对试验结果之间差异的影响是否显著的问题著的问题假设的另一种提法ai为因子为因子A A的第的第i水平的水平的效应效应: : ai = i - 其中其中: : 为总的平均水平,为总的平均水平, 11riirmm111()0rrri
22、iiiiiarmmmm yij 的数据结构形式的数据结构形式: yij =+ ai+i j 为总的平均水平为总的平均水平 ij为在第为在第i水平下第水平下第j次试验的随机误差次试验的随机误差单因子方差分析数据结构模型120(0,)1,2,1,2,ijiijriiijyaaNirjmm 即要即要检验假设检验假设 H0: a1 = a2 = ar= 0 是否成立是否成立 讨论讨论因子因子A的不同水平的效应是否可以忽略不计的问题的不同水平的效应是否可以忽略不计的问题2、检验统计量的确定 yij取值不同主要原因有:一是可能取值不同主要原因有:一是可能A取不同水平所引起取不同水平所引起的;的;二是二是随
23、机误差引起随机误差引起的。的。 偏差平方和的分解是构建适用于方差分析的偏差平方和的分解是构建适用于方差分析的 F 统计量的重统计量的重要工具。要工具。 是区分是区分系统性误差系统性误差(条件误差(条件误差)和和随机误差随机误差(偶然性误差偶然性误差)的的主要方法。主要方法。偏差平方和的分解 数据总的差异可用总偏差平方和数据总的差异可用总偏差平方和ST来表示来表示 引入引入Ai 水平的均值水平的均值( (组平均组平均) )_211()rmTijijSyy_11mijijyymn 总的偏差平方和分解211211221111()()()()rmTijijrmijiiijrmrmijiiijijeAS
24、yyyyyyyyyySS11()()0rmijiiijyyyy其中 总偏差平方和总偏差平方和 ST: 因子因子A偏差平方和偏差平方和 (组间偏差平方和组间偏差平方和) SA : 随机偏差平方和随机偏差平方和 (组内偏差平方和组内偏差平方和) Se : :221111()()rmrmTijiijijSyya2221111()()()rmrrAiiiiijiiSyym yym a221111()()rmrmeijiijiijijSyyn 各偏差平方和的含义 组内组内偏差平方和偏差平方和 Se :反映了同一水平下的试验值与其平均值的偏差平方和反映了同一水平下的试验值与其平均值的偏差平方和反映各总体的
25、样本均值之间的差异程度反映各总体的样本均值之间的差异程度是由随机因素引起的是由随机因素引起的 组间组间偏差平方和偏差平方和 SA :反映了由于因子水平变化所引起的组平均与总平均的偏反映了由于因子水平变化所引起的组平均与总平均的偏差平方和差平方和反映每个样本各观察值的离散状况反映每个样本各观察值的离散状况一般是由随机因素和系统误差引起的一般是由随机因素和系统误差引起的如果原假设如果原假设成立成立,则表明,则表明没有系统误差没有系统误差,组间平方和,组间平方和SSA SSA 除以自由除以自由度后的度后的均方均方与组内平方和与组内平方和SSESSE和除以自由度后的和除以自由度后的均方差异均方差异就不会太大;就不会太大;如果如果组间均方组间均方显著地大于显著地大于组内均方组内均方,说明各水平,说明各水平( (总体总体) )之间的差异之间的差异不仅有随机误差,还有系统误差不仅有随机误差,还有系统误差判断因素的水平是否对其观察值有影响,实际上就是比较判断因素的水平是否对其观察值有影响,实际上就是比较组间均方组间均方与与组内均方组内均方之间差异的大小之间差异的大小统计量的构建 由于由于 , ,且相互独立,则且相互独立,则: : 由于由于 ,所以在,所以在 H0为真时,为真时,2(0,)ijN22( (1)eSr m2(0,)iNm22(1)ASr在假设在假设H0成立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地下供水管网及设施更新改造建设项目运营管理方案
- 雨污水管网施工现场安全管理方案
- 2026天津市安定医院招聘第三批派遣制人员3人备考题库及参考答案详解【研优卷】
- 9年级英语人教全一册 现在完成时 教案
- 2026浙江招聘衢州市乡村振兴发展有限公司劳务外包工作人员6人备考题库【综合卷】附答案详解
- 2026江苏盐城市滨海县校园招聘教师76人备考题库及完整答案详解【有一套】
- 2026广东佛山市南方医科大学第七附属医院招聘事业单位编制工作人员6人(第一批)笔试参考题库及答案解析
- 2026年无锡工艺职业技术学院单招职业技能考试题库含答案详细解析
- 2025-2026学年背影教学设计四维目标
- 2025-2026学年核心课程教学设计美术
- (新教材)2026年春期教科版二年级下册科学教学计划及进度表
- 企业常用公文写作培训及案例分析
- 扩建10000吨-年高纯级羧甲基纤维素钠项目环评资料环境影响
- 工资表范本标准版
- DG-TJ 08-2242-2023 民用建筑外窗应用技术标准
- 2024年新疆中考历史试卷试题答案解析及备考指导课件(深度解读)
- 售楼处服务方案
- 腰椎JOA评分 表格
- 阳泉煤业集团兴峪煤业有限责任公司煤炭资源开发利用和矿山环境保护与土地复垦方案
- 周三多《管理学》笔记整理
- 首件确认制度
评论
0/150
提交评论