




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章方差分析,主要内容,一、方差分析及其有关术语二、方差分析的基本思想和原理三、单因素方差分析四、双因素方差分析,9.1方差分析概述,9.1.1什么是方差分析,1.检验多个总体均值是否相等的统计方法,称为方差分析。研究分类型变量与数值型变量之间有无关系、关系的强度。方法:通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响。2.有单因素方差分析和双因素方差分析单因素方差分析:只涉及一个分类型自变量对数值型因变量的影响;双因素方差分析:涉及两个分类型自变量对数值型因变量的影响,【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表,分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响一般而言,如果它们的均值相等,就意味着它们之间的服务质量没有显著差异;如果均值不全相等,则意味着它们之间的服务质量有显著差异要分析四个行业的服务质量是否有显著差异,可以归结为检验这四个行业被投诉次数的均值是否相等。,9.1.2方差分析的有关术语,1.因素或因子在方差分析中,所要检验的对象称为因素或因子;上例中,要分析行业对投诉次数是否有影响,行业是所要检验的对象因素或因子。2.水平或处理因素的不同表现称为水平或处理;零售业、旅游业、航空公司、家电制造业是“行业”这一因素的具体表现,称为水平或处理。本例有四个水平。,3.观测值每个水平下的样本数据称为观测值。本例不同行业的投诉次数就是观测值。4.总体因素的每一个水平可以看做是一个总体。如零售业、旅游业等。5.样本数据调查得到的数据可以看做从总体中抽取的样本数据。本例各行业的被投诉次数即为样本数据。,本例是只涉及一个分类型自变量行业和数值型因变量被投诉次数,故是单因素方差分析;是要研究“行业”对“投诉次数”的影响。零售业、旅游业、航空公司、家电制造业是“行业”这一分类型自变量的具体取值,“投诉次数”是因变量,它是一个数值型变量,不同的投诉次数就是因变量的具体取值。,9.1.3方差分析的基本思想和原理,图形分析,从散点图上可以看出不同行业被投诉的次数是有明显差异的即使是在同一个行业,不同企业被投诉的次数也明显不同家电制造业被投诉的次数较高,航空公司被投诉的次数较低行业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近,仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异,因为这种差异也可能是由于抽样的随机性所造成的。需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析。因为我们感兴趣的是均值,但在判断均值之间是否有差异时需借助于方差,所以叫方差分析。这个名字也表示:它是通过对数据误差来源的分析,来判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。,关于误差,随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数是不同的这种差异可以看成是随机因素的影响,称为随机误差系统误差因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差,组内方差因素的同一水平(同一个总体)下样本数据的方差比如,零售业被投诉次数的方差组内方差只包含随机误差组间方差因素的不同水平(不同总体)下各样本之间的方差比如,四个行业被投诉次数之间的方差组间方差既包括随机误差,也包括系统误差,反映误差的指标方差,若不同行业对投诉次数没有影响,则组间方差中只包含随机误差,没有系统误差。这时,组间方差与组内方差的比值就会接近1若不同行业对投诉次数有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响,关于两个方差的比值,判断行业对被投诉次数是否有显著影响,实际上是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,则说明不同行业对被投诉次数有显著影响。,9.1.4方差分析的基本假定,1.每个总体都服从正态分布。2.各个总体的方差必须相同。3.观测值是独立的。在上述假定下,要分析自变量对因变量是否有影响,实际上就是要检验自变量的各个水平的均值是否相等。尽管我们不知道4个总体的均值,但可以用样本数据来检验它们是否相等。如果4个总体的均值相等,可以期望4个样本均值也非常接近。,9.2单因素方差分析,要点:,一、数据结构二、分析步骤三、关系强度四、Excel的应用,9.2.1单因素方差分析的数据结构,9.2.2单因素方差分析,1.提出假设2.计算均值误差平方和方差3.构造并计算检验统计量4.统计决策,1.提出假设,一般提法H0:m1=m2=mk自变量对因变量没有显著影响H1:m1,m2,mk不全相等自变量对因变量有显著影响注意:拒绝原假设,并不意味着所有的均值都不相等,2.计算,均值:各水平的均值、全部观察值的均值误差平方和:总误差平方和SST、水平项平方和SSA、误差项平方和SSE均方(方差):总方差、组间方差、组内方差,各水平均值的计算公式为,全部观察值的总均值,计算均值,计算,总误差平方和SST,全部观察值与总平均值的离差平方和反映全部观察值的离散状况其计算公式为,水平项平方和SSA,各组(水平)平均值与总平均值的离差平方和反映各组的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为,误差项平方和SSE,各组数据与其组平均值的离差平方和反映样本中观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为,三个平方和的关系,总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系,SST=SSA+SSE,方差MS,各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差计算方法是用误差平方和除以相应的自由度三个平方和对应的自由度分别是SST的自由度为n-1,n为全部观察值的个数SSA的自由度为k-1,k为因素水平(总体)的个数SSE的自由度为n-k,计算方差,组间方差MSA:,组内方差MSE:,计算方差,3.构造检验的统计量,将MSA和MSE进行对比,即得到检验统计量F当H0为真时,F服从分子自由度(第一自由度)为k-1、分母自由度(第二自由度)为n-k的F分布。,F分布与拒绝域,如果均值相等,F=MSA/MSE1,4.统计决策,根据给定的显著性水平,在F分布表中查找与第一自由度(分子自由度)df1k-1、第二自由度(分子自由度)df2=n-k相应的临界值F若FF,则拒绝H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF,则不拒绝H0,不能认为所检验的因素对观察值有显著影响,例题分析,【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。据统计,最近一年中消费者对总共23家企业投诉的次数如下表,1.提出假设:原假设H0:1=2=3=4即:四个行业被投诉的次数相等,行业对被投诉次数没有影响。备择假设H1:i不完全相等即:四个行业的被投诉次数不完全相等,行业对被投诉次数有影响。,2.计算均值,计算误差平方和(260-261页),总误差平方和=4146.608696水平项平方和(组间平方和)=7*(49-47.869565)2+6*(48-47.869565)2+5*(35-47.869565)2+5*(59-47.869565)2=1456.608695误差项平方和(组内平方和)SSE先求出每个行业被投诉次数与其平均值的误差平方和,然后将其加总,即为SSE:零售业:=(57-49)2+(66-49)2+(49-49)2+(44-49)2=700旅游业:=(68-48)2+(39-48)2+(29-48)2+(51-48)2=924航空公司:=(31-35)2+(49-35)2+(21-35)2+(40-35)2=434家电制造业:=(44-59)2+(51-59)2+(65-59)2+(58-59)2=650加总得:=700+924+434+650=2708,三个平方和的关系,4164.608696=1456.608696+2708,计算方差(均方),组间方差MSA=,组内方差,MSE=,F=,3.构造并计算检验统计量F,4.统计决策,设显著性水平为0.05,根据分子自由度df1=k-1=4-1=3和分母自由度df2=n-k=23-4=19,查F分布表得到临界值F0.05(3,19)=3.13,由于F=3.406643大于F0.05=3.13,故拒绝H0,即可以认为行业对投诉次数有显著的影响,不同行业的服务质量有显著差异。,为了使计算过程更加清晰,通常将上述过程的内容列在一张表上,这就是方差分析表,其一般形式如:,9.2.3关系强度的测量,拒绝原假设表明因素(自变量)与观测值之间有关系组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明这它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱,关系强度的测量,变量间关系的强度用组间平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R可以用来测量两个变量之间的关系强度,例题分析,R=0.591404结论:行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到近35%,而其他因素(残差变量)所解释的比例近为65%以上R=0.591404,表明行业与投诉次数之间有中等以上的关系,9.2.4Excel的应用,1.列出数据结构表;2.工具数据分析单因素方差分析确定;3.在“数据区域”中引用数据结构表中的数据(各水平的纵标目和数值)等;4.根据输出结果做出统计决策。,Excel输出结果,用P值做统计决策,在统计决策时,可以直接利用方差分析表中的P值做统计决策:若P,则拒绝原假设在本例中,P=0.038765,小于0.05,所以拒绝原假设,即行业对投诉次数的影响是显著的。,9.2.5方差分析中的多重比较,比较检验到底哪些均值之间存在差异可采用最小显著差异方法,简写为LSD,多重比较的步骤,1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:3.计算LSD4.决策:若,拒绝H0;若,不拒绝H0,多重比较例题分析,1.提出假设检验1:检验2:检验3:检验4:检验5:检验6:,多重比较例题分析,2.计算检验统计量检验1:检验2:检验3:检验4:检验5:检验6:,多重比较例题分析,3.计算LSD检验1:检验2:检验3:检验4:检验5:检验6:,多重比较例题分析,4.作出决策,零售业与旅游业均值之间没有显著差异,零售业与航空公司均值之间有显著差异,零售业与家电业均值之间没有显著差异,旅游业与航空业均值之间没有显著差异,旅游业与家电业均值之间没有显著差异,航空业与家电业均值有显著差异,9.3双因素方差分析,双因素方差分析及其类型无交互作用的双因素方差分析有交互作用的双因素方差分析,9.3.1什么是双因素方差分析,什么是双因素方差分析,单因素方差分析只考虑一个分类型自变量对一个数值型因变量的影响。研究两个分类型自变量对一个数值型因变量影响的分析就是双因素方差分析。例如,分析彩电销售量与品牌、销售地区或与价格、质量等因素的影响。,例,有四个品牌的电视机在5个地区销售,为了解彩电的品牌和销售地区对销售量是否有影响,对每种品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响。(=0.05),不同地区各品牌电视机销售量,9.3.2双因素方差分析的类型,1.无交互作用的双因素方差分析若两个分类型自变量因素对一个数值型因变量的影响是相互独立的,称为无交互作用的或无重复双因素方差分析;2.有交互作用的双因素方差分析除了两个分类型自变量因素对一个数值型因变量的有影响外,两个因素搭配还会对因变量产生一种新的影响效应,例如,某个地区对某种品牌的彩电有特殊的偏好,这就是两个因素结合后产生的新效应,这时的双因素分析称为有交互作用的或重复双因素方差分析。,9.3.3无交互作用的双因素方差分析,双因素方差分析的数据结构,分析步骤,1.提出假设2.计算误差平方和、方差3.计算检验统计量4.统计决策,例题分析,1.提出假设:行因素(品牌)H0:1=2=3=4=n品牌对销售量没有影响H1:i不完全相等品牌对销售量有显著影响,列因素(地区)H0:1=2=3=4=n地区对销售量没有影响H1:i不完全相等地区对销售量有显著影响,2.计算均值、误差平方和、方差,计算机计算结果如下:,3.计算检验统计量,行因素的检验统计量列因素的检验统计量用Excel计算的结果如下:,4.统计决策,从计算表中看出FRF,即18.13.4903所以拒绝原假设,说明品牌对销售量有显著的影响FcF,即2.13.259160,所以接受原假设,说明地区对销售量没有显著影响用P值进行分析,结论相同。,关于强度的测定,上面的分析结果表明,品牌对销售量有显著的影响,而地区对销售量之间的关系是不显著的,那么,这两个因素合起来与销售量之间的关系强度如何呢?计算联合效应与总平方和的比值R2,其平方根则反映了这两个自变量和起来与因变量之间的关系强度,即:,计算结果表明,品牌和地区因素和起来总共解释了销售量差异的83.94%,其它因素(残差变量)只解释了销售量差异的16.06%。R=0.9162则表明品牌和地区两个因素和起来与销售量之间有较强的关系。,9.3.4有交互作用的双因素方差分析(可重复双因素分析),例题分析,城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验共获得20个行车时间(分钟)的数据。试分析路段、时段以及路段和时段的交互作用对行车时间的影响。调查资料和方差分析数据结构表如下:,可重复双因素分析的平方和的计算,总平方和:行变量平方和:列变量平方和:交互作用平方和:误差项平方和:,Excel计算结果如下:,统计决策,时段(行)因素FR=44.06329=4.493998,拒绝原假设路段(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西促销活动方案策划公司
- 平台网络安全应急预案方案
- 策划餐饮行业活动方案
- 亚运游园活动方案策划
- 班级活动策划方案公司问题
- 舟山建筑沙盘大赛方案设计
- 骨髓穿刺术的护理
- 统计工作年底工作总结
- 项目咨询方案报价明细
- 全民健身中心活动策划方案
- 公安援疆工作总结
- 湖南省益阳市2026届高三9月教学质量监测数学试题(含答案)
- 第8课《网络新世界》第一课时-统编版《道德与法治》四年级上册教学课件
- 2025秋人教版美术七年级第一单元 峥嵘岁月第1课 情感表达2
- 2025年审计部招聘考试模拟题及答案详解
- 2025年大学生英语六级必考词汇表全部汇编(带音标)
- (新版)水电站知识问答题题库300题(含答案)
- 外科颅内和椎管内血管性疾病 课件
- DL∕T 1867-2018 电力需求响应信息交换规范
- 版良性前列腺增生诊疗指南PPT
- 【EHS领导力培训】安全领导力与执行力培训(86页)
评论
0/150
提交评论