应用统计学 第五章 方差分析.ppt_第1页
应用统计学 第五章 方差分析.ppt_第2页
应用统计学 第五章 方差分析.ppt_第3页
应用统计学 第五章 方差分析.ppt_第4页
应用统计学 第五章 方差分析.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 方差分析,概述 单因素方差分析(one-way ANOVA) 单响应变量方差分析(ANOVA) 协方差分析(ANCOVA) 多响应变量方差分析(MANOVA),一、概述,方差分析: 英国统计兼遗传学家费舍尔在设计多种农业试验,特别是田间试验,并对试验进行评估中发展起来的。 主要用于研究某种因素(如广告)对所感兴趣的因变量(如销售额)是否有显著影响 抽样得到的实验数据显示出实验结果的差异性,其原因可能有两类: 观测条件不同(影响因素)引起试验结果有所不同 此结果差异是系统性的 由于各种随机因素的干扰,试验结果也会有所不同 此差异是偶然性的,方差分析的目的,将观测条件不同而引起的系统差异与

2、随机因素引起的偶然差异用数量形式区别开来,以确定在实验中有没有系统性因素在起作用。,例1 某公司希望对新进销售人员进行销售培训以保证销售业绩。如何培训才能达到好的效果成为公司关注的问题。为此设置了两组培训课程。为了比较它们的有效性,进行了一项实验:随机选择三组新进销售人员,每组五人。 一组接受A课程销售训练 一组接受销售B课程销售训练 另一组C没有参与任何训练(对照组) 当前两组的训练课程结束后,三组人员都开始实践。两个星期后统计了各组销售人员的销售记录如下:,销售培训会提高销售人员的业绩吗?,不仅不同组中销售员的业绩有区别,同一组中接受相同培训的销售员的业绩也有区别,销售业绩:,组内差异:随

3、机因素造成 组间差异:培训和随机因素造成 如果三组销售人员的平均业绩没有显著差别(组间差异不明显),则说明销售训练失败 如果接受销售训练的销售人员的业绩显著突出,则说明销售训练成功,影响业绩的因素:,培训课程,随机因素:如个人特质、运气,从上表可以看出,各组样本数据差异较大,尤其是3组与1、2组的均值具有一定的差异。这是否说明销售训练会提高销售业绩呢?当然这种差异也许是由于随机因素所造成,所以需要进行统计检验。,方差分析的假设为:,如果原假设成立,说明培训对销售业绩没有显著影响,组间差异与各组内差异都是随机因素造成的。,如果备择假设成立,说明培训对销售业绩有显著影响,各组内的差异由随机因素造成

4、,而组间差异则由随机因素和销售训练所导致的系统性差异造成。,方差分析的术语,因素:一个独立的变量,是方差分析研究的对象。在例1中,“培训”就是一个待研究的因素。 水平:因素的不同状态就称为“水平”。分组是按因素的不同水平划分的。例1中,因素“培训”分为三个水平(A课程、B课程、无训练)。 响应变量(性能指标):在分组试验中,对试验对象所观测记录的变量称为“响应变量”,它是受“因素”影响的变量,如例1中“销售业绩”。,方差分析的类型,单因素方差分析(一维方差分析):检验由单一因素影响的一个或几个独立的响应变量的组间均值差异是否显著。如上例,一个影响因素(培训)的不同水平对一个响应变量(销售业绩)

5、的影响分析。(one-way ANOVA 过程) 单响应变量多因素方差分析:对一个响应变量是否受一个或多个因素影响进行分析,包括协方差分析。常用的是双因素方差分析。(Univariate 过程) 多响应变量多因素方差分析:研究一个或多个因素变量与多个响应变量集之间的关系。(Multivariate 过程) 重复测量方差分析:因素对响应变量影响的试验如果是重复测量的,就需要用重复测量方差分析。(Repeated Measures过程),问题的表述和假设,按实验因素水平形成分组数据 同一组中的数据看成是来自同一总体,它们有一个理论上的均值, 不同组的数据来自不同总体,一般认为这些总体具有相同方差(

6、其他条件保持不变),而它们的均值可能相同,也可能不同。 方差分析的目的:通过假设检验,判断实验因素对响应变量是否有显著影响,即各组均值是相同,还是不同 一般地,有 r个水平的因素,H0:1=2=r= 对上例,r=3,二、单因素方差分析,方差分析的检验方法:,基本思路: 判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的。 研究数据间的“变异”(也称为平方和),即离差平方和: 变异来源分解, 组内变异:随机因素造成,记作S组内。 组间变异:可能单纯由于随机因素造成,也可能是因素的不同水平造成,记作S组间。,S组内+ S组间=S总,S组间和S组内的比值反映了两种差异所占的比重

7、,该值越大说明因素各个水平引起的差异越显著,服从F分布,通过F值与其临界值的比较,推断各组均值是否相同。,结论:在0.05水平上培训对销售业绩的影响不显著。,平方和/自由度=均方和,检验统计量:,设:因素有r个水平,各水平的实验次数为nj ,得到样本数据如表,单因素方差分析的一般模型,方差分析步骤,F检验,计算各水平均值和总均值,计算检验统计量F,计算离差平方和:S,计算均方和: S/自由度,计算水平均值和总均值,2、计算离差平方和,误差项离差平方和:组内变异S组内,总离差平方和(总变异S总),水平项离差平方和:组间变异S组间,三个离差平方和的关系为:,三个离差平方和的关系为:,证明:,3、计

8、算均方和,自由度:观测值的个数约束条件数,4、计算检验统计量和假设检验,F(r-1,n-r),建立假设,本例r=3。,培训例,水平均值,计算水平均值和总均值,培训例-续,F=3.173.89,接受原假设,培训没有显著效果,单因素方差分析过程one-way ANOVA,analyzecompare meansone-way ANVOA,响应变量,因素,Contrast对话框:均值多项式比较,例如:4mean1-mean3,Post Hoc对话框:选择均值多重比较方法,方差相等时可选择的比较方法,方差不等时可选择的比较方法,与对照组的配对比较,用t检验完成各组均值的配对比较,Option对话框:输

9、出统计量,描述统计量,固定因素和随机效应的统计量,等方差检验,显示均值图,培训-销售业绩SPSS输出结果,单因素方差分析例,一DVD厂商希望了解不同年龄段(age group)的消费者对其生产的一种新型DVD的评价(dvdscore) 做单因素方差分析,画出均值图,第四组评价最高,第三组评价次高,比较第三组均值与第四组均值是否有显著差异,一、二组评价较低,五、六组评价最低,比较32岁以下和46岁以上人群是否有显著差异,用one-way ANOVA 中的contrast选项: 1)mean3-mean4 2)0.5mean1+0.5mean2-0.5mean5-0.5mean6,32岁到45岁的

10、评价无显著差异,32岁以下和46岁以上消费者的评价无显著差异,例:某企业准备上市一种新型香水,需要进行市场调研。经验表明除香水气味外,香水包装对需求也有很大影响。现对三种不同的包装、三种不同香型的香水进行测试,每种组合采用一个不同的市场调查,调查结果见下表。,三、单响应变量方差分析以双变量方差分析为例,双因素不重复试验,两因素分别为A(包装)和B(香型),A有n种水平(n=3),B有m种水平(m=3),每种因素组合只有一个样本值,这样的实验称为不重复试验。实验数据建立下表,双因素不重复试验方差分析方法,与单因素方差分析类似,总变异可分成两个因素的离差平方和及误差平方和:,方差分析表,结论:包装

11、与香型的影响都不显著,双因素重复试验,两因素分别为A和B,A有n种水平,B有m种水平,两种因素不同水平共有mn中组合,在每种因素组合(i,j)下作d次重复试验,以减轻误差的干扰,实验数据建立下表,B,双因素方差分析符号说明,双因素分析模型,在双因素模型中可以进行多种检验:,因素A的主效应检验,因素B的主效应检验,因素A和因素B的交互作用检验,双因素方差分析表,香水例,Univariate过程,数据格式,响应变量,因素,协变量,随机因素,Model对话框:模型设定,自定义模型,指定主效应,指定交互效应,指定所有两维交互效应,指定所有三维交互效应,指定所有四维交互效应,本例只有主效应,选择分解平方

12、和的方法:,指定模型类型,建立全模型,Contrast对话框:效应比较,默认:无效应比较,改变效应比较设置,比较因素每个水平的效应,因素变量每一水平都与参考水平比较:选择last或first为参考水平,因素每一水平都与其前面个水平比较,因素每一水平都与后续水平比较,Plots对话框:因变量均数分布图,选择横坐标,选择纵坐标,散点图框,Post hoc对话框:多重比较,与one-way ANOVA相同,Save对话框:保存,Option对话框,比较主效应均值,指定输出统计量,效应量估计,显示观测功效,参数估计:因变量与自变量的回归系数等,等方差检验,观测量均值对方差的图,拟合度不足的检验,香型与

13、包装方差分析结果,新食品定价和广告策略研究,为了确定新食品的定价和广告策略,某企业做了一次市场研究:选出24家商场分别以高、中、低三种价格,和高、低两种广告策略推销产品,经过一段时间之后统计各家商场的销售量,并对此作方差分析。,新食品销售的均值图,1. 销售量的价格效应较明显 2. 广告效应较不明显 3. 交互作用:低价格高广告的销量较大,方差分析表,四、协方差分析,基本思想:在方差分析中引入其它独立变量,以矫正由于非试验因素对响应变量的影响干扰方差分析的准确性。 方差分析应在“其它条件不变”下实施。但是,这一点有时难以做到。 前例:在研究价格和广告对新食品销售的影响时,如果所选择的商场规模不

14、同,也会对销售量产生影响。我们收集了各个参加试验商场的规模,做销售量对商场规模的散点图,销售量对商场规模散点图:绿色点-高广告,红色点-低广告,很明显:做高广告的商场规模偏小,低广告的商场规模较大。一般来说,规模大的商场销量较大,规模小的商场销量较小。因此,商场规模的差异可能会干扰对广告效应的评估。,将Storesiz作为协变量引入后的方差分析结果,协变量调整后的均值图,协变量调整前的均值图,广告效应变得明显了,协变量调整前,协变量调整后,协变量的作用机理,例:芬兰曾有一条法规:只有城市可以从事商业性卖酒。当这条法规取消时,人们开始担心农村的交通事故会因此增多。 一些研究者在12个乡村镇进行了

15、试验:其中4个村镇只允许商店卖酒、4个村镇商店和饭店都可以卖酒,最后4个村镇作为对照组,不许卖酒。一年后统计的交通事故数如表。 对此数据进行方差分析,发现卖酒模式对交通事故影响不显著。,结论是否可信?,影响交通事故的其他因素:由于道路状况、天气状况等的差别,有些乡镇比另一些乡镇更容易发生交通事故,选取解禁前各乡镇年交通事故数numpre为参考变量,从数据表中可以看出,第二组各城镇在未解禁前事故率就相当高,解禁后的事故率相对来说并不很高。,不同城镇的交通事故数差异很大(甚至同一试验组的城镇之间),原因何在?,accidnum,解禁后事故数vs解禁前事故数,组间相关,组内亦相关,且相关度更高,剔除

16、协变量影响后的组间变异与组内变异,协变量调整后,组间变异增大,组内变异减小,均值图比较,未考虑协变量,协变量调整后,协变量调整后,协变量调整后,卖酒模式对交通事故数影响显著,调整前调整后的成对比较,饭店里卖酒对交通事故影响最大,协方差分析中协变量的作用,减小组内变异 调整组间变异,bT为X 对Z 回归的系数,X与Z的协方差为0时 SST(Xadj)=SST(X),X与Z的组内协方差为0时 SSW(Xadj)=SSW(X),五、多响应变量方差分析,解决响应变量间的相关性带来的影响,与单响应变量比较,多响应变量方差分析例,广告策略分析 某一产品做广告,设计两种不同类型的广告,研究哪种广告策略更好

17、Hardsell, humorous 随机抽取各30人分别观看两种广告 调研问题 likability: 你有多喜欢这个产品? Intnbuy: 你购买此产品的可能性有多大?,分别进行单因素方差分析,多响应变量方差分析,本章小结,方差分析:因素不同水平对响应变量的影响是否显著 平方和分解:总平方和=主效应+交叉效应+残差平房和 因素影响显著性检验: 原假设和备择假设 F=组间变异/组内变异,本章小结-续,方差分析的类型 单因素方差分析 单响应变量方差分析 多响应变量方差分析 协方差分析,方差分析过程,多响应变量方差分析 若拒绝原假设,各响应变量分别进行方差分析及均值比较 因素效应显著性检验 如果效应显著,根据因素水平均值分布图进一步将这些差异提取出来,这就要作多重均值比较(如配对比较) 当存在非实验因素干扰协方差分析,多重比较检验方法,LSD(Least-significant difference)最小显著性差异法:用t检验完成个组均值间的配对比较。 Duncan多重极差检验:将进行比较的各组均值分成几个有显著差异的子集。一个子集中均值之间的差异不显著。 Dunnett法:指定一个组作对照组,其他各组分别与对照组进行配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论