




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、警惕过多地假设检验。你对数据越苛求,数据会越多地向你供认,但在威逼下得到的供词,在科学询查的法庭上是不容许的。 Stephen M.Stigler第第 3 章章 方差分析方差分析Analysis of variance ANOVA第第 3章章 方差分析方差分析3.1 方差分析引论 3.2 单因素方差分析3.3 双因素等重复方差分析3.4 双因素非重复方差分析3.1 方差分析引论方差分析引论3.1.1 方差分析及其有关术语3.1.2 方差分析的基本思想和原理3.1.3 方差分析的基本假定为什么不做两两比较?为什么不做两两比较?1.设有四个总体的均值分别为m1 、 m2、m3 、 m4 ,要检验四
2、个总体的均值是否相等,每次检验两个的作法共需要进行6次不同的检验,每次检验犯第一类错误的概率为,连续作6次检验犯第类错误的概率增加到1-(1-)6=0.265,大于0.05。相应的置信水平会降低到0.956=0.7352.一般来说,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加,(并非均值真的存在差别)3.方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设什么是方差分析什么是方差分析(ANOVA)?1.检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等2.研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量两个或多个
3、 (k 个) 处理水平或分类一个数值型因变量3.有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量什么是方差分析什么是方差分析? (例题分析例题分析)消费者对四个行业的投诉次数 行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758【 例例 】什么是方差分析什么是方差分析? (例题分析例题分析)1.分析4个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响2.作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相
4、等3.若它们的均值相等,则意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;若均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异方差分析中的常用术语 1.试验的结果称为指标; 2.影响试验指标的条件称为因素(因子) (factor) ,用字母A,B,C, 等表示; 3.因素(因子)在试验中所处的状态称为该因素(因子)的水平(treatment); 4.观察值在每个因素水平下得到的样本数据 方差分析的基本思想和原理方差分析的基本思想和原理(图形分析图形分析散点图散点图)不同行业被投诉次数的散点图不同行业被投诉次数的散点图020406080012
5、345行业被投诉次数 零售业 旅游业 航空公司 家电制造方差分析的基本思想和原理方差分析的基本思想和原理(图形分析图形分析Mean/SD/1.96*SD箱线箱线图图)1.96*Std. Dev.1.00*Std. Dev.MeanBox & Whisker Plot0102030405060708090零售业旅游业航空公司家电制造业方差分析的基本思想和原理方差分析的基本思想和原理(图形分析图形分析)1.从散点图上可以看出不同行业被投诉的次数有明显差异同一个行业,不同企业被投诉的次数也明显不同家电制造被投诉的次数较高,航空公司被投诉的次数较低2.行业与被投诉次数之间有一定的关系如果行业与
6、被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近方差分析的基本思想和原理方差分析的基本思想和原理1.散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异这种差异可能是由于抽样的随机性造成的2.需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源方差分析的基本思想和原理方差分析的基本思想和原理(两类误差两类误差)1.随机误差因
7、素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差 2.系统误差因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差方差分析的基本思想和原理方差分析的基本思想和原理(误差平方和误差平方和SS)1.数据的误差用平方和(sum of squares)2.组内平方和(within groups)因素的同一水平下数据误差的平方和比如,零售业被投诉次数的误差平方和只包含随
8、机误差3.组间平方和(between groups)因素的不同水平之间数据误差的平方和比如,4个行业被投诉次数之间的误差平方和既包括随机误差,也包括系统误差方差分析的基本思想和原理方差分析的基本思想和原理(均方均方MS)1.平方和除以相应的自由度2.若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近13.若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于14.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响判断行业对投诉次数是否有显著影响,也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不
9、同行业对投诉次数有显著影响方差分析的基本假定方差分析的基本假定1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个行业被投诉的次数必须服从正态分布2.各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,4个行业被投诉次数的方差都相等3.观察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立方差分析中的基本假定方差分析中的基本假定1.在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等2.如果4个总体的均值相等,可以期望4个样本的均值也会很接近4个样本的均值越接
10、近,推断4个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分 方差分析中的基本假定方差分析中的基本假定u 如果原假设成立,即H0 : m1 = m2 = m3 = m44个行业被投诉次数的均值都相等意味着每个样本都来自均值为m、方差为 2的同一正态总体 方差分析中的基本假定方差分析中的基本假定u若备择假设成立,即H1 : mi (i=1,2,3,4)不全相等至少有一个总体的均值是不同的4个样本分别来自均值不同的4个正态总体 方差分析的基本假定方差分析的基本假定(图形分析图形分析正态概率图正态概率图)Normal Probability Plot零售业投诉次数Expec
11、ted Normal Value-1.6-1.2-0.8-0.40.00.40.81.21.6303540455055606570Normal Probability Plot旅游业投诉次数Expected Normal Value-1.6-1.2-0.8-0.40.00.40.81.21.6253545556575Normal Probability Plot航空公司投诉次数Expected Normal Value-1.4-1.0-0.6-0.20.20.61.01.418243036424854Normal Probability Plot家电制造业投诉次数Expected Normal
12、 Value-1.4-1.0-0.6-0.20.20.61.01.4404550556065707580 单因素方差分析单因素方差分析u方差分析的最基本的形式就是单因素分析。单因素方差分析可用于检验两个以上的总体均值相等的假设。重点:单因素方差分析的思想和方法;难点:单因素方差分析的原理,步骤,方差分析中的多重比较。3.2 单因素方差分析.2.1 模型和数据结构.2.2 因素效应的显著性检验因素效应的显著性检验.2.3 关系强度的测量.2.4 因素各水平均值的估计与比较单因素方差分析的例子单因素方差分析的例子(例例3.2)u有四个不同的实验室试制同一型号的纸张,为比较产品质量的优劣,考查了纸张
13、的光滑程度,测量了每个实验室生产的8张纸,得到光滑度的数据如下表所示.u问各实验室生产的纸张质量是否有显著差异?四个实验室四个实验室实验室实验室 纸张光滑度纸张光滑度 A1 38.7 41.5 43.8 44.5 45.5 46.0 47.7 58.0 A2 39.2 39.3 39.7 41.1 41.8 42.9 43.3 45.8 A3 34.0 35.0 39.0 40.0 43.0 43.0 44.0 45.0 A4 34.0 34.8 34.8 35.4 37.2 37.8 41.2 42.4 纸张光滑度试验纸张光滑度试验u试验的指标:纸张的光滑度;u因素(因子):纸张的生产者(实
14、验室);u因素水平:不同的实验室就是该因素的不同水平,共有4个水平。u试验的目的:考察不同实验室生产的纸张的光滑程度有无显著差异.u本例是一个单因素4水平的方差分析问题。纸张光滑度试验纸张光滑度试验 在本例中,我们在因素的每一个水平下进行独立试验,其结果是一个随机变量,表中数据可以看作来自四个不同总体的样本值.将各总体均值记为m1, m2, m3, m4 ,需检验假设 H0: m1= m2= m3= m4 H1: m1, m2, m3, m4不全相等. 方差分析方差分析u进而假设各总体均为正态变量,且各总体的方差相等,但参数未知。u这是一个检验同方差的多个正态总体均值是否相等的问题。u方差分析
15、是检验若干个具有同方差的正态总体的均值是否相等的一个假设检验问题。一一.单因素方差分析模型单因素方差分析模型 设因素A有a个水平A1 , A2, ., Aa , 在水平Ai (i=1,2, .,a)下,进行ni次独立试验,试验指标的观测值列成下表单因素方差分析问题的观测数据单因素方差分析问题的观测数据因素的水平因素的水平样样 本本A1y11y12. .y1n1A2y21y22. .y2n2. . . . . .Aiyi1yi2. .yini. . . . . .Aaya1ya2. .yana1.1.单因素方差分析的前提假设单因素方差分析的前提假设u设指标变量为Y,影响Y的因素为A,它有a个水平
16、A1 , A2, . , Aa.u在水平Ai上对Y进行ni次独立观测,观测值为yi1, yi2, .,yini(i =1, 2, .,a).u对于i =1, 2, .,a ,假设iiijnjNy, 2 , 1),(2m单因素方差分析问题的观测数据单因素方差分析问题的观测数据因素的水平因素的水平样样 本本总总 体体A1y11y12. .y1n1N(m m1, 2)A2y21y22. .y2n2N(m m2, 2). . . . . .Aiyi1yi2. .yiniN(m mi, 2). . . . . .Aaya1ya2. .yanaN(m ma, 2)2. 方差分析模型方差分析模型令 相互独立
17、随机误差ijijiijiijNnjaiy m m, ), 0(, 2 , 1, 2 , 1,2方差分析模型为:方差分析模型方差分析模型进一步,令第i个水平Ai 的效应 i = mi -m显然有aiiaiiinnnn11,1其中m mm m01aiiin aiiiijijijiijnNy120), 0( m m相互独立诸方差分析模型成为方差分析模型成为ainji, 2 , 1;, 2 , 1(3.2)二二. 因素效应的显著性检验因素效应的显著性检验1.方差分析的目的 在前例中,来自四个实验室的数据可以看作来来自来自四个不同总体的样本值.将各总体均值记为m1, m2, m3, m4 ,需检验假设
18、H0: m1= m2= m3= m4 H1: m1, m2, m3, m4不全相等.1.方差分析的目的方差分析的目的方差分析:就是检验线性统计模型中a个 总体N(mi, 2)中各mi的相等性。原假设: H0: m 1m2.ma对立假设:H1: m i m j 至少有一对i, j假设等价于: H0:1 2.a= 0 H1:i 0,至少有一个i2.观测数据变化量的分解观测数据变化量的分解u为便于讨论,令i =1, 2, ,a于是 injijiiyny11aiiiainjijynnynyi11111u总平方和uSST反映了全部试验数据与总平均值之间的差异.ainjijTiyySS112)(2.观测数
19、据变化量的分解观测数据变化量的分解u记uSSE表示在Ai水平下的样本值与样本均值之间的差异,它是由随机误差引起的,叫误差平方和,又叫组内差.ainjiijEiyySS112)(2.观测数据变化量的分解观测数据变化量的分解u记uSSA表示在A的不同水平下样本均值与总平均值之间的差异,叫做因素A的平方和,又叫组间差.ainjiAiyySS112)(aiiiyyn12)(2.观测数据变化量的分解观测数据变化量的分解 2.观测数据变化量的分解观测数据变化量的分解总平方和= 误差平方和+因素平方和 SST= SSE + SSA用代数恒等变形的方法,可以推出3.SSE与与SSA的统计性质的统计性质anSS
20、E22 ) 1(22aSSA 当当H0为真时为真时 SSE与与SSA相互独立相互独立4.4.检验统计量检验统计量当H0为真时记), 1()() 1(anaFanSSaSSFEA的均方称为的均方称为EEEAAASSanSSMSSSaSSMS,1所以,当H0为真时设由样本数据算得的统计量F的值为f,记对于给定的显著性水平 ,若p ,则拒绝H0.), 1(anaFMSMSFEAfFPpH04.4.检验统计量检验统计量F分布与拒绝域分布与拒绝域单因素方差分析表单因素方差分析表方差来源 自由度 平方和均方F 值 p 值因素Aa- -1SSAp误差n- -aSSE总和n-1-1SST1aSSMSAAanS
21、SMSEEEAMSMSf 四个实验室生产的纸张质量是否有显著差异四个实验室生产的纸张质量是否有显著差异( ( =0.05) =0.05)?实验室实验室 纸张光滑度纸张光滑度 A1 38.7 41.5 43.8 44.5 45.5 46.0 47.7 58.0 A2 39.2 39.3 39.7 41.1 41.8 42.9 43.3 45.8 A3 34.0 35.0 39.0 40.0 43.0 43.0 44.0 45.0 A4 34.0 34.8 34.8 35.4 37.2 37.8 41.2 42.4 单因素方差分析的例子单因素方差分析的例子(例例3.2)纸张光滑度的方差分析表纸张光
22、滑度的方差分析表(例例3.2)方差来源 自由度平方和均方F 值p值因素A3294.881 98.294 6.03 0.0027误差28456.599 16.307总和31751.479u结论: 由于检验p值为0.0027 mj ;若区间(3.19)在零的左边,则以1-的置信度认为mi mj.),(22 jijiyyyyEjiMSnnant)11()(212 因素各水平均值的估计与比较因素各水平均值的估计与比较 2. 各对均值差异的置信区间 例3.2中,由(3.19)式可得,两均值差mi -mj 的置信度 为95%的置信区间分别为 m1 -m2: (-0.098,8.173);m1 -m3:(1
23、.202,9.473) m1 -m4:(4.327,12.598); m2 -m3:(-2.836,5.436) m2 -m4:(0.289,8.561); m3 -m4:(-1.011,7.261) 因此,可以95%的置信度断言: m1 显著大于m3, m1 显 著大于m4, m2 显著大于m4.因素各水平均值的估计与比较因素各水平均值的估计与比较3. 多重比较及Bonferroni同时置信区间(由LSD法改进) 当因子A显著时,对于一切i j ,共有个假设称为多重比较. 可用mi -mj 的置信区间对以上检验作出判断. 若该区间包括零,可以1-的置信度断言mi 与mj 无显著差异,即接受原
24、假设 ,否则拒绝 .)(1212aaCmajiijjiijHHm mm mm mm m:,:10ijH0ijH0因素各水平均值的估计与比较因素各水平均值的估计与比较 ),(33jijiyyyyEjiMSnnantm)11()(213m13. 多重比较及Bonferroni同时置信区间 为构造这m个置信度不小于1-的置信区间,只需 要对每个mi -mj 求置信度为 的置信区间,即 (3.20) 其中, . 称为Bonferroni同时置信区间.因素各水平均值的估计与比较因素各水平均值的估计与比较 3. 多重比较及Bonferroni同时置信区间 例3.2中,因素水平数a = 4,得m = 6,当
25、 = 0.05 时, /6 = 0.0083,而t0.9958(28) = 2.839,由(3.20)式, 可求得各mi -mj 的置信度不小于95%的置信区间分别为 m1 -m2:(-1.695,9.770); m1 -m3:(-0.395,11.070) m1 -m4:(2.730,14.195); m2 -m3:(-4.432,7.032) m2 -m4:(-1.307,10.157);m3 -m4:(-2.607,8.857) 因此,可以同时置信区间至少95%的置信度下断言: m1 显著大于m4.多重比较的意义多重比较的意义(LSD法法)1.通过对总体均值之间的配对比较来进一步检验到底
26、哪些均值之间存在差异2.可采用Fisher提出的最小显著差异方法,简写为LSD3.LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的 LSD是一种数据统计方法,英文为:least significance difference,中文成为最小显著性法,在SPSS里面可以进行这种方法进行分析。 LSD是进行多个组数据的多重比较的,在SPSS里面,这个LSD是在ANOVA(方差分析)里面出现的。 比如,你要分析山东、河南、河北三个省份的男人的身高比较。那么需要你去三地进行随机测量,也就是随便找到一堆男人进行身高的测量。回来后将这些数据按照省份分为三组。然后在SPSS里面进行方差分析,方差分析只能告诉你这三个省份里面是不是至少有一个省份的男人身高不同于其它两个省份,但不能进行省份之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025管理人员岗前安全培训考试试题带答案(培优A卷)
- 2024-2025企业管理人员安全培训考试试题及参考答案【综合卷】
- 2024-2025厂级职工安全培训考试试题a4版打印
- 2025建筑设备租赁合同范本2
- 2025辽宁省家庭居室装饰装修合同(LF)
- 2025专业版汽车租赁合同模板
- 2025资金协调项目居间合同
- 2025年石墨化工设备项目建议书
- 2025贷款服务合同范本
- 2025年石油产品添加剂:燃料油添加剂项目合作计划书
- 《汽车专业英语》2024年课程标准(含课程思政设计)
- 卫生间翻新施工方案
- 小学数学二年级第二学期口算计算共3031道题
- 专题04 水和溶液(解析版)
- 网络安全知识基础培训课件
- 广东省云浮市(2024年-2025年小学六年级语文)统编版小升初模拟((上下)学期)试卷及答案
- 宿舍课件教学课件
- 律师聘用合同证书协议书
- 2025届新高考Ⅰ卷高考高三模拟考试语文试卷(二)(含答案解析)
- 电子技术试卷期末试卷2
- 大单元教学学历案3 走月亮(精读引领课) 统编版语文四年级上册
评论
0/150
提交评论