单因素方差分析_第1页
单因素方差分析_第2页
单因素方差分析_第3页
单因素方差分析_第4页
单因素方差分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节第一节 单因素方差分析单因素方差分析 第二节第二节 双因素方差分析双因素方差分析 方差分析方差分析(analysis of variance)就是采用数理统计方就是采用数理统计方 法对数据进行分析,以鉴别各种因素及因素间的交互法对数据进行分析,以鉴别各种因素及因素间的交互 作用对研究对象某些试验指标的影响大小的一种有效作用对研究对象某些试验指标的影响大小的一种有效 方法方法. 第一节第一节 方差分析方差分析 一、问题的提出一、问题的提出 注:方差分析简记为注:方差分析简记为ANOVA. 例例1 检验不同饲料对鸡增重的效应。选用三种饲料:检验不同饲料对鸡增重的效应。选用三种饲料: A1 以

2、鱼粉为主,以鱼粉为主,A2 以槐树粉为主,以槐树粉为主,A3 以苜蓿粉为主。以苜蓿粉为主。 特选特选 24 只相似雏鸡随机分三组,每组各喂一种饲料,只相似雏鸡随机分三组,每组各喂一种饲料, 60 天后观察其重量,试验结果如下天后观察其重量,试验结果如下 10481029103210221021108010291093A3 1001112210741090110999010921107A2 10281009101210021001106010091073A1 鸡重(鸡重(g)饲料饲料 A 几个概念:几个概念:(1)所考察的试验结果(如产品质量、数所考察的试验结果(如产品质量、数 量、销量、成本等

3、)称为试验指标,简称指标。例中为量、销量、成本等)称为试验指标,简称指标。例中为 鸡的重量。鸡的重量。 (2)在试验中对所关心的)在试验中对所关心的“指标指标”有影响的、要加以有影响的、要加以 考察改变状态的原因称为因子考察改变状态的原因称为因子, 用用 A,B,C 等大写英文等大写英文 字母表示。例中为饲料。字母表示。例中为饲料。 (3)因素在试验中所取的各种不同状态称为因子的水平)因素在试验中所取的各种不同状态称为因子的水平. 因素因素 A 的的 r 个水平常用个水平常用 A1,A2,Ar 表示,其中表示,其中 r 称称 为因素为因素 A 的水平数。例中有的水平数。例中有 1 个因素,个因

4、素,3 个水平。个水平。 (4)若只考察一个因素对指标的影响,这种试验称)若只考察一个因素对指标的影响,这种试验称 为单因素试验,相应的方差分析就称为单因素方差分为单因素试验,相应的方差分析就称为单因素方差分 析析; 例中为单因素试验。例中为单因素试验。 若一个试验中同时考察两个因素,则这时对试若一个试验中同时考察两个因素,则这时对试 验所作的方差分析称为双因素方差分析;因素多于两验所作的方差分析称为双因素方差分析;因素多于两 个,相应的称为多因素方差分析个,相应的称为多因素方差分析. 试验中,使用配方试验中,使用配方 Ai下第下第 j 只鸡的重量记为只鸡的重量记为 yij, i=1,2,3;

5、 j =1,2,8. 我们的目的是研究不同饲料对鸡增重的影响是否相同。我们的目的是研究不同饲料对鸡增重的影响是否相同。 例例1(续续) 对原始数据作如下变换:每个数对原始数据作如下变换:每个数-1000 (为了处理更加简便)(为了处理更加简便) 4829322221802993A3 11227490109-1092107A2 289122160973A1 鸡重(鸡重(g)饲料饲料A (图形分析散点图) 二、单因素方差分析的统计模型二、单因素方差分析的统计模型 考虑的因素记为考虑的因素记为 A,假定它有,假定它有 r 个水平,记为个水平,记为 A1, A2, , Ar . 在每一水平下考察的指标

6、可看成一个总体在每一水平下考察的指标可看成一个总体,共共 有有 r 个总体个总体. 作如下假定作如下假定: (1)每一总体服从正态分布每一总体服从正态分布 N( i , i2), i=1, 2, r ; (2)各总体同方差各总体同方差, 即即 12 = 22= r2= 2; (3)从每个总体中抽取的样本是相互独立的从每个总体中抽取的样本是相互独立的, 即所有试验即所有试验 结果结果 yij 都独立都独立. 简而言之简而言之, 每一总体独立地服从同方差的正态分布每一总体独立地服从同方差的正态分布. 且且 这些假定的成立与否都可用统计方法进行验证这些假定的成立与否都可用统计方法进行验证. 单因素方

7、差分析单因素方差分析(single factor analysis of variance) 是要判断因素对指标是否有显著影响,归结为判断不是要判断因素对指标是否有显著影响,归结为判断不 同总体是否有相同分布的问题同总体是否有相同分布的问题. . 012 : r H 因为各总体方差相同,所以要判断因素对指标是否因为各总体方差相同,所以要判断因素对指标是否 有显著影响,就化为比较各水平下的均值是否相同即有显著影响,就化为比较各水平下的均值是否相同即 检验检验 其备择假设为其备择假设为 :,2 ,r 不全相同 不全相同.(常省略不写常省略不写) 对水平对水平 Ai 作了作了 m 次观察,第次观察,

8、第 i 水平的第水平的第 j 次观察为次观察为 yij ,这样可得观察资料,这样可得观察资料(若各水平观察次数不同时,略若各水平观察次数不同时,略 有不同,后叙)有不同,后叙) 合计合计 yr1, yr2 ,., yrmr . y21, y22 ,., y2m y11, y12 ,., y1m 试验数据试验数据水平水平 称第称第 i 水平下的均值与总均值的差水平下的均值与总均值的差 为为 因子因子 A 的第的第 i 水平的水平的主效应主效应, , 简称简称 Ai 的的效应效应. . 易见易见 1 1 , r i i r 记总均值为记总均值为 设设 是来自总体是来自总体 的简单随机样本的简单随机

9、样本, 则单因子方差分析的统计模型为则单因子方差分析的统计模型为 2 (,) i N (1,2,3,) ij yjm 2 ,1,2,., ;1,2,., (0,) ijiij ij yir jm N 各 相互独立且服从 其中其中ij = yij -i 称为 称为 随机误差随机误差 ii 1 0. r i i 单因子方差分析的统计模型可改写为单因子方差分析的统计模型可改写为: 012 : r H可改写为可改写为 012 :0 r H 1 2 ,1,2,., ;1,2,., 0 (0,) ijiij r i i ij yirjm N 各相互独立且服从 方差分析是通过对误差的分析研究来检验具有相同方

10、差分析是通过对误差的分析研究来检验具有相同 方差的多个正态总体均值是否相等的一种统计方法方差的多个正态总体均值是否相等的一种统计方法. 对水平对水平 Ai 作了作了 m 次观察,第次观察,第 i 水平的第水平的第 j 次观察为次观察为 yij ,这样可得观察资料,这样可得观察资料(若各水平观察次数不同时,略若各水平观察次数不同时,略 有不同,后叙)有不同,后叙) T 合计合计 Tr yr1, yr2 ,., yrmr . T2y21, y22 ,., y2m T1 y11, y12 ,., y1m 平均和和试验数据试验数据水平水平 1 y 2 y r y y 记总观察次数记总观察次数 ,组平均

11、值,组平均值 , 三三. 平方和分解平方和分解 总平均值总平均值 及及 nr m 1 1 m iij j yy m 111 11 rmr iji iji yyy nr 1. 组内偏差与组间偏差组内偏差与组间偏差 1 1 m iij j m 111 11 rmr iji iji nr 与与 (图形分析散点图) 1 y 2 y 3 y y 组间偏差组间偏差: : 反映了组内数据与组反映了组内数据与组 内平均的随机误差内平均的随机误差 组内偏差组内偏差: : 反映了随机误差反映了随机误差和第和第 i 个水平的效应个水平的效应 () () ijiiijiiiji yy () () iiiii yy 则

12、则 2. 偏差平方和与自由度偏差平方和与自由度 设有设有 k 个数据个数据 x1, x2 , .,xk ,且且 , 1 1 k i i xx k 偏差平方和偏差平方和: : 2 1 () k i i Qxx 反映了数据的集中或分散反映了数据的集中或分散 程度程度, ,即数据波动的大小即数据波动的大小 自由度自由度: :平方和中独立的随机变量的个数平方和中独立的随机变量的个数. . 由于由于 1 ()0 k i i xx , ,所以平方和中独立的偏差个数为所以平方和中独立的偏差个数为 k-1,-1, 2 1 () k i i Qxx 的自由度为的自由度为 fQ = k-1 因此因此 均方和均方和

13、: : Q Q MS f 反映了每个自由度上数据的离散程度反映了每个自由度上数据的离散程度, , 排除了自由度的干扰排除了自由度的干扰 3. 总平方和分解公式总平方和分解公式 总偏差平方和总偏差平方和: : 它反映了观测数据它反映了观测数据 总的变异程度总的变异程度 组间组间( (因子因子A A的的) ) 偏差平方和偏差平方和: : 反映因子反映因子A的不同的不同 水平效应间的差异水平效应间的差异 组内组内( (误差误差) )偏偏 差平方和差平方和: : 反映了随机误差反映了随机误差 ij对对 试验结果影响的总和试验结果影响的总和 ST =SA +Se , f T = f A +f e 平方和

14、分解公式平方和分解公式 2 11 )1(, rm Ti i Tj j Syfyn 2 1 2 1 1() , () r Ai i r i i A i frSmyy m 2 11 2 11 (1)() , () rm eiji ij rm iji ij e fr mSryny 定理定理1:1: ijiiji yy iii yy (1) Se /2 2 2 (n - r), 从而从而 E(Se)=(n-r) 22 1 ()(1) r Ai i E Srm 进一步进一步, ,若若0 0成立,成立,则则 2 ()(1) A E Sr 定理定理2:2: (2) SA /2 2 2 (r-1), (3)

15、SA 与与 Se 独立独立. 对水平对水平 Ai 作了作了 m 次观察,第次观察,第 i 水平的第水平的第 j 次观察为次观察为 yij ,这样可得观察资料,这样可得观察资料(若各水平观察次数不同时,略若各水平观察次数不同时,略 有不同,后叙)有不同,后叙) T 合计合计 Tr yr1, yr2 ,., yrmr . T2y21, y22 ,., y2m T1 y11, y12 ,., y1m 平均和和试验数据试验数据水平水平 1 y 2 y r y y 4. 检验方法检验方法 若若SA显著地大于显著地大于Se,说明,说明 间的差异显著地大于随间的差异显著地大于随 机误差,那么机误差,那么 H

16、0 可能不成立可能不成立. i y 1 AA ee MSSr F MSSnr 取检验统计量取检验统计量 (1,)FF rnr 当当 H0 成立时成立时, 因此拒绝域为因此拒绝域为 1 (1,) WFFrn r 5、方差分析表、方差分析表 (analysis of variance table): f T= n - 1ST总和总和 MSe=Se / fef e= n - rSe误差误差 F=MSA / MSe MSA=SA / fAf A = r - 1SA因素因素 比比均方和均方和自由度自由度平方和平方和方差来源方差来源 注:数据复杂时,采用注:数据复杂时,采用EXCEL软件可得到分析结果,并

17、软件可得到分析结果,并 可给出检验的可给出检验的 p 值即值即 p=P(XF), 其中其中X F(r-1,n-r) 1 (1,),FFrnr 若则认为因子A显著,各正态均值间有显著差异 判断:判断: 1 (1,),. FFrnr 0 若则说明因子A不显著,保留原假设H 例例1(续续1) 试验结果如下试验结果如下,试检验不同饲料对鸡增重的效试检验不同饲料对鸡增重的效 应。应。 10481029103210221021108010291093A3 1001112210741090110999010921107A2 10281009101210021001106010091073A1 鸡重(鸡重(g

18、)饲料饲料A 解解(1)列出数据计算表(对原始数据作一个线性变换(列出数据计算表(对原始数据作一个线性变换(yij- 1000) 合计合计 4829322221802993A3 11227490109-1092107A2 2891221609731 数据(原始数据数据(原始数据-1000)水平水平 线性变换不影响方差分析的结果线性变换不影响方差分析的结果 取取=0.05.得得0.95(2,21)=3.47, 而而F=3.5953.47.拒绝拒绝 0. 故认为因子故认为因子A是显著的是显著的,即三种饲料对鸡的增重有明显即三种饲料对鸡的增重有明显 差别差别. 四四. 数据结构式及其参数估计数据结构

19、式及其参数估计 1. 数据结构式数据结构式 ,1,2,., ;1,2,., ijiij yirjm 其中其中为总体均值,为总体均值,i为第为第 i 个水平的效应个水平的效应, 且且 1 0 r i i ij 为试验误差为试验误差, 2 0( ,) ij N 各各相相互互独独立立且且服服从从 在上述结构式下在上述结构式下, 2 (,) iji yN i=1,r, j=1, ,m 且独立且独立 2. 点估计点估计 用最大似然估计法可求出一般平均用最大似然估计法可求出一般平均,各主效应各主效应i 和误差方差和误差方差 2 2的估计的估计. 总平均总平均的估计的估计: 主效应主效应i 的估计的估计:

20、误差方差误差方差2 的估计的估计: 各水平均值各水平均值i 的估计的估计: y ii y ,1,2,., ii yyir 22 11 1 () rm e Miji ij S yy nn 由于它不是由于它不是2 的无偏估计的无偏估计, 实用中采用实用中采用: 2ee e SS fnr MSe 置信区间置信区间 由于由于 且两者独立且两者独立, 故故 故故,各水平均值各水平均值i 的的1- 置信区间为置信区间为 () () / ii e ee y tf Sfm , Se /2 2 (n - r), 2 (,) ii yN m 1/2 ()/ ie ytfm 注:单因子试验的统计分析可得如下三个结果

21、注:单因子试验的统计分析可得如下三个结果: (1) 因子因子 A 是否显著是否显著. (2) 试验的误差方差试验的误差方差 2 的估计的估计. (3)各水平均值各水平均值i 的点估计与区间估计的点估计与区间估计. (此项在因子此项在因子A不显著时无需进行不显著时无需进行) 五五. 重复数不等情形下的方差分析重复数不等情形下的方差分析 1. 数据略有不同数据略有不同 TTn 合计合计 Tr yr1, yr2 ,., yrmr mr r . T2 y21, y22 ,., y2m2 m2 T1 y11, y12 ,., y1m1 m1 平均和和试验数据试验数据重复数重复数水平水平 1 y 2 y

22、r y y 设因素设因素 A 有有 r 个水平个水平A1,A2, , Ar . 且第且第 i 水平水平Ai下重复进行下重复进行 mi 次试验次试验, i=1, ,r, 获如下数据获如下数据: 2. 基本假定、平方和分解、方差分析及判断准则相同基本假定、平方和分解、方差分析及判断准则相同 计算公式稍有不同。特别注意计算公式稍有不同。特别注意 SA 的计算公式!的计算公式! 统计模型为统计模型为: 记记 1 2 ,1,2,., ;1,2,., 0 (0,) ijiiji r ii i ij yirjm m N 各相互独立且服从 1 i iij j m Ty T y n i i i T y m 11

23、1 i rr iji iji m TyT 1 1 1 r ii i r i i m n nm 其中其中 2 22 1111 (),1 ii rr TijijT iji mm j T Syyyfn n 22 2 11 (),1 rr i AAi ii i i TT Syyfr n m m 2 11 (), i r eijTAei m ij SyySSfnr 则各平方和公式为:则各平方和公式为: 例例2 茶是一种饮料,它含有叶酸(茶是一种饮料,它含有叶酸(folacin),这是一种维他命),这是一种维他命B。 如今要比较各种茶叶中的叶酸含量。现选定绿茶,这是一个因子,如今要比较各种茶叶中的叶酸含量

24、。现选定绿茶,这是一个因子, 用用A表示。又选定四个产地的绿茶,记为表示。又选定四个产地的绿茶,记为A1, A2, A3, A4,它是因子,它是因子 A的四个水平。测定试验误差,需要重复。选用不平衡设计,即的四个水平。测定试验误差,需要重复。选用不平衡设计,即 A1, A2, A3, A4分别制作了分别制作了7,5,6,6个样品,共有个样品,共有24个样品。试对之进个样品。试对之进 行方差分析,从中可得到什么结果?行方差分析,从中可得到什么结果? 因子因子A的水平的水平数数 据(毫克)据(毫克) A17.96.26.68.68.910.19.6 A25.77.59.86.18.4 A36.47

25、.17.94.55.04.0 A46.87.55.05.36.17.4 0.95(3,20) 3.10F 0 H 2 2.09 若取显著性水平若取显著性水平=0.05查表可得查表可得 由于由于F3.10,故应拒绝原假设,故应拒绝原假设 即认为四种绿茶的叶酸平均含量有显著差异即认为四种绿茶的叶酸平均含量有显著差异 从方差分析表上还可以获得从方差分析表上还可以获得 诸均值的参数估计诸均值的参数估计 10.9751 (20)/ytm 8.272.0860 1.45/78.271.14 故均值故均值 1 的的95%的置信区间是的置信区间是7.13,9.41 思考:思考: 方差分析中的检验与两个独立正态

26、总体方差分析中的检验与两个独立正态总体 (方差未知且相等)中均值差的检验有何(方差未知且相等)中均值差的检验有何 异同?异同? 补充一:多重比较补充一:多重比较 在确认因子在确认因子 A 的的 r 个水平均值间有显著差异的情况下,进个水平均值间有显著差异的情况下,进 一步要问:哪些水平均值间确有显著差异,那些水平均值间无一步要问:哪些水平均值间确有显著差异,那些水平均值间无 显著差异,这就要进行多重比较显著差异,这就要进行多重比较 同时比较任意两个水平间有无显著差异的问题称为多同时比较任意两个水平间有无显著差异的问题称为多 重比较问题重比较问题 121323 012013023 HHH:,:,

27、: 譬如,譬如,r=3 时,同时检验如下三个假设时,同时检验如下三个假设 若若r较大,要同时检验较大,要同时检验 个假设,即个假设,即: 2 r C 0 ,1 ij ij Hijr: 多重比较多重比较 2 (,) iji yN 0 ,1 ij ij Hijr: 因此拒绝域形式:因此拒绝域形式: ijij ij Wyyc 同时考虑同时考虑 考察因子考察因子A的的r个水平,每个水平下重复数为个水平,每个水平下重复数为mi .假设诸试验数据假设诸试验数据 i y i ,则,则样本样本均值均值应是应是的良好估计,的良好估计, 若假设为真,若假设为真, ij yy 0 ij H 不应过大,过大就应拒绝不

28、应过大,过大就应拒绝 下面讨论临界值 cij 的确定:(分两种情况) (1)重复数相等情况的多重比较重复数相等情况的多重比较 (Tukey 法法) ij H0 经计算,对给定显著性水平经计算,对给定显著性水平, 1 ( ,)/ ee cqr fMSm 1 ( ,) e qr f ( ,) e q r f 其中其中 是统计量是统计量 的抽样分布的的抽样分布的1- 分位数。分位数。 拒绝域形式:拒绝域形式: ij ij Wyyc 在各水平试验次数相同时,诸临界值可认为相同,记为在各水平试验次数相同时,诸临界值可认为相同,记为c 0 ,1 ij ij Hijr : 例(第一节中例续)检验不同饲料对鸡增重的例(第一节中例续)检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论