




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二十五课方差分析当影响观察结果的影响因素(原因变量或分组变量)的水平数大于 2 或原因变量的个数大于 1 个,一元时常用 F 检验(也称一元方差分析),多元时用多元方差分析(最常用 WilksA 检验)。方差分析概述方差分析(analysisofvariance)又称变异数分析,可简记为 ANOVA,主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。 当欲比较几组均值时, 理论上抽得的几个样本, 都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。所谓的
2、方差是离均差平方和除以自由度,在方差分析中常简称为均方 MS(meansquare)。1 .方差分析的基本思想根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出各部分的均方,然后列出方差分析表算出F值,作出统计推断。方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。方差分析表的一般形式见表 25.1 所示:表 25.1 方差分析表形式变异来源离差平方和自由度均方F 统计量P 概率值sourceSSdfMSFP效应SISS1d
3、f1MSI=SS1/df1F1(df1,dfe)=MS1/MSePI效应 S2SS2df2MS2=SS2/df2F2(df2,dfe)=MS2/MSeP2,效应 Sm,SSm,dfm,MSm=SSm/dfm,Fm(dfmdfe)=MSm/MSePm误差 SeSSedfeMSe=SSe/dfe总变异 STSST=SS1+SS2+,+SSm+SSedfT=df1+df2+,+dfm+dfeMST=SST/dfTFT(dfT,dfe)=MST/MSePT表中变异来源一栏,可分为总变异(total),误差(residual),各个效应(effect)相对应的项。效应项与试验设计或统计分析的目的有关,一
4、般有:主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。当分析和确定了各个效应项 S 后,根据原始观察资料可计算出各个离均差平方和 SS,再根据相应的自由度 df,由公式 MS=SS/df,求出均方 MS,最后由相应的均方,求出各个变异项的 F 值,F 值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。根据F 值的分子、分母士方的自由度 f1和 f2,在确定显著性水平为 0 情况下,由F(f1,f2)临界值表查得单侧F界限值。当F,不拒绝原假设H。,说明不拒绝这个效应项的效应为0的原假设,也即这个效应项是可能对总变异没有实质影响的;如果
5、F之FQ,则上海财经大学经济信息管理系 IS/SHUFEP PMot,拒绝原假设Ho,说明拒绝这个效应项的效应为 0 的原假设,也即这个效应项是很可能对总变异有实质影响的。2 .方差分析的试验设计为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值, 按原来设计方案算出方差分析表中的各项。 在试验设计阶段常需要作主要四个方面的考虑:1)研究的主要变量方差分析的主要变量,也称响应变量或因变量(dependentvariable),它是我们试验所要观察的主要指标。一次试验时可以有多个观察指标,方差分析时也可以同时对多个因变量进行分析。2)因素和水
6、平试验的因素(factor)可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(level)。在每一个因素下面可以分成若干水平。例如,某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?所要比较的地区就是因素,四个地区便是地区这一因素的四个水平。当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时, 必要时可作两两水平间的比较, 称为均值间的两两比较。3)因素间的交互影响多因素的试验设计,有时需要分析因素间的交互影响(interaction),2 个因素间的交互影响称为一级交互影响,例如因素 A 与因素 B 的一级交互影响可记为 AxB,3 个因素间的
7、交互影响称为二级交互影响,例如因素 A 与因素 B 与因素 C 的二级交互影响可记为 AxBx&当交互影响项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。二、单因素方差分析单 因 素 方 差 分 析(onefactorANOVA 或 one-wayANOVA) 或 称 为 完 全 随 机 设 计 的 方 差 分 析(completelyrandomdesignANOVA)。试验设计时按受试对象的抽取或分组的随机程度不同可细分为以下两类:完全随机设计一一从符合条件的总体中完全随机地抽取所需数目的受试对象,再将全部受试对象完
8、全随机地分配到 k 组中去。此时,受试对象与试验因素间无直接联系。组内完全随机设计一一按试验因素的 k 个水平将全部受试对象划分成 k 个子总体,再分别从 k 个子总体中完全随机地抽取所需数目的受试对象。此时,试验因素的各水平决定了受试对象各自应该归属的组别。设因素A有 k 个水平A,A2,,A,在每一个水平下考察的指标可以看成一个总体,现有 k 个水平,故有 k 个总体,并假定:每一总体均服从正态分布;每一总体的方差相同;从每一总体中抽取的样本相互独立。我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第体的均值为此,那么就是要检验如下原假设:上海财经大学经济信息管理系 I
9、S/SHUFEi 个总Hi:1,2,,k不全相同。设从第 i 个总体获得容量为 n n 的样本观察值为yii,yi2,,y*,i i=1,2=1,2,k,k,各样本间还是相互独立的。样本观察值yj可看成是来自均值为匕的总体,这样yj就是其均值巳与随机误差aj迭加而产生的。上面我们已经假定在A水平下的yj服从N(,。2)分布,则有的N(0,02)。因此,我们有单因素方差分析的统计模型:,ij=凡+%,i i=1,2, ,k, ,j=1,2, ,ni各囱相互独立,且都服从 N(0N(0O2) )为了能更仔细地描述数据,常在方差分析模型中引人一般平均与效应的概念。称各个匕的加权平均1 1k口“n n
10、$ $nynyk为总平均,其中 n n= = m m。称i1ai-i-J,i=1,2,k(25.3)为因素 A 在第 i 水平的主效应,也简称为 A 的效应,同时也表明第 i 个总体的均值是一般平均与其效应的迭加。容易看出效应间有如下关系式:k、* *i3 3i=0=0(25.4)i1此时,单因素方差分析的统计模型可改写成包含效应的形式:=N+阳,i=1,2,,k,j=1,2,,小kna=0(25.5)iT、各句相互独立,且都服从N(0,。2)所要检验的原假设也可改写成:H0:a1=a2=ak=0现在,我们知道造成各yj间差异的原因可能有两个:一个可能是假设H0不真,即各水上海财经大学经济信息
11、管理系 IS/SHUFE其备选假设为:(25.1)(25.2)平下总体均值(或水平效应 a)不同,因此从各总体中获得的样本观察值也就有差异了;另一可能是H0为真,差异是由于随机误差引起的。为了进一步定量分析这些差异,我们需要把这些差异表达出来。由(25.1)可推导出:=-N,(25.6)Ini其中y*=Zyj/ni,嬴=句/口。即组内样本观察值的平均值等于组内总体均值加上ij1组内随机误差的平均值。还可由(25.5)推导出:y-;(25.7)knikni其中y=yj/n,z%。即所有样本观察值的平均值等于总平均(各组均值的iz1j4i4j4加权平均)加上所有随机误差的平均值。这样,每一个观察值
12、yj与总平均 y 的偏差可以分解成两部分:%y=也yj)位.一9)(25.8)其中yij-Yi称为组内偏差,由(25.1)和(25.6)代入得到:yij-yi.=(i;ij)-(,i;i)二;ij-;i(3.2.9)说明组内偏差仅仅反映了随机误差。而YQy称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:y.-y=(5;)(;)=ai(25.9)说明第 i 组间偏差除了反映随机误差外还反映了第 i 个水平白效应aiO各yj间总的差异大小可用总偏差平方和ST表示:kniST二二(yij-y)2(25.10)yj日由(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也
13、称误差偏差平方和Se:kniSe=(yij-yj(25.11)idjd由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异可以用组间偏差平方和表示,也称因素 A 的偏差平方和SA:上海财经大学经济信息管理系IS/SHUFE来假设检验。三、多重比较当 k 组均值比较,如果经过 F F 检验拒绝原假设,表明因素 A A 是显著的,即 k 个水平对应的指标均值不全相等,但不一定两两之间都有差异。在一些实际问题中,当方差分析的结论是因素 A A 显著时,还需要我们进一步去确认哪些水平间是确有差异的,哪些水平间无显著差异。同时比较任意两个水平均值间有无显著性差异的问题称为多重比较
14、,即要以显著性水平u,同时检验以下 C C;个假设:2SA=y)y)i1将表示总差异的平方和进行分解:knikniST八(yij-y)2-%(yij7i.yi.-y)2i4j4i4j4kniknikni(yij-yj一七二(Vi.-y)22%(yij-y/Si.T)ijji4ji4jknik八%(yj-%J2八nMy-y)2i3jWi1=SeSA(25.12)(25.13)ni其中工(yjy)=0。证明了:总的差异=组内差异+组间差异。由于j11ni1ni土”(yij-y)=土(;ij-。22(ni-1)-j1j-j1(25.14)又由丁2分布的可加性可知Se2CJkini|k=|2工(yij
15、yji=*(ni1)=?2(nk)i3j三-i凸(25.15)还可证明,在H0为真时,即各组效应&都为 0SA22 (k(k- -d)d)O(25.16)因此可采用统计量SA/(1)SeZ(n-k)F(k-1,n-k)(25.17)H0:片=i:二j,i,j=1,2,k均值间的多重比较的方法从形式上可分为几类: 临界值相对固定的两两比较、 临界值不固定的多级检验、全部处理组均值与一个对照组均值比较。每一种类型中,根据所控制误差的类型和大小不同,又有许多不同的具体方法。如 T(成组比较 t 检验法)、Bon(Bonforronit 检验法)、Dunnett(与对照组均数比较)、SNK(S
16、tudent-Newman-Keuls 或称 q 检验法)、Tukey(学生化极差 HSD 或称最大显著差)、Duncan(新多极差检验法)、LSD(最小显著差)、SIDAK(Sidak 不等式进行校正 t 检验法)、SCHEFFE(Scheffe 的多重对比检验)、Waller-Duncan(k 比率 t 检验)、GT2 或 SMM(学生化最大模数和 Sidak 不等式进行校正 t 检验法)、REGWF(多重 F 检验)、REGWQ(多重极差检验)。在多重比较时,选用什么样的检验方法,首先要注意每种方法适用的试验设计条件,其次要关心所要控制的误差类型和大小。例如,某因素有 10 个水平,若采
17、用通常的 t 检验进行多重比较,共需要比较的次数为C120=45次,即使每次比较时都把第一类错误a控制在 0.05水平上,但经过 45 次多重比较后,犯第一类错误的概率上升到:1-(1-0.05)45=0.90。从中我们可以看到选用 t 检验法进行多重比较,仅仅控制了每次比较的显著水平,但却大大增加了整体的显著水平。下面是所要控制的几种误差类型和选用的检验方法:第一类误差率一一即犯第一类错误的概率 a a。比较误差率一一即每一次单独比较时,所犯第一类错误的概率。可使用 T 法、LSD 法、DUNCAN法。试验误差率一一即完成全部比较后,整体所犯第一类错误的概率。完全无效假设下的试验误差率一一即
18、在HO假设完全无效下的试验误差率。可使用SNK 法。部分无效假设下的试验误差率一一即在HO假设部分无效下的试验误差率。最大试验误差率一一即在在HO假设完全或部分无效下,完成全部比较后所犯第类错误的最大概率。 可使用BON法、 SIDAK法、 SCHEFFE法、 TUKEY法、 GT2/SMM法、 GABRIEL法、REGWQ 法、REGWF 法、DUNNETT 法。1)T 检验和 Bonforroni 检验当因素有 k 个水平时,对任意两个水平均值间的差异的显著性检验,可用两两比较的次数共有m=C:=k k(k-1k-1)/2/2, ,因此,共有m个置信水平,每次比较的显著水平:T 检验的方法
19、取 a a。完成所有比较后的整体显著水平等于1-(1-二)由(25.21)当比较次数m越大,试验误差就越大。而 Bonforroni 检验的方法取口/m/m。完成所有比较后(25.18)t 统计量(25.19)上海财经大学经济信息管理系 IS/SHUFE当 yi+-yyi+-yj生 LSDLSDj时,则 P PMotMot。3)SNK 检验和 Duncan 检验(应用最多)SNK 法和 Duncan 法都属于多级检验法中的一种,使用多级检验可以获得同时检验的更高效率。多级检验分为步长增加法和步长减少法,SAS 系统采用步长减少法。当因素有 k 个水平时,即有 k 个均值需要比较,检验步骤为:1
20、将均值由大到小排队,即y1之y2之,;yk.。2比较.与yk涡否有显著差异。此时跨度 a a= =k k。若两者之间无显著差异,说明其他均值之差比它小的任何两个水平均值之间的差别也无显著性,所以停止一切比较;反之,则继续进行下一步。3比较工与Vk,比较y2与Vk是否有显著差异。此时这 2 个比较的跨度a=k-a=k-1 1。若两者之间的比较无显著差异,则停止一切比较。如果每一步都有不满足停止比较的对比组存在,最后应到达跨度为 2 的所有需要比较的相邻两水平均值间都作完比较时为止。多级检验在作每一级比较时,通过控制比较误差率aa的显著水平来实现其最终要控制的试验误差率。要注意的是在每一级比较时可
21、能是不同的,它是跨度a和整体试验误差率口的函数,即=f(a,u)。另外,要注意的是 y ya a 其实就是每一级比较时特定统计量分布的显著水平。常用的两种方法是 SNK 检验和 Duncan 检验。它们的检验统计量为 q(也称学生化极差统计量),如下yi一yj/,xqj-q(a,n-k)Se1十1(25.24):2(n-k)jinj其中a是.和yj/间的跨度值,q q 分布的自由度是a和 n-k,n-k,显著水平为乙SNK检验和 Duncan 检验的区别主要在于?a a取值上海财经大学经济信息管理系 IS/SHUFE的整体显著水平等于1(1Y/m)m:(25.22)即最大试验误差率小于1a。2
22、)LSD 检验既可以通过两两比较的显著水平的特定限制来控制最终的试验误差率,也可以通过两两比较的绝对差异界限来判别显著性。最容易想到的这个界限就是在两两比较中采用的法而得到 Fisher 最小显著差(LSD)为t 检验(25.23)LSDj=t:万11一十一JinjSNK 检验:工=u。注意,当比较次数很大时,最大试验误差率将趋向于 1。Duncan 检验:?a=1_(1_ot)a。四、随机单位组设计的方差分析随机单位组设计(randomizedblockdesign)又称随机区组设计或随机配伍组设计,它是两样本配对试验的扩大。欲比较因素 A 中的 k 个水平的各个均值,试验设计时,先将受试对
23、象按性质相同或相近者组成单位组,每个单位组有 k 个受试对象,分别随机分配到因素 A 的k 个水平上。这时每个水平的受试对象,不仅数量相同,而且性质也相同或相近,就能缩小误差,提高试验效率。这样的设计可将单位组看作一个因素,就成为两个因素的设计(因素与单位组),由于两个因素的各水平仅仅交叉 1 次,所以重复数为 1,在这样的意义下,随机单位组设计可看作为两因素重复数为 1 的设计,一般这种设计不考虑交互影响。设有因素A具有 k 个水平,受试对象按性质相同或相近者分成 b 个单位组,每个单位组有 k 个受试对象,分别随机分配到因素 A 的 k 个水平上。那么,随机单位组设计的方差分析表见表 25
24、.2 所不表 25.2方差分析表形式变异来源离差平方和自由度均方F 统计量P 概率值sourceSSdfMSFP因素 ASSAk1MSA=SSA/(k-1)FA=MSA/MSePA单位组SS单b1MS单=SS单/(b-1)F单=MS单/MSeP单误差 SeSSebkkb+1MSe=SSe/(bk-k-b+1)总变异STSST=SSA+SS单+SSebk1MST=SST/(bk-1)FT=MST/MSePTSS 计算公式为y yj= =y,*,y,*,fk_SSSSA=b=bx x(A(Ai-y)-y)2i1b_SSSS2 2立组(B-y)(B-y)2j1kb_SSSS;=、(y(yij-A-A
25、i-B-Bjy)y)2i凸jm五、析因设计的方差分析析因设计(factorialdesign)是一种多因的设计。各因素在试验中所处的地位基本平等,而且因素之间存在一级(即 2 个因素之间)、二级(即 3 个因素之间)乃至更复杂的交互作用。例如,两个因素时,第 1 个因素有 3 个水平,第 2 个因素有 2 个水平,全部水平组合共有 3X2=6 种组合,每种组合都作试验时就是析因试验设计,也可称为 3X2 析因试验设计。同样3X4X2 析因试验设计,则代表 3 个因素,分别有 3,4,2 个水平,全部试验后的水平组合为 3X4X2=24 种。在每一种组合下,适当重复几次,称为重复数。重复数可以不
26、相等,一般上海财经大学经济信息管理系 IS/SHUFE地说,重复数相等时,效率最高。析因设计能够检验每个因素的各水平间主要变量的平均值的统计差异,也能检验因素间的交互影响。当存在交互影响时,表示一个因素各水平间的差异会随着另一个因素的水平改变而不同;当不存在交互影响时,则各个因素独立,即一个因素的水平改变时不影响另一个因素的各个水平之效应。析因设计的方差分析因为能研究交互影响,所以能提供较多信息。但是,当有较高级(二级以上)的交互影响时,由于涉及多个因素,各有多个水平,情况将错综复杂,可能会引起解释上的困难。析因设计的方差分析同样是从数据差异的总平方和开始分解。例如,对于AxB双因素方差分析,
27、这个总差异能分解成:A 因素的各个水平之间的差异,B 因素的各个水平之间的差异,A 与 B 的各种不同组合之间的差异,以及观察数据必然会产生的随机误差这四部分。方差分析的主要目的就是要将这四部分从总平方和中分离出来,再以各个平方和与误差平方和作比较。假设 A 因素有 r 个水平,B 因素有 c 个水平,每一种水平下的重复数为 m,那么总的观察数据有 n=rxcxm个,方差分析表见表 25.3 所示:表 25.3 双因素(rxc)重复数m的方差分析表形式变异来源离差平方和自由度均方F 统计量P 概率值sourceSSdfMSFP因素 ASSAr1MSA=SSA/(r-1)FA=MSA/MSePA
28、因素 BSSBc1MSB=SSB/(c-1)FB=MSB/MSePBAXBSSAB(r-1)(c-1)MSAB=SSAB/(r-1)(c-1)FAB=MSAB/MSePAB误差 SeSSerxcx(m-1)MSe=SSe/(rc(m-1)总变异STSST=SSA+SSB+SSAB+SSerxcxm-1MST=SST/(rcm1)FT=MST/MSePTSS 计算公式为rcm_SST二、(丫冰-y)i1jTkT=卜冰yj)+(%-ABj+y)+(Ay)+(Bjy)2六、拉丁方设计的方差分析若试验中涉及到 3 个因素,当它们之间不存在交互作用或交互作用可以忽略不计,且各因素均取相同水平时,适合于选
29、择拉丁方设计。用 K 个拉丁字母排成 K 行 K 列的方阵,使每行每列中每个字母仅出现 1 次,这样的方阵称为拉丁方(latinsquare)。然后将 3 个因素分别四个 5X5 的拉丁方为:上海财经大学经济信息管理系 IS/SHUFE放置到拉丁方的行、列及字母上面。例如,三个4X4 的拉丁方为:ABCDBADCDCBACDABABCDBADCCDABDCBAABCDDCBABADCCDABABCDEBCDEACDEABDEABCABCDECDEABEABCDBCDEAABCDEDEABCEABCDBCDEAABCDEEABCDDEABCCDEABEABCDDEABCCDEABBCDEA使用时
30、可选择其中一个。拉丁方试验设计的关键是这 3 个因素之间不存在交互作用或者交互作用可以忽略不计,一般情况是仅涉及到 1 个试验因素,因此就不存在交互作用。试验因素有 K 个水平(如 A、B、C、D、E),还有 2 个是非处理因素,或者说是 2 个区组因素,让这 2 个区组因素也正好取 K 个水平,同时把这 2 个区组因素放在 KXK 拉丁方阵的横向和纵向上,构成了KXK 个区组水平组合,每种组合下伴有试验因素 K 个水平中的 1 个水平。七、procanova 和 procglm 过程SAS 系统的 STAT 软件提供了 anova 过程和 glm 过程等几个过程进行方差分析。anova过程主
31、要处理均衡数据,所谓均衡数据是指自变量(或称分类变量)的每种组合中的观察数是相等的,如果不相等则称为非均衡数据。虽然 glm 过程能够处理均衡和不均衡的两种数据,但是 anova 过程考虑到均衡设计的特殊构造,对于均衡数据使用 anova 比使用 glm 计算快且占用存储少,还可以处理拉丁方设计、若干不完全的均衡区组设计等等。因此,无论何时作方差分析,一旦可能都应该用 anova 过程来完成。如果试验设计不均衡,也不是上述的几种特殊情况之一,那么应该使用 glm 过程。1.anova 过程的语句格式anova 过程的主要控制语句如下:procanova 输入数据集名选项列表;class 变量列
32、表;model 因变量列表=自变量列表/选项列表;means 效应列表/选项列表;testH=效应列表E=效应列表;run;其中 class 语句、model 语句是必需的,而且 class 语句必须出现 model 语句之前。test 语句必须放在model 语句之后。1) procmeans 语句中的选项列表。manova按多元方式删除那些含有丢失值的观察,也即在因变量中有丢失值就从这次分析中删除这个观察。outstat=输出数据集名生成一个输出数据集,它包含模型中每个效应的平方和、F 统计量和概率水平。2) class 语句。在 anova 过程中要使用的分类变量、区组变量必须首先在 c
33、lass 语句的变量列表中说明。Class 语句是必需的,且必须放在 model 语句前面。Class 变量可以是数值型,也可以是字符型。3) model 语句。该语句用来规定因变量和自变量效应。如果没有规定自变量的效应,则只拟合截距,假设检验为因变量的均值是否为 0。Model 语句的主要形式有四种:主效应模型Modely=abc;含有交叉因素的模型Modely=abca*ba*cb*ca*b*c;上海财经大学经济信息管理系 IS/SHUFE嵌套模型Modely=abc(ab);包含嵌套、交叉和主效应的模型Modely=ab(a)c(a)b*c(a);Model 语句的选项列表有:int打印
34、与截距有关的假设检验结果。anova 过程总是把截距作为模型的一个效应进行处理,缺省时,不打印结果。nouni 不打印单变量分析结果。4) means 语句。该语句是用来计算在 means 语句后列出的每个效应所对应的因变量均值。Anova 过程可以对出现在 model 语句等号右边的任一效应计算因变量的均值。不过这些均值没有针对模型中的效应进行修正。如果需要修正的均值,应该调用 glm 过程,使用其中的 lsmenas 语句。在 anova 过程里可以使用任意多个 means 语句,它们放在 model 语句后面。Means 语句的选项列表主要有两个内容,一是选择多重比较的检验方法,二是规定
35、这些检验的细节,注意这些细节选项只能用于主效应。多重比较的检验方法bon 对所有主效应均值之差进行 Bonferroni 的 t 检验。duncan 对所有主效应均值进行 Duncan 的多重极差检验。dunnett进彳DDunnett 的双尾 t 检验。用以检验对所有主效应均值的某个水平作为对照,处理有无显著差异。为了规定这个对照效应的水平,在括号内用单引号把这个水平的格式化值括起来。缺省时,效应的第一个水平作为对照。dunnettl进彳DDunnett 的单尾 t 检验。它检验是否任一个处理显著地小于这个对照。dunnettu进彳DDunnett 的单尾 t 检验。它检验是否任一个处理显著
36、地大于这个对照。gabriel 对所有主效应均值进行 Gabriel 的多重对比检验。regwf 对所有主效应均值进行 Ryan-Einot-Gabriel-Welsch 的多重 F 检验。regwq 对所有主效应均值进行 Ryan-Einot-Gabriel-Welsch 的多重极差检验。scheffe 对所有主效应均值进行 Scheffe 的多重对比检验。sidak对所有主效应均值水平依据 Sidak 不等式进行调整后,对其均值之差两两进彳 Tt 检验。Smm|gt2 当样本量不等时,基于学生化最大模和 Sidak 不相关 t 不等式,等到Hochberg 的 GT2 方法,对主效应均值进
37、行两两对比检验。snk 对所有主效应均值进行 Student-Newman-Keuls 的多重极差检验。t|lsd-对所有主效应均值进行两两 t 检验,它相当于在单元观察数相等时 Fisher的最小显著差(Fishersleast-significant-difference)检验。tukey 对所有主效应均值进行 Tukey 的学生化极差检验。waller 对所有主效应均值进行 Waller-Duncan 的 k 比率(k-ratio)检验。多重比较的检验细节alpha=p给出均值间对比检验的显著性水平。缺省值是 0.05。cldiff要求把两两均值之差的结果用置信区间的形式输出。clm对变
38、量的每个水平的均值按置信区间形式输出。e=效应一一指定在多重对比检验中所使用的误差均方。如果缺省,使用残差均方(MS)。指定的效应必须是在 model 语句中出现过的效应。上海财经大学经济信息管理系 IS/SHUFEb 和 c 代表分类变量;y1、y2、Modely=x1;Modely=x1x2;Modely=x1x1*x1;Modely1y2=x1x2;Modely=a;Modely=abc;Modely=aba*b;Modely=ab(a)c(ba);x1 和 x2 代表连续变量。(简单回归)(多重回归)(多项式回归)(多元回归)(单因素方差分析)(主效应模型)(因素模型)(嵌套模型)kr
39、atio=值给出 Waller-Duncan 检验的类型 1/类型 2 的误差限制比例。Kratio 的合理彳 1 为 50、100、500,大约相当于两水平时 alpha 值为 0.1、0.05、0.01。缺省值为 100。lines按下降次序列出所有检验方法产生的均值,并用一条线段在均值旁指出非显著的子集。hovtest 要求输出组间方差齐性的 Levene 检验。5) test 语句在分析中,如果这个语句缺省,仍然使用残差均方(MS)作为误差项对所有平方和(SS)计算 F值。但用户可以使用本语句要求使用其他效应作为误差项,得到另外的 F 检验。可以使用多个 test 语句,把它们放在 m
40、odel 语句后面。Test 语句的选项为:h=效应一一规定模型里哪些效应用来作为假设的效应。e=效应一一规定一个而且只能是一个效应用来作为误差项,这个说明项是必须的。2.glm 过程的语句格式procglm 是分析符合一般线性模型(GeneralLinearModels)的数据,因此取名 GLM。它能被用在许多不同的分析中,如简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等。在 glm 过程中的大多数方差分析的语句和选项与 anova 过程中基本相同。用 anova 过程编写的程序几乎不用修改就可在 glm 过程中运行。glm 过程仅仅是附加了三条语
41、句:contrast、estimate 和lsmeans。contrast 和 estimate 语句允许你测试和估计均值的某种功能。lsmeans 语句允许你计算调整后的均值。glm 过程的主要控制语句如下:procglm 输入数据集名选项列表;class 变量列表;model 因变量列表=自变量列表/选项列表;contrast,标签, 效应值表/选项列表estimate,标签, 效应值表/选项列表lsmeans效应列表/选项列表;means效应列表 /选项列表;outputout=输出数据集名统计量关键字=变量名列表;testH=效应列表E=效应列表;run;其中 class 语句、mod
42、el 语句是必需的,而且 class 语句必须出现 model 语句之前。其他语句必须放在 model 语句之后。下面主要介绍与 anova 过程相比不同的语句和新增加的语句。1) model 语句。在 glm 过程的 model 语句中可以使用几种不同效应,下面是使用这些效应的几个例子,a、上海财经大学经济信息管理系 IS/SHUFEModely1y2=ab;(多元方差分析模型)Modely=ax1(协方差分析模型)Model 语句的主要选项有(与 anova 过程中的 model 语句选项相同不再列出)solution 打印正规方程的解,即参数估计值。e1/e2/e3/e4打印模型中每一效
43、应的类型 1/类型 2/类型 3/类型 4 的可估函数,并计算相应的平方和。ss1/ss2/sS3/ss4对每个效应,才 T T 印与类型 1/类型 2/类型 3/类型 4 的可估函数相关的平方和。alpha=0.01/0.05/0.1指定置信区间的 ot 水平。缺省值为 0.05。cli/clm打印每一观察的预测值/预测均值的置信限,两者不能同时使用。p 打印自变量没有缺失值的每一观察值、预测值和残差值。同时还打印 Durbin-Waston统计量。xpx打印叉积矩阵 XXXX。i打印矩阵 XXXX 的逆矩阵或广义逆矩阵。2) contrast 语句。提供一种获得一般假设检验的技巧。其中,效
44、应可以是截距,用字符 intercept 表示。通过规定 L L 向量或 M M 矩阵来构造一元假设检验 LPLP=0=0 或多元假设检验 LPMLPM=0=0。例如,当发现某两个因素的交互作用项有显著性时,我们可用本语句来实现一个因素被控制在某水平上,对另一个因素的各水平间进行两两比较的目的。设 M 因素有三个水平 a、b、c,V 因素有两个水平 1、2,且 M MMV有显著性。如果我们要比较1 1-(.c)2 2的差异,那么有几种不同的比较方法:在因素 V 的每一个水平上,分别比较因素 M 的三个水平 a、b、c 均值的之间的线性关系假设是否显著。也即H0:Na1-0.5b1-0.5c1=
45、0和H0:Na2-0.5b2-0.5c2=0。2在因素 V 平均的所有水平上,比较因素 M 的三个水平 a、b、c 均值的之间的线性关系假设是否显著。也即H0:0.5(a1-0.5b1-0.5c1)+0.5(a2-0.5b2-0.5c2)=0o3在因素 V 平均的子集上,比较因素 M 的三个水平 a、b、c 均值的之间的线性关系假设是否显著。也即H0:(匕1-0.5%-0.5、)-(-2-05匕-0.5,2)=0glm 模型为双因素试验设计的方差分析指定了下面的效应公式:=L(:-)ij其中,是因素Mi水平与因素Vj水平在 ijij 单元上所有观察值的平均。N为总平均。%是因素 M M 在 i
46、 i 水平上的主效应,Pj是因素 V V 在 j j 水平上的主效应,(aPaP)j为因素 M M 和因素 V V上海财经大学经济信息管理系 IS/SHUFE(25.25)在 ijij 水平上的交互效应。因此,对任一观察值有yijk二,ij.;ijk=J.L.1(二M)ij;ijk因此,根据单元均值给出的线性组合可以转换成效应模型的合并参数形式,即 LPLP=0,=0,如a10.5b10.5c1-:a(郊)a1-0.5;-05b-0.5-1-0.5(:)b1-0.5-05c-0.5-1-0.5(:)c1=:a-0.5:b-0.5:c(:-)a1-0.5(:)b1-0.5(:)c1同理a2-0.
47、5%-0.5%2=1a-05b-05c(-)a2-0.5(:)b2一0.5(二一)c2相应的 glm 过程的语句为procglm;classMV;modelY=MVM*V;contrastavsb,cinv1M1-0.5-0.5M*V10-0.50-0.50;contrastavsb,cinv1M1-0.5-0.5M*V010-0.50-0.5;run;Contrast 语句中的可选项:e 打印整个 L 向量。e=效应一一规定模型中的某个效应作为误差项。过程将把这一效应作为单变量 F 检验的分母。如果缺省,过程把均方误差(MSE)作为误差项。etype=n 指明 e=效应的类型(1、2、3、4
48、)。如果指明 e=而没有指明 etype=,则使用最高类型。3) Estimate 语句可用来估计参数的线性函数,通过用参数的估计 b b 乘以向量 L L 来得到 LbLb。其中b=(XX)XY。Estimate 语句的使用格式同 contrast 语句。estimate 语句中的可选项:e 打印整个 L 向量。divisor=数字一一为简便地输入效应的系数而规定的一个值,用该值除以所有系数使得分数系数可以作为整数输入。例如estimate1/3(a+b)2/3cM11-2/divisor=3;可替代estimate1/3(a+b)2/3cM0.333330.33333-0.66667;4)
49、 Lsmeans 语句计算列在语句中的每一效应的最小二乘均值(LSM)。最小二乘均值估计是针对非均衡数据设计的,而类和子类的算术平均值是针对均衡数据设计的。lsmeans 语句中的可选项:cov 在选项 out=指明的输出数据集中输出协方差。e打印用以计算最小二乘均值的可估函数。(25.26)上海财经大学经济信息管理系 IS/SHUFEe=效应一一规定模型中的某个效应作为误差项。etype=n 指明 e=效应的类型(1、2、3、4)。out=输出数据集名一一产生一个包含 LSM 值、标准差及协方差的输出数据集。pdiff 一一打印假设检验Ho:LSM(i)=LSM(j)的所有可能的概率值。st
50、derr 一一打印 LSM 的标准差和H0:LSM=0的概率值。tdiff 一一打印假设检验H0:LSM(i)=LSM(j)的 t 值和相应的概率值。pdiff=all/control/conroll/controlu 打印最小二乘均值之差的概率值。adjust=bon/dunnett/scheffe/sidak/smm/gt2/tukey/t 要求多重比较对最小二乘均值之差的概率值和置信限进行调整。缺省值为toslice=效应通过规定的这个效应来分开交叉的 LSM 效应。例如,假定交叉项 A*B 是显著的,如果想对 B 的每个效应检验 A 的效应,使用下面语句:lsmeansA*B/slic
51、e=B;八、实例分析1.单因素试验设计的均值比较例25.1考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试, 每种品牌的材料做四次试验,且都是采用的同一种磨损措施,所有的试验都是在完全随机的顺序下在相同的机器上完成的。程序如下:datastudy.veneer;inputbrand$wear;cards;ACME2.3ACME2.1ACME2.4ACME2.5CHAMP2.2CHAMP2.3CHAMP2.4CHAMP2.6AJAX2.2AJAX2.0AJAX1.9AJAX2.1TUFFY2.4TUFFY2.7TUFFY2.6TUFFY2.7XTRA2.3XTRA2.5XTRA2.3XT
52、RA2.4;procanovadata=study.veneer;classbrand;modelwear=brand;meansbrand;meansbrand/hovtest;/方差齐性检验run;程序说明:因为数据仅仅是按照 brand 值分类,所以在 class 语句中这是仅有的一个变量。变量 wear 是被分析的因变量,故 wear 出现在 model 语句等号的左边。在方差分析表中,除了总方差和误差外,方差的来源仅仅是由于各种不同 brand 值的变异造成的,因此 brand 出现在 model 语句等号的右边。Means 语句计算主效应 brand 不同水平所对应的因变量均值,选
53、项hovtest 计算不同品牌组方差齐性的假设检验。上海财经大学经济信息管理系 IS/SHUFE输出的结果见表 25.4 所示:TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesBRAND5ACMEAJAXCHAMPTUFFYXTRANumberofobservationsindataset=20/20 个记录,自由度 19SourceDFAnalysisofVarianceProcedureDependentVariable:WEARSumofSquares/tssMeanSquareFV
54、aluePrFModel40.61700000/组间误差0.154250007.400.0017Error150.31250000/组内误差0.02083333CorrectedTotal190.92950000R-SquareC.V.RootMSEWEARMean0.6637986.1551200.144337572.34500000SourceDFAnovaSSMeanSquareFValuePrFBRAND40.617000000.154250007.400.0017LevenesTestforEqualityofWEARVarianceANOVAofSquaredDeviationsf
55、romGroupMeans/齐性检验SumofMeanSourceDFSquaresSquareFValuePrFBRAND40.0006590.0001650.53100.7149Error150.004660.00031表 25.4 单因素设计的方差分析结果结果分析:anova 过程总是输出两个基本的方差分析表。一个是总体模型的方差分析表,一个是包含模型中各个变量的方差分析。首先输出 class 语句中规定的每个变量(brand)、分类变量的取值数(5)、具体取值(ACMEAJAXCHAMPTUFFYXTRA)以及数据集中的观察个数(20)。接着 anova 过程对 model 语句中每个
56、因变量输出方差分析表。包括:因变量的总平方和(0.9295)、属于模型部分的平方和(0.6170)、属于误差部分的平方和(0.3125)、自由度 DF(4、5、19)、模型的均方 MS(0.15425=0.617/4)、误差的均方 MSE(0.02083333=0.3125/15)、2模型的 F 值(7.40=0.15425000/0.02083333)、分布大于 7.40 的概率(0.0017)、R R(0.663798=0.617/0.9295)、变异系数 CV(6.155120=100X00.0208333/2.345)因变量的上海财经大学经济信息管理系 IS/SHUFE标准差(0.14
57、433757=)0.0208333)、因变量均值(2.345)。对模型中的每个效应,anova 过程还输出方差分析表。brand 自由度 DF(4)、平方和(0.617)、均方MS(0.15425=0.617/4)、F 值(7.40=0.15425000/0.02083333)、分布大于 7.40 的概率(0.0017)。总体 F 检验是显著的(0.00170.05),表明模型是有意义的。品牌 brand 的 F 检验也是显著的(0.00170.05)不同品牌组里观察值的方差是相等的原假设。最后输出的是每种品牌的观察数、 均值和标准差。 例如, ACME 品牌的观察数为 4,均值为 2.325
58、00000,标准差为 0.17078251。2.均值的多重比较和置信区间例 25.2 继续上例的分析。由于品牌 brand 的 F 检验是显著的(0.00170.239,则为显著,所以品牌 TUFFY 的均值不同与 AJAX,应该标识不同的字母。因为存在 5 个均值之间最大差的显著性,接下来就需要比较 4 个均值之间差的显著性,临界值为 0.2346。2.6002.325=0.2750.2346,显著,2.3752.050=0.3250.2346,显著,只要存在一个显著性,就需要继续比较3 个均值之间差的显著性。虽然,均值 2.600、2.375 和 2.375 之间的差小于 0.2280,均
59、值 2.375、2.375 和 2.325 之间的差也小于 0.2280,但由于存在 2.375-2.050=0.3250.2280,显著,继续比较 2 个均值之间差白显著性。2.6002.375=0.2250.2175,显著,2.3252.050=0.2750.2175,显著,其他相邻两均值比较不显著。表 25.5(b)各组均值的 t 检验置信区间TConfidenceIntervalsforvariable:WEARAlpha=0.05Confidence=0.95df=15MSE=0.020833CriticalValueofT=2.13HalfWidthofConfidenceInte
60、rval=0.153824LowerUpperBRANDNConfidenceMeanConfidenceLimitLimitTUFFY42.446182.600002.75382XTRA42.221182.375002.52882表 25.5(b)中结果分析:均值 t 分布的 95%置信区间的一半宽度为 0.153824,因此 TUFFY 品牌均值置信区间的下限为 2.6000.153824=2.44618,上限为 2.600+0.153824=2.75382。其他品牌均值的置信区间计算,同样是均值加减 0.153824 而得到的。表 25.5(c)lsd 最小显著差检验上海财经大学经济信息管理系 IS/S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四上数学家长会发言稿
- 时间管理法则培训课件
- 美术项链艺术创作全解析
- 中考美术状元课件
- 二零二五年度服装厂临时职工劳动合同解除条件及责任
- 梁宜2025版离婚协议书针对子女未来职业规划及辅导安排b
- 二零二五版婚礼场地租赁合同含婚礼现场礼品赠送
- 2025版化妆品经销商区域总代理合同范本
- 2025版大数据资源共享技术服务合同TFJEMIA10
- 2025版高速公路紧急通道护栏采购协议
- 中医刮痧拔罐培训课件
- 简约美缝施工合同协议书
- 湖南省永州市祁阳市2025年中考模拟道德与法治仿真试卷(三)(含答案)
- 2025年纸杯机行业市场调研报告
- 国家职业技术技能标准 6-21-07-01 工艺品雕刻工 劳社厅发20031号
- 培训班合伙人合同协议
- 山东益丰生化环保股份有限公司50000吨年高效环保助剂技改项目环境影响报告书
- 设计高效的污泥综合利用余热锅炉
- 静脉输血的考试题及答案
- 水表检定员考试题及答案
- 中医基础理论课件体质学说
评论
0/150
提交评论