




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章 方差分析方差分析是分析试验数据的一种统计方法。在应用中经常要分析各种因素及因素间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动分解为由所考察因素引起的波动和随机因素等引起的波动,然后通过分析比较这些变差(波动)来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。第一节 单因素方差分析例3.1.1 为了比较五种牌子的合成木板的耐久性,对每个牌子取四个样品做摩擦试验,测量磨损掉的板材量,磨损量小的牌子质量是较好的。木板磨损数据见以下数据行,根据磨损程度我们从以下几个方面来比较五种牌子。一概括多组数据1比较各组的常规统计量使用SORT和MEANS过程从几个组分别概括数据的方法之一是求各个组的均值、方差、标准差等常用描述统计量。data veneer;input brand $ wear ;cards;ACME 2.2 ACME 2.1 ACME 2.4 ACME 2.5 CHAMP 2.2 CHAMP 2.3 CHAMP 2.4 CHAMP 2.6 AJAX 2.2 AJAX 2.0 AJAX 1.9 AJAX 2.1TUFFY 2.4 TUFFY 2.7 TUFFY 2.6 TUFFY 2.7XTRA 2.3 XTRA 2.5 XTRA 2.3 XTRA 2.4;proc print data=veneer;title 木板数据;proc sort data=veneer;by brand;proc means data=veneer;by brand;var wear;title 木板数据的概括;run;输出的部分结果如下: - brand=ACME - The MEANS Procedure Analysis Variable : wear N Mean Std Dev Minimum Maximum 4 2.3000000 0.1825742 2.1000000 2.5000000- brand=AJAX - Analysis Variable : wear N Mean Std Dev Minimum Maximum 4 2.0500000 0.1290994 1.9000000 2.2000000- brand=CHAMP - Analysis Variable : wear N Mean Std Dev Minimum Maximum 4 2.3750000 0.1707825 2.2000000 2.6000000- brand=TUFFY - Analysis Variable : wear N Mean Std Dev Minimum Maximum 4 2.6000000 0.1414214 2.4000000 2.7000000- brand=XTRA - The MEANS Procedure Analysis Variable : wear N Mean Std Dev Minimum Maximum 4 2.3750000 0.0957427 2.3000000 2.5000000结果分析:brand=AJAX的平均磨损量最低,brand=TUFFY的平均磨损量最高。但这些平均磨损量的差别是否真正存在,还需要统计检验。2用直观图形比较几个组使用PROC CHART过程3使用SAS菜单系统“分析员应用”概括多组数据二多组比较单因子方差分析1建立多组比较的假设检验仅仅简单描述组之间的差别是不够的,还要知道差别有多大,是否具有统计显著差别,即进行假设检验。和:至少有两个均值不同方差分析判断由各组之间的不同引起的变差是否比纯粹由随机因素引起的变差要大。本章的方差分析是一种参数方差分析(用ANOVA过程),不是非参数方法分析(Proc Npar1way过程)。各组数据的样本量相同则称数据为均衡的,反之则称为非均衡的。拒绝H0:,各组均值有显著性差异。2用编程方法进行单因子方差分析方差分析要求数据满足以下假定:(1) 观测是独立的;(2) 观测为正态总体的样本;(3) 各组的方差相等。proc anova data=veneer;class brand;%把数据分组model wear=brand;%研究wear与brand的关系title 木板数据的方差分析;run;The ANOVA Procedure Class Level Information Class Levels Values brand 5 ACME AJAX CHAMP TUFFY XTRA Number of observations 20Dependent Variable: wear Source DF Sum of Squares Mean Square F Value Pr F Model 4 0.62300000 0.15575000 7.19 0.0019 Error 15 0.32500000 0.02166667 Corrected Total 19 0.94800000 R-Square Coeff Var Root MSE wear Mean 0.657173 6.290428 0.147196 2.340000 Source DF Anova SS Mean Square F Value Pr F brand 4 0.62300000 0.15575000 7.19 0.0019结果分析:由于,故拒绝H0,于是认为各个牌子的平均磨损有显著性差异。还可以用非参数方法进行检验,如proc npar1way data=veneer;class brand;var wear;title 木板数据的非参数检验;run; Wilcoxon Scores (Rank Sums) for Variable wear Classified by Variable brand Sum of Expected Std Dev Mean brand N Scores Under H0 Under H0 Score ACME 4 37.50 42.0 10.495112 9.3750 AJAX 4 12.50 42.0 10.495112 3.1250 CHAMP 4 45.00 42.0 10.495112 11.2500 TUFFY 4 69.00 42.0 10.495112 17.2500 XTRA 4 46.00 42.0 10.495112 11.5000 Kruskal-Wallis Test Chi-Square 11.9440 DF 4 Pr Chi-Square 0.0178结果分析:由于,故拒绝H0,均值有显著性差异。三. 多重比较如果进行方差分析后发现各组之间均值有显著性差异,那么只知道有某些均值有不同,但无法知道哪些均值不同。下面将给出在进行方差分析时如何找出哪几个均值不同。1. 几个统计术语多重比较方法是指在因变量的三个或更多个水平下均值之间进行比较的检验。MEER 控制“试验错误率”;CER 控制“比较错误率”。以木板数据为例说明。共有5种牌子,均值两两比较有10种组合。如果要控制10种比较的总错判概率(当两个均值相同时判为不同),就称为控制“试验错误率”,或称对整个试验的总错判概率。如果对10种比较中的每一种控制错判概率,就称为控制“比较错误率”,或称对每一种比较的错判概率。2用重复检验控制CER在比较几对均值时要控制CER,只要进行重复检验,每对做一次,通过控制每个检验的错误率来控制CER。proc anova data=veneer;class brand;model wear=brand;means brand / t;%执行多重t检验title 木板数据的方差分析;run; The ANOVA Procedure t Tests (LSD) for wearNOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 15 Error Mean Square 0.021667 Critical Value of t 2.13145 Least Significant Difference 0.2218 Means with the same letter are not significantly different. t Grouping Mean N brand A 2.6000 4 TUFFY B 2.3750 4 XTRA B 2.3750 4 CHAMP B 2.3000 4 ACME C 2.0500 4 AJAX结果分析:磨损情况最好的是AJAX牌子木板;最坏的是TUFFY;其余四种牌子的木板磨损程度相同。方差分析要求的第三个假定是各组方差相等,此假定可以进行检验。只需在means语句中加上选项hovtest或hovtest=levene,表示进行方差齐性检验。第二节 两因子方差分析在单因子方差分析中,讨论了影响指标的因素只有一个时的统计推断问题。但在实践中,影响指标的因素往往多个,这些因素间又有相互联系(交互作用)。两个方面的问题:如何设计试验方案,使得试验次数少而得到的信息多(试验设计问题);另一个问题是如何分析处理数据。对两因子情况,采用最简单的设计全面试验,即两个因子的所有可能水平搭配都做次试验。一两因子方差分析的模型设因子有个水平,因子有个水平,指标在条件下的试验数据满足以下模型,且相互独立。检验的假设为:(因子对指标没有影响)(因子对指标没有影响)当因子或因子对指标有显著性影响时,进一步可对因子或因子逐个进行多重比较,找出最佳的生产条件。二方差分析方法下面采用与单因素方差分析模型类似的方法导出检验统计量。设指标的总偏差平方和可分解为其中,。称为因素A的偏差平方和,反映了因素A的不同水平对指标的影响大小;称为因素的偏差平方和,反映了因素的不同水平对指标的影响大小;称为误差(或剩余)的平方和,反映除因子和以外其余因素及随机误差对指标的影响大小。和一元方差分析相类似,可以证明,当或成立时, 对给定的水平,当(或)时,我们拒绝原假设,认为因子A对指标的影响是显著的。对因子完全类似。三使用ANOVA过程进行方差分析例3.2.2 为提高合金钢的强度,同时考虑碳(C)含量(因子A)及钛(Ti)与铝(Al)的含量和(因子B)对强度的影响,目的是找出最佳的含量组合,使强度达最大。设计方案及数据如下:B1(3.3%)B2(3.4%)B3(3.5%)B4(3.6%)A1(0.03%)63.163.965.666.8A2(0.04%)65.166.467.869.0A3(0.05%)67.271.071.973.5解 程序如下:data D322;do a=a1,a2,a3;do b=b1,b2,b3,b4;input y ; output;end;end;cards;63.1 63.9 65.6 66.8 65.1 66.467.8 69.0 67.2 71.0 71.9 73.5;proc print data=D322;run;proc anova data=D322;class a b;model y=a b;means a b /t;run;The ANOVA ProcedureDependent Variable: ySource DF Sum of Squares Mean Square F Value Pr F Model 5 110.0808333 22.0161667 41.17 0.0001 Error 6 3.2083333 0.5347222 Corrected Total 11 113.2891667 R-Square Coeff Var Root MSE y Mean 0.971680 1.081593 0.731247 67.60833 Source DF Anova SS Mean Square F Value Pr F a 2 74.91166667 37.45583333 70.05 F Model 15 158.7187500 10.5812500 7.87 F a 3 70.59375000 23.53125000 17.51 .0001 b 3 8.59375000 2.86458333 2.13 0.1363 a*b 9 79.53125000 8.83680556 6.58 0.0006因子A()及因子A与B的交互作用()对指标Y的影响是高度显著的,而因子B在的水平上是不显著的()。 Level of Level of -y- a b N Mean Std Dev 0 460 2 72.0000000 1.41421356 0 520 2 72.5000000 0.70710678 0 580 2 74.0000000 1.41421356 0 640 2 76.0000000 1.41421356 4 460 2 74.0000000 1.41421356 4 520 2 75.0000000 1.41421356 4 580 2 77.5000000 0.70710678 4 640 2 74.0000000 0.00000000 8 460 2 74.5000000 2.12132034 8 520 2 78.0000000 1.41421356 8 580 2 74.5000000 0.70710678 8 640 2 73.5000000 0.70710678 12 460 2 74.0000000 1.41421356 12 520 2 72.5000000 0.70710678 12 580 2 70.5000000 0.70710678 12 640 2 69.0000000 0.00000000在A3 (8)和B2(520)的条件下得到弹性Y的最大值78,这就是最佳生产条件。第三节 SAS系统的ANOVA过程ANOVA过程对多种类型试验设计的均衡数据执行方差分析。1 简 介 ANOVA过程是SASSTAT软件中进行方差分析的几个过程之一,它是处理试验数据的方法。一个响应变量(通常称为因变量)在由分类变量(通常称为自变量)识别的试验条件下被测量。响应变量的变差可解释为归因于分类效应的误差加上随机误差。 ANOVA过程用于处理均衡数据(即对于分类变量的每种组合观测数是相等的)。虽然GLM过程能够处理均衡和不均衡的两种数据,但是ANOVA过程考虑到均衡设计的特殊构造,对于均衡数据使用ANOVA比起使用GLM不仅较快,而且使用的存贮量更少。 ANOVA过程主要处理均衡数据,除此之外,还可以处理若干不完全的均衡区组设计,完全的嵌套设计以及单元频数互相成比例,且对基本总体也成比例的设计。PROC ANOVA首先检查一下你的设计是否均衡,如果你的设计不是均衡的,也不是上述提到的几种特殊情况之一,那么你应该使用GLM过程。在这种情况下,ANOVA过程打印一条警告信息,告诉你设计不是均衡的,而且ANOVA分析无效。一、交互使用PROC ANOVA ANOVA过程可以交互地使用。用户由MODEL语句规定一个模型并用RUN语句运行ANOVA之后,种种语句(比如MEANS,MANOVA,TEST和REPEATED)还可以被执行,不必要求ANOVA过程重新计算模型的平方和。 “语句说明”部分将介绍可以交互使用的语句。这些交互使用的语句通过在单个语句或一组语句后跟随RUN语句来执行这一个或这一组语句。 注意:MODEL语句不能有重复,ANOVA过程只允许使用一个MODEL语句。 当使用交互式的ANOVA过程时,可以用DATA步,其它的PROC步,ENDSAS语句或者用QUIT语句来结束这个过程。QUIT语句的句法为 quit; 当使用交互式的ANOVA过程时,RUN语句不能结束该过程,它只是告诉ANOVA去执行RUN语句之前这些附加的语句。 当WHERE语句同ANOVA过程一起使用时,它必须在第一个RUN语句前出现。当BY语句同ANOVA过程一起使用时,交互方式无效。也就是,一旦遇到第一个RUN语句时,对该数据集每个BY组中的观测进行分析处理,而第一个RUN语句后的其它语句该过程不执行。当因变量中间有不同形式的缺失值时,交互过程也是不可能的。二、效应的说明 在SAS方差分析过程中, 区分分类水平的变量称为分类变量(classification variables)或因素,并且这些变量必须在CLASS语句中加以说明。分类变量也称为属性的(categorical)、定性的(qualitative)、离散的(discrete)或名义的变量(nominal variables)。分类变量的值称为水平。分类变量可以是数值型的,也可以是字符型的,这与因变量(也叫响应变量)不同,因变量必须是连续的数值型变量。 方差分析模型规定效应(effect),这些效应是分类变量的组合,在下面各种方式下用来说明因变量的变差: 主效应就用分类变量本身表示,如A,B,C等。主效应用于检验自变量的假设:即在这个问题里因变量的均值对该因素的每个水平是相等的,而不考虑模型里的其它自变量。 交叉效应(交互作用)通过在分类变量之间用星号(*)连接来规定,如A*B A*C A*B*C。在 这个模型中交叉项用于检验这样的假设:即一个因素的效应不依赖于交叉项里其它因素的 水平。 嵌套效应通过在主效应或交叉效应之后跟随着用括号括起来的一个分类变量或分类变量 的列表来表示。主效应或者交叉效应被嵌套在括号内列出的这些效应里。如B(A)C*D(AB)。嵌套效应检验的假设类似于交叉效应,但嵌套变量的水平对所嵌套的变量内部的每一个组合是不相同的。 效应的一般形式可以使用分类变量A,B,C,D,E和F来说明: A*B*C(D E F)首先是交叉列表,紧跟着是在括号里的嵌套变量的列表。 注意:在嵌套列表里或在左括号前面不能出现星号。 1主效应模型 对于包含因素A,B,C和因变量Y的三因素主效应模型,用ANOVA过程分析时需要的语句如下: proc anova; class a b c; model y=a b c; run; 2含有交叉因素的模型 为了在模型中规定交互作用,如上述所介绍的用星号(*)把这些效应连接起来。例如,下面这些语句规定一个完全的因子模型,该模型包含了所有的交互作用: proc anova; , class a b c; model y=a b c a*b a*c b*c a*b*c: run; 3嵌套模型 嵌套效应的表示法:首先写出将被嵌套在其它效应里的这个效应,然后在括号内写出这个其它效应。例如,如果A和B是主效应,C是被套在A和B内部的(也就是,观测到的C的水平对A和B的每个组合不相同)。用PROC ANOVA处理嵌套模型时需要的语句如下: proc anova; class a b c; model y=a b c(a b); run;因素C的水平通过包含它的那些效应的水平来识别。比如,CITY(城市)被套在STATE(国家)内部:CITY(STATE),那么CITY的水平通过STATE的水平来识别。 4包含嵌套、交叉和主效应的模型 对于包含嵌套、交叉和主效应的模型,在MODEL语句里用星号和括号来组成: proc anova; c|ass a b c; model y=a b(a) c(a) b*c(a): run; 5竖条(|)记号 下面介绍一个记号“|”(bar)。这个记号可以简化完全因子模型的说明。例如(2)中的这些语句也可以简单地写成: proc anova; class a b c; model y=a | b | c; run; 当使用“|”(bar)记号时,等号右边的表达式使用Searle(1971)给出的准则从左到右把效应展开。例如,A |B|C展开如下: A|B|CA|B|C A B A*B) |C A B A*B C A*C B*C A*B*C 此外,用户还可以规定包含在任意效应里的最大变量个数。用竖条记号表示时也可以在使用竖条(|)的表示式后加一个记号,并在之后再跟随一个数字(即变量的最大个数),以表示展开时交叉效应及嵌套效应所含变量个数的最大值。例如:规定A|B|C2,结果将只得到最多包含二个变量的交叉效应。在此种情况下为: A B A*B C A*C和B*C 使用竖条记号的另一些例子如下: A |C(B) 等价于 A C(B) A*C(B) A(B) |C(B) 等价于 A(B) C(B) A*C(B) A(B) |B(D E) 等价于 A(B) B(D E) A|B(A) |C 等价于 A B(A) C A*C B*c(A) A |B(A) |C2 等价于A B(A) C A*CA |B|C|D2 等价于A B A*B C A*C B*C D A*D B*D C*D2语句说明下面这些语句可用于ANOVA过程中: PROC ANOVA options;CLASS variables; MODEL dependents=effects 以上是必需的语句,而且必须按所列次序出现. ABSORB variables: BY variables; FREQ variables; 必须出现在第一个RUN语句之前;供选择的语句MANOVA;MEANS effects;REPEATED;TESTE=effect:可以出现在MODEL语句之后;并可以交互使用的语句. 一、PROC ANOVA语句 PROC ANOVA; PROC ANOVA语句启动方差分析过程。在PROC ANOVA语句中可以使用的选项如下: DATA=SAS-data-set(SAS数据集)规定PROC ANOVA过程分析的数据集名。如果缺省,ANOVA处理最近创建的数据集。 MANOVA要求PROC ANOVA按多元方式删除那些含有丢失值的观测,也即只要在因变量中有丢失值就从这次分析中删除这个观测。这个选项在交互方式及进行多元分析时很有用。 OUTSTAT=SAS-data-set(SAS数据集)生成一个输出数据集,它包含模型中每个效应的平方和、F统计量以及概率水平。如果在MANOVA语句中指定了CANONICAL选项,且没有使用说明项=,数据集中还含有典型分析的一些结果。 二、MODEL语句 MODEL dependents=effectsoptions; MODEL语句用来规定因变量和自变量效应。如果没有规定自变量的效应,则ANOVA只拟合截距,检验假设为因变量的均值是否为0。 下面这些是MODEL语句的选项,可用斜杠()之后: INT | INTERCEPT要求ANOVA过程把截距作为模型里的一个效应进行处理,打印与截距有关的假设检验结果。PROC ANOVA在模型拟合时总是含有截距,但是当这个选项缺省时,不打印与其有关的假设检验结果。 NOUNI要求ANOVA过程不打印单变量分析结果。 三、一般语句 1ABSORB语句 ABSORB variables; 这是为解决计算机资源所设置的一个语句。吸收是一种计算技巧,它对几种类型的模型在时间和内存要求上给出大大地压缩。variables是输入数据集中的一个或几个变量。 2BY语句 BY variables; BY语句同PROC ANOVA一起使用时,可获得对BY变量定义的几个观测组进行独立分析。当使用BY语句时,过程要求输入数据集按BY语句中的变量排序。 3CLASS语句 CLASS variables: 在ANOVA过程中要使用的分类变量必须首先在CLASS语句中说明。典型的分类变量是TRT,SEX,RACE,GROUP和REP。CLASS语句是必需的,且必须放在MODEL语句前面。CLASS变量可以是数值型的,也可以是字符型的。字符型变量值若超过16个字符长度,该过程只取前16个字符。 分类水平是由CLASS变量的格式化值确定的,因此用户可以使用格式把数值分成几个水平。 四. 交互使用的语句 1. MANOVA语句如果MODEL语句中含有一个以上的因变量,可以使用MANOVA语句要求计算另外的多元统计量。 2MEANS语句 MEANS effects; 该语句是用来计算在MEANS语句后列出的每个效应所对应的因变量均值。ANOVA过程可以对出现在MODEL语句等号右边的任一效应计算因变量的均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业单位员工劳动合同签订指南
- 买农民土地咋签合同5篇
- 钢卷公司试题及答案
- 电子商务概论基础知识考试题
- 地理期末板块运动考试题
- 2025二手别墅购买合同
- 2025合作协议预案
- 2025合同样本:小产权房买卖合同范本
- 家政服务满意度调查创新创业项目商业计划书
- 干什锦蔬菜创新创业项目商业计划书
- 汽车零部件制造行业发展报告
- 修井机培训课件
- 医学科普文章写作技巧
- 物业高端化规定
- 采暖补贴审计方案(3篇)
- 锂电池公司管理制度
- GB/T 17948.7-2025旋转电机绝缘结构功能性评定总则
- 农光互补光伏发电项目发展趋势与前景分析
- 光伏发电建设工程质量监督检查大纲(2023版)
- 老人外出免责协议书
- 数字信号处理理论与应用练习题集
评论
0/150
提交评论