0207方差分析.ppt_第1页
0207方差分析.ppt_第2页
0207方差分析.ppt_第3页
0207方差分析.ppt_第4页
0207方差分析.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,第7部分: 方差分析 (ANOVA),第7部分: 方差分析 (ANOVA),目的: 提供一种比较两个以上总体均值的客观方法。 目标: 理解、应用和解释: 单向ANOVA (单变量) 平衡ANOVA (多变量) GLM (一般线性模型) 采用Minitab进行ANOVA/GLM分析,什么是方差分析?,用来确定因变量(“ Y”)与单个或多个自变量(“ Xs”)间关系的统计显著性的方法,其中(“ Xs”)具有两个或多个水平。 是确定每一水平的响应变量值的均值是否来自同一总体的一种方法。(它们有所不同吗?) 筛选潜在的关键少数“ Xs”的方法,ANOVA适于自变量为离散变量、因变量为连续变量的情形。

2、,ANOVA的概念比较多个平均值的工具 (用于连续响应数据!),组内变差 (噪音),ANOVA确定不同水平的平均值间的差异(组间变差)是否大于各水平内部产生的变差(组内变差)的合理预期 这就是其名字的来源,当前,间距,新工序,总变差,水平1,水平2,组间信号比内部噪音大吗?,是否记得第一阶段关于偏移与漂移的讨论?,组内变差 (噪音),ANOVA计算的比例:,组间变差(信号) (),总变差,SS = 平方和 (变差的量度),=,信号,噪音,在分析阶段,您已经学习了怎样使用“t检验”方法来比较两个样本平均值的差异。(是否记得“ 双样本” t-检验?) 例:保险成本项目 您怎样比较不同地区保险成本的

3、平均值?五个地区的成本有差异吗?,是否记得t-检验?,平均值:,地区运作保险成本 ($K),我们需要进行10次独立的比较以检验每对平均值。(AB, AC, AD, AE, BC, BD, BE, CD, CE, DE) 即使所有平均成本都相同,仍有5%的机率来否定H0,并推断其中的一对平均值不相等。如果此检验步骤重复10次,错误地得出至少有一对平均值有差异结论的风险就会很高(比5%高得多)。,采用t检验进行多重比较的问题,所有可能的 “ 双样本” t-检验问题:,ANOVA给出了同时比较五个平均值的单一假设检验。,因素 - 自变量 (X) 水平或设置 - 因素的离散值或因素的设置 平衡数据 -

4、 各因素不同水平的每一个组合都具有相等数量的样本或观测值。上例即为平衡数据,因为对于X的每个水平,都有两个观测值(响应变量Y值)。 非平衡数据 - 各因素不同水平的每一个组合并非都具有相等数量的样本或观测值。,方差分析术语,因素X有两个水平,40和150。,因素“ X” 有两个水平(40和150),但在此例中,150 水平有三个Y值,而40水平只有一个Y值。,方差分析的类型,单向ANOVA: 单因素(“ X”)有两个以上水平 (设置),以及一个连续的因变量 (Y) - 确定因素水平如何影响总的响应变差。 平衡ANOVA: 多个具有多水平的因素(两个以上“Xs”)、一个连续的因变量(“ Y”)

5、- 确定每个因素对整个响应变差有多大影响。 GLM: 与平衡ANOVA相同,只是GLM具有非平衡数据。 DOE (试验设计): 在进行设计的试验中,确定各因素不同水平的哪些组合对响应变量的变差影响最大。,运用ANOVA来回答这样一个问题:因素(“X”)水平对响应变量(“ Y”)的总变差有多大影响?,使用方差分析的三种假设,1.对于因素水平的每一组合, 残差值的均值为0.0 这意味着我们所拟合的方程(或模型)正确,没有其它变量影响结果。,“ 观测” 值(圆圈)和“ 预计”值(数组平均值,水平线)间的差额为“ 残差”。,假设 (续),残差必须独立,并呈正态分布 残差(或误差)即是实际观测的“ Y”

6、值和预计的数学模型的“ Y”值。残差表明模型何处与数据不相匹配。 当比较平均值时,正态性往往不成问题。因为中心极限定理表明,平均值趋向正态分布。 当比较变差时,正态性非常重要。(方差齐性:对于正态数据,应用“ Bartlett”检验法,对于非正态数据,应用“ Levene”检验法),2.,假设 (续),间距,I级,II级,另一个需要关注的问题(除平均值的相等性之外)是方差的相等性。“ X” 转变成不同水平时,可能降低变差,提高Z值。可以用Bartlett或Levene检验法来检验方差的相等性。,注:因素在水平II上的方差很大,掩盖了不同水平平均值之间真正的差异。,3. 方差必须相等 (或接近相

7、等),实际问题:,一位开发工程师用一种特殊的粘合剂将两个部件粘在一起。另外还有两种可使用的粘合剂,但需要更高级的过程控制。如果其中的一种显示出平均抗剪强度不低于20,则值得更换粘合剂供应商、并改进过程控制水平。,针对此例,运行Minitab 并打开文件: L:6sigmaminitabtrainingminitabsession 2adhesive.mtw 独立数据存储在C1-C3栏中;堆叠数据及下标在C4和C5栏中。,数据组如下:,首先将数据制图!,GraphPlot,如图填写对话框:,单击 OK,选择 “ Options” 并通过检查对话框添加 “ Jitter”,散点图“ 图形胜过千言万

8、语”,观察图形: 1. 三种粘合剂的平均值看上去是否相同? 2. 是否有抗剪强度超过20的粘合剂? 3. 三种粘合剂的方差是否相同?,配方B(水平3)看上去具有比当前粘合剂或配方A都要高的抗剪强度。但是,直观上的差异并不意味差异具有统计显著性 - 我们需要进一步的分析,以确认这种图形分析的结果。并请注意:对于不同的粘合剂,方差并未表现出显著的不同。,采用ANOVA证明统计显著性,由于随机因素的影响,粘合剂的抗剪强度会产生一些波动,要证明其统计显著性,我们必须表明平均值的差异比偶然出现的差异大。 1.测量的响应值(因变量)是什么? 粘合剂抗剪强度 2. 评估的因素是什么? 仅一个因素 - 粘合剂

9、类型 3. 我们想知道什么结果? -三种类型的粘合剂 (水平)是否存在差异? -新型粘合剂的平均抗剪强度大于20吗? 4. 我们将采用什么分析工具,为什么? 单向ANOVA 单因素 (粘合剂类型) 三个水平 (当前,配方A,配方B) 这三种粘合剂是否有差异? 5. 零假设和备择假设是什么? Ho: 1=2=3Ha: 至少一个 i 与其它不等,x,水平 1,9 12 14 13 18,18 15 14 17 15,21 19 21 16 23,水平 2,水平 3,9 12 14 13 18 18 15 14 17 15 21 19 21 16 23,1 1 1 1 1 2 2 2 2 2 3 3

10、 3 3 3,水平,数据,总和 平均值 (总平均),减去 (数据-总平均) 平方差,平方和 (SStotal),我们怎样计算ANOVA结果:,SS,=,B,j,(,),j,g,j,x,x,1,2,SS,=,T,j,=,1,n,j,(,),i,g,ij,x,1,2,n,g = 组数 (水平) n = 组中的样本数,ANOVA (续),Fcalculated =,ANOVA计算F统计值:,记住:计算的F-统计值是两个方差的比例,如果总体平均值间没有差异,则计算得的F-比率应约为1.0 最后,将算出的F-比率与F表中列出的F值相比较。表中的F建立在样本容量和风险之上(通常=0.05)。如果F算出的=

11、F表中的, ,总体平均值间的差异具有统计显著性(您可以有95%的置信度相信差异不是偶然产生)。如果F算出的F表中的,, 则您不会有95%的置信度认为总体平均值是不同的(它们可能在数值上不同, 但属同一整体的一部分-数字上的差异只是随机因素的结果)。,ANOVA计算比例的方法 :,_,_,_,Minitab的ANOVA菜单选项,在使用Minitab 分析有关粘合剂问题的数据之前,我们来看一看Minitab 中ANOVA菜单选项。 Stat ANOVA:,单因素,水平 2 (仅用于堆叠数据),双因素,水平 2 多因素与多水平 (平衡数据) 多因素与多水平 (非平衡数据),平衡ANOVA和普通线性模

12、型(GLM)可以比较多达9 个因素和50个响应值。GLM是您能用来分析非平衡数据的唯一工具。,(不同水平的数据存于不同栏中),让我们用Minitab以粘合剂为例运行ANOVA,Stat ANOVA One-way,采用 单向 ANOVA,因为只有一个因素,或 “ X”,即 粘合剂,选择选项,以在工作表中存储残差和由模型而得的预测值,残差是因素某一水平的均值与观测值间的差异。针对此粘合剂实例,前7个残差的计算如下:,残差计算,残差量化模型的误差 - 模型不能与数据组很好地拟合。,ANOVA会话窗口,由于p-值 = 0.005, 至少一个粘合剂抗剪强度平均值有差异 (我们接受 Ha)。,请记住,

13、我们的最初问题是确定不同类型的粘合剂是否具有不同的抗剪强度。 在ANOVA表中,小于0.05的P值表明各水平间存在显著差异。,实际显著性 - 记住我们的第二个问题 - 是否其中有一个新型粘合剂的抗剪强度大于20? 通过分析95%的信置区间, 我们可以看出,性能最好的粘合剂为水平3, 其值为(17.5, 22.5)。 虽然粘合剂3比当前的粘合剂要好,且平均值最可能的估计值为20,但没有很高的置信度认为平均值至少是20。 也许恰当的方法是,收集有关粘合剂3的更多数据,以获得平均值的更好估计值,即更窄的置信区间(记住,我们只有5个数据)。,采用Minitab的多因素ANOVA分析,情形 : 六个西格

14、玛小组有项任务 将“订单处理”的周期时间从目前的平均值10.8分钟降低到9.0分钟。 “ 工作人员的经验”、 “ 班次” 和电话接收中心(“地区” )被初步列为能影响周期时间的潜在“Xs” .下表列出了来自该公司三个不同电话接收中心的数据: 打开文件: L:6sigmaminitabtrainingminitabsession 2cqcycle.mtw,注: 各因素不同水平的每一个组合(“单元”)都有5个观测值,共有90个观测值(3*3*2*5 = 90),首先 - 我们将数据制图,创建三个图表 - 周期时间与地区 -周期时间与班次 -周期时间与经验 Graph Plot,单击 OK,单击“

15、Options” 添加Jitter.,图形向我们显示什么信息?,东海岸办公室平均订单处理周期时间比其它各地的平均值高。当平均周期时间低时,波动也低。,熟练工比新手看上去要快,尽管波动很大, 第二个班的周期时间比另两班要短一些。,查察数据的另一种方式 采用框图!,我们进行分析,记住, 我们试图分析区域、员工经验和班次三项因素是否对订单处理周期时间存在任何影响,另外,我们具有平衡数据。零假设和备择假设为: H0: 因素对响应变量值没有影响(无差异)。 Ha: 因素对响应变量值有显著影响(有差异) 。 Stat ANOVA Balanced ANOVA,在因素间插入“ pipes”就是命令Minit

16、ab将各因素的每个组合都在分析中考虑。 在键盘上“ pipe”就是反斜杠键的上档.,我们还将单击“ Graphs” ,以生成残差用于分析。,见下页,残差图,采用 “ Graphs” 选项,您可以得到残差图及其相关分析。,除检验残差的正态性外,检查“残差对拟合值 ” 及“残差对变量” 是否存在任何趋势。 单击 OK ,进行分析,ANOVA表的说明,注意,区域、员工经验和班次对于“ 周期时间”有最大的影响(请看它们的F值)。区域与员工经验间的相互作用也很显著,因为P0.05。,显著因素的 p-值 0.05,影响显著的 “ X”,利用会话窗口中的ANOVA输出,确定在工序中是否有任何因素促成差异的形

17、成。,下一步: 1)假定区域和员工经验是存在差异的原因,2) 建立一个DOE来论证它们对周期时间的影响。,(临界统计显著性),(临界线),额外的ANOVA表信息,问题: “ 有足够的重要 Xs 吗?” 可将模型中因素未解释的变差进行量化: *Mserror的平方根为Serror (误差的标准偏差) *这代表工序的一个标准偏差(假定模型中使用的所有“ X” 都处于完美的控制状态)。 在我们的例子中, serror = (3.325)1/2 = 1.8 分钟。 误差 是模型所使用的因素未能解释的变差。 此工序的4.5西格玛极限为+/-4.5 * 1.8 (即+/-8)分钟(如果我们能完美地控制所有

18、确定的Xs),如果此变差过大,就需要寻找其它的影响此工序的因素 “ Xs”!,下一步, 我们将分析残差。 我们分析残差是为了更多地了解工序, 并检验数学模型的“好坏”. 残差的一些特点: 残差的平均值将为0.0 残差应呈正态分布 残差应为随机分布 - 看不出模式或趋势 几种模式举例: 曲线 随时间而呈一定的趋势 不等变差 一个或两个极值 如果残差没有满足上述要求, 我们需要查寻原因。可能原因如下: 不准确的数据记录, 未包含所有重要Xs , 数据不呈正态分布。 使用图表来分析变化趋势。,残差分析,残差直方图,我们观察残差与拟合值图,看看是否存在一定的形态. . .,残差与拟合值图,该图表确实表

19、明残差存在一种模式。漏斗型表明,平均“周期时间”(拟合值)越大,残差越大。这意味着ANOVA结果无效吗?相反,这是一个重要发现 - 降低平均值也会降低变差! 下一步我们将确认是否某一因素对变差的增长有很大的影响。 对于我们的工序来说,这是一条重要信息。我们只有对“残差与拟合值图”进行分析,才会了解这一点!,残差与变量对比图,请看以上残差图,分析被检测因素处于不同水平时残差的差异。您可能在某个因素的某个水平上发现一个“sweet spot” (低变差)。,在此例中,我们基于用于基准分析的数据(被动数据),用ANOVA 来筛选潜在的关键几个“ X” 。 这并不能证明这些“ Xs” 就是关键的! D

20、OE( 设计的试验)就是用来证明“Xs” 是否真的关键。,注意! 理解ANOVA模型的局限性,如果没有平衡数据该怎么办?,使用一般线性模型 (GLM)这种工具。 GLM 可处理“ 非平衡” 数据 - 每个子群的观测值个数不尽相同。非平衡数据常见于历史数据或基准数据之中。 数据必须是“满秩”的,即要有足够的数据来估计模型中所有的项。但不必为此担心,因为Minitab将会告诉您数据是否是满秩的!(如果您的数据不是满秩的,则需要更多的数据。),我们举一个例子。重新启动 Minitab,并打开文件: L:6sigmaminitabtrainingminitabsession 2rot.mtw, Rot

21、1 是一个连续的响应变量,可视为氧气和温度的一个函数。 温度(C1)有两个水平:10和16 氧气(C2)有三个水平:2,6和10,以下是数集。 注意缺失的数据:,缺失数据,我们先观察图形 . . . 是否得出任何结论?,温度和腐蚀之间似乎存在一定的关系,而且在高温下变差可能会更大。 氧气怎样?每个水平上的数据的离散程度太大, 不能确定氧气和腐蚀间存在一定的关系。,Y = Rot 1 X = Temp 1,Y = Rot 1 X = Oxygen 1,选择: Graph Plot 在对话框中,为Y和X设定适当的变量。,GLM分析.,StatANOVAGeneral Linear Model,记住

22、单击 Graphs 创建 残差和拟合值图,注: 我们有非平衡数据,因此,使用ANOVA的GLM分析选项。,请记住在 温度1和 氧气1间使用 间隔线来包含相互作用。,在会话窗口中进行ANOVA分析,解释: (请看显著因素的P值) 温度是显著的, P0.05 误差项相对于总SS显得大。 可能要寻找更多的“ Xs” !,注: 数据组中的一些观测值比其它观测值对结果有更大的 “影响” 。在这组数据中,观测值7具有更大的影响,,被Minitab注为“ 非寻常” , 因为在该单元中只有这一个值,而在其它单元中有两个或三个观测值。 观测值18因具有绝对值大于2的残差(误差)而被标注。,分析残差,残差未显示有

23、任何模式 - 从此图中我们未得到有关工序的额外信息。,课堂练习: 1) 打开下列工作表: L:6sigmaMinitabtrainingMinitabsession 2claims.mtw 2) 确定5个地区运作保险成本是否不同。 a) 首先“ 堆叠” 数据。将下标放于另一栏内。 b) 将数据制图 (散点图和框图) c) 运行ANOVA - 创建图形: 残差直方图 残差与拟合值图 当您看见“ 残差直方图” 时,注意它向右倾斜(右尾更长)。这意味着不符合ANOVA的正态假设。我们运行Box-Cox转换, 发现对数是一个适当的转换. 用成本的对数来再次运行此分析过程。,d) 在Minitab中创建

24、一个新栏,即成本的对数(基 数10)。(CalcCalculator并如图填写对话框) e) 将成本的对数作为“ Y” , 再次运行ANOVA 注意残差直方图不再向右倾斜。现在我们有了一个有效的ANOVA分析。,它检验什么? 两个以上变量的平均值或平均水平进行比较。 什么类型的数据 ? 类别或水平“ X” 数据(离散),及连续的“ Y” 响应变量值。Minitab能分析多达9个因素和50个响应变量值。 假设是什么? Ho : 所有平均值都相等 Ha : 至少有一个平均值不同 ANOVA能告诉我们什么? 每个因素对整个响应变量的变差有多大影响。它会确认有统计显著性的“Xs”。 何时使用GLM?

25、当数据为非平衡(各单元格的观测值数量不等)时,使用一般线性模型。 ANOVA 和 GLM使用连续 Y、离散 X数据来筛选出潜在的、关键的、少数 Xs。,关键概念: 方差分析 (ANOVA),附录,方差分析公式,平衡的单向ANOVA: (其中 n1 = n2 = . = ng),子群间平方和:,子群内平方和:,总平方和:,SS,=,n,B,j,(,),j,g,j,x,x,1,2,SS,=,W,(,),i,n,ij,j,j,g,j,x,x,1,2,1,SS,=,T,j,=,1,n,j,(,),i,g,ij,x,x,1,2,g ,x,水平号码,总平均,jth水平内的总数,n,j,x,j,Jth水平的

26、子群平均值,B17.15,其它表述方法. ANOVA表的解释,平方和,自由度,平均平方和,MS,p-值,比率,变差源,(SS),(df),(MS),(Fcalc),之间,SSB,g-1,SSB/dfB,MSB/MSW,内部,SSW,g(n-1),SSW/dfW,总计,SST,ng -1,1,2,3,4,5,6,7,8,9,10,11,12,13,我们将其称为平均SS,Copyright 1995 Six Sigma Academy Inc.,解释: 使用恰当的自由度和指定的风险概率( I 类错误)可在F表中很方便地找到关键F值(Fcrit)。 如果计算出的F值(Fcalc)大于等于Fcrit,则接受备择假设(Ha),其置信度为(1-); 否则拒绝这一假设。 请记住,您具有的置信度永远等于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论