版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.常用统计技术 在统计学中,使用频率较高的是方差分析、回归分析、正交试验等。那么方差分析的作用是什么呢?它是通过比较因素的方差和试验误差的方差来检验因素对试验指标的影响是否显著。回归分析的作用是通过对两个或多个变量的大量观测,建立变量间的数学模型,并进行统计预测和控制。正交试验设计是一种多因素的优选法,它利用一种规格化的表“正交表”,科学地挑选试验条件,合理地分析试验结果。下面我们先来介绍方差分析:第一节 方差分析一、 问题的提出:有四种产品:A1国外同类产品; A2本厂产品;A3国内甲厂产品; A4国内乙厂产品。在A1,A2,A3,A4四种产品中分别取出六个产品,做了300h的连续老化试验,
2、得到磨损量数据如下表所示:磨损量数据表 单位:mmA的水平试验数据和均值A11214151316128213.7A220181917151610517.5A326192628232514724.5A424251822272414023.3试问这四种产品的磨损量有无显著差异?在分析有无显著差异之前,先掌握几个概念:·指标:用以衡量试验效果的特征量称为试验指标,在例子中磨损量作为试验指标。用Y表示,它是一个随机变量。·因子:将在试验中改变状态的因素称为因子,在例子中品种就是因子A。·水平:因子所处的状态称为因子的水平,用因子的字母加下标表示,在例子中,四个品种表示“品
3、种”这个因子有四个水平。·总体:假定因子A有r个水平,在Ai水平下指标(即某一品种抽出的产品数测出的数据)全体便构成一个总体。因此,有r个总体。可以看出,每一行的数据便构成一个总体。现在,我们回到书本上P66例6.1-1 试验指标:零件强度 因子工厂 水平三个工厂又譬如:我们考查学生的成绩,成绩指标;学生因子;水平每个学生成绩在掌握了上述几个概念之后,我们再来分析前面提出的例子,就是四种产品的磨损量有无显著差异的问题。要解决这个问题,通常有两种方法:直观分析法与方差分析法。所谓直观分析法,就是直接比较四种产品的平均磨损量(在教材中为平均强度),由表中可知,A1的均值13.7最小,A3
4、的均值24.5最大。因而判断品种A1最好,A3最差。这种方法虽然简单易行,但有时会出差错。倘若,我们对本厂产品再取6个进行同样的试验,得到的磨损量为20.0(mm)。那么如何解释同是本厂产品的两个不同平均磨损量17.5和20.0呢?事实上,除了品种以外,还有一些未加考察的其它因素(统称为试验误差)对磨损量有影响。直观分析法的弊端就在于不能合理区别可控因素(在试验中可以人为地加以调节和控制的因素,称之为可控因素)和试验误差对试验指标的影响。方差分析法是将试验数据的总波动分解为可控因素引起的波动和试验误差引起的波动,然后比较它们的平均波动,构造均方和比,建立F检验统计量,判定因素的影响是否显著。二
5、、方差分析法依据的理论:假定因子A有r个水平,在Ai水平下指标全体便构成一个总体,因此共有r个总体(即每一行构成1个总体)。这些Ai个总体服从正态分布,其均值为,方差为,样本容量为m,而且还假定各样本是相互独立的,那么,我们基于假设检验的理论,对这些总体的指标数据进行分析。原假设 ;备择假设 检定这一对假设的统计方法便是方差分析。当不真时,表示不同水平下的指标的均值有显著差异,此时称因子A是显著的,否则称因子A不显著,如以下图: (注意以下图三个的胖瘦要一样) 综上所述,方差分析是在相同方差下检验若干个正态均值是否相等的一种统计分析方法,具体地说,方差分析是在如下三个假定下:1、 在水平下,指
6、标服从正态分布N()2、 在不同水平下,各方差相等3、 各数据相互独立对上述一对假设()作出判断的一种统计方法。如果要考察的影响指标的因子是多个的,那么就是正交试验要解决的问题。本节只是解决单因子的数据分析问题。三、 单因子方差分析设在一个试验中,只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用把数据列成下表形式:单因子的试验数据表水平试验数据和均值表中各符号定义A1T1每行和A2T2每行均值总的数据和ArTr所有数据的均值n=r·m共有多个数据和T 在 个数据中,都不全相等,它们的波动可以用总的偏差平方和ST表示(我们前面讲过方差分析法是将试验数据的波动分解可
7、控因素和试验误差两个引起的波动),(ST是总的偏差平方和,所以公式中就是用所有数据及总的均值进行计算。偏差平方和ST的大小,反映了各个试验数据相对于数据总均值离散程度(即波动)总的大小。(我们知道,误差=测量结果-真值,但真值从本质上说是不能确定的,常用约定真值来代替,约定真值来源有三个途径:1是可以通过校准或检定得出某特定量的值;2是由更高准确度等级的测量仪器测得的值;3是由多次测量的结果所确定的值。公式中,就是每个测量结果数据,而是n=r·m次测量的结果的均值近似于约定真值)引起数据波动(总的偏差平方和ST)的原因不外有如下两个:一是,由于因子A的水平不同引起的偏差,称为组间偏差
8、平方和,也称因子A的偏差平方和,用SA表示:公式中,乘以m是因为每一水平下进行了m次试验(由于是组间偏差,所以公式中就用每一组即每一水平(行)的数据均值与总的均值进行比较,也就是说这一水平下的均值偏离了总均值波动大小)。二是,由于存在随机误差,即使在同一水平下获得的数据间也有差异,用组内偏差平方和表示,符号:Se可以证明有如下平方和分解式:ST=SA+Se显然,当H0不真时,SA > Se;当H0为真时,SA和Se均可看成由随机波动引起的,都可以作为误差方差的某种估计。由于造成这2个偏差的独立变量个数不一样,所以两者进行比较时,要引入自由度的概念。自由度:就是独立变量的个数。ST、SA、
9、Se的自由度分别用fT、fA、fe表示。fT= fA +fefT=试验次数-1=n-1=r·m-1fA =水平数-1=r-1fe = fT - fA =n-r= r·m-r=r(m-1)我们将因子A的偏差平方和与fA之比称为因子的均方和,记为;将误差平方和与fe之比称为误差的均方和,记为。均方和实际上等于波动平方和除以自由度,也即平均波动。我们知道,方差分析的目的是判断在不同水平下指标的均值是否有显著差异,也即判断因子A是否显著,那么他的理论依据就是检验一对假设。对假设检验,我们一是要选择检验统计量;二是要给出拒绝域。在这里,我们选择MSA和MSe作为我们的统计量,当MSA
10、与MSe相差不大时,认为因子A不显著,而当MSA相对于MSe大得多时,认为A是显著的。比较MSA与MSe相差的大小,一种办法可以用MSA-MSe表示,但目前我们还没有找到一个分布来描述两者之差;另一种可以用MSA/MSe,而这两个比值恰好可以用F分布来描述。 拒绝域(即临界值)用的值表示当时,认为因子A在显著性水平上是显著的(可以认为,是推翻原假设,即H0不真,U1U2U说明不同水平下的指标均值有显著差异,不同的厂家生产的同种产品质量有差异。F1-(fA,fe)表示自由度为fA、fe的F分布的1-分位数。可以查表得出,可从P 表中查出:如F0.95(2,9)=4.26,说明自由度为(2,9)的
11、F分布中,变量取值不超过4.26时的概率为0.95,或者说变量取值超过4.26时的概率为0.05,这个小概率就称为显著性水平,记为。实际上它就是所谓的拒真错误,即原假设H0为真,但由于抽样的随机性,样本落在拒绝域W内,而导致拒绝H0,所以说显著性水平就是犯第一类错误的概率。F0.95(2,9)=4.26也可以说:变量U=4.26时,把F(2,9)的图形分成两部分,U<4.26部分的面积为0.95,U>4.26部分的面积为0.05。 0.95 0.05 u=4.26求F值的过程往往列成一张方差分析表:来 源偏差平方和自由度均方和F比因子A误差因子SASefA=r-1fe=n-r =r
12、(m-1)MSA=SA/fAMSe=Se/feF= MSA / MSe总计TSTfT=n-1在进行方差分析时,关键是计算ST、SA、Se和算出fT、fA、fe,并求出F,然后与F1-(fA,fe)进行比较,判断因子A是否显著。通过代数运算:可得·进行方差分析的步骤是 1、 计算因子A的每一水平下 T1=y11+y12+y1m(每行)数据的和 T2=y21+y22+y2m Tr=yr1+yr2+yrm 及总和T T=T1+T2+Tr2、计算各数据的平方和 数据总和的平方T23、依次计算ST、SA、Se4、 填写方差分析表5、 对于给定的显著性水平,将所求得的F值与F分布表中的F1-(f
13、A,fe)比较,当F>F1-(fA,fe)时,认为因子A是显著的,否则认为因子A是不显著的。应当指出:若取0.05或0.01时,有F>F0.99(fA,fe)时,因子A高度显著F>F0.95(fA,fe)时,因子A显著F<F0.95(fA,fe)时,因子A不显著显然,说F>F0.95(2,9)说明在=0.05上,因子A显著,而在=0.1上肯定显著,但在=0.01上因子A并不一定显著。因为F0.99(fA,fe)> F0.95(fA,fe)·当因子A是显著时,我们可以用求平均值的方法得出每一水平下的均值。即·误差方差2的估计可以用Se/fe
14、=MSe ,方差分析有三个应用:一是可以判别因子A的显著性;二是求出每一水平的均值,选择好的水平;三是求出误差方差=的估计值。·不等重复试验的情形: 在不等重复试验的情况下,每一水平的重复试验的次数不一样,这时(其影响SA的计算公式)求习题:1、有3个水平,每水平作4次重复试验,F值为( )2、比较三种加工方法(记为因子A)的试验中,已知各加工方法下分别进行了6次,5次,4次试验,则有( )A、 因子A偏差平方和的自由度是2B、 因子A偏差平方和的自由度是12C、 误差偏差平方和的自由度是12D、 误差偏差平方和的自由度是153、下面不属于方差分析假定的是( )A、 在水平Ai下,指
15、标服从正态分布;B、 在不同水平下,各方差相等;C、 各数据yij相互独立;D、 在不同水平下,样本均值相等。4、P100 19题:在有4个水平的单因子方差分析中,若每一水平下进行5次重复试验,且求得每一水平下的试验结果的标准差为1.5,2.0,1.6,1.2则( ) A、Se =30.75 B、Se =41 C、fe =16 D、 fe =3第二节 回归分析在质量管理中,经常要研究两个变量间的相互关系。相互关系可分为确定性关系(函数关系)和非确定性关系(相关关系)。确定性关系:S=R²非确定性关系(但有相关):如身高与体重、亩产量与施肥量等。要研究两个变量间的关系,首先要收集数据,
16、列成表,见P一、 散布图把每一对(X,Y)看成直角坐标系中的一个点,在图中标出几个点,则为散布图。二、相关系数散布图只是视觉上的判断,误差较大,只能是大概判断是否相关,所以要找一个定量的判断的方法,这就是相关系数法。1、 相关系数的定义·相关系数是表示两个变量间相关系数密切程度的统计量,用r表示。可以证明:|r|1 即-1r1 注意:不是-1<r<1················r=1,完全线性正相关 0<
17、r<1 正相关 r=0 不相关······r=-1,完全线性负相关 -1<r<0 负相关 r=0 非线性相关根据r的绝对值的大小可以判断两个变量间线性相关的程度(要懂得根据r的大小的数值去选择相关图)。2、 相关系数的检验我们说若|r|接近于1,则相关的程度高,|r|接近于0,则相关程度差,那么|r|的值为多大时,才能认为两个变量间存在一定程度的线性相关呢?这时,我们要对r 进行显著性检验,即应用假设检验对以下假设称为真正的相关系数,这一对假设的意义是:若两个变量X(一般变量)与Y(服从正态分布)不相关,则H0为真,
18、=0;若r>r1-/2(n-2),则说明H0不真,那么备择假设H1成立,即0成立,则两个变量线性相关。综上所述:相关系数检验有如下步骤:(1) 求相关系数r的值经过代数运算(2) 根据给定的显著性水平,查自由度为n-2的r1-/2(n-2)值(可查P74表2.2-2)(3) 把所求的|r|与查表查出的r1-/2(n-2)的值进行比较,若|r|> r1-/2(n-2)说明两个变量间具有线性相关关系。注意:1、由于相关系数的检验是双边假设检验(统计量是|r|)所以是r1-/2,n为样本量 考试时常常告诉Lxy、Lxx、Lyy,但这三个L的计算公式一定要记住。三、一元线性回归方程将r与r
19、1-/2(n-2)相比较可以检验两个变量是否具有线性相关关系,如果能用一个数学表达式来表示两个变量间的线性相关关系,这就是两个变量间的一元线性回归方程。1、一元回归方程的求法设一元线性回归方程的表达式为式中:x是一般变量(称为自变量),不是随机变量 y是随机变量(称为因变量)变量y的均值是x的线性函数。对于给出的n对数据(xi,yi),要我们根据这些数据去估计a与b,并在给定的xi值上,可得,称为回归值,式中b=, a=综上,求回归方程的步骤如下:(1) 计算变量x与y的数据和 (2)计算 (3)求(4)根据(5)写出回归方程注意:所求出的回归直线一定通过(0,)与()两点,且斜率为与的等价形
20、式为2、 回归方程显著性的检验我们知道,只要有都可以求出一个数学表达式的回归方程。但只有当两个变量具有线性相关关系时,所建立的回归方程才是有意义的。那么,检验两个变量间是否存在线性相关关系的问题,便是对回归方程的显著性检验问题,也就是说:如果方程是显著的,表示所求的回归方程有意义,则两个变量间存在线性相关关系。检验的方法两种:一是,前面讲过的求两个变量间的相关系数,对于给定的显著水平,当相关系数r的绝对值大于临界值r1-/2(n-2)时,便认为两个变量间存在线性相关关系,所求得的回归方程是有意义的。二是,方差分析法。同样用ST表示总偏差平方和,总偏差由两个方面造成:第1,由自变量x变化造成y变
21、化引起的,称为回归平方和SR。 第2,除了自变量x以外的一切因素引起的,统归为随机误差,称为残差平方和SE 同样有 ST=SR+SE,自由度有 fT=fR+fEfT =n-1 n表示(xi,yi)的i数字,即有n对数fR =1(因为自变量的个数只有1个)fE =n-2如同方差分析中一样,计算F比对给定的显著性水平,当F>F1-(fR,fE)时,认为回归方程是有意义的。回归直线的方差分析来源SfMSFXE1n-2F=MSR/MSETn-1例12.2-1P77例2:已知Lxx=320,Lxy=160,Lyy=90则( )A、b=0.5 B、b=2.0 C、回归平方和为80 D、残差平方和为8
22、0解:=160/320=0.5 =0.5×160=80 残差平方和:=90-80=10例3、已知, , , ,则据此可求出的回归方程为:则所求的回归方程例4、已知n=12,自变量只有一个,F0.95(1,10)=4.96,回归方程有意义的是:A、SR =317.2589 SE =1797.03B、SR =42.3237 SE =329.64C、SR =317.2589 SE =17.9703D、SR =42.3237 SE =1312.07解:fR =1 fE =12-2=10 fT=113、 利用回归方程进行预测有的同志认为,根据方程,当取某个时,便有对应的,这对于确定的方程是可行
23、的。但我们现在的方程是回归方程,式中,b都是估计值。是预测值,譬如:例6.2-1 当含碳量=0.16时,合金的强度可以用来预测,这里,b是已求出的,把=0.16代入,即可求出的值。这个值表示,当含碳量=0.16时,则可以预期合金强度的平均强度为。另外,我们还可以给出Y的预测区间。以1-的概率(或称置信水平)预测当含碳量=0.16时,合金强度Y的变化范围(因为只是平均强度)。这个变化范围是指如下的区间:()其中满足P|<=1-上式说明:若取X=X0时,有1-的概率(如=5,则有95的概率)使得Y的实际值落在()的区间内,或者说,当X=X0时Y的实际值落在()区间内的概率为1-(95)。的值
24、与X0的值有关,精确的的计算式是:上式中是自由度为n-2的t分布的1-分位数,可查t分布表。当n>30,t分布近似为正态分布,如果相差不大,的近似值为 可查标准正态分布函数表()例1从例中可以看出,在P表中第7行,时,落在我们所求的区间内。例2 改善预测精度的措施有:(可从公式中分析)(1) 增大n,n越大,越小。(2) 增大,即x的变化范围越大,越小。(3) ,越小。例3 的查表:当=0.05时,可查()表,在表中间先找到0.975,向左查同一行的第一列得x=1.9,再向上查同一列的第一行得0.06,则4、 利用回归方程进行控制控制是预测的逆运算,即解决在已经知道规定指标()间合格,现
25、在要决定自变量x在什么范围内,才能以1-的概率保证指标合格,这就是控制要解决的问题(前面讲的预测是解决在某一自变量x为给定时,因变量y以1-的概率落在一个多大的区间内,是求一个区间,现在是已知一个区间,求自变量x应控制在什么范围内)。利用近似的预测区间可要求自变量x满足如下不等式组:解这个不等式组,便可获得自变量x的范围例1 P 6.2-1注意:由可以求(1)相关系数r;(2)求回归方程;(3)回归方程的显著性检验();(4)利用回归方程进行预测。四、一元非线性回归在两个变量的散布图上,n个点的散布不一定都在一条直线附近波动,而在某条曲线附近波动,这时就要寻求建立曲线方程。1、 确定曲线回归方
26、程形式常用的有两种方法:一是根据专业知识;二是根据所画的散布图,将它与一些标准的函数图象进行比较后加以选择。如教材中例子描绘出的散布图与一些标准的函数图象比较后,有以下四种方程相似。(1)(2)(3)(4)现在两个问题要解决,一是,哪个方程更能代表所描绘出的散布图(即要进行方程的比较);二是,所选的方程中的参数如何求出,这就要把非线性模型转化为线性模型,然后利用我们前面学过的线性回归方程的建立方法求出。2、 曲线回归方程中参数的估计要估计,首先要将曲线回归方程通过数学变换将它化为一元线性回归方程的形式。下面介绍几种常用的非线性模型转化为线性模型的方法。(1)幂函数型 两边取常用对数得 则有 若
27、(2)指数函数型 则有 若(3)逻辑曲线型 , 上式可改写成 两边取自然对数得 令则有 现在可以知道,一元非线性回归的步骤如下:(1) 散点图,将数据点(Xi,Yi)描在平面直角坐标系上,并观察其形状,看一看与何种预测模型接近,以选定预测模型。(2) 按照选定的预测模型,进行适当的数学变换,化为相应的线性回归模型。(3) 确定线性回归方程中的参数()。(4) 返回计算出原预测模型中相应参数,以确定非线性回归方程。(5) 要进行曲线回归方程的比较:在有多个方程的曲线与散布点都相似的情况下,就要求出多个的曲线回归方程,那么究竟选哪一个方程为好,需要按以下两个准则进行比较。一是,相关指数R(有时称R
28、2为决定系数),R(或R2)越大,该方程越接近散布图:式中=二是,剩余标准差S,要求越小,所选的方程越接近散布图。第三节 试验设计一、 试验设计的基本概念与正交表(一) 试验设计:高质量的产品在某种程度上是由设计决定的,而影响产品质量的因素一般较多,正交试验是研究与处理多因素、多水平试验的一种科学方法。它利用一种规格化的表“正交表”,科学地挑选试验条件,合理地分析试验结果。这种方法的优点是:能在很多的试验条件中,选出代表性强的少数几次条件,通过这少数几次试验,选取最正确工艺条件或最优设计方案。如:10个因素,2个水平,试验次数210=1024个; 10个因素,3个水平,试验资料310=5904
29、9个; 4个因素,3个水平,34=81,不是43=64(二) 正交表正交表按其类型分 水平数相等的正交表 水平数不等的正交表(混合水平正交表)列数(因素个数)1、 正交表的代号正交表行数(试验次数) L9(34)水平个数2、 正交表的特点:具有正交性正交表是一套已经制作好的规格化表格,见教材附表。(1) 在每一列中,不同水平重复的次数相等。(2) 在任意两列中,将同行数字看成一个数,那么一切可能数对重复次数相同。所以正交性使得试验条件具有均匀分散性,试验结果具有综合可比性。3、 正交表的一般关系式: Ln(qp) (2.3-1)例如L16(215) n=24=16 注意:不是所有的正交表都符合
30、上述关系式,符合这个关系式的,不仅可考察各因子对试验指标的影响,还可考察因子间的交互作用的影响,还有一类正交表的行数、列数、水平数之间不满足上述式子的要求,这种正交表只能考察各因子的影响,但不能用来考察因子间的交互作用。例:以下哪种正交表可用于考察因子间的交互作用? 二、无交互作用的正交设计与数据分析通过例子分析:例6.3-1(一) 试验的设计应考虑以下几个步骤:1、 明确试验目的:提高输出力矩,即什么样水平组合使输出力矩最大。2、 明确试验指标:指标是输出力矩。3、 确定因子和水平:选择影响指标的因子是什么,每个因子的水平是哪些。因子水平表 水平因子一二三A:充磁量B:定位角度C:线圈匝数9
31、00107011001180130012904、 选用合适的正交表:本例有三个水平,三个因子。先根据水平数选对应水平数的正交表,再根据因子的个数具体选表:所以选L9(34)。5、 表头设计:把因子放到选定的正交表的列上。在不考虑交互作用的场合,可以把因子放在任意的列上,一个因子上一列。表头设计ABC列 号12346、 试验计划:只要将置因子的列中的数字换成因子的相应水平即可,不放因子的列就不予考虑。如在L9(34)的正交表中,第一列的1,2,3分别换成充磁量的三个水平900,1100,1300,将第二列的1,2,3分别换成定位角度的三个水平10,11,12,将第三列的1,2,3分别换成匝数的三
32、个水平70,80,90,则得试验计划。见表6.3-3(二) 进行试验和记录试验结果1、 试验的次序最好要随机化。2、 尽量固定除所考察的因子外的其它因素,必要时增加一个“区组因子”放在空白列上。(三) 数据分析利用正交表的特点进行数据分析,主要解决两个问题:首先是找出哪些因子对指标有明显影响;其次是各个因子的最正确水平组合使指标达到最大。1、 直观看:例6.3-1 直观分析计算表表头设计因子A因子B因子CY列号试验号123411111Y1=16021222Y2=21531333Y3=18042123Y4=16852231Y5=23662312Y6=19073132Y7=15783213Y8=2
33、0593321Y9=140T1T2T3555594502485656510555523573T1185198167.3161.7218.7170185174.3191R30.75716.7(1) 寻找最好的试验条件:在试验的直观分析表中:A列的“1”充磁量900, A列的“2”充磁量1100, A列的“3”充磁量1300B列的“1”定位角度10, B列的“2”定位角度11, B列的“3” 定位角度12C列的“1”线圈匝数70, C列的“2”线圈匝数80, C列的“3”线圈匝数90从前表可以看出:输出力矩最大的是Y5=236,这时所对应的水平组合是A2B2C3,试验条件A2B2C3是否是最优的呢
34、?是否在没有试验到的一些不同因素,不同水平的搭配中有更优的试验条件呢?要回答这个问题,还需要对试验结果作进一步的极差分析或方差分析:2、 极差分析(1) 计算每一列同水平的试验结果之和;如=160+215+180=555,都是对应于表中A列的; ,都是对应于表中B列的“2”; ,都是对应于表中C列的“3”.(2) 计算平均值:=555÷3=185(3) 计算极差=(4) 分析:比较各个列的,可知:A的数字了大,所以A的二水平最好;同理B列的,C列的数字最大,所以B2,C3水平最好;故最正确条件(指标达到最大的条件)是A2B2C3,即充磁量取1100,定位角度11,线圈取90匝数,可以
35、使输出力矩达到最大。(5) 比较“直观看”与“极差分析”的优缺点:“直观看”既方便又可靠。但我们毕竟只作9次试验,占全面试验次数33=27的三分之一,可能漏掉更优的试验条件。如果极差分析的结果与直观看的结果是一致的(如本例),则认为这个“一致”的方案是最优的。如果不一致,可以按照极差分析所得的方案作一次补充试验,如果效果真有提高,则按补充试验方案,否则暂按“直观看”的方案进行小批生产。3、 各因子对指标影响程度大小的分析可以从各个因子的“极差”来分析:R大,则改变这一因子的水平,会对指标造成较大的变化,反之影响就小,如例中RB>RA>RC。4、 各因子不同水平对指标的影响图,见P8
36、8从图中可以看出:(1) 每一个因子的最好水平是什么?(2) 各个因子对指标影响的大小。注意:极差分析是用而不是用(用平均值的极差)。5、 数据的方差分析极差分析固然可直观地看出哪个因子对指标的影响,R大,影响大,R小,影响小,那么,R要小到多少,才说明该因子对指标的影响不显著了呢?为回答这个问题,需要对数据进行方差分析。在进行方差分析时,基础是三个假设:一是,假定每一试验是独立进行的;二是,每一试验条件下的试验指标服从正态分布;三是分布的方差相等。(1) 平方和分解:·总偏差平方和(描述数据的总波动) 其中:试验次数, :试验结果的总平均 注意:公式中表示不同试验条件下的指标输出值
37、,在单因子的方差分析中,表示不同水平下重复多次试验得出的数据,不可混淆。也不可与混淆,此式中是因变量。·总的偏差平方和 因子的偏差平方和 误差的偏差平方和(所有空白列的偏差平方和)若因子A放在第一列,则=,因子B、C分别放置第二、三列,则=。第四列没有置因子,称为空白列。故同样的有 对一般的正交表来讲,只要其行数n、列数P与水平数q满足式(2.3-1)式,则有:称为平方和分解式。(2) F比:同单因子方差分析相似 :因子的均方和 :因子的自由度 :误差的均方和 :误差的自由度当 >时,认为在显著性水平上,该因子是显著的。(3) 计算:现在的问题是如何求· 式中:n试验
38、次数 ·上式中,如果是求A因子的偏差平方和,则就用A列的数据。而且这个式子不但适用于求,而且也可以用此式求出。当然也可以用求出。注意·或· ····例2.3-1的方差分析计算表表头设计ABC试验号/列号123419555485555536594656523562502510573553S1421.65686.9427.6116.2如: 也可以用 求出例2.3-1的方差分析表来源平方和S自由度f均方和VF比因子A因子B因子C误差e1421.65686.9427.6116.22222710.82843.4213.858.112.
39、2348.943.68T7652.28由于大于,大于,因此说因子A在显著性水平0.10上是显著的,因子B在显著性水平0.05上是极显著的,因子C不显著。6、 最正确条件的选择对显著因子应该选择其最好水平;对不显著因子可以任意选择水平,可根据成本,操作方便等选择。7、 因式的贡献率当试验指标不服从正态分布时,进行方差分析的依据就不够充足,此时可以通过比较各因子的贡献率来衡量因子作用的大小。·因子贡献率=·误差贡献率=如例子中因子A的贡献率= =误差的贡献率=(四) 验证试验虽然经过方差分析可以找到最正确条件,但利用正交表试验次数较少,实际中分析所得的最正确条件不一定在试验中出
40、现,为此通常要进行验证试验。三、有交互作用的正交设计与数据分析因子的交互作用:教材中给出二种定义:一种在多个因子试验中除了单个因子对指标有影响外,有时两个因子不同水平的搭配对指标也会产生影响,这种影响如果存在就称为因子A与B的交互作用。一种是一个因子的水平好坏或好坏的程度受另一因子水平制约的情况,称为因子A与B的交互作用,用A×B表示。(一) 试验的设计:步骤同无交互作用的正交设计基本相同,只是要加上考察交互作用。在例2.3-2中,有A×B:所以不同的有以下几个步骤:1、 选择合适的正交表:根据所考察的因子水平多少选对应水平的正交表,如本例中是二水平,则选二水平的正交表。如
41、,但到底选哪一个正交表,要看所要考察的因子有多少个,包括有交互作用的要计入。如例中有4个因子加上一个A×B,所以可看成五个二水平因子,因此所选正交表至少需要5列,故应选表。2、 表头设计:设计时要利用交互作用表。在正交表中,凡是水平数相等的正交表,都附有一张安排交互作用列的表,称为“交互作用表”,例如:1234567(1)325476(2)16745(3)7654(4)123(5)32(6)1(7)应先把存在有交互作用的两个因子放到表头上去,这时可以放在任意两列上,如把因子A与B分别放在第一与第二列上,然后从交互作用表上查出这两列的交互作用列为第三列,则在第三列上标以A×B,余下的因子分别放在其他的空列上。3、 写出试验计划:把表中的1,2改为该因子的真实水平,如A因子是反应温度,“1”代表60,“2”代表80,见表2.3-10 P93(二) 数据分析1、 方差分析(1) 各因子偏差平方和的计算:,不同水平的正交表各因子的偏差平方和可用以下公式进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法务劳动法律咨询评价试题及答案
- 热线受理员考核制度
- 学校团支部考核制度
- 爱卫会工作考核制度
- 汽车队班长考核制度
- 风电场班组考核制度
- 监理 安全考核制度
- 蛋糕房员工考核制度
- 文职类人员考核制度
- 宣传部信息考核制度
- 藤县介绍教学课件
- 2025至2030电阻式随机存取存储器行业调研及市场前景预测评估报告
- 2026年苏州工业园区服务外包职业学院单招职业技能考试备考试题附答案详解
- 护理学专升本2025年模拟冲刺试卷(含答案)
- 水电站电气检修知识培训课件
- 2025年高考作文备考训练之“”犯错“与”试错作文导写
- 高危儿规范化健康管理专家共识
- 阿里斯托芬喜剧集
- 【杜邦分析法下海天味业公司(2018-2022)盈利能力分析10000字(论文)】
- PISA科学试题
- 《大气流体力学》思考题与习题集.pdf
评论
0/150
提交评论