均匀设计及均匀设计表_第1页
均匀设计及均匀设计表_第2页
均匀设计及均匀设计表_第3页
均匀设计及均匀设计表_第4页
均匀设计及均匀设计表_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 试验设计和均匀设计1.1试验设计在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。本世纪30年代,由于农业试验的需要,费歇尔(R.A.Fisher)在试验设计和统计分析方面做出了一系列先驱工作,从此试验设计成为统计科学的一个分支。随后,F.Yates,R.C.Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡

2、献,使该分支在理论上日趋完善,在应用上日趋广泛。60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正交试验设计,帮助工程技术人员进行试验的安排和数据分析,获得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展览会。在广泛使用试验设计方法的洪流中,必然会出现一些新的问题,这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验因素需要考察较多等级(在试验设计中这些等级称之为

3、水平)时,用正交试验及其它流行的试验方法要求做较多的试验,常使得试验者望而生畏。许多实际问题要求一种新的试验方法,它能有效地处理多水平的试验,于是王元和方开泰于1978年提出了均匀设计(见文献13),该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息。10多年来,均匀设计在国内得到了广泛应用,并获得不少好的成果。试验设计在工业生产和工程设计中能发挥重要的作用,例如:1) 提高产量;2) 减少质量的波动,提高产品质量水准;3) 大大缩短新产品试验周期;4) 降低成本;5) 延长产品寿命。在自然科学中,有些规律开始尚未由人们所认识,通过试验设计可以获得其统计规律,在此

4、基础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过程。材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究和超导材料的配方息息相关。配方试验又称混料试验(Experiments with Mixtures),不仅出现于材料工业,而且在人们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配方中。由于在配方中各种材料的总和必须为100,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,Scheffé于1958年提出了单纯形格子点设计,随后于1

5、963年他又提出了单纯形重心设计。Cornell27对配方试验设计的各种方法作了详尽的介绍和讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰9给出了配方均匀设计的设计方法和有关的讨论。本书第五章将系统介绍配方试验设计和配方均匀设计。不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,以及各种选择回归变量的方法(如前进法、后退法、逐步回归、最优回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介绍。读者很容易找到各种参考书籍获得更详细的介绍。试验设计的方法很多,本书重点介绍均匀设计,这并不意味其它方法不重要,每种方法都有其优点,也

6、有其局限性,根据实际情况选取合适的方法是应用统计的重要内容。1.2试验的因素和水平 在工业、农业、科学研究和军事科学的研究中,经常需要作各种试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配方。让我们先看一个例子:例1 在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(A),时间(B)和加碱量(C)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中,我们选择的试验范围如下: 温度: 77.592.5 时间: 75分165分 加碱量: 4.5%7.5%然后在上述范围内,每个因素各选

7、三个水平,组成如下的因素水平表:表1 因素水平表因素123温度()808590时间(分)90120150加碱量()567选择因素和水平关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计的人员可能是有益的。1在一个生产过程中,有关的因素通常是很多的,例如在例1的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度,容器中的压力等。但根据这次试验目的,除了温度(A),时间(B),和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称为因素,只有变化的因素才称为因素。2在一项试验中,如何从众多的有关因子中挑选出试验方

8、案中的因素?我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地,因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因素,既然不费事何乐而不为呢?试验的结果发现,最后添加的这个因素是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花不成,无意插柳柳成荫。”3试验的范围应当尽可能大一点。如

9、果试验在试验室进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比已有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经验的范围。4若试验范围允许大一些,则每一因素的水平个数最好适当多一些。5水平的间隔大小和生产控制精度是密切相关的。若在例1中温度的控制只能作到±3,且我们设定控制在85,于是在生产过程中温度将会在85°±3,即8288波动。不难看到,这时设定的三个水平80,85,90之间是太近了,应当加大,例如80,90,1

10、00。如果温度控制的精度可达±1,则例1如设定的三个水平是合理的。6因素和水平的含意可以是广义的。例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平 。 1.3因素的主效应和因素间的交互效应根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书仅讨论只有一项试验指标(记作Y)的情形。如例如1的试验Y是得率。在数理统计中,称试验指标为响应(response)为通俗起见,本书中就叫试验指标。考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率Y之间的关系,并取温度五个水平,其相应Y值

11、如下:温度5060708090Y30%35%40%45%50%我们看到,温度每增加10得率增加5%这5%就是温度的效应。上述试验可以表成一个线性数学模型 (1.1)其中为第次试验结果,为温度从50到90范围内Y的平均值。通常可以用五次试验的平均值来估计,记作,即表示温度取第个水平时的值与之差。不难发现,它们的估计值为这里称为温度在五个水平下的主效应,为它们的估计值。由于试验中总存在一些偶然因素的干扰,如室温的变化,电压的波动,材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存在,不可能产生上例那么理想的情况。其实际数据可能为温度5060708090Y32%34%39%46%49%这时

12、数学模型为 (1.2)这里为第次试验的试验误差。这时试验必须有重复才能估计出和.实际上,当试验的水平和相应的Y为连续变量时,其数学模型也可以用回归方程来表达,例如,用线性回归方程 (1.3) 其中X表示温度,和是回归系数,为随机误差。在第二章将介绍,和可以用最小二乘法由试验数据估出,由上述温度和得率的数据可得回归方程 (1.4)这里为试验结果Y的估计值。利用方程(1.4)可以估出五次试验的结果如下:30.835.440.044.649.21.2-1.4-1.01.4-0.2其中称为残差,它的大小反映了回归方程(1.4)的精确程度,并可用它作回归诊断,更详细讨论请看第二章。方程(1.4)中,X的

13、回归系数0.46有明确的实际含意,它表示温度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X对Y的效应,这里可以称为线性回归效应。有一点是必须注意的,无论是模型(1.2)中的主效应,还是模型(1.3)中的线性回归效应,都强烈地依赖于试验条件,尤其是X的试验范围,也就是说,这两个模型只适用于X的试验范围内。否则,当X为210°时,的估值为104.4%,这是不可能的,因为得率总是小于100%的。显然,模型(1.2)和(1.3)是最简单的情形,实际情况是多种多样的,例如X和Y之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。现在我们来介绍因素间交互作用的概念。首先,设

14、有两个因素A和B它们各取两个水平和。这时共有四种不同的水平组合,其试验结果列于图1。当时,变到使Y增加30-10=20;类似地,当时,变到使Y也增加40-20=20。这就是说A对Y的影响与B取什么水平无关。类似地,当B从变到时,Y增加20-10(或40-30=10),与A取的水平无关。这时,我们称A和B之间没有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为直观。当图中的两条线平行时(或接近平行时),判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子,它们的含意和作图方法与图和图2是一样的。1 交互作用在实际中是大量存在的,例如化学反应中催化剂的多少与其它成分的投入量通

15、常是有交互作用的。水中各种金属含量太多,对人体健康会造成危害,金属之间对人体的危害也存在交互作用(参见例5)。当因素A,B 及其它们的试验指标Y都为连续变量时,可以建立Y和A;B之间的回归方程。若回归方程为 (1.5)时,A对Y的影响由回归系数完全决定,不受B取哪个水平的影响;类似地,B对Y的影响由回归系数完全决定,不受A取哪个水平的影响;类似地,对的影响由回归系数 完全 决定,不受取哪个水平的影响。这时A和B没有交互作用。当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有非线性的。最常见的模型之一为 (1.6)其中为回归系数,为随机误差。这时若>0,称A和B之间有正交互作用;

16、若<0,称A和B之间有负交互作用.请看如下两个例子当A=3.5,B=4.10时,相应两个回归方程的试验指标列于图5和图6。我们看到两种情形均有交互作用,且一个为正交互作用,另一个为负交互作用。 两个因素之间有交互作用时,其回归模型不一定呈(1.6)形式,更详细讨论可参见第二章第三节。多个因素之间(超过二个因素)也可能有交互作用,该问题也将在第二章讨论。1.4全面试验和多次单因素试验在一项试验中,当因素和水平确定后,如何设计该项试验呢?下面两种方法是最容易想到的:1、全面试验该方法将每一个因素的不同水平组合做同样数目的试验,例如将每个因素的不同水平组合均作一次试验。在一项试验中若有m个因素

17、, 它们各有个水平, 则全面试验至少需做次试验。例如,在例1中,则全面试验至少做次试验。当因素的个数不多,每个因数的水平数也不多时,人们常用全面试验的方法,并且通过数据分析可以获得较为丰富的结果,结论也比较精确。当因数较多,水平数较大时,全面试验要求较多的试验。例如,有六个因素,每个因素都是五水平,则至少需次试验,这个数目太大了,对绝大多数场合,做这么多次试验是不可能的。因此,我们需要一种试验次数较少,效果又与全面试验相近的试验设计方法。2、多次单因素试验这个方法在工程和科学试验中常被人们所采用,现以例1来说明这个方法。例1试验的目的是要寻找好的工艺使得化学反应后的得率最高。为介绍简单计,设试

18、验误差较小,故不作重复试验(即在同一试验条件下将试验重复多次)。设先将时间和加碱量固定,变化温度,试验结果如下: B90分 80 85 90 C5% 33% 70% 64% 其中33%,70%和 64%为得率,三次试验中,以70%为最高,故温度85°为最佳。第二步固定温度和加碱量,变化时间,其试验结果如下: A=85 90分 120分 150分 C=5% 70% 73% 59%以反应时间为120分最佳。下一步是固定时间和温度,变化加碱量,获得如下结果: A85 5% 6% 7% B120分 73% 75% 68%以加碱量 75%为最佳,于是有人就得出结论:最佳工艺为A80,B120分

19、,C6%。当因素之间没交互作用时,这个结论是正确的;当因素之间有交互作用时,该结论一般不真,今设例 1的因素间有交互作用,在上述试验的基础上,若我们固定B120分,C6%,变化因素 A并获得如下结果:B120分 80 85 90 C6% 46% 75% 78%发现有更好的工艺条件。这时我们发现温度的效应是依赖于因素B和C的,当B90分,C5%时,温度以85为佳,而当B120分,C6%时,温度以90为佳,这种现象表明温度和其他两因素间有交互作用。当因素间有交互作用时,用上述方法不一定能选到最好的工艺条件。例如,例1的试验应当继续按原来的方法做下去:A90 90分 120分 150分C6% 73%

20、 78% 84%发现工艺条件A90, B120分,C6%为最优工艺条件且似乎已不能改进。如果我们将27个工艺组合进行全面试验,发现当工艺条件为A90,B150分,C7%时得率可达82%,而这个工艺条件没有为上面的试验方法所发现。因此,多次单因素试验法有局限性。特别是,当因素的数目和水平数更多时,常常会得到错误的结论,不能达到预期的目的。1.5正交试验法(正交设计)这是目前最流行,效果相当好的方法。统计学家将正交设计通过一系列表格来实现,这些表叫做正交表。例如表2就是一个正交表,并记为,这里“L”表示正交表“9”表示总共要作9次试验,“3”表示每个因素都有3个水平,“4”表示这个表有4列,最多可

21、以安排4个因素。常用的二水平表有三水平表有四水平表有;五水平表有等。还有一批混合水平的表在实际中也十分有用,如 等。例如表示要求做16次试验,允许最多安排三个“4”水平因素,六个“2”水平因素。表2正交表 L9 (34 )No.1234111112122231333421235223162312731228321393321若用正交表来安排例1的试验,其步骤十分简单,具体如下: (1)选择合适的正交表。适合于该项试验的正交表有等,我们取,因为所需试验数较少。 (2)将A,B,C三个因素放到的任意三列的表头上,例如放在前三列。 (3)将A,B,C三例的“1”,“2”,“3”变为相应因素的三个水平

22、。 (4)9 次试验方案为:第一号试验的工艺条件为A1 (80),B1 (90分),C1 (5%);第二号试验的工艺条件为A1 (80),B2 (120分),C2 (6%)。这样试验方案就排好了。该例的进一步讨论请参考文献25。表 3正交试验方案No.ABC18090分5%280120分6%380150分7%48590分6%585120分7%685150分5%79090分7%890120分5%990150分6%在表3的正交试验设计中,可以看到有如下的特点: 1)每个因素的水平都重复了3次试验;2)每两个因素的水平组成一个全面试验方案。这两个特点使试验点在试验范围内排列规律整齐,有人称为“整齐可

23、比”。另一方面,如果将正交设计的9个试验点点成图(图7),我们发现9个试验点在试验范围内散布均匀,这个特点被称为“均匀分散”。正交设计的优点本质上来自“均匀分散,整齐可比”这两个特点。有关正交设计的详细讨论可参看文献2426,30。1.6均匀设计每一个方法都有其局限性,正交试验也不例外,它只宜于用于水平数不多的试验中。若在一项试验中有s 个因素,每个因素各有q 水平,用正交试验安排试验,则至少要作个试验,当q 较大时,将更大,使实验工作者望而生畏。例如,当 q=12 时,=144,对大多数实际问题,要求做144 次试验是太多了!对这一类试验,均匀设计是非常有用的。所有的试验设计方法本质上就是在

24、试验的范围内给出挑选代表点的方法。正交设计是根据正交性准则来挑选代表点,使得这些点能反映试验范围内各因素和试验指标的关系。上节我们提及正交设计在挑选代表点时有两个特点:均匀分散,整齐可比。“均匀分散”使试验点有代表性;“整齐可比”便于试验数据的分析。为了保证“整齐可比”的特点,正交设计必须至少要求做q2次试验。若要减少试验的数目,只有去掉整齐可比的要求。均匀设计就是只考虑试验点在试验范围内均匀散布的一种试验设计方法,其原理将在第三章给出。 均匀设计和正交设计相似 ,也是通过一套精心设计的表来进行试验设计的。附录给出了41个均匀设计表和相应的使用表。表4、表5和表6就是其中的三个。每一个均匀设计

25、表有一个代号或,其中“U”表示均匀设计,“n” 表示要做n 次试验,“q”表示每个因素有q个水平,“s”表示该表有s列。的右上角加“*”和不加“*”代表两种不同类型的均匀设计表。通常加“*”的均匀设计表有更好的均匀性,应优先选用。例如表示要做次6试验,每个因素有6个水平,该表有4列。每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用适当的列,以及由这些列所组成的试验方案的均匀度。表7是的使用表。它告诉我们,若有两个因素,应选用1,3两列来安排试验;若有三个因素,应选用1,2,3三列,最后1列D表示刻划均匀度的偏差(discrepancy),偏差值越小,表示均匀度越好。例如由附录A1.

26、3和A1.4的两个均匀设计表和及它们的使用表来安排试验,今有两个因素,若选用的1,3列,其偏差D=0.2398,选用的1,3列,相应偏差D=0.1582,后者较小,应优先择用。有关D的定义和计算将在第三章介绍。当试验数n给定时,通常表比表能安排更多的因素。故当因素s较大,且超过的使用范围时可使用表。表4 1234112362246533624441535531266541表5 123411236224653362444153553126654177777如上所述,表最多可以安排四个因素的试验。若用正交表安排三个6水平因素,至少要采用,该表最多能安排三个因素,可要做36次试验,而两个表的偏差一个

27、为0.1875,另一个为0.1597(参见表23),相差并不十分大。由此例可见均匀设计的优点。表6 123411357226263317544444557136626277531表7 的使用表S列号D2130.187531230.2656412340.2990 均匀设计有其独特的布(试验)点方式,其特点表现在:1)每个因素的每个水平做一次且仅做一次试验。2)任两个因素的试验点点在平面的格子点上,每行每列有且仅有一个试验点。如表的第一列和第三列点成图8(a). 性质1)和2)反映了试验安排的“均衡性”,即对各因素,每个因素的每个水平一视同仁。 3)均匀设计表任两列组成的试验方案一般并不等价。例如

28、用的1,3 和1,4列分别画图,得图8(a)和图8(b)。我们看到,(a)的点散布比较均匀,而(b)的点散布并不均匀。均匀设计表的这一性质和正交表有很大的不同,因此,每个均匀设计表必须有一个附加的使用表。4)当因素的水平数增加时,试验数按水平数的增加量在增加。如当水平数从9水平增加到10水平时,试验数n 也从9增加到10。而正交设计当水平增加时,试验数按水平数的平方的比例在增加。当水平数从9到10时,试验数将从81增加到100。由于这个特点,使均匀设计更便于使用。均匀设计表还有一些其它的特点,在第三章将进一步介绍。1.7均匀设计表的使用本节介绍如何利用均匀设计表来安排试验。其步骤和正交设计很相

29、似,但也有一些不同之处。通常有如下步骤:1)根据试验的目的,选择合适的因素和相应的水平。2)选择适合该试验的均匀设计表,然后根据该表的使用表从中选出列号,将因素分别安排到这些列号上,并将这些因素的水平按所在列的指示分别对号,则试验就安排好了。例2 (本例来自文献1)在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比(A)、吡啶量(B)和反应时间(C)三个因素,它们各取了7个水平如下:原料配比(A):1.0,1.4,1.8,2.2,2.6,3.0,3.4吡啶量(B)(ml):10,13,16,19,22,25,28反应时间(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5根

30、据因素和水平,我们选取均匀设计表或。由它们的使用表中可以查到,当s=3时,两个表的偏差分别为0.2132和0.3721,故应当选用来安排该试验,其试验方案列于表8。该方案是将A,B,C分别放在表的后3列而获得的。表8 制备阿魏酸的试验方案和结果No.配比(A)吡啶量(B)反应时间(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(6)25(6)1.0(2)0.29442.2(1)10(1)2.5(5)0.47652.6(5)16(3)0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.

31、5(7)0.482表9 制备阿魏酸的试验方案和结果No.配比(A)吡啶量(B)反应时间(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(3)25(6)1.0(2)0.29442.2(4)10(1)2.5(5)0.47652.6(5)16(3)0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.5(7)0.482由于表是最近由方开泰和李久坤14获得的,故文献1使用的是均匀设计表,他们的试验方案列于表9。根据试验方案进行试验,其收率(Y)列于表9的最后一列,其中以第7号试验为最好,其工艺

32、条件为配比3.4,吡啶量28ml,反应时间3.5h。下章将通过统计分析(其中最主要是回归分析),可以发现更好的工艺条件。19第一章 试验设计和均匀设计 共17页第二章 回归分析简介及其在均匀设计中的应用回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如26,29,30数据处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。2.1一元线性回归模型由于均匀

33、设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详细讨论这个模型。一元线性回归虽简单,但从中可以了解回归分析方法的基本思想/方法和应用。我们首先通过一个例子说明如何建立一元线性回归方程。例3 为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据于下页表中。为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,这个图称为散点图。从图9看到,数据点大致落在一条直线附近,这告诉

34、我们变量X与Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X与Y的关系并没有确切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X与Y的关系,可以假定 年序最大积雪深度X(尺)灌溉面积Y(千亩)115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4有如下结构式:Y=+X+ (2.1)式中, 称为回归系数,X为自变量,Y为因变量,

35、表示随机误差,常常假定遵从正态分布N(0,2),这表示误差为正和负的机会一样多,2 表示误差的大小。式中,2 通常是未知的,它们要通过数据的信息来估计。 设(),i=1,n为一组数据,若用回归方程(2.1)来拟合,则当X=时的估计值为 (2.2) 自然,我们希望求和使与很接近.也就是说,我们要决定一条直线,使其与所有的点都比较接近,最流行求, 估计值的办法是用最小二乘法,令 (2.3)最小二乘法是求和使Q达极小,使Q达极小的和值记为a和b.利用微积分中求极值的办法求得 (2.4)式中 (2.5) 利用这些公式到例3,得于是 b=415.606/230.656=1.802 a=36.53-1.8

36、02×18.88=2.511从而回归方程为读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟合效果的好坏,如下的方法是十分有用的。 (a) 相关系数 相关系数 用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介于-1,1之间,它的意义由图10可以知道。r的绝对值越接近于1表示X和Y之间的线性关系越密切;r0,两者呈正比关系,叫正相关;r 0两者呈负相关。r的值接近于0,两者没有线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示X和Y有非线性相关关系,r的计算公式为 (2.6)式中 (2.7)对例3 =764.861 r=415.605/ =0.9894

37、 后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关系,且是正相关.但是,相关系数有一个缺点,就是它接近1的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接近于1,当n较大时,相关系数的绝对值容易偏小。特别当n=2时,因为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中29给出相关系数的起码值,当相关系数的绝对值大于表中之值时才可以认为X和Y有线性关系。此例当显著性水平=1%时,表中的起码值为0.765,今计算r=0.9894 0.765,故最大积雪深度与灌溉面积有高度的线性关系。在有些统计软件中,常给出,这时便于区别记为。 (b)方差分析和F检验 因变量的

38、波动可用来表达,这个波动是由两个因素造成的;一个是X的变化引起Y相应的变化,另一个是随机误差。前者造成Y的波动可用回归平方和来表达,后者用残差平方和来度量。它们分别用 和来表示,从数学上可以导出 (2.8)当X和Y为线性回归模型(2.1)时,它们有如下更方便的计算公式 - (2.9) 利用统计量 F (2.10)可以来检验回归方程(2.1)是否可信.当方程可信时F ,这里为F表中的临界值,1和n-2为自由度,为显著水平.对例3可以算得 =1.802×415.606=748.922 =764.961-748.922=16.039 F=8×748.922/16.039=373.

39、55当=1%时。用F值和F表上的临界值相比,若F ,表明Y的变化主要是由X的变化造成的,回归方程(2.1)可信;若F值小于,回归方程不可信。可信的程度也可分成不同等级,在本书中,=5%时可信用“*” 表示,=1%时可信用“*” 表示。上述计算结果常列成方差分析表,如表10所示。表10方差分析表方差来源平方和自由度均方F显著性回归748.9221748.922373.550*误差16.03982.005总和764.9619 (c) 残差分析称为残差,它能提供许多有用的信息,表11给出了例3的10个残差,利用残差可以提供如下信息:表11预报和残差表 No.No.129.90-1.30645.21-

40、0.21221.00-1.70726.812.39340.71-0.21832.601.50435.99-0.39945.760.94550.08-1.181036.920.48 (i)之估计 (2.11)给出了回归方程的精度,它称为残差标准差,若随机误差遵从正态分布N(0,),则Y的预报落在之内的概率大约为95%,对例3可以算得=1.416,且10个均落于2×1.416之内。 (ii)数据和模型之诊断由残差之大小,可以发现异常(或叫离群)数据,可以发现模型(2.1)是否合适,是否要用非线性回归模型等,这些已形成一整套理论,称为回归诊断,有兴趣的读者可参见文献31。2.2多元线性回归

41、模型 当影响因变量Y的自变量不止一个时,比如有m个,,这时Y和X之间的线性回归方程为 (2.12)其中为回归系数,为随机误差,常假定 。 设为观测值,回归分析的首要任务是利用它们来估计和,它们的最小二乘估计记作求估计值 需要解下面的线性方程组 (2.13)其中当 求得后,计算 (2.14)回归方程(2.12)建立后,检验其是否可信可用方差分析,这时公式(2.8)依然有效,但 方差分析表(参看表10)将成为表12之形式,其中 (2.15)表12方差分析表方差来源平方和自由度均方F显著性回归m残差n-m-1总和n-1 它将与F的临界值来比较,其比较的结果和结论请参见上节的讨论,反映回归精度的的估计

42、公式为 (2.16) 类似于一元回归相产系数r,可以定义适用于多元回归的全关系数R,R定义)为和的相关系数,或定义为 (2.17) 例4 试用线性回归模型(2.10)来拟合表9的试验数据。 解:这时n=7,7组观察值为(0.330,1.0,13,1.5),(0.336,1.4,19,3.0), (0.482,3.4,28,3.5),它们的均值和为 由于,故它们不必全部列出,将它们代入到方程级(2.13)中可以解得 从而 a=0.3683-0.037×2.2+0.00343 ×19-0.077×2.0 =0.201的估计为.于是回归方程为 (2.18)进一步对它作方

43、差分析,其方差分析表列于表13.表13方差分析表方差来源自由度平方和均方F回归30.0487700.0162573.29误差30.0148380.004946总和60.063608当 =0.05 时F表的临界值,回归方程(2.18)不可信.这时,是否Y和三个因素之间不可能建立回归关系呢?不是的,我们还应作进一步探讨,在下节我们将继续讨论该例。2.3二次型回归模型与变量筛选 由于因变量常常有交互作用,回归模型(2.12)不足以反映实际,于是二次型回归模型常常为人们所采用.若有m个因素则二次型回归模型为 (2.19)其中为回归系数,为随机误差.我们看到,这时除了常数项 以外,方程有m(m+3)/2

44、 项,当m=1,2, 时项数为m12345678910项数25914202735445465若使回归系数的估计有可能,必要条件为n>1+m(m+3)/2.当m 较大时,通常不能满足这个必要条件.于是有必要从方程(2.19)中选择贡献显著的项,删除不重要的项.有时,实际问题需要考虑高阶的交互作用,如 等,这时筛选变量的任务就更为重要.在回归分析中,有许多有效的筛选变量的技术,如a) 前进法,b) 后退法,c) 逐步回归法,d) 最优子集法(参看25)。本章仅仅采用逐步回归技术来筛选变量,这并不意味着逐步因归在上述四项技术中最好的。 逐步回归是回归分析中的一种筛选变量的技术.开始它将贡献最大

45、的一个变量选入回归方程,并且预先确定两个阈值 和 ,用于决定变量能否入选或剔除.逐步回归在每一步有三种可能的功能: a) 将一个新变量引进回归模型,这时相应的F统计量必须大于 b) 将一个变量从回归模型中剔除,这时相应的F统计量必须小于 c) 将回归模型内的一个变量和回归模型外的一个变量交换位置。 执行功能a)和b)时要注意如下原则: 设在当前步骤中有s个变量不在回归模型中,有t个变量在回归模型中.今欲从s个变量中挑选一个加入回归模型之中,显然应挑选使回归效果最好的变量.这里回归的效果可用方差分析表(见表10,表13)中F值来衡量,显然我们要从s个变量中挑选一个变量使F值达到极大.类似地,若欲

46、从t 个变量中删除一个变量使其离开回归模型,我们就是要选择删除后使回归效果最好的变量,或选择对当前回归模型贡献最小的变量.如果在某一步中,既能实现a)又能实现b),两者之和就是功能c)。大部分统计软件包均有逐步回归之功能,例如中国均匀设计学会推荐的软件包。 现在我们对例4继续进行讨论.设先用后退法来选变量.所谓后退法,就是开始将所有的变量全部采用,然后逐步剔除对方程没有显著贡献的变量,直到方程中所有的变量都有显著贡献为止。 仍考虑线性模型,开始三个因素全部进入方程,得(2.18).统计软件包通常还会提供每个变量的t值,t值越大(按绝对值计)表示该因素越重要.对例2有 这表明三个因素中以(反应时

47、间)对得率(Y)影响最大,配比次之,吡啶量最小.这些t 值都是随机变量,它们遵从分布.若取=0.05 ,这时n=7,m=3, = 的临界值(0.05)=3.18.t 值大于该值的因素表示对方程有显著贡献,否则表示不显著.今 均小于(0.05)=3.18 ,说明回归方程(2.18)的三个变量至少有一个不起显著作用.于是我们将贡献最小的删去,重新建立Y和及的线性回归方程,得 (2.20),三个t 值分别为这时这三个t值遵从含四个自由度的t 分布,临界值为(0.05)=2.78,从而 应从方程中剔除.然后对Y和建立回归方程 (2.21)相应的.因此,回归方程(2.21)为“最终”的回归模型.这里最终

48、加上引号,表示并非真正的最终模型,而是在线性模型框架下的最终产物。 上述的分析只发现对Y有显著作用,其它两个因素均没有显著作用,该结论与实际经验不吻合,因此,猜想用线性模型不一定符合实际.于是进一步考试二次回归模型(2.19).这时方程中有9项(不算).利用逐步回归技术求得回归方程如下: (2.22)其相应的 。显然,回归方程(2.22)的效果优于回归方程(2.21).方程(2.22)表明,因素和交互作用对Y有显著的影响.值得注意的是,有些人对回归分析没有足够的理解,片面追求大的(或小的),致使选进方程中的项过多,使误差自由度为1或甚至为0,这时有关的结可靠性是很差的.因此,不应片面追求大的,

49、应选择n 稍大的均匀设计表,使得误差有足够的自由度5。2.4应用实例 均匀设计和正交设计以及其他试验设计方法一样,在工农业生产和科学实验中有广阔的应用前景,本文的文献中列举了部分应用成果,其中有些成果成绩显著.更多的成果有待搜集.均匀设计不但在国内得到广泛应用,在彼得格勒和香港也已开花结果.本节选择香港浸会学院生物系的一项试验,供读者参考。 例5 为了研究环境污染对人体的危害,今考核六种金属的含量:镉(Cd),铜(Cu),锌(Zn),镍(Ni),铬(Cr),铅(Pb),每种金属含量分别取了17个水平(百万分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20.今欲考虑这些金属含量(包括它们的交互作用)对老鼠寿命的影响,该试验考核老鼠身上某种细胞的死亡率.它们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论