版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 试验设计和均匀设计试验设计 在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生 产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要 通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半 功倍,反之会事倍功半,甚至劳而无功。本世纪 30 年代,由于农业试验的需要,费歇尔在试验设计和统 计分析方面做出了一系列先驱工作, 从此试验设计成为统计科学 的一个分支。随后, ,.Bose,,和对试验设计都作出了杰出的贡献,使该分支在理论上日 趋完善,在应用上日趋广泛。 60 年代,日本统计学家田口玄一 将试验设计中应用最广的
2、正交设计表格化, 在方法解说方面深入 浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70 年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正 交试验设计,帮助工程技术人员进行试验的安排和数据分析,获 得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展 览会。在广泛使用试验设计方法的洪流中,必然会出现一些新的问题, 这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验因素需要考察较多等级(在试验设计中这 些等级称之为水平)时,用正交试验及其它流行的试验方法要求 做较多的试验,常使得试验者望而生畏。许
3、多实际问题要求一种 新的试验方法,它能有效地处理多水平的试验,于是王元和方开 泰于 1978 年提出了均匀设计(见文献 13),该设计考虑 如何将设计点均匀地散布在试验范围内, 使得能用较少的试验点 获得最多的信息。 10 多年来,均匀设计在国内得到了广泛应用, 并获得不少好的成果。试验设计在工业生产和工程设计中能发挥重要的作用,例如: 提高产量;减少质量的波动,提高产品质量水准; 大大缩短新产品试验周期; 降低成本; 延长产品寿命。在自然科学中,有些规律开始尚未由人们所认识,通过试验设计 可以获得其统计规律,在此基础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过
4、程。材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金 钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究 和超导材料的配方息息相关。配方试验又称混料试验(Experiments with Mixtures ),不仅出现于材料工业,而且在人 们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配 方中。由于在配方中各种材料的总和必须为100 %,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,Scheff 于1958年提出了单纯形格子点设计,随后于1963年他又提出了单纯形重心设计。Cornell27对配方试验设计的各种方法
5、作了详尽的介绍和 讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰 9给出了配方均匀设计的设计方法和有关的讨论。本书第五章将 系统介绍配方试验设计和配方均匀设计。不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,以及 各种选择回归变量的方法(如前进法、后退法、逐步回归、最优 回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介 绍。读者很容易找到各种参考书籍获得更详细的介绍。试验设计的方法很多, 本书重点介绍均匀设计, 这并不意味其它方法不重要, 每种方法都有其优 点,也有其局限性,根据实际情况选取合适的方法是应用统计的重要内
6、容。试验的因素和水平在工业、农业、科学研究和军事科学的研究中,经常需要作各种 试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配 方。让我们先看一个例子:例1在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(A),时间(B)和加碱量(C)。为了便于试验的安排,每个因 素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中, 我们选择的试验范围如下:温度:77.5C 92.5C时间:75分165分加碱量: %然后在上述范围内,每个因素各选三个水平,组成如下的因素水 平表:表1因素水平表因素123温度(C)8085
7、90时间(分)90120150加碱量() 567选择因素和水平关系到一个试验能否成功的关键,下列的注意事 项和建议对使用试验设计的人员可能是有益的。1. 在一个生产过程中,有关的因素通常是很多的,例如在例1 的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度, 容器中的压力等。但根据这次试验目的,除了温度(A),时间(B), 和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称 为因素,只有变化的因素才称为因素。2.在一项试验中,如何从众多的有关因子中挑选出试验方案中的因素我们建议课题的领导者应当要请有经验的工程师、技
8、术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个), 那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地, 因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏 重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的 目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利 用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因 素,既然不费事何乐而不为呢试验的结果发现, 最后添加的这个因素 是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花 不成,无意插柳柳成荫。”3.试验的范围应当尽可能大一点。如果试验在试验室进行,试 验范围大比较容易
9、实现;如果试验直接在生产中进行,则试验范围不 宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不 易获得比已有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经 验的范围。4.若试验范围允许大一些,则每一因素的水平个数最好适当多一些。5. 水平的间隔大小和生产控制精度是密切相关的。若在例1中温度 的控制只能作到士 3C,且我们设定控制在85C,于是在生产过程中温度将会在 85 士 3C,即82 88C波动。不难看到,这时设定的三个水平80C ,85C ,90C 之间是太近了,应当加大,例如 80C ,90C ,100C。如果温度
10、控制的 精度可达士 1C,则例1如设定的三个水平是合理的。6.因素和水平的含意可以是广义的。 例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一 个因素,五种棉花就是该因素下的五个水平。因素的主效应和因素间的交互效应根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书 仅讨论只有一项试验指标(记作 Y)的情形。如例如1的试验丫是得 率。在数理统计中,称试验指标为响应(respo nse)为通俗起见,本 书中就叫试验指标。考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率丫之间的关系,并取温度五个水平,其相应 丫值 如下:温
11、度50 C60 C70 C80 C90 C丫30%35%40%45%50%我们看到,温度每增加10C得率增加5%这5%就是温度的效应。上 述试验可以表成一个线性数学模型Yii,i 1, ,5其中Yi为第i次试验结果,为温度从50C到90C范围内丫的平均值。 通常可以用五次试验的平均值来估计,记作?,即1?- 30 35 4045 50405i表示温度取第i个水平时Yi的值与之 差。不难发现,它们的估计 值为? 30 4010, ?2 35 40 5240 40 0, ?45 405?50 40 10这里1, , 5称为温度在五个水平下的主效应,?1 , , ?5为它们的估计 值。由于试验中总存
12、在一些偶然因素的干扰,如室温的变化,电压的波动, 材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存 在,不可能产生上例那么理想的情况。其实际数据可能为温度50 C60 C70 C80 C90 C丫32%34%39%46%49%这时数学模型为Yiii,i1,5这里i为第i次试验的试验误差。这时试验必须有重复才能估计出i和i.实际上,当试验的水平和相应的丫为连续变量时,其数学模型也可以 用回归方程来表达,例如,用线性回归方程其中X表示温度,和 是回归系数,为随机误差。在第二章将介绍, 和 可以用最小二乘法由试验数据估出,由上述温度和得率的 数据可得回归方程Y? 7.80 0.46X这里
13、Y?为试验结果丫的估计值。利用方程可以估出五次试验的结果如 下:丫?YI丫?其中丫 丫?称为残差,它的大小反映了回归方程的精确程度,并可用 它作回归诊断,更详细讨论请看第二章。方程中,X的回归系数有明确的实际含意,它表示温度每增加一度, 其得率丫平均增加,于是反映了 X对丫的效应,这里可以称为线性 回归效应。有一点是必须注意的,无论是模型中的主效应 i,还是模型中的线 性回归效应,都强烈地依赖于试验条件,尤其是 X的试验范围,也 就是说,这两个模型只适用于 X的试验范围内。否则,当X为210 时,丫?的估值为,这是不可能的,因为得率总是小于 100%的。显然,模型和是最简单的情形,实际情况是多
14、种多样的,例如X和丫之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。现在我们来介绍因素间交互作用的概念。首先,设有两个因素A和B它们各取两个水平和B,B2。这时共有四种不同的水平组合,其 试验结果列于图1。当B B时,A变到A使丫增加30-10=20;类似 地,当B B2时,A变到A使丫也增加40-20=20。这就是说A对丫的 影响与B取什么水平无关。类似地,当B从B1变到B2时,丫增加20-10 (或40-30=10),与A取的水平无关。这时,我们称 A和B之间没 有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为 直观。当图中的两条线平行时(或接近平行时),判断 A和
15、B之间没 有交互作用.图3和图4给出了一个有交互作用的例子,它们的含意和作图方法与图和图2是一样的交互作用在实际中是大量存在的,例如化学反应中催化剂的多少与其 它成分的投入量通常是有交互作用的。 水中各种金属含量太多,对人 体健康会造成危害,金属之间对人体的危害也存在交互作用(参见例 5)。当因素A, B及其它们的试验指标丫都为连续变量时,可以建立 丫和 A; B之间的回归方程。若回归方程为YA B()时,A对丫的影响由回归系数 完全决定,不受B取哪个水平的影响; 类似地,B对丫的影响由回归系数丫完全决定,不受 A取哪个水平的 影响;类似地,对的影响由回归系数 完全 决定,不受取哪个水平的 影
16、响。这时A和B没有交互作用。当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有 非线性的。最常见的模型之一为YA B AB()其中,为回归系数, 为随机误差。这时若 0,称A和B之间 有正交互作用;若 1 2A 3B 3.5AB当A二,B=寸,相应两个回归方程的试验指标列于图 5和图6。我们看 到两种情形均有交互作用,且一个为正交互作用,另一个为负交互作 用。VH2图4两个因素之间有交互作用时,其回归模型不一定呈形式,更详 细讨论可参见第二章第三节。多个因素之间(超过二个因素)也可能 有交互作用,该问题也将在第二章讨论。全面试验和多次单因素试验在一项试验中,当因素和水平确定后,如何设
17、计该项试验呢下面 两种方法是最容易想到的:1、全面试验该方法将每一个因素的不同水平组合做同样数目的试验,例如将每个因素的不同水平组合均作一次试验。在一项试验中若有m个因素,它们各有li, ,lm个水平,则全面试 验至少需做li 12lm次试验。例如,在例1中,Il I2 I3 3则全面试验至少做3 3 3 27次试验。当因素的个数不多,每个因数的水平数 也不多时,人们常用全面试验的方法,并且通过数据分析可以获得较 为丰富的结果,结论也比较精确。当因数较多,水平数较大时,全面 试验要求较多的试验。例如,有六个因素,每个因素都是五水平,则 至少需5615625次试验,这个数目太大了,对绝大多数场合
18、,做这么多次试验是不可能的。因此,我们需要一种试验次数较少,效果又与 全面试验相近的试验设计方法。2、多次单因素试验这个方法在工程和科学试验中常被人们所采用, 现以例1来说明 这个方法。例1试验的目的是要寻找好的工艺使得化学反应后的得率 最高。为介绍简单计,设试验误差较小,故不作重复试验(即在同一 试验条件下将试验重复多次)。设先将时间和加碱量固定,变化温度,试验结果如下 :B= 90 分C= 5%33%70%64%C=5%70%Z3%59%A= 85 C5%6%7%B= 120 分80 C85 C90 CC= 6%46%75%78%A= 90 C90分 120分 150分C= 6%73%78
19、%84%发现工艺条件A= 90C, 已不能改进。如果我们将其中33%, 70%和64%为得率,三次试验中,以70%为最高,故温度85为最佳。第二步固定温度和加碱量,变化时间,其试验结果如下:A=85C90 分 120 分 150 分以反应时间为120分最佳。下一步是固定时间和温度,变化加碱量,获得如下结果:B= 120 分73% 75%68%以加碱量75%为最佳,于是有人就得出结论:最佳工艺为 A= 80C,B= 120 分,C= 6%。当因素之间没交互作用时,这个结论是正确的;当因素之间有交互作 用时,该结论一般不真,今设例 1的因素间有交互作用,在上述试 验的基础上,若我们固定B= 120
20、分,C= 6%,变化因素A并获得如 下结果:发现有更好的工艺条件。这时我们发现温度的效应是依赖于因素 B和 C的,当B= 90分,C=5%时,温度以85C为佳,而当B= 120分,C= 6%时,温度以90C为 佳,这种现象表明温度和其他两因素间有交互作用。当因素间有交互作用时,用上述方法 不一定能选到最好的工艺条件。例如,例1的试验应当继续按原来的 方法做下去:B= 120分,C= 6%为最优工艺条件且似乎 27个工艺组合进行全面试验,发现当工艺 条件为A= 90C, B= 150分,C= 7%时得率可达82%,而这个工艺条 件没有为上面的试验方法所发现。因此,多次单因素试验法有局限性。 特别
21、是,当因素的数目和水平数更多时,常常会得到错误的结论,不 能达到预期的目的。正交试验法(正交设计)这是目前最流行,效果相当好的方法。统计学家将正交设计通过一系 列表格来实现,这些表叫做正交表。例如表2就是一个正交表,并记为L9 34,这里“ L”表示正交表“ 9”表示总共要作9次试验,“ 3” 表示每个因素都有3个水平,“ 4”表示这个表有4列,最多可以安 排4个因素。常用的二水平表有L4 23,L8 27,Li6 215,L32 231;三水平表有 L9 34丄27 313 ;四水平表有L16 45 ;五水平表有L25 5 6等。还有一批混合 水平的表在实际中也十分有用,如L8 4 24,L
22、i2 23 31 ,Li6 44 2,Li6 426 , Li6 4229 ,Li6 4 212丄16 81 28丄18 2 37等。例如Li6 43 26表示要求做16次试验, 允许最多安排三个“ 4”水平因素,六个“ 2”水平因素。表2 正交表L9 (34 )No.1234111112122231333421235223162312731228321393321若用正交表来安排例1的试验,其步骤十分简单,具体如下:(1) 选择合适的正交表。适合于该项试验的正交表有L9 34丄18 2 37丄27 313等,我们取L9 34,因为所需试验数较少。(2) 将A, B,C三个因素放到L9 34的
23、任意三列的表头上,例如(3)将A,B,C三例的“ 1”,“ 2”,“ 3”变为相应因素的三 个水平。(4)9次试验方案为:第一号试验的工艺条件为 Ai (80C), B1 (90 分),C (5%);第二号试验的工艺条件为 Ai (80C), B2 (120分),C2 (6%)。这样试 验方案就排好了。该例的进一步讨论请参考文献25。表3正交试验方案No.ABC180 C90分5%280 C120分6%380 C150分7%485 C90分6%585 C120分7%685 C150分5%790 C90分7%890 C120分5%990 C150分6%在表3的正交试验设计中,可以看到有如下的特点
24、:1)每个因素的水平都重复了 3次试验;曲72)每两个因素的水平组成一个全面试验方案。这两个特点使试验点 在试验范围内排列规律整齐,有人称为“整齐可比”。另一方面,如 果将正交设计的9个试验点点成图(图7),我们发现9个试验点在 试验范围内散布均匀,这个特点被称为“均匀分散”。正交设计的优 点本质上来自“均匀分散,整齐可比”这两个特点。有关正交设计的 详细讨论可参看文献2426,30。均匀设计每一个方法都有其局限性,正交试验也不例外,它只宜于用于水 平数不多的试验中。若在一项试验中有s个因素,每个因素各有q水 平,用正交试验安排试验,则至少要作q2个试验,当q较大时,q2将 更大,使实验工作者
25、望而生畏。例如,当 q=12时,q2=144,对大 多数实际问题,要求做144次试验是太多了!对这一类试验,均匀 设计是非常有用的。所有的试验设计方法本质上就是在试验的范围内给出挑选代表 点的方法。正交设计是根据正交性准则来挑选代表点, 使得这些点能 反映试验范围内各因素和试验指标的关系。上节我们提及正交设计在 挑选代表点时有两个特点:均匀分散,整齐可比。“均匀分散”使试验点有代表性;“整齐可比”便于试验数据的分析。为了保证“整齐 可比”的特点,正交设计必须至少要求做 q2次试验。若要减少试验 的数目,只有去掉整齐可比的要求。均匀设计就是只考虑试验点在试验范围内均匀散布的一种试验设计 方法,其
26、原理将在第三章给出。均匀设计和正交设计相似,也是通过一套精心设计的表来进行 试验设计的。附录I给出了 41个均匀设计表和相应的使用表。表 4、 表5和表6就是其中的三个。每一个均匀设计表有一个代号 Un qs或 u;qs ,其中“U”表示均匀设计,“ n”表示要做n次试验,“ q” 表示每个因素有q个水平,“ s”表示该表有s列。的右上角加“*” 和不加“ * ”代表两种不同类型的均匀设计表。通常加“ *”的均匀设 计表有更好的均匀性,应优先选用。例如 u;64表示要做次6试验, 每个因素有6个水平,该表有4列。每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用 适当的列,以及由这些
27、列所组成的试验方案的均匀度。 表7是u 6 64的 使用表。它告诉我们,若有两个因素,应选用 1, 3两列来安排试验; 若有三个因素,应选用1, 2, 3三列,最后1列D表示刻划均 匀度的偏差(discrepancy),偏差值越小,表示均匀度越好。例如由附 录和的两个均匀设计u;74表和及它们的使用表来安排试验,今有两 个因素,若选用U 7 74的1,3列,其偏差D二选用u;74的1,3列,相 应偏差D=,后者较小,应优先择用。有关 D的定义和计算将在第三 章介绍。当试验数n给定时,通常Un表比u;表能安排更多的因素。故当因素s较大,且超过Un的使用范围时可使用Un表。表 4 U ; 6412
28、34112362246533624441535531266541表 5 U7 74123411236224653362444153553126654177777如上所述,表U 6 66最多可以安排四个因素的试验。若用正交表安排 三个6水平因素,至少要采用L36 63,该表最多能安排三个因素,可 要做36次试验,而两个表的偏差一个为 U;,另一个为L36 (参见表 23),相差并不十分大。由此例可见均匀设计的优点。表 6 U7 74123411357226263317544444557136626277531表7 u;64的使用表S列号D213312341234均匀设计有其独特的布(试验)点方式
29、,其特点表现在:1)每个因素的每个水平做一次且仅做一次试验。2)任两个因素的试验点点在平面的格子点上,每行每列有且仅 有一个试验点。如表U 6 66的第一列和第三列点成图8(a).性质1)和2)反映了试验安排的“均衡性”,即对各因素,每 个因素的每个水平一视同仁。3)均匀设计表任两列组成的试验方案一般并不等价。例如用u;66的1, 3和1, 4列分别画图,得图8(a)和图8(b)。我们看到, (a)的点散布比较均匀,而(b)的点散布并不均匀。均匀设计表的这一 性质和正交表有很大的不同,因此,每个均匀设计表必须有一个附加 的使用表。4)当因素的水平数增加时,试验数按水平数的增加量在增加。如当 水
30、平数从9水平增加到10水平时,试验数n也从9增加到10。而正 交设计当水平增加时,试验数按水平数的平方的比例在增加。 当水平 数从9到10时,试验数将从81增加到100。由于这个特点,使均匀 设计更便于使用。均匀设计表还有一些其它的特点, 在第三章将进一 步介绍。均匀设计表的使用本节介绍如何利用均匀设计表来安排试验。其步骤和正交设计很 相似,但也有一些不同之处。通常有如下步骤:1)根据试验的目的,选择合适的因素和相应的水平。2)选择适合该试验的均匀设计表,然后根据该表的使用表从中选出列号,将因素分别安排到这些列号上,并将这些因素的水平按所 在列的指示分别对号,则试验就安排好了。例2 (本例来自
31、文献1)在阿魏酸的合成工艺考察中,为了提 高产量,选取了原料配比(A)、吡啶量(B)和反应时间(C三个因素,它 们各取了 7个水平如下:原料配比(A):,吡啶量(B)(ml): 10,13,16,19,22,25,28反应时间(C)(h):根据因素和水平,我们选取均匀设计表 U;74或U 7 74。由它们的使 用表中可以查到,当s=3时,两个表的偏差分别为和,故应当选用 U 7 74来安排该试验,其试验方案列于表 &该方案是将A,B,C分 别放在u 7 74表的后3列而获得的。表8制备阿魏酸的试验方案U;73和结果_No.配比(A)吡啶量(B)反应时间收率(丫)(C)1(1)13(2)(3)2
32、19(4)(6)3(6)25(6)(2)4(1)10(1)(5)5(5)16(3)(1)6(6)22(5)(4)728(7)表9制备阿魏酸的试验方案U 7 73和结果No.配比(A)吡啶量(B)反应时间(C)收率(Y)1(1)13(2)(3)2(2)19(4)(6)3(3)25(6)(2)4(4)10(1)(5)5(5)16(3)(1)6(6)22(5)(4)7(7)28(7)由于u;74表是最近由方开泰和李久坤14获得的,故文献1使用 的是U776均匀设计表,他们的试验方案列于表 9。根据试验方案进 行试验,其收率(丫列J于表9的最后一列,其中以第7号试验为最好, 其工艺条件为配比,吡啶量2
33、8ml,反应时间。下章将通过统计分析 (其中最主要是回归分析),可以发现更好的工艺条件。第二章回归分析简介及其在均匀设计中的应用回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因 此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有 关书籍,如26,29,30数据处理可使用统计软件包SAS SPSSMINITAB, BMDP, S等,国内许多部门如中国均匀设计学会为均匀设计及其数 据分析制作了专用统计软件包,使用更为方便。一元线性回归模型由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回
34、归是处理两个变量之间关系的最简单的模型。 本章将详细讨论这个模型。一元线性回归虽简单,但从中可以了解回 归分析方法的基本思想/方法和应用。我们首先通过一个例子说明如何建立一元线性回归方程。例3为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一 个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连 续10年的数据于下页表中。为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横 坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图 上,如图9,这个图称为散点图。从图9看到,数据点大致落在一条直线附近,这告诉我们变量X与丫之间的关系大致可看作是线性关系, 从图9还看到,
35、这些点又不都在 一条直线上,这表明X与丫的关系并没有确切到给定 X就可以唯一地 确定Y的程度。事实上,还有许多其他因素对 丫产生影响,如当年的 平均气温,当年的降雨量等等,这些都是影响丫取什么值的随机因素。 如果我们只研究X与丫的关系,可以假定年序最大积雪深度X(尺)灌溉面积丫千亩)12345678910有如下结构式:图9数据恵图Y=a + B X+e式中a邙 称为回归系数,X为自变量,丫为因变量,e表示随机误 差,常常假定e遵从正态分布 N (0, 2),这表示误差为正和负的 机会一样多,(T 2表示误差的大小。式中a, 3, (T 2通常是未知的, 它们要通过数据的信息来估计。设( Xi
36、,Y ) ,i=1,n为一组数据,若用回归方程()来拟合, 则当X=Xi时Yi的估计值为丫?Xi,i 1, ,n自然,我们希望求a和3使丫?与丫很接近也就是说,我们要决定一 条直线,使其与所有的点都比较接近,最流行求a邙 估计值的办法是用最小二乘法,令n2 nQ Y 丫?YiXi 2i 1i 1最小二乘法是求a和3使 Q达极小,使Q达极小的a和3值记为a 和b.利用微积分中求极值的办法求得b LXY / LXXa 丫 bX式中 1X - nxn-1丫 1nLXXn 1 Xii 1iX2LXYn 1 Xii 1iX Yi丫利用这些公式到例3,得X 1( 15.2 10.419.1)18.8837
37、.4)36.53415.6061Y (28.6 19.3 10Lxx 230.656 丄xy于是b=a二从而回归方程为Y? 2.511 1.802X读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟 合效果的好坏,如下的方法是十分有用的。(a)相关系数相关系数 用于描叙变量X和丫的线性相关的程度,并常用r 来表示,r的值介于-1,1之间,它的意义由图10可以知道。r的绝 对值越接近于1表示X和丫之间的线性关系越密切;r 0,两者呈正 比关系,叫正相关;r 0两者呈负相关。r的值接近于0,两者没有 线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示 X和丫有非线性相关关系,
38、r的计算公式为rLXY/LXX LYY 式中n2LYYYi Yi 1对例3r= .230.656 764.961后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关 系,且是正相关.但是,相关系数有一个缺点,就是它接近1的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接近 于1,当n较大时,相关系数的绝对值容易偏小。特别当 n=2时,因 为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中29给出相关系数的起码值,当相关系数的绝对值大于表中之值时才 可以认为X和丫有线性关系。此例当显著性水平a =1%时,表中的起 码值为,今计算r= ,故最大积雪深度与灌溉面积有
39、高度的线性关 系。在有些统计软件中,常给出r2,这时便于区别记为R2。多元线性回归模型S残 =LYY- bLxF= nS回S残可以来检验回归方程()是否可信.当方程可信时F Fi,n 2,这里S残 =(b)方差分析和F检验因变量Y的波动可用LYY来表达,这个波动是由两个因素造成 的;一个是X的变化引起丫相应的变化,另一个是随机误差。前者造 成丫的波动可用回归平方和来表达,后者用残差平方和来度量。它们 分别用S回和S残来表示,从数学上可以导出当X和丫为线性回归模型()时,它们有如下更方便的计算公式S回 = bLxY利用统计量Fi,n2为F表中的临界值,1和n-2为自由度,a为显著水平对例3 可以
40、算得F=8X =n氐=丫i 1当a =1%时Fi, 8 ( 0.01) 126。用F值和F表上的临界值相比,若F Fi,n 2 ,表明丫的变化主要是由X的变化造成的,回归方程()可 信;若F值小于Fi,n 2 ,回归方程不可信。可信的程度也可分成不同等级,在本书中,a =5%时可信用“* ”表示,a =1%时可信用“* 表示。上述计算结果常列成方差分析表,如表10所示。表10方差分析表方差来源平方和自由度均方F显著性回归1*误差8总和9(C)残差分析ei 丫 丫?称为残差,它能提供许多有用的信息,表11给出了例3的10个残差,利用残差可以提供如下信息:表11预报和残差表No.丫?Y 丫?No.
41、丫?Y 丫?16273849510(i)c之估计?给出了回归方程的精度,它称为残差标准差,若随机误差遵从正态 分布N (0,2),则丫的预报落在丫? 2?之内的概率大约为95%,对例3可以算得?=,且10个丫均落于丫? 2X之内。(ii)数据和模型之诊断由残差之大小,可以发现异常(或叫离群)数据,可以发现模型() 是否合适,是否要用非线性回归模型等,这些已形成一整套理论,称 为回归诊断,有兴趣的读者可参见文献31。nXn2eii 1多元线性回归模型Y1X1其中,1,m设Y,x它们来估计,估计值b1,L11 dL1M bmL1YL21 biL2m bmL2YLm1b1L mmbmLmY其中Xj
42、1nnXk 1kj , j1,m-1 1Y - n k1Yk1nLijXkiXi XkjXjk 1NLiYXkiXi YkY ,iK1当b1,bm求得后,计算a YbbmXmbm X im , i 1, n10)将成为表12之形式,其中n m 1 S回mS残F S回(n当影响因变量丫的自变量不止一个时,比如有 m个Xi,,xm, 这时丫和X之间的线性回归方程为Ym m为回归系数,为随机误差,常假定 NO, 2。i1, ,X,i 1, ,n为观测值,回归分析的首要任务是利用1, , m和它们的最小二乘估计记作a,b1, ,bm,?-求 需要解下面的线性方程组回归方程()建立后,检验其是否可信可用
43、方差分析,这时公式() 依然有效,但丫? a必 方差分析表(参看表S回mm 1)表12方差分析表方差来源|平方和回归自由度均方S回/ mF 显著性m1, ,m,i,j 1, ,m,b残差S残n-m-1S残 / (n m 1)总和LYYn-1它将与F的临界值Fm,n m 1()来比较,其比较的结果和结论请参见 上节的讨论,反映回归精度的。的估计公式为()S残V n m 1类似于一元回归相产系数r,可以定义适用于多元回归的全关系 数R, R定义)为Y和Y的相关系数,或R2定义为 s残 S回1 -LYY LYYR2()解:为XL11例4试用线性回归模型()来拟合表 9的试验数据。 这时n=7, 7组
44、观察值为(,13,) ,19,28,它们的均值和 Lj2.2,4.48,X219,L1216.8,L22252.0,X32.0,L131 .4,L2310.5,L337.0,Y 0.3683L1Y 0.2404L2Y 0.5640L3Y 0.5245由于Lj解得Lji,故它们不必全部列出,将它们代入到方程级()中可以bi 0.037,b20.003434 0.077从而a= xxc的估计为Y 0.2010.037 X进一步对它作方差分析,其方差分析表列于表13.表13方差分析表自由度3360.07.于是回归方程为10.00343 X20.0077 X3方差来源平方和均方回归误差总和当a =时F
45、表的临界值Fm,nm1( )(0.05) 9.28 F 3.29,回归方程不可信.这时,是否Y和三个因素之间不可能建立回归关系呢不是的, 我们还应作进一步探讨,在下节我们将继续讨论该例。应用实例二次型回归模型与变量筛选由于因变量常常有交互作用,回归模型不足以反映实际,于是二 次型回归模型常常为人们所采用若有m个因素Xi, ,xm,则二次型回 归模型为mmY oiXinXi2jXiXji 1i 1i j其中0, i, ii, j为回归系数,为随机误差我们看到,这时除 了常数项以外,方程有m(m+3)/2项,当m=1,2,时项数为m12345678910项数25914202735445465若使回
46、归系数的估计有可能,必要条件为 n1+m(m+3)/2.当m较大 时,通常不能满足这个必要条件于是有必要从方程中选择贡献显著 的项,删除不重要的项有时,实际问题需要考虑高阶的交互作用, 如XjXjXk,Xi2Xi,Xi2Xj2等,这时筛选变量的任务就更为重要.在回归 分析中,有许多有效的筛选变量的技术,如a)前进法,b)后退法,c)逐步回归法,d)最优子集法(参看25)。本章仅仅采用逐步回 归技术来筛选变量,这并不意味着逐步因归在上述四项技术中最好 的。逐步回归是回归分析中的一种筛选变量的技术开始它将贡献最 大的一个变量选入回归方程,并且预先确定两个阈值Fn和Fout ,用于决定变量能否入选或
47、剔除逐步回归在每一步有三种可能的功能:a)将一个新变量引进回归模型,这时相应的 F统计量必须大于Finb)将一个变量从回归模型中剔除,这时相应的F统计量必须小于 FoutC)将回归模型内的一个变量和回归模型外的一个变量交换位 置。执行功能a)和 b)时要注意如下原则:设在当前步骤中有s个变量不在回归模型中,有t个变量在回归 模型中今欲从s个变量中挑选一个加入回归模型之中,显然应挑选使 回归效果最好的变量这里回归的效果可用方差分析表(见表10,表13)中F值来衡量,显然我们要从s个变量中挑选一个变量使 F值达 到极大类似地,若欲从t个变量中删除一个变量使其离开回归模型, 我们就是要选择删除后使回
48、归效果最好的变量,或选择对当前回归模型贡献最小的变量如果在某一步中,既能实现a)又能实现b),两者之和就是功能c)。大部分统计软件包均有逐步回归之功能,例如中国均匀设计学会推荐的软件包。现在我们对例 4 继续进行讨论 .设先用后退法来选变量 .所谓后退 法,就是开始将所有的变量全部采用, 然后逐步剔除对方程没有显著 贡献的变量,直到方程中所有的变量都有显著贡献为止。仍考虑线性模型,开始三个因素全部进入方程,得.统计软件包通常还会提供每个变量的 t 值, t 值越大(按绝对值计)表示该因素 越重要 .对例 2 有t0 0.204,t1 0.96,t20.67,t3 2.77这表明三个因素中以X3
49、 (反应时间)对得率(Y)影响最大,配比次 之,吡啶量最小这些t值都是随机变量,它们遵从tnml分布若取a = ,这时 n=7,m=3, tn m 1=t3 的临界值 t3 = 值大于该值的因素表示对 方程有显著贡献,否则表示不显著今t1,t2,t3均小于t3 =,说明回归 方程的三个变量至少有一个不起显著作用.于是我们将贡献最小的 X2删去,重新建立丫和Xi及X3的线性回归方程,得Y 0.169 0.0251X 1 0.0742 X 32 0.06526 2 ,三个 t 值分别为 t0 2.12,t1 0.79, t 3 2.91, 这时这三个 t 值 遵从含四个自由度的 t 分布,临界值为
50、 t4 =,从而 X1 应从方程中剔除 . 然后对 丫和 X 3建立回归方程丫 0.2141 0.079 X 3相应的 t3 3.34 t 5 ( 0.05) 2.57,0.063 .因此,回归方程为“最终”的回归模型 .这里最终加上引号,表示并非真正的最终模型,而是在线性 模型框架下的最终产物。上述的分析只发现 X3 对 丫 有显著作用,其它两个因素均没有显 著作用,该结论与实际经验不吻合,因此,猜想用线性模型不一定符 合实际 .于是进一步考试二次回归模型 .这时方程中有 9 项(不算 0 ).利 用逐步回归技术求得回归方程如下:丫 0.06232 0.251X 3 0.06X 32 0.0
51、235X 1 X 3其相应的 0.0217, R2 97.77 。显然,回归方程的效果优于回归方程 . 方程表明,因素X3和交互作用Xi X3对丫有显著的影响值得注意的 是,有些人对回归分析没有足够的理解, 片面追求大的 R(2 或小的 ), 致使选进方程中的项过多,使误差自由度为 i 或甚至为 0,这时有关 的结可靠性是很差的 .因此,不应片面追求大的 R2 ,应选择 n 稍大的 应用实例均匀设计表,使得误差有足够的自由度5。Cd Cu Zn NiCr Pb均匀设计和正交设计以及其他试验设计方法一样,在工农业生产和科学实验中有广阔的应用前景,本文的文献中列举了部分应用成 果,其中有些成果成绩
52、显著更多的成果有待搜集均匀设计不但在国 内得到广泛应用,在彼得格勒和香港也已开花结果本节选择香港浸会学院生物系的一项试验,供读者参考。一例5为了研究环境污染对人体的危害,今考核六种金属的含量: 镉(Cd),铜(Cu),锌(Zn),镍(Ni),铬(Cr),铅(Pb),每种金属含量分别 取了 17 个水平(百万分之一 ,ppm) :,1,2,4,5,8,10,12,14,16,18,20今 欲考虑这些金属含量(包括它们的交互作用)对老鼠寿命的影响,该 试验考核老鼠身上某种细胞的死亡率它们选用UZ1716)表,根据使用 表的指示,它们选用了表中1, 4, 6, 10, 14, 15列来安排六个因素,
53、 其试验方案如表14所示试验的结果为死亡率为了了解试验误差,提 高结论的精度,他们在同一试验条件下将试验重复三次,三次结果 (,丫2,丫3)列于表15,三次死亡率的均值为Y,列于表15的最后一列. 我们看到第17号试验的死亡率为最高,因为这时六种金属都是最高 含量,表明这些金属对老鼠细胞确有致命作用。现进一步用回归分析来分析数据由于每种金属的含量由(ppm)变到 20(ppm),最大得出小相差2000倍,于是直接用各因素的水平值作回 归不易获得好的结果,通常要对水平值先作变换,用变换后的数据进 行回归最常见的变换是取对数于是回归分析中的自变量成为 logCd,logCu,logZn,logNi
54、,logCr和logPb根据以往经验,知道六种金属 间有交作用,故应选用二次型回归模型,并用逐步回归来筛选变量.用同样的Fin和Fout ,对丫,丫2,丫 表14环保试验方案No 厂23456789101112丫1丫2丫3Y1314151617和Y?分别进行逐步回归,发现四组数据的结果非常吻合,表明试验 误差不大,该试验可以获得可靠结论。为节省篇幅,我们仅列出对Y?的回归方程Y?=+( LogCij) 2 ( LogZn) 2+( LogN)2+( LogCc)( LogCU ( LogCd ( LogC)+( LogCU ( LogPb方程中每一项的t值分别为(常数项t值未列), 它们均遵从
55、t7分布,因t7 0 =小于上述所有t值之绝对值,故方程 可信。表15死亡率由方程我们可以给出如下结论: a)Cd,Cu 和 Ni 含量过高,对 老鼠细胞的死亡率有显著作用,b)金属Cd和Cu, Cd和Cr, Cu和 Pb有交互作用,其中Cd和Cu, Cu和Pb对死亡率起正交互作用,而 Cd和Cu对死亡率起负交互作用,c) Zn可能会中和其它金属的破坏 作用,降低老鼠细胞的死亡率, 有兴趣的读者可以作更为详尽的分析。寻求最优工艺条件试验设计的目的通常主要有二个,一是揭示变量( Y)与各因素 之间的定性关系, 二是寻求最优工艺条件, 回归方程的建立可以达到 一箭双雕的目的。现以例 2 来说明如何
56、寻求最好的工艺条件,表 9 告诉我们,第 7 号试验是 7 次试验中最好工艺条件, 即配比,吡啶量 28,反应时间 , 这个工艺条件和最优工艺条件常常是很接近的。在上述讨论中,我们最终建立了回归模型()。该方程一般仅在 试验范围内成立,即配比,吡啶量 10-28,反应时间。寻求最优模型 等价于在这个范围内求方程()中Y?的极大值。如果回归方程比较复 杂,可以用任何一个优化算法(参见文献 33, 34)来求最佳工艺条 件,许多软件包都含有优化算法。数论方法也可以用来求Y?的极大值, 方开泰和王元提出了一个序贯算法 SNTQ可以方便地求得Y?的极大 值,鉴于篇幅,这里就不详细介绍了,有兴趣的读者可
57、以参看文献 16。对例2来讲,可以用简单的微积分求得极值,由于X在试验范围 内恒正,故由()知X i越大,Y?越高,故Xi应取试验范围内极大值。 将 X1= 代入()得Y? 0.06232 0.3309X 3 0.06X 32令Y?/ X3 0,解得X3, X3二,这时Y?的极大值为。工艺条件Xi =, X3=并未出现在原有试验方案中,故应在这个条件追加试验,由于Xi 的最佳条件在试验范围边界,故应扩大试验范围。对于许多实际工作者, 不一定熟悉优化方法, 手边没有优化的软 件。他们也不一定知道SNTO也可能不会用微积分去求解极值。下 面介绍一种“笨”办法,其计算量较大,但程序好编。这种方法将每
58、 个因素的试验范围均匀打网格,比较这些网格上的Y?值,从而可以近似求得Y?的近似最大(或最小)值。现仍以例2来说明,将Xi在区间,每划一个点,X3在,区间中也 是每划一个点,这样X1和X3将范围划成25X 31=775个网格点, 在其上按()来计算Y?值,并求出775个Y?中最大者。经计算量大的Y?=, 在X1=, X二处达到,和上面用微积分的方法求得的结果很接近,如 果我们在 X1 =,X3= 附近继续搜索,将网格打细,其解可以更接近真 正解 X 1=, X 3=。Ui 1,j()第三章均匀设计表的构造和运用本章介绍均匀设计表的构造和使用表的来源,其中均匀性度量一偏差将起关键作用,我们将介绍
59、偏差的定义,并给出正交设计与均 匀设计各自偏差的比较,从中可以了解为什么均匀设计可以比正交设 计节省试验次数,本章还介绍拟水平在均匀设计中的使用和有关表的 构造,熟悉本章内容对于正确理解和使用均匀设计有很大帮助。均匀设计表的构造定义1每一个均匀设计表是一个方阵,设方阵有n行m列,每一行是1,2,.,n的一个置换(即1, 2,,n的重新排列),表的第 一行是1, 2,,n的一个子集,但不一定是真子集。显然,第一章表4-6列举的U6 (64) ,U7 (74)和U; (74)都符 合上述定义。符合定义1的均匀设计表数量太多,本节仅介绍用好格子点法 (good lattice poi nt)构造的均
60、匀设计表,其方法如下:1)给定试验数n,寻找比n小的整数h,且使n和h的最大公约数为1。符合这些条件的正整数组成一个向量h=( h1,hm )。2)均匀设计表的第j列下法生成Uj ihi mod n这里mod n表示同余运算,若jhi超过n,则用它减去n的一个适当 倍数,使差落在1, n之中。5可以递推来生成U1j hjuij hj右 uij hj nuij hj n 若屮 hj ni 1, n 1例如,当n = 9时,符合条件1)的h有1, 2, 4, 5,乙8;而h=3 或h=6时不符合条件1),因为最大公约数(3, 9)=3 , (6,9)=3,均大 于1.所以U9最多只可能有6列,又如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广西防城港市港口区农旅发展集团有限公司公开招聘1人笔试历年备考题库附带答案详解试卷3套
- 2025广东广州筑业城建有限公司招聘人员(第二批)笔试人员及安排笔试历年常考点试题专练附带答案详解试卷3套
- 2025山东易通发展集团有限公司公开选聘职业经理人2人笔试历年常考点试题专练附带答案详解试卷3套
- 印染污水处理厂项目施工方案
- 污水处理厂尾水深海排放工程技术方案
- 灰岩矿石质量控制与检测方案
- 2025中国网安(含中国电科三十所)校园招聘200人笔试历年常考点试题专练附带答案详解试卷3套
- 2025中国化学工程第六建设有限公司校园招聘笔试历年典型考点题库附带答案详解试卷3套
- 2025上海交大高新2025校招笔试历年常考点试题专练附带答案详解试卷3套
- 大学生公务员考试试水试题及答案
- 项目三任务1:认识超声波雷达(课件)
- 人教版六年级数学上册《数与形》课件
- JTT 728.2-2024 装配式公路钢桥+第2部分:构件管理养护报废技术要求(正式版)
- TD/T 1066-2021 不动产登记数据库标准(正式版)
- 校服供货服务方案
- 消防控制室共用协议书
- 2024年山东省临沂市兰山区九年级下学期一模英语试卷
- 第五章排球大单元教学设计课时教学设计人教版初中体育与健康七年级全一册
- WJ30059-2023军用爆炸品设计安全技术规程
- 对使用林地的监管事中事后监督管理
- 钢结构厂房工程施工进度计划及保障措施
评论
0/150
提交评论