




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 试验设计和均匀设计1.1试验设计在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。本世纪30年代,由于农业试验的需要,费歇尔(R.A.Fisher)在试验设计和统计分析方面做出了一系列先驱工作,从此试验设计成为统计科学的一个分支。随后,F.Yates,R.C.Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡献,使该分支在理论上日趋完善,在应用上日趋广泛。60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正交试验设计,帮助工程技术人员进行试验的安排和数据分析,获得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展览会。在广泛使用试验设计方法的洪流中,必然会出现一些新的问题,这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验因素需要考察较多等级(在试验设计中这些等级称之为水平)时,用正交试验及其它流行的试验方法要求做较多的试验,常使得试验者望而生畏。许多实际问题要求一种新的试验方法,它能有效地处理多水平的试验,于是王元和方开泰于1978年提出了均匀设计(见文献13),该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息。10多年来,均匀设计在国内得到了广泛应用,并获得不少好的成果。试验设计在工业生产和工程设计中能发挥重要的作用,例如:1) 提高产量;2) 减少质量的波动,提高产品质量水准;3) 大大缩短新产品试验周期;4) 降低成本;5) 延长产品寿命。在自然科学中,有些规律开始尚未由人们所认识,通过试验设计可以获得其统计规律,在此基础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过程。材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究和超导材料的配方息息相关。配方试验又称混料试验(Experiments with Mixtures),不仅出现于材料工业,而且在人们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配方中。由于在配方中各种材料的总和必须为100,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,Scheff于1958年提出了单纯形格子点设计,随后于1963年他又提出了单纯形重心设计。Cornell27对配方试验设计的各种方法作了详尽的介绍和讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰9给出了配方均匀设计的设计方法和有关的讨论。本书第五章将系统介绍配方试验设计和配方均匀设计。不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,以及各种选择回归变量的方法(如前进法、后退法、逐步回归、最优回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介绍。读者很容易找到各种参考书籍获得更详细的介绍。试验设计的方法很多,本书重点介绍均匀设计,这并不意味其它方法不重要,每种方法都有其优点,也有其局限性,根据实际情况选取合适的方法是应用统计的重要内容。1.2试验的因素和水平 在工业、农业、科学研究和军事科学的研究中,经常需要作各种试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配方。让我们先看一个例子:例1 在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(A),时间(B)和加碱量(C)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中,我们选择的试验范围如下: 温度: 77.592.5 时间: 75分165分 加碱量: 4.5%7.5%然后在上述范围内,每个因素各选三个水平,组成如下的因素水平表:表1 因素水平表因素123温度()808590时间(分)90120150加碱量()567选择因素和水平关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计的人员可能是有益的。1在一个生产过程中,有关的因素通常是很多的,例如在例1的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度,容器中的压力等。但根据这次试验目的,除了温度(A),时间(B),和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称为因素,只有变化的因素才称为因素。2在一项试验中,如何从众多的有关因子中挑选出试验方案中的因素?我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地,因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因素,既然不费事何乐而不为呢?试验的结果发现,最后添加的这个因素是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花不成,无意插柳柳成荫。”3试验的范围应当尽可能大一点。如果试验在试验室进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比已有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经验的范围。4若试验范围允许大一些,则每一因素的水平个数最好适当多一些。5水平的间隔大小和生产控制精度是密切相关的。若在例1中温度的控制只能作到3,且我们设定控制在85,于是在生产过程中温度将会在853,即8288波动。不难看到,这时设定的三个水平80,85,90之间是太近了,应当加大,例如80,90,100。如果温度控制的精度可达1,则例1如设定的三个水平是合理的。6因素和水平的含意可以是广义的。例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平 。 1.3因素的主效应和因素间的交互效应根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书仅讨论只有一项试验指标(记作Y)的情形。如例如1的试验Y是得率。在数理统计中,称试验指标为响应(response)为通俗起见,本书中就叫试验指标。考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率Y之间的关系,并取温度五个水平,其相应Y值如下:温度5060708090Y30%35%40%45%50%我们看到,温度每增加10得率增加5%这5%就是温度的效应。上述试验可以表成一个线性数学模型 (1.1)其中为第次试验结果,为温度从50到90范围内Y的平均值。通常可以用五次试验的平均值来估计,记作,即表示温度取第个水平时的值与之差。不难发现,它们的估计值为这里称为温度在五个水平下的主效应,为它们的估计值。由于试验中总存在一些偶然因素的干扰,如室温的变化,电压的波动,材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存在,不可能产生上例那么理想的情况。其实际数据可能为温度5060708090Y32%34%39%46%49%这时数学模型为 (1.2)这里为第次试验的试验误差。这时试验必须有重复才能估计出和.实际上,当试验的水平和相应的Y为连续变量时,其数学模型也可以用回归方程来表达,例如,用线性回归方程 (1.3) 其中X表示温度,和是回归系数,为随机误差。在第二章将介绍,和可以用最小二乘法由试验数据估出,由上述温度和得率的数据可得回归方程 (1.4)这里为试验结果Y的估计值。利用方程(1.4)可以估出五次试验的结果如下:30.835.440.044.649.21.2-1.4-1.01.4-0.2其中称为残差,它的大小反映了回归方程(1.4)的精确程度,并可用它作回归诊断,更详细讨论请看第二章。方程(1.4)中,X的回归系数0.46有明确的实际含意,它表示温度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X对Y的效应,这里可以称为线性回归效应。有一点是必须注意的,无论是模型(1.2)中的主效应,还是模型(1.3)中的线性回归效应,都强烈地依赖于试验条件,尤其是X的试验范围,也就是说,这两个模型只适用于X的试验范围内。否则,当X为210时,的估值为104.4%,这是不可能的,因为得率总是小于100%的。显然,模型(1.2)和(1.3)是最简单的情形,实际情况是多种多样的,例如X和Y之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。现在我们来介绍因素间交互作用的概念。首先,设有两个因素A和B它们各取两个水平和。这时共有四种不同的水平组合,其试验结果列于图1。当时,变到使Y增加30-10=20;类似地,当时,变到使Y也增加40-20=20。这就是说A对Y的影响与B取什么水平无关。类似地,当B从变到时,Y增加20-10(或40-30=10),与A取的水平无关。这时,我们称A和B之间没有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为直观。当图中的两条线平行时(或接近平行时),判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子,它们的含意和作图方法与图和图2是一样的。1 交互作用在实际中是大量存在的,例如化学反应中催化剂的多少与其它成分的投入量通常是有交互作用的。水中各种金属含量太多,对人体健康会造成危害,金属之间对人体的危害也存在交互作用(参见例5)。当因素A,B 及其它们的试验指标Y都为连续变量时,可以建立Y和A;B之间的回归方程。若回归方程为 (1.5)时,A对Y的影响由回归系数完全决定,不受B取哪个水平的影响;类似地,B对Y的影响由回归系数完全决定,不受A取哪个水平的影响;类似地,对的影响由回归系数 完全 决定,不受取哪个水平的影响。这时A和B没有交互作用。当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有非线性的。最常见的模型之一为 (1.6)其中为回归系数,为随机误差。这时若0,称A和B之间有正交互作用;若1+m(m+3)/2.当m 较大时,通常不能满足这个必要条件.于是有必要从方程(2.19)中选择贡献显著的项,删除不重要的项.有时,实际问题需要考虑高阶的交互作用,如 等,这时筛选变量的任务就更为重要.在回归分析中,有许多有效的筛选变量的技术,如a) 前进法,b) 后退法,c) 逐步回归法,d) 最优子集法(参看25)。本章仅仅采用逐步回归技术来筛选变量,这并不意味着逐步因归在上述四项技术中最好的。 逐步回归是回归分析中的一种筛选变量的技术.开始它将贡献最大的一个变量选入回归方程,并且预先确定两个阈值 和 ,用于决定变量能否入选或剔除.逐步回归在每一步有三种可能的功能: a) 将一个新变量引进回归模型,这时相应的F统计量必须大于 b) 将一个变量从回归模型中剔除,这时相应的F统计量必须小于 c) 将回归模型内的一个变量和回归模型外的一个变量交换位置。 执行功能a)和b)时要注意如下原则: 设在当前步骤中有s个变量不在回归模型中,有t个变量在回归模型中.今欲从s个变量中挑选一个加入回归模型之中,显然应挑选使回归效果最好的变量.这里回归的效果可用方差分析表(见表10,表13)中F值来衡量,显然我们要从s个变量中挑选一个变量使F值达到极大.类似地,若欲从t 个变量中删除一个变量使其离开回归模型,我们就是要选择删除后使回归效果最好的变量,或选择对当前回归模型贡献最小的变量.如果在某一步中,既能实现a)又能实现b),两者之和就是功能c)。大部分统计软件包均有逐步回归之功能,例如中国均匀设计学会推荐的软件包。 现在我们对例4继续进行讨论.设先用后退法来选变量.所谓后退法,就是开始将所有的变量全部采用,然后逐步剔除对方程没有显著贡献的变量,直到方程中所有的变量都有显著贡献为止。 仍考虑线性模型,开始三个因素全部进入方程,得(2.18).统计软件包通常还会提供每个变量的t值,t值越大(按绝对值计)表示该因素越重要.对例2有 这表明三个因素中以(反应时间)对得率(Y)影响最大,配比次之,吡啶量最小.这些t 值都是随机变量,它们遵从分布.若取=0.05 ,这时n=7,m=3, = 的临界值(0.05)=3.18.t 值大于该值的因素表示对方程有显著贡献,否则表示不显著.今 均小于(0.05)=3.18 ,说明回归方程(2.18)的三个变量至少有一个不起显著作用.于是我们将贡献最小的删去,重新建立Y和及的线性回归方程,得 (2.20),三个t 值分别为这时这三个t值遵从含四个自由度的t 分布,临界值为(0.05)=2.78,从而 应从方程中剔除.然后对Y和建立回归方程 (2.21)相应的.因此,回归方程(2.21)为“最终”的回归模型.这里最终加上引号,表示并非真正的最终模型,而是在线性模型框架下的最终产物。 上述的分析只发现对Y有显著作用,其它两个因素均没有显著作用,该结论与实际经验不吻合,因此,猜想用线性模型不一定符合实际.于是进一步考试二次回归模型(2.19).这时方程中有9项(不算).利用逐步回归技术求得回归方程如下: (2.22)其相应的 。显然,回归方程(2.22)的效果优于回归方程(2.21).方程(2.22)表明,因素和交互作用对Y有显著的影响.值得注意的是,有些人对回归分析没有足够的理解,片面追求大的(或小的),致使选进方程中的项过多,使误差自由度为1或甚至为0,这时有关的结可靠性是很差的.因此,不应片面追求大的,应选择n 稍大的均匀设计表,使得误差有足够的自由度5。2.4应用实例 均匀设计和正交设计以及其他试验设计方法一样,在工农业生产和科学实验中有广阔的应用前景,本文的文献中列举了部分应用成果,其中有些成果成绩显著.更多的成果有待搜集.均匀设计不但在国内得到广泛应用,在彼得格勒和香港也已开花结果.本节选择香港浸会学院生物系的一项试验,供读者参考。 例5 为了研究环境污染对人体的危害,今考核六种金属的含量:镉(Cd),铜(Cu),锌(Zn),镍(Ni),铬(Cr),铅(Pb),每种金属含量分别取了17个水平(百万分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20.今欲考虑这些金属含量(包括它们的交互作用)对老鼠寿命的影响,该试验考核老鼠身上某种细胞的死亡率.它们选用表,根据使用表的指示,它们选用了表中1,4,6,10,14,15列来安排六个因素,其试验方案如表14所示.试验的结果为死亡率.为了了解试验误差,提高结论的精度,他们在同一试验条件下将试验重复三次,三次结果()列于表15,三次死亡率的均值为,列于表15的最后一列.我们看到第17号试验的死亡率为最高,因为这时六种金属都是最高含量,表明这些金属对老鼠细胞确有致命作用。现进一步用回归分析来分析数据.由于每种金属的含量由0.01(ppm)变到20(ppm),最大得出小相差2000倍,于是直接用各因素的水平值作回归不易获得好的结果,通常要对水平值先作变换,用变换后的数据进行回归.最常见的变换是取对数.于是回归分析中的自变量成为logCd,logCu,logZn,logNi,logCr 和logPb.根据以往经验,知道六种金属间有交作用,故应选用二次型回归模型,并用逐步回归来筛选变量.用同样的 和 ,对表14 环保试验方案NoCdCuZnNiCrPb10.010.20.85.014.016.020.052.010.00.18.012.030.110.00.0112.02.08.040.218.01.00.80.44.050.40.112.018.00.051.060.81.00.054.018.00.471.08.02.00.0512.00.182.016.014.010.05.00.0194.00.050.10.41.018.0105.00.84.016.00.214.0118.05.016.02.00.0110.01210.014.00.20.0116.05.01312.00.015.08.010.02.01414.00.418.00.24.00.81516.04.00.414.00.80.21618.012.08.01.00.10.021720.020.020.020.020.020.0 和分别进行逐步回归,发现四组数据的结果非常吻合,表明试验误差不大,该试验可以获得可靠结论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一专题研讨发言稿
- 幼儿保育课件
- 形象塑造课程课件
- 2025版住宅小区智能化改造物业合作协议
- 2025版节能环保型建筑玻璃贴膜施工服务合同
- 二零二五年度环保设备销售台账合同及环保技术研发服务协议
- 2025版互联网企业员工安全责任与培训合同
- 二零二五年度土壤污染修复地质勘察合同范本
- 2025版企业员工职业生涯规划与培养协议下载
- 二零二五年度钢管租赁及项目管理服务合同
- 2025年(完整版)十八项核心制度培训考核试题(含答案)
- 2025年低压电工理论考试1000题(附答案)
- 【湖南】2025年高考湖南卷化学高考真题+答案
- 社工的劳动合同范本(2025版)
- 2025年中国LCP料数据监测报告
- DGTJ08-2093-2019 电动汽车充电基础设施建设技术标准 含2021年局部修订
- KET教学课件新版
- 房屋加固与修复工程结构加固监理实施细则
- QFP器件引脚成形参数理解和计算方法
- 三栋监舍楼家具详细技术参数
- 《审计报告模板》word版
评论
0/150
提交评论