




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四节 最优设计,对于一定的回归模型,在给定的因子空间的某一区域上,可以设计出多种试验方案,每个方案都存在它的最大误差方差。在这些试验方案中挑选出最大误差方差最小的方案,用它的试验结果估计的回归方程,其回归预测值与实际观测值的拟合程度最高,因而这种试验方案是最优的。,最优设计(optimum design)就是从试验误差方差最小的基本目的出发,得出的一种试验设计方法。为了判断一种试验设计是不是最优设计,已经提出了很多优良性准则,如D优良性、G优良性、E优良性、U优良性、A优良性等。,一、D最优设计原理,(一)回归模型与试验方案 1、回归模型 对于给定的p维欧氏因子空间区域中的点 ,无论变量之间的回归关系如何,其回归模型的一般形式可表示为:,其中,x为自变量组成的p维向量(x1,x2,xp);f1(x),f2(x), ,fm(x)都是连续函数;1,2, ,m为m个需要估计的回归系数;为随机误差、相互独立,且都服从N(0,2)。,若记,回归模型(445)也可表示为:,若进行了 t 次试验,则模型(4-46)的结构矩阵X为:,信息矩阵A为,模型(445)包含了最常见的各种回归模型。 例如,当f1(x),f2(x), ,fm(x)为一组幂函数时,若取p = 2,m = 6, 模型(445)就是二元二次回归模型。,2、试验方案,假设试验在p维欧氏因子空间区域中的一组点x1,x2,xt上进行,每个点的试验重复次数分别为n1,n2,nt。这一组点及其对应的重复次数便构成一个试验方案,这种方案称为离散型方案(discrete scheme),用W表示。,其中x1,x2,xt称为方案W的谱点。,离散型方案的信息矩阵A(W)为,(4-50),如果将离散型方案中每个点的重复次数用其与总次数的比值pi=ni/N表示,且pi可以在0,1中任意取值,这种方案称为连续型方案(continuous scheme),即 其中,pi称为xi点的测度, 。,连续型方案的信息矩阵A(W)为,(4-52),(二)D优良性与G优良性,1、D优良性 为了确定一个试验方案是不是最优方案,必须给出判断最优性的标准。1943年Wald提出了信息矩阵行列式最大值判别法,1959年Kiefer称这种判别法为D最优性,又称为D优良性。,对于同一回归模型(445)的两个不同的试验方案W1和W2,如果方案W1的信息矩阵行列式的值大于方案W1的信息矩阵行列式的值,即|A(W1)|A(W2)|,则认为在D优良性意义上,方案W1比方案W2优良。由于相关矩阵C(W)是信息矩阵A(W)的逆矩阵, |C(W)| |A(W)|=1 ,因此|A(W1)|A(W2)|等价于|C(W1)|C(W2)| 。,【例4 9】,设单因素试验的回归模型为 试比较下列两个试验方案的D优良性。,根据模型(445),此例p = 1,m = 2,f1(x)=1,f2(x)=x,F (x)=(f1(x) f2(x)=(1 x),为离散型方案。根据 (448) 式,对于试验方案W1,信息矩阵为:,其行列式为:,W1的相关矩阵及其行列式分别为:,对于试验方案W2,相应的计算结果为:,由于|A(W1)|A(W2)|,|C(W1)|C(W2)|,因此在D优良性意义上,试验方案W1优于W2。 在给定的因子空间的某一区域上,可以设计出多种试验方案。所有方案中信息矩阵行列式最大的方案称为区域上的D最优方案,简称D最优方案。显然,D最优方案是针对因子空间的某一区域而言的,对于不同的区域可能存在不同的D最优方案。,2、G优良性,按照试验方案W进行试验,获得N个观测值y1,y2,yN,用最小二乘法可以估计出回归模型(446)的回归系数。 若记的估计值为b,则,其中,,其回归方程为:,b的方差协方差矩阵,回归预测值 的方差,(4-56),当以2为单位时,记回归预测值的方差 为 ,则,对于给定的因子空间区域上的任意一个试验方案W,回归预测值的方差d(x,W)在区域上总存在最大值 。若该区域上试验方案W1的回归预测值的最大方差 小于试验方案W2的回归预测值的最大方差 ,即 则认为在G优良性意义上,方案W1优于方案W2。,【例4 10】,试比较【例4 9】中两个试验方案的G优良性。,对于试验方案W1 ,由 (457) 式得:,3x2 2在区域-1x1上的最大值为5,因而,对于试验方案 W2,3x2-2x+2在区域-1x1上的最大值为7,因而,由于 ,因此在G优良性意义上,试验方案W1优于W2。 在给定的因子空间的某一区域上,所有方案中回归预测值的最大方差最小的方案称为区域上的G最优方案,简称G最优方案,也称最大最小设计(maximin design)。,(三)等价定理,Kiefer 提出了一个重要的定理,称为等价定理:对于连续型方案,下面两个结论是相互等价的。,1、 试验方案W*是D最优方案,则有,2、 试验方案W*是G最优方案,则有 根据这一定理,可以构造和检验D最优方案。,【例4 11】,设两因素试验的回归模型为:y=1+2x1+3x2+ (-1xj1,j=1,2) 判断下列试验方案W是不是D最优方案。,首先,将离散型方案W表示成连续型方案。,其次,计算各试验点回归预测值的方差。,根据模型(445),此例p = 2,m = 3,f1(x1, x2)=1,f2(x1, x2)=x1,f3(x1, x2)=x2,F (x1, x2)=(1 x1 x2)。,根据(452) 式,试验方案W的信息矩阵,相关矩阵,回归预测值的方差,于是得到试验方案W的三个试验点回归预测值的方差分别为:,最后,根据等价定理来判断。由于试验方案 W 的三个试验点回归预测值的方差均等于待定回归系数的个数m,因此试验方案 W 在区域-1xj1 (j = 1,2)上是D最优方案。,二、饱和D最优设计,在进行试验设计时,为了减小试验误差,提高试验的精确性,应尽可能选择最优的试验方案。另一方面,为了节省人力、物力和财力,也应尽量缩小试验规模,提高试验的效率。对于回归设计来说,效率最高的试验就是水平组合数(即处理数)等于回归方程中需要估计的回归系数个数的试验。具有这种特点的试验设计称为饱和设计(saturated design)。由于饱和设计没有剩余自由度,因而不能估计误差。若要进行误差估计,饱和设计试验必须设置若干重复。,(一)一次饱和D最优设计及其统计分析,1、设计方法 对于一次回归模型 其回归系数的个数m=p+1。在 p 维立方体-1xj1上,选取p+1个各坐标为-1或1的顶点(apex)构成的设计就是一次饱和D最优设计。,当p = 1时,(x=1)和(x=-1)构成的设计为一次饱和D最优设计。 当p = 2时,正方形区域的4个顶点(x1=1, x2=1), (x1=1, x2=-1) , (x1=-1, x2=1)和(x1=-1, x2=-1)中的任意3个都可构成一次饱和D最优设计。前面【例4 11】就是一个p = 2的一次饱和D最优设计。 当p = 3时,立方体区域上有23-1个部分顶点构成一次饱和D最优设计。 当p = 4,5,6时,一次饱和D最优设计见表451。,当p = 7时,7维立方体区域上有27-4个部分顶点构成一次饱和D最优设计。 一般地,当m=p+1=2q(q为正整数)时,p个因素的一次饱和D最优设计可以用型2p的全因子试验的部分实施法给出。,2、统计分析,由于饱和设计试验结果的统计分析与其他回归设计基本相同,因此下面仅结合实例进行介绍。但需注意的是,饱和设计没有剩余自由度,对回归方程和回归系数的显著性检验在试验无重复和有重复时都与一般的回归分析方法有所不同。,【例4 12】,在油菜再生研究中,应用p = 4的一次饱和D最优设计分析培养基中2,4-D(Z1)、6-BA(Z2)、GA3(Z3)和AgNO3(Z4)对再生频率的影响。试验方案和试验结果如表452所示。进行分析。,本例的回归方程,将设计方案中的编码值和试验结果代入回归方程,并用矩阵形式表示。估计回归系数的计算过程和计算结果如下,于是可得用编码因素表示的回归方程,各处理的回归预测值列于表4-52的最后一列。由此可见,预测值与实际测察值完全吻合,说明回归方程的拟合效果很好。 饱和设计试验无重复时不能对回归系数的显著性进行检验,只能对回归方程进行近似检验。一般可采用控制点检验法,详见本章第五节。,为了应用方便,回归方程需用实际因素表示。由实际因素与编码因素的关系,可得,将其代入上述回归方程即得,(二)二次饱和D最优设计及其统计分析,1、设计方法 对于二次回归模型 其回归系数的个数m=1/2(p+2)(p+1)。Box于1971年和1972年给出了p = 2和p = 3的二次饱和D最优设计,列于表453。对于p4的二次饱和D最优设计,至今尚未解决。但p 7的近似饱和D最优设计已给出,称最优混合设计。,【例4 13】,为了研究小麦氮肥和磷肥施用量对产量影响的数量关系,计划每666.67m2纯N施用量的下水平和上水平分别为0和12.5kg,P2O5施用量的下水平和上水平分别为0和10kg。试采用二次饱和D最优设计安排试验方案。,此例p = 2。根据表455求得各编码因素与实际因素之间的关系:,编码值为-1时,纯N施用量Z1=0,P2O5施用量Z2=0; 编码值为1时,纯N施用量Z1=12.5, P2O5施用量Z2=10; 编码值为-0.1315时,纯N施用量Z1=6.25(1 - 0.1315)=5.428,P2O5施用量Z2=5(1-0.1315)=4.343; 编码值为0.3945时,纯N施用量Z1=6.25(1 + 0.3945)=8.176,P2O5施用量Z2=5(1+0.3945)=6.973。 由此可以获得本试验的试验方案如表454所示。,2、统计分析,【例4 14】 按照【例4 13】安排的试验方案进行试验,重复2次,随机区组设计,试验结果(产量:kg/666.67m2)列入表454。进行分析。,首先,按照单因素随机区组试验结果进行方差分析,检验处理间的差异显著性,见表455,检验结果表明各处理间的差异显著,而区组间差异不显著。 由于两个区组间的差异不显著,下面的回归分析采用两次重复的平均值。,其次,估计各个回归系数。,本例的回归方程为 将设计方案中的编码值和试验结果代入回归方程,并用矩阵形式表示。估计回归系数的计算过程和计算结果如下:,于是可得用编码因素表示的回归方程,再次,检验回归方程的显著性。虽然饱和设计没有剩余自由度,但如果试验安排一定的重复(23次),则可由试验误差来检验回归方程和回归系数的显著性。,假设试验共有k个处理,重复n次,随机区组设计;第j次重复中第i个处理的观测值为yij,第i个处理的平均值为 ,试验总的平均值为 ,由回归方程估计的第i个处理的预测值为 。,回归平方和及其自由度为,m为回归系数的个数(在饱和设计试验中,m = k)。,误差平方和及其自由度为,于是可用 近似检验回归方程的显著性。,本例中,各处理的回归预测值列于表4-54的最后一列,回归平方和SSR、误差平方和SSe和F值分别为: F检验极显著,说明回归方程表示的回归关系存在。,第四,检验回归系数的显著性。,回归系数t检验的计算公式为:,误差均方,bj第 j 个回归系数,Cjj相关矩阵第 j 行第 j 列的元素,本例中,t0.05(5)=2.571、t0.01(5)=4.032。 t检验结果表明b0,b1、b2和b12极显著,而b11和b22不显著。,最后,为了便于应用,将编码因素的回归方程转换为用实际因素表示的回归方程。将x1=Z1/6.25-1和x2=Z2/5-1代入前面的回归方程,即可得到: 各处理的回归预测值列于表4-54的最后一列。由此可见,预测值与实际观测值完全吻合,说明回归方程的拟合效果很好。,(三)应用最优设计时应注意的问题,从以上实例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论