方差分析与正交设计c6_第1页
方差分析与正交设计c6_第2页
方差分析与正交设计c6_第3页
方差分析与正交设计c6_第4页
方差分析与正交设计c6_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章方差分析与正交设计1单因素方差分析在实际问题中,人们常常需要在不同的条件或不同的状态下,对所研究的对象进行对比试验,从而得到若干组数据(样本)。方差分析就是一种分析、处理多组试验数据均值间差异显著性的统计分析方法。其主要任务是通过对数据的分析处理,搞清各试验条件以及它们所处的状态对试验结果(又称试验指标)的影响,以便有效地指导实践,提高经济效益或科研水平。11基本概念例1某灯泡厂用四种不同材料的灯丝生产了四批灯泡,除灯丝材料不同外,其他生产条件完全相同。今由每批灯泡中随机地抽取若干个灯泡,测得使用寿命(单位H)数据如表(1)所示,现在要求推断出灯泡使用寿命是否因灯丝材料不同而有显著差异。表(1)灯泡寿命灯丝12345678A1A2A3A416001500164015101610164015501520165014001600153016801700162015701700175016401640170016001680178017401800如果在一项试验中,只有一个因素变化,其他因素保持不变,我们称这种试验为单因素试验。因素所处的状态称为水平。本例考虑的是一个因素即灯丝,这个因素具有四个水平,即四个不同材料的灯丝,A1,A2,A3,A4。从表中的数据看到,即使对于同一种材料的灯丝,虽然生产条件都一样,但灯泡的使用寿命还是可以不相等的,这说明灯泡的使用寿命是一随机变量。现在用,表示四1234种材料的灯丝所生产的灯泡的使用寿命,这样就有四个总体。若从这四个总体中分别随机地抽取容量为的样本,,,1,2,3,4,我们应用这四个样本来推断四个总体IN1I2IN之间有无显著差异。要判断不同灯丝材料的灯泡对使用寿命的影响问题,就是要辨别使用寿命之间的差异是主要由抽样误差造成的还是由灯丝材料不同造成的。这一问题可以归结为判断四个总体是否具有相同的分布。另外,在方差分析中,总是假定各总体相互独立,且都服从正态分布。由于除因素外,试验的其他条件都认为相同,这样就可以假设每个总体的方差相同。因此推断四个总体是否具有相同分布的问题,就归结为检验四个具有相同方差的正态总体,其均值是否相等的问题。实际上,方差分析就是检验若干个具有相同方差相互独立的正态总体,它们的均值是否相等的一种统计分析方法。前几章中我们曾介绍了检验两个正态总体均值间差异显著性的检验法。现在对多个正态T总体,我们能否仍用检验法两两进行检验呢结论是否定的。设想有十组数据,客观上T它们来自同一正态总体,因而有相同的均值。在这种情况下,任取两组数据采用检验法T检验其均值是否相等。设005,则接受假设认为两组均值相等的概率为1095。但从十组数据中任取两组,共有45种不同的取法,所以接受的概率为095210C0H450099。客观上十组数据均值相等,而采用检验法两两检验时,犯第一类错误(认为至少有两组T均值不等)的概率为0901。由此可见,当组数增多时,采用检验法两两检验时,犯第一T类错误的概率将大大增加,使我们判断的结果很不可靠。波兰数学家RAFISHER1923提出的方差分析法,可同时判断多组数据均值间差异的显著性。下面给出单因数方差分析的一般概念。设有个相互独立的正态总体,1,2,PIP。I,2IN设,,是从第个总体中抽取的容量为的简单随机样本。1I2INIIIN由于(1,2,;1,2,),与的差可以看成是一IJ,2IPJIIJIIJI个随机误差。因此满足IJ,(1)IJIJ而,且互相独立,其中1,2,;1,2,。要求检验假设IJ,02NIPJIN。H12P12统计分析下面构造检验假设用的统计量。记012P,。(2)PIN1I1NJI这是第个总体的样本均值,也叫做组平均值。称I(3)PINJI1IPI1为总平均值。是从个总体抽得的样本的总容量。由(2),(3)两式可得0。1IPINJIJ由此得到TSPINJIJ1221IPIINJIJ。(4)2112IPIPIINJIJNESA其中,。ESPIINJIJ12A21IPI是所有观察资料与总平均值的差的平方和,称为总偏差平方和。它是描述所得全TIJ部数据离散程度的一个指标。由上式知,总偏差平方和可以分解为、两项之和。ESA我们再来看、的意义。记ESA(5)IPIN1是各均值的平均,叫做均值的总平均。令,1,2,。IIP它是各总体的均值与理论总均值的差异。称为因素的第个水平的效应。II易知个效应满足关系式P0。IIN1当假设成立时,由(5)式可得,从而0H12P12P0(1,2,)。故假设也可写为I0H0。012式(1)用水平的效应表示,可以写成(1,2,;1,2,)IJIJIJIPJIN此时。I1NJI1NJIIJI其中是第个总体样本误差的平均,又I1NJI。IPIN11PIIIPIN1其中表示所有样本误差的平均,从而有IPIN1PINJI122。ESPIIJIJ12PINJ1IJIIPINJ1IJI22。A21IPIN1PII1PII由这两式可以看出,仅依赖于随机误差,除与随机误差有关外,还与各水平间的ESIJAS效应有关。这就是引起波动的两个原因一个纯粹是由随机误差引起的,IIJIJ另一个在一定程度上是由各总体均值之间的差异引起的。I如何构造检验统计量呢这可以从,的数学期望得到启发,因为ESA1,212INJIJIN所以EESPIINJIJ12PIINJIJE121。1NJI22。AES21IPI21IPIEN21P21IPIN记,。PNE212SA则有,。21ES21P2IIN由此可见,不论对的假设如何,是的一个无偏估计,而仅当假设I2S2S0H1成立时,它才是的一个无偏估计,否则它的期望值要大于。这说明比2P2值,EASPNF121在假设不成立时,有偏大倾向。0H下面讨论的分布。当成立时,此时,。于是由(4)式有012PIJ,2NPINJIJ1PINJIJ122PINJIJ12PINJ12PINJIJ1PINJIJ122。ESA2对于,它有个线性关系,1,2,,所以它的秩为。对EP01IIJNJIIPPN于,它含有一个线性关系0,所以它的秩为。对于,其AS1IPI12秩为1。由于1,故由COCHRAN定理知,当假设成立时,和相互独PNN0H2ESA立,且,2ES2AS1P由此知。EASPNF121,NF给定显著性水平,由分布的分位数知。,1P当的观察值时,拒绝假设,否则认为试验结果与假设无F,1PN0H0H显著差异。为应用方便起见,将上面讨论中所需的结果列成方差分析表,如表(2)。例2检验例1的四种灯丝材料对灯泡使用寿命是否有显著影响(005)。解758626,N41I计算得443607,1513508ASE147869,12P37460687958,NSE2185215。F87946把计算结果整理列成下面的方差分析表(表(3)。表(2)方差来源平方和自由度均方和值F因素的影响AS21IPIN1P12PSA21误差EPIIJIJ12NNE21总和TSPINJIJ1212ST表(3)方差来源平方和自由度均方和值F因素的影响443607AS31P1478692S215误差1513508E22N6879581总和1957115T257828462这里的自由度为(3,22),若给定显著性水平005,查得临界值3,22305。因F1F为2154801HAF1FAF3,6,所以拒绝,即因素的不同水平对化验结果有显著影响。1F01又由于当假设成立时,2,6,查分布表得2,651。因为02B1258512,6,所以拒绝,即因素的不同水平对化验结果有显著影响。B102HB22考虑交互作用的方差分析在以上讨论中,由于只对,两个因素各水平的组合进行了一次观察,所以不能了解,ABA两因素之间是否存在交互作用的影响。上面假设均值,1,2,;1,2,。IJIJIPJQ而现在要考虑,各水平的交互作用,很自然,我们称IJIJIJIJ为因素的第个水平与因素的第个水平的交互效应(即交互作用的影响)。IJAIB对两个因素和的各水平(,),1,2,;1,2,,重复进行次观察,BIJIPJQR设其观察值为,1,2,;1,2,,1,2,,IJKPJQKR并假设(1)独立,1,2,;1,2,,1,2,;IJKIJK,2IJNIPJQKR(2)。IJIJI于是0,0,0,1,2,,0,1,2,。PI1QJJ1PIJ1QJI1P这样就得到两个因素有交互作用的方差分析模型为,IJKIJIJIJK0,0,0,0,PI1QJJ1PIJ1QJI1IID,IJKIJK,02N(1,2,;1,2,,1,2,)。PJQKR因此要判断因素,的影响以及交互作用的影响是否显著,分别等价于检验假设AB0,01H2P0,2Q0,1,2,;1,2,。03IJJQ为了检验上述假设,类似地将总偏差平方和进行分解。TSTS21IJKPIQJR21IJIJKJIIJPIJQJRKIPIQJRKI1221PIJQJRK21JIIJPIQJRK21IJIJKPIQJR。(5)ASBES其中,APIQJRKI12PIIQR12,BS21PIJQJRKJJ12,BA21JIIJPIQJRK21JIIJPIQJR。ES21IJIJKPIQJR,1,2,,1,2,,IJRKIJ1PJQ,1,2,,IQJRKIJK1QJIJ1P,1,2,,JPIRKIJ1PIJ1。PIRKIJKQ1在平方和分解公式(5)中,除反映误差波动外,还反映了因素的各水平间效应的差ASA异;除反映误差波动外,还反映了因素的各水平间效应的差异;除反映误差波BSBBS动外,还反映了交互作用的差异所引起的波动;仅仅反映了误差的波动。ES可以计算得,ASE21PPIQR12,B2PJJ12BASE2QPIQJIR12。E21RP令,。21SA2QSB123QPSBA124RPQSE则得,21SE1PRI2,2QJJ12,23SEPRPIQJI12。24SE构造统计量,。AF241B24ABF243S当假设不成立时,有偏大倾向,故可用检验假设;当假设不成立时,01HAF01H02有偏大倾向,故可用检验假设;当假设不成立时,有偏大倾向,故可BB02H03ABF用检验假设。AF03可以证明。2ES1RPQ当成立时,且与独立,所以01H2ASPES。AF1,RQP当成立时,且与独立,所以022BSES。B1,RPQ当成立时,(),且与独立,所以03H2BASQ1ES。ABF,1RP将上面的结果列成有交互作用的方差分析表(表(5)。表(5)方差来源平方和自由度均方和值FA的影响SPIIQR121P121PSAA241SB的影响21JJQ2QBBF24交互影响ABBS21JIIJPIQJR1QP123QPSBAABF243S误差ES21IJIJKPIQJR1RPQ124RPQSE总和TPIQJIJKR12例2在某橡胶配方中,考虑三种不同的促进剂,四种不同分量的氧化锌,同样的配方重复一次,测得300的定伸强力如表(6)所示。试问氧化锌、促进剂以及它们的交互作用对定伸强力有无显著影响(001)表(6)BA12B3B4B131,33343635,3639,38233,3436,3737,3938,413A35,3737,3839,4042,44解由表(6)数据可算得相应的方差分析,结果见表(7)所示。表(7)方差来源平方和自由度均方和值F显著性A566AS228321S194A显著B1322B34412302B显著47A6083055AF不显著误差175ES124612S总和211023由显著性水平001,查分布表得F2,12693,12606,12482。1F11所以在显著性水平001下,促进剂种类影响和氧化锌总量的影响都是显著的,而它们之间的交互作用则认为可以忽略。3正交试验设计的直观分析试验设计是数理统计中的一个较大的分支,它的内容十分丰富,这里只介绍正交试验设计(简称正交设计或正交试验)。这种方法第二次世界大战后在日本全国普遍推广,据日本某些专家估计,“(日本)经济发展中至少有10的功劳归于正交设计”,可见其经济效益之大。在我国,正交设计也有很多应用,它的进一步推广将会在我国现代化建设中获得更加丰硕的成果。正交设计是利用“正交表”进行科学地安排与分析多因素试验的方法。它的主要优点是,能在很多试验方案(也称试验条件)中挑选出代表性强的少数试验方案,并通过对这少数试验方案的试验结果的分析,推断出最优方案,同时还可以作进一步的分析,得到比试验结果本身给出的还要多的有关各因素(也称因子)的信息。在2中介绍的两个因素的方差分析的计算已经比较复杂,当因素及水平数较多时,试验次数是惊人的。例如,考虑5个因素4水平的试验,若每个因素的水平搭配(水平组合)只做2次重复试验,就要做2452048次试验,而且,对这么多试验数据进行统计分析计算,也将是非常繁重的任务。此时如果用正交设计来安排试验,则试验次数会大大减少,而统计分析的计算也将变得简单。按“正交表”来安排回归试验,也会使多元线性回归分析的计算变得更简单。对正交试验结果的分析,通常采用两种方法,一种是直观分析法或称极差分析法,另一种是方差分析法。在实际工作中两种方法都有用,本节讨论直观分析法。31正交表下面的表(1)是一张正交表,把它记为L827。表(1)列号试验号12345671234567811112222112211221122221112121212121221211221122112212112记号L827中的“L”代表正交表,L右下角的数字“8”表示这个正交表有8行,即安排8次试验,括号内的数字“2”表示集中只出现“1”和“2”两个数字,它们分别是因子的1水平和2水平的代号,数字2的右上角“7”表示这张正交表有7列。正交表的列是用来安放因子和交互作用的,因此正交表L827最多可安排7个二水平因子的试验。常用的正交表有L423,L827,L16215,L32231,L934,L27313,L1644等,它们的含义与L827类似。正交表有如下两个性质(1)每列中不同水平出现的次数相等。例如L827中的1水平和2水平在各列中各出现4次。(2)任意两列,将同一横行的两个数字看成有序数对时,每种数对出现的次数相等,例如表L827中,可能的次序对为1,1,1,2,2,1,2,2,它们在任意两列中各出现两次。凡满足上述两条性质的表称为正交表。32正交试验及其结果的分析根据试验指标(即表示试验结果特性的值),可把正交试验设计分为单(一个)指标试验设计与多指标试验设计。下面通过例子说明如何用正交表进行单指标正交设计,以及对试验结果进行分析。例1合成氨最佳工艺条件试验。数据以往生产积累的经验,决定选取的试验因素与水平如表(2)所示。假定各因素之间无交互作用。试验目的是提高氨产量,即要找到最高产量的最优的水平组合方案。表(2)例1的因素与水平表因素水平A反应温度()B反应压力(大气压)C催化剂种类1460250甲2490270乙3520300丙解首先,选择合适的正交表。本例是一个3水平的试验,因此要选用LN3T型正交表。本例共有3个因素,不考虑因素之间的交互作用,所以要选一张T3的表,而L934是满足条件T3的最小的LN3T型表,故选用正交表L934安排试验。选定正交表后,接着进行表头设计。本例不考虑因素之间的交互作用,只需将各因素分别填写在所选用的正交表的上方与列号对应的位置上,一个因素占有一列,不同因素占有不同的列,就得到表头设计(见表(3)。表(3)例1的表头设计因素ABC空列列号1234未放置因素或交互作用的列称为空白列(空列)。空白列在正交设计的方差分析中也称为误差列,它有着重要作用,一般要求至少有一个空白列。完成表头设计后,就可以判定试验方案。把表中各列的数字“1”、“2”、“3”分别看成是该列所填因素在各个试验中的水平数,而正交表的每一行就是一个试验方案。于是,本例得到9个试验方案。如第六号试验方案A2B3C1。这就是用温度490、压力300大气压、甲种催化剂三种水平组合进行试验。下面用正交表来分析试验结果。按正交表的各试验号中规定的水平组合进行试验。本例总共要进行9个试验,将试验结果(数据),单位T填写在表的最后一列中。1Y29例1的试验方案及试验结果见表(4)。表(4)例1的试验方案及试验结果分析ABC空白因素列号试验号1234产量指标TIY1231460111250227033001甲2乙3丙12317211822Y18034562490221232313121924Y18351986Y78935203312331223115971608Y1819JK1J2J3534573500523525559530555522536539532JK1J2J3178019101667174317501863176718501740178717971773JR073036033007因素主次ABC优方案A2B3C21IYT16077869引进下列记号以计算极差和确定因素的主次顺序。第列上水平号为的各试验结果之和。IJKI,其中为第列上水平号出现的次数;表示第列的因素取水平时,IJIJS1SJIIJKJI进行试验所得试验结果的平均值。称为第列的极差或其所在因素的极差。也可定义为JRMAXIJINIJIKJRJJR。但对于水平数不等的试验,就只能用后者。JIJIIJI对于本例,有()1K311Y23(172182180)1780;45()214Y56(192183198)1910;337()1K37Y89(159160182)1667;05MAX,MIN,1R1231K1231K573500073。其它的,的计算过程就不写出来了,它们的计算结果列在表(4)中。IJJ注意如果第列放置因素,为了方便,有时也把,分别写成,,其它记AIJIAKI号如,作类似的理解。IBKIICI一般地说,各列的极差是不相等的,这说明各因素的水平改变时对试验结果的影响是不相同的。极差越大,说明这个因素的水平改变对试验结果的影响越大,极差最大的那一列的因素,就是因素的水平改变对试验结果影响最大的因素,也就是最主要的因素。对于本例有。1R234因此,它的各因素的主次顺序为主次ABC现在,可以根据分析结果确定最优试验方案了。挑选因素的优水平与所要求指标有关,若指标越大越好,则应该选取使指标大的水平,即各列,(或,)中最大的那个水平;反之,若指标越小越好,则JK1J2J3JK1J2J3应取使指标最小的那个水平。本例的试验目标是提高合成氨的产量,指标越大越好,所以应该挑选每个因素的,中最大的那个水平。由于JK1J2J3,AK21A3BBC2K1C3故得最优方案为A2B3C2。即反应490,反应压力300大气压,乙种催化剂。我们通过分析计算得到的最优方案A2B3C2,并不包含在正交表中已做过的9个试验方案之中。这正体现了正交设计的优越性。但是,实际上它是不是真正的最优方案呢这可以通过进一步的试验来验证,我们也可以作进一步的理论计算来证实。33有交互作用的正交试验设计分析前面讨论的正交试验设计和对试验结果的分析,都是在因素之间没有(或不考虑)交互作用的情况下进行的。实际上,在许多试验中,因素的交互作用不但存在,而且不能忽略。在这种情况下,对多因素的正交试验的表头设计还必须另外借助两列间的交互作用表,许多正交表的后面都附有相应的交互作用表。表(5)就是正交表L827所对应的交互作用表。表(5)L827两列间交互作用列表列号列号()1234567(1)3(2)21(3)567(4)4761(5)74523(6)654321(7)用正交表安排有交互作用的试验时,把交互作用看成一个新的因素,它要在正交表上占有列,称为交互作用列。交互作用列不能随意安排在任意列上,应该通过查交互作用表来安排。从表(5)就可以查出正交表L827中任何两列的交互作用列。例如,要查第2列与第6列的交互作用列,先在表625的对角线上查出列号(2)与(6),然后从(2)向右横看、从(6)向上竖看,交叉数字为4就是它们的交互作用列的列号。即是说,用L827安排试验时,如果因素被安排在第2列,因素被安排在第6列,那么,交互作用因素ABA就只能安排到第4列上,此列不能再安排其它因素,以避免发生效应之间的“混杂”。B在分析试验结果时,仍然作为一个单独因素,同样计算它的极差,极差的大小反映和的交互作用的大小。下面举例说明有交互作用的试验设计与试验结果的分析。例2工件的渗碳层深度要求为1025,要通过试验考察的因素与水平如表(6)所示,还要考察交互作用、。ABC表(6)例2的因素与水平表因素CD水平催化剂温度()保温时间(H)工件重量()甲乙70080023115试验目的是确定这4个因素及2个交互作用对渗碳指标的影响的重要性的主次顺序,并找到最优的生产方案。解首先,选定合适的正交表。这是一个4因素2水平试验,4个因素加上2个交互作用、,因此所选的2水ABC平正交表至少要有6列。满足这种条件的2水平正交表中以L827为最小,因此选用正交表L827安排试验。然后进行表头设计。把因素、分别放在表L827的第1、2列上,查L827两列间的交互作用表,可知交互AB作用占用第3列,因此第3列不能安排因素(或其它因素),否则第3列的极差就分不清楚是因素的作用还是的作用,这便产生了效应“混杂”。现将因素放CABC在第4列,查L827两列间的交互作用表,可知交互作用占用第6列,因此第6列BC不能再安排别的因素。最后,因素可安排在第5列或第7列上,现安排在第5列上,于D是第7列成为空白列。这样,便得到不会有因素与交互作用“混杂”的表头设计,如表(7)所示。表(7)例2的表头设计因素ABACDBC空列列号1234567下面制订试验方案与进行试验。完成了表头设计以后,只要把表L827安排有因素的第1、2、4、5列上的数字“1”、“2”分别看成是该列所安排的因素在各个试验中的水平数,从而正交表的每一行就确定一个试验方案,于是得到本例的8个试验方案。注意,在完成了表头设计以后,交互作用所在列与空白列一样,对确定试验方案不起任何作用,因为那些列的数字“1”、“2”不代表任何实际水平。按正交表规定的试验方案进行试验,测定试验结果。试验方案与试验结果见表(8)。下面分析试验结果,计算极差,确定因素的主次顺序。由于渗碳层深度越接近1越好,为了便于讨论,把试验指标变换为1,IXIXIIY从而问题转化为越小越好。IY用1,2,8来计算,计算,与第列放置什么因素或交互作用无关,IYIJKJRIJJ所以计算,的公式与无交互作用情形相同。计算所得结果以及根据极差由大互小IJJR所确定的因素的主次顺序见表(8)。最后,确定最优方案。如果不计交互作用,注意到指标是越小越好,很容易得到最优方案应该是A1B2C1D1,IY但是,由于交互作用是影响试验结果的最重要因素,是挑选水平组合的最主要依据,AB所以不能不计。可是,没有实际水平,说它取哪个水平是没有意义的,因而不能按AB,值的大小来确定,应该按因素,的水平搭配的好坏来确定。怎样看出两因素13K2水平搭配的好坏呢通常把两因素各种水平搭配下对应试验结果(数据)之和列成的表格称为搭配表(也称为二元表),表(9)便是本例的,两因素的搭配表。AB表(8)例2的试验方案与结果分析ABCDC空列因素列试验号号1234567渗碳层深度IXIY1IX11甲1700112111108501521112321522075025312800211221030034122221109800252乙121212109009621221211160167221122108101982212112092008JK1045065067046042034052J2052032030051055063045JR007033037005013029007因素主次ABCDA优方案A1B2C2D1表(9)例2因素,的水平搭配表1B2BAD11015025040Y2D120030020053Y42D2100901602556D2201900802778由于本例的指标越小越好,根据正交表的综合可比性,表中最小值所对应的水平搭配就IY是因素,的最优水平搭配,即最好的搭配是A1B2。AB由于交互作用比因素重要,我们也列出因素,的水平搭配表(见表(10)。CC表(10)例2的因素,水平搭配表12BD11015009024Y5D12025016041Y62D2100301902237D2200200801048与因素,找最优水平搭配的道理一样,由表(10)得到因素,的最优水平搭配为ABCB2C2。综上所述,不考虑交互作用时得到的最优方案为A1B2C1D1,考虑交互作用时得到的最优方案为A1B2C2D1。这两个方案一致之处在于因素的水平选取上,在有交互作用时,这种矛盾现象是经常发生的。此时,因素取哪一个水平好呢一般来说,次要因素应该服从主C要因素(交互作用、分别都看作是因素),本例交互作用比因素重BC要,因此应该选择由因素,的优水平搭配所确定的水平。于是,最后确定的最优方案为A1B2C2D1。即甲种催化剂,温度800,保温时间3H,工件重量1。当因素取3水平或3水平以上时,交互作用的分析比较复杂,不便于应用直观分析法(极差分析法),通常都用方差分析法。4正交试验设计的方差分析前面介绍了用正交表安排多因素试验的方法,并对试验结果进行了极差分析。极差分析方法的优点是方法简单、直观,计算量较少,便于普及和推广,对于生产实际中的一般问题用极差分析法能够得到很好解决。但极差分析法不能估计试验过程中以及试验结果测定中必然存在的误差的大小,因而不能真正区分各因素各水平所对应的试验结果的差异究竟是由于水平的改变所引起的,还是由于试验误差所引起的。而且,对影响试验结果的各因素的重要程度,极差分析法不能给出精确的数量估计,也不能提供一个标准来考察、判断因素对试验结果的影响是否显著。特别,对于水平数大于等于3且要考虑交互作用的试验,极差分析法不便于使用。方差分析能弥补极差分析法的这些不足。41不考虑交互作用的正交试验的方差分析利用正交表对试验结果进行方差分析的思想与步骤类似于两个因素全面试验中的方差分析先将数据(试验结果)的总偏差平方和分解为各因素以及误差的偏差平方和,然后求出值,再应用检验法。F若用正交表安排试验,总的试验次数为,试验结果为,则数据的总TNRLN1Y2N偏差平方和为TS。TSNIIY12NIY12NIT12其中,。NIY1NIY1由一个因素的方差分析知道,因素所引起的数据的偏差平方和(即组间平方和)为A。ASRIIYN12RIIYN12RII12NT其中,为因素的水平数;为因素的水平所对应的试验结果的平均值。用正交RII表安排试验时,每一个因素的任一个水平的试验次数都是相等的。设因素的每一个水平A的试验次数为,则(记号,与前节的含义相同)SIJKJR;。INRIYIAS1I于是,可表示为AS。RIIKS12NIY12RIIAKS12NIY12RIIAK12NT若因素安排在正交表的第列上,记,且称为第列所引起的数据的偏差平JSJJS方和(简称为第列平方和),于是有JS。JRIIJKN12NIY12特别地,对于2水平的正交试验,计算的公式可简化为JS。JS1JJN21JJKN21JJN3JRN若用正交表安排试验,可以证明有如下平方和分解公式TNRL。TSTJ1也就是说,我们用正交表将总偏差平方和分解为各列偏差平方和之和,且TSJS的自由度1;的自由度1。TSTFNJSJFR例1苯酚合成工艺条件试验。某化工厂在原有基础上要对苯酚的合成条件做进一步的研究,目的在于提高苯酚的产率。试验考察的因素与水平为(不考虑交互作用)反应温度()300,320;A1A2反应时间(MIN)20,30;BB压力200,250;C12C催化剂种类甲,乙;DDNAOH溶液用量(L)80,100。E1E2解由于各因素皆为2水平,共有5个因素,可选用正交表L827。表头设计、试验方案、试验结果及,的计算结果见表(1)。IJKJR表(1)例1的试验与计算表ABCDE因素列试验号号1234567试验结果IY12345678111122221122112211222211121212121212212112211221122121128341Y84028733Y84848735Y88069237Y9048JK1J233953580342735483501347435033472348434913516345934853490J18498958578878758698768688718738798658718736975T27YJK2JR1851212731075705JS42781183010911120100614061003167349TS本例是用正交表L827安排试验,于是有;2。TS812IY21IJS8JK1J8JR各列的计算结果见表(1)。J由正交表的平方和分解分式及本例的表头设计,得。TSABCSDE3S7其中,均为空白列的偏差平方和。由于空白列的偏差平方和不是由任何因素所引起的,37故是误差所引起的,因此误差平方和为所有空白列的偏差平方和之总和,本例为EES37且自由度有,EF37F于是又有。TSABCSDEES要进行方差分析,还必须把试验结果理解为理解为随机变量1,2,8,并假定它IYI们服从正态分布。在无交互作用时,假定,满足下面模型。1281A1BC1DE22231C1E34A2B2D451C1E5622672AB1C2DE7818021IAIB21ICID21IE,IID,从而,相互独立28,02N28其中,分别为因素的水平,的效应1,2,它们与及IABICDIEIABICDIEI均是未知参数。2检验,各因素对试验结果有无显著影响,分别等介于对下列假设ABCDE0,0,H1A2B1B20,0,CCDD0。E1E2下面作出显著性检验。我们已指出有。TSABCSDEES还可以证明有下列结论(1),相互独立,且;ABCDEE2ESEF(2)当成立时,;AH2ASF当成立时,;B2BF当成立时,;CH2CSF当成立时,;D2DF当成立时,。EH2ESF其中称为(或因素)的自由度。有AFA因素的水平数1。AF同理,可知,的含义及计算公式。BFCDFE称为或误差的自由度,它的另一个计算公式为EFES各因素的自由度之和(1)各因素的自由度之和。TN由此得到检验的统计量为AH,AFEFS/FFE其中,/;/。一般/称为第列的均方和。AESEFJSJFJ于是,对于给定的显著性水平,由样本值,算出统计量的观测值,那1Y28AFA么检验假设的法则为AH若,,则拒绝,认为因素对试验结果的影响是显著的;F1FEA若EEFEEAS,但相对于其它一些列的偏差平方和来说小得多的少数一些列的也并入误差平方和SJS中),然后再对其它因素用E,因FEFS/因因因FE来作检验若计算出的观测值,,则以显著性水平推断此因素对试验结果的影响因F1因FE显著,否则推断此因素对试验结果的影响不显著。在例1中得到091100310942;ES37112;FF00611,33412,AES3/84201故因素对试验结果的影响是高度显著的。类似可得因素的影响是高度显著的,而因素的影响是显著的。对因素,由于BEC36,则优水平组合为KLAUVALKBA若”改为“,因此因素的优水平为。BK1B22综上所述,得到最优方案为,也就是正交表L827的第7号试验方案。2A1C第六章多元数据的统计模型61多元数据在科研生产和社会实践中,我们的研究对象往往比较复杂,需要用多项指标对其进行描述与刻画。比如在嫦娥1号登月卫星的变轨过程中,我们会关注卫星的飞行速度、近地点高度,远地点高度、瞬态加速度增量、雷达及太阳帆板的朝向、卫星的姿态等多项参数。在对月观测中,我们也会观察月球的多项指标,形成大量的多元观测数据。在社会经济研究中,我们经常会同时关注国民生产总值、物价指数、消费指数、进出口贸易总额、劳动生产率等多项经济指标,也会面对大量的多元观测数据。对这些多元数据进行科学的分析和处理,可以为揭开月球的神秘面纱、揭示经济运行规律提供科学的分析平台。为了了解多元数据,我们以表611所示的多元抽样数据为例。在社会调查中经常会遇到类似的数据表。表611某小区居民情况抽样调查数据姓名1X性别2年龄3职业4X身高5健康状况6月收入7X颜色爱好8黄玉梅女42教师165很好3800红田超男31工程师178较好2790黄张文逍男56公务员173一般4325黄王泰昊男48公务员181一般3978红郭放女22职员171较好2200兰陈文韬男34工程师183很好3600兰叶玥女27教师161很好3000红杨学治男25职员169较差1800红在表611中,每个居民的状况有8项指标组成。根据指标度量特性的不同,通常可以把这些指标分为三种尺度、表明对象具有某种属性,称它们为名义1X248X尺度变量,这些变量没有量化,计算这些变量的均值方差没有什么实际意义,也无法对它们进行排序;健康状况也是一个没有量化的指标,但是可以进行排序,称其为有序尺度6变量;量化指标、称为间隔尺度变量,其中的取值为自然数,称为离散尺3X573X度变量,和的取值连续变化,称为连续尺度变量。在本课程中。我们更多地是关心57间隔尺度变量。面对具有多项指标的对象,我们不仅仅只关心对每一个单项指标的统计推断,而是把多项指标作为一个整体来进行研究。比如,我们更关心各个指标之间是否相互关联(相关分析),揭示各指标之间相互关联的具体形式(回归分析),对指标进行合理分类或对样本进行合理分类(聚类分析),对给定样本的类别归属进行判别(判别分析)。这些分析方法构成了多元统计分析的基本内容。611多元总体的分布在多元统计分析中,把我们所研究的多指标对象的全体称为总体。若总体有P项指标需要观察研究,就称其为P元总体。由于从P元总体中随机抽取一个个体,其P项指标都是随机变量,因此P元总体可以用P维随机向量表示。定义611设是P维随机向量,,21XPRX,21PXXPXFX称为X的联合分布函数。若存在非负函数,使得对一切,有,21PFPRX1121,XPPPDTTTFXF则称X为连续型随机向量,称为X的联合概率密度。,21PF定义612设是P维随机向量,任给QP,称由X的任意,XQ个分量组成的子向量的分布为X的Q维边际分布。特别地,如果把21QIIX分块成,其中是Q维随机向量,是PQ维随机向量。的概率221密度函数(也就是边际密度)为PQPQDXXFXF12121,的边际概率密度为2XQPPQDXXFX,XF121212,定义613设是P维随机向量。把X分块成,,21XX21其中是Q维随机向量,是PQ维随机向量,在给定的条1022XF件下,的条件概率密度定义为,|,2122121PQPQQXXFXXF简记为,|2121XFF定义614设是P维随机向量,若X的联合分布(或联合,21XX密度)等于各一维边际分布(或一维边际分布密度)的乘积,则称X的各分量相互独立。两个随机向量与相互独立的充要条件是12,2121XXFFF例611设的联合概率密度为,21X、,010,1456,212121XXXF试求条件密度和。21|F12|F解首先计算边际密度函数10,5612D4D,2131221XXXFF10,526D4D,21212XXXFF根据条件密度公式,对于,有210,134,|22121XXXFXF对于,有0110,124,|2112XXFXF例612设的联合密度函数为,321X、,010,EP,21321321XXXF试证相互独立。321,X解首先计算边际密度函数0,D1323211XEXXEPXF同理,0,3322FEFXX可以看出,3131FXF所以相互独立。21,X612多元总体的数字特征定义615是P维随机向量,若,21XX,,21,EPIXI则X的数学期望定义为,也称为X的均值向量。EE,21P若,则X的方差矩阵定义为、,OVJICJIIJEVARX。PPP212211设,将的行列式称为X的广义方差,将的迹称为X的总变差。VARXTR设与的相关系数为,则X的自相关系数矩阵定IJ,21,PJIJIIIJ义为11R21221PPX定义616和分别是P维和Q维随机向,21,2QY量,若存在,则的协方差矩阵,OVJIYXCJIIJX、定义为EEE,YYXQPPQ212211设的相关系数为,JIYX、,21,2,1,QJIYXJIJIIJ则的相关矩阵定义为、QPPQ212211,YX设为随机向量,是满足运算要求的常矩阵或常向量,则均值向量有YX、B、BA如下性质性质1;BXEA性质2;YYB性质3若相互独立,则。、EGG2121YX设为随机向量,是满足运算要求的常矩阵或常向量,XVUBA、A则协方差矩阵有如下性质性质1,;0,COVVARX,CO,OXY性质2,;ARBAVARR性质3;,BABY性质4设,则。XEVARXTR例613设分别是P维和Q维随机向量,Z的方差矩阵相应地分Y、,Y块表示成。21(1)试求VAR(X)、VAR(Y)、COV(X,Y),(2)求AXBY的方差矩阵,其中A、B是满足运算要求的常矩阵。解(1)由于,所以ZOIIPP1P21PPPOII,IVARIAR同理,2Q21QQQIIOIRY12Q21PQPIICOVICOVZ,X,(2)由于YXBABAVARVAR22112121BAZX例614设随机向量的数学期望和协方差矩阵分别为,321X253914,75(1)求X的相关矩阵,(2)设,。求3214XY32XY321XY的数学期望和协方差矩阵。,解(1)X的相关矩阵为21212150943945094R1/516/1/50/25329140/31(2)AXY321321041594072XAYEE219256405671430253914302VAR定义617设是P维随机向量,则将复变量函数,21XXPFR,DEEPRIITXTTT称为X的特征函数。特征函数有如下性质性质1在中一致连续,且;TXPR1,|TT0TXX性质2反演公式若绝对可积,则X有概率密度函数FX,且TXPPFR,DE21RITXXT性质3两个随机向量同分布当且仅当它们的特征函数相同。性质4设,与相互独立当且仅当21X1,其中T1TX2T,21TT性质5若相互独立,则()的特征函数是X与Y两特征函数的乘积。即Y、YTXTY利用特征函数,可以得到一个刻画多元概率分布的重要定理CRAMERWOLD定理。这个定理告诉我们,一个多元概率分布完全由它的全体线性组合的分布所确定。定理611一个P维随机向量X的分布,由一维分布族完全确定。PR,TX证明设,则Y的特征函数为TEESSISYIXT显然,取,有。可见X的特征函数完全由全体随机变量1SEEITXTY的特征函数在处的值所确定。PR,TX1S613多元总体的样本数据设X是一个多元总体,从该总体中随机抽取N个个体。若N21X,相互独立且与X总体同分布,则称它们是X的一组简单随机样本(IID样本)。N21,把X的这些样本排成矩阵PXN21X,21PNNPXX212112称X为X的样本观测矩阵或样本资料矩阵。样本资料矩阵X是一个随机矩阵。定义618设是P元总体X的样本,称为样本均值向量,N21X,N1称为样本离差阵,称为1XNLXXLXSNN1样本协方差阵。设S的元素为,称为样本相关系数,IJS,2,PJISRJIIJ所有样本相关系数排成的方阵称为样本相关矩阵。PIJR设样本资料矩阵为X,则,其中是元素皆

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论