方差分析及回归分析_第1页
方差分析及回归分析_第2页
方差分析及回归分析_第3页
方差分析及回归分析_第4页
方差分析及回归分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第九章 方差分析及回归分析 关键词:单因素试验 双因素试验 交互作用 一元线性回归 多元线性回归21单因素试验的方差分析 例 假设某药物研究者为检验a,b两种化学物质的抗癌效果,要做动物试验。通常的作法如下所述:他将一些患有某种癌的白鼠随机地分成三组。其中两组分别注射a,b两种化学物质,而第三组则不作处理,作为对照。记第一组:注射a物质,第二组:注射b物质,第三组:不做处理。经过一段时间观察后,他得到寿命数据(一)单因素试验3设第j组有 只老鼠寿命分别为 jn1,2,.,1,2,3ijjXinj这是一个典型的最简单分组试验方案。分组的依据为药物:a,b,无。通常,分组的依据称为“因素因素”,

2、因素的不同状态称为因素的“水平水平”。此例因素(药物)有三个水平:a,b,无。只有一个因子,按因子的不同水平来分组的试验称为“单因素试验单因素试验”。在试验中,对试验对象所观测记录的变量称为“响应变量”(例中的寿命)4一般地,对一个单因素试验,假设因素有s(s2)个水平,n个对象参与了试验。假定对应于因素第j个水平的组中有 个试验对象,响应变量数据为jn12,1,2,jjjn jXXXjs,。2(0,),1,2,1,2,ijjijijijjXNinjs各独立,122221122111212122212:,:,:,sssssnnn sA NANANXXXXXXXXX 通常假定5012112:.:

3、,.,ssHH 不全相等。检验假设111 ssjjjjjnnnn记总平均, 其中,1,2,.,jjjAjs水平 的效应1 122.0ssnnn此时有21 122(0,),1,2,1,2,.0ijjijijijjssXinjsnnn 模型为:各独立,假设等价于012112:0:,ssHH 不全为零。6211jnsTijjiSXX定义:总偏差平方和22211ssAjjjjjjSnXXn XnX效应平方和211jnsEijjjiSXX误差平方和11111jnssijjjjijXXn Xnn11,1,2,jnjijijXXjsn(二)平方和分解71TAESSS性质 :221111jjnnssTijij

4、jjjijiSXXXXXX证明: 221111112jjjnnnsssijjjijjjjijijiXXXXXXXXAESS11110jjnnssijjjjijjjijiXXXXXXXX.AEScS从而,检验拒绝域的形式为:822121sTjjjE Snn性质 :2211sAjjjE Sns2EE Sns2221111jjnnssTijijjijiE SEXXEXnX证明:221()()1sATEjjjE SE SSns2211()()jnsijjiE XnE X1111()()1()jnsijjisjjjE XE Xnnn22222112ssjjjjjjnnnnn211()jnsEijjjiE

5、 SEXX221(1)()sjjnns222211() jnsjjinn2211sjjjnn9223(1)(2)()AEESSSns性质与相互独立;211jnsEijjjiSXX证明:只证(2).因为2221(1),1,., .jnijjjiXXnjs22221(1)sEjjSnns由分布可加性,即。211,.,jnijijjiXXXjs由于各相互独立,所以,相互独立,202(3)(1)ASHs当为真时,。0(1)(1,).()AESsHFF snsSns从而,当为真时,10 2221220112,11.11sAEjjjAASSEnEssnsSSHEHEss由性质 ,当成立时,;当成立时,01

6、2112:0,:,ssHH 由此,对不全为零。(1)(1,)()AESsFFsnsSns在给定水平 时,检验拒绝域为AS1AASSsAESSESEESSnsTS方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表11,TAESSS计算的简便公式:111,1,2, ,jjnnsjijijijiTXjsTX记22221111jjnnssTijijjijiTSXnXXn222211ssjAjjjjjTTSn XnXnnETASSS12 例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所

7、需时间,得到下面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,613这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。 0123451125:,.,HH 解:检验假设不全相等。21234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT方差分析表方差来源平方和自由度均方F比因素A36.466749.1167 3.90误差58.5000252.333

8、4总和94.9667290.050(4,25)2.76FH。拒绝,认为疗效有显著差异。14未知参数的估计221;(2)(3)(4)EjjjjjjSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk 当拒绝时,进一步比较和的差异,可以作的区间估计。211(),()jkjkjkjkE XXD XXnn因为2()jkEXXSns且与相互独立。2()()()()() ()(11)(11)jkjkjkjkEjkEjkXXXXSnst nsnnSnn故()1jk得的水平为的置信区间2()(11)jkEjkXXtnsSnn15

9、213125321,(1,2,3,4,5)0.95jjj 例求例中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计; 的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)( 3.6497,0.0171),的置信度为的置信区间分别为:,131235说明与,与,与的差异都显著。162 双因素试验的方差分

10、析 例 假设某药物研究者为检验a,b两种化学物质的抗癌效果,要做动物试验。通常的作法是:将一些患有某种癌的白鼠随机地分成三组。其中两组分别注射a,b两种化学物质,而第三组不作处理,作为对照。记第一组:注射a物质,第二组:注射b物质,第三组:不做处理。经过一段时间观察后,得到寿命数据。在这个药物试验中,如果白鼠的性别有可能对其寿命有显著的影响。这时应该考虑将“性别”作为一个因素“双因素试验双因素试验”。因素A:药物,三个水平;因素B:性别,二个水平;两个因素共有236种组合。17 (一) 双因素等重复试验的方差分析12,rArA AA因素 有 个水平,12,.sBsB BB因素 有 个水平(,)

11、1, ;1,(2)ijABA Bir jst t现对因素 , 的水平的每对组合都作次试验(称为等重复试验),得到如下结果: 因素B因素A1A2ArA1B2BsB12,.,rsrsrstXXX21222,.,rrr tXXX11121,.,rrr tXXX2 12 22,.,ssstXXX22122222,.,tXXX21121221,.,tXXX1 11 21,.,ssstXXX12112212,.,tXXX11111211,.,tXXX.18111,rsijijrs记总平均11,1,., ,siijjirs11,1,., ,rjijijsr,1,., ,1,., .iiijjjAirBjs水

12、平 的效应,水平 的效应,22,(0,),1,., ,1,., ,1,., .,ijkijijkijkijkijXNir js kt 设各独立,均为未知参数.110,0.rsijij则190112111:0,:,.,rrHH不全为零(),1,., ,1,., .ijijijijir js11,1,., ,1,., .0,0.ijijijijrsijijijABir js记水平 和水平 的交互效应,易证211112,(0,),1,., ,1,., ,1,., .0,00,0.,.ijkijijijkijkijkrsrsijijijijijijijXNir js kt 模型可写成各独立,均未知分别

13、检验假设0212121:0,:,.,ssHH不全为零0311121311:0,:,.,rsrsHH不全为零.201111,rstijkijkXXrst记号:11,1,., ,1,., ,tijijkkXXir jst111,1,., ,stiijkjkXXirst111,1,., .rtjijkikXXjsrt 212111rstTijkijkSXX总偏差平方和(总变差)21rAiiASstXX因素 的效应平方和21sBjjBSrtXX 因素 的效应平方和211,rsA BijijijA BStXXXX 交互效应平方和2111rstEijkijijkSXX误差平方和2201(1)1,1(1)1

14、,1AAEASrHFF rrs tSrs tFFrrs t当成立时,显著性水平 的拒绝域为:222122111221(2),(1)11,11(1)(1)(1)(1)TABA BEriiEAsrsjijjijBA BSSSSSstSSEErs trrrttSSEEssrsrs性质:()02(1)1,1(1)1,1BBEBSsHFF srs tSrs tFFsrs t当成立时,显著性水平 的拒绝域为:2303(1)(1)(1)(1),1(1)(1)(1),1A BA BEA BSrsHFFrsrs tSrs tFFrsrs t当成立时,显著性水平 的拒绝域为:11111111,1,., ,1,.,

15、 ,1,., ,1,., .rsttijkijijkijkkstrtiijkjijkjkikTXTXir jsTXirTXjs 计算:2222111122221111,11,().rstrTijkAiijkisrsBjA BijABjijETABA BTTSXSTrststrstTTSTSTSSrtrsttrstSSSSS 24 1AASSr1BBSSs11A BA BSSrsAAESFSBBESFSABABESFS1EESSrs t双因素试验的方差分析表方差来源平方和自由度均方F比因素A因素B交互作用误差总和TSESA BSBSAS1rst (1)rs t (1)(1)rs1s1r 25例3

16、 为了比较3种松树在4个不同的地区的生长情况有无差别,在每个地区对每种松树随机地选取5株,测量它们的胸径,得到的数据列表如下。 松树数据表松树种类地区1234123, 15, 26,13, 2125, 20, 21, 16, 1821, 17, 16,24, 2714, 17, 19,20, 24228, 22, 25,19, 2630, 26, 26,20, 2819, 24, 19,25, 2917, 21, 18,26, 23318, 10, 12,22, 1315, 21, 22, 14, 1223, 25, 19, 13, 22 18, 12, 23,22, 1926这是一批等重复的

17、两种方式分组数据,记树种因素为A,地区因素为B,则A因素有3个水平,B因素有4个水平,总共有12个水平组合,每个组合(单元)有5个重复观测。 将树的胸径作为度量树的生长情况是否良好的数值指标,我们的目标是:由以上数据来判断不同树种及不同地区对松树的生长情况是否有影响(好或坏)? 这里要考虑的影响有三种:树种的单独影响(A因素主效应),地区的单独影响(B因素主效应),以及不同树种和不同地区的结合所产生的交互影响(AB因素的交互效应)。这是一个典型的等重复双因素方差分析模型。 27输出各单元总和及因素水平总和: 松树数据的总和表单元总和B1B2B3B4水平总和A19810010594397A212

18、0130116105471A3758410294355水平总和2933143232931223211126309rstijkijkX28方差来源平方和自由度均方F比F值=0.05因素A344.93332172.46679.453.19因素B46.0500315.35000.842.80交互作用113.6000618.93331.042.30误差875.60004818.2417总和1380.183359双因素方差分析表29 进一步考查A因素不同水平的均值。注意到A因素的第二水平为最大:23.55,而第三水平的均值为最小:17.65,可以认为树种2的生长情况优于树种3。能够得出这个结论,得益于观

19、测的等重复性。 然后再来看B因素的主效应,即在扣除松树种类的效应后,不同地区对树的胸径的影响。由方差分析表知, B因素的主效应不显著,即不同的地区对树的胸径没有显著影响。最后来看AB因素的交互效应,即在扣除两种效应后,由不同树种和不同地区的结合而产生的对树的胸径的影响,这种影响可以解释为某些地区特别适合(或特别不适合)某个树种的生长。结果也不显著。 首先来看A因素主效应,即在扣除地区效应后, 松树的不同种类对树的胸径的影响。由方差分析表可以看出,A因素主效应是显著的,即松树的不同种类对树的胸径有显著影响。30 (二) 双因素无重复试验的方差分析12,rArA AA因素 有 个水平,12,.sB

20、sB BB因素 有 个水平(,)1, ;1,ijABA Bir js现对因素 , 的水平的每对组合只作一次试验(此时无法分离交互作用与误差),得到如下结果: 因素B因素A1A2ArA1B2BsB11X.rsX2rX1rX2sX22X21X1sX12X31111,rsijijrs记总平均11,1,., ,siijjirs11,1,., ,rjijijsr,1,., ,1,., .iiijjjAirBjs水平 的效应,水平 的效应,22,(0,),1,., ,1,., .,ijijijijijijXNir js 设各独立,均为未知参数.110,0.rsijij则3201121110212121:0

21、,:,.,:0,:,.,rrssHHHH不全为零不全为零.,1,., ,1,., .ijijir js即0,1,., ,1,., .ijir js注意到现在不存在交互作用,故2112,(0,),1,., ,1,., .0,0.,.ijkijijijijrsijijijXNir js 模型可写成各独立,均未知分别检验假设331111111,1,., ,1,., .rssrijiijjijijjiXXXX irXXjsrssr记号:211rsTijijSXX总偏差平方和(总变差)211rsEijijijSXXXX误差平方和21rAiiASsXX因素 的效应平方和21sBjjBSrXX因素 的效应平方和3401(1)1,(1)(1) ,(1)(1)1,(1)(1)AAEASrHFF rrsSrsFFrrs当成立时,显著性水平 的拒绝域为:1TABESSSS性质:()02(1)1,(1)(1)(1)(1)1,(1)(1)BBEBSsHFF srsSrsFFsrs当成立时,显著性水平 的拒绝域为:2221212(2),(1)(1)11,11riiEAsjjBsSSEE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论