第9章方差分析与线性回归_第1页
第9章方差分析与线性回归_第2页
第9章方差分析与线性回归_第3页
第9章方差分析与线性回归_第4页
第9章方差分析与线性回归_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章第九章 回归分析和方差分析回归分析和方差分析关键词:关键词:单因素试验单因素试验 一元线性回归一元线性回归 n方差分析方差分析(Analysis of variance, 简简称称:ANOVA),是由英国统计学家费歇尔是由英国统计学家费歇尔(Fisher)在在20世纪世纪20年代提出的年代提出的,可用于推可用于推断两个或两个以上总体均值是否有差异断两个或两个以上总体均值是否有差异的显著性检验的显著性检验.9.1单因素方差分析单因素方差分析例:为了比较三种不同类型日光灯管的寿命例:为了比较三种不同类型日光灯管的寿命(小时小时), 现将从每种类型日光灯管中抽取现将从每种类型日光灯管中抽取 8

2、个个, 总共总共 24 个日光灯管进行老化试验个日光灯管进行老化试验,根据根据下面经老化试验后测算得出的各个日光灯下面经老化试验后测算得出的各个日光灯管的寿命管的寿命(小时小时),试判断三种不同类型日光试判断三种不同类型日光灯管的寿命是不是有存在差异灯管的寿命是不是有存在差异.日光灯管的寿命日光灯管的寿命(小时小时)类型寿命(小时)类型I5290 6210 5740 5000 5930 6120 6080 5310类型II5840 5500 5980 6250 6470 5990 5470 5840类型.III7130 6660 6340 6470 7580 6560 7290 6730引起日

3、光灯管寿命不同的原因有二个方面引起日光灯管寿命不同的原因有二个方面: n其一其一, 由于日光灯类型不同由于日光灯类型不同,而引起寿命不同而引起寿命不同.n其二其二,同一种类型日光灯管同一种类型日光灯管,由于其它随机因由于其它随机因素的影响素的影响, 也使其寿命不同也使其寿命不同.n在方差分析中在方差分析中, 通常把研究对象的特征值通常把研究对象的特征值, 即所即所考察的试验结果考察的试验结果( 例如日光灯管的寿命例如日光灯管的寿命)称为称为 试验指标试验指标.n对试验指标产生影响的原因称为对试验指标产生影响的原因称为 因素因素, “日光日光灯管类型灯管类型” 即为即为因素因素.n因素中各个不同

4、状态称为因素中各个不同状态称为 水平水平, 如日光灯管三如日光灯管三个不同的类型个不同的类型, 即为三个即为三个水平水平. n单因素方差分析单因素方差分析 仅考虑有一个因素仅考虑有一个因素A对试验指对试验指标的影响标的影响. 假如因素假如因素 A有有r 个水平个水平, 分别在第分别在第 i 水平下进行了水平下进行了 多次独立观测多次独立观测, 所得到的试验指所得到的试验指标的数据标的数据 122221122111212122212:,:,:,sssssnnn sA NANANXXXXXXXXX 2(0,),1,2,1,2,ijjijijijjXNinjs各独立,每个总体相互独立每个总体相互独立

5、. 因此因此, 可写成如可写成如下的下的 数学模型数学模型:n 方差分析的目的就是要比较因素方差分析的目的就是要比较因素A 的的r 个水平下试验指标理论均值的个水平下试验指标理论均值的差异差异, 问题可归结为比较这问题可归结为比较这r个总体个总体的均值差异的均值差异.012112:.:,.,ssHH 不全相等。检验假设检验假设111 ssjjjjjnnnn记总平均, 其中,1,2,.,jjjAjs水平 的效应1 122.0ssnnn此时有21 122(0,),1,2,1,2,.0ijjijijijjssXinjsnnn 模型为:各独立,假设等价于假设等价于012112:0:,ssHH 不全为零

6、。n为给出上面的检验,主要采用的方法是平方和为给出上面的检验,主要采用的方法是平方和分解。即分解。即n假设数据总的差异用总离差平方和假设数据总的差异用总离差平方和 分解为分解为二个部分二个部分: 一部分是由于因素一部分是由于因素 A引起的差异引起的差异, 即即效应平方和效应平方和 另一部分则由随机误差所引起另一部分则由随机误差所引起的差异,的差异, 即误差平方和即误差平方和 。TSASES211jnsTijjiSXX定义:总偏差平方和22211ssAjjjjjjSnXXn XnX效应平方和22211ssAjjjjjjSnXXn XnX效应平方和211jnsEijjjiSXX误差平方和1TAES

7、SS性质:221111jjnnssTijijjjjijiSXXXXXX证明: 221111112jjjnnnsssijjjijjjjijijiXXXXXXXXAESS11110jjnnssijjjjijjjijiXXXXXXXX22121sTjjjE Snn性质 :2211sAjjjE Sns2EE Sns2221111jjnnssTijijjijiE SEXXEXnX证明:2211()()jnsijjiE XnE X1111()()1()jnsijjisjjjE XE Xnnn222211() jnsjjinn2221111jjnnssTijijjijiE SEXXEXnX证明:222111

8、1jjnnssTijijjijiE SEXXEXnX证明:22222112ssjjjjjjnnnnn2211sjjjnn211()jnsEijjjiE SEXX221(1)()sjjnns221()()1sATEjjjE SE SSns223(1)(2)()AEESSSns性质与相互独立;202(3)(1)ASHs当为真时,。0(1)(1,).()AESsHFF snsSns从而,当为真时,223(1)(2)()AEESSSns性质与相互独立;定理9.1.1AS1AASSsAESSESEESSnsTS方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表单因素试验方差

9、分析表,TAESSS计算的简便公式:111,1,2, ,jjnnsjijijijiTXjsTX记22221111jjnnssTijijjijiTSXnXXn222211ssjAjjjjjTTSn XnXnnETASSS 例例1 设有设有5种治疗荨麻疹的药,要比较它种治疗荨麻疹的药,要比较它们的疗效。假设将们的疗效。假设将30个病人分成个病人分成5组,每组,每组组6人,令同组病人使用一种药,并记录人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,病人从使用药物开始到痊愈所需时间,得到下面的记录:得到下面的记录:( =0.05)药物x治愈所需天数y15,8,7,7,10,824,6

10、,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6这里药物是因子,共有这里药物是因子,共有5 5个水平,这是个水平,这是一个单因素方差分析问题,要检验的一个单因素方差分析问题,要检验的假设是假设是“所有药物的效果都没有差所有药物的效果都没有差别别”。 0123451125:,.,HH 解:检验假设不全相等。21234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT21234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijj

11、isnnnnnnTXTTTTT21234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT21234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT0.050(4,25)2.76FH。拒绝,认为疗效有显著差异。方差来源方差来源 平方和平方和 自由度自由度均方均方F比比因素因素A36.46749.117 3.90误差误差58.500252.334总和总和94.96729未知参数的估计未知参数的估计221;(2)(3)(4)Ejjjj

12、jjSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk 当拒绝时,进一步比较和的差异,可以作的区间估计。211(),()jkjkjkjkE XXD XXnn因为2()jkEXXSns且与相互独立。2()()()()() ()(11)(11)jkjkjkjkEjkEjkXXXXSnst nsnnSnn故()1jk得的水平为的置信区间2()(11)jkEjkXXtnsSnn213125321,(1,2,3,4,5)0.95jjj 例求例中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.

13、5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计; 的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)( 3.6497,0.0171),的置信度为的置信区间分别为:,131235说明 与 , 与,与 的差异都显著。以下面的例子来说明用以下面的例子来说明用Excel进行方差进行方差分析的方法分析的方法:n保险公司某一险种在四个不同地区一保险公司某一险种在四个不同地区一年的索赔

14、额情况记录如表所示年的索赔额情况记录如表所示. 试判试判断在四个不同地区索赔额有无显著的断在四个不同地区索赔额有无显著的差异差异?保险索赔记录保险索赔记录地区地区索赔额索赔额(万元万元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.60方差方差来源来源平方和平方和 自由自由度度均方均方F比比P-valueF crit组内组内0.049230.01642.16580.1208 3.0491 组间组间0.1666220.007

15、6总计总计0.215825方差分析表方差分析表n方差分析和其它统计推断一样方差分析和其它统计推断一样, 样本的独立样本的独立性对方差分析是非常重要的性对方差分析是非常重要的, 在实际应用中在实际应用中会经常遇到非随机样本的情况会经常遇到非随机样本的情况,n 这时使用方差分析得出的结论不可靠这时使用方差分析得出的结论不可靠. 因此因此, 在安排试验或采集数据的过程中在安排试验或采集数据的过程中, 一定要注一定要注意样本的独立性问题意样本的独立性问题.n在实际中在实际中, 没有一个总体真正服从正态分布的没有一个总体真正服从正态分布的, 但方差分析却依赖于正态性的假设但方差分析却依赖于正态性的假设.

16、 但经验可但经验可知知, 方差分析方差分析F.n 检验对正态性的假设并不是非常敏感检验对正态性的假设并不是非常敏感, 也就是也就是说说, 实际所得到的数据实际所得到的数据, 如果没有异常值和偏性如果没有异常值和偏性, 或者说或者说, 数据显示的分布比较对称的话数据显示的分布比较对称的话, 即使样即使样本容量比较小本容量比较小(如每个水平下的样本容量仅为如每个水平下的样本容量仅为5左右左右), 方差分析的结果仍是值得依赖的方差分析的结果仍是值得依赖的.n方差齐性对于方差分析是非常重要的方差齐性对于方差分析是非常重要的, 因此因此在方差分析之前往往要进行方差齐性的诊在方差分析之前往往要进行方差齐性

17、的诊断断,即检验假设通常可采用即检验假设通常可采用Barlett检验检验.n方差齐性检验也可采用如下的经验准则方差齐性检验也可采用如下的经验准则:当当最大样本标准差不超过最小样本标准差的最大样本标准差不超过最小样本标准差的两倍时两倍时, 方差分析方差分析F检验结果近似正确检验结果近似正确.3 一元线性回归分析一元线性回归分析一、确定性关系一、确定性关系: 当自变量给定一个值时,就确定应变量的值当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高与之对应。如:在自由落体中,物体下落的高度度h h与下落时间与下落时间t t之间有函数关系:之间有函数关系: 21h =g t

18、2变量与变量之间的关系变量与变量之间的关系 确定性关系相关性关系二、相关性关系: 变量之间的关系并不确定,而是表现为具变量之间的关系并不确定,而是表现为具有随机性的一种有随机性的一种“趋势趋势”。即对自变量。即对自变量x的同的同一值,在不同的观测中,因变量一值,在不同的观测中,因变量Y可以取不同可以取不同的值,而且取值是随机的,但对应的值,而且取值是随机的,但对应x在一定范在一定范围的不同值,对围的不同值,对Y进行观测时,可以观察到进行观测时,可以观察到Y随随x的变化而呈现有一定趋势的变化。的变化而呈现有一定趋势的变化。n如:身高与体重,不存在这样的函数可以如:身高与体重,不存在这样的函数可以

19、由身高计算出体重,但从统计意义上来说,由身高计算出体重,但从统计意义上来说,身高者,体也重。身高者,体也重。n如:父亲的身高与儿子的身高之间也有一如:父亲的身高与儿子的身高之间也有一定联系定联系, 通常父亲高,儿子也高。通常父亲高,儿子也高。我们以一个例子来建立回归模型我们以一个例子来建立回归模型n某户人家打算安装太阳能热水器某户人家打算安装太阳能热水器. 为了为了了解室外温度与燃气消耗的关系了解室外温度与燃气消耗的关系, 记录记录了了16个月燃气的消耗量个月燃气的消耗量, 数据见下表数据见下表. 月份月份平均温度平均温度燃气用量燃气用量 月份月份平均温度平均温度 燃气用量燃气用量Nov.24

20、6.3Jul.01.2Dec.5110.9Aug.11.2Jan.438.9Sep.62.1Feb.337.5Oct.123.1Mar.265.3Nov.306.4Apr.134Dec.327.2May.41.7Jan.5211Jun.01.2Feb.306.9n在回归分析时在回归分析时, 我们称我们称“燃气消耗量燃气消耗量”为响为响应变量记为应变量记为Y,“室外温度室外温度”为解释变量记为为解释变量记为X, 由所得数据计算相关系数得由所得数据计算相关系数得r=0.995,表表明室外温度与燃气消耗之间有非常好的线明室外温度与燃气消耗之间有非常好的线性相关性性相关性.n如果以室外温度作为横轴如果

21、以室外温度作为横轴, 以消耗燃气量作以消耗燃气量作为纵轴为纵轴,得到散点图的形状大致呈线形得到散点图的形状大致呈线形.20.N正态假设:,22( )0,( ), (,YabxEDa b是随机误差,不可控制,基本假设:回归系数)未知.1122,( ,),(,),.,(,)nnxx Yx Yx Y对 的一组不全相同的值 得到样本22,1,2,., ,()0,(), (,iiiiiiYabxinEDa b相互独立,一元线性回归模型:回归系数)未知.20,1,2,., .iNin正态假设:,相互独立,22,1,2,., ,( )0,( ), (,iiiiiiYabxinEDa b相互独立,一元线性回归

22、模型:回归系数)未知.(1) , a b的估计;2(2)的估计;(3) 线性假设的显著性检验;(4)b回归系数 的置信区间;(5)( )xabx回归函数的点估计和置信区间;(6)Y的观察值的点预测和区间预测。一元线性回归要解决的问题:21,niiiQ a byabx12()0,niiiQyabxa 12()0.niiiiQyabx xb 参数估计,min,a ba bQ a bQ a b求估计,使。,min,a ba bQ a bQ a b求估计,使。1x2x3xixnxyabx112111(),()().nniiiinnniiiiiiinax byx axbx y整理得正规方程系数行列式整理

23、得正规方程系数行列式2211,.iixxiiiixyiiyyiiiyy xx SxxnnSxxyySyy记号: ,/.xyxxa bayxb bSS的最小二乘估计:,.xxxyaxbyS bS将正规方程整理得: 在误差为正态分布假定下,最小二乘估在误差为正态分布假定下,最小二乘估计等价于极大似然估计。计等价于极大似然估计。2212211,exp2niiniL a bya bx 21,niiiL a byabx对最大化等价于对最小化,即最小二乘估计。n采用最大似然估计给出参数a ,b的估计与最小二乘法给出的估计完全一致。n采用最大似然估计给出误差 的估计与最小二乘法给出的估计不一致。此时给出的估

24、计不是无偏估计。2niiiyyn1221例例1 K.Pearson收集了大量父亲身高与儿子身收集了大量父亲身高与儿子身高的资料。其中十对如下:高的资料。其中十对如下:父亲身高父亲身高x(吋)(吋)60626465666768707274儿子身高儿子身高y(吋)(吋)63.665.26665.566.967.167.468.370.170求求Y关于关于x的线性回归方程。的线性回归方程。267.01,66.8,44794,44842.4,171.6,79.72.iiiiixxxyyxxx ySS计算得:,35.9768,0.4646a bab的最小二乘估计:35.97680.4646 .67.01

25、0.4646(66.8).yxyx回归方程:或写成:参数性质1,xyxxxxiiibSSSxx Y证明:因为/11( )( )()xxiixxiiiiE bSxx E YSxxabx211xxiixxiiibSxx xbSxxb即为正态随机变量的线性组合,所以服即为正态随机变量的线性组合,所以服从正态分布。从正态分布。证明(证明(1)xxxxniiSSxxbD22212)((2)类似可得。)类似可得。回归方程显著性检验 采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系。因此(x)是否为x的线性函数:一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来

26、判断。01:0,:0,HbHb即要检验假设(1 1)影响)影响Y Y取值的,除了取值的,除了x x,还有其他不可忽略的因素;,还有其他不可忽略的因素;(2 2)E(Y)E(Y)与与x x的关系不是线性关系,而是其他关系;的关系不是线性关系,而是其他关系;(3 3)Y Y与与x x不存在关系。不存在关系。若原假设被拒绝,说明回归效果是显著的,否则,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明若接受原假设,说明Y Y与与x x不是线性关系,回归方程不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:无意义。回归效果不显著的原因可能有以下几种:假设的检验统计量假设的检

27、验统计量与方差分析方法类似,仍采用平方和分解。与方差分析方法类似,仍采用平方和分解。可以证明:可以证明,可以证明,)2(22nSSE由参数估计的性质可知,当由参数估计的性质可知,当b=0时,时, )( 12222xxSbSSR)2, 1 (2/1/22nFsSbnSSExxSSRF01:0,:0,HbHb即要检验假设也可采用t检验例3 检验例1中回归效果是否显著,取=0.05。 20.025282.306.tnt查表得:00.4646171.614.12.306.0.186:0tHb计算得,故拒绝,认为回归效果是显著的。20.4646171.60.186.xxbS由 例 1, 例 2知 :,1

28、86. 02s回归系数 的置信区间)2(ntsSbbxx由于0.950.1860.46462.3060.389, 0.541 .171.6b例如例1中 的置信水平为的置信区间为: dfSSMSFSignificance F 回归回归 1168.581168.5811467.5511.415E-15误差误差 141.6080.115总的总的 15170.189方差分析表方差分析表 Coef. 标准误差 t Stat P value Lower 95% Upper 95%Intercept 1.089 0.139 7.841 1.729E- 06 0.791 1.387X 0.189 0.005

29、38.309 1.415E-15 0.178 0.200n方差分析中方差分析中,给出了假设检验给出了假设检验H0: b=0的的F检验检验. 方方差分析表中各项也前一节方差分析表中的意义类差分析表中各项也前一节方差分析表中的意义类似似. 值得注意的是值得注意的是,方差分析表中方差分析表中MS“ 列中列中, 相应相应于于误差误差”行的值即为模型误码差方差的估计行的值即为模型误码差方差的估计, 即即n =0.115.2s预测预测一般有两种意义. 例例 合金钢的强度合金钢的强度y与钢材中碳的含量与钢材中碳的含量x有密切关系。有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的为了冶炼出符合要求强

30、度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解碳含量来达到目的,为此需要了解y与与x之间的关系。之间的关系。其中其中x:碳含量():碳含量() y:钢的强度(:钢的强度(kg/mm2)数据)数据见下:见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;)画出散点图;(2)设)设(x)=a+bx,(x)=a+bx,求求a,ba,b的估计;的估计;(3 3)求误差方差的估计,画出残差图;)求误差方差的估计,画出残差图;(4 4)检验回归系数)检验回归系数b b是否为零(取是否为零(取=0.05)=0.05);(5 5)求回归系数)求回归系数b b的的9595置信区间;置信区间;(6 6)求在)求在x=0.06x=0.06点,回归函数的点估计和点,回归函数的点估计和9595置信置信区间;区间;(7 7)求在)求在x=0.06x=0.06点,点,Y Y的点预测和的点预测和9595

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论