概率统计第八章_第1页
概率统计第八章_第2页
概率统计第八章_第3页
概率统计第八章_第4页
概率统计第八章_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章第八章 方差分析与回归分析方差分析与回归分析8 81 1 方差分析方差分析 一、问题的提出一、问题的提出 例例1 在饲料养鸡增肥的研究中,某研究所提出了三种饲在饲料养鸡增肥的研究中,某研究所提出了三种饲料的配方:料的配方: 是鱼粉为主的饲料,是鱼粉为主的饲料, 是一槐树粉为主的饲是一槐树粉为主的饲料,料, 是一苜蓿粉为主的饲料,为比较三种饲料的效果,是一苜蓿粉为主的饲料,为比较三种饲料的效果,特选特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量,实验结果如下:天后观察它们的重量,实验结果如下:1A2A3A表表1 鸡

2、饲料试验数据鸡饲料试验数据1A2A3AA饲料饲料)(g鸡重鸡重1073 1009 1060 1001 1002 1012 1009 10281107 1092 990 1109 1090 1074 1122 10011093 1029 1080 1021 1022 1032 1029 1048 试比较三种饲料对鸡的增肥作用是否相同。试比较三种饲料对鸡的增肥作用是否相同。A321,AAAiAijy3 , 2 , 1 i8 , 2 , 1 j 本例中,我们要比较的是三种饲料对鸡的增肥作用本例中,我们要比较的是三种饲料对鸡的增肥作用是否相同是否相同. .为此,把饲料称为因子,记为为此,把饲料称为因子

3、,记为 ,三种不同的,三种不同的配方称为因子配方称为因子的三个水平,记为的三个水平,记为配方配方下第下第j j只鸡只鸡6060天后的重量用天后的重量用表示,表示,重量是否相等,为此,需要做一些基本假设,把所研究重量是否相等,为此,需要做一些基本假设,把所研究的问题归结为一个统计问题,然后用方差分析的方法进的问题归结为一个统计问题,然后用方差分析的方法进行解决行解决. .,使用,使用. .我们的目的是比较三种饲料配方下的平均我们的目的是比较三种饲料配方下的平均A二、方差分析的基本概念二、方差分析的基本概念1. 什么是方差分析?什么是方差分析? 方差分析是根据试验结果鉴别各有关因素对试验方差分析是

4、根据试验结果鉴别各有关因素对试验的结果影响程度的一种统计方法的结果影响程度的一种统计方法.2. 因子(因素)因子(因素)试验中需要考虑的可控制的条件试验中需要考虑的可控制的条件.3. 水平水平 因子所处的不同的状态因子所处的不同的状态.4. 单因子试验单因子试验 试验中只有一个因子在改变而其他保持不变的试验试验中只有一个因子在改变而其他保持不变的试验.三、单因子方差分析的统计模型三、单因子方差分析的统计模型rAAArA,21个个水水平平有有设设因因子子假设:假设:riNii, 2 , 1),(12 每每一一总总体体均均为为正正态态)(2222212 r各各总总体体方方差差相相同同)(.3相相互

5、互独独立立的的各各总总体体中中取取出出的的样样本本是是)(1. 1. 模型的假设模型的假设2. 2. 统计模型统计模型个个试试验验验验结结果果,个个水水平平下下的的总总体体中中获获得得设设从从第第mi(1)mjrijiyij, 2 , 1, 2 , 1 次次试试验验的的结结果果个个水水平平第第第第)(相相互互独独立立诸诸2), 0(, 1, 1,2 ijijijiijNmjriy rH 210:需需检检验验的的假假设设不不全全相相同同,rH ,:211 (3)四、检验统计量四、检验统计量表表2 单因子方差分析的试验数据单因子方差分析的试验数据因子水平因子水平试验数据试验数据和和平均平均rAAA

6、21rmrrmmyyyyyyyyy212222111211 rTTT21. 2. 1ryyyTy mjijiyT1其中其中mTyii .nTmrTy riiTT1rmn 1.1.平方和分解公式平方和分解公式总总偏偏差差平平方方和和 riijmjTyyS121)(组组间间偏偏差差平平方方和和 riiAyymS12.)(组组内内偏偏差差平平方方和和 riiijmjEyyS12.1)(总总平平方方和和分分解解公公式式 AETSSS1 nfTrnmrfE )1(1 rfTAETfff 2. 2. 检验方法检验方法均均方方和和- /QfQMS 其意义为每个自由度上有多少平方和,它比较好地度其意义为每个自

7、由度上有多少平方和,它比较好地度量了一组数据的离散程度量了一组数据的离散程度.EEAAEAfSfSMSMSF/ 令令入入均均方方和和平平方方和和间间进进行行比比较较,引引为为了了便便于于在在偏偏差差偏偏差差平平方方和和越越大大一一般般说说,数数据据越越多多,其其自自由由度度)有有关关,的的大大小小与与数数据据个个数数(或或偏偏差差平平方方和和. Q222)()(),(/1 rnSErnSeE 从从而而)),1()/() 1/(/4rnrFrnSrSfSfSFEAEEAA )定理定理1 在单因子方差分析模型及前述符号下,有在单因子方差分析模型及前述符号下,有)1(/222 rSA )相相互互独独

8、立立与与)EASS3),1(1rnrFFW 拒拒绝绝域域 3. 3.具体计算格式具体计算格式,21122112ynynTySrimjijrimjijT rimjijyT1121221211ynTmnTTmSriiriiA ATESSS 【注【注】.), 1, 1(值值不不变变后后,算算得得的的统统计计量量经经线线性性变变换换Fbayxmjriyijijij 数数据据在在单单因因子子方方差差分分析析中中,4.4.方差分析表方差分析表表表3 3 单因子方差分析表单因子方差分析表来源来源自由度自由度均方和均方和 F F比比平方和平方和 因子因子 误差误差ASES1 rfArnfE AAAfSMS/

9、EEEfSMS/ EAMSMSF TS1 nfT 总和总和不不显显著著,则则认认为为因因子子如如果果显显著著;,则则认认为为因因子子如如果果ArnrFFArnrFF),1(),1(11 对给定的对给定的,可作如下判断:,可作如下判断:【例【例1】 解:设三种饲料喂养下鸡的重量分别是解:设三种饲料喂养下鸡的重量分别是)3 , 2 , 1( ii ),(2 iiN且且计算过程如下表:计算过程如下表:3210: H需检验需检验表表4 例例1试验数据计算表试验数据计算表水平水平数据(原始数据数据(原始数据-1000)321AAAiT mjijy1293 29 80 21 22 32 29 48 107

10、 92 -10 109 90 74 122 173 9 60 1 2 12 9 28 2iT194 37636 10024 585 242225 60355 354 125316 20984 1133 505177 91363 由公式:由公式: 04.37876241133913632 TS23124 Tf08.966024113385051772 AS213 Af96.2821508.966004.37876 ATESSS21223 Ef将上述结果填入方差分析表将上述结果填入方差分析表表表5 例例1方差分析表方差分析表来源来源 自由度自由度均方和均方和 F比比 平方和平方和 因子因子A 误差

11、误差E 9660.0824830.043.5928215.96 211343.62 总和总和T37876.04 23,47. 3)21, 2(05. 095. 0 F,取取 ,47. 359. 3 F由由于于故拒绝原假设,故拒绝原假设,认为饲料对鸡的增肥是有显著性影响的认为饲料对鸡的增肥是有显著性影响的.五、重复数不等情形五、重复数不等情形个个试试验验结结果果,个个水水平平下下的的总总体体中中获获得得设设从从第第imiiijmjrijiy, 2 , 1, 2 , 1 次次试试验验的的结结果果个个水水平平第第第第)(相相互互独独立立诸诸1 . 5), 0(, 1, 1,2 ijijiijiijN

12、mjriy riimn1rH 210:需需检检验验的的假假设设不不全全相相同同,rH ,:,211表表4 单因子方差分析的试验数据单因子方差分析的试验数据因子水平因子水平试验数据试验数据和和平均平均rAAA21rrmrrmmyyyyyyyyy212222111211 21rTTT21. 2. 1ryyyTy imjijiyT1其中其中iiimTy .nTy riiTT1 riimn121122112211)(ynynTyyySrimjijrimjijrimjijTiii rimjijiyT11nTmTyymyySriiiriiirimjiAi21221.112. )()( ATESSS 1 n

13、fT1 rfArnfE 例例2.某食品公司对一种食品设计了四种新包装某食品公司对一种食品设计了四种新包装.为为考察哪种包装最受顾客欢迎,选了考察哪种包装最受顾客欢迎,选了10个地段繁华程度个地段繁华程度相似、规模相近的商店做试验,其中两种包装各指定相似、规模相近的商店做试验,其中两种包装各指定两个商店销售,另两种包装各指定三个商店销售两个商店销售,另两种包装各指定三个商店销售. 在在试验期间内各店货架排放的位置、空间都相同,营业试验期间内各店货架排放的位置、空间都相同,营业员的销售方法也基本相同,经过一段时间,记录其销员的销售方法也基本相同,经过一段时间,记录其销售数据,列于下表的左半边,其相

14、应的计算结果列于售数据,列于下表的左半边,其相应的计算结果列于右侧:右侧:销售量数据及计算表销售量数据及计算表包装类型包装类型销售量数据销售量数据4321AAAA30 24 12 17 1913 121418125457393014581083507450349812 riiimT180 T)324010180 (22 nTimiT2332iimT /2 iijmjy121476109150946810 n3544由此可求的各类偏差平方和如下由此可求的各类偏差平方和如下和和314,25832403498 AAfS6410,46258304 EEfS9110,30432403544 TTfS方差

15、分析表如下方差分析表如下表表5 例例2方差分析表方差分析表来源来源 自由度自由度均方和均方和 F比比 平方和平方和 因子因子A 误差误差E 25838611.224667.67 总和总和T304 9,78. 9)6 , 3(01. 001. 01 F,取取 ,78. 922.11 F由由于于故拒绝原假设,故拒绝原假设,认为各水平间有显著差异认为各水平间有显著差异. 变量间的两类关系变量间的两类关系1 、确定性关系、确定性关系-函数关系函数关系2 、非确定性关系、非确定性关系-相关关系相关关系)(xfy )(xfy8 82 2 回归分析回归分析 回归分析是定量地描述变量间的相关关系,并根据这回归

16、分析是定量地描述变量间的相关关系,并根据这 些数量关系对现象进行预测和控制的一种统计方法。些数量关系对现象进行预测和控制的一种统计方法。 只有一个自变量的回归分析称为一元回归分析;只有一个自变量的回归分析称为一元回归分析; 多于一个自变量的回归分析称为多元回归分析。多于一个自变量的回归分析称为多元回归分析。 回归分析的含义回归分析的含义 “ 回归回归”(regression)一词的来源一词的来源 “ “回归回归” ” 一词来源于生物学,它是用来描述子代一词来源于生物学,它是用来描述子代身高与父代身高的一种关系。身高与父代身高的一种关系。早在早在1919世纪,英国生物学家世纪,英国生物学家兼统计

17、学家高尔顿(兼统计学家高尔顿(GaitonGaiton)在研究父与子身高的遗传问)在研究父与子身高的遗传问题时,观察了题时,观察了10781078对父与子,用对父与子,用x x表示父亲身高,表示父亲身高,y y表示成表示成年儿子的身高,发现将(年儿子的身高,发现将(x,yx,y)点在直角坐标系中,这)点在直角坐标系中,这10781078个点基本在一条直线周围,并求出了该直线方程(单个点基本在一条直线周围,并求出了该直线方程(单位:英寸,位:英寸,1 1英寸英寸=2.54cm=2.54cm): : xy516. 073.33 父亲身高每增加父亲身高每增加1个单位,其儿子身高平均增加个单位,其儿子

18、身高平均增加0.516个单位。个单位。这表明:这表明:高个子的父辈有生高个子儿子的趋势,但是一群高个高个子的父辈有生高个子儿子的趋势,但是一群高个子父辈的儿子们的平均身高要低于父辈的平均身高。子父辈的儿子们的平均身高要低于父辈的平均身高。譬如譬如, ,低于父辈的平均身高。低于父辈的平均身高。01.75,80 yx69.64,60 yx 低个子的父辈的儿子们虽为低个子,但其平均身高要低个子的父辈的儿子们虽为低个子,但其平均身高要比父辈的平均身高高一些。譬如比父辈的平均身高高一些。譬如, , 高于父辈的平均身高。高于父辈的平均身高。 1 对模型中的参数进行估计对模型中的参数进行估计 (求回归方程)

19、(求回归方程) 2 对模型的可信度进行检验(对模型的可信度进行检验( 显著性、相关性)显著性、相关性) 4 对变量进行预测和控制对变量进行预测和控制 回归分析的内容回归分析的内容(任务)任务) 3 对模型的拟合效果进行考察(残差分析)对模型的拟合效果进行考察(残差分析)一元线性回归一元线性回归多元线性回归多元线性回归回归分析回归分析*模型参数估计模型参数估计*变量的预测与控制变量的预测与控制可线性化的一元非线可线性化的一元非线性回归性回归(曲线回归)曲线回归)*模型参数估计模型参数估计*多元线性回归中的多元线性回归中的变量的预测变量的预测逐步回归分析逐步回归分析*模型的检验模型的检验*模型的检

20、验模型的检验 8 83 3 一元线性回归模型一元线性回归模型 一、一、 一元线性回归模型一元线性回归模型 例例1 某公司的年科研经费与利润的关系如下表某公司的年科研经费与利润的关系如下表 : (单位(单位 :十万元):十万元) 科研经费科研经费 2 3 5 4 5 11 利润利润 20 25 34 30 31 40 试建立科研经费与利润的关系方程。试建立科研经费与利润的关系方程。 (1 1) 作出散点图作出散点图 , , 建立模型建立模型24681210102030400)1(10 xy设设),(20 N 给定观测值:给定观测值:niyxii, 2 , 1),( 相相互互独独立立niiiiNx

21、y ,),0(1210)2(, 2 , 1ni 散点图散点图 (2)式称为一元线性回归模型式称为一元线性回归模型.代入代入(1)式得:式得:)3(10 xy )4()()(),(21011210iniiniiixyyyQ 二、最小二乘估计二、最小二乘估计 ( , )iix yiiy ix 由微积分知识,得方程由微积分知识,得方程 niiiiniiixxyQxyQ1101101100100)(2),(0)(2),( (5)10, ),(10 Q问题是求问题是求使得二元函数使得二元函数达到最小达到最小设设(5)称为正规方程组)称为正规方程组 iiiyxxxnynxnn12010 整理后,得整理后,

22、得 回回归归系系数数 )( )( 12122110niiniiiiiixxyyxxxnxyxnyxxy 的最小二乘解为的最小二乘解为解得解得10, )6()()( ,)(1 ,11212111yyxxLyyLxxLynyxnxiniixyniiyyniixxniinii 若记若记xxxyniiniiiLLxxyyxx 1211)( )( 则则)( 110 xxyxy 程程由由此此得得一一元元线线性性回回归归方方1100101010)( ,)( ., EE即即的无偏估计的无偏估计,是是估计量估计量的性质:的性质: 三、三、 线性回归模型的检验线性回归模型的检验1 平方和分解公式平方和分解公式)7

23、()()()(112212 niniiiiniiyyyyyy1,)(12 nfyySTniiT总总偏偏差差平平方方和和1,)(12 RniiRfyyS回回归归平平方方和和2,)(12 nfyySEniiiE残残差差平平方方和和RETSSS yyniiTLyyS 12)(xyxxniiRLLyyS12112)( RTESSS 定理:定理:)1(/, )1(220 RSH 成成立立下下在在)2(/ )2(22 nSE )8()2,1()2/( )5( nFnSSFER;22,)2( )3(212无无偏偏估估计计是是 nLLnSnSExyyyEE独独立立;与与ySE, S )4(R00:110 vs

24、H假设假设 2. 显著性检验显著性检验00:1110 vsHo假设假设)2, 1()2/(2 nFnSSFERo检验统计量检验统计量);2, 1(, 2, 1,3121 nFFndfdfo 界界值值分分布布表表,得得临临查查对对于于.,401回回归归方方程程显显著著拒拒绝绝若若HFFo 回回归归方方程程不不显显著著接接受受,01HFF iiiiiiioyyxxyyxxr22)()()(2检验统计量检验统计量;得得,查查相相关关系系数数的的临临界界值值表表对对于于)2(, 2,31 nrndfo .,401相相关关关关系系显显著著拒拒绝绝若若Hrro .,01相相关关关关系系不不显显著著接接受受

25、Hrr 3. 相关性检验相关性检验00:10 vsHo假设假设 四、利用回归模型进行预测四、利用回归模型进行预测 1 1 点预测点预测0100 xy 2 2 区间预测区间预测,1202)(110 xxLxxnsty 1202)(110 xxLxxnsty 2 nSsE其中其中,221010suysuy0 xx21u21t当当n n较大,较大,接近接近时,可用时,可用代替代替,得,得 五、具体计算格式五、具体计算格式 1 先计算先计算 niiniiynyxnx111121221)(xnxxxLniiniixx 21221)(ynyyyLniiniiyy yxnyxyyxxLniiiniiixy

26、11)( 2 再计算再计算 xxxyLL 1 xy10 xxRLS21 RyyESLS )2/( nSSFER2 nSsExyxxxyLLLr );2, 1(,1 nFF 分分布布表表,得得临临界界值值查查对对于于.,01回回归归方方程程显显著著拒拒绝绝若若HFF 回回归归方方程程不不显显著著接接受受,01HFF (2 2)要检验的假设是)要检验的假设是(1 1)回归方程)回归方程为:为:0:10 Hxy10 (1) 计算出计算出Y关于关于x 的线性回归方程的线性回归方程; (2) 对其显著性进行检验(对其显著性进行检验( =0.05); (3)预测当年科研经费为)预测当年科研经费为60万元时

27、,年利润将是多少?万元时,年利润将是多少? 例例2 (续例续例1 )某公司的年科研经费与利润的关系如下表)某公司的年科研经费与利润的关系如下表 : (单位(单位 :十万元):十万元) 科研经费科研经费 2 3 5 4 5 11 利润利润 20 25 34 30 31 40 2 3 5 4 5 1120253430314049251625121404517012015544040062511569009611600242630283042 30180200100056421802ixiyixiiyx2iyiy 回归模型计算表回归模型计算表123456序号序号30 ix6 n180 iy5 x30

28、 y2002 ix1000 iiyx56402 iy1502 xn900 yxn45002 yn50 xxL100 xyL242 yyL由上表数据可得:由上表数据可得: , 2/1 xxxyLL 2010 xy (2 2)要检验的假设是)要检验的假设是xy220 (1 1)回归方程)回归方程为:为:0:10 H,20021 xxRLS ,42 RyyeSLS05.19)2/( nSSFER71. 7)4 , 1(05. 005. 01 F,查表得,查表得取取 回归方程显著。回归方程显著。,即认为,即认为,故拒绝,故拒绝因为因为005. 01,71. 7)4 , 1(HFF xy220 (3 3

29、)由)由时时,当当6 x326220 y 补充习题补充习题 从某大学中随机抽取从某大学中随机抽取8名女大学生,其身高和体重的数名女大学生,其身高和体重的数据如下表:据如下表:身高身高/cm 165 165 157 170 175 165 155 170体重体重/kg 48 57 50 54 64 61 43 59 (1)作出散点图)作出散点图 (2) 计算出身高和体重之间的线性回归方程计算出身高和体重之间的线性回归方程(3) 对方程的显著性进行检验(对方程的显著性进行检验( =0.05)(4)预测某女大学生身高为)预测某女大学生身高为172cm时,其体重是多少?时,其体重是多少? 8 83 3

30、 多元线性回归分析多元线性回归分析 一、一、 多元线性回归模型多元线性回归模型)1(), 0(2110 Nxxypp 设设 给定观测值:给定观测值:niyxxxiipii, 2 , 1),(21 ), 0(21110 Nxxyniippii独独立立同同分分布布于于 ni, 2 , 1 (2)P P元线性回归模型元线性回归模型 二、二、 最小二乘估计最小二乘估计的的最最小小二二乘乘估估计计求求p ,.110)3(110ppxxy 设设 ),(min),(1010ppQQ iipippiipipiiipipiiiippiyxxxxxyxxxxxyxxn21101121110110 (5)(正规方程组)(正规方程组))4( )(),(2110110ippiniipxxyQ 2 矩阵表示矩阵表示,11112

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论