概率论课件,高教版,第八章方差分析与回归分析_第1页
概率论课件,高教版,第八章方差分析与回归分析_第2页
概率论课件,高教版,第八章方差分析与回归分析_第3页
概率论课件,高教版,第八章方差分析与回归分析_第4页
概率论课件,高教版,第八章方差分析与回归分析_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概率论课件,高教版,第八章方差分析与回归分析方差分析方差分析Analysis Of Variance一、方差分析的概念与基本思想一、方差分析的概念与基本思想 1.问题的提出 例题8.1 在饲料养鸡增肥研究中,某饲料研究所提出三种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其体重,获得数据如下表饲料A鸡重/gA11073 1009 1060 1001 1002 1012 1009 1028A21107 1092 990 1109 1090 1074 1122 1001A31093

2、1029 1080 1021 1022 1032 1029 1048比较三种饲料的增重效果是否一致,可以转化为利用样本比较三个总体均值是否相等。直观上看该问题可以用两个总体均值差异显著性检验解决,但细想想还是存在一定问题,因为这样的比较能增大犯错误的概率。为解决这类问题,英国统计学家于1924年提出了解决此类问题的通用方法-方差分析法。2.方差分析的概念因素:影响试验指标变化的原因。水平:因素所划分成不同等级,每个等级称为该因素的一个水平。条件变差:能反映控制因素不同水平对试验指标的作用的量,又称为处理效应或组间效应。随机误差:能反映控制因素以外因素对试验指标作用的量。3.方差分析的基本思想

3、试验指标的变化可以用指标值的方差反映,导致指标值发生变化的原因有两方面:一是可控因素,二是不可控因素或未加控制因素。方差分析就是将指标值的方差分解成条件变差与随机误差,然后依据概率原理比较条件变差与随机误差大小关系,决定引起指标值的变化的主要原因。4.方差分析的基本假定不同因素对试验指标值的影响作用是加性效应,即试验指标值的变化是各种因素所起作用的累加;试验指标服从正态分布;试验数据是随机的,并且可控因素不同水平的试验数据方差齐性。二、单因素方差分析二、单因素方差分析 单因素方差分析的数据结构 单因素方差分析的试验数据应具有下列结构模式。因素-水平试验数据和平均1A2ArA11xjx112xm

4、x121x22xjx2mx221x22xjx2mx21T2TrTrx2x1xTx.,j1111rmTxTxTmTxxTiAxriirimjijimjijiij次重复试验结果水平下第第是因素其中 单因素方差分析的统计模型值的影响。为随机因素对试验指标标的作用对试验指个水平的第为因素为总以平均效应,其中且相互独立满足试验数据ijiiijijiijijAiAmjriNxx;, 2 , 1, 2 , 1), 0(2该形式称为单因素方差分析的统计模型。 在方差分析统计模型下,方差分析要解决的问题转化为下列假设检验问题:不全为零rrHH,:; 0:211210对试验指标影响明显。因素,说明;接受对试验指标

5、影响不明显,说明因素接受AHAH10 三、单因素方差分析的原理三、单因素方差分析的原理 试验数据离差平方和分解rimjiijeriirimjiArimjijTxxSSxxmxxSSxxSS11212112112)()()()(组内离差平方和组间离差平方和总离差平方和离差平方和分解式离差平方和分解式0)()()(1111rimjiijirimjiiijeATxxxxxxxxSSSSSS事实上,有的试验指标值的变化。反映没有控制因素引起标值的变化;不同水平引起的试验指反映因素其中eAeArimjiijriirimjiijrimjirimjiijirimjiijrimjirimjijTSSASSSS

6、SSxxxxmxxxxxxxxxxxxxxSS1121211211211112112112)()()()()(2)()()(.;)1(, 1()1(, 1()1(, 1()1(, 1() 1() 1() 1()1() 1(002222220HHmrrFFmrrFFPmrrFmrrFSSrSSmrFSSSSrSSCochranmrSSrmSSHeAeAAeT反之,接受时,拒绝故当,使得,存在对于给定的小概率所以有相互独立与且定理得解式和于是,由离差平方和分为共同均值,于是有成立,则设统计假素方差分析的模型,且如果试验数据满足单因).,(11eAeAeeeAAAeATTeAffFMSMSFfSSM

7、SfSSMSfffrmfrrmfrf显然有叫均方误。,称为组内均方差;又,称为组间均方差;显然有由度;,称为总离差平方和自自由度;,称为组内离差平方和自由度;,称为组间离差平方和引入记号在实际应用中,方差分析结果以方差分析表形式给出。单因素方差分析表方差来源平方和自由度均方F临界值或临界值或Sig组间SSAr-1SSA/(r-1)MSAMSe组内SSer(m-1)SSer(m-1)总和SSTrm-1”表示。用“,就均值差异极显著,或下,平”表示;如果在检验水异显著,用“,就均值差或下,如果在检验水平Sig),(01. 0Sig),(05. 0eAeAffFFffFF例题8.1 在饲料养鸡增肥研

8、究中,某饲料研究所提出三种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其体重,获数据如下表,试以此数据判定不同饲料是否有差异?饲料A鸡重/g-1000A1 73 9 60 1 2 12 9 281943763610024A2107 92 -10 109 90 74 122 158534222560355A3 93 29 80 21 22 32 29 4835412531620984113350517791363iT2iTmjijx12果无差异。三种饲料对鸡的增肥效解:建立统计假设

9、:0H21) 18(32132312496.2821508.966004.3787608.9660241133850517704.378762411339136322eATATeATfffSSSSSSSSSS计算有关量方差分析表方差来源平方和自由度均方F临界值临界值组间9660.0822830.043.59*3.47组内28215.96211343.62总和37876.0423例8.2 以A,B,C,D4种药剂处理水稻种子,其中A为对照,每处理各得4个苗高观察值(cm),试由此试验数据判定药剂处理对水稻苗高声有无影响。药剂药剂苗高观察值苗高观察值总和总和T Ti i平均数平均数 A182120

10、137218B202426229223C101517145614D2827293211629T=336=2160244336322118)()(2222222krxxxxSSijijijT50470564116569272)(222222krxrTSSijiB因此误差平方和可以采用简单的办法计算 SSe=SST-SSB=602-504=98进而可得均方:17. 81298) 1(00.16835041rkSSMSkSSMSeeBB56.2017. 800.168eAMSMSF查附表在或 四、单因素方差分析模型参数的估计四、单因素方差分析模型参数的估计当方差分析结果为否定原假设时,就需要估计模型

11、的有关参数 ,下面就讨论方差分析模型参数的估计。erimjijrimjijmjijirimjijiijiiijijiijSSrmxrmxrmxmxrmAiAmjriNx1) (1111,;, 2 , 1, 2 , 1), 0(2112111122极大似然估计量为:。不难证明这些参数的有参数值的影响。需要估计的为随机因素对试验指标的作用对试验指标个水平的第为因素为总以平均效应,其中且相互独立为单因素方差分析的模型五、多重比较法拒绝H0,接受H1, 表示总体均数不全相等哪两两均数之间相等?哪两两均数之间不等? 需要进一步作多重比较。多重比较。方差分析结果 不拒绝H0,表示拒绝总体均数相等的证据不足

12、, 分析终止。 常用多重比较法east significant difference,简称LSD法mMSSSmrtLSDexxxxjiji2)1(q法(又称SNK (student-Newman-Keuls)检验法) q测验方法是将r个平均数由大到小排列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSR值的。之间的跨度。表示与比较的两个均值其中amMSSSfaqLSReEEe/),(。水平间均值差异不显著时,就认为第当水平间均值差异显著;时,就认为第当表示两个样本均值。如果著差。为两均值比较的最小显以jiLSDxxjiLSDxxjirjixxLSDjijiji,

13、), 2 , 1,(,。水平间均值差异不显著时,就认为第当水平间均值差异显著;时,就认为第当表示两个样本均值。如果著差。为两均值比较的最小显以jiLSRxxjiLSRxxjirjixxLSRjijiji,), 2 , 1,(,Tukey法(又称honestly significant difference,简称,简称HSD )mMSSSmrrqHSDexxxxjiji2)1(,(。水平间均值差异不显著时,就认为第当水平间均值差异显著;时,就认为第当表示两个样本均值。如果著差。为两均值比较的最小显以jiHSDxxjiHSDxxjirjixxHSDjijiji,), 2 , 1,(,Bonferr

14、oni法法Bonferroni法法是根据所比较的两个处理平均数的个数k,将检验水平 缩小k倍祖为真实比较水平 ,确定是几个平均数间的极差分别确定最小显著差数LSD值的。mMSSSmrtLSDexxxxjiji2)1(。水平间均值差异不显著时,就认为第当水平间均值差异显著;时,就认为第当表示两个样本均值。如果著差。为两均值比较的最小显以jiLSDxxjiLSDxxjirjixxLSDjijiji,), 2 , 1,(,多重比较法选择1.试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法LSDa法;2.根据否定一个正确的H0和接受一个不正确的H0的相对重要

15、性来决定。参考以下观点: 根据试验的侧重点选择。三种方法的显著尺度不相同,LSD法最低,HSD法次之,SNK法最高。故对于试验结论事关重大或有严格要求时,用SNK法,一般试验可采用HSD法。当比较次数不多时,Bonferroni法的效果较好;但当比较次数较多(例如在10次以上)时,则由于其检验水准选择得过低,结论偏于保守。 双因素方差分析背景双因素方差分析背景 双因素方差分析的类型双因素方差分析的类型若把品种看成影响产量的因素A,肥料则是影响产量的因素B。对因素A、因素B和二者互作同时进行分析,就属于双因素方差分析。在实际问题的研究中,有时需要考虑两个因素对实验结果的影响。如研究小麦产量问题,

16、除了关心品种对产量的作用之外,我们还想了解化肥的使用对产量的作用,有时甚至要考虑品种与肥料的相互促进作用。如果不同品种、不同施肥量对产量作用存在显著的差异,就需要分析原因。选择合适的品种,决定恰当的施肥量,以达到增产的目的。双因素方差分析双因素方差分析的类型 无交互作用的双无交互作用的双因素方差分析因素方差分析 有交互作用的双有交互作用的双因素方差分析因素方差分析 假定因素A和因素B的效应之间是相互独立的,不存在相互关系 假定因素A和因素B的结合会产生出一种新的效应(交互效应) 交互作用的概念交互作用的概念有人在研究油菜产量受氮肥与磷肥影响问题时,获得如下试验数据。显然512-470-2-10

17、=30既不是单纯氮肥引起的产量变化,也不是单纯磷肥引起的产量变化,这就是交互作用。氮肥 磷肥06047047215480512不考虑交互作用的双因素方差分析不考虑交互作用的双因素方差分析 因素B 数据因素A 双因素不考虑交互作用方差分析的数据结构双因素不考虑交互作用方差分析的数据结构 双因素不考虑互作方差分析试验数据具有下列结构模式。1B2BbB1AaA2AjTjx 1T11x ix iT21x12xbx1 1x axbx2 2T 2x2 T1 T1ax2ax aT x2 x1 x T22xabxbTabxabTxTTxTaTxxTbTxxTjBiAxbjjaiiaibjijjjaiijjii

18、bjijiij 111111如下:验结果,其它记号含义次水平交叉位置的试第水平与因素第是因素其中 双因素不考虑交互作用方差分析的统计模型双因素不考虑交互作用方差分析的统计模型的影响。随机因素对试验指标值为用个水平对试验指标的作的第为因素标的作用个水平对试验指的第为因素为总以平均效应,其中且相互独立满足试验数据ijjiijijjiijijjBiAbjaiNxx;, 2 , 1, 2 , 1), 0(2该形式称为双因素不考虑交互作用方差分析的统计模型。 在方差分析统计模型下,方差分析要解决的问题转化为下列假设检验问题:不全为零不全为零bbaaHHHH,:; 0:,:; 0:212121202111

19、2110指标影响明显对试验,说明因素;接受对试验指标影响不明显,说明因素接受对试验指标影响明显;说明因素,;接受对试验指标影响不明显,说明因素接受BHBHAHAH21201110 双因素不考虑交互作用方差分析原理双因素不考虑交互作用方差分析原理试验数据离差平方和分解 aibjijTxxSS112)(总离差平方和 aibjjiijebjjaibjjBaiiaibjiAxxxxSSxxaxxSSBxxbxxSSA1121211212112)()()()()(组内离差平方和离差平方和因素离差平方和因素的试验指标值的变化。反映没有控制因素引起标值的变化;不同水平引起的试验指反映因素标值的变化;不同水平

20、引起的试验指反映因素其中易证明有eBAeBATSSBSSASSSSSSSSSS)1)(1( , 1(),1)(1( , 1()1)(1( , 1() 1()1)(1( , 1() 1(,)1)(1(,) 1() 1() 1(,2220102222222010babFbaaFbabFSSSSaFbaaFSSSSbFSSSSSSCochranbaSSHHbSSaSSabSSHHeBBeAAeBAeBAT,存在对于给定的相互独立。所以有与定理得解式和于是,由离差平方和分是否成立,总有无论统计假设为共同均值,于是有成立,则且统计假设分析的模型,素不考虑交互作用方差如果试验数据满足双因.;)1)(1(

21、, 1(;)1)(1( , 1()1)(1( , 1()1)(1( , 1(20201010HHbabFFHHbaaFFbabFFPbaaFFPBABA反之,接受时,拒绝故当反之,接受时,拒绝故当使得;又叫均方误。,称为随机误差均方差方差;均称为因素均方差;称为因素显然有和自由度。称为随机误差离差平方度;称为总离差平方和自由离差平方和自由度;称为因素引入记号eeeBBBAAAeBATeTBAfSSMSBfSSMSAfSSMSffffbafabfBAbfaf) 1)(1(1,1, 1),(),(eBeBBeAeAAffFMSMSFffFMSMSF显然有双因素不考虑交互作用方差分析表方差来源方差来

22、源平方和平方和自由度自由度均方均方F临界值临界值或或Sig因素因素ASSAa-1SSA/(r-1)MSAMSeMSBMSe因素因素B SSBb-1SSB/(b-1)误差误差SSe(a-1)(b-1) SSe(a-1)(m-1)总和总和SSTab-1例8.3 对于四种不同种源的油松种子,在三种不同土质的土壤上进行育苗试验,两年后测定苗木高度,所得试验数据如表所示。假定试验数据满足正态、等方差条件试在检验水平0.05下,分析种源、土质对油松苗木高度的影响? 因素B 数据因素A因素BB1B2B3因素AA144534714448.0A237443511638.7A336473311638.7A4454

23、83112441.316219214650040.548.036.541.7 iT ixjTjx影响种源对油松苗高无显著影响;土质对油松苗高无显著解:建立统计假设:2010HH6, 2, 3,113 .877 .2727 .1747 .5347 .2723 .208330 .2110617 .1743 .208330 .2100817 .5343 .208330 .213683, 4),(),(,2122122112 eBATBATebjjBaiiAaibjijTeBeABAffffSSSSSSSSabTTaSSabTTbSSabTxSSbaffFffFFF,由题设知,确定计算 双因素方差分析

24、的模型双因素方差分析的模型., 2 , 1;, 2 , 1;, 2 , 1)(rkbjaiXijkijjiijk。不可测定表示随机效应的交互效应,与表示因素个水平处理效应,的第表示因素应,个水平处理效第表示因素表示总体平均数,式中)()(ijkijjiBAjBiA著影响。即种源对油松苗高有显拒绝显著影响;,即土质对油松苗高无所以,接受:15. 5)6 , 2(,76. 4)6 , 3(4 . 96/3 .873/7 .272/0 . 46/3 .873/7 .174/201005. 005. 0HHFFfSSfSSFfSSfSSFeeBBBeeAAA 数据结构A A因素因素B B因素因素总和总

25、和T Ti.i.平均平均B B1 1B B2 2B Bb bA A1 1x x111111x x121121x x1b11b1T T1.1.x x112112x x122122x x1b21b2x x11r11rx x12r12rx x1br1brT Tij.ij.T T11.11.T T12.12.T T1b.1b.A Aa ay ya11a11x xa21a21x xab1ab1T Ta.a.x xa12a12x xa22a22x xab2ab2x xa1ra1rx xa2ra2rx xabrabrT Tij.ij.T Ta1.a1.T Ta2.a2.T Tab.ab.T T.j.j.T

26、T.1.1.T T.2.2.T T.b.b.T T.平均平均 1x ax ix1xjx2xbx x 离差平方和的分解离差平方和的分解eBABAaibjrkijijkaibjjiijbjjaiiijijkjaibjrkijiijaibjrkijkTSSSSSSSSXXXXXXrXXarXXbrXXXXXXXXXXXXSS 111212121221111112)()()()()()()(eBABATaibjrkijijkeaibjjiijBAbjjBaiiAaibjrkijkTSSSSSSSSSSXXSSXXXXrSSXXarSSXXbrSSXXSS 11121212121112)()()()(离

27、差平方和表达式eeeBABABABBBAAAeBABATeeBABABBAATTfSSMSfSSMSfSSMSfSSMSfffffrabfSSbafSSbfSSafSSabrfSS均方误自由度离差平方和度离差平方和与相应自由) 1() 1)(1(111),(),(),(, 0:;, 0:0:;, 2 , 1, 0:0:;, 2 , 1, 0:030301,2, 1,2, 111,2, 1,2, 10312021101EBAeBABAEBeBBEAeAAaibjijaibjijjjiiffFMSMSFffFMSMSFffFMSMSFHHHHHHbjHHaiH成立,则有如果至少存在一个至少存在一个

28、至少存在一个验双因素方差分析模型检.),(.),(.),(),(),(),(030201HffFFHffFFHffFFffFffFffFEBABAEBBEAAEBAEBEA,否定如果,否定如果,否定如果,查表得对于小概率 XXXXXXXXMSXjiijijjjiie)(,2对应的参数估计为双因素方差分析模型,相关关系与回归关系相关关系相关关系。相关关系又叫相依关系这种关系就称为的概率分布与之对应,有关的变量,总有一个与的一个给定值之对应,同样对于变量的概率分布与有关的变量,总有一个与一个取值的变量严格语言来讲就是给定由一个确定另一个。用既相互依赖,又不能与变量相关关系通俗的说是指XyyYYxx

29、XYX0000如人的血压Y与年龄X之间的关系,一般来说,年龄越大血压越高,但年龄相同的两个人的血压不一定相等。又如某农作物的亩产量Y与施肥量X之间有一定的关系,但施肥量相同,亩产量却不一定相同。这样的例子在实际中举不甚举。相关关系是两个随机变量之间的平行关系,它们要么互为因果,要么具有共同的因。相关关系度量指标相关关系度量指标niiniiniiiXYnnXYyyxxyyxxryxyxyxYXYDXDYXCov121212211)()()(),( ,),(),(),()()(),(的估计量为,不难证明相关系数的简单随机样本为如果抽自总体相关性指标。这里仅介绍常用的线性点。前人是统计学研究的热相关

30、关系的度量指标目关于统计中一个基本问题,相关关系的度量是数理线性相关关系检验相关关系检验)2()2()2()2()2/()1 ()2()2()2/()1 (),(0:; 0:22/2/2/22/2000ntnntrPntnrrPntntnrrHYXHHXYXY使得,可找到于是,对于给定证明成立,可以如果服从正态分布条件下,在,反之接受。,否定满足的实现如果于是有,其值编表于附表。令00022/2/)2()2()2()2()2()2(HnrrrrnrrPntnntnr例8.4 设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系强弱。 X20

31、222426283032343638Y314376436495585615671733755835765. 0)8(996. 0)()()(05. 010121012101ryyxxyyxxriiiiiii解:回归分析的概念回归分析的概念回归关系与回归分析回归关系回归关系在相关关系中,如果关心的是容易测定或控制变量X对变量Y的决定作用大小,将X看成一个普通变量,这时变量X与Y之间就成为回归关系。回归模型回归模型如果普通变量x与随机变量Y具有回归关系,则Y除过受变量x的作用以外,还受到控制不严格和未知因素的作用。所以,x与Y应满足关系式)(xgY。随机误差,一般的干扰作用。称为意外因素对随机变量

32、反映了数,回归函决定作用的大小,称为对随机变量反映了变量的回归模型。其中对普通变量该式称为随机变量2)(, 0)()(DEYxYxxgxY对于回归模型,显然有2)(),()(YDxgxYE的回归方程。对普通变量,称为随机变量令xYxgy)(Yx回归方程反映了因变量回归方程反映了因变量 随自变量随自变量 的变化而变化的变化而变化的平的平均变化情况。均变化情况。xy()fy x1x2x3x()E Y x下图展示:观地用之间的回归关系,可直对普通变量随机变量xY回归模型分类回归模型分类曲线回归模型。则称回归模型为是变量的非线性函数,模型;如果称回归模型为线性回归是变量的线性函数,则如果元回归模型。为

33、维向量,则称回归模型是如果模型为一元回归模型是一个变量,则称回归如果)()(;xgxgppxx回归分析回归分析研究一个随机变量与一个或几个可控变量之间回归关系,从而找出回归关系的模型,用于预测、优化和控制,这种统计方法称为回归分析。回归分析主要解决三个问题:(1)提供建立具有回归关系的变量之间的数学关系式(称为经验公式)的一般方法;(2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著;(3)利用所得到的经验公式进行预测和控制。一元线性回归模型一元线性回归模型 如果试验的散点图中各点呈直线状,则假设这批数如果试验的散点图中各点呈直线状,则假设这批

34、数据的数学模型为据的数学模型为 设随机变量设随机变量Y Y依赖于自变量依赖于自变量x x,作,作n n次独立试验,次独立试验,得得n n对观测值:对观测值:称这称这n n对观测值为容量为对观测值为容量为n n的一个子样,若把这的一个子样,若把这n n对观对观测值在平面直角坐标系中描点,得到试验的散点图测值在平面直角坐标系中描点,得到试验的散点图. .1122( ,) (,)(,)nnx yxyxy01,iiiyxni, 2, 1其中其中 ,且相互独立,且相互独立,2(0,)iNni, 2, 1201,iiyNx则则 图图 8-1xyOi( ,)iix yiiixy10ni, 2, 1其中其中

35、i同服从于正态分布同服从于正态分布 相互独立,相互独立,), 0(2N因此因此 201(,)iiyNxni, 2, 1), 0 () 0(,2110NxY210、x其中其中 是与是与 无关的未知常数。无关的未知常数。 一般地,称如下数学模型为一元线性模型一般地,称如下数学模型为一元线性模型 而而 称为回归函数或回归方程。称为回归函数或回归方程。01Yx称为回归系数。称为回归系数。01、回归函数(方程)的建立回归函数(方程)的建立 由观测值由观测值 确定的回归确定的回归函数函数 ,应使得,应使得 较小。较小。1122( ,) (,)(,)nnx yx yxy01Yx01iiiyx考虑函数考虑函数

36、 201011(,)niiiQyx 问题:确定问题:确定 ,使得,使得 取得极小值。取得极小值。01, 01(,)Q 这是一个二元函数的无条件极值问题。这是一个二元函数的无条件极值问题。回归方程的建立回归方程的建立 201011min(,)niiiQyx 令令 01102( 1)0niiiQyx 01112()0niiiiQyxx 01yx1xyxxLL1111, nniiiixxyynn21()nxxiiLxx1()()nxyiiiLxxyy回归方程的建立回归方程的建立 01yx1xyxxLL记记 表示对表示对 的估计值的估计值01, 01yx则变量则变量 对对 的回归方程为的回归方程为 Y

37、x01yx回归方程有效性的检验回归方程有效性的检验 对于任何一组数据对于任何一组数据 ,都可按最,都可按最小二乘法确定一个线性函数,但变量小二乘法确定一个线性函数,但变量 与与 之间是否真之间是否真有近似于线性函数的相关关系呢?尚需进行假设检验。有近似于线性函数的相关关系呢?尚需进行假设检验。( ,) (1,2, )iix yinxy假设假设 0111: 0, : 0,HHxy如果如果 成立,则不能认为成立,则不能认为 与与 有线性相关关系。有线性相关关系。0H三种检验方法:三种检验方法:F F检验法、检验法、t-t-检验法、检验法、r r检验法。检验法。 21()nyyiiLyy回归方程有效

38、性的回归方程有效性的F检验法检验法 记记 总离差平方和,反映观测值与平均值的偏差程度。总离差平方和,反映观测值与平均值的偏差程度。经恒等变形,将经恒等变形,将 分解分解 yyL112212() () ( ) ninyyiiiiniiiiLyyyyQyUyyy 21211()nxyxxiiLyLUy21011(),niiyyxyiQyyLLQ 回归平方和,反映回归值与平均值的偏差,揭示回归平方和,反映回归值与平均值的偏差,揭示变量变量 与与 的线性关系所引起的数据波动。的线性关系所引起的数据波动。yx剩余平方和,反映观测值与回归值的偏差,揭示剩余平方和,反映观测值与回归值的偏差,揭示试验误差和非

39、线性关系对试验结果所引起的数据波动。试验误差和非线性关系对试验结果所引起的数据波动。如果如果 为真,则为真,则 01: 0H221yyLn 221U222Qn于是,统计量于是,统计量 1,2(2)UFFnQ n对给定的检验水平对给定的检验水平 ,(1 1)当)当 时,拒绝时,拒绝 ,即可认为变量,即可认为变量 与与 有线性相关关系;有线性相关关系;FF0Hxy(2 2)当)当 时,接受时,接受 ,即可认为变量,即可认为变量 与与 没有线性相关关系;没有线性相关关系;FF0Hyx(2 2)当)当 时,接受时,接受 ,即可认为变量,即可认为变量 与与 没有线性相关关系;没有线性相关关系;FF0Hy

40、x此时,可能有以下几种情况:此时,可能有以下几种情况: (2 2) 对对 有显著影响,但这种影响不能用线性关系有显著影响,但这种影响不能用线性关系表示,应作非线性回归;表示,应作非线性回归;yx(3 3)除)除 之外,还有其它变量对之外,还有其它变量对 也有显著影响,从也有显著影响,从而削弱了而削弱了 对对 的影响,应考虑多元回归。的影响,应考虑多元回归。yyxx(1 1) 对对 没有显著影响,应丢弃自变量没有显著影响,应丢弃自变量 ;yxx记记xyxxyyLrL L样本的相关系数样本的相关系数 r 可反映变量可反映变量 与与 之间的线性相关程度。之间的线性相关程度。 xy因为因为 2121x

41、yyyxyyyxyxyxxyyyyyxxyyyLUQLLLLLLLRLLL L21xyyyQLR L 越大,变量越大,变量 与与 之间的线性相关程度越强。之间的线性相关程度越强。 rxy因为因为 21yyQrL2yyUr L(1 1) 1r (2 2) 时,时, 1r 0,yyQLU(3 3) 时,时, 0r 0,yyULQ 与与 有线性相关关系;有线性相关关系; xy 与与 无线性相关关系;无线性相关关系; xy计算计算xyxxyyLrL L对给定的检验水平对给定的检验水平 ,查相关系数的临界值表,查相关系数的临界值表 如果如果 ,则拒绝,则拒绝 ,即线性回归方程,即线性回归方程有效;否则,

42、接受有效;否则,接受 ,即线性回归方程无效。,即线性回归方程无效。(2)rr n0H0HF F检验与检验与r r检验是一致的:检验是一致的: 22(2)(1)(2)yyyyr LUFQ nrLn回归方程有效性的回归方程有效性的t检验法检验法 统计量统计量 11 (2)(2)xxTt nQ nLH H0 0成立时,成立时, 1 (2)(2)xxTt nQ nL对给定的检验水平对给定的检验水平 ,H H0 0的拒绝域为的拒绝域为 2(2)Ttn即当即当 时,变量时,变量 与与 有线性相关关系。有线性相关关系。 2(2)TtnyxF F检验与检验与t t检验是一致的:检验是一致的: 2(2)UFTQ

43、 n编号编号123456789脂肪脂肪含量含量%15.417.518.920.021.022.815.817.819.1蛋白蛋白质含质含量量%44.039.241.838.937.438.144.640.739.8试求出试求出 与与 的关系,并判断是否有效。的关系,并判断是否有效。 xy例例1 1 为了研究大豆脂肪含量为了研究大豆脂肪含量 和蛋白质含量和蛋白质含量 的关系,的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据得到如下数据xy解解 (1 1)描散点图)描散点图 (2 2)建立模型)建立模型 由散点图,设变量由散点图,

44、设变量 与与 为线性相关关系:为线性相关关系: xy01yx确定回归系数确定回归系数 和和 : 01编号编号123456789x15.417.518.920.021.022.815.817.819.1168.3y44.039.241.838.937.438.144.640.739.8364.5x2237.16306.25357.21400441519.84249.64316.84364.813192.75y219361536.641747.241513.211398.761451.611989.161656.491584.0414813.2xy677.6686790.02778785.4868

45、.68704.68724.46760.186775.02168.3364.518.7; 40.599xy6775.029 18.740.541.13xyL 23192.759 18.745.54xxL 214813.2940.550.95yyL 10.9032xyxxLL 057.3891ybx所以,所求的回归方程为所以,所求的回归方程为 0.903257.3891yx (3 3)检验回归方程的有效性)检验回归方程的有效性 0.8539xyxxyyLrL L 0.01(7)0.7977r2927dfn查相关系数临界值表查相关系数临界值表 因为因为 0.01(7)rr所以回归方程在所以回归方程在 的检验水平下有统计意义。的检验水平下有统计意义。0.01即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。利用回归方程进行预测利用回归方程进行预测1 1、点预测、点预测 0 xx时,时, 即为即为 的点预测值。的点预测值。 010 yxy2 2、区间预测、区间预测 统计量统计量 0020 (2)11(2)xxyyTt nxxQnnL对给定的置信水平对给定的置信水平 , 的预测区间为的预测区间为 10y22001(2)1(2)xxxxQtn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论