第十一章 多元线性回归和相关分析 《试验设计与统计分析》PPT课件.ppt_第1页
第十一章 多元线性回归和相关分析 《试验设计与统计分析》PPT课件.ppt_第2页
第十一章 多元线性回归和相关分析 《试验设计与统计分析》PPT课件.ppt_第3页
第十一章 多元线性回归和相关分析 《试验设计与统计分析》PPT课件.ppt_第4页
第十一章 多元线性回归和相关分析 《试验设计与统计分析》PPT课件.ppt_第5页
免费预览已结束,剩余78页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章多元线性回归和相关分析,第一节多元回归分析,依变量依两个或两个以上自变量的回归,称为多元回归或复回归(multipleregression)主要内容:1、确定各个自变量对依变量的综合效应和单独效应,即建立由各自变量描述和预测依变量反应量的多元回归方程;2、对上述综合效应和单独效应的显著性进行测验,建立最优多元回归方程;评价各自变量对依变量的相对重要性。,一、多元回归方程,1、多元回归的线性模型和多元回归方程式一个m元线性回归总体的线性模型为:yj=0+1x1j+2x2j+mxmj+j其中,jN(0,2)一个m元线性回归样本观察值的组成为:yj=b0+b1x1j+b2x2j+bmxmj+ej同理一个m元线性回归方程可给定为:,b0是x1、x2、xm都为0时y的点估计值;b1是by1.23m的简写,它是在x2,x3,xm皆保持一定时(取常量),x1每改变一个单位时对y的效应,称为x2,x3,xm不变时,x1对y的偏回归系数(partialregressioncoefficient)。,2、多元回归统计数的计算,多元线性回归资料的数据结构如下表:,返回结构矩阵,m个自变量与依变量y的回归方程为:根据最小二乘法原理,b0、b1、b2、bm应使全部观察值y与回归估计值的偏差平方和为最小,即使根据微分学中的极值原理,分别对b0、b1、b2、bm偏导,并令其为0,即,该方程组称为正规方程组,可尽一步化为Nb0+b1Sx1+b2Sx2+b3Sx3+bmSxm=Syb0Sx1+b1Sx12+b2Sx1x2+b3Sx1x3+bmSx1xm=Sx1yb0Sx2+b1Sx1x2+b2Sx22+b3Sx2x3+bmSx2xm=Sx2yb0Sxm+b1Sx1xm+b2Sx2xm+b3Sx3xm+bmSxm2=Sxmy,写成矩阵形式:AbB系数矩阵偏回归系数矩阵常数项矩阵,即Ab=B系数矩阵A=XX,n组数据的称为结构矩阵或数据矩阵,数据表,A为系数矩阵XX,B为常数项矩阵XY,这样一来,正规方程组的矩阵形式是(XX)b=XY或Ab=B其中b=(b0,b1,b2,bm)是正规方程组中的未知数。在系数矩阵满秩的条件下(这个条件在一般情况是容易满足的),A的逆阵存在,因而b=A-1B=(XX)-1XYC=A-1=(XX)-1称为相关矩阵,(例11.1)通过12个北方春玉米杂交种的测定数据(见表11.3),研究在相同密度下每穗粒数(X1,粒)、百粒重(X2,g)、株高(X3,cm)与每公顷玉米籽粒产量(Y,kg/hm2)的关系。试建立每穗总粒数、百粒重、株高对每公顷玉米产量的多元线性回归方程;,解:用矩阵法求解多元线性回归方程写出结构矩阵或数据矩阵X及依变量列矩阵Y,利用公式A=XX,B=XY,求得系数矩阵A和常数项矩阵B,求系数矩阵A的逆矩阵C,求解偏回归系数矩阵b=(b0、b1、b2、bm),即b0=2829.29147072,b1=14.94880992,b2=238.15014040,b3=15.29653995,写出线性回归方程式中:自变量X1对应的偏回归系数b1=14.9,表明在百粒重(X2)、株高(X3)保持平均水平(=x2/n=403/12=33.55g;=x3/n=3401/12=283.4cm)时,每穗总粒数(X1)每增加1(粒),将使每公顷玉米籽粒产量(Y)平均增加14.9(kg);,同理,b2=238.2,表明在每穗总粒数(X1)、株高(X3)保持平均水平(=x1/n=6177/12=514.8粒;=283.4cm)时,百粒重(X2)每增加1(g),将使每公顷玉米产量(Y)平均增加238.2(kg);b3=15.3,表明在每穗总粒数(X1)、百粒重(X2)保持平均水平(=514.8粒;=33.55g)时,株高(X3)每增加1(cm),将使每公顷玉米产量(Y)平均减少15.3(kg)。如果此回归关系是真实的(见下文),则该方程可用于描述表11.3的资料。但是,推断的量值处在观察值区间之内,才是可信的。X1的区间是455.0,594.5,X2的区间是24.1,40.3,X3的区间是268,294。,二、多元线性回归的假设检验,1、多元回归方程的假设检验检验m个自变量综合对Y的效应是否显著,即检验各自变量的总体偏回归系数j(j=1,2,)是否同时为零。总变异平方和及自由度分解。自由度dfY=n1,SSY=UY/12m+QY/12mdfY=dfU+dfQ其中,离回归平方和(或剩余平方和)=YYb(XY)自由度dfQ=n(m+1)它与自变量X无关,仅反映除依变量与m个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。,回归平方和=b(XY)(1Y)2/n自由度dfU=m。它是由m个自变量Xj的不同引起的,即是依变量Y受m个自变量综合线性影响所引起的变异,F检验,若FF(m,nm1),那么我们可以在显著水平下,认为多元线性回归方程是成立的,是有显著意义的。反之,FF0.01(3,8)=7.591,说明P(H0)F0.01(1,8)=11.26;说明H0:1=0、2=0应被否定,即每穗总粒数(X1)、百粒重(X2)对每公顷玉米产量(Y)的偏回归都是极显著的。F3=0.85F0.01(2,9)=8.02,表明RY12极显著(实际P0.0002)。,若用查R值法,则由df2=nm1=9与M=m+1=2+1=3,查附表9得R0.01(9,3)=0.800,因为RY12=0.9239R0.01=0.800,故Pr0.01,故P0)或减少(pj1或1。通径系数是有方向的量,箭头表示了作用的方向,如Xj和Y互换,则pjYpYj,pijYpYji。通径系数具有偏回归系数的性质。它是变量标准化后的偏回归系数,能够表示变量间的因果关系,故仍具有偏回归系数的性质。,三、通径系数的性质,通径系数具有相关系数的性质。它是一个不带单位的相对数,因而又具有相关系数的性质,是具有方向性的相关系数,能表示原因与结果(自变量与依变量)之间的关系,它是介于回归系数和相关系数之间的一种统计数,可用于各种性状间的相关分析。通径系数绝对值的大小可以用来衡量自变量Xj对依变量Y直接效应的大小,比较其相对重要性。,自变量Xj对依变量Y的直接和间接通径系数的总和等于二者间的相关系数,即存在(i,j=1,2,m;ij)可见,当各自变量都彼此独立(rij=0)时,通径系数等于相关系数。四、通径系数的计算,将m+1元的正规方程组转换为m元的正规方程组,(118)的m+1元的正规方程组为:,将式移项可得:关于各直接通径系数p1、p2、pm的正规方程组:,矩阵形式为:,R和R-1都是对称的。在R中,rii=1,rij=rji;在R-1中,因此,即直接通径系数为:(j=1,2,m)五、通径系数的假设检验在通径分析系统中,m元回归平方和为:m元离回归平方和为:,而剩余因素(未包含在研究中的一切可能影响Y的因素)的通径系数peY则可定义为:(1157)此peY可简写为pe,亦称多元疏远系数,它独立于任一XjY通径。由上述,可进一步得出XjY的通径系数的标准误:,因此,由或可检验XjY的总体通径系数j=0的假设。,六、通径分析实例,例11.4由表11.3资料(X3不参加分析),计算每穗总粒数X1、百粒重X2对每公顷玉米籽粒产量Y的通径系数;对直接通径系数进行假设检验。解:(1)通径系数的计算在例11.2中,已算得表11.3资料的简单相关系数分别为:r1Y=0.03690710,r2Y=0.68778314,r12=0.63741402。因此,正规方程组的系数矩阵:,直接通径系数:即:p1=0.80058450;p2=1.19808693间接通径系数:p12Y=r12p2=0.637414021.19808693=0.7637p21Y=r12p1=0.637414020.80058450=0.5103,(2)直接通径系数假设检验。提出假设设总体的直接通径系数为j,H0:j=0,对HA:j0显著水平,=0.01计算t值上例已算得二元决定系数为:,通径系数的标准误为:因此,对p1=0.800584504;p2=1.198086928分别有:推断:查附表4,t0.01(9)=3.250,现实得tt0.01(9),所以均否定H0,接受HA。,上述结果表明:每穗总粒数每增加一个标准单位,可直接使产量增加0.8006个标准单位,百粒重每增加一个标准单位则可直接使产量增加1.1981个标准单位,均为极显著,其对产量变异的总决定度为85.36%。这里标准单位的量值,对X1是:对X2是:对Y是:,剩余通径系数pe=0.3827,说明除了X1、X2外,还存在对产量Y起作用的其它因素,但peF0.01,所以否定H0接受HA。结论与t检验完全一致。,注意:t检验的两个t值与二元线性回归方程偏回归系数及偏相关系数检验的t相等;F检验的两个F值也与偏回归系数检验的F值相等。由此可见,通径系数的假设检验与偏回归系数及偏相关系数的假设检验是完全等价的。,七、直接和间接效应分析,图113表11.3资料(删除X3)的通径分析结果,将例11.4通径及相关关系绘成通径图(图113),则更为形象。,也可以将上述通径分析的结果制成通径分析表(117),尤其在自变量较多时,列表表示较为清晰。列表的规则是:凡直接通径系数都在主对角线上;凡通过i的间接通径系数都与iY的直接通径系数在同一列上。便于比较和判断。,由图11.3和表11.7可以看出,每穗总粒数到产量有两条通径,第一条是直接通径X1Y,该条通径上每穗总粒数对产量的直接效应为p1Y=0.8006;第二条是间接通径X1X2Y,每穗总粒数通过与其相关的百粒重对产量的间接效应为p12Y=0.7637;二者之和为每穗总粒数对产量的总效应r1Y=0.8006+(0.7637)=0.0369。同理,由X2到Y也有两条通径,第一条是直接通径X2Y,百粒重对产量的直接效应为p2Y=1.1981,第二条是间接通径X2X1Y,百粒重通过与其相关的每穗总粒数对产量的间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论