版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第章多元回归与相关
一元回归是依变量y在一个自变量x上的回归,它仅仅涉及到两个变量的关系问题。但在许多实际问题中,影响依变量的因素常常不止一个。因此,为了研究依变量y与多个自变量x之间的关系,必须在一元回归的基础上做相应的补充,进一步研究多元回归的问题。多元回归与相关分析主要解决的问题:1、建立由多个自变量描述和预测依变量的
多元回归方程。2、在多个自变量中,选择对依变量有显著效应的自变量,剔除不显著的自变量,建立最优回归方程。3、计算某个自变量在其它自变量固定不变时对依变量的效应,这个效应称为偏回归系数。5、计算各个自变量的标准偏回归系数(通经系数),评定各自变量对依变量影响的相对重要程度。4、计算多个自变量综合起来对依变量的多元相关系数,也可计算两变量间在其它变量保持不变时的偏相关系数。§11.1多元回归方程
多元回归是研究一个依变量在两个或两个以上自变量上的回归,也称为复回归。
在多元线性回归分析中,当其他自变量都保持一定数量水平时,各自变量对依变量的效应(影响),称为偏回归系数。
一、多元线性回归方程假定在M个随机变数中,有一个为依变数Y,另外m个(m=M-1)为自变数x1,x2,…,xm,且m个自变数皆与依变数成线性关系,则其回归方程可表示为:因此,y对x1,x2,…,xm的多元回归方程可简写为:二、正规方程组的解及其实例
要使多元回归方程能够最好地代表y与x1、x2、…、xm在数量上的互变关系,根据最小平方法原理,应使
根据求极值的原理,分别对b1,b2,…,bm求偏导,并令之为0,即可整理得m元线性回归方程的正规方程组:=ABKAB=KB=A-1K若要求解B,则需先求出系数矩阵A的逆矩阵A-1,AA-1=IA-1的特征:①Cij=Cji;Cij在统计学上称为高斯乘数。②以Cii为轴的对称阵;逆矩阵A-1必须满足:A-1A=I
A-1
A
IC11C12C13SS1SP12SP13100C21C22C23SP21SS2SP23=010C31C32C33SP31SP32SS3001C11、C12、C13可由下列方程组解出C11SS1+C12SP21+C13SP31=1C11SP12+C12SS2+C13SP23=0C11SP13+C12SP23+C13SS3=0C21、C22、C23
可由下列方程组解出:C21SS1+C22SP21+C23SP31=0C21SP12+C22SS2+C23SP23=1C21SP13+C22SP23+C23SS3=0C31,C32,C33可由下列方程组解出:
C31SS1+C32SP21+C33SP31=0C31SP12+C32SS2+C33SP32=0C31SP13+C32SP23+C33SS3=1求出A-1后,即可由B=A-1K求出B
b1c11c12…c1mSP1y
b2c21c22…c2mSP2y:=::::bmcm1cm2cmmSpmyBA-1K多元线性回归的方差分析表注意:在利用回归方程进行预测时,应限定自变量的范围:x1的区间〔6.对b*1有sb*1=1.937.上述方程组的系数矩阵A、常数项矩阵K、在多元线性回归分析中,当其他自变量都保持一定数量水平时,各自变量对依变量的效应(影响),称为偏回归系数。rii为各变量的自身相关,都等于1。可用t测验或F测验进行。由于服从df=n-m-1的t分布,故在H0:βi=0C21C22C23SP21SS2SP23=010若要求解B,则需先求出系数矩阵A的逆矩阵A-1,54992)(1-0.A-1AI故否定H0:β1=β2=β3=0,◆当各个自变量间存在相关时(rij≠0),by3=(73.12…m≠∑Upi310.89,SP1y=91.b1c11c12…c1mSP1y
根据上述方法求得的b1、b2、…、bm,满足Q最小,因此由这些偏回归系数构成的多元回归方程最能反映变数间的互变关系。
【例11.1】测得小麦每株穗数(x1)、每穗粒数(x2)、千粒重(x3,克)和单株产量(y,克)如下表,试建立其多元回归方程。样本x1x2x3y110.533.236.314.729.230.136.213.5310.732.637.716.5413.931.837.221.5510.232.436.414.5610.833.135.015.978.133.533.47.6810.634.634.516.0910.130.734.112.71010.431.634.912.41110.733.839.219.3128.431.435.19.2136.333.532.06.4148.231.937.210.6159.832.436.511.3
解:根据表中的资料算得14个一级数据:由一级数据算得14个二级数据:于是得正规方程组上述方程组的系数矩阵A、常数项矩阵K、未知数矩阵B分别为:A=K=B=C11c12c13C21c22c23C31c32c33SS1SP12SP13SP12SS2SP23SP13SP23SS3100010001=
0.034847-0.0004579-0.017963-0.00045790.0484720.0031258-0.0179630.00312580.0307266A-1=B=b1b2=b3
0.034847-0.0004579-0.017963-0.00045790.0484720.0031258-0.0179630.00312580.0307266=1.84850.46780.642191.025.7773.52
此方程的意义为:
当穗粒数x2和千粒重x3保持不变时,每株穗数x1每增加1个,则单株产量增加1.8485g;当每株穗数x1和千粒重x3保持不变时,穗粒数x2每增加1粒,单株产量增加0.4678g;当每株穗数x1和穗粒数x2保持不变时,千粒重x3每增加1g,单株产量增加0.6421g。
根据以上回归方程,就可以估计的值。如当第一个样本的观测值x1=10.5,x2=33.2,x3=36.3时,y的估计值为:而y的实际观察值为14.7克,二者的差值即为离回归部分。
离回归的存在,有以下可能原因:1、除x1、x2、x3三个变量外,还有其它变量对y产生作用;2、有随机误差的影响;
注意:在利用回归方程进行预测时,应限定自变量的范围:x1的区间〔6.3,13.9〕,x2的区间〔30.1,34.6〕,x3的区间〔32.0,39.0〕,不可随意外延。如果扩展预测范围,需补充观测资料,重新建立回归方程。C11SP13+C12SP23+C13SS3=09〕,x2的区间〔30.6972)/√(1-0.由例11.89,SP1y=91.05,(m,n-m-1),称该回归不显著。对b*1,b*3进行显著性检验:610.在多个变量错综复杂的关系中,偏相关系数可帮助排除假像相关,找到真实关系最为密切的变量。将有所改变,应对它们重新测验,再弃733.839.当变量个数M≥4时,由相关矩阵的逆矩阵元素计算偏相关系数较为简便,其方法步骤是:若仅有3个变量,可由简单相关系数直接计算。232.by1.rii为各变量的自身相关,都等于1。将计算的各rij代入◆多元线性回归关系的假设测验实质上是测定各个自变量对y的综合作用是否有真实的回归关系。rii为各变量的自身相关,都等于1。
既然应用多元回归方程进行回归估计时,实际值与估计值有偏差,因此,当建立起一个多元线性回归方程之后,应了解它的的估计标准误。三、多元线性回归方程的估计标准误
多元线性回归方程的建立只是保证了离回归平方和最小,但在给定的x1、x2、…、xm下,多元回归方程的点估计值和实测值仍然是有差异的。度量这种差异大小的统计量就是回归方程的估计标准误。其计算公式如下:【例11.2】试计算表11.1资料三元线性回归方程=-42.8610+1.8485x1+0.4678x2+0.6421x3的估计标准误。在例11.1中已算出SSy=239.89,SP1y=91.02,SP2y=5.77,SP3y=73.52由式(11.10)得Uy·123=b1SP1y+b2SP2y+…+bmSPmy
=1.8485×91.02+0.4678×5.77+0.6421×73.52=218.16由式(11.9)得:Qy.123=SSy-Uy.12…m=239.89-218.16=21.73
这个1.4055g就是由表11.1所建立的三元回归方程的估计标准误。再由式(11.8)得:四、多元线性回归的假设测验(一)多元回归关系的假设测验
在多元回归分析中,可将依变量的总变异分解为多元回归和离回归两个部分,各项变异来源的平方和、自由度见下表。多元线性回归的方差分析表变异原因DFSSMSF多元回归mUy·12…mMS回MS回/MS离离回归n-m-1Qy·12…mMS离总和n-1SSy令b1,b2,…,bm所代表的总体回归系数为
β1、β2、…、βm,则有H0:β1=β2=…=βm=0HA:β1、β2、…、βm不全等于零。如果F>F0.05,(m,n-m-1),称该回归在0.05水平上显著;如果F>F0.01,(m,n-m-1),则称该回归在0.01水平上显著;如果F<F0.05,(m,n-m-1),称该回归不显著。
【例11.3】试对例11.1资料做多元回归关系的假设测验。解:由例11.1已算得Uy·123=218.16,Qy·123=21.73,SSy=239.89和n=15。变异原因DFSSMSFF0.01三元回归3218.1672.7236.726.22离回归1121.731.98总和14239.89表11.3表11.1资料三元回归的假设测验F=36.72>F0.01=6.22,为极显著,故否定H0:β1=β2=β3=0,
推断小麦单株产量依每株穗数、穗粒数和千粒重的三元线性回归为极显著。
注意:
1、多元线性回归显著并不排除有多元非线性回归关系的存在;2、多元线性回归显著,并不排除其中存在着与y无线性回归关系的自变量的可能性。
正如方差分析中F测验显著,并不代表所有处理平均数的差异都显著。
rM1rM2…rMM0179630.1、建立由多个自变量描述和预测依变量的42,则Up1+Up2+Up3=115.833.(二)偏回归系数的假设测验4055g就是由表11.6〕,x3的区间〔32.b2c21c22…c2mSP2y注意:在利用回归方程进行预测时,应限定自变量的范围:x1的区间〔6.而表11.634.213.:……:偏回归系数假设测验就是测验各个偏回归系数bi是否来自βi=0的总体。若要求解B,则需先求出系数矩阵A的逆矩阵A-1,b*1为极显著,b*3为显著。4753)/√2.05,(m,n-m-1),称该回归在0.634.
◆
多元线性回归关系的假设测验实质上是测定各个自变量对y的综合作用是否有真实的回归关系。
◆如果某些自变量和y有极显著的回归关系,而另一些自变量和y没有回归关系,在测验综合作用时往往不能予以区分。因此,要评定各个自变量对y是否有真实的回归关系必须对各个偏回归系数做假设测验。(二)偏回归系数的假设测验
偏回归系数假设测验就是测验各个偏回归系数bi是否来自βi=0的总体。H0:βi=0;HA:βi≠0。
可用t测验或F测验进行。1、t测验偏回归系数bi的标准误为
由于服从df=n-m-1的t分布,故在H0:βi=0的假设下,可由测定bi是否抽自βi=0的总体。
【例11.4】试对例11.1资料的b1=1.8485,b2=0.4678,b3=0.6421做t测验。在例11.2已算得sy·123=1.4055,c11=0.034847,c22=0.048472,c33=0.0307266查附表3,得t0.05,11=2.201,t0.01,11=3.106,b1的t=7.04>t0.01,11为极显著;b2的t=1.51<t0.05,11不显著;b3的t=2.61>t0.05,11为显著。即每株穗数(x1)和千粒重(x3)对产量皆有显著的回归关系。对于b2应接受H0,否定HA,即每穗粒数对产量没有真实的回归关系。2、F测验
在多元回归中,Uy·12…m总是随着m的增多而增大,如果取消一个自变量xi,则Uy·12…m-1要比Uy·12…m减少Upi.
Upi就是y在xi上的偏回归平方和,也就是由xi的变异所产生的回归部分平方和,具有1个自由度。因此,由可测定bi是否来自βi=0的总体。【例11.5】试对例11.1资料的b1=1.8485,b2=0.4678,b3=0.6421做F测验。由以上计算结果可算得y对x1的偏回归平方和为Up1=b12/c11=1.84852/0.034847=98.06y对x2的偏回归平方和为Up2=b22/c22=0.46782/0.048472=4.51y对x3的偏回归方和为Up3=b32/c33=0.64212/0.0307266=13.42
表11.4例11.1资料偏回归系数的假设测验
变异来源DFSSMSFF0.05F0.01因x1的偏回归198.0698.0649.53**4.849.65因x2的偏回归14.514.512.28
因x3的偏回归113.4213.426.78*
离回归1121.731.98
89,SP1y=91.上述方程组的系数矩阵A、常数项矩阵K、634.(二)偏回归系数的假设测验6972)/√(1-0.135.0136-2.通常先弃去那个Upi最小而又不显著的自变量,然后再作分析。832.【例11.C31,C32,C33可由下列方程组解出:在M=m+1个变量中,m个变量的综合与1个变量的相关,叫做多元相关或复相关。Uy.8485,b2=0.说明每株穗数(x1)和千粒重(x3)对单株产量的实际增产效应并不高,简单回归系数夸大了该效应.by3=(73.533.810.9162,ry3=0.by1=(91.这里有一个问题值得引起注意:
表11.3中y因x1、x2、x3的三元回归平方和Uy.123=218.16而表11.4中y因x1、x2、x3的偏回归平方和分别为Up1=98.06,Up2=4.51,Up3=13.42,则Up1+Up2+Up3=115.99<Uy.123=218.16多元回归分析可以提供的其它试验信息:
◆在m元线性回归中,若各自变量彼此独立(rij=0),则必有:Uy.12…m=∑Upi
◆当各个自变量间存在相关时(rij≠0),则有:Uy.12…m≠∑UpiUy.12…m>∑Upi(rij>0)Uy.12…m<∑Upi(rij<0)(三)自变数的重要性和取舍
在多元回归中,各个自变量对于y的影响是不同的。凡是偏回归平方和最小的必然是在这些因素中对y作用最小的一个。通常经过偏回归系数的假设测验后,对于那些不显著的自变量可以舍去。1.由于自变量间可能存在着相关,不能一次将所有不显著的自变量全部舍去。2.通常先弃去那个Upi最小而又不显著的自变量,然后再作分析。
4.如此重复进行,直至回归方程中所包含的自变量都达显著时为止。这时的多元回归方程称为最优多元回归方程。3.这时,各自变量对y的偏回归平方和都将有所改变,应对它们重新测验,再弃去那个Upi最小而又不显著的自变量。
【例11.6】试对表11.1资料的自变量进行取舍,建立最优多元线性回归方程。由例11.4偏回归系数的假设测验知,x2的偏回归系数b2不显著,将其从多元回归方程中剔除,作二元回归分析,计算如下:(i≠k)(i,j≠k)b*1=1.8485-(-0.0004579/0.048472)×0.4678=1.8529c*11=0.034847-(-0.0004579)2/0.048472=0.034843b*3=0.6421-(0.0031258/0.048472)×0.4678=0.6119c*33=0.0307266-(0.0031258)2/0.048472=0.030525将b*1,b*3代入式(11.3)得a=13.47-1.8529×9.86-0.6119×35.71=-26.65二元回归方程为=-26.65+1.8529x1+0.6119x3对b*1,b*3进行显著性检验:Uy.13=b*1∑X1Y+b*3∑X3Y=1.8529×91.02+0.6119×73.52=213.64Qy.13=239.89-213.64=26.2512…m的取值区间为[0,1]。833.533.因此所建立的二元回归方程12…m一般总是随m的增多而加大。c22=0.就是变量xi和xj,当它们和其他变量的相关都消去后的线性相关系数。0179630.47.4678,b3=0.8485,b2=0.H0:β1=β2=…=βm=0由例11.3、计算某个自变量在其它自变量固定不变533.=1.两个变量间的简单相关系数不能正确说明这两个变量间的真正关系。AB=KB=A-1KC21、C22、C23可由下列方程组解出:表11.这时因已剔除了一个自变量,故离回归平方和的自由度为n-(m-1)-1=n-m。对b*1有sb*1=1.479×√0.034843=0.2761t=(b*1/sb*1)=1.8529/0.2761=6.71对b*3有sb*3=1.479×√0.030525=0.2584t=b*3/sb*3=0.6119/0.2584=2.37查附表3,t0.05,12=2.179,t0.01,12=3.055,b*1为极显著,b*3为显著。因此所建立的二元回归方程=-26.65+1.8529x1+0.6119x3为最优回归方程。§11.2多元相关和偏相关
在M=m+1个变量中,m个变量的综合与1个变量的相关,叫做多元相关或复相关。而在其余M-2个变量都固定时,指定的两个变量间的相关,叫做偏相关或净相关。1、多元相关系数y依x1,x2,…,xm的多元决定系数或复决定系数R2y·12…m定义为:R2y·12…m=Uy·12…m/SSy
而多元相关系数或复相关系数Ry·12…m则定义为
即多元相关系数为多元回归平方和与总变异平方和之比的平方根。
由于0≤Uy.12…m≤
SSy,故Ry.12…m的取值区间为[0,1]。在自由度一定时,Ry.12…m愈近于1,复相关愈密切;Ry.12…m愈近于0,愈不密切。Uy.12…m一般总是随m的增多而加大。因为多元回归平方和一定大于任一个自变量对y的回归平方和,故多元相关系数一定要比任一xi和y的简单相关系数的绝对值大。2、偏相关系数在M个变量中固定M-2个变量,余下的两个变量的线性相关系数叫做偏相关系数或净相关系数。它表示在其他各个变量都保持一定时,指定的两个变量间相关的密切程度。
变量在实际上都是不固定的,所谓固定是指应用统计方法,消去不固定的影响。因此偏相关系数rij.就是变量xi和xj,当它们和其他变量的相关都消去后的线性相关系数。
两个变量间的简单相关系数不能正确说明这两个变量间的真正关系。在多个变量错综复杂的关系中,偏相关系数可帮助排除假像相关,找到真实关系最为密切的变量。表示x3,x4,…,xm变量都固定时,x1和x2的偏相关系数;表示x2,x3,x5,…,xm变量都固定时,x1和x4的偏相关系数。r12·34…mr14.23…m偏相关系数的取值区间和简单相关系数一样,也是[-1,1],同时rij=rji。若有M个变量则偏相关系数共有M(M-1)/2个。
关于偏相关系数的计算:若仅有3个变量,可由简单相关系数直接计算。设有3个变量xi,xj和xk,则消去xk对xi和xj的影响后,xi和xj的偏相关系数:【例11.8】试计算表11.1资料舍去穗粒数(x2)后,单株产量(y)与每株穗数(x1)和千粒重(x3)的偏相关系数。先计算简单相关系数rij,ry1=91.02/√(41.14×239.89)=0.9162ry3=73.52/√(46.96×239.89)=0.6927r13=24.17/√(41.14×46.96)=0.5499将计算的各rij代入ry1.3=(0.9162-0.5499×0.6972)/√(1-0.54992)(1-0.69272)=0.8886ry3.1=(0.6927-0.5499×0.9162)/√(1-0.54992)(1-0.91622)=0.5643r13.y=(0.5499-0.9166×0.6972)/√(1-0.91162)(1-0.69272)=-0.949
当变量个数M≥4时,由相关矩阵的逆矩阵元素计算偏相关系数较为简便,其方法步骤是:①由简单相关系数组成相关矩阵R;r11r12…r1MR=r21r22…r2M……rM1rM2…rMM②算出相关矩阵的逆矩阵R-1;c11c12…c1MR-1=(cij)=c21c22…c2M:……:cM1cM2…cMM
上述R和R-1都是以主对角线为轴对称的,即rij=rji,cij=cji。rii为各变量的自身相关,都等于1。
③再由计算任何两个变量间的偏相关系数,rij是对称的,如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年特种丝制品项目建议书
- 2025年自动气体灭火系统项目发展计划
- 新进展:脑震荡的护理研究
- 心脏瓣膜疾病的护理伦理与实践
- 急诊急救护理实践指南
- 机器人基础与实践 课件 第9、10章 机器人路径规划、机器人控制基础与实践
- 基础护理感染控制的效果评价
- 温暖守护:护理的温度与责任
- 血液透析患者的血管通路并发症
- 启蒙主义文学课件
- 贵州省生态文明教育读本(高年级) -教案(教学设计)
- 《财务会计-学习指导习题与实训》全书参考答案
- 2021大庆让胡路万达广场商业购物中心开业活动策划方案预算-67P
- 2022年福建翔安区社区专职工作者招聘考试真题
- 2023年考研考博-考博英语-湖南师范大学考试历年真题摘选含答案解析
- 英语电影的艺术与科学智慧树知到答案章节测试2023年中国海洋大学
- 2023-2024学年新疆维吾尔自治区乌鲁木齐市小学数学六年级上册期末模考测试题
- GB/T 15814.1-1995烟花爆竹药剂成分定性测定
- GB/T 11446.7-2013电子级水中痕量阴离子的离子色谱测试方法
- 中国地质大学武汉软件工程专业学位研究生实践手册
- 《民法》全册精讲课件
评论
0/150
提交评论