版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元回归与多项式回归第1页,共45页,2022年,5月20日,13点33分,星期二第九章
多元回归与多项式回归
学习要求
了解多元回归、偏相关系数、通径分析、多项式回归的概念;理解多元回归、多项式回归关系的显著性检验及准确度测定的意义;掌握正规方程组求解求逆紧凑法的步骤及建立最优回归方程、通径分析方法。重点与难点
重点:涉及本章统计量的含义,建立最优回归方程及通径分析方法难点:求解求逆紧凑法的应用思考题及作业
1、何谓偏回归及偏相关系数、通径系数、及决定系数?
2、求解求逆紧凑法的公式有哪些性质?这些性质有何用处?
3、试述偏相关系数、复相关系数及简单相关系数的区别?
4、习题作业:《标准化综合测试题》第九章1—4题
参考书
1.贵州农学院(主编).2001.《生物统计附试验设计》教材.中国农业出版社.172~197页
2.莫惠栋著.1992.农业试验统计.上海科学技术出版社.467~580页
第2页,共45页,2022年,5月20日,13点33分,星期二第一节
多元回归与多元相关
1、阐述多元回归的概念2、重点介绍正规方程组的解法世界上的事情是复杂的,生物现象尤其这样。在生物现象中,变量与变量的关系往往不是简单的一对一的关系,而是很多变量相互之间都有关联。在极大多数的实际问题中,一个变量不是受一个而是受多个变量的影响。要研究一个依变量与多个自变量间的关系,就需要用多元回归分析和多元相关分析的方法。线性回归是最基本的回归关系。这里介绍的多元回归,也是多元线性回归。多元线性回归与一元线性回归的原理完全相同,只是计算方法比较复杂而已。一、配置多元回归方程的一般方法设y为一依变量,它受xl、x2、x3……xm的m个自变量的影响,我们可以在它们之间配置一个线性回归方程如下:
=b0+b1x1+b2x2+b3x3+……bmxm
(9—1)
其中b0为常数项,(9—2)b1、b2、b3…bm为y对xl、x2、x3…xm的偏回归系数。b1=by1.2,3……m,b2=by2.1,3……m,b3=by3.1,2……m,……,bm=bym.1,2,3……(m-1)。b1=by1.2,3……m表示当x2、x3……xm诸变量都固定时,自变量xl变化一个单位而使依变量y平均改变的值,这就是y对x1的偏回归系数,或称为回归系数。其余各偏回归系数都具有相应的含义。
第3页,共45页,2022年,5月20日,13点33分,星期二
b1、b2、b3…bm还是利用最小二乘法来确定,即选取这样的b1、b2、b3…bm,使离回归平方和(剩余平方和)。
SSE=SS离回归=∑(y-)2=∑[y-(b0+b1x1+b2x2+b3x3+……bmxm)]2(9—3)达到极小值。用求偏微分的方法可得出b1、b2、b3…bm必须满足下列正规方程:上述方程组的系数项,按主对角线上为各变量的离均差平方和,SS1、SS2、SS3……SSm。其余则为各自变量两两相互的离均差乘积和,并依主对角线为轴左右对称相等(SPij=SPji),常数项为各自变量同依变量y的离均差乘积和,SP1y,SP2y,SP3y……SPmy。
解这个正规方程组,即得b1、b2、b3…bm代入公式9—2求得b0,再一起代人公式9—1,就得到多元归归方程。
二、正规方程组的解法
正规方程组的解法,与一般方程组的解法相同,已在一般数学教科书中介绍过,如行列式法、消元法等。本章将重点介绍求解求逆紧凑法。
第4页,共45页,2022年,5月20日,13点33分,星期二1、行列式法常用于解低元的正规方程组。如二元正规方程组:(9—4)(9—5)例1.当需要解三元或三元以上方程组时,则用以下计算方法。目前最为流行的是求解求逆紧凑法。
2.消元法消元法求解的原理是利用乘或除法使方程组中两方程式的同一项具有相同的系数,然后将此两式相加或相减使该项系数为零,从而消去一元。逐次消元,最后得一方程及各元之解(略)。
第5页,共45页,2022年,5月20日,13点33分,星期二以上两种方法都无求逆过程,而逆矩阵元素是偏回归系数显著性检验所不可缺少的。故以上两种方法不常用。例2.这些方程用矩阵的形式表示为:
AB=Y
(9—6)或记为其中:A为系数矩阵;B为所要解的偏回归系数的列向量;Y为正规方程组等号右边的常数项的列向量。如果对方程(9—6)的两边都从左边乘以A的逆矩阵,即A-1,我们可得
A-1AB=A-1Y
(9—7)
3.矩阵法正规方程组的求解可用矩阵法来进行。第6页,共45页,2022年,5月20日,13点33分,星期二∵A-1A=E,EB=B。这里E是单位矩阵,它是一个特别重要的对称矩阵,它的主对角线上元素都等于1,而对角线以外的元素都等于0。单位矩阵的性质相当于一般数学中的1。∴方程(9-7)可变为:
B=A-1Y
(9—8)当我们算出了A的逆矩阵(A-1)代入(9—8),即可得方程b的解。对于例2资料,由于其系数矩阵的逆矩阵为:即:代入方程(9—8)得:
注*逆矩阵一般用C表示(C=A-1),故其元素用cij表示,亦具有对称性,它在统计学中常称之为高斯乘数。由矩阵法求解,常称之高斯解法。第7页,共45页,2022年,5月20日,13点33分,星期二即:b1=0.380×4+(-0.320)×4+(-0.141)×3=-0.181b2=(-0.320)×4+0.480×4+(-0.040)×3=0.519b3=(-0.141)×4+(-0.040)×4+0.423×3=0.541
关于逆矩阵的计算,我们仍可用消元法中的轮消法来求逆矩阵元素。其方法是在系数矩阵后附单位矩阵而不是附常数项的列向量。求得逆矩阵元素(cij)后,即可将其乘常数项的列向量而求解,如前述。由于求解求逆的工作量较大,特别是在具有较多的元时。因此一般用计算机同时进行求解求逆,考虑到节省计算机的内存数,故目多采用的是求解求逆紧凑法。4.求解求逆紧凑法求解求逆紧凑法是在采用矩阵法时却省去了单位矩阵,而将单位矩阵处的计算结果前移到系数矩阵的位置,而不是附在系数矩阵后。即在系数矩阵后仍附常数项的列向量,成为一个增广矩阵后用轮消法消元。最后在系数矩阵处得逆矩阵元素,常数项不变仍为各元之解。第8页,共45页,2022年,5月20日,13点33分,星期二求解求逆紧凑法的应用步骤仍以例2资料为例,说明其紧凑法求解求逆计算(1)列出增广矩阵(2)应用下列公式(紧凑式轮消法)对各元素进行变换式中:
l
—变换的次数,a(l+1)—变换
l
次后的元素,a(l)—变换l
次时的元素,k—每次变换的主行列标号,akk—变换行主单元的元素,i—元素a的行标,j—元素a的列标。9.1式用于变换主行(k)主元素的变换;9.2式用于变换主行除主元素外其它元素的变换;9.3式用于变换主列(k)除主元素外其它元素的变换;9.4式用于除变换主行主列元素外其它各元素的变换。第9页,共45页,2022年,5月20日,13点33分,星期二如:当
l
=0,k=1,i=2、3,j=2、3、4时,应用9—9公式可将A(0)
变换成A(1)→其中各元素的变换是:①按9.1式将A(0)中待变换的主元素10取倒数得:1/10=0.1②按9.2式将A(0)中待变换主行(k=1)除10外,其它元素均被主元素10除得:
7/10=0.7、4/10=0.4、4/10=0.4③按9.3式将A(0)中待变换主列(k=1)除10外,其它元素均被主元素10除后改变符号得:-7/10=-0.7、-4/10=-0.4④按9.4式将A(0)中除主行主列外,其它各元素的变换是:用该元素减去同行同列中位于与主元素(10)相对应的两元素相乘后被主元素(10)除所得的差。如:i=2,j=2、3、4时,元素7、3、4同行中位于与主元素(10)相对应的元素均为7,同列中位于与主元素(10)相对应的元素分别为7、4、4。则:
7-7×7/10=2.13-7×4/10=0.24-7×4/10=1.2类似地,当i=3,j=2、3、4时,A(0)中元素3、4、3可变换成:
3-4×7/10=0.24-4×4/10=2.43-4×4/10=1.4第10页,共45页,2022年,5月20日,13点33分,星期二当l=1,k=2,i=1、3,j=1、3、4时,应用9—9公式可将A(1)
变换成A(2)其中各元素的变换是:①A(1)中待变换的主元素2.1取倒数得:1/2.1=0.476②变换主行(k=2)除2.1外,其它元素均被主元素2.1除得:-0.7/2.1=-0.333、0.2/2.1=0.095、1.2/2.1=0.571③变换主列(k=2)除2.1外,其它元素均被主元素2.1除后改变符号得:-0.7/2.1=-0.333、-0.2/2.1=-0.095→④除主行主列外,其它各元素的变换是:
i=1,j=1、3、4时i=3,j=1、3、4时
0.1-0.7×(-0.7)/2.1=0.333-0.4-0.2×(-0.7)/2.1=-0.3330.4-0.7×0.2/2.1=0.3332.4-0.2×0.2/2.1=2.3810.4-0.7×1.2/2.1=0.3331.4-0.2×1.2/2.1=1.286当l=2,k=3,i=1、2,j=1、2、4时,依9—9公式可将A(2)
变换成A(3)
→经过3次轮消后,系数矩阵元素变换为逆矩阵元素。而常数项值则为各元之解(bi)。
第11页,共45页,2022年,5月20日,13点33分,星期二求解求逆紧凑法公式具有如下4个性质;(1)每作一次变换lk就得一个子方程的解及该子方程组系数矩阵的逆矩阵,如是例2资料的子方程组,它的解是:
b1=0b2=0.519其系数矩阵的逆矩阵为:这可从A(2)中见到。(2)消去变换后的矩阵与消去的次序无关。这点可从例2资料自行验证。(3)对k行作一次消去变换后,再对k行重复作一次消去变换,等于没有对该行作消去变换。(4)当方程组的系数矩阵为对称矩阵时。A(l)具有如下的对称性;当作bi、bj均已作了消去变换,或均未作消去变换时。这可以A(2)中1、2行或A(1)中的2、3行系数矩阵的变换中看到。当对bi、bj中一个且仅一个作过消去变换时,这可以从A(1)的1、2行或A(2)的1、3行中验证。这些性质在方程组的求解求逆计算中或配置可行的多元回归方程中各有用处。
第12页,共45页,2022年,5月20日,13点33分,星期二三、多元回归在科研中的应用实例
应用实例猪的瘦肉量是肉用型猪育种中的重要性状,但这个性状的度量比较麻烦,需要进行整个胴体的剥离和称量。据研究,这个性状与其它一些比较容易度量的性状,如膘厚,胴体长,眼肌面积等之间,存在着一定的相关,但与其中任何一个性状的相关都不太高。因此利用任何一个简单回归间接估计都不可能太准确。为了提高间接估测的准确度,需要配置一个多元回归方程。设y—瘦肉量,xl—眼肌面积,x2—胴体长,x3—膘厚。根据三江猪育种组的实测资料,统计54头杂种猪的有关性状,得如下数据:SSx1=846.2281SSx2=745.6041SSx3=13.8987SSy=70.6617SPx1x2=40.6832SPx1x3=-6.2594SPx2x3=-45.1511SPx1y=114.4530SPx2y=76.2799SPx3y=-11.2966
=25.7002=94.4343=3.4344=14.8722rx1y=0.4680rx2y=0.3323rx3y=-0.3605
为了求各偏回归系数,列出下列正规方程组:用求解求逆紧凑法对正规方程组解得:第13页,共45页,2022年,5月20日,13点33分,星期二计算中,纯小数的小数位一般不能低于6位,这样才能保证最后计算结果正确。即:b1=0.1282b2=0.0617b3=0.5545A(3)中前3行3列为系数矩阵的逆矩阵(A-1),利用系数矩阵的逆矩阵元素(cij),可对偏回归系数作显著性检验。从而可继续作自变量的剔除。此外逆矩阵也是研究逐步回归的基础知识。这样,我们就可得到估测瘦肉量的多元回归方程。=7.6552+0.1282x1+0.0617x2-0.5545x3第14页,共45页,2022年,5月20日,13点33分,星期二四、显著性检验与准确度测定
(一)多元回归关系的显著性检验在实际问题中,事先我们并不能断定变量y与变量xl、x2…,xm之间是否确有线性关系。当求出线性回归方程之后,需要对其进行统计检验,作出肯定或否定的结论。如果依变量y与自变量xl、x2…,xm之间没有线性关系,则公式(9—1)中各项系数b1,b2,…bm应均为零。所以统计检验的假设应为H0:β1=0,β2=0,…,βm=0。可以证明在假设H0成立的条件下,依变量y与自变量xi之间的线性回归关系,可以由方差分析法,即下述的统计量来检验:(9—10)
m—自变量数,n—变量的数据数当实际算得的F≥Fα(df1,df2),即推翻原假设H0,而认为自变量全体与依变量y的线性关系是显著的。这时,m个自变量中至少有一个βi≠0,但并不排斥有若干个βi=0。式中:表9—1(A)多元线性回归关系的方差分析模式表变异来源dfSSMSF回归MMSRMSR/MSE离回归(误差)n-m-1SSE=SSy-SSRMSE
总的n-1SSy
第15页,共45页,2022年,5月20日,13点33分,星期二仍以实例的资料说明具体检验步骤如下:
Q=SSy-SSR=70.6617-25.6433=45.0184dfR=3,dfE=dfT-dfR=(n-1)-m=n-m-1=54-3-1=50表9—1(B)多元回归关系的方差分析变异来源dfSSMSF临界值总的(y变量)回归离回归5335070.661725.643345.0184
8.54780.9004
9.4933**
F0.05(3,50)=2.79F0.01(3,50)=4.20
经F检验,F>F0.01(3,50)=4.20,p<0.01,高度显著,说明根据这一资料得到的多元回归方程是可靠的。
(二)多元回归的准确度测定用多元回归方程从多个自变量来估计一个依变量,其准确度如何,常是实际工作需要考虑的问题。准确度的测定实际是多元相关的分析。依变量y与诸自变量xi之间的相关程度。一般用复相关系数(R)来衡量。所谓复相关系数就是y的实际度量值与估计值间的相关系数:
R=Ry.·123…m=(9—11)它的计算是较麻烦的、但在一元回归中,我们已经知道相关指数及相关系数分别为:第16页,共45页,2022年,5月20日,13点33分,星期二在多元回归中也是一样,相关指数及复相关系数分别为:(9—12),(9—13)仍以实例为例:将这个R值和前面所列各自变量与y的简单相关系数(rxij)比较。
R>|rx1y|>|rx3y|>|rx2y|0.6024>0.4680>|-0.3605|>0.3323
可见用这个多元回归方程来估计y,比用y对这三个自变量中任意一个的筒单回归来估计,其准确度都高。当然这个准确度还是不够理想的,因为还只有36.29%(0.60242=0.3629)。还有必要探索其他有关自变量,以配置更理想的多元回归方程。
(三)复相关系数的显著性检验多元回归的显著性检验,亦可由对复相关系数的显著性检验来确定。因为;
SST=SSr+SS1-rSSyR2SSy(1-R2)SSydfT=dfr+df1-rn-1mn-m-1第17页,共45页,2022年,5月20日,13点33分,星期二根据自由度df1=m和df2=(n-m-1),查临界值F,以确定R是否显著。由于SSr=SSR,SSl-r=SSE,自由度亦相等,因此R的显著性检验与多元回归的显著性检验结论是同步的。
因此(9—14)但同简单相关系数r的显著检验一样,由于R的显著性值可以从(9—15)公式算得,并列之以表,故而R的显著性检验亦可用简便的查表法来进行。如实例的R=0.6024。根据自变量m=3,自由度df=n-m-1=54-3-1=50,查附表—r及R的显著性值,得R>R0.01(3,50)=0.449,即p<0.01,此复相关系数高度显著,从而说明例中的依变量(瘦肉量)与三自变量(眼肌面积、胴体长、膘厚)之间有复相关关系和复回归关系存在。(四)偏回归系数的显著性检验在多元线性回归中,对多元回归关系的显著性检验是看所有自变量对依变量的总影响如何,而不能确定某一自变量对y的单独影响如何。偏回归系数的显著性检验要判定在诸多自变量中,某一自变量对变异y的单独影响作用。其检验的假设是H0:βi=0。偏回归系数显著性检验有t检验法和F检验法。第18页,共45页,2022年,5月20日,13点33分,星期二(1)t检验法(9—16)式中:bi—偏回归系数,Sbi—偏回归系数标准误,Sy·1,2,…m—估计标准误(离回归标准误),Q—离回归平方和,m—自变量数,Cij—高斯乘数,即逆矩阵主对角线元素,n—变量数据数仍以实例为例,由前计算已知
b1=0.1282b2=0.0617b3=0.5545C11=0.001187C22=0.001671C33=0.089707Q=45.0184m=3n=54所以
df=n-m-1=54-3-1=50第19页,共45页,2022年,5月20日,13点33分,星期二(2)F检验F检验需要求出各偏回归均方,然后与离回归均方进行比较,求出各F值:
F=MSbi/MSEdfR'=1dfE=n-m-1i=1,2…m(9—17)在多元线性回归中,回归平方和(U)表示所有自变量对y平方和的总影响,某一自变最的偏回归平方和表示该自变量对y平方和的影响,所以我们可以用取消该自变量后回归平方和的减少数值表示该自变量的偏回归平方和。但要注意,在一般情况下,各偏回归平方和之总和并不等于回归平方和,即∑SSbi≠U。据推导,偏回归平方和;计算t值:各偏回归平方和的自由度(dfR‘)为1,所以偏回归平方和就等于偏回归均方。
(9—18)仍以实例为例说明偏回归系数的F检验,由前计算已知:b1=0.1282b2=0.0617b3=0.5545C11=0.001187C22=0.001671C33=0.089707MSE=0.9004由此可见,b1高度显著,b2不显著,b3达到10%的显著水平。第20页,共45页,2022年,5月20日,13点33分,星期二所以计算F值:F检验与t检验是同步的,因此结论相同,b1高度显著,b2不显著,b3达到10%的显著水平。第21页,共45页,2022年,5月20日,13点33分,星期二*五、在多元回归中剔除作用不大的自变量在多元回归方程中,有的自变量其偏回归平方和很小,将它从回归平方和中减去,对回归平方和值影响不大,因此从多元回归中剔除这个自变量,对复相关系数也影响不大,也就是对回归估计的准确度影响不大。在前,我们已进行了各偏回归系数的显著性检验,三个偏回归系数中有两个不显著,说明这两个自变量在这个多元回归中的作用较小,可以剔除。但要注意只能逐一剔除,不能两个同时剔除,因为剔除了一个自变量后,整个多元回归发生改变,在新的多元回归中,各偏回归系数的显著性也要发生变化。一个自变量在这个多元回归中作用不大。到了另一个多元回归中作用可能加大。因此,我们首先剔除偏回归平方和最小(或F、t值最小)的一个自变量(本例为胴体长x2)。剔除后,由剩余的自变量重建新的多元回归方程,重求新的偏回归系数及逆矩阵元素。其方法有:(1)利用上述介绍的4种方法,对剔除后由剩余自变量组成的多元回归方程重新求解。该法适用于自变量较少的情况。
(2)利用求解求逆紧凑法公式的性质,简化剔除和重建回归方程。
计算方法是将所应剔除的变量行为主行,重新作一次消去变换。之后,将该变量有关的行列划去,即得余下诸自变量所组成子方程组的解和逆矩阵元素。之后,依之重配一个新的多元回归方程,再对新的偏回归系数作显著性检验。若还存在有不显著的偏回归系数,再选偏回归平方和最小的一个自变量作同上的消去变换,方法步骤同上,直至建立起来的多元回归方程的所有自变量的偏回归系数都显著为止。所得回归方程即最优回归方程。
第22页,共45页,2022年,5月20日,13点33分,星期二仍以实例资料为例,因需剔除自变量x2,故在最后逆阵元素及解A(3)
的基础上,以第二行列为主行列,k=2,重复作一次消去变换。(l=4)依公式(9—9)进行消去变换后得:在A(4)中,除去第二行第二列即为自变量x1和x3子方程组的解和逆阵元素。由此可得新的回归系数、逆阵元素及回归方程为:
b1'=0.1297b3'=--0.7544C11'=0.001886C22'=0.0722C12'=C21'=0.000534
=14.1298+0.1297x1-0.7544x3得到的新的多元回归仍需进行显著性检验和准确度测定:
U=0.1297×114.453-(-0.7544)(-11.2966)=23.3667Q=70.6617-23.3667
(从严要求,与F0.01(2,50)=5.06相比,已决定显著性,故可不用内插法求F0.01(2,51)的值)
第23页,共45页,2022年,5月20日,13点33分,星期二
(从严要求,与R0.01(50)=0.410相比)偏回归系数的显著性检验F检验(9—19)(从严要求,与F0.01(1,50)=7.17相比)这里我们可以看到,y对x3的偏回归系数在前一个多元回归中是不显著的,而在后一个多元回归中都高度显著,所以我们在剔除自变量时,不能把偏回归系数不显著的自变量一下都剔除掉,而应该逐一剔除。
式中下标k为被剔除自变量的序号。仍以实例资料为例,应剔除自变量x2,这时k=2,由A(3)可得:(3)在自变量较多的情况下,重新配置一个新的多元回归方程计算很麻烦,可直接应用下列公式,简化剔除过程。第24页,共45页,2022年,5月20日,13点33分,星期二*第二节
通径分析与偏相关系数
可见与前述的计算结果基本相同。
一、标准回归系数(通径系数)要比较各自变量在多元回归中的作用大小,也可比较它们各自的偏回归系数。但是偏回归系数与简单的回归系数一样,是有单位的,不同单位的回归系数不能相互比较。为了便于相互比较,首先必须消除单位,也就是都进行标准化,标准化的回归系数(包括偏回归系数)叫做标准回归系数。所谓标准化就是各变数值除以各自的标准差,所以y对x的标准回归系数:
(9—20)第25页,共45页,2022年,5月20日,13点33分,星期二同样,标准化的偏回归系数也是一样(9—21)仍以实例为例在各偏回归系数未标准化以前,从绝对值来看,b3最大,bl次之,b2最小。但这种大小顺序并不反映它们的相对重要性,只有标准化之后|b1'|最大,|b3'|次之,|b2'|最小,才真正反映了它各自的作用大小。其大小顺序与偏回归平方和的大小顺序完全一致。
第26页,共45页,2022年,5月20日,13点33分,星期二二、通径分析标准回归系数也就是通径系数、通径系数就是表示自变量对依变量直接影响程度的一种统计量。通过通径分析能把自变量与依变量间的相关剖分成该自变量对依变量的直接影响与通过其他相关的自变量对依变量的间接影响。仍以上例说明,我们把上述各变量的关系画成以下通径图:图9—1三个变量xi到y变量的通径图单箭头线即通径,其系数即通径系数:对箭头线即相关线,其系数即相关系数。xi到y的通径系数记作Py,i。
Py,i=bi'根据通径系数原理:第27页,共45页,2022年,5月20日,13点33分,星期二这样riy就剖分成两部分:一是xi对y的直接影响程度Py·i;另一是通过其他变量x2和x3,而对y的间接影响程度r12Py·2+r13Py·3,余类推。在我们这个例子中:
x1与y的相关程度为:r1y=0.4680,而其对y的直接影响:Py·1=0.4436间接影响:r12Py·2+r13Py·3=0.0512×0.2004+(-0.0577)(-0.2459)=0.0244x2与y的相关程度为:r2y=0.3323,而其对y的直接影响:Py·21=0.2004间接影响:r21Py·1+r23Py·3=0.0512×0.4436+(-0.4435)(-0.2459)=0.1318x3与y的相关程度为:而其对y的直接影响:Py·3=0.2459间接影响:r31Py·1+r32Py·2=(-0.0577)×0.4436+(-0.4435)×0.2004=-0.1145第28页,共45页,2022年,5月20日,13点33分,星期二由此可见,x1对y主要是直接关系,r1y与Py·1相差不大;而x2、x3与y相关中却有写成矩阵形式:(9—22)(9—23)这个由简单相关系数组成的矩阵叫做相关矩阵,在逐步回归分析中常用到。由简单相关系数组成的正规方程计算通径系数的具体计算,仍可采用求解求逆紧凑法。对于上例的计算将在偏相关系数求解过程中同时得解。l/3上下是间接影响造成的。根据这个相关剖分的原理,可以得到计算通径系数(即标准回归系数)的另一种方法。当我们只知道各变量间的相关时,我们可以解下列正规方程求通径系数(即标准回归系数):
第29页,共45页,2022年,5月20日,13点33分,星期二三、偏相关系数
在多变量的情况下,变量之间的相关关系是很复杂的,两个变量间的简单相关系数。往往不能正确说明这两个变量间的真正关系,只有在除去其他变量影响的情况下,计算它们之间的相关系数,才能真正表示它们间的相关关系。这样计算出的相关系数叫偏相关系数或净相关系数。例如,有三个变量xl,x2,x3相互相关,在除去x3的影响后x1与x2的相关系数,即x1与x2偏相关系数,记作r12·3。如有四个变量xl,x2,x3,x4,在除去x3、x4的影响xl与x2的相关系数也是xl与x2的偏相关系数,记作r13·34。R12·3叫做一级偏相关,r13·34叫做二级偏相关。也还有三级、四级……偏相关。所以有时简单相关系数也称为0级偏相关。偏相关系数的计算是逐级进行的。一级偏相关系数:(9—24)二级偏相关系数;(9—25)三级在二级、四级在三级……的基础上进行计算。逐级的解法,级愈高,计算愈麻烦。一般的解法可通过由简单相关系数组成的相关矩阵(注意:rii=1,rIJ=rji)R,求其逆矩阵R-1。
第30页,共45页,2022年,5月20日,13点33分,星期二仍以上例为例,计算其二级偏相关系数。在相关模型中,各变量都同等看待,不作自变量与依变量之分。为了方便,将瘦肉量(依变量)改以x4表示。故得简单相关系数为:
r12=0.0512r13=0.0577r14=0.4680r23=-0.4435r24=0.3323r34=-0.3605按公式(9—9)求其逆矩阵:
→然后按下述公式直接求之:(9—26)→第31页,共45页,2022年,5月20日,13点33分,星期二→→→第32页,共45页,2022年,5月20日,13点33分,星期二以上变换中,从R(0)~R(3),实际上就是采用求解求逆紧凑法,对实例资料求通径系数的具体计算过程,R(3)中的第4列即为通径系数的解。其中,Py·1=0.44354,Py·2=0.20049,Py·3=-0.24599,与用(9—21)式计算相同(这里有计算误差)。通径系数的显著性检验与偏回归系数、偏相关系数是同步的。在实例资料中,给合上述,我们需要研究的是瘦肉量(x4)与眼肌面积(x4)、胴体长(x2)、膘厚(x3)的二级偏相关。因此按公式(9—26)求得:偏相关系数的显著性检验用t检验法df=n-m(m为变量数目)
(9—27)上述三个偏相关系数,其自由度为df=54-4=50第33页,共45页,2022年,5月20日,13点33分,星期二
偏相关系数同偏回归系数有密切的联系,不仅符号一致。而且其显著性检验亦是同步的,因为trij·=tbij·(这里有计算误差)所以结论亦是一致的:瘦肉量(x4)与眼肌面积x1的二级偏相关高度显著;与胴体长x2的二级偏相关不显著。与膘厚x3的二级偏相关勉强显著。偏相关系数的显著性检验亦可用查表法进行。偏相关系数与简单相关系数在数值上可以相差很大,有时甚至符号相反。世界上各种事物间的关系很复杂,在研究它们的关系时,不能只孤立地看两者之间的关系,而是要把各种事物间的关系都搞清楚,全面地来看两两间的关系。简单相关系数只表示两者间的表面关系,而只有偏相关系数才表示两者间的本质联系。例如对上例资料的相关分析。单就瘦肉量x4与眼肌面积、胴体长、膘厚的简单相关系数:
r14=0.4680**r24=0.3323*r34=0.3605**
虽然相关不高,但均表明有显著的相关关系存在。然而若作固定二变量的二级偏相关分析,则只能证明瘦肉量x4与眼肌面积x1有显著的相关关系存在,而与第34页,共45页,2022年,5月20日,13点33分,星期二胴体长x2的关系不显著,与膘厚x3的关系则很勉强。因此说明在多个性状值综合估计瘦肉量的值中,胴体长的作用不大。剔除胴体长x2后,x4对于x1、x3作偏相关分析:
1、一级偏相关系数可直接用公式求之df=n-m=54-3=51因t>t0.01(50)=2.678(用查表法:r>r0.01(50)=0.354),即P<0.01,可以看出偏相关系数均高度显著。所以偏相关分析的结果,亦证明用眼肌面积和膘厚两个性状值作多元回归来综合估计瘦肉量是恰当的和可靠的。
2、利用求逆公式的性质,在R(4)中以剔除变量行为主行重复作一次消去变换,从去除该变量有关行及列子矩阵的逆阵元素计算次级偏相关系数(略)。
第35页,共45页,2022年,5月20日,13点33分,星期二第三节
多项式回归
就不能通过变量变换把它化为直线,但如令x1=x,x2=x2,就可把它化成一个二元线性方程;这样就可按多元回归的方法求得各回归系数。一般说来,包含多变量的任意多项式均可照此办理。例如:可以令:x1=x1,x2=x12,x3=x3,x4=x14,x5=x1×x2多项式回归在回归分析中很重要,因为任何函数至少在一个较小的范围内都可用多项式任意逼近,因此在比较复杂的实际问题中,有时可以不问y与诸因素的确切关系如何,而用多项式回归进行分析和计算。
y=a+bx1+cx2y=b0+b1x1+b2x12+b3x3+b4x14+b5x1x2于是上式即化成:
y=bo+blxl+b2x2+b3x3+b4x4+b5x5下面举例说明计算过程。奶牛的产奶量受产犊季节影响甚大,为了制订一个校正系数用以消除产犊季节的影响,需要配置一个回归方程。
变量之间有时并不是直线关系,而是曲线关系。前面已经讲过,有些曲线关系可以通过变量变换的办法,利用一般直线回归的办法来配置回归方程,但并非所有曲线都可按此办理。例如抛物线
y=a+bx+cx2第36页,共45页,2022年,5月20日,13点33分,星期二表9—9重庆市种畜场奶牛群各月份产犊母牛平均产奶量(kg)产犊月份x平均305的天产奶量y产犊月份x平均305的天产奶量y1234563833.433811.583769.473565.743481.993372.827891011123476.763466.223395.423807.083817.033884.52据重庆市动物数量遗传研究小组耿继平等同志对重庆市种畜场奶牛群产奶资料(表9—2)的研究,配置出一个回归方程,其步骤如下:
1.作散点图定函数类型根据表9—2产奶量与产犊月份资料作散点图(图9—2)
从图9—2上可以看到,两者的关系基本是抛物线,于是就决定配置抛物线。其模型是:
y=a+bx+cx2
图9—2产奶量与产犊月份的关系
第37页,共45页,2022年,5月20日,13点33分,星期二令x1=x,x2=x2,并使转换成如下二元线性方程:
y=bo+blxl+b2x22.计算必要数据,列正规方程组(1)一级数据∑x1=78,∑x2=650,∑y=43682.06,
∑x1x2=6087,∑x1y=283973.06,∑x2y=3640.17,(2)二级数据SS1=143,SS2=25501.67,
SSy=421195.39,SP12=1859,SP1y=39.67,SP2y=21584.36。(3)列正规方程组3.计算偏回归系数,常数项及列回归方程
b0=3640.17-(-204.9362)×6.5-15.7857×54.17=4117.144.显著性检验及准确性测定第38页,共45页,2022年,5月20日,13点33分,星期二
U=(-204.9362)×39.67+15.7857×21584.36=332594.4126Q=421195.39-332594.4126=88600.9774变异来源dfSSMSF临界值回归离回归29332594.412688600.9774166297.20639845.553016.8923**
F0.01(2,9)=8.02可见多元回归是非常显著的,准确度也是较高的。
5.偏回归系数的显著性检验两偏回归系数均非常显著。
上述计算证明,所配的二次抛物线是符合产犊月份和产奶量两性状之间的回归关系的。在选择母牛的育种工作中,可以依之制定校正系数,以消除产犊季节对产奶量的影响。依所定方程=4117.4-224.9362x+15.7857x2
描绘的回归曲线如图9—2。
第39页,共45页,2022年,5月20日,13点33分,星期二SAS程序optionsnodatenonumber;dataxu9a;inputx1x2x3y@@;cards;proc
reg
corr;48.4721.800.8570.00title
'1.backwardelimination';40.6614.150.2551.20modely=x1-x3/selection=backwardsls=.05
stb;49.8720.000.8370.00run;33.5318.000.4960.00title
'3.stepwiseregression';40.585.310.3251.20modely=x1-x3/selection=stepwisesls=.05
sle=.05
stb;39.365.310.3554.10run;35.265.310.2552.71title
'9.multivarateregression';24.598.710.4054.14modely=x1-x3/selection=nonestb;19.125.450.2552.72run;15.847.690.2540.3210.873.270.2340.3911.593.270.2841.3610.763.150.2340.0011.893.210.2542.9111.803.210.2542.90;第40页,共45页,2022年,5月20日,13点33分,星期二
1.backwardelimination
CorrelationVariablex1x2x3yx11.00000.75190.70290.8741x20.75191.00000.86290.8609x30.70290.86291.00000.8894y0.87410.86090.88941.0000
DependentVariable:yBackwardElimination:Step0AllVariablesEntered:R-Square=0.9158andC(p)=4.0000AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel31282.10135427.3671239.88<.0001Error11117.8794510.71631CorrectedTotal141399.98080ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept32.696112.058832702.68075252.20<.0001x10.314300.09139126.7535611.830.0055x20.155440.286483.154950.290.5982x323.102238.5204478.782507.350.0202第41页,共45页,2022年,5月20日,13点33分,星期二
BackwardElimination:Step1Variablex2Removed:R-Square=0.9135andC(p)=2.2944
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel21278.94639639.4732063.40<.0001Error12121.0344110.08620CorrectedTotal141399.98080
ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept32.276241.850943066.96363304.08<.0001x10.334350.08109171.4784317.000.0014x326.398905.79523209.2942720.750.0007
Allvariablesleftinthemodelaresignificantatthe0.0500level.SummaryofBackwardEliminationVariableNumberPartialModelStepRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x220.00230.91352.29440.290.5982第42页,共45页,2022年,5月20日,13点33分,星期二
DependentVariable:y
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel31282.10135427.3671239.88<.0001Error11117.8794510.71631CorrectedTotal141399.98080RootMSE3.27358R-Square0.9158DependentMean50.93000AdjR-Sq0.8928CoeffVar6.42760
ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept132.696112.0588315.88<.00010x110.314300.091393.440.00550.46252x210.155440.286480.540.59820.10270x3123.102238.520442.710.02020.47570第43页,共45页,2022年,5月20日,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 唐山市新区2025-2026学年第二学期五年级语文期中考试卷(部编版含答案)
- 平凉地区灵台县2025-2026学年第二学期四年级语文第六单元测试卷(部编版含答案)
- 红河哈尼族彝族自治州开远市2025-2026学年第二学期三年级语文期中考试卷(部编版含答案)
- 张掖地区张掖市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 工程服务方案
- 深度解析(2026)《CBT 4424-2015钢索索节》
- 深度解析(2026)《AQT 1020-2006 煤矿用袋式除尘器》
- 游泳题库及答案
- 市政桥梁工程结构设计考题及答案
- 嵌入式系统开发技术与实践技能题库及答案
- DB29-296-2021 海绵城市雨水控制与利用工程设计规范
- 资源教室工作方案设计
- 工程经济学第2版杜春艳习题答案
- 《走进文言文》八年级1-7单元的翻译
- 2015版ISO90001标准课件教学
- GB/T 12451-2023图书在版编目数据
- 年产万吨电铜电解车间的设计
- 那垌小学内部控制考核评价报告
- 星火英语四级词汇
- 物业品质服务提升计划表最终版
- 人教版(2022)高中语文必修上册同步训练第八单元综合检测word版含答案
评论
0/150
提交评论