多元线性回归与多项式回归.doc_第1页
多元线性回归与多项式回归.doc_第2页
多元线性回归与多项式回归.doc_第3页
多元线性回归与多项式回归.doc_第4页
多元线性回归与多项式回归.doc_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章 多元线性回归与多项式回归直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multiple regression analysis),而其中最为简单、常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进行计算。aaa第一节 多元线性回归分析多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。一、 多元线性回归方程的建立 (一)多元线性回归的数学模型 设依变量与自变量、共有n组实际观测数据: 变量序号12 假定依变量y与自变量x1、x2、xm间存在线性关系,其数学模型为: (9-1)(j=1,2,n)式中,x1、x2、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随x1、x2、xm而变,受试验误差影响;为相互独立且都服从的随机变量。我们可以根据实际观测值对以及方差作出估计。(二)建立线性回归方程 设对、的元线性回归方程为:其中的、为的最小二乘估计值。即、应使实际观测值y与回归估计值的偏差平方和最小。令 为关于、的+1元函数。根据微分学中多元函数求极值的方法,若使达到最小,则应有:(=1、2、)经整理得: (9-2)由方程组(9-2)中的第一个方程可得 (9-3)即 若记 (、;k)并将分别代入方程组(9-2)中的后个方程,经整理可得到关于偏回归系数、的正规方程组(normal equations)为: (9-4)解正规方程组(9-4)即可得偏回归系数、的解,而于是得到元线性回归方程元线性回归方程的图形为维空间的一个平面,称为回归平面;称为回归常数项,当=0时,在b0有实际意义时,表示的起始值;(=、2、)称为依变量对自变量的偏回归系数(partial regression coefficient),表示除自变量以外的其余个自变量都固定不变时,自变量每变化一个单位,依变量平均变化的单位数值,确切地说,当0时,自变量每增加一个单位,依变量平均增加个单位;当F0.01(3,50), P、 F0.01(1,50), F0.05(1,50),F0.01(2,51), PR0.01(50,4),P5,则采用F检验或根据多元线性回归关系显著性检验的结果来推断复相关系数的显著性。*第三节 偏相关分析多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他变量的影响。因此简单相关分析即直线相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度。偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法。一、偏相关系数的意义与计算(一)偏相关系数的意义 在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(partial correlation)。用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数(partial correlation coefficient)。根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数。当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、 r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。一般,当研究m个相关变量x1、x2、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,m,ij)。偏相关系数的取值范围为-1,1,即:-1rij.1。(二)偏相关系数的计算1、一级偏相关系数的计算 设三个相关变量共有n组实测数据:序号12n 一级偏相关系数可由零级偏相关系数即直线相关系数计算,计算公式为: (9-28) 2、二级偏相关系数的计算 设四个相关变量共有n组实测数据:序号12n 二级偏相关系数可由一级偏相关系数计算,计算公式为: (9-29) 3、m-2级偏相关系数的计算 设m个相关变量共有n组观测数据:序号12n m-2级偏相关系数的计算方法如下:首先计算简单相关系数即直线相关系数:,( (9-30)其中: , ,并由简单相关系数rij组成相关系数矩阵: (9-31)然后求相关系数矩阵的逆矩阵 (9-32)则相关变量的-2级偏相关系数的计算公式为: (9-33)二、偏相关系数的显著性检验(一)t检验法 设相关变量的总体偏相关系数为, 则对偏相关系数进行显著性检验的无效假设与备择假设为: ,检验公式为: (9-34)(9-34)式中,为偏相关系数标准误,;n为观测数据组数,m为相关变量总个数。注意,m个相关变量的偏相关分析中的m指相关变量的总个数;m元线性回归分析中的m指自变量的个数;这两种分析方法中的m所表达的意义是不同的。(二)查表法 由及变量个数2查附表8r和R显著数值表得r0.05(n-m,2),r0.01(n-m,2)。将偏相关系数的绝对值 r0.05(n-m,2)、r0.01(n-m,2)进行比较,即可作出统计推断。【例9.2】 对【例9.1】资料进行偏相关分析。注意,此时相关变量总个数m=4。首先由【例9.1】的计算变量间的简单相关系数: 相关系数矩阵R为: 然后求得相关系数矩阵的逆矩阵C为: 因为我们需要研究的是瘦肉量(y)与眼肌面积(x1)、胴体长(x2)、膘厚(x3)的二级偏相关系数,由(9-33)式可以算得:现在对上述三个二级偏相关系数进行t检验:由查值表得t0.05(50)=2.008、t0.01(50)=2.678,因为,,所以为极显著;而因此,都是不显著的。如用查表法对上述三个二级偏相关系数进行显著性检验,则由以及变量个数为2查附表8显著数值表得,而为极显著,都是不显著的,这与t检验结论一致。显著性检验结果表明,瘦肉量(y)与眼肌面积(x1)呈极显著的正的偏相关,而瘦肉量(y)与胴体长(x2)、膘厚(x3)的偏相关均为不显著。从以上分析中,我们看到简单相关系数,在数值上分别与相应的二级偏相关系是有差别的。经显著性检验,都是极显著的,是显著的,而这与对应的二级偏相关系数的显著性也是不完全一致的。造成偏相关系数与简单相关系数在数值上相差的原因就在于各自变量间的相关性。在多变量资料中,偏相关系数与简单相关系数在数值上可以相差很大,甚至有时连符号都可能相反。只有偏相关分析才能正确地表示两个变量间的线性相关的性质和程度,才真实反映了两变量间的本质联系。而简单相关分析则可能由于其他变量的影响,反映的两个变量间的关系只是非本质的表面联系,所以是不可靠的。因此,对多变量资料进行相关分析时,应进行偏相关分析。*第四节 多项式回归一、 多项式回归概念研究一个依变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomial regression)。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。一元m次多项式回归方程为: (9-35)二元二次多项式回归方程为: (9-36)在一元回归分析中,如果依变量与自变量的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中占有重要的地位,因为任一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不论依变量与其他自变量的关系如何,我们总可以用多项式回归来进行分析。二、 多项式回归分析的一般方法多项式回归问题可以通过变量转换化为多元线性回归问题来解决。对于一元m次多项式回归方程(9-35),令、=、=,则(9-35)就转化为m 元线性回归方程因此用本章第一节的方法就可解决多项式回归问题。需要指出的是,在多项式回归分析中,检验回归系数bi是否显著,实质上就是判断自变量x的i次方项xi对依变量y的影响是否显著。对于二元二次多项式回归方程(9-36),令,则(9-36)就转化为五元线性回归方程但随着自变量个数的增加,多元多项式回归分析的计算量急剧增加。多元多项式回归属于多元非线性回归问题,在这里不作介绍。在多项式回归中较为常用的是一元二次多项式回归和一元三次多项式回归,下面结合一实例对一元二次多项式回归作详细介绍。三、 一元二次多项式回归分析【例9.3】 给动物口服某种药物A 1000mg,每间隔1小时测定血药浓度(g/ml),得到表9-5的数据(血药浓度为5头供试动物的平均值)。试建立血药浓度(依变量y)对服药时间(自变量x)的回归方程。表9-5 血药浓度与服药时间测定结果表服药时间x(小时)123456789血药浓度y(g/ml)21.8947.1361.8670.7872.8166.3650.3425.313.1722.718246.256362.268470.754571.714665.148751.056829.43890.2950y-0.82820.8737-0.40840.02551.09541.2113-0.7168-4.12982.8750 (一)根据表9-5的数据资料绘制x与y的散点图 (见图9-1)。由散点图我们看到:血药浓度最大值出现在服药后5小时,在5小时之前血药浓度随时间的增加而增加,在5小时之后随着时间的增加而减少,散点图呈抛物线形状,因此我们可以选用一元二次多项式来描述血药浓度与服药时间的关系,即进行一元二次多项式回归或抛物线回归。 (二)进行变量转换 设一元二次多项式回归方程为: 图9-1 表9-5资料的散点图 令、,则得二元线性回归方程 (三)进行二元线性回归分析 先计算得:再计算得:于是得到关于求出上述正规方程组系数矩阵的逆矩阵为:关于即:而于是得到二元线性回归方程为:现在对二元线性回归方程或二元线性回归关系进行显著性检验。 列出方差分析表,进行F检验。表9-6 二元线性回归关系方差分析表变异来源SSdfMSF回 归4830.916222415.4581511.750*离回归 28.32026 4.7200总变异 4859.23648由查F值表得,因为FF0.01(2,6),P0.01,表明二元线性回归关系是极显著的。偏回归系数的显著检验,应用F检验法:由查F值表得,因为、,表明偏回归系数都是极显著的。(四)建立一元二次多项式回归方程 将还原为,还原为x2,即得一元二次多项式回归方程为:(五)计算相关指数R2 因为,相关指数R2为:表明y对x的一元二次多项式回归方程的拟合度是比较高的,或者说该回归方程估测的可靠程度是比较高的。*第五节 通径分析在研究多个相关变量间的线性关系时,除了可以采用多元线性回归分析和偏相关分析,还可以采用通径分析(path analysis)。由SWright(1921)提出,并经遗传育种工作者不断完善和改进的通径分析,在研究多个相关变量间关系中具有精确、直观等优点,在遗传育种工作中广泛应用于研究遗传相关、近交系数、亲缘系数、遗传力,确定综合选择指数、复合育种值,剖分性状间的相关系数为直接作用与间接作用的代数和等等。一、通径系数(path coefficient)与决定系数(一)通径、相关线与通径图 为直观起见,先讨论一个依变量、两个自变量的情况。设三个相关变量与、间存在线性关系,为依变量(结果),、为自变量(原因)且彼此相关,回归方程为: (9-37)或 (9-38)其中为剩余项。可用图9-2来表示三个相关变量间的关系。在图9-2中,单箭头线“ ”表示变量间存在着因果关系,方向为由原因到结果,称为通径(path),也称为直接通径。双箭头线“ ”表示变量间存在着平行关系(互为因果),称为相关线(correlation line),一条相关线相当于两条尾端相联的通径。将包含两条或两条以上通径、也 图9-2 自变量、与可以包含一条相关线的链称为间接通 依变量的通径图径。如图9-2中,为通径或直接通径, 为间接通径。这种用来表示相关变量间因果关系与平行关系的箭形图称为通径图(path chart)。(二)通径系数 通径图直观、形象地表达了相关变量间的关系,仅定性地表达还不够,还须进一步用数量表示因果关系中原因对结果影响的相对重要程度与性质、平行关系中变量间相关的相对重要程度与性质,也就是必须用数量表示“通径”与“相关线”的相对重要程度与性质。 表示“通径”相对重要程度与性质的数量叫通径系数。表示“相关线”相对重要程度与性质的数量叫相关系数。相关系数已在第八章进行了详细介绍。下面介绍通径系数的数学表达式。设依变量与自变量、间存在线性关系,回归方程为:或 其中为剩余项:,且;、彼此相关。表示这三个相关变量间关系的通径图见图9-2。由于偏回归系数、是带有单位的,一般不能直接由、比较自变量、(原因)对依变量(结果)影响的重要程度的大小。为了能直接比较各自变量对依变量影响重要程度的大小,现将、三个变量及剩余项进行标准化变换,使、及变为不带单位的相对数。由可得 (9-39)将上述两式等号左右两端相减得 (9-40)再将(9-40)式两端同除以的标准差,并作相应的恒等变形,得: (9-41)式中:、分别为、与的标准差。 、为变量、标准化之后的偏回归系数,分别表示x1、x2对y影响的相对重要程度和性质;表示剩余项e对y影响的相对重要程度和性质;、和就是x1、x2和e到y的通径系数的数学表达式。若把x1、x2和e到y的通径系数记为P0.1、P0.2、P0.e,则有:, , 一般,若依变量与自变量、间存在线性关系,回归方程为: (9-42)或 (9-43)当自变量两两相关时,其通径图如图9-3所示。则原因与剩余项到结果的通径系数为:,图9-3 自变量、与依变量的通径图(三)决定系数 通径系数的平方称为决定系数(determination coefficient)。决定系数表示原因(自变量)或误差对结果(依变量)的相对决定程度。对于情况,原因、和剩余项对结果的决定系数分别记为、,则:对于,原因()和剩余项e对结果的决定系数记为d0.i(i=1,2,m)和d0.e。则 , 二、通径系数的性质可以证明通径系数有如下四个重要性质。性质1 如果相关变量、间存在线性关系,其中为依变量(结果)、和为自变量(原因),且和彼此相关,回归方程为或 通径图如图9-2所示。则: (9-44) (9-45)对于(9-45)式可以进行如下通径分析:由到有两条通径,第一条是直接通径 ,直接通径系数p0.1表示对的直接作用;第二条是间接通径 ,并定义间接通径系数等于组成该间接通径的通径与相关线系数的乘积:r12p0.2,则间接通径系数表示通过与其相关的对的间接作用。因此,与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即与y的相关系数等于与间的直接通径系数与间接通径系数之和。对于(9-45)式也可以进行同样的通径分析:由到有两条通径,第一条是直接通径,第二条是间接通径 。与的相关系数剖分为对的直接作用与通过对的间接作用的代数和,即,与的相关系数等于与的直接通径系数与间接通径系数之和。对于(9-44)与(9-45)式,可以改写为: (9-46)(9-46)式为关于通径系数的正规方程组。如写成矩阵形式为: (9-47)如果相关系数已计算出,那么可以由(9-46)式或(9-47)式求出通径系数和。一般,设相关变量与间存在线性关系,回归方程为: 或 其中,为依变量,、为自变量,且两两相关,通径图如图9-3所示。则: (9-48)(9-48)式说明,()与的相关系数剖分为对的直接作用与间接作用的代数和,即与的相关系数等于到的直接通径系数与通过与其相关的各个对的所有间接通径系数之和。对于(9-48)式写成关于各通径系数、的正规方程组形式为: (9-49) (9-49)式的矩阵形式为: (9-50) 如果相关系数、(已经算出,那么可以由(9-49)式或(9-50)式求通径系数。性质1有两个主要用途:一是利用相关系数求通径系数;二是将原因(自变量)与结果(依变量)的相关系数剖分为直接通径系数与间接通径系数的代数和,从而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论