第三节多元线性相关与回归分析_第1页
第三节多元线性相关与回归分析_第2页
第三节多元线性相关与回归分析_第3页
第三节多元线性相关与回归分析_第4页
第三节多元线性相关与回归分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三节 多元线性相关与回归分析一、标准的多元线性回归模型上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某 一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入 水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影 响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变 量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系 的问题。研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量

2、变化关系,称为多元线性回归分 析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩 展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本 节对于多元回归分析中与一元回归分析相类似的内容,仅给岀必要的结论,不作进一步的论证。只对某些多 元回归分析所特有的问题作比较详细的说明。多元线性回归模型总体回归函数的一般形式如下:Yt+%X2t + +0kXkt +q(7.5i)上式假定因变量 丫与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Yt是变量丫的第t个观测值;Xt是第j个自变量X的第t个观测值(j

3、=1,2,,k) ; ut是随机误差项;B 1, B 2,Bk是总体回归系数。B j表示在其他自变量保持不变的情况下,自变量Xj变动一个单位所引起的因变量丫平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行 估计。假设已给岀了 n个观测值,同时?1, ?2,? k。我们称这条假定为标准假定6。二、多元线性回归模型的估计(一) 回归系数的估计多元线性回归模型中回归系数的估计同样采用最小二乘法。设=W(Yt -?-?2X2八-?Xkt r(7.53)的偏导数必须等于零。将Q对?1、彳,?k求偏导数,并令其等于零,加以整理后可得到以下k个方程根据微积分

4、中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对辑、区,必式:? X2t?2、X;?k X2tXkt 八 X2tYt(7.54)以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到 求解多元回归方程,用矩阵形式来表达较为简便11。记?1?k011这里给岀的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以不必掌握这则总体回归函数(7.51)式可以写为:丫 = XB + U(7.55)样本回归函数(7.52)式可以写为:Y = X ? + e(7.56)标准方程组(7.54)式可以写为:(X X) ? = X 丫(7.57

5、)式中X表示X的转置矩阵。(XX)是一个kXk的对称矩阵,根据标准假定6,k个自变量之间不存在高度的线性相关,因此其逆矩阵存在。在(7.57)式的两边同时左乘(XX);可以得到:B = (XX)叹丫(7.58)上式是回归系数最小二乘估计的一般形式。实际求解多元回归方程中的回归系数的估计值,通常需要依靠电子计算机。在电子计算机技术十分发达的今天,多元回归分析的计算已经变得相当简单。利用现成的软件包如EXCEL等,只要将有关数据输入电子计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。因此,对于从事应用研究的人们来说,更 为重要的是要能够理解输入和输岀之间相互对应的关系,以及对电子计算机输

6、岀的结果做岀正确的解释。限于篇幅,这里不给岀具体的数值计算实例。而在下一节中,我们将结合实际的例子,讲解如何利用 EXCEL进行多元线性回归分析。(二) 总体方差的估计除了回归系数以外,多元线性回归模型中还包含了另一个未知参数,那就是随机误差项的方差(7 2。与一元回归分析相类似,多元线性回归模型中的7 2也是利用残差平方和除以其自由度来估计的。即有:壬S 2= nk(7.59)上式中,是样本观测值的个数;k是方程中回归系数的个数;在(k -1)元回归模型中,标准方程组有k个方程式,残差必须满足k个约束条件,因此其自由度为(n - k)。数学上可以证明,S 2是7 2的无偏估计。S 2的正平方

7、根S又叫做回归估计的标准误差。S越小表明样本回归方程的代表性越强。在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算: - 2 _e _ee= YY - ? XY(7.60)上式是残差平方和的矩阵形式。式中的表示求转置;丫是因变量样本观测值向量;X是自变量样本观测值矩阵;? 是回归系数估计值向量的转置向量。(三) 最小二乘估计量的性质与一元线性回归模型类似,多元线性回归模型中回归系数的最小二乘估计量也是随机变量。数学上可以证明,在标准假定条件可以得到满足的情况下,多元回归模型中回归系数最小二乘估计量的期望值同样等于 总体回归系数的真值,即有:E(岂)=B(7.61)回

8、归系数最小二乘估计量的方差、协方差矩阵为:Var( 2? )=E( M B)( z? B)2 -1=7 (XX )(7.62)宦 2该矩阵主对角元素是各回归系数估计量的方差E( j- B j)2,其他元素是各回归系数估计量之间的协方差E ( j- B j) (?i - B i)(i工j )。在此基础上,还可以进一步证明回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。也就是说,在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。三、多元线性回归模型的检验和预测(一) 拟合程度的评价在多元线性回归分析中,总离差平方和的分解公式依然成立。因此也可以用上一节所定义的决定系数作一部分内容。

9、为评价模型拟合程度的一项指标。不过,为了避免混淆,多元回归的决定系数用 利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。由决定系数的定义可知,R2的大小取决于残差平方和R2=i- v(Yt -Y)2-2et在总离差平方和(7.63) 2(Yt -Y)中所占的比重在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。因此,R2是自变量个数的非递减函数。在一元线性回归模型中,所有模型 包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然2而在多元线性回归模型中,各回归模型所含的

10、变量的数目未必相同,以R的大小作为衡量拟合优劣的尺度是2不合适的。因此,在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数R。该指标的定义如下:2二3 1(n -k)R2 =1 -Y)2/(n)(7.64)(n-1)=1 - (n -k) (1 R2) 22(7.65)式中,n是样本容量;k是模型中回归系数的个数。(n- 1)和(n-k )实际上分别是总离差平方和 与残差平方和的自由度。修正自由度的决定系数R2具有以下特点:1. R2 1,所以根据R2和R 2各自的定义式可以得岀这一结论。对于给定的R2值和n2值,k值越大 R越小。在进行回归分析时,一般总是希望以尽可能少的自变

11、量去达到尽可能高的拟合程2度。R作为综合评价这两方面情况的一项指标显然比R2更为合适。2 22. R小于1,但未必都大于0。在拟合极差的场合,R有可能取负值。【例7-9】假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=6,R 2=0.82 ;方程二中:k=2,R 2 = 0.80。试对这两个回归方程的拟合程度做岀评价。解: 如果仅从R 2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入(7.65)式,可得:2方程一的 R = 1-(7-1)/(7-6)(1-0.82)=-0.082方程二的 R = 1

12、-(7-1)/(7-2)(1-0.80)=0.76由此可见,方程二的实际拟合程度远远优于方程一。(二) 显着性检验多元线性回归模型的显着性检验同样包括两方面的内容,即回归系数的显着性检验与回归方程的显着性检验。现分述如下:1 回归系数的显着性检验多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显着,以便对自变量的取舍做岀正确的判断。一般来说,当发现某个自变量的影响不显着时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。多元模型中回归系数的检验同样采用t检验,其原理和基本步骤与一元回归模型中的t检验基本相同,这里不再赘述。下面仅

13、给出回归系数显着性检验t统计量的一般计算公式。邑t 胃= S胃 j=1,2,k(7.66)S 按下式计算:式中,?j是回归系数的估计值,s B是叽的标准差的估计值。22对于不包含常数项的回归方程,该公式不适用(7.67)屮“1是随机误差项方差的估计值。(7.66)式的t统计量背后的Bj为0的可能性越小,即表明相应的自变量对因变量的影式中,jj是(XX) -1的第j个对角线元素,S 原假设是H 0: Bj = 0,因此t的绝对值越大表明 响是显着的。2回归方程的显着性检验多元线性回归模型包含了多个回归系数,因此对于多元回归模型,除了要对单个回归系数进行显着性检验外,还要对整个回归模型进行显着性检

14、验。由离差平方和的分解公式可知,回归模型的总离差平方和等于 回归平方和与残差平方和的和。回归模型总体函数的线性关系是否显着,其实质就是判断回归平方和与残差 平方和之比值的大小问题。由于回归平方和与残差平方和的数值会随观测值的样本容量和自变量个数的不同 而变化,因此不宜直接比较,而必须在方差分析的基础上利用F检验进行。其具体的方法步骤可归纳如下:(1) 假设总体回归方程不显着,即有H 0: B 2= B 3 =B k=0(2) 进行方差分析,列岀回归方差分析表(见表 7-3 )表7-3回归模型方差分析表离差名称平方和自由度方差回归平方和SSf=(Y -丫 )k-1SSR(k-1)残差平方和SSE

15、:n-kSSE( n-k)总离差平方和SST=(Yt Y)2表中,回归平方和的取值受艮个回归系数估计值的影响,同时又要服从 Yt/n二丫的约束条件,因此其自由度是 k-1 o残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其 自由度是n-k。回归平方和与残差平方和各除以自身的自由度得到的是样本方差。(3) 根据方差分析的结果求F统计量,即SSR/(k-1)F= SSE/(n-k)(7.68)数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。(4) 根据自由度和给定的显着性水平a,查F分布表中的理论临界值Fa

16、。当FF a时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显着。当FVFa时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显着,因而所建立的回归模型没有意义。(三) 多元线性回归预测在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的 原理是一致的,其基本公式如下:Yf =?+ 阿X2f + 隊 Xkf(7.69)I?Y?式中,Xf(j=2,3,k)是给定的X在预测期的具体数值;j是已估计岀的样本回归系数;Yf是X给定时Y的预测值。该方程的矩阵形式为:Y = X f B(7.70 )式中,多元线性回归预测标准误差的计算公

17、式如下:f(7.71 )Sef -S 1 X f (X X ),X f式中,S是回归方程估计的标准误差。多元线性回归预测 Yf的(1 a )的置信区间可由下式给岀:(7.72)Y f 士 t a/ 2X Sef式中,t a/2是显着水平为a的t分布双侧临界值四、复相关系数和偏相关系数在多变量的情况下,变量之间的相关关系是很复杂的,需要计算复相关系数与偏相关系数。(一)复相关系数样本复相关系数(以下简称复相关系数)的定义式如下:(Yt -Y)(-Y)(7.73)r飞(丫Y)2送 M-Y)2上式与单相关系数的定义式十分类似,不同之处仅在于用根据X2,X3,Xk等计算的回归估计值 丫代替了单相关系数

18、定义式中的Xt。在所涉及的变量只有两个时,因为丫?是X的严密函数,所以(7.73)式完全等价于单相关系数的定义式。而在多元分析的场合,以上定义的复相关系数的平方实际上就是多元线性回归方程的 决定系数。实际计算复相关系数时,一般不直接根据其定义式,而是先计算岀决定系数,然后再求决定系数的平方 根。应当指岀:在多个变量的情况下,Y与其他多个变量之间既可能有正相关又可能有负相关,所以复相关系数也就只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量 X2,X3,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。复相关系数的取值区间为:0WRW1。复相关系数为1表明丫与X2,X3,

19、Xk之间存在严密的线性关系,复相关系数为0则表明丫与X2,X3,Xk之间不存在任何线性相关关系。一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。(二)偏相关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的 指标称为偏相关系数。偏相关系数不同于上一节中所介绍的单相关系数。在计算单相关系数时,只需要掌握 两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。而在计算偏相关系数时,需要掌握 多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其他变量, 专门考察两个特定变量的净相

20、关关系。在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相 关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他因素的影响,反 映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。例如,一种商品的需求既 受收入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的 需求量就越小。也就是说,需求与价格之间应当是负相关。可是,在现实经济生活中,由于收入和价格常常 都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系 数,就有可能得岀价格越高需求越大的错误结论。在明确

21、偏相关系数与单相关系数区别的基础上,我们再来讨论偏相关系数的定义公式。在上一节中,我 们已经给出了样本单相关系数的定义公式样本相关系数的定义还可以从另一个角度给岀等看待的。若设Z (Xt -X)(Yt-Y) r =罷(Xt-X)2瓦(Yt -Y)2 在进行相关分析时,对于所涉及的两个变量则样本单相关系数也可定义为两个样本回归系数的乘积的开方,即士 .?2:?2(7.74 )X和Y是同(7.75 )(7.76 )(7.77 )上式中r的符号应与回归系数的符号一致。回归系数为正数时,r取正值;回归系数为负数时,r取负值。容易证明(7.74 )式与(7.77 )式是完全等价的。也就是说,单相关系数可以表现为两个回归系数的几何 平均数。样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平 均数。为简明起见,下面举3变量的偏相关分析为例。设有3个变量Xi、X2和用。3个变量各自以另两个变量为自变量拟合的样本回归方程如下:)?it-1.23+ 冈2.3X2t * 13.2X3t(7.78)*2t = ?2.13?21.3Xit?23.1X3t(7.79)= ?3.12?31.2Xit ?32.iX2t(7.80)时2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论