线性回归经典假设的分析_第1页
线性回归经典假设的分析_第2页
线性回归经典假设的分析_第3页
线性回归经典假设的分析_第4页
线性回归经典假设的分析_第5页
已阅读5页,还剩183页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于线性回归经典假设的分析第1页,讲稿共188页,2023年5月2日,星期三第一节多重共线性多重共线性含义及引起的后果多重共线性的检验多重共线性的克服及岭回归方法第2页,讲稿共188页,2023年5月2日,星期三4.1.1多重共线性含义及引起的后果

一、多重共线性的含义

“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。针对总体回归模型(2.2)式

,的经典假设条件,要求(4.1)即要求矩阵X满秩。X满秩就能保证行列式

,从而可以得到参数的估计值。如果这个假设条件不满足,即,就表明某些解释变量之间存在完全的线性相关关系,在这种情形下,根本无法求出参数的估计值。第3页,讲稿共188页,2023年5月2日,星期三然而,在实际问题中,某些解释变量之间不是完全线性相关的或接近完全线性相关的。就模型中解释变量的关系而言,有三种可能。1、,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数j都可以通过Y对的一元回归来估计。2、,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。第4页,讲稿共188页,2023年5月2日,星期三3、,解释变量间存在一定程度的线性关系。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。这里需要说明的是,在解决实际问题的过程中,经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济处于收缩期,收入、消费、就业率等都下降或增长率下降。当这些变量同时做解释变量就会给模型带来多重共线性问题。另外,解释变量与其滞后变量同作解释变量时,也会引起多重共线性。第5页,讲稿共188页,2023年5月2日,星期三二、多重共线性引起的后果如果解释变量之间存在明显的相关关系,即存在严重的多重共线性,将会影响模型的构建。1、当,X为降秩矩阵,则不存在,不可计算。2、若,即使,仍具有无偏性,即

第6页,讲稿共188页,2023年5月2日,星期三然而,当时,接近降秩矩阵,即,变得很大。所以丧失有效性。以二元解释变量线性模型为例,当时,为

时方差的2.78倍。当时,为时的10.26倍。第7页,讲稿共188页,2023年5月2日,星期三4.1.2多重共线性的检验既然多重共线性会造成一些严重的后果,在建立线性回归模型的过程中,有必要检验样本是否存在多重共线性。第8页,讲稿共188页,2023年5月2日,星期三检验样本是否存在严重的多重共线性常用的方法如下。一、可决系数的值较大而回归系数的t值较小。当模型的可决系数R2很高,总体显著性检验的F值很高,而每个回归参数估计值的方差又非常大,即t值很低时,说明解释变量之间存在多重共线性。二、Klein判别法。计算多重可决系数R2及解释变量之间的简单相关系数。若有某个>R2,则Xi,Xj间的多重共线性是有害的。第9页,讲稿共188页,2023年5月2日,星期三三、特征值与病态指数。根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而当行列式时,矩阵X’X至少有一个特征根近似等于零。反之,可以证明,当矩阵X’X至少有一个特征根近似等于零时,X的列向量之间必存在多重共线性。第10页,讲稿共188页,2023年5月2日,星期三实际上,设是矩阵X’X的一个近似等于零特征根,c是对应于该特征根的特征向量,则(4.2)对(4.2)式两边左乘c’,即有即从而(4.3)这里(4.3)式就反映出了前面所定义的多重共线性。我们应该注意到,矩阵X’X有多少个特征根近似为零,设计矩阵就会有多少个类似(4.3)式多重共线性关系,并且这些多重共线关系系数向量就等于接近于零的那些特征根对应的特征向量。第11页,讲稿共188页,2023年5月2日,星期三另外,特征根近似为零的标准可以用下面的病态指数(conditionindex)来确定。记X’X的最大特征根为,称(4.4)为特征根的病态指数。注意特征根的个数与病态指数都包含了常数项在内。病态指数度量了矩阵的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。一般认为,当0<CI<10时,设计矩阵X没有多重共线性;当10<CI<100时,认为设计矩阵X存在较强的多重共线性;当CI>100时,则认为存在严重的多重共线性。第12页,讲稿共188页,2023年5月2日,星期三4.1.3多重共线性的克服及岭回归方法如果多重共线性较为严重,我们该如何处理?一般来说没有一个十分严格的克服多重共线性的方法。但是,可以尽量的降低线性回归模型中存在的多重共线性。这里介绍一些经验规则和理论方法以便克服或降低多重共线性问题时参考。第13页,讲稿共188页,2023年5月2日,星期三一、克服多重共线性的经验方法

1、剔除变量。面对严重的多重共线性,最简单的克服方法之一就是剔除一个共线性的变量。但是,如果从模型中剔除的是重要的解释变量,可能会引起模型的设定误差。所谓设定误差是指在回归分析中使用了不正确的模型。我们知道,在解释粮食产量的模型中,应该包括播种面积和施肥量,那么剔除播种面积这个变量,就会构成设定误差。当模型中出现设定误差时,线性模型的分析出现的问题会更为严重,其中问题之一是当出现设定误差时,回归系数的估计值是有偏的,这与多重共线性相比是一个更为严重的问题。第14页,讲稿共188页,2023年5月2日,星期三事实上,假设真实的模型为如果我们错误的拟合了模型

记,第15页,讲稿共188页,2023年5月2日,星期三那么,

这里,为回归模型中回归系数的最小二乘估计量。第16页,讲稿共188页,2023年5月2日,星期三所以,(4.5)当解释变量之间存在多重共线性时,是不会为零的,从而由(4.5)式知,这说明如果因为有多重共线性而将一共线变量删除会导致有偏估计,而有偏估计对参数的估计来说,是一个更为严重的问题。在这里我们需要提及的是,在不完全共线的情形下,OLS估计量仍然是BLUE。第17页,讲稿共188页,2023年5月2日,星期三2、增加样本容量。由于多重共线性是一个样本特征,所以有可能在同样变量的另一样本中共线性问题并不严重。这样只需要增大样本容量就能减轻共线性问题。看来增加样本容量可能是克服共线性的一个好方法,但在实际解决问题时,我们补充数据扩大样本容量并不是一件容易的事情,特别是在建立计量经济模型时所希望的解释变量的值就更困难。第18页,讲稿共188页,2023年5月2日,星期三3、先验信息。如果通过经济理论分析能够得到某些参数之间的线性关系,可以将这种线性关系作为约束条件,将此约束条件和样本信息结合起来进行最小二乘估计。第19页,讲稿共188页,2023年5月2日,星期三为了进一步说明问题,假设我们考虑模型如果依据长期的经验分析可以认为两个解释变量的系数相互关系为,运用这个先验信息有其中,。这样可以估计出,然后可以得到。第20页,讲稿共188页,2023年5月2日,星期三另外,我们应该注意到,横截面数据与时间序列数据并用也是先验信息法的一种变形,这种方法称为数据并用(poolingthedata)。其基本思想是,首先利用横截面数据估计出部分参数,再利用时间序列数据估计另外的部分参数,最后得到整个方程参数的估计。第21页,讲稿共188页,2023年5月2日,星期三二、一阶差分方法一阶差分法就是将原模型变形为差分模型的形式,进而降低多重共线性的一种方法。将原模型经过一阶差分变换为

其中,,,,,。第22页,讲稿共188页,2023年5月2日,星期三一般情况,差分变换后变量之间的相关性比变换前要弱的多,所以差分后的模型可以有效地降低出现共线性的现象。然而,差分变换常常会引起信息的丢失,使自由度减少了一个,也可能会使得模型的干扰项出现序列相关,即第23页,讲稿共188页,2023年5月2日,星期三这样就违背了经典线性回归模型的相关假设,因此在具体应用时要慎重。关于序列相关的有关内容将在后面详细介绍。第24页,讲稿共188页,2023年5月2日,星期三三、逐步回归法逐步回归法的基本思想是,首先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,以对被解释变量贡献大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。①若新变量的引入改进了和检验,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。②若新变量的引入未能改进和检验,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。③若新变量的引入未能改进和检验,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性,舍弃该变量。第25页,讲稿共188页,2023年5月2日,星期三四、岭回归法当在建立计量经济模型存在多重共线性时,最小二乘估计的性质就不够理想,有时甚至遭到破坏。在这种情况下,要从本质上克服多重共线性,就需要一些新的估计方法。近四十年来,人们提出了许多新的估计方法,其在理论上最有影响并得到广泛应用的就是岭估计(ridgeregression)。为了能够较为深入了解岭回归方法,并进一步说明岭估计量的优良性,我们引进评价一个估计优劣的标准——均方误差(meansquarederrors)。第26页,讲稿共188页,2023年5月2日,星期三设为未知参数向量,为的一个估计量。定义的均方误差为(4.6)它量度了估计量跟未知参数向量平均偏离的大小。一个好的估计量应该有较小的均方误差。均方误差有一个重要的性质,即(4.7)事实上,(4.8)第27页,讲稿共188页,2023年5月2日,星期三根据矩阵迹的有关性质,(4.8)式中的第一项为

如果记,则(4.9)(4.9)式是估计量的各分量方差之和。第28页,讲稿共188页,2023年5月2日,星期三而且(4.10)(4.10)式是估计量的各分量的偏差平方和。这样一个估计的均方误差就是由各分量的方差和偏差所决定的。一个好的估计量应该有较小的方差和偏差。第29页,讲稿共188页,2023年5月2日,星期三下面我们介绍岭回归的基本方法。当解释变量之间存在多重共线性时,则将会增大,原因是接近奇异。如果将加上一个正常数对角阵kI(k>0,I为单位矩阵),即,使得

的可能性比的可能性更小,那么接近奇异的程度就会比小的多。第30页,讲稿共188页,2023年5月2日,星期三这样就可以得到的岭回归估计为(4.11)其中称为的岭回归估计量,k称为岭参数或偏参数。当k取不同的值时,我们得到不同的估计,因此岭估计是一个估计类,当k=0时,就是普通最小二乘估计量。于是严格的讲,最小二乘估计量就是岭估计类中一个估计量。第31页,讲稿共188页,2023年5月2日,星期三但是在一般情况下,当我们提及岭估计时,一般不包括最小二乘估计。特别是在解释变量之间存在多重共线性时,以作为的估计应比最小二乘估计稳定,随着k的逐渐增大,回归系数可能呈现出稳定的状态。因此,要选择适当的k值,岭回归参数才会优于最小二乘估计参数。第32页,讲稿共188页,2023年5月2日,星期三为了进一步说明岭回归估计的优良性,有必要介绍岭回归估计量的有关性质。性质1岭回归的参数估计是回归参数的有偏估计。实际上,有(4.12)因此岭估计量是有偏估计,这是岭估计与最小二乘估计的一个重要不同之处。第33页,讲稿共188页,2023年5月2日,星期三性质2在岭参数k与Y无关的情况下,是最小二乘估计的一个线性变换,也是理论值Y的线性函数。实际上,根据(4.11)式很容易看出这个性质的正确性。性质3存在k>0,使得(4.13)即存在k>0,使得在均方误差意义下,岭估计优于最小二乘估计。第34页,讲稿共188页,2023年5月2日,星期三这里需要说明的是关于k值的选择非常重要,在此我们主要介绍用岭迹法选择k值的基本思路。岭估计是随着k值的改变而变化。若记为的第i个分量,它是k的一元函数。当k在上变化时,的图形称为岭迹(ridgetrace)。将的每个分量的岭迹画在同一个图上,根据岭迹的变化趋势选择k值,使得各个回归系数的岭估计大体上稳定,并且各个回归系数岭估计值的符号比较合理并符合实际。第35页,讲稿共188页,2023年5月2日,星期三我们知道,最小二乘估计是使残差平方和达到最小的估计。k愈大,岭估计跟最小二乘估计偏差愈大。因此,它对应的残差平方和也随着k的增加而增加。当我们用岭迹法选择k值时,还应该考虑使得残差平方和不要上升的太多。在解决实际问题时,上述几点原则有时可能会有些相互不一致,顾此失彼的情况也经常出现,这就要根据不同的情况灵活处理。第36页,讲稿共188页,2023年5月2日,星期三需要提及的是,目前还没有形成公认的选择岭参数的最优方法,除了岭迹法,我们还可以选用方差扩大因子法、残差平方和法等等。另外,在实际应用中,也可以考虑使用逐步搜索的方法,即开始给定小的k值,然后逐渐增加k的取值进行模拟,直到岭估计量的值趋于稳定为止。显然,用逐步搜索的方法确定k,具有一定的主观性,但是具体的过程体现出了统计模拟的基本思想。第37页,讲稿共188页,2023年5月2日,星期三第二节异方差性异方差性含义及引起的后果异方差性的检验广义最小二乘法及异方差性的克服第38页,讲稿共188页,2023年5月2日,星期三4.2.1异方差性含义及引起的后果一、异方差的含义及表现二、异方差引起的后果第39页,讲稿共188页,2023年5月2日,星期三一、异方差的含义及表现针对总体回归模型(2.2)式

,的经典假设条件,要求给出是一个对角矩阵,即=

2I=2(4.14) 且的协差阵主对角线上的元素都是常数且相等,即每一干扰项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时,不再是一个纯量对角矩阵。第40页,讲稿共188页,2023年5月2日,星期三

=2=

2

2I.

当干扰项向量的协差阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即干扰项向量中的元素取自不同的分布总体。非主对角线上的元素表示干扰项之间的协方差值。比如中的,(ij)表示与第i组和第j组观测值相对应的与的协方差。若非主对角线上的部分或全部元素都不为零,干扰项就是序列相关的。本节讨论异方差,下一节讨论序列相关问题。(4.15)第41页,讲稿共188页,2023年5月2日,星期三首先明确同方差假定如图4.1和4.2所示。对于随着解释变量的变化,相应的分布方差都是相同的。

图4.1同方差情形图4.2同方差情形第42页,讲稿共188页,2023年5月2日,星期三这样我们就可以进一步明确,异方差通常的三种表现形式,(1)递增型,(2)递减型,(3)条件自回归型。递增型异方差见图4.3和4.4。图4.5为递减型异方差。图4.6为条件自回归型异方差。

第43页,讲稿共188页,2023年5月2日,星期三图4.3递增型异方差情形第44页,讲稿共188页,2023年5月2日,星期三图4.4递增型异方差第45页,讲稿共188页,2023年5月2日,星期三图4.5递减型异方差第46页,讲稿共188页,2023年5月2日,星期三图4.6复杂型异方差第47页,讲稿共188页,2023年5月2日,星期三这里我们要说明的是:第一,时间序列数据和截面数据中都有可能存在异方差;第二,经济时间序列中的异方差常为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。无论是时间序列数据还是截面数据,递增型异方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。第48页,讲稿共188页,2023年5月2日,星期三二、异方差引起的后果我们从简单线性回归模型入手,讨论异方差对参数估计的影响,然后再针对一般回归线性模型进行讨论。对模型(4.16)当,为异方差时(是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性。针对而言

(4.17)第49页,讲稿共188页,2023年5月2日,星期三但是回归参数估计量不再具有有效性,即

(4.18)第50页,讲稿共188页,2023年5月2日,星期三在(4.17)和(4.18)式的推导中利用了的非序列相关的假定。(4.18)式不等号左侧项分子中的不是一个常量,不能从累加式中提出,所以不等号左侧项不等于不等号右侧项。而不等号右侧项是同方差条件下1的最小二乘估计量的方差。因此异方差条件下的失去有效性。另外回归参数估计量方差的估计是真实方差的有偏估计量,即E(())第51页,讲稿共188页,2023年5月2日,星期三针对一般线性回归模型(2.2)式

,因为OLS估计量无偏性的证明只依赖于模型的一阶矩,所以当以(4.14)式所示时,OLS估计量仍具有无偏性和一致性,即

(4.19)但不具有有效性和渐近有效性。第52页,讲稿共188页,2023年5月2日,星期三而且的分布将受到影响,即

(4.20)由(4.20)式知异方差条件下是非有效估计量。异方差性的存在,会对线性回归模型正确的建立和统计推断带来严重的后果,因此在计量经济分析中,有必要检验模型是否存在异方差。第53页,讲稿共188页,2023年5月2日,星期三4.2.2异方差性的检验一、定性分析异方差二、戈德菲尔德-昆茨检验三、格莱泽检验四、怀特检验五、自回归条件异方差检验第54页,讲稿共188页,2023年5月2日,星期三一、定性分析异方差定性分析异方差的角度很多,我们可以根据实际建立模型依据的经济理论和实际经济现象来分析是否存在异方差性,一般情形经济变量规模差别很大时容易出现异方差,如个人收入与支出关系,投入与产出关系。另外,我们也可以利用散点图(图4.6)和残差图(图4.7),来初步判断异方差的存在性。第55页,讲稿共188页,2023年5月2日,星期三图4.6散点图第56页,讲稿共188页,2023年5月2日,星期三第57页,讲稿共188页,2023年5月2日,星期三二、戈德菲尔德-昆茨检验戈德菲尔德-昆茨(Goldfeld-Quandt)检验方法是戈德菲尔德-昆茨于1965年提出的,所要检验的问题为

H0:具有同方差H1:具有递增型异方差第58页,讲稿共188页,2023年5月2日,星期三其检验的基本思想是:第一,把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量的大小顺序排列,略去m个处于中心位置的观测值(通常n30时,取mn/4

,余下的n-m个观测值自然分成容量相等(n-m)/2的两个子样本)。

X1,X2,…,Xi-1,Xi,Xi+1,…,Xn-1,Xn}

n1=(n-m)/2m=n/4n2=(n-m)/2第59页,讲稿共188页,2023年5月2日,星期三第二,用两个子样本分别估计回归直线,并计算残差平方和。相对于n2

和n1

分别用SSE2

和SSE1表示。第三,构建F统计量

F==,

(k为模型中被估参数个数)在H0成立条件下,F

第60页,讲稿共188页,2023年5月2日,星期三第四,判别规则如下,若F,接受H0(ut具有同方差)

若F>,拒绝H0(递增型异方差)这里我们应该注意到,当摸型含有多个解释变量时,应以每一个解释变量为基准检验异方差。此法的基本思路也适用于递减型异方差。另外,对于截面样本,计算F统计量之前,必须先把数据按解释变量的值从小到大排序。第61页,讲稿共188页,2023年5月2日,星期三三、格莱泽检验格莱泽(Glejser)检验的基本思想是,检验是否与解释变量Xi存在函数关系。若存在函数关系,则说明存在异方差;若无函数关系,则说明不存在异方差。通常应检验的几种形式是

=a0+a1Xi

=a0+a1/Xi

=a0+a1,….第62页,讲稿共188页,2023年5月2日,星期三格莱泽检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该方法既可检验递增型异方差,也可检验递减型异方差。应该注意,当原模型含有多个解释变量值时,可以把拟合成多变量回归形式。第63页,讲稿共188页,2023年5月2日,星期三四、怀特检验怀特(White)检验由H.White1980年提出。戈德菲尔德-昆茨检验必须先把数据按解释变量的值从小到大排序。格莱泽检验通常要试拟合多个回归式。White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造统计量进行异方差检验。第64页,讲稿共188页,2023年5月2日,星期三怀特检验的具体步骤如下。以二元回归模型为例,Yi=0+1Xi1+2Xi2+(4.21)第一,首先对上式进行OLS回归,求残差。并做如下辅助回归式,=0+1Xi1+2Xi2+3Xi12+4Xi22+5Xi1Xi2+vi(4.22)即用对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。注意,上式中要保留常数项。求辅助回归(4.22)式的可决系数R2。第65页,讲稿共188页,2023年5月2日,星期三第二,怀特检验的零假设和备择假设是

H0:(4.21)式中的不存在异方差,

H1:(4.21)式中的存在异方差第三,在不存在异方差假设条件下统计量

nR2

2(5)(4.23)其中n表示样本容量,R2是辅助回归(4.22)式的OLS估计式的可决系数。自由度5表示辅助回归(4.22)式中解释变量项数。第66页,讲稿共188页,2023年5月2日,星期三第四,判别规则是若nR2

2(5),接受H0(具有同方差)

若nR2>2(5),拒绝H0(具有异方差)怀特检验的特点是,不仅能够检验异方差的存在,同时在多变量的情况下,还能够判断出是哪一个变量引起的异方差,通常适用于截面数据的情形。该方法不需要异方差的先验信息,但要求观测值为大样本。第67页,讲稿共188页,2023年5月2日,星期三五、自回归条件异方差检验异方差的另一种检验方法称作自回归条件异方差(autoregressiveconditionalheteroscedasticity)检验,简称为ARCH检验。这种检验方法不是把原回归模型的随机误差项i2

看作是Xi

的函数,而是把i2看作误差滞后项,,…的函

数。ARCH是误差项二阶矩的自回归过程。恩格尔(Engle1982)针对ARCH过程提出LM检验法。第68页,讲稿共188页,2023年5月2日,星期三辅助回归式定义为=0+1+…+

n,(4.24)LM统计量定义为

ARCH=nR2

2(m)

其中R2是辅助回归式(4.24)的可决系数。在 H0:1=…=m=0成立条件下,ARCH渐近服从

2(m)分布。第69页,讲稿共188页,2023年5月2日,星期三ARCH检验的最常用形式是一阶自回归模型(m=1),

=0+1.在这种情形下,ARCH渐近服从

2(1)分布。ARCH检验的特点是,要求变量的观测值是大样本,并且是时间序列数据;它只能判断模型中是否存在异方差,而不能诊断出是哪一个变量引起的异方差。第70页,讲稿共188页,2023年5月2日,星期三4.2.3广义最小二乘法及异方差性的克服为了进一步从理论上掌握克服异方差的方法,更好的开拓建立计量经济模型的思路,这里我们将详细的介绍广义最小二乘法的基本理论和方法,然后讨论异方差的克服。第71页,讲稿共188页,2023年5月2日,星期三一、广义最小二乘法设模型为其中E()=0,=E()=2已知。因为I,违反了线性回归模型的经典假定条件,所以应该对模型进行适当修正。因为是一个n阶正定矩阵,根据线性代数的知识,必存在一个非退化nn阶矩阵M使下式成立。

=Inn

从(4.27)式得

=-1

(4.25)(4.26)(4.27)第72页,讲稿共188页,2023年5月2日,星期三用M左乘(4.25)式回归模型两侧得

(4.29)令,,,那么(4.29)式变换为

(4.30)根据(4.15)式,则的协差阵为===2=2I.变换后模型的是一个纯量对角矩阵。对变换后模型(4.30)式进行OLS估计,得到的是的最佳线性无偏估计量。这种估计方法称作广义最小二乘法。(4.31)第73页,讲稿共188页,2023年5月2日,星期三的广义最小二乘估计量(generalizedleastsquaresestimator)定义为

(4.32)第74页,讲稿共188页,2023年5月2日,星期三对线性回归模型(4.25)式,满足条件(4.26)式时,广义最小二乘估计量为参数的最优线性无偏估计量,具体表现为:1、线性特性由(4.32)式知

(4.33)第75页,讲稿共188页,2023年5月2日,星期三令,那么,(4.33)式为

从而,说明它不仅是Y的线性组合,也是的线

性组合。2、无偏性由(4.34)式知(4.35)(4.34)第76页,讲稿共188页,2023年5月2日,星期三3、最小方差性首先计算广义最小二乘估计量的协方差矩阵为

假设为的任何其他线性无偏估计量,

不妨假设

(4.36)第77页,讲稿共188页,2023年5月2日,星期三由于为的无偏估计量,即有

这样只有或那么有

(4.38)(4.39)第78页,讲稿共188页,2023年5月2日,星期三在(4.39)式中从而根据矩阵代数的知识,任何矩阵与自身转置的乘积都是半正定矩阵,(4.40)式中的为半正定矩阵,其对角线上的元素必然是非负的,因此得知,广义最小二乘估计量为参数的最优线性无偏估计量。(4.40)第79页,讲稿共188页,2023年5月2日,星期三在实际应用中,我们需要对进行估计,的无偏估计量为

(4.41)第80页,讲稿共188页,2023年5月2日,星期三这里我们需要强调的是,一般情况下广义最小二乘估计量比普通最小二乘估计量更有效。事实上,当线性模型满足(4.26)式,如果继续对模型用普通最小二乘法得到的估计量,知

(4.42)第81页,讲稿共188页,2023年5月2日,星期三由(4.36)式知,只要证明

成立。(4.43)式中的不等号表示为一个半正定矩阵。令,,由于

(4.44)(4.43)第82页,讲稿共188页,2023年5月2日,星期三那么,根据(4.27)式

根据矩阵代数的知识,(4.45)式中的为半正定矩阵。从而,说明了为一个半正定矩阵。(4.45)第83页,讲稿共188页,2023年5月2日,星期三二、异方差的克服设模型(4.25)式,满足E()=0,=E()=

2

,一般的异方差情形是

=(4.46)第84页,讲稿共188页,2023年5月2日,星期三对应用广义最小二乘法而言,很容易选取M为M=第85页,讲稿共188页,2023年5月2日,星期三我们需要提及的是,在经济意义成立的情形下,对模型(2.1)式的变量进行对数变换,有

(4.47)对数变换后的模型通常可以降低异方差性的影响。这是因为经过对数变换后的线性模型,其残差表示相对误差,而相对误差往往比绝对误差有较小的差异。第86页,讲稿共188页,2023年5月2日,星期三事实上,针对样本回归模型取对数后的样本回归模型为

(4.48)其中,残差,因此,

(4.49)第87页,讲稿共188页,2023年5月2日,星期三对(4.49)式右端进行泰勒展开,即

(4.50)将(4.50)式中的X用替换,则这说明模型(4.48)中的残差表示相对误差。第88页,讲稿共188页,2023年5月2日,星期三例4.1对模型

假设格莱泽检验结果是说明异方差形式是。第89页,讲稿共188页,2023年5月2日,星期三用除原模型各项,有则说明消除了异方差。然后对变换后的模型做OLS估计。第90页,讲稿共188页,2023年5月2日,星期三第三节序列相关性序列相关性含义及引起的后果序列相关的检验序列相关的克服第91页,讲稿共188页,2023年5月2日,星期三4.3.1序列相关性含义及引起的后果一、序列相关的含义及性质1、序列相关的含义针对线性模型(2.1)式

当,(i,jn,ij),即误差项的取值在时间上是相互无关的。称误差项非序列相关。如果,(ij)(4.51)则称误差项存在序列相关。第92页,讲稿共188页,2023年5月2日,星期三序列相关又称自相关。原指一随机变量在时间上与其滞后项之间的相关。这里主要是指回归模型中随机误差项与其滞后项的相关关系。序列相关也是相关关系的一种。第93页,讲稿共188页,2023年5月2日,星期三序列相关按形式可分为两类。(1)一阶自回归形式当误差项只与其滞后一期值有关时,即=f(),称具有一阶自回归形式。第94页,讲稿共188页,2023年5月2日,星期三(2)高阶自回归形式当误差项的本期值不仅与其前一期值有关,而且与其前若干期的值都有关系时,即则称具有高阶自回归式。第95页,讲稿共188页,2023年5月2日,星期三通常假定误差项的序列相关是线性的。因计量经济模型中序列相关的最常见形式是一阶自回归形式,所以下面重点讨论误差项的线性一阶自回归形式,即

(4.52)其中是序列相关回归系数,是随机误差项。满足通常假设

第96页,讲稿共188页,2023年5月2日,星期三针对(4.52)式,利用OLS方法,得到的估计公式为,

=(4.53)其中n是样本容量。若把,看作两个变量,则它们的相关系数是

=(4.54)第97页,讲稿共188页,2023年5月2日,星期三对于大样本而言,显然有

(4.55)把(4.55)式代入(4.54)式得≈=(4.56)第98页,讲稿共188页,2023年5月2日,星期三因而对于总体参数而言,有

=,即一阶自回归形式的序列相关回归系数等于该两个变量的相关系数。因此原回归模型中误差项的一阶自回归形式(4.52)式可表示为

(4.57)

的取值范围是[-1,1]。当

0时,称存在正序列相关;当

0时,称存在负序列相关。当

=0时,称不存在序列相关。第99页,讲稿共188页,2023年5月2日,星期三图4.8a,c,e,分别给出具有正序列相关,负序列相关和非序列相关的三个序列。为便于理解时间序列的正负序列相关特征,图4.8b、d、f分别给出图4.8a、c、e中变量对其一阶滞后变量的散点图。正负序列相关以及非序列相关性展现的更为明了。第100页,讲稿共188页,2023年5月2日,星期三图4.8时间序列及其自相关散点图a.非序列相关的序列图第101页,讲稿共188页,2023年5月2日,星期三

b.非序列相关的散点图第102页,讲稿共188页,2023年5月2日,星期三c.正序列相关的序列图第103页,讲稿共188页,2023年5月2日,星期三

d.正序列相关的散点图第104页,讲稿共188页,2023年5月2日,星期三e.负序列相关的序列图第105页,讲稿共188页,2023年5月2日,星期三

f.负序列相关的散点图第106页,讲稿共188页,2023年5月2日,星期三2、序列相关有关性质针对一阶自回归(4.57)式,讨论误差项的期望、方差与协方差公式。由(4.57)式知

(4.58)因为对于平稳序列有,整理(4.58)式得的期望为

(4.59)第107页,讲稿共188页,2023年5月2日,星期三那么,

的方差为整理上式得

(4.60)第108页,讲稿共188页,2023年5月2日,星期三其协方差为

(4.61)同理

(s0)(4.62)第109页,讲稿共188页,2023年5月2日,星期三则由(4.60)式、(4.61)式和(4.62)式得

其中。从而验证了当回归模型的误差项存在一阶自回归形式时,。同理也可证明当存在高阶自回归形式时,仍有。这里要说明的是,自相关多发生于时间序列数据中。若出现于截面数据中,称其为空间自相关。第110页,讲稿共188页,2023年5月2日,星期三3、序列相关的来源与后果误差项存在序列相关,主要有如下几个原因。(1)模型的数学形式不妥。若所用的数学模型与变量间的真实关系不一致,误差项常表现出自相关。比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。(2)经济变量的惯性。大多数经济时间序列都存在自相关。其本期值往往受滞后值影响。突出特征就是惯性与低灵敏度。如国民生产总值,固定资产投资,国民消费,物价指数等随时间缓慢地变化,从而建立模型时导致误差项自相关。第111页,讲稿共188页,2023年5月2日,星期三(3)回归模型中略去了带有自相关的重要解释变量。若丢掉了应该列入模型的带有自相关的重要解释变量,那么它的影响必然归并到误差项中,从而使误差项呈现自相关。当然略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自相关。第112页,讲稿共188页,2023年5月2日,星期三当误差项存在序列相关时,模型参数的最小二乘估计量具有如下特性。(1)只要假定条件成立,回归系数仍具有无偏性。

(4.63)第113页,讲稿共188页,2023年5月2日,星期三(2)丧失有效性。如果回归模型中误差项存在一阶自回归形式(4.57)式,根据(4.62)式的结果,知

(4.64)与不等。第114页,讲稿共188页,2023年5月2日,星期三(3)有可能低估误差项的方差。低估回归参数估计量的方差,等于夸大了回归参数的抽样精度,过高的估计统计量t的值,从而把不重要的解释变量保留在模型里,使显著性检验失去意义。(4)由于存在自相关时,()和都变大,都不具有最小方差性。所以用依据普通最小二乘法得到的回归方程去预测,预测是无效的。第115页,讲稿共188页,2023年5月2日,星期三4.3.2序列相关的检验1、定性分析法定性分析法就是依据残差ei对时间i的序列图的性质作出判断。由于残差et是对误差项的估计,所以尽管误差项观测不到,但可以通过ei的变化判断是否存在序列相关。第116页,讲稿共188页,2023年5月2日,星期三定性分析法的具体步骤是,(1)用给定的样本估计回归模型,计算残差ei,(i=1,2,…n),绘制残差图;(2)分析残差图。若残差图与图4.8a类似,则说明不存在自相关;若与图4.8c类似,则说明存在正自相关;若与图4.8e类似,则说明存在负自相关。经济变量由于存在惯性,不可能表现出如图4.8e那样的震荡式变化。其变化形式常与图4.8中c相类似,所以经济变量的变化常表现为正自相关。第117页,讲稿共188页,2023年5月2日,星期三2、DW(Durbin-Watson)检验法DW检验是J.Durbin,G.S.Watson于1950年发表的一篇论文《TestingforSerialCorrelationinLeastSquaresRegression》中提出的。它是利用残差ei构成的统计量推断误差项是否存在序列相关。第118页,讲稿共188页,2023年5月2日,星期三使用DW检验,应首先满足如下三个条件。(1)误差项的自相关为一阶自回归形式。(2)因变量的滞后值不能在回归模型中作解释变量。(3)样本容量应充分大(n15)第119页,讲稿共188页,2023年5月2日,星期三DW检验的基本思想如下。给出假设H0:(不存在序列相关)H1:(存在一阶序列相关)用残差值ei计算统计量DW。

DW=(4.65)其中分子是残差的一阶差分平方和,分母是残差平方和。第120页,讲稿共188页,2023年5月2日,星期三把上式展开,

DW=(4.66)因为有≈≈(4.67)代入(4.66)式,有

DW≈=2(1-)=2(4.68)第121页,讲稿共188页,2023年5月2日,星期三因为的取值范围是[-1,1],所以DW统计量的取值范围是[0,4]。与DW值的对应关系见表4.1。0<-1<表4.1与DW值的对应关系及意义DW的表现

=0DW=2非序列相关

=1DW=0完全正序列相关

=-1DW=4完全负序列相关0<<10<DW<2有某种程度的正序列相关

-1<<02<DW<4有某种程度的负序列相关第122页,讲稿共188页,2023年5月2日,星期三实际中DW=0,2,4的情形是很少见的。当DW取值在(0,2),(2,4)之间时,怎样判别误差项是否存在序列相关呢?推导统计量DW的精确抽样分布是困难的,因为DW是依据残差ei

计算的,而ei的值又与的形式有关。DW检验与其它统计检验不同,它没有唯一的临界值用来制定判别规则。然而Durbin-Watson根据样本容量和被估参数个数,在给定的显著性水平下,给出了检验用的上、下两个临界值dU和dL。第123页,讲稿共188页,2023年5月2日,星期三判别规则如下:

(1)若DW取值在(0,dL)之间,拒绝原假设H0,认为存在一阶正序列相关。(2)若DW取值在(4-dL,4)之间,拒绝原假设H0,认为存在一阶负序列相关。(3)若DW取值在(dU,4-dU)之间,接受原假设H0,认为非序列相关。(4)若DW取值在(dL,dU)或(4-dU,4-dL)之间,这种检验没有结论,即不能判别是否存在一阶序列相关。第124页,讲稿共188页,2023年5月2日,星期三判别规则可用图4.9表示。DW

图4.9判别规则第125页,讲稿共188页,2023年5月2日,星期三当DW值落在“不确定”区域时,有两种处理方法。①加大样本容量或重新选取样本,重作DW检验。有时DW值会离开不确定区。②选用其它检验方法。见附表5,DW检验给出DW检验临界值。DW检验临界值与三个参数有关。①检验水平,②样本容量n,③原回归模型中解释变量个数k(不包括常数项)。第126页,讲稿共188页,2023年5月2日,星期三这里我们应该提及的是,①不适用于联立方程模型中各方程的序列相关检验。②DW统计量不适用于对高阶序列相关的检验。③因为DW统计量是以解释变量非随机为条件得出的,所以当有滞后的内生变量作解释变量时,DW检验无效。这方面的内容,将在第5章的§5.3中介绍。第127页,讲稿共188页,2023年5月2日,星期三3、回归检验法回归检验法的优点是:第一,适合于任何形式的序列相关检验;第二,若结论是存在序列相关,则同时能提供出序列相关的具体形式与参数的估计值。缺点是计算量大。第128页,讲稿共188页,2023年5月2日,星期三回归检验法的思想如下:①用给定样本估计模型并计算残差ei。②对残差序列ei,(i=1,2,…,n)用普通最小二乘法进行不同形式的回归拟合。如

ei=ei–1+vi

ei=1ei–1+2ei–2+viei=ei-12+vIei=+vi

…③对上述各种拟合形式进行显著性检验,从而确定误差项存在哪一种形式的序列相关。第129页,讲稿共188页,2023年5月2日,星期三4.3.3序列相关的克服1、序列相关的克服方法如果模型的误差项存在序列相关,首先应分析产生序列相关的原因。如果序列相关是由于错误地设定模型的数学形式所致,那么就应当修改模型的数学形式。怎样查明序列相关是由于模型数学形式不妥造成的?一种方法是用残差ei对解释变量的较高次幂进行回归,然后对新的残差作DW检验,如果此时序列相关消失,则说明模型的数学形式不妥。第130页,讲稿共188页,2023年5月2日,星期三如果序列相关是由于模型中省略了重要解释变量造成的,那么解决办法就是找出略去的解释变量,把它做为重要解释变量列入模型。怎样查明序列相关是由于略去重要解释变量引起的?一种方法是用残差ei对那些可能影响因变量但又未列入模型的解释变量回归,并作显著性检验,从而确定该解释变量的重要性。如果是重要解释变量,应该列入模型。只有当以上两种引起序列相关的原因都消除后,才能认为误差项“真正”存在序列相关。在这种情况下,解决办法是变换原回归模型,使变换后的随机误差项消除序列相关,进而利用普通最小二乘法估计回归参数。第131页,讲稿共188页,2023年5月2日,星期三设原回归模型是

(4.69)其中具有一阶自回归形式

(4.70)其中满足通常的假定条件,把(4.70)式代入(4.69)式,

(4.71)求模型(4.69)式的(i-1)期关系式,并在两侧同乘

(4.72)第132页,讲稿共188页,2023年5月2日,星期三用(4.71)式减去(4.72)式得

(4.73)令

;;第133页,讲稿共188页,2023年5月2日,星期三则模型(4.73)式表示如下,

(4.74)上式中的误差项vi是非序列相关的,满足假定条件,所以可对上式应用最小二乘法估计回归参数。得估计量具有最佳线性无偏性。(4.74)式中的就是原模型(4.69)式中的,而与模型(4.69)中的有如下关系,,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论