线性回归的定式偏差_第1页
线性回归的定式偏差_第2页
线性回归的定式偏差_第3页
线性回归的定式偏差_第4页
线性回归的定式偏差_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章线性回归的定式偏差

1引子前面介绍的线性回归分析建立在模型假设成立的基础上,但这些假设并不必然成立。本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等,导致线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响,判断和处理的方法等。2本章主要内容第一节变量关系非线性第二节异常值第三节规律性扰动第四节解释变量缺落第五节

参数变化3第一节变量关系非线性1.问题2.发现与判断3.问题处理和非线性回归41.问题线性回归模型都假设变量关系是线性随机函数关系,或者经过特定数学变换以后是线性随机函数关系。但实际变量关系可能会存在偏差,存在用线性模型分析非线性关系的可能性。把非线性变量关系当作线性关系处理,也可以说是违反误差项均值为0的假设,对线性回归分析的有效性有根本性的破坏作用。

5问题:原因:变量关系非线性、异常值、季节性扰动、经济周期、变量缺落、参数变化等。后果:回归分析、预测不再有效。无偏、有效性都不成立,模型无价值。6例如若两个变量之间的真实关系为:

其中满足=0和线性回归模型的其他假设,但如果我们直接用:进行回归分析,那么因为:因此:

显然不可能始终为0。7把非线性变量关系作为线性关系进行分析是变量关系的误识别。不仅会使得回归分析的拟合程度降低,还会对经济规律作出错误判断,以及导致较大的预测偏差,属于计量经济分析比较严重的问题。

8二、发现与判断由于有随机扰动因素的影响,线性回归模型的错误设定并不是很容易发现的。发现和判断变量关系非线性,首先是用数理经济分析的方法,对模型的函数关系进行更深入的分析。其次是根据数据和及其分布图形、散点图进行直接判断。更重要的方法是根据回归残差序列,从技术角度发现和判断异常值问题。9回归残差序列根据被解释变量的实际值和回归理论值之差计算。在EViews软件进行回归分析时,可以在得到回归结果后在回归结果窗口点击View/Actual,Fitted,Residual/Actual,fitted,residualtable,直接得到回归残差序列和残差序列图。如果模型存在变量关系非线性问题,回归残差序列会表现出有规律的变化。10例如当发现模型的回归残差序列有图5.1所示的规律性变化,就应该考虑存在把非线性关系(二次函数等)当作线性关系进行回归的问题,必须进行处理。

图5.1非线性变量关系的残差序列

11用回归残差序列判断变量关系非线性的最大问题是,线性回归模型的其他某些一些问题,如参数(结构)改变等,与变量关系非线性的表现形式常常很相似,不容易正确区分。因此必须结合问题背景分析、相关理论和经验进行综合判断,然后再通过处理和结果的反复比较加以确定。12三、问题处理和非线性回归

解决错误的第一步,是恢复变量之间的真实函数关系。然后再设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。如果变量关系可以用初等数学变化转化为线性模型,那么只要在转化后再进行线性回归分析就可以了。13但也有不少非线性变量关系无法通过初等数学变换转化为线性模型。例如Y和X之间有两变量关系如下:其中、、

是未知参数,这个函数就无法通过初等数学变换转化为线性模型。这时候就需要直接处理非线性回归模型。非线性回归分析是线性回归分析的自然扩展。14我们假设非线性函数关系为:其中是K个解释变量,是模型的P个参数,为多元非线性函数,且对是连续可微的。对于这种非线性回归模型,解决的方法之一是利用级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。

15泰勒级数展开先要取一组参数的初始值:然后将上述非线性函数在该点处对作泰勒级数展开,并只取其中的线性项而忽略所有高次项,得到:16其中为原变量关系中的误差项与泰勒级数展开的高阶项之和。整理上述展开式,移项合并可化为:17若令:我们得到:这是一个对的线性回归模型,可以用最小二乘法估计其中参数的估计值,我们记为18经过泰勒级数展开得到的线性模型只是原变量关系的近似,虽然可以把作为原模型参数的估计,但效果可能没有保证。由于和参数真实值的近似程度越高,级数展开忽略的高阶项越不重要,因此提高级数展开初始值与参数真实值的近似程度有利于提高上述间接估计的精度。提高近似程度的方法是,把前一次回归得到的估计值作为新的级数展开初始值,再进行新的级数展开。然后再作变换和线性回归,得到另一组参数估计值。19这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。最后得到的就是非线性回归模型的参数估计值。除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接进行非线性回归分析。不过由计量软件进行非线性回归的迭代优化分析就不存在这方面的困难,只要直接输入相关命令即可。20例5-1某地消费函数相关数据年度YC年度YC年度YC1950791.8733.219621170.21069.019741896.61674.01951819.0748.719631207.31108.419751931.71711.91952844.3771.419641291.01170.619762001.01803.91953880.0802.519651365.71236.419772066.61883.81954894.0822.719661431.31298.919782167.41961.01955944.5873.819671493.21337.719792212.62004.41956989.4899.819681551.31405.919802214.32000.419571012.1919.719691599.81456.719812248.62024.219581028.8932.919701688.11492.019822261.52050.719591067.2979.419711728.41538.819832334.62145.919601091.11005.119721797.41621.919842468.42239.919611123.21025.219731916.31689.619852509.02312.621为了选择进行回归分析的模型,可以用EViews软件作两个变量的散点图。建立工作文件和输入收据后,用Graph命令或菜单操作可得到两个变量的如下散点图:22图5.2某地收入对消费的散点图

23根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,如图5.3,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。24图5.3某地消费函数回归残差序列图

25操作演示26第二节异常值1.问题2.异常值的发现判断3.问题的处理271.问题现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。28如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非0的问题。例如变量Y和X在长期中的关系基本满足线性回归模型的各个假设,但在时刻有一个突发情况,使得Y出现一个C单位的暂时性波动。那么如果用线性回归模型:

分析这两个变量的关系,其误差项的均值是:

29显然不是对任意i都成立,也就是模型的假设(2)是不成立的。这种情况如果不作处理,线性回归分析的有效性也会受到不利影响。异常值会使回归分析结果出现较大偏差,参数估计量的性质和相关统计推断都会失效。

302.异常值的发现判断发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及数据序列直接分析等。残差序列分析也是从技术角度发现和判断异常值问题的基本方法。因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。

31在模型假设成立的前提下,回归残差是服从正态分布的随机变量,其取值95%左右的概率应分布在均值加减2倍标准差的范围内。

如果发现某个残差出现:

其中是残差的标准差,模型在时点i处就很可能存在异常值问题。

回归残差序列分析发现和判断异常值问题的方法32上述回归残差序列分析等价于下列残差序列图分析。把根据回归残差序列和残差标准差计算出的/S数据序列,描绘到以i为横轴,以/S为纵轴的坐标平面上,再在纵轴的处画上两条水平的临界线。以误差序列中是否有点落在两条临界线范围之外作为判断异常值的初步标准。

33图5.4异常值的残差序列图检验34用EViews软件进行回归分析可以直接输出残差序列图,并且在图形中包括有两倍标准差的临界值,因此可以直接根据EViews输出的残差序列图判断是否有异常值的可能性。如果有个别/S坐标落在两条临界线的范围以外,就意味着在i时点上有异常值。当然,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。35存在多个较大残差不能简单地认为是多个异常值,而是应该作进一步的深入分析,结合对其他问题的分析进行判断。此外,上述残差序列判断异常值的临界值标准是95%置信度的,当/S的绝对值落在2到3之间时,用95%的置信度判断有异常值,而用99%的置信度判断则可能没有异常值,因此仍然存在模糊的地方。这时候必须与问题背景分析结合起来考虑,并考虑各点残差相对情况等。363.问题的处理如果判断模型存在异常值问题,必须作针对性的处理。例如一个两变量线性回归模型,在处存在异常值问题:解决的方法是引进一个针对性的虚拟变量D,其定义式为:

37把这个虚拟变量引进原来的模型,得到一个新的回归模型,因此在引进虚拟变量D的新模型中,异常值就不会造成模型误差项出现均值非0的问题了,从而可以保证回归分析的有效性。

38[例5-2]消费函数模型的异常值问题

图5.5消费函数残差序列图

39根据图中的残差分布可以看出,1996、2001和2002年的回归残差绝对值,都大于2倍的残差标准差,因此可能属于异常值。由于相比之下1996、1999、2000和2001四年的残差偏离更大,而在去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考虑引进四个虚拟变量。

4041图5.6引进虚拟变量后的回归残差

42再看引进虚拟变量后回归的下列残差序列图,则现在是有多点而不是个别点在2倍标准差临界值之外,而且都离临界值不远,并且2倍标准差的临界值范围也比未引进虚拟变量时小了许多,因此可不再认为存在异常值。?操作演示43第三节规律性扰动1.问题2.问题的发现和判断3.问题的处理441.问题周期性或其他规律性扰动,也会使线性回归模型的误差项偏离零均值假设。周期性扰动比较典型的例子是商业销量指标的季节性变化。这些问题并不影响变量关系的总体趋势,但都会对变量关系产生规律性的影响,如果不预先加以处理或排除掉,就会导致误差项均值非0问题的出现,影响回归分析的效果。45例如变量Y的季度数据中,第一季度总是受到一个季节性因素的影响。如果我们忽视这种影响,用两变量模型或多元模型研究Y规律,就会遇到误差项均值非0问题462.问题的发现与判断由规律性扰动导致的误差项均值非零问题的发现、判断和处理,与异常值问题基本相似。在发现和判断方面,经济问题的背景分析,以及同样的回归残差序列分析,基本上都可以适用于规律性扰动问题。规律性扰动在残差序列图上会表现为多个有规律的较大残差,可以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。473.问题的处理解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另一种问题,就是误差序列自相关问题(以后会介绍)。因此平滑处理并不是克服规律性扰动对线性回归分析影响的好方法。48处理规律性扰动问题的较好方法也是引进虚拟变量,但有时需要引进多个虚拟变量。以上面第一季度存在季节性因素影响的问题为例。如果在这个例子中,使用虚拟变量49把模型改为或

Y=那么新模型就不再存在误差项均值非0的问题,回归分析的效果就能得到保证。如果第一季度受到一种季节性因素扰动,第三季度受到另一种方向和力度不同因素的扰动。那么可以引进两个虚拟变量

50把这两个虚拟变量同时引入模型,模型变为或Y=新模型同样可以避免由于上述季节性扰动所导致的误差项均值非0问题。在对截面数据的计量经济分析中,观测对象特征差异导致的规律性扰动,也可以利用虚拟变量加以处理。

51利用虚拟变量解决规律性扰动需要注意的是,引进虚拟变量是有限度的,需要谨慎,不能随意引进。因为引进更多虚拟变量意味着要估计更多参数和损失自由度,对回归分析的效果有不利影响。此外引进虚拟变量还可能落入“虚拟变量陷阱”。52例如如果上述季节性扰动模型中同时引进对应全部四个季节的,按照类似规则定义的四个虚拟变量为、、和,那么这四个虚拟变量满足相加和为1。同时出现在一个模型中必然导致解释变量严格线性相关,导致模型的崩溃。因此在计量经济分析中引进虚拟变量时需要谨慎,要注意避免虚拟变量陷阱。53例1:变量Y的季度数据中,第一季度总会受到一个季节性因素的影响。

使用虚拟变量:

54例2:一年中的第一季度会受到一种季节性扰动,第三季度也会受到一种方向和力度与第一季度不同的扰动。引入两个虚拟变量:55例3:用截面数据研究收入或消费规律时,观测对象的性别也是一个影响因素。

引入一个虚拟变量:5657

⑴一个因素多个类型

对于一个有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。例如,设公司职员的年薪与工龄和学历有关。学历分成三种:大专以下、本科、研究生。为反映“学历”的影响,应该设置两个虚拟变量:

本科其他研究生其他虚拟变量的设置原则

Yi=a+bxi+εi

大专以下(D1=D2=0)Yi=(a+α1)+bxi+εi

本科(D1=1,D2=0)Yi=(a+α2)+bxi+εi

研究生(D1=0,D2=1)而将年薪模型取成(假设以加法方式引入):

Yi=a+bxi+α1D1i+α2D2i+εi

其等价于:三类年薪函数的差异情况如下图所示:大专以下本科研究生工龄年薪α2-α1

α1

1、定义:反映品质指标变化、数值只取0和1的人工变量。用符号D来表示。

如:城镇居民农村居民销售旺季销售淡季政策紧缩政策宽松本科以上学历本科以下学历变量的划分应遵循穷举与互斥原则。一、虚拟变量及其作用612、作用:⑴可以描述和测量定性因素的影响。

⑵能够正确反映经济变量之间的相互关系,提高模型的精度。⑶便于处理异常数据。

即将异常数据作为一个特殊的定性因素

621.虚拟变量的引入方式。

(1)加法方式

Yi=a+bxi+αDi+εi

等价为:当Di=0时:Yi=a+bxi+εi

当Di=1时:Yi=(a+α)+bxi+εiD=0D=1aa+αα以加法方式引入,反映定性因素对截距的影响

二、虚拟变量的设定(2)乘法方式

Yi=a+bxi+βXDi+εi其中:XDi=Xi*Di,上式等价于:当Di=0时:Yi=a+bxi+εi

当Di=1时:Yi=a+(b+β)xi+εiD=0D=1aβ

以乘法方式引入,可反映定性因素对斜率的影响,系数β描述了定性因素的影响程度。64(3)加法和乘法综合的方式

65三、虚拟变量的特殊应用

1、调整季节波动例如,用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型):

利润函数可取为:

Yi=a+bxi+α1D1i+α2D2i+α3D3i+εi第i+1季度i=1,2,3其他季度时间TRPFD1D2D32000,10002000,21002000,30102000,40012001,10002001,21002001,30102001,400167第四节解释变量缺落1.问题2.发现与判断68遗漏变量的后果如果遗漏了一个应该加入的变量呢?OLS通常会是有偏的但是参数估计量的方差变小遗漏的一个原因:不得不遗漏wage=b0+b1educ+b2abil+u能力不可观测,估计模型wage=b0+b1educ+v69更一般的情况y关键变量其它变量遗漏变量我们忽略所有其它变量推导关键变量的偏误方向。70

练习例3.3中,如省略变量age,mrate系数是否有显著变化?为什么?71

练习答案:变化不太大,因为虽然遗漏的age是个重要变量,

但是age和mrate的样本相关性很小因此删除一个重要解释变量,可能改变其他系数,也可能不改变其他系数,只要是它与其他变量无关,剩余变量的偏效应也可准确预测出。721.问题除了异常值和规律性扰动以外,还有一些定式偏差,如解释变量缺落和参数改变,也是引起误差项均值非0问题的常见原因。所谓解释变量缺落就是线性回归模型设定的变量关系中,忽略了某些具有重要的,对被解释变量有趋势性影响的因素。解释变量缺落会引起误差项均值非0很容易理解,因为被忽略的因素对被解释变量的影响,会在误差项中表现出来,导致误差项不再是纯粹的随机扰动。

73例如若真实变量关系应该为

其中满足及多元线性回归模型的其他假设。如果建模时忽略了其中的变量,即采用变量关系

那么其中的误差项

74满足由于、和之间不存在线性关系,不可能始终等于0。因此缺落重要解释变量的线性回归模型,必然违反误差项0均值的假设。752.发现与判断发现和判断解释变量缺落或模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。在原模型回归分析的基础上对回归残差序列进行分析,如果发现残差序列有某种趋势性,那么可以根据问题背景考虑是否忽略了有重要性的因素。76若以怀疑缺落的变量为横轴,残差e为纵轴,作残差序列分布图。如发现和e确实有相关性,如图所示,可初步认为模型缺落了。

77解释变量缺落和模型参数改变问题的处理方法比较简单,因为针对性地加入所缺落的变量,或根据参数改变的时间分不同时期段进行分段回归,就可以解决这些问题。78第五节参数变化1.问题2.发现和判断791.问题参数改变指在考察期间(样本数据观测范围),变量关系中的参数发生变化,就是变量关系本身发生变化。这时实际上不能用同一个线性回归模型研究变量在整个考察期间的关系。如果忽略这种模型参数变化,也会导致误差项均值非0问题。80以两变量线性关系在考察期[0,T]中的t时刻参数发生变化为例。真实的变量关系可以用[0,t]和(t,T)两个时期中的两个模型分别表示其中和都满足均值为0和线性回归模型的其他假设,且,。

81如果忽略了模型参数的上述变化,简单地用同一变量关系,代表Y和X在整个[0,T]时期的关系,那么因为在两个时期中模型的误差项分别为:因此两个时期误差项的均值分别为

82很显然,除非和同时成立,否则的均值不可能在两个时期都始终为0。如果两个等式同时成立,就意味着两个时期参数没有变化,与假设的情况不一致。因此在参数发生改变时,必然导致误差项均值非0的问题。832.发现与判断发现和判断模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。如果以i为横轴,残差e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论