已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章线性回归的定式偏差,1,前面介绍的线性回归分析建立在模型假设成立的基础上,但这些假设并不必然成立。本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等,导致线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响,判断和处理的方法等。,2,本章结构,第一节变量关系非线性第二节异常值第三节规律性扰动第四节解释变量缺落第五节参数变化,3,第一节变量关系非线性,一、问题二、发现与判断三、问题处理和非线性回归,4,一、问题,线性回归模型都假设变量关系是线性随机函数关系,或者经过特定数学变换以后是线性随机函数关系。但实际变量关系可能会存在偏差,存在用线性模型分析非线性关系的可能性。把非线性变量关系当作线性关系处理,也可以说是违反误差项均值为0的假设,对线性回归分析的有效性有根本性的破坏作用。,5,例如若两个变量之间的真实关系为:其中满足=0和线性回归模型的其他假设,但如果我们直接用:进行回归分析,那么因为:因此:显然不可能始终为0。,6,把非线性变量关系作为线性关系进行分析是变量关系的误识别。不仅会使得回归分析的拟合程度降低,还会对经济规律作出错误判断,以及导致较大的预测偏差,属于计量经济分析比较严重的问题。,7,二、发现与判断,由于有随机扰动因素的影响,线性回归模型的错误设定并不是很容易发现的。发现和判断变量关系非线性,首先是用数理经济分析的方法,对模型的函数关系进行更深入的分析。其次是根据数据和及其分布图形、散点图进行直接判断。,8,更重要的方法是根据回归残差序列,从技术角度发现和判断异常值问题。回归残差序列根据被解释变量的实际值和回归理论值之差计算。在EViews软件进行回归分析时,可以在得到回归结果后在回归结果窗口点击View/Actual,Fitted,Residual/Actual,fitted,residualtable,直接得到回归残差序列和残差序列图。如果模型存在变量关系非线性问题,回归残差序列会表现出有规律的变化。,9,例如当发现模型的回归残差序列有图5.1所示的规律性变化,就应该考虑存在把非线性关系(二次函数等)当作线性关系进行回归的问题,必须进行处理。图5.1非线性变量关系的残差序列,10,用回归残差序列判断变量关系非线性的最大问题是,线性回归模型的其他某些一些问题,如参数(结构)改变等,与变量关系非线性的表现形式常常很相似,不容易正确区分。因此必须结合问题背景分析、相关理论和经验进行综合判断,然后再通过处理和结果的反复比较加以确定。,11,三、问题处理和非线性回归,解决错误的第一步,是恢复变量之间的真实函数关系。然后再设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。如果变量关系可以用初等数学变化转化为线性模型,那么只要在转化后再进行线性回归分析就可以了。,12,但也有不少非线性变量关系无法通过初等数学变换转化为线性模型。例如Y和X之间有两变量关系如下:其中、是未知参数,这个函数就无法通过初等数学变换转化为线性模型。这时候就需要直接处理非线性回归模型。非线性回归分析是线性回归分析的自然扩展。,13,我们假设非线性函数关系为:其中是K个解释变量,是模型的P个参数,为多元非线性函数,且对是连续可微的。对于这种非线性回归模型,解决的方法之一是利用级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。,14,泰勒级数展开先要取一组参数的初始值:然后将上述非线性函数在该点处对作泰勒级数展开,并只取其中的线性项而忽略所有高次项,得到:,15,其中为原变量关系中的误差项与泰勒级数展开的高阶项之和。整理上述展开式,移项合并可化为:,16,若令:我们得到:这是一个对的线性回归模型,可以用最小二乘法估计其中参数的估计值,我们记为,17,经过泰勒级数展开得到的线性模型只是原变量关系的近似,虽然可以把作为原模型参数的估计,但效果可能没有保证。由于和参数真实值的近似程度越高,级数展开忽略的高阶项越不重要,因此提高级数展开初始值与参数真实值的近似程度有利于提高上述间接估计的精度。提高近似程度的方法是,把前一次回归得到的估计值作为新的级数展开初始值,再进行新的级数展开。然后再作变换和线性回归,得到另一组参数估计值。,18,这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。最后得到的就是非线性回归模型的参数估计值。除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接进行非线性回归分析。不过由计量软件进行非线性回归的迭代优化分析就不存在这方面的困难,只要直接输入相关命令即可。,19,例51某地消费函数,表5.1某地消费函数相关数据年度YC年度YC年度YC1950791.8733.219621170.21069.019741896.61674.01951819.0748.719631207.31108.419751931.71711.91952844.3771.419641291.01170.619762001.01803.91953880.0802.519651365.71236.419772066.61883.81954894.0822.719661431.31298.919782167.41961.01955944.5873.819671493.21337.719792212.62004.41956989.4899.819681551.31405.919802214.32000.419571012.1919.719691599.81456.719812248.62024.219581028.8932.919701688.11492.019822261.52050.719591067.2979.419711728.41538.819832334.62145.919601091.11005.119721797.41621.919842468.42239.919611123.21025.219731916.31689.619852509.02312.6,20,为了选择进行回归分析的模型,可以用EViews软件作两个变量的散点图。建立工作文件和输入收据后,用Graph命令或菜单操作可得到两个变量的如下散点图:,21,图5.2某地收入对消费的散点图,22,根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,如图5.3,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。,23,图5.3某地消费函数回归残差序列图,24,根据该残差序列图,可以考虑变量之间存在非线性关系的可能,因此可考虑采用泰勒级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。,25,第二节异常值,一、问题二、异常值的发现判断三、问题的处理,26,一、问题,现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。,27,如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非0的问题。例如变量Y和X在长期中的关系基本满足线性回归模型的各个假设,但在时刻有一个突发情况,使得Y出现一个C单位的暂时性波动。那么如果用线性回归模型:分析这两个变量的关系,其误差项的均值是:,28,显然不是对任意i都成立,也就是模型的假设(2)是不成立的。这种情况如果不作处理,线性回归分析的有效性也会受到不利影响。异常值会使回归分析结果出现较大偏差,参数估计量的性质和相关统计推断都会失效。,29,二、异常值的发现判断,发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及数据序列的直接分析等。残差序列分析也是从技术角度发现和判断异常值问题的基本方法。因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。,30,回归残差序列分析发现和判断异常值问题的方法,在模型假设成立的前提下,回归残差是服从正态分布的随机变量,其取值95%左右的概率应分布在均值加减2倍标准差的范围内。如果发现某个残差出现:其中是残差的标准差,模型在时点i处就很可能存在异常值问题。,31,上述回归残差序列分析等价于下列残差序列图分析。把根据回归残差序列和残差标准差计算出的/S数据序列,描绘到以i为横轴,以/S为纵轴的坐标平面上,再在纵轴的处画上两条水平的临界线。以误差序列中是否有点落在两条临界线范围之外作为判断异常值的初步标准。,32,图5.4异常值的残差序列图检验,33,用EViews软件进行回归分析可以直接输出残差序列图,并且在图形中包括有两倍标准差的临界值,因此可以直接根据EViews输出的残差序列图判断是否有异常值的可能性。如果有个别/S坐标落在两条临界线的范围以外,就意味着在i时点上有异常值。当然,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。,34,存在多个较大残差不能简单地认为是多个异常值,而是应该作进一步的深入分析,结合对其他问题的分析进行判断。此外,上述残差序列判断异常值的临界值标准是95%置信度的,当/S的绝对值落在2到3之间时,用95%的置信度判断有异常值,而用99%的置信度判断则可能没有异常值,因此仍然存在模糊的地方。这时候必须与问题背景分析结合起来考虑,并考虑各点残差相对情况等。,35,三、问题的处理,如果判断模型存在异常值问题,必须作针对性的处理。例如一个两变量线性回归模型,在处存在异常值问题:解决的方法是引进一个针对性的虚拟变量D,其定义式为:,36,把这个虚拟变量引进原来的模型,得到一个新的回归模型,因此在引进虚拟变量D的新模型中,异常值就不会造成模型误差项出现均值非0的问题了,从而可以保证回归分析的有效性。,37,例5-2消费函数模型的异常值问题,图5.5消费函数残差序列图,38,根据图中的残差分布可以看出,1996、2001和2002年的回归残差绝对值,都大于2倍的残差标准差,因此可能属于异常值。由于相比之下1996、1999、2000和2001四年的残差偏离更大,而在去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考虑引进四个虚拟变量。,39,再看引进虚拟变量后回归的下列残差序列图,则现在是有多点而不是个别点在2倍标准差临界值之外,而且都离临界值不远,并且2倍标准差的临界值范围也比未引进虚拟变量时小了许多,因此可不再认为存在异常值。,40,图5.6引进虚拟变量后的回归残差,41,第三节规律性扰动,一、问题二、问题的发现和判断三、问题的处理,42,一、问题,周期性或其他规律性扰动,也会使线性回归模型的误差项偏离零均值假设。周期性扰动比较典型的例子是商业销量指标的季节性变化。这些问题并不影响变量关系的总体趋势,但都会对变量关系产生规律性的影响,如果不预先加以处理或排除掉,就会导致误差项均值非0问题的出现,影响回归分析的效果。,43,例如变量Y的季度数据中,第一季度总是受到一个季节性因素的影响。如果我们忽视这种影响,用两变量模型或多元模型研究Y规律,就会遇到误差项均值非0问题,44,二、问题的发现与判断,由规律性扰动导致的误差项均值非零问题的发现、判断和处理,与异常值问题基本相似。在发现和判断方面,经济问题的背景分析,以及同样的回归残差序列分析,基本上都可以适用于规律性扰动问题。规律性扰动在残差序列图上会表现为多个有规律的较大残差,可以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。,45,三、问题的处理,解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另一种问题,就是误差序列自相关问题(以后会介绍)。因此平滑处理并不是克服规律性扰动对线性回归分析影响的好方法。,46,处理规律性扰动问题的较好方法也是引进虚拟变量,但有时需要引进多个虚拟变量。以上面第一季度存在季节性因素影响的问题为例。如果在这个例子中,使用虚拟变量,47,把模型改为或Y那么新模型就不再存在误差项均值非0的问题,回归分析的效果就能得到保证。如果第一季度受到一种季节性因素扰动,第三季度受到另一种方向和力度不同因素的扰动。那么可以引进两个虚拟变量,48,把这两个虚拟变量同时引入模型,模型变为或Y新模型同样可以避免由于上述季节性扰动所导致的误差项均值非0问题。在对截面数据的计量经济分析中,观测对象特征差异导致的规律性扰动,也可以利用虚拟变量加以处理。,49,利用虚拟变量解决规律性扰动需要注意的是,引进虚拟变量是有限度的,需要谨慎,不能随意引进。因为引进更多虚拟变量意味着要估计更多参数和损失自由度,对回归分析的效果有不利影响。此外引进虚拟变量还可能落入“虚拟变量陷阱”。,50,例如如果上述季节性扰动模型中同时引进对应全部四个季节的,按照类似规则定义的四个虚拟变量为、和,那么这四个虚拟变量满足相加和为1。同时出现在一个模型中必然导致解释变量严格线性相关,导致模型的崩溃。因此在计量经济分析中引进虚拟变量时需要谨慎,要注意避免虚拟变量陷阱。,51,第四节解释变量缺落,一、问题二、发现与判断,52,一、问题,除了异常值和规律性扰动以外,还有一些定式偏差,如解释变量缺落和参数改变,也是引起误差项均值非0问题的常见原因。所谓解释变量缺落就是线性回归模型设定的变量关系中,忽略了某些具有重要的,对被解释变量有趋势性影响的因素。解释变量缺落会引起误差项均值非0很容易理解,因为被忽略的因素对被解释变量的影响,会在误差项中表现出来,导致误差项不再是纯粹的随机扰动。,53,例如若真实变量关系应该为其中满足及多元线性回归模型的其他假设。如果建模时忽略了其中的变量,即采用变量关系那么其中的误差项,54,满足由于、和之间不存在线性关系,不可能始终等于0。因此缺落重要解释变量的线性回归模型,必然违反误差项0均值的假设。,55,二、发现与判断,发现和判断解释变量缺落或模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。在原模型回归分析的基础上对回归残差序列进行分析,如果发现残差序列有某种趋势性,那么可以根据问题背景考虑是否忽略了有重要性的因素。,56,若以怀疑缺落的变量为横轴,残差e为纵轴,作残差序列分布图。如发现和e确实有相关性,如图所示,可初步认为模型缺落了。,57,解释变量缺落和模型参数改变问题的处理方法比较简单,因为针对性地加入所缺落的变量,或根据参数改变的时间分不同时期段进行分段回归,就可以解决这些问题。,58,第五节参数变化,一、问题二、发现和判断,59,一、问题,参数改变指在考察期间(样本数据观测范围),变量关系中的参数发生变化,就是变量关系本身发生变化。这时实际上不能用同一个线性回归模型研究变量在整个考察期间的关系。如果忽略这种模型参数变化,也会导致误差项均值非0问题。,60,以两变量线性关系在考察期0,T中的t时刻参数发生变化为例。真实的变量关系可以用0,t和(t,T)两个时期中的两个模型分别表示其中和都满足均值为0和线性回归模型的其他假设,且,。,61,如果忽略了模型参数的上述变化,简单地用同一变量关系,代表Y和X在整个0,n时期的关系,那么因为在两个时期中模型的误差项分别为:因此两个时期误差项的均值分别为,62,很显然,除非和同时成立,否则的均值不可能在两个时期都始终为0。如果两个等式同时成立,就意味着两个时期参数没有变化,与假设的情况不一致。因此在参数发生改变时,必然导致误差项均值非0的问题。,63,二、发现与判断,发现和判断模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。如果以i为横轴,残差e为纵轴的残差序列分布,存在某个时刻附近转折的情况,如图5.8所示,应该考虑变量关系在该时刻可能存在参数改变。,64,图5.8参数变化,65,根据情况分析和残差序列图的判断不是绝对可靠的,问题典型性不强时更难下结论。而且变量关系非线性、解释变量缺落和参数变化等问题在残差分布中的表现往往很相似,因此准确识别的难
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年低空经济产业集群技术创新方向报告
- 茶叶种植合同协议书模板
- 劳动保障事物代理委托协议书
- 2026-2031中国光电传感器行业市场调研与投资趋势研究报告(定制版)
- 2025年电子商务运营岗位实操考核试卷及答案
- 坍塌事故应急预案处置措施
- 2025年艾滋病防控知识考察试题及答案解析
- 2024届鲁科版新教材高考物理一轮复习教案第六章机械能守恒定律第4讲功能关系能量守恒定律
- 2025年专利代理师考试试题及答案
- 2025年酒店管理师职业技能认证考试试题及答案解析
- 冲压车间安全培训
- 食品加工机械与设备题库+参考答案
- 2023年护理人员分层培训、考核计划表
- 【7上英WY】合肥市蜀山区2024-2025学年七年级上学期期中考试英语试卷
- 长津湖课件教案
- 简约蓝色保安交接班记录表
- 关于新疆土地承包合同模板
- 第五章第一节《天气与天气预报》课件-2024-2025学年地理湘教版七年级上册
- 债务重组垫资协议书范本
- 专题02 数轴上动点问题的三种考法(解析版)-2024年常考压轴题攻略(7年级上册人教版)
- 抑郁病诊断证明书
评论
0/150
提交评论