设定误差与测量误差_第1页
设定误差与测量误差_第2页
设定误差与测量误差_第3页
设定误差与测量误差_第4页
设定误差与测量误差_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

设定误差与测量误差引子:简单一定胜于复杂吗?

西方国家盛行“Occam`srazor”原则,意思是“简单优于复杂”的节约性原则。经济模型永远无法完全把握现实,在建立模型中一定的抽象和简化是不可避免的。在研究进口与国内生产总值的关系时,考虑到时间趋势,建立并估计了以下模型

第2页,共61页,2024年2月25日,星期天

有人根据“简单优于复杂”原则,得到以下方程:

(2)

进行比较:两个方程的检验结果都较理想;

方程(2)GDP的t检验值似乎优于方程(1);方程(2)函数形式也更为简单;然而,能否根据“Occam’srazor”原则,判断方程(2)比方程(1)好?第3页,共61页,2024年2月25日,星期天对模型的设定是计量经济研究的重要环节。前面各章除了对随机扰动项分布的基本假定以外,还强调:

假定设定的模型对变量和函数形式的设定是正确地描述被解释变量与解释变量之间的真实关系,假定模型中的变量没有测量误差。但是在实际的建模实践中,对模型的设定不一定能够完全满足这样的要求,从而会使模型出现设定误差。第4页,共61页,2024年2月25日,星期天第九章设定误差与测量误差本章主要讨论:●设定误差●设定误差的检验●测量误差第5页,共61页,2024年2月25日,星期天

第一节设定误差本节基本内容:●设定误差及类型●变量设定误差的后果

第6页,共61页,2024年2月25日,星期天一、设定误差及类型

计量经济模型是对变量间经济关系因果性的设想,若所设定的回归模型是“正确”的,主要任务是所选模型参数的估计和假设检验。但是如果对计量模型的各种诊断或检验总不能令人满意,这时应把注意力集中到模型的设定方面:

考虑所建模型是否遗漏了重要的变量?是否包含了多余的变量?所选模型的函数形式是否正确?随机扰动项的设定是否合理?变量的数据收集是否有误差?所有这些,计量经济学中被统称为设定误差。第7页,共61页,2024年2月25日,星期天从误差来源看,设定误差主要包括:(1)变量的设定误差,包括相关变量的遗漏(欠拟合)、无关变量的误选(过拟合);(2)变量数据的测量误差;(3)模型函数形式的设定误差;(4)随机扰动项设定误差。本章主要讨论的两类变量设定误差:(1)相关变量的遗漏(欠拟合);(2)无关变量的误选(过拟合)。设定误差的类型第8页,共61页,2024年2月25日,星期天

1.相关变量的遗漏

(OmittingRelevantVariables)例如,如果“正确”的模型为而我们将模型设定为

即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量(“欠拟合”)。第9页,共61页,2024年2月25日,星期天

2.无关变量的误选

(IncludingIrrevelantVariables)

例如,如果“真实模型”为:但我们却将模型设定为即设定模型时,多选了一个无关解释变量。这类错误称为无关变量的误选(“过拟合”)。第10页,共61页,2024年2月25日,星期天●数据来源渠道可能不畅。例如,数据很难取得被迫将具有重要的经济意义变量排斥在模型之外。●不知道变量应当以什么确切的函数形式出现在回归模型中。●事先并不知道所研究的实证数据中所隐含的真实模型究竟是什么。设定误差在建模中较容易出现。设定误差的存在可能会对模型形成不良的后果。设定误差的原因第11页,共61页,2024年2月25日,星期天二、变量设定误差的后果当模型设定出现误差时,模型估计结果也会与“实际”有偏误;

偏误的性质与程度与模型设定误差的类型密切相关。从实质上看,变量设定误差的主要后果,是一个或多个解释变量与随机扰动项之间存在着相关性,进而影响参数估计的统计特性。第12页,共61页,2024年2月25日,星期天1.

遗漏相关变量(欠拟合)偏误采用遗漏了重要解释变量的模型进行估计而带来的偏误,称为遗漏相关变量偏误。

设正确的模型为:正确模型离差形式为:第13页,共61页,2024年2月25日,星期天却对方程进行回归,得:取期望第14页,共61页,2024年2月25日,星期天遗漏变量设定误差的后果由此可以看出,的遗漏将产生如下后果。两边取概率极限,有:第15页,共61页,2024年2月25日,星期天1.如果漏掉的与相关,则分别在小样本下求期望、在大样本下求概率极限,有:2.如果与不相关,则的估计满足无偏性与一致性第16页,共61页,2024年2月25日,星期天3.的方差是方差的有偏估计:

第17页,共61页,2024年2月25日,星期天如果与相关,显然有如果与不相关,也有4.遗漏变量,式中的随机扰动项的方差估计量将是有偏的,即:5.与方差相关的检验,包括假设检验、区间估计,在关于参数的统计显著性方面,都容易导出错误的结论。

第18页,共61页,2024年2月25日,星期天(1)

若但实际情形并不完全如此。可以注意到残差平方和RSS的计算因此,有可能:第19页,共61页,2024年2月25日,星期天(2)若不相关,有似乎分别有:若这两个等式成立,意味着尽管变量,在理论上分析是有关的变量,但从所选模型中略去似乎也不会导致什么危害。这种认识实际也不正确。第20页,共61页,2024年2月25日,星期天因为的有偏估计,即使不相关,也有致使假设检验程序很有可能是可疑的。必须清楚,一旦根据相关理论把模型建立起来,再从中遗漏变量需要充分地谨慎。第21页,共61页,2024年2月25日,星期天2.包含无关变量偏误定义:模型中包括了不重要的解释变量,即采用误选了无关解释变量的模型进行估计而带来的偏误,称为包含无关变量偏误设正确模型但却估计了如果,则(2)与(1)相同,因此,可将(1)式视为以为约束的(2)式的特殊形式。采用OLS法对(2)进行估计,有:第22页,共61页,2024年2月25日,星期天将(1)式的离差形式代入,整理得:期望和方差:第23页,共61页,2024年2月25日,星期天

无关变量的设定误差的后果1.可以证明,(2)式参数的OLS估计量是无偏,且为一致性的。即:同理,可证明:第24页,共61页,2024年2月25日,星期天2.

不是有效估计量:

此结论对也成立。3.

随机误差项的方差的估计仍为无偏估计。4.

通常的区间估计和假设检验程序依然有效,但方差增大,接受错误假设的概率会较高。

第25页,共61页,2024年2月25日,星期天(1)遗漏相关变量将导致参数估计量和假设检验有偏且不一致;(2)误选无关变量虽参数估计量具无偏性、一致性,又会损失有效性。(3)注重检验的无偏性、一致性宁愿误选无关变量也不愿遗漏相关变量;(4)注重估计量的有效性,宁愿删除相关变量。

通常误选无关变量不如遗漏相关变量的后果严重。

因此,模型的设定实际是对偏误与有效进行权衡,偏爱哪一方取决于模型的研究目的。遗漏相关变量和误选无关变量的比较第26页,共61页,2024年2月25日,星期天第二节设定误差的检验本节基本内容:●DW检验●拉各朗日乘数检验●一般性检验第27页,共61页,2024年2月25日,星期天对变量设定误差进行检验必须在经济理论指导下进行,不可抛弃经济理论而进行假设检验。对于是否误选无关变量的检验,只要针对无关变量系数的期望值为零的假设,用t检验或F检验,对无关变量系数作显著性检验即可。对于遗漏变量设定误差的检验有多种方法,例如DW检验、拉格朗日乘数检验、豪斯曼检验、RESET一般性检验等。这里只讨论设定误差的一些最常用的检验方法。第28页,共61页,2024年2月25日,星期天

基本思想:

遗漏的相关变量应包含在随机扰动项中,那么回归所得的残差序列就会呈现单侧的正(负)相关性,因此可从自相关性的角度检验相关变量的遗漏。 从遗漏变量的模型看,可以认为遗漏变量模型是无遗漏变量模型的一个特例:被遗漏变量的系数为0。一、DW检验第29页,共61页,2024年2月25日,星期天,DW检验的具体步骤1.对回归模型运用OLS法得残差序列2.设定

按遗漏解释变量的递增次序对残差序列,进行排序,对排序后的残差序列,计算d统计量:第30页,共61页,2024年2月25日,星期天

3.

查Durbin-Watson表,若为显著,则拒绝原假设,受约束回归模型不成立,存在模型设定误差,否则接受原假设,受约束回归模型成立,模型无设定误差。第31页,共61页,2024年2月25日,星期天对下表的数据设定总生产成本函数,准备使用如下三个备选模型:有(1)为真实模型,试用DW法检验模型设定误差。举例第32页,共61页,2024年2月25日,星期天总成本()产出()1193122262324034244452575626067274782978935091042010第33页,共61页,2024年2月25日,星期天三个模型分别代入数据回归(1)(2)第34页,共61页,2024年2月25日,星期天本例中遗漏变量已按递增次序排列,此时的值等于值,无需重新计算d统计量。(3)第35页,共61页,2024年2月25日,星期天对上述模型的DW统计量的分析及查表情况如下:1.模型(1):有=2.70,当时=0.525,=2.016,不能表明存在显著的正相关关系,接受H0,表示没有遗漏的变量。2.模型(2):有=1.038,当时=0.697,=1.641。显然有0.697<1.038<1.641,属于无法确定的区域。在没有其他信息的前提下,最好认为存在遗漏变量。第36页,共61页,2024年2月25日,星期天

3.

模型(3):

有=0.716,当时,

=0.879,=1.320

,显然存在正的自相关,拒绝,表明存在遗漏变量;

第37页,共61页,2024年2月25日,星期天二、拉格朗日乘数(LM)检验

基本思想:●模型中遗漏的相关变量包含在随机扰动项中,因此随机扰动项或回归所得的残差序列应与遗漏的相关变量呈现出某种依存关系。●可以进行残差序列与相关变量的回归,在一定显著水平下若相关变量具有统计显著性,则认为存在遗漏变量形成的设定偏误,若相关变量不具有统计显著性,则认为没有遗漏变量形成的设定误差。第38页,共61页,2024年2月25日,星期天

具体步骤

1.对存在遗漏变量设定偏误的模型(受约束回归模型)进行回归,得残差序列;2.用残差序列对全部的解释变量(包括遗漏变量)进行回归,得可决系数;3.设定:受约束回归模型:无约束回归模型。在大样本情况下,构造检验统计量,渐近地遵从(约束个数)

4.进行显著性检验的判断:若(约束个数),则拒绝,认为受约束模型不成立,存在遗漏变量;否则,接受,认为受约束模型成立,无遗漏变量。

第39页,共61页,2024年2月25日,星期天第四节案例分析问题:以引子中所提出的问题为例,分析影响中国进口量的主要因素。设定模型(1)

其中:是进口总额,是国内生产总值。分析模型是否有变量设定误差,进行变量设定误差检验。第40页,共61页,2024年2月25日,星期天有人认为,货物与服务的进口量受到一国的生产规模、货物与服务的进口价格、汇率等其他影响因素,而不能只仅用GDP来解释商品进口的变化。因此,设定的回归模型应该为:

其中:GDP为国内生产总值,为GDP的线性函数;Exchange为美元兑换人民币的汇率,为Exchange的线性函数。如果是这样,回归模型(1)的设定式中可能遗漏了变量GDP、Exchange以及两者的线性组合。那么两者的线性组合是否被遗漏的重要变量呢?

第41页,共61页,2024年2月25日,星期天

基本关系图第42页,共61页,2024年2月25日,星期天对模型(1)进行回归,有回归结果:第43页,共61页,2024年2月25日,星期天显然,存在自相关现象,其主要原因可能是建模时遗漏了重要的相关变量造成的。作模型(1)回归的残差图

第44页,共61页,2024年2月25日,星期天1.DW检验

模型(1)的=0.5357,表明存在正的自相关。由于遗漏变量Exchange或GDP已经按从小到大顺序排列,因此,无需重新计算d统计量。对=24,=1,5%的德宾-沃森d统计量的临界值为=1.273和=1.466,表明存在显著的遗漏变量现象。第45页,共61页,2024年2月25日,星期天DependentVariable:IM Method:LeastSquares Date:08/06/05Time:23:41 Sample(adjusted):19812003 Includedobservations:23afteradjustments

Variable CoefficientStd.Errort-Statistic Prob.

C -224.36321892.132-0.118577 0.9069 GDP 1.1482590.1514337.582606 0.0000 GDP(-1) -0.822444 0.147359-5.581213 0.0000 EXCHANGE-4.290746 8.348744-0.513939 0.6135 EXCHANGE^2-0.0186370.008353-2.231162 0.0386 R-squared0.978691Meandependentvar 8434.222 AdjustedR-squared0.973956

S.D.dependentvar 9025.326 S.E.ofregression 1456.525Akaikeinfocriterion 17.59515 Sumsquaredresid38186370Schwarzcriterion 17.84200 Loglikelihood -197.3443

F-statistic 206.6799 Durbin-Watsonstat1.962659

Prob(F-statistic) 0.000000其中,Exchange系数的统计意义不显著,剔除。再次回归,结果见下页表。第46页,共61页,2024年2月25日,星期天DependentVariable:IM Method:LeastSquares Date:08/06/05Time:23:53 Sample(adjusted):19812003 Includedobservations:23afteradjustments

Variable Coefficient Std.Error t-Statistic Prob.

C -1159.179 511.0396 -2.268276 0.0352 GDP 1.142897 0.148119 7.716070 0.0000 GDP(-1) -0.815842 0.143928 -5.668420 0.0000 EXCHANGE^2-0.022569 0.003291 -6.857844 0.0000

R-squared 0.978378

Meandependentvar8434.222 AdjustedR-squared 0.974965

S.D.dependentvar 9025.326 S.E.ofregression 1428.041

Akaikeinfocriterion 17.52277 Sumsquaredresid 38746720

Schwarzcriterion 17.72024 Loglikelihood -197.5118

F-statistic 286.5846 Durbin-Watsonstat 2.047965

Prob(F-statistic) 0.000000可以认为,这时模型设定无变量设定误差。第47页,共61页,2024年2月25日,星期天2.LM检验按照LM检验步骤,首先生成残差序列(用EE表示),用EE对全部解释变量(包括遗漏变量)进行回归,有:

第48页,共61页,2024年2月25日,星期天再计算查表,显然,,接受无约束回归模型的假设,即确实存在遗漏变量。因此,在本章的引子中,不能判断虽然简单但遗漏了重要变量的方程(1)比复杂的方程(2)更好。结论第49页,共61页,2024年2月25日,星期天对于观测不到的变量使用代理变量考虑下面模型:其中是不可观测的,我们有相信其对被解释变量有显著影响,需要找到一个可观测的变量代替它来得到参数和的无偏估计。这样的变量我们称为代理变量。第50页,共61页,2024年2月25日,星期天利用WAGE2.RAW中数据,将IQ作为能力的代理变量。解释变量有:educ,exper,tenure,married,south,urban,black,IQ,educ*IQ回归结果(略)第51页,共61页,2024年2月25日,星期天有测量误差的OLS性质带测量误差的变量是具有完好定义的定量含义,但我们对它的记录可能包含了误差。而代理变量是对一个完全观测不到的变量找一个与其有联系的变量。在测量误差问题中,被误测的变量通常是关心的焦点;而在代理变量中,我们通常关心的是被遗漏变量之外的其他变量。第52页,共61页,2024年2月25日,星期天因变量中的测量误差设回归模型为:并且假定其满足高斯——马尔可夫假定。另y表示观测到的对实际值的度量,它们之间存在误差:带入模型得到:第53页,共61页,2024年2月25日,星期天如果假定测量误差与解释变量统计上是独立的,那么OLS估计量是无偏的。假定e和u不相关从而会导致OLS估计量的方差变大,影响其显著性。总体说来OLS性质是良好的。第54页,共61页,2024年2月25日,星期天解释变量中的测量误差考虑如下模型:其中存在观测误差,观测值为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论