chapter9模型设定.ppt_第1页
chapter9模型设定.ppt_第2页
chapter9模型设定.ppt_第3页
chapter9模型设定.ppt_第4页
chapter9模型设定.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章 模型设定和数据问题的深入探讨,9.1函数形式误设 9.2对无法观测解释变量使用代理变量 9.3随机斜率模型 9.4有测量误差时OLS的性质 9.5数据缺失、非随机样本和异常观测,9.1函数形式的误设,回忆经典线性模型中一个隐含的假设:回归模型是正确设定的 如果模型未被正确设定,那么我们就遇到“模型设定误差”或“模型设定偏误”. 1.我们如何发现模型是“正确的”? 2.我们经常会遇到哪些类型的“模型设定误差”? 3.设定误差的后果有哪些? 4.如何检验设定误差? 5.采取那些补救措施? 6.如何评价几个表现不相上下的模型的优劣?,9.1.1模型选择准则,数据容纳性:从模型所作出的预测符合逻辑 与理论一致 回归元的弱外生性:解释变量与误差不相关 参数不变性:参数值稳定,否则预测会困难 表现出数据的协调性:残差必须完全随机 模型具有包容性:其他模型都不可能再改进我们的模型。,9.1.2模型设定误差的类型及危害,遗漏有关变量很可能产生偏误 包含一个无关变量估计量方差变大 采用了错误的函数形式 测量误差 对随机误差项不正确的设定 随机误差项是以乘积形式进入模型,还是以相加形式进入模型。,9.1.3模型设定误差的检验 9.1.3.1检验是否含有无关变量,通过t-检验去检验一个变量参数的显著性。 通过F-检验去检验一组变量参数的显著性。,注意,并不能完全依赖统计检验, 还要注意经济或实际上的显著性。,9.1.3.2检验遗漏变量和函数形式误设,残差分析:可用于检验遗漏变量和函数形式误设,逐渐趋于真实模型,回归设定误差检验(RESET) 思路: 如果下面的模型满足MLR.4 那么如果在模型中添加自变量的非线性关系应该是不显著的。,RESET检验的过程:,考虑扩大方程 y = b0 + b1x1 + + bkxk + d12 + d13 +u 检验H0: d1 = 0, d2 = 0 注意:FF2,n-k-3 or LM22,自由度: n-k-1-2,Example:住房价格方程,比较两个模型的RESET统计量: Price= b0+b1lotsize+b2sqrft+b3bdrms+u F=4.67,p=0.012 lPrice= b0+b1llotsize+b2lsqrft+b3bdrms+u F=2.56,p=0.084,被拒绝,不能被拒绝,9.1,小结:,RESET检验的优势是不需要设立对立模型 RESET检验的重要缺陷是如果方程被拒绝,它不能告诉我们应该如何修正我们的错误模型。,9.1.4对非嵌套模型的检验,如果我们要在下列两个非嵌套模型中选择: 我们可以使用两类方法 判别方法 检验方法,判别方法,两个模型优劣判断必须基于相同的因变量 然后基于R2或调整的R2来判断 还有其他准则可以用以判断:赤池信息准则(AIC)、施瓦兹信息准则(SIC)和马娄斯的Cp准则,赤池信息准则(AIC),对模型中增加回归元施加了更严厉的惩罚 在比较两个模型时,具有最低AIC的模型优先 AIC的优越性在于,不仅适用于样本内预测,还适用于预测样本外模型的表现。 嵌套模型、非嵌套模型都适用。,施瓦兹信息准则(SIC),对模型中增加回归元施加了比AIC更严厉的惩罚 SIC的值越低越好 SIC也可以用于比较模型在样本内与样本外的预测表现。,马娄斯的Cp准则(软件不能给出),若模型有p个回归元,则 若模型是正确设定的,则 注:上述几个准则,不存在谁更优于谁,检验方法,方法一:(Mizon and Richard,1986) 分别检验:,综合模型,检验(2),检验(1),这种检验程序存在的问题,(1)(2)两模型中的回归元如果存在高度相关,则综合模型就存在高度多重共线性。这可能使正确模型中的参数检验不显著。,(2)的拟合值,方法二:戴维森-麦金农 J检验 思想:如果(1)正确,那么(2)中的拟合值y在(1)中作为解释变量时应该是不显著的。 对模型 检验: 对模型 检验:,不能拒绝则说明1兼容2,(1)的拟合值,不能拒绝则说明2兼容1,评价J检验:,可能两个模型都被拒绝,或都没有被拒绝。那么我们就得不到明确的答案。 检验中拟合值的t统计量是渐近的服从t分布的,因此,在小样本中,J检验会过多的拒绝真模型。,9.2对无法观测的解释变量使用代理变量 9.2.1代理变量和植入解,考虑工资模型,如果因为无法观测而放入误差项,则可能会导致严重偏误,这时考虑代理变量IQ,可以测量,与无法观测的变量高度相关,无法观测的变量,遗漏变量问题的植入解,植入解得到无偏估计量的假设:,u与x1、x2、x3*以及x3都不相关 v3与x1、x2、x3都不相关 E(x3* | x1, x2, x3) = E(x3* | x3) = d0 + d3x3 y = (b0 + b3d0) + b1x1+ b2x2 + b3d3x3 + (u + b3v3),新截距,代理变量的斜率,新误差项,无偏估计量,代理变量只与x3有关,与其他自变量无关,如果代理变量与其他自变量也相关,则会出现偏误!,偏误,9.3,9.2.2用滞后因变量作为代理变量,如果无法确定遗漏变量的代理变量究竟应该是什么,那么可以选择较早时期的因变量作为代理变量。 例如,某些城市过去有较高的犯罪率,同时导致现在和过去犯罪率很高的无法观测因素中,许多都是相同的。,Example:城市犯罪率,Crime表示人均犯罪次数,unem表示城市失业率,expend表示执法的人均支出,crime-1表示以前某个年度的犯罪率,9.3随机斜率模型,如果一个变量的偏效应是随某些无法观测的因素而变化的,这就会产生随机斜率模型。 例如:工资方程,对于不同的人,多读一年书的偏效应是不同的取决于个人能力,对于没有读过书的人,工资水平是不同的取决于个人能力,对于我们的n个观测者:,我们有n个ai,=E(ai) 我们有n个bi,=E(bi) 对于某个观测者,如果ai=+ci, bi=+di其随机斜率模型为: y=ai+bixi=+ci+(+di)xi=+xi+ui 其中ui=ci+dixi,平均边际效应,平均截距,随机斜率模型可以写为常系数模型,但是其误差与x有关异方差,随机斜率模型是否有偏?,E(ui|x)= E(ci|x) +xi E(di|x) = E(ai|x)-+ xi E(bi|x)- 如果E(ai|x)=,E(bi|x)=则E(ui|x)=0,ui=ci+dixi,注意到:ai=+ci, bi=+di,注意=E(ai),=E(bi),允许斜率因人而异,但只要他们的均值独立于解释变量,则OLS估计量就是无偏的,9.4有测量误差时OLS的性质,测量误差是模型设定偏误的又一种情况 测量误差来自于两种情况 1.因变量的测量误差 2.自变量的测量误差,9.4.1因变量中的测量误差,测量误差的例子:我们想要“家庭年收入”,但是被调查者只为我们提供了家庭成员的工资总收入,实际上投资收益被忽略了,此时产生了测量误差。 令y*表示因变量的真实值,y表示观测值 测量误差e=y-y*,存在测量误差会导致OLS估计量的性质发生什么变化?,测量误差的均值为0,且测量误差和解释变量无关,对于真实情况(满足高斯-马尔科夫假定) 而我们回归的方程为 如果也满足满足高斯-马尔科夫假定,则估计量是有效地,即 E(e|x)=0 存在测量误差时,误差方差会增大。,小结:,如果因变量的测量误差与解释变量系统相关,则会导致OLS的偏误。 如果测量误差只是一个与解释变量无关的随机误差,则OLS完全适用,但会加大估计量的方差。,9.4.2解释变量中的测量误差,令x*表示因变量的真实值,x表示观测值 对于解释变量x1的测量误差e1=x1-x1* 假设E(e1)=0,E(u- 1e1 |x)=0?,0(根据假定),e1=x1-x1*,自变量测量误差在两类假定下的影响,保证了估计量的一致性,误差方差加大,假定一:Cov(x1,e1)=0 E(u- 1e1 |x1)=0 Var(u-1e1) Var(u) 假定二(经典变量误差假定CEV):Cov(x1*,e1)=0 Cov(x1,e1)=E(x1e1) = E(x1*e1)+E(e12)=Var(e1) Cov(x1,u-1e1)=- 1 Var(e1),在CEV假定下,OLS将给出有偏的不一致的估计量,在CEV假定下的偏误,回忆第5章渐进偏误的定义: 在CEV假定下的偏误,衰减偏误,小结:,如果自变量存在测量误差,且满足CEV,则估计量会产生衰减偏误。 但如果测量误差的方差Var(e1)相对于自变量真实值的方差Var(x1*)很小的话,则测量误差不会导致很大偏差。,这时,我们可以忽略自变 量测量误差导致的偏误。 但困难在于Var(e1)和 Var(x1*)不易观测。,另一种方法是使用工具变量或代理变量,它们与观测值X高度相关,但与方程误差和测量误差(、e)都不相关。那么我们就能得到的一致估计。 因此,自变量的观测值要尽量准确。,也比较困难,9.5数据缺失、非随机样本和异常观测 9.5.1数据缺失(missing data),如果一个观测缺失了其因变量或一个自变量,那么这个观测就不能用于多元回归分析。 如果数据是随机缺失的,那么除了减少了样本容量而导致估计量没有那么准确以外,不会引起任何偏误。,9.5.2非随机样本,如果数据缺失是非随机的,那么将导致样本变为非随机样本。,在婴儿出生的数据集中,如果受教育程度低的人 缺失数据的概率大。,违背MLR.2,外生样本选择不会有偏误,内生样本选择会有偏误,外生样本选择:基于自变量 例如 内生样本选择:基于因变量 例如,假设我们针对35岁以上的人群调查,则得到非随机样本不会导致偏误,假设我们针对财富不足25万的人群调查,也得到非随机样本导致偏误,9.5.3异常观测,异常观测值也可以定义为残差很大的观测值。 如果将一个观测从数据集中去掉会使得OLS估计量发生很大变化,则这个观测就是异常观测。,这个很大的残差会因为它 和回归线的垂直距离很大 而把回归线向自己拉近, 从而改变回归线的斜率。,异常数据的性质,对所有数据的OLS线,除去异常观测值的OLS线,不是异常观测值,是异常观测值,由于OLS是对残差平方进行最小化,所以OLS估计量对异常观测值十分敏感。 一组观测值中可能不止一个异常观测值。 不加思索的将异常观测值从样本中去掉不是明智的选择。除非异常观测是由于记录发生错误而导致,否则异常观测值可能记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论