全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章 模型设定和数据问题的深入专题摘要: 异方差被看成是模型误设的一种,但不是最重要的一种。更重要的是解释变量和误差u相关(MLR.4不成立),也就是所谓的内生性问题(endogenous explanatory variable)。本章讨论造成内生性问题的三种情况,以及补救措施。9.1 函数形式误设(Functional Form Misspecification)考虑小时工资的总体方程:wage=0+1educ+2exper+3exper2+u,如果遗漏掉exper2会有什么影响?在该例子中变量都取水平值,而如果实际情况是因变量取对数值呢?上述问题就属于模型的函数形式误设问题(functional form misspecification),该问题的直接后果是往往造成内生性问题。如此需要对模型进行误设检验!由于多项式函数是任意函数的一个很好逼近,如此可以建立含自变量平方项和交叉项的新模型,然后进行F检验。该模型误设检验被称为Ramsey回归误设检验(Ramseys (1969) regression specification error test ,RESET)。事实上,如果原模型:y=0+1x1+2x2+kxk+u, (9.1)满足MLR.1-MLR.4, 那么在原模型添加自变量的非线性关系应该是不显著的。因此,将原模型扩大为如下的模型:y=0+1x1+2x2+kxk+1y2+2y3+v, (9.2)把(9.2)设为无约束模型,检验非线性关系是否显著,即原假设为: H0:1=2=0, 在原假设下,得到受限模型(9.1). 所建立的联合检验的F统计量渐近服从F2,n-k-3分布,或者建立LM统计量,其服从自由度为2的开方分布。几点说明:1) 模型(9)中自然可以加入自变量的二次项、交叉项和三次项,但会丧失很多自由度;2) 拒绝了原假设,RESET检验并没有提供一个非线性的函数关系,这也是任何非线性检验都无法做到的;3) RESET可以用于异方差检验,但是在模型设定正确等情况时,它不能检验出异方差。 l 对非嵌套模型的检验如果实际情况是需要对变量进行处理后,比如取对数后,然后线性模型设定才是正确的,此时模型属于非嵌套模型检验。例如,你是倾向于wage=0+1educ+2exper+u, (9.3)还是wage=0+1log(educ)+2log(exper)+u. (9.4)有两种方法,一种是Mizon-Richard检验 (Mizon and Richard,1986):先建立一个综合模型:wage=0+1educ+2exper+3log(educ)+4log(exper)+u,然后检验原假设H0:1=2=0,或者H0:3=4=0。另一种是Davidson-MacKinnon检验(Davidson-MacKinnon test,1981),即如果(9.4)成立,那么将(9.4)式的拟合值wage代入(9.3),其回归系数是不显著的:wage=0+1educ+2exper+3wage+u。上述过程也可以反过来操作。几点说明:1) 两个非嵌套模型都有可能被拒绝或接受;2) 拒绝其中的一个模型,并不意味着另一个模型就是正确的;3) 对于因变量函数形式不同的检验,比较困难,见Wooldridge(1994a).9.2 对无法观测的解释变量使用代理变量 假定log (wage)=0+1educ+2exper+3abil+u, 但是由于我们没有很好地界定什么是abil,从而其无法收集数据,最终这个关键变量在计量建模时不得不被遗弃,这样做的后果,显然是我们得到的OLS估计是有偏的估计。处理的办法有两种,一种是建模时,就引入一个能计量的abil指标比如IQ,讨论IQ的工资效应。另一种被称为代理变量(proxy variable)法,即引入一个能替代abil的可计量的变量,比如IQ。假如模型:y=0+1x1+2x2+3x3*+u, (9.5)满足高斯-马尔科夫假定,但是x3*不可观测。我们找到了其的一个可计量的代理变量x3,满足:x3*=0+1x3+v, (9.6) 显然若x3是一个合理的代理变量,那么其和x3*应该正相关(而且相关性越强越好)。直接用y对x1,x2,x3做回归,所得估计被称为遗漏变量问题的植入解(plug-in solution to the omitted variables problem). 但要得到1,2的无偏和一致估计,还需要进一步的假设:1) 误差u和x1,x2,x3*,x3都不相关, 或者E(u|x1,x2,x3*,x3)=0;2) 误差v和x1,x2,x3都不相关。即Ex3*|x1,x2,x3= Ex3*|x3=0+1x3.如此,将(9.6)代入(9.5)式得:y=0+0+1x1+2x2+31x3+u+3v;容易看出该模型满足高斯-马尔科夫假定。几点说明:1) 如果不可观测的x3*和x1,x2相关,如何调整;2) 有时如果有历史数据,可以将y的滞后变量作为代理变量;3) 预测是建模的另一个目的,此时我们不关心系数偏误的问题,而只关心能否预报和预报的准确性。9.3 随机斜率模型如果截距系数和斜率也会因个体变化而不同,那么我们得到了一个随机系数模型或者随机斜率模型(a random coefficient model or random slope model):yi=ai+bixi, (9.7)显然(9.7)是无法估计的。我们可能更希望知道斜率和截距的平均值,定义为=E(ai),=E(bi),其中的被称为平均边际效应(average marginal effect , AME)或者平均偏效应(averagepartial effect , APE). 进一步记,ci=ai-,di=bi-,那么(9.7),变为yi=+xi+(ci+dixi)=+xi+u, (9.8)模型(9.8)满足无偏性的一个充分条件显然是E(cixi=0和Edixi=0或者E(aixi=E(ai)和Edixi=Edi.(9.8)式显然具有异方差,事实上Varuxi=Varci+xi2Var(di),假设Cov(ci,di|xi)=0. 我们有办法对(9.8)的异方差进行处理。几点说明:1) 我们不能区分常数斜率,随机截距具有异方差性的模型和斜率、截距同时具有异方差性的模型;2) 多元回归中,随机斜率模型讨论类似;3) 在多元回归中,随机斜率模型有时会导出一个含自变量交叉项的模型;4) 对于斜率是自变量其它函数的模型类似的讨论;5) 如果斜率并不是独立或者均值独立于某些自变量,讨论将变得很困难。9.4 有测度误差时OLS的性质 当不能对模型中的经济变量进行精确测度时,我们面临测度误差(Measurement Error)问题。l 因变量的测度误差假定 y*是我们想解释的不可观测因变量,并满足通常的回归模型和高斯-马尔科夫假定:y*=0+1x1+2x2+kxk+u,而y是y*的可观测变量,可定义测度误差为e0=y-y* ,那么得到一个可测模型:y=0+1x1+2x2+kxk+u+e0,该可测模型在E(e0x=0时,满足MLR.4. 只是此时的误差方差,在假定Cov(u,e0)=0下为Varu+e0=Varu)+Var(e0Varu.l 解释变量中的测度误差先考虑一元回归。假定 x*是不可观测自变量,并满足通常的回归模型和高斯-马尔科夫假定:y=0+1x*+u,而x是x*的可观测变量,并定义测度误差为e1=x-x*,那么得到:y=0+1x+u-1e1。进一步假定E(ux,x*=E(ux*=0, 或者E(yx,x*=E(yx*. 显然,如果E(e1x=0时,上述模型满足MLR.4.,只是Var(u-1e1) Var(u),注意u和e1无关。但通常的经典变量误差(classical errors-in-variables ,CEV)假设为E(e1x*=0,此时:Cov(e1,x)=Ee1x=Ee1x*+Ee12=e12.而 Cov(u-1e1,x)=-1e12,从而plim1=1+Cov(x,u-1e1)Var(x)=1(1-e12x*2+e12)=1 x*2x*2+e12. 可见,OLS斜率估计因CEV而有偏误,而且偏误是一个衰减偏误(attenuation bias)。在多元回归中,有plim1=1 r1*2r1*2+e12.几点说明:1) 若含测度误差的自变量和其余自变量都不相关,那么其余自变量的OLS估计值是无偏和一致的;2) 在e1和x、x*同时相关时,斜率的OLS估计是不一致的,但在特殊情况下,也能得到一致估计(C15)。9.5 数据缺失、非随机样本和异常观测值本节讨论违背MLR.2的情形。l 数据缺失数据缺失(missing data)是指一些样本的部分变量没有收集到数据。如果是随机缺失,那么去掉这些样本不会影响OLS的估计偏误。统计上,也有弥补数据缺失的方法,但这些方法过于复杂,而且改进很小,所以实际中很少使用。l 非随机抽样非随机抽样(nonrandom sample)是破坏MLR.2的更严重的情形,情形很多。只能说在某些特定情形下,不影响估计的偏误。外生样本选择(exogenous sample selection)是指依据自变量对样本进行选择。由于总体模型在其任意的一个子集上都成立,所以只要这个子集体现了总体的充分变异并且选择规则独立于误差项,那么仍能得到一致和无偏的估计。例如进行储蓄的收入、年龄和家庭规模影响分析时,只能收集到年龄大于35岁的样本,那么在样本有充分变异的情形下,仍能得到无偏和一致的估计。内生样本选择(endogenous sample selection)是指依据因变量对样本进行选择。此时,所得估计一般是不一致的。分层抽样(stratified sampling),是一种数据收集方法,指对总体几个完全互补的子集(层、组)采用不同的取样比例进行样本抽取,通常的做法是在总体样本占比较低的层抽样比例提高,反之降低。如果分层的依据是解释变量,显然这属于外生样本选择的情况;相反,如果分层的依据是因变量,显然这属于内生样本选择的情况。l 异常值和影响观测在某些应用研究中,特别是(而不仅仅是)在数据集较小时,OLS估计值会受到一个或几个观测的影响。这些观测值被称为异常值或者影响观测(outliers a n d influential observations).异常值的出现可能造成OLS估计极大的偏误。解决的办法有:1) 依据经验来判断哪些样本时异常观测值,见例9.9;2) 采用更稳健的估计方法,例如最小一乘估计;3) 异常值的残差诊断,例如报告各个样本的学生化残差(Studentized residuals):即先建立不含第h个样本的OLS估计,得到和样本回归方程,然后用得到的样本回归方程去预报第h个样本的y值,得到该样本的残差;最后,将其标准化,即除以。或者有更简单方法,建立一个虚拟变量I,I当其是第h个变量时取值为1,否则取值为0,然后用全部样本做OLS估计,则I的标准化后的回归系数就是该样本的学生化残差。9.6 最小一乘估计 最小一乘估计(least absolute deviations , LAD)对异常值不敏感。LAD最小化残差的绝对值之和:in|yi-0-1xi1-2xi2-kxik|。几点说明:1) LAD估计量没有显示表达式,需
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年煤矿应急响应流程安全培训试卷及答案
- 2025年安全培训试卷及答案:2025年矿井应急演练参演人员应急演练效果反馈测试
- 2025年煤矿年度再培训:矿山安全管理人员事故预防试卷及答案
- 2025年安全培训试卷及答案-矿井应急演练培训内容更新
- 2025年煤矿带班领导安全培训效果持续改进策略实施试卷及答案
- 2025年煤矿应急演练评估安全培训试卷及答案-应急演练评估数据分析能力测试
- 2025年煤矿安全培训考核评估培训试卷及答案
- 某县教育局学生溺水事故预防与处置
- 餐饮业食材供应链客户服务管理方案
- 河北省永清一中2026届高二化学第一学期期中统考模拟试题含解析
- 户外灯光架施工方案
- 2025年农产品食品质量安全检验员技能及理论知识考试题库附含答案
- 四川省公务员2025年考试行测言语理解真题试卷(含答案)
- 矿山绿色矿业建设规划
- 电玩赛车活动方案
- 承台钢筋绑扎技术交底书
- 2025年班主任基本功大赛笔试题库及答案
- ESCEAS血脂异常管理指南2025更新版
- 成人PICC堵塞的预防及处理专家共识解读
- 煤气水封的操作规程
- 2025年70周岁以上老年人换长久驾照三力测试题库(含答案)
评论
0/150
提交评论