计量经济学知识点讲解7_第1页
计量经济学知识点讲解7_第2页
计量经济学知识点讲解7_第3页
计量经济学知识点讲解7_第4页
计量经济学知识点讲解7_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何寻找工具变量?得工具者得实证计量

寻找到一个好的工具变量可以直接在MIT博士毕业,可见找工具变量是一件有挑战性

的事情。在我看来,找工具变量是一项有趣的智力活动,除了需要一个人有经济学的素养和

逻辑,还需要这个人知识面广,自然、地理、人文、世俗智慧和经验等,通常,这跟一个人

熟悉的领域,由长期观察和思考产生的洞见有关。当然还需要•点运气,学术不是苦思冥想,

也许做一个梦,喝一杯下午茶,灵感就闪现了。

工具变量的原理最早出现在菲利普•莱特(PhilipG.Wright)1928年写的书《TheTariff

onAnimalandVegetableOils》里。

为了进一步解释这个原理,首先给出一个典型的线性回归模型:

y=po+pixi+px+c(1)

这里y为被解释变量,xi为自变量,或者解释变量,也即“因"。大写的X为外生控制

项向量(也即一组假定为外生的其他控制变量,例如年龄、性别等等),£则为误差项。如果£

与刈不相关,那么我们可以利用OLS模型对方程进行无偏估计。然而,如果一个重要变量

X2被模型(1)遗漏了,且XI和X2也相关,那么对型的OLS估计值就必然是有偏的。此时,

X1被称作“内生”的解释变量,这就是“内生性”问题。

遇到“内生性”问题抻木办?有一个方法就是找工具变量Z。

2工具变量(IV)可以用来解决

1)遗漏变量偏差

2)经典的测量误差问题

3)联立性(逆向因果)

3工具变量的条件

变量z可以作为变量x的有效工具变量,当满足:工具变量必须外生,Cov(z,u)=0,

工具变量必须与内生变量x相关,即,Cov(z,x)¥0

Cov(z,u)=0无法验证,Cov(z,x),0可以验证

对工具变量的两个要求之间有一个非常重要的差别。因为Cov(z,u)是z与不可观测的误

差u的协方差,我们无法对它进行验证或哪怕是检验:我们必须求助于经济行为或内心感受

来维持这一假定。相比之下,给定一个来自总体的随机样本,z与x相关(在总体中)的条件

则可加以检验。做到这一点最容易的方法是估计一个x与z之间的简单回归。

就是说,Cov(z,u)=0无法验证,我们只能依赖常识和经济理论,这需要理论修养和积

累。

但是我们可以检验是否Cov(z,x)翔,即检验

Ho:pi=0x=p()+piz+v

这个回归有时被称为第一•阶段回归。

4我们要什么样的IV

现在我们来看课上那个讲教育回报的经典例子

在教育回报率的例子中,假定真实模型将对数工资对教育和能力回归:现在能力不可观

测,而且没有代理变量IQ

事实上使用的回归:洛对数工资对教育回归,但由于误差项包含能力,并且教育水平与

能力相关,此时会出现教育的内生性问题。

z应当对y无偏效应,也不应当与其它影响y的因素相关。z必然与内生解释变量x有

着正的或负的关系。就是说Z不能和U有关,而且Z只能通过影响X来间接地影响Y。

log(wagc)方程,educ的工具变量z必须:(1)与能力(以及其它影响工资的不可观测的因

素)不相关,(2)与教育相关。诸如一个人的社会福利登记号的最后一位数字之类的变量,儿

乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。然而,该变量与教育不

相关,因而是educ的一个低劣的工具变量。

所谓的用于遗漏变量的代理变量因相应的原因也是低劣的IVo例如,在遗漏能力的

log(wage)例子中,abil的代理变最应该尽可能地与abil高度相关。而匚具变员必须与abil不

相关。因此,尽管IQ是abil的一个好的代理变量候选者,它却不是educ的好的工具变量。

对其它可能的工具变量候选者,这些必需条件更加不确定。劳动经济学家已在工资方程

中使用家庭背景变量作为教育的IV。例如I,母亲的教育(motheduc)与孩子的教育是正相关的,

这一点通过收集劳动者数据样本并做cduc对mothcduc的简单回归便可以看出来。因此,

motheduc满足方程Cov⑵x)#0。问题是,母亲的教育也可能与孩子的能力相关(通过母亲的

能力和可能通过孩子幼年所受的教养的质量)。

educ的另一个IV选择是成长过程中兄弟姊妹的数目(sibs)。一般地说,较多的兄弟姊妹

与较低的平均教育水平相我系。这样,如果兄弟姊妹的数目与能力不相关,它可以充当educ

的工具变量。

IV与OLS估计比较

A

IV与OLS的标准差的不同之处仅在于将x对z回归得到的Rx,z^2由于Rx,z2<l,IV的

标准差会比较大。就是左老师说的比谁更有效,如果做出来

当Cov(x,u)¥0,OLS不是一致估计,IV是一致估计。x和z的相关性越强,IV的标

准差越小。

举个例子:对已婚女性进行教育的回报估计。

我们看到,教育回报的IV估计值为5.9%,大约是OLS估计值的一半。这表明OLS估

计值过高,且与遗漏的能力变量的偏误相一致。但我们应该记住,这些都是仅从一个样本中

得出的估计值:我们根本不知道0.109是否高于真正的教育回报,或者0.059更接近真正的

教育回报。其次,IV估计量的标准误是OLS标准误的2.5(().035/0.014)倍。运用OLS得出的

仇的95%置信区间比运用IV得出的要窄得多;事实上,IV的置信区间确实包含了OLS估

计值。

5IV的问题

值得注意的是尽管当Z与u不相关,而z与x存在着正的或负的相关时,IV是一致性

的,但当Z与X只是弱相关时IV估计值可能有大的标准误。Z与X之间的弱相关可能产生

甚至是更加严重的后果:即使Z与u只是适度相关,IV估计量也会有大的渐近偏误。

这就是左老师讲的弱工具变量问题。

理论上说,Z必须是严格外生的,但是如果工具变量与内生变量有一点相关,即使很小,

仍然可能造成估计的问题,Z和X关系越小,这个工具变量就越有风险,这个叫弱T具变

量。

后来左老师举了Angrist那个教育和出生季度的例子。

Angrist&Krueger(1991)利用美国的男性人口调查数据,提出了educ的一个巧妙的二值

工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。误差项——特别

是能力——似乎应该与出生季度不相关。但是,frsiqri还要与educ相关。事实表明,在基于

出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行

的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达

到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。

因为教育年数在各出生季度之间的变化仅仅是微乎其微的一一这意味着我们做对的回

归来获得的结果非常小——Angrist和Krueger需要很大的样本容量来得到一个合理而准确

的IV估计值。利用1920至1929年之间出生的247199位男性的数据,得出教育回报的OLS

估计值为.0801(标准误为.0004),IV估计值为.0715(.0219"见于Angrist和Krueger的论文中

的表IIL注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为

3.26。因而IV估计值在统计上不为(),但其置信区间比基于OLS估计值的置信区间宽得多。

Angrist和Krueger有一个有趣的发现:IV估计值与OLS估计值相差并不多。实际上,

利用下一个十年中出生的男性的数据,得出IV估计值稍微高于OLS估计值。对此可以这样

解释:说明在用OLS估计工资方程时不存在遗漏能力论偏误。可是,Angrist和Krueger的

论文在计量经济学界受到了非难。如同Bound,Jaeger和Bakcr(1995)讨论的那样,它不能明

显地判断出生季节与影响工资的诸因素不相关,纵然这些因素没有被人观测到。

6自我选择(self-selection)的问题

举个例子,Angrisi(1990)研究了,参加越南战争的老兵,其终身收入因参加越战而受到

的影响。一个简单模型为:income=veteran+others

其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择

(self-selection)的问题:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决

策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。

Angrist指出,越南战争的征兵抽签提供了一个自然试验(naturalexperiment),从而产生

了veteran的一个工具变量。年轻人被分给的征兵抽签号决定了他们是否会被征召去服役于

越南战争。因为所分给的号码(毕竟)是随机分配的,征兵抽签号与误差项u不相关似乎是可

信的。而得到号码足够小(指号码小于某个数)的人必须服役于越南战争,使得成为老兵的概

率与抽签号相关。如果以上两点都是正确的,征兵抽签号是veteran的一个好的IV候选者。

7MJStata做ivreg处理内生性怎么玩?

【问题及方法】

内生性,每个实证人的痛。内生性主要的三个来源:测量误差、遗漏变量和逆向因果。

1、变量的内生性。

这个是没有办法单独检验的。当有合适工具变量时候,是可以检验的,就是Hausman检

2、工具变量的外生也。

这个也是没办法检验的。当有很多工具变量时候,可以检验是否有不是外生的,就是“过

度识别”问题

3、工具变量的相关性。

这个可以说成是“弱工具变量”问题,检验可以通过一阶段的F值。还可以利用Partial

R2o

4、估计方法

stata里面有这么几个2sls,2slssmaKlimkgmm,各自适用情况:small适合小样本;

liml适合弱工具变量;gmm适合异方差。

【例子】

webusehsng2

*Fitaregressionvia2SLS,requestingsmall-samplestatisticsivregress2slsrentpcturban

(hsngval=famineiregion),small

*FitaregressionusingtheLIMLestimatorivregresslimlrentpcturban(hsngval=famine

iregion)

*FitaregressionviaGMMusingthedefaultheleroskedaslicily-robusiweightmatrixivregress

gmmrentpcturban(hsngval=famineiregion)

*FitaregressionviaGMMusingaheteroskedasticity-robustweightmatrix,requesting

nonrobuststandarderrorsivregressgininrentpcturban(hsngval=famineiregion),vce(unadjusted)

*检验

cstatafirststagc,allforcenonrobust\\\可以查看第一阶段F值,已经partialR2

estatoverid\\\查看是否过度识别

estatendogenous\\\查看是否异方差

regress2slsrentpcturbanhsngval

eslstorem1

ivregress2slsrentpcturban(hsngval=famineiregion)

eststorem2

hausmanmlm2\\\内生检验

工具变量的合理性

为了加深理解,也为了好玩,我们来看看人大经济论坛上两个被绕晕的人的对话:

甲:一个计量方程y=a+bx+u,x如果有内生性,则需要找一个工具变量z。理论上来

说,工具变量Z必须与残差项U不相关,与被工具的变量X相关。但是x与u是相关的。

实际上U总是会通过影响X来影响L的(因为U与X相关而X与Z相关)。请问,这算不算工

具变量Z与残差项U相关.从而导致工具变量Z无效?我考虑,这个U与Z之间的影响是间

接的。是不是只要不是直接的影响就可以?因为间接地影响好像是必然存在的。

比如说,阿西莫格鲁(Acemoglu)那篇著名的关于制度与经济增长的论文,把殖民时代的

死亡率作为工具变量,但如果其他影响经济增长的因素通过影响殖民时代的制度来影响殖民

时代的死亡率,那么死亡率这个工具变量不还是和残差项相关吗?

乙:我跟你的理解不一样。X是内生变量,说明在X背后有一个或者多个外生变量可

以解释X,你所谓的那个工具变量Z就是那个主要解释X的外生变量。如果你可以找到这

个解释X的外生变量,那就可以使得X与Z相关(因为可以建立X=a+bZ这样的回归方程,

那肯定相关),另外直接庄X解释Y的话,因为X是内生变量(也就是个二传手),Z这个外

生变量被包含在误差项里面了,所以误差项与X会相关。但是你如果已经把Z给找出来了,

并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了。

单方程回归分析的解释变量只能是外生变量,如果存在二传手(内生变量)那么就需要多

一步建立外生变量(工具变量)与那个内生变量的关系(即工具变量对内生变廉的回归方程,

然后使用方程估计值取代原来的内生变量进行原方程的同归)。所以找工具变量是需要很强

的理论知识的,工具变量•定是外生变量,如果还是找个内生的变量那就没有意义了,多了

个三转手罢了。

甲:你好像没回答我的问题,“如果己经把Z给找出来了,并用工具变量法进行二阶段

回归或者GMM的话,那么内生性问题就被消除了”。可是得先确定z与误差项不相关,才

能找出合适的z啊。我的问题就是,如果误差项通过影响x来影响z的(因为误差项与x相

关而X与Z相关),此时我找出的Z还是不是合适的工具变量。

乙:误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原

因),所以从现象上看就变成X与误差项相关了。你找到的Z跟误差项无关,跟X相关,而

且从理论上解释得通,那么就可以当工具变量来用。另外工具变量一定要是外生变量,它只

能影响别人不能被别人影响,也就是它只能是原因不能作为结果。(不然内生性问题还是没

有解决)

甲:”误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原

因),所以从现象上看就变成X与误差项相…”可是误差项完全有可能包含z之外的影响x

的因素啊,也就是影响x的因素可能不止z一个啊,那样的话这个z以外的误差项包含的因

素,不就可以通过与x相关进而与z相关了吗?这样工具变量z不就无效了吗?

乙:我个人觉得因为这里的Z也可以是范指,当然误差项可能包含多个外生变量。一般

不可能100%穷尽所有的可以影响X的外生变量,误差项与X的相关性小到一定程度就可

以收手了。

z变量需要是外生变量,如果误差项里面还有其他的因素可•以影响Z变量,那就说明Z

变量也是内生变量,这就是一个多层次的因果关系了,右因与果之间有多重的中间变量。呵

呵~我牛角尖就钻到这一步了,头晕了。接下来等待其他高人的见解了!

同学们可以想一想,如果你是乙,你会怎么回答甲的问题。

8关于工具变量选择

1,IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量

(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解粹变量

Yo

2,如果上述理论逻辑通的话,将内生变量X作为解释变量,IV和其他变量(X2)作为解

释变量,看IV是否显著,它应该显著。如果选了多个IV,就用FTEST看其是否都不显著。

同时,如果在多个IV中,有一个是确定为外生的,那么,可以用Sargantestofoveridentif

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论