第八章_内生性及其来源.doc_第1页
第八章_内生性及其来源.doc_第2页
第八章_内生性及其来源.doc_第3页
第八章_内生性及其来源.doc_第4页
第八章_内生性及其来源.doc_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 内生性及其来源在前一章中我们在大样本条件下,放松了误差服从正态分布的假设,以及误差为同方差的假设。而且说明了完全共线性条件在大样本条件下很容易满足,通常不必特别担心这一条件是否满足。当这几个假设被放松后,剩下的就是模型设定假设和自变量与误差同期相关假设这两个核心假设,如果某一自变量与误差同期相关,则称之为内生变量。内生变量通常与模型设定密切相关,因此在这一章我们集中讨论这两个假设。当自变量与误差同期相关这一假设不成立时,OLS估计是非一致的,因而是没有任何意义的。而导致这一相关的根源很多,解决这一问题的办法也是多样的。一、遗漏变量从经济学最基本的成本收益角度来看教育,我们之所以决定再多上一年学,是因为上学的边际收益大于边际成本。问题是,多上一年学会多增加多少收入呢?你收集了很多人的上学年数和他们第一份工资,列出每个不同上学年数对应的平均工资,相邻工资的差距就是多受一年教育的回报吗?似乎对,但实际上却不对。想想发生在我们身边的很多故事,一个上过很多年学的人最后却学成了书呆子(我姥爷就给我讲过他亲眼所见的一个故事,村里有一个人上了12年长学,却越学越呆,有一次他穿的棉衣着火了,他在田野奔走呼号,却不知道躺下来就地打个滚),另一方面,也有许多没有读过多少书的人成了大老板。他们成功是因为他们本来能力就强,上不上学他们都可以成功。在一个人的收入决定中,能力与教育一样是非常重要的因素。更重要的是,能力(或天赋)也是决定受教育程度很重要的因素,同样的知识,天赋高的人学起来很快很轻松,也不需要留级,因此能以更低的成本获得更高的教育。从上面的故事中,我们看到,能力同时导致人们的教育水平高和收入更高。这意味着,也许上不上学本无所谓,或者说教育可能没有发挥真正的作用,即使发挥作用也许没有将所有收入差异归因于教育所导致的那么大的作用。有一个笑话甚至说,办一所名校的唯一要求是,招最优异的学生,然后让老师们远离他们。以上的逻辑,可以用数学思维表述如下,其中y可以被假想为收入,x为教育,而z为能力。*=begin=*遗漏变量:被遗漏的变量与其他解释变量相关capt prog drop _allprog bbdrop _all drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd)g u=3*invnorm(uniform()g y=12+5*x1+10*x2+3*x3+x4+uquietly reg y x2 x3 x4 /能力x1被遗漏endsimulate _b,reps(200):bbsum /当存在遗漏变量时,OLS估计量是有偏的*遗漏变量:被遗漏的变量与所有的其他解释变量均不相关capt prog drop _allprog bbdrop _all drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd)g u=invnorm(uniform()g y=12+5*x1+10*x2+3*x3+x4+uquietly reg y x1 x2 x3 /相貌x4被遗漏endsimulate _b,reps(200): bbsum /当被遗漏变量与其他自变量均不相关时,OLS估计量是无偏的*=end=二、函数形式误设因为和的总体联合分布是客观存在的,所以的取值就是客观决定的,不是我们可以左右的。因此,要使最小,就要使至此,我们得到一个非常重要的结论:我们所寻找的最佳的函数形式是关于的条件期望。因为这一结论来自对总体的直接回归,所以又叫作总体回归函数,即PRF。在两边取关于的条件期望,得到即 “零条件均值假设”可以保证g(x)的形式确实就是。然而,的具体形式到底是怎样的呢?上面说过,和的总体联合分布是客观存在的,所以的具体形式也就是确定的。如果我们非常幸运地知道和的总体联合分布的信息,我们也就可以确定地写出的确切形式,我们的任务也就彻底完成了。不幸的是,我们很难知道两者的确切函数形式。为了直观地看到模型误设会导致什么后果,我们来看下面的模拟案例。当模型正确设定假设不成立时,即使其他假设均成立,且样本很大,OLS估计量也是有偏的,不一致的。*=begin=*函数形式误设capt prog drop _allprog bbdrop _all drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd)g u=invnorm(uniform()g y=12+5*x1+10*x2+5*x22+3*x3+x4+uquietly reg y x1 x2 x3 x4 /误将平方项遗漏endsimulate _b,reps(200): bbsum _b_z /当函数形式误设时,OLS估计量是有偏的,不一致的*设定检验drawnorm x1 x2 x3 x4,n(100) means(m) cov(sd)g u=invnorm(uniform()g y=12+5*x1+10*x2+5*x22+3*x3+x4+uquietly reg y x1 x2 x3 x4 /误将平方项遗漏ovtest /设定检验ovtest, rhsg z=x22reg y x1 x2 z x3 x4 /正确的形式*=end=三、测量误差因变量的测量误差如果与自变量不相关,则OLS估计具有良好的性质,是无偏和一致的,否则将是有偏的,不一致的。仍然以教育与收入的关系为例,对收入的调查通常是非常困难的,真实的收入可能永远是个迷,我们能收集到的只能是受访者自报收入,自报收入与真实收入之间存在测量误差,而且这个测量误差往往与教育水平相关,如教育水平越低,越可能算不清楚他的收入。还可能因为收入越高的人,他回忆的误差越大(比如收入来源太多),而收入越高的人,通常更可能是教育水平较高的人。上述两种相关都会导致无法得到一致估计。自变量的测量误差分两种情形,一种涉及到测量误差与观测值之间的相关性,另一种涉及到测量误差与真实值之间的相关性。第一种情形:测量值与测量误差不相关。例如,y为学习成绩,x为旷课次数,当一个人很少旷课时,他所报告的旷课次数更准确,相反,随着旷课次数的增多,他能够准确回忆并报告其次数的可能性也下降,因此测量误差与报告结果存在正相关。第二种情形,如果测量误差与观测不到的变量无关,则测量误差必然与测量值相关。四、联立因果联立因果关系普遍存在,尤其是在经济学的经典供求关系中。实际上,经济学中的供给方程和需求方程都只是我们的一个理论抽象,真实世界中是不存在的,我们能从真实世界中观察到的价格和供需量都只有一个,即均衡价格和均衡供需量。利用这样的均衡供需量对均衡价格进行估计,试问,我们究竟估计的是需求方程呢还是供给方程呢?估计系数是正还是负呢?因为供给方程和需求方程的系数正好是一正一负,那么是否意味着,我们可以根据估计结果来判断是供给方程还是需求方程?实际上,这种估计即非供给方程也非需求方程,我们可以证明,采用均衡数据对单一供给方程或需求方程进行估计,都无法得到一致的估计结果。五、样本选择偏误样本选择的例子假设有个行为古怪且无聊的大享,拿出1亿元和你玩左轮枪,可装6发子弹的弹夹装有1发,然后对准你头扣动扳机,每次扣动扳机称为一段历史,共有6段历史,每段的概率相同,其中有5段历史会使你成为亿万富翁,另一段则是一则讣告。问题是你只能观察到一段历史,而且会有一些白痴记者对1000万美元的赢家赞誉有加。转盘的赢家,被家人、朋友和邻居当做模范对象。如果一个从25岁开始赌转盘的傻瓜一直玩下去,他活到50岁的机会十分渺茫。但是如果有很多人,比如1万人都在玩这个游戏,将会有少数人能够活到50岁并且极其富有,其他人则已成为一堆黄土。现实生活比左轮手枪邪恶多了,它不仅常常射出要命的子弹,而且其弹夹可以装成百上千发,试过几十次后,我位便忘记了里面还有一颗要命的子弹,误以为自己很安全。赌徒、投资人和决策者总是觉得,发生在别人身上的事情,不见得会发生在他们身上。借助蒙特卡罗发生器,虚构一万个投资经理人,假设他们每个人的赚赔概率恰好各半,年底时每个人都有50%的概率赚到1万美元,50%的概率赔掉1万美元。赔掉的则被从样本中剔除,这样到第5年的时候还有313位留下来。这纯粹是靠运气得来的。如果这些经理能力在平均水平以下,即有55%的概率赔掉,则第5年时仍有184人会成为众所瞩目的焦点,有响亮的头衔,这些存活下来的经理人只点原始群体的2%,没有人会提另外的98%。在某个市场中,绩效记录杰出的经理人的多寡,主要取决于当初选择这一行的人数目,至于他们个别人的获利能力,影响则没有那么大。为什么使用极大值期望值的概念?因为我根本不关心平均绩效记录,我能看到的只会是表现最好的经理人,不是所有的经理人。每个人都认为自己的成功全凭实力,毫无侥幸,只有失败时才会认为是机运使然。存活着偏差取决于原始群体的大小,一个人过去赚到钱这个信息,本身既无意义而且也不重要。当随机抽样假设不成立时,即使其他假设均成立,且样本很大,OLS估计量也是有偏的,不一致的。v 非随机抽样*=样本选择=drop _alldrawnorm x2 x3 x4,n(1000) means(m) cov(sd) g u=3*invnorm(uniform() g y=5*x1+10*x2+3*x3+x4+u /*正确的函数形式*/sort ykeep in 1/50 /*样本是非随机抽取的,随机抽样假设不满足*/reg y x1 x2 x3 x4 /*真实值10是否在95%置信区间内*/*=end=v 异常值的影响*=异常值=begin=drop _alldrawnorm x2,n(1000) g u=9*invnorm(uniform() g y=-5+10*x2+u /*正确的函数形式*/replace y=-10000 in 100reg y x2 /*真实值10是否在95%置信区间内*/rreg y x2*=end=v 断尾本来服从正态分布的随机变量y,由于小于零的数据不可获取,则其经验分布不再是正态分布。cleardrawnorm x,n(1000) /生成服从正态分布的随机变量xg z=x /得到与X相等的随机变量zreplace z=. if z0 /假设只能观察到大于零的z值。tw (kdensity x) (kdensity z), xline(0)g f=normalden(z)/(1-normal(0) /纠正后的分布tw (kdensity x) (kdensity z) (line f x,sort), xline(0) /legend(label(1 标准分布) label(2 样本分布) label(3 纠正后分布) row(1)条件分布情形显然用观察到的y*对自变量X做OLS回归,所得到的估计量将是有偏的,因为除了线性项,还有一个的非线性项,只有同时考虑这两项,才能得到的一致估计。clearmatrix m=(1,2,3,4)drawnorm x1-x4,n(1000) m(m) /条件分布g n=_nreshape long x,i(n) j(m)g y=xreplace y=. if y2.5 /大于4的样本被断尾g f=normalden(y,m,1)/(1-normal(2.5-m) /纠正办法tw (kdensity x) (line f x,sort) (kdensity y) ,by(m) xline(2.5) /legend(label(1 标准分布) label(2 样本分布) label(3 纠正后分布) row(1)断尾*=truncated model=begin=drop _alldrawnorm x2,n(1000) g u=9*invnorm(uniform() g y=-5+10*x2+u /*正确的函数形式*/drop if y0reg y x2 /*真实值10是否在95%置信区间内*/truncreg y x2,ll(0)*=end=截取如果小于特定值的因变量完全观察不到,称为断尾。另一种情形是,小于特定值的因变量虽然观察不到,但是可以用一个值(比如0)来替代,而相应的自变量是可观察到的。比如对于哪些没有工作的人来说,其工资收入为零,但是其教育水平、年龄等这些数据是可以获取的。这种数据看上去好象被裁剪过一样,因此又就截取数据。cleardrawnorm x,n(1000)g y=xreplace y=0 if y0 /纠正办法tw (kdensity x) (kdensity y) (line f x,sort), xline(0) /legend(label(1 标准分布) label(2 样本分布) label(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论