Chapter9 受限因变量模型_第1页
Chapter9 受限因变量模型_第2页
Chapter9 受限因变量模型_第3页
Chapter9 受限因变量模型_第4页
Chapter9 受限因变量模型_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1章 受限因变量模型这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量y*,y*的实际观测变量为yi。引入二元指示变量Di,如果ai< y*<bi,Di= 1;否则,Di = 0。即Di表示变量y*是否可以被观测得到。(ai, bi)称为观测区间。如果对于Di = 1 和Di = 0都有实际观测数据,当Di = 1时,潜在变量与实际观测变量相等,当Di = 0时,实际观测变量同样有取值,但不等于潜在变量,这时称数据被归并(censored),即小于ai的数据被归并为ai,而大于bi的数据被归并为bi。用数学符号表示为:。 (1)如果只有当Di = 1时实际观

2、测变量yi才有观测数据,即:当Di = 1时,潜在变量与实际观测变量相等,而当Di = 0时,yi没有观测值,这时称数据被截断(truncated),即小于ai的数据和大于ai的数据被截断了。因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。将潜在随机变量y*的基本模型设定为:。 (2)其中mi为位置参数,s为刻度参数;vi为独立于xi的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F、f 。在这些假定条件下,yi*的均值为mi,方差为s2,分布函数为,概率密度函数为(证明请参见附录1)。ai < yi* <

3、bi等价于,那么yi*被观测到的概率为: (3)下面对截断数据模型和归并数据模型分别进行介绍1.1 截断数据模型如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。比如,研究高收入阶层(月收入x ³ 10000)的消费与收入的关系,所采集的数据只是位于收入总体分布的一个区间里。假设所有居民的收入服从正态分布,那么高收入阶层的收入只是在x ³ 10000的区间里观测得到的。下面介绍截断数据的分布特征和模型估计。1.1.1 截断数据的分布特征如前面所述,截断数据只包括Di = 1情况下的数据。截断分布是指变量高于(低于)某个设定值的未截断部分的分布。如果变量只有在

4、高于某一门限值a时才被观测到(x > a),称之为从下面截断(truncation from below)或者是从左边截断(truncation from left);如果变量只有在低于某一门限值b时才被观测到(x < b),称之为从上面截断(truncation from above)或者是从右边截断(truncation from right)。如图所示。 图一 截断分布图(上面截断(左图)、下面截断(右图)下面分析截断数据的分布函数、密度函数、均值和方差。1 截断变量的分布函数和密度函数给定模型(1)及相应的观测概率(2),那么第i个观测变量yi的条件分布函数为(证明请参见附

5、录2): (4)(注:此处及后面的的定义均与前面相同)密度函数为: (5)从截断数据的密度函数(4)式我们可以推出从下面截断或从上面截断的各种不同分布的变量的密度函数。读者可以参阅下面介绍的几个例子。例1 截断均匀分布的密度函数和分布函数如果x*在区间a,b上服从均匀分布(uniform distribution),那么, (6)如果在x*= c处截断,即实际观测值x= x*,如果x*³ c;x= c,如果x*< c。这是左截断的例子,即右截断点=b。根据(5)式,在x = c处截断的随机变量x的截断分布的密度函数为: (7)分布函数为: (8)例2 截断正态分布的密度函数模型

6、设定为:,yi = yi*,如果 (9)yi = ai,如果yi = bi,如果 其中vi N(0, 1)。即 yi* N(mi, s2),其中mi、s分布表示yi的均值和标准差。以f、F分别表示标准正态分布密度函数和分布函数。那么: (10)其中,。根据截断正态分布的密度函数公式: 可直接得到时yi的密度函数: (11)根据截断正态分布的分布函数公式:可直接得到时yi的分布函数: (12)图二 截断正态分布变量的累积分布函数图(设潜变量y*N(0, 1),图中虚线表示标准正态分布函数,实线表示截断正态分布函数,截断点为-1、1)2 截断变量的均值和方差截断随机变量的均值和方差称之为截断均值(

7、truncated mean)和截断方差(truncated variance),由下面的(5)、(6)式可以推出各种不同截断分布的均值和方差。给定模型(9),yi的均值为: (13) 其中, yi的方差为: (14)其中,。(证明请参见附录3)。例3:均匀分布的截断均值和截断方差给定模型(6),截断变量x的均值和方差分别为: (15)例4:正态分布的截断均值和截断方差给定模型(9),那么yi的均值和方差分别为: (16)其中, yi的方差为: (17)其中,。其中,f、F分别表示正态分布的密度函数和分布函数。(1) 如果ci -µ,即数据只是在右边截断,这时f( ci) = 0、F

8、( ci) = 0,因此:<0 (17a) (17b)(2) 如果di +µ,即数据只是在左边截断,这时f( di) = 0、F( di) = 1,因此:>0 (18a) (18b)(17a)式中称之为Inverse Mills Ratio,将(18a)式中称之为风险函数(Hazard Function)。结论1 。即,如果变量为从上面截断,则截断变量的均值小于初始变量的均值;如果变量为从下面截断,则截断变量的均值大于初始变量的均值。结论2 截断变量的方差低于初始变量的方差。图三 截断分布的均值(左图)、方差(右图)(假定潜在变量y*N(2, 2)1.1.2 截断回归模型

9、估计下面以左截断模型为例说明截断回归模型的估计。设回归模型为: (19)其中,viN(0, 1)。那么,。根据例4,我们可以得到截断随机变量yi的均值和方差。 (20)其中, (21)其中, 由(20)式可以看出,截断均值为b和xi的非线性函数。同一般的非线性模型一样,变量xk对y 的边际影响不等于其系数: (22)因为,所以变量xk对y的边际影响要小于其系数。yi的方差也存在类似的缩减(attenuation): (23)注: 对于yi < b的情况,可以得到相同的结论。下面分析截断模型中参数的最小二乘估计和极大似然估计。1 OLS估计根据,截断模型可以写为: (24)其中,ui =

10、svi为yi减去其条件期望,E(ui)=0。如果以最小二乘法估计(19)式,就忽略了非线性项li,因此OLS估计量是有偏的。另外,yi|yi>a的方差与ui的方差相同,由可知,yi存在异方差,为: (25)它是xi的函数。2 ML估计对于模型(19),由截断随机变量的概率密度函数可得yi的密度函数为, , (26)可以得到yi的对数似然函数: (27)对于N个观测值(y1, , yN),其联合对数似然函数为: (28)通过最优化方法可以解得上式的参数b和s的值。1.2 归并数据模型计量经济学当中经常能碰到数据的归并问题,简单地说,归并数据即是被解释变量在某个区间的观测值都转化为同一个值。

11、比如,研究电影院的座位需求情况,电影院总的座位是20000个。如果实际的需求量少于20000,那么观测到的需求量就等于实际需求量;但如果实际需求量大于(等于)20000,那么实际可观测到的需求数量只能为20000。这时我们说需求量数据被归并,即所有大于20000的数据都被归并为20000。格林(Greene,2000)列举了经验文献中归并数据的应用。其中包括:1, 家庭耐用品消费支出Tobin(1958) 2, 婚外情次数Fair(1977,1978)3, 劳动力市场中妇女工作的小时数Quester and Greene(1982)4, 罪犯重新入狱的次数White(1980)等。下面分别介绍

12、归并数据的分布特征和模型估计。1.2.1 归并数据的分布特征如前所述,归并数据与截断数据的区别在于,归并变量包含D i = 1和D i = 0两种情况下的数据。 (29)或者写作:。即当时,所有值被归并为ai;当时,所有值被归并为bi。归并数据按照归并点ai, bi是随机的还是确定的分为固定归并(fixed censoring)和随机归并(random censoring)两种。如果ai, bi是确定性的,我们称之为固定归并;如果ai, bi是随机的,我们称之为随机归并。本章只介绍固定归并的情况。归并数据按照归并点与观测区间的关系还可以分为左边归并和右边归并。如果:称潜在变量y*被从下面归并(

13、censored below)或者从左边归并(censored from left);如果:称潜在变量y*被从上面归并(censored above)或者从左边归并(censored from right)。图 归并变量示意图1归并变量的分布函数和密度函数给定基本模型(1)的假定,yi的分布函数为: (30)归并变量的分布函数为一种混合分布(连续型和离散型综合在一起)。在yi = ai和yi = bi两点的概率分别为和,因此对于同一个潜在变量,其归并变量和截断变量的分布函数不相同,在观测区间内,归并分布同潜在变量的分布重叠在一起。图四 归并正态分布变量的分布函数图密度函数(概率分布)为: (3

14、1)例5:正态分布归并变量的密度函数。假定潜在变量(latent variable)yi*服从均值为mi、方差为s2的正态分布,viN(0, 1)。yi为实际观测变量:yi=a,如果yi*£ a;yi=b,如果yi* ³ b;yi= yi*,如果ai < yi* < bi。的概率密度函数为:当yi* £ ai时,yi=ai 。其概率为, 当ai < yi* < bi时,yi与yi*的概率密度函数相同,当yi* ³bi时,yi=bi。其概率为,(1)当仅从左边归并时,即:yi=ai,如果yi* £ ai;yi = yi*,

15、如果yi* > ai。当yi* £ ai时,yi=ai 。其概率为, 当yi* > ai时,yi与yi*的概率密度函数相同,因此,可以将yi的密度函数综合写成:,当yi* > ai时,Di = 1;否则,Di = 0。(2)当仅从右边归并时,即:yi=bi,如果yi* ³ bi;yi= yi*,如果yi* < bi。当yi* ³bi时,yi=bi。其概率为,当yi* < bi时,yi与yi*的概率密度函数相同,因此,可以将yi的密度函数综合写成:,当yi* > ai时,Di = 1;否则,Di = 0。2归并变量的均值和方差归并

16、随机变量的均值和方差,我们称之为归并均值(censored mean)和归并方差(censored variance)归并均值为: (32)其中, (33)归并方差为: (34)其中,Di服从0-1分布,。(证明请参见附录4)。设潜在变量y*N(0, 1),下图显示了标准正态分布和归并正态分布的分布函数间的差异,虚线表示正态分布函数,实线表示归并正态变量分布函数,归并点为-1、1,在区间-1,1上实线和虚线重合。例6:正态分布归并变量的均值和方差 如果。yi=a,如果yi*³ a;yi=b,如果yi* ³ b;yi= yi*,如果ai < yi* < bi。那么

17、yi的均值为: (35)(证明请参见附录5)。(1)如果ai-µ(仅从上面归并),那么= = (37), (38)其中,(2)如果bi+µ(仅从下面归并),那么= (39) (40)其中,(证明请参见格林(Greene(2000)P907)。由(37)式和(39)式可以推出:结论3 对于从上面归并的变量来讲,当归并点为bi = 0时, , (41)其中对于从下面归并的变量来讲,当归并点为ai = 0时, , (42)其中例7:以电影院的座位需求为例,我们来看一下如何利用归并数据模型通过实际观测到的变量来推断潜在变量的均值、方差。设电影院总共有20000个座位,平均售出的座位

18、数为18000,有25%的时间全部售出。那么潜在的座位需求量和方差各是多少呢?图二 座位需求图解:设潜在座位需求量为m,座位需求模型可以设定为:这是一个归并点为b=20000的右归并数据模型。根据已知信息,25%的时间全部售出,即归并点的累积分布函数值为0.75(见图示),即 (43)因此,;又由平均观测到的需求量为18000,根据归并变量的均值公式可得: (44)综合(43)(44)可以解出潜在变量y*的均值和方差分别为m=2426、s2=18362。即,对电影院座位的平均需求量是2426个。1.2.2 归并模型的极大似然估计设归并回归模型中,潜在变量y*和实际观测变量y有:,如果 ,如果

19、,其它 设f(u)、F(u)为u的密度函数和分布函数。假定u是均值为0,方差为s2的连续随机变量,u与x不相关。由归并模型的概率密度函数可知其对数似然函数为:虽然它是离散分布和连续分布的总和,但Amemiya(1973b)证明,按照普通的最优化方式使得对数似然函数极大化,得到的估计量仍然具有极大似然估计量的合意的性质。归并回归模型的边际影响为:(证明请参见Greene(2000)P909)。例:考察囚犯在释放后被再次被捕入狱的时间,共1445名调查者,其中只有552名被再次被捕入狱。(file:recid.raw)。例:妇女就业时间的案例(在0点截断)。(file:mroz.raw)1.3 T

20、obit模型1.3.1 Tobit模型的设定与估计Tobin在1958年第一次提出归并模型,因此归并模型又称为Tobit模型。设潜在变量y*的回归模型为:,潜在变量y*的期望值为:其中,因此,解释变量对被解释变量y*的边际影响为常数:实际观测变量y的期望值为:而,将其代入上式可得:解释变量对实际观测变量的边际影响是非线性的。由可得: 其中,= = 因此,Tobit模型的似然函数为: 利用最优化方法可以求出参数估计量。例:考察不同变量对妇女工作时间的影响。(file:mroz.raw)。共753个观测值,其中325个为0。用Tobit模型进行估计。Tobit模型的一个重要局限是,与直接相关。xk

21、对的边际影响与bk呈正比,xk对的边际影响与bk也呈正比,即xk对的影响和对的影响在方向上是相同的。在一些情况下,这一暗含的假定可能不合适。1.3.2 模型的设定分析衡量Tobit模型是否合适的一种方法是将Tobit模型的估计结果与Probit模型的估计结果相比较。由Tobit模型的设定,。因此,如果将y降级为二元选择变量w(如果y=0,w=0;如果y¹0,w=1),那么上述Tobit模型就转化为Probit模型。如果Probit模型估计的结果与Tobit模型的估计结果近似相同,说明Tobit模型设定合适;否则,Tobit模型的设定不合适。需要注意的是,在Probit模型中,;而在Tobit模型中,。因此,应该将Probit模型中的参数估计量与Tobit模型中的参数估计量进行比较。如果与符号不同,或者二者差异很大,都表明Tobit模型设定不合适。事实上,Tobit模型是截断模型和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论