潘省初 中级计量经济学 第十章 定性选择模型与受限因变量模型_第1页
潘省初 中级计量经济学 第十章 定性选择模型与受限因变量模型_第2页
潘省初 中级计量经济学 第十章 定性选择模型与受限因变量模型_第3页
潘省初 中级计量经济学 第十章 定性选择模型与受限因变量模型_第4页
潘省初 中级计量经济学 第十章 定性选择模型与受限因变量模型_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章定性选择模型和

受限因变量模型我们在第二章中介绍了解释变量为虚拟变量的模型,对于被解释变量而言,很多情况也会对其取值有所限制。有时,因变量描述的是微观个体的某种选择、特征或所属等,即因变量为定性变量,相应的模型称为定性选择模型或定性响应模型;另一些情况是,因变量的取值被限定在某个特殊范围,一般我们称这类取值范围受到限制的因变量为受限因变量,相应的模型称为受限因变量模型。两类模型样本数据一般是横截面数据。两类模型被广泛应用于消费者行为、劳动经济学、农业经济学等领域,大多属于微观计量经济学的研究范畴。第一节线性概率模型在有些情况下,我们可能需要建立因变量为虚拟变量的回归模型,在这种模型中,因变量描述的是特征、选择或者种类等不能定量化的东西,如乘公交还是自己开车去上班、考不考研究生等。在这些情况下,因变量是定性变量,我们可以用定义虚拟变量的方法来刻画它们。这种因变量为虚拟变量的模型被称为定性选择模型(qualitativechoicemodel)或定性响应模型(qualitativeresponsemodel)。

如果只有两个选择,我们可用0和1分别表示它们,如乘公交上班为0,自驾车为1,这样的模型称为二元选择模型(binarychoiceModels),多于两个选择(如上班方式加上一种骑自行车)的定性选择模型称为多项选择模型(Multinomialchoicemodels)。最简单的二元选择模型是线性概率模型(LinearProbabilityModels,LPM)。一、线性概率模型的概念下面用一个关于是否读研究生的例子来说明如何解释线性概率模型的结果。模型为:其中:

设回归结果如下(所有系数值均在10%水平统计上显著):

对每个观测值,我们可根据上式计算因变量的拟合值或预测值。在常规OLS回归中,因变量的拟合值或预测值的含义是:平均而言,我们可以预期的因变量的值。但在本例的情况下,这种解释就不适用了。假设学生甲的平均分为3.5,家庭年收入为5万美元,Y的拟合值为尽管因变量在这个二元选择模型中只能取两个值:0或1,可是该学生的的拟合值或预测值为0.8。我们将该拟合值解释为该生决定读研的概率的估计值。因此,该生决定读研的可能性或概率的估计值为0.8。需要注意的是,这种概率不是我们能观测到的数字,能观测的是读研还是不读研的决定。对斜率系数的解释也不同了。在常规回归中,斜率系数代表的是其他解释变量不变的情况下,该解释变量的单位变动引起的因变量的变动。而在线性概率模型中,斜率系数表示其他解释变量不变的情况下,该解释变量的单位变动引起的因变量等于1的概率的变动。

CPA的系数估计值0.4意味着家庭收入不变的情况下,一个学生的GPA增加一个点(如从3.0到4.0),该生决定去读研的概率的估计值增加0.4。

INCOME的系数估计值0.002表明,一个学生的成绩不变,而家庭收入增加1000美元(单位为千美元),该生决定去读研的概率的估计值增加0.002。

LPM模型中,解释变量的变动与虚拟因变量值为1的概率线性相关,因而称为线性概率模型。二、线性概率模型的估计和问题第一个问题是线性概率模型存在异方差性。扰动项的方差是,这里p是因变量等于1的概率,此概率对于每个观测值不同,因而扰动项方差将不是常数,导致异方差性。可以使用WLS法,但不是很有效,并且将改变结果的含义。第二个问题是扰动项不是正态分布的。事实上,线性概率模型的扰动项服从二项分布。第三个问题,它假定自变量与Y=1的概率之间存在线性关系,而此关系往往不是线性的。

第四个问题也是最严重的问题是,拟合值可能小于0或大于1,而概率值必须位于0和1的闭区间内。回到有关读研的例子。假设学生乙的GPA为4.0,家庭收入为20万美元,则代入(10.3)式,Y的拟合值为

从而得到一个不可能的结果(概率值大于1)。假设另有一个学生丙的为1.0,家庭收入为5万元,则其Y的拟合值为-0.2,表明读研的概率为负数,这也是一个不可能的结果。

解决此问题的一种方法是,令所有负拟合值都等于0,所有大于1的拟合值都等于1。但也无法令人十分满意,因为在现实中很少会有决策前某人读研的概率就等于1的情况,同样,尽管某些人成绩不是很好,但他去读研的机会仍会大于0。线性概率模型倾向于给出过多的极端结果:估计的概率等于0或1。图10.1描述了线性概率模型这方面的问题。

概率=F(Z)Y10X更加合理的回归线线性概率模型图10-1线性概率模型示意图第五个问题是在线性概率模型中,以及不再是合适的拟合优度测度。事实上,此问题不仅是线性概率模型的问题,而是所有定性选择模型的问题。较好一点的测度是模型正确预测的观测值的百分比。首先,我们将每一预测归类为1或0。如果拟合值大于等于0.5,则认为因变量的预测值为1。若小于0.5,则认为因变量的预测值为0。然后,将这些预测值与实际发生的情况相比较,计算出正确预测的百分比:

需要指出的是,这个测度也不是很理想,但预测结果的好坏,并非定性选择模型唯一关心的事,这类模型常被用于研究影响人们进行某个决策的因素。让我们来看一个竞选的例子。假设候选人甲和乙二人竞选某市市长,我们可以用一个二元选择模型来研究影响选民决策的因素,模型为:其中:VariableCoefficientStandarderrort-Statisticp-ValueConstant-0.510.19-2.650.01INCOME0.00980.0033.250.00AGE0.0160.00533.080.00

MALE0.00310.130.020.98表10-2两候选人选举线性概率模型回归结果Dependentvariable:CAND1Observations:30=0.58Adjusted=0.53ResidualSumofSquares=3.15F-statistic=11.87如表10-2所示,INCOME的斜率估计值为正,且在1%的水平上显著。年龄和性别不变的情况下,收入增加1000元,选择候选人甲的概率增加0.0098。

AGE的斜率估计值也在1%的水平上显著。在收入和性别不变的情况下,年龄增加1岁,选择候选人甲的概率增加0.016。MALE的斜率系数统计上不显著,因而没有证据表明样本中男人和女人的选票不同。我们可以得出如下结论:年老一些、富裕一些的选民更喜欢投票给候选人甲。

表10-3(P201)中给出CAND1的拟合值,每个大于等于0.5的拟合值计入CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预测。从表10-3可看出,30个观测值中,27个(或90%)预测正确。选甲的14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或93.8%)预测正确。是0.58,表明模型解释了因变量的58%的变动,这与90%的正确预测比例相比,低了不少。注意表10-3中有一些拟合值大于1或小于0。这是我们前面指出的这类模型的缺点之一,这些拟合值是概率的估计值,而概率永远不可能大于1或小于0。第二节Probit模型和Logit模型

虽然估计和使用线性概率模型很简单,但存在上面讨论的几个问题,其中最严重的两个问题是拟合值小于0或大于1的问题和假定自变量和的概率之间存在线性关系的假设不现实的问题。使用更为复杂的二元响应模型可以克服这些缺陷。本节要介绍的Probit模型和Logit模型就是这样的模型。一.Probit和Logit模型的设定

在二元响应模型中,首先要关心的是响应概率(responseprobability)。这里我们用x表示全部解释变量和常数1构成的列向量,即,,解释变量的第i个样本观测值用表示。在LPM模型中,我们假定响应概率是一组参数的线性函数。为了避免LPM模型的这一缺陷,考虑形如下式的一类二元响应模型:

其中G是一个取值严格位于0和1之间的函数,即对于全部实数z成立。我们下面要介绍是实践中应用最广泛的两个G函数。在logit模型中,G是logistic函数:此函数是标准logistic随机变量的累积分布函数。在probit模型中,G是标准正态累积分布函数(cdf):是标准正态概率密度(pdf),G的这两个选择都确保了对于所有参数和的值,(10-10)式严格位于0和1之间。这两个函数的形状都与图10.1中曲线的形状类似。

Logit和probit模型可由一个基础的潜变量模型(latentvariablemodel)导出。设是一个潜变量,由下式决定:潜变量是观测不到的,我们能够观测的是二值变量Y,如购买或不购买的决定,因此,观测值为:我们假定独立于x,且服从正态分布或logistic分布。这两种分布都是关于0对称的,因此对于所有实数z,应有由(10.10)式和给定的假设,我们可导出Y的响应概率:结果与(10.10)式完全相同。由此我们不难写出Logit模型和probit模型如下:

Probit模型:Logit模型:二、Probit模型和Logit模型的极大似然估计和假设检验估计LPM,我们可以采用OLS或WLS。在Probit模型和Logit模型中,由于的非线性性质,OLS或WLS都不再适用。估计Probit模型和Logit模型,通常采用极大似然法。概率密度函数对数似然函数容量为n的样本的对数似然函数通过对所有观测值求和得到

的极大似然估计量(MLE)即由极大化此对数似然函数得到。对于logit模型,G是标准logisticcdf,是logit估计量;对于probit模型,G是标准正态cdf,是probit估计量。由于此最大化问题的非线性性质,我们很难写出Probit模型和Logit模型的参数的极大似然估计量的具体表达式。可以证明,在很一般的条件下,MLE是一致的、渐近正态和渐近有效的(一般性讨论参见Woodridge(2002))。伴随每一个极大似然估计值,有一个与之对应的标准误差。支持Probit和Logit的软件包在给出系数估计值的同时会给出与之对应的标准误差。一旦我们从软件包的报告中得到了标准误差,就可以构造(渐近的)t检验和置信区间,与应用OLS、2SLS估计量做检验时一样。例如要检验,我们做法是,构造t统计量,然后按通常的检验程序进行检验。我们也可以对Probit模型和Logit模型的参数的多重约束(即关于的多个线性或非线性约束)进行检验,可以采用沃尔德检验、拉格朗日乘数检验和似然比检验。三、偏效应

在二元响应模型的大多数应用中,首要的目标是解释对响应概率的影响。在潜变量模型中,对潜变量的偏效应是,我们下面将看到对响应概率的偏效应是,对正态分布和logistic分布而言,总有,因而上述两个效应的符号相同,影响的方向总是一致的。可是,潜变量极少有一个确定的度量单位,因而本身的大小,往往不是很有用的(相对于线性概率模型而言)。对于大多数应用而言,我们要估计的是解释变量对响应概率的影响。由于的非线性本质,使得这个工作相当复杂,通常需要区分为连续变量和离散变量两种情况。(1)如果是一个大致连续的变量,则解释变量对响应概率的偏效应(patialeffects)是

其中,G是连续随机变量的cdf,g是相应的概率密度函数。在Probit和Logit模型中,均有。因此,对响应概率的偏效应取决于与一个正数的乘积,且总具有与相同的符号。无论Probit模型还是Logit模型,对响应概率的偏效应都在处取得最大值:在Probit模型中,在Logit模型中,

2)对于离散解释变量,微分没有实际意义。若离散解释变量从变化到,则其对响应概率的离散偏效应可由下式表示将估计参数带入,即可算出偏效应的值。

由(10.20)容易看出,与LPM模型相比,偏效应的值多出一个乘积项,称为比例因子(scalefactor)或调整因子(adjustmentfactor),它与全部解释变量有关,因而会随x的值而变。在计算偏效应时,为方便起见,通常希望有一个适用于模型中所有斜率的比例因子。有两种方法解决这个问题:第一种方法是用解释变量观测值的均值计算偏效应的表达式,比例因子为如果我们用(10-22)去乘一个斜率系数,我们得到的是均值偏效应(partialeffectattheaverage,PEA)。第二种方法是对每个观测值计算偏效应,然后计算它们的样本均值,这样得到的是平均偏效应(averagepartialeffect,APE)。

前面的乘积项就是比例因子

在同时采用LPM、logit和probit的应用中,计算出logit和probit模型的上述比例因子,可用来进行偏效应的比较。如果要快速比较不同模型的参数估计值的大小,可以采用粗略的比较方法。前面介绍过,Probit模型中,;Logit模型中,;因此,要粗略地比较logit和probit中估计值的大小,我们可以将probit系数乘以,或者将logit估计值乘以0.625。而在LPM中,实际上。以LPM为比较标准,将Probit模型的估计值乘以0.4大致可以与LPM的估计值相比,将Logit模型的参数估计值乘以0.25大致可以与LPM的估计值相比。当然,在大多数情况下,我们还是应当用(10.23)给出的logit和probit的比例因子得到更准确的比较。四、拟合优度的测度从实际角度看,在现代计算机解决了复杂的计算问题之后,Probit和Logit模型最困难之处就落在模型结果的提供和解释方面。支持Probit和Logit的软件包都会报告系数估计值、它们的标准误差和对数似然函数值。如同在线性概率模型中讨论的一样,Probit模型和Logit模型也可以计算正确预测的百分比这一指标作为拟合优度的测度。首先,我们将每一预测归类为1或0。如果拟合值大于等于0.5,则认为因变量的预测值为1。若小于0.5,则认为因变量的预测值为0。然后,将这些预测值与实际发生的情况相比较,计算出正确预测的百分比。尽管正确预测的百分比作为拟合优度的测度是有用的,但它也可能造成误导,特别是在对小可能结果的预测非常糟糕的情况下仍能得到相当高的正确预测的百分比。例如,假设n=200,160个观测值为,这160个观测值中,有140个预测值也是0,即使对于的那40个观测值的预测都错,正确预测全部结果的百分比仍高达70%!度量Probit和Logit模型的拟合优度的测度还可以采用各种pseudo-R2

。pseudo-原意是伪(假),这里采用它,意思是与常规R2类似但不相同,而不是说它是假的。对于Probit模型和Logit模型,已经开发了几种有用的pseudo-R2测度,其中最常用的是McFadden(1974)提出的pseudo-R2测度。

McFadden的pseudo-R2测度为,其中

lnL

表示被估计模型的对数似然函数值,lnL0

则表示只有截距项的模型的对数似然函数值。实际应用中,很多支持Probit和Logit的计量经济程序都计算和报告pseudo-R2。

五.实例例10.2我们可以将两个候选人的选举模型用Probit模型估计,使用与例10.1一样的变量和数据,估计结果如表10-4所示。表10-4两候选人选举模型的Probit回归结果Dependentvariable:CAND1VariableCoefficientStandarderrort-Statisticp-ValueConstant-5.191.70-3.060.00INCOME0.0710.0342.100.04AGE0.0730.0342.180.03MALE-0.700.90-0.780.44Observations:30McFaddenpseudo-R2=0.61ResidualSumofSquares=2.62采用Probit模型估计的结果与前面用线性概率模型估计的结果有所不同。采用Probit模型的情况下,INCOME和AGE的系数估计值在5%的误差水平上显著,而在线性概率模型的情况下,在1%的水平上显著。由于我们知道线性概率模型存在严重的问题,因此Probit结果可能更准确一些。可是,如果是实际研究的话,要有一个大得多的样本。Probit模型的系数估计值不能像线性概率模型那样,解释成概率的变动。McFadden的pseudo-R2=0.61,含义是Probit模型解释了因变量61%的变动。例10.3我们将两个候选人的选举模型用Logit模型估计,使用与前例一样的变量和数据,估计结果如表10-5所示。

表10-5两候选人选举模型的Logit回归结果Dependentvariable:CAND1VariableCoefficientStandarderrort-Statisticp-ValueConstant-8.963.23-2.770.01INCOME0.120.061.980.05AGE0.130.062.030.04MALE-1.031.54-0.670.51Observations:30McFaddenpseudo-R2=0.60ResidualSumofSquares=2.59

McFaddenpseudo-R2和统计显著性与probit模型的结果类似。INCOME和AGE的系数估计值亦在5%误差水平上显著。而MALE则在两种模型回归中均不显著。而斜率系数估计值有较大差异,要比较这两个模型参数估计值的大小,将表10-5中的斜率系数都乘以0.625,分别得到0.075、0.081和-0.644,与表10-4中Probit估计值大致相当。六、多项选择模型

多项选择模型是研究在多于两个的选项中进行决策的模型。一般可以依照选择集分为有序和无序两种宽泛的类型。比如,城市交通工具的选择显然是无序的,而投资者选择公司债券(债券经过评级)是有序的。有关二元选择的Logit模型可以推广到因变量有两个以上离散取值的情况,构成多项Logit模型(multinomiallogitmodel),此模型的主要优点是容易计算,选择给定方案的概率易于被表示,并且极大似然函数可以用简单明了的方式产生和最大化。该模型的缺点是它以所谓的不相干选择的独立性(independenceofirrelevantalternatives,IIA)性质为特征。假设一个几乎与一个已有选项相同的新选项被加进选择集中,我们期望的是,从此模型得到的选择这两个几乎相同的选项(如乘公共汽车时选老车型还是新车型)的概率将被分成两半,而选择其它选项的概率不受影响。不幸的是,情况不是这样。因此当两个或多个选项是相近替代方案时,采用多项Logit模型不适合。

在这种情况下,可考虑多项Probit模型(multinomialProbitmodel)。多项Probit模型允许扰动项跨选项相关,从而绕过IIA困境。它的缺点是计算困难,计算四个以上选项的问题几乎不可行。随着计算机能力和计算方法的改进,多项Probit模型的应用前景会越来越好。如果因变量本质上是有序的,多项Logit模型和多项Probit模型均无法解释因变量的序数性质。因为决策者选择不同的方案所得到的效用也是排序的,一般多元离散选择模型中的效用关系不再适用。处理有序离散因变量的常用方法是有序Probit模型与有序Logit模型。*第三节Censored模型一、Censored模型的概念

Censored模型研究一类重要的受限因变量:在取正值时大致连续,但总体中有一个不可忽略的部分取值为零。例如考察决定居民家庭用于耐用消费品(如汽车等)支出的因素,或者研究居民每年用于慈善捐助支出的决定因素,或者研究居民每月用于特殊消费品(如酒类等)支出的决定因素等等。这些研究都需要对总体进行抽样调查取得相关的数据,而抽样调查的结果有一个共同的特点,那就是有相当一部分个体用于这些方面支出的金额为零,同时不为零的支出数据会呈现出基本连续的形态。下面我们以研究家庭在购买汽车上愿意花费的钱数为例进一步讨论这个问题。

在家庭购买汽车意愿的案例中,只有汽车被购买,我们才能观测到愿意花费的金额,可用如下潜变量模型来研究家庭愿意为购车花费的钱数的决定因素:

其中是家庭特性向量,如收入、子女数、教育背景等。是潜变量,表示家庭愿意为购车花费的金额,或者说是家庭购车花费的意愿。仅当时我们观测到,当时,我们设。假定扰动项为

,此模型就是一个Censored模型,由于该模型是由Tobin于1958年最早提出的,所以也称为Tobit模型。在这个模型中,观测值是被归并的(censored),因为我们没有观测到任何小于0的。我们所观测到的是这个家庭没有买车的事实以及这个家庭的特性向量。在这种情况下,如果仅用的那些观测值进行OLS回归,结果将是有偏的,因为的均值不为0。事实上,从样本中省略那些的观测值,我们仅考虑了那些满足的扰动项。这些的分布是一个截断的(truncated)正态概率密度,如图10.2所示。该密度的均值不为0,且依赖于。

图10.2截断正态概率密度曲线下面给出censored模型的一般形式。当因变量在特定范围内的值都转换成(或报告为)某个值时,称因变量被归并(censoring),称此变量为归并变量(censoredvariable)。censored回归模型的一般形式是:不失一般性,我们将a设为零,这就是(10.24)中设定的模型。本节仅介绍因变量观测值以0为归并点的情况,即标准Tobin模型。得到的结果不难推广到a不等于0的一般情形。

二、Tobit模型的估计为了估计模型参数,我们推导Y的均值令,称为逆米尔斯比率(inverseMillsratio),它是标准正态pdf与标准正态cdf在c处的比值。则上式可写成式(10.27)很重要。它表明:以为条件的均值等于与一个严格为正的项之和,这个正项等于乘以逆米尔斯比率在处的值。这个方程还表明,只对的观测值应用OLS不能一致地估计。实际上,此时逆米尔斯比率会被忽略,而它与解释变量有关。有了上面的结果,我们可以计算从总体中随机抽取的观测值的均值:

可以证明,对任意和,上式大于0,因此,

一旦有了的估计值,我们可以确保Y的预测值为正。当然,保证Y的预测值为正的代价是使用了更为复杂的非线性模型。

Censored模型通常采用极大似然估计。由Y的分布,可得模型的对数似然函数为该对数似然函数由两部分组成:一部分对应于没有限制的观测值,是经典回归部分;一部分对应于受到限制的观测值。因而上式是一个非标准的对数似然函数,实际上是离散分布与连续分布的混合。最大化对数似然函数,即可得到极大似然估计量。这一估计量的性质与普通MLE的性质相同。一般情况下,需采用数值方法来求极大似然估计值。利用Eviews软件,可以方便地得到模型的参数估计值及标准误差,因而可以进行参数的假设检验。我们还可以采用沃尔德统计量或似然比统计量同时检验多个约束,其方法与一般的MLE相同。

Censored模型的MLE需要两个基本假定:潜变量模型中随机干扰项的同方差性和正态性。如果存在异方差性或非正态性,那么MLE估计量便是不一致的。在实践中,研究人员估计Censored模型时往往采用OLS法,尽管OLS估计值不一致。人们发现OLS估计值通常小于ML估计值,几乎没有例外。一个值得注意的经验规律是,极大似然估计值通常约等于OLS估计值除以样本中非受限观测值的比例。这恐怕是人们估计Censored模型时采用OLS法的原因。三、Tobit模型的偏效应在潜变量模型中,参数的含义与线性模型相同,事实上但潜变量不可观测,因而这个结果通常没有什么意义。我们更关心的是解释变量如何影响可观测变量Y

。可以证明,在Tobit模型扰动项正态分布的假设下,对的偏效应为四、实例Wooldridge报告了一个美国已婚妇女工作时数的例子。样本数据包括753个已婚妇女的年工作小时数,其中有428个妇女小时数大于0,另外325个妇女的工作小时数为0。对工作时间为正的妇女而言,其工作时间范围相当宽,从12小时到4950小时,可以看作连续变化。因此,年工作小时数很适合用Tobit模型,Wooldridge同时还用OLS估计了线性模型(使用全部753个数据),结果由下表给出。因变量:hours自变量线性模型(OLS)Tobit模型(MLE)Nwifeinc-3.45(2.54)-8.81(4.46)Educ28.76(12.95)80.65(21.58)Exper65.67(9.96)131.56(17.28)Exper2-0.70(.325)-1.86(0.54)Age-30.51(4.36)-54.41(7.42)Kidslt6-442.09(58.85)-894.02(111.88)Kidsge6-32.78(23.18)-16.22(38.64)Constant1330.48(270.78)965.31(446.44)ConstantLog-likelihoodvalue-3819.09R-squared0.2660.275750.181122.02我们对比OLS估计与Tobit估计,可以看出:Tobit系数估计值与OLS估计值具有相同的符号,而且统计显著性也类似。可能的例外的是nwifeinc与kidsge6的系数,nwifeinc在OLS估计中的t统计量为-1.41,在Tobit估计中的t统计量为-1.98。kidsge6在OLS估计中的t统计量为-1.41,在Tobit估计中的t统计量为-0.42。(2)本例的结果可以验证我们前面介绍的经验法则。样本中非受限观测值的比例为428/753=0.568,除个别例外(kidsge6),OLS估计值除以0.568得到的值与Tobit估计值大致相当。如将Exper的OLS系数估计值65.67除以0.568,得到115.62。除了kidsge6外,换算后的OLS估计值的绝对值都小于对应的Tobit估计值的绝对值。(3)线性模型和Tobit模型都报告了R-squared值,但其计算方法是不同的。线性模型的R-squared值是基于残差平方和得到的,而Tobit模型的R-squared值却是与其估计值之间相关系数的平方。(4)从R-squared看,Tobit模型拟合要好一点,但并不明显。不过,我们要看到,Tobit估计值是最大化对数似然函数得到的,其目的并不是为了最大化R-squared,而OLS估计值却是为得到最大化的R-squared值。(5)根据两个模型预测,hours的所有Tobit拟合值均是正的。相比之下,OLS拟合值则有39个为负。*第四节Truncated模型

Truncated模型从样本中排除或截断一些观测值,例如,Hausman和Wise(1977)利用负收入税实验的数据来研究收入的各种决定因素的例子中,一个家庭的收入必须低于1967年贫困线的1.5倍才会被包含在研究数据中。因此样本不再是随机的,OLS应用于这种被截断的样本会导致有偏和不一致的结果,如图10-8所示。截断(Truncation)与上一节介绍的归并(censoring)不同,在归并的情况下,没有数据被排除。事实上,我们观测到所有家庭的特性,包括那些没有购车的家庭。

图10.3截断回归模型截断回归模型可以表示成:我们仍假设满足经典回归模型的基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论