离散因变量和受限因变量模型.ppt_第1页
离散因变量和受限因变量模型.ppt_第2页
离散因变量和受限因变量模型.ppt_第3页
离散因变量和受限因变量模型.ppt_第4页
离散因变量和受限因变量模型.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第七章 离散因变量和受限因变量模型,通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值。例如,人们对交通工具的选择:地铁、公共汽车或出租车;投资决策中,是投资股票还是房地产。以这样的决策结果作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或者称为离散选择模型(discrete choice model, DCM)。,2,在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得的样本数据来自总体的一个子集,可能不能完全反映总体。这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。这两类模型经常用于调查数据的分析中。,3,7.1 二元选择模型 在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binary choice model)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车记为1,不买记为0。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。,4,为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为: (7.1.1) 其中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量: 式(7.1.1)中ui为相互独立且均值为0的随机扰动项。,7.1.1 线性概率模型及二元选择模型的形式,5,令pi = P ( yi =1) ,那么 1 - pi = P ( yi =0) ,于是 (7.1.2) 又因为E(ui ) = 0 ,所以 E(yi ) = xi,xi =(x1i , x2i , xki ), =(1 , 2 , k ),从而有下面的等式: (7.1.3),6,式(7.1.3)只有当xi 的取值在(0,1)之间时才成立,否则就会产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式: (7.1.4) 此时就可以把因变量看成是一个概率。 那么扰动项的方差为: (7.1.5) 或 (7.1.6),7,由此可以看出,误差项具有异方差性。异方差性使得参数估计不再是有效的,修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值在(0,1)之内,这是线性概率模型一个严重的弱点。由于上述问题,我们考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。 假设有一个未被观察到的潜在变量yi*,它与xi之间具有线性关系,即 (7.1.7) 其中: ui*是扰动项。yi和yi*的关系如下: (7.1.8),8,yi*大于临界值0时,yi =1;小于等于0时,yi =0。这里把临界值选为0,但事实上只要xi包含有常数项,临界值的选择就是无关的,所以不妨设为0。这样 (7.1.9) 其中:F是ui*的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回归模型: (7.1.10) 即yi关于它的条件均值的一个回归。,9,分布函数的类型决定了二元选择模型的类型,根据分布函数F的不同,二元选择模型可以有不同的类型,常用的二元选择模型如表7.1所示: 表7.1 常用的二元选择模型,10,二元选择模型一般采用极大似然估计。似然函数为 (7.1.11) 即 (7.1.12) 对数似然函数为 (7.1.13),7.1.2 二元选择模型的估计问题,11,对数似然函数的一阶条件为 (7.1.14) 其中:fi 表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值,求解该方程组,就可以得到参数的极大似然估计量。例如,将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14) 通常是非线性的,需用迭代法进行求解。 二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取1的概率越大;反之,如果系数为负,表明相应的概率将越小。,12,例7.1 二元选择模型实例 考虑Greene 给出的斯佩克特和马泽欧(1980)的例子,在例子中分析了某种教学方法对成绩的有效性。因变量(GRADE)代表在接受新教学方法后成绩是否改善,如果改善为1,未改善为0。解释变量(PSI)代表是否接受新教学方法,如果接受为1,不接受为0。还有对新教学方法量度的其他解释变量:平均分数(GPA)和测验得分(TUCE),来分析新的教学方法的效果。,13,(1)模型的估计 估计二元选择模型,从Equation Specification对话框中,选择Binary估计方法。在二元模型的设定中分为两部分。首先,在Equation Specification区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然后,在Binary estimation method中选择Probit,Logit,Extreme value选择三种估计方法的一种。以例7.1为例,对话框如图7.2所示。,14,图7.2 二元选择模型估计对话框,15,例7.1的估计输出结果如下:,16,参数估计结果的上半部分包含与一般的回归结果类似的基本信息,标题包含关于估计方法(ML表示极大似然估计)和估计中所使用的样本的基本信息,也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、z-统计量和相应的概率值及各种有关统计量。,17,在回归结果中还提供几种似然函数: log likelihood是对数似然函数的最大值L(b),b是未知参数 的估计值。 Avg. log likelihood 是用观察值的个数N去除以对数似然函数L(b) ,即对数似然函数的平均值。 Restr. Log likelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b) 。 LR统计量检验除了常数以外所有系数都是0的假设,这类似于线性回归模型中的统计量,测试模型整体的显著性。圆括号中的数字表示自由度,它是该测试下约束变量的个数。,18, Probability(LR stat)是LR检验统计量的P值。在零假设下,LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。 McFadden R-squared是计算似然比率指标,正像它的名字所表示的,它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质。,19,利用式(7.1.10),分布函数采用标准正态分布,即Probit模型,例7.1计算结果为 (7.1.15) z = (-2.93) (2.34) (0.62) (2.39) 利用式(7.1.15)的Probit模型的系数,本例按如下公式给出新教学法对学习成绩影响的概率, 当PSI = 0时: (7.1.19) 当PSI = 1时: (7.1.20) 式中测验得分TUCE取均值(21.938),平均分数GPA是按从小到大重新排序后的序列。,20,图7.1 新教学法对学习成绩影响的概率,21,(2) 估计选项 因为我们是用迭代法求极大似然函数的最大值,所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮,打开对话框如图7.3所示。 图7.3 Options对话框,22,(4)产生残差序列 通过Procs/Make Reidual Series选项产生下面三种残差类型中的一种类型。 表7.6 残差类型,23,7.2 排序选择模型,当因变量不止是两种选择时,就要用到多元选择模型(multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如: (1) 一个人面临多种职业选择,将可供选择的职业排队,用0,1,2,3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等; (2) 同一种商品,不同的消费者对其偏好不同。例如,十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶,分别用0,1,2,3,4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等; (3) 一个人选择上班时所采用的方式自己开车,乘出租车,乘公共汽车,还是骑自行车。,24,上述3个例子代表了多元选择问题的不同类型。前两个例子属于排序选择问题,所谓“排序”是指在各个选择项之间有一定的顺序或级别种类。而第3个例子只是同一个决策者面临多种选择,多种选择之间没有排序,不属于排序选择问题。与一般的多元选择模型不同,排序选择问题需要建立排序选择模型(ordered choice model)。下面我们主要介绍排序选择模型。,25,与二元选择模型类似,设有一个潜在变量 yi*,是不可观测的,可观测的是 yi ,设 yi 有0,1,2,M等M+1个取值。 (7.2.1) 其中:ui*是独立同分布的随机变量,yi 可以通过 yi*按下式得到 (7.2.2),26,设ui*的分布函数为F(x),可以得到如下的概率 (7.2.3) 和二元选择模型一样,根据分布函数F(x)的不同可以有3种常见的模型:Probit模型、Logit模型和Extreme value模型。仍然采用极大似然方法估计参数,需要指出的是,M个临界值c1, c2, , cM 事先也是不确定的,所以也作为参数和回归系数一起估计。,27,7.3 受限因变量模型,现实的经济生活中,有时会遇到这样的问题,因变量是连续的,但是受到某种限制,也就是说所得到的因变量的观测值来源于总体的一个受限制的子集,并不能完全反映总体的实际特征,那么通过这样的样本观测值来推断总体的特征就需要建立受限因变量模型(limited dependent variable models)。本节研究两类受限因变量模型,即审查回归模型(censored regression models)和截断回归模型(truncated regression models)。,28,7.3.1 审查回归模型 1模型的形式 考虑下面的潜在因变量回归模型 (7.3.1) 其中: 是比例系数;y*是潜在变量。被观察的数据 y 与潜在变量 y* 的关系如下: (7.3.2),29,换句话说,yi*的所有负值被定义为0值。我们称这些数据在0处进行了左截取(审查)(left censored)。而不是把观测不到的 yi* 的所有负值简单地从样本中除掉。此模型称为规范的审查回归模型,也称为Tobit模型。 更一般地,可以在任意有限点的左边和右边截取(审查),即 (7.3.3) 其中: , 代表截取(审查)点,是常数值。如果没有左截取(审查)点,可以设为 。如果没有右截取(审查)点,可以设为 。规范的Tobit模型是具有 和 的一个特例。,30,2审查回归模型的极大似然估计 与前边介绍的几个模型类似,可以采用极大似然法估计审查回归模型的参数,对数似然函数为 (7.3.4) 求式(7.3.4)的最大值即可得参数 , 的估计。这里f , F分别是u的密度函数和分布函数。,31,特别地,对于Tobit模型,设uN(0,1),这时对数似然函数为 (7.3.5) 式(7.3.5)是由两部分组成的。第一部分对应没有限制的观测值,与经典回归的表达式是相同的;第二部分对应于受限制的观测值。因此,此似然函数是离散分布与连续分布的混合。将似然函数最大化就可以得到参数的极大似然估计。,32,例7.3 审查模型的实例 本例研究已婚妇女工作时间问题,共有50个调查数据,来自于美国国势调查局U.S.Bureau of the Census(Current Population Survey, 1993),其中y 表示已婚妇女工作时间, x1 x4分别表示已婚妇女的未成年子女个数、年龄、受教育的年限和丈夫的收入。只要已婚妇女没有提供工作时间,就将工作时间作零对待,符合审查回归模型的特点。,33,7.3.2 截断回归模型 截断问题,形象地说就是掐头或者去尾。即在很多实际问题中,不能从全部个体中抽取因变量的样本观测值,而只能从大于或小于某个数的范围内抽取样本的观测值,此时需要建立截断因变量模型。例如,在研究与收入有关的问题时,收入作为被解释变量。从理论上讲,收入应该是从零到正无穷,但实际中由于各种客观条件的限制,只能获得处在某个范围内的样本观测值。这就是一个截断问题。截断回归模型的形式如下: (7.3.7) 其中:yi 只有在 时才能取得样本观测值, ,为两个常数。 对于截断回归模型,仍然可以采用极大似然法估计模型的参数,只不过此时极大似然估计的密度函数是条件密度。,34,7.5.3 估计审查回归模型 1.模型的估计 为估计审查模型,打开Equation对话框,从Equation Specification对话框所列估计方法中选择CENSORED估计方法。在Equation Specification区域,输入被审查的因变量的名字及一系列回归项。审查回归模型的估计只支持列表形式的设定(图7.5)。,35,图7.5 审查模型的估计对话框,36,在三种分布中选择一种作为误差项的分布,EViews提供三种可供选择的分布(表7.8)。 表7.8 误差项的分布,还需要在Dependent Variable Censoring Points一栏提供关于被检查因变量的临界点的信息。临界点可以是数值、表达式、序列,还可以是空的。有两种情况需要考虑: 临界点对于所有个体都是已知的; 临界点只对具有审查观察值的个体是已知的。,37,(1)临界点对所有个体都已知 按照要求在编辑栏的左编辑区(Left)和右编辑区(Right)输入临界点表达式。注意如果在编辑区域留下空白,EViews将假定该种类型的观测值没有被审查。 例如,在规范的Tobit模型中,数据在0值左边审查,在0值右边不被审查。这种情况可以被指定为: 左编辑区: 0 右编辑区: blank 而一般的左边和右边审查由下式给出: 左编辑区: 右编辑区: EViews也允许更一般的设定,这时审查点已知,但在观察值之间有所不同。简单地在适当的编辑区域输入包含审查点的序列名字。,38,(2)临界点通过潜在变量产生并且只对被审查的观测值个体已知 在一些情况下,假设临界点对于一些个体( 和 不是对所有的观察值都是可观察到的)是未知的,此时可以通过设置0-1虚拟变量(审查指示变量)来审查数据。EViews提供了另外一种数据审查的方法来适应这种形式。简单地,在估计对话框中选择Field is zero/one indicator of censoring选项,然后在合适的编辑区域输入审查指示变量的序列名。对应于审查指示变量值为1的观察值要进行审查处理,而值为0的观察值不进行审查。,39,例如,假定我们有个人失业时间的观察值,但其中的一些观察值反映的是在取得样本时仍然继续失业的情况,这些观察值可以看作在报告值的右边审查。如果变量rcens是一个代表审查的指示变量,可以选择Field is zero/one indicator of censoring设置,并在编辑区域输入: 左编辑区: blank 右编辑区: rcens 如果数据在左边和右边都需要审查的话,对于每种形式的审查使用单独的审查指示变量: 左编辑区: lcens 右编辑区: rcens 这里,lcens也是审查指示变量。完成模型的指定后,单击OK。EViews将会使用合适的迭代步骤估计模型的参数。,40,例7.3的估计结果如下:,41,2模型的预测与产生残差 EViews提供了预测因变量期望 E (y | x, , ) 的选项,或预测潜在变量期望 E (y*| x, , ) 的选项。从工具栏选择Forecast打开预测对话框。为了预测因变量的期望,应该选择Expected dependent variable,并输入一个序列名称用于保存输出结果。为了预测潜在变量的期望,单击Index-Expected latent variable,并输入一个序列的名称用于保存输出结果。潜在变量的期望 E (y*| x, , ) 可以从如下关系中得到: (7.5.3) 通过选择Procs/Make Residual Series,并从残差的3种类型中进行一种,可以产生审查模型的残差序列。审查模型的残差也有3种类型,与前述类似。,42,3 估计截断回归模型 估计一个截断回归模型和估计一个审查模型遵循同样的步骤,从主菜单中选择Quick/Estimate Equation,并在Equation Specification 对话框中,选择CENSORED估计方法。出现估计审查和截断回归模型对话框。在Equation Specifica

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论