计量经济学讲义第七讲(共十讲).doc_第1页
计量经济学讲义第七讲(共十讲).doc_第2页
计量经济学讲义第七讲(共十讲).doc_第3页
计量经济学讲义第七讲(共十讲).doc_第4页
计量经济学讲义第七讲(共十讲).doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工商大学金融学院姚耀军讲义系列第七讲 虚拟变量一、含有虚拟变量的模型假设居民家庭的教育费用支出除了受收入水平的影响之外,还与子女的年龄结构密切相关。如果家庭中有适龄子女(621岁),教育费用支出就多。现在考虑模型: (1)其中,y表示教育支出,x表示收入,而D的取值是在这里,D就是一个虚拟变量,也被称为哑变量,它反映了定性因素的变化。模型(1)的等价形式由如下两个子模型组成:无适龄子女家庭其教育费用支出函数(Di 0):有适龄子女家庭其教育费用支出函数(Di 1): 如果保持家庭收入一样,有适龄子女的家庭教育费用将比无适龄子女的家庭费用高。因此,虚拟变量D的显著性意味着子女的年龄结构对家庭教育费用有显著影响。定性因素也可能影响斜率参数,例如随着收入水平的提高,家庭教育支出的边际消费倾向也可能会发生变化。为了反映定性因素对斜率参数的影响,可以设定模型: (2)模型(2)的等价形式由如下两个子模型组成:无适龄子女家庭其教育费用支出函数(Di 0):有适龄子女家庭其教育费用支出函数(Di 1): 事实上,我们还可以设定更一般的模型,以涵盖定性因素不仅影响截距也影响斜率参数的情况:当然,我们可以利用t检验或者F检验分别判断、单个或者联合显著性,进而确定哪一种模型设定合理。二、虚拟变量的设置原则假设公司职员的年薪与工龄和学历有关。学历分成三种类型:大专以下、本科、研究生。为了反映“学历”这个定性因素的影响,我们设置两个虚拟变量: 如果把模型设定为:其中y是年薪,x是工龄。模型等价于: 大专以下(D1=D2=0) 本科(D1=1,D2=0) 研究生(D1=0,D2=1)大专以下本科研究生工龄年薪a0a1-a0下图是关于上述各个子模型的总体回归函数的图形表示:在上例中,样本按学历分为三类。在考察学历对年薪的影响时,我们以具有大专以下学历的人为参考组。练习:针对上例,如果以具有本科学历的人为参考组,并且假定工龄对年薪的边际影响不受学历影响,试建立模型。 针对上例,现在我们来回答四个问题,以加深对含虚拟变量模型的理解。问题一:为何不直观地设定虚拟变量D =并且模型为:?回答:当采取上述模型设定时,各子模型总体回归函数如下图所示:大专以下本科研究生工龄年薪a0a0该图表明,当采取如此模型设定时一个假定被隐含:研究生与本科生之间、本科生与大专生之间的年薪差异程度是相同的,在数值上都等于。显然,这是非常强的假定。问题二:为何不设置三个虚拟变量? 并设定模型为:回答:如果采取这样的设定,那么对于每一个职员,必有:应该注意,截距项还对应一个解释变量,取值恒为1。因此,模型存在完全共线性。此即虚拟变量设置陷阱。笔记:在实践中,虚拟变量设置陷阱往往不会成为真正的陷阱。这是因为,当模型存在完全共线性时,计量软件会提示你,它无法进行估计!问题三:可不可以设定三个虚拟变量呢 回答:可以。设定模型为:应该注意到,该模型没有截距!当采取上述模型设定时,各子模型总体回归函数如下图所示:大专以下本科研究生工龄年薪a0-a2a1-a0a2应该注意到,当采取上述模型设定时,参考组并不确定。a0、a1、a2分别是各子模型的截距,而不是各截距的差异。笔记:尽管教科书经常告诫我们,如果样本数根据一种因素分为m种类型,那么我们只需要设置m-1个虚拟变量,以防虚拟变量设置的陷阱。然而在谈到虚拟变量陷阱时,我们不能离开模型设定方式泛泛而谈。问题四:对于含虚拟变量的模型,在应用中,何时选择带有截距的模型何时选择不带有截距的模型?回答:通常带有截距的模型应用更为广泛,这一方面是因为诸如R2、DW等统计指标的应用要求模型带有截距;另一方面是因为,我们通常关注变量在各个子样本中影响的差异,而在带有截距的模型中,与虚拟变量相对应的系数往往直接就是差异的数值。笔记:我们首先考察带有截距的虚拟变量模型的一个应用。股票市场或许存在一种“日历效应”,即,一周内某些天的平均收益远高于其他几天平均收益。现在建立一个模型:在这里,rt是股票日收益率,是周二虚拟变量,即周二时其值为1,其余为零,其他虚拟变量取值以此类推。利用第一讲相关知识,我们不难知道,将是周一的平均收益率。利用本讲前面的相关知识,是周二平均收益率与周一平均收益率之差,其余参数估计以此类推。通过检验假设各虚拟变量是否显著,我们从统计上可判断,一周内其他时间其平均收益率是否与周一平均收益率有显著差异(通过检验,我们可以判断周一平均收益率是否显著异于零)。一个问题是,在这里我们是以周一为参照点,如果以周二为参照点,结论会是什么呢?为了回答这个问题,我们当然可以选取不同的参照点重新建模。不过利用已有的模型,我们同样可以回答问题。基于已有模型,其他时间平均收益与周二平均收益率的差是:因此,我们分别检验原假设则可以判断一周内其他时间其平均收益率是否与周二平均收益率有显著差异。以此类推,我们可以检验一周内其他时间其平均收益率是否与任意参照点的平均收益率有显著差异。总的来看,为了检验“日历效应”,基于已有的模型,我们必须分别检验各虚拟变量所对应系数是否为零;我们也必须分别检验各虚拟变量所对应系数是否相等。能不能简化一下假设检验?可以。现在建立模型:上述模型不带有截距。是周一虚拟变量,即周一时其值为1,其余为零,其他虚拟变量取值以此类推。各个系数的估计分别是相应时间的平均收益率。为了检验“日历效应”,我们分别检验各虚拟变量所对应系数是否相等。三、一个稍微复杂的例子在研究教育投资时,考虑到城乡的差异以及不同家庭结构的影响,将教育投资函数取成:其中y , x分别是居民教育支出和可支配收入,虚拟变量 各类居民家庭的住房消费情况是:城市无适龄子女家庭(D1=0,D2=0):城市有适龄子女家庭(D1=0,D2=1):农村无适龄子女家庭(D1=1,D2=0):农村有适龄子女家庭(D1=1,D2=1):在上例中,样本数据分为两种因素,其中每一种因素对应两种类型。结果我们只设定了两个虚拟变量。实际上存在一个推广:如果共有m个因素,其中第i个因素具有种类型,那么我们只需要设置个虚拟变量就够了。在上例中,样本数据实际上是四种类型,既然有四种类型,我们事实上可以按照前面的经验设立三个虚拟变量呢。练习:针对上例,以城市无适龄子女家庭为参考组,设立三个虚拟变量建立模型。 我们重新考察上例。在上例中,城市无适龄子女家庭与城市有适龄子女家庭在保持可支配收入一样的情况下其教育支出差异是;农村无适龄子女家庭与农村有适龄子女家庭在保持可支配收入一样的情况下其教育支出差异也是!也就是说,无论是在农村还是在城市,无适龄子女家庭与有适龄子女家庭在保持可支配收入一样的情况下其教育支出差异都是,这个假定或许太强了!另外一方面,无适龄子女农村家庭与无适龄子女城市家庭其教育支出差异是;有适龄子女农村家庭与有适龄子女城市家庭其教育支出差异也是!也就是说,无论有无适龄子女,农村家庭与城市家庭在保持可支配收入一样的情况下其教育支出差异都是,这个假定也或许太强了!能不能有更加具有柔性的模型设定方式呢?有!现在,我们设定如下一个模型:则:城市无适龄子女家庭(D1=0,D2=0):城市有适龄子女家庭(D1=0,D2=1):农村无适龄子女家庭(D1=1,D2=0):农村有适龄子女家庭(D1=1,D2=1):以城市无适龄子女家庭为参考组,我们发现,城市有适龄子女家庭、农村无适龄子女家庭、农村有适龄子女家庭与参考组相比较,在保持可支配收入一样的情况下,教育支出差异分别是:。更加关键的是:1、城市无适龄子女家庭与城市有适龄子女家庭在保持可支配收入一样的情况下其教育支出差异是;农村无适龄子女家庭与农村有适龄子女家庭在保持可支配收入一样的情况下其教育支出差异是;2、无适龄子女农村家庭与无适龄子女城市家庭其教育支出差异是;有适龄子女农村家庭与有适龄子女城市家庭其教育支出差异是。在上例中,如果在统计上显著异于零,我们称两个虚拟变量存在交互效应。思考题:在上一个练习中,我们以城市无适龄子女家庭为参考组,设立三个虚拟变量建立了模型。与存在“交互效应”模型相比较,它的柔性如何?四、虚拟变量的特殊应用(一)调整季节波动在利用季节或月份资料建立模型时,即使没有任何经济学理论认为变量间具有相关关系,然而,由于各变量都含有季节因素,各变量间或许存在显著的相关性。如果情况确实如此,那么这种相关性本质上是没有多大意义的,这种相关性亦属于“伪相关”。我们通常感兴趣的是,各变量在剔除了季节因素之后还具有相关关系吗?以y与x两变量为例,回忆FWL定理,我们可以建立模型:其中, 现在,如果拒绝原假设,则我们可以认为,变量在剔除了季节因素之后还具有显著的相关性。(二)检验模型结构的稳定性考虑储蓄对收入的回归模型:现在,我们想研究我国1949-2010年的居民储蓄行为。该时段包含了两个子时段:改革前与改革后。当然我们会怀疑这两个子时段的居民储蓄行为很可能是不同的。针对上述模型,这个不同可能体现在截距上,也可能体现在斜率上,或者两者兼而有之。如果我们的怀疑是正确的,那么我们称上述模型结构是不稳定的。问题是怎样验证的我们的判断?首先,把完整样本以1978年为界分为两个子样本,其中1978年以前的数据属于样本1,而其余属于样本2;其次,设定虚拟变量:最后估计模型:该模型的等价表达是:改革前:改革后:因此,通过检验、的显著性,可以判断模型结构是否稳定。补充知识点:Chow 检验Chow 检验也是检验模型稳定性的常用检验。以上述储蓄对收入的回归为例,假设子样本的容量分别为n1、n2。Chow 检验的步骤是:第1步:利用完整样本估计模型,获得残差平方和。当原模型结构是稳定的(约束条件),那么这样的估计就是合理的,因此,我们把这个残差平方和记为,其自由度为n1+n2-2。第2步:分别利用子样本1与2估计模型与,获得残差平方和与。记,对应的自由度为n1+n2-4。 第3步:构造F统计量Chow检验的思想是,如果模型结构是稳定,即所施加的约束是合理的,那么与在统计上应该没有显著的不同。因此,我们可以看看F值是否够大,如果它超过了临界值,那么这就是结构不稳定的证据。实际上,与Chow 检验等价的是,首先建立模型:其中虚拟变量其次对进行F检验。 比较来看,Chow 检验并没有告诉我们结构不稳定是来源于截距还是斜率,但基于等价的检验,我们可以利用t检验来判断结构不稳定的来源;Chow 检验要求同方差假定成立,而其等价形式在处理异方差问题时更为方便,因为我们可以利用异方差稳健误,也可以利用加权最小二乘法。笔记:1、既然我们预先有理由把样本分为不同的子样本,那么针对不同的子样本误差项方差不同,这应该是合理的假定。Chow 检验要求同方差假定成立,这是它最大的软肋。2、关于模型结构不稳定的一个重要的例子是,在低通货膨胀期间,通胀率与失业率基本上负相关的,此即菲利普斯曲线;在高通货膨胀期间,通胀率与失业率往往没有系统的关系。按照附加预期的菲利普斯曲线理论,这是因为,在高通货膨胀期间,预期是不稳定的,菲利普斯曲线不断平移,因此,我们观察不到通胀率与失业率系统的关系。从该例可知,从计量经济学角度看,模型结构不稳定的一个重要来源是遗漏变量。在上例中,如果遗漏了预期通胀

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论