计量经济学基础 第3版 课件 第9章虚拟变量回归_第1页
计量经济学基础 第3版 课件 第9章虚拟变量回归_第2页
计量经济学基础 第3版 课件 第9章虚拟变量回归_第3页
计量经济学基础 第3版 课件 第9章虚拟变量回归_第4页
计量经济学基础 第3版 课件 第9章虚拟变量回归_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章虚拟变量回归第9章虚拟变量回归理解虚拟变量的含义掌握虚拟变量的设置规则掌握虚拟变量回归的估计方法了解虚拟变量的相关应用LEARNINGTARGET学习目标为了描述那些不是定量变量的现象,我们要引入虚拟变量。所谓虚拟变量就是其变量值只取0或1的变量,也称为定性变量、二值变量等等,虚拟变量可以表示哪些具备某种属性的现象。一般情况下我们都以变量值取0表示这个变量对应的现象不具体某种属性;而取1表示这个变量对应的现象具体某种属性。例如,以D表示性别,当D取0时表示女性,取1时表示男性。需要特别注意的是,虚拟变量只能取0和1两个值。上面所说的是一个最简单和情况,我们只需要描述一个取两个值(两个属性)的因素。如果需要描述取多个值(多个属性)的因素,那么要怎样设置虚拟变量呢?9.1虚拟变量9.1虚拟变量地区/变量D1D2西部00中部10东部01这样,我们就可以表示各地区了。东部:(D1=0,D2=1);中部:(D1=1,D2=0);西部:(D1=0,D2=0)。可以归纳为下表:例如,我们要描述不同的地区,比如东部、中部、西部。这个因素有三个属性,所以需要取三个值,这时可以设置二个虚拟变量。在刻画多个属性时,我们首先要选择一个属性作为比较的基础,比如可以在三个不同的地区选择西部作为比较的基础,这样选择就意味着用东部、中部和西部做比较。于是我们可以这样设置虚拟变量:D1=1—中部D2=1—东部D1=0—其他D2=0—其他9.1虚拟变量这样,我们就可以表示春、夏、秋、冬四季了。季节/变量D1D2D3春100夏010秋001冬000现在我们再来设置一个需要取四个值的情况,例如,春、夏、秋、冬四季。根据上面的设置方法,设置三个虚拟变量即可(以冬为比较基础):D1=1—春D2=1—夏D3=1—秋D1=0—其他D2=0—其他D3=0—其他9.1虚拟变量通过上面的讨论,我们可以归纳出设置虚拟变量的规则:(1)设置虚拟变量取值的规则。一般情况下,我们设置作为比较基础的属性为0,用于与比较基础进行比较的属性为1;(2)设置虚拟变量个数的规则。如果我们需要描述m个互相排斥的属性,那么需要且仅需要设置m-1个虚拟变量。要注意的是,上述规则的第2点。这项规则与含有虚拟变量的模型中有无截距有密切关系,如果模型中有截距项,则只能设置m-1个虚拟变量,否则会掉入“虚拟变量陷阱”,关于这一点我们在后面讨论;如果模型中没有截距项,则可以设置m个虚拟变量。有了虚拟变量,我们就可以在模型中引入虚拟变量,来刻画某些属性对被解释变量的影响。虚拟变量模型可以分为两大类:一是加法模型;二是乘法模型。为了简化问题,我们假设模型中只有一个定量变量。1.加法模型加法模型是指虚拟变量与其他解释变量之间是加法关系,其一般形式为:(9-1)式中X—定量变量,D—虚拟变量如果是时间序列模型,则下标改为t。由于虚拟变量D只能取0或者1,所以模型(9-1)实际是只是改变了截距,而斜率没有改变。在(9-1)中,令D=0或1得:

(D=0);

(D=1)9.2虚拟变量回归模型图9-1加法虚拟变量模型截距的位移9.2虚拟变量回归模型面我们分不同类型讨论加法虚拟变量模型。(1)模型中只包含同一因素的虚拟变量这种模型的基本形式为:(9-2)式中D—某一因素不同属性的虚拟变量这类模型称为方差分析模型。模型中含有k-1个虚拟变量,可以对k个属性(总体)判断其均值是否有差异。在对应的样本回归方程中,如果通过F检验或t检验,得到对应的偏回归参数是否为零,则可推断k个属性(总体)均值是有差异的,否则k个总体均值没有显著差异。其中,常数项表示比较基础总体的均值。模型中各项系数的含义是:表示基础属性(总体)的均值;表示第i个属性(总体)较基础属性的增量。9.2虚拟变量回归模型【例9-1】为科学反映我国不同区域的社会经济发展状况,为党中央、国务院制定区域发展政策提供依据,根据《中共中央、国务院关于促进中部地区崛起的若干意见》、《国务院发布关于西部大开发若干政策措施的实施意见》以及党的十六大报告的精神,现将我国的经济区域划分为东部、中部、西部和东北四大地区。东部包括:北京、天津、河北、上海、江苏、浙江、福建、山东、广东和海南。中部包括:山西、安徽、江西、河南、湖北和湖南。西部包括:内蒙古、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆。东北包括:辽宁、吉林和黑龙江。(国家统计局2011-06-13)电子商务是数字及数字化产品的流通和消费方式,推动了生产方式的定制化、数字化和网络化,是数字经济最主要的组成部分。选取2020年各地区电子商务销售额的数据(数据见教学资源data9-1数据,数据来源:中国统计年鉴2021),试分析不同经济区域的电子商务销售额有无显著差异。9.2虚拟变量回归模型解:设电子商务销售额为Y。以西部作为比较的基础设置虚拟变量:地区/变量D1D2D3西部000中部100东部010东北0019.2虚拟变量回归模型9.2虚拟变量回归模型(2)模型中包含不同因素的虚拟变量这种模型的基本形式为:

(9-3)式中D—某一因素不同属性的虚拟变量

G—另一因素不同属性的虚拟变量例如,我们要分析影响个人收入的因素,特别想知道“受教育程度”(D)和“性别”(G)收入的影响,可以设定形如(9-3)的模型加以估计。当然,这类模型可以推广到包含更多个不同因素属性的虚拟变量的模型。9.2虚拟变量回归模型对估计结果进行t检验和F检验,可以判断这些因素影响是否是显著的。模型中各项系数的含义是:表示基础属性(总体)的均值(D=0,G=0);表示D对应的属性(总体)在G对应的属性不变的条件下较基础属性的增量;表示G对应的属性(总体)在D对应的属性不变的条件下较基础属性的增量。(3)模型中包含一个定量变量和同一因素的虚拟变量这种模型的基本形式为:

(9-4)式中X—定量变量

D—某一因素不同属性的虚拟变量我们用一个实例来说明问题。9.2虚拟变量回归模型【例9-2】消费可以用收入来解释,但在不同的季节,消费会表现出一定的季节性,我们希望除了知道收入对消费的影响程度,还要描述消费是否会有季节性。搜集到2013年第一季度至2021年第四季度的居民人均可支配收入中位数和居民人均消费支出的季度数据(数据见教学资源data9-2数据,数据来源:国家数据库),试分析收入对消费的影响,并判断消费是否存在季节性。解:设为居民人均可支配收入中位数X,居民人均消费支出为Y。做两个变量的线图:9.2虚拟变量回归模型9.2虚拟变量回归模型从两张线图中可以看出,两个变量即存在趋势性也存在季节性,但是我们希望从数量分析的角度来进行判断。由于两个变量在第二季度的值最小,故以第二季度作为比较的基础,设置虚拟变量如下:季节/变量D1D2D3一100二000三010四0019.2虚拟变量回归模型9.2虚拟变量回归模型9.2虚拟变量回归模型(4)模型中包含一个定量变量和不同因素的虚拟变量这种模型的基本形式为:

(9-5)式中X—定量变量

D—某一因素不同属性的虚拟变量

G—另一因素不同属性的虚拟变量例如,Y表示个人储蓄,X表示个人收入。储蓄会受到收入的影响,除此之外,我们还想知道此人“性别”(D)和“婚姻状况”(G)对储蓄的影响,于是我们可以建立形如(9-5)的模型进行估计。对估计的结果进行F检验和t检验,可以判断这些因素是否对储蓄有显著的影响。当然,这类模型可以推广到包含更多个虚拟变量的模型。9.2虚拟变量回归模型现在我们来讨论“虚拟变量陷阱”问题。在设置虚拟变量时,我们要遵循一个规则:如果我们需要描述m个互相排斥的属性,那么需要且仅需要设置m-1个虚拟变量。在有截距的虚拟变量模型中必须这样设置,否则的话就会落入“虚拟变量陷阱”。下面我们举例说明。例如在形如(9-1)的模型中,Y表示消费,X表示收入,D表示性别。根据设置虚拟变量的规则,m=2,所以只能设置m-1=2-1=1个虚拟变量。如果我们不这样设置,而是设置2个虚拟变量,会出现什么情况呢?如果设置2个虚拟变量,则模型为:(9-6)我们假定D1=0表示女性,D1=1表示其他;D2=1表示男性,D2=0表示其他。这时,对于任何一个调查者都会有D1+D2=1,也就是说,模型(9-6)存在完全的多重共线性,这就是所谓的虚拟变量陷阱。当然,这种情况只是在有截距的模型中出现,如果是无截距,则可以设置2个虚拟变量。9.2虚拟变量回归模型2.乘法模型在虚拟变量模型中,还有一种是虚拟变量与定量变量之间是乘法关系的模型,称为乘法模型,也称为协方差分析模型。例如,我们想知道工作经验和性别对收入的共同影响,假定Y表示收入,X表示工作年限(工作经验的代表变量),D代表性别(D=0表示女性,D=1代表男性),这时我们应该如何建立模型呢?因为要测度工作经验和性别两个变量对收入的共同影响,也就是交互作用,这时两个变量之间是乘积关系,即DX。我们如果建立形如(9-7)的乘法模型结果会怎样呢?(9-7)9.2虚拟变量回归模型当我们要表示男性时,则D=1,这时(9-7)为。说明男性的收入会随着工作经验的增加而增加;当表示女性时,则D=0,这时(9-7)为,说明女性的收入不会随着工作经验的增加而发生系统性的增加,这个结论显然是不正确的。之所以出现这样的结论,是因为在(9-7)中没有考虑工作经验(X)独立的对收入(Y)的影响,于是我们将模型设定为:(9-8)这时,当D=0时表示女性的收入变化,(9-8)为,说明女性的收入随着工作经验的增加而增加,平均工作经验每增加1年,收入增加;当D=1时表示男性的收入变化,(9-8)为,说明男性平均工作经验增加1年,收入增加,如果,则说明男性的增加幅度高于女性。这个结果相当于只改变了斜率,说明男性和女性的起薪没有显著差异,其效果见图9-2a。9.2虚拟变量回归模型如果我们还想考虑性别独立的对收入的影响,可以将设定为:(9-9)这时,当D=0时表示女性的收入变化,(9-9)为,说明女性的收入随着工作经验的增加而增加,平均工作经验每增加1年,收入增加;当D=1时表示男性的收入变化,(9-9)为,说明男性的起薪为,平均工作经验增加1年,收入增加,如果,则说明男性的起薪和收入增加幅度高于女性。这个结果即改变了斜率也改变了截距,其效果见图9-2b。通过以上分析可知,乘法模型的基本形式如(9-8)、(9-9)a)只改变斜率b)即改变斜率也改变截距9.3参数的结构变化在有些问题中,我们要考虑参数的结构稳定性问题。这个问题的直观表达是解释变量与被解释变量之间的关系是否会出现结构性变化,例如,由于受到外部力量的影响,经济变量会发生一些明显的突变:如经济政策的变化(减税、汇率等)或者经济形势发生重大变化(经济危机)。在这些情况下,模型中参数可能会表现出不稳定的情况,表现在图形上如图9-3所示。我们怎样判断经济变量之间的关系是否稳定呢?有一种方法称为邹志庄检验(Chowtest)。图9-3参数的结构变化9.3参数的结构变化邹志庄检验的基本方法是拆分样本。将所有观测值(n个)分为两组,第一组是前n1个观测值,第二组后n2个观测值(n1+n2=n);分组的依据是假定我们知道在某个时间点上变量可能会发生结构性变化。先估计全部样本模型,得到其残差平方和,设为RSSR,称其为有约束平方和,因为这时我们设定参数是没有变化的,这时其自由度为n-k(其中k是模型中参数的个数);再分别估计两组样本模型,得到其残差平方和RSS1和RSS2,这时两个样本组的自由度分别是:n1-k和n2-k。令RSSU=RSS1+RSS2,称其为无约束平方和,因为这时我们认为参数的结构是有变化的,其自由度为:n1-k+n2-k=n1+n2-2k。如果参数不存在结构上的变化,这时RSSR和RSSU在统计上不应该有显著的不同,因此,我们构造统计量:

(9-10)9.3参数的结构变化邹志庄证明了,在满足一定条件的前提下,上述统计量在原假设“参数没有结构变化”成立时,服从自由度为k和n1+n2-2k的F分布。如果F统计量大于临界值则拒绝原假设,说明参数存在结构变化,否则不拒绝原假设,说明参数不存在结构变化。我们现在可以利用虚拟变量来检验参数的结构变化问题。具体方法如下:将样本分成两组,其中一组为基础组,另一组为比较组。引入虚拟变量D,基础组D=0,比较组D=1。在模型中引入虚拟变量,设置不同的形式进行估计,如果能够在验证在统计上D的系数、或者X的系数、或者DX的系数显著的不为0,则说明模型的参数存在结构上的变化。9.3参数的结构变化【例9-3】消费是推动经济增长的持续稳定的因素,以居民消费水平解释国内生产总值建立模型(数据见教学资源data9-3数据,数据来源:国家数据库),其中X表示居民消费水平,Y表示国内生产总值,检验模型的参数是否存在结构上的变化。解:作两个变量的线图:从这个线图上可以看出,两个变量大约在2000年这个时间点出现一个转折点。这样我们把样本为成两组,1978-1999年为基础组,2000-2020年为比较组。设虚拟变量D,取值如下:当变量在1978-1999年取值时,D=0;当变量在2000-2020年取值时,D=1。9.3参数的结构变化设置不同的模型进行估计并进行比较。(9-11)(9-12)从估计的结果可以得到,(9-11)的参数在统计上是显著的不为0,说明参数存在结构变化,具体来说,截距不变,斜率变化;(9-12)除常数项外,参数在统计上是显著的不为0,说明参数存在结构变化,具体来说,截距变化,斜率也变化。将(9-12)调整为:(因为估计的结果常数项显著为0)9.3参数的结构变化9.3参数的结构变化利用虚拟变量描述结构性变化的另一个应用是分段线性回归。例如,一家公司对销售代理以销售额为标准支付奖金,并规定当销售额达到一个水平时(比如)适用更高的奖金支付比例。虽然对于销售代理而言,销售额不是唯一获得奖金的因素(比如服务质量也是一个因素),我们假设这些因素的影响都归结到随机扰动项中。这样,我们可以预计,销售代理所得奖金会在其销售额超过时发生变化。面对这样的问题我们可以利用虚拟变量做分段线性回归,具体方法如下:设X表示销售额,Y表示奖金。当销售代理的销售额小于时,所得奖金较少,这时Y与X之间的关系以一个线性形式存在;当其销售额超过时,所得奖金较多,这时Y与X之间的关系会发生变化,应该是斜率比原来的要大。我们引入虚拟变量D:当X<时,D=0;当X>时,D=1。这时我们设定模型:9.3参数的结构变化(9-13)当销售代理的销售额小于时,Y与X之间的关系为:

(D=0)当销售代理的销售额大于时,Y与X之间的关系为:(D=1)从这个结果可以看出,当销售额超过临界值时,Y与X的关系会发生结构性变化。9.4案例分析【例9-4】劳动经济学家会对“教育的回报”这个问题感兴趣,也就是说个人收入怎样受到教育年限的影响。当然,个人收入还会受到其他因素的影响,如工作经验、任现职年限等,还会受到诸如性别、婚姻状况的影响。数据data9-4中是1976年美国的数据,我们想知道上面我们提到的因素对个人收入的影响。其中,个人收入是小时工资,受教育年限、工作年限、任现职年限都影响个人收入的定量变量,而性别、婚姻状况则是虚拟变量。解:受教育年限是以怎样的形式影响个人收入的呢?当一个人只接受初等教育时(比如小学),我们有理由相信这时的教育对其收入的影响程度是小的,但这个人在接受了高等教育以后,后面接受高等教育的年限会对其收入产生很大的影响。所以,个人收入与受教育年限之间不是线性关系,大量的研究表明,这两个变量之间是近似指数关系。同样,工作所限、任现职年限都有这样的特点,于是我们要建立一个半对数模型:9.4案例分析(9-14)其中:Y—个人收入(小时工资)X1—受教育年限X2—工作年限X3—任现职年限D1—性别(男性=0,女性=1)D2—婚姻状况(已婚=1,其他=0)或者:(9-15)其中D1D2是两个虚拟变量的乘积,表示两个因素的交互作用。在这个例子中,其意义是:若在统计意义上显著的不为0,说明存在交互作用。如果D1、D2中至少有一个等于0,则模型的截距项没有变化;如果D1=1,D2=1,则模型的截距项为,这时的截距项是有显著变化的。9.4案例分析模型(9-14)估计的结果如下:

Se=(0.101237)(0.006982)(0.001684)(0.002959(0.037312)(0.125072)t=(4.830354)(12.05115)(1.875688)(5.711221)(-7.677723)(3.123932)p=(0.0000)(0.0000)(0.0613)(0.0000)(0.0000)(0.0019)

DW=1.786797F=70.51962p=0.000000从估计的如果可以看出,除了X2系数对应的的t值较小(略小于2),p值较大(略大于0.05)外其他系数对应的t值都较大,p值都较低小。如果我们设定显著性水平为10%,则这个模型可能通过t检验和F检验。9.4案例分析模型(9-14)估计结果的意义为:在其他因素不变的条件下,女性要比男性和收入少约28.6%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论