虚拟变量(dummy variable)_第1页
虚拟变量(dummy variable)_第2页
虚拟变量(dummy variable)_第3页
虚拟变量(dummy variable)_第4页
虚拟变量(dummy variable)_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.虚拟变量(dummy variable)在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。1 截距移动设有模型,yt = b0 + b1 xt + b2D + ut ,其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为, b0 + b1xt + ut , (D = 0)

2、 yt = (b0 + b2) + b1xt + ut , (D = 1) D =0 D = 1 b0 b0+b2 图8.1 测量截距不同D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若b2显著不为零,说明截距不同;若b2为零,说明这种分类无显著性差异。例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: 105 + x D = 1 (男) y = - 100 + x - 5D = 100 + x D = 0 (女)注意: 若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 关于定性变

3、量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 定性变量中取值为0所对应的类别称作基础类别(base category)。 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。【案例1】 中国季节GDP数据的拟合(虚拟变量应用,及case1-solve) GDP序列图 不用虚拟变量的情形若不采用虚拟变量,得回归结果如下,GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6, s.e. = 0.3定义 1 (1季度) 1 (2季度)

4、 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)第4季度为基础类别。GDP = 2.0922 + 0.0315 T 0.8013 D1 0.5137 D2 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96, s.e. = 0.05附数据如下:年GDPtD1D2D31996:11.315611001996:21.660020101996:31.591930011996:42.2209640001997:11.468565100

5、1997:21.8494860101997:31.797270011997:42.362080001998:11.5899491001998:21.88316100101998:31.97044110011998:42.51176120001999:11.6784131001999:21.9405140101999:32.0611150011999:42.5254160002000:11.8173171002000:22.1318180102000:32.2633190012000:42.728020000数据来源:中国统计年鉴1998-20012 斜率变化 以上只考虑定性变量影响截距,未考虑

6、影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型: yt = b0 + b1 xt + b2 D + b3 xt D + ut ,其中xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为, (b0 + b2 ) + (b1 + b3)xt + ut , (D = 1) yt = b0 + b1 xt + ut , (D = 0) 通过检验 b3是否为零,可判断模型斜率是否发生变化。图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同) 例2:用虚拟变量区别不同历史时期(file: case2及case2-solve)中国进出口

7、贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下 0 (1950 - 1977) D = 1 (1978 - 1984)中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)年tradeTDT *D年tradeTDT*D19500.41510019681.085190019510.59520019691.069200019520.64630019701.129210019530.80940019711.209220019540.84750019721.469230019551.205240019561.92325001957

8、1.904260019581.28790019762.641270019591.493100019772.725280019601.284110019783.5502912919610.9.5463013019620.8.6383113119630.857140019817.3533213219640.975150019827.7133313319651.184160019838.6013413419661.2711700198412.0103513519671.1221800以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:trade = 0.37 + 0.066

9、time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) 0.37 + 0.066 time (D = 0, 1950 - 1977) = - 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。【案例3】香港季节GDP数据(单位:千亿港元)的拟合(file: case3及case3-solve)19901997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,19982002年底G

10、DP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录): 1 (第2季度) D2 = 0 (其他季度) 1 (第3季度) D3 = 0 (其他季度) 1 (第4季度) D4 = 0 (其他季度) 1 (1998:12002:4) DT = 0 (1990:1 1997:4)得估计结果如下: GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338

11、 DT - 0.0654 DT t (50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0) R2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01对于1990:1 1997:4 GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4对于1998:12002:4 GDPt = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4如果不采用虚拟变量拟合效果将

12、很差:GDPt = 1.6952 + 0.0377 t (20.6) (13.9) R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01【案例4】 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong)首先看天津市粮食市场小麦批发价格的变化情况(图1)。1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与

13、小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4,直接拟合这些数据效果将很差(R2 = 0.027, r = 0.17)。 图1 图2 图3 图4 利用虚拟变量技术,在模型中加入虚拟变量。定义D = 0,(1995: 11996:6,面粉零售价格放开之前), D = 1,(1996:72002:12,面粉零售价格放开之后)。取对数关系建立模型。Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale变量,得估计结果PRICE = 2.140 + 1.1215 LnsaleD 7.7458D (131.5) (23.9) (-23.0) R2 = 0.9054,PRICE = 2.140, D=0PRICE = 5.6058 + 1.1215 Ln

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论