虚拟变量案例_第1页
虚拟变量案例_第2页
虚拟变量案例_第3页
虚拟变量案例_第4页
虚拟变量案例_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、虚拟变量(dummy variable ) 在实际建模过程中, 被解释变量不但受定量变量影响,同时还受定性变量影响。 例如需 要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因 素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这 种变量称作虚拟变量,用 D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方 法与定量变量相同。 1. 截距移动 设有模型, yt = o + ixt + 2D + ut , o + ixt + ut , (0 +2)+ixt + ut , 其中yt, xt为定量变量;D为定性变量。当

2、 D = 0或1时,上述模型可表达为, (D = 0) (D = 1) D = 1 D =0 图8.1测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零, 说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重 y (kg)与身高x (cm)的回归关系如下: -05 + xD = 1 (男) y = -100 + x-5D = -100 + xD = 0 (女) 若定性变量含有 m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作 虚拟变量陷阱(dummy variable trap )。 关于定性变量中的哪个类别取0,哪个

3、类别取1,是任意的,不影响检验结果。 定性变量中取值为 0所对应的类别称作基础类别(base category )。 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的 方法处理。如: f 1(大学) D = 0(中学) -1(小学)。 【案例1】 中国季节GDP数据的拟合(虚拟变量应用,file : easel及casel-solve) GDP序列图 不用虚拟变量的情形 若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0)(3.5) R2 = 0.3991, DW = 2.6 ,s.e. = 0.3 定义 1(1季度) 1(

4、2季度) 1(3季度) D1 = D2 = T D3 = -0( 2, 3,4 季度) -0 (1, 3, 4 季度) -0 (1,2, 4 季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T 0.8013 D1 0.5137 D2 -0.5014 D3 (64.2)(15.9)(-24.9)(-16.1)(-15.8) R2 = 0.9863, DW = 1.96, s.e. = 0.05 Dep endent Variable: GDF Met had: Least Squares Date: 07/02/02 Time: 20:43 Sample: 1996:1

5、 2000:4 Included ebservations: 20 Variable Coefficient Std Ernor VStatistiic Prob. C 2 092221 0,032575 64.22740 .0000 T 0,031450 0 001975 15.92287 0.0000 D1 -0.301313 0.032153 -24 92164 0.0000 D2 -.513736 0.031B49 -16.13059 .0000 D3 -0.501386 .031664 -16.83444 .0000 Rquared 0 966321 Mean dependent v

6、ar 1.968340 Adjusted R-squared .982673 .D. dependent var 0 379G09 S. E. of regression 0.049960 Aloike info criterion -2 942546 Sum squared re$id 0,037452 Schwarz criterion -2 593613 Log likelihood 34.42546 F-statistic 270,3959 Durbin-Watson stat 1.962063 Prob(F- statistic) 0.000000 年 GDP t D1 D2 D3

7、1996:1 1.3156 1 1 0 0 1996:2 1.6600 2 0 1 0 1996:3 1.5919 3 0 0 1 1996:4 2.22096 4 0 0 0 1997:1 1.46856 5 1 0 0 1997:2 1.84948 6 0 1 0 1997:3 1.7972 7 0 0 1 1997:4 2.3620 8 0 0 0 1998:1 1.58994 9 1 0 0 1998:2 1.88316 10 0 1 0 1998:3 1.97044 11 0 0 1 1998:4 2.51176 12 0 0 0 1999:1 1.6784 13 1 0 0 199

8、9:2 1.9405 14 0 1 0 1999:3 2.0611 15 0 0 1 1999:4 2.5254 16 0 0 0 2000:1 1.8173 17 1 0 0 2000:2 2.1318 18 0 1 0 2000:3 2.2633 19 0 0 1 2000:4 2.7280 20 0 0 0 数据来源: 中国统计年鉴 1998-2001 附数据如下: 2. 斜率变化 以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时, 可建立如下模型: yt = 0 + 1 xt +2 D +3 xt D + ut , 其中xt为定量变量;D为定性变量。当 D =

9、 0或1时,上述模型可表达为, 1 xt + Ut , 2 ) + ( 1 +3)Xt + Ut , (D = 1) (D = 0) 可判断模型斜率是否发生变化。 通过检验 3是否为零, 图8.5情形1 (不同类别数据的截距和斜率不同) 图8.6情形2 (不同类别数据的截距和斜率不同) 例2 :用虚拟变量区别不同历史时期( file: case2及case2-solve) 中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是 否发生变化。定义虚拟变量D如下 -0( 1950 - 1977) D =- c 1( 1978 - 1984) 中国进出口贸易总额数据(1

10、950-1984)(单位:百亿元人民币) 年 trade T D T *D 年 trade T D T*D 1950 0.415 1 0 0 1968 1.085 19 0 0 1951 0.595 2 0 0 1969 1.069 20 0 0 1952 0.646 3 0 0 1970 1.129 21 0 0 1953 0.809 4 0 0 1971 1.209 22 0 0 1954 0.847 5 0 0 1972 1.469 23 0 0 1955 1.098 6 0 0 1973 2.205 24 0 0 1956 1.087 7 0 0 1974 2.923 25 0 0 1

11、957 1.045 8 0 0 1975 2.904 26 0 0 1958 1.287 9 0 0 1976 2.641 27 0 0 1959 1.493 10 0 0 1977 2.725 28 0 0 1960 1.284 11 0 0 1978 3.550 29 1 29 1961 0.908 12 0 0 1979 4.546 30 1 30 1962 0.809 13 0 0 1980 5.638 31 1 31 1963 0.857 14 0 0 1981 7.353 32 1 32 1964 0.975 15 0 0 1982 7.713 33 1 33 1965 1.184

12、 16 0 0 1983 8.601 34 1 34 1966 1.271 17 0 0 1984 12.010 35 1 35 1967 1.122 18 0 0 以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D (1.86)(5.53) (-10.98) (12.42) 0.37 + 0.066 time (D = 0, 1950 - 1977) -33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了

13、变化 。进出口贸易总额的年平均增长量扩大了 18倍。 千亿港元)的拟合( file: case3及case3-solve) 【案例3】香港季节GDP数据(单位: 19901997年香港季度 GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经 济发展处于停滞状态,19982002年底GDP总量几乎没有增长(见上图)。对这样一种先增 长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别 不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT 如下(数据见附录): M (第2季度) D2 =弋 L 0(其他季度) 1 (第3季度) D

14、3 = 0(其他季度) M (第4季度) D4 = y L 0(其他季度) 1(1998:12002:4) DT =- 匚 0(1990:1 1997:4) 得估计结果如下: GDPt = 1.1573 + 0.0668t + 0.0775D2 + 0.2098D3 + 0.2349D4+ 1.8338 DT- 0.0654 DTt (50.8)(64.6)(3.7)(9.9)(11.0)(19.9)(-28.0) R2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01 对于 1990:1 1997:4 GDP

15、t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4 对于 1998:12002:4 GDPt = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4 Dependent Variable: GDP Method: Least Squares Date 0M4/04 Time- 15:54 Sample: 1990:1 2002:4 Included obserYations: 52 Variable Coefficient 3td Error t-Statisliic Pro

16、b C 1 157300 0 022779 50.80914 o.ooco T 0.066B43 0.001035 64.56035 O.OOCQ D2 .077522 0.021139 3.667325 O.OOCB D3 0.209323 0.021215 9090799 O.OOCO D4 0 234922 0 021341 11.00B27 0.0000 DT 1.833785 0.092079 19.91526 O.OOCO DPT -0,065419 002333 -28.03951 O.ODOO R-equared 0.993780 Mean dependent var 2.69

17、5174 Adjusted R-squaretl 0.992951 S.D. dependerit 册 0.641144 S.E. of regression 0 063829 Akaike info criterion -2,031376 Sum squared resid 0.130383 Schtwarz criierion -2.B18708 Log likelihood 01.91575 Fatalistic 1198.362 Durbin-Watsor stat 0.910754 ProbfF-statistic) 0.000000 如果不采用虚拟变量拟合效果将很差: GDPt =

18、 1.6952 + 0.0377 t (20.6)(13.9) R2 = 0.80, DW = 0.3, T =52, to.05(52-2)= 2.01 【案例4】天津市粮食市场小麦批发价与面粉零售价的关系研究( file: xiezhiyong ) 首先看天津市粮食市场小麦批发价格的变化情况(图1 )。1995年初,天津市粮食市场 的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份 开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。 其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开 始时没有与小麦批

19、发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6 月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市 场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元 /千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降 相一致,在经历了 5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千 克的水平上(2.17元)。 散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4, 2.8 2.6 2.4 2.2 2.0 0.17 )。 retai

20、l price wholesale 2.8 2.6 2.4 2.2 2.0 1000 1200 14001600 1800 2000 图3 1000 1200 1400 1600 1800 2000 图2 利用虚拟变量技术,在模型中加入虚拟变量。定义 D = 0,( 1995: 11996:6,面粉零售价格放开之前), D = 1,( 1996:72002:12,面粉零售价格放开之后) 取对数关系建立模型。 Dependeint Variable: PRICE Method: Least Squares Date: 0M7/D4 Time 22:02 Sample 1995:01 2002:1

21、2 Included obseivations: 96 Variable Coefficient Sid Error t-Statistic Prob. C 2140000 2 2217340.963212 0.33SO LOG(SALE) -1.73E-12 0.295461-5.B7E-12 1.0000 D1 -7.745843 2.247429-3.446537 0.M09 LOG(SALE)*D1 1.121467 U.299W13749331 0.0003 R-squarad 0 905412 Mean dependent var 2401115 Adjusted R-sqjare

22、d 0,902326 S.D. dependent var 0.222056 S, E of regression 0.06939S Akaike info criterion -2.457132 Sum squared res id 0.443035 Schwarz criterion 2.350205 Log likelihood 121.9424 F-statistic 293.5463 DurbirrWa2on slat .300302 Prob(F-st artistic) 0.000000 Ln sale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水 平线)。

23、剔出Ln sale变量,得估计结果 D -7.7458 D PRICE = 2.140 + 1.1215 Ln sale (131.5)(23.9) PRICE = 2.140, (-23.0) D=0 R2 = 0.9054, D即endervt Variable: PRICE Method: Least Squares Date: 03W4 Time 22:51 Sample: 1995:01 2002:12 Included observations. 96 Variable Coefficient Std. Error t-Statistic Prob. C 2.140000 0Q1G

24、269131.5371 0.0000 D1 -7745848 0.337444-22.95445 Q.0000 LOG(SALEfDl 1.121467 0.046S4323.34109 0.0000 R-squared 0.905412 Mean dependent var 2.401115 ArijusteiJ Rsqjared 0.903378 S.D.(1即endenl var 0.22205B SJE. of regression 0,069024 Akaike info critericn *2,477566 Sum squared res id .443085 Schwarz criterion -2.397830 Log likelihood 121.9424 F-st artistic J45.1056 Durbin-Watson siat 0.300302 Prob(F-statistic) 0.000000 PRICE = -5.6058 + 1.1215 Ln sale , 一条回归直线的斜率为零,一条回归直线的斜率为 1.12。可决系数从不加虚拟变量模型的 0.046增加到0.905 (输出结果见下) 本例也可以建立倒数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论