《虚拟变量》PPT课件.ppt_第1页
《虚拟变量》PPT课件.ppt_第2页
《虚拟变量》PPT课件.ppt_第3页
《虚拟变量》PPT课件.ppt_第4页
《虚拟变量》PPT课件.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第七章 虚拟变量Dummyvariables 2 本章将主要考虑虚拟的自变量的情况 即解释变量出现虚拟变量 在现实中 模型中可能会出现一些定性的变量作为解释变量 通常将虚拟变量取值0或1 所以虚拟变量又称为二分变量 用虚拟变量来表示某一性质或属性出现或不出现 3 例如 收入决定模型中 除了可以量化的工作年限和受教育年限这两个变量以外 我们还包括了性别这一定性的变量 用0表示女性 1表示男性 模型可以写成 y 1x 2D 其中 D为虚拟变量D 0 表示女性 D 1表示男性模型中加入虚拟变量后 更加贴近经济的真实情况 也更加灵活 收入决定模型我们不仅要考察一般人口的状况 也关注不同性别的收入决定模型的差异 从而更有利于政策的制定和调整 4 一般情况下 一个定性变量所需要的虚拟变量的个数取决于该定性的变量的类别 如果有n个类别 所引进的虚拟变量的个数时m 1 比总体类别的数量少1 例如性别变量 分为两类男性或女性 需要一个虚拟变量就可以了 如果地区发展问题 考虑地区差异 假设把全国分为东部 中部和西部 就需要2个虚拟变量 令1东部D1 0其他 5 1中部D2 0其他全集分为三类 所以需要两个虚拟变量 6 第一节临时虚拟 为了更好地对模型进行估算 经常要在模型中排除一些又突发时间产生的异常值 outlier 及其对模型的影响 例如战争 地震 内乱 罢工等 例如 y 1x 2D 其中 D为临时虚拟变量D 1 异常时期D 0 平时 7 例题下表是日本1985 1995年水稻产量Y和耕种面积的数据X 年份产量 10万吨 Y耕种面积 万公顷 X116232116228106212992091032081052069620310520978213120220107211 8 1 估计模型y x 2 受1993年冻害的影响 水稻收成指数为战后最低 出现了歉收 因此设D 1为1993年 D 0为其他年份 估计下列模型y 1x 2D 9 根据数据计算结果如下 X 2351 Y 1151 XY 246601 X2 503313 Y2 121757n 11Y 48 224 0 71521X 73 4 0 3432 R2 0 3255 10 引入临时虚拟变量后 即1993年为异常年份 计算结果如下 X 2351 Y 1151 XY 246601 X2 503313 Y2 121757n 11 D 1 XD 213 YD 78Y 40 292 0 69033X 28 748D 30 90 0 1444 4 389 经过校正的R2 0 8675 11 如果直接去掉1993年的数据 回归的结果为Y 40 292 0 69033X 30 898 0 1450 R2 0 7408经过校正的R2 0 7084 12 第二节季度虚拟 季度虚拟是通过回归模型中的常数项的变化 斜率不变 来掌握季度和月度等季节变化对模型的不同影响 例如 根据研究人们发现 利用季度数据 消费对收入回归时 在夏季和冬季 第二和第四季度 发半年奖和年终奖时 收入异乎寻常地高 为了消除这种季节变化的影响 引入季度虚拟变量D1 D2 D3 估计下列多元回归模型 y 1x 2D1 3D2 4D3 13 1第一季度D1 0其他1第二季度D2 0其他1第三季度D3 0其他 14 季度数据需要3个虚拟变量 月度数据用11个虚拟变量 实际估计时 会根据t检验结果去掉不显著的季度或月度虚拟变量 然后用剩下的虚拟变量再重新估计就可以了 15 例题 下面时日本饮食消费总额 食品 饮料等 Y与国内家庭最终消费支出X的变化数据 首先估计下面的模型 y x 宏观恩格尔函数 引入季度虚拟变量 估计模型y 1x 2D1 3D2 4D3 16 1第一季度D1 0其他1第二季度D2 0其他1第三季度D3 0其他 17 年 季度饮食消费Y国内最终消费支出X1990年1 3月10 053 54 6月11 054 47 9月12 256 410 12月13 360 61991年1 3月10 254 74 6月11 055 47 9月12 357 610 12月13 262 41992年1 3月10 556 54 6月11 156 47 9月12 358 310 12月13 462 61993年1 3月10 456 74 6月11 256 87 9月12 258 910 12月13 463 71994年1 3月10 458 2 18 X 983 10 Y 198 10 XY 11505 46 X2 56993 83 Y2 2331 77Y 8 5246 0 34891XR2 0 73985 19 季度虚拟变量数据表 年 季度D1D2D31990年1 3月1004 6月0107 9月00110 12月0001991年1 3月1004 6月0107 9月00110 12月0001992年1 3月1004 6月0107 9月00110 12月0001993年1 3月1004 6月0107 9月00110 12月0001994年1 3月100 20 估计结果如下 Y 9 0681 0 068301X 2 05875D1 1 8009D2 0 76594D3所有t值都在1 的水平显著经过校正的R2 0 99390将第一季度D1 1 D2 0 D3 0代入上述模型 得到第一季度的子模型Y 9 0681 2 5875 0 068301X 6 4806 0 068301X 21 将第二季度D1 0 D2 1 D3 0代入上述模型 得到第二季度的子模型Y 9 0681 1 8009 0 068301X 7 2672 0 068301X将第三季度D1 0 D2 0 D3 1代入上述模型 得到第三季度的子模型Y 9 0681 0 76594 0 068301X 8 3022 0 068301X将第四季度D1 0 D2 0 D3 0代入上述模型 得到第四季度的子模型Y 9 0681 0 068301X 22 第三节运用虚拟变量改变回归直线的截距 加入虚拟变量后 回归模型中解释变量前面的系数 斜率 没有变化 只有截距发生改变 事实上 临时虚拟和季度 月度 虚拟中都是是截距发生了改变 看下面的例子 23 例子1 在收入决定模型中 除了假设教龄以外 性别和肤色也是影响大学教授收入的重要因素 模型为 y 1x 2D1 3D2 y为收入x为教龄 24 1男性D1 0女性1白色D2 0有色人种 25 黑人女教授的平均工资 Ey 1x黑人男教授的平均工资 Ey 2 1x白人女教授的平均工资 Ey 3 1x白人男教授的平均工资 Ey 2 3 1x估计上述包括性别和肤色虚拟变量的模型 如果它们的t值显著 表明这两个因素的确影响了收入 26 例子2 假设我们具有消费C和收入Y的数据 同时有一些定性的变量 S 性别 A 年龄 50 E 教育 高中以下 高中以上 但大学以下 大学及以上 27 所估计的模型为 C Y 1D1 2D2 3D3 4D4 5D5 1男性D1 0女性 28 1如果年龄小于25D2 0其他1年龄在25到50之间D3 0其他1教育在高中以下D4 0其他 29 1学历在高中以上但大学以下D5 0其他这是一个典型的截距发生改变的例子 例如 1 男性 年龄在25岁以下 大学毕业C 1 2 Y 相当于D1 1 D2 1 D3 0 D4 0 D5 0 2 女性 年龄在50以上 大学学历C Y 相当于D1 0 D2 0 D3 0 D4 0 D5 0 30 例子3 兰普森研究一些定性变量对电影票价的影响 他估计了下列模型 Y 4 13 5 77D1 8 21D2 7 68D3 1 13D4 27 09D5 31 46logX1 0 81X2其中Y成人晚间入场票 美分 1郊区D1电影院位置 0城中心 31 1建成后或大修后10年内D2电影院年龄 0其他1露天D3电影院类型 0室内1有D4停车场 0无 32 1首映D5上映政策 0其他X1平均每场放映的空位率X2平均影片片租 以分摊到每张电影票上的美分价计算 33 解释模型 计算下列子模型 1 城中心 电影院年龄在10年以上 无停车场 室内 非首映 即虚拟变量取值全部为0 Y 4 13 31 46logX1 0 81X2 34 2 城郊 10年内的影院 露天 有停车场 首映Y 4 13 5 77 8 21 7 68 1 13 27 09 31 46logX1 0 81X2 36 39 31 46logX1 0 81X2大家还可以计算其他组合下的子模型 35 例题 持有两份或多份工作 即一份主业和一份或多份副业的人被称为 moonlighter 即兼职者 两个学者试图发现什么决定这些兼职者的工资 它们根据318个兼职者的样本 估计如下回归模型 Wm 37 07 0 403W0 90 06race 75 51urban 47 33hisch 113 64reg 2 26age 36 Wm为兼职者工资 美元 小时 W0为主业工资 美元 小时 Race 0白人1非白人Urban 0非城里人1城市人 37 Reg 0非西部1西部Hisch 0非中学毕业 即中学以下 1中学毕业Age年龄模型中包括了2个定量的解释变量和4个定性的变量 所有变量的系数在5 的水平都是显著的 38 当所有的虚拟变量均取值为0时 白人 非城镇 非西部 非中学毕业 Wm 37 07 0 403W0 2 26age当所有的虚拟变量均取值为1时 非白人 城镇 西部 中学毕业 Wm 37 07 75 51 47 33 113 64 90 06 0 403W0 2 26age 183 49 0 403W0 2 26age 39 作业 计算虚拟变量不同取值下模型 1 白人 非城镇 西部居民 中学毕业2 非白人 城镇 非西部居民 非中学毕业3 白人 非城镇 非西部居民 中学毕业 40 第四节通过虚拟变量改变斜率 系数虚拟 研究通货膨胀率 I 和工业增长率 G 之间的关系为例 假设1988年与其他年份有所不同 在这一年剧烈上涨 I 1G 2 DG 11988年D 0其他年份 41 这样可以用上面的模型表示下列两种情况 1 2 G D 1I 1G D 0不论是哪种情况 截距都没有发生改变 42 例题下表是某国在1965年到1979年以指数表示 1965年 100 初次能源需求和实际GDP的数据 43 年份初次能源需求Y实际GDPXDDX100100001061080011511700122123001291320013614100141145001435400114150115011715611561211611161 44 1231691169129174117413017711771341831183 X 2190 Y 1860 XY 274178 X2 328940 Y2 232764Y 82 453 0 28457XR2 0 35075经过校正的R2 0 30081 45 模型为Y 1X 2 DX 0石油冲击前 1965 1972 D 1石油冲击后 1973 1979 DX 1170 DX 2 196412 X DX 196412 Y DX 145598Y 17 095 0 83864X 0 19918DX 46 经过校正的R2 0 98263石油冲击前的系数是0 83864 石油冲击后的系数为0 63946 可见石油冲击后 经济增长模式向节能方向转变 47 第五节虚拟变量使截距和斜率均发生改变 仍旧是通货膨胀率I和工业增长率G之间的关系 可以假设模型为 I 1 2D 1G 2GD 1 2 1 2 G D 1 1988 I 1 1G D 0 其他 48 2被称为级差截距 2是级差斜率系数 49 例题 下面是根据1958年4季度到1971年2季度英国失业率和职位空缺率的数据估计的模型 从最初的散点图中发现 1966年4季度开始失业和空缺之间的关系发生了明显的变化 为了证实判断的情形 估计了下列的模型 UNt 1 2Dt 1Vt 2 DtVt t其中UNt为失业率 Vt为职位空缺率 D 11966年4季度开始以后的时期01966年4季度以前的时期 50 估计的结果如下 UNt 2 7491 1 1507Dt 1 5294Vt 0 8511 DtVt 0 1022 0 3171 0 1218 0 4294 从上面的估计结果中可以发现 级差截距和级差斜率系数在5 的水平都是显著的 表明1966年4季度开始发生了明显的变化 从上面的回归可以导出下列回归 1958年4季度到1966年3季度 UNt 2 7491 1 5294Vt1966年4季度到1971年2季度 Unt 2 7491 1 1507 1 5294 0 8511 Vt 3 8998 2 3805Vt 51 UNV 52 第六节带折点的回归 在实际中可能会遇到折线回归的情况 例如 IG0G 53 上面的图表示的是当工业增长率达到一定的程度后会大幅度上升 假设为1988年以后的工业增长率 定义 1 t 1988 D 0 其他年份 模型可以表示成 1Gi 2 Gi G0 Di i t 1988 Ii 1Gi i 其他年份 G0被称为门槛值 发生转折的点 是已知的 54 例子1 假设某公司对其销售人员按下列方式发放酬金 即在销售额到达 目标 或门槛值之前实行一种酬劳结构 超过这个事先确定的门槛值之后 实行另一种结构 yi 1Xi 2 Xi X0 Di iX X0 1Xi iX X0 55 其中yi是销售佣金Xi是销售额X0事先确定的门槛值Di 1 Xi X0 0 Xi X0 56 E yi Di 0 XiX0 1XiE yi Di 0 XiX0 2X0 1 2 Xi 57 例题2 根据总成本 Y 和总产出 X 之间的关系估计的模型为 Y 145 72 0 2791X 0 0945 X X DD 1X 55000X 5500X 5500 单位 产出为5500单位以前 边际成本为0 2791即28美分 超过5500单位之后 边际成本为37美分 0 2791 0 0945 58 例题3 Sen等人根据70年代早期101个国家的人均收入X和平均预期寿命Y数据估计的模型如下 Yi 2 4 9 39lnXi 3 36Di lnXi 7 Di 1lnXi 70其他 59 当lnXi 7时 X 1097美元假定1097美元的人均收入是贫穷和较富裕国家的分界线 推导出人均收入低于1097美元和高于1097美元的国家的模型E yi Xi Di 1 2 4 9 39lnXi 3 36lnXi 3 36 7 21 12 6 03lnXiE yi Xi Di 0 2 4 9 39lnXi 60 表明随着人均收入水平的提高 平均预期寿命的增加趋缓 61 第七节全部是定性变量的回归 有时 模型中包括的全部是定性的变量 解释变量 可以通过虚拟变量的形式来处理 例如 研究收入问题时 可以从性别 学历 年龄 工作单位性质 企业规模等方面考察 可以找出不同类别人群的收入差距 62 例题现拥有15个工人的月收入和相应的性别 年龄 30多 40多 学历 大学 高中 初中 企业规模 大型 中型 小型 的资料 估计的模型为 Y 1S 2A 3E1 4E2 5F1 6F2 S 1男性0女性A 140多030多 63 E1 1大学毕业0其他E2 1高中毕业0其他F1 1大型企业0其他F2 1中型企业0其他 64 YSAE1E2F1F2010000100000280101003001010031100001321001003400100136100101390010104010010143101000 65 461010015211001054011010110110估计的结果为 Y 11 966 14 385S 12 643A 15 873E1 5 083E2 12 152F1 5 544F2 66 所有回归系数在1 的水平都是显著的 常数项为11 966表示的是小型企业 30多岁女性初中毕业工人的月收入 即所有的虚拟变量取值均为0 1 大型企业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论