分章节讲义B4_IV_GMM_第1页
分章节讲义B4_IV_GMM_第2页
分章节讲义B4_IV_GMM_第3页
分章节讲义B4_IV_GMM_第4页
分章节讲义B4_IV_GMM_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 1 1 2 3 * 计量分析与Stata应用 * 4 5 6 * 主讲人:连玉君 博士 7 8 * 单 位:中山大学岭南学院金融系 9 * 电 邮: arlionn 10 * 主 页: 11 12 * :高级部分: 13 * 计量分析与Stata应用 14 * = 15 * 第五讲 工具变量法与GMM 16 * = 17 * 5.1 2SLS 18 19 cd D:stata10adopersonalNet_courseB4_IV_GMM 20 21 22 *- 23 * 简介:为什么使用IV/GMM? 24 *- 25 26 * y = x1*b1 + x2*b2 + . + x_k*b_k + u 27 * 28 * 矩阵形式: 29 * 30 * y = X*beta + u 31 * 32 * OLS 的基本假设: CovX,u = 0 33 34 35 * 违反该假设的三种常见情况: 36 37 * (1) 内生性问题 CovX,u != 0 38 * b = inv(XX)*Xy 39 * Eb = Einv(XX)*X(X*beta+u) 40 * = Einv(XX)*XX*beta + Einv(XX)*Xu 41 * = beta + Einv(XX)*Xu 42 * != beta 43 44 * (2) 遗漏变量(omitted-variable bias) 45 * 假设 y = a + x1*b1 + x2*b2 + e1 46 * Corr(x1,x2) != 0 47 * 若估计中遗漏了 x2, 则估计模型为: 48 * y = a + x1*b1 + e2 (e2=e1+x2*b2) 49 * 显然,Corr(x1,e2) != 0 50 51 * (3) 衡量偏误(measurement error in the regressor) 52 * 对于模型 y = x0*b + e 53 * 假设 x = x0 + me (x 是 x0 的样本观测值) 54 * 即 x0 = x - me 55 * 模型的正确形式应为: 56 * y = a + x0*b + e 57 * = a + (x - me)*b + e 58 * = a + x*b + (e - me*b) 59 * = a + x*b + e2 60 * 显然, 61 * Corr(x,e2) != 0 62 63 64 *= 处理方法:IV 估计 65 66 *- 基本思想: 67 * 68 * y = X*b + e 69 * 70 * 找到一个变量 Z,使得 Corr(Z,e)=0, Corr(X,Z) - 1 71 * 72 *- IV 视角 73 * Z*y = Z*X*b + Z*e 74 * = Z*y = Z*X*b_IV 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 2 75 * = b_IV = inv(ZX)*Zy 76 * 77 *- MM 视角 78 * Ze = 0 79 * = Z(y - X*b) = 0 80 * = ZX*b = Zy 81 * = b_MM = inv(ZX)*Zy 82 83 *- 说明: 84 * 85 * (1) 在大样本下,IV 估计是一致的,即,Plim (1/N)Xe = 0 86 * N-oo 87 * 88 * (2) 在小样本下,IV 估计并非无偏估计量,有些情况下偏误可能很严重。 89 90 91 92 93 *- 94 * 两阶段最小二乘法(2SLS) 95 *- 96 97 * 对于模型: 98 * 99 * y = x1*b1 + x2*b2 + e 假设 Corr(x2,e)!=0 100 * 101 * 若存在两个工具变量 z1 和 z2,我们我将得到两个 IV 估计量, 102 * 问题:如何将这两个IV估计量合并起来? 103 104 *- 解决方法:两阶段最小二乘法2SLS 105 * 第一步: 106 * reg x2 on z1 z2, 得到 x2 的拟合值 x_2,x_2 可视为 x2 的工具变量 107 * 第二步: 108 * reg y on x1 x_2, 即执行 IV 估计。 109 * 110 * 特别说明: 111 * 虽然基本思想是这样的,但我们不能如此操作,因为这种方法是错误的! 112 113 *- 理论推导: 114 * 115 * y = X*b + u (1) 116 * 117 *-1 X = Z*b1 + u (2) 118 * 119 * X_hat = Z*b1_OLS (3) 120 * = Z*inv(ZZ)*ZX 121 * = P_z*X (其中,P_z = Z*inv(ZZ)*Z) 122 * 123 *-2 y = X*b + u 124 * b_2SLS = inv(X_hat*X)*X_hat*y (4) 125 * = inv(X*P_z*X)*X*P_z*y 126 * 127 * Var(b_2SLS) = sigma2*inv(X*P_z*X) (5) 128 * 129 * sigma2 = e*e/N (e 表示残差向量) (6) 130 * 131 * e = y - X*b_2SLS (7) 132 133 * 特别注意: 134 * 虽然从名称上来看,2SLS 似乎应该执行“两步法”,但这种做法是错误的; 135 * 正确的估计式是 (4) 和 (5) 136 * 如果采用两步法,得到的残差序列是错误的: 137 * e = y - X_hat*b_2SLS 138 * 而正确的估计式应该是 (7) 式! 139 140 141 142 143 144 145 146 147 148 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 3 149 * 计量分析与Stata应用 * 150 151 * 主讲人:连玉君 博士 152 153 * 单 位:中山大学岭南学院金融系 154 * 电 邮: arlionn 155 * 主 页: 156 157 * :高级部分: 158 * 计量分析与Stata应用 159 * = 160 * 第五讲 工具变量法与GMM 161 * = 162 * 5.2 2SLS的STATA实现 163 164 165 *- 166 *- stata实现:ivergress 命令 167 *- 168 169 use hsng2.dta, clear 170 des rent pcturban hsngval faminc reg2-reg4 171 sum rent pcturban hsngval faminc reg2-reg4 172 173 *-基本命令格式 174 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4) 175 est store r2sls_0 176 177 *-稳健型标准误 178 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4),vce(robust) 179 est store r2sls_rb 180 181 *-Bootstrap标准误 182 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4), / 183 vce(bs,reps(200) 184 est store r2sls_bs 185 186 local mm r2sls_0 r2sls_rb r2sls_bs 187 esttab mm, mtitle(mm) 188 189 190 *-多个内生变量 191 * 192 ivregress 2sls rent (hsngval pcturban = faminc reg2-reg4) 193 * 194 * 说明:(1) 不可能单独为每个内生变量指定一组特定的工具变量; 195 * (2) 所有外生变变量都作为自己的工具变量; 196 197 198 *- 199 * 识别问题和过度约束检验 200 *- 201 202 * 识别:当有足够的工具变量使得模型的2SLS估计量唯一时,称为可以“识别” 203 * 204 * 对于 2SLS 估计量 205 * 206 * b_2SLS = inv(X_hat*X)*X_hat*y (4) 207 * = inv(X*P_z*X)*X*P_z*y 208 * (其中,P_z = Z*inv(ZZ)*Z) 209 * 参数能够唯一识别的条件是: 210 * (1) ZZ 是非奇异矩阵; 211 * (2) rank(ZX) = K (rank condition) 212 * 注意: Z 是 NxL 矩阵, X 是 N*K 矩阵 213 214 *- 识别不足、恰足识别和过度识别 215 * -粗略理解- 216 * 识别不足: rank(ZX) K (工具变量的个数“多于”内生变量) 219 220 *- 说明: 221 * (1) 虽然表面上看起来,过度识别似乎不好,但在大样本下,它比恰足识别更加有效; 222 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 4 223 224 *- 225 *- 过度约束检验 226 * 227 * 基本思想:由于我们加入的工具变量多于内生变量, 228 * 需要检验这些工具变量是否与干扰项相关,即工具变量是否合理 229 * 230 * H0: 所有的工具变量均与干扰项不相关,即,Corr(Z,u)=0 231 * LM = N*R2 - Chi2(r) 232 * 其中,r 表示多余的工具变量的个数 233 * 234 * 拒绝原假设的两层含义: 235 * (1) 工具变量与干扰项相关; 236 * (2) 模型设定不合理,部分外生变量事实上可能是内生变量; 237 * 因此,若拒绝原假设,则表明可能是工具变量选择不合理,也可能是模型设定有误。 238 239 * 表 4.1 estat overid 说明 240 * - 241 * Estimator VEC estat overid 242 * - 243 * 2SLS nonrobust Sargan(1958), Basmann(1960) chi2 244 * 2SLS robust Wooldridge(1995) 245 * LIML Anderson-Rubin(1950), Basmann(1960) 246 * GMM Hansen(1982) J-统计量 247 * - 248 249 *-例: 250 use hsng2.dta, clear 251 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4) 252 estat overid 253 * 254 * 可能是模型中存在异方差所致, 255 * 因为 Sargan 和 Basmann 统计量都要求满足同方差假设, 256 * 当模型中存在异方差时,这两个统计量并不合理 257 * 258 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4), robust 259 estat overid 260 261 262 *- 263 *- 弱工具变量问题 264 * 265 * 基本思想: 266 * 虽然工具变量满足要求,即与干扰项不相关,与内生变量相关, 267 * 但当 Z 和 X 的相关性较低时,2SLS 估计量存在严重偏误, 268 * Z 称为“弱工具变量” 269 270 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4),first 271 estat firststage 272 273 * 结果释义: 274 * (1) R2 越高表明内生变量与工具变量之间的相关性越高, 275 * 此时,IV 估计的偏误就越小; 276 * (2) 只看 R2 和 adj-R2 并不合理, 277 * 因为,一阶段回归不仅包含我们设定的工具变量,还包含模型中的外生变量; 278 * 此时,应该看 partial-R2, 279 * 含义:在控制 pcturvan 影响的前提下,看其它变量对 hsngval 的解释力 280 preserve 281 use hsng2.dta, clear 282 *从 hsngval 中剔除 pcturban 的影响 283 qui reg hsngval pcturban 284 predict e, res 285 *从各工具变量中剔除 pcturnban 的影响 286 foreach v of varlist faminc reg2-reg4 287 qui regv pcturban 288 predict ex_v, res 289 290 reg e ex_* 291 restore 292 * 293 * F(4,44) 的含义: 四个工具变量的联合显著性 294 * 295 * 说明:(1) 传统意义上的 5% 甚至 1% 显著, 296 * 并不足以表明工具变量与内生变量之间的相关性足够强; 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 5 297 * (2) Stock,Wright and Yogo(2002) 采用MC研究表明, 298 * 使用 2SLS 时,若只有一个内生变量,F10 方可。 299 300 301 *- 例:弱工具变量问题 302 303 use griliches.dta, clear 304 des lw s expr tenure rns smsa iq med kww age mrt 305 sum lw s expr tenure rns smsa iq med kww age mrt, sep(0) 306 307 ivregress 2slslw s expr tenure rns smsa _I* (iq=med kww age mrt), first 308 estat firststage 309 310 311 312 313 314 315 316 317 318 * 计量分析与Stata应用 * 319 320 321 * 主讲人:连玉君 博士 322 323 * 单 位:中山大学岭南学院金融系 324 * 电 邮: arlionn 325 * 主 页: 326 327 * :高级部分: 328 * 计量分析与Stata应用 329 * = 330 * 第五讲 工具变量法与GMM 331 * = 332 * 5.3 GMM 333 334 335 * 安装相关命令: 336 ssc install overid, replace 337 ssc install ivreset, replace 338 ssc install ivhettest, replace 339 ssc install ivendog, replace 340 ssc install ivreg2, replace 341 ssc install ranktest, replace 342 ssc install ivactest, replace 343 344 345 346 *- 347 * 广义矩估计法(GMM) 348 *- 349 350 *- GMM 的基本思想 351 352 * 模型: 353 * 354 * y_i = x_i*b + u_i 355 356 * 矩条件为(针对每个观察值): 357 * EZ*u = 0 358 * 359 * g_i(b) = Z_i*u_i = Z_i*(y_i - x_i*b) 360 361 * 对应的样本矩条件为: 362 * N N 363 * g(b) = (1/N)* SUM g_i(b) = (1/N)*SUM z_i(y_i-x_i*b) 364 * i=1 i=1 365 * GMM 的基本思想便是: 366 * 求解 g(b)=0, 得到 b_GMM 估计量。 367 368 * 若模型是“恰足识别”的,则可直接求解上述矩条件,此时 369 * b_GMM = b_2 370 * 但多数情况下,我们面对的都是“过度识别”问题, 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 6 371 * 此时可寻找 b_GMM, 使得 g(b_GMM) 尽量接近于零, 372 * 通常,我们求解如下一般化目标函数,使之最小化: 373 * 374 * J(b_GMM) = N*g(b_GMM)*W*g(b_GMM) 375 * 376 * 其中,W 为权重矩阵 377 378 * 由一阶条件可得: 379 * 380 * b_GMM = inv(XZWZX)*XZWZY 381 * 382 * 其中,X 是解释变量构成的矩阵; 383 * Z 是工具变量构成的矩阵; 384 * W 是权重矩阵; 385 * Y 是被解释变量构成的列向量; 386 387 * Hansen(1982) 提出如下最优权重矩阵: 388 * 389 * W = inv(S) S = EZ*B*Z B = u*u(残差的方差-协方差矩阵) 390 391 392 *= 不同情况下,最优权重的设定 393 * 394 *-1- 同方差假设: 395 * 396 * B = u*u = sigma2 * I_N 397 * 398 * 此时,b_GMM = b_IV 399 400 *-2- 异方差假设: 401 * N 402 * B = (1/N)* SUM u_i2 * Z_i*Z_i (类似于 White_1980 估计量) 403 * i=1 404 405 *-3- 组内相关(within cluster correlation) 406 * M 407 * B = SUM u_j*u_j (j 表示样本中的第 j 个小组) 408 * j=1 409 * 410 * u_j = (y_i-x_i*b)XZ*inv(ZZ)*z_j 411 412 *-4- 同时考虑异方差和序列相关 HAC 标准误 413 * 414 * 采用 Newey-West(1987) 估计量计算 B 矩阵 415 416 417 418 *- 419 *- STATA 实现 420 *- 421 422 use hsng2.dta, clear 423 424 *- 425 *= 权重矩阵 W 的设定wmatrix() 选项 426 427 *- 同方差假设 428 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4),wmatrix(unadjusted) 429 est store gmm_homo 430 ivregress 2slsrent pcturban (hsngval = faminc reg2-reg4) 431 est store r2sls 432 local mm gmm_homo r2sls 433 esttab mm, mtitle(mm) 434 435 *- 异方差假设(默认设定,真正意义的GMM) 436 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4),wmatrix(robust) 437 est store gmm_het 438 439 *- 考虑组内相关性(假设各个人口分区内的州存在相关性) 440 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4),/ 441 wmatrix(cluster division) 442 est store gmm_cluster 443 444 local mm gmm_homo gmm_het gmm_cluster 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:57 Page 7 445 esttab mm, mtitle(mm) 446 447 448 *- 449 *= 标准误的计算vce()选项 450 451 * 基本规则: 452 * (1) 采用 GMM 进行估计时,即 ivregress gmm 命令, 453 * vce() 选项中的内容会自从与 wmatrix() 中一致; 454 * (2) 若希望采用 Bootstrap 获得标准误,则可填写 vce(bs,rep(50),如 455 * 456 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4), / 457 wmatrix(robust) vce(bs,reps(200) 458 est store gmm_bs 459 460 local mm gmm_het gmm_bs 461 esttab mm, mtitle(mm) 462 463 464 *- 465 *= 迭代GMM估计量igmm选项 466 467 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4), / 468 wmatrix(robust) igmm 469 est store gmm_igmm 470 471 local mm gmm_het gmm_igmm 472 esttab mm, mtitle(mm) 473 474 475 *- 476 *= t 值和 F 值 small选项 477 478 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4), / 479 wmatrix(robust) small 480 est store gmm_small 481 482 local mm gmm_het gmm_small 483 esttab mm, mtitle(mm) 484 485 486 487 *- 488 * GMM 中的相关检验 489 *- 490 491 *- 检验 GMM 的过度约束条件 492 * 493 * 基本思想:类似于2SLS中的过度识别检验,检验工具变量的设定是否合理 494 * 495 * H0: 模型设定是正确的,过度约束是合理的 496 497 * 统计量: 498 * 499 * J(b_GMM) = N*g(b_GMM)*inv(S)*g(b_GMM) - Chi2(r) 500 * 501 * 其中,r 为过度约束的个数, 502 * S = EZ*B*Z B = u*u(残差的方差-协方差矩阵) 503 504 * stata 实现: 505 use hsng2.dta, clear 506 ivregress gmm rent pcturban (hsngval = faminc reg2-reg4), / 507 wmatrix(robust) small 508 estat overid 509 510 511 *- 检验部分工具变量的合理性 512 * 513 * 问题所在:当工具变量的个数较多时,Hansen 检验的Power较低, 514 * 因为任何一个多几个工具变量不合理都可能导致原假设被拒绝。 515 * 因此,我们有必要进一步检验部分工具变量是否合理 516 517 * 检验统计量:C test, 或 difference-in-Sargan test 518 * 人大经济论坛培训中心出品() 版权所有,违者必究 人大经济论坛培训中心出品() 咨询电话B4_IV_GMM - Printed on 2011-3-5 17:12:58 Page 8 519 * C_J = J(FULL) - J(SUB) 520 * 521 * 其中,J(FULL) 为使用所有工具变量时得到的 Hansen-J 统计量 522 * J(SUB) 为剔除一部分可疑工具变量后得到的 Hansen-J 统计量 523 * 524 * H0: 被剔除的工具变量是合理的 525 * C_J - Chi2(s) s 为被剔除工具变量的个数 526 527 *- STATA 实现: 528 use griliches.dta, clear 529 des 530 sum 531 ivreg2 lw s expr tenure rns smsa _I* (iq = med kww age mrt), / 532 gmm2s robust orthog(s) 533 *-结果释义: 534 * (1) C_J 拒绝了原假设, Hansen-J 也拒绝了原假设 535 * 表明:s 并非一个合理的工具变量,但此时模型设定是不是很合理 536 * (2) Underidentification test 537 * H0: 模型存在识别不足问题,即 rank(ZX) K 538 * (3) Weak identification test 539 * H0: 内生变量与工具变量之间的相关性较低(此时GMM估计量可能存在严

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论