计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件_第1页
计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件_第2页
计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件_第3页
计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件_第4页
计量经济学-詹姆斯斯托克-第9章-面板数据的处理ppt课件_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章:面板数据的处理,1,.,时间序列数据和截面数据都是一维数据。时间序列数据是变量按照时间得到的数据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata),2,.,3,.,当描述截面数据时,我们用下标表示个体,如Yi表示变量Y的第i个个体。当描述面板数据时,我们需要其他符号同时表示个体和时期。为此我们采用双下标而不是单下标,其中第一个下标i表示个体,第二个下标t表示观测时间。如Yit表示n个个体中第i个个体在T个时期中的第t期时观测到的变量Y的值。,4,.,5,.,6,.,样本容量较大:可以解决样本容量不足的问题,改进模型估计的有效性。可以解决遗漏变量问题。遗漏变量偏差是一个普遍存在的问题,虽然可以用工具变量法解决,但有效的工具变量常常很难找到。遗漏变量常常是由于不可观测的个体差异或“异质性”所造成,如果这种个体差异“不随时间而变化”,则面板数据提供了解决遗漏变量问题的又一利器。提供更多个体动态行为的信息。由于面板数据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。,面板数据的优势,7,.,案例一,如果想估计我国的“消费函数”如果我有2005年31个省市自治区的“家庭可支配收入”与“家庭消费”的数据则画散点图;做回归;,8,.,9,.,案例一,利用2005年31个省市自治区的“家庭可支配收入”与“家庭消费”的数据:CONS=-10.51+1.31*INCOME,10,.,案例一,如果想估计我国的“消费函数”如果我有北京市20002008年的“家庭可支配收入”与“家庭消费”的数据则画散点图;做回归;,11,.,12,.,案例一,利用北京市20002008年的“家庭可支配收入”与“家庭消费”的数据:CONS=-4732.85+1.72*INCOME,13,.,案例一,如果想估计我国的“消费函数”如果我有31个省市自治区,从20002008年的“家庭可支配收入”与“家庭消费”的数据应该如何做回归?,14,.,案例一,基本概念面板数据(paneldata)平衡面板数据(balancedpaneldata)、非平衡面板数据(unbalancedpaneldata),15,.,案例一,可能的处理方法:谨慎型无知者无畏型,16,.,案例一,谨慎型方法一:估计31个不同地区的消费方程;本质假设:消费行为在不同地区之间有差异,但同一地区在不同时间内没有差异;,17,.,案例一,谨慎型方法二:估计9个不同时期的全国消费方程;本质假设:消费行为在不同地区之间没有差异,但同一地区在不同时间内有差异;,18,.,案例一,无知无畏型把所有数据混在一起做回归;本质假设:消费行为在不同地区之间没有差异,同一地区在不同时间内也没有差异;,19,.,案例一,上述处理方法的缺陷要么没有充分利用数据(谨慎型),要么过于大胆使得估计结果犯错的可能性非常大;,20,.,本章的两大问题,对面板数据如何处理?为什么要发明一个“面板数据”?,21,.,案例二:啤酒税与交通死亡率,观测的数据:48U.S.states,son=48;7years(1982,1988),soT=7;Balancedpanel,sototalobservations=748=336,22,.,案例二:啤酒税与交通死亡率,变量:Trafficfatalityrate(交通死亡率,当年、当地,每10,000人中死于交通事故的人数)Taxonacaseofbeer(啤酒税)Other(其他因素,legaldrivingage,drunkdrivinglaws,etc.),23,.,案例二:啤酒税与交通死亡率,啤酒税与交通死亡率会是什么关系?,24,.,U.S.trafficdeathdatafor1982:,较高的啤酒税,会导致更多的交通死亡吗?,$1982,25,.,U.S.trafficdeathdatafor1988,较高的啤酒税,会导致更多的交通死亡吗?,26,.,啤酒税越高,交通死亡率越高?,答案似乎是肯定的,但与我们的常识不相符!为什么会这样?原因:可能是因为遗漏了重要变量!决定交通死亡率的其他因素:Quality(age)ofautomobilesQualityofroads“Culture”arounddrinkinganddrivingDensityofcarsontheroad,27,.,遗漏变量可能引起估计的偏误,Hightrafficdensitymeansmoretrafficdeaths交通密度与啤酒税之间可能存在着较高的正相关关系;遗漏交通密度变量,会导致OLS估计产生高估的可能!导致“啤酒税”与“交通死亡”之间呈现出显著的正向关系。,28,.,如果X2=b21*X1+i,则事实上有整理后:可以证明,遗漏相关变量“过低拟合”模型,(1),29,.,遗漏重要变量的烦恼,现实研究常常无法避免“遗漏重要变量”的情况发生;这将导致我们的回归结果存在系统性的偏误;怎么办呢?在某些情况下,可以通过“面板数据”进行回归,解决这一问题!,30,.,案例二:啤酒税与交通死亡率,在美国,交通密度的情况在州与州之间差异较大,但在同一个州内,近些年来变化不大。当遗漏变量在给定的地区内并不随着时间变化而改变时,面板数据可以让我们消除遗漏变量偏误!,31,.,两时期面板数据,Zi是不随着时间改变,但会随着个体变化的因素。假设Zi无法观测,所以它的遗漏会带来遗漏变量的偏误。Zi的影响可以通过使用T=2年的面板数据的处理来消除。,32,.,主要的想法:,处理方法:把两个时期的回归方程相减!,因为我们假设Zi不随时间而改变。,从1982-1988年期间,任何一个地区i的死亡率的任何改变,都不可能是由Zi引起的。,33,.,相减后得到:,34,.,案例二:啤酒税与交通死亡率,35,.,FatalityRatev.BeerTax:,36,.,问题,在上述模型中,如果超过两期,即T2,怎么处理呢?,37,.,面板数据模型的一般理论,在模型的设定上,分为两大类:(一)“固定效应”模型;(二)“随机效应”模型;,38,.,1、“固定效应”的模型形式;2、“固定效应”回归的参数估计;3、一般化的“固定效应”模型;4、面板数据模型的缺陷;,(一)固定效应的回归FixedEffectsRegression,39,.,“固定效应”的模型一般形式,1、“固定效应”的模型形式,要求:,40,.,“固定效应”的模型一般形式,1、“固定效应”的模型形式,可写成:,41,.,2、固定效应回归的参数估计,两种估计方法:(1)引入(N-1)个哑变量的回归;(n-1binaryregressor)(LSDV估计)(2)去中心化的回归;(“Entity-demeaned”OLS),42,.,(1)引入(N-1)个哑变量的回归,Supposewehaven=3states,California,Texas,Massachusetts,43,.,Theregressionlinesforeachstate,44,.,上述情形可以用“带虚拟变量的回归”来表示:,(1)引入(N-1)个哑变量的回归,45,.,(1)引入(N-1)个哑变量的回归,一般性方法:首先建立包含二元变量D2i,Dni的回归;Yit=0+1Xit+2D2i+nDni+uit其中,D2i、D3i、.Dni为哑变量;然后用OLS估计上式中的参数;各种检验如常;但当n非常大时不适用。,46,.,(2)去中心化的回归“Entity-demeaned”OLSregression,47,.,(2)去中心化的回归“Entity-demeaned”OLSregression,48,.,(2)去中心化的回归“Entity-demeaned”OLSregression,请问:随个体变化的截距项如何估计?,49,.,请问:随个体变化的截距项如何估计?,有时根本不需要估计常数项;使用“引入虚拟变量回归”的方法,可以将变化的常数项估计出来;还可以把估计出的斜率代入到每个州的回归方程中,计算出每个州的常数项;,50,.,3、一般化的“固定效应”模型,(1)个体的固定效应模型(已讲);(2)时间的固定效应模型;(3)个体与时间的固定效应模型,51,.,(2)时间固定效应模型RegressionwithTimeFixedEffects,遗漏的变量只随时间而改变,但不随州的不同而改变:出现了较安全的车(airbags,etc.);全国法律的改变;这产生了随时间改变的截距!,52,.,(2)时间固定效应模型RegressionwithTimeFixedEffects,估计方法:引入虚拟变量的回归(略);去中心化的回归,53,.,(2)时间固定效应模型RegressionwithTimeFixedEffects,去中心化的回归首先,在个体维度上做平均,得到各年份的均值:然后,进行去中心化处理:,54,.,(2)时间固定效应模型RegressionwithTimeFixedEffects,去中心化的回归:方程改写为:其中,55,.,(3)个体与时间分别固定效应模型,在遗漏的变量中,有的是只随时间而改变,但不随个体的不同而改变;有的是只随个体的不同而改变,但不随时间的不同而改变;出现了较安全的车(airbags,etc.);道路上车辆的密度;,56,.,(3)个体与时间分别固定效应模型,这使得截距项分解成了两部分:随时间改变的截距+随个体改变的截距,57,.,(3)个体与时间分别固定效应模型,参数估计方法:连续两次应用“去中心化”的方法对原始回归方程进行处理。第一次:在时间维度上进行去中心化处理,以消除i;第二次:在个体维度上进行去中心化处理,以消除t;,58,.,4、面板数据模型的缺陷,问题:可以写成如下形式吗?,59,.,4、面板数据模型的缺陷,答案:不行!因为,连续两次应用“去中心化”的方法对原始回归方程进行处理后,依然无法消除Sit。所以,如果遗漏的变量是既随时间改变,同时也随个体改变,则即使使用面板数据也无法消除它的影响。,60,.,(二)随机效应的面板回归RandomEffectsRegression,模型设定;参数估计;,61,.,(1)模型的设定,模型设定:,(),62,.,(1)模型的设定,此时,随机项的方差为:,63,.,(1)模型的设定,此时,同一个个体,不同时点的随机项,彼此之间会相关:,64,.,Yit=1Xit+vi+uit=0+1Xit+it对某一个个体而言,总随机项的协方差阵:,(2)参数估计,65,.,对某一个个体i而言,随机项的协方差阵:I是TT的单位矩阵;i是T1的向量;,(2)参数估计,66,.,每个观测值的数据生成过程:Yit=1Xit+vi+uit=0+1Xit+it,个体i的回归方程的向量形式Yi=i*0+Xi1+i(T1)(T1)(T1)(T1),(2)参数估计,67,.,个体i的回归方程的向量形式Yi=i*0+Xi1+i(T1)(T1)(T1)(T1)N个个体i的回归方程形式:(NT1)(NT1)(NT1)(NT1)(NT1),(2)参数估计,68,.,N个个体i的回归方程形式:(NT1)(NT1)(NT1)(NT1)(NT1)令,(2)参数估计,69,.,N个个体i的回归方程形式:(NT1)(NT1)(NT1)(NT1)(NT1)最后的形式:Y=X+E(NT1)(NT2)(21)(NT1),(2)参数估计,70,.,Y=X+E(NT1)(NT2)(21)(NT1)下面求随机向量E的协方差阵V,(2)参数估计,(NTNT),71,.,Yit=1Xit+vi+uit=0+1Xit+it对某一个个体而言,总随机项的协方差阵:(TT),(2)参数估计,72,.,Y=X+E(NT1)(NT2)(21)(NT1)如果随机向量E的协方差阵V是对角阵,且主对角元素相等,则OLS即可。如果协方差不为零,应该用GLS来估计:,(2)参数估计,73,.,(2)参数估计,处理面板数据时,有可能会遇到异方差问题、序列自相关问题,甚至同时出现。这些情况就是随机向量E的协方差阵V出现了问题,所以理论上GLS都可以解决;针对面板数据的回归,也有关于参数估计量方差的稳健一致估计量;,74,.,例如,针对序列自相关:Yit=1Xit+i+uit=0+1Xit+it如果有:则可以进行广义差分:,(2)参数估计,75,.,估计方法:之前应对“固定效应”的LSDV估计方法,依然是一致、有效估计量。因为该方法去除了“与解释变量相关”的问题,同时也去除了“序列自相关”。,(2)参数估计,76,.,估计方法,Eviews自动给出:随机效应估计量(即,GLS估计。它适用于“随机设定的第一种效应:不相关设定”)固定效应估计量(即,LSDV估计,或者成为“去中心化后的OLS”,适用于“固定效应”和“随机设定的第二种情况:相关设定”),77,.,估计方法,78,.,相关的检验,F检验豪斯曼检验,79,.,F检验,用于检验是否存在组间效应(groupeffects),相当于固定效应。原假设与备择假设:H0:所有的截距i都相等;H1:起码有一个与其他的不同。,m约束条件的个数T样本容量k无约束模型中需估参数的的个数;,80,.,豪斯曼检验,Hausman检验用于检验到底应该采用哪一种随机效应模型原假设与备择假设是H0:个体效应与回归变量无关(个体随机效应回归模型)H1:个体效应与回归变量相关(个体固定效应回归模型),81,.,豪斯曼检验,Hausman检验,W足够大就意味着应该选择随机效应模型,82,.,面板数据建模案例分析,案例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)。数据是7年的,每一年都有15个数据,共105组观测值。,15个省级地区的人均消费序列15个省级地区的人均收入序列(个体),83,.,15个地区7年人均消费对收入的面板数据散点图如下。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。,人均消费对收入的面板数据散点图对数的人均消费对收入的面板数据散点图,面板数据建模案例分析,84,.,面板数据建模案例分析,个体固定效应模型估计结果如下:LnCPit=0.6878+0.8925LnIPit+it(5.4)(60.6)R2=0.99,DW=1.5,85,.,面板数据建模案例分析,混合模型与个体固定效应模型比较,应该建立个体固定效应模型。,86,.,面板数据建模案例分析,个体随机效应模型与个体固定效应模型比较,应该建立个体固定效应模型。,87,.,总结,88,.,面板数据处理方法的本质,为了解决“由于无法观测而遗漏重要变量”的问题!例如,利用“截面数据”构造回归方程:其中但是,X2是无法观测的!怎么办?,89,.,处理方法一,对每一个个体多观测几期(T期)于是有X2,i1,X2,i2,X2,iT假设:该变量(X2)在不同时期都相等!但对不同个体之间有差异。例如:酒精税在各州是不同的,但在考察期内没有变化。,90,.,处理方法一,假设:该变量(X2)在不同时期都相等!但对不同个体之间有差异。固定效应模型,91,.,Supposewehaven=3states:California,Texas,Massachusetts,案例:酒精税与交通死亡率的回归,92,.,Theregressionlinesforeachstateinapicture,Y,=,a,CA,+,b,1,X,Y,=,a,TX,+,b,1,X,Y,=,a,MA,+,b,1,X,a,MA,a,TX,a,CA,Y,X,MA,TX,CA,93,.,处理方法一,固定效应模型的参数估计:1、前后两期相减(适用于T=2);2、引入(n-1)个虚拟变量的回归;3、去中心化回归;(1)固定效应估计量(FEE);(2)与虚拟回归的估计量(LSDV)相同;(3)无法估计“常数项”;,94,.,处理方法一,固定效应模型的参数估计:如果满足如下条件:且自变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论