手把手教会你如何做面板数据分析

上传人：小*** IP属地：天津上传时间：2022-09-03 格式：DOC 页数：28 大小：608.50KB 积分：20 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、面板数据模型的分析第_节面板数据模型简介第二节固定效应模羽及其估计方法第三节随机效应模世及其估计力法第四节模羽设定的检验第五节面板数抓模型应用实例第六节面板数据模型扩展I:Hausman-Talor模型第一节面板数据模型简介一、面板数据和模型概述在经济学研究和实际应用中，我们经常需要同时分析和比较横截观察值和时间序列观察值结合起来的数据，即：数据集中的变量同吋含有横截面和时间序列的信息。这种数据被称为而板数据(paneldata),它与我们以前分析过的纯粹的横截面数据和吋间序列数据有着不同的特点。简单地讲，面板数据因同时含有吋间序列数据和截面数据，所以其统计性质既带有时间序列的性质，又包含一

2、定的横截而特点。因而，以往采用的计量模型和估计方法就需要有所调整。例1表1中展示的数据就是一个ttl板数据的例子。表1华东地区各省市GDP历史数据单位：亿元19951996199719981999上海2462.572902.203360.213688.204034.96江苏5155.256004.216680.347199.957697.82浙江3524.794146.064638.244987.505364.89安徽2003.662339.252669.952805.452908.59福建2191.272583.833000.363286.563550.24江西1244.041517.261

3、715.181851.981962.98山东4996.875960.426650.027162.207662.10数据來源：中国统计年鉴1996-200()。其他类似的例子还有：历次人口普査中有关不同年龄段的受教育状况；同行业不同公司在不同时间节点上的产值等。这里，不同的年龄段和公司代表不同的截面，而不同时间节点数据反映了数据的时间序列性。研究和分析而板数据的模型被称为而板数据模型(paneldatamodel)它的变量取值都带有时间序列和横截而的两重性。一般的线性模型只单独处理横截而数据或时间序列数据，而不能同时分析和对比它们。面板数据模型，相对于一般的线性回归模型，其长处在于它既考虑到了横

4、截面数据存在的共性，乂能分析模型中横截面因素的个体特殊效应。当然，我们也可以将横截面数据简单地堆积起来用冋归模型来处理，但这样做就丧失了分析个体特殊效应的机会。二、一般面板数据模型介绍符号介绍：儿因变量在横截面i和时间t上的数值;观第j个解释变量在横截面i和时间t上的数值;假设：有K个解释变量，即j=l,2,K；有N个横截面，即i=1,2,N；时间指标(=1,2,7记第i个横截面的数据为其中对应的“是横截而i和时间i时随机谋差项。再记/、J1丿2x=X2趴、“2;p=AJn丿丿Pk)这样，y是一个N1的向量；X是一个NTxK的矩阵；而u是一个NTxl的向最。针对这样的数据，有以卜以矩阵形式表达

5、的面板数据模型：y=Xp+“(1)方程(1)代表个最慕4的面板数据模型。基于对系数B和随机课差项卩的不冋假设，从这个棊本模型对以衍生出各种不同的面板数据模型。最简单的模型就是忽略数据中每个横截面个体所可能有的特殊效应，如假设“iida2),而简单地将模型视为横截面数据堆积的模型。但是由丁询板数据中含有横截血数据,有时需要考虑个体可能存在的特殊效应及对模型估计方法的影响。例如在不同个体误差项存在不同分布的情况下，OLS估计量虽然是一致的，但不再是有效彳古计量，因此往往需要采用GLSo一般为了分析每个个体的特殊效应，对随机误差项“的设定是“”=4+6其中代表个体的特殊效应，它反映了不同个体之间的差

6、别。最常见的两种面板数据模型是建立在4的不同假设基础之上。一种假设假定q是固定的常数，这种模型被称为固定效应模型(fixedeffectmodel),另种假设假定q不是固定的，而是随机的，这种模型被称为随机效应模型(randomefifectmodel)。第二节定效应模型及其估廿方法定效应模型的形式在固定效应模型中假定其川乞是对每一个个体是固定的常数，代表个体的特殊效应，也反映了个体间的差异。整个I古I定效应模型可以用矩阵形式表不为：/r100100/、A/:+兀20+/、*200-i)丿0(J2丿其中i为Txl的单位向量。进一步定义：i/0D=(心d2dN)=、0必为7Nxl向量，是一个虚拟

7、变量00、i0(dummyvariable)0模型可以再写为：y=Da+兀0+w其小D是一个有虚拟变量组成的矩阵。因此固定效应模型也被称为最小二乘虚拟变量模型(leastsquaresdummyvariable(LSDV)model),或简单称为虚拟变量诞型。二、固定效应模型的估计和检验固定效应模型中有N个虚拟变量系数和K个解释变量系数需要估计，因此总共有N+K个参数需要估计。当N不是很大时，可直接采用普通最小二乘法进行估计。但是当N很大时，直接使用OLS方法的计算量就变得非常人，複至有可能超过计算机的存储容量。一个解决问题的办法就是分成两步來对面板数据模型进行回归分析。由这种方法导出的估计量

8、常被称为内部估计量(withinestimator),有时也记为。第一步，剔除虚拟变量在模型中的影响，然后再对参数B进行估计。剔除虚拟变量D影响的办法就是利用下列矩阵对所有变量进行“过滤”。设PD=D(DfDylDf,其中D的定义为方程前所述。设Md=I-Pd，用Md转变模型y=Da+兀0+。显然MdD=O9则有MDy=MXP七M2用OLS得到B的估计：=(XMX)TXMDy内部估计量与对下列方程的OLS估引事是等同的。儿-刃-疋)0+随机误差项其中，気和片匚代表各自变量个体的均值。上式中，OLS估计量主要利用的是个体变量对其均值偏离的信息，随机误差项也仅反映对其个体均值的偏离波动，这是该估计

9、量被称为内部估计量的原因。第二步，估计参数Q。由于己经得到了B的估计值，所以a的估计就变得比较简单。d=(DDyD(Y-Xpj/其实就是用口变量和解释变量的个体均值和按下列模型计算出的误弟项：幺=X-X久估计量2植和0的方差估计：%=s2(xpDxyl=+和屯st其中52是对误差项方差的估计量：工工仇一-心&)2S=NT-N-K注意：在对误差项方差的估计量中，分母(NT-N-K)反映了整个模型的自由度。有了这些方差的估计量，就可以用传统的f统计量对佔计系数的显著性进行检验。同时，还可以运用下列F统计量对=aj4j的原假设进行检验：F(N,NTNK)=(RR；)KN-r)Q-R；JI(NT-N-

10、K)其中代表无约束冋归模型尺2,而为有约束冋归模型的,约束条件即为原假设。相对于内部估计量，另外还冇一种估计量称为中间估计量(betweenestimator)o定义为：fiB=(XPDX)XPDy它其实是下列模型的OLS估计量：因而可以被看作利用不同的个体均值信息所作出的估计。中间估计量一般而言是一致估计量，但不是冇效的。因为它只是利用了个体均值的信息。内部估计量在这个意义上与中间估计量是相对的,因为内部估计量利用的正是被中间估计量所“抛弃”的部分信息。固定效应模型的优点：能够确定地反映个体之间的差距及其简单的估计方法；固定效应模型的缺点：存在模型自由度比较小(因为冇N个截跖系数)和存在对个

11、体差界的限制性假设(即个体间差界为固定的)。a第三节IM效应模型及其估廿方法一、随机效应模型的形式类似同定效应模型，随机效应模型也假定：=e+勺但与I古I定效应模型不同的是，随机效应模型假定e与為同为随机变量随机效应模型可以表达如下：yt=Xifi+iai+：(18)其中y和砖均为卩xl向量；X,是TxK矩阵；务是一个随机变量，代表个体的随机效应。由于模型的谋差项为二种随机课差之和，所以也称该模型为i吴差构成模型(errorcomponentmodel)。还假定：q和xit不相关；E(Q=E(aJ=O；(3)E(ay)=0,Vi,j,Z；E(勻=0,VH/或hs;E(az.y)=0,V/jb；

12、=E(；),5；a=E(az2),Vio给定这些假设，随机效应IM板数据模型也町同样列为：尸XB+u英中“=(IHi)a+e1a的向量形式与以前相同。是Kronecker乘法符号。例2Kionecker乘法：例3前ihi的矩阵D也nJ)|JKionecker乘法表示：D=INiTxl在这些假设的情况卜；简单OLS估计量仍然是无偏和一致的，但不是有效的。因为：Var(“J=G=(yelT+au(19)Var(/i)=Z=INTcr+INiial=INQ(20)同一个个体、不同时间节点上的随机误差项之间存在一定的相关性,而OLS没有利用方差矩阵中含有的这些信息，因而不再是最有效的佔计量。因此有必要

13、采用GLS。直接采用GLS二、随机沁模型的估计1Q；和b；已知时一定义下列符号：(1(21)(22)(23)P=IN(iTiTyir)=IN-iTir丿Q=【NT-卩在以上这些符号的意义下，可以算出工“的计算公式:a：注：(1)夕的表达式说明只耍知道c;和云，就可以推导出H。|-hJ*Q和P都是幕等矩阵(idempotentmatrix)以及Q和P间存在正交性,所以工可以表示为:日2(0+6P)(24)其中，5=l/b是一个实数常数，它在GLS中相互抵消，没有任何影响，我们无须考虑它，因此还可以表示为：日2一(1一0)竺(25)注意：上式说明在两种情况下，可以不使用GLS：当相对于(7；很小而

14、T有限时，01,可直接釆用OLS；当T很大，以至Tb：b：,0=(),可直接采用内部估计方法。对B的估计直接采用GLS方法：或Bgi$Bg=(x-xy(26)(27)丿上述两式是等同的，它们还等同于：在方程(18)两边乘以Q-再进行OLS估计,即=-|/2&0+逖(28)另外，在前面七个假定下，Ages的协方差矩阵为：VarGLS)=(XlXY(29)注：Pgm是无偏和有效估计量。2Q；和b；未知时采用可行的广义最小二乘（FGLS）方法如果没有b；和7：的信息，就必须耍首先运用数据对它们进行估计。因为我们的U的是得到工的一致估计值，然后进行FGLS,所以需要对b；和的一致佔计。在这种情况下，G

15、LS佔计量是一致的和渐进有效的（asymptoticallyefficient）-致估计量要求：为样本量趋近无穷大吋，估计量同吋趋近真实值。在而板数据模型中这就要求N和T分别趋向无穷大，这有时有问题，如例1中，N是固定的，华东六省一市是不能改变的，因此当样木的N和T都比较小时，可以直接采用固定效应模型。估计的步骤如下：第一步，估计（7；和X利用前面提到的内部估计量和中间估计量相关的误差项亠9bRSSE”N(T1)(30)SSEr(31) # 其中SSE代表估计模型中随机误差项的平方和。出此可对O；和9进行估计（其中沪=企）。第二步，求日的一致估计量（利用式（23）。第三步，按S已知的情况下对B

16、进行估计：(32)PFGLS=XXrXy3.小结：GLS估计量、内部估计量和中间估计量之间的关系由三种估计量的表达式可得出如下的等式关系：BglsFBw+（1-F）Bb（33）其中:WXX+血SIM比xi)(xit_x)zitS/=工八兀-可（耳-可儿点说明：（1）GLS估计量恰好是内部估计量和中间估计量的加权平均；（2）当T很大，&uO时，可得F=l,则GLS估计量与内部估计量是一样的，和前面讨论的结果一致；（3）随机效应模型的优点：能够反映个体Z间差距的随机性；与固定效应模型相比，需要估计的模型系数也比较少，因而模型的自由度比较高；（4）缺点：面板数据模型中含冇横截面数据，在模型的误差项中

17、很可能出现异方差，与基本假设产生矛盾；随机效应模型有对能因没有包括某些必要的解释变量而导致模型设定出现错误。（为什么？）a第皿节模型设定的检验一、为什么要对模型的设定进行检验？二、检验的方法Greene(1997)介绍了两种检验方法。一种是由Breush和Pagan(1980)提出的拉格朗日检验法(LMtest)o另一种是Hausman(1978)提出的Hausman检验方法(Hausmantest),Hausman检验量其实是一种Wald检验法(Waldtest)o这两种方法均可以用于验证而板数据模型的设定应该是周定效应还是随机效应。l.LMtest的基本步骤：第一，建立原假设和备择假设：H

18、。9：=0(或者Cov8it,民=0；心)0：CT；H0第二，检验统计量及其分布NTEEA/LM2(7一1)EEA;-1*(1)(34)其中为OLS的谋差项。第三，检验标准：LM大于临界值，则拒绝。2.HausmantestHausman检验的前提是如果模型包含随机效应，它应与解释变量相关。因此在原假设随机效应与解禅变量不相关的假定下，内部估计量（对虚拟变量模型）和GLS得出的估计量均是-致的，但是内部估计量不是冇效的；在备择假设H随机效应与解释变量相关的假定下，GLS不再是一致的，而内部估计量仍是一致的。因此在原假设下，Bw与Bgls之间的绝对值差距应该不大，而口应该随样本的增加而缩小，并渐

19、进趋近于0。而在备择假设下，这一点不成立。HdusoKm利用这个统计特点建立了以下检验统计量：印二心-几S）石（久-AgQ）at：这里的与前而提到的工有所不同，这里工戸表示b的两种估计量协方差矩阵Z差（Hausman的一个基本结论就是有效估计量和其与非有效估计量之差（即:（A-Als）的协方差等于0,所以0=一BcQ=垃Bw一呵Bgls），即：6=varpw-varfiGLS（36）Hausman统计量即Wald统计量渐进服从口由度为K的%1分布：（37）a第五节面檢数摒模型应用实例一、模型设定的检验1日的：对华东地区综合生产效率进行比较2.模型的选定：采用普遍使用的CD函数：Y=AKfiil

20、/2(38)其中Y代表产出；K和L分别表示资本存量和就业劳动力数量；A是一个综合生产效率系数，它反映了科技水平和管理效率；和02为模型系数，在此我们不对这两个系数做任何限制。对(38)两边取对数，再加上误差项，就可得到线性的生产函数计量模型：log(y)=log(A)+01log(K)+ft.log(L)4-8(39)华东六省一市在科技和管理方面存在差异，因此其综合生产效率系数不可能完全一致。所以釆用了以下面板数据模型：logs)=e+“log(K)+02log(厶f)+8it(40)或log)=Alog(K“)+02log(Q+角;為(41)其中，q=iog(4)。i表示不同的省份；t代表年

21、份。资本存量数据无法巴接得到，可以采用各省市年度总投资额的时间序列数据对其进行了估计，估计中使用年折旧率为0.95o方程(40)中的模型展示了面板数据模型在应用中的灵活性。一方面，模型分析了华东地区在宏观生产函数上存在的共性；另一方面，模型也捉供了研究和比较齐省在综合生产效率上差异的T具。3.对方程(40)中是固定效应述是随机效应做LM检验和Hausman检验。结果如下：模型设定检验结果LMW检验值4.3759.184895%的卡方临界值3.84(q=l)5.99(q=2)检验结果显示：无论是LM还是Wald统计量均拒绝了原假设，所以应该选择随机效应模型。4对随机效应模型作FGLS估计。模型的

22、FGLS估计结果A0.2290伙估计值0.7302B和鸟2估计值有-定的经济意义:它们反映了GDP对资本和劳动力投入的弹性系数。5.对随机效应的综合生产效率系数进行分析。从模型的理论看，匕的期望值不应等于0,因此可对匕做如下设定:at=E(az)+i9z(42)其中()是匕的均值，而禺是一个i.i.d.分布、均值为0的随机变量，它反映了冬的随机性。6.结论。我们希塑通过估计E（q）来分析和比较华东六省r的综合生产效率。因为（az.）=0,所以EWJ=E（aJ,这就告诉我们可以利用随机误羌项的均值来估计E（aJ我们真正关心的是系数人。通过对EQ）的估计，可以分析和比较人，因为两者所弄不过是一个期

23、望值为0的随机项禺和一个的函数转换（对数函数）。估计结果如下表：对E（q）的估计结果上海江苏浙江安徽福建江西山东E(aJ0.13060.0194-0.0016-0.10960.0745-0.0756-0.0123二、面板数摒模塑数据估廿的Eviews实现Eviews软件的估计过程分成如下三步：研究的问题：在城镇居民的边际消费倾向相同的悄况下分析某地区居民的自发性消费水平的差异。（1）建立合并数据库（Pool）对象首先建立工作文件。在打开工作文件窗口的基础上，点击主功能菜单上的Objects键，选NewObject功能（如下图1）,从而打开NewObject（新对彖）选择窗（图2）。图1在Typ

24、eofObject选择区选择Pool（合并数据库）,并在NameofObject选样区为合并数据库起名（初始显示为Untitled点ili（）K键，从而打开合并数据库窗口。在窗口中输入不同省份的标识,如图3。图3（2）定义序列名并输入数据在新建的合并数据府（Pool）窗口的工具栏中点击Sheet键，从而打开SeriesList（列写序列名）窗口，定义时间序列变量CONSUME?和INCOME?,如图4。点击OK键，从而打开合并数据库窗口，输入数据，输入完成后的情形见图5。Pool:UliTITLEDTorkfile:UNTITLEDViewjProcsObjects|Print|NameFre

25、ezejEdit+-|Ordeir+-Smpl+-|TitleEstimaohsCONSUME?INCOME?SH-1995NANAISH-1996NANAISH-1997NANAiSH-1998NANAfSH-1999NANAISH2000NANAJS-1995NANAJS4996NANAJS-1997NANAJS-1998NANAJS-1999NANAIJS-2000NANAZJ-1995NANAZJ-1996NANA|ZJ-1997ll（3）估计模型在Pool窗口的匸具栏中点击Estimate键，打开PooledEstimate窗口，如图6。图6在该窗口中设定模型形式如下：在上部的Dep

26、endentVariable输入框中输入被解释变量Consume?,在中部的RegressorsandAR（）terms输入框和卜部的Intercept选择框中根据设定模型的类型作岀选择：在RegressorsandAR（）terms输入框的Commoncoefficients输入区填入解释变量Income?（如果建立变斜率模型，则应在Crosssectionspecificcoefficients输入区填入解释变量Income?）；在Intercept选择框中选择Fixedeffects项（如果建立随机效应模型，则应选择Randomeffects项）。点击OK键后即可得到输出结果。FVte一

27、IPonI:for二CORSUBMCDilKditQbjeeOY”yQuickWo“【二二叫上J一、DependentViitableCONSUMEMethodPooledLbbs1SquaresDttteO9/D4AJ3Time1157Sample19962001Includedobservations6r4umberocroas*secttonsused12Totalpanel(balanced)obsetvations72G0161014381B9100000o18564171G736VsnableCoWrcietMStdErrort-StatisticProbINCOME?FU9dEf

28、femT4CHB_CSXCNM-CSH-CJS-CdCAH-CFJ-C49S260116309231120161SACR-quatedAdjustedR*squaredSEofegresonDurtom-Watcon1t0994UB4Meandependentvar0992881SDdependerttvar1382794Sumsquaredresid1570360(FultC0NNBFBeCAVmvif|Or；k0uy中rgchIiMpvfrOeEsomaticnCsrgw二二皀W-S亠；-T一y=专=EST(FBS)CONSUME?VKOME?若点击View键选择Representatio

29、ns功能，还可以得到输出结果的代数表达式（右图给出了部分结果）。EaomaoonEquanons二u一二二厂二CONSUMEBJC(2)-C(ir4CCMEBJCONSIIETJ二C(3)C(1fWCOMETJCONSUMEHE二Q4)SfNCOMEHBCONSUMESX-C(5)C41fJCOMESXCDNSUMENMxQB)C(1rZCOMENMCONSLWESH=C(7)*C(1)elNCOMESHCONSUMEJS=C(8)嬉C0户ZCOMEJSCONSLfytZJxCW.5HNC8CONSUMEAHxC410)C1fWCOMeAHCONSIX:FJxC(11)C(iriNCC4veF

30、JCONSLMEJXxC(12)C(irHCOMEJXCONStACSDycohncomesdSubsaturedCaemaents恳二二二占CXCONSUMEBJ13045IM74FOflB16eai22inNCOME8JCONSUMETJ=8O4dS388(M0661688122VWCOMETJ第穴节面板数据模型扩展I:Hausman-Talor模塑木节将介绍1981年Hausman-Ta1orlB的一种面板数据模型及其估计方法。Hausman-Talor模型对以被看成是随机效应模型的一种扩展。一、Hausman-Talor模型的形式Hausman-Taior模型的设尢如下：儿=对0+即+

31、弘(43)叫=0+6其中，工是一个Kxl的解释变量向量，x的数值随时间变化；乙是一个丿x1的解释变量向量，其数值只随个体变化而不随时间变化，/是它的系数；0仍代表个体的特别效应，并几是一个随机变量；其余符号与原来一样。方程(43)与前面的模型在形态上相比，主要区别在于多了个体固定解释变量zio在实际研究中可能会有一些解释变量对每个个体而言在短期内数值不发生变化，例如，在前节的例子中，我们可以加入个体固述解释变量：地区的自然资源量和土地面积，这些变量在一定时期内对个省而言是不变。更重要的区别是：在以上模型中，Hausman和Talor还考虑到个体效应u与解释变量和关的可能性。当随机误差项与解释变量不相关时，

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

手把手教会你如何做面板数据分析

文档简介

温馨提示

最新文档

评论

手把手教会你如何做面板数据分析

文档简介

温馨提示

最新文档

评论

相关文档