




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第16章面板数据回归模型主讲老师:李庆海本章要点 为什么使用面板数据 固定效应和随机效应模型 变截距模型 模型的选择 16.2重难点导学!#$%&面板数据回归模型:是研究经历一段时间的相同的横截面单元(个体)的模型。面板数据具有空间和时间两种特性。也称为:pooled data(混合数据)combination oftimeseriesandcross-section data(时间序列和横截面综合数据)micropanel data(微观面数据) longitudinal data(纵列数据)event historyanalysis(cohort analysis(群队分析)史分析)面板数
2、据的优势1. 既然面板数据与一定时期内的个人、企业、州、国家等有关,那么这些单位中一定存在着异质性(heterogeneity)。正如稍后将看到的那样,通过使用因调查对象的不同而不同的变量,面板数据估计方法能够明确考虑这种异质性。将在一般意义上使用对象(subject)这个词来表示诸如个人、企业、州、国家等微观单位。2. 通过时间序列和横截面数据的混合,面板数据提供“更加有信息价值的数据,变量增加变异性,变量之间的共线性削弱了,并且提高了自由度和有效性”。3.通过对重复横截面数据的研究,面板数据更适用于对变化动态的研究。也就是说,失业期限、工作的转变以及劳动力的流动等更适于用面板数据进行研究。
3、4.面板数据能够更好地检测和度量纯粹使用横截面数据或时间序列数据所无法观测到的影响。例如,如果引邦和/或州的最低工资的连续增长,那么就可以更好地研究最低工资法律对就业和收入的影响。5. 面板数据能够使人们对更加复杂的行为模型进行研究。比如,比起纯粹的横截面数据或时间序列数据,面板数据能够更好的处理诸如规模经济和技术变迁之类的现象。6.通过使用数千个单位,面板数据能够将偏差降到最低,而这种偏差可能是由于将个人或企业情况加总成更大的总量数据而产生的。简言之,面板数据能够在很多方面丰富经验分析,而这些是仅仅使用横截面或时间序列数据所无法做到的。但这并不表示面板数据模型就不存在任何问题,在学习一些理论
4、和例子之后,将讨论这些问题。如果每个研究对象(企业、个人等)都有相同的观测次数,这样的面板就是平衡面板(balanced panel) 。如果有些对象具有不同的观测次数,得到的就是非平衡面板(unbalanced panel)。在本章的绝大部分内容中,都只讨论平衡面板。在面板数据的文献中,你还可能会遇到短板(short panel)和长板(long panel)的说法。短板指的是横截面单位的个数N大于时期数T。而长板指的是时期数T大于N。后面会发现,估计方法那么,该怎么估计呢?有四种可能的估计方法:1. 混合OLS模型(pooled OLS model)。直接把所有90个观测混合在一起估计一个
5、“大”回归,不管它是横截面数据还是时间序列数据。2. 固定效应最小二乘虚拟变量(fixed effects least squares dummy variable, LSDV)模型。还是把所有90个观测混合在一起,但让每个横截面单位都有一个自己的(截距)虚拟变量。3. 固定效应组内模型(fixed effects within-group model)。再次把所有90个观测混合在一起, 但对于每家航空公司,把每个变量都表示成它与均值的离差,然后再对这种均值修正后的或“去均值”的变量进行OLS回归。4. 随机效应模型(random effects model, REM)。在固定效应最小二乘虚拟
6、变量模型中, 容许每家航空公司都有自己(固定)的截距,与此不同,在随机效应模型中,假定这些截距是从更大的这种航空公司的总体中随机抽取的。()*$%&+,-./0分析面板数据的基本框架是形如下式的回归模型:= xit + zi + uit=xit + ci + uit i = 1, 2, 3,., n其中yit(16.1)t = 1, 2, 3,.,T = (b1,b2 ,.,bk ) = (a1,a2 ,.,am )= (x1it , x2it ,., xkit )xitzi = (z1i , z2i ,., zmi )Xit中有k个解释变量,不包括常数项。123或4567由zi表示,其中包含
7、一个常数 项和一组体现横截面个体影响但不随时间变化的变量,例如可观测的种族、性别等,或无法观测的家庭特征、偏好等,所有这些变量都只体现横截面个体特征,而不随时间变化。如果所有横截面个体的zi都可以观测到,那么整个模型可被视为一个普通线性模型,并可用最小二乘法来拟合。但在大多数应用中,ci不可观测,处理起来就要复杂得多。8-.9:将研究分析面板数据的各类模型,它们大致可分为如下几种类型:;?ABBCDEFDGFDHHIBJK若中仅包含常数项,则模型形式如下:=a+ xit + uit(16.2)yit这类模型假设所有的横截面个体在各个不同时期的斜率和截距都是相同的,这样就可以直接把面板数据混合在
8、一起,用OLS估计参数, 得到一致和有效估计量。由于混合回归模型假设解释变量对被解释变量的影响与横截面个体无关,这在现实中是很难成立的,所以应用不广。2固定影响(fixedeffects)如果zi不可观测,但与Xit相关,则由于遗漏了有关变量,的OLS估计量是有偏和不一致的。可是在这种情况下,模型= xit +ai + uityit(16.3)包含了所有可观测的影响,并且设定了一个可估计的条件均值。这就是LM67-.。其中i=zi。固定影响模型将i视为回归模型中每一个体各自不同的常数项。注意, 这里使用的“固定”一词是表明ci和Xit的相关,并不表明ci是非随机的。固定影响模型可分为三类,即个
9、体固定影响模型(Entity fixedeffectsmodel)、时点固定影响模型(Time fixedeffects model)和个体时点固定影响模型(Entity andtimefixed effectsmodel)。在本章中,只介绍个体固定影响模型。N;OP67FQJEBRDSSDTUHK如果未观测到的个体异质性可以被假定与包括在模型中的变量无关,则模型可设定为= xit + Ezi +zi - Ezi + uit= xit +a+ei + uityit(16-4)这是一个带复合扰动项的线性回归模型。可用OLS法估计,得到一致但非有效的估计量。(16-4)称为随机影响模型。这里i是一
10、个反映横截面个体影响的随机元素。固定影响模型和随机影响模型的关键区别是未观测到的个体影响是否包含与模型中解释变量相关的元素,而不在于这些影响是否随机。4随机系数(random coefficients)随机影响模型可看成是一个带有随机常数项的回归模型。如果数据集足够丰富,可以将此思路扩展到其它系数也随着个体随模型,从而得到OPV&-.:动的= xit ( + hi ) + (a+ei ) + uityit(16.5)其中hi是一个引起参数跨个体变动的随机向量。WLM67-.;LM67-.+XM上一节给出了分析面板数据的一般模型= xit + ci + uityit固定影响模型源于一般模型中被遗
11、漏的影响ci与包括的变量Xit相关的假设,此假设的一般形式是:Xi = h(Xi )(16-6)Eci由于上式中的条件均值在所有时期中都相同,可将模型写成= xit + h(Xi ) + uit +ci - h(Xi )yit= xit +ai+ uit+ci - h(Xi )括号项可通过构造使其与Xi不相关,因而可将其吸收到扰动项中,模型可写为= xit +ai + uityit(16-7)这就是固定影响模型。从模型的设定可知,固定影响模型假设横截面个体之间的差异为截距不同,而斜率系数相同,即允许不同的横截面个体的截距是不同的,但每一个体的截距在各个不同时期则保持不变。换句话说,固定影响模型
12、假定不同横截面个体的差异可用不同的常数项i 来描述,在此模型中,i被作为要估计的未知参数。为常数,则在Xi )如果进一步假设Var(ci此假设下,(16.7)变成经典线性回归模型。2;LM67-.+Y&Z固定影响模型参数的估计方法有两种,一种是最小二乘虚拟变量(LSDV)估计法,另一种是组内估计(Within Estimator)或称协方差估计(The AnalysisofCovariance Estimation,ANCOVA)。下面介绍这两种参数估计方法。搜集我国20012007年我国内地31个省市自治区城镇居民家庭人均年可支配收入、城镇居民家庭人均年消费支出和各地区城镇居民消费价格指数的
13、数据,建立消费收入模型, 以研究城镇居民的消费行为。模型中用到的变量是:Cit=i省市第t年城镇居民人均消费,单位:元Yit=i省市第t年城镇居民人均收入,单位:元Pit=i省市第t年城镇居民消费价格指数(1985100)事实上,对于这3个变量中的每一个,都有217个观测值(31个省市乘以7年)。由于在每个时期(每一年)都是这31个省市,因此这些混合数据是面板数据。现实中,即使每个时期中每个省市的消费与收入之间的关系都相同,但经济发达的省市与经济落后的省市的城镇居民的消费模式、消费理念肯定是有差别的。因此,为简单起见,假定采用固定影响模型,模型形式如下:=ai + Yitb+ uitCiti
14、= 1, 2, 3,., 31t = 1, 2, 3,., 7此模型的回归不采用LSDV法,这会损失很多的自由度,因而采用组内估计法。应用EViews6,估计模型参数,结果为:31 个省市自治区城镇居民家庭人均年边际消费倾向均为0.552,自主性消费(截距项)有很大差异,如表16-1所示。表16-1全国31省市自治区自主性消费水平地区 自主性消费水平(元) 地区 自主性消费水平(元) 地区 自主性消费水平(元) 广东省 3066.09福建省 1776.53安徽省 1486.75北京市 3050.22湖北省 1753.70青海省 1457.59上海市 2955.21甘肃省 1705.62贵州省
15、1412.96重庆市 2501.59吉林省 1659.79山东省 1393.78浙江省 2470.95自治区 1657.24河北省 1388.96自治区 2265.71云南省 1647.26广西壮族自治区 1377.02天津市 2218.72内蒙古自治区 1620.24黑龙江省 1333.89陕西省 1964.331580.79山西省 1284.16辽宁省 1947.03海南省 1561.05江西省 1109.25湖南省 1914.40江苏省 1493.19河南省 1082.78四川省 1864.45从表中可看出,我国各地区城镇居民的自主性消费水平存在较大的差异,广东、北京、上海等居民自主性消
16、费水平几乎是江苏、安徽、青海等居民的两倍,江西、河南居民的三倍。可以利用回归结果来检验31个省市的截距是否相同,原假设和备择假设是:H: a1 = a2= . = a310H: 原 假 设 不 成 立1检验的具体做法与在第二章中介绍的涉及多个系数的联合假设检验类似,即首先进行约束回归和无约束回归,然后用得到的两个残差平方和计算F检验量,进行检验。本例中约束回归就是混合回归模型;而无约束回归就是固定影响模型,因为它允许不同省市的截距取不同值。本例中F检验量计算如下:(RSSR - RSS ) (n -1)F =RSS (nT - n - K)(56222296-20738870)/30=2073
17、8870/185= 10.55查表,5显著性水平下,F(30,185)=1.46,因为F10.55Fc1.46,故拒绝原假设H0。结论:31个省市的截距不全相等。六、随机影响模型固定影响模型允许未观测到的个体影响与包括的变量相关。如果个体影响与解释变量严格不相关,那么在模型中将个体的常数项设定为跨横截面单元随机分布,可能是恰当的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机影响模型(random effects model)比较合适。随机影响模型与固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但截距变动的量是随机的。采用随机影响模型的好处是它大大减少了要估计
18、的参数,代价是,如果关于随机常数项的假设被证明不恰当的话,得到的估计值可能是不一致的。1随机影响模型的设定为简单起见,在此仅介绍一元随机影响模型,所得到的结果不难推广到多元的一般情形。一元随机影响模型可表示为=a+ xitb+ei + uit(16-8)yiti = 1,2,3,., nt = 1, 2, 3,.,T假设:e IID(0,su IID(0,s 2 )2)eiituE(eiuit ) = 0,Xit与ei、uit 之间互不相关。 由于是一个随量,则模型(16-8)的扰动项有两个分量,一个是ei ,一个是,uit令uit= e + u,且满足OLS关于扰动项的假设条件,iit代表每
19、个横截面个体的截距与截距均值之间的差异,这个分量不随时间改变,但对于每个横截面个体都不同。由于扰动项的这个分量不随时间而变,因此随机影响模型中的扰动项将不满足OLS关于各期扰动项互不相关的假设条件,事实上,有Cov(u,u ) =s 2 +e s2t = st sitisu=sCov(uit ,ujs ) = 02ei j由上可见,尽管模型的扰动项在不同横截面个体之间是独立的,但在同一个横截面个体内是存在自相关的,因此模型(16-8)的估计就不能采用OLS,而需采用广义最小二乘法(GLS)进行估计。2;OP67-.+Y&Z*K对模型(16-8)采用GLS进行估计,其GLS估计量为:W+ qBx
20、ys2ubq =xyG LS W+ qBo+ T s22exxxxu其中Wxx、Wyy和Wxy分别是前面介绍过的组内平方和和交叉积,而Bxx、Byy和Bxy分别为组间平方和和交叉积,其计算公式如下:其中T= ( xT= ( xT= ( y- x )2 ,- x)( y- y),- y )2xxiitxyiitityyiittttTxx = Txxi ,Txy = Txyi ,Tyy = Tyyiiiiy = 1x = 1 y x,ititnTnTititTxx、Tyy、Txy 为总平方和及总交叉乘积。s2e现在来考虑两种的情况:(1)当为0时,则q为1。若q为1,则GLS估计量就等价于s2uO
21、LS估计量,模型为经典回归模型。(2)当为0时,q为0。若q为0,则GLS估计量就等价于固s2u定影响模型中的虚拟变量估计量。这是因为为0时,不同个体之间的全部差异都来自于不同的 ei,而由于 ei 在不同时期是保持不变的,这就等同于在固定影响背景下所用的虚拟变量。应用EViews6,估计模型参数,得到31个省市自治区城镇居民家庭的随机影响模型如下:= 1499.78 + 0.585 yitcit t :(13.458)(57.07)人均年边际消费倾向均为0.585,截距的均值为1499.78,各个省市与截距均值的差异如表16-2所示。表16-2随机影响模型中各省市截距与截距均值的差异广东省
22、+947.57湖北省 -5.72青海省 -237.66北京市 +869.94甘肃省 -28.77贵州省 -277.98上海市 +758.99自治区 -72.45江苏省 -313.65重庆市 +600.81吉林省 -80.12河北省 -323.20浙江省 +405.36福建省 -85.95广西壮族自治区 -342.78自治区 +401.90云南省 -114.59黑龙江省 -349.45天津市 +286.50内蒙古自治区 -124.96山东省 -366.20陕西省 +179.61 -144.96山西省 -410.53辽宁省 +144.45海南省 -175.43江西省 -550.98可以利用回归结果
23、来检验31个省市截距随机影响是否存在,原假设和备择假设是:H:s 2 = 0e0H:s 2 0e1检验统计量如下:22nTit2 nT S217 i =1 t =1-1LM=-1=12(T -1) SnT12i =1 t =1e22it2217 1876151591256222296=-1= 98.765c2 (1)查表,5显著性水平下,=3.84因为LM98.765 3.84,故拒绝原假设H0。结论:31个省市的截距存在随机影响,模型应设定为随机影响模型。_abQcHRQJdDHUK豪斯曼检验的思路是在随机影响模型中,如果 E xitei 0,即随机影响与解释变量之间没有正交性,则GLS估计
24、量 bG LS是有偏和非一致的。但是,正交性并不影响固定影响模型的组内估计量 bw的性质。于是,通过检验模型误差项与解释变量的正交性就可解决面板数据模型的设定问题,如果模型误差项与解释变量之间是正交的, 即GLS估计量是无偏的,则应将模型设为随机影响模型,否则设为固定影响模型。其原假设与备择假设分别为:H 0 :ei 与Xit 不相关(随机影响模型) H1 :ei 与Xit 相关(固定影响模型) 检验统计量为:c2 (k )m= q V其中- 1qV = Var(q) = Var( w ) -Var(GLS )- GLSq = wk为解释变量的个数。 可见,拒绝原假设H0时,模型设定为固定 影
25、响模型;否则,模型应设定为随机影响模型。N在例1及例2中,分别假定模型为固定影响模型和随机影响模型,在本例中,应用豪斯曼检验来判别我国31个省市的消费模型中的截距差异是确定的还是随机的。H 0 : ei 与X it 不相关( 随机影响模型) H 1 : ei 与X it 相关( 固定影响模型) 应用EViews6,对例2随机影响模型进行豪斯曼检验,结果如表16-3所示。表16-3豪斯曼检验结果从表3可知,豪斯曼检验统计量m39.37,其p值小于显著性水平0.05,则拒绝原假设, 即城镇消费模型应设定为固定影响模型。Test SummaryChi-Sq. StatisticChi-Sq.d.f.
26、Prob.Cross-section random39.37033310.0000八、随机系数模型如果每个横截面个体的解释变量对被解释变量的影响是不随时间变化的确定性关系,但随着横截面个体的不同而不同,则可以利用面板数据建立表面不相关回归模型,但是当这种影响在横截面个体之间差异的变动是随机的时候,就得考虑建立随机系数模型。1随机系数模型的设定在随机系数模型中,b是一个随量,为简单起见,先不考虑i,则一元随机系数模型可表达为:= xitbiyit+ uit(16-9)t = 1, 2, 3,.,Tbiu= b+uii = 1, 2, 3,., n IID(0,d)s)22u IID(0,iiti
27、经整理,模型为= xit (b+ui ) + uit= xitb+ (uit + xitui )=xitb+ wityit由于s+d2 xt = st si j22Cov(w, w) = iititisd2xxitisCov(wit , wjs ) =0可见模型存在异方差和自相关,故采用GLS进行估计。小结1. 面板回归模型以面板数据为基础。面板数据由相同横截面或个体单位在几个时期的观测组成。2. 使用面板数据有几个好处。第一,它们大大增加了样本容量。第二,通过研究重复抽取的横截面观测,面板数据更加适合研究变化的动态。第三,面板数据能够研究更为复杂的行为模型。3. 尽管有这些确实的优点,面板数据也带来了一些估计和推断的问题。由于数据涉及横截面和时间两个维度,因而困扰横截面数据(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年光纤用GECL4项目资金申请报告代可行性研究报告
- 2024年原奶项目项目投资筹措计划书代可行性研究报告
- 医疗协同政策解读课件教学
- 融资平台项目制管理办法
- 衡阳市固体废物管理办法
- 街道应急消防车管理办法
- 装配式物业用房管理办法
- 西安市能源管理办法规定
- 计日工管理办法百度文库
- 证券投资基金管理公司管理办法
- GB/T 20975.1-2007铝及铝合金化学分析方法第1部分:汞含量的测定冷原子吸收光谱法
- 粮食行业技能竞赛粮油保管员考试试题及答案
- 清真食堂承包投标书
- 马克思主义的世界观和方法论
- 医院处方笺-模板
- 道路综合巡查工作流程
- 香港联合交易所有限公司证券上市规则
- 测量成果验收单
- 冰毯机的使用与护理
- 封样标签样本(1)
- 北京市村合作经济组织会计制度实施细则
评论
0/150
提交评论