如果解释变量包含被解释变量的滞后值_第1页
如果解释变量包含被解释变量的滞后值_第2页
如果解释变量包含被解释变量的滞后值_第3页
如果解释变量包含被解释变量的滞后值_第4页
如果解释变量包含被解释变量的滞后值_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面板数据回归面板数据回归时间序列数据或截面数据都是一维数据。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二面板数据是同时在时间和截面上取得的二维数据。所以,维数据。所以,面板数据面板数据(panel data)也称也称时间序列截面数据时间序列截面数据(time series and cross section data)或)或混合数据混合数据(pool data)。)。 面板数据,简言之是时间序列和截面数据的面板数据,简言

2、之是时间序列和截面数据的混合。严格地讲是指对一组个体混合。严格地讲是指对一组个体(如居民、如居民、国家、公司等国家、公司等) 连续观察多期得到的资料。连续观察多期得到的资料。所以很多时候我们也称其为所以很多时候我们也称其为“追踪资料追踪资料”。近年来,由于面板数据资料的获得变得相对近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。容易,使其应用范围也不断扩大。1996-2002年中国年中国15个省级地区的居民家庭人均消费数个省级地区的居民家庭人均消费数据(不变价格)据(不变价格) (例一)(例一)地区人均消费地区人均消费1996199719981999200020012002

3、cp-ah(安徽)(安徽) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364cp-bj(北京)(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12cp-fj(福建)(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005cp-hb(河北)(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120

4、.485cp-hlj(黑龙江)(黑龙江) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535cp-jl(吉林)(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874cp-js(江苏)(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331cp-jx(江西)(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.0

5、80 4544.775cp-ln(辽宁)(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063cp-nmg(内蒙古)(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180cp-sd(山东)(山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770cp-sh(上海)(上海) 6193.333 6634.183 6866.410 8125.803 8651.893

6、 9336.100 10411.94cp-sx(山西)(山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561cp-tj(天津)(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843cp-zj(浙江)(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210面板数据的格式(例二)面板数据的格式(例二)companycompanyyearyearinvestinve

7、stmvaluemvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9当描述截面数据时,我们用下标表示个体,当描述截面数据时,我们用下标表示个体,如如yi表示第表示第i个个体的变量个个体的变量y。当描述面板数。当描述面板数据时,我们需要其他符号来同时表示个体和据

8、时,我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标,时期。为此我们采用双下标而不是单下标,其中第一个下标其中第一个下标i表示个体,第二个下标表示个体,第二个下标t表表示观测时间。示观测时间。于是于是yit表示表示n个个体中第个个体中第i个个体在个个体在t期中的期中的第第t个时期内变量个时期内变量y的观测值。的观测值。面板数据用双下标变量表示。例如面板数据用双下标变量表示。例如 yit, i = 1, 2, , n; t = 1, 2, , tn表示面板数据中含有表示面板数据中含有n个个体。个个体。t表示时表示时间序列的最大长度间序列的最大长度。 对于样本点来说:对于样本点

9、来说:stata中面板数据的表示中面板数据的表示companycompanyyearyearinvestinvestmvaluemvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9短面板和长面板短面板和长面板如果面板数据如果面板数据 t 较小,而较小,而n 较

10、大较大,这种,这种面板数据被称为面板数据被称为“短面板短面板”(short panel)。(大)。(大n小小t)如)如fatality.dta 反之,如果反之,如果t 较大,而较大,而n 较小较小,则被称,则被称为为“长面板长面板”(long panel)。)。 (大(大t小小n)如)如grunfeld.dta 静态面板和动态面板静态面板和动态面板在面板模型中,如果解释变量包含被解在面板模型中,如果解释变量包含被解释变量的滞后值,则称为释变量的滞后值,则称为“动态面动态面板板”(dynamic panel); 反之,则称为反之,则称为“静态面板静态面板”(static panel)。我们仅关注

11、静态面板。我们仅关注静态面板。平衡面板和非平衡面板平衡面板和非平衡面板如果在面板数据中,每个时期在样本中的个如果在面板数据中,每个时期在样本中的个体完全一样,则称为体完全一样,则称为“平衡面平衡面板板”(balanced panel); 反之,则称为反之,则称为“非平衡面板非平衡面板”(unbalanced panel)。我们主要关注平衡面板。我们主要关注平衡面板。在在stata中,首先使用中,首先使用xtset命令指定命令指定个体特个体特征征和和时间特征时间特征,然后可以用,然后可以用xtdes命令显示面命令显示面板数据的结构。板数据的结构。 use fatality,clear xtset

12、 state year xtdes use nlswork,clear xtset idcode year xtdes 面板数据的优势面板数据的优势(1)可以解决遗漏变量问题:遗漏变量偏差是一)可以解决遗漏变量问题:遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或于不可观测的个体差异或“异质性异质性”(heterogeneity)所造成,如果这种个体差异)所造成,如果这种个体差异“不随时间而改变不随时间而改变”(time inva

13、riant),则面板),则面板数据提供了解决遗漏变量问题的又一利器。数据提供了解决遗漏变量问题的又一利器。(2)提供更多个体动态行为的信息:由于面板数)提供更多个体动态行为的信息:由于面板数据同时有截面与时间两个维度,有时它可以解决单据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。独的截面数据或时间序列数据所不能解决的问题。比如,如何区分规模效应与技术进步对企业生产效比如,如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中,由于没有时间维度,故率的影响。在截面数据中,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间无法观测到技术

14、进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。竟有多少是由于规模扩大,有多少是由于技术进步。(3)样本容量较大:由于同时有截面维度与时间)样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,可以提高估维度,通常面板数据的样本容量更大,可以提高估计的精确度。计的精确度。面板数据的建模方法主要有三种:面板数据的建模方法主要有三种:混合回归模型混合回归模型固定效应回归模型固定效应回归模型随机效应回归模型随机效应回归模型实例实例:交通事故死亡人数和酒精税交通事故死亡

15、人数和酒精税由此我们就能得出增加啤酒税收会导致更多的交通由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗?不一定,这是因为这些回归中可事故死亡人数吗?不一定,这是因为这些回归中可能存在着巨大的遗漏变量偏差。能存在着巨大的遗漏变量偏差。影响死亡率的因素有很多,包括:影响死亡率的因素有很多,包括:1。州内驾驶的汽车质量;。州内驾驶的汽车质量;2。高速公路的维修情况是否良好;。高速公路的维修情况是否良好;3。大部分驾驶的路程是在乡下还是市内;。大部分驾驶的路程是在乡下还是市内;4。路上的汽车密度;。路上的汽车密度;5。社会文化能否接受酒后驾车等。社会文化能否接受酒后驾车等。这些因素都有可能

16、与酒精税有关。这些因素都有可能与酒精税有关。若相关,则会导致遗漏变量偏差。一种解决这若相关,则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据,并把它们加入到上式中。不幸些变量的数据,并把它们加入到上式中。不幸的是,我们很难或不可能度量诸如酒后驾车的的是,我们很难或不可能度量诸如酒后驾车的文化接受度等变量。文化接受度等变量。解决方法:固定效应解决方法:固定效应ols回归回归具有两个时期的面板数据:具有两个时期的面板数据:“前后前后”比较比较特别注意:特别注意:zi不随时间变化不随时间变化结论:结论: 两期的变化(差分)表

17、示的回归消除了随时两期的变化(差分)表示的回归消除了随时间不变的不可观测变量间不变的不可观测变量zi的效应。换言之,分析的效应。换言之,分析y和和x的变化可以控制随时间不变的变量,于是就消除了的变化可以控制随时间不变的变量,于是就消除了这种产生遗漏变量偏差的来源。这种产生遗漏变量偏差的来源。第二个式子减第一个式子,得:第二个式子减第一个式子,得:当数据是在两个不同年份里观测得到的时当数据是在两个不同年份里观测得到的时候,这种候,这种“前后前后”分析很有效。但我们的分析很有效。但我们的数据集中包含数据集中包含7个不同年份里的观测值,即个不同年份里的观测值,即当当t2时不能直接应用这种时不能直接应

18、用这种“前后前后”比较比较方法。为了分析该面板数据集中的所有观方法。为了分析该面板数据集中的所有观测值,我们使用测值,我们使用固定效应回归方法固定效应回归方法。面板数据模型面板数据模型对于特定的个体对于特定的个体i而言,而言,zi 表示那些不随时间表示那些不随时间改变的影响因素,如个人的消费习惯、国家的改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为社会制度、地区的特征、性别等,一般称其为“个体效应个体效应” (individual effects)。混合回归模型混合回归模型混合回归直接利用混合回归直接利用reg命令即可。命令即可。需要注意的是,如果个体异质性的

19、截距项不需要注意的是,如果个体异质性的截距项不相同,混合回归的结果会是有偏的,甚至可相同,混合回归的结果会是有偏的,甚至可能符号相反。能符号相反。下面的例子假设下面的例子假设n个个体的截距不同。个个体的截距不同。固定效应模型的估计算法固定效应模型的估计算法“个休中心化个休中心化”ols算法或者组内离差估计法算法或者组内离差估计法固定效应模型:固定效应模型:lsdv法法lsdv估计法估计法又称为又称为虚拟变量法虚拟变量法。基本思想:固定效应模型实质上就是在传统基本思想:固定效应模型实质上就是在传统的线性回归模型中加入的线性回归模型中加入 n-1 个虚拟变量,使个虚拟变量,使得每个截面都有自己的截

20、距项。得每个截面都有自己的截距项。由于固定效应模型假设存在着由于固定效应模型假设存在着“个体效应个体效应”,每个个体都有其单独的截距项。这就相当于每个个体都有其单独的截距项。这就相当于在原方程中引入在原方程中引入n1个虚拟变量(如果省略个虚拟变量(如果省略常数项,则引入常数项,则引入n个虚拟变量)来代表不同的个虚拟变量)来代表不同的个体,获得每个个体的截据项。个体,获得每个个体的截据项。如何理解个体效应、个体截距项的不同以及如何理解个体效应、个体截距项的不同以及虚拟变量的引入?虚拟变量的引入?我们用一份模拟的数据来分析:我们用一份模拟的数据来分析: use example,clear xtse

21、t company year xtdes 1。 画出散点图和拟合线,并建立画出散点图和拟合线,并建立ols回归回归方程。方程。2。加入虚拟变量,并重新画出建立。加入虚拟变量,并重新画出建立ols回回归方程。归方程。gen d1=0gen d2=0gen d3=0replace d1=1 if id=1replace d2=1 if id=2replace d3=1 if id=3reg y x d1 d2010203040-2-1012xyfitted valuesreg y x010203040-2-1012xyfitted valuesfitted valuesfitted valuesf

22、itted values固定效应模型的固定效应模型的stata实现实现组内离差估计法组内离差估计法 use fatality,clear xtset state year xtdes xtline fatalityrate固定效应模型:固定效应模型: xtreg fatalityrate beertax,fe回归结果解读回归结果解读1。三个。三个r2哪个重要?哪个重要? 2。固定效应为什么有两个。固定效应为什么有两个f检验?检验?3。corr(u_i, xb) 的含义。的含义。4。 sigma_u、sigma_e、rho的含义。的含义。1。因为固定效应模型是组内估计量(离差),。因为固定效应模

23、型是组内估计量(离差),因此,只有因此,只有within是一个真正意义上的是一个真正意义上的r2,其他两个是组间相关系数的平方。其他两个是组间相关系数的平方。2。右侧的。右侧的f统计量表示除常数项外其他解释统计量表示除常数项外其他解释变量的联合显著性。变量的联合显著性。最后一个最后一个f检验,原假设检验,原假设所有所有u_i=0,即不存在个体效应,不必使用,即不存在个体效应,不必使用固定效应模型固定效应模型。首先注意:结果中的首先注意:结果中的u_i不表示残差,而是表示不表示残差,而是表示个体效应。个体效应。3。corr(u_i, xb) 个体效应与解释变量的相关系数,个体效应与解释变量的相关

24、系数,相关系数为相关系数为0或者接近于或者接近于0,可以使用随机效应模型;,可以使用随机效应模型;相关系数不为相关系数不为0,需要使用固定效应模型。,需要使用固定效应模型。4。sigma_u:表示个体效应的标准差:表示个体效应的标准差sigma_e:表示干扰项的标准差:表示干扰项的标准差rho:rho = sigma_u2 / (sigma_u2 + sigma_e2) 个体效应的波动占整个波动的比例。个体效应的波动占整个波动的比例。 lsdv法:显示每个个体截距的方法:法:显示每个个体截距的方法: 方法方法1 tab state,gen(dum) reg fatalityrate beert

25、ax dum*,nocons 方法方法2 drop dum1 reg fatalityrate beertax dum* 方法方法3 xi: reg fatalityrate beertax i.state时间固定效应回归时间固定效应回归 个体固定效应模型解决了不随时间而变个体固定效应模型解决了不随时间而变(time invariant)但随但随个体而异的遗漏变量问题。个体而异的遗漏变量问题。 但还可能存在不随个体而变但还可能存在不随个体而变(individual invariant),但随时,但随时间而变间而变(time varying)的遗漏变量问题。的遗漏变量问题。 和个体固定效应能控制

26、不随时问变化但个体间不同的变量和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量。一样,时间固定效应能控制个体间相同但随时间变化的变量。 比如,企业经营的宏观经济环境。比如,企业经营的宏观经济环境。 再比如:由于新车安全性能的提高是发生在全国范围内的。再比如:由于新车安全性能的提高是发生在全国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。视为随时间变化但对所有州都相同的遗漏变量是合理的。加入用加入用st表示的汽车安全性能的

27、效应后,得以下方表示的汽车安全性能的效应后,得以下方程:其中程:其中st是只随时间改变,不随个体改变的变量,是只随时间改变,不随个体改变的变量,称为称为时间固定效应时间固定效应。对于此方程,可使用对于此方程,可使用lsdv法来估计,即对每个时期法来估计,即对每个时期定义一个虚拟变量,然后把定义一个虚拟变量,然后把t-1个时间虚拟变量包括个时间虚拟变量包括在回归方程中在回归方程中(未包括的时间虚拟变量即为基期未包括的时间虚拟变量即为基期):itititityxz2tititittittydxz 双向固定效应双向固定效应如果方程既考虑了个体固定效应,又考虑了时间固定如果方程既考虑了个体固定效应,又

28、考虑了时间固定效应,可以称为效应,可以称为“双向固定效应双向固定效应”(two-way fe)。此时,可以分别加入个体虚拟变量和时间虚拟变量,此时,可以分别加入个体虚拟变量和时间虚拟变量,并可通过检验这些虚拟变量的联合显著性来判断是否并可通过检验这些虚拟变量的联合显著性来判断是否应使用双向固定效应模型。应使用双向固定效应模型。itititiityuxz在上述例子中加入时间固定效应。在上述例子中加入时间固定效应。实际上添加了实际上添加了t-1个时间虚拟变量。主要反映个时间虚拟变量。主要反映随着时间变化的一些特征。随着时间变化的一些特征。use fatality,clear tab year,ge

29、n(yr) edit drop yr1 reg fatalityrate beertax yr*几乎所有时间虚拟变量均不显著,说明本例子几乎所有时间虚拟变量均不显著,说明本例子的时间固定效应不明显。的时间固定效应不明显。在交通死亡人数中的应用在交通死亡人数中的应用 上述形式中包含了啤洒税,上述形式中包含了啤洒税,47个州二元变量个州二元变量(州固州固定效应定效应),6个年二元变量个年二元变量(时间固定效应时间固定效应)和截距项,所和截距项,所以这个模型的解释变量个数多达以这个模型的解释变量个数多达55个,这将带来大量个,这将带来大量的自由度的损失。比较参数发现加入时间效应后啤酒的自由度的损失。

30、比较参数发现加入时间效应后啤酒税的系数由税的系数由-0.66变为变为-0.64,可见加入时间效应对结果,可见加入时间效应对结果影响不大。影响不大。随机效应模型随机效应模型对于面板数据而言,除了我们前面讲的混合回归对于面板数据而言,除了我们前面讲的混合回归和固定效应模型以外,还存在另外一种模型形式:和固定效应模型以外,还存在另外一种模型形式:随机效应模型。随机效应模型。为了区别固定效应模型和随机效应模型,随机效为了区别固定效应模型和随机效应模型,随机效应模型的方程可写为:应模型的方程可写为:ititiiityuxz模型貌似和固定效应模型一样,但不同的是:在随机模型貌似和固定效应模型一样,但不同的

31、是:在随机效应模型中,效应模型中,ui不再作为个体效应,而是作为随机误差不再作为个体效应,而是作为随机误差项的一部分。随机误差项分成两部分,一部分是不随项的一部分。随机误差项分成两部分,一部分是不随时间变化的误差项时间变化的误差项 ui,另一部分是随时间变化的误差,另一部分是随时间变化的误差项项it ,即:,即:ititiiititiityuvvuxz因此:随机效应模型的最重要的条件是:因此:随机效应模型的最重要的条件是:(,)0(,)0itiiic o vuc o vuxz这样才能保证这样才能保证ols是无偏的,在固定效应模型中没有是无偏的,在固定效应模型中没有上述要求,这也成为判别到底使用

32、哪种模型的重要标上述要求,这也成为判别到底使用哪种模型的重要标准。准。关于随机效应模型:关于随机效应模型:1。随机效应模型将固定效应模型的个体效应。随机效应模型将固定效应模型的个体效应归入到随机误差项中,因此更加灵活。归入到随机误差项中,因此更加灵活。2。固定效应模型通过组内离差的方法消除掉。固定效应模型通过组内离差的方法消除掉不随时间改变的变量,这一方面保证了模型不随时间改变的变量,这一方面保证了模型的无偏性,另一方面模型无法估计不随时间的无偏性,另一方面模型无法估计不随时间改变的变量之影响,这在随机效应模型中可改变的变量之影响,这在随机效应模型中可以实现。以实现。3。回归的结果是随机效应模

33、型的所有的个体。回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。随机干扰项的设定上。4。由于上述特性,随机效应模型比固定。由于上述特性,随机效应模型比固定效应模型结果更加有效,同时,条件更效应模型结果更加有效,同时,条件更加苛刻。加苛刻。随机效应模型必须满足下列条件:随机效应模型必须满足下列条件:其中,个其中,个体效应体效应 u与解释变量与解释变量x和和z 均不相关。均不相关。一般在固定效应模型中,它们是相关的。一般在固定效应模型中,它们是相关的。随机效应模型:随机效应模型:xtreg fatalityrate

34、 beertax ,re回归结果解读。回归结果解读。与固定效应模型的结果比较。与固定效应模型的结果比较。3。固定效应还是随机效应?。固定效应还是随机效应? hausman检验检验基本思想:如果基本思想:如果 , fe 和和 re 都是都是一致的,但一致的,但re更有效。更有效。 如果如果 , fe 仍然一致,但仍然一致,但re是有偏是有偏的。的。 因此因此 原假设:原假设: 即应该采用随机效应。即应该采用随机效应。 备则假设备则假设 应该采用固定效应。应该采用固定效应。( ,)0iitcov u x( ,)0iitcov u x ( ,)0iitcov u x( ,)0iitcov u x xtreg fatalityrate beertax ,fe est store fix1 xtreg fatalityrate beertax ,re est store random1 hausman fix1 random1 hau

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论