面板数据分析方法ppt课件.ppt_第1页
面板数据分析方法ppt课件.ppt_第2页
面板数据分析方法ppt课件.ppt_第3页
面板数据分析方法ppt课件.ppt_第4页
面板数据分析方法ppt课件.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面板数据分析方法 Baltagi Baltagi著白仲林主译 第一节面板数据的基本问题第二节面板数据的模型形式第三节面板数据模型的估计方法 第一节面板数据的基本问题 一 面板数据的定义二 面板数据的分类三 面板数据的特点 一 面板数据的定义 面板数据 paneldata 是指由变量y关于N个不同对象的T个观测期所得到的二维结构数据 记为yit 其中 i表示N个不同对象 如国家 地区 行业 企业或消费者等 一般称之为第i个个体 t表示T个观测期 面板数据是二维结构数据 时间序列数据或截面数据都是一维数据 时间序列数据是变量按时间得到的数据 截面数据是变量在固定时点的一组数据 面板数据是同时在时间和截面上取得的二维数据 所以 面板数据 paneldata 也称作时间序列与截面混合数据 pooledtimeseriesandcrosssectiondata 面板数据是截面上个体在不同时点的重复观测数据 面板数据是二维结构数据 Panel原指对一组固定调查对象的多次观测 近年来paneldata已经成为专业术语 面板数据从横截面看 crosssection 是由若干个体 entity unit individual 在某一时点构成的截面观测值 从纵剖面 longitudinalsection 看每个个体都是一个时间序列 数据结构的二维性 时间序列数据 横截面数据 变量X的面板数据结构 面板数据是二维结构数据 第一节面板数据的基本问题 一 面板数据的定义二 面板数据的分类三 面板数据的特点 二 面板数据的分类 1 短面板与长面板短面板 shortpanel 时间T较小 而个体数N较大 长面板 longpanel 时间T较大 而个体数N较小 二 面板数据的分类 2 微观面板数据与宏观面板数据微观面板数据一般指一段时期内不同个体或者家庭的调查数据 其数据中往往个体单位较多 即N较大 通常均为几百或上千 而时期数T较短 最短为两个时期 最长一般不超过20个时期 二 面板数据的分类 2 微观面板数据与宏观面板数据宏观面板数据通常为一段时间内不同国家或地区的数据集合 其个体单位数量N不大 一般为7 200 而时期数T较长 一般为20 60年 二 面板数据的分类 3 动态面板与静态面板在面板模型中 如果解释变量包含被解释变量的滞后值 则称为 动态面板 dynamicpanel 反之 则称为 静态面板 staticpanel 二 面板数据的分类 4 平衡面板数据与非平衡面板数据如果在面板数据中 每个时期在样本中的个体完全一样 则称为 平衡面板数据 balancedpanel 然而 有时某些个体的数据可能缺失 或者新的个体后来才加入到调查中来 在这种情况下 每个时期观测到的个体不完全相同 则称为 非平衡面板数据 unbalancedpanel 第一节面板数据的基本问题 一 面板数据的定义二 面板数据的分类三 面板数据的特点 三 面板数据的特点 1 由于观测值的增多 可以增加估计量的抽样精度 由于同时有截面维度与时间维度 通常面板数据的样本容量更大 从而可以提高估计的精确度 面板数据提供 更加有信息价值的数据 变量增加变异性 变量之间的共线性削弱了 并且提高了自由度和有效性 三 面板数据的特点 2 提供更多个体动态行为的信息 由于面板数据同时有横截面与时间两个维度 有时可以解决单独的截面数据或时间序列数据所不能解决的问题 对面板数据进行回归既可以像回归分析截面数据一样捕获个体间的差异变化 又可以研究个体随时间的变化情况 三 面板数据的特点 2 提供更多个体动态行为的信息 案例 考虑如何区分规模效应与技术进步对企业生产效率的影响 对于截面数据来说 由于没有时间维度 故无法观测到技术进步 然而 对于单个企业的时间序列数据来说 我们无法区分其生产效率的提高究竟有多少是由于规模扩大 有多少是由于技术进步 三 面板数据的特点 3 可以解决遗漏变量问题 遗漏变量偏差是一个普遍存在的问题 虽然可以用工具变量法解决 但有效的工具变量常常很难找 遗漏变量常常是由于不可观测的个体差异或 异质性 造成的 如果这种个体差异 不随时间而改变 则面板数据提供了解决遗漏变量问题的又一利器 三 面板数据的特点 4 带来一些问题 1 由于综合了两种数据类型 面板数据分析方法相对更加复杂 2 由于同一个体不同时期的数据一般存在自相关 样本数据通常不满足独立同分布的假定 3 面板数据的收集成本通常较高 不易获得 图6图7 File 5panel02a 用原变量建模还是用对数变量建模 人均消费对收入的面板数据散点图对数的人均消费对收入的面板数据散点图 本例用对数数据研究更合理 图8图9 尽管两个地区的水平值差异很大 但消费结构并没有太大的变化 第一节面板数据的基本问题第二节面板数据的模型形式第三节面板数据模型的估计方法 其中 和分别表示居民的消费与收入 反映不随时间变化的个体上的差异性 个体效应 反映不随个体变化的时间上的差异性 时间效应 例1 居民消费行为与收入的关系 例2 农村居民收入分析 14 1 3 面板数据 多个观测对象的时间序列数据所组成的样本数据 反映不随个体变化的时间上的差异性 被称为时间效应 反映不随时间变化的个体上的差异性 被称为个体效应 第二节面板数据的模型形式 一 个体效应模型二 固定效应模型三 随机效应模型四 双向效应模型 其中 为的矩阵 为k个解释变量的第i个个体在第t时期的观测值 为的矩阵 zi为不随时间而变的个体特征 即 扰动项由两部分构成 被称为 复合扰动项 个体效应模型 individual specificeffectsmodel 假定样本中每个个体的回归方程斜率相同 但截距项不同 一 个体效应模型 复合扰动项 不可观测的随机变量是代表个体异质性的截距项 为随个体与时间而变的扰动项 假定为独立同分布的 且与不相关 个体效应模型 1 它表示不可观测的个体特殊效应 潜在变量 不可观测的异质性等 考虑到个人或者任一家庭 企业都具有很难被调查者观察到的独有的特征 这种特殊效应在整个时间范围内是保持不变的 2 某些场合下将其视为常数 但这也是随机变量的特例 即退化的随机变量 对于个体效应 取对数后 模型变为 在这里 代表着企业不随时间变化并且不可观测到的特殊效应 它表示一个企业的管理才能 员工素质等 例 一个企业的柯布 道格拉斯生产函数 1 如果与所有解释变量均不相关 则进一步称之为 随机效应模型 RandomEffectsModel RE 2 如果与某个解释变量相关 则进一步称之为 固定效应模型 FixedEffectsModel FE 个体效应与解释变量的相关性 第二节面板数据的模型形式 一 个体效应模型二 固定效应模型三 随机效应模型四 双向效应模型 固定效应模型形式同样与个体效应模型相同 但是在固定效应模型中假定为需要估计的固定参数 它可以与解释变量之间存在相关性 固定效应模型意味着存在内生解释变量 在随时间变化的情况下 固定效应模型所得到的第j个解释变量的边际效应估计量同样是一致的 然而 同随机效应模型相比 固定效应模型中存在参数过多和自由度损失过多等问题 二 固定效应模型 第二节面板数据的模型形式 一 个体效应模型二 固定效应模型三 随机效应模型四 双向效应模型 对于随机效应模型 一般采用可行的广义最小二乘法 FGLS 对其进行估计 由于被假定为随机的 无须估计 因此使用随机效应模型可以一次得到所有系数的估计值从而进行边际分析 但是 如果随机效应模型选取不恰当所得到的参数估计值将是不一致的 随机效应模型形式与个体效应模型相同 在随机效应模型中假定是完全随机的 即与解释变量无关 三 随机效应模型 第二节面板数据的模型形式 一 个体效应模型二 固定效应模型三 随机效应模型四 双向效应模型 双向效应模型 two way effectsmodel 也可称为双因素误差模型 它将未观测到的个体效应和时间效应引入模型 是个体效应模型的标准延伸 这里 t仅随时间变化而不随个体变化 表示所有未包含在回归模型中的发生在特定时期的影响 如地震对某一时期企业生产的影响 四 双向效应模型 双向固定效应模型 Two wayFE 对于短面板数据 通常将时间效应看做固定效应 如果个体效应模型中含有时间趋势项或包含时间虚拟变量 则称之为双向固定效应模型 1 在固定效应模型中引入时间趋势项 t 它仅依时间而变化 而不依个体而变 2 对每个时期定义一个虚拟变量 然后把 T 1 个时间虚拟变量包括在回归方程中 未包括的时间虚拟变量即为基期 第一节面板数据的基本问题第二节面板数据的模型形式第三节面板数据模型的估计方法 第三节面板数据模型的估计方法 一 混合最小二乘估计二 固定效应模型的估计方法三 随机效应模型的估计方法 一 混合最小二乘估计 PooledOLS 假定所有个体都拥有完全一样的回归方程 其中 xit不包括常数项 这样 就可以直接把所有数据放在一起 像对待横截面数据那样进行OLS回归 故被称为 混合回归 pooledOLS 人均消费对人均可支配收入的弹性系数是0 9694 人均消费对人均可支配收入的边际系数是0 9694CPit IPit 对案例1人均消费CP与收入IP的面板数据进行混合估计 注意 1 由于面板数据的特点 虽然通常可以假设不同个体之间的扰动项相互独立 但同一个体在不同时期的扰动项之间往往存在自相关 此时 对标准差的估计应该使用聚类稳健的标准差 cluster robuststandarderror 而所谓聚类就是由每个个体不同时期的所有观测值所组成 同一聚类 个体 的观测值允许存在相关性 而不同聚类 个体 的观测值则不相关 注意 2 混合回归的基本假设是不存在个体效应 对于这个假设必须进行统计检验 由于个体效应以两种不同的形态存在 即随机效应与固定效应 因此需要分别对其进行检验 第三节面板数据模型的估计方法 一 混合最小二乘估计二 固定效应模型的估计方法三 随机效应模型的估计方法 二 固定效应模型的估计方法 对于固定效应模型 由于被假定为需要估计的固定参数并允许与解释变量相关 因此 估计固定效应模型中的系数时便可以考虑通过变换模型形式从而消除这一不可观测到的个体效应 二 固定效应模型的估计方法 一 组内估计对于固定效应模型 给定第i个个体 将方程两边对时间取平均可得用原模型减去平均后的方程 可得其离差形式 二 固定效应模型的估计方法 定义则由于上式中已将消去 故只要与不相关 则可以用OLS一致地估计 称为 固定效应估计量 FixedEffectsEstimator 记为 由于其主要使用了每个个体的组内离差信息 故也称为 组内估计量 withinestimator 注意 即使个体特征与解释变量相关 只要使用组内估计量 就可以得到一致估计 但在作离差转换的过程中 也被消掉了 故无法估计 即无法估计不随时间而变的变量的影响 注意 另外 为了保证与不相关 则要求第i个观测值满足严格外生性 即 因为中包含了所有的信息 换言之 扰动项必须与各期的解释变量均不相关 而不仅仅是当期的解释变量 这是一个比较强的假定 二 固定效应模型的估计方法 二 最小二乘虚拟变量模型 LSDV 对于固定效应模型 在方程中引入 n 1 个虚拟变量 如果没有截距项 则引入n个虚拟变量 来代表不同的个体 则可以得到与上述离差模型同样的结果 称为 最小二乘虚拟变量模型 LeastSquareDummyVariableModel 虚拟变量回归的特点 使用LSDV方法所给出的估计值 与我们用组内估计方法得到的估计值恰好一样 而且标准误和其他主要统计量也是一样 因此 固定效应估计量可以从虚拟变量回归得到 从LSDV方法算出的可决系数的值通常都比较高 这是因为我们对每一横截面单位都包含了一个虚拟变量 以致能解释数据中的变异的大部分 从结果看 北京 上海 浙江是自发消费 消费函数截距 最大的3个地区 注意 使用LSDV方法虽然可以得到对个体异质性的估计 但是会损失很大的自由度 并在估计 n 1 个额外的参数时 大量的虚拟变量会加剧回归方程的多重共线性问题 也不能估计非时变 time constant 变量效应 此外 LSDV方法也不能解决内生性问题 LSDV的估计效果 Islam 2000 运用蒙特卡罗模拟研究了一些关于经济增长收敛方面的面板数据估计 研究发现 如果以小样本偏差和预测误差的标准方差来判断的话 LSDV估计在小样本上的估计结果最好 其估计效果甚至比GMM估计和工具变量 IV 估计都更好 Islam 2000 对此提供的一种理论解释是 GMM和IV估计在小样本上估计效果不好的原因是因为 这两种方法的优点都依赖于回归估计中所能选择到的最优权重矩阵 而这一权重在回归中可能会收到数据噪声 LSDV的估计效果 二 固定效应模型的估计方法 三 一阶差分法对于固定效应模型 给定第i个个体 将方程两边进行一阶差分 以消去个体效应 得对上述差分形式的方程使用OLS就可以得到 一阶差分估计量 记为 组内估计量与一阶差分估计量 由于不再出现在差分方程中 只要扰动项的一阶差分与解释变量的一阶差分不相关 则是一致的 此一致性条件比保证一致的严格外生性假定更弱 这是的主要优点 组内估计量与一阶差分估计量 组内估计和一阶差分都假设不可观测的个体效应与解释变量相关 两种估计方法在T 2时产生相同的估计量和推断 当总体时期T 2时 在序列不相关 独立同分布的情况下 组内估计量比一阶差分估计量更有效率 因此 在实践上 主要使用 而较少用 第三节面板数据模型的估计方法 一 混合最小二乘估计二 固定效应模型的估计方法三 随机效应模型的估计方法 三 随机效应模型的估计方法 对于回归方程 随机效应模型假定与解释变量均不相关 故OLS是一致的 然而 由于扰动项由组成 不是球型扰动项 同方差 无自相关 因此 OLS不是最有效率的 由于的存在 同一个体不同时期的扰动项之间存在自相关 具体来说 用OLS来估计以下 广义离差 quasi demeaned 模型 组间估计 BetweenEstimator 究竟该用固定效应还是随机效应模型 当我们在日常研究中选取模型形式时 不能确定未观测到的个体效应是否与解释变量相关 因而不能恰当地在固定效应模型和随机效应模型之间进行选取 错误选取模型类型 将影响我们的参数估计量等从而影响对具体问题的分析 在处理面板数据时 究竟该使用固定效应模型还是随机效应模型是一个根本问题 Hausman检验 原假设H0 与不相关 模型应设定为随机效应 备择假设H1 与相关 模型设定为固定效应 Hausman检验统计量 固定效应模型与随机效应模型哪个更好一些 随机效应模型的好处是节省自由度 对于从时间和截面两方面看都存在较大变化的数据 随机效应模型能明确地描述出误差来源的特征 固定效应模型的好处是 很容易分析任意截面数据所对应的应变量与全部截面数据对应的因变量均值的差异程度 Wooldridge 2000 在实际应用时 是选择固定效应模型还是选择随机效应模型 一般的经验的做法是 如果研究者预期建立面板数据模型推断样本空间的经济关系 则模型设定为固定效应模型会更合理一些 否则 如果研究样本是从总体随机抽样得到的 并且预期利用模型解释或推断总体的统计性质 则将模型设定为随机效应模型比较合理 古扎拉蒂 2013 1 如果T 观测的时间点的数目 较大 且N 横

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论