金融计量经济学第6章 面板数据分析_第1页
金融计量经济学第6章 面板数据分析_第2页
金融计量经济学第6章 面板数据分析_第3页
金融计量经济学第6章 面板数据分析_第4页
金融计量经济学第6章 面板数据分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三部分 面板数据的回归分析第六章 面板数据的多元回归分析6. 1 引言在前面的讨论中都是针对数据来源于横截面,每一个样本是独立地来源于不同的单元, 样本的选取具有假设 1需要的随机性。 在实际的数据采集时, 有时可能会对相同的单元在不 同的时间点得到多个样本,例如对家庭收入的调查,对公司 CEO 特征的选取等。实际中大 部分的抽样数据可能在每年是随机选取的,但在不同的年份可能会选取到相同的家庭或公 司, 甚至有时调查的对象也是固定的。 此时数据就不完全是横截面的, 而是某些单元或所有 的单元都具有时间序列数据。 如此得到的数据显然容易违背独立观测样本的要求。 而独立观 测样本是横截面数据的一

2、个很重要的特征, 它可以排除不同观测样本之间存在相关性。 但是, 当抽样的总体比较大时, 如此抽取的样本也是独立抽样, 从统计的角度来看, 这类数据还具 有一个重要的特征:它们是独立的样本观测值, 这也是横截面数据分析的一个重要方面, 这 一定程度上保证了不同观测样本的误差项之间没有相关性。 这类数据通常被称为联合横截面 数据。 联合横截面数据与简单的横截面数据的差别在于因为其在不同时间点的抽样可能导致 观测值不是同分布的。 这些对同一单元在不同时间点得到的数据可能会导致观测值之间存在 相关性; 更为重用的是, 在不同时间点的样本可能具有不同的分布, 例如一个国家的教育水 平或收入水平在不同的

3、年份会有变化, 公司在不同时期的收益水平可能是不同的。 在分析中 可能需要考虑时间趋势的变量,可以引入不同时间点的变量来考察是否存在改变等。面板数据是联合横截面数据中的一种特殊情形。 此时, 不仅是某些单元有重复, 而是所 有单元都有相同的时间点重复, 可以看作是在横截面和时间序列两个维度上都有数据, 所有 的样本数据构成了时间和空间两个方向上的一个矩阵。 为了得到面板数据, 需要在任何一个 抽样的时间点都对相同的一组单元(个人,家庭,公司,城市进行采样。例如,对个人收 入, 教育年限, 其他特征等的一个抽样是在开始的时间点随机选取一组人群, 在随后的每一 次再调查时, 都要对这一组人群的每一

4、个进行调查, 得到这一组人群多年的相关数据。 对面 板数据来说, 假设样本观测值在不同时间点是独立同分布显然不现实。 一些不可观测的因素 可能会对某些单元有固定的影响。例如一个公司的 CEO 可能会因为与公司的特殊关系和其 他原因而在每一年都有相对比较高的收入; 一些地区可能会因为社会文化和环境而具有特定 的影响一个地区的经济发展指标, 或其他产出率等。 这种在各时间点都存在的对一个单元的 共同因素的影响效果称为固定效应。 在后面关于面板数据分析的方法中就是要克服这类对个 体单元的共同影响因素带来的模型估计偏差。6. 2 联合横截面数据的回归分析6. 2. 1 联合横截面数据联合横截面数据可以

5、很快地增大样本量, 使得估计的结果更准确, 检验的功效更高。 采 用联合横截面回归分析基本没有增加计量技术的复杂程度。 在同时涉及到横截面和时间序列 的数据中, 有的单元数据并没有在所有时间点都有。 例如, 由于人口的迁移而使收入调查的 部分样本缺少一些时间点; 在公司的数据方面也同样由新公司上市或经营不善公司退出市场 等原因而不能使每个单元都具有所有的时间点的数据。 在对两个或两个以上时间点的样本选 择时, 如果也是具有随机选取的特征, 可以直接使用横截面的分析方法。 例如前后两年的调查数据都是独立进行的, 这类数据虽然由于存在同一单元多个时间点数据而可能不满足独立 选取样本的条件或使样本具

6、有一定的时间特性, 但通过联合横截面的方式, 可以进行通常的 回归分析。 如果不同时期之间的影响不存在, 直接把联合横截面数据看成横截面数据进行回 归分析即可。 如果在两个或多个时间点的数据之间可能存在水平的漂移 (例如在两个不同年 份收入的调查 ,可以通过加入时间虚拟变量来控制这一影响而得到合理的回归分析结果。 有时, 时间虚拟变量的系数就是研究者所关注的问题, 通过这一系数可以反应在不同时间点 的差异。还可以通过年份虚拟变量与某些变量的乘积项来考察该变量在不同年份的影响。 例如教 育水平在不同年份带来的收益可能是不同的, 性别在不同时代的教育收益差别可能也是不同 的。为此我们可以通过加入年

7、份虚拟变量与教育和性别的乘积的模型来考查:+=femal y female union er er educ y educ y wage 85exp exp 8585 log(5542321100 模型中 1978年的截距项是 0, 1985年的截距项是 00+; 1978年的教育收益是 1, 1985年的教育收益是 11+, 1刻画了通过 7年以后, 每年的教育收益的改变量;在 1978年男女之间的收入增产差异是 5,到 1985年时,男女之间的收入增产差异是 55+。我 们可以检验在这 7年间男女的收入差异没有变化的零假设为 0:50=H ,备择假设为0:51>H ;为分析直观起见,

8、 模型中假设了在两个时期工作经验和是否工会组织成员对收 入的影响相同。 在进行模型估计之前还要考虑两个时期收入的通货膨胀率影响, 要使用相应 的物价指数对两个时期的收入进行调整。代入相关数据得到估计模型为:er educ y educ y wage exp 0296. 0850185. 00747. 085118. 0459. 0 log(+= (0.093 (0.124 (0.0067 (0.0094 (0.0036er y female union er exp 85085. 0317. 00202. 0exp 0004. 02+-+-(0.00008 (0.030 (0.037 (0.0

9、51n=1084, 426. 02=R , 422. 0. 2=R Adj 。1978年的教育收益是 7.5%, 1985年的教育收益是 9.35%, 比 1978年高了 1.85%; 两个 时期差异的 t 统计量是 1.85/0.94=1.97, 两个时期的教育收益差异在 5%的双边检验是显著的。 1978年女性比男性的收入要低 31.7%,到 1985年降低到 23.2%,两个时期的性别差异降低 了 8.5%,两个时期差异的 t 统计量是 8.5/5.1=1.67,在 5%的单边检验是显著的。如果对模型中的每一个系数都使用与年虚拟变量的乘积, 就相当于分别对两年的数据进 行回归。 当不同时

10、间点之间数据的差异不仅是水平的漂移, 还可能有方差的不同时, 就需要 使用更复杂的方法,后面会对此进行专门的讨论。6. 2. 2结构改变的 Chow 检验联合横截面数据是否可以直接进行回归, 在不同的时段上横截面是否一致或可以看成是 一致的,可以通过一个 F 检验来考察。假定只有两个时期的数据,限制模型可以直接通过 对所有样本进行联合横截面回归而得到残差平方和 SSR ; 完全模型是分别对两个时期的数据 进行横截面回归而分别得到残差平方和 SSR1和 SSR2,二者之和即为总的无限制模型残差 平方和。 在两个时期的时候, 也可以通过对其中一年的样本在每一变量都使用年虚拟变量乘 积项, 对年虚拟

11、变量和交叉乘积项进行联合显著性检验也可以给出所要的结果。 这一检验方法还可以只对其中的一部分变量 (怀疑具有差异可能性比较大 使用交叉项, 可以提高检验 的功效。面对多时期的数据时, 同样可以考虑具有不同的截距项, 也可以考虑其中的一些变量具 有不同的斜率项系数。 要想回答这一问题, 可以通过使用虚拟变量的乘积项来考察斜率系数 是否在不同时期发生了改变。 回归的模型中, 除了基准年外, 其他的年变量都要与其中的一 个变量, 几个变量或全部变量进行乘积而加入到模型中。 对加入模型中的乘积项检验它们的 联合显著性就可以回答所要的结论。 当样本中包含很多时期的数据时, 这一方法就会显得比 较繁琐。假

12、定有 T 个时期的数据,此时的限制模型可以直接通过对所有样本进行联合横截面回 归,允许各年的数据具有不同的截距项,得到残差平方和为 SSR ;完全模型是分别对 T 个 时期的数据进行横截面回归而分别得到 T 个模型的残差平方和为 T SSR SSR SSR , , , 21 。这 T 个残差平方之和即为总的无限制模型残差平方和 T u SSR SSR SSR SSR += 21。假定 模型中考虑了 k 个解释变量,则在检验中加入的约束条件为 k T 1(- 个,在无限制模型中 需要估计的参数是 1(+k T 个。假定每个时期的样本量分别为:T n n n , , , 21 ,总的样本量 为 T

13、 n n n n += 21,检验统计量为:SSRSSR SSR k T k T n F u -+-= 1( 1( (6.1 则有检验统计量 F 服从自由度分别为 k T 1(-和 1(+-k T n 的 F 分布。这一 F 检验只能对模型系数在不同时期之间是否存在差异进行检验。当不同时期之间 存在异方差时,检验结果不稳健,具有比较低的功效。6. 2. 3 联合横截面数据的策略分析联合横截面数据可以用来分析事件或策略的影响。 可以通过一个事件发生前后收集的数 据来反映事件的影响。 例如要分析一个公益设施、 一条轨道交通、 一个垃圾处理站的建立对 周边地区房价的影响。 考虑一个垃圾处理站的建立,

14、 可以通过这一设施建立前后两年附近地 区及其他地区的数据来给出。假定调查到的数据是 1999年和 2002年,房价用 rprice 表示, 使用简单回归模型,一个小区是否接近这一垃圾处理站使用虚拟变量 nearl ,只使用 2002年 的数据得到简单回归模型为:2002年:nearl rprice 069. 3131. 10-= 1999年:nearl rprice 882. 1252. 8-= (0.3093 (0.5828 (0.2654 (0.5828n=142, 165. 02=R n=179, 082. 02=R 。模型中的截距项表示不在垃圾处理站附件房子的平均价格, nearl 的

15、系数是垃圾处理站 附近与其他地区平均房价的差异,这一估计系数的 t 统计量超过了 5,是非常显著的,似乎 有很强的证据拒绝两个地区的房价有差异。假若我们只使用 1999年的数据进行同样的回归 模型, 得到简单回归模型, 结果显示在垃圾处理站建立之前两个地区的房价差异也是非常显 著的。 按照常识,人们也会认为垃圾处理站会建立在比较偏僻,或房价比较低的地区, 在未 建立处理站前, 这一地区的房价也是低的。 而我们在此需要回答的是建立垃圾处理站是否影 响了这一地区的房价。在两个时期,两个地区房价的差异是:-3.069-(-1.882=-1.187。为了 得到这一差异是否显著,还需要得到它的标准差,为

16、此可以通过回归模型来实现,模型为:+=nearl y nearl y rprice 02021100。使用两个时期的数据代入模型进行估计可以得到所感兴趣的乘积项系数 1是否显著需要的标准差,估计的结果列于表 6. 1中, 表中的第一列表示只使用虚拟变量的模型, 第二列的模型控制了房子的年限, 第三列进一步 控制了影响房价的其他变量,包括:与中心城区的距离,站地面积,建筑面积,居室数,卫 生间数等。表 6. 1 房价影响模型 没有控制任何变量的模型 1, 乘积项系数 1的基本不具有显著性, 控制了房屋年限后的 t 统计量为 3.45;控制更多变量后,乘积项系数 1的显著性基本没有改变, t 统计

17、量为 2.84, 但估计的标准差更小。如果房价采用对数形式,可以得到可以给出模型 4和模型 5,在没有控制任何变量的时 候,乘积项系数 1的不显著;当控制了更多的因素后,乘积项系数 1为 -0.132, t 统计量为2.53,具有显著差异。这一方法可以对发生事件或政策、 策略的实施的影响进行分析, 这类影响事件也被称为 自然试验,就是某个外部事件的发生改变了个人、家庭、公司或城市、地区等单元的环境。 一个自然试验需要有两个样本组:一个是分析组, 即受事件影响的那些样本; 一个是控制组, 是不受事件影响的那些样本。 对两个组的选择有些随意性, 但分类要清晰。 为了克服事件前 后两个样本组之间存在

18、的系统性差异, 需要各组有事件发生前后两个时期的数据。 记分析组 为 A ,控制组为 B , A 为虚拟变量,当样本属于分析组时取 1,其他为 0; D2为虚拟变量, 当样本属于第二个时期取值为 1,其他为 0。回归模型可以表示为:+=rs otherfacto A D A D y 221100 (6.2y 是研究者感性的变量,如价格,收入等。在没有控制其他变量的简单模型中,乘积项 系数 1表示的是组间差异的差异: ( (, 1, 1, 2, 21B A B A -=, y 在事件后两个组平均 值的差与事件前两个组平均值的差之差。加入了其他控制变量之后, 1不再是直接的差异, 而是控制了其他因

19、素之后的系统性差异。控制组可以是不同地区的公司或不同地区的居民,例如,出口退税政策对公司的影响, 分析组是出口型企业, 控制组可以是该地区的其他企业, 也可以是同行业的其他企业, 甚至 是全国所有的企业等。6. 3 面板数据回归模型6. 3. 1 面板数据的模型特点当拥有两个或几个时期的数据时, 如果通过 (5.1的检验不能拒绝零假设, 可以直接使用 联合横截面的回归分析方法。 如果检验拒绝了零假设, 则面板数据需要通过加入虚拟变量的 方法而使用联合横截面的回归方法来给出所需要的结果。用 i 表示横截面的单元, t 表示样 本来自不同的时期,带年份虚拟变量的回归模型可以表示为:it i kit

20、 k it t T t it x x dT d y += 11212 (6.3 其中 it y 表示样本是取自第 i 个单元(个人、公司,城市,省份等第 t 个时期的数据。 t t dT d , , 2 表示时期的虚拟变量,一共有 T-1个,第一个时期作为基准;在第 t 时期选取的 样本,虚拟变量 t dt 取值为 1,其他虚拟变量取值为 0。基准时期的截距项系数为 1,假定 第 1时期为基准时期, 则第 t 时期的截距项系数为 t +1。 这一模型允许在不同时期具有不 同的截距项。模型中的 i 是面板数据中的一个重要特点,它使得模型可以允许不同的样本 单元在任何一时期都存在着模型没有考虑的,

21、 或者说是研究中没有办法观测到的, 其他的因 素对样本中的一个单元存在着在所有时期都具有的固定的影响, 称为不可观测因素或者称为 是固定效应。 例如在对收入的研究中, 固定效应表示的是调查对象具有的一些特殊的天赋或 技能, 使其在教育水平等特征与他人相同时, 也在任何时期能获得更高的或更低的收入。 在 CEO 年薪的例子中就表示有些公司由于自身环境或 CEO 与公司的特殊关系等因素倾向于向 CEO 支付更高或更低的薪水。模型的干扰项 it 中所包含的也是不可观测的因素,但这一项 中所包含的不可观测因素是随时期会有变化,个体也存在差异。而 i 中所包含的是在所有 时期不会变化的部分。这一干扰项中

22、所包含的实际上是类似于时间序列模型中的干扰项。怎么才能得到模型系数的无偏估计呢,是否可以使用联合横截面的 OLS 估计来给出估 计?这样做存在两个问题:要想得到模型系数的一致估计,首先需要假设固定效应 i 与解 释变量 itk it it x x x , , 21不相关, 否则就违背类回归模型的假设 3。 其次是要求不同单元的截距 项是相同的。如果直接使用联合横截面回归,相当于把干扰项假设为 it i it +=,这一干 扰 项 称 为 复 合 干 扰 项 。 如 果 假 定 模 型 中 原 来 的 干 扰 项 it 之 间 是 彼 此 无 关 的 , 即 0 , (=js it Cov ,

23、s t , j i 。对于同一单元得到的复合干扰项则有:( , (i is it Var Cov = (6.4由 此 可 见 , 这 一 模 型 中 , 同 一 单 元 的 干 扰 项 在 时 间 方 向 是 序 列 相 关 的 , 除 非 0 (=i Var , 即不同单元的截距相同。 即使假设了干扰项 it 与解释变量无关, 如果不同样 本单元的截距不同, 则联合横截面给出的估计是有偏的和不一致的。 但这一异质的偏差只是 由于模型中缺少了一个在每一单元的不同时期都是常数的变量。 这一在每个时期不变的影响 因素很容易通过模型变换而排除其影响。6. 3. 2 面板数据分析的差分模型对在不同单元

24、存在不同截距项的问题进行处理时, 最直接的想法就是通过变换而消除这 一常数。 一种做法是把同一单元的数据在不同时期之间进行差分而消除截距项。 例如, 对只 有两个时期的模型:166it i itk k it it x x d y += 11110, t=1,2, n i , , 2, 1 = (6.5 把两个时期的方程对应同一单元相减得到:121211211112 ( (i i k i k i k i i i i x x x x y y -+-+-+=-或 i ki k i i x x y += 111, n i , , 2, 1 = (6.6这是对原来的自变量和因变量都进行差分而得到的模型,

25、 称为差分模型。 差分模型给出 的系数与原模型中的系数相同。 然而, 由于差分模型符合回归模型要求的假设条件, 因此给 出的估计具有所需要的性质。这一差分模型还同时排除了假设解释变量 itk it it x x x , , 21与因 变量的后滞项 1-it y 有关的问题。在差分模型中需要注意的一个重要方面是,解释变量 itk it it x x x , , 21在不同的时期要有变化。例如教育年限可能对很多人就是多年不变,或者是 每个单元都有相同的改变, 例如工作年限等。 使用差分模型可以避免很多问题, 还能比较直 观地给出结果而不受样本单元异质性的影响; 但使用这一方法也有其局限性。 首先是

26、面板数 据的收集比较困难, 特别是对个人, 会因为家庭的搬迁, 公司的破产收购等影响, 导致有些 单元缺失。 在研究中如果简单的把这些没有收集到的单元剔除, 可能会带来选样偏差的问题。 即使数据已经收集好, 使用差分模型也有自己的不足。 差分很可能会使自变量的变化幅度大 幅减小,特别是使用逐年的数据进行差分时,这将会大大降低检验统计量的功效。当涉及的时期比较多时, 使用虚拟变量将会变得比较繁琐, 不能再使用每个时期的单独 模型来进行比较,需要使用年份虚拟变量的模型:it i itk k it t T t it x x dT d y += 11212 (6.7假定解释变量是外生的,也即干扰项与解

27、释变量无关:0 , (=it itj x Cov , k j , , 1 =。 此时,如果各单元的不可观测效应 i 与解释变量 itj x 相关,则解释变量 itj x 将会与复合 干扰项 it i it +=相关; 直接使用 OLS 方法将不能给出无偏估计。 为此需要去除不可观测 效应项 i 包含在干扰项中而产生的干扰项与自变量相关。类似前面的两时期,可以对每一 个时期建立一个回归模型,再进行相减。采用对相邻的两个时期的模型对应相减得到:1111111112 ( ( ( 22(-+-+-+-+-=it it it itk k it it t t T t t it x x x x dT dT

28、d d y 或 it itk k it t T t it x x dT d y += 1122, T t , 2= (6.8 包含年虚拟变量的模型可以排除在不同时期之间存在规模效应的问题。 例如公司在不同 年份可能有不同的规模水平。差分后的样本量为 n(T-1,可以使用最小二乘估计方法给出上 述模型的估计,进行 t 检验和 F 检验等。这一模型的估计需要假设 0 , (1=-it it Cov ,但 这 一 假 设 不 一 定 会 成 立 。 如 果 原 来 的 模 型 中 的 假 设 是 对 的 , 即 0 , (1=-it it Cov , 2 (=it Var ;则有:, ( , (21

29、11-=it it it it it it Cov Cov , ( , ( , (211121-+-=it it it it it it it Cov Cov Cov 2110 , (0-=+-=-it it Var .其自相关系数为:(* (/ , ( , (2112111-=it it it it it it it it it it Var Cov 1675. 022/222-=-= (6.9如果原来模型中的干扰项 it 是一平稳的 AR (1序列, it it it +=-1,也有:, ( , ( , ( , ( , (2111211-+-=it it it it it it it it

30、 it it Cov Cov Cov Cov Cov 212121212122222-=+-= 122211/ ( , (-=it it (6.10只有当 it 是一随机游动序列,即 1=时,才有 0 , (1=-it it Cov 。为此需要检验差 分序列 it 的自相关性。 通过联合横截面回归得到模型 (4.7的残差序列 it it =, 再用 it 对1-it 进行回归 it it it e +=-1(n i T t , , 1, , 3 =,得到模型的估计系数为 ,通过 t 检 验可以检验零假设 0:0=H 。如果检验的结果是拒绝零假设,需要采用可行的广义最小二 乘方法 (FGLS 来

31、纠正干扰项存在自相关的影响。 如果检验没有拒绝, 则可以直接使用 OLS 来给出结果, 并进行相关的检验。 为避免异方差的影响, 也可以使用异方差稳健的方法给出 估计的标准差。例:使用 1981-1987年的数据来给出北卡罗拉州各县的犯罪率。log(398. 087041. 086028. 085005. 084048. 083100. 0008. 0 log(polpc d d d d d crmr it +-= (0.017 (0.024 (0.024 (0.023 (0.024 (0.024 (0.0270.014 0.022 0.020 0.025 0.021 0.024 0.101

32、log(327. 0 log(022. 0 log(165. 0 log(238. 0prbarr avgsem prbpris prbconv -(0.018 (0.026 (0.022 (0.0300.039 0.045 0.025 0.056422. 0, 433. 0, 54022=R npolpc 表示人均警察数量, prbconv 表示被捕后被定罪的概率, prbpris 表示可能在监狱 里服刑的年限, avgsen 表示平均的判决服刑期限, prbarr 表示被捕的概率。被定罪的概率,可能在监狱里服刑的年限,被捕的概率都是显著为负的,说明提高抓 捕和定罪的概率, 提高服刑的年限能

33、显著的抑制一个地区的犯罪率。 人均警察的数量与预期 相反,一个地区的人均警察越多,反而犯罪率越高(这是犯罪率研究中的一个普遍现象 。 这一现象可能是受内生因果关系的影响, 一个地区预计犯罪率升高, 可能就要增加警察人数。 例如, 在年底的时候, 北京预期很多准备回家过年的犯罪分子都想最后捞一把, 需要加大警 力来防范, 但即使如此, 年底附近的发案率仍然是要上升。还有一个重要原因是, 犯罪率是 实际报告的犯罪率, 一个地区警察越多, 报告和抓捕的犯罪可能更多。 例如一个地区黑社会 成员比较多, 当警察人数又比较少, 抓捕不力时, 报案也没有多少作用, 大多数人只有忍耐, 交保护费。虽然犯罪分子

34、很多,但报告的犯罪率并不高。6. 3. 3 面板数据分析的固定效应模型除了使用差分方法外,还有一种更为流行的方法可以给出面板数据模型的估计,称为 固定效应模型。 下面讨论固定效应模型的处理方法, 首先从没有年虚拟变量的基本模型出发:it i itk k it it x x y += 110, T t , , 1 =, n i , , 1 = (6.11对每一个单元,把所有关于该单元的方程进行平均得:i i ik k i i += 110, n i , , 1 = (6.12168 其中 =T t it i y 11, k j x T t itj ij , , 1, 11 =, =Tt it i

35、 1。 用平均后的模型减原来的模型得:i it ik itk k i it i it x x y -+-+-=- ( (111或者表示为:ititk k it it x x y 11+= , T t , , 1 =, n i , , 1 = (6.13 其中 i it it y y -=称为去除时间均值的数据,自变量和干扰项也进行了相同的变换,这 一变换称为固定效应转换。这一变换消除了模型中每个单元的固定效应,可以通过 OLS 对 模型进行估计,得到的估计通常被称为固定效应估计。在假设干扰项 it 与解释变量不相关,在不同时期之间是互不相关的条件下,得到的估 计是无偏的。固定效应模型允许 i

36、与解释变量之间在任何时期存在关系,假定一个解释变 量在所有的时期是一个常数, 则通过固定效应变换将会使变量的取值都为零。 例如在家庭收 入问题研究时,包含了人口数量等。使用 OLS 估计固定效应模型需要的另一个假设是干扰 项是同方差的,且在不同时期是序列不相关的。使用固定效应模型需要注意自由度的变化, 模型中没有截距项。 虽然进入模型的样本仍然是 NT 个, 但由于使用去除时间平均的时候每 个单元用去了一个,因此模型的自由度为 N(T-1-k-1个。如果不是使用专门的软件包, 需要 在标准差和检验统计量的计算中纠正这一影响。还要注意,固定效应模型给出的 R 方不再代表各因素的解释能力,因为模型

37、的自变量 是变换后的。 尽管各时期为常数的变量不能直接包含在固定效应模型中, 但它们可以通过与 其他变量的乘积项而进入模型。 例如在研究教育回报的例子中, 可以把教育年限与年虚拟变 量相乘, 而考察教育回报在不同年份是否存在差异。 当在模型中包含了所有的年虚拟变量之 后, 就不能在模型中出现在各年都有相同改变的变量。 例如一个人的工作年限, 因为每一个 人的工作年限都是每年增加 1。6. 3. 4 虚拟变量回归模型在有些研究中,还需要回答各单元的固定效应,需要给出固定效应 i 的估计。当样本 单元的数量不大时, 可以对每一个单元设一个虚拟变量, 同时再加入其他的解释变量。 这样 的模型被称为虚

38、拟变量回归模型。 但也会带来模型参数比较多的问题, 因此在实际中直接使 用虚拟变量回归模型进行面板数据分析的情况不多。 但虚拟变量回归模型具有其独有的一些 性质, 它同样可以给出使用剔除时间均值的固定效应模型估计相同的结果, 相应的标准差和 检验统计量; 在虚拟变量回归模型中没有了模型自由度的问题; 虚拟变量回归模型给出的 R 方通常比较高。在虚拟变量模型中给出的 R 方可以直接用来计算 F 统计量;可以直接使用 虚拟变量模型来检验所有的横截面虚拟变量是否联合显著。限制模型为加入所有的虚拟变 量, 而无限制模型为不加入横截面单元的虚拟变量。 当然虚拟变量模型最为重要的特点是它直接给出了每一个单

39、元的固定效应的估计 i 。 不使用虚拟变量模型,也能通过固定效应模型给出各单元固定效应的估计。在固定效 应模型给出的结果中, 通过平均水平的模型可以得到关于某些单元是否有显著为正或负的固定效应。假定得到了固定效应模型的估计系数 k, , 1 ,则各单元固定效应的估计为: ikk i i i 11-= (4.141696. 3. 5 固定效应和差分模型的选择在实际中我们如何知道什么时候该选择固定效应模型,什么时候选择差分模型?一个 是在原来的模型中去除了时间均值, 一个模型是使用相邻时期数据的差分而得到。 当只有两 个时期的时候,固定效应模型和差分模型实际上是一样的,使用差分模型更简便。当时期超

40、过 3(3T 时,他们给出的结果不再相同。如果假设的条件得到满足,它们 给出的都是无偏估计,因此也不能以是否无偏来选择模型。当 N 比较大,而 T 相对比较小 时,选择模型的标准就要考虑它们的相对有效性。模型估计的相对有效性由残差序列 it 的自相关性决定。当干扰项序列 it 是序列不相关时,固定效应模型比差分模型更有效。 因为通常认为不观测因素的影响与干扰项是不相关的。 因此, 实际中固定效应模型比差分模 型更常用。如果预计不可观测因素的影响会随着时间而变化,则干扰项序列彼此不相关的假设就 有问题。如果干扰项服从的是随机游动,即干扰项序列具有比较高的正相关,其差分序列 it 就彼此不相关。此

41、时差分模型要优于固定效应模型。在现实中最常见的是干扰项序列 it 存在一定程度的正相关,但并不是随机游动,此 时要比较固定效应模型和差分模型谁更有效就比较困难了。 对固定效应模型, 还不能直接检验模型残差序列的自相关性,因为模型中得到的残差序列是去除时间均值的 it,而不是 it 。只能使用前面差分模型残差的检验方法,对差分模型的残差序列 it 进行检验, 如果该序列是不相关的, 则使用差分模型更有效, 如果该序列存在比较显著的负相关, 可能 使用固定效应模型更合适。 一种可能的策略是两种模型的结果都给出。 如果结果对模型的选 择不敏感,则选用什么模型都不会影响结果。当 T 很大,而横截面的单

42、元数量不大时,使用固定效应的模型的结果值得注意。当假 设的条件稍微有所偏离时, 结果会变得非常敏感。 当使用的数据沿时间方向是单位根过程时, 还可能出现伪回归的问题。 如果使用差分模型就能把单位过程变换为平稳序列。 当固定效应 模型和差分模型给出的结果差异比较大时, 很难对模型进行选择。 在此情形, 最好是能找到 差异的原因。6. 3. 6 对不完整面板数据的处理当面板数据是来源于个人,家庭或公司时,很容易出现因为某种原因而使一些单元缺 少个别时期的数据, 这类数据称为不完整面板数据。 不完整面板数据可以通过一定的修改而 使用前面提到的固定效应模型。假定单元 i 有 i T 个时期的数据,我们

43、只使用这 i T 个时期的数 据来取均值。 总的样本观测值为 N T T T + 21个。 类似于完全面板数据, 通过去除时间平 均, 每个单元减少了一个自由度。 使用处理后的数据代入相应的模型可以给出不完整面板数 据的估计。 当每个单元的数据都不少于两个时, 对不完全面板数据也可以使用差分模型。 当 数据单元只有一个时期的数据时, 使用固定效应模型将会去除这一样本。 需要特别注意的是 数据缺失的原因。 如果是随机的因素导致的缺失, 模型给出的结果仍然是无偏的; 如果数据 的缺失与不可观测因素有关, 则模型给出的估计可能是有偏的。 例如, 一些公司的数据缺失 可能是因为经营不善而导致破产或被收

44、购。 在分析公司的业绩表现时, 就可能出现选样的偏 离; 因为这些公司的经营业绩肯定属于比较差的。 在标准普尔的 Compustat 数据集中就剔除 了已经退市公司的数据, 因此使用这一数据集给出的研究结果常会有随后的文献对这一问题 进行质疑。170 6. 4 随机效应模型继续考虑带有不可观测因素的模型:it i kit k it t T t it x x dT d y += 11212 (6.15假定所有单元的不可观测效应 i 均值为零。在固定效应或差分模型中需要消去这一不 可观测效应 i 是因为它们与解释变量存在相关性。现在假定这一不可观测效应在任何的时 期都与解释变量不相关, 则使用变换

45、来消除这一项会使模型给出的估计不再是有效估计。 假 定不可观测效应 i 与解释变量间不存在相关性:k j T t x Cov i itj , , 1, , 2, 1, 0 , ( = (6.16满足这一假设条件加上固定效应模型其他假设的模型称为随机效应模型。如果认为不 可观测效应可能与任一解释变量相关, 则最好使用固定效应模型。 如果随机效应模型的假设成立,则使用一个时期的横截面数据就可以给出模型系数 j的一致估计,根本不需要面板 数据。 只是使用这样的方法忽略了大量的其他时期的数据中所包含的信息。 使用联合横截面 回归方法, 在模型中可以包含各时期的虚拟变量, 可以给出随机效应假设下模型参数

46、的一致 估计。 但这样做忽略了随机效应模型的一个重要特征干扰项之间是相关的。 此时我们同样 可以定义模型的复合干扰项为:it i it +=,则联合横截面模型为:it itk k it t T t it x x dT d y += 11212 (6.17因为 i 在每一个时期都在复合干扰项里, 因此模型的干扰项序列 it i it +=在各时期 之间是彼此相关的。在随机效应的假设下有:s t Cov is it +=, /( , (222, (2i Var =, (2it Var = (6.18因此,干扰项序列之间存在比较严重的正相关。因为使用通常 OLS 估计的联合横截面 模型忽略了干扰项序

47、列之间的相关性,给出的结果是不正确的。此时,需要使用广义 OLS 方法来给出具有干扰项序列自相关模型的估计。使用 GLS 方法来纠正干扰项序列自相关的 影响。定义调整系数:2/1222/(1T +-= (6.19则使用均值模型乘以调整系数再减回原来的模型得到:111121 ( ( /1( /21( 1(-+-+-+-+-+-=-it ik kit k i it t T t i it x x T dT T d y (6.20 因为 是一个介于 0和 1之间的数,因此这是一个去除部分均值的变换模型。去除的 比例依赖于方差 2, 2和时期数量 T 。随机效应模型的 GLS 估计实际上就是对上述变换后

48、的模型进行联合横截面的 OLS 估计。这一变换后的模型比固定效应和差分模型的优点是 它可以包含在各时期有相同变化率的变量。在实际中 是一个未知量,需要使用估计量来代入。对 有几种可选的估计方法,例 如,基于联合横截面的 OLS ,或固定效应模型。使用联合横截面或固定效应模型的 OLS ,得到了估计 i 和残差 it ,方差的估计分别为 : =n i i i a Var 1212 (, =Tt it it Var 1212 ( (6.21 由此而得 2/1222/(1T +-=。也可以从上面的联合横截面 (4.15的 OLS 估计北京大学光华管理学院 金融计量经济学讲义 的残差序列而得到固定效应

49、方差的估计: 2 2 n ,s a e2 = s n2 - s a s = nT (T -11 n / 2 - k +1 åi =1 åt =1 ås = t +1 it is n T -1 T (6.22 估计的选择。使用估计的参数 l 来得到随机 有不少的统计软件提供了自动计算参数 l 效应模型可行 GLS 的估计。在随机效应模型的假设下,固定 T 时,随着 N 增大,可行 GLS 得到的估计是无偏的且渐进于正态分布。在 N 很小而 T 又很大的时候,随机效应模型可行 GLS 的估计性质就不太好了。 从随机效应模型的表达式(6.20很容易发现,固定效应模型,联

50、合横截面模型和随机效 应模型之间的关系。当 l = 0 时,随机效应模型就变为了联合横截面模型;当 l = 1 时,随 机效应模型等价于固定效应模型。 虽然在实际中使用随机效应模型是很难得到参数的估计为 0 或者 1,但当 l 比较接近于 0 时,随机效应模型给出的结果将与联合横截面模型给出的结 a 相对于干扰项方差 s e 果类似; 此时表明单元的不可观测效应的影响可以忽略 (它的方差 s 2 2 2 2 来说很小) 。而当估计的 l 比较接近于 1 时,随机效应模型和固定效应模型给出的结果也不 a 相对于干扰项方差 s e 来说很大;特别是当 T 会有太大差异。此时单元不可观测效应方差 s

51、 趋向于 1,也将会使固定效应模型和随机效应模型的差异缩小。 比较大的时候,显然有 l 为了更进一步看出随机效应和固定效应模型的关系,我们可以把(6.20中的干扰项进行 分解得到: n it - ln1 = (1 - l ai + e it - le i (6.23 从干扰项中可以看到,在随机效应模型中给予不可观测效应的权重是 (1 - l 。在随机 效应模型中由于不可观测效应与解释变量的相关性而导致随机效应模型不一致的程度为 趋向于 1 时,偏差项趋向于 0。当 l 趋向于 0 时,随机效应模型中保留了比 (1 - l ,当 l 较大的不可观测效应在误差项里,因而,当这一部分与解释变量有相关

52、性时,将使随机效应 模型的估计渐进有偏。 下面使用教育收益的例子来考查联合横截面,固定效应和随机效应三种模型的估计差 异。估计的结果见表 62。 表 62 三种面板数据分析模型的结果对比 解释变量 教育年限 黑色人种 -0.139 联合横截面 0.091 (0.005 (0.024 0.092 -0.139 随机效应 (0.011 (0.048 固定效应 Hispan 工作年限 工作年限 2 婚姻状况 union 0.016 0.067 -0.0024 0.108 0.182 (0.021 (0.014 (0.0008 (0.016 (0.017 0.022 0.106 -0.0047 0.0

53、64 0.106 (0.043 (0.015 (0.0007 (0.017 (0.018 -0.0052 0.047 0.080 (0.0007 (0.018 (0.019 教育年限,种族,hispan 在联合横截面和随机效应模型中给出的系数都比较接近,但联 合横截面给出的标准差估计因为忽略了干扰项序列的自相关, 低估了实际的标准差。 对工作 年限系数的估计有比较大的差距,婚姻状况和 union 在随机效应模型中系数都大幅降低。在 固定效应模型中,婚姻状况的系数进一步降低。一种解释认为,婚姻状况的系数可能是能力 比较强的人有更高的不可观测效应, 能力强的人更可能结婚。 在联合横截面中已婚的人回

54、报 更高。婚姻状况的回报是因为已婚的人工作更努力,结婚还是一个人稳定工作的信号。在这 的估计值是 0.643,因此,随机效应模型给出的结果更接近固定效应模型, 一模型中,参数 l 而与联合横截面模型的差异更大。 171 北京大学光华管理学院 金融计量经济学讲义 65 随机效应模型和固定效应模型的选择 在实证研究中,人们通常会以不可观测效应是作为一个需要估计的参数还是一个随机 变量来决定使用固定效应模型还是随机效应模型。 当我们选取的样本是来自一个比较大的群 体。例如,一个省市时,通常会认为不可观测效应是一个需要估计的参数,因此多采用固定 效应模型。事实上,使用固定效应模型意味着允许每个观测单元

55、有不同的截距项,通过包含 虚拟变量或通过固定效应模型的估计参数导出每个单元截距项的估计。 在我们确定采用随机 效应模型的时候, 我们需要注意不可观测的效应是否会与解释变量之间存在相关性。 人们有 时会误以为假定不可观测效应是随机变化的就应该使用随机效应模型。 但确定随机效应模型 是否合适不是依据不可观测效应是否随机, 而是这一效应是否与模型中的其他解释变量不相 关。如果与某些解释变量有关,则比较合适的模型是固定效应模型,此时如果使用了随机效 应模型就会造成估计结果缺乏一致性。 在假定干扰项与解释变量不相关的条件下, 比较固定 效应模型和随机效应模型实际上也是对不可观测效应与解释变量之间是否存在

56、相关性的一 个检验。有的软件包里甚至设置了随机效应是否合适的 Hausman 检验统计量。 总结: 本章介绍了联合横截面数据和面板数据的特点;讨论使用联合横截面数据的估计方法 和是否可以使用联合横截面数据的 Chow 检验。 讨论了面板数据中如何消除固定效应对估计 的影响的差分模型和固定效应模型, 及其控制固定效应的虚拟变量模型; 介绍了根据干扰项 序列相关性对差分模型和固定效应模型进行选择的方法。 最后给出了固定效应与解释变量不 相关时使用的随机效应模型, 随机效应调整系数的估计方法, 及对固定效应和随机效益模型 的选择标准。 练习题 6 1 假定我们要估计一些变量对每年存款额的影响,通过数

57、据收集得到了一些个人在 1992 年底和 1993 年底的面板数据。如果在模型中已经包含了 1993 年作为虚拟变量,并对所 有变量使用了差分,我们是否还能包含年龄在模型中,请解释理由。 2 假定多元回归模型:yit = b1 xit1 + L + bk xitk + ai + e it ,t = 1,2,LT 中的干扰项 e it 是序 列不相关的, 且具有相同的方差 s e 。 验证差分模型相邻两个时期的干扰项 De it 与 De it +1 2 之间的相关系数是-0.5。因此在固定效应模型的假设下,一阶差分模型的干扰项具有负 相关性。 3 目前有 20 家投资基金公司的数据,每家公司的旗下有数只基金,每只基金

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论