管理研究方法:逻辑、软件与案例 课件 第2章:计量经济学_第1页
管理研究方法:逻辑、软件与案例 课件 第2章:计量经济学_第2页
管理研究方法:逻辑、软件与案例 课件 第2章:计量经济学_第3页
管理研究方法:逻辑、软件与案例 课件 第2章:计量经济学_第4页
管理研究方法:逻辑、软件与案例 课件 第2章:计量经济学_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章:计量经济学Econometrics2.1多元线性回归分析2.1.1多元线性回归模型

例题1:CD生产函数

这是一个非线性函数,但取对数可以转变为一个对参数线性的模型注意:“线性”的含义是指方程对参数而言是线性的

例题2:新凯恩斯混合Phillips曲线根据经济学理论数理模型被表述为:对应的计量经济学模型为:计量模型有时来源于经济学理论,随机误差项包含一些次要的、没有出现在经济模型中的影响因素一般形式可以表述为如下的形式:均值方程线性回归方程与均值方程的联系

这部分是解释变量无法解释的随机噪声。并且被分解的这两部分是正交的,即这两部分没有信息的重叠。

多元线性回归方程将被解释变量分解成为两部分:

这部分是可以由解释变量来解释。

(2)(1)【偏效应】解释变量的估计参数表示对被解释变量均值的偏效应。表示其他被解释变量均保持不变时,变化一个单位,导致被解释变量均值变化个单位。为什么叫偏效应?这是因为它的含义恰好类似于高等数学中偏导数的含义。2.1.2多元线性回归模型的OLS估计一、回归系数的估计1.回归系数的OLS估计:一般形式

其样本回归函数为:是OLS估计量OLS的估计思想:(1)寻找参数估计量,使得样本回归函数与所有样本观测点的偏离最小,即残差平方和最小。

为什么不选择离差之和最小化或者离差绝对值之和最小化呢?

因为离差之和会使正负误差抵消,而离差绝对值不便于数学上做优化处理,所以选择了离差平方和最小化作为优化目标,这也就是为什么这种估计方法被称为最小二乘法的原因。(2)优化目标根据其一阶优化条件:得到计算回归系数估计量的正规方程组:

注意:只有回归方程中包含常数项,由OLS估计所得残差总和才一定为0。含义:OLS估计所的残差与解释变量不相关。即残差中不存在任何可解释的成份。回归模型的解释变量之间不能存在完全的多重共线性。

“完全的多重共线性”:是指一个解释变量是其他解释变量的线性组合。说明该解释变量所提供的信息与其他解释变量是完全重复的。当存在完全共线性时,模型的参数不可识别。即任何方法都无法得到参数估计值,包括OLS。存在不完全共线性时,可以得到参数估计值。OLS估计量是BLUE。但与没有多重共线性时相比,估计量的方差较大,估计精度下降。高斯——马尔可夫定理

如果多元线性回归方程满足经典假定条件,则回归系数的OLS估计量是线性的、无偏的,最优的(在所有无偏估计量中具有最小方差)估计量,即BLUE。

最关键的假定:解释变量是外生变量,它保证了OLS估计量的无偏性。

讨论:如果解释变量不满足外生性假定,例如,解释变量与误差项相关,那么误差项对被解释变量的影响由谁反映?

例子:基于某数据估计中国宏观生产函数Se:0.78800.09020.0220t值:-11.313677.353434.1171p值:0.00000.00000.0000P值非常小,这表明各个解释变量对被解释变量有显著的解释作用。

回忆:P值是检验结论犯第一类“弃真”错误的概率。P值非常小的含义是什么呢?二、随机误差项方差的估计的无偏估计量可以表述为:自由度为什么是N-(K+1)?多元回归模型的OLS估计中,我们基于正规方程组中的K+1个约束估计了K+1个回归系数,所以损失了K+1个自由度,独立的观测信息只剩下N-(K+1)个。三、判定系数的调整总平方和等于解释平方和加上残差平方和

TSS=ESS+RSS判定系数

后果:在回归模型中增加新的解释变量时,只可能增加,而决不会下降。缺陷:只反映拟合效果,不反映自由度损失。

调整思想:对进行自由度调整。2.1.3多元线性回归模型的假设检验一、参数假设检验的基本思想基于对误差项分布的假定,得到参数估计量的分布;对参数估计量进行标准化,使之服从某一标准分布,如我们熟悉的t分布,得到检验统计量;以原假设的参数值作为检验统计量中的参数真值。如果原假设为“真”,则检验统计量就服从相应的理论分布。反之,检验统计量就不服从该分布。基于所选择的显著性水平,将检验统计量的理论分布区间划分为小概率的“拒绝域”和大概率的“不拒绝域”。根据参数的估计值计算检验统计量的值。如果检验统计值出现在拒绝域,根据“小概率事件原理”,原假设很可能是“假”的,则拒绝原假设。反之,就没有充分的理由拒绝原假设。二、单参数的显著性检验

1.随机误差项方差的显著性检验如果随机误差项是经典误差项,且满足正态性假定,则:=

来源:标准化残差服从标准正态分布,统计量实际上是N-(K+1)个相互独立的标准化残差的平方和。而服从标准正态分布的多个独立统计量平方加总,所得到的新统计量就服从分布。2.单个回归系数的显著性检验如果随机误差项是经典误差项,并且满足正态性假定

用估计量的标准误替代标准差,统计量服从t分布。即:

注意:与一元回归的唯一区别是自由度。三、多参数的线性约束检验1:模型的总体显著性检验、…、若随机误差项满足中至少一个不为0。则在原假设成立情况下:有2:模型参数之间的线性约束检验:

例子:柯布-道格拉斯生产函数检验假设为:=1

这样的多参数单个线性约束,有两种检验方法.本例中:=5.9456。p值为0.0000

结论:拒绝规模报酬不变的原假设,而认为规模报酬是递增的(为什么?)。

(1)t检验(2)F检验:无约束回归方程将原假设中的约束条件带入回归方程,得到了所谓的“有约束回归方程”。将其RSS记为,自由度为N-3。将其RSS记为,自由度为N-2。基于和,在原假设成立的情况下,有如果原假设为真,我们会倾向于得到较小的F值。反之,我们会倾向于得到较大的F值。检验统计量判定:若F值大于临界值,或p值小于显著性水平,则拒绝原假设。中国生产函数的例子:=39.2330。=0.0279,=0.0700,

F检验统计值为:该F统计值的p值为0.0000,所以,我们可以拒绝中国经济规模报酬不变的原假设。3:参数的线性约束检验:F检验一般形式对于多元线性回归模型:参数的多个约束:待检验假设:原假设中至少有一个约束条件不成立。

基于和,在原假设成立的情况下,有如果原假设为真,我们会倾向于得到较小的F值。反之,我们会倾向于得到较大的F值。检验统计量判定:若F值大于临界值,或p值小于显著性水平,则拒绝原假设。4:结构稳定性检验:F检验的一个例子——邹检验例:中国宏观生产函数在1992年前后是否不同?1978~1992年:1993~2006年:无约束回归:参数可以不同受约束回归:参数不变1978~2006年:F检验统计量:在原假设为真时,其分布为

本例中,邹检验结果:P=0.0000。

结论:拒绝中国生产函数保持稳定的原假设。待检验假设::原假设中约束条件至少有一个不成立。半弹性,不变的条件下,每增加一个单位,平均增加0.01×个百分点。§2.1.4线性回归模型的扩展一、含有对数化变量的模型

对的弹性,不变的条件下,每增加一个百分点,平均增加个百分点。半弹性,不变的条件下,每增加一个单位

平均增加100×个百分点。二、多项式模型厂商平均成本与产量之间的U型关系产量平均成本

厂商平均成本曲线环境污染与人均收入的关系人均收入环境污染

环境库兹涅茨曲线环境库兹涅茨曲线的回归方程:

(1)回归系数不再反映解释变量对被解释变量的偏效应(2)多项式模型可以帮助估计经济关系发生转换的位置经济关系发生转换的位置是:即WG:排污量;PGDP:人均GDP三、变量的时间趋势考察一个经济体的生产函数时,受知识积累等多方面因素影响,其总产出可能会包含一个随时间变化的确定性成份对数变换的形式为通过引入时间变量作为解释变量以退化被解释变量时间趋势的同时,还同时退化了其他所有解释变量的时间趋势。2.2离散因变量

2.2.1logistic回归分析logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。1.多元线性回归方法要求Y的取值为连续性随机变量2.多元线性回归方程要求Y与X间关系为线性关系3.多元线性回归结果不能回答“发生与否”logistic回归方法补充多元线性回归的不足37

值得注意的是,因变量并不仅仅局限于“是”或“否”这样的二分变量。

比如,美国总统的选举问题。假定有三个政党——民主党、共和党和独立党派,因变量就是三分变量。此外,还可能存在五分变量或者多分因变量的问题。

在这种情况下,我们运用相应的模型来预测每种事件发生的概率,因此,含有定性变量作为因变量的模型通常被成为概率模型。38

因为通常情况下,我们考虑被解释变量为二元变量的模型,这种模型也因此被称为二元选择模型或者离散选择模型,如果为多元,则称之为多元选择模型。

离散选择模型起源于Fechner于1860年所进行的动物条件二元反射研究,1962年Warner首次将这一方法应用与经济研究领域。Mcfadden因为在离散选择模型领域里的突出贡献而获得了2000年的诺贝尔经济学奖。39例如,公共交通和私人交通的选择问题

对某种商品的购买决定问题离散选择模型在实际生活中的应用

大学生对职业的选择问题40一、基本概念

1.变量的取值

logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类);自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量;可有m个自变量X1,X2,…Xm

412.两值因变量的logistic回归模型方程一个自变量与Y关系的回归模型其中:记家庭拥有自有住房的条件概率为P(Yi=1|Xi),则不拥有自己住房的概率就是1-P(Yi=1|Xi):条件期望:那么:42例如,我们对一个是否拥有自有住房的案例进行回归,结果如下:回归拟合的很好,经济学意义也非常明确,收入Xi每增加1单位(1万元人民币),平均拥有住房的概率将增加10.56%:但问题是,当收入10万元,或者更少的情况下,平均拥有住房的概率为负值,而当收入为20万元,或者更多的情况下,平均拥有住房的概率大于1,因此,我们必须考虑相应的方法对这一问题进行处理。43对同样的问题,我们采用如下的模型形式:那么:从而:这样的事件发生比Li,不仅对Xi是线性的,对参数也是线性的,而且发生概率将永远落在0和1之间,Li就被称为logit,像*这样的模型也就被称为logit模型。参数的含义是什么?44现在定义:当X变化一个单位时:因此有:45二、logit模型的估计为了估计事件发生的概率之比Li,除了需要知道解释变量的数据之外,还得知道Li的数值。此时,该如何处理?依然以是否拥有自有住房为例进行说明,不同的收入水平下有很多个家庭N,在这一收入水平下有n个家庭拥有自己的住房,其余N-n个家庭没有自己的住房,那么我们就可以用事件发生的相对频率作为事件发生概率的估计值Pi,并利用这个估计值得到Li。事实上,当样本容量足够大的时候,这样的频率将是概率的良好估计。对模型*估计之后,如何计算指定收入水平下拥有住房的概率?1.一般情况下的估计46回归结果如下:这就意味着,当收入增加1万元时,根据该样本回归的结果认为,拥有自有住房的发生比将增加8.2%472.解释变量同样为定性变量的情况Xi=1时:Xi=0时:如果定义:那么就有:例:抽烟与否与患食道癌的概率Y(患食道癌)X(抽烟习惯)发生的频数1115520119310128400164其中,Y=0表示没有罹患食道癌,Y=1则表示患了食道癌;X=0表示没有抽烟习惯,X=1则表示有抽烟的习惯49回归的结果如下:表示什么含义?这意味着在其他条件都相同的情况下,抽烟人士患食道癌的可能性是不抽烟人士的3.7倍还要多。3.多个解释变量的情况在很多情况下,解释变量既有定性变量,又有连续变量,而且连续变量并非分组变量,很难计算出解释变量取不同值时事件发生的频率,在这种情况下,又该如何处理?例如:新的教学方法对大一新生成绩的影响如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA

学生在期初时的成绩PRES

是否使用新的教学方法(1,是;0,否)51建立如下logit模型:回归结果如下:52这意味着在其他条件都相同的情况下,或者说控制了其他影响学生期末成绩的情况下,接受新教学方法的学生得到A的可能性是没有接受新教学方法学生的6倍多。需要注意的是,在logit模型中,模型的拟合优度衡量的是正确预测次数的概率,这样的拟合优度对于回归而言是次要的,回归系数的期望符号以及他们在统计上的显著性才是首要的。此外,这种logit估计是针对大样本的,对于小样本并不适用。532.2.2probit回归分析probit模型也是一种广义的线性模型。服从正态分布。当因变量是名义变量时,Logit和Probit并没有本质的区别,一般情况下可以换用。区别在于采用的分布函数不同,Logit模型假设随机变量服从逻辑概率分布,而Probit模型则假设随机变量服从正态分布。这两种分布函数的区别在于逻辑概率分布函数的尾巴比正态分布粗一些。但当因变量是序次变量时,回归时只能用有序Probit模型。有序Probit可以看作是Probit的扩展54一、使用群组数据的Probit估计假定在是否拥有自有住房的回归中,第i个家庭对是否拥有住房的决定,依赖于一种不可观测的效用指数Ii,而后者又按照某种方式取决于解释变量,比如说取决于收入:而且指数Ii的值越大,家庭拥有住房的概率就越高。其中Xi表示第i个家庭的收入水平。Xi仍然具有分组的特征55拥有自有住房的决定如何与Ii发生关系呢?一个合理的假定就是:对每一个家庭而言,都存在一个门槛值Ii*,当Ii*≤Ii时,该家庭拥有自己住房,否则不拥有,因此有:其中F(•)是标准正态分布函数,Ii是效用函数。

因为Pi=F(Ii),F(•)为单调递增函数,因此,Ii=F-1(Pi),其中F-1(•)是正态CDF的反函数。56累积分布函数P(Yi=1|Xi)表示给定解释变量X的值时,拥有自有住房这一事件出现的概率,如下图所示:57对于模型:估计步骤如下:从分组数据得到根据得到的,从标准正态CDF中得到Ii=F-1(Pi)用得到的Ii作为模型(1)中的因变量,用OLS对模型(1)进行回归,得到相应的参数。58对是否拥有自有住房的例子,回归结果如下:Xi的系数0.0487代表什么含义?59对Probit模型中系数的解释:考察X的单位变动对Y=1这一事件发生概率的影响,也就是求:其中,是在处取值的标准正态概率密度函数。60就本例而言,当Xi=5万元时,标准正态密度函数的值为:查标准正态分布表可知:-0.7478处的标准正态密度约为0.3011,将该值乘以斜率系数的估计值0.0487,得到0.0147。

这意味着,从5万元开始,如果收入上升1万元,一个家庭购买住宅的可能性将上升约1.47%。61例:贷款决策模型某商业银行从历史贷款客户中随机抽取78个样本,根据设计的指标体系分别计算它们的“商业信用支持度”(CC)和“市场竞争地位等级”(CM)。目的是研究客户的贷款结果JG与CC、CM之间的关系,并为正确贷款决策提供支持。62cmcccmcccmcc636465结果表示:当CC和CM已知时,代入方程,可以计算贷款成功的概率JGF。例如,将表中第19个样本:CC=15、CM=-1代入方程右边,括号内的值为0.1326552;查标准正态分布表,对应于0.1326552的累积正态分布为0.5517;于是,JG的预测值JGF=1-0.5517=0.4483,即对应于该客户,贷款成功的概率为0.4483。66二、非群组数据的Probit估计仍然以前面新的教学方法与学生成绩之间的关系为例:如果学生期末成绩为A,则记为被解释变量PJ=1,如果期末成绩为B或者C或者更低,则记为被解释变量PJ=0。考虑使用的解释变量为:学生的平均学分GPA

学生在期初时的成绩PRES

是否使用新的教学方法(1,是;0,否)67用Logit回归的结果如下:用Probit回归的结果如下:68由于要考察新的教学方法TAN对学生成绩的影响,现在求概率函数对TAN的导数:带入各解释变量的均值,得到:查标准正态分布表可知:-0.6212处的标准正态密度约为0.3292,将该值乘以斜率系数的估计值1.1281,得到0.3713,也就是说,接受新的教学方法的学生得到A的可能性比未接受新教学方法的学生高37.13%。69三、Ordered-Probit估计当被解释变量为有序的分类变量时,或者,分类的个数超过两个的时候,我们需要用Probit模型去进行估计,具有这样特征的Probit模型就是Ordered-Probit模型。比如,因变量为:70与一般的Probit模型一样,我们需要设定一个状态变量或者效用函数,使之具有如下特征:或者写成向量的形式:ui为标准正态分布的随机误差项:71被解释变量和效用函数之间的关系定义如下(以3种分类为例):因为,这种关系也可以写成:ui的概率密度为:72与一般的Probit模型一样,解释变量X的变化对事件发生概率的边际影响为:很明显:P(Yi=0)的导数与系数β符号相反;P(Yi=2)的导数与系数β符号相同;P(Yi=1)的导数的符号则不确定,它取决于密度函数和的大小比较。73例:居民的幸福感与居民收入差距之间的关系本例中幸福感(HAPPINESS)在数字1到5之间变化,具体表达式如下:HAPPINESS=1,如果HAPPINESS≤C1非常不幸福HAPPINESS=2,如果C1<HAPPINESS≤C2不幸福HAPPINESS=3,如果C2<HAPPINESS≤C3一般HAPPINESS=4,如果C3<HAPPINESS≤C4幸福HAPPINESS=5,如果C4<HAPPINESS非常幸福居民收入差距用基尼系数来衡量74样本的基本情况:75变量之间的相关性:可见,不管样本来自于城市还是农村,其基尼系数与居民之间的幸福感都呈现负相关关系,基尼系数越大,居民的幸福感越低。因此,随着收入差距的拉大,居民幸福感就会降低,但农村居民基尼系数与幸福感之间的负相关关系并不显著。76解释变量主要有以下四类:个体特征变量(personal):包括性别(sex)、

年龄(age)、

宗教信仰(religion)、工作状况(job)、受教育程度(education)和婚姻状况(marital);收入变量(income):用样本家庭全年总收入(family-income)衡量;收入差距变量(inequality),用基尼系数(gini)衡量;满意度变量(satisfaction),包括家庭经济状况满意度,家庭关系满意度人际关系满意度个人健康状况满意度住房状况满意度社区满意度以及工作满意度,分别用satisfaction1-7表示。具体的模型设定如下:happiness=f(personal,income,inequality,satisfaction)其中收入变量取其对数值77回归的结果如下:略782.2.3tobit回归分析

Tobit模型是Probit模型的一个扩展,最先由诺贝尔经济学家詹姆斯•托宾提出。例:对人们购买住房的情况进行分析时,不仅想知道样本个体是否购买了住房,还想知道其花在购买住房上的金额。此时就存在这样一个问题:如果一个消费者没有购买住房,那么我们就无法得到他花在购买住房上的具体金额。

Tobit模型就是针对这种情况而言的:对统计调查取得的数据进行研究的时候,被解释变量不能被完全观察的情形,我们称之为数据出现了截取或者断尾的现象。79一、截取数据截取和断尾的共同之处在于:样本因为某种原因,不能够代表真实的总体,因此简单的OLS估计将会得到不一致的结果,如果借助极大似然估计方法,就必须对总体分布施加更强的假设,才能够从有偏的样本中得到一致的参数估计结果。当被解释变量y的取值被限定在一个特定的范围内时,就出现了数据截取问题。此时,我们观察到y在一个特定的范围之内并不等于其真实值y*,通常情况下,y在这一特定范围之内会等于某一常数。1.定义80数据截取分为从上截取和从下截取,又称为右截取和左截取。在从上截取的情形中,当真实值y*大于某一值c时,我们就无法观测到真实的y*,而是观察到y=c,因此从上截取更详细的表达式为:相应的,在从下截取的情形中,当真实值y*小于某一值c时,我们就无法观测到真实的y*,而是观察到y=c,因此从下截取更详细的表达式为:2.产生截取数据的原因角点解的存在:在消费者或者厂商问题中,会面临预算约束或者资源约束,当这些约束条件成立时,就会产生角点解。例如:在耐用消费品的选择中,如果最优消费数量y*小于1,消费者就会选择不购买,此时我们就只能观测到y=0;

在电影或者球赛的门票销售中,由于受到场地的限制,当电影或比赛备受欢迎,门票的需求量超过了座位数c时,我们也只能观测到y=c。82数据分类:在对数据进行分类整理时,我们常常会把低于某个下限或者高于某个上限的数值用下限或者上限来代替,从而产生数据截取的问题。比较典型的例子就是:对收入调查数据进行处理时,对于高收入群体,调查中就经常采用类似“高于2万元”这样的选项,从而使得这一样本个体的具体收入情况无法得知,也就产生了从上截取的现象。83二、断尾数据当被解释变量y的取值在某一范围内时,我们无法获得有关的样本信息,此时就出现了数据断尾的问题。数据断尾实际上是一个样本缺失的问题,由于缺失的样本在某个截取点之外,因此就称之为“断尾”。1.定义由此可见,数据“断尾”情况下,数据的缺失不是随机的,它具有系统性,从而导致所得到的的样本并不具有对总体的代表性,我们可以这样表示从上“断尾”的情形:842.产生断尾数据的原因

样本选择是产生断尾数据的主要原因。所谓样本选择是指所观察到的样本由于在抽样的过程中,或多或少受到因变量取值的影响,而因此成为非随机样本。被调查对象的“自选择”行为:具有某种特定行为或特征的被调查对象很容易进入到样本中来,而其他的被调查对象则容易被排除在外。例如:对工资与工作时间关系的研究时,容易出现“自选择”的情况。在劳动力市场中,我们所观察到的工资和工作时间都是从就业群体中获得的,而那些失业者能够接受的保留工资和意愿工作时间则无法观察到。85抽样方案设计不当:如果抽样方案设计不当,也会产生数据断尾的情形,在这种情况下,因为抽样方案设计不当而导致的样本选择是可以通过一定的途径得到修正的。比如:在对人们购物习惯(网购)进行调查时,如果对抽样方案进行设计时,确定通过网络调查来获得样本数据。这样就会导致样本中的“网虫”比例过高;再比如:研究消费者的收入水平时,如果选择在高档的消费场合进行调查,就必然导致样本中高收入群体的比重过高。86值得说明的是:因为样本选择而系统地缺失特定群体的信息,从而会导致数据的断尾,但样本选择并不一定会导致数据断尾。如果样本选择只与外生的解释变量有关,也就是说,选择的偏差出现在外生的解释变量一方时,标准的OLS估计仍然能够得到一致的估计。如果样本选择与被解释变量有关,也就是说,在抽取样本时,不管是有意考虑了被解释变量的取值,还是无意之间受到了被解释变量取值的影响,就会产生数据断尾的情况,从而导致OLS估计得到有偏和不一致的估计结果。87三、运用tobit模型进行估计以耐用消费品的消费为例,说明tobit模型的估计问题。问题:当y*>0时,是否可以进行OLS估计?88∵对y*>0部分的数据进行OLS估计的结果:89f(εi)

εi90

Y*

=-40+1.2X+u

Y=Y* ifY*>0

Y=0ifY*0

Y*>0 意味着:

u>40-1.2X

例如:91Y*XTobit模型的估计92YX全部实际观察到的数据93

YXOLS:用全部实际观察到的数据参数估计向下偏误,但是截距出现了高估的情况94案例:上市商业银行的经营效率被解释变量:上市商业银行的经营效率(Efficiency)解释变量:商业银行的不良贷款率(A,Asset)商业银行人均营业费用(M,Management)

商业银行存贷比(L,Liquidity)

商业银行上市年数(T,ListingTime)选择11家上市商业银行连续3年的数据进行分析95Tobit回归的结果如下:962.3面板数据模型2.3.1、面板数据类型时间维度+截面维度如我们在分析中国31省份的经济增长时,共有31个截面,每个截面都取1979-1998共20年的数据,共有620个观察值,这是一个典型的平行面板数据上市公司财务数据,研究一段时期内(1998-2008)上市公司股利的发放数额与股票账面价值之间的关系,共有20×11=220个观测值强调经济理论基础、强调微观行为基础表11996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)地区人均消费1996199719981999200020012002CP-AH(安徽)3282.4663646.1503777.4103989.5814203.5554495.1744784.364CP-BJ(北京)5133.9786203.0486807.4517453.7578206.2718654.43310473.12CP-FJ(福建)4011.7754853.4415197.0415314.5215522.7626094.3366665.005CP-HB(河北)3197.3393868.3193896.7784104.2814361.5554457.4635120.485CP-HLJ(黑龙江)2904.6873077.9893289.9903596.8393890.5804159.0874493.535CP-JL(吉林)2833.3213286.4323477.5603736.4084077.9614281.5604998.874CP-JS(江苏)3712.2604457.7884918.9445076.9105317.8625488.8296091.331CP-JX(江西)2714.1243136.8733234.4653531.7753612.7223914.0804544.775CP-LN(辽宁)3237.2753608.0603918.1674046.5824360.4204654.4205402.063CP-NMG(内蒙古)2572.3422901.7223127.6333475.9423877.3454170.5964850.180CP-SD(山东)3440.6843930.5744168.9744546.8785011.9765159.5385635.770CP-SH(上海)6193.3336634.1836866.4108125.8038651.8939336.10010411.94CP-SX(山西)2813.3363131.6293314.0973507.0083793.9084131.2734787.561CP-TJ(天津)4293.2205047.6725498.5035916.6136145.6226904.3687220.843CP-ZJ(浙江)5342.2346002.0826236.6406600.7496950.7137968.3278792.210表2上市公司的投资与股票账面价值:N=20,T=4面板数据模型和stata软件应用二、面板数据模型有以下几个优点:第一,PanelData模型可以通过设置虚拟变量对个别差异(非观测效应)进行控制;第二,PanelData模型通过对不同横截面单元不同时间观察值的结合,增加了自由度,减少了解释变量之间的共线性,从而改进了估计结果的有效性;第三,PanelData模型是对同一截面单元集的重复观察,能更好地研究经济行为变化的动态性举例交通死亡率与酒后驾车人数(一段时间内江苏省各市)其他的非观测(潜在)因素:南京与苏州汽车本身状况道路质量当地的饮酒文化单位道路的车辆密度非观测效应导致估计结果不准确,面板数据可以控制和估计非观测效应面板数据模型形式:其中,i=1,2,3...N,截面标示;t=1,2,...T,时间标示

;xit为k×1解释变量,β为k×1系数列向量对于特定的个体i而言,αi表示那些不随时间改变的影响因素,而这些因素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、地区的经济结构,法律和产权制度等,一般称其为“个体效应”(individualeffects)面板数据模型的误差项由两部分组成:一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为非观测效应模型;另外一部分概括了随截面随时间而变化的不可观测因素,通常被成为特异性误差或特异扰动项GDPX(Invest、edu)北京江苏省山西省基础设施更加完善,受教育程度较好、经济结构以服务业为主、法制更健全面板模型选择:固定效应还是随机效应对“个体效应”的处理主要有两种方式:一种是视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随机因素,相应的模型称为“随机效应”模型固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上FE(FixedEffects)ModelRE(RandomEffects)Model其中,是截距中的随机变量部分,代表个体的随机影响(Replacewithdummyvariables)固定效应模型1、例如,在研究财政支出与经济增长的关系,运用全国的时间序列数据来检验财政支出与经济增长的关系可能存在设定误差并且受统计资料的制约,仅用时间序列资料不能够满足大样本的要求同时,由于我国不同地区的体制变革和财政政策的不断调整,造成各个地区财政支出结构随时间而不断变化面板数据(PanelData)从某种程度上克服了这一困难。考虑到中国各省份财政支出结构与经济增长的关系存在明显的地区差异,从时间序列的角度,考虑各省差异的动态性,是面板数据模型的优势例如,在研究中国地区经济增长的过程中,以全国某28个省区为研究对象,可以认为这28个省区几乎代表了整个总体同时假设在样本区间内,各省区的经济结构人口素质等不可观测的特质性因素是固定不变的,因此采用固定效应模型是比较合适的2、而当我们研究某个县市居民的消费行为时,由于样本数相对于江苏省几千万人口是个很小的样本,此时,可以认为个体居民在个人能力、消费习惯等方面的差异是随机的,采用随机效应模型较为合适随机效应模型:RE认为个体的差异是随机的,其中非观测的个体差异效应与随机扰动项一样都是随机变量随机效应模型总结:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效应模型;如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型3、在实证分析中,一般通过hausman检验判断:由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应不相关,而固定效应模型并不需要这个假设条件因此,我们可以通过检验该假设条件是否满足,如果满足,那么就应该采用随机效应模型,反之,就需要采用固定效应模型Hausman检验的基本思想是:在固定效应u_i和其他解释变数不相关的原假设下,用OLS估计的固定效应模型和用GLS估计的随机效应模型的参数估计都是一致的。反之,OLS是一致的,但GLS则不是因此,在原假设下,二者的参数估计应该不会有系统的差异,我们可以基于二者参数估计的差异构造统计检验量。如果拒绝了原假设,我们就认为选择固定效应模型是比较合适的。

2.3.2、stata软件简介STATA软件估计与应用:打开数据库:use"E:\ProgramFiles\Stata10.0绿色软件\Stata10\东部.dta“或者重新输入数据:edit相关系数:corgdpinvesteduscihealth简单回归:regressgdpinvestculturesci无常数:regressgdpinvestculturesci,noconstant估计结果回归诊断:是否存在异方差:estathettest怀特检验:

estatimtest,white回归信息检验:estatimtest是否遗漏重要解释变量:estatovtest拟合图:rvfplot单一变量的相关图:cprplotinvest画图菜单与命令结合twoway(scattergdpinvest)twoway(scattergdpinvest||lfitgdpinvest)基本建设支出与GDP的相关关系图各省教育支出的增长趋势:1998-2006Durbin-Watson统计量:estatdwatson序列相关检验:estatdurbinalt滞后阶数选择:estatdurbinalt,lags(2)条件异方差检验:estatarchlm,lags(2)可选变量的异方差检验:estatszroetergdpinvestculturesci2.3.3、Stata对面板数据模型的估计随机效应模型Stata对面板数据模型的估计首先对面板数据进行声明:前面是截面单元,后面是时间标识:tssetcompanyyeartssetindustryyear产生新的变量:gennewvar=human*lnrd产生滞后变量Genfiscal(2)=L2.fiscal产生差分变量Genfiscal(D)=D.fiscal

描述性统计:xtdes:对PanelData截面个数、时间跨度的整体描述Xtsum:分组内、组间和样本整体计算各个变量的基本统计量xttab采用列表的方式显示某个变量的分布Stata中用于估计面板模型的主要命令:xtregxtregdepvar[varlist][ifexp],model_type[level(#)]Modeltype模型beBetween-effectsestimatorfeFixed-effectsestimatorreGLSRandom-effectsestimatorpaGEEpopulation-averagedestimatormleMaximum-likelihoodRandom-effectsestimator主要估计方法:xtreg:Fixed-,between-andrandom-effects,andpopulation-averagedlinearmodelsxtregar:Fixed-andrandom-effectslinearmodelswithanAR(1)disturbancextpcse:OLSorPrais-Winstenmodelswithpanel-correctedstandarderrorsxtrchh:Hildreth-Houckrandomcoefficientsmodelsxtivreg:Instrumentalvariablesandtwo-stageleastsquaresforpanel-datamodelsxtabon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论