计量经济学模型案例与软件操作 课件 第九章 其他常用回归模型_第1页
计量经济学模型案例与软件操作 课件 第九章 其他常用回归模型_第2页
计量经济学模型案例与软件操作 课件 第九章 其他常用回归模型_第3页
计量经济学模型案例与软件操作 课件 第九章 其他常用回归模型_第4页
计量经济学模型案例与软件操作 课件 第九章 其他常用回归模型_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章其他常用回归模型授课教师:所在学院:联系方式:其他常用回归模型

本章主要介绍了其他常用的回归模型,包括二项及多项选择模型、排序选择模型、受限因变量模型、计数模型、门限回归模型、分位数回归模型和非参数回归模型。每个模型都包括原理、案例和软件操作三个部分。内容:●二项及多项选择模型●排序选择模型●受限因变量模型●

计数模型●门限回归模型●分位数回归模型●

非参数回归模型第一节二项及多项选择模型原理、案例与软件操作

本节基本内容:●二项及多项选择模型原理●案例分析与软件操作

一、二项及多项选择模型原理

离散选择模型(discretechoicemodel,DCM)

离散选择模型的划分离散选择模型的划分有多种方法。根据备选方案集中备选方案的数量可以将离散选择模型分为二项选择模型(binomialchoicemodels)和多项选择模型(multinomialchoicemodels)。二项选择模型是指备选方案集中仅有两个选项,如{“是”,“否”}{“买”,“不买”}{“受伤”,“未受伤”}{“感染”,“未感染”}等。二项选择模型是学习其他离散选择模型的基础。多项选择模型中的方案数量为3个或3个以上,如购买车辆时选择{“品牌1”、“品牌2”、“品牌3”}、交通事故的严重等级{“仅财产损失”、“受伤”、“死亡”}等。本节将重点介绍以上两个常用的离散选择模型。当个体的选择只有两种情况时,我们可以利用线性概率模型(LPM)

(一)二项选择模型

其中

但直接使用线性模型是不合适的。第一,y的拟合值不一定能够限定在0到1之间;第二,模型残差项的部分假定也不能满足。为使y介于[0,1]之间,在给定x的情况下,考虑y的两点分布概率

若连接函数为标准正态累积分布函数,则有

此模型称为“Probit”模型。若连接函数为logistic(逻辑分布)的累积分布函数,则有

实际生活中,我们常用Logit模型,其优势在于逻辑分布的累积分布函数有解析表达式(标准正态没有),故计算更为方便;而且Logit的回归系数更易解释其经济意义。Probit模型与Logit模型实质上都是非线性模型,无法通过变量转换变为线性模型。对于非线性模型,常使用最大似然估计(MLE)而不是OLS的估计方法。

当个体的选择结果可能大于两种时,可以使用多项选择模型。假设个体i选择第j种方法的效用为

(二)多项选择模型

故当个体选择方案j时,当且仅当选择方案j效用最大时,有

显然,个体选择各项方案的概率和为1。因此,有

其中,j=1为参照方案。此模型为“多项Logit模型”,常用极大似然估计方法进行估计。其似然函数与对数似然函数分别为

二、案例分析与软件操作

【案例9-1】假设你是一所大学的系主任,你想根据每位申请者两次考试的实际情况来确定他们被录取的机会。你有100位申请者的历史数据,可以用来作为模型样本。其中,变量exam1表示第一次考试的学生成绩,exam2表示第二次考试的学生成绩,admitted表示学生是否被录取(0为未录取,1为录取)。创建EViews工作文件,方法同前。选择数据类型为Unstructred/Undated,输入观测值为100。

(一)EViews软件操作

创建序列在命令框中输入dataexam1exam2admitted,创建相应的序列分别为第一次考试成绩、第二次考试成绩、是否被录取,并将数据导入EViews。在方程估计界面中,估计方法选择BinaryChoice(二项选择模型)。并分别利用Probit模型和Logit模型进行拟合。Logit和Probit对应的参数估计结果分别如下图Logit模型为y*=0.2062exam1+0.2015exam2-25.1613Probit模型为y*=0.1194exam1+0.1177exam2-14.6698

在两个模型中,EXAM1和EXAM2的参数估计值的Z统计量比较大,说明这两个变量在统计上是显著的,这两个变量对因变量有显著的影响。我们还可以点击Forecast对模型的样本的概率(Probability)或是潜变量(Index)进行预测作为对照,首先使用OLS进行线性概率模型(LPM)估计。估计命令如下.regadmittedexam1exam2,r

(二)Stata软件操作

其次,使用Logit进行估计。估计命令如下.logitadmittedexam1exam2,nolog

结果显示,准R2为0.6976,LR统计量为93.90,对应的p值为0.0000,故整个方程所有系数(除常数项外)的联合显著性很高。

下面,使用稳健标准误进行Logit估计。估计命令如下.logitadmittedexam1exam2,rnolog

对比上图和此图可知,稳健标准误与普通标准误的估计结果非常接近,故大致可以不必担心模型设定问题。由于各解释变量的最小变化量至少为一单位,为了便于解释回归结果,下面让Stata汇报几率比而非系数。估计命令如下.logitadmittedexam1exam2,ornolog

上图显示,在给定其他变量的情况下,第一次考试成绩每增加1分,被录取的几率比增加22.9038%;在给定其他变量的情况下,第二次考试成绩每增加1分,被录取的几率比增加22.3201%。

为了与OLS估计的回归系数进行比较,计算Logit模型的平均边际效应。估计命令如下.margins,dydx(*)

直观上看,Logit模型的平均边际效应与OLS回归系数相差不大。为了演示下面计算在样本均值处的边际效应。估计命令如下.margins,dydx(*)atmeans

对比上图与此图的输出结果可知,在样本均值处的边际效应与平均边际效应有所不同。

下面计算Logit模型准确预测的比率。估计命令为.estatclas

图中的结果显示,正确预测的比率为(55+34)/100=89%。类似地,可以对此模型进行Probit估计。估计命令如下.probitadmittedexam1exam2,nolog

下面考察Probit模型的边际效应与预测准确度。估计命令如下.margins,dydx(*).estatclas

两图可以看出,Probit模型的边际效应、准R2以及正确预测比率与Logit模型几乎完全相同,故该案例使用两种模型均可。第二节排序选择模型原理、案例与软件操作

本节基本内容:●排序选择模型原理●案例分析与软件操作

一、排序选择模型原理

当因变量的多种选择存在着可排顺序的特征时,我们可以选用排序选择模型。如债券的信用等级(标准·普尔公司信用等级标准从高到低划分为:AAA级、AA级、A级、BBB级、BB级、B级、CCC级、CC级C级和D级);消费者对某类消费品的偏好(十分喜欢、喜欢、无所谓、厌恶等)。

我们称这些可以存在先后顺序的数据为排序数据,对于此类数据,我们需要使用排序选择模型(或称排序因变量模型)。

为待估参数,称为“切点”。

二、案例分析与软件操作

【案例9-2】在一项调查政府支持率的民意测验中,由于政府出台了一项对某一收入水平人群有利的政策,而使得不同收入水平人群对其支持率产生了变化。通过调查,我们已经获取了24位市民的相关样本数据,其中,变量INC代表市民收入,变量Y代表市民对该项政策持有的态度(0、1、2分别代表支持、中立、不支持)创建EViews工作文件并导入数据,观测值选择为24个

(一)EViews软件操作

输入dataincy,创建相应的序列分别为市民收入与市民态度与二元选择模型不同的是,因为常数项会与临界值混淆,因此EViews会忽略常数项,则我们只需要建立y与inc的模型。单击“Quick→EstimateEquation”其中Method指的是估计方法,这里我们选择OrderedChoice排序选择模型;Errordistribution指的是残差项所服从的分布,一般我们选择Normal即服从正态分布。单击“Quick→EstimateEquation”若模型估计收敛,EViews会显示出估计结果。本例结果见右图,可以看出,模型估计结果为y*=0.008751inc,说明收入越高,指标值越大。在本例子中,即不支持该项政策的概率越大。两个临界值分别为8.093和11.598。首先进行orderedprobit估计,命令如下.oprobityinc,nolog

(二)Stata软件操作

在图中,“cut1,cut2”为切点的估计值,准R2为0.6746,解释变量inc的p值为0.002,也比较显著。根据该模型,可以预测每位市民对政策的持有态度,并列出第一个观测值的预测结果,命令如下.predictp0p1p2.listp0p1p2in1/1下面进行orderedlogit估计,然后预测每位市民对政策的持有态度,并列出第一个观测值的预测结果,命令如下.ologityinc,nolog.predictr0r1r2.listr0r1r2in1/1结果如图所示:根据上述结果可知,虽然orderedlogit与orderedprobit模型的系数与切点估计有所差别,但预测市民对政策的持有态度结果却很接近。第三节受限因变量模型原理、案例与软件操作

本节基本内容:●受限因变量模型原理●案例分析与软件操作

一、受限因变量模型原理

当被解释变量的取值范围受到限制时,我们称其为“受限被解释变量”。在现实问题中,当我们只能得到部分数据时,那我们就需要从总体这个受限部分的样本推导总体特征,这就是受限因变量模型。

受限因变量模型包括删失回归(censoredregression)模型、断尾回归(truncatedregression)模型、样本选择(sampleselection)模型等,下面我们重点介绍受限因变量模型中最常见的两类:删失回归与断尾回归模型。

删失问题,即把因变量处于某一范围内的观测值用一个相同的值替代。这种问题在调查活动中居多,如当限定商品购买时,如购买上限为100,那么对于购买量为100的个体,其实际需求量可能远大于100。这也可以理解为,部分样本的自变量对应的因变量观测值无法获得。

所以说,“删失”并不是将数据从样本中删去,其本质上是对出现删失数据时的普通回归模型做适当处理。

(一)删失回归模型

将模型转变为指标变量回归模型:

其中,σ为比例参数,它的作用是表示y的似然函数,其意义就是原始模型中残差的标准差,而观测值y由指标变量对应得到

断尾问题,即不能从全部个体,而是只能从一小部分个体中随机抽取样本观测值,而这部分个体的观测值都大于或者小于某一个定值。这样实际上等同于截掉全部样本的两端或一端。

例如,我们研究居民收入问题时,理论上的居民收入范围应该在零到无穷大之间,但实际上我们只可能获得其中一个子区间的样本。或者说,对应因变量的特定取值范围内,或是没有全部自变量的观测值,或是无法得到因变量的观测值。

(二)断尾回归模型

将模型转变为指标变量回归模型:

其中,σ为比例参数,它的作用是表示y的似然函数,其意义就是原始模型中残差的标准差,而观测值y由指标变量对应得到

其中,ϕ(·)和Φ(·)分别是标准正态分布的概率密度与分布函数。二、案例分析与软件操作

【案例9-3】在一次调查中,调查人员一共调查了50位受访者,由于部分受访者没有提供实际劳动数据,则只能将这些数据视为零对待,但需要利用全部调查数据,因此需要构建删失回归模型。其中,各变量分别为:y(已婚妇女工作时间/年),x1(未成年子女个数),x2(年龄),x3(受教育年限),x4(丈夫的收入)。创建EViews工作文件,选择观测值为50

(一)EViews软件操作

在命令窗口输入dataycx1x2x3x4,创建序列并导入数据。在右图所示的EquationEstimation方程估计中选择CENSORED方法,输入待估变量y、c、x1、x2、x3、x4,残差分布一般仍默认选择Normal正态分布。在Dependentvariablecensoringpoints中,Left和Right分别为左右的临界值,此例中我们只有左删失。

从图可以看出,x1在10%的显著性水平下为负,x2在1%的显著性水平下为负,x3在5%的显著性水平下为正,x4并不显著。作为对照,首先对样本数据进行OLS回归。估计命令如下.regyx1x2x3x4

(二)Stata软件操作

下面进行删失回归,假设在“y=0”处存在左截尾。估计命令如下.truncregyx1x2x3x4,ll(0)nolog比较以上两图结果可知,删失回归的结果与OLS回归的结果存在较大差别。删失回归模型的结果表明,已婚妇女的工作时间与其受教育年限、其丈夫的收入之间有较大关系,并且受教育年限对其工作时间的影响更大。第四节计数模型模型原理、案例与软件操作

本节基本内容:●计数模型原理●案例分析与软件操作

一、计数模型原理

所谓计数模型,主要是指被解释变量只能取非负整数,即1,2,3,4,…比如专利个数、奥运金牌个数、子女个数等。在这些问题的研究中,被解释变量Y有如下三个属性:(1)被解释变量为计数资料,取非负整数,即Y=0,1,2,3,4,…;(2)样本集中在比较少的离散值(这里要注意区分因变量是连续变量还是计数变量);(3)研究的是对因变量平均变化的影响。在本节中,主要介绍两种主要的计数模型,一个是泊松回归(PoissonRegression)模型,另一个是负二项回归(NegativeBinomialRegression)模型。

泊松回归模型是用来作为计数资料或者列联表分析的一种回归分析技术。泊松回归假设被解释变量Y服从泊松分布,并假设该被解释变量期望值的对数可表示为未知参数的线性组合。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。

(一)泊松回归模型

假设我们得到一组相互独立的变量组成的向量

其泊松回归的模型形式为亦可简洁地表示为其中x是n+1维的向量,由n个独立的自变量与一个常数变量组成。因此,当已知泊松回归模型当中的𝜃和解释变量

𝑥,其满足泊松分布的被解释变量的期望值可以由下式来预测其中𝑌是被解释变量的观测值,相应的解释变量为𝑥,可由极大似然估计的方法来估计参数𝜃。极大似然估计不能通过解析表达式获得解析解,这是由于其对数似然函数为凸函数的特性所决定的,我们可通过Newton-Raphson或其他基于梯度下降的思想方法来进行参数估计。在之前的学习中,我们已经了解到泊松分布的概率密度函数为现已知解释变量的观测值为由

𝑚个向量组成的

,对应的

𝑚个被解释变量的观测值为

。若同时已知

𝜃,则该组观测值所对应的联合概率可由下式表达:极大似然方法估计𝜃的核心思想是,找到使得基于当前观测值的联合概率尽可能达到最大的𝜃(可理解为:变量的取值为当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。既然目标是寻找到最优的𝜃,可以先将上式的等号左边简单表达为关于𝜃的表达式注意等号右边的表达式并未改写,但通常难以计算,因而采用其对数变化后的表达式,即由于

𝜃仅出现在似然函数的前两项,因而在极大化似然函数的运算过程中,可以只考虑前两项。可以删去第三项,待优化的似然函数可以简洁地表达为为了找到极大值,需要求解方程它是一个凸函数,可以考虑使用标准的凸优化方法来求解𝜃的最优值。可采用的方法有Newton-Raphson与IterativeWeightedLeastSquare(IWLS)算法。先给𝜃一组初始值,IWLS是通过多次迭代更新直到𝜃收敛来求得

𝜃的值的。

(二)负二项回归模型

有关负二项分布,简单介绍如下。假设某事件在一次实验中成功的概率为

𝜃(0<𝜃<1)。记

𝑌为第J次成功前失败的总次数那么离散型随机变量

𝑌的分布律为

二、案例分析与软件操作

【案例9-4】为了研究犯罪率的影响因素,某地政府在当地居民中开展问卷调查,对该地区民众进行抽样调查,一共抽取了2725人作为样本,调查采集的数据主要包含以下重要变量:narr(被捕次数),pcnv(有前科的比例),avgsen(平均判刑月数),tottime(18岁以上入狱总月数),ptime(入狱月数),qemp(就业季度数),inc(合法收入),black(是否是黑人,black=1代表黑人),hispan(是否是拉丁裔,hispan=1代表拉丁裔)。在本案例中,我们试图探究被捕次数与其他因素之间的关系。创建EViews工作文件,输入观测值数为2725

(一)EViews软件操作

输入datanarrcpcnvavgsentottimeptimeqempincblackhispan,创建变量并导入数据在EquationEstimation方程估计中的Method方法中选择COUNT计数模型,并输入变量,这里我们分别尝试泊松回归和负二项回归。泊松回归的结果如图所示。在使用Stata软件导入数据后,首先查看被解释变量narr(被捕次数)的分布情况。命令如下.tabnarr从图可以看出,在容量为2725人的样本中,截至调查时,总共1970人从未被逮捕。然而,在这些调查人群中,单人最高被捕记录为12次。更直观地,可以查看直方图来了解被解释变量的具体分布状况。

(二)Stata软件操作

画直方图的命令如下.histogramnarr,discretefrequency其中,选择项“discrete”表示narr为离散型变量,而“frequency”表示纵坐标为频数。结果如图所示。显然,被解释变量被捕次数为计数数据。尽管如此,为了起到对照效果,我们仍然首选OLS回归方法进行分析。估计命令如下.regnarrpcnvavgsentottimeptimeqempincblackhispan,r虽然可决系数R2仅仅为0.07,但多数解释变量在显著性水平为0.05的条件下显著。因此,接下来我们进行泊松回归,并使用稳健标准误。估计命令如下.poissonnarrpcnvavgsentottimeptimeqempincblackhispan,rnolog尽管泊松回归得到的估计系数与OLS回归结果差别很大,但二者并不具备可比性。为了便于比较,我们选择计算泊松回归的平均边际效应。命令如下.margins,dydx(*)从图可知,泊松回归模型的平均边际效应与OLS的回归系数很接近。为了便于解释泊松回归模型的系数,下面计算发生率比。命令如下.poissonnarrpcnvavgsentottimeptimeqempincblackhispan,rirrnolog从图我们可以看出,在给定其他变量的情况下,黑人被捕的平均次数比白人被捕的平均次数高出93.55%;其他变量的效应也可类似地解释。但是,值得注意的是,使用泊松回归模型的前提之一是被解释变量的期望与方差相等。为此,在分析时,我们需要考查被解释变量narr的统计特征,命令如下.sumnarr,detail结果显示,样本方差(Variance)几乎是样本均值(Mean)的两倍。为此,下面进行负二项回归(NB2),命令如下.nbregnarrpcnvavgsentottimeptimeqempincblackhispan,rnolog左图显示,alpha的95%置信区间为(0.6982,1.2386),故可在5%的显著性水平上拒绝过度分散参数“alpha=0”的原假设(对应于泊松回归),即认为应使用负二项回归。假设条件方差参数alpha依赖于pcnv与ptime,可进行以下广义负二项回归。命令如下.gnbregnarrpcnvavgsentottimeptimeqempincblackhispan,rlna(pcnvptime)nolog从左图的结果可以看出,条件方差方程(lnalpha)的两个变量均高度显著,广义负二项回归的对数似然函数(-2130.914)也大于相应的负二项回归(-2157.807),表明模型的拟合优度提高了。由于被解释变量的大多数取值为0,下面考虑零膨胀泊松回归,命令如下.zipnarrpcnvavgsentottimeptimeqempincblackhispan,inf(_cons)vuongnolog左图显示,Vuong统计量为3.23,远远大于1.96,故拒绝“标准泊松回归”,认为应该使用“零膨胀泊松回归”。下面进行零膨胀负二项回归,命令如下.zinbnarrpcnvavgsentottimeptimeqempincblackhispan,inf(_cons)vuongnoconnolog其中,选择项“nocon”表示不带常数项。图9-42显示,alpha的95%置信区间为(0.3773,0.8822),故可在5%的显著性水平上拒绝“alpha=0”的原假设(对应于泊松回归),即认为应使用负二项回归。Vuong统计量为-3.97,远远小于-1.96,故拒绝“零膨胀负二项回归”,认为应使用“标准负二项回归”。总之,在以上各种模型设定中,更倾向于选择标准负二项回归。第五节门限回归模型原理、案例与软件操作

本节基本内容:●门限回归原理●案例分析与软件操作

一、门限回归模型原理

门限回归模型(thresholdregressivemodel,简称TR模型或TRM)是汤家豪1978年将门限自回归模型思想扩展到回归模型中得到的模型。门限回归模型的基本思想是,当给出预报因子资料后,根据门限变量的门限阈值的判别控制作用,在不同情况下使用不同的预报方程,从而试图解释各种类似于跳跃和突变的现象。其实质上是把预报问题按状态空间的取值进行分类,用分段的线性回归模式来描述总体非线性预报问题。

在计量经济学的回归分析中,研究者通常会关心实验所得的回归系数估计值是否具有稳定性,换句话说,将整个实验样本分成若干个子样本后,分别进行回归分析,是否还能得到与原始回归结果大致相同的估计系数。对于时间序列数据来说,这意味着经济结构是否随着时间的推移而改变。对于横截面数据,比如,样本中有男性与女性,则可以根据性别将样本一分为二,分别估计男性样本与女性样本。如果用来划分样本的变量不是离散型变量而是连续型变量,比如企业规模、人均国民收入,等等,则需要给出一个划分的标准,即“门限(门槛)值”(thresholdlevel)。

在实际应用分析中,研究者常常怀疑大企业与小企业的投资行为存在明显的不同,那么到底该如何区分大企业与小企业呢?另外,受到流动性约束的企业与没有流动性约束的企业投资行为也可能存在不同的情况,那么如何通过债务股本比或其他指标来区分这两类企业就成为研究分析中的一个重要问题。再举个例子,按照传统的观念来看,发达国家与发展中国家的经济增长规律往往会存在明显的差异状况,那么我们是否可以通过人均国民收入这一指标来区分一个国家究竟是不是发达国家?总之,在经济学研究中,经济规律可能并不是简单的线性趋势,有可能是非线性的,其函数形式可能依赖于某个变量(称为“门限变量”)而改变。

对此类问题的研究方法,从传统意义上来讲,由研究者主观(任意)确定一个门限值,然后根据此门限值把样本一分为二(或者分成更多子样本),既不对门限值进行参数估计,也不对其显著性进行统计检验。显然,这样得到的结果并不可靠。为此,Hansen提出“门限回归”,以严格的统计推断方法对门限值进行参数估计与假设检验。

将上述方程转换为线性回归模型:

二、案例分析与软件操作

【案例9-5】为了研究美国联邦基金利率与年度通货膨胀率及GDP缺口之间的关系,我们按照季度时间进行数据划分、数据采集,最终获得226个季度的数据。在这些数据中,重要的变量如下:fedfunds(联邦基金利率),inflation(通货膨胀率),ogap(GDP缺口)。我们试图利用门限回归模型来探讨联邦基金利率与通货膨胀率及GDP缺口之间的关系。创建EViews数据集,数据结构选择Dated,Frequency选择Quarterly季度数据,输入数据起始和终止年限。

(一)EViews软件操作

输入datafedfundsinflationogap,创建序列并导入数据导入数据后,单击“Quick→EstimateEquation”,在方程估计界面,点击“Method”,在下拉菜单中选择“ThresholdRegression”,在弹出的对话框中设置方程及门限变量后,提交运行即可。在导入数据后,我们使用threshold命令进行门限回归,命令如下:.thresholdfedfunds,regionvars(l.fedfundsinflationogap)threshvar(l2.ogap)

(二)Stata软件操作

从图可以看出,fedfunds(联邦基金利率)为被解释变量,可选项“threshvar”后的变量为门槛变量,在这里我们并没有设置门槛值个数,因此Stata软件默认设置为1。通过门限回归得到的门槛估计值为-3.1787,在回归结果中,我们常根据AIC、BIC、HQIC信息准则进行选择。为了计算最优的门槛个数,我们使用optthresh命令进行限制,命令如下:.thresholdfedfunds,regionvars(l.fedfundsinflationogap)threshvar(l2.ogap)optthresh(5)从图的结果可以看出,我们设置了最大门槛个数为5,回归结果得到了两个门槛值,分别为-3.1787与-0.5351,也得到了相应的BIC数值。下图给出了门限回归的具体结果,由于模型自动选择了两个门槛值作为最优门槛数,因此将数据区域划分为三部分,上述结果也分别给出了每一部分的回归结果。通过门限回归模型,我们不仅得到了门槛值的估计值,也得到了其两边的系数,这也为后续的研究分析提供了理论与技术支持。第六节分位数回归模型原理、案例与软件操作

本节基本内容:●分位数回归原理●案例分析与软件操作

一、分位数回归模型原理

一般地,传统的回归分析用来研究自变量与因变量条件期望之间的关系,得到回归模型后,可用自变量来估计因变量的条件期望;而分位数回归则与之不同,分位数回归研究的是自变量与因变量的条件分位数之间的关系,得到回归模型后可用自变量来估计因变量的条件分位数。相较于传统回归分析仅能得到因变量的集中趋势,分位数回归可以进一步推断因变量的条件概率分布,并且分位数回归方法属于非参数统计方法之一。

容易受到极端值的影响。

二、案例分析与软件操作

【案例9-6】为了研究工资状况与受教育年限之间的关系,针对美国面板调查数据中的年轻男子组群展开研究。该数据集包含以下主要变量:lnw(工资对数),s(受教育年限),age(年龄),expr(工龄),tenure(在现单位的工作年限),iq(智商),med(母亲的受教育年限),kww(在“knowledgeofworldofwork”测试中的成绩),mrt(婚姻虚拟变量,mrt=1为已婚),rns(美国南方虚拟变量,rns=1为南方),smsa(大城市虚拟变量,smsa=1为住在大城市)。本案例旨在建立一个分位数回归模型,探究工资状况与各影响因素之间的关系。创建EViews数据集,选择Undated数据类型,观测值输入758

(一)EViews软件操作

输入datamsmrtsmsamediqkwwagesexprtenurelnwwage,创建序列并导入数据。EquationEstimation方程估计中选择QREG分位数回归,输入lnwcsiqexprtenuremssmsa。“Quantiletoestimate”后面输入0.5,即进行中位数回归。估计结果如图所示可以看出,在其他影响因素不变的情况下,增加1年受教育年限(s)能使得工资的中位数增加10.15%。作为参照系,首先进行OLS回归,相应Stata代码如下.reglnwsiqexprtenurernssmsa,r

(二)Stata软件操作

其次,我们选择中位数回归模型进行分析,代码如下.qreglnwsiqexprtenurernssmsa,nolog从图可以看出,在其他影响因素给定的条件下,增加一年受教育年限(s)使得工资的中位数增加10.15%,略大于对工资平均数的影响(OLS系数估计值为9.28%)。接下来,我们使用自助法来计算分位数回归的标准误。为便于复制结果,在这里我们指定了随机数种子,以保证在不同设备上运行结果保持一致,代码如下.setseed10101.bsqreglnwsiqexprtenurernssmsa,reps(400)q(.5)对比自助标准误与Stata的默认标准误可知,二者相差不大。同样地,也可以同时估计多个分位数回归模型,比如,1/10、5/10、9/10分位数,代码如下.sqreglnwsiqexprtenurernssmsa,reps(400)q(.1.5.9)nodots进一步,可以检验在以上三个分位数回归模型中,受教育年限(s)的系数是否相等,代码如下:.test[q10=q50=q90]:s结果表明,可以在10%的显著性水平上认为,以上分位数回归系数不完全相等。为了便于比较,下面把OLS与“1/10,5/10,9/10分位数”的系数估计值及标准误列表,代码如下:.quireglnwsiqexprtenurernssmsa.eststoOLS.quiqreglnwsiqexprtenurernssmsa,q(.1).eststoQR_10.quiqreglnwsiqexprtenurernssmsa,q(.5).eststoQR_50.quiqreglnwsiqexprtenurernssmsa,q(.9).eststoQR_90.esttabOLSQR_10QR_50QR_90,semtitlesstar(*0.1

**0.05

***0.001)

运行结果见下图以教育投资的回报率(s的系数)为例。左图显示,随着分位数的增加(1/10→5/10→9/10),受教育年限(s)的分位数回归系数呈现先升后降的趋势(7.62%→10.10%→8.26%)。这表明,受教育年限对工资的条件分布的两端之影响小于对其中间部分的影响。也就是说,增加受教育年限对于低工资者与高工资者的影响都比较小,而最大受益者为中间阶层。另一方面,估计系数的标准误则呈现先降后升的趋势(0.0123→0.0086→0.0117)。这说明,对于条件分布两端的分位数回归系数的估计较不准确。进一步,将分位数回归系数随着分位数的变化情形做更直观的展示,代码如下:.setseed10101.quibsqreglnwsiqexprtenurernssmsa,q(.50)reps(400).grqreg,consciolsolsci以上图的第2个图(第一行第二列)为例。该图显示,随着分位数的变化,受教育年限(s)的分位数回归系数(教育回报率)的变化。此图的基本形状印证了在前面的回归结果中,受教育年限的分位数回归系数先升后降的格局。另外,该图还显示,在条件分布的两端,95%的置信区间通常变得更宽了(因为系数估计值的标准误差变大了)第七节非参数回归模型原理、案例与软件操作

本节基本内容:●非参数回归原理●案例分析与软件操作

一、非参数回归模型原理

到目前为止,我们主要使用参数估计法,即假设总体服从带未知参数的某个具体分布,然后将注意力集中于估计这些参数。参数估计方法依然是计量经济学的主流,因为它比较有效率而且易操作。但参数估计法也存在一定的问题,对模型设定所作的假定较强,这可能导致较大的“设定误差”。比如,如果真实总体并非正态分布,甚至偏离正态分布较远,则在正态分布前提下所作的统计推断可能有较大偏差。换言之,由于参数估计法对模型设定的依赖性较强,故可能不够稳健。近几十年发展起来的非参数估计法一般对模型的具体分布不做任何假定,故更为稳健。但是非参数估计法也存在缺点,要求的样本容量较大,且估计量收敛到真实值的速度也较慢。总之,非参数估计方法与传统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论