经济计量方法导论第六讲演示_第1页
经济计量方法导论第六讲演示_第2页
经济计量方法导论第六讲演示_第3页
经济计量方法导论第六讲演示_第4页
经济计量方法导论第六讲演示_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(优选)经济计量方法导论第六讲当前1页,总共54页。限值因变量(limiteddependentvariable,LDV):即取值范围明显受到限制的因变量例:因变量值取1/0(是否购买)例:因变量为非负数(出险理赔次数)等二值因变量的回归建模线性概率模型、对数单位模型、概率单位模型不完整观测样本和非随机样本的回归建模断尾正态回归模型、截取正态回归模型、托宾模型泊松回归模型概述当前2页,总共54页。二值因变量回归建模当前3页,总共54页。二值因变量:因变量只取0/1两个值二值响应模型(binaryresponsemodels):用于二值因变量的回归建模,目标:研究响应概率给定自变量x条件下,因变量y取1的概率二值响应模型主要包括线性概率模型对数单位模型概率单位模型二值因变量回归建模响应概率当前4页,总共54页。线性概率模型(linearprobabilitymodel,LPM)(7.5节)是一种最简单的二值响应模型源于一般线回归模型模型形式为:系数的含义:j度量了因xj的变化导致y成功(取1)概率的平均变化:简单的二值响应模型

---线性概率模型当前5页,总共54页。线性概率模型示例:分析影响妇女外出工作的因素(MROZ.WFL)是否工作,其他收入来源,受教育程度,工作经历,年龄,年龄小于6岁的子女数,年龄在6-18岁之间的子女数当前6页,总共54页。线性概率模型的问题:无法保证模型给出的概率值限制在0-1范围内前例中,当:解决方法:预测值小于0.5的取0,大于等于0.5的取1educ小于3.84时概率为负数;本例中的educ均大于5,虽不必担心,但仍为一个潜在问题当前7页,总共54页。线性概率模型的问题:线性概率模型反映了概率与自变量取值之间的线性相关,无法反映非线性关系例:家庭收入和购买商品房的概率违背了高斯-马尔科夫假定,当y为二值变量时:表明:除非概率与任何一个x都不相关,否则一定存在异方差当前8页,总共54页。复杂的二值响应模型目的:克服线性概率模型的局限性策略:G(z)的函数值限制在0-1之间,一般为累积分布函数(cumulativedistributionfunction,CDF)种类:对数单位模型和概率单位模型差异:主要体现在G函数的具体形式上问题:G函数具体形式的选择?复杂的二值响应模型当前9页,总共54页。选择G函数具体形式策略的出发点以满足经典线性模型假设的潜变量模型为基础潜变量:其值无法观测到的变量(这里为y*,如购买带来的效应)显变量:其值能被观测到的变量(这里为y,取1或0)y*大于0时,y=1;y*小于等于0时,y=0于是:G的具体形式取决于e的分布复杂的二值响应模型x对潜变量均值的影响方向与对P(y=1|x)的影响方向相同当前10页,总共54页。若e是逻辑斯蒂随机变量,选用Logit模型概率密度函数(PDF)g为:G是逻辑斯蒂函数,为标准逻辑斯蒂随机变量的累积分布函数(CDF):对数单位模型(LogitModel)概率与自变量呈非线性关系与正态分布的形状接近g(0)=0.25当前11页,总共54页。若e服从正态分布,选用Probit模型G是标准正态的累积分布函数概率单位模型(ProbitModel)概率与自变量呈非线性关系(0)=1/sqrt(2)=0.4逻辑斯蒂函数与正态分布CDF的形状接近,前者较平坦些,正态分布趋近更快些当前12页,总共54页。极大似然估计(Maximumlikelihoodestimation,MLE):在所有可能的值中选择使样本有最大似然性的基本思路:在给定Xi下yi的概率合写为:似然函数与联合概率密度函数形式相同:对数似然函数:模型的参数估计当前13页,总共54页。Logit模型具体为:Probit模型具体为:求使对数似然函数达到最大时的β代入整理当前14页,总共54页。解释变量的偏效应因为:二值响应模型所以:βj表示xj变化一个单位引起的I的平均变化(图中横坐标的变化),含义不直观G的反函数关心图中阴影面积的变化当前15页,总共54页。解释变量的偏效应关心:xj变化一个单位引起的响应概率P的变化当xj取值是大致连续,xj变化极小时响应概率的变化近似为图中红色部分的面积xj的偏效应不仅与βj有关,还与比例因子(这里为概率密度函数)有关,即与xj的具体取值有关,是非线性的比例因子当前16页,总共54页。为方便量化x的偏效应,计算两种偏效应:第一:平均个人偏效应(partialeffectattheaverage,PEA)将x以均值代入,计算比例因子:乘以βj得到xj的平均个人偏效应不足:有时x的均值是没有意义的第二:平均偏效应(averagepartialeffect,APE),常用以概率密度均值作为比例因子:乘以βj得到xj的平均偏效应比例因子与概率密度函数有关Logit模型为:Probit模型为:当前17页,总共54页。理论上,Logit和Probit的选择取决于潜变量模型误差项分布的假设Logit和Probit偏效应的精确对比:不仅看βj,还需乘以各自的比例因子

Logit和Probit偏效应的粗略对比:对数单位模型中:概率单位模型中:若两模型给出大致相同的偏效应估计,则两βj的关系:(0)=1/sqrt(2)=0.4g(0)=0.25复杂二值响应模型的比较概率单位模型的βj乘以0.4/0.25=1.6,或,对数单位模型的βj除以1.6,两者才可对比当前18页,总共54页。Logit模型和Probit模型的示例:分析影响妇女外出工作的因素(MROZ.WFL)当前19页,总共54页。概率与自变量呈非线性Logit模型的较Probit模型,实际含义更直观明显Logit模型中:LogitP的取值范围满足一般线性模型的要求Logit变换,是一种连接函数当前20页,总共54页。β的实际意义仍不明显例:有x1,x2两个自变量,x1是二值解释变量。当x1从0变化到1时:优势(odds)优势比自变量变化一个单位引起响应概率比(相对风险)近似为exp(β)Logit模型中:于是:自变量变化一个单位引起的优势比为exp(β)接近0时:当前21页,总共54页。Logit模型中的示例:分析影响妇女外出工作的因素(MROZ.WFL)妇女受教育年份增加一年,平均外出工作的概率是原来的exp(0.22)=1.25倍当前22页,总共54页。通常的预测依据:概率阈值评价指标1:通过混淆矩阵判断阈值是否恰当二值响应模型的评价例:分析影响妇女外出工作的因素(MROZ.WFL)

实际值01预测值0

1

当前23页,总共54页。评价指标1:通过正确预测百分比判断阈值是否恰当例:分析影响妇女外出工作的因素(MROZ.WFL)y=0的325个观测中,预测概率小于0.5的有207个,其余有118;0类预测正确率63.69%,总正确率73.57%;与常数模型相比,该模型对0类的预测性能较好,提升了63.69%,对1类的预测性能不好,下降了18.39%,总体提升了16.73%63.69/100、-18.93/0、16.73/43.16混淆矩阵的期望频数分布不足:受样本分布的影响,尤其在非平衡样本中

01合计正确率01402016087.50%1400400%合计1802020070%当前24页,总共54页。评价指标2:麦克法登(McFadden)的伪R2(pseudoR-squared),分子为当前模型的对数似然函数值,分母是只有截距项模型的对数似然函数值对数似然函数值越大,表明所在模型参数下得到特定样本的的可能性越大,模型的拟和优度高;反之;如果对数似然比与1无显著差异,则说明自变量对LogitP的线性解释无显著贡献;如果对数似然比远远小于1,与1有显著差异,则说明解释变量对LogitP的线性有显著贡献若现有解释变量没有解释能力,则:越接近1越好(取不到1)等于1,伪R2等于0当前25页,总共54页。McFadden伪R2示例:分析影响妇女外出工作的因素(MROZ.WFL)当前26页,总共54页。非随机样本

不完整观测样本

的回归建模当前27页,总共54页。非随机样本:采用非概率抽样方式获得的样本(9.5节)外生样本选择(exendogenoussampleselection):以自变量为依据,根据自变量取值范围有针对性地进行样本选择例:研究年龄职业等因素对年收入(因变量)影响时,重点考察中年人群,即中年人群入样基于外生样本选择方式获得的非随机样本,采用OLS,估计量具有良好特性因为:目的是得到E(y|x),在由xi取值决定的任何一个子总体中研究E(y|x)都是一样的非随机样本当前28页,总共54页。非随机样本:采用非概率抽样方式获得的样本内生样本选择(endogenoussampleselection):以因变量为依据,根据因变量取值范围有针对性地进行样本选择例:研究年龄职业等因素对年收入(因变量)影响时,只考察到了低收入人群,即低收入人群入样只观测到5万元以下的样本。较总体中的真实回归线平坦,且不知道误差有多大!OLS估计存在偏差通常采用断尾正态回归模型当前29页,总共54页。不完整观测样本:在随机样本中,有部分观测的因变量的具体取值无法确定例:研究年收入(因变量)和受教育年份关系时,采用随机抽样方式调查。只获得了年收入5万元以下(或以上)人群的具体年收入值,其余人年收入的具体取值不确定,只知道其不低于(或不高于)5万元调查中的“顶端编码(topcoding)”例:顶端编码是:5万元以上特点:随机样本因变量取值不完整,受限制观测不完整观测样本当前30页,总共54页。问:不完整观测样本回归建模时,可否忽略顶端编码观测;答:量大则不能忽略因变量取值特点:在大于(或小于)某值的区间上连续取值;有大量不可忽略的观测,因变量取值集中在一个点上类似的应用问题例:耐用消费品(汽车)支出yi,要么大于(表示该耐用消费品的最低支出水平),要么等于零虽然并非不完整观测样本,但性质很类似:随机样本,因变量取值受限制OLS估计不恰当,通常采用截取正态回归模型或托宾模型当前31页,总共54页。断尾正态回归模型(Truncatednormalregressionmodel):针对基于内生样本选择方式获得的非随机样本例:研究年龄等因素对年收入(y)影响时重点考察高收入人群,即没有观测y小于的样本断尾类型:上断尾(y大于的无观测)、下断尾(y小于的无观测)断尾正态回归模型派生于满足经典线性模型假设的潜变量模型,以下断尾为例:断尾正态回归模型当前32页,总共54页。给定x下y*的概率密度函数为:截距放入x中,()为标准正态分布的PDF因仅有y*>的样本(认为截取了原来分布的一部分),密度函数下方的面积不再等于1。Greene2003年提出在y*>的PDF(归一化处理),即给定x下y的概率密度函数:断尾正态分布当前33页,总共54页。断尾正态分布的参数估计采用极大似然法估计参数似然函数为:对数似然函数为:最大化对数似然函数,得到β(潜变量模型中的斜率参数)和σ的极大似然估计值当前34页,总共54页。断尾正态回归模型断尾正态回归模型:描述了因变量的期望:直观上:下断尾中,E(y)大于E(y*);上断尾中,E(y)小于E(y*)依据:若x是服从均值为μ方差为σ2的正态分布的随机变量,有:当前35页,总共54页。因为:所以:因为:所以,对于任意c,都有:称为逆米尔斯比率(inverseMillsratio),是标准正态PDF与标准正态CDF在c处的值之比可见:潜变量Y*的期望不是Y期望的一致性估计,偏误为σ。对样本采用OLS估计是有偏误的(<0)下断尾回归模型当前36页,总共54页。截取正态回归模型截取正态回归模型(censorednormalregressionmodel):针对不完整观测样本例:研究年收入(y)和受教育年份关系时,对y小于(或大于)的样本,已知y的具体值,其余样本y的具体值,只知道其不低于(或不高于)例:研究年收入(y)和受教育年份(x)关系时,部分人群的x被观测到了而y缺失。简单剔除存在缺失值的样本会造成信息丢失处理方法:根据x确定y不低于(或不高于),并指定为某个特定的值y当前37页,总共54页。截取正态回归模型截取类型:上截取(y大于的无具体值)、下截取(y小于的无具体值)处理方法:对无具体值的y,令其为y例:下截取中特点:y以受限制方式被观测:y*>时y等于y*(无限观测值);y*<

时y等于y(受限观测值)无限观测值均取实际观测值,受限观测值均截取为y通常:=y当前38页,总共54页。截取正态回归模型派生于满足经典线性模型假设的潜变量模型下截取为:上截取为:该问题可分成两个部分研究:无限观测值部分受限观测值部分截取正态回归模型与Tobit模型类似,在Tobit模型中讨论当前39页,总共54页。托宾模型(Tobit)模型属特殊的截取正态回归模型Tobit模型是经济学家Tobin,1958年研究耐用消费品需求时首先提出的经济计量学模型例:耐用消费品支出yi要么大于(表示该耐用消费品的最低支出水平),要么等于零与截取正态回归模型研究对象的不同:y是完整观测的;在严格为正时大致连续,但有相当多的观测其y=0(因比例较大不能忽略)。不可忽略的部分称为角点解响应(cornersolutionresponse)托宾模型当前40页,总共54页。Tobit模型类似于截取正态回归模型,派生于满足经典线性模型假设的潜变量模型特点:被解释变量以受限制方式被观测到y*>0时y等于y*(无限观测值);y*<0时y等于0(受限观测值)。无限制观测值均取实际观测值,受限观测值均截取为0该问题可分成两个部分研究=0y=0当y*大于0时,y等于y*当y*小于等于0时,y等于0托宾模型的思路当前41页,总共54页。第一部分:y*大于0部分y在正值上连续分布,给定xi下yi的密度等于给定x下y*的密度,密度函数为:截距放入x中,()为标准正态分布的PDF第二部分:当y*小于等于0部分y等于0的概率定义为y*小于0的概率u~N(0,2),u/服从标准正态分布当前42页,总共54页。参数估计:极大似然估计似然函数:d为示性变量,y*大于等于(这里为0)时取1,否则取0对数似然函数最大化对数似然函数,得到β(潜变量模型中的斜率参数)和σ的极大似然估计值托宾模型的参数估计当前43页,总共54页。Tobit模型描述了因变量的期望期望由两个部分组成:第二项:y=0时,第二项为0托宾模型断尾正态回归模型的期望当前44页,总共54页。第一项:E(y|y>0)同断尾正态回归模型又因为:所以:简写为当前45页,总共54页。Tobit模型(因变量的期望)为:E(y|x)是x和β的非线性函数托宾模型当前46页,总共54页。因为:所以,xj的偏效应:结论:xj的偏效应不仅与潜变量模型中的βj有关,还与比例因子有关.通常APE比例因子取:σ对偏效应估计很重要对样本采用OLS估计得到的偏效应需乘以比例因子,才与Tobit模型的偏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论