经济计量方法导论 第六讲ppt课件_第1页
经济计量方法导论 第六讲ppt课件_第2页
经济计量方法导论 第六讲ppt课件_第3页
经济计量方法导论 第六讲ppt课件_第4页
经济计量方法导论 第六讲ppt课件_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,第六讲,限值因变量模型,.,限值因变量(limiteddependentvariable,LDV):即取值范围明显受到限制的因变量例:因变量值取1/0(是否购买)例:因变量为非负数(出险理赔次数)等二值因变量的回归建模线性概率模型、对数单位模型、概率单位模型不完整观测样本和非随机样本的回归建模断尾正态回归模型、截取正态回归模型、托宾模型泊松回归模型,概述,.,二值因变量回归建模,.,二值因变量:因变量只取0/1两个值二值响应模型(binaryresponsemodels):用于二值因变量的回归建模,目标:研究响应概率给定自变量x条件下,因变量y取1的概率二值响应模型主要包括线性概率模型对数单位模型概率单位模型,二值因变量回归建模,响应概率,.,线性概率模型(linearprobabilitymodel,LPM)(7.5节)是一种最简单的二值响应模型源于一般线回归模型模型形式为:系数的含义:j度量了因xj的变化导致y成功(取1)概率的平均变化:,简单的二值响应模型-线性概率模型,.,线性概率模型示例:分析影响妇女外出工作的因素(MROZ.WFL)是否工作,其他收入来源,受教育程度,工作经历,年龄,年龄小于6岁的子女数,年龄在6-18岁之间的子女数,.,线性概率模型的问题:无法保证模型给出的概率值限制在0-1范围内前例中,当:解决方法:预测值小于0.5的取0,大于等于0.5的取1,educ小于3.84时概率为负数;本例中的educ均大于5,虽不必担心,但仍为一个潜在问题,.,线性概率模型的问题:线性概率模型反映了概率与自变量取值之间的线性相关,无法反映非线性关系例:家庭收入和购买商品房的概率违背了高斯马尔科夫假定,当y为二值变量时:表明:除非概率与任何一个x都不相关,否则一定存在异方差,.,复杂的二值响应模型目的:克服线性概率模型的局限性策略:G(z)的函数值限制在0-1之间,一般为累积分布函数(cumulativedistributionfunction,CDF)种类:对数单位模型和概率单位模型差异:主要体现在G函数的具体形式上问题:G函数具体形式的选择?,复杂的二值响应模型,.,选择G函数具体形式策略的出发点以满足经典线性模型假设的潜变量模型为基础潜变量:其值无法观测到的变量(这里为y*,如购买带来的效应)显变量:其值能被观测到的变量(这里为y,取1或0)y*大于0时,y=1;y*小于等于0时,y=0于是:G的具体形式取决于e的分布,复杂的二值响应模型,x对潜变量均值的影响方向与对P(y=1|x)的影响方向相同,.,若e是逻辑斯蒂随机变量,选用Logit模型概率密度函数(PDF)g为:G是逻辑斯蒂函数,为标准逻辑斯蒂随机变量的累积分布函数(CDF):,对数单位模型(LogitModel),概率与自变量呈非线性关系,与正态分布的形状接近,g(0)=0.25,.,若e服从正态分布,选用Probit模型G是标准正态的累积分布函数,概率单位模型(ProbitModel),概率与自变量呈非线性关系,(0)=1/sqrt(2)=0.4,逻辑斯蒂函数与正态分布CDF的形状接近,前者较平坦些,正态分布趋近更快些,.,极大似然估计(Maximumlikelihoodestimation,MLE):在所有可能的值中选择使样本有最大似然性的基本思路:在给定Xi下yi的概率合写为:似然函数与联合概率密度函数形式相同:对数似然函数:,模型的参数估计,.,Logit模型具体为:Probit模型具体为:,求使对数似然函数达到最大时的,.,解释变量的偏效应,因为:二值响应模型所以:j表示xj变化一个单位引起的I的平均变化(图中横坐标的变化),含义不直观,关心图中阴影面积的变化,.,解释变量的偏效应,关心:xj变化一个单位引起的响应概率P的变化当xj取值是大致连续,xj变化极小时响应概率的变化近似为图中红色部分的面积,xj的偏效应不仅与j有关,还与比例因子(这里为概率密度函数)有关,即与xj的具体取值有关,是非线性的,比例因子,.,为方便量化x的偏效应,计算两种偏效应:第一:平均个人偏效应(partialeffectattheaverage,PEA)将x以均值代入,计算比例因子:乘以j得到xj的平均个人偏效应不足:有时x的均值是没有意义的第二:平均偏效应(averagepartialeffect,APE),常用以概率密度均值作为比例因子:乘以j得到xj的平均偏效应比例因子与概率密度函数有关Logit模型为:Probit模型为:,.,理论上,Logit和Probit的选择取决于潜变量模型误差项分布的假设Logit和Probit偏效应的精确对比:不仅看j,还需乘以各自的比例因子Logit和Probit偏效应的粗略对比:对数单位模型中:概率单位模型中:若两模型给出大致相同的偏效应估计,则两j的关系:,复杂二值响应模型的比较,概率单位模型的j乘以0.4/0.25=1.6,或,对数单位模型的j除以1.6,两者才可对比,.,Logit模型和Probit模型的示例:分析影响妇女外出工作的因素(MROZ.WFL),.,概率与自变量呈非线性,Logit模型的较Probit模型,实际含义更直观明显Logit模型中:,LogitP的取值范围满足一般线性模型的要求,Logit变换,是一种连接函数,.,的实际意义仍不明显,例:有x1,x2两个自变量,x1是二值解释变量。当x1从0变化到1时:,优势(odds),优势比,自变量变化一个单位引起响应概率比(相对风险)近似为exp(),Logit模型中:于是:,自变量变化一个单位引起的优势比为exp(),接近0时:,.,Logit模型中的示例:分析影响妇女外出工作的因素(MROZ.WFL),妇女受教育年份增加一年,平均外出工作的概率是原来的exp(0.22)=1.25倍,.,通常的预测依据:概率阈值评价指标1:通过混淆矩阵判断阈值是否恰当,二值响应模型的评价,例:分析影响妇女外出工作的因素(MROZ.WFL),.,评价指标1:通过正确预测百分比判断阈值是否恰当例:分析影响妇女外出工作的因素(MROZ.WFL),y=0的325个观测中,预测概率小于0.5的有207个,其余有118;0类预测正确率63.69%,总正确率73.57%;与常数模型相比,该模型对0类的预测性能较好,提升了63.69%,对1类的预测性能不好,下降了18.39%,总体提升了16.73%63.69/100、-18.93/0、16.73/43.16混淆矩阵的期望频数分布不足:受样本分布的影响,尤其在非平衡样本中,.,评价指标2:麦克法登(McFadden)的伪R2(pseudoR-squared),,分子为当前模型的对数似然函数值,分母是只有截距项模型的对数似然函数值对数似然函数值越大,表明所在模型参数下得到特定样本的的可能性越大,模型的拟和优度高;反之;如果对数似然比与1无显著差异,则说明自变量对LogitP的线性解释无显著贡献;如果对数似然比远远小于1,与1有显著差异,则说明解释变量对LogitP的线性有显著贡献,若现有解释变量没有解释能力,则:越接近1越好(取不到1),等于1,伪R2等于0,.,McFadden伪R2示例:分析影响妇女外出工作的因素(MROZ.WFL),.,非随机样本不完整观测样本的回归建模,.,非随机样本:采用非概率抽样方式获得的样本(9.5节)外生样本选择(exendogenoussampleselection):以自变量为依据,根据自变量取值范围有针对性地进行样本选择例:研究年龄职业等因素对年收入(因变量)影响时,重点考察中年人群,即中年人群入样基于外生样本选择方式获得的非随机样本,采用OLS,估计量具有良好特性因为:目的是得到E(y|x),在由xi取值决定的任何一个子总体中研究E(y|x)都是一样的,非随机样本,.,非随机样本:采用非概率抽样方式获得的样本内生样本选择(endogenoussampleselection):以因变量为依据,根据因变量取值范围有针对性地进行样本选择例:研究年龄职业等因素对年收入(因变量)影响时,只考察到了低收入人群,即低收入人群入样,.,不完整观测样本:在随机样本中,有部分观测的因变量的具体取值无法确定例:研究年收入(因变量)和受教育年份关系时,采用随机抽样方式调查。只获得了年收入5万元以下(或以上)人群的具体年收入值,其余人年收入的具体取值不确定,只知道其不低于(或不高于)5万元调查中的“顶端编码(topcoding)”例:顶端编码是:5万元以上特点:随机样本因变量取值不完整,受限制观测,不完整观测样本,.,问:不完整观测样本回归建模时,可否忽略顶端编码观测;答:量大则不能忽略因变量取值特点:在大于(或小于)某值的区间上连续取值;有大量不可忽略的观测,因变量取值集中在一个点上类似的应用问题例:耐用消费品(汽车)支出yi,要么大于(表示该耐用消费品的最低支出水平),要么等于零虽然并非不完整观测样本,但性质很类似:随机样本,因变量取值受限制OLS估计不恰当,通常采用截取正态回归模型或托宾模型,.,断尾正态回归模型(Truncatednormalregressionmodel):针对基于内生样本选择方式获得的非随机样本例:研究年龄等因素对年收入(y)影响时重点考察高收入人群,即没有观测y小于的样本断尾类型:上断尾(y大于的无观测)、下断尾(y小于的无观测)断尾正态回归模型派生于满足经典线性模型假设的潜变量模型,以下断尾为例:,断尾正态回归模型,.,给定x下y*的概率密度函数为:截距放入x中,()为标准正态分布的PDF因仅有y*的样本(认为截取了原来分布的一部分),密度函数下方的面积不再等于1。Greene2003年提出在y*的PDF(归一化处理),即给定x下y的概率密度函数:,断尾正态分布,.,断尾正态分布的参数估计,采用极大似然法估计参数似然函数为:对数似然函数为:最大化对数似然函数,得到(潜变量模型中的斜率参数)和的极大似然估计值,.,断尾正态回归模型,断尾正态回归模型:描述了因变量的期望:直观上:下断尾中,E(y)大于E(y*);上断尾中,E(y)小于E(y*)依据:若x是服从均值为方差为2的正态分布的随机变量,有:,.,因为:所以:因为:所以,对于任意c,都有:称为逆米尔斯比率(inverseMillsratio),是标准正态PDF与标准正态CDF在c处的值之比可见:潜变量Y*的期望不是Y期望的一致性估计,偏误为。对样本采用OLS估计是有偏误的,(时y等于y*(无限观测值);y*0时y等于y*(无限观测值);y*0)同断尾正态回归模型又因为:所以:,.,Tobit模型(因变量的期望)为:E(y|x)是x和的非线性函数,托宾模型,.,因为:所以,xj的偏效应:结论:xj的偏效应不仅与潜变量模型中的j有关,还与比例因子有关.通常APE比例因子取:对偏效应估计很重要对样本采用OLS估计得到的偏效应需乘以比例因子,才与Tobit模型的偏效应有可比性,进而判断Tobit模型的效果,比例因子,取值在(0-1)之间,托宾模型解释变量的偏效应,.,忽略角点解响应且采用断尾回归模型:不忽略角点解响应且采用Tobit模型:两者对因变量期望的估计相差(x/)倍,即样本中非角点解响应的比例所以:当y=0的观测很少,断尾回归与Tobit模型的估计近似相等;否则,应采用Tobit模型,断尾回归模型与托宾模型,.,断尾正态回归模型的示例(例17.2MROZ.WFL):已婚妇女外出工作小时数的影响因素分析(受教育程度)采用断尾回归:735人中325人工作小时数为0,视为断尾,.,断尾回归:,潜变量模型,断尾回归模型,.,截取回归:,.,泊松回归模型(Poissonregressionmodel)解决因变量为计数变量(countvariable)的问题例:研究驾龄等因素对车辆保险赔付平均次数(y)的影响;给定驾龄等自变量,赔付次数为某次的概率计数变量可能为0,可选择指数模型:,泊松回归模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论