版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、二、限值因变量模型,限值因变量有哪些情形(limited dependent variable regression model, LDV,当因变量为定性变量或不连续变量或是受约束的变量时,统称为限值因变量回归模型。 不同的限值因变量模型中,因变量的情形不同,所使用的估计方法不同,如非线性最小二乘法,但使用最大似 然估计法较多,限值因变量有哪些情形(limited dependent variable regression model, LDV,线性概率模型(linear probability model,LPM)、对数单位模型(logit model)、概率单位模型(probit mode
2、l)、托比模型(tobit model)、泊松模型(possion model)、截取回归模型(censored regression model)、断尾回归模型(truncated regression model,二元选择模型(Binary outcome model,一、线性概率模型 二、Logit model 三、probit model 二元选择模型下的参数估计、解释、系数解释等,2.1 线性概率模型,因变量是一个取值为0,1的二值结果的分类变量 考虑模型: 其中:y表示已婚妇女是否参与劳动力市场, x为一系列自变量如收入的其他来源、经验、经验平方、年龄、小于6岁的子女数、家庭中6-
3、18岁的子女数。 (Example From Wooldridge,在线性概率模型中, 参数 度量的是在保持其他因素不变的情况下,因自变量 的变化导致成功概率的变化。用OLS来估计。 何为“成功”的定义?Y=1,example,Wooldridge(Mroz,1987,线性概率模型的缺陷,1、干扰项的非正态性,2、干扰的异方差性,Ui的方差依赖于Yi的条件期望值,后者又依赖于X的取值,所以Ui的方差最终依赖于X,3、 4、可疑的拟合优度R2 对于给定的X,Y不是0就是1,要不是位于横轴的一条线,要么是y=1的一条线,很难有LPM能很好地拟合这样的点,对于异方差问题,即使通过广义最小二乘法得到异
4、方差条件下的有效估计量,仍有下面问题: 1、概率拟合值仍可能落在(0,1)之外。 2、因为随机扰动项的分布不是正态的,是两点分布,所以该估计量不是有效估计量,是渐近有效估计量,线性概率模型的改进: 所估计的概率能落在0,1之间。同时对于所有的xi,当xi增加时,希望yi也单调增加或单调减少。显然累积概率分布函数能满足这样的要求,常用的包括logistic分布、正态分布、weibull分布、极值分布,但probit和logit分布最常用。 Weibull分布不假设对称性,P(Y=1|X)=exp(-exp(xb)(cdf) Log-log分布: P(Y=1|X)=1-exp(exp(-xb,Pr
5、obit和logistic分布,Probit曲线和logit曲线很相似。两条曲线都是在pi= 0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。两种分布的概率值分别见表1,2.2 Logit模型,在线性概率模型LPM中,假定响应概率对一系列参数 是线性的。 Logit模型也称为对数单位模型,表示为,link function,对数单位模型的特点,该模型是McFadden于1973年首次提出,采用的是logistic概率分布函数。从logit模型可以看出: logit模型的一个重要优点是把在 0,1区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比(也叫发生比率odds
6、)问题。 logit累积概率分布函数的斜率在pi= 0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于pi= 0.5附近的解释变量xi的变化对概率的变化影响较大,而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小,对数单位模型的特点,1、P保证落在0-1之间。 2、虽然L对X是线性,但P对X并不是线性。 3、斜率系数解释的是X的变化导致的L的变化,而不是概率的变化。 4、但我们关心的是X的变化导致的概率的变化,如何导出?在估计出系数后,利用 推导出。 5、如何估计,2.3 LOGIT模型的估计,采用极大似然估计法。为什么采用极大似然估计法? Stata命令: logit de
7、pvar indepvars if in weight , options,极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的 的估计值。从样本看,如果第一种选择发生了n次,第二种选择发生了N-n次。设采取第一种选择的概率是pi。采取第二种选择的概率是(1- pi)。重新将样本数据排列,使前n个观测值为第一种选择,后N-n个观测值为第二种选择,则似然函数是,发生比率(odds)概念的延伸,1、发生比率比(odds ratio) 如男性相对于女性的失业发生比率比为: 2、相对风险(relative risk) 指某一暴露期内(exposure interval)的相对发生概率。风险是指所
8、关注事件在某一给定时期内的发生概率。 example,设有两个规模各为25人的试验组,试验组服用某种药物,控制组服用安慰剂。若试验组中有2人感染了疾病,控制组中有3人感染了疾病。则试验组的患病风险为2/25=0.08,控制组为3/25=0.12,则试验组相对于控制组的相对患病风险为0.08/0.12=0.67.说明试验组的患病风险大约为控制组的三分之二。 当事件发生的概率很小时,发生比率比常被用来近似地表示相对风险,Probit模型,为了解释二分因变量,除了逻辑斯蒂函数以外,还可以采用正态分布函数。这就是Probit模型,也称为概率单位模型。 若G采取如下形式 这样可得到Probit mode
9、l。Probit模型的估计:极大似然估计法 STATA命令: probit depvar indepvars if in weight , probit_options,2.4 潜变量模型导出的logit和probit模型,Logit and probit model 都可以由潜变量模型推导出来。 以公共交通工具和私人交通工具的选择为例。如果某一个体选择公共交通工具或私人交通工具的效用分别表示为,无论对于标准正态分布还是逻辑分布,上式都可以写成 似然函数可写为: 其中f表示概率密度函数,模型回归系数的解释,1、由于Probit 与Logit 使用的分布函数不同,其参数估计值并不 直接可比。须计
10、算边际效应,然后进行比较。 2、但对于非线性模型,边际效应不是常数,随着解释变量而变。 常用的边际效应概念: (1) 平均边际效应(average marginal effect),即分别计算在每个样本观测值上的边际效应,然后进行简单算术平均。 (2) 样本均值处的边际效应 (marginal effect at mean),即在 X=均值处的边际效应。 (3) 在某代表值处的边际效应 (marginal effect at a representative value),即给定x*,在x=x*处的边际效应。 3、在非线性模型中,样本均值处的个体行为并不等于样本中个体 的平均行为(averag
11、e behavior of individuals differs from behavior of the average individual)。 4、对于政策分析而言,平均边际效应(Stata 的默认方法),或在某 代表值处的边际效应通常更有意义,模型回归系数解释 1.以发生比率比的方式解释logit参数估计值(适用于虚拟变量)。 含义为:在控制了收入的情况下,女性参与投票的发生几率几乎是男性的2倍。 对于连续变量,回归系数的指数表明该自变量每上升一个单位所带来的发生比率的倍数变化,即在性别相同的情况下,收入每增加1000元,投票的发生比率将是原来的1.01倍(exp(0.012),模型
12、回归系数的解释,对于logit和probit模型,我们关注的是自变量对响应概率的影响。若 是连续的,对 的较小变化,则有 通常是将 的样本平均值带入上式来求。 Stata中,可通过margins的命令来求得边际效应,模型评价与比较 1、 的局限性:因变量本身不含有尺度信息,是类别变量。 2、拟合优度检验 3、对数似然比统计量 4、嵌套模型比较,1、拟合优度检验: R2=0,表示模型完全不拟合样本观测值,R2=1,表示模型完全拟合样本观测值。(McFadden R-squared,2、总体显著性检验:构造一个似然比统计量, 其中的零假设是所有参数都为0,备择假设是不全为0。 为模型满足零假设时的
13、似然函数值, 为模型估计得到的似然函数值。若LR较大,倾向于拒绝零假设而接受备择假设。.自由度为当前模型中参数的个数与零模型中参数的个数之差,嵌套模型之间的比较,如果模型之间是一种嵌套关系,对两个模型孰优孰劣进行比较时,可以用卡方差异得分来进行检验。 卡方差异得分等于无约束模型的模型 减去约束模型的模型 ,相应自由度为残差自由度的差,比较模型1和2孰优孰劣 统计不显著,说明两个模型在数据拟合上不存在显著差别.但是模型2更俭约,更好点,统计检验与推断,单一参数检验: 1、Wald检验:检验某一变量是否显著,依靠的是最大似然估计方法的大样本性质. 在零假设条件下 Agresti(1996)曾指出,
14、对于样本规模较小的情况,似然比检验要比Wald检验更可靠。 2、似然比检验 如果两个模型只差一个自变量,可看做是存在嵌套关系的模型,可以用嵌套模型的检验,多参数检验: 1、Wald检验:也可广义化地应用于多个约束的情况。待检验的零假设为,2、似然比检验 嵌套模型似然比检验也可以用于对多个约束条件进行检验,而这也是常用的联合检验多个参数估计值的方法。 设M1为具有较多约束的模型,对应的似然函数值为L1, M2为具有较少约束的模型,对应的似然函数值为L2,那么似然比卡方统计量为: 自由度为大模型M2中参数个数与小模型中参数个数之差。 注:M1嵌套于M2,Wald统计量和似然比统计量都利用了大样本性质。因此,就相同数据、相同模型做相同的假设检验,它们的结果未必完全相同。但随着样本量增加,它们会逐渐趋于相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院感染专项检查工作方案
- 现代文学名篇《匆匆》教学设计范例
- 商品房买卖合同法律案例分析
- 同城纹身活动策划方案
- 药用醋营销方案
- 顶级营销方案类
- 阿尔及利亚施工方案
- 支队元旦活动方案策划
- 供应链咨询辅导方案设计
- 餐馆数据营销方案
- 2022年山东省职业院校技能大赛中职组“现代物流综合作业”赛项规程
- 2024电力检修工程预算定额使用指南
- 老人护理防压疮
- 2025年充气式假目标项目市场调查研究报告
- 幼儿园适用1-100的数字描红(可打印)
- T/JSGS 011-2023节水灌溉工程施工技术规范
- T/CNCIA 03002-2020涂料(漆膜)抗病毒性能测试方法
- T/CMA-RQ 120-2023燃气表检测用光学接口及通信协议
- T/CCSAS 025-2023化工企业作业安全分析(JSA)实施指南
- 第三届全国技能大赛竞赛(花艺赛项)选拔赛备考试题(附答案)
- 20人民英雄永垂不朽 课件
评论
0/150
提交评论