第9讲二元结果模型

上传人：2*** IP属地：湖北上传时间：2022-01-15 格式：DOCX 页数：9 大小：54.04KB 积分：28 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第9讲离散选择模型之二元结果模型参考书目：1 Long, J. S., and J. Freese. 2006. Regression Models for Categorical Dependent Variables Using Stata. 2nd ed. College Station, TX: Stata Press教学视频：Logistic regression, part 1: Binary predictorsLogistic regression, part 2: Continuous predictorsLogistic regression, part 3: Facto

2、r variables一、离散被解释变量的例子二元结果模型：考研或不考研；就业或待业；买房或不买房；买保险或不买保险；贷款申请被批准或拒绝；出国或不出国；回国或不回国；战争或和平；医药实验中的生或死。多元结果模型：对不同交通方式的选择(走路、骑车、坐车上班)；对不同职业的选择。这类模型被称为“离散选择模型”(discrete choice model) 。考虑到离散被解释变量的特点，通常不宜用OLS进行回归。假设个体只有两种选择，比如 y=1 (考研)或 y=0 (不考研)。是否考研，取决于研究生毕业后的预期收入、个人兴趣、本科毕业后直接就业的收入前景等。所有解释变量都包括在向量x中。二、二元

3、结果模型的微观基础对于二元选择行为，可通过“潜变量”(latent variable)概括该行为的净收益(收益减去成本)。如果净收益大于0，则选择做；否则，选择不做。y*=x + 其中，净收益y*为潜变量，不可观测。选择规则为y=1，若y*>0y=0，若y*0如果为正态分布，则为Probit；如果为逻辑分布，则为Logit。logistic Logistic regression, reporting odds ratios(Logistic回归，报告优势比/比值比)对于Logit模型，记p= P(y =1|x ) ，则1-P= P(y =0|x )。p /(1-p) 称为“几率比/优势

4、比/比值比”(odds ratio)。那么什么是几率比？举例说明，假设在检验药物疗效的随机实验中，“ y =1 ”表示“生”，“ y =0 ”表示“死”；则几率比为2意味着存活的概率是死亡概率的两倍。命令语法：logistic depvar indepvars if in weight ,options命令logistic拟合logistic回归模型，其中depvar是一个0/1变量（更准确地说，是一个0/非0变量）。logistic显示的估计结果是优势比；要想查看系数，运行logistic后，输入logit。一、概述logistic替代logit命令，通常是拟合最大似然logit模型的首选方

5、法。Stata使用logit和logistic意味着同样的事情：最大似然估计。并且两种命令会得到相同的结果。logistic命令通常优于logit命令，原因是logistic提供优势比而不是系数的估计结果。对于logistic回归的介绍，请参阅Lemeshow & Hosmer(2005)，Pagano & Gauvreau (2000，470487)，或Pampel (2000)；一个完整的，非数学的讨论，请参阅Kleinbaum & Klein (2010)；一个更深入的讨论，请参阅Hosmer, Lemeshow, & Sturdivant (2013)。

6、Gould (2000)讨论了关于logistic回归的解释。Dupont (2009)和Hilbe (2009) 用Stata实例讨论了logistic回归。Vittinghoff et al. (2012)重点讨论了模型设定问题。Stata有一系列命令用来估计二分类或多分类因变量模型。Long和Freese (2014)专门论述了如何使用Stata拟合此类模型。下面是一些常用估计命令的列表。help estimation commands提供了Stata全部估计命令的完整列表。asclogitR麦克法登离散选择模型(McFaddens choice)asmprobitR多项式probit模

7、型asroprobitR排序probit模型binregR二项式的广义线性模型biprobitR二元probit模型blogitR分组数据的logit模型bprobitR分组数据的probit模型clogitR条件(固定效应)logistic回归cloglogR互补重对数模型exlogisticR精确logistic回归glmR广义线性模型glogitR分组数据的加权最小二乘logistic回归gprobitR分组数据的加权最小二乘probit回归 heckoprobitR有序probit的样本选择模型heckprobitRprobit的样本选择模型hetprobitR异方差probit模型i

8、vprobitR具有连续内生变量的probit模型logitRLogistic回归分析，报告系数mecloglogME多层次混合效应互补双对数回归meglmME多层次混合效应广义线性模型melogitME多层次混合效应logistic回归meprobitME多层次混合效应probit回归mlogitR多分类因变量logistic回归mprobitR多分类因变量 probit 回归nlogitR嵌套logit回归ologitR有序logistic回归oprobitR有序probit 回归probitRProbit回归rologitR有序秩logistic回归scobitRSkewed logis

9、tic regressionslogitRStereotype logistic regressionsvy: cmdSVY svy estimation命令的svy版 xtcloglogXT随机效应和总体平均cloglog模型xtgeeXTGEE 总体平均广义线性模型xtlogitXT固定效应、随机效应和总体平均logit模型xtologitXT随机效应有序logistic模型xtoprobitXT随机效应有序probit模型xtprobitXT随机效应和总体平均probit模型例：估计决定美国妇女就业与否的二元结果模型。数据集包括以下变量：虚拟变量work(1=就业)，age(年龄)，虚拟

10、变量married(1=已婚)，children(子女数)，education(受教育年限)。考虑以下模型：worki=0+1agei+2marriedi+3childreni+4educationi+i作为对照，首先使用OLS进行线性概率模型（LPM）估计：use womenwk1,clear (原数据是womenwk.dta)reg work age married children educationprobit work age married children education,nologmfx (计算probit模型在样本均值处的边际效应，与OLS估计的回归系数进行比较)esta

11、t classification (计算预测准确的百分比)logit work age married children education,nologmfxestat classificationhetprob work age married children education,het(age married children education) nolog (p值为0.78，所以接受“同方差”的原假设。)generate age2=age*agegenerate agemari=age*marriedgenerate agechr=age*childrenquietly logit

12、work age married children education age2 agemari agechrtest age2 agemari agechr (接受零假设)quietly logit work age married children educationestimates store blogitquietly probit work age married children educationestimates store bprobitquietly regress work age married children educationestimates store bo

13、lsquietly logit work age married children education,vce(robust)estimates store blogitrquietly probit work age married children education,vce(robust)estimates store bprobitrquietly regress work age married children education,vce(robust)estimates store bolsrestimates table blogit blogitr bprobit bprob

14、itr bols bolsr, t b(%7.3f) stfmt(%8.2f)例子：航天飞机数据use shuttle,clear(美国航天飞机25次飞行数据，包括1986年挑战者号最后一次升空失败的飞行)describe(distress:助推结点一处或多处受损；temp:助推结点的温度；date:从1960.1.1起的消逝天数)generate date=mdy(month,day,year)tabulate distresstabulate distress,nolabelgenerate any=distressreplace any=1 if distress=2 (建立虚拟变量an

15、y，0代表无损坏，1代表有1处或更多损坏)logistic any date (logistic提供优势比，eb。它的意义是，自变量每增加一个单位时，事件（y=1）的发生比的变化倍数（如有其他自变量，则以其他自变量保持不变为条件）)predict phat (取得预测概率)label variable phat “Predicted P(distress>=1)”graph twoway connected phat dateestat classification（默认应用0.5的概率作为分割点）。几种符号的含义：D：一个观测中所关注的事件确实发生（y=1）。在本例中，D表示结点损坏发

16、生了D：一个观测中所关注的事件没有发生（y=0）。在本例中，D表示结点损坏没发生+：模型预测概率值大于等于分割点。本例中，+表示模型预测的事故发生概率为0.5或更高-：模型预测概率值小于分割点。Pr(D|+)=12/16=75% (准确预测)Pr( -D|+)=4/16=25%Pr(D| -)=5/7=71.43%(准确预测)Pr( D| -) =2/7= 28.57%logistic any date temp(加入助推结点温度temp)根据拟合模型，结点温度每1度增量将使助推结点损坏发生比乘以0.84，也就是说温度每提高1度减少损坏发生比16%。卡方检验更有确定性。estat classi

17、fication （分类正确率提高到78.26%）三、条件效应标绘图（条件效应标绘图有助于理解logistic模型在概率方面意味着什么）quietly logit any date tempgenerate L1=_b_cons+_bdate*8569+_btemp*tempgenerate phat1=1/(1+exp(-L1)(date的第25百分位数为8569；L1是预测的logit值；phat1为相应的distress>=1的预测概率)label variable phat1 “P(distress>=1) | date=8569”generate L2=_b_cons+_

18、bdate*9341+_btemp*tempgenerate phat2=1/(1+exp(-L2)(date的第75百分位数为9341)label variable phat2 “P(distress>=1) | date=9341”graph twoway mspline phat1 temp,bands(50) | mspline phat2 temp,bands(50) |,ytitle(“Probability of thermal distress”) legend(label(1 “June 1983”) label(2 “July 1985”)(挑战者号的起飞温度为31,这将使它位于图的左侧顶部。这个分析预测出助推结点几乎是肯定要损坏的)四、诊断统计与标绘图(不讲)quietly logistic any date temppredict phat3label variable phat3 “Predicted probability”predict dx2,dx2label variable dx2 “Change in Pearson chi-squared”predict db,dbetalabel variable db “Influence”predict dd,ddev

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第9讲二元结果模型

文档简介

温馨提示

最新文档

评论

第9讲二元结果模型

文档简介

温馨提示

最新文档

评论

相关文档