第9讲 离散选择模型_第1页
第9讲 离散选择模型_第2页
第9讲 离散选择模型_第3页
第9讲 离散选择模型_第4页
第9讲 离散选择模型_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第9讲 离散被解释变量模型主要内容 1-二值选择模型 2-多值选择模型第第1 1节节 二值选择模型二值选择模型 一 实验基本原理 二 实验内容和数据来源 根据某统计资料,得到美国妇女就业的数据统计集,形成数据文件“womenwork.dta”,用来研究影响美国妇女就业的因素。被解释变量是work(就业work=1,不就业work=0),解释变量是age(年龄),married(婚否),children(子女数),education(教育年限)。完整的数据在本书附带光盘里的data文件夹的“womenwork.dta”工作文件中。 利用以上数据,建立合适模型对就业的影响因素进行计量分析,由于被解

2、释变量取值有两个可以建立二值选择模型来分析问题。 三 实验操作指导1.建立建立logit模型分析模型分析(1)使用logit模型回归Stata中使用logit模型回归的命令语句格式如下:logit y x1 x2 if in weight ,options该命令中logit表示使用logit模型进行回归,相应y表示模型的被解释变量,x表示模型的解释变量,if表示logit的回归条件,in表示回归的范围,weight表示给观测值的加入权重,options的内容如下表所示:本实验中,在Stata命令窗口中输入如下命令。use womenwork, clear输入此命令来打开需要的数据文件。logi

3、t work age education married children输入此命令对被解释变量为work,解释变量为age、education、married、children的模型使用logit模型进行回归估计。在这个回归结果图中log likelihood即对数似然值,不断的试错迭代是logit模型的估计方法,在逐步进行回归时,通过比较不同模型的-2LL判断模型的拟合优度,选择取值更小的模型。LR chi2(4)是卡方检验的统计量,也就是回归模型无效假设所对应的似然比检验量;其中4为自由度,Probchi2 是其对应的P值,在这个估计结果显示以p=0显著说明模型的有效性。其实这两个指标与

4、线性回归结果中F统计量和P值的功能是大体一致的。另外结果中的Pseudo R2是准R2,虽然不等于R2,但可以用来检验模型对变量的解释力,因为二值选择模型是非线性模型,无法进行平方和分解,所以没有,但是准衡量的是对数似然函数的实际增加值占最大可能增加值的比重,所以也可以很好的衡量模型的拟合准确度。此logit模型中拟合优度为0.1882。coef是自变量对应的系数估计值,OLS通过t检验来检验估计量是否显著,logit模型通过z检验来判断其显著性;通过z检验结果可以看到此模型中系数均以p=0显著不为0。 (2)由于估计系数不像线性模型能够表示解释变量的边际效应,所以Stata中有额外的命令语句

5、来计算解释变量的边际效应: mfx compute if in ,options 此命令语句中mfx表示对回归之后的模型计算解释变量的边际效应,其中options内容如下表所示: 本实验中,在进行logit模型回归估计后,在Stata命令窗口中输入如下命令: mfx 此命令计算模型回归之后,解释变量取值在样本均值处的边际效应。 此输出结果显示了每一个解释变量的平均边际影响,另外读者可以自己设定计算在边际影响的点,其原理就是命令语句options中的at(atlist)将其具体化,例如“mfx, at (x1=0)”表示计算x1取值为0,其他解释变量取值在样本均值处的边际效应;而“mfx”默认是

6、在所有解释变量在样本平均值处的边际效应。 (3)计算模型预测的百分比来计算模型的拟合优度。 如果要检验这个分类的依据或者要获得每个预测值,可以利用此二值模型进行预测分析,Stata中二值选择模型的预测的命令语句如下所示: predict type newvar if in ,single_options 其中predict是表示对模型进行预测的命令;newvar表示预测新变量的名称,type可以表明设定新变量的类型;if和in表示对此预测设定的条件和范围;single_options的内容以下表所示: 本实验中,在Stata命令窗口中输入如下预测命令,可以得到预测结果图: predict p1

7、, pr 此命令可以获得此模型的个体估计的值并记为新变量p1 list work p1 此命令可以将实际值与估计值对应罗列,对比看到预测值和实际值的一致程度。 (1)ROC曲线(受试者操控曲线) 此曲线是指图9.3提到的敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图。Stata中绘画该ROC曲线命令语句为: lroc x if in weight ,options 其中lroc表示绘图ROC曲线命令,if和in表示对绘制图时的条件和范围的设定,weight表示对观测值的权重设定,另外命令中的自变量x不能单独使用,必须与options中beta(matname)同时使用,

8、而options的内容如下表所示: 本实验中,在以上工作后,在命令窗口中输入如下命令绘制ROC曲线图 lroc 因为准确率就是曲线下面的面积,读此图可以看到ROC曲线是完全在45度直线上面,所以准确率高于错误率,即准确率大于0.5。此图曲线下方面积=0.7806,就是预测的准确率是0.7806。 (2)goodness-of-fit拟合优度检验 此检验是考察该模型对所用数据的拟合优度,在Stata中命令语句为: estat gof if in weight ,group(#) all outsample table 其中,if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测

9、值的权重设定,group(#)表示使用合理的#分位数进行检验;all表示对所有观测值进行检验,若无后面可选项则默认就是all;outsample表示对估计区间外的样本调整自由度,table表示各组列表。 本实验中在Stata命令窗口输入如下命令检验此模型的拟合优度,然后可以得到检验结果: estat gof 读此图的方法是P值越大,说明模型的拟合优度越好。 2.建立建立probit模型分析模型分析 前面是使用logit模型对womenwork.dta进行分析,现在使用probit模型对此问题进行分析。两种方法在Stata中的操作是很一致的。 在Stata命令窗口中输入如下命令: use wom

10、enwork, clear 使用此命令打开所需要文件。 probit work age education married children 此命令表示使用probit模型进行回归。 此图的解读方法与Logit模型结果图是完全一样的,probit模型估计结果显示系数估计值相比logit估计值发生了很大变化,且均显著通过了模型系数的显著性检验;另外模型的准R2是0.1889,相比logit模型稍有改进。 由于logit与probit模型得出的参数估计值不可直接比较,根据本节开始介绍的原理已了解到两模型的边际效应可以比较。Stata中probit模型的边际效应得出方法与logit是相同的。 在St

11、ata命令窗口中输入如下命令计算probit模型回归后解释变量在样本均值处的边际效应: mfx 可以看到与前面的logit模型比较,两模型分析的边际效应是大致相同的。然后来计算probit模型的拟合优度,具体操作方法也与logit模型是一致的。 计算准确预测百分比,Stata命令窗口输入如下命令: estat clas 此图的解读方法与上面logit模型得到的是完全一样的,显然可以得到:sensitivity(敏感性)=87.64% ,specificity(特异性)=45.05%,correctly classified(正确预测百分比)=73.65%。可以看到,这个结果与logit模型是完

12、全一致的。 另外为了检验这个结果,可以同样输入如下命令: predict p2, pr 此命令可以获得此模型的个体估计的值并记为新变量p2 list work p2 其次是使用ROC曲线来检测预测的准确度,在Stata命令窗口中输入如下命令,可以得到ROC曲线: lroc 此图的读法与logit的ROC图是一致的,由于logit模型与probit模型的sensitivity与specificity是相同的,那么ROC曲线一定是相同的,且曲线下方的面积同样是0.7806。 最后是godness-of-fit拟合优度检验,在Stata命令窗口中输入如下命令: estat gof 3.二值选择模型的

13、异方差问题二值选择模型的异方差问题 Stata中对probit二值选择模型进行异方差检验和回归的命令语句如下: hetprob y x1 x2 if in weight , het(varlist offset(varname) ,options 其中hetprob表示对模型进行异方差probit模型估计和异方差检验,if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测值的权重设定,选择项 het(varilist)是影响扰动项的变量清单,在该命令语句的输出结果里,会汇报LR检验的结果,据此判断是否应该使用此异方差模型,options的内容如下表所示: 本实验中,在Stat

14、a命令窗口中输入如下命令进行异方差模型估计和检验,可以得到图9.12的运行结果: hetprob work age education married children, het (age education married children) 结果显示LR检验的结果是接受原假设,即模型不存在异方差问题。所以回归不应使用异方差回归模型,可以直接应用probit模型进行估计。第第2 2节节 多值选择模型多值选择模型 一 实验基本原理 1.多值选择模型 有时候人们面临的选择是多个的,比如交通选择,入读大学的选择等等。假设个体可以选择的y=1,2,3,J ,其中J是正整数。当研究的被解释变量是这样多

15、值离散的,建立的模型就是多值选择模型,而当J=2时,就是上节所说的probit或者logit模型。 若将上面的二值logit模型推广开来,可以得到, 二 实验内容和数据来源 本实验来自某统计资料,统计在购物时所选品牌与性别、年龄的关系。变量主要有brand(品牌),female(性别),age(年龄)。完整的数据在本书附带光盘data文件夹下“brand.dta”中。 本实验用此数据来以female和age为解释变量,brand为被解释变量,brand的取值是离散的,且有三个取值,应建立多值选择模型进行相关分析。 二实验操作指导 1.选择合理模型选择合理模型 在Stata中将数据按照某个或某几

16、个变量进行分类并按这个变量获得其频数分布的命令如下: tab varlist 其中varlist表示按照其分类的变量或者变量组合。 在本实验中,打开数据文件并将数据按brand取值分类,在Stata命令窗口中输入如下命令 use brand ,clear tab brand 读图可知brand取值有三个,分别是1,2,3。由于所要探究的问题female和age对brand的影响,且假定了选择各个品牌之间是相互独立的,那么建立多值选择模型来分析问题是合理的。 2.模型回归模型回归多值选择模型有logit和probit多值选择模型,Stata中使用多值logit和probit模型的命令语句是:ml

17、ogit y x1 x2 if in weight ,options (multinomial logit 模型)mprobit y x1 x2 if in weight ,options (multinomial probit 模型)此命令中if和in表示对检测拟合优度时的条件和范围的设定,weight表示对观测值的权重设定,options的内容如下表所示: 经常使用的命令语句是“mlogit y x1 x2 ,base(#)”或者“mprobit y x1 x2 ,base(#)”,其中#是指被解释变量的某个取值,其可以根据需要变动此参照组。本实验中,由于logit模型与probit模型操

18、作相似,以多值logit为例进行操作。 在Stata命令窗口中输入如下命: mlogit brand age female, base(1) 此命令表示以age和female为解释变量,brand为被解释变量,以brand=1为参照组的多值logit模型回归。 根据前面原理部分的介绍,该题的多值logit模型是由三个方程组成的。Stata回归结果图显示出了j=2和j=3时对应的模型估计结果,自然由三种选择概率之和为1可得到j=1时模型结果。Stata中得出多值选择模型个体选择被解释变量每个取值的概率的命令语句格式(1):predict type stub*|newvars if in ,statistic outcome(#,#,) nooffset该预测命令语句中,type表示预测设定新变量的类型,stub*|newvars表示预测的新变量名称,if

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论