




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I. 二分结果数据(Binary Response Data)的另一种模型:1. Probit 模型- 在实际运用方面与 logit 模型十分类似 P(Y=1|X)=G(+1X1+kXk), 此处G 是一个范围在 0 与 1之间的概率密度函数(p.d.f.)。- 与logit 模型相比,Probit 模型在数学上更容易一般化(generalize), 例如转换成Tobit 模型。- 在计量经济学上得到更广泛的运用。与logit 模型相比,运用Probit 模型的两个特点:i) 假定概率函数为常态分布: 在logit模型中: 在probit模型中: 与logistic 函数类似,在probit模型中概率密度函数的设定是以均值为中心的对称形式。通常probit 模型可以被纳入一般线性模型GLM的架构中, (以logit模型为例,左手边的是对数型态的发生比率log p/(1-p) ),但是由于这个函数太过复杂,我们 用-1(X) 来表示:-1(X)=+X此处 -1(X) 指的是: - 累积正态分布密度的反函数(inverse of the cumulative normal density function;) 又称为 “probit”! ii) 第二个特点: 可以用于出现应变量出现选择性偏误而部份无法观察的情况,这也是计量经济学家喜好probit模型的原因。 Y*=a+bX+eY* 只能被部份观察到,可以表示为 Y=1 if Y*0 =0 if Y*0假设 e N(0, 2), 此时: P(Y*0|X) = P(a+bX+e0) = Pe-(a+bX) = P(ea+bX) = Pe/a/+(b/) = P chi2 = 0.0000Log likelihood = -1338.4309 Pseudo R2 = 0.0597- rpart | Coef. Std. Err. z P|z| 95% Conf.Interval-+- age | .046318 .0036533 12.68 0.000 .0391577 .0534783 _cons | -3.631983 .1794579 -20.24 0.000 -3.983714 -3.280252-. predict p1(option p assumed; Pr(rpart)Probit 模型与Logit模型的比较:【STATA学习提示】二分结果的应变量可以直接使用probit这个指令:. xi:probit rpart ageIteration 0: log likelihood = -1423.3909Iteration 1: log likelihood = -1336.9678Iteration 2: log likelihood = -1336.2429Iteration 3: log likelihood = -1336.2428Probit estimates Number of obs = 3087 LR chi2(1) = 174.30 Prob chi2 = 0.0000Log likelihood = -1336.2428 Pseudo R2 = 0.0612- rpart | Coef. Std. Err. z P|z| 95% Conf.Interval-+- age | .0266887 .0020641 12.93 0.000 .022643 .0307343 _cons | -2.122723 .0978868 -21.69 0.000 -2.314578 -1.930869-. predict p2(option p assumed; Pr(rpart). version 7. graph p1 p2 age, c(ss) s(id)我们可以发现,在数学上Logit 与Probit模型的回归系数之间的关系相当于: logit1.81probit最直觉性的解释是probit 模型直接计算了概率的预测值。因此,妳可以试着回答这个问题:在1996年一个 40 岁大的城镇居民有多大概率会成为共产党员?3. 对数互补模型Cloglog Model (Complementary log-log model)这个概率函数可以转换成线性模型: log-log1-P(X)=+X这是一个非对称(ASSYMETRIC)的二分结果模型 binary response model。 比较一下Cloglog 与Logistic 的累积密度函数(CDF):为何要用cloglog呢?在某些实际的经验研究中,cloglog 模型更能够掌握自然界的经验现象,比如:- 生物体对有毒物质的反应:超出致死量存活概率就迅速下降。- 产业组织科技发明的扩散速度:先快后降范例 :logit 与cloglog 模型的比较 . xi:logit rparty educ_hiyIteration 0: log likelihood = -1422.6291Iteration 1: log likelihood = -1391.4255Iteration 2: log likelihood = -1390.739Iteration 3: log likelihood = -1390.7382Logit estimates Number of obs = 3083 LR chi2(1) = 63.78 Prob chi2 = 0.0000Log likelihood = -1390.7382 Pseudo R2 = 0.0224- rparty | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .1025063 .0134258 7.64 0.000 .0761922 .1288204 _cons | -2.494303 .137368 -18.16 0.000 -2.763539 -2.225066-. predict p (option p assumed; Pr(rparty)(4 missing values generated). xi:cloglog rparty educ_hiyIteration 0: log likelihood = -1393.2867 Iteration 1: log likelihood = -1389.9854 Iteration 2: log likelihood = -1389.9755 Iteration 3: log likelihood = -1389.9755 Complementary log-log regression Number of obs = 3083 Zero outcomes = 2548 Nonzero outcomes = 535 LR chi2(1) = 65.31Log likelihood = -1389.9755 Prob chi2 = 0.0000- rparty | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .095839 .0123748 7.74 0.000 .0715848 .1200933 _cons | -2.535837 .1287466 -19.70 0.000 -2.788176 -2.283499- . predict p1(option p assumed; Pr(rparty)(4 missing values generated). graph p p1 educ_hiy, c(ss). edit- preserve- label var p1 Pr(cloglog)- label var p Pr(logistic)II. 定序(Ordinal Dependent Variable)Logit 模型 定序变量(Ordinal Variable): 在社会研究中,某些变量被分为有次序的不同类别,但是并不连续。我们已知不同类别之间有相对的大小或高低程度,但是无法从经验讯息中获得不同类别之间明确而连续的距离。 范例:你觉得自己幸福吗? 1. 很不幸福2. 不太幸福 3. 还过得去4. 有点幸福 5. 非常幸福 你的英语程度如何?1. 不知道 2. 会一点 3. 好4. 非常好 许多职业声望、阶层高低、政治态度的相关问题,受访者回答的应变项都是相对的次序。 定序logit 与定序probit 模型:是二分类logit 与probit 模型的自然延伸运用。这两种模型又被称为累积(cumulative) logit 或累积probit 模型。若一个变量事实上是名目(nominal)变量,但我们却用定序数据的方式来运算,则我们事实上是对不同类别强加了不适当的顺序,并假设其斜率彼此平行。此时我们得出的结果,可能是一些偏误或无意义的估计值。反之,若一个变量事实上是定序变量,但我们却用名目数据的方式来运算,则我们所得出的统计结果,将由于遗漏掉排序的信息而丧失统计效率。 1. 累积 Logit 模型 假设我们有一个由J 类别组成的定序应变量 Y (Y=1, , J). 令 Lj(X)=logitFj(X), (j=1, J-1) =logP(Yj|X)/P(Yj|X) =logP(Yj|X)/1- P(Yj|X)此时 Fj(X)=P(Yj|X) 是J类别的累积概率函数, 若Y 独立于X,则:Lj(X) =j 此外则应为: Lj(X) =j+X 这个式子的意义是对不同数值的 X,比如 X1 与 X2来说: Lj(X1)- Lj(X2) =(X1- X2)某个响应类别 j在自变量X1 相对于 X2的发生比,等于 exp(X1- X2): 当 0时,Lj(X) =j+X 【函数A】代表在固定数值的X之下,低次序一端发生的累积概率函数(c.d.f.)随着Y的增加而提高,反过来说,随X的值越高,Y在较高次序J发生的概率密度函数(p.d.f.)则降低。由于这种反向关系可能造成混淆,我们通常把【函数A】改写成下列【函数B】:Lj(X) =j- X这才是STATA与其它软件所运用的参数计算方式。因此STATA的计算结果当中若0, X数值越大,则导致Y在较高类别发生的概率越大。 另一种理解方式:依据上述的关系,我们可以把定序logit模型当中的应变量次序视为一个潜在连续变量(Latent Variable) Y*的某种相关测量值。假设我们有四种类别的次序 (J=4),则:Y=j if j-1Y* j当 0=- and j=P(Y=j)=F(j) F(j-1)此时 F 是一个累积概率函数(c.d.f.),且F(J)=1 and F(0)=0。在定序logit 模型中, 所计算出的是每一单位X的变化对于Y 的累积发生比的对数(log of the cumulative odds)的变化的影响。范例:你的英语程度如何? (中国的城镇样本)【STATA学习提示】用指令keep保留城镇户口样本。. keep if sample=1(3386 observations deleted). tab english how well | know | english | Freq. Percent Cum.-+- 1 | 2,350 76.13 76.13 2 | 598 19.37 95.50 3 | 126 4.08 99.58 4 | 13 0.42 100.00-+- Total | 3,087 100.00此处Yi=1 (完全不会) if - Yj* 1 Yi=2 (会一点) if 1 Yj* 2 Yi=3 (还可以) if 2 Yj* 3 Yi=4 (非常好) if 3 Yj* chi2 = .Log likelihood = -2096.7221 Pseudo R2 = 0.0000- english | Coef. Std. Err. z P|z| 95% Conf. Interval-+-+- _cut1 | 1.159583 .0422183 (Ancillary parameters) _cut2 | 3.054408 .0867955 _cut3 | 5.465786 .2779359 -此处的截距参数与所观察到的累积概率分布的关系如下:. tab english how well | know | english | Freq. Percent Cum.-+- 1 | 2,350 76.13 76.13 2 | 598 19.37 95.50 3 | 126 4.08 99.58 4 | 13 0.42 100.00-+- Total | 3,087 100.00 _cut1= 1.159583=log 0.7613/(1-0.7613) _cut2= 3.054408=log(0.7613+0.1937)/1-(0.7613+0.1937) _cut3= 5.465786=log0.9958/(1-0.9958) 【STATA学习提示】此时加入其它自变量:教育年数与年龄。【STATA学习提示】用nolog避免STATA显示不必要的循环计算过程。. xi: ologit english educ_hiy age, nologOrdered logit estimates Number of obs = 3087 LR chi2(2) = 1352.05 Prob chi2 = 0.0000Log likelihood = -1420.6971 Pseudo R2 = 0.3224- english | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .5948605 .0248173 23.97 0.000 .5462195 .6435014 age | -.0900892 .0054262 -16.60 0.000 -.1007243 -.0794541-+- _cut1 | 3.896806 .2831694 (Ancillary parameters) _cut2 | 6.649636 .3172782 _cut3 | 9.44941 .4276262 - 记得前述: Lj(X)=logitFj(X), (j=1, J-1) =logP(Yj|X)/P(Yj|X) =logP(Yj|X)/1- P(Yj|X)=j-X此处 Fj(X)=P(Yj|X) 是类别次序 j的累积概率函数。 估计出的是每单位X的变化对于Y 等于或小于j类别的累积发生比的对数(log of the cumulative odds)的变化的影响。换句话说,要导回每单位X的变化对于Y的发生比的影响,应该用exp(-)作为估计值。(odds will be multiplied by a factor of exp(-)!) 回到我们的例子上。每增加一年的教育,对完全不会(j1)的发生比的变化有何影响? Exp(-0.595)=0.552 (此处应解释为教育相对降低完全不会的概率因为ODDS1). dis exp(-0.595).55156257每增加一年的年龄,对完全不会、会一点、还可以三者累积 (j3)概率的发生比的变化有何影响? Exp (0.09)=1.09此处我们假设发生比率(odds ratio)在不同范畴 j受X影响是固定的 (参考最小二乘法OLS模型当中的线性假设)。 2. 概率预测图(Probability Predictions Graphs) . xi: ologit english educ_hiyOrdered logit estimates Number of obs = 3083 LR chi2(1) = 1027.87 Prob chi2 = 0.0000Log likelihood = -1578.9595 Pseudo R2 = 0.2456- english | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .5446123 .0220308 24.72 0.000 .5014327 .5877919-+- _cut1 | 6.63737 .2448311 (Ancillary parameters) _cut2 | 9.084918 .28697 _cut3 | 11.72631 .4014862 -根据这个模型来推论,曾经接受16年教育(大专毕业)的人却不懂任何英语的概率是多少? 自行计算的方式:步骤一:估计16年教育的统计系数效果0.545*16=8.72步骤二:用此一结果检去截距(两个数值都是 log odds)6.64-8.72=-2.08步骤三:取幂(exponentiate)以便计算出概率 p=exp(-2.08)/(1+exp(-2.08)=0.11根据这个模型来推论,曾经接受16年教育(大专毕业)的人回答会一点英语的概率是多少? 步骤一:计算出完全不会英语的累积概率P(j=1)=0.11 (见前例)。步骤二:计算出完全不会或是会一点英语的累积概率。 P(j=2)= exp(9.085-0.545*16)/1+exp(9.085-0.545*16) =0.59步骤三:用步骤二的结果减去步骤一的结果,即为答案。 0.59-0.11=0.48对剩下的两类来说,我们可以计算出完全不会、会一点、还可以的累积概率: P(j chi2 = 0.0000Log likelihood = -1578.9595 Pseudo R2 = 0.2456- english | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .5446123 .0220308 24.72 0.000 .5014327 .5877919-+- _cut1 | 6.63737 .2448311 (Ancillary parameters) _cut2 | 9.084918 .28697 _cut3 | 11.72631 .4014862 -. predict p1-p4(option p assumed; predicted probabilities)(4 missing values generated). list p1-p4 if educ_hiy=16 +-+ | p1 p2 p3 p4 | |-| 19. | .1114092 .4803205 .3614064 .0468639 | 21. | .1114092 .4803205 .3614064 .0468639 | 23. | .1114092 .4803205 .3614064 .0468639 | 37. | .1114092 .4803205 .3614064 .0468639 | 38. | .1114092 .4803205 .3614064 .0468639 | |-依据预测值做图: . version 7. graph p1-p4 educ_hiy, c(ssss) s(.oxO) border3. 定序(累积)Probit 模型:此模型与定序Logit模型非常类似,但是其系数较难直接解释。 . xi:oprobit english educ_hiy, nologOrdered probit estimates Number of obs = 3083 LR chi2(1) = 1063.98 Prob chi2 = 0.0000Log likelihood = -1560.9022 Pseudo R2 = 0.2542- english | Coef. Std. Err. z P|z| 95% Conf. Interval-+- educ_hiy | .3122772 .0120101 26.00 0.000 .2887378 .3358166-+- _cut1 | 3.837027 .1320816 (Ancillary parameters) _cut2 | 5.20492 .1513376 _cut3 | 6.515712 .1993435 -4. 定序(Ordinal)模型的等比例发生比假设与检验定序的ologit 或oprobit模型背后隐含了一个假设,叫做等比例发生比假设(proportional odds assumption)。等比例Odds的意思是:在每个次序类别的结果之间,自变量对应变量的发生比影响是对等的,因此从一个累积次序到另一个累积次序之间,可以得到一致的回归系数。在现实中,这个假设通常都不会成立! 例如,小学每一年的学习与高中每一年学习,对于回答会一点英语与还可以或非常好的影响,可能都是不一致的,定序模型通常假设每一年对每个答案的效果都相同。(同样的问题我们将在多重名义Logit 模型当中遇到。)【STATA学习提示】在STATA中,我们可以使用 “omodel probit” 或者“omodel logit” 两个指令来运行并且检验等比例发生比假设:范例: 1973年到1979年中国社会阶级流动的研究(1996数据)在此研究中,最高阶级是国家干部,第二个阶级是集体干部,第三个阶级是国企工人,第四个阶级是农村干部,第五阶级是集体工人,最低阶级是农民。. omodel probit mclas79 female age79 age79v2 educ_hiy edu2 mclas73 party79 label sentdown fparty fm clas79 fisei79 feduc_y if age7915 & mclas730Iteration 0: log likelihood = -5210.011Iteration 1: log likelihood = -3302.8987Iteration 2: log likelihood = -3112.346Iteration 3: log likelihood = -3102.1998Iteration 4: log likelihood = -3102.1552Ordered probit estimates Number of obs = 3717 LR chi2(13) = 4215.71 Prob chi2 = 0.0000Log likelihood = -3102.1552 Pseudo R2 = 0.4046- mclas79 | Coef. Std. Err. z P|z| 95% Conf. Interval
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年安全监察人员通关题库含答案详解(预热题)
- 2025自考专业(护理)高分题库带答案详解(模拟题)
- 2025还款协议和借款合同
- 2025年房屋建筑质量保修合同
- 2025年大陆居民在香港离婚法律援助与诉讼代理合同
- 2024-2025学年度广西培贤国际职业学院单招《职业适应性测试》考前冲刺练习试题及完整答案详解【夺冠系列】
- 2024年公务员(省考)检测卷参考答案详解
- 2025年云南临沧镇康县度教体系统事业单位急需紧缺人才引进5人笔试高频难、易错点备考题库及参考答案详解
- 2025年反射疗法师大赛理论题库检测试题打印(黄金题型)附答案详解
- 2025自考专业(工商企业管理)题库(考点提分)附答案详解
- 《少年中国说(节选)》(第二课时) 教学课件
- 沥青路面施工方案61841
- 中国海洋大学《海洋生物资源与环境调查实习报告》
- 《中外美术史》课件1中外美术史.1(原始社会)
- 村民自治制度中存在的问题与对策
- 刺梨产品之养生有维系列简介共26页课件
- Q∕GDW 12152-2021 输变电工程建设施工安全风险管理规程
- 机械识图-公司培训PPT课件
- 公产房“承租权”能否继承
- 公司收购协议书范本
- 绿色建筑施工方案
评论
0/150
提交评论