logit模型的原理与应用_第1页
logit模型的原理与应用_第2页
logit模型的原理与应用_第3页
logit模型的原理与应用_第4页
logit模型的原理与应用_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LogitLogit 模型的原理及应用模型的原理及应用20172017年年3 3月月3 3日日11.问题的提出问题的提出如果回归模型的如果回归模型的解释变量解释变量中含有定性变量,则可中含有定性变量,则可以用虚拟变量来处理。以用虚拟变量来处理。?在实际经济问题中,在实际经济问题中,被解释变量被解释变量也可能是定性变也可能是定性变量。量。?因变量取值是离散的,这类回归模型称为离散选因变量取值是离散的,这类回归模型称为离散选择模型或择模型或“定性反应模型定性反应模型” 。?例如通过一系列解释变量的观测值观察人们对某例如通过一系列解释变量的观测值观察人们对某项提议的态度,某件事情的成功和失败等。项提

2、议的态度,某件事情的成功和失败等。?这类模型被称为这类模型被称为“离散选择模型离散选择模型” :二值选择模:二值选择模型、多值选择模型、计数模型。型、多值选择模型、计数模型。?22.线性概率模型(线性概率模型(Tobit)5.1线性概率模型线性概率模型 线性概率模型的形式如下,线性概率模型的形式如下, yi = ? + ? xi + ui 其中其中ui为随机误差项,为随机误差项,xi为定量解释变量。为定量解释变量。机动车的费改税(燃油税)问题等。设机动车的费改税(燃油税)问题等。设 y?1, 若是第一种选择i?0, 若是第二种选 择 (1) yi为二元选择变量。如利息税、为二元选择变量。如利息

3、税、3 2.线性概率模型(线性概率模型(Tobit)对对yi = ? + ? xi + ui取期望,取期望, E(yi) = ? + ? xi (2) 下面研究下面研究yi的分布。因为的分布。因为yi只能取两个值,只能取两个值, 0 和和 1,所以,所以yi 服从两点分布。服从两点分布。把把yi的分布记为,的分布记为, ?P(yi?1) ? pi ? ?P(yi? 0) ?1? pi则则 E(yi) = 1 (pi) + 0 (1 - pi) = pi (3) 由(由(2)和()和(3)式有)式有 pi = ? + ? xi (yi的样本值是的样本值是0 或或 1,而预测值是概率。,而预测值是

4、概率。 ) (4) 以以pi = - 0.2 + 0.05 xi 为例,说明为例,说明xi 每增加一个单位,则采用第一种选择的概每增加一个单位,则采用第一种选择的概4率增加率增加0.05。 2.线性概率模型(线性概率模型(Tobit)假设用模型(假设用模型( 4) ,pi = - 0.2 + 0.05 xi,进行预测,当预测值落在,进行预测,当预测值落在 0,1 区间之区间之内内 (即(即xi取值在取值在 4, 24 之内)之内) 时,时, 则没有什么问题;则没有什么问题;但当预测值落在但当预测值落在 0, 1 区区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是间之外时,则会暴露出

5、该模型的严重缺点。因为概率的取值范围是 0,1,所,所以此时必须强令预测值(概率值)相应等于以此时必须强令预测值(概率值)相应等于0或或1(见图(见图1) 。线性概率模型常。线性概率模型常写成如下形式,写成如下形式, 1.2Y1.00.80.6?1,?xi?1 0.4 pi?xi,0 ?xi?1 0.2 (5) ?0,?x0.0i? 0 -0.2X051015202530此模型由此模型由 James Tobin 1958 年提出,因此称作年提出,因此称作 Tobit 模型(模型(James Tobin 1981 年获诺贝尔经济学奖)年获诺贝尔经济学奖) 。 52.线性概率模型(线性概率模型(T

6、obit)然而这样做是有问题的。假设预测某个事件发生的概率等于然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实,但是实际中该事件却可能发生了。际中该事件却可能发生了。 虽然估计过程是无偏的,但是由估计过程得出的虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。预测结果却是有偏的。 由于线性概率模型的上述缺点,希望能找到一种变换方法,由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释)使解释变量变量xi所对应的所有预测值

7、(概率值)都落在(所对应的所有预测值(概率值)都落在( 0,1)之间。)之间。 (2)同时对于)同时对于所有的所有的xi,当,当xi增加时,希望增加时,希望yi也单调增加或单调减少。显然累积概率分布也单调增加或单调减少。显然累积概率分布函数函数F(zi) 能满足这样的要求。能满足这样的要求。 采用累积正态概率分布函数的模型称作采用累积正态概率分布函数的模型称作 Probit模型模型。用正态分布的累积概率作为用正态分布的累积概率作为 Probit 模型的预测概率模型的预测概率。另外另外 logistic 函函数也能满足这样的要求。采用数也能满足这样的要求。采用 logistic 函数的模型称作函

8、数的模型称作 logit 模型。模型。 110.80.60.80.60.40.20-4-20Pobit模型模型0.40.20Logit模型模型6243.Logit 模型模型-提出提出5.2.2 logit 模型模型 该模型是该模型是 McFadden 于于 1973 年首次提出。其采用的是年首次提出。其采用的是 logistic 概率分布函数。概率分布函数。其形式是其形式是 pi = F(yi) = F(?+? xi) =11? e? yi=11? e?(?xi) (7) 其中其中pi表示概率,表示概率,F(yi)表示表示 logistic 累积概率密度函数。累积概率密度函数。对于给定的对于给

9、定的xi,pi表示表示相应个体做出某种选择的概率。相应个体做出某种选择的概率。yi称作隐(潜)变量,称作隐(潜)变量,yi的取值范围是(的取值范围是(-?,yi通过通过 logistic 函数被转换为概率。函数被转换为概率。 ?)但但 logit两条曲线都是在两条曲线都是在pi = 0.5 处有拐点,处有拐点,Probit 曲线和曲线和 logit 曲线很相似。曲线很相似。式得到的概率值见表式得到的概率值见表 1。 (7)和和(6)利用利用曲线在两个尾部要比曲线在两个尾部要比 Probit 曲线厚。曲线厚。73.Logit 模型模型-提出提出对对 logit 曲线作如下变换,曲线作如下变换,

10、pi (1+ e? yi) = 1 (8) 对上式除以对上式除以pi ,并减,并减 1 得得 1? pi1? yi e=-1 = pipi取倒数后,再取对数,取倒数后,再取对数, pi yi = log) ln (1? pipi所以所以 log () = yi = ? + ? xi (9) 1? pi由上式知回归方程的因变量是对数的某个具体选择的机会比。由上式知回归方程的因变量是对数的某个具体选择的机会比。logit 模型模型的一个重要优点是把在的一个重要优点是把在 0,1 区间上预测概率的问题转化为在实数轴上预区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。测一个事件发生的

11、机会比问题。logit累积概率分布函数的斜率在累积概率分布函数的斜率在pi = 0.5 时最时最大,大,在累积分布两个尾端的斜率逐渐减小。在累积分布两个尾端的斜率逐渐减小。说明相对于说明相对于pi = 0.5 附近的解释变附近的解释变量量xi的变化对概率的变化影响较大,的变化对概率的变化影响较大,而相对于而相对于pi接近接近 0 和和 1 附近的附近的xi值的变值的变8化对概率的变化影响较小。化对概率的变化影响较小。 3.Logit 模型模型-分类分类93.Logit 模型模型-二分类二分类如果影响如果影响lnp1?p的因素有的因素有x1,x2, ,xp,则多元,则多元logit 线性回归方程

12、为线性回归方程为 lnp1?p?0?1x1?2x2? ?pxp 多元多元 logit 线性回归方程还有以下等价形式线性回归方程还有以下等价形式 ?p?e0?11x ?2x2?kxk1? e?0?11x ?2x2?kxk103.Logit 模型模型-二分类二分类若将若将看成是因变量,则看成是因变量,则logit线性回归模型与多元线性线性回归模型与多元线性回归模型的形式是一致的,且有很多共性。不同的是:回归模型的形式是一致的,且有很多共性。不同的是:1、logistic回归模型中因变量是二分类的,而且非连续,回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分布,而是二项分布,且所有的

13、其误差的分布不再是正态分布,而是二项分布,且所有的分析均建立在二项分布的基础上。分析均建立在二项分布的基础上。2、由于上述原因,、由于上述原因,logit回归系数的估计不能再用最小二回归系数的估计不能再用最小二乘法,而要用极大似然估计法。回归模型和回归系数的检乘法,而要用极大似然估计法。回归模型和回归系数的检验也不是验也不是F检验和检验和t检验,而要用检验,而要用Wald检验、似然比检验检验、似然比检验等。等。113.Logit 模型模型-二分类二分类?例:讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄、婚姻状况的关系。试建立死亡率关于例:讨论某特定人群(例如糖尿病患者)中患动脉硬化

14、的概率与年龄、婚姻状况的关系。试建立死亡率关于年龄和婚姻状况的年龄和婚姻状况的 logit模型。模型。其中,其中,A表示年龄表示年龄(lnp?取中值取中值),M1、?M2?A?M?1M1?2M2?33其中其中1? p、M3表示婚姻状况表示婚姻状况p1? p就是患病概率与不患病概率之比,称就是患病概率与不患病概率之比,称 p1? p 为为优势(odds ) ,记为,记为 OD?odds ?p1? p 因此,优势因此,优势OD的统计意义是:的统计意义是:“患病概率患病概率”相对于相对于“不患病概率不患病概率”的倍数。的倍数。当当OD?1时,时, “患病概率患病概率”大于大于“不患病概率不患病概率”

15、; 当当OD?1时,时, “患病概率患病概率”小于小于“不患病概率不患病概率”; 当当OD?1时,时, “患病概率患病概率”等于等于“不患病概率不患病概率”。 123.Logit 模型模型-多分类多分类前面讨论的前面讨论的logit模型为二分数据的情况,有时候模型为二分数据的情况,有时候响应变量有可能取三个或更多值,即多类别的属性响应变量有可能取三个或更多值,即多类别的属性变量。变量。?根据响应变量类型的不同,分两种情况:根据响应变量类型的不同,分两种情况:?响应变量为定性名义变量;响应变量为定性名义变量;响应变量为定性有序变量;响应变量为定性有序变量;?当名义响应变量有多个类别(即名义、无序

16、)时,当名义响应变量有多个类别(即名义、无序)时,多项多项logit模型应采取把每个类别与一个模型应采取把每个类别与一个 基线类别基线类别配成对,通常取最后一类为参照,称为基线配成对,通常取最后一类为参照,称为基线 -类别类别logit.133.Logit 模型模型-多分类多分类有些协变量为定量数据,有些协变量为定量数据, logistic回归模型的协变回归模型的协变量可以是定性名义数据。这就需要对名义数据进行量可以是定性名义数据。这就需要对名义数据进行赋值。赋值。?通常某个名义数据有通常某个名义数据有k个状态,则定义变量个状态,则定义变量M,M1k?1代表前面的代表前面的k-1状态,最后令状

17、态,最后令k-1变量均为变量均为0或-1来来代表第代表第k个状态。个状态。?如婚姻状况有四种状态:未婚、有配偶、丧偶和离如婚姻状况有四种状态:未婚、有配偶、丧偶和离婚,则可以定义三个指示变量婚,则可以定义三个指示变量 M1、M2、M3,用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1)来对以上四种状态赋值来对以上四种状态赋值。143.Logit 模型模型-多分类多分类153.Logit 模型模型-多分类(名义)多分类(名义)【例】研究三个学校、两个课程计划对学生偏好何种【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表学习方式的

18、影响。调查数据见表 :?其中,三个学校对应两个哑变量其中,三个学校对应两个哑变量 x1和x2(学校一(1.0)学校二(0.1)学校三(0.0),两个课两个课程计划为常规程计划为常规(M=1)和附加和附加(M=0),学习方式分,学习方式分为:自修为:自修(y=1)、小组、小组(y=2)、上课、上课(y=3)从题目可以看出,响应变量是学习方式有三类,属从题目可以看出,响应变量是学习方式有三类,属于多项逻辑斯蒂回归问题。于是,建模为:于多项逻辑斯蒂回归问题。于是,建模为:?p1?lnp?10?11x1?12x2?13x3?3?lnp2?x ?x ?x20211222233?p3?163.Logit

19、模型模型-多分类(有序)多分类(有序)?对对有序数据的赋值可以按顺序用数有序数据的赋值可以按顺序用数0,1,2,3,4分别表示分别表示有序变量的有序变量的logistic 回归模型定义为回归模型定义为 log it?P (y?ix)?i?ixi, i?1,2, ,k?1 i?1h?等价于等价于 ?1?exp?i?ixi?i?1?实际上是将实际上是将k个等级人为地分为两类:个等级人为地分为两类:?1,2, ,i?和和?i?1, ,k?,在这两类定义的,在这两类定义的logit表示:属于后表示:属于后k?1个等级的累积概率与前个等级的累积概率与前i个等级的累积概率的比数之对数,故该模型称个等级的累

20、积概率的比数之对数,故该模型称为为 累积比数模型。 ( cumulative odds model)17?P (y?ix )?1h 3.Logit 模型模型-多分类(有序)多分类(有序)? 在探讨影响智力因素的研究中,调查了在探讨影响智力因素的研究中,调查了875名小学一年级学生的智商与母亲的文化名小学一年级学生的智商与母亲的文化程度,结果见下表。试分析两者间的关系。程度,结果见下表。试分析两者间的关系。 这里,儿童智商是多分类定性有序变量,宜建立累积比数这里,儿童智商是多分类定性有序变量,宜建立累积比数logistic回归。影响因素母回归。影响因素母亲文化程度亦是多分类定性有序变量,可直接进入方程。亲文化程度亦是多分类定性有序变量,可直接进入方程。 回归模型见表。回归模型见表。 变量变量 x 常数项常数项 回归系数回归系数 0.6373 ?1.4578 1.2254 3.5630 标准误差标准误差 0.0934 0.1454 0.1358 0.1935 Z 6.824 P 0.00 ?1 1 ?2 2 ?3 3 模型为:模型为: logit?P(y? i x)? ?i?0.6373x 183.Logit 模型模型-多分类(有序)多分类(有序)这里:这里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论