第二章--基本回归模型课件_第1页
第二章--基本回归模型课件_第2页
第二章--基本回归模型课件_第3页
第二章--基本回归模型课件_第4页
第二章--基本回归模型课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第二章 基本回归模型,经济计量研究始于经济学中的理论假设,根据经济理论设定变量间的一组关系,对理论设定的关系进行定量刻画,进行实证研究。单方程回归是最丰富多彩和广泛使用的统计技术之一。 本章介绍EViews中基本回归技术的使用,说明并估计一个回归模型,进行简单的特征分析并在深入的分析中使用估计结果。 随后的章节讨论了检验和预测,以及更高级,专业的技术,如加权最小二乘法、二阶段最小二乘法(TSLS)、非线性最小二乘法、ARIMA/ARIMAX模型、GMM(广义矩估计)。这些技术和模型都建立在本章介绍的基本思想的基础之上,第二章-基本回归模型,2,多元线性回归模型,可以把常数项 0 看作是样本

2、观测值始终取 1 的虚变量的系数。多元模型的矩阵形式为 其中:Y 是因变量观测值的 T 维列向量;X 是所有自变量(包括虚变量)的 T 个样本点观测值组成的 T(k+1) 矩阵; 是 k+1 维系数向量;u 是 T 维扰动项向量,第二章-基本回归模型,3,例2.1: 本例是用中国1978年2006年的数据建立的居民消费方程: cst=c0+c1inct+ut 其中: cs 是居民消费;inc 是可支配收入。 方程中c0代表自发消费,表示收入等于零时的消费水平;而c1代表了边际消费倾向,0c11,即收入每增加1元,消费将增加 c1 元,第二章-基本回归模型,4,2.1 创建方程对象,EViews

3、中的单方程回归估计是用方程对象来完成的。为了创建一个方程对象: 从主菜单选择Object/New Object/Equation 或 Quick/Estimation Equation ,或者在命令窗口中输入关键词equation。 在随后出现的方程说明对话框中说明要建立的方程,并选择估计方法,第二章-基本回归模型,5,2.2 在EViews中对方程进行说明,当创建一个方程对象时,会出现如下对话框,在这个对话框中需要说明三件事:方程说明,估计方法,估计使用的样本。在最上面的编辑框中,可以说明方程:因变量(左边)和自变量(右边)以及函数形式。 有两种说明方程的基本方法:列表法和公式法。列表法简单

4、但是只能用于不严格的线性说明;公式法更为一般,可用于说明非线性模型或带有参数约束的模型,第二章-基本回归模型,6,例如,要说明一个线性消费函数,用一个常数 c 和收入 inc 对消费 csp 作回归,在方程说明对话框上部输入: csp c inc 注意回归变量列表中的序列 c。这是EViews用来说明回归中的常数而建立的序列。EViews在回归中不会自动包括一个常数,因此必须明确列出作为回归变量的常数。内部序列 c 不出现在工作文档中,除了说明方程外不能使用它。 在上例中,常数存储于c(1),inc的系数存储于c(2),即回归方程形式为: csp = c(1)+c(2)*inc,第二章-基本回

5、归模型,7,在统计操作中会用到滞后序列,可以使用与滞后序列相同的名字来产生一个新序列,把滞后值放在序列名后的括号中。 csp c csp(-1) inc 相当的回归方程形式为: csp = c(1)+ c(2) csp(-1)+c(3) inc。 通过在滞后中使用关键词 to 可以包括一个连续范围的滞后序列。例如: csp c csp(-1 to -4) inc 这里csp关于常数,csp(-1),csp(-2),csp(-3),csp(-4),和inc的回归,第二章-基本回归模型,8,2.3 在EViews中估计方程,2.3.1 估计方法 说明方程后,现在需要选择估计方法。单击Method:

6、进入对话框,会看到下拉菜单中的估计方法列表,标准的单方程回归用最小二乘估计。其他的方法在以后的章节中介绍。采用OLS,TSLS,GMM,和ARCH方法估计的方程可以用一个公式说明。非线性方程不允许使用binary,ordered,censored,count模型,或带有ARMA项的方程,第二章-基本回归模型,9,2.4 方程输出,在方程说明对话框中单击OK钮后,EViews显示估计结果,第二章-基本回归模型,10,中国1978年2006年的数据建立的居民消费方程: cst= 449.07+ 0.734*inct+ t (8.64) (126.1) R2 = 0.998 D.W.=0.53 其中

7、: cs 是居民消费;inc 是可支配收入。方程中c0 = 449.07代表自发消费,表示收入等于零时的消费水平;而c1= 0.734代表了边际消费倾向,0c11,即收入每增加1元,消费将增加 c1 元。从系数中可以看出边际消费倾向是0.73。也即1978年2006年中国居民可支配收入的73%用来消费,第二章-基本回归模型,11,1. 回归系数 (Coefficient) 系数框描述了系数 的估计值。最小二乘估计的系数 b 是由以下的公式计算得到的,对于所考虑的简单线性模型,系数是在其他变量保持不变的情况下自变量对因变量的边际收益。系数 c 是回归中的常数或者截距-它是当其他所有自变量都为零时

8、预测的基本水平。其他系数可以理解为假设所有其它变量都不变,相应的自变量和因变量之间的斜率关系,第二章-基本回归模型,12,2. 标准差 (Std.Error) 标准差项报告了系数估计的标准差。标准差衡量了系数估计的统计可信性-标准差越大,估计中的统计干扰越大。 估计系数的协方差矩阵是由以下公式计算得到的,这里 是残差,其中,第二章-基本回归模型,13,3. t-统计量 t统计量是由系数估计值和标准差之间的比率来计算的,它是用来检验系数为零的假设的。 4. 概率(P值) 这个概率称为边际显著性水平或 P 值。给定一个 P 值,可以一眼就看出是拒绝还是接受实际系数为零的双边假设。例如,如果显著水平

9、为5% ,P 值小于0.05就可以拒绝系数为零的原假设,第二章-基本回归模型,14,5. R2 统计量 R2 统计量衡量在样本内预测因变量值的回归是否成功。R2 是自变量所解释的因变量的方差。 R2越大越好。 如果回归完全符合,统计值会等于1。 R2 可能会由于一些原因成为负值。例如,回归没有截距或常数,或回归包含系数约束,或估计方法采用二阶段最小二乘法或ARCH方法。,第二章-基本回归模型,15,6. 回归标准差 (S.E. of regression) 回归标准差是在残差的方差的估计值基础之上的一个总结。计算方法如下,7.残差平方和 残差平方和可以用于很多统计计算中,为了方便,现在将它单独

10、列出,第二章-基本回归模型,16,8. 对数似然函数值 EViews可以作出根据系数的估计值得到的对数似然函数值(假设误差为正态分布)。似然比检验可通过观察方程严格形式和不严格形式的对数似然值之间的差异来进行。 对数似然计算如下,第二章-基本回归模型,17,9. Durbin-Watson 统计量 D-W 统计量衡量残差的一阶序列相关性,计算方法如下,作为一个规则,如果DW值小于2,证明存在正序列相关。DW值很小,表明残差中存在序列相关。 对于序列相关还有更好的检验方法。在 “序列相关的检验”中,我们讨论Q统计量和 LM检验,这些都是比DW统计量更为一般的序列相关检验方法,第二章-基本回归模型

11、,18,10. 因变量均值和标准差(S.D) y 的均值和标准差由下面标准公式算出,11. AIC准则(Akaike Information Criterion) 计算公式如下,我们进行模型选择时,AIC值越小越好。例如,可以通过选择最小AIC值来确定一个滞后分布的长度,第二章-基本回归模型,19,12. Schwarz准则 Schwarz准则是AIC准则的替代方法: 13. HQC信息准则(Hannan-Quinn Criterion,第二章-基本回归模型,20,14. F统计量和边际显著性水平 F统计量检验回归中所有的系数是否为零(除了常数或截距)。对于普通最小二乘模型,F统计量由下式计算

12、,在原假设为误差正态分布下,统计量服从 F(k 1 , T k) 分布。 F统计量下的P值,即Prob(F-statistic), 是F检验的边际显著性水平。如果P值小于所检验的边际显著水平,比如说0.05,则拒绝所有系数都为零的原假设。对于例1,P值为零,因此,我们拒绝回归系数为零的原假设。注意F检验是一个联合检验,即使所有的t统计量都是不显著的,F统计量也可能是高度显著的,第二章-基本回归模型,21,1. 回归方程的函数形式,下面讨论几种形式的回归模型: (1) 双对数线性模型(不变弹性模型) (2)半对数模型 (3)双曲函数模型 (4)多项式回归模型 所有这些模型的一个重要特征是:它们都

13、是参数线性模型,但是变量却不一定是线性的,2.5 线性回归方程的应用实例,第二章-基本回归模型,22,1) 双对数线性方程 双对数线性模型估计得到的参数本身就是该变量的弹性。如设Qt 为产值,Pt 为价格,在 log(Qt)= + log(Pt) + ut 的估计式中,P 增加1%时,Q 大约增加%,所以相当于Qt的价格弹性,第二章-基本回归模型,23,2) 半对数模型 线性模型与对数线性模型的混合就是半对数模型: 对数模型也是线性模型,因为参数是以线性形式出现在模型中的。而且,虽然原来的变量 x 和 y 之间是非线性关系,但变量 x(或 y)经过对数变换后,变量ln(x) 和 y 之间(或变

14、量 x 和ln(y) 之间)是线性关系,因此可以称其为半对数线性模型。类似双对数模型,半对数模型也可以使用OLS估计,第二章-基本回归模型,24,3) 双曲函数模型 形如下式的模型称为双曲函数模型 这是一个变量之间是非线性的模型,因为Xt 是以倒数的形式进入模型的,但这个模型却是参数线性模型,因为模型中参数之间是线性的。这个模型的显著特征是随着Xt 的无限增大,(1/Xt )接近于零,第二章-基本回归模型,25,例2.2 美国菲利普斯曲线 利用美国19551984年的数据,根据菲利普斯曲线,即通货膨胀率 t 和失业率 Ut 的反向关系,建立双曲函数,估计结果表明,菲利普斯曲线所描述的 t 和U

15、t 的反向关系并不存在。之所以出现这样的背离,主要是因为20世纪70年代出现石油危机,从而引发了“滞胀”,通货膨胀伴随着高失业率。如果考虑到通货膨胀预期的影响,则可以在模型中引入代表通货膨胀预期的变量,比如用通货膨胀前期值来代表,第二章-基本回归模型,26,含有通货膨胀预期的菲利普斯曲线估计结果为,可以看出,加入通货膨胀预期因素后,模型的拟合效果很好,而且这时的模型体现出了失业率和通货膨胀率之间的显著的反向变动关系,第二章-基本回归模型,27,2.6 残差检验,EViews提供了对估计方程残差的序列相关,正态性,异方差性和自回归条件异方差性检验。选择View/Residual Tests/,出

16、现下图,第二章-基本回归模型,28,1) 相关图和Q统计量 (2) 平方残差相关图 (3) 残差直方图和正态检验 显示残差直方图和残差的描述统计量,包括检验残差正态性的Jarque-Bera统计量。如果残差服从正态分布,直方图应呈钟型,J-B统计量应不显著。也适用于LS,TSLS,非线性LS等模型残差。选择View/Residual Tests/Histogram Normality显示直方图和J-B统计量。在原假设:残差正态分布下,J-B统计量应服从2 分布,自由度为2,第二章-基本回归模型,29,4) 序列相关性LM检验 序列相关性常出现在以时间序列数据为样本的模型中。主要因为: 经济变量

17、固有的惯性; 模型设定的误差; 数据误差。 序列相关性LM检验:给定显著性水平,查自由度为p(随机干扰项的阶数)的卡方分布的相应临界值。如果LM检验统计量的值超过了该临界值,则拒绝原假设,认为可能存在直到p阶序列自相关,第二章-基本回归模型,30,5) 异方差性检验 异方差性:对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,则认为出现了异方差性。 一般经验告诉我们,采用截面数据做样本的计量经济学问题,由于不同样本点上解释变量以外的其他因素的差异较大,所以往往存在异方差。 例如我们调查不同规模公司的利润,会发现大公司的利润变化幅度要比小公司的利润变化幅度大,即大公司利润的方差比小公司

18、利润的方差大。利润方差的大小取决于公司的规模、产业特点、研究开发支出多少等因素。又如在分析家庭支出模式时,我们会发现高收入家庭通常比低收入家庭对某些商品的支出有更大的方差,第二章-基本回归模型,31,当异方差检验统计量大于一定显著性水平下的卡方分布(自由度为解释变量个数)的相应临界值,说明拒绝同方差性的原假设。 如果模型被证明存在异方差性,则需要采用新方法估计模型,常用方法为加权最小二乘法,第二章-基本回归模型,32,表2-1 中国1998年各地区城镇居民平均每人全年家庭可支配收入及交通和通讯支出 单位:元,第二章-基本回归模型,33,例2.3:我们研究人均家庭交通及通讯支出(cum)和可支配

19、收入(in)的关系,考虑如下方程: cumi =0 + 1ini + ui 利用普通最小二乘法,得到如下回归模型: cumi= -56.917+ 0.05807ini (-1.57) (8.96) R2=0.74 D.W.=2.008,第二章-基本回归模型,34,从图形上可以看出,平均而言,城镇居民家庭交通和通讯支出随可支配收入的增加而增加。但是,值得注意的是:随着可支配收入的增加,交通和通讯支出的变动幅度也增大了,可能存在异方差。如果我们把回归方程中得到的残差对各个观测值作图,则可以清楚地看到这一点。 异方差的存在并不破坏普通最小二乘法的无偏性,但是估计量却不是有效的,即使对大样本也是如此,

20、因为缺乏有效性,所以通常的假设检验值不可靠。因此怀疑存在异方差或者已经检测到异方差的存在,则采取补救措施就很重要,第二章-基本回归模型,35,White异方差性检验 White (1980) 提出了对最小二乘回归中残差的异方差性的检验。包括有交叉项和无交叉项两种检验。普通最小二乘估计虽然在存在异方差性时是一致的,但是通常计算的标准差不再有效。如果发现存在异方差性,利用加权最小二乘法可以获得更有效的估计。 White检验的原假设:不存在异方差性,第二章-基本回归模型,36,White证明出: 其中:N是样本容量,k为自由度,等于式中解释变量个数(不包含截距项)。如果计算的2值大于给定显著性水平对

21、应的临界值,则可以拒绝原假设,得出存在异方差的结论。 EViews显示两个检验统计量:F统计量和 Obs*R2 统计量。 如果F 统计量和 Obs*R2 统计量的P值均很小,小于显著性水平,表明拒绝原假设,即残差存在异方差性,第二章-基本回归模型,37,例2.3:人均家庭交通及通讯支出(CUM)和可支配收入(IN )的回归方程的 White 异方差检验的结果,该结果F 统计量和 Obs*R2 统计量的P值均很小,表明拒绝原假设,即残差存在异方差性,第二章-基本回归模型,38,2.7 EViews中的方程预测,为说明预测过程,我们从一个简单的线性回归模型开始,解释变量是 xt = (1, x1t

22、 , x2t , , xkt ),其中不含因变量的滞后。假设模型由下式给定: , t =1, 2, , T (2.7.1) 对模型进行参数估计,虽然生成 y 的真实模型尚不知道,但得到了未知参数 的估计值 b,用第 t 个样本点上所有解释变量取值构成的行向量,可以估计 (2.7.2,第二章-基本回归模型,39,对于给定样本期内解释变量的观测值 xt(t T),由式(2.7.2)得到的是拟合值。对于给定样本以外的解释变量的观测值 xt(t T),得到的是预测值。为了方便起见,将这两种情况得到的统称为预测值。预测值的误差为实际值与预测值之差,即 (2.7.3,第二章-基本回归模型,40,误差有两种

23、来源: 第一种来源由随机干扰项u不确定引起,因为u在预测区间未知,y的预测值实际上是对y的均值的预测,误差项始终取其期望值。然而,虽然期望值为零,但是任何样本点上几乎都不能为0,并且u的方差越大,预测误差将越大。在时间序列的动态预测中,滞后因变量的存在使不确定性更为复杂,这种情况在后面详细讨论。 第二个来源是系数估计值与真实的参数有差别。回归方程系数估计量的标准差是用来衡量系数估计精确度的指标。因为在计算预测值时,要用估计系数乘以外生变量,外生变量均值越大,系数的不确定性对预测值的影响越大,预测的不确定性越强,第二章-基本回归模型,41,考虑例2.1中的模型,如果要对此模型的预测功能进行评价,

24、可以用19782004年的27年数据进行参数估计,用20052006年的数据作为检验性数据,考察实际值和预测值的差别,第二章-基本回归模型,42,用19782004年的27年数据进行参数估计的结果,第二章-基本回归模型,43,2.7.1 如何进行预测,为预测该方程的实际消费csp,在方程的工具栏中按Forecast按钮,或选择Procss/ Forecast 。这时会出现对话框,第二章-基本回归模型,44,1. 序列名 预测后的序列名 将所要预测的因变量名填入编辑框中。EViews默认了一个名字,但可以将它变为任意别的有效序列名。这个名字应不同于因变量名,因为预测过程会覆盖已给定的序列值。 S

25、.E.(Optional) 如果需要,可以为该序列的预测标准差提供一个名字。如果省略该项,预测标准误差将不被保存,第二章-基本回归模型,45,2. 预测方法 动态(Dynamic) 从预测样本的第一期开始计算多步预测。 静态(Static) 利用滞后因变量的实际值计算一步向前(one-step-ahead)预测的结果。 结构(Structural)预测时EViews将忽略方程中的任何ARMA项。若不选此项,在方程中有ARMA项时,动态与静态方法都会对残差进行预测。但如果选择了Structural,所有预测都会忽略残差项而只对模型的结构部分进行预测。 样本区间(Sample range) 必须指

26、定用来做预测的样本。如果缺选,EViews将该样本置为工作文件样本。如果指定的样本超出估计方程所使用的样本区间(估计样本),那么会使EViews产生样本外预测。 注意:需要提供样本外预测期间的解释变量值。对静态预测,还必须提供滞后因变量的数值,第二章-基本回归模型,46,3. 输出 可以选择以图表或数值,或者二者同时的形式来观察预测值。注意:预测值被保存在cspf序列中,第二章-基本回归模型,47,假设我们利用19792004的样本数据估计出的cs方程,然后分别进行20052006关于csp的预测。如果选中Forecast evaluation (预测效果评估),EViews将显示预测效果评估

27、的统计结果表,4.预测误差和预测效果评估,第二章-基本回归模型,48,注意:如果预测样本中没有因变量的实际值数据,EViews不能进行预测效果评估。 假设预测样本为 j =T+1, T+2, ,T+h,T 为实际估计用样本长度,用 和 yt 分别表示 t 期的实际值与预测值。计算出的预测误差统计结果如下所示,第二章-基本回归模型,49,前两个预测误差统计量由因变量规模决定。它们应该被作为相对指标来比较同样的序列在不同模型中的预测结果,误差越小,该模型的预测能力越强。 后两个统计值是相对量。泰尔(Theil)不等系数总是处于0和1之间,这里0表示与真实值完全拟合,第二章-基本回归模型,50,偏差

28、比表明预测均值与序列实际值的偏差程度; 方差比表明预测方差与序列实际方差的偏离程度; 协方差比衡量非系统误差的大小。 注意:偏差比、方差比和协方差比之和为1。 如果预测结果好,那么偏差比和方差比应该较小,协方差比较大,第二章-基本回归模型,51,2.7.2 含有滞后因变量的预测,在方程等号的右边出现滞后变量时,预测变得更为复杂。例如,我们可以在原来的形式后面引入csp的一阶滞后: csp c inc csp(-1,第二章-基本回归模型,52,2.8 离散因变量模型,通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,此

29、时因变量只取有限多个离散的值。例如,人们对交通工具的选择:地铁、公共汽车或出租车;投资决策中,是投资股票还是房地产。 以这样的决策结果作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或者称为离散选择模型(discrete choice model, DCM)。 在实际中,还会经常遇到因变量的取值被限定在某个特殊范围,一般我们称这类取值范围受到限制的因变量为受限因变量,相应的模型称为受限因变量模型。(limited dependent variable model,第二章-基本回归模型,离

30、散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。 1962年,Warner首次将它应用于经济研究领域,用以研究公共交通工具和私人交通工具的选择问题。 70、80年代,离散选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。 模型的估计方法主要发展于80年代初期,第二章-基本回归模型,一)线性概率模型的概念 下面用一个关于是否读研究生的例子来说明如何解释线性概率模型的结果。模型为,其中,1、线性概率模型及二元选择模型的形式,第二章-基本回归模型,设回归结果如下(所有系数值均在10%水平上显著,对每个观测值,可根据上式计算因变量的拟合值或

31、预测值。 在常规OLS回归中,因变量的拟合值或预测值的含义是:平均而言,我们可以预期的因变量的值。但在本例的情况下,这种解释就不适用了。假设学生甲的平均分为3.5,家庭年收入为5万元,Y的拟合值为,第二章-基本回归模型,因变量在这个二元选择模型中只能取两个值:0或1,可是该学生的的拟合值或预测值为0.8。将该拟合值解释为该生决定读研的概率的估计值。因此,该生决定读研的概率估计值为0.8。这种概率不是能观测的,能观测的是读研还是不读研的决定。 对斜率系数的解释也不同了。 在常规回归中,斜率系数代表的是其他解释变量不变的情况下,该解释变量的单位变动引起的因变量的变动。 在线性概率模型中,斜率系数表

32、示其他解释变量不变的情况下,该解释变量的单位变动引起的因变量等于1的概率的变动,第二章-基本回归模型,CPA的系数估计值0.4意味着家庭收入不变的情况下,一个学生的GPA增加一个点(如从3.0到4.0),该生决定去读研的概率的估计值增加0.4。 INCOME的系数估计值0.002表明,一个学生的成绩不变,而家庭收入增加1000元(单位为千元),该生决定去读研的概率的估计值增加0.002。 LPM模型中,解释变量的变动与虚拟因变量值为1的概率线性相关,因而称为线性概率模型,第二章-基本回归模型,58,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为: (2.8.1) 其中:N是样本容

33、量;k是解释变量个数;xi为第i个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量: 式( 2.8.1 )中ui为相互独立且均值为0的随机扰动项,1、线性概率模型及二元选择模型的形式,第二章-基本回归模型,59,令pi = P ( yi =1) ,那么 1 - pi = P ( yi =0) ,于是 (2.8.2) 又因为E(ui ) = 0 ,所以 E(yi ) = xi,xi =(x1i , x2i , xki ), =(1 , 2 , k ),从而有下面的等式: (2.8.3,第二章-基本回归模型,60,式(2.8

34、.3)只有当xi 的取值在(0,1)之间时才成立,否则就会产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式: (2.8.4) 此时就可以把因变量看成是一个概率。 那么扰动项的方差: (2.8.5) 或 存在异方差! (2.8.6,第二章-基本回归模型,以pi = - 0.2 + 0.05 xi 为例,说明xi 每增加一个单位,则采用第一种选择的概率增加0.05。假设用这个模型进行预测,当预测值落在 0,1 区间之内(即xi取值在4, 24 之内)时,则没有什么问题;但当预测值落在0,1 区间之外时,则会暴露出该模型的严重缺点。 因为概率的取值范围是 0,1,所以

35、此时必须强令预测值(概率值)相应等于0或1(见下图,1/25/2021,第二章-基本回归模型,1/25/2021,第二章-基本回归模型,线性概率模型的估计和问题,第一个问题是线性概率模型存在异方差性。扰动项的方差是 ,这里 p 是因变量等于1的概率,此概率对于每个观测值不同,因而扰动项方差将不是常数,导致异方差性。 第二个问题是扰动项不是正态分布的。事实上,线性概率模型的扰动项服从二项分布。 第三个问题,它假定自变量与Y=1的概率之间存在线性关系,而此关系往往不是线性的,第二章-基本回归模型,第四个问题也是最严重的问题是,拟合值可能小于0或大于1,而概率值必须位于0,1区间内。 回到有关读研的

36、例子。假设学生乙的GPA为4.0,家庭收入为20万元,则代入前式,Y的拟合值为 从而得到一个不可能的结果(概率值大于1)。假设另有一个学生丙的为1.0,家庭收入为5万元,则其Y的拟合值为 -0.2,表明读研的概率为负数,这也是一个不可能的结果,第二章-基本回归模型,65,由于上述问题,考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。 假设有一个未被观察到的潜在变量yi*,它与xi之间具有线性关系,即 (2.8.7) 其中: ui*是扰动项。yi和yi*的关系如下: (2.8.8,第二章-基本回归模型,66,yi*大于临界值0时,yi =1; yi*小于等于0时,yi =0。这样 (2

37、.8.9) 其中:F是ui*的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回归模型: (2.8.10,即yi关于它的条件均值的一个回归,第二章-基本回归模型,67,分布函数的类型决定了二元选择模型的类型,根据分布函数F的不同,二元选择模型可以有不同的类型,常用的二元选择模型如下: 常用的二元选择模型,第二章-基本回归模型,2、Probit模型和Logit模型,虽然估计和使用线性概率模型很简单,但存在上面讨论的几个问题,其中最严重的两个问题是拟合值小于0或大于1的问题,假定自变量和Y=1的概率之间存在线性关系的假设不现实的问题。 使用更为复杂的二元选择

38、模型可以克服这些缺陷。 本节要介绍的Probit模型和Logit模型就是这样的模型,第二章-基本回归模型,一)Probit和Logit模型的设定,在二元选择模型中,首先要关心的是响应概率(response probability)。 这里我们用x表示全部解释变量和常数1构成的列向量,即, ,解释变量的第i个样本观测值用 表示。 在LPM模型中,我们假定响应概率是一组参数的线性函数。为了避免LPM模型的这一缺陷,考虑形如下式的一类二元选择模型,第二章-基本回归模型,其中F是一个取值严格位于0和1之间的函数,即 对于全部实数z成立。 下面要介绍是实践中应用最广泛的两个F函数。 在logit模型中,F是logistic函数,此函数是标准logistic随机变量的累积分布函数,第二章-基本回归模型,在probit模型中,F是标准正态累积分布函

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论