第3章线性回归问题与非线性回归分析_第1页
第3章线性回归问题与非线性回归分析_第2页
第3章线性回归问题与非线性回归分析_第3页
第3章线性回归问题与非线性回归分析_第4页
第3章线性回归问题与非线性回归分析_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第 3章章 线性回归问题与非线性回线性回归问题与非线性回归分析归分析3.1 线性回归的常见问题线性回归的常见问题n 3.1.1 多重共线性多重共线性n 3.1.2 异方差性异方差性n 3.1.3 自相关性自相关性3.1.1 多重共线性多重共线性1.概念概念i=1,2, n其基本假设之一是解释变量之间不存在完其基本假设之一是解释变量之间不存在完全共线性。全共线性。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性 (Multicollinearity)。如果存在如果存在c1X1i+c2X2i+ ckXki=0 i =1,2, n 其中其中 : ci 不全为不全为 0,则称为解释变量间存在完全共线性,则称为解释变量间存在完全共线性。多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中,有部分自变量呈高度相关,也就是说,这些变量被用来解释因变量时导致所提供的信息出现 “ 重叠 ” 。例如、模型中如果有多个自变量有共同的上升趋势,它们之间很可能有高度的相关关系导致共线性。实际经济问题中的多重共线性实际经济问题中的多重共线性( 1)经济变量相关的共同趋势)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大力投入往往出现高度相关情况,大企业二者都大,小企业都小。,小企业都小。( 2)滞后变量的引入)滞后变量的引入在经济计量模型中,往往需要引入滞后经济变量来反在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。映真实的经济关系。例如,消费例如,消费 =f(当期收入当期收入 , 前期收入)前期收入)显然,两期收入间有较强的线性相关性。显然,两期收入间有较强的线性相关性。( 3)样本资料的限制)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性定样本可能存在某种程度的多重共线性一般经验:诊断方法诊断方法n 1.一些经验方法一些经验方法2.条件指数条件指数条件指数( condition index)可以用来判断多重共线性是否存在以及多重共线性的严重程度,通常认为:n 从条件指数可以看到,最大的条件数为从条件指数可以看到,最大的条件数为 162.804,说明自变,说明自变量间存在严重的共线性。量间存在严重的共线性。n 如果有某几个自变量的方差比例值在某一行同时较大(接如果有某几个自变量的方差比例值在某一行同时较大(接近近 1),则这几个自变量间就存在共线性。),则这几个自变量间就存在共线性。例 3.1 根据例 2.1计算特征值及条件指数多重共线性检验 SPSS 打开 Linear Regression: Statistics子对话框,选择Collinearity diagnostics(共线性诊断 ),单击 Continue返回主对话框并单击 OK按钮。这样 SPSS 便可输出所有检查多重共线性的指标。3.方差扩大因子法方差扩大因子法与特征根法比较,方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性,严重程度如何n 例 3.2 承接例 3.1,用方差扩大因子法检验 n 多重共线性检验 SPSSn 除除 PMG外,其他变量都与别的变量存在程度不同的外,其他变量都与别的变量存在程度不同的共线性问题,其中共线性问题,其中 MOB的共线性最严重。的共线性最严重。克服多重共线性的方法克服多重共线性的方法1.排除引起共线性的变量排除引起共线性的变量n n 找出引起多重共线性的解释变量,将它排除出去找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。,是最为有效的克服多重共线性问题的方法。n 注意:注意:n剩余解释变量参数的经济含义和数值都发生了变化。剩余解释变量参数的经济含义和数值都发生了变化。例 2.1 删去 POP,再进行回归2.增大样本容量增大样本容量n 由于多重共线性是一样本特征,故有可能由于多重共线性是一样本特征,故有可能在关于同样变量的另一样本中共线性没有第一个在关于同样变量的另一样本中共线性没有第一个样本那么严重。一般认为:解释变量之间的相关样本那么严重。一般认为:解释变量之间的相关程度与样本容量成反比,即样本容量越小,相关程度与样本容量成反比,即样本容量越小,相关程度越高;样本容量越大,相关程度越小。因此程度越高;样本容量越大,相关程度越小。因此,收集更多观测值,增加样本容量,就可以避免,收集更多观测值,增加样本容量,就可以避免或减轻多重共线性的危害。或减轻多重共线性的危害。n 在实践中,当我们所选的变量个数接近样在实践中,当我们所选的变量个数接近样本容量时,自变量间就容易产生共线性。所以,本容量时,自变量间就容易产生共线性。所以,我们在运用回归分析研究经济问题时,要尽可能我们在运用回归分析研究经济问题时,要尽可能使样本容量远大于自变量个数。使样本容量远大于自变量个数。3.差分法差分法时间序列数据、线性模型:将原模型时间序列数据、线性模型:将原模型变换为差分模型变换为差分模型 :Yi =1X1i+2 X2i + +k Xki+ i可以相对有效地消除原模型中的多可以相对有效地消除原模型中的多重共线性。重共线性。 一般讲, 增量之间的线性关系远比总量之间的线性关系弱得多 。例如例如 : 中国 GDP与居民消费 C的总量与增量数据Year GDP CONS CONS/GDP GDP CONS CONS / GDP1980 NA 2976 NA NA NA NA1981 4901 3309 0.675168 NA 333 NA1982 5489 3638 0.66278 588 329 0.5595241983 6076 4021 0.661784 587 383 0.652471984 7164 4694 0.655221 1088 673 0.6185661985 8792 5773 0.65662 1628 1079 0.6627761986 10133 6542 0.645613 1341 769 0.5734531987 11784 7451 0.632298 1651 909 0.5505751988 14704 9360 0.636561 2920 1909 0.6537671989 16466 10556 0.641079 1762 1196 0.6787741990 18320 11362 0.620197 1854 806 0.4347361991 21280 13146 0.617763 2960 1784 0.6027031992 25864 15952 0.616765 4584 2806 0.6121291993 34501 20182 0.584969 8637 4230 0.4897531994 47111 27216 0.577699 12610 7034 0.5578111995 59405 34529 0.581247 12294 7313 0.5948431996 68498 40172 0.58647 9093 5643 0.620587由表中的比值可以直观地看到,增量的线性由表中的比值可以直观地看到,增量的线性关系弱于总量之间的线性关系,可以部分克服共线关系弱于总量之间的线性关系,可以部分克服共线性的问题。性的问题。进一步分析:进一步分析:GDP与与 CONS(-1)之间的可决系数为之间的可决系数为 0.988, GDP与与 CONS(-1)之间的可决系数为之间的可决系数为 0.746一般认为,两个变量之间的可决系数大于一般认为,两个变量之间的可决系数大于0.8时,二者之间存在强烈的线性关系。时,二者之间存在强烈的线性关系。原模型和差分模型经过检验都具有多重共原模型和差分模型经过检验都具有多重共线性,但程度不同。线性,但程度不同。n 命令命令n Ls d(y) d(x1) d(x2) .d(xp)n Ls y-y(-1) x1-x1(-1) x2-x2(-1)xp-xp(-1)4.重新定义方程重新定义方程n 比如可以在例比如可以在例 2.1中考虑用人均汽油消费量中考虑用人均汽油消费量、人均机动车数量、人均国民生产总值和、人均机动车数量、人均国民生产总值和油价这四个变量建模。取消原模型中的人油价这四个变量建模。取消原模型中的人口数变量。由于减少了变量,口数变量。由于减少了变量, 也就降低了也就降低了发生共线性的可能性。发生共线性的可能性。5.回归系数的有偏估计回归系数的有偏估计n 岭回归法岭回归法n 主成分法主成分法n 偏最小二乘法偏最小二乘法n 差分法差分法n 1.异方差的概念异方差的概念即对于不同的样本点,随机误差项的方差不再是常数,则认为出现了 异方差性 。n 3.1.2 异方差性异方差性22n 异方差就是对同方差假设的违反。经典回归中同异方差就是对同方差假设的违反。经典回归中同方差是指随着样本观察点方差是指随着样本观察点 X的变化,线性模型中的变化,线性模型中随机误差项随机误差项 的方差并不改变,保持为常数,的方差并不改变,保持为常数,即即i=1,2,nn 如果的数值对不同的样本观察值各不相同,则称如果的数值对不同的样本观察值各不相同,则称随机误差项具有异方差,即随机误差项具有异方差,即 n 常数常数 i=1,2,n n 23n 为什么会产生这种异方差性呢?为什么会产生这种异方差性呢?n 一方面是因为随机误差项包括了测量误差和模型一方面是因为随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影响,另一方面中被省略的一些因素对因变量的影响,另一方面来自不同抽样单元的因变量观察值之间可能差别来自不同抽样单元的因变量观察值之间可能差别很大。很大。 因此,异方差性多出现在横截面样本之中因此,异方差性多出现在横截面样本之中。 至于时间序列,则由于因变量观察值来自不同至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显之间的差别不是很大,所以异方差性一般不明显。 2.异方差性的后果异方差性的后果n n1.参数估计量非有效参数估计量非有效n2.变量的显著性检验失去意义变量的显著性检验失去意义n3.模型的预测失效模型的预测失效3.异方差性的检验异方差性的检验n 图示检验法图示检验法n White异方差性检验异方差性检验图示检验法图示检验法 (残差图形态及判别残差图形态及判别 ) (a)满意模式满意模式 残残差差x0 一般认为,如果回归方程满足所给出的基本假设,所有残差应该在 e 0的附近随机变化,并在变化不大的一条带子内。图 a中的残差都落在变化不大的一条带子内,也就可以说明回归模型满足基本假设。残差图残差图 (形态及判别形态及判别 ) (b)非常数方差非常数方差 残残差差x0 当回归模型满足所有假定时,残差图上的散点应该是随机的,无任何规律。如果回归模型存在异方差时,残差图上的散点呈现出相应的趋势。当然,如果存在异方差,也可能随着 x的增加而减少。图 b的情况表明,残差图上的散点随着x的增加而增加。n 例例 2.1 GNP与残差散点图,存在异方差。与残差散点图,存在异方差。从残差图可以看出,误差项具有明显的异方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论