线性回归问题与非线性回归分析_第1页
线性回归问题与非线性回归分析_第2页
线性回归问题与非线性回归分析_第3页
线性回归问题与非线性回归分析_第4页
线性回归问题与非线性回归分析_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章线性回归问题与非线性回归分析 3 1线性回归的常见问题 3 1 1多重共线性3 1 2异方差性3 1 3自相关性 3 1 1多重共线性1 概念 i 1 2 n其基本假设之一是解释变量之间不存在完全共线性 如果某两个或多个解释变量之间出现了相关性 则称为多重共线性 Multicollinearity 如果存在c1X1i c2X2i ckXki 0i 1 2 n其中 ci不全为0 则称为解释变量间存在完全共线性 多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见 即在决定一个因变量的多个自变量中 有部分自变量呈高度相关 也就是说 这些变量被用来解释因变量时导致所提供的信息出现 重叠 例如 模型中如果有多个自变量有共同的上升趋势 它们之间很可能有高度的相关关系导致共线性 实际经济问题中的多重共线性 1 经济变量相关的共同趋势时间序列样本 经济繁荣时期 各基本经济变量 收入 消费 投资 价格 都趋于增长 衰退时期 又同时趋于下降 横截面数据 生产函数中 资本投入与劳动力投入往往出现高度相关情况 大企业二者都大 小企业都小 2 滞后变量的引入 在经济计量模型中 往往需要引入滞后经济变量来反映真实的经济关系 例如 消费 f 当期收入 前期收入 显然 两期收入间有较强的线性相关性 3 样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集 特定样本可能存在某种程度的多重共线性一般经验 诊断方法 1 一些经验方法 2 条件指数 条件指数 conditionindex 可以用来判断多重共线性是否存在以及多重共线性的严重程度 通常认为 从条件指数可以看到 最大的条件数为162 804 说明自变量间存在严重的共线性 如果有某几个自变量的方差比例值在某一行同时较大 接近1 则这几个自变量间就存在共线性 例3 1根据例2 1计算特征值及条件指数多重共线性检验SPSS 打开 LinearRegression Statistics 子对话框 选择 Collinearitydiagnostics 共线性诊断 单击 Continue 返回主对话框并单击 OK 按钮 这样SPSS便可输出所有检查多重共线性的指标 3 方差扩大因子法 与特征根法比较 方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性 严重程度如何 例3 2承接例3 1 用方差扩大因子法检验多重共线性检验SPSS除PMG外 其他变量都与别的变量存在程度不同的共线性问题 其中MOB的共线性最严重 克服多重共线性的方法 1 排除引起共线性的变量 找出引起多重共线性的解释变量 将它排除出去 是最为有效的克服多重共线性问题的方法 注意 剩余解释变量参数的经济含义和数值都发生了变化 例2 1删去POP 再进行回归 2 增大样本容量 由于多重共线性是一样本特征 故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重 一般认为 解释变量之间的相关程度与样本容量成反比 即样本容量越小 相关程度越高 样本容量越大 相关程度越小 因此 收集更多观测值 增加样本容量 就可以避免或减轻多重共线性的危害 在实践中 当我们所选的变量个数接近样本容量时 自变量间就容易产生共线性 所以 我们在运用回归分析研究经济问题时 要尽可能使样本容量远大于自变量个数 3 差分法 时间序列数据 线性模型 将原模型变换为差分模型 Yi 1 X1i 2 X2i k Xki i可以相对有效地消除原模型中的多重共线性 一般讲 增量之间的线性关系远比总量之间的线性关系弱得多 例如 由表中的比值可以直观地看到 增量的线性关系弱于总量之间的线性关系 可以部分克服共线性的问题 进一步分析 GDP与CONS 1 之间的可决系数为0 988 GDP与 CONS 1 之间的可决系数为0 746一般认为 两个变量之间的可决系数大于0 8时 二者之间存在强烈的线性关系 原模型和差分模型经过检验都具有多重共线性 但程度不同 命令Lsd y d x1 d x2 d xp Lsy y 1 x1 x1 1 x2 x2 1 xp xp 1 4 重新定义方程 比如可以在例2 1中考虑用人均汽油消费量 人均机动车数量 人均国民生产总值和油价这四个变量建模 取消原模型中的人口数变量 由于减少了变量 也就降低了发生共线性的可能性 5 回归系数的有偏估计 岭回归法主成分法偏最小二乘法差分法 1 异方差的概念 即对于不同的样本点 随机误差项的方差不再是常数 则认为出现了异方差性 3 1 2异方差性 22 异方差就是对同方差假设的违反 经典回归中同方差是指随着样本观察点X的变化 线性模型中随机误差项的方差并不改变 保持为常数 即i 1 2 n如果的数值对不同的样本观察值各不相同 则称随机误差项具有异方差 即常数i 1 2 n 23 为什么会产生这种异方差性呢 一方面是因为随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影响 另一方面来自不同抽样单元的因变量观察值之间可能差别很大 因此 异方差性多出现在横截面样本之中 至于时间序列 则由于因变量观察值来自不同时期的同一样本单元 通常因变量的不同观察值之间的差别不是很大 所以异方差性一般不明显 2 异方差性的后果 1 参数估计量非有效2 变量的显著性检验失去意义3 模型的预测失效 3 异方差性的检验 图示检验法 White异方差性检验 图示检验法 残差图形态及判别 a 满意模式 残差 x 0 一般认为 如果回归方程满足所给出的基本假设 所有残差应该在e 0的附近随机变化 并在变化不大的一条带子内 图a中的残差都落在变化不大的一条带子内 也就可以说明回归模型满足基本假设 残差图 形态及判别 当回归模型满足所有假定时 残差图上的散点应该是随机的 无任何规律 如果回归模型存在异方差时 残差图上的散点呈现出相应的趋势 当然 如果存在异方差 也可能随着x的增加而减少 图b的情况表明 残差图上的散点随着x的增加而增加 例2 1GNP与残差散点图 存在异方差 从残差图可以看出 误差项具有明显的异方差性 误差随着自变量的增加而增加 White异方差性检验 EViews显示两个检验统计量 F统计量和Obs R2统计量 White检验的原假设 不存在异方差性方程对象窗口 View ResidualTest Heteroskasticity White 例3 3对例2 1进行怀特检验回归方程的White异方差检验的结果 该结果F统计量和Obs R2统计量的P值均很小 表明拒绝原假设 即残差存在异方差性 4 异方差性的修正方法 1 加权最小二乘法 WLS WeightedLeastSquares 加权最小二乘法的基本思想 加权最小二乘法是对原模型加权 使之变成一个新的不存在异方差性的模型 然后采用普通最小二乘法估计其参数 例如 在递增异方差下 对来自较小Xi的子样本 其真实的总体方差较小 Yi与回归线拟合值之间的残差ei的信度较大 应予以重视 而对较大Xi的子样本 由于真实总体的方差较大 残差反映的信息应打折扣 加权最小二乘法就是对加了权重的残差平方和实施OLS法 对较小的残差平方ei2赋予较大的权数 对较大的残差平方ei2赋予较小的权数 尝试一些m值 如m 2 1 5 1 0 5 0 0 5 1 1 5 2等 建立不同的模型 然后选择其中表现最好的模型 例3 4承接例2 1和例3 3 lsqmgcmobpmggnp genrw gnp 1 5或series 点击options选加权最小二乘法 然后再进行Harvey检验 结果各统计量在0 05显著性水平下都无法拒绝原假设 说明异方差问题得到较好的解决 寻找最优权函数利用SPSS软件可以确定 6 6 式幂指数m的最优取值 对例6 3的数据 依次点选Analyze Regression WeightEstimation进入估计权函数对话框 默认的幂指数m的取值为m 2 0 1 5 1 0 0 5 0 0 5 1 0 1 5 2 0 这一默认值可以更改 先将因变量y与自变量x选入各自的变量框 再把x选入Weight变量框 幂指数 Power 取默认值 计算结果如下 格式略有变动 对异方差问题的处理至今没有什么更好的方法 一些方法的处理效果往往不甚明显 所以此例能有所改进也就不错了 3 1 3自相关性 一 自相关的概念自相关 autocorrelation 又称序列相关 serialcorrelation 是指总体回归模型的随机误差项之间存在相关关系 即不同观测点上的误差项彼此相关 即 二 自相关产生的原因 大多数经济时间数据都有一个明显的特点 惯性 表现在时间序列不同时间的前后关联上 1 经济变量固有的惯性 如GDP 价格 就业等经济指标都会随经济系统的周期而波动 例如 在经济高涨时期 较高的经济增长率会持续一段时间 而在经济衰退期 较高的失业率也会持续一段时间 这种现象就会表现为经济指标的自相关现象 滞后效应是指某一指标对另一指标的影响不仅限于当期而是延续若干期 由此带来变量的自相关 例如 居民当期可支配收入的增加 不会使居民的消费水平在当期就达到应有水平 而是要经过若干期才能达到 因为人的消费观念的改变客观上存在自适应期 2 经济活动的滞后效应 3 模型设定的偏误 所谓模型设定偏误 Specificationerror 是指所设定的模型 不正确 主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误 例如 本来应该估计的模型为Yt 0 1X1t 2X2t 3X3t t 但在模型设定中做了下述回归 Yt 0 1X1t 1X2t vt 因此 vt 3X3t t 如果X3确实影响Y 则出现序列相关 三 诊断方法 1 杜宾 瓦森 Durbin Watson 检验2 LM检验 1 杜宾 瓦森 Durbin Watson 检验 DW检验是J Durbin 杜宾 和G S Watson 沃特森 于1951年提出的一种适用于小样本的检验方法 DW检验只能用于检验随机误差项具有一阶自回归形式的自相关问题 这种检验方法是建立经济计量模型中最常用的方法 一般的计算机软件都可以计算出DW值 无一阶自相关 由可得DW值与的对应关系如表所示 4 2 4 2 0 2 0 1 1 0 0 0 1 1 DW 误差项的相关性 完全负自相关 负自相关 无自相关 正自相关 完全正自相关 由上述讨论可知DW的取值范围为 0 DW 根据样本容量和解释变量的数目 不包括常数项 查DW分布表 得临界值和 然后依下列准则考察计算得到的DW值 以决定模型的自相关状态 DW检验决策规则 用坐标图更直观表示DW检验规则 不能确定 正自相关 无自相关 不能确定 负自相关 4 2 0 缺陷 D W 检验该方法有三点不足 1 存在无法作出判断的区域 2 如果模型中存在因变量的滞后项 检验失败 3 只对一阶自相关的检验有效 不能检验是否有高阶自相关 3 拉格朗日乘数 Lagrangemultiplier 检验 拉格朗日乘数检验 LM检验 克服了DW检验的缺陷 适合于高阶序列相关以及模型中存在滞后被解释变量的情形 如果怀疑随机扰动项存在p阶序列相关 提出原假设为 H0 1 2 p 0 无自相关 根据观测量nR2的P值可以做出判断 实际检验中 可从1阶 2阶 逐次向更高阶检验 不妨设含有高阶扰动项和滞后项的方程形式为 LM检验操作原假设 不存在从一阶到p阶的自相关方程对象窗口 View ResidualTest SerialCorrelationLMTest例2 1 存在自相关 3 自相关的处理 当一个回归模型存在序列相关性时 其参数估计不能用普通的最小二乘法 这时需要对原始数据进行一些变换 使得变换后的数据为样本所建的模型不存在序列相关性 通常有以下几种处理方法 1 迭代法 差分法就是用增量数据代替原来的样本数据 将原来的回归模型变为差分形式的模型 或根据式 2 重新定义模型 新定义的模型可能避免序列自相关例3 5lsqmg qmg 1 1 c 1 c 2 mob mob 1 1 c 3 pmg pmg 1 1 c 4 pop pop 1 1 c 5 gnp gnp 1 1 采用优化方法 模型最后为qmg qmg 1 1 c 1 c 2 mob mob 1 1 c 3 pmg pmg 1 1 LM检验在p 1 2 3时 均不能拒绝原假设 说明残差项无序列自相关 新模型较好地解决了序列自相关问题 3 2非线性回归分析 3 2 1非线性模型非线性模型指的是关于参数或自变量是非线性函数的模型 在某些情形下 可以通过一定的变换线性化将这些非线性模型作为线性模型处理 这类模型称为可线性化的非线性模型 3 2非线性回归分析 1 线性化不涉及参数 有许多非线性模型通过对变量进行直接变换 可以线性化 这类模型 及变换如表所示 这类变换的共同点是原模型的是变换本身不涉及模型参数 对变换后得到的模型 其参数估计就是原模型的参数估计 化为线性模型后 可对线性模型直接进行OLS估计 按变换后的方程估计 得到的参数估计值就是原模型的参数估计值 2 线性化涉及参数 3 不可线性化模型 表3 10中的模型有三个待估计的参数 这些参数的任何一个均无法事先通过经验或历史数据得到时 不能将其线性化 表3 10一些不能线性化的模型 3 2 2非线性最小二乘法 乘性误差形式 加性误差形式 如果采用乘性误差形式 则可按可线性化处理 如果采用加性误差形式 则无法线性化 只能用非线性最小二乘法来估计 这会导致处理结果与线性模型处理结果存在差异 用非线性最小二乘法参数估计操作与普通最小二乘法基本相同 只是在方程估计窗口或命令行中 模型必须以方程式的形式出现 没有简化形式 如方程式为 lsy c 1 k c 2 l c 3 在较为复杂的情况下 非线性最小二乘法无法求出精确解 需要采用迭代法 3 2 3应用实例例3 6 表3 11 表3 1是某企业16个月的某产品产量和单位成本资料 研究二者关系 为了明确产量和单机成本是何种关系 先绘制散点图如图3 3所示 选择双曲线模型 第一种方式 对线性化模型实施线性最小二乘估计命令 Seriesx1 1 xLsycx1还可以 lsyc inv x lsyc1 x 第二种方式 直接对原模型实施非线性最小二乘估计命令 lsy c 1 c 2 x 例3 7 表3 13 乘性误差形式 加性误差形式 lslog y clog k log l 线性化方法lsy c 1 k c 2 l c 3 非线性化方法两者本质上是两个模型此外 两者模型中L的回归系数均未通过显著性检验 因为L K两者相关系数太大 两者存在非常强的共线性 例3 7 在实践中 常用来简化这个模型 如果满足这个条件 则CD函数变为 模型简化为 是人均产量 是人均资本投入 例3 7 表3 13 问题是这个条件是否成立 要进行Wald检验 原假设 c 2 c 3 1 即 1 在模型log y c 1 c 2 log k c 3 log l 的基础上检验 View CoefficientTest Wald输入c 2 c 3 1由此可知 在0 05的显著性水平下 F统计量不能拒绝原假设 卡方统计量的收尾概率也近似0 05 因此约束条件基本可以接受 例3 7 估计方程线性化后参数估计lslog y l clog k l 非线性化最小二乘估计lsy l c 1 k l c 2 估计结果差不多 线性化模型略好 采用这个模型还原后为 Scalarco exp 0 69388 不可线性化模型 t c均为上上标 例 设消费函数为非线性形式 其中 cst是实际居民消费 inct是实际可支配收入 利用1959年第一季度 1959Q1 至1979第四季度 1979Q4 的人均消费支出 cs 和人均可支配收入 inc 共84个观察值数据估计此非线性方程 由于用迭代法计算 首先要赋初值 比如可以设 3的估计值b3初值是1 则可以利用OLS估计值 然后 非线性方程估计 3 2 4确定非线性模型形式的方法和模型的比较 非线性模型的形式复杂多样 如何根据实际的数据选择合适的模型 是建模的关键 总的说来可参考下面的 方法 1 根据散点图来确定类型 确定类型一般是把样本观测位画成散点图 由散点图的形状来大体确定模型类型 2 根据一定的经济知识背景 如商品的销售量与广告费用之间的关系 一般用S型曲线来描述 这足由于广告费用只有在一定范围内 才会对销售量有明显的影响 有时对一个问题需要用不同的模型来拟合 以找到效果最好的一个 需要对它们进行比较 首先应从经济学角度考虑 因为数据分析的目的是解释经济现象 所以要重视经济学理论和行为规律提供的理由 其次从统计分析角度比较 最重要的是残差分析 如果模型的残差平方和最小 并且看起来残差最随机化 则这样的模型应当被选择 3 3逐步回归法 3 3 1单向前进逐步回归单向前进逐步回归法 Uni directional Forwards 的思想是变量由少到多 每次增加一个最重要的变量 即利用回归系数p值最小 等价地 t统计量最大 的准则 直至没有引入的变量为止 例3 8 表3 17 1 在工作栏中选择Quick EstimateEquation或选择Object NewObject Equation 2 在Method中选择STEPLS StepwiseLeastSquares 3 在上框中输入因变量及始终包含的自变量 在下框中输入自变量序列 4 点击Options 在方法框中选择Uni directional Forwards 5 设置参数 显著性水平a 0 1 回归量的最大数目为8 其他选项采用默认形式 5 预测 点击Equation对象工具栏中Forecast 或选择Proc Forecast 3 3 1单向后退逐步回归单向后退逐步回归 Uni directional Backwards 与前进法相反 先用m个自变量建立一个回归方程 然后在这m个变量中选择一个最不重要的变量 即利用回归系数p值最大 等价地 t统计量最小 的准则 将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论