




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用回归分析例库封面案例名称:民航客运量及相关因素分析作者:纪跃芝 教学目的:掌握回归分析对实例进行基本分析。适用课程:应用回归分析学习本案例的前期知识准备: 回归分析、SPSS软件本案例的知识点:回归模型 一、案例背景文章通过分阶段建立多元线性回归模型,分析了改革开放32年来民航客运量与相关因素之间的关系。结果表明:在不同历史阶段影响民航客运量的因素有所不同,并且从经济学角度对所建立的模型给出了合理的解释。二、数据介绍数据来自新中国五十五年统计资料汇编和中国统计年鉴2010。三、分析过程根据以上的分析,自改革开放以来,将中国民航客运量的增长趋势分为三个阶段,这里还有一个问题,就是年段的划分选
2、在何处会更合理呢?对于这个问题,我们主要依据表2中分段回归拟合的残差平方和的大小,同时结合自变量选择时考虑的诸多因素做适当调整。下面分阶段建立因变量关于自变量的各种组合的回归方程,这种组合方程共有个,根据自变量的选择准则,从中选择最优回归方程。3.1 第一阶段:19781988年最优回归模型经过比较,在通过回归方程和回归系数的显著性检验的方程中(取显著性水平),发现表3中的两个模型最优。由表3可见,模型一的各项指标都优于模型二,但是模型一中的系数,与实际意义不符,最终消费与民航客运量应该正相关。模型二中的系数,与实际意义相符合,铁路客运量与民航客运量应该负相关,出现与实际意义不符的情况可能是由
3、变量间的多重共线性造成的,为此考察其它几项指标,见表4. 表3 两个最优回归模型比较模型 19781988年拟合回归方程 标准残差 复相关系数 PRESS AIC模型一 41.91 0.9920 26372.68 111.0539模型二 46.03 0.9904 52010.33 113.1177表4 多重共线性、异常值诊断模型 方差扩大因子 绝对值最大的删除学生化残差 最大库克距离 最大杠杆值模型一 模型二 从表4可见,模型一的自变量间存在严重的多重共线性,而且存在异常值点,模型二的自变量间不存在多重共线性,而且没有异常值点。为了进一步考察模型二的拟合效果,做残差图4和拟合图5。 图4 19
4、781988年的拟合-残差图 图5 19781988年的最优回归拟合图由图4可见,残差波动较小,介于-8060之间,且无规律。图5表明模型二的拟合效果相当好,最优回归方程对变量间的描绘是理想的。3.2 第二阶段最优回归模型的确立自变量的选择方法同上。第二阶段:19892002年间,选入最优回归模型的变量是。第三阶段:20032009年间,选入最优回归模型的变量是。值得注意的是,在第三阶段,2009年对应的第七组数据,绝对值最大的删除学生化残差,位于第一大,中心化杠杆值,位于第二大,库克距离,位于第一大,可见2009年的数据为异常值的原因是自变量异常和因变量异常两个原因共同引起的。为了确定年段划
5、分,分别考虑了以下几种情形:第二阶段:19892001年和19892002年两种情形。第三阶段:20022009年、20032009年以及20022008年三种情形。计算方法同上,具体结果见表5:表5 第二阶段两个最优回归模型比较模型 拟合回归方程 标准残差 复相关系数 PRESS AIC19892001 455.1 0.9576 3166450 195.066919892002 470.5 0.9624 3725234 211.8764以上两个模型均通过了回归方程和回归系数的显著性检验,回归系数也很接近,总体来说,第一个模型好于第二个模型。针对模型一,利用SPSS软件计算: 说明变量间不存在
6、多重共线性和异常值。最终取那个模型,还需视第三阶段模型而定。3.3 第三阶段最优回归模型的确立第三阶段最优回归模型见表6,三个回归方程都通过了显著性检验。统计量的概率值见表7。从表6可见,20022009年、20032009年的回归结果很接近,说明2002年的数据对回归结果影响不大,而删除2009年数据后的20022008年的回归结果明显好于前两者,说明2009年的数据作为异常值对回归结果有较大影响。从表7可见,20022009年、20032009年回归方程中的回归系数均没有通过显著性检验,20022008年回归方程中的回归系数都通过了显著性检验,利用SPSS软件计算:说明20022008年回
7、归方程中变量间不存在多重共线性和异常值。表6 第三阶段三个最优回归模型比较模型 拟合回归方程 标准残差 复相关系数 PRESS AIC20022009 644.6 0.9888 9803150 122.374520032009 720 0.9851 12946644 107.812920022008 290.5 0.997 1203304 95.1043 表7 第三阶段三个最优回归模型中统计量的概率值比较模型 常数 20022009 0.0014 0.0003 0.070920032009 0.0067 0.0013 0.111320022008 0.0001 0.0012 0.0024 综合
8、以上分析,我们将第二阶段和第三阶段确定为:第二阶段:19892001年,最优回归方程为。第三阶段:20022008年,最优回归方程为。 图6 19892001年最优回归拟合图 图7 20022008年最优回归诊断图图6画出了19892001年民航客运量与民航航线里程及来华旅游入境人数的回归直线,图片说明最优回归方程对变量之间关系的描绘是理想的。图7是20022008年民航客运量与最终消费及来华旅游入境人数的回归诊断图。由图片可以看出4:(1)Page1-拟合残差图,page4-残差QQ正态图。图片表明残差无规则分布在-300200之间,残差数据可以认为来自正态总体。(2)page3-回归拟合图。图片表明,回归模型对观测数据拟合的相当好,最优回归方程对变量之间的描绘是理想的。(3)page5-拟合值与残差分布比较图。拟合值的取值范围明显大于残差值的取值范围,说明最终消费与来华旅游入境人数对民航客运量作用显著。四、结论本文根据改革开放以来中国民航客运量及其相关因素增长趋势的特点,建立多元线性回归模型,讨论了不同阶段民航客运量的影响因素以及它们之间的关系。见表8。表8 19782008年民航客运量及其相关因素分阶段回归模型阶段划分 拟合回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论