回归模型拟合精度分析_第1页
回归模型拟合精度分析_第2页
回归模型拟合精度分析_第3页
回归模型拟合精度分析_第4页
回归模型拟合精度分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、民航客运量及相关因素分析应用回归分析例库封面案例名称 :民航客运量及相关因素分析作者:纪跃芝教学目的:掌握回归分析对实例进行基本分析。适用课程:应用回归分析学习本案例的回归分析、 SPSS软件前期知识准备:本案例的知识点:回归模型民航客运量及相关因素分析一、案例背景文章通过 分阶段建立多元线性回归模型,分析了改革开放 32 年来民航客运量与相关因 素之间的关系 。结果表明: 在 不同历史阶段影响民航客运量的因素有所不同,并且从经济学角度对所建立的模型给出了合理的解释。二、数据介绍数据来自新中国五十五年统计资料汇编和中国统计年鉴2010。三、分析过程根据以上的分析, 自改革开放以来, 将中国民航

2、客运量的增长趋势分为三个阶段, 这里 还有一个问题,就是年段的划分选在何处会更合理呢?对于这个问题,我们主要依据表 2 中分段回归拟合的残差平方和的大小,同时结合自变量选择时考虑的诸多因素做适当调整。下面分阶段建立因变量 y 关于自变量的各种组合的回归方程,这种组合方程共有C15 C52 C55 25 1 31 个,根据自变量的选择准则,从中选择最优回归方程。3.1 第一阶段: 19781988 年最优回归模型经过比较, 在通过回归方程和回归系数的显著性检验的方程中 (取显著性水平0.05 ),发现表 3 中的两个模型最优。由表 3 可见,模型一的各项指标都优于模型二, 但是模型一中 x2的系

3、数 2 -0.2906 0 ,与实际意义不符,最终消费与民航客运量应该正相关。模型二中x3的系数 3 -0.0087 0 ,与实际意义相符合, 铁路客运量与民航客运量应该负相关, 出现与实际意义不符的情况可能 是由变量间的多重共线性造成的,为此考察其它几项指标,见表4.表 3 两个最优回归模型比较模型19781988 年拟合回归方程标准残差 复相关系数PRESS AIC模型一y 721.0010 - 0.2906x2 0.6902x52541.91 0.992026372.68111.0539模型二y 837.1212 - 0.0087x3 0.5174x546.03 0.990452010.

4、33113.1177表 4 多重共线性、异常值诊断模型方差扩大因子 绝对值最大的删除学生化残差SRE最大 库克距离最大杠杆值模型一VIF VIF 27.937 10 252.6047 30.5797 0.50.4516 2ch模型二VIF VIF 4.958 10352.683 30.4270 0.50.3364 2ch从表 4 可见, 模型一的自变量间存在严重的多重共线性,而且存在异常值点, 模型二的自变量间不存在多重共线性, 而且没有异常值点。 为了进一步考察模型二的拟合效果, 做残民航客运量及相关因素分析差图 4 和拟合图 5。图 4 19781988 年的拟合 - 残差图图 5 197

5、81988 年的最优回归拟合图由图 4 可见,残差波动较小,介于 -8060 之间,且无规律。图 5 表明模型二的拟合效 果相当好,最优回归方程 y 837.1212 - 0.0087 x3 0.5174x5 对变量间的描绘是理想的。3.2 第二阶段最优回归模型的确立自变量的选择方法同上。第二阶段: 19892002 年间,选入最优回归模型的变量是x4,x5 。第三阶段: 20032009 年间,选入最优回归模型的变量是x2,x5 。值得注意的是,在第三阶段, 2009 年对应的第七组数据,绝对值最大的删除学生化残 差SRE(7) 4.3207 3 ,位于第一大,中心化杠杆值 ch77 0.5

6、895 2ch 0.5714 ,位于第二大,库克距离 D7 3.1428 1 ,位于第一大,可见 2009 年的数据为异常值的原因是自变量异常和 因变量异常两个原因共同引起的。为了确定年段划分,分别考虑了以下几种情形:第二阶段: 19892001 年和 19892002 年两种情形。第三阶段: 20022009 年、 20032009 年以及 20022008 年三种情形。 计算方法同上,具体结果见表 5:表 5 第二阶段两个最优回归模型比较模型拟合回归方程标准残差复相关系数 PRESS AIC19892001y 855.2456 32.6893x40.3356x 455.150.957631

7、66450195.066919892002y 962.0639 28.0333x40.4612x5 470.50.96243725234211.8764以上两个模型均通过了回归方程和回归系数的显著性检验,回归系数也很接近, 总体来说,第一个模型好于第二个模型。针对模型一,利用SPSS软件计算:VIF 6.576 10,max SRE 2.3813 3,max D 0.4387 0.5民航客运量及相关因素分析说明变量间不存在多重共线性和异常值。最终取那个模型,还需视第三阶段模型而定。3.3 第三阶段最优回归模型的确立第三阶段最优回归模型见表 6 ,三个回归方程都通过了显著性检验。 T 统计量的概

8、率值 见表 7。从表 6 可见, 20022009 年、 20032009 年的回归结果很接近,说明 2002 年的数据对 回归结果影响不大,而删除 2009 年数据后的 20022008 年的回归结果明显好于前两者,说 明 2009 年的数据作为异常值对回归结果有较大影响。 从表 7 可见,20022009 年、20032009 年回归方程中 x5的回归系数均没有通过显著性检验, 20022008 年回归方程中的回归系数都 通过了显著性检验,利用 SPSS软件计算:VIF 6.097 10,max SRE 1.4889 3,max ch 0.5659 2ch 0.5714说明 2002200

9、8 年回归方程中变量间不存在多重共线性和异常值。表 6 第三阶段三个最优回归模型比较模型拟合回归方程标准残差复相关系数 PRESS AIC20022009y 13082.2726 1.1912x20.6896 x5644.60.98889803150122.374520032009y 13188.9552 1.1935x20.6944 x57200.985112946644107.812920022008y 13839.8583 0.8249x21.2573x5290.50.997120330495.1043表 7 第三阶段三个最优回归模型中 T 统计量的概率值比较模型常数x2x5200220

10、090.00140.00030.0709200320090.00670.00130.1113200220080.00010.00120.0024综合以上分析,我们将第二阶段和第三阶段确定为:第二阶段: 19892001 年,最优回归方程为y 855.2456 32.6893x4 0.3356x5第三阶段: 20022008 年,最优回归方程为y 13839.8583 0.8249x2 1.2573x5 。民航客运量及相关因素分析图 6 19892001 年最优回归拟合图图 7 20022008 年最优回归诊断图图 6 画出了 19892001 年民航客运量与民航航线里程及来华旅游入境人数的回归

11、直线, 图片说明最优回归方程对变量之间关系的描绘是理想的。图 7 是 20022008 年民航客运量与最终消费及来华旅游入境人数的回归诊断图。 由图片 可以看出 4 :( 1)Page1-拟合残差图, page4-残差 QQ 正态图。图片表明残差无规则分布在 -300200 之间,残差数据可以认为来自正态总体。(2)page3-回归拟合图。图片表明,回归模型对观测数据拟合的相当好,最优回归方 程对变量之间的描绘是理想的。( 3) page5-拟合值与残差分布比较图。拟合值的取值范围明显大于残差值的取值范围, 说明最终消费与来华旅游入境人数对民航客运量作用显著。四、结论本文根据改革开放以来中国民航客运量及其相关因素增长趋势的特点,建立多元线性回归模型,讨论了不同阶段民航客运量的影响因素以及它们之间的关系。见表8。表 8 19782008年民航客运量及其相关因素分阶段回归模型阶段划分拟合回归方程19781988y 837.1212 - 0.0087 x3 0.5174 x5198

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论