【毕业学位论文】(Word原稿)基于美国交通部数据的航空运输延误分析预测模型-统计教育学_第1页
【毕业学位论文】(Word原稿)基于美国交通部数据的航空运输延误分析预测模型-统计教育学_第2页
【毕业学位论文】(Word原稿)基于美国交通部数据的航空运输延误分析预测模型-统计教育学_第3页
【毕业学位论文】(Word原稿)基于美国交通部数据的航空运输延误分析预测模型-统计教育学_第4页
【毕业学位论文】(Word原稿)基于美国交通部数据的航空运输延误分析预测模型-统计教育学_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于美国交通部数据的航空运输延误分析预测模型 (中国人民大学统计学院 100872) 摘要 : 本文基于美国交通部 的公开 数据建立了航空运输延误分析预测的时间序列模型。 我们 针对飞行延误情况 进行研究。 在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文 利用所得数据 充分描述 了航空运输业的概 况,包括航线分布、航程分布、延误时长、系统预定飞行设定等 。 在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我 们就 本次建模进行了总结,并基于模型的分析预测 情况阐述了对于航空运输延误问题的一些启示 。 一、背景 (一)研究背景 空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪 30 年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。 1934 至 1945 年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统( 二十世纪 80 年代后, 计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。 我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中 等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。 (二)数据来源 本文使用的数据来源于美国交通运 输部研究与技术创新管理部门( 1200 0590 800美国交通运输统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发 和借鉴意义。我们选择了 2003 年 06 月至 2009 年 07 月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。 二、问题定义 我们关注的经济事件是一架次飞机的飞行情况。此 经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个 飞行架次 。因在这三个阶段都 可能出现延误,故我们把 飞行架次延误时长 定义为在起飞、在空和降落三个阶段的总延误时长。因 一次实现的飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时 长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。 飞行延误率 被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。 三、数据描述 (一)变量概览 该数据集所含主要指标分为以下大类,共计 55 个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了 18 个变量,如下表所示: 变量名 变量含义 期几 属航空公司 发地 的地 统预定起飞时刻 际起飞时刻与系统预定起飞时刻差值 统着陆时刻 际着陆时刻与系统预定着陆时刻差值 架次被取消与否( 1=取消) 消原因 架次是否改道( 1=改道) 统预定飞行时长(以分钟计) 际飞行时长(以分钟计) 机在空时长(以分钟计) 末机场距离 (表一)变量名称及意义说明 (二)主要变量及其关系分析 在数据集中,每个月起降的飞行架次最高可达 638,883 架次,最少月份也有481,506 架次。鉴于每个月的起降情况类似,我们选取离目前最近的 2009 年 07月的数据来进行主要变量关系分析。 由图一得, 特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的 计 37,705 架次。 芝加 哥奥黑尔 机场起飞的航班数量位居第二,占全美起飞架次总量的 累计 27,161 架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。 (图一)各始发地起飞架次占总起飞架次比例图截选 (图二)起始地点往来飞行架次图截选 (图三)始末机场距离分布表 如图三所示,始末机场距离分布其实是一个右偏分布。有 136,158 个飞行架次的始末机场距离都在 300 千米附近, 105,725 个飞行架次的始末机场距离在 500千米附近。介于 500 千米和 2,500 千米的 飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。 (图四)系统预定飞行耗时与实际飞行耗时对比 由图四看出,系统预定飞行耗时与实际飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为 70 分钟,而实际飞行时长的众数为 80 分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为 1 的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。 (图五)起飞延误与降落 延误基本统计量图 如图五所示,起飞延误时长与降落延误时长的均值分别为 钟,标准差分别为 差分别是 2,497 和 2,524 分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大 部分起降延误集中在始末机场距离介于 0 至 3,000 千米的架次。 (图六)起飞延误、降落延误与飞行距离关系图 如图七所示, 294,994 个飞行架次按时起飞。 260,760 架次的起飞延误时间介于 50 至 100 分钟之间。起飞延误时长介于 100 至 150 分钟之间的飞行架次为12,831,起飞延误时长超过 100 分钟的飞行架次为 3,046。因此,起飞延误飞行架次与按时起飞飞行架次比例相当。 (图七)起飞延误时长分布图 (图八)降落延误时长分布图 由图八得,按时着陆的飞行架次为 315,256,降落延误时 长介于 50 至 100 分钟的飞行架次为 239, 256,降落延误时长介于 100 至 150 分钟的飞行架次为13,898,降落延误时长大于 150 分钟飞行架次为 3,223。 (图九)起飞延误、飞行延误及降落延误关系图 不难从图九看出,在三个坐标轴取值较小的部分形成了一个三角区域,这说明一般飞行架次在起飞、在空及降落三个阶段的延误一般耗时都不会太长,但是有很多发生这种飞行延误的架次。将那些红色的点投影到起飞与降落延误的平面上,我们可以看到有部分起飞、降落延误时长相对较长的航班。 四、模型建立 为了对航空运输延误情况进 行最有效的刻画和预测,我们把飞行延误率作为研究的主要对象。经过多次试验,我们认为使用月度为最小的时间单位来进行研究会比较合适。因此,我们按月建立关于延误率的时间序列模型。用原始数据经过汇总后,得到 2003 年 06 月至 2009 年 07 月每月延误飞行架次占该月总飞行架次的比例数据,即月飞行延误率(以下用 名)。由图十得,飞行延误率有一定的季节性波动,但趋势并不明显。 . 30. 35. 40. 45. 50. 55. 6020 03 20 04 20 05 20 06 20 07 20 08 20 09D E L A Y R A T E(图十) 2003 年 06 月至 2009 年 07 月飞行延误率时间序列图 (一)初步建立 时间序列 模型 (图十一) 2003 年 06 月至 2009 年 07 月 飞行延误率自相关分析图 图十一为对飞行延误序列做自相关分析的结果,从图十一中可以看出,样本自相关系数( 呈现衰减趋势,而呈现出一定的周期起伏趋势。结合所研究数据的特性,我们认为飞行延误率序列应为季节序列。对飞行延误率序列进行周期为 12 的季节差分后得到新的序列,即除季节序列(命名为 (图十二)除季节序列的自相关分析 图十二为对除季节序列的自相关分析。 从图十二中可以看出,样本自相关系数有衰减趋势,且随时间增大,表现为拖尾。除了 K=12 时偏相关系数( 值较大之外,在 K4 之后偏相关系数都落入置信区间内。考虑到二阶季节差分会损失大量样本数据,且效果不明显,不再差分。同时,鉴于偏相关系数在 K4 之后都落入置信区间内,而自相关系数具有拖尾的特性,最终采用 )模型,即 4 阶自回归模型。因此,我们认为对于 2003 年 06 月至 2009年 07 月美国航空运输飞行延误率经过除季节差分后的时间序列用 4 阶自回归模型拟合较好。 经过计算, 值为 值标准误为 此可认为均值近似为 0 而不进行中心化直接计算。另外,考虑到 后期为 12 时的样本偏相关系数较大,为消除这个影响,我们将 2)加入模型中,所以,用于刻画 2003 年 06 月至 2009 年 07 月美国航空运输飞行延误率时间序列的最终模型为 12(1, 0 , 0 ) (1, 1, 0 )A R 。将此模型用于拟合,得到结果如表二所示。 各滞后多项式的倒数根在单位圆内,过程平稳。 模型的展开形式为: 1 2 2 3 4121 0 . 3 9 3 2 (1 0 . 5 7 7 7 0 . 1 0 6 3 0 . 0 5 7 8 0 . 3 0 8 4 )(1 ) B B BB d e l a y r a t e u ) R(2) R(3) R(4) 2) of um og R 4i 24i 65i 5i 89i 9i 4i 74i 89i 65i 65i 24i 表二) 12( 1 , 0 , 0 ) ( 1 , 1 , 0 )A R I M A 模 型 拟 合 结 果 (二)模型检验与评价 对于模型的检验,首先要检验其基本假定是否满足,这一般通过检验残差来进行。当 K 取 6 时,从图十三看出, 2 检验 P 值为 能拒绝残差序列相互独立的原假设。因此,所建模型满足基本假定。 (图十三) 12( 1 , 0 , 0 ) ( 1 , 1 , 0 )A R I M A 模 型 残 差 独 立 性 检 验 对于模型的评价,我们选择从预测的角度着手。不能预测的模型,一般说来对我们并无大助益。 我们利用 动态法 , 将 2003 年 06 月至 2008 年 12 月的飞行延误率 (以下命名为 于建立模型,并 利用这个模型预测 2009 年 的飞行延误率 。 未进行几阶差分前, 自相关系数同样无衰减趋势,并展现出一定的季节波动性。如 图 十四 所示: (图十四) 2003 年 06 月至 2008 年 12 月 飞行延误率自相关分析图 对 行周期为 12 的季节差分后得到新的除季节飞行延误率时间序列(命名为 其样本自相关系数有衰减趋势。自相关系数在 K1 之后都在置信区间内,偏相关系数除了 K=12 时数值较大之外,在 K1 之后都落入置信区间内,如 图 十五所示。 (图十五 ) 2003 年 06 月至 2008 年 12 月除季节 飞行延误率自相关分析图 这时,我们可考虑 12(1 , 0 , 1 ) (1 , 1 , 0 )A R I M A 和 12(1 , 0 , 0 ) (1 , 1 , 0 )A R I M A 这两个模型。 ) 2) A(1) of um og R 4i 24i 66i 6i 1i 91i 91i 24i A (表三) 12(1 , 0 , 1 ) (1 , 1 , 0 )A R I M A 结果 ) 2) of um og R 24i 4i 6i 66i 91i 1i 91i 4i 24i (表四) 12(1 , 0 , 0 ) (1 , 1 , 0 )A R I M A 结果 由 于 )系数不显著,且 12(1 , 0 , 0 ) (1 , 1 , 0 )A R I M A 的 较小,所以最终 模型 确定为 12(1 , 0 , 0 ) (1 , 1 , 0 )A R I M A 。 模型展开式: 1 2 1 21 0 . 4 6 6 5 1 0 . 6 2 1 1 ( 1 ) B t d e l a y u 再次对模型进行检验, 残差检验结果如下 图所示 。考虑到观测值数目为 42,K 取 4, 2 检验 P 值为 能拒绝残差序列相互独立的原假设。 (图十六 ) 12( 1 , 0 , 0 ) ( 1 , 1 , 0 )A R I M A 模 型 残 差 独 立 性 检 验 将这个模型用于 2009 年度预测 序列的预测, 图十六 预测 值和实际观测值的对比图 ,表五则为数值列示。可见,预测的效果还是相当好的。 . 3 0. 3 5. 4 0. 4 5. 5 0. 5 5. 6 0. 6 50 9M 01 0 9M 02 0 9M 03 0 9M 04 0 9M 05 0 9M 06 0 9M 07T D E L A Y F 2 S . E .(图十七 )预测值和实际观测值的对比图 2009009009009009009009际值 测值 表五)预测值和实际观测值对比表 五、总结与启示 本文着重于对航空运输延误问题进行建立模型。从相关背景研究、数据收集、确定问题,我们初步确定了相关重要概念,如飞行架次、飞行延误时长、飞行延误率。这些概念的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论