




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于美国交通部数据的航空运输延误分析预测模型关菁菁 尚蕊 蒋安华(中国人民大学统计学院 100872)摘要:本文基于美国交通部的公开数据建立了航空运输延误分析预测的时间序列模型。我们针对飞行延误情况进行研究。在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文利用所得数据充分描述了航空运输业的概况,包括航线分布、航程分布、延误时长、系统预定飞行设定等。在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我们就本次建模进行了总结,并基于模型的分析预测情况阐述了对于航空运输延误问题的一些启示。一、背景(一)研究背景空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪30年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。1934至1945年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统(ILS)。二十世纪80年代后,计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。(二)数据来源本文使用的数据来源于美国交通运输部研究与技术创新管理部门(Research and Innovative Technology Administration (RITA) U.S. Department of Transportation (US DOT), 1200 New Jersey Avenue, SE Washington, DC 20590 800-853-1351)。美国交通运输统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发和借鉴意义。我们选择了2003年06月至2009年07月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。二、问题定义我们关注的经济事件是一架次飞机的飞行情况。此经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个飞行架次。因在这三个阶段都可能出现延误,故我们把飞行架次延误时长定义为在起飞、在空和降落三个阶段的总延误时长。因一次实现的飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。飞行延误率被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。三、数据描述(一)变量概览该数据集所含主要指标分为以下大类,共计55个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了18个变量,如下表所示:变量名变量含义Year年Month月DayofMonth日DayOfWeek星期几UniqueCarrier所属航空公司Origin始发地Dest目的地CRSDepTime系统预定起飞时刻DepDelay实际起飞时刻与系统预定起飞时刻差值CRSArrTime系统着陆时刻ArrDelay实际着陆时刻与系统预定着陆时刻差值Cancelled该架次被取消与否(1=取消)CancellationCode取消原因Diverted该架次是否改道(1=改道)CRSElapsedTime系统预定飞行时长(以分钟计)ActualElapsedTime实际飞行时长(以分钟计)AirTime飞机在空时长(以分钟计)Distance始末机场距离(表一)变量名称及意义说明(二)主要变量及其关系分析在数据集中,每个月起降的飞行架次最高可达638,883架次,最少月份也有481,506架次。鉴于每个月的起降情况类似,我们选取离目前最近的2009年07月的数据来进行主要变量关系分析。由图一得,Atlanta,亚特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的6.60%,计37,705架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。(图一)各始发地起飞架次占总起飞架次比例图截选(图二)起始地点往来飞行架次图截选(图三)始末机场距离分布表如图三所示,始末机场距离分布其实是一个右偏分布。有136,158个飞行架次的始末机场距离都在300千米附近,105,725个飞行架次的始末机场距离在500千米附近。介于500千米和2,500千米的飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。(图四)系统预定飞行耗时与实际飞行耗时对比由图四看出,系统预定飞行耗时与实际飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为70分钟,而实际飞行时长的众数为80分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为1的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。(图五)起飞延误与降落延误基本统计量图如图五所示,起飞延误时长与降落延误时长的均值分别为9.99和7.35分钟,标准差分别为34.67和37.43,极差分别是2,497和2,524分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大部分起降延误集中在始末机场距离介于0至3,000千米的架次。(图六)起飞延误、降落延误与飞行距离关系图如图七所示,294,994个飞行架次按时起飞。260,760架次的起飞延误时间介于50至100分钟之间。起飞延误时长介于100至150分钟之间的飞行架次为12,831,起飞延误时长超过100分钟的飞行架次为3,046。因此,起飞延误飞行架次与按时起飞飞行架次比例相当。(图七)起飞延误时长分布图(图八)降落延误时长分布图由图八得,按时着陆的飞行架次为315,256,降落延误时长介于50至100分钟的飞行架次为239,256,降落延误时长介于100至150分钟的飞行架次为13,898,降落延误时长大于150分钟飞行架次为3,223。(图九)起飞延误、飞行延误及降落延误关系图不难从图九看出,在三个坐标轴取值较小的部分形成了一个三角区域,这说明一般飞行架次在起飞、在空及降落三个阶段的延误一般耗时都不会太长,但是有很多发生这种飞行延误的架次。将那些红色的点投影到起飞与降落延误的平面上,我们可以看到有部分起飞、降落延误时长相对较长的航班。四、模型建立为了对航空运输延误情况进行最有效的刻画和预测,我们把飞行延误率作为研究的主要对象。经过多次试验,我们认为使用月度为最小的时间单位来进行研究会比较合适。因此,我们按月建立关于延误率的时间序列模型。用原始数据经过汇总后,得到2003年06月至2009年07月每月延误飞行架次占该月总飞行架次的比例数据,即月飞行延误率(以下用delayrate命名)。由图十得,飞行延误率有一定的季节性波动,但趋势并不明显。(图十)2003年06月至2009年07月飞行延误率时间序列图(一)初步建立时间序列模型(图十一)2003年06月至2009年07月飞行延误率自相关分析图图十一为对飞行延误序列做自相关分析的结果,从图十一中可以看出,样本自相关系数(Autocorrelation)不呈现衰减趋势,而呈现出一定的周期起伏趋势。结合所研究数据的特性,我们认为飞行延误率序列应为季节序列。对飞行延误率序列进行周期为12的季节差分后得到新的序列,即除季节序列(命名为sdelayrate)。(图十二)除季节序列的自相关分析图十二为对除季节序列的自相关分析。从图十二中可以看出,样本自相关系数有衰减趋势,且随时间增大,表现为拖尾。除了K=12时偏相关系数(Partial Correlation)数值较大之外,在K4之后偏相关系数都落入置信区间内。考虑到二阶季节差分会损失大量样本数据,且效果不明显,不再差分。同时,鉴于偏相关系数在K4之后都落入置信区间内,而自相关系数具有拖尾的特性,最终采用AR(4)模型,即4阶自回归模型。因此,我们认为对于2003年06月至2009年07月美国航空运输飞行延误率经过除季节差分后的时间序列用4阶自回归模型拟合较好。经过计算,sdelayrate均值为-0.00314,均值标准误为0.02894,因此可认为均值近似为0而不进行中心化直接计算。另外,考虑到sdelayrate滞后期为12时的样本偏相关系数较大,为消除这个影响,我们将SAR(12)加入模型中,所以,用于刻画2003年06月至2009年07月美国航空运输飞行延误率时间序列的最终模型为。将此模型用于拟合,得到结果如表二所示。各滞后多项式的倒数根在单位圆内,过程平稳。模型的展开形式为:CoefficientStd. Errort-StatisticProb. AR(1)0.5777270.1510393.8250180.0004AR(2)-0.1063190.177877-0.5977110.5533AR(3)0.0577580.17920.3223110.7489AR(4)0.3084140.1512322.0393460.0479SAR(12)-0.3932190.154511-2.544920.0148R-squared0.506695Mean dependent var-0.011929Adjusted R-squared0.458568S.D. dependent var0.055951S.E. of regression0.04117Akaike info criterion-3.439886Sum squared resid0.069494Schwarz criterion-3.241121Log likelihood84.11738Hannan-Quinn criter.-3.365427Durbin-Watson stat1.990316Inverted AR Roots .92 .89-.24i .89+.24i .65+.65i .65-.65i .24+.89i .24-.89i .12-.74i .12+.74i -.24-.89i -.24+.89i -.59-.65+.65i -.65+.65i -.89+.24i-.89-.24i(表二) (二)模型检验与评价对于模型的检验,首先要检验其基本假定是否满足,这一般通过检验残差来进行。当K取6时,从图十三看出,检验P值为0.344,不能拒绝残差序列相互独立的原假设。因此,所建模型满足基本假定。(图十三)对于模型的评价,我们选择从预测的角度着手。不能预测的模型,一般说来对我们并无大助益。我们利用动态法,将2003年06月至2008年12月的飞行延误率(以下命名为tdelay)用于建立模型,并利用这个模型预测2009年的飞行延误率。未进行几阶差分前,tdelay的自相关系数同样无衰减趋势,并展现出一定的季节波动性。如图十四所示:(图十四)2003年06月至2008年12月飞行延误率自相关分析图对tdelay进行周期为12的季节差分后得到新的除季节飞行延误率时间序列(命名为stdelay)。其样本自相关系数有衰减趋势。自相关系数在K1之后都在置信区间内,偏相关系数除了K=12时数值较大之外,在K1之后都落入置信区间内,如图十五所示。(图十五)2003年06月至2008年12月除季节飞行延误率自相关分析图这时,我们可考虑和这两个模型。CoefficientStd. Errort-StatisticProb.AR(1)0.6543180.2015273.2467960.0024SAR(12)-0.4685260.142988-3.2766740.0022MA(1)-0.0555870.275331-0.2018900.8411R-squared0.400960Mean dependent var0.001178Adjusted R-squared0.370240S.D. dependent var0.049711S.E. of regression0.039449Akaike info criterion-3.558864Sum squared resid0.060693Schwarz criterion-3.434744Log likelihood77.73614Hannan-Quinn criter.-3.513369Durbin-Watson stat1.903953Inverted AR Roots.91-.24i.91+.24i.66+.66i.66-.66i.65.24-.91i.24+.91i-.24-.91i-.24+.91i-.66-.66i-.66-.66i-.91+.24i-.91-.24iInverted MA Roots.06(表三)结果CoefficientStd. Errort-StatisticProb.AR(1)0.6210560.1245284.9872990.0000SAR(12)-0.4665410.140945-3.3100920.0020R-squared0.400455Mean dependent var0.001178Adjusted R-squared0.385466S.D. dependent var0.049711S.E. of regression0.038969Akaike info criterion-3.605639Sum squared resid0.060744Schwarz criterion-3.522893Log likelihood77.71842Hannan-Quinn criter.-3.575309Durbin-Watson stat1.949016Inverted AR Roots.91+.24i.91-.24i.66-.66i.66+.66i.62.24+.91i.24-.91i-.24+.91i-.24-.91i-.66-.66i-.66-.66i-.91-.24i-.91+.24i(表四)结果由于ma(1)系数不显著,且的AIC和SC值较小,所以最终模型确定为。模型展开式:再次对模型进行检验,残差检验结果如下图所示。考虑到观测值数目为42,K取4,检验P值为0.657,不能拒绝残差序列相互独立的原假设。(图十六)将这个模型用于2009年度预测序列的预测,图十六预测值和实际观测值的对比图,表五则为数值列示。可见,预测的效果还是相当好的。(图十七)预测值和实际观测值的对比图2009-012009-022009-032009-042009-052009-062009-07实际值0.4052930.3465750.3898230.3919060.3855680.4331920.421708预测值0.4781350.5200890.4842580.445180
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理白内障查房
- 数字智慧方案数据中台建设汇报方案
- 2024年环氧抗静电漆资金申请报告代可行性研究报告
- 2024年谷物生产项目资金需求报告代可行性研究报告
- 介入辐射考试练习试题及答案
- 供电防护员复习试题含答案
- Photoshop图像处理课件:风光照片的基础调整
- 2025年工程地质及水文地质试题
- 职业资格-公路水运公共基础真题库-10
- 2025年工程法规考试技巧与试题及答案
- 2025展览馆装饰工程合同范本
- 《科普技巧常识》课件
- 2025年中国全电脑横机市场现状分析及前景预测报告
- 2019-2025年房地产经纪协理之房地产经纪操作实务过关检测试卷B卷附答案
- 初中历史明清时期的科技与文化 课件 2024-2025学年统编版七年级历史下册
- 2025年上半年发展对象题库(含答案)
- 大连银行招聘笔试真题2024
- 输血管理制度
- 信息必刷卷04(广东省卷专用)2025年中考数学(原卷版)
- 膝关节韧带损伤护理查房
- 2025科技辅导员培训
评论
0/150
提交评论