(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据挖掘的短时路口交通流量预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的短时路u 交通流量预测研究摘要 ( ,。,j 【摘要】 城市道路交通状况越来越拥挤,交通问题几乎成为了所有大、中型城市面临 的共同问题。交叉路口是城市交通网络中重要的节点,对路口短时流量的准确预 测可以辅助改善路口混乱的交通状况,缓解城市交通拥挤,优化城市路网运行, 同时对智能交通领域的研究、应用、实施和促进城市交通健康、和谐、稳定地发 展具有重要意义。 本文根据交通流数据的特点,基于交通领域著名的交通流量时间占有率倒 “v ”字形曲线分布模型、交通流量数据分布的时间及大小特点和相关路口或方 向的流量问相互影响的大小提出了基于数据挖掘过程的短时路口交通流量预测 方法。主要工作成果为: 1 1 根据交通流量数据分布的特征,提出基于k - m e a n s 的二次聚类方法,对交通 流量在流量大小和时间上进行模式划分,进而对各个交通流模式进行基于 b p 神经网络的描述和预测,从而提高模型对流量预测的精度; 2 1 根据流量时间占有率倒“v ”字形曲线分布模型,提出基于最小二乘法的三 次多项式曲线拟合和统计方法的异常检测方法,实际应用表明该方法能够有 效识别异常数据,然后根据移动平均算法对异常数据进行修正; 3 ) 基于序列相关性分析,分别对预测方向的交通流量数据序列、上游路口相关 序列以及预测路口其它各个方向上的交通流量序列进行分析,选择相似性流 量序列,作为辅助序列提供其他没有检测器路口的流量估计; 4 ) 设计和实现了基于s o a ( s e r v i c e o r i e n t e d a c h i t e c t u r e ) 的高性能、可扩展的 智能交通数据挖掘系统u t d d ,该系统通过定义基于x m l 的数据挖掘过程 描述和通用的过程模型接口,实现数据挖掘应用的统一管理和调用,最后在 u t d d 上建立了基于路口流量预测的应用模型。 关键词:数据挖掘、交通流量、预测、曲线拟和、聚类、b p 神经网络 中图法分类号:t p 3 1 1 s t u d yo fs h o n t i m et r a f f i cf l o wf o c a s t i n gf o ru r b a n i n t e r s e c t i o nb a s e do nd a t am i n i n ga b s t r a c t a b s t r a c t t r a f f i cc o n g e s t i o nj so n eo ft h em o s tc o m m o np r o b l e m sw h i c ha l m o s tb i gc i t i e sh a v et of a c e i n t e r s e c t i o n sa r ei m p o r t a n tn o d e si nt h eu r b a nr o a d w a yn e t w o r k ,c o r r e c tf l o wf o r e c a s t i n go no rb y i n t e r s e c t i o nw i l lh e l pt oi m p r o v et h ec h a o so ft r a f f i cc o n d i t i o na r o u n dc r o s s ,o p t i m i z et h e o p e r a t i o no fr o a d w a yn e t w o r k , r e l i e v et h ec o n g e s t i o no ft r a n s p o r t a t i o n ,h a v es i g n i f i c a n ti n f l u e n c e o nr e s e a r c h ,d e v e l o p m e n t , a p p l i c a t i o no fi t s ( i n t e l l i g e n tt r a n s p o r t a t i o ns y s t e m ) a n dt r a f f i c d e v e l o p m e n t b a s e do nc h a r a c t e r i s t i c so ft h et r a n s p o r t a t i o nt h i sp a p e rb r i n gf o r w a r dad a t am i n i n ga p p r o a c h t os h o r t - t i m et r a f f i cf l o wf o r e c a s t i n gi ni n t e r s e c t i o n s m a k eu s eo ff l o w - o c c u p a n c yi n v e r s e “v ” m o d e l ,t h ed i s t r i b u t i o no ft h ef l o wd a t aa n di n f l u e n c eo no t h e ri n t e r s e c t i o no n ea n o t h e r t h em a j o r a c h i e v e m e n to ft h i sp a p e ri s : b a s e do nc h a r a c t e r i s t i c so ft h et r a f f i cd a t ad i s t r i b u t i o n ,e x e c u t ep a t t e r nr e c o g n i t i o no p e r a t i o n s o f ft r a f f i cc o n d i t i o no nt w od i m e n s i o n s ( f l o wa n dt i m e ) b yc l u s t e r i n g ,t h e nu s eb pn e u r a ln e t w o r k t od e s c r i b ea n df o r e c a s tt r a f f i cf l o wa i m i n ga te a c hp a t t e r n m a k i n gu s eo fc l a s s i cf l o w - o c c u p a n c yi n v e r s e vm o d e l ,i m p l e m e n tp o l y n o m i a lf i t t i n g u s i n gl e a s t - s q u a r e sa l g o r i t h ma n ds t a t i s t i c sm e t h o do nf l o wc u r v e st od e t e c to u t l i e r sw h i c ha r e p r o v e dt ob en o ta c c o r dw i t hp r a c t i c et h r o u g ht h ea c t u a li m p l e m e n t , t h e nu s et h em o v i n ga v e r a g e m o d e it or e c o r r e c tt h ea n t l i e r sa n da b s e n l m a k ec o r r e l a t i o na n a l y s i so nm u t i - d l r e c t i o nf l o wq u e u e so ft h ei n t e r s e c t i o na n do n e so f u p r i v e ri n t e r s e c t i o n s ,c h o o s ef l o wq u e u ew i t hh i g hc o r r e l a t i o na sa s s i s t a n to n et oi m p r o v et h ee r r o r t o l e r a n c eo ft h ep r e d i c t i o ns y s t e m , a tt h es a m et i m ew emu s et h em e t h o dt og i v ea ne s t i m a t i o n o ff l o wi ni n t e r s e c t i o nw i t ho u ts e u s o r s w ed e s i g na n di m p l e m e n ta l ls o a ( s e r v i c e o r i e n t e da r c h i t e c t u r c ) - b a s e du t d d ( u r b a n t r a f f i cd a t am i n i n gd e v e l o p m e n t ) w i t hh i g he x p a n s i b i l i t ya n dp e r f o r m a n c e ,w h i c hi m p l e m e n t u n i f i e dm a n a g e m e n ta n dc a l lo ft h ed a t a - m i n i n ga p p l i c a t i o nt h o u g hd e f i n i n gax m l - b a s e d d e s c r i p t i o no fd a t a - m i n i n gp r o c e s sa n dac o m n l o ui n t e r f a c et oc a l ld a t a - m i n i n gp r o c e s s ,f l n a h yw e b u i l dt r a f f i cf l o wp r e d i c t i o na p p l i c a t i o nm o d e lo nu t d d k e yw o r d s :d a t am i n i n g , t r a f f i cf l o w , f o r e c a s t i n g , f i t t i n g ,c l u s t e r i n g ,b pn e u r a ln e t w o r k 摹于数据挖掘的短时路口交通流量预测研究 第1 章绪论 1 1 研究背景 第1 章绪论 1 1 1 数据挖掘概念与应用 随着计算机普及水平的不断提高,数据采集、存储与管理技术的进步,各类 企业级应用成功案例不断增加,与之对应的就是各类企业数据量迅速扩大,很多 数据库已经达到t b 级,成为名副其实的海量数据。如何在这些海量数据中发现 隐藏的知识和规律,避免“数据爆炸而知识贫乏”,避免被淹没在数据和信息的 海洋当中,已经成为计算机界尤其是数据库领域研究者的一个重要研究方向 数据挖掘。 数据挖掘也称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) ,即从大规模的数据中抽取非平凡的、隐含的、未知的、有潜在使用价值 的信息的过程 f p s + 9 6 。从1 9 8 9 年数据挖掘的概念被首次提出,研究重点逐渐 从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的 相互渗透 s h a 0 0 。数据挖掘是面向应用的多学科交叉领域,汲取了许多学科中 成熟的工具和技术,包括数据库技术、统计学、机器学习、模式识别、人工智能、 信息检索、数据可视化等。数据挖掘是个年青的学科领域,源于上述交叉学科在 知识和规律发现上的优点,但又有所不同,数据挖掘技术一般与数据访问的相关 技术紧密结合,更加侧重于对海量数据的多种模式的自动发现,复杂的数据挖掘 算法通常是多种有效技术的集成,因此数据挖掘具有更广泛的应用前景。 数据挖掘的一般过程可以分为三个阶段,包括数据准备、模式发现与结果表 达 h m s 0 1 。数据准备又可分为数据清理、数据集成、数据选择、数据变换,数 据清理过程主要解决数据的不完整和不一致问题,填充空缺值,识别异常点和纠 正不一致现象;数据集成过程主要是将分布在各个不同物理位置的多个同构或异 构数据源中的数据集中起来存放;数据选择过程主要是通过分析数据,获得与分 析任务相关的数据;数据变换过程主要是将实际数据转换成为适合挖掘的数据。 模式发现包括模式挖掘和模式评价,模式挖掘是通过各类统计、机器学习或人工 智能等的方法挖掘海量数据中存在规律和知识模式的过程,是整个数据挖掘的核 心,也是数据挖掘领域的难点所在;模式评价根据某种领域专家定义的兴趣度度 量,识别发现真正有趣的模式。结果表达是使用可视化和知识表示技术以一种直 基于数据挖掘的短时路口交通流量预测研究第1 章绪论 观、容易理解的方式展示给用户挖掘得到的规则和模式。 根据模式发现阶段所发现的规则不同,数据挖掘方法一般可以大致划分为关 联分析、预测、分类分析、聚类分析以及异常检测等五种 h k 0 1 1 。 在研究领域,虽然数据挖掘还是个年青的领域,但是已经得到越来越多的来 自各个其它各个相关领域研究人员及专家的关注,国际k d d ( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 组委会于1 9 9 5 年把专题讨论会更名为国际会议, 在加拿大蒙特利尔市召开了第一届k d d 国际学术会议,以后每年召开一次。除 了美国人工智能协会主办的k d d 年会外,还有许多的数据挖掘年会,包括 p a k d d ,p k d d ,s i a m d a t am i n i n g 等。 虽然数据挖掘技术在不断的取得突飞猛进的发展,但是必须结合特定领域的 需要才能定制出比较合适的特定工具,取得良好的效果。目前数据挖掘技术在金 融数据、客户关系数据、生物数据、零售业和电信业数据分析领域的应用中都取 得了比较大的成功。如我们实验室利用聚集算法将客户消费行为数据划分为不同 的聚集,同一聚集内部的客户具有相同的消费行为,不同聚集之间的客户消费行 为差异较大;基于基因本体论的整合生物信息学数据仓库b i o d w ,引进了基因 本体论作为数据整合的工具,对异构、分布式基因数据库进行整合,建立科学的 具有生物学意义的数据间的关联,形成了共同的基于基因本体论的生物信息数据 描述标准,并以此为基础开发了基于信息内容的语义相似性查询工具。 1 1 2 智能交通系统 随着公路交通建设的不断发展,很多城市交通的跟踪、管理已经不能满足当 前经济和城市发展的需要,城市交通拥堵、交通事故率上升、交通效率不高导致 的能源浪费成为各个城市发展面临的共同问题。要解决这一难题,一方面,要加 强城市基础设施的建设,提高交通服务设施的数量;另一方面,要运用高科技手 段,进行科学的交通管理,提高现有交通设施的服务质量。由于前者受限于财政 支出,交通设施建设速度远远跟不上车辆的增长速度,而后者较之前者具有低投 入高收益等特点,因此,创建科学的高自动化智能交通系统( i n t e l l i g e n t t r a n s p o r t a t i o ns y s t e m ,i t s ) 是缓解交通矛盾,减少交通拥挤的一种经济实用、 行之有效的交通策略 q c c 0 6 1 。 智能交通系统( i t s ) 是将先进的信息技术、数据通讯传输技术、电子传感 技术、电子控制技术以及计算机处理技术等有效地集成运用于整个地面运输管理 体系,而建立起的一种在大范围内、全方位发挥作用的,实时、准确、高效的综 合运输和管理体系 m a s 9 9 。在具体实施上,美国将智能交通系统划分为七个领 域,这七部分基本上包括了智能交通的各个方面: 2 摹于数据挖掘的舸时路口交通流量预测研究 第1 章绪论 先进的交通管理系统a t m s ( a d v a n c e dt r a f f i cm a n a g e m e n ts y s t e m ) : 先进的交通信息系统( a v i s ,a d v a n c e dt r a v e l e ri n f o r m a t i o ns y s t e m s ) : 先进的驾驶员信息系统a d i s ( a d v a n c e dd r i v e ri n f o r m a t i o ns y s t e m ) ; 运营车辆调度管理系统c v o m ( c o m m e r c i a lv e h i c l eo p e r a t i o n r e e t m a n a g e m e n t ) ; 先进的车辆操控系统a v c s ( a d v a n c e dv e h i c l ec o n t r o ls y s t e m ) : 先进的公共交通系统a p t s ( a d v a n c e dp u b l i ct r a n s p o r t a t i o ns y s t e m ) 先进的乡间运输系统a r t s ( a d v a n c e dr u r a lt r a n s f e rs y s t e m ) 2 0 世纪9 0 年代,美国、日本和西欧开始研究智能车辆道路系统( m - i s ) , 进而发展为现在各国都在研究的智能交通系统( i t s ) 。我国1 9 9 5 年后,加快了对 智能交通系统的研究,交通部也将i t s 列入了“九五”科技发展计划合2 0 1 0 年 长期规划中。目前我国相对于发达国家在智能交通领域落后还比较多,我们目前 的研究和应用还大多停留在先进的交通管理系统( a t m s ) 和先进的交通信息系 统( a t i s ) 方面,原因大致有二:一是我们很多基础研究还未完成,没有时间和 精力去开展其它方面的研究,二是我们的资金非常紧缺,大多数投资还都仅限于 基础投资如监控和数据采集等方面,还不能在分析研究方面投入太多。 从长期来看,i t s 都已经被各个国家列为交通领域重点发展的方向,原因总 结下来有三点: 缓解日益增加的交通供需矛盾:交通拥挤、堵塞已经成为各个国家大型 城市的社会性矛盾,具有关分析统计,设计良好的智能交通系统可以最 大增加3 0 的网络交通通行能力,这样就可以在有限投资和时间内最大 的缓解交通供需之间的矛盾; 节约基础投资,降低环境污染:通过有效利用现有交通道路资源可以节 约大幅增加的基础设施方面的投资,使交通通行效率增加可以极大的降 低车辆尾气排放,从而降低环境污染; 提高道路安全,降低事故发生率:通过智能交通系统对道路交通状况的 有效监视和管理,分析事故发生原因,提高道路安全,降低事故发生率, 减少交通事故与人员伤亡,提高道路通常程度; 1 1 3 交通流量预测 交通流量是交通流三个最重要的特性之一,早期研究人员只有通过使用跑表 和计数器之类比较原始的工具在某一固定测点通过计数的方式测得,现在由于电 基于数据挖掘的短时路口交通流量预测研究第l 章绪论 子技术的飞速发展,各类先进自动的测量手段都随之产生,如目前最为普遍、通 用的线圈测量以及移动测量技术等等,都为交通流研究提供了大量的基础数据。 交通流是研究交通随时间、空间变化的规律,它是交通规划、道路与交通工 程设计、交通控制与管理等领域的基础。 交通研究人员、交通控制和管理人员采用交通流量作为交通状况的一种基本 计量手段,不仅是由于交通流量最容易得到,而且是它最能直观的反映道路交通 的通行状况。 若在时间t 内,通过路段上某一点的车辆数为n ,则交通流量计为: 口7 交通流量预测方面的工作开展的非常早,交通流量的统计和预测的作用也很 多,根据时间段长短的来分的话,交通流量预测可以分为长期、中期、短期预测: 长期交通流量预测一般以年、月来计,主要用于交通规划和设计方面, 主要用来分析、预测未来几年交通需求的变化情况,对未来交通流量进 行预测,确定未来交通网络的规划方案。由于目前交通状况变化非常快, 所以月交通数据也越来越发挥着重要作用,它能更为详细的提供一年之 内交通状况变化的趋势,而这也往往比较明显。 中期交通流量预测一般以周、日、小时为时间单位,主要用于交通管理 方面,如交通管制方案,各个路段车辆禁行的时间段划分、快速路和地 面道路之间匝道的开发方案等,分析和预测交通流在不同时空区间内的 分布规律。 短期交通流量预测一般以5 1 5 分钟为计量时间单位,主要用于道路交 通的实时控制和诱导,如交通信号灯的控制策略、主干道的绿波控制以 及辅助发布交通诱导信息,随着分析和预测周期的缩短,交通流量的规 律性也越来越不明显,干扰造成的影响就越来越大,但对道路交通控制 和诱导的辅助效果越来越好,因为很多情况下道路在一个车流冲击波到 来的情况下没有很好的预测和处理手段在几分钟之内就会造成局部堵 塞。本文讨论的短期交通流量预测以5 分钟为分析和预测周期,对短期 交通流量预测的实时性和准确性是交通控制和诱导的关键。 交通流量分析和预测根据空间大小来划分分为点、线、面。其中点为路段上 点和交叉路口的流量分析,线为几个路段和交叉口组成的主干道,面则主要面向 局部或整个路网的拓扑结构和动态数据分析。 点上的交通流量分析、预测主要用来规划路段交通通行能力,分析路段 道路服务水平,辅助管理和调整路口信号灯的控制策略。 线上的交通流量分析、预测主要用来分析主干道的上下游路段或路口之 4 摹于数据挖掘的短时路口交通流量预测研究第1 章绪论 间的关系,调整、控制相邻路口之间的信号灯的绿波控制。 面上的交通流量分析、预测主要用来分析、规划路网拓扑结构,优化路 网交通状况,研究路网不同位置之间的相对关系,尤其是市中心地区和 周边路网之间的关系。 从1 9 9 5 年来我国加大了对智能交通的研究和投资力度,先后在广州、天津、 深圳、厦门等2 0 个城市建立了交通信号控制系统,在全国4 0 多个地区建立了交 通控制中心和交通指挥中,l z g w 0 3 1 。采用的交通控制系统有国外先进的系统 ( 如英国的s c o o t 系统、澳大利亚的s c a t 区域控制系统) ,也有国内自行研 发的交通控制系统( 如上海宝信软件的i c e n t r o v i e w 系统) 。这是我们国家发展我 们自己的智能交通系统所必经的基础阶段,而这些交通指挥中心、管理决策支持 系统、动态道路交通诱导信息发布系统又无一例外的需要及时而又准确的获得实 时短期交通流量预测数据,短期交通流量预测是先进的交通管理和信息系统的基 础。 1 2 研究意义 近年来城市道路交通状况越来越拥挤,交通问题几乎成为所有的大、中型城 市都面临的共同问题。以上海市的交通为例,根据上海市城市综合交通规划研究 所发布的数据,至2 0 0 4 年底,上海市在沪注册的机动车总量达到了2 0 1 6 万辆, 较2 0 0 3 年增长了1 5 3 。其中汽车总量达到8 4 2 万辆,较上年增长1 6 5 7 ,小 客车的增幅是历年来最高的,超过了2 0 ,而年末全市城市道路和只较上一年增 长了1 3 ,达到4 0 2 0 公里。 而交叉路口是城市交通网络中重要的节点,由于交通延误而造成的旅行时间 的增加,车辆尾气排放大多都产生于此,伴随的还有交通事故的发生,交叉路口 是城市交通的主要病发和关键地带,据统计大城市机动车在市中心的旅行时间约 1 :3 花在平面交叉口上 l h p 9 9 1 ,交通事故的发生率在交叉路口所占的比例则更 高。交叉路口是各个方向车辆交叉通过和转向的聚集点,在城市交通中又发挥着 重大的作用,其地位是不可替代的,不论以何种方式( 重新规划扩建路口、优化 路口交通控制) 都必须解决好这个问题,给各个方向的车辆分配给相应最优的通 行权,实现车辆在交叉路口的空间上分离,这个问题不解决好轻则使交通延误增 大,严重的甚至会导致城市功能的瘫痪。 由于资金和代价的问题,我们不能期望交叉路口的交通问题都通过按照交通 需求的发展趋势进行道路的规划设计或靠拓宽道路和修建立体交通网络等途径 5 基十数据挖掘的短时路口交通流量预测研究第1 章绪论 来解决。按照发展趋势来规划路网会造成目前资源的极大浪费,改建道路成本除 外还有改建带来的相应的边际代价,如改建项目对原有道路及相关周边地区带来 的临时交通压力,这都已经成为研究领域人员研究的问题。 优化交叉路口信号灯配时方案,计算路口延误时间和路网上点与点之间的行 程时间,发布交通诱导信息是减小城市交通路网上的交通延误、有效利用道路设 施、降低交通事故、减小车辆尾气排放的重要手段和交通管理的有力工具。由于 路网路口模型的复杂性,目前我们研究的对象大多还集中于单路口或主干道上的 一系列路口的信号灯配时优化上。单路口智能控制的基本方法是:由埋设在各个 路口及路口附近的线圈检测到达路口的车辆数,并由此换算为车辆到达率,将这 些数据通过路口信号机输入到区域控制机,由区域控制机利用智能算法优化出各 个相位的绿时,再回送到现场控制机,对各个相位的绿时进行优化配置 d l q 0 5 。 上述涉及的诸多问题的解决,都有一个共同的基础就是根据路口及路口附近 的线圈检测到达路口的车辆数预测未来5 分钟车辆数的准确性问题。只有准确的 短时预测才能计算出正确的车辆到达率,才能准确的计算出延误时间和行程时 间,进而对交叉路口信号进行优化和发布准确的诱导信息。 所以路口及路口附近的线圈的短时车辆数准确预测可以辅助改善路口混乱 的交通状况,缓解城市交通拥挤,优化城市路网运行,同时对智能交通领域的研 究、发展、实施、应用和促进城市交通健康、和谐、稳定的发展具有重要意义。 1 3 本文工作 本文通过分析上海宝信软件股份有限公司的i c e n t r o v i e w ( 城市交通监控与 管理) 系统和上海市中心区道路交通信息采集系统共享交换平台等交通管理系统 数据的特点,特别是针对路口交通流量的复杂情况,研究已有的国内外的预测算 法,对交通数据预处理、交通流数据模式划分和利用神经网络对模式进行描述几 个方面进行了研究。研究内容和成果主要包括以下几个方面: 根据交通流量数据分布的特征,提出基于k - m e a n s 的二次聚类方法对交通流 量在流量大小和时间上进行模式划分,然后再对各个交通流模式进行进一步 的基于b p 神经网络的描述和预测,从而提高模型对流量预测的精度; 根据流量时间占有率倒“v ”字形曲线分布模型,提出基于最小二乘法的三 次多项式曲线拟和和统计方法的异常检测方法,通过实际应用表明该方法能 有效发现异常数据,然后根据移动平均算法填充异常和缺失值; 基于序列相关性分析,对预测方向的交通流量数据序列、上游路口相关序列 6 基于数据挖掘的短时路口交通流量预测研究第1 章绪论 和预测路口其它各个方向上的交通流量序列进行分析,选择相似性流量序 列,作为辅助序列,提高系统预测的容错程度,同时提供其他没有检测器路 口流量的估计; 设计和实现了基于s o a ( s e r v i c e o r i e n t e da r c h i t e c t u r e ) 的可扩展性和高性能 的智能交通数据挖掘系统u t d d ( u r b a n t r a f f i c d a t a m i n i n g d e v e l o p m e n t ) , 该系统通过定义基于x m l 的数据挖掘过程描述和通用的过程模型接口,实 现数据挖掘应用的统一管理和调用,最后在u t d d 上建立了路口流量预测的 应用模型。 1 4 文章结构 本文共分为六章,每章的主要内容介绍如下。 第一章简要地介绍了数据挖掘、智能交通和流量预测的发展背景;论述了本 文的立论意义;然后介绍了本文主要的研究内容及成果;最后,给出了本文的整 体组织结构。 第二章回顾了短时交通流量预测的发展。概要介绍了两大类( 基于数学模型 和基于非数学模型) 预测算法,以及两大类相互结合的研究工作。第二节介绍了 交叉路口短时交通流量的相关研究工作。 第三章分析了交通特性数据的特点和关系,介绍了交通数据关系中最常用的 三种关系,并列举了其中经典的模型,其中包括流量时间占有率倒“v ”字形曲 线分布模型,然后介绍了基于最小二乘法的三次多项式曲线拟和和统计方法的异 常检测方法,以及基于移动平均的异常修正算法。 第四章首先介绍了相关性分析方法以及在交通流量数据序列上的分析,然后 介绍了k - m e a n s 聚类算法以及它在本文中对流量序列数据进行时间段分割上的 使用方法,最后用b p 神经网络对模式进行描述和预测,并给出实验数据显示其 效果。 第五章先描述数据挖掘系统的特点,然后针对智能交通数据及其平台特点分 析概括出智能交通数据挖掘平台的功能和特点,结合s o a 先进的架构设计出适 合适合智能交通数据挖掘的系统平台u t d d ,最后描述了u t d d 数据挖掘过程 的管理。 第六章是讨论与小结部分,对本文的工作进行总结并指出了未来的研究方 向。 7 基于数据挖掘的短时路口交通流量预测研究第2 章短时交通流量颅测的研究现状 第2 章短时交通流量预测的研究现状 短时交通流量预测时间跨度不超过1 5 分钟,一般为5 分钟,甚至小于5 分 钟,预测的目的是为了辅助优化交叉路口信号灯配时方案和交通控制,发布交通 诱导信息等。众所周知,道路交通系统是一个有人参与的、时变的、复杂的非线 性大系统,具有高度的不确定性,这种不确定性可能来自环境因素如路面状况、 天气变化等,也可能来自突发状况如交通事故、大型集会等,这些因素都给交通 流量预测带来了一定的难度,特别是短时交通流量预测。 本章首先对路段交通流量预测方法分基于数学模型和基于非模型进行分类 概述和总结,然后对于交叉路口这类有所区别与路段的情况,综述国内外的预测 方法,最后是本章小结。 2 1 路段短时交通流量预测 短时交通流量的预测一个准确的办法就是,建立整个路网结构,通过实时采 集线圈动态数据,通过模拟计算预测下一时间段的交通流量值,但这样做的话计 算代价大且不确定性同样难以捕捉。 所谓预测就是利用过去和当前的观测值估计未来值,即确定未来值和过去值 之间存在的模型。这实际上基于这样一个假设,即未来值和过去值之间存在着某 种可以用模型来描述的关系。模型将交通流量变量,在任意时刻t 的值表示为五, 前p 个时刻的流量值为矗j ,五| 2 ,五,路段上单点短时交通流预测如何寻找 这种模型,用前p 个时刻的流量值五j ,五- 2 ,五,来表示五。 随着智能交通领域研究的不断发展,以及交通特性( 包括流量) 在交通研究 领域的基础作用,加上原有统计学领域和新兴人工智能领域计算技术的不断发 展,一些预测精度更高、使用更方便的预测方法不断出现,并逐渐应用于交通流 量预侧。 从建模的方法上来区分传统和智能预测方法,最显著的特点就是是否建立准 确的数学模型和模型是否具有可解释性。传统预测方法依赖于对象的数学模型通 过计算建立准确的数学公式或模型,而智能技术采用模式识别、搜索和自学习的 方式来实现预测目的。非模型方法在理论上突破了基于对象数学模型的思考方 式,在理论和实际应用上都具有十分重要意义。我们将交通流量预测方法分为基 基于数据挖掘的短时路口交通流量颅测研究第2 章短时交通流量预测的研究现状 于数学模型的预测方法和非模型预测方法两大类。前者典型的包括历史平均、 a r m a 和k a l m a n 滤波模型等,非模型预测方法包括非参数回归、神经网络方法、 模糊预测方法、遗传算法等智能预测以及复合预测模型等。 2 1 1 基于数学模型的预测方法 。 2 1 i i 历史平均模型( h i s t o r y a v e r a g em o d e l ) 历史平均模型是简单的使用过去几个时间段的流量的平均值来作为下一时 间段( 5 分钟) 交通流量的预测值,并且已经应用于城市交通控制系统( u t c s ) q 6 s m p 8 1 。历史平均模型是假设交通流量具有惯性原理,即过去的状态会延续 到下一时间段,虽然该模型以一种非常简单的方式在一定程度内快速的解决了不 同位置,不同时间段的交通流量预测问题,但简单模型的弊端就是精度较差,且 静态的预测有其先天性的不足,因为它不能有效的利用历史流量数据,不能识别 和解决交通异常状况,如交通堵塞、事故等。 根据过去前p 个时刻的流量值来计算交通流量变量,在任意时刻t 的值,可 以表示为: 正。鱼盘丛 ( 公式2 1 ) p 前p 个时刻的流量值为五j ,五2 ,岛。 2 1 1 2a r m a a r m a 模型是一种深刻描述平稳时间序列底层生成机制与数据间自相关性 的基本模型,应用在交通中就是模型将将交通流量变量,在任意时刻t 的值五表 示为前p 个时刻的流量值为m ,亿,五,与包括t 时亥q 在内的前q + 1 个随 机扰动4 ,口,- 1 ,口,- 口的线性组合,模型记为a r m a ( p ,q ) ,其形式为: 矿( 口) 正一o ( b ) a , ( 公式2 2 ) a r m a ( p ,g ) 模型可以看成由两部分构成,其中伊( 口) 正称为自回归( a r ) 模型,o ( b ) a ,为移动平均( m a ) 模型。这里p 、口分别为a r m a 模型的自回归 和移动平均部分的阶数,其中妒p ) = i 一妒1 b 一妒2 b2 一伊。b 9 , o ( b ) ;1 - 0 l b 一0 2 8 2 一巳b 9 ,b 为后移算子,即口正一正一,a4 ,为服从均值 为零,方差为盯:的正态分布白噪声,即a 。一n i l ) ( o 口:,。 a r m a 模型只适合用于描述平稳时日j 序列,然而现实中的许多序列都具有 摹于数据挖掘的短时路口交通流量预测研究第2 章短时交通流量预测的研究现状 趋势性或者季节性,因此并不能近似为一个平稳序列。但是许多非平稳时间序列 在经过一次或者少数几次常规差分与季节性差分以后,其结果近似为一个平稳序 y l j b j r 9 4 m i l 9 9 ,从而可以使用a r m a 模型进行描述,此时模型具有如下形式: 妒( 口) ( 1 一口) 。,i o ( b ) a 。 ( 公式2 3 ) 式2 3 中的模型称为自回归求和移动平均( a u t o r e g r e s s i v ei n t e g r a t e dm o v i n g a v e r a g e ,a r i m a ) 模型,记为a r i m a 0 ,d ,口) ,其中d 为求和阶数( 即差分阶数) 。 在本文中我们将a r 、m a 以及a r i m a 模型统称为a r m a 模型。 对于一个时间序列d ,有多种方法可以为其建立一个合适的a r m a 模型, 其中最常用的方法为b j 方法。b j 建模方法的基础是序列的自相关函数( a c f ) 和偏自相关函数( p a c f ) 。自相关函数p i ( 七= o 1 ,2 ,) 描述了间隔为k 的 数据点对正与z 。之间的线性相关关系,其定义如下: 以。盟止毯幽 ( 公式2 4 ) 。 盯 偏自相关函数则用来度量在如下回归方程中,对正+ 。的影响有多大, z “i 依l 正“- 1 + 讫2 z 小2 + + 工+ q ( 公式2 5 ) w 建模的基本过程包括以下几个步骤 b j r 9 4 : 序列平稳化,使用单位根检验等方法,对时间序列进行平稳性检验,对 非平稳序列则通过差分等方法进行平稳化处理。 相关性分析与模型类别确定,根据序列的自相关函数( a c f ) 和偏自相 关函数( p a c f ) 识别模型的类型 模型参数估计,对模型的阶数进行初步估计,在此基础上进行模型的参 数估计,常用的参数估计方法包括最d , - - 乘估计以及极大似然估计等。 模型定阶,通过残差分析、a i c 或者b i c 准则等,对模型参数估计结果 进行检验,判断对序列拟合的模型是否恰当,直到寻找到最理想的模型, 确定模型最终的阶数与参数。 1 9 8 4 年o k u t a n i 和s t e p h a n e d e s 将a r i m a 模型应用到u t c s 中;1 9 9 3 年 a r i m a 模型又被k i l n 和h o b e i k a 应用到高速公路交通流量预测中 w s o s l ,到最 近1 9 9 9 年将a r i m a 模型应用在路段单点交通流量预测上 w b m 9 9 1 。 由于交通状况的复杂和干扰大,所以短时交通流量时间序列波动大且不平 稳,不能近似为一个平稳序列,所以必须经过一次或者少数几次常规差分与季节 性差分后才能近似建立一个平稳序列 h s w 0 4 1 。但a r i m a 模型建模过程比较复 杂,主要是模型参数估计和模型定阶难,且对数据要求高,异常和缺失数据对模 型的影响大,同时a r i m a 模型的参数选择通常是一个离线的过程,模型自适应 调整难于实现,这都影响了a r i m a 模型很好地适应不确定性强的短时交通流动 1 0 摹于数据挖掘的短时路口变通流量颅测研究 第2 章短时交通流量预测的研究现状 。 态预测的要求。 2 1 1 3k a l m a n 滤波 卡尔曼滤波( k f ) 是k a l m a n 于1 9 6 0 年提出的,是采用由状态方程和观测 方程组成的线性随机系统的状态空间模型来描述滤波器,并利用状态方程的递推 性,按线性无偏最小均方误差估计准则,采用一套递推算法对滤波器的状态变量 作最佳估计,从而求得滤掉噪声的有用信号的最佳估计。由于卡尔曼滤波不仅可 用于信号的滤波和估计,而且还可用于模型参数的估计,所以它适用于交通状况 的预钡l j y z 9 9 1 。 1 w a oo k u t a n i 利用卡尔曼滤波理论建立交通流量预测模型,其预测结果优于 u t c s 2 模型的预测结果 1 0 8 4 1 。v y l h 眦s p c 提出了基于卡尔曼滤波理论 的交通流量预测模型,计算结果也较令人满意 v p c 9 3 。杨兆升,朱中利用k a l m a n 滤波理论建立交通流量预测模型,用差值变换、比值变换两种方法处理原始交通 流量数据,对基本模型进行改进,并比较了基本模型和两个改进模型对路段交通 流量的预测结果 y z 9 9 。 但该方法是线性模型,所以在预测非线性、不确定性的交通流量时,模型 性能变差;在每次计算时都要调整权值,因此,计算量过大,结果、预测输出 值有时要延迟几个时间段【w s 0 5 】。 2 1 2 非模型预测方法 2 1 2 1 神经网络模型 人工神经网络是由大量简单的被称为神经元的处理单元以某种拓朴结构相 互连接而成的非线性动力系统,它是在对以人脑为代表的生物神经元系统的组织 结构和行为特征进行研究的基础上提出的 k x 0 4 。人工神经网络技术发展非常迅 速,适用于解决实际问题,有着极大的应用领域,不仅广泛应用于工程、科学、 数学领域,也可广泛应用于医学、商业、金融、文学、交通、控制、工业自动化 等领域。同时伴随着高速计算硬件和快速算法软件技术的快速发展,基于神经网 络的模型可以解决越来越复杂的工业问题。 交通领域专家对神经网络模型在智能交通领域的应用也进行了大量的研究, 已用于短期交通流预测领域的神经网络模型有:反向传播b p ( b a c kp r o p a g a t i o n ) 神经网络、递归神经网络( r e c u r r e n tn e u r a ln e t w o r k s ) 、径向基r b f ( r a d i a lb a s i s 基于数据挖掘的短时路口交通洫量颅测研究第2 章短时交通流量预测的研究现状 f u n c t i o n ) 神经网络、时间延迟神经网络模型( t i m ed e l a y e dn e u r a ln e t w o r k ) 、多层 反馈神经网络( m u l t i l a y e rf e e d f o r w a r dn e u r a ln e t w o r k s ) 等【w s 0 5 i i g w y 0 4 】 【p r h 9 9 【p r 9 8 1 s m i t hb l 等人对过去平均、a r i m a 、b p 神经网络、非参数回归方法在短时 交通流量预测中的应用进行了对比,发现b p 神经网络的预测正确率要优于传统 的过去平均和a r i m a 模型,但略逊于非参数回归方法。 p a r kb 等人对泰勒数列展开、指数平滑方法( e s m ) 、反向传播神经网络0 3 p ) 和径向基神经网络( r b f ) 等4 种神经网络模型进行对比,结论为径向基神经网络 模型效果最好,而且比反向传播网络需要的计算时间少,虽然径向基网络比指数 平滑方法的效果好,但是径向基网络需要训练的过程和历史数据库,比指数平滑 方法复杂 p b 9 8 1 。 a b d u l h a i 等人提出一种基于时间延迟神经网络模型和遗传算法的短时交通 流量和时间占有率模型,利用高速公路路段过去交通特性数据和上下游交通特性 数据预测未来短时交通流量,同时比较过去时间段的长短和离预测段距离远近对 路段交通特性的预测影响 a p r 0 2 。 y i n 等人提出一种预测城市交通路网流量的模糊神经网络模型,利用模糊聚 类对输入数据进行聚类,然后对聚类和预测值用神经网络建立关系,从而达到预 测和降低预算复杂度的效果 y w x 0 2 1 。 从最初的简单单模型预测应用到应用其它方法优化神经网络模型,再到基于 其它技术如:遗传算法、模糊逻辑、灰色模型等的多模型预测技术的研究,神经 网络在交通预测方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论