(交通信息工程及控制专业论文)基于近似动态规划的交通控制算法的研究.pdf_第1页
(交通信息工程及控制专业论文)基于近似动态规划的交通控制算法的研究.pdf_第2页
(交通信息工程及控制专业论文)基于近似动态规划的交通控制算法的研究.pdf_第3页
(交通信息工程及控制专业论文)基于近似动态规划的交通控制算法的研究.pdf_第4页
(交通信息工程及控制专业论文)基于近似动态规划的交通控制算法的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:近似动态规划算法( a d p ) 是一种复杂非线性系统控制算法,适用于复杂 非线性系统的最优控制。与传统的动态规划算法相比较,由于它采用离线和在线 相结合的训练方式,能够实时的适应系统参数的变化,增强了系统鲁棒性。城市 交通系统是一个复杂非线性系统,且系统参数频繁变化,很难建立精确的模型, 采用传统的动态规划算法难以满足实时性要求。本论文研究了一种近似动态规划 算法一改进的a d h d p 算法,并将它应用到三种不同的交通背景下:单入口匝 道控制、多匝道协调控制和基于排队长度均衡的过饱和单交叉路口信号控制问题。 1 将改进的a d h d p 算法引入快速路单入口匝道控制中,给出了基于改进的 a d h d p 算法的入口匝道控制方法,经过仿真试验证明控制器具有良好的瞬态响应 过程和控制精度,避免了因瞬时误差的随机性而导致权值调整过度频繁,提高了 控制和学习过程的稳定性。 2 给出了基于改进的a d h d p 算法的多匝道协调控制策略,将改进的a d h d p 算法应用到快速路多匝道协调控制中,使得系统远离溢出点和偶发性交通状态, 处于稳定状态。经仿真试验证明控制器具有处理排队溢出和突发性交通拥挤的能 力,同时系统还具有很强的抗干扰能力。 3 将改进的a d h d p 算法应用于城市道路交通中的过饱和单交叉路口,提出 了一个新的控制目标,使得各方向在同一周期红灯时刻的排队长度近似相等。本 文采用基于改进a d h d p 算法的控制器对预设的信号配时方案进行调整,合理地 安排过饱和状态持续的周期数目,保证了过饱和状态的消散过程中各支路的排队 长度近似相等,实现更好的均衡,体现了公平性。 近似定态规划方法的引入为城市道路交通控制提供了一种新的思路。论文最 后对全文进行了总结,并对下一步的研究工作进行了展望。 关键词:动态神经网络;单匝道控制;多匝道协调控制;单交叉路口;排队长度 均衡。 分类号:t p 2 7 3 + 2 2 a bs t r a c t a b s t r a c t :a p p r o x i m a t ed y n a m i cp r o g r a m m i n g ( a d p ) i sap r a c t i c a lc o n t r 0 1m e m o d o fc o m p l e xn o n - l i n e a rs y s t e m i tc a na d a p tt ot h ec h a n g e si nt h es y s t e mp a r a m e t e m b y c o m b i n i n go f f l i n ea n do n l i n et r a i n i n g ,e v e ni ft h em o d e li sn o ta c c u r a t e 。u 而a n 蛐c s y s t e mi s ac o m p l e xn o n l i n e a rs y s t e m ,w h i c hh a sf r e q u e n tc h a n g e si nt h es y s t e m p a r a m e t e r s i ti sd i f f i c u l tt ob u i l da na c c u r a t em a t h e m a t i cm o d e l s ot h eb a d i t i o n a i d y n a m i cp r o g r a m m i n ga l g o r i t h mc a l lh a r d l ym e e tt h er e a l t i m er e q u i r e m e n t s i nv i e wo f t h i s ,t h et h e s i ss t u d i e sa n di m p r o v e st h ea d h d p a l g o r i t h m ,o n eo fa d p a l g o r i t h m ,a n d a p p l i e st ot h r e ed i f f e r e n tt y p e so ft r a t t i cb a c k g r o u n d t h em a i nc o n t e n t si n c l u d e : 1 i nt h i st h e s i s ,a d h d p a l g o r i t h mi sa p p l i e dt or a m pm e t e r i n ga n dan e wr a m p m e t e r i n gi sp r o p o s e db a s e do nt h ei m p r o v e da d h d p a l g o r i t h m s i m u l a t i o np r e y e s t h a tc o n t r o l l e rh a sag o o dt r a n s i e n tr e s p o n s ea n d a c c u r a c y t h i sa v o i d st h ee f r o fd u et o t h er a n d o m n e s so ft h ei n s t a n t a n e o u s ,w h i c hl e dt of r e q u e n to v e r - v a l u ea d j u s t m e n t 2 t h ec o o r d i n a t c dr a m pm e t e r i n gi sp r o p o s e d t h ei m p r o v e da d h d p a l g o r i t h m i sa p p l i e dt oc o o r d i n a t e dr a m p m e t e r i n g , w h i c hm a k e st h es y s t e ma w a yf r o mo v e r f l o w p o i n t sa n ds p o r a & ot r a i l s t a t u s t h es i m u l a t i o np r o v e st h a tc o n t r o l l e rh a st h ea b i l i t y o f h a n d l i n gt h eo v e r f l o wq u e u ea n d u n e x p e c t e dt r a f f i cc o n g e s t i o n 3 t h ei m p r o v e da d h d p a l g o r i t h mi si n t r o d u c e di no v e r - 8 a t i i r a t e de r e s so ft h e c i t yt r a f f i c an e wg o a li sp u tf o r w a r d , t h a ti s q u e u eo fa l ld i r e c t i o n sa p p r o x i m a t e l y e q u a la tt h er e dt i m eo ft h es a m ec y c l e c o n 仃o l l e r , b a s e do ni m p r o v c da d h d p a l g o r i t h m ,a d j u s tt h ed e f a u l tt i m i n g t h i so l l s u r e st h eq u e u eo fa l lp h a s ea p p r o 商m a t c e q u a li i it h ec o u r s eo fd i s s i p a t i o na n dr e f l e c t st h ef a i r n e s s t h ei n t r o d u c t i o no fa d h d p a l g o r i t h mp r o v i d e san e wi d e af o rt h ec i t yt r a f l i o c o n t r 0 1 f i n a l l y , w em a k eac o n c l u s i o na n dp r o p o s et h ef u t u r e 托暑e a r hd i r e c t i o n si n t l i i sf i e l d k e y w o r d s :d y n a m i cn e u r a l n e t w o r k ;d y n a m i co p t i m i z a t i o n ;a d h d p ;r a m p c o n t r o l ; c o o r d i n a t e dr a m pc o n t r o l ;o r o s sr o a d ;q u e u eb a l a n c e c l a s s n o :t p 2 7 3 + 。2 2 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 。 导师签名: 彳愀 签字日期:旬莎年6 月i 多日 厶哆 日 亟 o 秀阳 轹 降 墅 胡 昔佑 : 史 期 论 日 位 字 学 签 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:履殇签字吼脚年厂月勿日 致谢 本论文的工作是在我的导师侯忠生教授的悉心指导下完成的,在攻读硕士学 位近两年的时间里,侯老师严谨的治学态度、敏锐的思维、渊博的知识和科学的 工作方法都使我终身受益。侯老师忘我的敬业精神也将是我今后工作中学习的榜 样。在这两年中侯老师悉心指导我完成了实验室的科研工作,对于我的科研工作 和论文都提出了许多的宝贵意见,在学习上和生活上都给予了我很大的关心和帮 助,在此向侯老师致以衷心的感谢。 此外,在实验室工作及撰写论文期间,齐驰、晏静文等师兄师姐对我论文的 研究工作给予了热情帮助,完善和提高了论文的整体水平,在此向他们表达我的 感激之情。 同时也要感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学 j k 。 1 绪论 随着城市化建设的步伐日益加快,我们在享受高科技给带来的便利的同时,也 对它给我们带来的一系列问题感到头疼。例如,由于机动车增多带来的交通拥堵 问题。通常解决交通问题最直接的方法是修建更多的道路以提高路网的通行能力。 然而,考虑到成本和城市空间的限制,只依靠大量修建道路是不可行的。因此, 在现有的条件下,合理利用现有的交通设施,通过提高控制和管理水平,充分发 挥其能力,成为解决交通问题的一个有效途径。 1 1 城市交通信号控制研究的意义 1 1 1 道路交通中存在的问题 随着机动车数量的急剧增加,由其引发的交通问题日益增加。 ( 1 ) 交通事故频频发生给人们的生命财产造成了极大的损失 统计【l 】研究表明:每年有将近1 1 4 0 0 0 0 人死于交通事故,这个人数可以与战争 中死亡人数相比。据统计,2 0 世纪因交通事故全世界共死亡2 5 8 5 0 0 0 0 人,该数字 比第一次世界大战中死亡的人数还多。在1 0 年的战争中美军死亡5 0 0 0 0 人,这个 数字相当于2 0 世纪7 0 年代美国1 年的交通事故死亡人数。据统计,2 0 世纪一共 生产了大约2 2 3 5 亿辆机动车,也就是说每1 0 0 辆机动车平均夺走1 2 人的生命。 ( 2 ) 交通堵塞严重,导致能源浪费 统计1 2 】研究表明:在英国一个大约有1 0 0 个平面交叉口的城市内,每年由于车 辆的延误造成的经济损失就达4 0 0 万英镑;在东京,通过2 6 8 个主要平面交叉路 口的低效率交通流引起的年经济损失约为2 亿美元;在巴黎,每天由于交通拥挤 引起的损失时间相当于一座拥有l o 万人口的城市的个工作日。 ( 3 ) 空气污染和噪声污染日益加剧 汽车尾气排放和噪声是严重的环境污染源。在城市日常生活中,交通问题造 成的空气污染和噪声污染更加严重。对于城市中有限的土地资源和能源来说,交 通问题还间接造成资源被无效地使用,公共运输系统的吸引力降低,运行效率下 降,严重影响了人们生活的质量。 正因为存在这些问题,交通控制的意义显得尤为重要。随着信息技术的迅速 发展,给控制理论带来了新的突破,使得以前很多难题得到解决。理论的创新, 给交通控制带来了新的曙光。 1 1 2 交通控制的目的 交通控制的目的是在确定的规定约束下,采用合适的运作方式来确保公共和 私人运输方式具有最佳的交通条件。具体的来说,交通控制的目的表现在以下几 方面: ( 1 ) 减少交通事故,提高交通安全系数 对交通控制实施控制可以把发生冲突的车流和行人从时间和空间上分离,从 而减少交通事故的发生。 ( 2 ) 缓和交通拥挤,提高交通效益 合理进行交通控制可以对交通流进行有效的引导和调度,使交通流保持在一种 平稳的运行状态,从而避免或缓和交通拥挤状况,大大提高交通运输的运作效益。 ( 3 ) 提高公交效率,减少交通负荷 在交通控制中,可以采用公交优先的方式,减少公交车的旅行时间,提高运行 效率,从而可以提高公共运输系统对公众的吸引力,减少私家车,单位班车的使 用,有效减少交通负荷。 ( 4 ) 降低污染程度,节省能源消耗 实施交通控制可以减少汽车的停车次数,并使车辆在较佳的状态下运行,从而 可以减少尾气污染和能源消耗【3 1 。 1 2 城市交通控制理论研究现状 自从1 8 6 8 年,伦敦威斯特街口安装了二组交通信号灯开始,交通控制开始走 入了我们的生活。在交通控制系统中,被控过程由道路、车辆、驾车入和环境条 2 件共同组成。交通检测装置包括环形检测器、超声波检测器、磁感应式检测器、 光辐射式检测器、雷达检测器,以及基于信息融合技术的检测方法和基于图像识 别技术的视频检测方法等。它们能够测量系统的状态变量,诸如交通流量、交通 密度、交通速度、排队长度等。一考虑到信号检测中的随机干扰,适当的滤波处理 是十分必要的。现代交通控制器一般采用微型计算机,它根据交通检测量、交通 模型和特定的性能指标以及实际的约束条件,进行优化计算,从而确定适当的交 通控制策略。控制设备主要包括交通信号灯( 城市道路交叉口的红绿信号灯或快 速路入口处的控制信号灯) 、可变限速标志、驾驶员信息( 包括通信、引导和各种 可变信息标志) 等,它的主要任务是执行由控制器所提供的交通控制策略。 现在交通控制系统是由城市交通信号控制系统和快速路控制系统组成的,它 们之间通过出入口匝道耦合在一起,下面将分别予以介绍。 1 2 1 交叉口信号控制研究简单现状 通常情况下,按照交通信号控制交叉口数量及分布方式可分为单点信号控制 ( 点控) 、干线信号协调控制( 线控) 和城市路网中心( 区域) 信号控制( 面控) 三种 控制方式,分别应用于独立单点路口:绿波带控制沿线路口和城市中某一区域内 若干路口的交通信号控制。面控系统一般是指借助于城市交通指挥中心的中心控 制计算机系统对整个城市路网或其中某个局部区域内的路口信号机进行协调控制 的系统。与点控系统和线控系统不同,面控系统信号配时方案制定的依据并不是 以单点路口通行能力最高为控制目标,而是以整个路网( 区域) 整体通行能力最高 ( 车辆在路网中的平均行驶时间最短或沿途平均停车次数最小、平均等待时间最短) 为控制目标,因此,可能会以牺牲个别单点路口或局部区域的通行能力为代价。 在信号配时方案的选择上,不仅要考虑所有单点路口的信号周期、绿信比,而且 还要考虑相邻路口之间的相位差以实现车辆在整个路网内行驶时所遇红灯停车次 数最少、总的旅行时间或平均等待时间最短的控制目的。下面详细介绍下这三种 控制方式: 1 点控方式 对于独立单点交叉路口,可根据交叉口的流量和流向,确定最佳信号配时方 案,以确保路口最大通行能力或最小行车延误。 单点路口信号控制主要包括以下几种方式: ( 1 ) 定时控制 定时控制就是根据交叉口的道路条件及交叉口各进口道的到达交通的流向和 流量来确定定时信号的配时方案。该方案包括确定交叉口的相位顺序和数量以及 相位周期和绿信比等参数。确定控制信号的基本参数主要依据是使交叉口的交通 效益最大。其评价指标一般有以下几个:通行能力、饱和度、行程时间、延误停 车次数、停车率及油耗等。周期时长越大,通行能力越大,但车辆的延误以及油 耗等也随之增长;周期时长越小,延误停车越小,但是有效绿灯时间下降,信号 有用周期减少,通行能力急剧下降。 信号控制交叉口的信号配时原则是:在一定的道路条件下,应配以适当的周 期时长,让通行能力稍高于交通需求而使性能指标最小,这样既可以保证车辆的 畅通又能降低运行费用。定时控制适合于交叉口的交通流量变化比较有规律的交 通情况,对于一天内的交通量的不同变化情况,采用多时段定时控制可以适应交 通情况的规律变化,仍是一种常用的信号配时方案。由于城市的发展定时控制运 行一段时间后,交通情况会发生一些变化,这时需要进行交通调查重新确定配时 方案,比较费时费力。当某些交通情况变化没有规律且受随机因素影响较大时, 定时配时的方案会导致停车次数和延误的增加,一般很少采用。 ( 2 ) 按钮式信号控制 为人工控制方式,适用于路段或非交叉路口的人行横道上。 ( 3 ) 感应式信号控制 交通感应控制是通过车辆检测器测定到达进口道的交通需求,使信号显示时 间适应测得的交通需求的一种控制方式。感应控制对车辆到达随机性大的交通情 况适应性较好,可使车辆在停车线前尽可能少停车,以保证交通通畅。交通感应 控制分为全感应控制和半感应控制两类。感应控制的基本工作原理是,第一相位 起始绿灯,感应信号控制器内预设有一个初期绿灯时间,到初期绿灯结束时,若 在一个预置的时间间隔内,无后续车辆到达,则即可更换相位;如检测到有后续 车辆到达,则每测得一辆车,绿灯延长一个预置的单位绿灯延长时间,只要在这 个预置的时间间隔内,车辆中断就换相;连续有车,则绿灯连续延长一直延长到 4 一个预置的极限延长时阳j 时,即使检测到后面仍有来车,也中断这个相位的通车 权转换到另一个相位。所以,感应控制适用于在交通量变化大而不规则,难于用 定时控制处置的交叉口。对于必须降低对主要干道干扰的交叉口,用感应控制的 效果较好。, 感应控制主要包括半感应式信号控制、全感应式信号控制、公交车感应式信 号控制及列车感应式信号控制等。对于单点交叉口的信号配时方案设计应遵循两 个原则: 第一,选用同一相位流量比中最大者进行计算最短信号周期( 即一个周期内所 有车辆全部通过路口) 、最佳信号周期( 各相位总延误最小) 和实际最小周期。 第二,确保各相位绿信比与交通流量比率成正比。 2 线控方式 线控系统为一维信号控制,主要用于城市主干道参与协调控制的各交叉路口 采用相同的信号周期( 绿信比不一定相同) ,绿灯开启时间有一定的相位差( 绿波控 制) 。干线信号协调控制( 线控) 可分为采用主控制器的协调控制和无电缆协调制。 采用信号协调控制( 线控) 方式必须具备以下条件: 第一、交叉口采用相同的信号周期: 第二、各交叉口具备相同的时间基准,以确保相位差稳定: 第三、相邻交叉口之间距离应在8 0 0 m 之内,确保路口间关联性 采用主控制器的协调控制系统可分为:同步系统,即联结在系统中的全部信 号,在同一时刻,对着干道车流显示相同灯色:交互系统,即在被控制路段内相邻 的信号装置同时给予相反的信号显示;绿波系统,根据固定车速及交叉口间距确 定各交叉口绿灯开启时间( 相位差) 。 无电缆协调控制系统,即执行协调任务的各信号控制器,均调用由各自时钟 控制的信号配时预案和相位差。每个时段,各控制路口必须采用相同的信号周期。 对于城市路网中的“绿波带”控制,特别是双向交通中的“绿波带”控制,应重 点考虑多个交叉路口之间不同的道路负荷度以及不同交通流向之间的相位差协 调。 3 面控方式 当与干线相交的支路交通量较大时,干线信号协调控制( 线控) 难以确保路网 通行能力最优的控制目标,须借助于面控系统协调控制。 建立面控系统的关键,就是借助于实用、可靠的数学模型( 路网交通流仿真模 型) ,建立起一套用以确定路网信号配时设计最佳方案的程序流程( 路网信号配时 方案优化算法) ,以便利用控制中心计算机进行控制方案优化设计。 构建面控系统路网交通流( 车辆运行状况) 仿真模型需充分考虑以下因素:路 网结构、交通流周期变式、驶入流量、驶出流量和饱和泻流。进行路网信号配时 方案优化程序( 优化算法) 设计时,需考虑以下参数指标: ( 1 ) 车辆延误时间( 包括正常相位延误时间、随机延误时间和过饱和延误时间) ( 2 ) 停车次数( 包括正常相位停车率、随机停车率和过饱和停车率) 为了确定最佳信号配时设计方案,应将平均延误时间、平均停车次数及平均 燃油消耗量等运行指标作为优选标准。建立交通信号控制系统的目的就是在未饱 和交通流条件下,降低车辆行使延误,减少红灯停车次数,缩短车辆在路网内的 行驶时间,提高整个路网的整体通行能力。 1 2 2 快速路控制研究简要现状 作为一种现代化高速交通设施,快速路具有高速、高效、安全等很多优势。 大力发展快速路,可以减少车与车,人与人之间的冲突,减轻交通延误。通过对 快速路匝道进行控制,可以使快速路系统运行在一个比较好的水平。但它同时也 存在问题,大致可归为两类:一类是常发性交通拥挤;一类是突发性交通拥挤f 4 】。 解决这些问题的措施主要有两种:一是新建快速路或在原有线路上附加支线;二 是对快速路上的交通流进行控制,以期合理的组织交通,提高道路利用效率。入 口匝道控制是快速路控制中使用最广泛的一种方式。它的基本原理是限制进入快 速路的车辆数目以保证快速路自身的交通需求不超过其交通容量。它可以分为: 1 入口匝道定时控制。 定时控制系统由信号灯、控制器、检测器、匝道控制标志和路面标记组成。 匝道信号以固定的周期运行,这些周期是根据为特定的控制时段规定的调节率计 算的【4 】。它不能响应交通量的随机变化。周期中红黄绿信号的配时取决于所使用 的调节形式。 6 匝道调节率,( v c h h ) 的计算公式为: ,;q c - q d ( 1 - 1 ) q c :匝道下游容量; q d :匝道上游交通需求。 匝道调节周期长度c ( s ) 为: c :3 6 0 0 n ( 1 2 ) , ,:单个调节周期允许进入的车辆数,刀= 1 ,2 ,3 匝道调解率r 还有如式( 1 3 ) 条件约束: d 一p m a x - p o _ o c t 其中k = 0 , 1 ,2 ,为离散时间。 g 。:匝道下游容量; g 。( 七一1 ) :时间段 k t , + 1 矿】内的匝道上游交通需求; d 训( 后) :匝道下游占有率测量值: 0 。:占有率的临界值; r m i a :预先设定的调节率下限值。 ( 2 ) 占有率控制 美国公路安全研究所给出的估算下游剩余容量的经验公式5 1 为: lg 。o 一o ( k - 1 ) ) 2 。( 后一1 ) 。, g c ( d t 。一选) 2 口珍。 。巧) r ) = ,一 。( k - i ) s 詈。, 咄( | | ) j 2 。 d 。 ( 1 - 6 ) ( 3 ) 反馈控制 这里介绍一种反馈控制策略a l i n e a 控制律【7 】: ,( | ) = r ( k 1 ) + x r 【d d d 。( 豇) 】 ( 1 - 7 ) 足 :调节器参数,恒大于o ; 0 d :匝道下游期望的占有率,一般取o c r ; 观察式l 7 可得当k 时刻占有率小于期望值时,k 时刻的匝道调节率将在k l 时刻的匝道调解率的基础上增加,如果k 时刻占有率大于期望值时,k 时刻的匝道 调节率将在k l 时刻的匝道调解率的基础上减少。 4 匝道集中控制 对于一条快速路来说,通过对多个入口、出口匝道的调节实现对交通流的控 制。当某个入口匝道入口调节率发生改变,就会对整个快速路交通运行状况产生 影响,进而影响到其它匝道的调解率。集中控制的策略是通过统筹考虑各个匝道 的调解率,从而使得某项性能指标达到最优。 5 动态最优控制。 通过统筹考虑各个匝道的调节率,从而使某个性能指标达到最优,使得快速 路的总体性能得到提高,有效利用交通资源。 这里我们选取m a c k 交通模型1 8 儿9 j 【1 0 1 如下: p ,【老+ l 】= 户王后】+ ( 鼋h k - q ,【七】+ 厂j 【七卜j i 【七】) ( 1 - 8 ) g ,肟】= a p ,【j i 】1 ,防】+ o a x p m 防】1 , k - r m 陋】) 一s 纠 ( 1 9 ) “m 】- v 肛】+ 匆删h 胁冰嗍飞啪) 一笔旦特等( 1 - 1 0 ) i = 1 ,2 ;七= 0 , 1 ,2 , p - 【纠:第i 段路k 时刻的交通流密度 1 ,【纠:第瑁路k 时刻的交通流平均速度 g i 明:第f 段路k 时刻的交通流流量 r :采样周期 l ,:第f 段路的长度 ,陟】:第f 段路入口匝道k 时刻的交通流流量 s 正纠:第f 段路出口匝道k 时刻的交通流流量 口:加权系数,0 口 1 矿( ) :稳态速度模型 巧从r :适当的系数,由具体的交通状况决定。 稳态速度模型: 矿( p ) = v r b 一卜生) 个 ( 1 1 1 ) pi ” v ,:自由行驶速度 p 蛔:完全堵塞时交通流密度 9 z ,所:适当的正系数 假设入口和出口路段的交通状态: p 。【七】:q o k v , k l - ( 1 - a ) p , k ( 1 - t 2 ) v o 【纠= ,l 【后】 ( 1 - 1 3 ) p + l 【七】= p j v 【后】 ( 1 1 4 ) v v + l 【七】= v 【七】 ( 1 - 15 ) q 。雎】:干道入口交通需求 同时,考虑入口匝道的排队长度: z ,防+ 1 1 = l , k l + t ( d ;欧卜,陟1 ) ( 1 - 1 6 ) d ,嘲:入口匝道i 的k 时刻到达车辆数 z ,嘲:入口匝道i 的k 时刻排队车辆数 如果k 时刻的排队长度小于匝道调节量,则排队长度全部消散。k 时刻的匝道 调节率等于放行的交通量。如果k 时刻的排队长度小于匝道调节量,则剩余车辆与 匝道进入的交通流共同构成k + 1 时刻的排队长度。 从交通管理部门的角度来说,应尽量发挥道路的通行能力。可以把它作为性 能指标。则高度公路动态交通控制的目标函数为: j = o p l 岱) ,1 ,l 饭) ,p l ) ,p ) ,1 ,) p ) 】 1 1 r - 1 + 去 研正p f ( k ) - p s i 】2 + a ) 2 i p f ( k ) - p s i 】2 ( 1 1 7 ) + w 3 i p i ( k ) 一p s f 】二+ 0 4 i p i ( k ) 一p s j z ) 冉f :路段的期望密度; v s i :路段的期望速度; p j f :匝道的期望排队长度; ,j f :入口匝道期望调解率; c o l i 、t a 2 i 、颤0 3 i 、国4 f ,i = 1 ,2 ,n 为权系数。 快速路最优控制问题可写成如下带有约束的有限时间终端控制器问题: j = 研x ) 】+ 去科x ( 七) ,“( 纠 ( 1 1 8 ) s t j c ( 七+ 1 ) = 九j c ( 足) ,“( 足) 】,工( 0 ) = x o ( 1 _ 1 9 ) u m i n “( 豇) u m a x ( 1 2 0 ) 1 0 状态向量: 控制向量: x ( ) ;【尸l ( ) ,( ) ,l ( ) ,尸a r ( ) ,w ( ) 尸( ) , o - 2 1 ) ”( ) = 【,1 ( ) j 1 ( ) 水) ,( ) ,j ( ) ,6 ( 妒 ( 1 - 2 2 ) 不等式约束条件为: m a x ( r i r a i n ,d f 似) 一专( ,f m a x - 1 f 似) ) ) r i ( k ) _ r a i n ,f m 舣,d i 似) + 彳1 ,f 竹) ( 1 - 2 3 ) 玩m a x :入口匝道f 最大允许排队长度; r i 。m i i l :最小调节率; ,f m 戤:最大调节率。 对于这一类非线性最优控制问题的求解一般采取数值计算的方法,如二次变 分法、拟线性化方法等。 1 3 城市交通控制发展趋势 随着社会经济的发展和人们生活节奏的加快,传统的控制技术和方法越来越 表现出巨大的局限性,并不能真正解决交通拥挤问题。从现代化的技术入手,对 交通流进行科学的组织与管理,充分发挥现有交通网络的通行潜力:最大程度上使 交通流做到有序流动已成为解决城市交通拥挤的主要办法【1 l l f l 2 1 。由此,引发了城 市交通控制的新发展,这使得人工智能技术在城市交通控制中的应用、环境导向 的交通控制系统、交通控制系统与诱导系统的集成等,成为现在城市交通控制发 展的趋势。 作为智能交通系统的一个重要子系统,智能交通控制系统除了必须具有良好的 实时性、动态性和集成性之外,还应该从和谐系统层面加以综合协调考虑。目前, 人工智能技术在城市交通控制中的应用、交通控制系统与诱导系统的集成、环境 导向的交通控制系统己经成为智能交通控制系统的研究热点,并取得了丰硕成果, 但仍存在很多不足。大部分研究只提出了理论的可行性,缺乏实际的验证。因此, 对提出的系统和模型还需要具体化、细化,对各种实践中的问题还需要认真研究。 1 4 论文研究的主要内容 本文将一种a d p ( a p p r o x i m a t ed y n a m i cp r o g r a m m i n g ) 方法应用于交通控制 中。城市交通系统是一个复杂非线性系统,且系统参数频繁变化,很难建立精确 的模型,采用传统的动态规划算法难以满足实时性要求。传统控制策略超调量大、 响应慢且伴随震荡,控制器的学习具有局部性,欠缺预判能力。而a d p 方法适用 于复杂非线性系统的最优控制,即使交通状态偏离稳定平衡点,a d p 方法依然有 效。同时c r i t i c 环节能够给出系统性能指标的估计值,因此a c t i o n 控制器具有最 优( 或次最优) 的权值调整方向,避免了因瞬时误差的随机性而导致权值调整的 过度频繁,从而提高了控制和学习过程的稳定性。它采用离线和在线相结合的训 练方式,能够实时的适应系统参数的变化,增强了系统鲁棒性。目前a d p 方法在 交通领域的应用还不是很多。论文的主要工作是介绍一种a d p 方法一a d h d p , 研究了改进的a d h d p 算法,并把它应用到三种不同的交通背景中,然后利用 m a t l a b 平台仿真验证了改进a d h d p 算法的有效性。 本文共分为四章: 第一章,绪论。本章介绍了城市交通控制理论研究的意义、现状和发展趋势, 最后介绍了本论文的研究的主要内容。 第二章首先介绍了a d p 方法,然后着重介绍了一种典型的a d p 方法 a d h d p 算法,为下面基于该算法的改进和应用提供理论背景。 第三章提出了改进a d h d p 算法,并把它应用于三种不同的交通背景:单入 口匝道控制、多匝道协调控制和过饱和单交叉路口排队消散问题。首先,将改进 的a d h d p 算法引入快速路单入口匝道控制中,给出了基于改进的a d h d p 算法的 入口匝道控制方法,经过仿真试验证明控制器具有良好的瞬态响应过程和控制精 度,避免了因瞬时误差的随机性而导致权值调整过度频繁,提高了控制和学习过 程的稳定性。其次,给出了基于改进的a d h d p 算法的多匝道协调控制策略,使 得系统远离溢出点和偶发性交通状态( 即处于稳定状态) 。经仿真试验证明控制器 具有处理排队溢出和突发性交通拥挤的能力,同时系统还具有很强的抗干扰能力。 最后,将改进的a d h d p 算法应用于城市道路交通中的过饱和单交叉路口,提出 了一个新的控制目标,使得各方向在同一周期红灯时刻的排队长度近似相等。本 1 2 文采用基于改进a d h d p 算法的控制器对预设的信号配时方案进行调整,合理地 安排过饱和状态持续的周期数目,保证了过饱和状态的消散过程中各支路的排队 长度近似相等,实现更好的均衡,体现了公平性。 第四章,总结与展望。总结全文,展望未来的研究工作。 2 a d p 方法 a d p 方法适用于复杂非线性系统的最优控制,即使状态偏离稳定平衡点,a d p 方法依然有效。同时c r i t i c 环节能够给出系统性能指标的估计值,因此a c t i o n 控 制器具有最优( 或次最优) 的权值调整方向,避免了因瞬时误差的随机性而导致 权值调整的过渡频繁,从而提高了控制和学习过程的稳定性。a c t i o n 控制器通过 与c r i t i c 评价网络的交互学习,能够直接给出无限时间性能指标意义下的最优控制 器,而且它可以采用离线和在线相结合的学习方式,故能够实时地适应系统参数 的变化 1 3 l ,增强了系统鲁棒性。它克服了传统控制策略超调量大、响应慢且伴随 震荡,控制器的学习具有局部性,欠缺预判能力的缺点。 2 1a d p 方法的研究背景 a d p 方法是神经网络技术、最优控制技术以及强化学习( r e i n f o r c e m e n t l e a r n i n g ,r l ) 融合的产物,如图2 1 所示。 图2 1a d p 方法衍生关系 f i g 2 1a d p d e r i v a t i v er e l a t i o n s 它的发展过程与强式学习( r l ) 的发展密不可分。最早是由s k i n n e r 提出奖励 或惩罚( 基本强化信号) 决定动物( 包括人) 行为的著名思想,即增强式学习( 1 也) 。 1 9 7 7 年,w e r b o s 提出了h d p ( h e u r i s t i cd y n a m i cp r o g r a m m i n g ) 方法,标志着a d p 思想的正式确立。 1 4 目前,关于a d p 的研究集中在两个方面:理论研究和应用研究。理论研究主 要包括稳定性、收敛性、最优性以及定性分析等问题【1 4 】【1 5 1 【1 6 l ;应用研究则涉及极 为广泛的领域,比如飞行器控制【1 7 】【1 引、电力系统【1 9 】、通信网络2 们、机车控制【2 1 j 1 2 2 1 等。关于a d p 研究的内容主要集中在以下的几个方面: ( 1 ) 目前尚且没有普适的非线性反馈控制方法。而且随着科学技术的飞速发展, 对复杂非线性多输入多输出系统的控制器的要求越来越高。 ( 2 ) 维数灾问题,最优控制理论中的动态规划方法,虽然能够可以得出最优解, 但计算时间和存储空间的复杂程度也在成指数增长。 ( 3 ) 在线训练时,由于权值的频繁调整会造成控制系统的不稳定,同时还受到 学习速率因素的影响,使得控制效果难以得到快速提升。另外,还存在一种具有 时间常数的系统,在线学习控制的实时性无法得到保证。 根据美国国家科学基金会发布的( 2 0 0 6 2 0 2 2 年战略规划,关于a d p 技术的 理论研究以及基于该技术的具有重要影响和经济效益的应用研究,将得到着重支 持。i e e e 协会于2 0 0 7 卑在夏威夷召开第一届以a d p 为主题的国际会议,而i e e e t r a n s s m c - b 也将于近期推出关于a d p 的特刊。可以预见,a d p 技术将势必成为 国外研究的热点内容。 2 2a d p 方法的结构 2 2 1 典型a d p 方法 对于离散非线性动态系统,有 x k + q - - 厂( x 【七】,“【尼】) ,k = 0 ,1 ,2 ( 2 _ 1 ) 其中x 尺”为系统状态向量,“尺”为控制向量。 定义系统性能指标为: ( x = 广1 u ( x 阶扰纠) ( 2 - 2 ) 其中u ( ) 为瞬时效用函数,0 y l 为折扣因子。,( x 【m 为状态工【,】的 c o s t - t o - g o 函数。动态规划的目的是寻找控制序列u k 】,k = o ,1 ,2 使得系统性能 指标式2 - 2 最小,对于这个无穷时间最优控制问题,可采用h j b 方程进行求解: ,。( 石= m “i l i n l 矽( m “+ 。( x 】) ) ( 2 - 3 ) 最优控制律为: u 。ma r gm 叫i n 、u ( 、x m + 。( x 【f + l 】) 。( 2 - 4 ) 其中:厂( 七) 箩( x 啪,u k 1 ) ,u ( k ) 一z i u ( 虹札z f 【后】) ,j ( k w ( x 嘲) 。 假设系统方程和性能指标函数,( 七) 已知,那么求解最优控制律则变成求解极 值的运算。实际上,性能指标函数,( 七) 往往是未知的,这是传统动态规划方法最 大的弊端。而且随着系统规模的增大,这种方法的时间和空间复杂度指数增长, 即呈现所谓的“维数灾”现象。因此,传统的动态规划方法仅适合于较简单系统 得最优控制问题,a d p 方法提供了解决上述困难得新思路。 a d h d p 是一种典型的a d p 方法,它只是很多a d p 方法中的一种f 1 3 1 。根据 c r i t i c 估计对象( j 和a :0 x ) 的不同,可以将a d p 方法分为h d p ( 估计j ) 、d h p ( 估计a :a x ) 和g d h d p ( 同时估计j 和驯苏) 。这几种算法中,c r i t i c 的输入 均为系统状态向量x ( k ) ,如果将控制向量“( 七) 纳入c r i t i c 输入端,则构成动作依 赖( a c t i o n - d e p e n d e n t ,a d ) 的a d p 方法,分别称为a d h d p 、a d d h p 和a d g d h p 算法。 1 h d p 算法 h d p 算法的主要思想是采用c r i t i c 来估计,它分为三个功能模块:m o d e l 、 c r i t i c 和a c t i o n 模块。 m o d e l 模块既是被控对象的模拟,又是连接学习误差反向传播的通道。 c r i t i c 模块可以由可微神经网络构成,它的输入为系统状态x k 】,对应输出 j k lg j ( x k ,w c ) ,形c 为c r i t i c 权值向量。为了性能指标的估计值逼近函数值, 需最小化i | e c i | : l ie c | i = e c ( 后) = 妻【夕( 七) 一u ( 豇) 一( 蟊+ 1 ) 】2( 2 5 ) k二k 其中k 时刻的性能指标f f i ) ( k ) 为: 、 j ( 七) = u ( 膏) + y j ( k + 1 ) = 扣d ( 豇) ( 2 - 6 k - i 随着学习的深入进行,j c k ) 也在不断的修正中,这样就能更好的指导a c t i o n 1 6 环节的训练。 a c t i o n 模块为神经网络形式的控制器。根据动态最优性原理,它的训练目标 为最小化性能指标j ( 七) 。 2 d h p 算法 d h p 算法与h d p 算法最大的区别在于,d h p 算法通过c r i t i c 直接计算性能指 标相对系统状态的偏导数,即a i c k ) x ( k ) 。 c d t i c 的输入为系统状态x k 】全c o l ( x , k l ,f = l ,”) ,输出为c o j ( k ) x ( k ) 。实现这 一目标,需要最小化误差量l i e c i i 1 i | e cl i _ :l 也t 。( 七) 既( 詹)( 2 - 7 ) k z 其中,& 为输出偏导数与期望偏导数之间的差值。为了获取期望偏导数的值, 系统状态需正向传递,伴随状态a r ( k ) x ( k ) 需反向传播。 3 a d h d p 算法 a d h d p 算法与h d p 算法最大的不同,在于a d h d p 的c r i t i c 输入端包含系统 状态撒) 和控制向量u ( k ) ,它同样具有m o d e l 、c r i t i c 和a c t i o n 三个模块。 c r i t i c 的输入为系统状态工( | j ) 和控制向量“( 后) ,输出为系统的性能指标歹( 后) 。 它同h d p 算法一样,训练目标是最小化误差值i i 既i l ,但是误差值表达式不同。 它用k 时刻的值来估计露一1 时刻的值。它的训练方式既可采用f o r w a d - i n t i m e 方式, 也可以采用b a c k w a r d - i n t i m e 方式。 a c t i o n 模块用神经网络作为控制器,其权值调整方式与h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论