




已阅读5页,还剩88页未读, 继续免费阅读
(交通信息工程及控制专业论文)公交信号优先控制理论与方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
重庆交通大学学位论文原创性声明 l i i 1 1 1 1i iii i ii 1i ii il y 19 0 2 3 8 0 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体, 均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 躲参黼参 日期:f 口年,月j 孚日 重庆交通大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权重庆交通大学可以将本学位论文的全部内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科 学技术信息研究所将本人学位论文收录到中国学位论文全文数据库,并进行信 息服务( 包括但不限于汇编、复制、发行、信息网络传播等) ,同时本人保留在其 他媒体发表论文的权利。 学位论文作者签名: 参永确 日期:沙l 年i ) 月jg 日 本人同意将本学位论文提交至中国学术期刊( 光盘版) 电子杂志社c ( i 系 列数据库中全文发布,并按 t 0 且满足约束 丫n 图4 9 基于目标函数的信号配时流程图 f i 酣9s i g n a lt i m i n gf l o wd i a g r a mb a s e do nt h eo b j e c t i v ef u n c t i o n 4 3 公交信号优先控制逻辑设计 公交信号优先控制中最常见的也最容易实现的控制方式有绿灯延长和绿灯提 前启亮。前面对这两种方式下的公交优先信号控制延误模型做了详细的分析,下 面分别研究绿灯延长和绿灯提前启亮这两种控制方式的具体流程。 绿灯延长模块 绿灯延长策略的流程图如图4 1 0 所示,具体的控制过程是:首先由公交检测 器检测到公交车的到达时刻,记录该时刻交叉口该相位的状态,并通过预测模块, 第四章公交信号优先控制基本模型 4 1 预测公交车到达交叉口的时刻,判断交叉口公交所在相位绿灯结束时刻是否大于 公交车辆到达时刻。若大于,则保持原来信号配时不变;若小于,则在最大绿灯 延长时间内延长公交相位的绿灯时间,周期不变的情况下,确定该相位的绿灯时 间和其他相位的绿灯时间,根据目标函数计算其它相位的绿灯时间。 图4 1 0 绿灯延长模块 f i 9 4 1 0t h em o d u l eo fg r e e ne x t e n s i o ns t r a t e g y 绿灯提前启亮模块 绿灯提前启亮的流程图如图4 1 1 所示,具体的控制过程是:首先由公交检测 器检测到公交车的到达时刻,记录该时刻交叉口该相位的状态,并通过预测模块, 预测公交车到达交叉口的时刻,判断交叉口公交所在相位红灯结束时刻是否大于 公交车辆到达时刻。若小于,则保持信号配时不变;若大于,则在满足公交前一 相位的最大可压缩时间,提前结束该相位的红灯时间。公交前一相位绿灯减少的 时间就是公交所在相位压缩的红灯时间,其它相位的配时信号不变。 而不是车辆数来分配绿信比。 这种绿灯配时设计有利于公交车辆多的相位,体现了“以人为本”的公交优 先理念。从宏观上考虑,政府应加大对公交优先实施的投入力度,加快公交枢纽 站的规划建设,在道路资源充足公交流量大的路网可以规划出整个区域的可变公 交专用车道网,公交站点和站距等设计都应体现出“公交优先”。 第四章公交信号优先控制基本模型 4 3 公交信号优先控制的研究。应从单一的研究信号控制算法转为考虑基于其 它因素的公交信号优先控制,对实际存在的交通状况做具体的分析和研究。比如基 于居民出行的公交信号优先的研究、结合特定的公交专用道或专用进口道的信号优 先研究( 锯齿形公交专用进口道,设有双停车线的预信号控制) 、基于检测技术的 公交信号优先( 线圈、g p s ) 、基于特殊交通条件的公交优先研究( 限制左转的交叉 口、节假日的公交优先) 、考虑非机动车和行人的公交信号优先研究等等。在交叉 口流量饱和或非饱和的状态,各个相位公交车流量比例差距情况下,如何去研究分 析公交信号的优先,减少公交车在交叉口的延误,实现公交的整体优先。 公交调度管理。在公交信号优先控制的研究中,公交车辆的发车频率和载 客量是影响公交车流量和权重的重要因素,因而公交优先和公交调度是相互制约 的。根据公交车的发车频率分析到达不同线路的公交车的流量和权重,再根据相关 智能算法得到各个方向的公交优先次序;相反,将路口到达的公交车流量、载客量 以及公交优先决策的实施效果反馈到公交调度系统,对于公交流量较大的方向或载 客量较少的线路进行调整,如采用遗传智能算法计算合适的调度参数,这样形成一 个闭环的信息流控制,从而达到实时的公交信号优先,尽量减少所有公交车在交叉 口的等待时间和增大公交车的载满率。 4 5 本章小结 本章主要研究了部分优先策略下的信号控制交叉口的公交优先信号控制,以 单个公交车作为研究对象,控制的目标是使整个交叉1 3 的人总延误最小。分别建 立了绿灯延长和绿灯提前启亮两种信号优先方式下公交优先的延误模型以及控逻 辑设计。最后对公交信号优先控制策略提出了几点建议。 第五章基于车流的公交信号优先控制方法 第五章基于车流的公交信号优先控制方法 在现实交通中,仅有一个相位有少量的公交车到达的情况很少,多个相位都 有公交车辆的信号控制交叉口居多,特别是在国内公交系统复杂、公交流量较大 的条件下,连续多辆公交车在同一段时间内到达交叉口且遇到信号红灯的情形非 常普遍。如果交叉口的多个方向均有公交车到达,而且数量较大,这种情况下往 往很难做到整个交叉口公交车辆的同时优先,因为当给其中一个相位延长绿灯时 间或缩短红灯时间时,其余相位上到达的公交车辆将可能被迫停车等待,因此很 有必要研究以车流为对象的交叉口公交优先控制策略。针对车流,问题相对较复 杂,和前面研究单个公交车的方法不同,建立精确的数学模型相对来说也比较困 难。本文提出了一种基于q 学习的方法,可以根据实时的交通状态,各个方向的 公交车和社会车流的到达情况,通过延长或缩短相位的绿灯时间,以实现交叉口 的公交信号优先。本章首先根据交通的问题,建立目标函数,再提出公交车流的q 学习方法,研究其在公交信号优先控制中的应用。 5 1 目标函数 本章在第四章研究的基础上,对交通流复杂、多个方向有公交车流的交通状 态进行分析,因研究的对象是车流而不是单个公交车,因而目标函数与前一章所 建立的目标函数有一定的区别,但采用的基本延误模型是相同的。 在本章的研究中,控制的对象是单个交叉口的社会车流和公交车流,控制优 化的目标是交叉口的人总延误最小。以第四章的交通描述为基础,分析车流的延 误情况。假设交叉口东西方向的公交车平均到达率分别为厶,以,东西南北四个 方向的其它社会车辆平均到达率分别为丘。,正:,正,正。,再根据( 4 3 ) 可得, 一个周期内公交车和社会车的总延误,记为以。,吃,以,以:,畋,以。那么 在决策时间间隔址内到达的公交车总量为第一相位东西进口方向到达的所有公交 车之和,即r 魄。+ 兀,) 。同样两个相位四个进口方向的其它社会车辆在f 时间 内的总量为a t ( 厶+ :+ 正3 + 正) 。又设公交车平均载客量为p b ,社会车平均载 客量为p c ,则在一个周期内交叉口的人总延误为: 4 d p = p 。九+ 见九 式( 5 1 ) k = l ,3 k = l 对于两相位以上的信号交叉口,在一个周期内的人总延误为: h肘 啡= ( p 。d b 扩+ p 。) 式( 5 2 ) 第五章基于车流的公交信号优先控制方法 4 5 其中,甩为交叉口相位数,研,为第f 相位的进口道个数,d b 为第f 相位第_ ,进口道 公交车辆在一个周期内的总延误,如为第f 相位第j 进口道其它社会车辆在一个周 期内的总延误。 5 2 算法解析 公交信号优先控制作为公交优先技术的重要内容,普遍的研究方法主要是综 合考虑各个方向的车流量和道路状况等因素,采用主动或被动控制方法,调整交 叉口信号灯各相位的配时方案,以获得人均延误的减少和道路整体通行能力的提 高。目前,对于单个路口公交信号优先的方法主要有两类,一个是以建立在精确 的数学模型的基础上去分析实施公交优先前后的人总延误;另一个是不建立数学 模型,利用人工智能中流行的智能控制方法,研究较多的是模糊控制和神经网络。 但是对于多变的交通流特征,有时难以建立精确的数学模型,而模糊神经网络所 需要足够多且精确的样本是很困难的,当输入的空间维数增大时,样本容量的问 题就更加突出,可能会导致所谓的“维数灾难 。因此,对于模糊神经网络的这种 不足之处,人们希望找到一种不需要建立数学模型,但是可以感知环境变化,具 有自学习、自寻优能力的信号控制系统。目前,机器学习中的加强学习在人工智 能领域和运筹学领域有很广泛的应用,这激发了其在交通控制领域的研究和应用。 一“矗一 加强学习主要是研究单个智能体与环境交互的强化学习方法,如何使a g e n t 在一个 变化的环境中感知和行为,使动作从环境中获得的累计奖赏值最大,并选择最优 行为策略来达到它的目标。 雷一 。 根据交通流这种实时变化复杂的情况,利用人工智能领域中的神经网络、q 学习算法、模糊控制等智能算法的优点,本文提出了一种实现公交信号优先控制 的解决方法q 学习与神经网络结合的自学习控制方法。该方法是一种根据实 时的交通状态来选择最佳信号控制方案的自学习方法,很少用于公交信号优先控 制的研究中。下面介绍q 学习方法的理论以及在交通中的应用。 5 3q 学习算法基本理论概述 q 学习算法是一种不依赖数学模型的再励学习,是基于随机动态过程的从状 态到动作的映射的学习过程。q 学习需要的不是教师信号,而是评价信号,系统 根据它对当前作用的优劣做出评价,通过“奖、罚等评价方式对动作策略不断 的进行优化,从而得到最优策略。 交叉口的交通流到达系统是一个时变性很强的动态系统,系统所处环境是不 断变化的,信号灯控制的目的就转变成根据当前交叉口的实际运行状态和对未来 第五章基于车流的公交信号优先控制方法 交叉口控制结果的一个预测,决定是否应当减少或增加当前正在通行的相位的绿 灯时间,以及应当增加或减少其他相位的绿灯时间。如图5 1 所示,设计的系统 正是从信号控制系统本身的控制需求出发,基于强化学习,设计并实现带反馈的 交通信号控制智能体,使其在与交通环境实时交互中自主学习最优控制策略。 图5 1 基于强化学习交通信号控制智能体 f i 茚1t r a f f i cc o n t r o li n t e r s e c t i o na g e n tb a s e do nr e i n f o r c e m e n tl e a r n i n g 在基于强化学习的公交信号优先控制智能体中,主要有四个需要解决的问题, 即状态信息、奖励信息、学习系统和行为选择。首先,获取状态信息,然后由状 态信息得到对应的q 值,再选择相应的动作行为,得到反馈的奖励信号,更新q 值,继续不断的学习,最终选择出最优的行为策略。如何利用该方法解决交通中 的公交信号优先控制问题,包括确定交通状态空间和奖励函数,学习系统的构建 以及控制行为集的选择,是本章要研究的主要内容。 5 3 1q 学习方法 q 学习是增强学习的一种形式,实际上是一种马尔可夫决策过程( m a r k o v d e c i s i o np r o c e s s ,m d p ) 。相对于其他信号控制的“状态动作”方法,如动态规划, q 学习无需作为动作选择基础的环境先验模型,而是通过与环境交互学习以获得 状态、动作和奖励三者之间的关系。q 学习是一种无监督的学习方法,它不需要 任何现有的训练样本,只在于任何遭遇状态所做出的动作关联,并通过对可选动 作的动态“试验误差”的探索和对相关结果的观察和反馈。由于q 学习算法在一个 短的时间间隔内更新状态所对应动作的q 估计值,因此非常适合实时在线学习。 马尔可夫过程【6 3 】 a g e n t 在与环境的交互中表现出行为,并达到自己的目标。在增强学习中,一 般把a g e n t 和环境之间的交互过程看成一个马尔可夫决策过程( m d p ) 。m d p 的 决策模型可以用一个四元组合( s a ,r p ) 表示,s 为可能的环境状态集;a 为可 能的行为集;r ( s ,口) 是回报函数,表示在状态j s 下执行行为a a 将得到的回报; 第五章基于车流的公交信号优先控制方法 4 7 p ( s ,a ) 为状态转移函数,表示在状态s s 下执行行为口a 后转移成另一个状态的 概率。 其过程描述如下:在每一个时间步f ,环境处于状态集合s 中的某一个状态墨, 选择行为集合a 中的一个动作口f ,得到一个即时回报,并转移到下一个状态s ;。 奖赏函数和状态转移函数可以是确定的也可以是随机的,对于复杂、动态的交通 流环境中,奖赏函数和状态转移函数通常是未知的,即马尔可夫决策过程的模型 未知,而强化学习就是解决的有效方法。a g e n t 的目标就是寻求一个最优控制策略 万,从当前状态开始到目标状态为止的过程中,a g e n t 获得的回报总和最大。设v 为获得回报的总和,也称评估函数,通常有三种常用的表示形式: 1 ) 累计折扣回报,表达式如下:y 彳( s ,) = 厂+ ,o 0 ,才考虑将来回报。 2 ) 平均回报,表达式如下: 矿,( s ) = l i m 圭“ 式( 5 4 ) 平均回报考虑a g e n t 在整个生命期内的长期平均回报。 嬖“一增鼍0 薯 3 ) 横向有限回报,表达式如下:y 露( 墨) = 1 2 “ 式( 5 5 ) 横向有限回报考虑未来若干步内的所有回报。 不管评估函数是上述哪种形式,使得对于所有状态s ,获得的累计收益v 最大 的策略就是最优控制策略,用万表示:石= a r gm a x y ,( 以) ,v s ,s 式( 5 6 ) 增强学习 。 增强学习( r e i n f o r c e m e n tl e a r n i n g ) 又称为再励学习,是一种重要的人工智能 在线策略学习方法。增强学习把行为学习看成是反复试验的过程,从而把动态环 境状态映射成相应的动作。在增强学习问题中,控制系统从某一个状态转移到另 一个状态时将获得一个称为报酬( p a y o f f ) 的数值,系统的控制目标是找到一个控 制策略使得未来所获得的报酬折扣和期望最大。该值的函数式是对每个状态的返 回变量的一个预测。 v ( s ) 卜e k - o 式( 5 7 ) 百h , 其中是状态向量岛转移到s 的报酬,厂表示折扣因子( 0 7 1 ) 。矿( s ,) 表 示从时间f 之后的报酬折扣值总和,该值将依赖于后续选择的动作。系统控制需要 第五章基于车流的公交信号优先控制方法 找到使得v ( j ,) 在每个状态最大化的动作。 l i a g e n t l 鼬卜 i e n v i r o n m e n t 图5 2 加强学习示意图 f i 9 5 2t h er e i n f o r c e m e n tl e a r n i n gf r a m e w o r k 在q 学习中,q 函数是表示每个状态下对于每个动作a a 报酬值的估计。该 估计值可以使用当前动作执行后的反馈评价值尺( j ,口,) 和下一个遇到状态的预 测值v ( s 川) 进行更新,如式( 5 8 ) 所示,式中厂表示折扣率。 q ( s t ,口f ) 卜r ( 墨,q ) + 7 v ( 墨+ 1 ) 式( 5 8 ) 由于系统的全局目标是获得最大的报酬,因此一个状态的y ( s ,) 的当前估计 可以通过m a x 口e _ q 鸲,口) 获得,因此式( 5 8 ) 可以变成: q ( 墨,口f ) 卜r ( q ,a , ) + y m a x 刚q ( s t + l 口) 式( 5 9 ) 其中,q ( s ,q ) 表示在系统状态墨执行动作口f 的q 函数值;r ( s ,口,) 表示在 系统状态只执行动作q t 后所获得的立即奖惩值。对于标准的q 学习方法,根据状 态墨下获得的经验知识,采用公式( 5 1 0 ) 更新q 值的估计值: q ( s ,口,) = ( 1 - a ) q ( s ,口,) + 口 r ( 最,a r ) + y m a x 舵_ q ( s ,+ l ,口) 一q ( s ,a f ) 】 式( 5 1 0 ) q 学习的具体学习过程如下: s t e p l :随机初始化所有状态行为( s ,口) 对对应的q 一函数值,设为0 ; s t e p 2 :观察当前状态s : s t e p 3 :一直重复一下的步骤 1 ) 根据当前q 选择一个行为a 并执行; 2 ) 得到立即回报r : 3 ) 转移到新的环境状态; 4 ) 根据式( 5 1 0 ) 更新q 值,s = j 。 第五章基于车流的公交信号优先控制方法 4 9 5 3 2 基于b p 神经网络的q 学习方法 q 学习函数值的存储方法有两种,一种是采用表格型的方法,利用表格来表 示q 函数,表的大小等于状态集和动作集的笛卡儿乘积中元素的个数。另一种是 采用神经网络实现q 值的存储。由于道路交通状态受多方面因素影响,城市路网 交通流在短时段内呈现明显随机性和不确定性,任何因素的细微改变,都可以认 为交通状态发生了改变。因此,道路交通是一个高维的连续状态空间。传统的采 用“状态动作查表形式的q 学习方法需要存储每个状态对应每个动作当前的q 值估计,并且在获得新知识时更新它们。对于像交通状态这样一个高维的连续状 态空间,分别存储每一个状态动作对对应的值一般是不可能的,而且也不具有泛 化能力。因此,需要使用一些用于归纳和预测( 即使在环境中没有遇到过的状态) 的函数逼近方法存储这种连续的对应关系,作为一种通用的函数逼近器,神经网 络在强化学习泛化的值函数逼近器中已经成为研究的重点。本文采用多层前馈传 播神经网络( b p n n ) ,存储路口交通状态与每个动作对应的q 值。假设行为集中 的元素为刀,采用刀个多层前馈神经网络分别逼近力个行为值函数,每一个交通状 态向量作为b p 神经网络的输入,输出是对应的q 值,即输入单元的个数与状态 向量的维数相同。 b p 网络 一 r , b p ( b a c k p r o p a g a t i o n ) 算法是r u m e l h a r t 等人提出的用于前向神经网络学习 训练的误差逆向传播算法。它是建立在梯度下降算法基础上的,有教师指导的, 适合于多层神经网络的学习训练。b p 神经网络的结构如图5 3 所示: 输 入 层 隐层 图5 3 神经网络的基本结构 其中每个节点的结构如图5 4 所示: 输 出 层 5 ) 计算网络输出误差: 第五章基于车流的公交信号优先控制方法 5 1 e p 吉( - o p j ) 1 f e = 土e ,kz p 一- i , 6 ) 若e e ( 系统规定的平均误差容限) 或e v e 脚( 规定的单个样本的误差 容限) 或达到指定的迭代步数,学习结束。否则进行误差反向传播,转向( 7 ) 。 7 ) 计算训练误差: 如 - 0 ( 1 0 ) ( 一) ( 输出层) 厶- - 0 ( 1 - 0 ) 吆( 隐含层) k 8 ) 修正权值和阈值: w 多( 甩+ 1 ) = w ( n ) + r l s 力o + a c w j , ( n ) 一w j , ( n 一1 ) ) 8 j ( n + 1 ) = 口大疗) + ,7 + 口( 够( 珂) 一够( 刀一1 ) ) 9 ) 转向步骤( 3 ) 误差指标和权值的修正 设第f 个神经网络隐含层输出的值向量为儿, 则q 学习决策过程的行为值函数的估计形式为: q ( s ,q ) = ( w ) y = ,;杉 式( 5 1 6 ) 蹦 对应的输出层权值向量为w j , 为了得到收敛的梯度函数,采用反馈的误差信号作为学习的性能指标,b p n n 学习 学习阶段的反馈误差如式( 5 1 8 ) : v 扣a r ( s ,呸) + 7 嗽刚q ( s t + l9 口) q ( s ,q ) 】 式( 5 1 8 ) 其中v 万表示神经网络学习阶段的误差信号,通过v 万调整神经元网络权值,使误 差尽可能小,最终将得到最优策略所对应的q 值,口表示学习率。利用反馈的误 差对输出层权值进行不断的修正。 5 2 第五章基于车流的公交信号优先控制方法 回报函数r ( s 。a ) 图5 5 基于神经网络的q - 学习系统结构 f i g u r e 5 5t h ec o n t r o ls t r u c t u r eo f s i n g l ei n t e r s e c t i o nb a s e do nq l e a r n i n ga c h i e v e db yb pn e u r a l n e t w o r k 5 4 单路口公交信号优先控制的q 学习设计 公交信号优先控制研究的很多,本文第四章主要是在公交车辆少的情况下研 究公交信号优先控制,而在实际中,很多城市的道路、交叉口的交通流量非常大, 公交流量也较大,同一时间各个方向可能都有公交车流驶向交叉口,在这样的情 况下,采用单个公交车或者单个相位有公交车的方法是行不通的。因此对于公交 流量较大的路口,本文利用神经网络的q 学习算法来实现公交信号优先的问题。 下面对整个a g e n t 中的各个部分关于公交信号优先的设计和算法流程作详细描述。 5 4 1 交通状态描述 在交通环境中检测到的交通状态决定信号控制动作( 决策方案) 的选择,对 交通状态描述方法的合理性,将影响到整个信号控制系统的性能。文献【6 5 】中定义 了一个交通信号控制系统的状态包括两种元素:交通的状态和控制器的状态。基 于这种状态定义,对于一个交叉口交通的状态选取每个相位对应的放行车道滞留 的公交车和社会车辆数量。控制器的状态选取当前绿灯相位编号和当前绿灯相位 已持续时间。对于一个有刀个相位的交通信号控制系统,可以得到状态变量 s ( p r l b ,肌,柚,p r b ,伊,g t ) ,其中既表示在第i 个相位所对应的放行车道滞 留的公交车辆数,p r g 表示在第f 个相位所对应的放行车道滞留的社会车辆数。表 示当前绿灯相位的编号0 万,则口,一口,否则口蛳- - a o 第五章基于车流的公交信号优先控制方法 5 5 a = = = = = = = 三q , - - - - - - - - - - 一q 图5 6 值函数和策略问的相互作用 f i 9 5 6c o r r e l a t i o nb e t w e e nv a l u ef u n c t i o na n dp o l i c y 5 4 40 值存储网络 网络存储方式 本文采用的是b p 神经网络来存储q 值。在采用神经网络存储时,需要确定是 采用一个多输出的神经网络,每个输出代表一种行为的q 值,还是采用多个单输 出的神经网络分别存储不同行为的q 值。如果采用一个多输出的神经网络,那么 在对一种行为的q 值进行修改时,由于隐层节点的权值对所有的行为是共享的, 必定会影响其它行为的q 值的计算。针对交通流复杂,交通信号控制状态空间很 大的特点,本文选择采用多个单输出的三层b p 神经网络分别存储不同行为对应的 q 值。 网络结构设计 在存储q 值的神经网络中,交通状态作为网络的输入。合理的选取交通状态 变量,是影响学习过程有效性的重要因素之一。一般来说,对于一个交叉口的交通 流系统的环境,与控制策略密切相关的因素主要可以分为三类: 第1 类:长期保持不变的因素,包括路口的物理空间布局、和路口相关的路 段数、每个路段的车道数及各个方向路段的设计通行能力。 第1 i 类:在一段时间内保持相对稳定,但是从更大的范围来看,这些因素又 是在不断变化的,包括当前的工作时段,天气情况等。 第类:每时每刻都在变化的因素,包括当前的绿灯相位、路口到达的各种 车辆数、各个方向的车辆排队长度、车辆的延误时间、实际通行的车辆数等与道 路实时状态有关的各种因素。 步骤6 :转向执行步骤1 。 第五章基于车流的公交信号优先控制方法 5 7 5 4 5 模糊逻辑多目标奖惩函数设计 在q 学习中,环境提供的奖惩信号( 回报函数) 是对控制决策的控制效果好 坏的一种评价,学习系统是通过环境的奖惩反馈指导学习过程的,奖惩信号将对 下一次控制决策的选择产生影响。因此奖惩信号函数的设计决定着学习系统性能 的好坏,是q 学习系统的一个关键。传统的q 学习方法一般采用单一显式,通过 建立数学模型来描述奖惩信号,但在交通信号控制系统中,评价一个决策控制效 果的好坏受多方面因素的影响,并且这些因素之间往往是非线性关系,难以建立 精确的数学模型。因此采用模糊逻辑考虑多影响因素评价所选择动作的控制效果, 并给出奖惩反馈信号设计方法。 基于模糊逻辑的奖惩信号产生器共有4 个输入,分别为绿灯相位滞留的乘客 数g r ( 公交车和社会车辆) 、决策时间中绿灯相位通行繁忙度g s ( 如式( 5 2 0 ) ) 、 当前绿灯相位已持续时间、红灯相位平均排队乘客数刑;模糊评价控制器有1 个输出,为奖惩信号值r e w a r d ,范围是( 一l ,1 ) 。 :即绿灯相位滞留总乘客数是由滞留的公交车量数与其平均载客量乘积和 社会车辆数与其平均载客量乘积之和得到。 r w :即红灯相位平均排队乘客数是红灯相位公交车排队长度与其平均载客量 乘积和社会车辆排队长度与其平均载客量乘积之和。 鼬:即决策时间内绿灯相位通过的总乘客数,公式如下 鼬:丛垒业式( 5 2 0 ) 。 s 式( 5 2 0 ) 中,q 一为绿灯相位在决策持续时间中的公交车通过量,g 嚣为绿灯 相位在决策持续时间中的社会车通过量,s 为绿灯相位在决策持续时间中的饱和流 量; 模糊逻辑奖惩信号产生的部分模糊规则如式( 5 2 1 ) 。因此,若采用本文提 出的方法,当交通控制器在线学习策略时,在执行所选择的决策之后的4 s 内,根 据该时间间隔内到达的交通量、排队长度等等信息计算得到奖惩反馈信号,评价 执行该决策的好坏程度,并与该动作对应的q 值得到一个新的q 值,由误差函数 不断的修正网络的权值。 第五章基于车流的公交信号优先控制方法 l 。sl o wa n dr w 括h i g ht h e nr e w a r di sn e g a t i v e i sh i g ha n dr wi sl o wt h e nr e w a r di sp o s i t i v e i sm i da n dg si sm i dt h e nr e w a r di sp o s i t i v e l sh i g ha n dg si sl a r g et h e nr e w a r di sz e r o i sl o wa n d g ti sl o n gt h e nr e w a r di sn e g a t i v e i sm i da n dr wi sm i dt h e nr e w a r d 括z e r o 玎g ti ss h o r ta n dg ri sm i dt h e nr e w a r di sp o s i t i v e 可g ti sl o n ga n d r wi sh i g ht h e nr e w a r di sn e g a t i v e 可g ti sm i da n dg ri sm i dt h e nr e w a r di sz e r o 5 5 算法流程 根据以上设计的q 学习与b p 神经网络的交通信号控制系统结构,q 学习的具 体实现步骤如下: 初始化各个行为对应的b p 神经网络权值及其q 值,设定初始的运行相位; 对每一个时间步f ,使当前绿灯相位时间以给定的最小绿灯时间运行; 在最小绿灯时间结束后,根据实时检测技术获取当前各个方向的交通状态 参数,得到当前状态s 。; 将状态s ,作为b p 神经网络的输入,得到f 时间步所有行为的q 值,根据 “万一g r e e d y 贪婪 探索策略选择当前的策略行为a ,; 执行行为a ,过一个时间间隔即时间步r + 1 观察后续状态s ,并获得回 报值尼; 对状态为s ,时采取的行为a ,的q ( s ,a t ) 值进行调整,得到下一状态的各动 作的q 值估计值q ( s ,a m ) ,因为本文研究的是公交优先,采用的目标函数为交叉 i = 1 的人总延误最小,因而q 值函数的更新公式为: 广 , 1 q ( s i q ,) 卜纵,q ) + 水,钏+ y m 口i r o ( s , , q ) 一酏,q ) j 式( 5 2 2 ) ( q ( 墨+ ,a t + 。) 为执行策略后由回报函数更新的值。q ( s t ,口f ) 为时间步r 在状态s 下 的q 值,m i n q ( s ;,口:) 是时间步t 在状态s 7 下所有动作的最小q 值,口是学习速 率,是折扣因子) 根据误差信号公式( 5 1 8 ) 调整b p 神经网络的权值; 比较当前相位已经持续的绿灯时间g p 和选择的动作中该相位的绿灯时间 第五章基于车流的公交信号优先控制方法 5 9 g ,若g p ,则继续该相位直到结束,转向步骤2 ;若g ,则立刻转向 下一相位,其绿灯时间为所选方案的绿灯时间,转向步骤3 。 其中,仿真流程图5 7 所示。 图5 7 算法仿真流程图 f i 9 5 7a l g o r i t h ms i m u l a t i o nf l o wc h a r t 第五章基于车流的公交信号优先控制方法 小结 为两个部分,第一部分详细讲述q 学习的理论,第二部分研究q 学习 分在公交信号优先控制中的应用。建立了基于神经网络的q 学习算法 及仿真流程图。 第六章公交信号优先控制仿真实验6 1 第六章公交信号优先控制仿真实验 为了验证基于q 学习的神经网络自学习算法在公交信号优先控制中的有效 性,将该算法应用到实际的交叉口信号控制中。本文通过调查重庆市某具体的十 字路口,将其作为公交信号优先控制的仿真对象。 6 1 交叉口道路现状的描述 本文以重庆市某典型的十字交叉口为例。在东西南北4 个方向上均有左转、 直行和右转3 个流向。为了简单起见,本文只考虑直行和左转车流,不考虑右转 方向的车流。 交叉路口的现状图如下: 新南路 松石北路二二二乏三 一= ! 。移 新南 li :2 ;j if if i | i l i 路 图6 1 新南路和松石大道十字交叉路口 f i 9 6 1i n t e r s e c t i o no f x i n n a nr o a da n ds o n g s h ir o a d 西湖路 下面对交叉口的现状作详细的介绍: 交叉口几何现状 该路口的车道宽均为3 5 m ,无中间分隔带。南进口为双向8 车道,两个直行 道、一个左转、一个右转。北进口为双向6 车道,进口道拓宽到4 个车道,两个 6 2 第六章公交信号优先控制仿真实验 直行道、一个左转、一个右转。东西方向均为双向4 车道,进口道拓宽到3 个, 车道分别是直行、左转、右转。交叉口各个进口道车道功能分配如下: 表6 1 各方向进口道车道数 t a b l e 6 1t h en u m b e ro fa l li m p o r tr o a dl a n e si ne a c hd i r e c t i o n l i :转- t - 】直双直行车道数自转牛逼致 东进口道l1l 西进口道lll 南进口道 12l 北进口道 l21 交叉口相位及信号配时 由各个进口道的车辆到达量,该交义口的信号控制系统采用的是典型的4 卡 位系统,第一相位是东西直行、第二相位是南北左转、第三相位是南北直行、匀 四相位是东西左转,相位相序方案图如下图所示: n n nn 势妒势势 一 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 1 l 1 匕 i l 1 1心 r 1 r 第相憧第撕第三相位 第四相位 图6 2 交叉口信号相位相序不意图 f i 9 6 2s e q u e n c ed i a g r a mo fs i g n a lp h a s eo fi n t e r s e c t i o n 根据流量和相位,该交叉口的周期设定为c = 1 0 2 s ,黄灯时间为3 s ,车辆运彳 速度为3 0 m s ,各个相位的绿灯时间如下图所示:9 1 = 2 7 ,9 2 = 2 4 ,9 3 = 6 3 ,9 4 = 3 5 。 信号配时情况见图6 3 所示。 第六章公交信号优先控制仿真实验 6 3 钐刎 - g l :2 7 s ,一k 厂同8 彭钐形绷 。 9 2 = 2 4 8 _ 一l - 厂y = 3 。 9 3 躏3 s 。v 。- l , y :3 8 、 i 钐彩杉钐钐燃 l l9 4 :3 5 s - 叫 s z o l = 0 绿灯时间黄灯时间红灯时间 图6 3 交叉口信号配时方案 f i 9 6 3s i g n a lt i m i n gp r o g r a mo fi n t e r s e c t i o n 第一相位 第二相位 第三相位 第四相位 6 2 实验数据 。 , 4 - f t 为了更加准确的了解q 学习算法控制的效果,本文对实际中的交叉路1 2 1 ( 上述 路口) 进行了分车道分车型的交通流量调查。在早高峰7 :0 0 - 8 :0 0 时段,每个方向 安排3 个人,分别负责调查三个车道到达的公交车和其他车辆的流量。调查间隔 时间为5 m i n 。得到该交叉口的各个方向各车道的间隔5 分钟的公交车和其它车辆 的到达数。该时段的调查流量如下表所示( 其它车辆已经转化为当量小汽车) : 表6 2 交叉口各进口道的交通量 t a b l e 6 2t h et r a f f i ci na l li m p o r tr o a d sa ti n t e r s e c t i o n 进口方向 东进口道西进口道 南进口道北进口道 车辆类型直行左转直行左转直行左转直行左转 调查时间 bvb v bvb vbv b vbv b v 7 :0 0 - 7 :0 532 74922 5011 21 0 2l1 699 904 7 :0 5 - 7 :1 0 1 3 8 41 1l 2 103 1 41 2 80 1 8 1 2 1 0 0 16 7 :1 0 - 7 :1 524 531 233 0o21 51 2 611 41 l1 1 0l9 7 :1 5 7 :2 04 5 l51 0 2 1 90 41 51 3 11 1 9 1 01 1 807 7 :2 0 - 7 :2 534 941 332 3o31 31 3 402 291 2 9l6 7 :2 5 - 7 :3 026 339 4 3 2o6 1 5 1 3 2 1 2 6 1 2 1 4 1 o9 7 :3 0 - 7 :3 565 751 433 6051 81 4 5l2 11 41 3 62l l 7 :3 5 7 :4 055 96 1 l 54 10 41 5 1 4 3o2 5 1 l 1 5 4 01 3 7 :4 0 7 :4 556 551 463 9o71 71 5 612 31 31 6 6l1 4 7 :4 5 7 :5 04 6 9 41 334 8 0 62 01 7 302 61 01 8 102 1 7 :5 0 7 :5 568 061 255 6o51 81 8 522 91 51 7 9l1 8 7 :5 5 8 :o o8 7 2 71 556 3082 11 9 203 01 61 8 922 0 注:b b u s ;v - v e h i c l e 第六章公交信号优先控制仿真实验 由调查的流量可知,该路口南北方向( 新南路) 的直行公交车流量相对较大, 东西直行( 松石大道) 的公交车流量较小,东进口方向的左转公交车流量一般, 西进口方向没有左转公交车流。 6 3 公交信号优先控制的实验计算过程 基于q 学习的公交信号优先控制智能体的决策时间步a t = 4 s ,每4 s 检测到交 通状态,输入b p 神经网络,得到网络里所有行为的q 值,根据行为策略选择最 佳行为作为当前状态下的执行行为。在做出当前决策时间后,智能体需要采集新 的交通流状态信息,如当前相位的红绿灯状态、各个相位的排队车辆数、各方向 的公交车到达率以及在决策时间内的到达车辆数等,得到奖惩函数更新前一状态、 行为值,再计算下个时间步的所有q 值。基于q 学习的公交信号优先控制智能体 的计算过程如下: 初始化仿真参数,初始化各个行为的b p 神经网络权值和q 值,q 值初始 值设为延误,设定初始运行为第一相位; 在时间步,采集交通状态为s t ; 以最作为b p 网络的输入,网络计算出各个相位行为的q 值并存储; 根据行为选择策略,在动作集a 中确定s ,状态下选择的行为a t ,并执行a t ; 执行所选择的行为a t ,转向下一个新的状态s ,由车辆检测器得到该状 态的各个方向的公交车和社会车辆的排队长度,公交车和社会车辆的到达率。并根 据检测得到前址时间内绿灯相位公交车辆的通过量和社会车辆的通过量,计算出 f 时间内的通行繁忙度,绿灯相位滞留的人数( 滞留公交车和社会车辆数转换为 人数) ,红灯相位平均排队人数( 平均排队车辆数转化为人数) ,根据模糊控制器计 算得到一个输出回报函数r e w a r d 值。 根据得到的r e w a r d 值和f 时间步的交通状态对应的q 值,由公式得到更新 的q 值,对比原来的q 值,根据误差函数公式修改神经网络的权值。状态墨变为 状态s | + l ; 在每一时间步计算所有行为的q 值,找出最小的q 值,作为下一时间步 的初始q 值,执行的动作是该q 值对应的行为a 。判断周期是否结束,若执行的 行为中的q 值大于前一q 值,则保持该行为,继续采集新的状态信息,重复步骤 2 7 ,直到周期结束。得到一个周期的最优策略方案,计算该周期执行最优方案的 人总延误。 根据第五章讲述的动作集的确定方法,得到本章实验中的动作集a ,如下所示: 第六章公交信号优先控制仿真实验 6 5 a : 口o 口1 口2 口3 ,口4 ,u 5 川6 u 7 ,口9 式( 6 1 ) 【u l o ,口l l ,口1 2 ,口1 3 ,q 4 ,q 5 ,u 1 6 ,, 口1 7 ,q s ,j 该行为策略a 中的各个行为q 的具体值为: a = ( 2 7 ,2 4 ,6 3 ,3 5 ) , ( 2 7 ,2 2 ,6 3 ,3 7 ) , ( 2 5 ,2 4 ,6 3 ,3 7 ) , ( 2 5 ,2 6 ,6 5 ,3 3 ) , ( 2 9 ,2 2 ,6 3 ,3 5 ) , ( 2 7 ,2 4 ,6 1 ,3 7 ) ( 2 7 ,2 2 ,6 3 ,3 7 ) , ( 2 5 ,2 4 ,6 5 ,3 5 ) , ( 2 5 ,2 6 ,6 1 ,3 7 ) , ( 2 9 ,2 6 ,6 1 ,3 3 ) , ,( 2 7 ,2 4 ,6 5 ,3 3 ) , ( 2 7 ,2 6 ,6 1 ,3 5 ) ,( 2 7 ,2 6 ,6 3 ,3 3 ) , ( 2 5 ,2 6 ,6 3 ,3 5 ) ,( 2 5 ,2 2 ,6 5 ,3 7 ) , ( 2 9 ,2 4 ,6 3 ,3 3 ) ,( 2 9 ,2 4 ,6 1 ,3 5 ) , ( 2 9 ,2 2 ,6 1 ,3 7 ) ,( 2 9 ,2 2 ,6 5 ,3 3 ) ) 6 4 公交信号优先控制算法仿真实验 本文的仿真实验是采用m a f l a br 2 0 0 9 进行编程,算法程序见附录a ,主要参数 的确定和计算步骤如下: 6 4 1 参数的确定 乏 仿真中的参数确定如下: 路口的状态及相位信号参数:。 1 ) 采样时间间隔:a t = 4 s ; 2 ) 路口的相位为4 相位如图6 2 : 3 ) 周期为1 0 2 s ,黄灯时间为3 s ,各个相位的绿灯时间如图6 3 ,每相位的损 失时间为3 s ,总的损失时间为1 2 s ; 4 ) 饱和流量:1 8 0 0 v e h h : 5 ) 最小绿灯时间:1 0 s ;最大绿灯时间:直行8 0 s ,左转2 0 s 。 神经网络的参数 1 ) 输入层神经元个数:1 9 ;隐含层神经元个数:3 6 ;输出层神经元个数:l ; 2 ) 训练函数为t r a i n l m : 3 ) 学习速率口= o 3 ; 4 ) 学习次数n = 2 0 0 0 。 模糊控制中的参数 1 ) 模糊控制输入为4 个;模糊控制输出为1 个;模糊规则有8 1 条; 2 ) 输出值为奖罚函数值r e w a r d 为 一1 ,0 ,1 ) 。 q 学习中的参数 学习因子:为0 8 ;折扣因子:厂为0 9 ;模拟退火因子:t = 1 0 0 ,厂= o 9 8 。 6 6 第六章公交信号优先控制仿真实验 6 4 2 公交信号优先控制算法仿真步骤及结果 q 学习第1 周期的信号配时设为原有配时( 2 7 , 2 4 ,6 3 ,3 5 ) ,从第1 个周期刃 始计算,第l 时间步内的延误及q 值如下表6 3 :
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西兰财产分配协议书
- 货车公司使用协议书
- 系统软件维护协议书
- 维修人员招聘协议书
- 职工清退清偿协议书
- 解除公司股份协议书
- 租金收入质押协议书
- 绿植合同解除协议书
- 2025企业员工住房按揭贷款合同模板
- 高级会计考试真题试题及答案分享
- 2024年山东职业学院高职单招语文历年参考题库含答案解析
- 2024认定实际施工人法律风险防范与合同完善服务合同3篇
- 2025年度会计人员继续教育会计法律法规答题活动测试100题答案
- 农贸批发市场管理制度(3篇)
- 《糖尿病监测及意义》课件
- 4.1.2-元素周期表-课件 高一上学期化学人教版(2019)必修第一册
- 跨学科实践活动5基于碳中和理念设计低碳行动方案(教学课件)九年级化学上册(人教版2024)
- 【MOOC】遥感原理与应用-西北大学 中国大学慕课MOOC答案
- 2.1 电和我们的生活 教案
- 【MOOC】人工智能原理-北京大学 中国大学慕课MOOC答案
- 舞蹈房入股合同模板
评论
0/150
提交评论