(交通信息工程及控制专业论文)SAFQL算法在区域交通控制中的应用研究.pdf_第1页
(交通信息工程及控制专业论文)SAFQL算法在区域交通控制中的应用研究.pdf_第2页
(交通信息工程及控制专业论文)SAFQL算法在区域交通控制中的应用研究.pdf_第3页
(交通信息工程及控制专业论文)SAFQL算法在区域交通控制中的应用研究.pdf_第4页
(交通信息工程及控制专业论文)SAFQL算法在区域交通控制中的应用研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 相对于单路口控制,区域交通控制能够获得整体最优的效果。传统的区域交通控制 方法需要建立整个区域交通系统的模型,但由于城市交通系统是一个典型的非线性、动 态时变的、不确定性的复杂大系统,因此建立其精确的数学模型非常困难。q 学习算法 无需模型且能实现在环境中学习控制策略,适合战略控制,为区域交通控制提供了新思 路。 然而,q 学习算法自身还存在一些问题,如学习速度慢,动作选取中的扩张与探索 之间的平衡问题等。为使q 学习算法更好地应用于区域交通控制,论文主要在以下方面 进行了研究: 1 研究了目前几种常见的q 学习改进算法,分析了它们在解决上述q 学习算法问 题上的不足之处,并针对这些不足,提出了一种新的q 学习改进算法s a f q l 算法。 s a f q l 算法首先将模糊推理系统引入q 学习,利用模糊推理系统能够将先验知识嵌入 到模糊规则的优点,提高学习速度。然后,再引入模拟退火算法的m e t r o p o l i s 准则,通 过算法进行过程中温度等参数的变化来自动调节探索与扩张的比例,从而实现探索和扩 张之间的平衡。 2 研究s a f q l 算法在区域交通控制中的应用,提出一种基于s a f q l 算法的区域 交通控制方法。首先利用s a f q l 算法优化区域的公共周期,然后在给定周期的基础上 再用s a f q l 算法优化区域中各干线相邻两路口的相位差,最后根据交通流量确定各路 口的绿信比。 3 介绍了交通仿真软件t s i s ,用v c + + 6 0 编写r t e 接口程序并利用t s i s 对本文 控制方法、基于q 学习算法的控制方法和基于模糊q 学习算法的控制方法进行了仿真。 仿真结果表明,相比后两种方法,本文方法在提高学习速度和交通效率上都更具优越性。 关键词:区域交通控制;s a f q l 算法;q 学习算法;t s i s 五邑人学硕上学位论文 a b s t r a c t a so p p o s e dt os i n g l ei n t e r s e c t i o nt r a f f i cc o n t r o l ,a r e at r a f f i cc o n t r o lc a r lo b t a i ng l o b a l o p t i m i z a t i o n i nt r a d i t i o n a lm e t h o d so fa r e at r a f f i cc o n t r o l ,i tn e e d s t oe s t a b l i s hm a t h e m a t i c a l m o d e l sf o rt r a f f i cs y s t e m s b u tt r a f f i cs y s t e m sa r et y p i c a ln o n l i n e a r , t i m e - v a r y i n g ,s t o c h a s t i c , c o m p l i c a t e da n dl a r g es c a l es y s t e m s ,s oi f sh a r dt oe s t a b li s hp r e c i s em a t h e m a t i c a lm o d e l sf o r t h e m q l e a m i n ga l g o r i t h mi sn o tn e c e s s a r yt oe s t a b l i s ht h em a t h e m a t i c a lm o d e l sa n dc a n l e a r nt h ep o l i c yi nt h er e a le n v i r o n m e n t ,s oi t sf i tt ob ea p p l i e di na r e at r a f f i cc o n t r o l h o w e v e r ,t h e r ea r es o m es h o r t c o m i n g si nq l e a r n i n ga l g o r i t h m ,g e n e r a l l y ,i t sl e a r n i n g s p e e di sq u i t es l o w ,a n di t sd i f f i c u l tt ob a l a n c eb e t w e e ne x p l o r a t i o na n de x p l o i t a t i o no f a c t i o n s e l e c t i o na n ds oo n i no r d e rt or e s o l v et h e s ei s s u e s ,q - l e a r n i n ga l g o r i t h mi sm o d i f i e di nt h i s t h e s i s t h em a i nc o n t e n t so ft h et h e s i sa r et h ef o l l o w i n gf o u ra s p e c t : 1 s o m ec l a s s i c a lm o d i f i e d q - l e a r n i n ga l g o r i t h m s a r es u m m a r i z e da n dt h e i r s h o r t c o m i n g sa r ed i s c u s s e d ,t h e ns a - f q la l g o r i t h m ,an e w m o d i f i e dq - l e a r n i n ga l g o r i t h mi s p r e s e n t e db a s e dt h e m f o ra c c e l e r a t i n gt h el e a r n i n gp r o c e s s ,t h ep r i o rk n o w l e d g ei se m b e d d e d i n t ot h ef u z z yr u l e si nt h ep r o p o s e da l g o r i t h m t h e v a l u eo ft h ee - g r e e d yp o l i c yi sa 由u s t e d b yc h a n g i n gt h et e m p e r a t u r ei nt h ea l g o r i t h m ,a n dt h e nt h eb a l a n c eb e t w e e ne x p l o r a t i o na n d e x p l o i t a t i o ni sa c h i e v e d 2 an e wo p t i m i z i n gm e t h o df o ra r e at r a f f i cc o n t r o lw h i c hb a s e do ns a - f q la l g o r i t h mi s p r o p o s e d t h ec o m m o nc y c l eo f t h et r a f f i cn e t w o r ki so p t i m i z e db yu s i n gs a f q la l g o r i t h m , a n db a s e do nt h ec o m m o nc y c l et h eo f f s e to fe a c ha r t e r i a li nt h en e t w o r ki so p t i m i z e db y u s i n gt h es a m ea l g o r i t h m f i n a l l y , t h es p l i to fe a c hi n t e r s e c t i o ni sa d j u s t e da c c o r d i n gt oi t s t r a f f i cv o l u m e 3 t h en e wm e t h o di ss i m u l a t e db yt s i ss i m u l a t i o ns o f t w a r e r e s u l t ss h o wt h a l c o m p a r e dw i t ht h em e t h o db a s e do nf u z z yq l e a r n i n ga l g o r i t h ma n dt h em e t h o db a s e do n q l e a r n i n ga l g o r i t h m ,t h ep r o p o s e dm e t h o dc a r ls i g n i f i c a n t l ya c c e l e r a t el e a r n i n ga n di m p r o v e t r a f f i ce f f i c i e n c y k e yw o r d s :a r e at r a f f i cc o n t r o l ;s a - f q la l g o r i t h m ;q - - l e a r n i n ga l g o r i t h m ;t s i s 本人声明 我声明,本论文是自己在导师的指导下独立完成的,论文中用到的一切资料均在参 考文献中列出。 作者:邓军 签名:睁0 2 0 0 9 年6 月3 n 五邑大学硕士学位论文 1 1 课题来源和研究背景 第一章绪论 本课题来源于广东省高等学校自然科学重点研究项目城市区域交通控制信号智能 体优化配时技术研究及实现( 0 5 2 0 2 5 ) 、广东省自然科学基金项目结合流形学习和智能体 强化学习的城市交通控制理论研究( 8 1 5 2 9 0 2 0 0 1 0 0 0 0 1 4 ) 和广东省自然科学基金项目城市 交通流混沌模式的发现和预测( 0 6 0 2 9 813 ) 。 近几十年来,交通需求的迅速发展与交通建设的相对滞后,已在世界范围内构成非 常突出的矛盾,随之而来的交通问题日益引起各国的重视。不论是发达国家还是发展中 国家,都存在交通拥堵、环境污染、交通事故等一系列问题。 在英国一个大约具有1 0 0 个平面交叉口的城市内,每年由于车辆延误所造成的经济 损失达到4 0 0 万英镑:而在东京的2 6 8 个主要平面交叉口中,由于低效率交通流所引起 的经济损失约为2 亿美元每年:在巴黎,每天由于交通拥挤引起的损失时间相当于一个 拥有1 0 万人口的城市的一天工作的时间。根据测算:如果一辆小汽车在7 k m h 和8 8k m h 的速度之间加减速1 0 0 0 次,则比匀速行驶时多消耗燃油6 0 l ,如果是卡车则多消耗燃 油1 4 4 l t l l 。 在发展中国家,如泰国、印度尼西亚、印度、巴基斯坦、中国等,特别是中国和泰 国,由于经济持续高速增长,交通拥堵问题更是突出。调查显示,我国多数城市中行车 速度只能维持在1 0 k m h 至2 0 k m h 左右,有的甚至更低。我国一年因交通拥堵造成的经 济损失约1 7 0 0 亿元人民币。在中国,由交通产生的污染占总的噪声污染的9 0 ,占总 的一氧化碳排放量的6 0 ,占总的氮氧化物排放量的5 0 和占总的碳氢化合物的排放量 的3 0 。在泰国,由于机动车和私人小汽车拥有量迅速增加,市中心的车速急剧下降, 平均只有3 k m h ,有的甚至只有1 2 k m h 。而因交通堵塞,泰国每年的经济损失高达4 0 亿美元【2 ,3 1 。 解决交通供需矛盾,最直接的办法就是加大交通设施建设,增加交通设施的容量。 然而,交通设施建设需要耗费大量的时间、人力和物力,再加上现代城市的土地日益珍 贵,使得这一方法的有效性大打折扣,另外交通设施建设的增长速度也远不及交通需求 的增长速度。以北京市为例,近1 5 年来,北京的汽车保有量每年平均递增率超过1 5 , 五邑大学硕士学位论文 个别年份甚至接近2 0 ,而道路长度和道路面积的年平均增加率仅为1 2 和3 7 1 4 j 。 显然,单纯依靠增加交通设施建设是无法从根本上解决问题。 因此,在解决交通问题中,除了加大交通设施建设外,提高交通控制和管理水平, 合理高效地使用现有交通设施,尽可能充分地发挥其能力,是行之有效的方法。区域交 通控制从整个系统的战略目标出发,根据交通量检测数据,协调区域内各路口的交通信 号配时,能够从整体上调整交通需求,提高通行能力,改善道路交通管理与服务水平, 很有必要对其进行深入地探索研究。 1 2 国内外研究现状 1 理论研究 文献【5 ,6 】将大系统理论引入区域交通控制领域,其思想是将交叉口车辆排队长度取 为状态变量,绿信比为控制变量,把各交叉口间的道路处理为纯延时环节,建立整个交 通网络模型,从而在模型的基础上求得最优控制方案。 然而,交通系统复杂多变,难以建立其准确的数学模型。而且,基于模型的控制算 法计算量巨大,不适合在线控制。智能控制的方法因其具有较强的非线性逼近能力,且 不依赖精确的数学模型,为区域交通控制提供了许多有益的新思想和新方法。 文献【7 提出一种基于人工神经网络的区域交通自适应控n ( s - t r a c ) 方法。该方法 对纽约市曼哈顿中心商业区的9 个路口进行实际仿真,表明算法是有效的。文献【8 在城 市交通干线的协调控制中采用神经网络映射模糊关系,提高了模糊控制器的控制精度。 文献【9 提出了一种基于遗传算法的交通信号配时优化方法,它综合了基于延误模型 和基于带宽模型方法的优点,能够同时对周其长度、绿信比、相位差和相序进行优化。 文献【1o 】充分发挥混沌理论和遗传算法各自的优势,开发了混沌遗传算法,并将其成功 地应用于区域交通计算机控制配时优化。文献【1 1 提出了一种基于改进免疫遗传算法的 城市区域交通自适应协调控制方法。 文献【1 2 1 5 】将强化学 - j 引入交通信号控制,取得不错的效果。文献1 1 6 提出了基于 d y n a q 学习算法的区域交通信号控制方法。文献【l7 将分布式q 学 - 3 算法应用到区域 交通协调控制中,提出了一种适合于区域交通协调控制的奖惩函数和权值函数。文献1 1 8 】 用b p 神经网络实现q 学习算法,利用q 学习算法在线调整周期和相位差。 人工智能理论在不断发展,智能控制方法在交通控制中的应用也在不断探索之中。 2 五邑人学硕上学位论文 特别是在交通控制领域,对强化学习方法的研究才刚刚开始。 2 实际系统 1 9 6 3 年,加拿大多伦多市建立了一套由i b m 6 5 0 型计算机控制的交通信号协调控制 系统。在此之后,美国、英国、澳大利亚、意大利、法国、德国、希腊等国家相继建成 以计算机为核心的区域交通控制系统。区域交通控制系统的发展过程可用表1 1 表示。 表1 1区域交通控制系统的发展过程 应用 系统路口 年份国别系统名称周期检测器 城市特征数 模拟计算 1 9 5 2美国丹佛市机动态控 多 变气压式 制 数字计算 】9 6 3 加拿大多伦多机动态控多变电磁式 制 哥拉斯 1 9 6 8 英国 t r a n s y t 静态控制多变环形线圈 哥 1 9 7 5 美国华盛顿c y r a n o动态控制多变环形线圈 哥拉斯 1 9 8 0 英国 s c o o t 动态控制多变 环形线圈 哥 1 9 8 2澳大利亚悉尼s c a t s动态控制多变环形线圈 s p o t u t o p j 1 9 8 5 意大利都灵动态控制多变环形线圈 a 1 9 8 9法国图卢兹p r o d y n动态控制多变环形线圈 1 9 9 5 德国科隆 m 0 1 1 0 n 动态控制多变环形线圈 1 9 9 6 美国新泽西 o p a c 动态控制多变环形线圈 1 9 9 6 美国凤凰城 r h o d e s 动态控制多变环形线嘲 19 9 7 希腊 c h a n i at u c 动态控制多变环形线陶 五邑大学硕士学位论文 我国对城市交通信号控制系统的研究起步较晚,到7 0 年代才开始。1 9 7 3 年,在北 京应用t r a n s y t 方法进行了线控实验。l9 8 6 年,我国将交通信号控制系统的研发列 入了国家“七五”重点科技攻关项目。1 9 9 0 年以后国内先后有很多企业介入了交通信号 控制系统的研发。但是,国内交通控制公司大多集中在开发交通信号控制器上,比较典 型的有上海交大的m i c t c 型路口信号控制器、南京多伦科技有限公司的d p s 1 6 型交 通信号控制器,青岛海信的s c l 0 0 、s c 2 0 0 系列交通信号控制器,北京亿阳的 e h l s t c 】6 2 0 交通信号控制器,哈尔滨新中新的2 0 0 0 i 交通信号控制器,西北工大的 x a t m v 型智能交通信号控制器等。在实际应用中,上述公司以交通信号控制器为主来 构造交通信号控制系统,大多采用单点定时控制,基本没有干线协调功能,未实现区域 控制功能,局部应用于中小城市;同时我国自主研发的交通信号控制器在可靠性、兼容 性、扩展性、灵活性等方面还有待进一步改进完善。 目前,国内还是以引进和消化国外交通信号控制系统为主。国内3 0 余个大城市全 部是引进国外的交通控制系统,应用情况如下:其中s c o o t 系统在北京、大连、成都、 青岛投入使用,s c a t s 系统在上海、广州、沈阳、宁波、杭州投入使用,长春和郑州引 进的是西班牙的s a n c o 交通控制系统,深圳则使用的是日本的京三系统。但是这些系统 在国内使用存在着不适合我国混合交通流特点、核心技术不公开、不0 6 - 次开发等缺点。 1 3 课题研究的意义 在一个区域或整个城市范围内,一个路口交通信号的调整将会影响相邻路口的交通 流;而相邻路口交通信号的改变也会影响本路口交通状况。因此,从整个系统的战略目 标出发,根据交通量检测数据,在宏观的角度对区域内各路口的交通信号进行协调,能 够取得整体最优的效果。而这种效果是交通信号单点控制所不能获得的。 具体来说,研究有效的区域交通控制方法的意义表现在以下几个方面。 ( 1 ) 减少交通事故,增加交通安全 对交通实施控制可以把发生冲突的车流和行人从时间和空间上分离,从而减少交通 事故的发生。 ( 2 ) 缓和交通拥挤,提高交通效益 合理进行交通控制可以对交通流进行有效的引导和调度,使交通流保持在一种平稳 的运行状态,从而避免或缓和交通拥挤状况,大大提高交通运输的运行效益。 4 五邑大学硕士学位论文 ( 3 ) 降低污染程度,节省能源消耗 实施交通控制可以减少汽车的停车次数,并使车辆在较佳的状态下运行,从而可以 减少尾气污染和能源消耗。 1 4 论文内容及组织 本文内容及组织如下: 第一章介绍本课题的研究背景、研究意义和国内外的研究现状。 第二章概述了区域交通控制理论,阐述了区域交通控制的基本方法和几种经典的 智能控制算法,着重介绍了q 学习算法,并分析了其存在的问题。 第三章研究了目前几种常见的q 学习改进算法。最后,在这些算法的基础上提出 了一种新的q 学习改进算法一s a f q l 算法。 第四章研究s a f q l 算法在区域交通控制中的应用,提出一种基于s a f q l 算法 的区域交通控制方法。 第五章介绍了交通仿真技术的发展、应用和分类,特别介绍了著名的交通仿真软 件t s i s 及其r t e 接口程序的架构,最后对第四章所述的方法进行了仿真实验。 第六章对本文的主要研究工作进行总结,并展望下一步的研究工作。 5 五邑大学硕士学位论文 第二章区域交通控制理论与方法 2 1 区域交通控制概述 区域交通控制系统是将城市或城市的某个区域中的所有交叉口的交通信号作为控 制对象,对整个区域各个交叉口的交通流进行统一的协调控制。区域交通控制系统是随 着交通控制理论的不断发展,通讯、检测、计算机技术在交通控制领域的广泛使用而发 展起来的。早期的区域控制系统着重于对周期、绿信比和相位差等交通信号参数进行最 优控制。现代的交通控制系统则是多种技术的综合体。它包括车辆检测、数据采集与传 输、信息处理与显示、信号控制与优化、电视监视、交通管理与决策等多个组成部分。 区域控制系统可实施城市交通运输的策略、提高现有道路的交通效率、改善道路交通安 全、节省能源消耗、减少环境污染、收集交通数据、提供交通情报、为整个社会提供综 合的经济效益。实践证明,区域交通控制系统是解决城市交通问题的重要措施,它具有 投资少、效率高、见效快且有效面广的优点。 可以从不同角度对现有的区域交通控制系统进行分类。 1 按控制策略分类,区域交通控制系统可以分为定时式脱机操作控制系统和感应式 联机操作控制系统两大类。 ( 1 ) 定时式脱机操作控制系统 这种系统是利用交通流历史及现状统计数据进行脱机优化处理,得出多时段的最优 信号配时方案,存入控制器或控制计算机内,对整个区域交通实施多时段定时控制。定 时控制简单、可靠且效益投资比高,但不能适应交通流的随机变化,特别是当交通流量 发生变化,并与优化计算当时的交通流量差别较大时,控制效果将明显下降。重新制定 优化方案时,做交通调查及进行优化计算将消耗大量的人力。 ( 2 ) 感应式联机操作控制系统 这种系统是一种能够适应交通量变化的自适应控制系统,此系统在控制区域交通网 中设置检测器,实时采集交通数据并实施联机最优控制。自适应控制系统结构复杂、投 资高、对设备可靠性要求高,但能较好地适应交通流的随机变化,对交通流特性变化较 大的城市,将提高控制效益。 6 五邑大学硕士学位论文 2 按控制方式不同,区域控制系统可分为方案选择与方案形成两类。 ( 1 ) 方案选择方式 对应于不同的交通状况,事先做好各类交通控制方案和相应的控制参数并存储在计 算机内,按实时采集的交通流数据,选取最合适的交通控制方案与控制参数,实时动态 交通控制。 ( 2 ) 方案形成方式 根据实时采集的交通流数据,实时计算最佳交通控制参数形成控制方案,实施动态 交通控制。 3 按控制结构不同,区域控制系统可分为集中式与分布式控制结构两类。 ( 1 ) 集中式控制结构 将网络所有信号连接起来,用一台小型计算机对整个系统进行集中控制。其原理、 结构均较简单。其优点是: a 全部控制设备只位于一个中心; b 系统的研制和维护不太复杂; c 所需设备较少,维护容易。 其缺点是,大量数据的集中处理及整个系统的集中控制,需要庞大的通信传输系统 和巨大的存储容量,极大地影响了控制的实时性,并限制了集中控制的区域范围。 ( 2 ) 分层式控制结构 把整个控制系统分成上层控制与下层控制,上层控制主要接受来自下层可知的决策 信息,并对这些决策信息进行整体协调分析,从全系统战略目标考虑修改下层可知的决 策;下层控s u 贝, u 根据修改后的决策方案,再作必要的调整。上层控制主要执行全系统协 调优化的战略任务,下层控制则主要执行个别交叉口合理配时的战术控制任务。这种结 构可以避免集中结构的缺点,且可有降级控制的功能,提高了系统的系统可靠性,但需 增加设备,投资较高。 分层多级控制一般分为三级。 第一级位于交叉口,有信号控制机控制,包括以下功能: a 监视检测器; b 监视设备故障; c 汇总检测器数据: d 把有关交通流和设备性能的数据传送到第二级控制: 7 五邑大学硕上学位论文 e 接受上级下达的指令操作。 第二级位于所控制区域内的一个比较中心的地点,功能包括t a 监视从第一级控制传输来的交通流和设备性能的数据,并将其传输至第二级控制 中心; b 操纵第一级控制,决定要执行的控制类型,选择控制方法并协调第一级控制。 第三级位于城市内的一个合适的中心位置起一种指挥控制中心的作用。此中心可监 视城市内任一信号交叉口的交通,接收、处理有关实时交通流数据,并提供监视、显示 和控制设备。此外,控制中心能接收有关设备故障的情报,以便采取相应的措施。 多级控制的优点是: a 通过数据的预处理和集中传输,能减少传输费用; b 由于系统不依赖于一个中心控制或集中的传输机构,系统具有较高的故障保护能 力,提高了系统的可靠性; c 能实时处理单元的容量较大; d 控制方法和执行能力比较灵活。 多级控制的缺点是: a 需要的设备多,投资高; b 现场设备的维护比较复杂; c 控制程序较复杂; d 需提供更多的控制地点。 在控制模型及算法上,当前的控制系统大部分是在正常交通条件即未饱和的交通条 件下设计的。有的方案以降低延误、行程时间为目标;有的方案以减少停车次数为目标; 有的则以提高路网通行能力为目标等。超饱和交通条件下的控制方案,近年来一直是国 际上的重要研究课题,虽已出现了一些控制模型,但均未付诸实用。 2 2 基本控制方法 2 2 1 定时控制 定时控制是实际交通中可以实现的最基本的控制方式,也是使用最广泛的一种控制 方式,它可以根据不同的日期类型以及一天中不同时间段内交通流的不同特点,制定一 五邑大学硕士学位论文 种或几种信号控制方案,预先安装在信号控制机内,由系统时钟按设定的时间表进行控 制。在定时控制中,所有控制参数均是根据交叉路口一定时问的交通流量数据预先确定。 信号控制中,一天只能执行一种配时方案的称为单时段定时控制:一天按不同时段的交 通流执行不同配时方案的称为多时段定时控制。这种控制方式比较适合于交通流比较稳 定的交通路段,具有造价低、易于实现等优点,其主要缺点是它不能适应交通流的随机 变化,只要信号参数一旦确定,就不会随着交通流的变化而调整,因此它不能满足实际 交通需求。 2 2 2 感应控制 感应控制的基本原理是首先检测某车道是否有车辆到达,然后再决定是否给该车道 开绿灯。 感应控制从实施方式来看可以分为两种,一种是半感应控制,即在交叉口处将检测 器安装在次干道上,根据次干道的交通需求进行信号控制;另一种是全感应控制,即在 交叉口的所有入口道上均安装检测器,根据所有入口道的交通需求进行信号控制。 1 半感应控制 半感应控制是在交叉口的次干道的两个入口道上安装车辆检测器,并使用两相位信 号进行控制。主干道上没有安装车辆检测器,因此,主干道通行的信号相称为非感应相, 而次干道通行的信号相称为感应相。半感应控制在工作时,主干道信号灯总维持绿灯信 号,次干道总是红灯,只有次干道能检测到车辆到来时,其灯色才可能转换为绿色。 非感应信号相通常要设置最小绿时,以免绿时太短发生交通事故。当次干道检测到 有车辆到达时,必须等到主干道的最小绿时结束,才能把绿灯信号转移到次干道。因此, 次干道要获得绿灯信号必须具备两个条件:检测器检测到车辆达到:主干道最小绿时已 经结束。 感应信号相要设置初始绿时、单位绿延时和最大绿时。当次干道获得通行权时,信 号机首先给该信号相一个初始绿时,使已经到达的车辆通过交叉口。如果此后再无车辆 到达,初始绿时一结束,通行权又转移到主干道;如果在初始绿时内检测到车辆到达, 则次干道绿灯将延长一个单位绿时;如果在此时间内又有车辆到达,就再延长一个单位 绿时,直到累计时间达到最大绿时。此后,即使次干道检测到车辆到达,其绿时也必须 结束,通行权转移给主干道。 9 五邑大学硕士学位论文 半感应控制的信号配时比较简单,不需要进行复杂的计算,只要恰当地确定主干道 最小绿时、次干道的初始绿时、单位绿延时和最大绿时即可。半感应控制的信号周期不 再是固定不变的,它是随感应相次干道车辆的到达情况而变化的。 2 全感应控制 全感应控制在交叉口各入口道上均安装了车辆检测器,各信号相的绿灯时间由车辆 检测器实时测得的各入口道上的交通需求来确定。因此全感应控制没有非感应相,这是 与半感应控制的主要区别。与半感应控制的感应相类似,全感应控制的每一信号相位均 要设置初始绿时、单位绿延时和最大绿时等参数。 2 3 智能控制方法 由于交通控制系统的非线性、模糊性和不确定性使得传统的建模和控制方法难以奏 效。近年来,随着计算机的广泛应用人工智能研究取得了极大的进展,为交通控制提供 了新的思路。针对传统交通控制系统的固有缺陷和局限性,许多学者把人工智能中的模 糊控制、人工神经网络、进化算法和q 学习算法等实用技术应用到交通领域。 2 3 1 模糊控制 1 9 6 5 年,美国加州大学伯克莱分校的l a z a d e h 教授发表了关于模糊集的开创性 论文【】9 】,从而奠定了模糊数学的基础。近4 0 年来,模糊理论及其应用的发展非常迅速。 目前,模糊理论已在自动控制、人工智能、图像识别、管理科学、气象预报等领域得到 了广泛应用。 模糊控制是模糊理论在控制领域中的应用,其核心是用语言描述的控制规则。人的 手动控制策略是通过操作者的学习、试验以及长期经验积累而形成的,它可通过人的自 然语言加以描述,如:若炉温偏高,则减少燃料;若水槽液位偏低,则加大进水流量; 若路口某方向车辆排队较长,则加长绿时等等。显然,它属于一种语言控制。由于自然 语言具有模糊性,故这种语言控制就称为模糊控制。 为了实现模糊控制,需要将操作者或专家的控制经验和知识表示成语言变量描述的 控制规则,然后用这些规则去控制系统,这就是模糊控制器。模糊控制器的工作过程如 下:根据由精确量转化来的模糊输入信息,按照手动控制策略获得的语言控制规则进行 模糊推理,给出模糊输出判决,并再将其转化为精确量,馈送到被控对象。设计一个模 1 0 五邑大学硕士学位论文 糊控制器必须解决以下三个问题: 1 输入量、输出量的模糊化; 2 建立模糊控制规则或模糊控制表; 3 输出信息的模糊判决。 模糊控制应用于交通控制,其一般结构如图2 1 所示。 设 图2 1 模糊控制方框图 量 模糊控制需要将经验知识描述出来,构成知识库以便进行推理,然而区域交通控制 是一个复杂的大系统,相互影响的因素很多,很难用一些定性的知识对此进行描述。因 此,将模糊控制技术比较适合于单路口信号控制,而用于线控或面控比较困难。 2 3 2 人工神经网络 人工神经网络是通过对人脑的基本单元神经元的建模和联结,来探索模拟人脑神经 系统功能的类似生物脑或世界系统的网络模型,并研制一种具有学习、联想、记忆和模 式识别等智能信息功能的人工系统。在人工智能技术中,人工神经网络技术试图以一定 的程度和方式模拟人脑的细胞结构、神经结构和思维特征来获得近似于人类的思维能 力,从而便于从海量的数据中提取有用的知识和处理很难用常规数学方法表达的信息处 理过程。 人工神经网络解决问题的方式与传统的统计方法完全不同,它是模拟人脑的思维, 把大量的神经元连成一个复杂的网络,利用已知样本对网络进行训练,即类似于人脑的 学习;让网络存储变量间的非线性关系,即类似于人脑的记忆功能:然后利用存储的网 络信息对未知样本进行分类或预测,即类似于人脑的联想功能。 人工神经网络是一种智能化的数据处理方法,其优越性主要表现在以下几个方面: 1 人工神经网络具有大规模的并行处理和分布式的信息存储能力,这特别适于实时 五邑大学硕士学位论文 控制和动态控制; 2 人工神经网络具有固有的近似任意非线性映射能力,适于解决非线性问题; 3 人工神经网络具有比较强的自学习能力,能够解决那些由数学模型或描述规则难 以处理的控制过程问题; 4 人工神经网络具有良好的容错性与联想记忆功能; 5 人工神经网络具有高速寻找优化解的能力。 在交通控制领域中,可单纯使用人工神经网络进行建模、学习和控制,也可以将其 与其他方法结合。应用神经网络的效果完全取决于其泛化能力,这就要求训练神经网络 的学习样本具有遍历性且学习过程能够收敛到全局极值点,这在实际中往往是比较困难 的。因此神经网络在交通信号控制中能够真正实用化还需要神经网络理论的进一步发 展。 2 3 3 遗传算法 遗传算法是一类自组织、自适应、全局搜索和群体型的人工智能技术。它来源于自 然界的生物遗传,优胜劣汰和适者生存的物种进化过程,其基本原理是由j h h o l l a n d 于1 9 6 2 年首先提, m , f 2 0 j ,其主要特点是群体搜索策略和群体中的个体之间的信息交换, 搜索不依赖于梯度信息,模拟自然界生物群体进化过程来进行基于群体搜索的随机优化 方法。遗传算法以一种群体中的所有个体为对象,并利用随机技术指导对一个被编码的 参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编 码、初始群体的设定、适应度函数的设计、遗传操作设计和控制参数设定等5 个要素组 成了遗传算法的核心内容。 遗传算法将问题的求解表示成“染色体”,一般用二进制码串表示,解的特定集合 称为“种群”,解中的变量称为“基因”。将种群置于问题的“环境”中,根据适者生存 的原则,从中选择出适应环境的“染色体”进行复制,通过交叉和变异两种基因操作产 生出新一代更适应环境的“染色体”群,这样一代代不断地进化,最后收敛到一个最适 应环境的个体上,从而求得问题的最优解。遗传算法具有以下优点: 1 遗传算法以决策变量的编码作为运算对象,对解决一些只有代码概念的优化问题 具有独特的优越性: 2 遗传算法直接以目标函数值确定搜索方向,可有效缩小搜索范围,从而提高搜索 1 2 五邑大学硕士学位论文 效率; 3 遗传算法从由很多个体所组成的一个初始群体开始最优解的搜索过程,同时使用 多个搜索点的搜索信息进行搜索,减少了陷入局部最优解的风险,同时算法易于实现并 行化; 4 遗传算法使用概率搜索技术,能更有力地保证算法收敛于问题的最优解。 当问题规模较大时,遗传算法收敛到极值点所耗费的时间较长,不利于区域交通控 制的在线优化:另外,收敛速度对算法中参数的选择比较敏感,而参数的选择又与所解 决的问题有关。上述问题限制了遗传算法在区域交通控制中的应用。 2 3 4q 学习算法 q 学习算法是由w a t k i n s 2 1j 在1 9 8 9 年提出的一种基于无模型的强化学习算法,它也 可以被看作为一种异步动态规划方法。q 学习算法不用建立环境模型,它通过遍历所有 可执行动作赋予智能体在马尔可夫环境中学习最优策略的能力。 q 学习算法的学习过程如下:智能体在某一确定状态下执行某一动作,评估执行这 一动作后获得的立即奖赏或惩罚以及后续状态的估计值,即q 值;重复执行所有状态下 的所有可执行动作,得到每一种策略的长期折扣回报,比较各策略的回报就可以评判出 最优策略。q 值具体定义如下: q ( s ,口) = e ,- + r m a x q ( s , 口) ) ( 2 - 1 ) 口e 月 其中,e 为求期望,为状态j 下执行动作口后的立即回报,为折扣系数,工。为执 行动作a 后的状态,a 。为后续动作,a 为动作集。 在q 学习算法中,智能体对所有动作的遍历是由一个称作为幕( e p i s o d e ) 的序列组成。 在第胛幕,智能体重复执行以下步骤: s t e p l :观测当前状态j 。; s t e p 2 :选择并执行一个动作a 。; s t e p 3 :观测下一状态y 。: s t e p 4 :获得立即回报0 ; s t e p s :按照式2 - 2 更新9 值: 1 3 晰) = 眷o 卜k 帆- l j 1 甜屯肌叫 ( 2 - 2 ) 其中, 匕一。( y ) 量m 邳 q 川( y ,6 ) ) ( 2 - 3 ) 在文献 2 2 1 q b ,w a t k i n s 和p e t e rd a y a n 证明了q 学习的收敛性,并指出q 学习在下 列条件下收敛: 1 环境是m a r k o v 过程; 2 用l o o k u p 表来表示q 函数; 3 对所有状态下的所有动作可多次重复实验; 4 学习速率的正确选择。 学习速率口应满足如下条件: 0 口1 口。( s ,a ) = o o ( 2 - 4 ) ,= l 【( 印) 】2 - - j 算法用l o o k u p 表存储q 值,当状态动作空间非常大时,存储q 值 所花费的空间和遍历所有状态动作对所花费的时间都将变得难以接受,既维数灾难问 题。b p 神经网络能够实现一个任意复杂非线性的输入到输出的映射功能且具有较强的 泛化能力,因此如果采用b p 神经网络来实现q 学习算法则能很好地解决这个问题。 用b p 神经网络实现q 学习算法,其原理是利用b p 神经网络来逼近状态- 动作对到 q 值的映射函数。具体做法为q 学习算法的每个动作对应一个b p 神经网络,每个网络 的输入为经过量化的环境状态矢量,输出为对应动作的q 值,误差信号定义为式: a q ( s ,a ) = a r + y m a x q ( s , a 。) 一q ( s ,口) ( 3 - 1 ) 口e 月 通过调整网络的权值使误差尽可能小,从而得到最优策略的q 值。算法结构如图3 2 所 示。 图3 - 2 基于b p 神经网络的q 学习算法结构 具体算法步骤如下: s t e p l :初始化b p 神经网络; s t e p 2 :初始化q 值; s t e p 3 :观测当前状态s : 1 6 五邑大学硕士学位论文 s t e p 4 :将s 输a nb p 神经网络,输出对应的q 值; s t e p 5 :按照策略选择一个动作口; s t e p 6 :执行动作a ,观察下一个状态s 。,得到立即回报,; s t e p 7 :用下面式3 - 2 计算误差: a q ( s ,a ) = a i r + y m a x q ( j ,c l ) 一q ( s ,口) 口e 月 ( 3 2 ) s t e p 8 :如果a q 万,结束,否则,转至u s t e p 8 ; s t e p 9 :利用误差调整神经网络权值: s t e p l 0 :s y n a 算法【2 4 】是一种基于模型的强化学习算法。当系统模型已知时,强化学习f q 题 转变为规划问题。因此,智能体每次试错所获得的经验知识( 墨,a ,s 川,) ,既可以直接 被用来进行优化策略的学习,也可以被用来进行模型的估计,然后从估计的模型中规划 动作。 d y n a 算法建立的模型是一个( s t , a ,s 川,。) 的记录,包括当前状态信息,当前状态 所采取的动作信息,执行动作后的后续状态信息,预期回报信息等。与q 学习算法一样, l :b , n a 算法也是用值函数q ( s ,a ) 表示状态动作对的估计值,不同的是,它通过对转移概 率p 和奖赏函数r 进行建模来计算q 值。p 和r 的建模分别用p 。和尺。进行表达。在和 环境交互中的每一步,d y n a 用一个四元组( j ,a ,s ,+ ,) 表示一组经验,即在状态s ,下执 行动作a ,获得一个回报值,然后状态转移到一个新的状态s ,+ 。d y n a 算法同时利用 这些经验来对q 值进行估计以及建立模型,通过q 值的迭代,模型越来越精确,而q 值也越来越精确。q 值按照式3 3 进行更新: 1 7 五邑大学硕士学位论文 o k ( s t , a t ) = r 。( s t , a t ) + ,p ( s ,口 ) 学幺 + l ,6 ) ( 3 - 3 ) d y n a 算法结构主要包含四个组成部分:值函数,策略,环境,模型。值函数是强 化学习的值函数,策略是基于值函数所采取的动作集,环境是智能体所要完成的任务, 模型是环境的模拟。d y n a 算法的框架结构如图3 3 所示。 3 2 2d y n a - q 学习算法 图3 - 3d y n a 算法结构 q 学习算法是基于无模型的强化学习算法,在真实环境中需花费大量的实验步骤来 保证收敛性。而d y n a 算法则利用经验知识和对环境的交互过程信息进行建模,然后在 此基础上开发策略,从而减少在真实环境中进行实验所需的大量花费。因此将d y n a 算 法与q 学习算法结合能有效提高q 学习算法的收敛速度。 d y n a o 学习算法1 2 5 与其他基于模型的强化学习算法不同的地方是其建立的模型是 一个典型的基于模型的算法。它与s a r s a 学习算法【2 3 1 不同在于:s a r s a 学习算法中模型是 隐含在当前q 函数中;而d y n a - q 学习算法明确地学习系统的模型,其主要目的在于充 分利用每次学习经验中获取的知识,从而解决q 学习算法迭代速度慢的问题。 在d y n a - q 学习算法中,智能体通过三步学习优化策略,首先智能体使用学习经验 来建立环境模型,其次是用经验调节策略,最后使用模型来调节策略,具体算法步骤如 下: s t e p l :初始化q 值; 五邑火学硕士学位论文 s t e p 2 :观察当前状态s ,根据模型的动作选择策略选择动作口,; s t e p 3 :执行动作,观察下一状态5 ,+ 1 和回报值+ 1 ; s t e p 4 :利用q 学习算法来经历( s ,c ,s ,+ l ,+ 1 ) ; s t e p 5 :更新基于( s ,口,s + l ,l + 1 ) 的环境模型; s t e p 6 :将s t e p 6 至s t e p 8 重复执行k 次; s t e p 7 :选择一个设想的状态s ,和动作a ,; s t e p 8 :把状态j ,和动作q 作用于环境模型,得到下一状态_ + 1 和回报值+ 。的预测 值; s t e p 9 :应用q 学习算法学习到设想的过程( s ,a ,s 川,) ; s t e p l 0 :返回到s t e p 2 继续,直到q 值收敛。 d y n a - q 算法建立的模型是一种确定性模型,这就意味着d y n a q 算法模型的鲁棒性 比其他随机模型要差。 3 3f q l 算法 3 3 1 模糊推理系统 模糊推理系统是建立在模糊集合理论、模糊i f - t h e n 规则和模糊推理等概念基础上的 先进的计算框架,是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论