无人驾驶技术原理及应用 课件 第7章 智能决策方法_第1页
无人驾驶技术原理及应用 课件 第7章 智能决策方法_第2页
无人驾驶技术原理及应用 课件 第7章 智能决策方法_第3页
无人驾驶技术原理及应用 课件 第7章 智能决策方法_第4页
无人驾驶技术原理及应用 课件 第7章 智能决策方法_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7.1自主决策系统的体系结构与分析目录1自主决策技术概述2自主决策系统的体系结构3全局路径规划4行为决策5运动规划无人驾驶车的自主决策系统扮演驾驶员“大脑”的角色,通过对任务信息、地图信息、周围环境的感知信息、车辆位姿信息、以及车辆状态信息进行融合、分析,由无人车自主决策系统决策本车行为,并通过控制方向、车速达到预期目的。在实际环境中,由于驾驶场景复杂多变,无法采用一个标准、统一的决策模型进行描述。1.自主决策技术概述无人驾驶车总体架构无人驾驶车要想实现自主驾驶,通过环境建模可以知道自身的位置,即“在哪儿”;通过人为设定可以获知目的地,即“去哪儿”,而最关键的第三个问题“怎么去”,则必须通过无人驾驶决策和控制技术来回答。让无人车自己从某一点无碰撞的到达另一个点,实质上就是一个路径规划和跟踪问题。因此,有研究者将无人驾驶决策问题称为路径规划问题,其目标就是如何规划路径,使无人车到达设定的目标点,并在整个过程中保证安全性、实时性与自适应性。根据规划的范围分为全局性的路径规划和局部性的路径规划两类:1.基于环境信息已知的全局路径规划;2.环境不确定、依赖于传感器实时信息的局部路径规划。全局路径规划又称为一次路径规划、静态规划、或路由寻径等。局部路径规划又称为二次路径规划、动态规划,通常包含了行为决策和运动规划两个子模块。2.自主决策系统的体系结构按照驾驶员在驾驶过程中的思维,无人驾驶自主决策系统模仿驾驶员的思维决策过程,先通过先验驾驶地图与关键点路网文件进行全局路径规划,搜索出到达目的地的全局最优行驶路线;再结合实时感知的路况信息,进行局部路径规划,从而保证车辆安全的行驶到达目的地。即无人驾驶车的整体决策方案采用递阶式的体系架构,遵循从全局到局部的逻辑,将自主决策系统分为:全局路径规划子模块、行为决策子模块、运动规划子模块。全局路径规划行为决策运动规划2.自主决策系统的体系结构自主决策系统的体系结构2.自主决策系统的体系结构决策系统的输入信息有:1)任务信息和先验地图信息:用于全局路径规划。2)车辆位姿信息:通过GPS/INS装置、轮速计等得到,GPS信号良好情况下可实现精确定位,失去GPS信号情况下可大致定位。3)实时局部环境信息:感知系统基于相机、激光雷达等传感设备,生成二维栅格地图,其分辨率可达到0.1米。4)车辆状态信息:由控制执行模块反馈得到。2.自主决策系统的体系结构

全局路径规划:根据用户的驾驶任务,基于地图数据信息和自身定位信息,在己知的路网文件中搜索出到达目的地的全局最优行驶路线,并将结果传递给行为决策模块。行为决策:通过全局路径规划子模块获取全局最优行驶路线;根据环境感知系统发来的当前实时道路环境信息,基于道路交通规则和驾驶经验,决策出合理的驾驶行为;将该驾驶行为指令发送给运动规划子系统。简而言之,行为决策主要解决的无人车目标状态问题,比如ACC,换道、超车、轨迹保持、避障、停障等。运动规划:根据驾驶行为指令和当前的局部环境感知信息,基于安全性、平稳性等指标规划出一条可行驶轨迹,并发送至控制执行系统。简而言之,运动规划解决的是无人车处于目标状态中具体的运动规划,比如在换道状态中生成新的局部路径、避障状态中生成新的避障轨迹等。2.自主决策系统的体系结构全局路径规划根据收到的来自用户的驾驶任务,基于地图数据信息和自身定位信息,在己知的路网文件中搜索出到达目的地的全局最优行驶路线,并将结果传递给行为决策,如下图所示。同时,全局路径规划还需要根据GPS定位信息,实时检测既定路线行驶情况,判断是否到达目的地;或者当前路线出现阻断时,及时进行路线重规划,以便继续完成行驶任务。全局最优路径的选择问题一般是在固定环境下的一个静态搜索问题,实际工程应用中常采用启发式搜索算法,例如:Dijkstra算法或者A*算法。3.全局路径规划全局路径规划示意图4.行为决策行为决策:通过全局路径规划子模块获取全局最优行驶路线;根据环境感知系统发来的当前实时道路环境信息,基于道路交通规则和驾驶经验,决策出合理的驾驶行为;将该驾驶行为指令发送给运动规划子系统。行为决策模块依据全局最优行驶路线信息,基于对当前交通场景和环境感知信息的理解,首先确定自身的驾驶状态;并基于驾驶规则知识库,推理决策出合理的驾驶行为,即无人车目标状态问题,如ACC、换道、超车、轨迹保持、避障、停障等;并将该驾驶行为转化为相应的接口指令,向下传递给运动规划模块,如下图所示。行为决策示意图4.行为决策5.运动规划运动规划:根据驾驶行为指令和当前的局部环境感知信息,基于安全性、平稳性等指标规划出一条可行驶轨迹,并发送至控制执行系统。即运动规划解决的是无人车处于目标状态中具体的运动规划,比如在换道状态中生成新的局部路径、避障状态中生成新的避障轨迹等。运动规划层是自主决策系统和控制执行系统之间的接口,其主要负责将行为指令转化为期望的路径点序列和期望速度,并发送给控制执行系统。具体说来,运动规划层根据上层决策结果、局部动态环境信息和自身位姿信息,在考虑车辆运动学和动力学约束的条件下生成一组轨迹序列,再依据安全性、舒适性和时效性等的评价函数,挑选出一条最优的可行驶轨迹,并将其发送给控制执行系统,同时行为的执行情况还会被反馈给行为决策层,如下图所示。运动规划示意图5.运动规划人因为梦想而伟大,祝你早日达到自己的目标。策划:刘元盛部门:小旋风智能车团队您的公司名称YOURCONPANYNAMELOGO谢谢张军7.2全局路径规划1全局路径规划与局部路径规划的关系2全局路径规划的方法3全局路径生成实例目录全局路径规划是在环境信息已知的条件下,一次性完成的,又称为一次路径规划,或静态规划、路由寻径等;局部路径规划是基于全局路径规划的结果、根据实时周边信息进行的规划,因此也称为二次路径规划或动态规划。局部路径规划以全局路径规划的结果作为基础,根据实时的环境信息对原有的路径进行局部修正和优化,从而达到对安全性的约束和对效率的追求。全局路径规划与局部路径规划的关系:全局对局部起导向和约束作用,局部是对全局的具体优化与调整。1.全局路径规划与局部路径规划的关系2.全局路径规划的方法全局路径规划常见的算法包括基于图搜索的算法、基于曲线拟合的算法、基于数值优化的算法等。基于图搜索的算法比较典型的代表包括Dijkstra算法(迪杰斯特拉算法)和A*算法。Dijkstra算法的时间、空间复杂程度都较高,本质上是一种发散式的广度优先搜索策略方法;A*算法是一种启发式算法,也可认为是一种深度优先的算法。

Dijkstra算法是由E.W.Dijkstra于1959年提出,又叫迪杰斯特拉算法,是目前较为简单并且应用较多的求解全局最优路径的方法。算法主要解决网络中的一个节点到其他节点的最优路径。在到达终点的过程中,每一次选择下一个的顶点为距离当前点最近的一个节点。优点:核心算法简单,容易理解,对所有的路网信息都适用,适用性较强,保证能找到一条从初始点到目标点的最短路径;缺点:需要遍历完所有的节点才能获得最短路径。

2.全局路径规划的方法算法思路:1.指定一个节点,例如我们要计算‘A’到其他节点的最短路径;2.引入两个集合(S、U),S集合包含已求出的最短路径的点(以及相应的最短长度),U集合包含未求出最短路径的点(以及A到该点的路径,注意,A->C由于没有直接相连,初始时为∞);3.初始化两个集合,S集合初始时只有当前要计算的节点,A->A=0,U集合初始时为A->B=4,A->C=∞,A->D=2,A->E=∞;4.从U集合中找出路径最短的点,加入S集合,例如A->D=2;5.更新U集合路径,if(‘D到B,C,E的距离’+‘AD距离’<‘A到B,C,E的距离’)则更新U;6.循环执行4、5两步骤,直至遍历结束,得到A到其他节点的最短路径。2.全局路径规划的方法Dijkstra算法主要解决的是节点之间带有权重的最短路径问题。例如,对于下图这样一个有权图,Dijkstra算法可以计算任意节点到其他节点的最短路径。2.全局路径规划的方法A*算法在Dijkstra算法的基础上加入了启发式策略从而提高搜索效率,其主要改进在于利用启发式函数来决定每个节点搜索的权重。传统A*算法通过定义启发式函数来评估代价,选择其中代价最小的栅格,不断迭代而确定最优路径。启发式函数为:f(n)=g(n)+h(n)式中:n为当前节点;f(n)为从起始点经过当前节点n到达目标点的最优代价解的估计代价;g(n)为起始点到当前节点n的实际估价值;h(n)为当前节点n到目标点的需要付出的估价值。利用A*算法得到的最优路径A*算法原理:设置一个合适的启发式函数,全面评估各扩展搜索节点的估价值,通过比较各扩展节点的估价值,选取代价最小节点加以扩展,直至到达目标点。实际上,对于大范围的场景,A*算法的空间和时间复杂度过高。因此在复杂的无人驾驶场景中,A*算法更适合于在已知的局部环境中搜索最短路径。2.全局路径规划的方法以国家自然科学基金委员会每年在常熟举办的中国智能车未来挑战赛为例。比赛以给定路网文件、在指定区域设定特定任务的方式对无人驾驶车辆进行道路测试,着重考察无人驾驶车辆的交通场景识别能力、不同道路环境的适应性和行驶机动性等4S性能(即安全性Safety、平顺性Smoothness、敏捷性Sharpness和智能性Smartness)。比赛一般包括真实道路环境测试(含城乡道路和高架快速道路测试)和复杂环境认知水平能力离线测试两部分。真实道路环境测试的比赛任务以任务文件形式提供,任务文件为一组包含GPS坐标的任务点列表,要求参赛车辆完全自主地从起点出发,依次通过各个任务点,到达终点。任务点通常包括遵守交通信号、礼让行人、避让作业车辆、施工占道场景下的避让通行等。无人驾驶车必须同时具备全局和局部规划的能力,才能完成比赛任务。无人车通过先验驾驶地图与关键点路网文件、结合全局路径规划算法产生全局最优路径,再结合实时感知的道路环境信息进行局部路径规划,从而完成各指定任务。3.全局路径生成实例(1).驾驶地图驾驶员在驾车时利用自己大脑中已建立的先验地图知识作为依据,进行道路的选取以及具体路径的确定。无人车驾驶也借鉴这一原理,拥有自己的先验地图知识,让车自己认识路,从而进行自主驾驶。这种先验地图知识的表现形式就是驾驶地图。驾驶地图要具有与普通电子地图相同的特性,指明可行驶的道路,但不同的是,驾驶地图的精度更高,而且还应该包括尽可能多的有用信息,比如道路特征、交通灯、静态障碍物、上下坡、拱桥、匝道等信息。驾驶地图需要有表征道路特性的属性,用以辅助决策层对车辆进行决策控制。道路特性具体指的就是这段路固有的属性,比如这条路是直道还是弯道。对于车辆的控制,无外乎横向控制和纵向控制。横向控制就是方向控制,纵向控制也就代表着速度控制。驾驶地图的路线是方向控制的依据,驾驶地图的道路特性值是速度控制的重要参照。因此驾驶地图应该要包括这两部分:路线图和道路特性值。3.全局路径生成实例北京联合大学北苑校区操场采集路线图一系列经纬度点连接成路段,一系列路段拼接成路线图。驾驶地图的路线图就是由众多经纬度点组成。点的延伸趋势就是车辆转角控制的关键依据。右图是经纬度点构成的一张简单的北京联合大学北苑校区操场的路线图。红色曲线就是围绕操场一圈的轨迹图。3.全局路径生成实例驾驶地图应该包含道路特性值。道路特性值的初步划分主要是以道路弯曲程度和道路上对速度控制有影响的因素作为划分依据。小曲率弯道时,车速可以很快,大曲率弯道时,则车速应该适当降低。车速的快慢与道路的弯曲程度紧密关联,因此道路特性值的标注有利于决策程序对车速进行智能控制。当无人车行驶过程中遇到红绿灯时,检测道路特性值是203,表明此时车的位置接近于红绿灯,可以通知图像模块进行红绿灯的识别,具体的道路属性划分如右表所示。道路特性值属性200直道201小曲率弯道202大曲率弯道203有红绿灯路口204无红绿灯路口205U字掉头206施工路段207隧道208侧方停车209拱桥210上坡211下坡导航采集地图集数据属性表3.全局路径生成实例(2).驾驶地图数据集构建右图展示的就是建立的一张在江苏常熟九宫格地区的地图数据集。这个地图数据集就是利用精密的差分GPS导航设备采集的经纬度路线的地图数据。该区域中,总共有108个路口特征、40个路段特征。采集时,通过驾驶员驾驶带有GPS设备的车辆在九宫格区域反复兜圈,确保途经所有的路段和路口,所有的直行、转弯、调头被采集到。在车辆行驶过程中,采集人员需要利用地图采集程序记录下途经点的经纬度、航向角等实时信息,并手工设置道路的属性。中国智能车未来挑战赛九宫格地区地图数据集3.全局路径生成实例3.全局路径生成实例地图存储时主要有两种方案。对于区域范围较小的地区,将地图数据可保存在txt文本文件中,对于区域范围较大的地区,则可将地图数据保存在Access数据库中。对于采集到的原始数据集,需要通过地图处理软件进行路段与路口的分割,对于漏采的情况需要进行路径拟合或者重新采集。地图集处理完,还需要进行实车验证是否可用;如不可用,则还需修改或重新采集。通过整个一个流程,才能构建一个属于无人车的高精度驾驶地图。另外,驾驶地图为无人车构建了一张静态地图,而车辆行驶时还需要一张以驾驶地图为底图的动态地图,一般采用栅格地图,用于局部路径规划。表1

路点属性1对照表属性值类型0起点1交叉口入点2交叉口出点3普通路点4进入停车区5驶出停车区6停车位位置7终点停车表2路点属性2对照表属性值含义0行驶方向和交通标志均未知1直行2右转3左转4掉头5有交通标志(3).路网文件路网文件(RoadNetworkDefinitionFile,RNDF)定义无人车可以访问的道路信息,可采用点、线、面相结合的方式。点包括路点(指道路上带有经纬度信息的点)和检测点(无人车完成指定任务必须经过的特殊路点);线的信息包括标志线的宽度、颜色、条数、道路宽度和车道数;面的信息包括特定区域(如自主泊车区域等)。每一个点的具体信息除了包括经纬度、高度信息,还包括属性1和属性2。属性1用于提供该点的类型,具体的类型对照表1。属性2用于提供该路口行驶方向或有无交通标志,具体的规定如表2。3.全局路径生成实例图2014年中国智能车未来挑战赛九宫格的全局路径规划结果(4).全局路径形成根据路网文件中给出的关键点的经纬度,利用简单的匹配算法去搜索关键点所在的路段,根据关键点的行为属性和方向属性确定路段的连接顺序和走向,进而拼接组合,形成官方指定的比赛路线,产生全局路径。简而言之,根据官方给定的路网文件并结合驾驶地图数据集,并可利用简单的路径规划算法,生成全局最优路径。3.全局路径生成实例人因为梦想而伟大,祝你早日达到自己的目标。策划:刘元盛部门:小旋风智能车团队您的公司名称YOURCONPANYNAMELOGO谢谢7.3基于规则的行为决策张军1.行为决策子系统设计准则2.无人驾驶行为决策方法分类3.基于有限状态机的行为决策算法4.基于有限状态机的行为决策算法的局限性

目录行为决策行为决策示意图

1.行为决策子系统设计准则无人驾驶车辆为了能实现各种交通场景下的正常行驶,行为决策子系统需要符合以下准则。(1)合理性行为决策系统的合理性是一个比较难以界定的概念,对于驾驶行为是否合理很难有一个统一的评判标准,这里以交通规则和驾驶经验为基础,作为驾驶行为合理性的评判标准。主要考虑:右侧通行:在道路上行驶时,无人驾驶车辆应遵循右侧通行原则;车道保持:在结构化道路条件下,除了执行转弯、超车、避障以及U-Turn等动作外,无人驾驶车辆不能离开车道,并应该保持在车道内行驶;速度限制:在正常行驶状态下,无人驾驶车辆一般应该在最大和最小车速限制范围之内行驶,其中最大速度和最小车速的限定是为了确保安全,同时也为了保证交通顺畅而设定的;

1.行为决策子系统设计准则防碰撞:无人驾驶车辆在道路上行驶时,应当具有避障能力,所采取的措施包括减速、转向、停车等动作。无人驾驶车辆必须持续监控道路环境、前方车辆和障碍物,并通过转向、减速等保护性驾驶等方式避免碰撞的发生。特别是在紧急或意外情况下,能够实现紧急制动;换道行驶:在发现前方有车辆的前提下,无人驾驶车辆可以执行换道行驶操作。在换道行驶之前,无人驾驶车辆需检测交通状况,而且要求在安全距离范围内改变车道,超车完毕后,返回到原车道行驶;U-Turn:无人驾驶车辆应该能够在具有一定长度和宽度的区域范围内执行U-Turn。但是,在交叉路口的安全区域或单行线车道内均不能执行U-Turn。(2)实时性针对复杂的动态交通场景,行为决策系统必须能实时地针对外部环境的变化作出相应决策上的改变。无人驾驶车的体积较为庞大,是普通机器人的几倍;无人驾驶车的行驶环境与一般机器人的应用环境是存在较多不同点:a)车辆的行驶速度较高,不是一般的机器人所能比拟的;b)面对的环境是复杂多变的,既有随意行走的行人,又有形状大小各异的动静态车辆、障碍物等;c)必须要遵守交管部门制定的严格的交通规则,如不能越线,不能逆向行驶等。这几点重要的区别促使无人驾驶对实时性提出了更高的要求。1.行为决策子系统设计准则2.无人驾驶行为决策方法分类行为决策系统决定了无人车行驶的安全性与合理性,提高行为决策系统的智能化水平一直以来都是无人驾驶领域的研究重点和难点。与高速公路等交通环境相比,城区交通环境具有高度的复杂性和不确定性:复杂性主要体现在道路拓扑结构的复杂性、道路元素和交通参与者类型的多样性、交通参与者之间以及交通参与者与道路元素之间交互的复杂性;不确定性主要体现在感知信息的不确定性、他车运动状态的难以预测性等。由于这些复杂性和不确定性,无人驾驶车辆需要其行为决策系统能够实时给出高可靠性、高安全性的行为决策结果,但目前大多数行为决策方法只能适应简单、确定性的驾驶环境,无法满足上述需求。现有的行为决策方法可分为基于规则的行为决策和基于机器学习的行为决策两大类。基于机器学习的行为决策算法属于非deterministic模型,目前在学术界渐渐流行,但从实际应用出发,基于规则的决定性(deterministic)行为决策系统仍然是目前工业界的主流。有限状态机方法是一种典型的基于规则的行为决策方法。3.基于有限状态机的行为决策算法有限状态机原理有限状态机就是指一个随着时间的推移、在不同时间会现出不同状态的系统,并且这些状态是有条件的,不会重复出现且数量有限制的。根据对有限状态机内在的因果关系的考虑,有限状态机可以被归纳为4个基本元素:(1)现态:是指状态机当前所处于的一种状态;(2)条件:也可以称之为“事件”。当一个事件被满足时,将会刺激一个变化或者称之为动作,这个变化可能带来状态的改变,也有可能使状态保持不变;(3)动作:就是指条件满足后执行的动作。动作执行结束后,原有的状态可能会有两种选择,一种是维持原状,不发生变化;另一种就是根据条件,发生状态的变化。只要条件被满足,状态可能直接从当前的状态,即现态,转变为其他状态;(4)次态:条件满足后要迁往的新状态。“次态”是相对于“现态”而言的,“次态”一旦被激活,就转变成新的“现态”了。如果对这4个基本元素进一步总结,可将原有的4个基本元素减少至两大重要元素。“现态”和“次态”都是表征状态。“动作”可以直接被忽略,因此只保留下状态和转移条件两个概念。3.基于有限状态机的行为决策算法有限状态机的各种状态以中国智能车未来挑战赛赛事的情况为原型,无人驾驶车在路上行驶的基本状态可以分为:巡线驾驶状态、ACC状态、换道状态、路口停等状态以及路口避障状态。道路由路段和路口连接而成。由于路段和路口性质的较大区别,路段区行车区域开阔,车道线划分有序,车辆跟随车流有序行驶;而路口状况则是车多人多,有时情况较为复杂,所以对于路口的处理也较为困难。因此在总体上将道路用为路段和路口两大部分区分开来。(a)巡线驾驶状态车辆依据全局路径规划的一次轨迹,再利用事先确定的轨迹跟踪算法进行轨迹跟踪,操控车辆行驶的模式。巡线驾驶模式中又可依据具体道路状况细分成许多小模块,如U字掉头,进出匝道等,处理方式依旧采取跟踪原有一次轨迹。(b)ACC状态(AdaptiveCruiseControl)当一次规划轨迹上存在前车时,本车跟随前车驾驶的状态。ACC算法模块需综合前车位置和速度信息、自车速度信息和预设的汽车速度等数据输出一个合适的目标车速。基于有限状态机的行为决策算法是一种经典的基于规则的行为决策算法。3.基于有限状态机的行为决策算法(c)换道状态指车辆从本车道改变到相邻车道的模式。换道是一种基本的驾驶行为,合理的换道不仅可以提升自车的安全顺畅行驶,同时也能提高道路的通行能力,减少道路拥堵的可能性。(d)路口停等状态在路口遇红绿灯或前方有车辆等其他障碍物将道路完全阻塞时,车辆为了遵守交通规则和车辆安全,车辆减速至0并等待道路情况改变的状态。(e)路口避障状态当无人车行驶到路口时,在一次规划轨迹上存在车辆或其他障碍物,但道路并没有被堵死,车辆依然可以通过连续调整方向盘安全通过时,进入路口避障状态。对于一个有限状态机来说,除了基本的状态划分外,最重要的就是状态转移的条件。状态之间的转移是有条件的,而且一个状态只能转移到与它相关联的一个状态,而不能随意转移。规则库规则库就是指明进入某种状态的具体转移条件,条件相互之间不能存在二义性。规则库主要结合交通规则、驾驶员的驾驶行为和经验、以及对于车辆安全性和舒适性的综合考虑制定的一些以公式或者具体参数的形式表达的具体指标。规则库包含大量条件的判断与设计,从而具体细分出当前车辆应该要进入的状态,用于状态选择。将有限状态机原理和规则库相结合进行状态选择,车辆状态转移归纳如下图所示。3.基于有限状态机的行为决策算法3.基于有限状态机的行为决策算法基于有限状态机的行为决策算法行为决策的主要思路是:行驶过程中路段和路口的两类状态切换,主要通过一次规划轨迹点中导航点属性去判断;路段内,当在全局路径规划的一次轨迹上存在前车或其它障碍物,可以根据实际道路环境选择由巡线驾驶进入ACC状态或者换道状态;路口处,当一次轨迹上出现障碍物时,可以选择由巡线驾驶进入路口停等状态或在有条件的情况下进入路口避障状态;状态转移图3.基于有限状态机的行为决策算法当系统上电,车辆自主启动,开始进入模式切换状态。状态转移方式如下:1、系统上电,开启工控机程序,按下智能驾驶按钮,车辆进入自主运行中;2、当车辆的雷达模块、决策模块或控制模块出现异常时,立即触发紧急停车;3、由于前方低速行驶的车辆,且不具备良好的换道条件,车辆由巡线驾驶模式进入ACC状态;4、汽车前方车辆离开本车道,或者距离超过设定速度的安全距离时,车辆由ACC状态进入巡线驾驶状态;5、当车辆前方出现低速行驶的障碍物且具有良好的换道条件时,车辆由巡线驾驶状态进入换道驾驶状态;6、一次规划轨迹上的障碍物消失时,车辆具备良好的换道条件,车辆将自动返回原车道;7、当邻车道交通流空闲,本车具备换道条件时,车辆由ACC模式进入换道状态;8、换道过程不成功,或虽然换道成功但换道后前方的道路通行能力不如原车道时,车辆由换道模式切换回ACC状态;9、当车辆行驶至路口区段时,车辆遇红灯或前方有其他车辆或障碍物将道路完全阻塞时,车辆由巡线驾驶状态转入路口停等状态;10、当路口红灯变为绿灯且无障碍物阻挡前进道路时,车辆由路口停等状态转变为常规的巡线驾驶状态;11、当路口红绿灯不是红灯且路口虽有障碍物,但不影响整条道路时,车辆由路口停等状态进入路口避障状态;12、当车辆在路口穿梭时,前方道路又发生拥堵,车辆由路口避障状态转入路口停等状态;13、进入路口,路口虽有障碍物,但不影响整条道路时,车辆由常规的巡线驾驶状态切换为路口避障状态;14、当路上的障碍物都远离道路,远离车辆时,车辆由避障状态转变为巡线驾驶状态。3.基于有限状态机的行为决策算法斯坦福大学和大众汽车公司Junior无人车状态机模型Junior由斯坦福大学和大众汽车公司联合开发设计,车辆由一辆大众帕萨特改装而来,配备有5个激光雷达,一个GPS/INS接收机和两台Intel多核电脑。Junior的控制软件架构由“Stanley”衍生而来(2005年DARPA比赛的冠军)。它包括以下几个模块单元:传感器接口,无线传播接口,感知模块,导航模块。Junior的决策系统由一个拥有13个状态的状态机组成。下图展示了13个状态中的11个状态,图中忽略了状态“Escape”和“交通阻塞”状态,因为几乎所有的状态都可以转移到它们。状态包括:初始状态,前向驾驶,车道跟随,避障,停止标志前等待,路口处理,等待路口空闲,U-Tum,车辆在U-Tum前停止,越过黄线行驶,在停车区域内行驶,通过交通阻塞路段,在不匹配RNDF路网文件的情况下行驶,任务结束。3.基于有限状态机的行为决策算法Junior决策系统状态配置3.基于有限状态机的行为决策算法在行为决策模块设计中,详尽的状态设计会提高系统的智能程度,但如果系统设计过于复杂,就会使得状态触发条件产生重叠现象,同时增加了系统的设计难度。而且实际的驾驶环境相当复杂,有限状态机不能穷举出所有的状态,因而往往无法很好地满足实际的无人驾驶安全性、实时性与自适应性的要求。4.基于有限状态机的行为决策算法的局限性对于无人驾驶车辆来说,驾驶环境的复杂性和交通参与者行为的不可预知性等,使得无人驾驶任务极易受到了这些不确定性因素的影响。更为确切地说,这些不确定性因素对于其行为决策系统是一个极大的挑战,如何能处理好这些不确定性因素,仍然是未来无人驾驶行为决策方法要重点研究的问题。近年来,除了经典的有限状态机的行为决策方法外,研究者们提出了许多基于机器学习的行为决策方法。4.基于有限状态机的行为决策算法的局限性决策树法是机器学习理论中一种具有代表性的方法。ID3决策树通过机器学习从规则库中自主选择对应场景的合理驾驶行为。该行为决策树通过机器学习后自主获得行为规则库的一种表现形式,最终得出决策指令,指导无人车的行为操作。ID3决策树法具有知识自动获取、准确表达、结构清晰简明的优点,其缺点同样明显,即对于大量数据获取的难度较大,数据可靠性不足,数据离散化处理后精度不足。强化学习是一种解决序贯决策问题的方法,通过在与环境的交互中,根据环境的奖励反馈,逐步改善动作策略。自动驾驶决策问题中通常采用深度强化学习,利用深度神经网络处理连续状态,从而解决连续状态空间下的决策问题。7.4强化学习方法介绍张军强化学习概述QLearning深度Q网络:DeepQNetwork(DQN)双深度Q网络:DoubleDeepQNetwork(DDQN)目录

1强化学习概述

强化学习是和监督学习、非监督学习并列的第三类机器学习方法。强化学习与监督学习和非监督学习的区别在于监督学习一般有标签信息,而且是单步决策问题,比如分类问题。监督学习的样本一般是独立同分布的;非监督学习没有任何标签信息,一般对应的是聚类问题;强化学习介于监督和无监督学习之间,每一步决策之后会有一个标量的反馈信号,即奖励,通过最大化奖励以获得一个最优策略。强化学习一般是多步决策,并且样本之间有强的相关性。和监督学习对比

在已经有了数据和数据对应正确标签的情况下,监督学习能根据标签进行学习。强化学习则更进一步,一开始并没有数据和标签,要通过一次次在环境中的尝试,获取这些数据和标签,然后再学习通过哪些数据能够对应哪些标签,通过学习到的这些规律,尽可能地选择带来高分的行为(比如这里的笑脸)。强化学习(ReinforcementLearning,RL)的基本原理为智能体(Agent)在环境(Environment)反馈奖励或惩罚的刺激下不断学习,根据反馈不断调整策略,最终达成奖励最大化或实现特定目标的方法。通俗地讲,即RL学习现有的资源,为行为打分,记住高分、低分对应的行为,下次用同样的行为拿高分,并避免低分的行为。所以强化学习具有分数导向性,这种分数导向性就类似于在监督学习中的正确标签。强化学习按不同的标准具有不同分类:1)基于概率和基于价值2)在线学习和离线学习

基于概率和基于价值的RL

基于概率的方法:通过分析所处的环境,直接输出下一步要采取的各种动作的概率,然后根据概率采取行动,所以每种动作都有可能被选中,只是可能性不同。基于概率的方法有PolicyGradients算法等。基于价值的方法:输出是所有动作的价值,然后根据最高价值来选中动作。基于价值的方法有QLearning,Sarsa等。基于价值的方法仅能用于选取不连续的动作;但基于概率的方法却能用一个概率分布在连续动作中选取特定动作。在线学习(on-policy)和离线(off-policy)学习的RLon-policy与off-policy的本质区别在于:算法的行为策略和目标策略的策略是否一致。行为策略即智能体与环境进行交互时所使用的策略;而目标策略为算法在更新Q值时所用到的策略,即算法在训练过程中所要评估并不断进行改进的策略。如果行为策略和目标策略的策略一致,算法是on-policy的;如果不一致,算法是off-policy的。Sarsa算法是on-policy的算法;QLearning算法为off-policy算法,更强大的DeepQNetwork算法也是off-policy算法。

强化学习的算法框架如下图所示,该过程可由一组状态空间S,一组动作空间A,以及奖励函数R来具体描述。智能体通过动作A与环境进行交互时,环境会返回智能体一个当前的回报奖励R,智能体则根据当前的回报奖励R评估所采取的动作,同时进入下一个状态S'。经过数次迭代学习后,智能体能最终学到完成相应任务的最优策略。强化学习中,智能体与环境进行交互时所使用的探索策略一般有贪婪策略、策略、玻尔兹曼策略以及高斯策略等。(1)贪婪策略贪婪策略是一个确定性的探索策略,当智能体在从动作空间中选择动作时,采用如下思想:当且仅当在使得状态动作值函数最大时所对应的动作被选择的概率取为1,而动作空间中其他动作被选择的概率为0:(2)策略策略是强化学习中最常用的探索策略,属于随机探索策略中的一种。策略使用一个概率来对无人车的探索和利用进行折中:该策略的思想为智能体选取到状态动作值函数最大时所对应的动作被选择到的概率为,而动作空间中其他动作被选择的概率均为,目的是为了平衡强化学习中“探索”与“利用”之间的关系,其中采取动作空间中其他非最优动作时,此部分对应为“探索”部分,而当智能体选择动作值函数最大时所对应的动作时,此部分对应为“利用”部分

:(3)玻尔兹曼策略玻尔兹曼策略一般用于当强化学习算法的动作空间为离散或者动作空间的维数较低。玻尔兹曼策略根据每个动作的Q值对动作空间中每个动作的概率进行计算,为当前状态可采取的所有动作之一,且n=1,2,3,…,7,…,

为在状态s采取动作的概率:(4)高斯策略高斯策略一般用来解决当强化学习算法的动作空间为连续时的智能体对环境的探索问题,该策略的确定性部分为,对应于强化学习中的“利用”部分;非确定性部分为,对应于强化学习中的“探索”部分,同时服从于均值为0、方差为的高斯分布,即为一个确定性数值加入大小为的高斯随机噪声:

2QLearning

目前Q-Learning算法是基于价值的强化学习算法中应用最为广泛的,也是目前应用于移动智能体路径规划最有效的算法之一。Q-learning是基于时序差分的离线学习(离线策略)方法之一,即该算法的行为策略和目标策略的策略不是一致的。Q-learning的行为策略采用的是ε-greedy策略,同时目标策略采用的是贪婪策略,即使用最大的状态值函数更新Q表。根据Q表的估计,因为在s1中,a2的值比较大,在s1采取了a2,并到达s2,这时开始更新用于决策的Q表,但这时算法并没有在实际中采取任何行为,而是想象在s2上采取了每种行为,分别看看两种行为哪一个的Q值大,比如说Q(s2,a2)的值比Q(s2,a1)的大,所以就把大的Q(s2,a2)当作maxQ(s2)乘上一个衰减值γ并加上到达s2时所获取的奖励R,将这个作为现实中Q(s1,a2)的值,但是之前是根据Q表估计Q(s1,a2)的值,所以有了Q现实和Q估计,根据估计与现实的差距,将这个差距乘以一个学习效率α,再累加上老Q(s1,a2)的值变成新Q(s1,a2)。这就是off-policy的QLearning进行学习优化决策的过程。。QLearning整体算法QLearning的算法,每次更新都用到Q现实和Q估计,而且QLearning在Q(s1,a2)现实中,也包含了一个Q(s2)的最大估计值,将对下一步的衰减的最大估计和当前所得到的奖励当成这一步的现实。算法中一些参数的意义:ε-greedy是用在决策上的一种策略,比如ε=0.1时,就说明有10%的概率使用随机选行为,有90%的情况会按照Q表的最优值选择行为。α是学习率,来决定这次的误差有多少是要被学习的,α是一个小于1的数。γ是对未来Reward的衰减值。DeepQLearning

DeepQLearning是一种融合了神经网络和QLearning的方法,可以理解为:DeepQLearning=NN+QLearningDeepQLearning使用神经网络取代QLearning通过查表计算Q值的方式。DeepQLearning将状态state和动作action当成神经网络的输入,直接使用神经网络生成Q值。神经网络接受外部的信息,相当于眼睛鼻子耳朵收集信息,然后通过大脑加工输出每种动作的值,最后通过强化学习的方式选择动作。DeepQLearning可以很好地解决模型输入的状态维数很高时Q值的计算问题。DeepQNetwork(深度Q网络,DQN):同时采用两个结构一致、参数不同的卷积神经网络,其中一个网络用来选择动作,并更新模型参数,此网络称为评估网络(Q估计),使用梯度下降法对评估网络的参数进行实时更新;另一个网络用于计算目标Q值,此网络称为目标网络(Q现实)。同时采用两个神经网络,能够减少目标Q值计算和需要更新的Q网络参数之间的依赖关系,解决了算法不易收敛的问题。DQN目标网络的参数更新方式为:每隔一段时间步长将评估网络的参数复制,目的在于可以减少目标Q值与当前Q值之间的相关性。DQN利用经验回放训练强化学习模型:在训练神经网络时,假设训练数据是独立同分布的,但是强化学习数据采集过程中的数据是具有关联性的,利用这些时序关联的数据训练时,神经网络无法稳定,利用经验回放则可以打破数据间的关联性。在强化学习的过程中,将智能体与环境交互得到的经验样本存储到经验回放单元中,并每次从经验回放单元中随机抽取样本(均匀抽样),然后利用抽取到的数据训练评估网络。Schaul等人提出了基于优先经验回放的DQN(PrioritizedReplayDQN)算法,使用基于优先级的经验回放机制替代等概率的抽样方式,提高了有价值样本的利用率。3深度Q网络:DeepQNetwork(DQN)

为目标网络计算出的目标值

为评估网络输出的评估值

为损失函数,根据评估值和目标值的均方误差进行计算后最终得到为衰减因子,为即时奖励状态s是评估网络的输入w为评估网络的参数

w'为目标网络的参数DQN利用经验回放训练强化学习模型:在训练神经网络时,假设训练数据是独立同分布的,但是强化学习数据采集过程中的数据是具有关联性的,利用这些时序关联的数据训练时,神经网络无法稳定,利用经验回放则可以打破数据间的关联性。在强化学习的过程中,将智能体与环境交互得到的经验样本存储到经验回放单元中,并每次从经验回放单元中随机抽取样本(均匀抽样),然后利用抽取到的数据训练评估网络。DQN计算目标值时,计算的目标结果值会高于实际的目标结果值,原因是DQN使用贪婪策略的思想来计算目标值,这样的计算方式往往使得算法在训练时得到次优的决策策略。DQN中目标网络预测maxQ容易导致过估计,

DoubleDeepQNetwork(双深度Q网络算法,DDQN)引入另一个神经网络来减少maxQ误差的影响。而

DQN中本来就有两个神经网络,所以DoubleDQN就利用这个优势:用评估网络的估计maxQ最大动作值,然后用这个动作来选择目标网络中的

Q'。4双深度Q网络(DDQN)DDQN(双深度Q网络算法)在DQN的基础上将动作的选择和评估进行解耦,然后对评估网络和目标网络的输出进行计算,进而得到更加准确的评估值和目标值,以解决DQN算法的过估计问题。首先将当前时刻的状态值以及下一时刻的状态值,分别输入到评估网络和目标网络中,通过参数为w的评估网络选择最大的Q值对应的动作,再使用参数为w'

的目标网络计算此动作所对应的目标值,进而对评估网络选择的动作进行评估,再根据评估值和目标值计算损失函数,并通过误差反向传递的方式更新评估网络的参数w。人因为梦想而伟大,祝你早日达到自己的目标。策划:刘元盛部门:小旋风智能车团队您的公司名称YOURCONPANYNAMELOGO谢谢7.5基于强化学习的换道决策方法张军传统换道决策方法研究现状基于监督学习的换道决策方法研究现状基于强化学习的换道决策方法研究现状一种基于混合探索策略的PERDuelingDDQN换道决策模型目录

1传统换道决策方法研究现状

在现有的研究中,无人车换道决策算法主要分为两部分:传统的基于规则的算法和基于机器学习的算法,而基于机器学习的换道决策算法又可分为监督学习和强化学习等方法。基于规则型的传统换道决策方法一般使用交通规则建立规则库,无人驾驶车辆根据当前车辆所处的环境做出适当的决策。在1986年Gipps提出了最早的基于规则的换道模型,最终的决策结果被建模为一组或者多组固定条件下的决策树;Rasekhipour等研究者利用人工势场概念来避开障碍物。模型,生成最佳规划路径;Urmson等研究者提出了基于分层有限状态机的规则型换道决策方法。但是这种基于规则的方法需要交通规则构建规则库,而规则库的构建十分依赖于当前环境。与基于机器学习的方法相比,此类方法对于突发状况以及不确定性的环境决策适用性较低,难以覆盖所有工况,难以处理较为复杂和随机的动态道路场景中的问题。

针对以上不足,研究学者逐渐将基于监督学习的算法应用于无人车换道决策的研究中。LiuY等人建立了基于贝叶斯参数优化的支持向量机(SupportVectorMachine,SVM)的无人车换道模型,同时将NGSIM数据集中无人车和无人车周围的环境车的车辆参数作为模型输入,最终对无人车的换道行为决策结果进行分类。Sakr等人使用随机森林和决策树对数据集进行分析,该数据集包含加利福尼亚州高速公路上共740公里中的1000多个执行换道操作的车辆行驶数据,并最终输出了直行和换道的决策结果。LiT等人使用基于进化策略(EvolutionStrategy,ES)的神经网络算法对无人车换道决策算法进行研究,最终输出保持原道、左换道、右换道三种结果。当使用以上监督学习算法来解决无人车换道决策问题时,往往需要大规模数据集作为算法输入,导致算法训练时间较长,同时在训练时将数据集的标签数据当作“真值”,使得算法缺乏对环境的适应和探索,同时数据集中的噪声会直接影响模型训练的准确性,进而影响模型的测试结果,降低了模型的预测精度,最终导致模型的鲁棒性降低。2

基于监督学习的换道决策方法研究现状基于强化学习的无人车换道决策算法已成功应用在人工智能领域中,例如围棋比赛、机器人路径规划等。Hoel等研究者使用DQN实现了高速公路上的卡车和拖车的换道决策。Mirchevska等使用DQN对高速公路上无人车的换道决策进行模型建立,并对决策成功率和平均奖励等评价指标进行了分析,并将实验结果与基于规则的模型进行了对比分析。WangJ等将DQN方法与基于规则的约束相结合,实现了较为安全有效的无人驾驶车道变更决策任务。但是DQN算法每一次网络更新时都会对目标Q网络采取最大化操作,这样容易高估动作值,导致算法将次优行为价值认定为最优行为价值,容易陷入局部最优;从经验回放单元抽取样本时采用均匀抽样,导致一些重要性较高的经验样本较少或无法被抽取到,而降低了算法的收敛速度和网络模型中参数更新的效率。3

基于强化学习的换道决策方法研究现状旋风智能车团队针对DQN等算法存在的问题,对DQN算法进行改进,提出一种基于混合策略的PERDuelingDDQN无人车换道决策模型,用于高速公路上的无人车换道决策。4一种基于混合策略的PERDuelingDDQN换道决策模型(1)混合探索策略:为了避免无人车陷入到次优策略或局部最优策略中,本算法采用探索策略和玻尔兹曼探索策略相结合的混合策略对环境进行探索和利用,以此来解决单一探索策略易陷入局部最优的问题,更好的平衡了“探索”与“利用”之间的关系,即使用探索策略作为全局探索策略,玻尔兹曼探索策略为局部探索策略。(2)优先级经验回放(PrioritizedExperienceReplay):使用基于优先级的经验回放机制替代等概率的抽样方式,抽样的时候并不是随机抽样,而是按照记忆库中的样本优先级来抽,提高了有价值样本的利用率。

(3)基于竞争结构的双深度Q网络(DuelingDoubleDeepQNetwork,DuelingDDQN):基于DDQN的基础上在评估网络和目标网络中加入竞争网络结构(DuelingNetworkArchitecture)。本算法在评估网络和目标网络中使用竞争网络结构来代替全连接层,以便更准确地得到无人车每个动作所对应的Q值的评估值和目标值,解决DQN中存在Q值过度估计的问题,同时更好的平衡了状态价值函数和动作优势函数的关系。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论