CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）

上传人：1*** IP属地：山西上传时间：2026-03-25 格式：DOCX 页数：33 大小：1.49MB 积分：10.2 举报 版权申诉

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）_第2页

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）_第3页

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）_第4页

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）_第5页

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于规则融合强化学习的自动驾驶换本发明涉及一种基于规则融合强化学习的2S2、配置高速公路驾驶环境，加入自车的感知基于构建的自动驾驶决策训练场景进行融合训练，修正决策出的危险plan所述步骤S4中换道决策的风险评估具体是基于自车与他车的碰撞planself为自车规划轨迹在t时刻的位姿矩形框，Sother为第i次采样得到的周围车的所述步骤S4中安全性评判机制具体是根据碰撞概率峰值、峰值时间倒所述步骤S5中设定的奖励函数包括效率奖励、安全性奖励以及基本3所述步骤S52中对危险决策进行修正的策S532、当安全经验池和危险经验池收集到设定2.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，所述步骤S1中横向行为决策模型具体是基于MOBIL算法建立，所述横向行为决策模型3.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，所述步骤S2中不合理的车流场景包括：自车在最左车道时取消左换道44.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，最近的4辆他车的相关状态信息；所述自车状态信息包括一个恒置为1的是否存在的标志所述步骤S3中动作空间分为目标车道的离散决策与目标速度的离散决策，共包含5种5.根据权利要求1所述的一种基于规则融合强化学习的自动驾驶换道决策控制方法，首先搭建深度学习网络结构，总结构为一个25*256*256*5的全连5[0006]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于规则融合6[0017]所述步骤S1中横向行为决策模型具体是基于MOBIL(MinimizingOverall下相距最近的4辆他车的相关状态信息；所述自车状态信息包括一个恒置为1的是否存在[0023]所述4辆他车的相关状态信息包括一个7planplan[0039]使用碰撞采样数与总采样数X之比，以作为自车与该辆车在t时刻的碰撞概率轨迹点个数这三个安全性指标进行综合评判，通过对所述三个安全性指标进行归一化处性评判结果综合风险大于设定综合危险阈值的危险决策[0051]S55、计算损失函数梯度，更新主价值网络，每Ntarg步更新目标价值网络参数为8[0069]图5为实施例中基于规则融合强化学习的自动驾驶换道决策方法的模型训练过程9[0096]其中，i,为目标车道后车所需采取的加速度，bsafe为后方车辆di。-a+p(i,-a,+i,-a,)之Aa,则换道；o为当前车道后方车辆与自车的跟车加速度，为换道成功后自车与目标车道前车的跟车加速度，i,为目标车道后车与自车的跟车加速度，i,为当前车道后车与当前车道前车[0104]其中，dmin为最小跟车距离，本实施例中取参考车辆间距Δsinit作为最小跟车距actual为实际相邻车辆平均跟车距离；[0105]212)采用包含车道数的整数集合内均匀分布方法，设置n个他车初始化所在车道[0109]首先计算参考车辆间距smax为目前最靠右侧的交通参与车辆的[0111]215)在给定范围内随机生成IDM控制模型的速度膨胀系数ξ,本实施例中给定范围[0114]将感知的不确定性误差视为一个三维的高斯分布，以观测状态量来表示自车感知获得的某他车在自车直角坐标系内的相对位置和航[0120]初始观测状态量x-[ryl[0125]状态空间包括自车以及与自车在曲线坐标系下相距最近的4辆车的相关状态信[0126]311)自车状态信息[0140]决策网络模型的5种离散决策，分为目标车道lanetarget的离散决策与目标速度[0143]其中，lanecurrent表示自动驾驶车辆当前所处车道序号，lanemax表示最大车道序[0159]设置各动作采样概率，使得奖励值高的动作采样概率随2；[0169]对目标车道中心线上纵向离散规划终点，使用五次多项[0170]在规划路径对相应曲线距离进行插值操作，得到他车在未来t时刻所处的位置man(x,,y,q)为当前时刻车辆初始位置与初始航向角；planplan轨迹点个数等指标进行综合评判；[0194]441)综合碰撞概率Pi由i时刻自车轨迹点上的与所有其他车辆碰撞概率求和得[0219]图5以流程图的形式展示了整个基于规则融合强化学习的自动驾驶换道决策方法[0

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）

文档简介

温馨提示

最新文档

评论

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法 （同济大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115257745B 一种基于规则融合强化学习的自动驾驶换道决策控制方法（同济大学）