CN110745136A 一种驾驶自适应控制方法（中国科学技术大学）

上传人：1*** IP属地：山西上传时间：2026-05-05 格式：DOCX 页数：26 大小：795.23KB 积分：10.2 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模本值包括车辆驾驶状态和对应的驾驶动作，车辆驾驶状态包括车辆周围的道路环境信息、输入层接第一卷积层，第一卷积层的输出接第一池化第五卷积层的输出接第三池化层，第三池化层将所述训练集的数据作为所述网络模型的输入，构建样本5.如权利要求4所述的驾驶自适应控制方法，其特征在于，所述驾驶决策包括跟驰驾distanceangledistance和v分别表示当前车辆与前方车辆的车距、车辆当前的行distance的权重系数。3angle和Gdistance分别表示车辆在当前行驶道路和换道后距离前后方障碍distance和T1的权重系数。distanceangle和Gdistance分别表示车辆距离周围障碍物的最近距离、车辆当前的Fdistanceangledistance和T2权重系数，n1和m别表示变道驾驶和跟驰驾驶评分的权重系distancedistance和Bangle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切9.如权利要求4所述的驾驶自适应控制方法，其特从所述样本集D中随机选择一组样本值作为所述网络模型的输入，并判断是否达到最进行训练和学习，并在达到收敛后，将新产生的样本值替换掉样本集D中当前选择的样本将误差最小的网络模型作为所述优化后的网络模型，4通过代价函数的反向梯度下降法对所述优化后的网络5类人类驾驶行为。智能驾驶技术的研究对缓解交通拥堵、保证交通安全以及降低能源消[0004]本发明的目的在于克服现有技术存在的缺陷或不足，以提供一种能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾[0007]采用基于深度卷积神经网络的深度强化学习算法，构建用于驾驶控制的网络模[0008]利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网[0009]利用测试集和验证集对优化后的网络模型的性能进行验证，并将满足性能的网6[0011]进一步地，所述获取的历史驾驶数据集为驾驶员处于自然状态下在实际道路上行驶得到驾驶数据；所述历史驾驶数据集中每组样本值包括车辆驾驶状态和对应的驾驶驶动作a9后从环境中获得的反馈信息，a9为将s和a作为所述网络模型的输入时，所述网的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距distance的权重系distance和T1的权重系数。7前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中[0031]从所述样本集D中随机选择一组样本值作为所述网络模型的输入，并判断是否达[0034]并将误差最小的网络模型作为所述优化后的网络模型，并输出优化后的网络目[0038]进一步地，所述利用优化后的网络目标值对所述优化后的网络模型[0039]通过代价函数的反向梯度下降法对所述优化后的网络模型的参数进行更新，所8并移植至真实环境中的智能车控制系统中。基于深度强化学习的智能驾驶控制策略能更好地模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作，同时也对智能驾驶[0059]具体来说，本实施例所述历史驾驶数据为基于大型实车路试先验实验所提供的9[0060]需要说明的是，自然驾驶数据指的是利用高精密度的数据采集系统所获取到驾驶员在自然状态下(即驾驶员按照日常的驾驶习惯和驾驶动作行驶)最真实的实际道路下[0061]本实施例所述的历史驾驶数据集中，每组样本值包括车辆驾驶状态和对应的驾[0062]为了使问题简单化，本实施例中将车辆的驾驶动作空间分解为对车辆的纵向控制，通过将刹车和油门合成为一个向量对车辆进行纵向控制，如果向量是正则表示踩油[0077]对于情况(1)-(3)，所述的激活函数采用ELU(ExponentialLinearU可能的驾驶动作a9的Q值，选取其中最大的Q值所对应的驾驶动作a9，当执行完成驾驶动[0083]S32、基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模[0084]进一步地，由于基于深度卷积神经网络的深度强化学习模型是根据与环境交互的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距distance的权重系distance和T1的权重系数。前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中[0097]需要说明的是，上述不同驾驶决策的奖励值评价方法是基于训练目标与奖励值)})分别表示在下一步状态s,和奖励值r时的网络目标值，Q[0

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN110745136A 一种驾驶自适应控制方法（中国科学技术大学）

文档简介

温馨提示

最新文档

评论

CN110745136A 一种驾驶自适应控制方法 （中国科学技术大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN110745136A 一种驾驶自适应控制方法（中国科学技术大学）