CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）

上传人：1*** IP属地：山西上传时间：2026-04-08 格式：DOCX 页数：35 大小：2.03MB 积分：9.6 举报 版权申诉

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）_第2页

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）_第3页

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）_第4页

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）_第5页

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于生成式世界大模型和多步强化学习的本发明涉及一种基于生成式世界大模型和2步骤1：建立基于生成式世界大模型的驾驶场景推理模型，预测周围交通参与者的行内所有动作及状态转移并计算期望回报奖励，不断计算环境状态转移和动作价值概率分从叶节点开始并追溯到根节点，更新在该模拟期间遇到的每个节点的累积成本和访问计2.根据权利要求1所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策33.根据权利要求1所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策4.根据权利要求1所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策5.根据权利要求1所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策6.根据权利要求5所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策scp7.根据权利要求1所述的一种基于生成式世界大模型和多步强化学习的自动驾驶决策4步骤42：定义状态量为实际轨迹与参考轨迹的驾驶场景推理模块：用于建立基于生成式世界大模型的强化学习训练模块：用于基于未来驾驶场景信息，利最优决策序列求解模块：用于基于未来驾驶场景信息和最轨迹跟踪控制模块：用于建立智能网联电动汽车轨迹跟踪控制器，基于最优决策5了基于模型的模仿学习方法来学习CARLA中的动态模型和驾驶行为，验证了生成式世界大决策系统向着安全高效的决策方向学习，最终得到高精度行为预测的自动驾驶决策网络，6[0007]一种基于生成式世界大模型和多步强化学习的自动驾驶决策方法，包括以下步[0017]所述驾驶场景推理模型引入时间层编码层将预训练的图像扩散模型提升为时间n步内所有动作及状态转移并计算期望回报奖励，不断计算环境状态转移和动作价值概率[0019]所述生成式世界大模型采用Transformer作为模型的主体，将最后T时间步输入7自我车辆从当前状态可进行的可能的纵向和横向运动生成子节点，纵向运动包括速度加8[0052]本发明公开了一种生成式视频大模型和多步强化学习的自动驾驶决策系统与方9[0053]本实施例首先提供一种基于生成式世界大模型和多步强化学习的自动驾驶决策然后，将给定的图像条件编码并展平为d维嵌入序列i=(i,iz,…e=(e1,e2,…,en)eR⃞d。其中，m为每个文本特征向量的维度，em为第m维的文本特征序列。潜在的时间维度，表示为(TK)CHW→KCTHW，以在时空维度THW中应用3D卷积，安排潜在的θ)来提取时空间上驾驶场景的潜在信息。化学习的多步前瞻离线训练方法，该方法能够在未来多个时刻内考虑各种可能的行动序[0081]其中，γ是折扣因子，Gt:t+n是未来n步的期望回报奖励，Rt+n为t+n时刻的奖励，训练时从数据集中采样序列长度为K的小批量。与输入状态相对应的预测头被训练为用于[0089]由于自动驾驶系统最终需要得到自车应跟踪的路径点序列，本发明结合步骤1中世界大模型的预测推理信息和步骤2中强化学习价值和策略网络，利用蒙特卡洛树搜索图5演示了对于无保护左转这一工况下，自我车辆利用蒙特卡洛树搜索进行最优决策轨迹状态量为实际轨迹与参考轨迹的误差值，其中v=⃞=g1(7)v。则新的状态量为eη=η_ηre,=v-i,=[en,f[0122]至此已完成了四轮驱动电动汽车动力学误差模型建模，[0131]本实施例还提供一种基于生成式世界大模型和多步强化学习的自动驾驶决策

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）

文档简介

温馨提示

最新文档

评论

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统 （同济大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN118790287B 基于生成式世界大模型和多步强化学习的自动驾驶决策方法及系统（同济大学）