CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学)_第1页
CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学)_第2页
CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学)_第3页
CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学)_第4页
CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学)_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2021171024A1,2021.06.10面向多非完整约束移动机器人的强化学习本发明提供了面向多非完整约束移动机器基于欧拉拉格朗日方程建立多非完整约束移动所设计的基本行为以不同的优先级顺序组合成2步骤S1,基于非完整约束矩阵建立多非完整约束移步骤S2,将行为优先级切换建模为一个分布式部分可观测的0是已知的阈值;2.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其3考虑一组N(N>2)的非完整约束移动机器人,其中每个机器人由差速轮驱动,i=和b,eR分别是左右轮的旋转速度;4⃞,=r,+k,+f,(7)假设每一个非完整约束移动机器人均有M个基本行为,其中第i个非完人的第k个基本行为使用一个任务变量oxeR"(ms3),k=1,...,M,进行数学建模如下i,k的微分形式表示为5避障行为:避障行为是一种局部行为,旨在确保非完整约束移动机器分布式编队行为:分布式编队行为是一种分布分布式重构行为:分布式重构行为是一种分布6DR是一个正常数,Tmw,eR"是编队重构矩阵;一个复合任务是多个基本行为以一定的优先级顺序的组合;设定为第i个非2)从速度到任务速度的映射关系由任务的雅可比矩阵JauneR""表示;3)具有最低优先级任务mM的维度可能大于m,-E:m,因此要确保维度mn大于所有7示全局状态集合;定义bi,t={vr,i,t}∈B为局部/本地行为,其中B表示行为集合;定义多非完整约束移动机器人与环境ε在t时间步进行交互,其中第i个非完整约束移动机布式强化学习任务监管器的集中式训练是通过分层渐进模块进行的,包括独立Q值模块和入门循环神经网络的隐藏层状态hi,t-1,局部观测oi,t,上一个行为bi,t-1,输出局部的Q值然后,混合模块通过求和所有的局部的Q值生成联合Q值如下8最后,多非完整约束移动机器人在集中式训练后学习取参考速度vi,r和参考轨迹xi,r;根据公式(3),进一步计i,和参考轨迹θi,r。4.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其其中,i,是i,的微分;V+βV=2;9表示分别为相对于ep,i和ev,i的梯度;为了实施r;,需要求解公式(40)获取然而,由于多非完整约束移动机器人动众所周知,神经网络具有强大的逼近能力;因此,给定紧集seR"和Q,eR",对于和是基函数向量,和[0008]步骤S2,将行为优先级切换建模为一个分布式部分可观[0021]其中,Rn;eR是轮半径,S,(x,)eR"表示惯性坐标性下的非完整约束矩阵,和b,eR分别是左右轮的旋转速度;ie'是轮的角加速度;机器人的第k个基本行为可以使用一个任务变量oixreR"(ms3),k=1,…M,进行数mw,=x,ER",(18)[0066]一个复合任务是多个基本行为以一定的优先级顺序的组合;设定oixE"为第i[0067]1)一个具有gi(kα)优先级的任务kα不能干扰具有gi(kβ)优先级的任务kβ,如果gi[0068]2)从速度到任务速度的映射关系由任务的雅可比矩阵J[0069]3)具有最低优先级任务mM的维度可能大于m,-":m,因此要确保维度mn大于JS,e"是零空间投影的增广雅克比矩阵。s,=x,pr,Fes,其中是联合的位置,pr,=[pr]eR"是联合的优先级,分布式强化学习任务监管器的集中式训练是通过分层渐进模块进行的,包括独立Q值模块然后,混合模块通过求和所有的局部的Q值生成联合Q值如下在每个采样时刻确定了多非完整约束移动机器人的行为优先级速度6,和参考轨迹θi,r。i,e"分别是参考位置和参考速度;是i,的微分;V+βV=2;r,e(Q)表示可容许的控制策略;[0112]为了实施r.需要求解公式(40)获取然而,由于多非完整约束移动机器和是基函数向量,和j,,0是已知的阈值;统为研究对象,提出了一种面向多非完整约束移动机器人的分布式强化学习行为控制方得在任务执行期间,零空间行为控制方法能够不依赖任何集中式单元来切换行为优先级,[0152]图1为本发明实施例的一种面向多非完整约束移动机器人的分布式强化学习行为[0159]图8为本发明实施例的具有不同任务监管器的多非完整约束移动机器人任务性能[0160]图9为本发明实施例的具有不同任务监管器的第2个非完整约束移动机器人任务[0161]图10为本发明实施例的具有输入饱和约束的分布式强化学习控制性能图,a)轨[0163]图12为本发明实施例的具有和不具有输入饱和约束的第5个非完整约束移动机器[0164]图13为本发明实施例的具有不同分布式行为控制的多非完整约束移动机器人轨[0179]其中,R,eR是轮半径,S,(X,)eR"表示惯性坐标性下的非完整约束矩阵,和b,eR分别是左右轮的旋转速度。[0181]通过使用欧拉拉格朗日方程,第i个非完整约束移动机器人的动力学模型可以推重力矩阵,表示未知非线性项,E(x,)eR"是可设计的输入增益矩阵,i'是轮的角加速度。i,=T,+h+f,(7)机器人的第k个基本行为可以使用一个任务变量O,XER"(ms3),K=1,…,M,进行数[0201]其中,J,e"是任务的雅克比矩阵。aw,=x,eR,(14)布式协作行为,旨在确保多非完整约束移动机器人仅通过使用邻居的状态重构所需的队ow,=x,eR",(18)[0225]一个复合任务是多个基本行为以一定的优先级顺序的组合。设定oxeR"为第i[0226]1)一个具有gi(kα)优先级的任务kα不能干扰具有gi(kβ)优先级的任务kβ,如果giEN,kα≠kβ。[0228]3)具有最低优先级任务mM的维度可能大于m,-:m,因此要确保维度mn大于[0236]对于分布式多非完整约束移动机器人,每个智能体必须学习局部/本地的行为优[0237]定义集中式训练环境为,全局的状态为s,=(x,pr,⃞es,其中x,=[x,]eR"是联合的位置,pr;=[pr]eR"是联合的优先级,是编队标志位,S表示全局状态集化学习任务监管器无法使用全局状态,因此必须使用部分可观测的状态。定义[0242]分布式强化学习任务监管器的算法伪代码图如图3所示。多非完整约束移动机器在每个采样时刻确定了多非完整约束移动机器人的行为优先级,就可以通过公式(22)-下的参考速度6,和参考轨迹θi,r。[0257]其中,i,是i,的微分。V+βV=2。r,e(Q)表示可容许的控制策略。[0274]为了实施r.需要求解公式(40)获取然而,由于多非完整约束移动机器eR'和Q,eR2,对和是基函数向量,和j,eR""是辨识者神经网络的权重。辨识者神经网,0是已知的阈值。完整约束移动机器人的分布式强化学习行为控制方法的[0316]数值仿真考虑了5个网络化的多非完整约束移动机器人通过执行避障、编队和重x"=[-5;5;0],x"=[-5;-5;0],⃞=[-10;10;0]和x⃞=[-10;-10;0]。多非完整约束移动机器[0.49]24×2和ωf,5=[0.5]24×2。多非完整约束移动机器人的初始执行者权重矩阵分别为的未知非线性项设置为多非完整约束务目标。图8_9对比了分布式强化学习任务监管器、分布式有限状态机任务监管器测控制任务监管器(DistributedModelPredictionControlMissionSupervisors,DMPCMSs)和传统强化学习任务监管器(ReinforcementLearningMissionSupervisor,限时间分布式行为控制(finite_timeDistributedBehavioralControl,finite_timetimeDBC)和传统强化学习行为控制(Rein

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论