CN112476424B 机器人控制方法、装置、设备及计算机存储介质 (腾讯科技(深圳)有限公司)_第1页
CN112476424B 机器人控制方法、装置、设备及计算机存储介质 (腾讯科技(深圳)有限公司)_第2页
CN112476424B 机器人控制方法、装置、设备及计算机存储介质 (腾讯科技(深圳)有限公司)_第3页
CN112476424B 机器人控制方法、装置、设备及计算机存储介质 (腾讯科技(深圳)有限公司)_第4页
CN112476424B 机器人控制方法、装置、设备及计算机存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

境交互数据中的动作数据对应的动作之后所实执行所述动作之后的奖励值更新所述环境交互2获取在执行所述动作数据对应的动作之后所实际完根据所述相邻两个时刻中的第一时刻的状态参数、所述动作数据和所述实际目标值,采用执行所述动作之后的奖励值更新所述环境交互数据中的奖励在每一时刻,根据所述更新后的环境交互数据中的所述利用连续的多个时刻的所述更新后的环境交互采用训练后的智能体对目标机器人的动作进获取当前时刻之后的多个连续的未来时刻中每一未来时刻的期望奖励值和预设的折根据所述折扣因子和每一未来时刻的所述期望奖励值,得到所述展开后的动作值函通过前向经验回放,利用连续的多个未来时刻的所述更新后的环境交采用所述下一时刻的动作数据,更新所述环境交互数据中的所述动作3采用所述更新后的环境交互数据训练机器人控制网将所述下一时刻的动作数据更新至所述环境交互数据中,得到所述更7.根据权利要求1至6任一项所述的方法,其将所述下一时刻的状态参数更新至所述环境交互数据中,得到所述更在采用所述更新后的环境交互数据训练机器人控制网络对应的将确定出的下一时刻的多个目标值更新至所述环境交第一获取模块,用于获取环境交互数据,所述环境交互第二获取模块,用于获取在执行所述动作数据对应的动作确定模块,用于根据所述相邻两个时刻中的第一时刻的状态更新模块,用于采用执行所述动作之后的奖励值更新所述环境交互数据中的奖励值,456数据中的所述目标值,控制所述智能体执行所述更新后的环境交互数据中的所述动作数模块还用于采用所述更新后的环境交互数据训练机器人控制网络78行为策略和目标策略存在差异,导致了通常的前向经验回放会带来离线策略偏差的累积,9的图像处理方法根据观察到的图像中被抓取物体形状和摆放状态,决定抓取工具的姿态,放的多目标强化学习机器人控制技术,该方法能够大幅提高智能体训练的数据的利用效[0072]参见图2,图2是本申请实施例提供的机器人控制系统10的一个可选的架构示意的第一时刻的状态参数、动作数据和实际目标值,确定在机器人100执行动作之后的奖励工智能技术中的计算机视觉技术和机器学习技术来实现。其中,计算机视觉技术(CV,[0074]图3是本申请实施例提供的服务器300的结构示意图,图逻辑器件(PLD,ProgrammableLogicDevice)、复杂可编程逻辑器件(CPLD,ComplexProgrammableLogicDevice)、现场可编程门阵列(FPGA,Field-ProgrammableGate[0083]下面将结合本申请实施例提供的服务器300的示例性应用和实施,说明本申请实标是当前时刻下的实际目标值,实际目标值可能与期望目标值(即环境交互数据中的目标的动作和执行动作之后实际完成的实际目标值,确定实际目标值与期望目标值之间的偏[0096]这里,将执行动作之后的奖励值与机器人执行历史动作对应的奖励值进行累交互数据中的新的状态数据是机器人在执行动作之后,所进入的一个新的环境的状态数新的奖励值是执行动作之后的奖励值与机器人执行历史动作对应的奖励值之间的累加奖[0103]图5是本申请实施例提供的机器人控制方法的一个可选的流程示意图,如图5所[0110]步骤S506,服务器采用更新后的环境交互数据训练机器人控制网络对应的智能[0116]基于图4,图6是本申请实施例提供的机器人控制方法的[0131]图7是本申请实施例提供的机器人控制方法的一个可选的流程示意图,如图7所的机器人任务中,例如需要将指定物品放置到空间中不同的位置(物流、机器人分拣等场[0152]在解释本申请实施例的方法之前,首先对本申请中的涉及到的符号表述进行说[0153]强化学习通常可以表示为马尔可夫决策过程(MDP,MarkovDecisioat后转移到下一个状态st+1并反馈奖励rt,强化学习优化的目标是最大化累积奖励值critic分别通过以下公式(2-2)至(2-4)计算:[0162]本申请实施例的方法虽然能够加速值函数的学习,但是如果应用到离线策略算理/仿真实验数据。直接将前向技术n-step结合到后向技术(HER,HindsightExperience[0183]以下表1是本申请实施例的方法与现有方法的实现结果对比,分别使用仿真环境本申请实施例提供的前向结合后向的方法,比较的结果是训练完成相同次数(Fetch上)后[0187]图10A至图10H是采用本申请实施例的方法在不同任务下的测试过程示意图,其球体,直到它达到一个理想的目标位置和旋转。如图10D所示,是手操作一支笔的示意图[0189]下面继续说明本申请实施例提供的机器人控制装置354实施为软件模块的示例性数据中的所述目标值,控制所述智能体执行所述更新后的环境交互数据中的所述动作数用于采用所述更新后的环境交互数据训练机器人控制[0204]本申请实施例提供一种存储有可执行指令的存储介质,读存储器(PROM,ProgrammableReadOnlyMemory)、可擦除可编程只读存储器(EPROM,ErasableProgrammableReadOnlyMemory)、带电可擦可编程只读存储器(EEPROM,保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperTextMarkupLanguage)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论