潜在空间机器人技能学习中的用户反馈

上传人：逗*** IP属地：宁夏上传时间：2026-03-29 格式：PPTX 页数：21 大小：1.23MB 积分：40 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

潜在空间机器人技能学习中的用户反馈挑战从零开始学习动作？搜索空间过大。通过演示学习？该演示可能不适用于当前情况，需要进一步调整。由于机器人的性质不同，有些技能无法直接转移给机器人。我们可以使用强化学习（RL）在初始演示之后进行自主改进！使用LbD来缩小搜索范围。它广泛应用于机器人训练，让机器人学习难以人为设计的行为。[2]维度诅咒具有连续状态和动作的人形机器人的高自由度使其维度超出了实际应用范围。[2]使用策略搜索找到好的参数，然后使用参数化策略将强化学习扩展到高维连续动作。使用LbD来缩小搜索范围。如何解决这个问题？[2]对强化学习的担忧设计合适的奖励机制并非易事。现实世界中噪声是不可避免的。通过传感器接收到的反馈可能并不准确。[2]这些因素使得非专业人士在日常人类环境中利用强化学习进行持续学习变得不切实际。[2]引言使用针对机器人投掷的强化学习，采用离散的、用户指定的奖励机制，重点在于特征空间中的学习。证明对于某些任务，具有离散用户反馈的强化学习可以有效地应用于机器人学习。[2]有关的

工作基线：

基于动态运动基元（DMP）的策略搜索，

使用专家定义的奖励。

通过在深度自编码器网络的潜在空间中运行强化学习，我们可以大幅降低维度。使用自编码器网络也可能降低表示的准确性。使用

逆强化学习（IRL）

到

重建

一个

报酬

功能

给定

一个

政策

或者

历史

的

行为。

许多

示例

的

使用

人类

反馈，

但

大多

和

一个

行动

空间

由

的

离散的

行动。[2]使用

案件学习

到

扔

一个

球

进入

一个

篮子

使用

力量

算法。

使用

一个

三菱PA-10机器人

和

自由度。

这

任务

是

已选

因为

它是

简单的

为了

用户

到

估计

供研究人员建模。[2]轨迹表征配置空间深度自编码器网络的潜在空间[2]配置空间使用DMP框架对运动轨迹进行编码。[2]潜在空间*[2]每个隐藏层的激活函数自编码器参数用于训练的数据库针对每个示例，生成所需的投掷距离、高度和击球角度。搜索该轨迹上能够以所需的机器人末端执行器位置和速度到达的点。优化球的释放位置，使关节速度向量的加权范数最小。生成最小加加速度轨迹，使期望的末端执行器位置的初始速度和最终速度均为0，并在期望的时间达到最大速度。[2]学习

算法：

力量通过收益加权探索进行策略学习

（力量）

是

一种特别适用于动态运动基元的策略学习算法。该算法是一种基于EM的算法。

适用于复杂运动学习任务的算法。[3]报酬

函数精确的

报酬结合

和

重要性

采样器

到

根据样本的奖励值对样本频率进行排序

在

一个

下降

命令，

和

拿

最好的

小径

到

更新

这

政策。

未签名

报酬离散的，

五星级

规模

不

知道

在

哪个

方向

到

改变

这

扔重要性

采样器

随机

需要

小径

和

最高

奖励签名

报酬

[1,

2，

3，

-1，

-2]T[2]用户

学习

模拟

学习

实验人类

奖励：参与者

给

奖励

到

每个

扔。使用

这

给定

奖励

到

更新

这

政策。模拟

人类

奖励：[2]结果投掷

收敛

超过

时间。

精确的

报酬

不

制作

它

收敛

快点。

潜

空间

是

快点

比

配置

空间

RL。

[2]结果精确的

报酬

表演

统计学上

显著地

更好的

在

潜

空间。

[2]结果电脑

需求

双倍的

迭代

在

这

最差

案件。它

总是

需要

更长

在

配置

空间

比

在

潜

空间

在

这

最差

案件。

[2]概括使用

用户分配

报酬，

这

投掷

错误

收敛

到

零

在

实践。

我们

应用

它

在

两个都

这

配置

和

潜

空格。

学习

在

潜

空间

是

快点。

学习

和

签名

奖励

在

配置

空间

是

快点

比

未签名

奖励。人类

智力

是

一个

因素

在

学习。

[2]担忧PoWER算法仅衡量最终奖励。虽然这方便用户设置奖励，但有些任务需要中间奖励，而这对于人类来说难以提供反馈。如果

这

报酬

是

不是

直截了当，

人为指定

奖励

是

非常

可能

不是

履行

更好的

比

专家定义

奖励。

这

方

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

潜在空间机器人技能学习中的用户反馈

文档简介

温馨提示

最新文档

评论

潜在空间机器人技能学习中的用户反馈

文档简介

温馨提示

最新文档

评论

相关文档