近端策略优化算法

上传人：逗*** IP属地：宁夏上传时间：2026-03-27 格式：PPTX 页数：26 大小：1.02MB 积分：50 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

近端策略优化算法1主持人：20xx年xx月xx日2动机机器人需要合适的自主学习能力才能实现真正的自主性。通过反复试验来改进，从而获得新技能在高维连续状态和动作空间中学习对人类运动控制的理解模拟人类行为基于模拟人类行为学习成本函数3主要问题需要强化学习（RL）算法，扩展到高维机械系统处理参数化策略（例如神经网络函数逼近器）数据效率高强壮的理想情况下，易于实施。4预赛马尔可夫决策过程（MDP）（S、A、P、r、⍴0、Ɣ）一组有限的动作有限状态集P:SxAxS→ℝr:S→ℝ⍴0:S→ℝƔє(0,1)演员-评论家算法政策函数和价值函数的近似值政策内与政策外政策层面→评估或改进用于决策的政策非政策性评估→评估或改进与决策所依据的政策不同的政策5政策梯度方法背景基于函数逼近的强化学习策略梯度方法（Sutton等人，2000）根据经验进行合适的梯度估计借助优势功能利用函数逼近实现策略迭代的收敛性基于策略梯度的运动技能强化学习（Peters等人，2008）调查政策梯度方法香草策略梯度实现算法文档6政策梯度方法计算策略梯度估计值并将其代入随机梯度上升算法目标差异化7政策梯度方法的局限性破坏性巨大的政策更新数据效率和稳健性差8信托区域方法背景信任区域策略优化（Schulman等人，2017）最初提出并证明了单调改进KL散度约束从零开始学习机器人运动控制器信托区域政策优化实施算法文档9信任区域方法信任区域策略优化（TRPO）在政策更新约束(δ)下，最大化替代目标建议使用惩罚项代替约束项。

10信任区域方法的局限性复数二阶方法KL惩罚项的β值不能选择固定值。11近端策略优化（PPO）使用多轮随机梯度上升法进行策略更新信赖域方法的稳定性和可靠性简单实现概率比保守政策迭代（CPI）目标12PPO夹子rt(𝜃)远离1的偏差进行惩罚。主要替代目标函数如果rt(𝜃)改进目标→排除恶化的目标→包括13PPOKL分歧替代截断的替代目标对KL散度使用惩罚适应惩罚→d目标14PPO算法15实验：替代目标的比较待比较的替代目标参数化策略全连接多层感知器；两个隐藏层（64个单元）；tanh非线性函数；输出均值服从高斯分布七项模拟机器人任务HalfCheetah、Hopper、InvertedDoublePendulum、InvertedPendulum、Reacher、Swimmer、Walker2d(-v1)一百万个时间步（训练）21次运行；最近100轮的平均总奖励；归一化（随机策略→0，最佳策略→1）16结果：替代目标的比较17实验：PPO算法与连续域算法的比较比较PPO（截尾替代目标）与TRPO、CEM、普通策略梯度（自适应步长）、A2C、A2C（信任区域）七项模拟机器人任务（来自之前的实验）HalfCheetah、Hopper、InvertedDoublePendulum、InvertedPendulum、Reacher、Swimmer、Walker2d(-v1)一百万个时间步（训练）18结果：PPO算法与连续域算法的比较19实验：PPO展示连续域3D人形机器人任务机器人学校人形RoboschoolHumanoidFlagrunRoboschoolHumanoidFlagrunHarder三个任务的学习曲线20结果：PPO展示连续域21实验：PPOvsA2CvsACER（AtariDomain）街机学习环境（49款游戏）每场比赛的获胜者由得分指标决定。评分指标：整个训练期间每回合的平均奖励最近100轮训练中每轮的平均奖励22结果：PPOvsA2CvsACER（AtariDomain）23PPO结果讨论经验表明，整体性能更佳更简单的一阶方法信赖域方法的稳定性和可靠性24更多关于PPO的信息局限性容易陷入局部最优解新政策仍有可能与旧政策相去甚远。延长PPO代码级优化以提高性能避免新政策与旧政策相差甚远的技巧25拓展阅读强化学习简介（Sutton等人，2018）使用连接主义强化学习算法进行函数优化（Williams等人，1991）基于函数逼近的强化学习策略梯度方法（Sutton等人，2000）基于策略梯度的运动技能强化学习（Peters等人，2008）信任区域策略优化（Schulman等人，2017）政策梯度深层实施至关重要：以PPO和TRPO为例

（Engstrom等人，2019）OpenAI启动算法文档26概括问题：需要可扩展、能够处理参数化策略、数据效率高、鲁棒性强且最好

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

近端策略优化算法

文档简介

温馨提示

最新文档

评论

相关文档