强化学习课件第3、4章最优控制、基于价值的强化学习

上传人：y*** IP属地：山东上传时间：2024-05-08 格式：PPTX 页数：102 大小：7.96MB 积分：25 举报 版权申诉

已阅读5页，还剩97页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章最优控制

目录价值的定义动态规划算法LQR控制案例：利用策略迭代和值迭代求解迷宫寻宝问题价值的定义最优控制问题

AgentEnvironment三连棋游戏井字形棋盘一方在棋盘上画○，一方在棋盘上画×，交替进行某一时刻，棋盘上同一直线出现三个○或三个×，即为获胜棋盘被填满还未分出胜负，则记为平局游戏规则由人类玩家和电脑进行对战：人类玩家画○，电脑画×，每次游戏都从人类玩家开始当棋盘某一直线上有两个○，且剩下位置是空的，电脑会在这个位置画×，阻止人类获胜如果人类玩家不能在一步之内取胜，电脑会等概率随机选择一个空位置画×定义MDP

求解最优策略：第一步走中间

平局胜利胜利平局平局平局

求解最优策略：第一步走中间

求解最优策略：第一步走角落

求解最优策略：第一步走角落○×○×○○×○○×○○×○

求解最优策略：第一步走角落

三连棋游戏最优策略

“价值”的思想

中间状态的“价值”中间状态的“价值”初始状态也属于中间状态“中间状态”

“中间状态”

状态-价值-最佳动作表状态价值最佳动作0.9160.66610.33走角落走对角走中间(必胜)走对角策略下状态的价值

状态的价值

价值的计算

动态规划的思想将大的问题拆分成若干个比较小的问题，分别求解这些小问题，再用这些小问题的结果来解决大问题这种拆分是在时间维度上的，称为时间差分（Temporal

Difference，TD），即利用下一时刻状态的价值计算当前时刻状态的价值，直到计算出所有状态的价值动态规划算法

通过策略求解状态价值策略评估

策略评估

雅克比迭代法

策略提升

策略迭代法

值迭代法

策略迭代与值迭代

误差很大的价值误差一般的价值误差很小的价值殊途同归策略迭代值迭代

Bellman方程

LQR控制连续状态动作的MDP

基本的LQR问题

问题的解（T=1）

问题的解

LQR控制器

向前迭代向前迭代向前迭代向前迭代LQR控制器

总结最优控制可以解决环境完全已知的MDP问题状态-动作离散且环境已知的MDP问题：策略迭代：通过不断进行策略评估和策略改进，直至策略收敛，从而得到最佳策略，由于迭代速度快，适合状态空间较小的情况值迭代：通过迭代计算最佳状态价值，从最佳状态价值中提取出最佳策略，由于计算量少，适合状态空间较大的情况状态-动作连续且环境已知的MDP问题：LQR：解决状态转移关系为线性且有时间限制的MDP问题iLQR：解决状态转移关系为非线性且有时间限制的MDP问题案例：利用策略迭代和值迭代求解迷宫寻宝问题案例介绍迷宫寻宝问题：在一个5×5的棋盘中，超级玛丽位于棋盘左上角的方格内，可以向上、下、左、右四个方向移动，每回合移动一次记为1步宝藏位于棋盘最下层中间的方格内，超级玛丽找到宝藏则游戏结束目标是让超级玛丽以最少的步数找到宝藏利用策略迭代和值迭代求解迷宫寻宝问题的最佳策略第四章基于价值的强化学习

目录状态-动作价值函数SarsaQ-learningDQN状态-动作价值函数环境已知的MDP问题

环境未知的MDP问题

与环境交互

如何学习

时间差分学习(Temporal-Differencelearning)

状态-动作价值函数的引入

状态-动作价值函数

SarsaSarsa

估计作为目标值预测值Q表（Q-table）

…-2102-1101-1……Q表Sarsa算法流程

Sarsa举例

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000

Q表

上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表Step5：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000Q表中状态𝑠所在行的最大值所对应的动作𝑎即为当前状态下的最佳策略Q表n-stepSarsa

Q-learningQ-learning

目标值预测值Q-learning算法流程

Q-learning举例

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000

Q表Step2：状态𝒔下选择动作𝒂

上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表Step4：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000

Q表Q-learning与SarsaSarsa和Q-learning是两种常用的无模型强化学习算法两种算法均基于Q表，适合状态和动作离散的问题Sarsa中从环境产生数据的策略和更新Q值的策略相同(on-policy)；Q-learning中从环境产生数据的策略和更新Q值策略不同(off-policy)Q-learning通常收敛更快，实际中更常用悬崖寻路问题目标是从起点移动到终点可以采取上、下、左、右四种动作进行移动到达除悬崖以外的方格奖励为-1到达悬崖奖励为-100并返回起点离开方格的动作会保持当前状态不动并奖励-1悬崖寻路问题：Q-learning和Sarsa的表现Q-leaning：沿着最短路径进行Q值的学习，容易进入悬崖，导致每次迭代的累积奖励较少迭代速度较快Sarsa：沿着较长但安全的路径进行Q值的学习，每次迭代的累积奖励较多迭代速度较慢Q-learningSarsaDQNQ表的局限性在Q-learning和Sarsa中，状态和动作离散，使用Q表来保存Q值当状态或动作数量很大或者为连续值时，使用Q表不再有效吃豆人马里奥兄弟

值函数近似

Q表值函数近似

Q-tableDeepQNetwork一种结合了深度学习和Q-learning的强化学习算法适合状态数量很大，动作数量较少的问题，例如Atari游戏使用深度神经网络近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.DeepQNetwork

如何训练

DQN算法流程

DQN的改进使用神经网络近似Q值时，强化学习过程并不稳定甚至会发散，主要原因有：数据存在一定相关性数据非平稳分布目标Q值和预测Q值存在参数联系针对上述问题，后续学者对DQN做出了一些改进：经验回放（experiencereplay）：应对数据相关性和非平稳分布问题目标网络（targetnetwork）：引入新网络计算目标Q值，减轻与预测Q值的参数联系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.经验回放样本缓存区（replaybuffer）：与环境交互时，将产生的数据存储在缓存区中均匀地随机采样一批数据提供给神经网络进行训练若缓存区数据已满，用新数据覆盖最旧的数据带经验回放的DQN算法流程

目标网络目标Q值和预测Q值之间存在参数联系，每次更新的目标都是固定上次更新的参数得来的，优化目标跟着优化过程一直在变，迭代难以收敛：引入一个与原始网络结构一样的模型，称为目标网络(targetnetwork)，原模型称为表现网络(behaviornetwork)，目标网络计算Q-learning中的目标Q值，每当完成一定轮数迭代，表现网络的参数同步给目标网络targetnetworkbehaviornetworkUpdatetargetQpredictQMSE预测Q值（predictQ）：目标Q值（targetQ）：

带经验回放和目标网络的DQN算法流程

DQN的表现右图展示的是DQN在50多种Atari游戏上的表现图中可以看到：DQN几乎在所有游戏的表现上都高于历史最好的强化学习方法对于半数以上的游戏，DQN的表现已经超越了人类状态与动作连续的MDPDQN能处理离散动作空间的MDP问题，但不能处理连续动作空间的MDP问题例如自动驾驶问题：状态连续：传感器捕捉到的当前路况图像动作连续：操作方向盘、踩油门、刹车等动作，方向盘转动的角度与加速度都是连续的NAF

GuS,LillicrapT,Sut

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习课件第3、4章最优控制、基于价值的强化学习

文档简介

温馨提示

最新文档

评论

强化学习 课件 第3、4章 最优控制、基于价值的强化学习

文档简介

温馨提示

最新文档

评论

相关文档

强化学习课件第3、4章最优控制、基于价值的强化学习