强化学习课件第4章基于价值的强化学习

上传人：h*** IP属地：山东上传时间：2024-05-08 格式：PPTX 页数：50 大小：4.36MB 积分：15 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第四章基于价值的强化学习北京大学余欣航目录状态-动作价值函数SarsaQ-learningDQN状态-动作价值函数环境已知的MDP问题

环境未知的MDP问题

与环境交互

如何学习

时间差分学习(Temporal-Differencelearning)

状态-动作价值函数的引入

状态-动作价值函数

SarsaSarsa

估计作为目标值预测值Q表（Q-table）

…-2102-1101-1……Q表Sarsa算法流程

Sarsa举例

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000

Q表

上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表Step5：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000Q表中状态𝑠所在行的最大值所对应的动作𝑎即为当前状态下的最佳策略Q表n-stepSarsa

Q-learningQ-learning

目标值预测值Q-learning算法流程

Q-learning举例

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000

Q表Step2：状态𝒔下选择动作𝒂

上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表Step4：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000

Q表Q-learning与SarsaSarsa和Q-learning是两种常用的无模型强化学习算法两种算法均基于Q表，适合状态和动作离散的问题Sarsa中从环境产生数据的策略和更新Q值的策略相同(on-policy)；Q-learning中从环境产生数据的策略和更新Q值策略不同(off-policy)Q-learning通常收敛更快，实际中更常用悬崖寻路问题目标是从起点移动到终点可以采取上、下、左、右四种动作进行移动到达除悬崖以外的方格奖励为-1到达悬崖奖励为-100并返回起点离开方格的动作会保持当前状态不动并奖励-1悬崖寻路问题：Q-learning和Sarsa的表现Q-leaning：沿着最短路径进行Q值的学习，容易进入悬崖，导致每次迭代的累积奖励较少迭代速度较快Sarsa：沿着较长但安全的路径进行Q值的学习，每次迭代的累积奖励较多迭代速度较慢Q-learningSarsaDQNQ表的局限性在Q-learning和Sarsa中，状态和动作离散，使用Q表来保存Q值当状态或动作数量很大或者为连续值时，使用Q表不再有效吃豆人马里奥兄弟

值函数近似

Q表值函数近似

Q-tableDeepQNetwork一种结合了深度学习和Q-learning的强化学习算法适合状态数量很大，动作数量较少的问题，例如Atari游戏使用深度神经网络近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.DeepQNetwork

如何训练

DQN算法流程

DQN的改进使用神经网络近似Q值时，强化学习过程并不稳定甚至会发散，主要原因有：数据存在一定相关性数据非平稳分布目标Q值和预测Q值存在参数联系针对上述问题，后续学者对DQN做出了一些改进：经验回放（experiencereplay）：应对数据相关性和非平稳分布问题目标网络（targetnetwork）：引入新网络计算目标Q值，减轻与预测Q值的参数联系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.经验回放样本缓存区（replaybuffer）：与环境交互时，将产生的数据存储在缓存区中均匀地随机采样一批数据提供给神经网络进行训练若缓存区数据已满，用新数据覆盖最旧的数据带经验回放的DQN算法流程

目标网络目标Q值和预测Q值之间存在参数联系，每次更新的目标都是固定上次更新的参数得来的，优化目标跟着优化过程一直在变，迭代难以收敛：引入一个与原始网络结构一样的模型，称为目标网络(targetnetwork)，原模型称为表现网络(behaviornetwork)，目标网络计算Q-learning中的目标Q值，每当完成一定轮数迭代，表现网络的参数同步给目标网络targetnetworkbehaviornetworkUpdatetargetQpredictQMSE预测Q值（predictQ）：目标Q值（targetQ）：

带经验回放和目标网络的DQN算法流程

DQN的表现右图展示的是DQN在50多种Atari游戏上的表现图中可以看到：DQN几乎在所有游戏的表现上都高于历史最好的强化学习方法对于半数以上的游戏，DQN的表现已经超越了人类状态与动作连续的MDPDQN能处理离散动作空间的MDP问题，但不能处理连续动作空间的MDP问题例如自动驾驶问题：状态连续：传感器捕捉到的当前路况图像动作连续：操作方向盘、踩油门、刹车等动作，方向盘转动的角度与加速度都是连续的NAF

GuS,LillicrapT,SutskeverI,etal.Continuousdeepq-learningwithmodel-basedacceleration[C]//InternationalConferenceonM

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习课件第4章基于价值的强化学习

文档简介

温馨提示

最新文档

评论

强化学习 课件 第4章 基于价值的强化学习

文档简介

温馨提示

最新文档

评论

相关文档

强化学习课件第4章基于价值的强化学习