版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、强化学习入门第二讲,郭宪 2017.3.4,强化学习的形式化,强化学习目标,策略,累积回报,折扣回报,值函数,最优策略,序贯决策问题,强化学习方法分类,动态规划,动态规划是一类算法:包括离散和连续,动态:蕴含着序列决策 规划:蕴含着优化,如线性优化,二次优化或者非线性优化,动态规划可以解决的问题,1. 整个优化问题可以分解成多个子优化问题,2. 子优化问题的解可以被存储和重复利用,马尔科夫决策过程(MDP),贝尔曼最优性原理,得到贝尔曼最优化方程,动态规划可以解决MDP的问题,核心:动态规划通过值函数来迭代构造最优解,策略评估(policy evaluation,模型已知,方程组中只有值函数是
2、未知数,方程组是线性方程组。未知数的数目等于状态的数目,采用数值迭代算法,策略评估(policy evaluation,高斯-赛德尔迭代,策略评估(policy evaluation,状态空间:S=1,2.14 动作空间:东,南,西,北,回报函数:-1,直到终止状态,均匀随机策略,策略评估(policy evaluation,策略改进(policy improvement,计算策略值的目的是为了帮助找到更好的策略,在每个状态采用贪婪策略,策略迭代(policy iteration,策略评估,策略改进,值函数迭代,策略改进一定要等到值函数收敛吗,当K=1时便进行策略改进,得到值函数迭代算法,值函
3、数迭代与最优控制,值函数迭代算法,状态方程,性能指标函数,最优控制问题,Bellman 最优性原理,2. 利用变分法,将微分方程转化成变分代数方程,在标称轨迹展开,得到微分动态规划DDP,1. 将值函数进行离散,进行数值求解,值函数迭代与最优控制,值函数迭代算法,此式是关于值函数的偏微分方程,利用数值算法可进行迭代计算值函数,From 胡亚楠博士论文,值函数迭代与最优控制,值函数迭代算法,贪婪策略,利用变分法,将微分方程转化成 变分代数方程,微分动态规划方法,微分动态规划,1. 前向迭代:给定初始控制序列 正向迭代计算标称轨迹,1,3,2,3. 正向迭代新的控制序列,值函数迭代与最优控制,值函数迭代算法,基于模型的其他方法,逼近动态规划(逼近值函数) 基于模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 漳平租房合同
- 茂名购房合同
- 美甲店合作合同
- 违约劳动合同
- 对严重违反社区戒毒协议书
- 单位福利房转让协议书
- 车晓离婚协议书
- 残疾专干协议书
- 果蔬供货协议书
- 怀孕离婚协议书范本
- 项目1-电子商务认知
- 高艳津子现代舞的创作实践、审美追求及文化取向
- 现代汉语课件完全版
- GB/T 7025.3-1997电梯主参数及轿厢、井道、机房的型式与尺寸第3部分:V类电梯
- GB/T 5276-2015紧固件螺栓、螺钉、螺柱及螺母尺寸代号和标注
- 印刷oled el概述培训课程
- HI-IPDV10芯片产品开发流程V10宣课件
- 非煤矿山露天开采讲解学习课件
- 国际物流培训课件
- 售后维修服务单模板
- 三年级数学《千米的认识》课件
评论
0/150
提交评论