版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
值函数近似法教学提纲1了解近似求解法与表格求解法的区别
23掌握值函数近似预测与控制问题求解过程
4掌握线性函数逼近器的定义和应用
掌握强化学习近似求解法的基本原理
值函数近似法•之前介绍了有模型的动态规划法,无模型的蒙特卡洛法和时序差分法。这些方法都是表格方法(TabularMethod),表格的大小为|S|×|A|。•表格法只适用于状态空间和行动空间是离散的情况,并且状态空间的大小|S|和行动空间的大小|A|不能太大。•实际问题中,状态空间和行动空间往往很大并且可能是连续的,表格法不再适用。这时,我们可以考虑求解近似最优解,即使用函数近似法来求解。
值函数近似•值函数近似法用一个带参数的函数来近似表示观测到的真实值。•值函数近似属于监督学习的范畴,因此值函数近似法也包括三个重要元素:模型、指标和算法。•模型就是函数逼近器(Function
Approximator);指标用于评价选用的函数逼近器的好坏,采用损失函数L(w)来度量;算法用于修正模型,寻找最优的函数逼近器。-模型:函数逼近器可以分为线性的和非线性的两类。我们首先仅关注线性函数逼近器,后续章节会关注以DQN为代表的非线性函数逼近器。
值函数近似-指标:采用均方误差(Mean-SquaredError,MSE)作为值函数近似法的损失函数,计算公式为:其中,µ(s)为同策略下状态的概率分布函数,一般表示在策略𝜋下状态s发生的总时间。-算法:采用随机梯度下降法作为值函数近似法的优化算法。回顾梯度下降法的更新公式为:基于随机梯度下降法的思想,随机选择一个状态更新参数,更新公式为:将记为,则有:
值函数近似预测值函数近似预测是求策略𝜋下状态值函数的近似值
。在值函数近似法的优化算法更新公式中,最重要的是求解
的值。我们需要给出上式中的值函数
的目标值作为标注去训练模型。(蒙特卡洛法和TD(0))
值函数近似预测采用蒙特卡洛法时,用于训练监督学习模型的训练数据为:采用TD(0)时,用于训练监督学习模型的训练数据为:随机抽取样本,记,采用蒙特卡洛法和TD(0)法计算值函数的公式分别为:采用蒙特卡洛法随机抽取样本更新参数时,参数更新公式变为:采用TD(0)随机抽取样本更新参数时,参数更新公式变为:
值函数近似预测下面给出两个面向值函数近似预测算法的优化算法:--基于随机梯度下降蒙特卡洛法(StochasticGradientMonteCarloAlgorithm)
蒙特卡洛法用Gt作为
的真实值Gt是
的无偏估计,因此随机梯度下降蒙特卡洛算法能找到局部最优解。
值函数近似预测--基于半随机梯度下降TD(0)法(Semi-gradientTD(0)Algorithm)。
TD(0)法用
作为
的真实值
是
的有偏估计,算法也不是真正的随机梯度下降算法,因此我们称其为半随机梯度下降TD(0)法。
基于上述两个优化算法,我们可以构建值函数近似法中的函数逼近器,从而进行策略评估。
值函数近似控制值函数近似控制是求策略𝜋下状态-行动值函数的近似值
。我们同样采用均方误差MSE作为值函数近似法的损失函数,计算公式为:基于随机梯度下降法的思想,随机选择一个状态更新参数,更新公式为:如果令,·则有:求解时,我们需要给出状态-行动值函数的目标值作为标注去训练模型。(蒙特卡洛法和TD(0))
值函数近似控制采用蒙特卡洛法时,用于训练监督学习模型的训练数据为:
采用TD(0)时,用于训练监督学习模型的训练数据为:随机抽取样本,记,采用蒙特卡洛法和TD(0)法计算状态-行动值函数的公式分别为:采用蒙特卡洛法随机抽取样本更新参数时,参数更新公式变为:采用TD(0)随机抽取样本更新参数时,参数更新公式变为:
值函数近似控制下面给出在离散序列任务(EpisodicTask)中,面向值函数近似控制算法的优化算法,基于半随机梯度下降的Sarsa算法(EpisodicSemi-GradientSarsa)。
半随机梯度下降的Sarsa算法伪代码线性函数逼近器对于预测问题,值函数近似法求解策略𝜋下状态值函数的近似值。
当我们选择线性函数逼近器作为实现值函数近似法的模型时,可表示为:其中,为状态s的特征向量。这里我们称上式中的值函数逼近器是针对权重w的线性函数逼近器。在值函数近似预测算法中,需要根据选定的模型求解
。
线性函数逼近器用对w求导,可得:因此,采用SGD更新模型参数时,计算公式如下:同理,对于控制问题,当我们选择线性函数逼近器作为实现值函数近似法的模型时,可表示为:
线性函数逼近器在值函数近似控制算法中,需要根据选定的模型求解
。用对w求导,可得:因此,采用SGD更新模型参数时,计算公式如下:
线性函数逼近器以n步TD预测算法为例,同样可以将其扩展到值函数近似法上,我们称之为半随机梯度下降n步TD预测(Semi-GradientN-stepTDPrediction)。
该算法采用SGD更新模型参数。算法基于近似法的值函数参数更新规则为:其中n步回报如下:
本章小结•近似求解法在表格求解法的基础上,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 登泰山记 教学设计
- 30000吨废旧小家电精细化智能分选拆解处置资源化利用建设项目可行性研究报告模板-拿地立项申报
- 复数论文:四元数的发现及其意义
- HPV疫苗应用指南核心2026
- 2025年建筑行业人工智能伦理规范构建
- 午休课桌椅检验检测标准
- 2026年航空行业智能飞行控制系统报告及未来五至十年航空科技发展报告
- 数字化手段在学生评价结果多维度分析中的实践探索与反思教学研究课题报告
- 循证康复实践中的多模式干预
- 2026年职业教育方法平台分析报告
- LC-MS-8040培训课件教学课件
- 执法大队转公务员考试试题及答案
- 2025年事业单位计算机面试题库及答案
- 2025年盘活存量资产项目可行性研究报告及总结分析
- 毕业论文机电一体化
- 自然语言处理在法律文本分析中的应用研究
- 2025中数联物流运营有限公司招聘商务拓展、投标岗、数字化规划、综合组员工等社招岗位备考题库附答案解析
- 消防员中级资格理论考试试题
- 头晕眩晕教案
- 汽车发动机连杆的优化设计
- 各种恶劣天气行车安全培训
评论
0/150
提交评论