下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习ReinforcementLearning机器学习/人工智能邹伟我们为什么要研究强化学习?01当我们讨论人工智能的时候2016年,AlphaGo通过学习历史棋谱,以4:1的成绩大战围棋冠军李世石。2017年,AlphaGoZero无师自通,仅通过自我博弈学习,以100:0的不败战绩绝杀“前辈”AlphaGo。著名的围棋人机大战,重新掀起一波人工智能热。Alphago原理=深度+强化(自我对弈学习+蒙特卡罗树搜索)通过学习神经网络来完成高维数据的低维表示,解决的是感知的问题应用:图像识别,语音识别,推荐系统,自然语言处理感知vs决策深度学习机器认知强化学习机器感知真正的智能生活,需要机器认知,即机器真正理解人。人工智能的目标是赋予机器像人一样思考并反应的智慧。而强化学习是解决机器认知的一个重要技术。掌握了强化学习的基本方法和基本原理便掌握了创造未来的基本工具。解决“做什么”—如何将情境映射到行动,从而最大化数字奖励信号的方法。应用:路径规划,直升机飞行控制,博弈游戏强化学习是什么?强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制。是一种通过与环境交互,学习最优的状态到行动的映射关系(即在某个状态下,采取所有行为的概率分布),以获得最大累积期望回报的学习方法强化学习vs其他机器学习(1)没有监督者,只有量化奖励信号;(2)反馈延迟,只有进行到最后才知道当下的动作是好还是坏。(3)强化学习属于顺序决策,根据时间一步步决策行动,训练数据不符合独立同分布条件;(4)每一步行动影响下一步状态,以及奖励强化学习框架:智能体-环境智能体:强化学习系统环境:与智能体交互的外部ss智能体-环境ss奖励轨迹状态智能体-环境:网格世界例子智能体三个组成智能体三个组成-模型个体对环境的一个建模,它体现了个体是如何思考环境运行机制的,个体希望模型能模拟环境与个体的交互机制。p:表征环境的动态特性,用以预测状态s上,采取行为a后,下个状态概率分布。r:表征状态s上,采取行为a后得到的奖励智能体三个组成-值函数是一个未来奖励的预测,用来评价当前状态的好坏程度。个体可以用一个Value值来评估两个不同的状态,继而指导选择不同的行为,即制定不同的策略。一个价值函数是基于某一个特定策略的,不同的策略下同一状态的价值并不相同。值函数是从此刻开始所有回报的加权和,权重为折算因子的n次方,向前看多少步,取决于折算因子的大小,当n无限大,权重会小到忽略不计智能体三个组成-策略策略是决定个体行为的机制。是从状态到行为的一个映射。可以是确定性的,也可以是不确定性的。如何解决强化学习问题?建立强化学习的数学模型,表示s/a/r/p—构建马尔可夫决策模型。求取每个状态s的值函数v(s)或策略函数pi—评估采取最优策略pi—控制求解马尔可夫决策过程解决强化模型的问题转化为求解马尔可夫决策模型的问题任何一个求解马尔可夫决策模型的方法都叫做强化学习方法强化学习方法分类两种分类方式:(1)解决强化学习问题时,是建立对状态的价值的估计来解决问题,还是直接建立对策略的估计来解决问题,分为三类。(2)个体在解决强化学习问题时是否需建立环境模型,分为两类。重要概念-学习与规划(Learning&Planning)学习:环境初始时是未知的,个体不知道环境如何工作,个体通过与环境进行交互,逐渐改善其行为策略。规划:环境如何工作对于个体是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。常用的强化学习问题解决思路:先学习环境如何工作,了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。学习规划重要概念-学习与规划:示例重要概念-探索和利用(Exploration&Exploitation)探索:探索:挖掘更多的关于环境的信息利用:根据已知信息,最大化奖励重要概念-预测和控制(Prediction&Control)利用:根据已知信息,评估未来奖励。即处于每个状态下能够获得的奖励是多少。控制:将奖励最大化,不仅是计算出最优的值函数,而且要给出最优的策略。提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录马尔科夫决策过程构建强化学习的模型—马尔可夫决策模型,将解决强化学习问题转化为一个求解马尔可夫决策模型的最优解02马尔可夫性(MarkovProperty)某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。几乎所有的强化学习问题都可以转化为MDP。
马尔可夫决策过程(
MarkovDecision
Process)MDP示例MDP-策略一个策略完整定义了个体的行为方式,也就是说定义了个体在各个状态下的各种可能的行为方式以及其概率的大小。
MDP-值函数收获:在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的总和。其中衰减系数体现了未来的奖励在当前时刻的价值比例。状态值函数:给定状态s下,遵循策略π,获得的期望回报;行为值函数:给定状态s下,采取动作a,遵循策略π,获得的期望回报MDP-值函数示例MDP-贝尔曼期望方程MDP-贝尔曼期望方程求V,QS-a求va-s‘求取qMDP-贝尔曼期望方程求V,Qs-a-s’求取va-s’-a求取q2MDP-贝尔曼期望方程示例MDP-最优值函数MDP-最优值函数MDP-最优策略什么是最优策略?当对于任何状态s,遵循策略π的价值不小于遵循策略π'下的价值,则策略π优于策略π’定理
对于任何MDP:1.存在一个最优策略;2.所有的最优策略有相同的最优价值函数;3.所有的最优策略具有相同的行为价值函数。如何寻找最优策略?可以通过最大化最优行为价值函数来找到最优策略MDP-最优策略示例MDP-贝尔曼最优方程求V*,Q*S-a求取v*a-s‘求取q*MDP-贝尔曼最优方程求V*,Q*S-a-s‘求取va-s-a‘求取q*
提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录动态规划使用动态规划求解MDP问题03为什么可以使用动态规划?什么是动态规划?动态规划算法是解决复杂问题的一个方法,将复杂问题分解为子问题,通过求解子问题得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。什么样的问题,可以考虑使用动态规划来求解?一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解;子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用。马尔科夫决定过程(MDP)具有上述两个属性:Bellman方程把问题递归为求解子问题,价值函数就相当于存储了一些子问题的解,可以复用。因此可以使用动态规划来求解MDP。如何使用动态规划求解?
预测:给定一个MDP
和策略π,要求输出基于当前策略π的价值函数
。控制:给定一个MDP,要求确定最优价值函数和最优策略如何使用动态规划求解?—策略评估(预测)
解决方案:应用Bellman期望方程进行迭代具体方法:在k+1次迭代中,使用v_k(s‘)更新计算v_k+1(s),其中s’是s的后继状态。此种方法通过反复迭代最终将收敛vπ
。如何使用动态规划求解?—策略改善(控制)
在当前策略基础上,贪婪地选取行为,使得后继状态价值增加最多动态规划—策略迭代
问题:寻找最优策略π解决方案:应用贝尔曼期望方程,先进行策略评估,再改进策略,评估改进的策略,再进一步改进策略。即v1-π1-v2-π2……v*-π*动态规划—策略迭代示例
问题:网格世界状态空间为:s={1,2,3,6……14},动作空间A={东,南,西,北},回报函数为r=-1,需要评估的策略为均匀随机策略:π(东|⋅)=0.25,π(南|⋅)=0.25,π(西|⋅)=0.25,π(北|⋅)=0.25.求解最优策略。
动态规划—策略迭代示例
(1)计算随机策略下的值函数,
迭代计算直至收敛。
(2)在每个状态采用贪婪策略对随机策略进行改进。第一轮策略迭代完成,产生了新的策略。动态规划—策略迭代示例
(1)计算新策略下的值函数,
迭代计算直至收敛。
(2)在每个状态采用贪婪策略对新策略进行改进。第二轮策略迭代完成,产生了新的策略。一直迭代,直至策略收敛。产生最优策略
动态规划—值迭代
问题:寻找最优策略π解决方案:使用贝尔曼最优方程,将策略改进视为值函数的改善。每一步都求取最大的值函数。即v1-v2……v*从初始状态值函数开始同步迭代计算,最终收敛,整个过程中没有遵循任何策略。注意:与策略迭代不同,在值迭代过程中,算法不会给出明确的策略,迭代过程其间得到的价值函数,不对应任何策略。动态规划—值迭代示例
问题:如何在一个4*4的方格世界中,找到任一一个方格到最左上角方格的最短路径,每一步奖励为-1解决方案1:确定性的价值迭代简要思路:已知左上角为最终目标,从与左上角相邻的两个方格开始计算,因为目标状态是这两个状态的后继状态。如此依次向右下角倒推,直至所有状态找到最短路径。
解决方案2:价值迭代简要思路:不确定最终状态在哪,根据每一个状态的最优后续状态值更新该状态的最佳状态值,多次迭代最终收敛提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录蒙特卡罗在不清楚模型状态转移概率及奖励的情况下,直接对完整轨迹中的回报取平均得到值函数,求取最优解。04为什么要使用蒙特卡罗?为什么不能用动态规划?上一讲动态规划解决是一个已知的MDP问题:已知状态转移概率和奖励。从本讲解决的未知MDP问题:不掌握MDP具体细节,不知道状态转移概率和奖励。即:不知道s下采取a,会转移到什么状态?会获得多少奖励?什么是蒙特卡罗方法?在不清楚MDP状态转移及即时奖励的情况下,直接从智能体与环境的交互的完整轨迹来进行学习。完整轨迹(Episode):从一个状态开始经历直至结束如何使用蒙特卡罗方法?-广义策略迭代框架任何方法都可以用广义策略迭代方法来统一:即先对当前策略进行策略评估,也就是说计算出当前策略所对应的值函数;然后,利用值函数改进当前策略。蒙特卡罗-策略评估目标:在给定策略下,从一系列的完整Episode中学习得到该策略下的状态价值函数数学描述如下:基于特定策略π的一个Episode信息可以表示为如下的一个序列t时刻St的收获:该策略下某状态s的值函数蒙特卡罗-策略控制问题:使用动态规划算法来改善策略,需要知道某一状态的所有后续状态及状态间转移概率:
MC:在模型未知的条件下无法知道当前状态的所有后续状态,进而无法确定在当前状态下采取怎样的行为更合适解决方法:使用状态行为对下的价值Q(s,a)来代替状态价值
V(s):
蒙特卡罗-改进1改进:评估策略时,用状态行为价值Q(s,a)来代替评估状态价值
V(s)。蒙特卡罗-改进2问题:我们每次都使用贪婪算法来改善策略的时候,将很有可能由于没有足够的采样经验而导致产生一个并不是最优的策略,解决方案:我们需要不时的尝试一些新的行为,这就是探索(Exploration)改进:控制策略时,用e-贪心方法替代贪心方法。蒙特卡罗-改进3问题:传统方法经历多个Episode之后才进行依次Q函数更新、策略改善。速度太慢。解决方法:每经历一个Episode之后就更新Q函数或改善策略。问题:Ɛ-贪婪探索没有终止条件,因为它一直在进行探索,最优策略不应该包括一些随机行为选择。解决方法:设置终止条件。改进:迭代方法上,每经历一个轨迹,就进行一次评估和改善。为策略改善方法设立终止条件蒙特卡罗-GLIE(GreedyintheLimitwithInfiniteExploration)优点:可以在有限的时间内进行无限可能的探索。具体表现为:所有已经经历的状态行为对会被无限次探索;另外随着探索的无限延伸,贪婪算法中Ɛ值趋向于0。蒙特卡罗示例-二十一点游戏描述状态空间:(多达200种,根据对状态的定义可以有不同的状态空间,这里采用的定义是牌分)当前牌的分数(12-21),低于12时,你可以安全的再叫牌。庄家出示的牌(A-10),庄家会显示一张牌面给玩家是否有A牌(是或否)。A既可以当1点或11点。行为空间
停止要牌/继续要牌奖励(停止要牌):+1:如果你的牌分数大于庄家分数0:如果两者分数相同-1:如果你的牌分数小于庄家分数奖励(继续要牌):-1:如果牌的分数>21,并且进入终止状态0:其它情况状态转换:如果牌分小于12时,自动要牌当前策略:牌分只要小于20就继续要牌。求解问题:评估该策略的好坏。蒙特卡罗示例-策略评估求解过程:使用庄家显示的牌面值、玩家当前牌面总分值来确定一个二维状态空间,区分手中有无A分别处理。统计每一牌局下决定状态的庄家和玩家牌面的状态数据,同时计算其最终收获。通过模拟多次牌局,计算每一个状态下的平均值,得到如下图示。最终结果:无论玩家手中是否有A牌,该策略在绝大多数情况下各状态价值都较低,只有在玩家拿到21分时状态价值有一个明显的提升蒙特卡罗示例-最优策略最优策略:当你手上有可用A时,大多数情况下当你的牌面和达到17或18时停止要牌,如果庄家可见的牌面在2-9之间,你选择17,其它条件选择18;当你手上没有A时,最优策略提示大多数情况下牌面和达到16就要停止叫牌,当庄家可见的牌面在2-7时,这一数字更小至13甚至12。这种极端情况下,宁愿停止叫牌等待让庄家的牌爆掉。提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录时间差分方法模型状态转移及奖励的情况下,学习不完整的轨迹,通过贝尔曼递推公式(自举的方法)求取值函数,获得最优解。05为什么要使用时间查分?背景时序差分学习简称TD学习,和蒙特卡洛一样,它也从Episode学习,不需要了解模型本身;但是它可以学习不完整的Episode。与蒙特卡罗区别时间查分vs蒙特卡罗-求解示例MC算法,由于需要完整的Episode,因此仅Episode1可以用来计算A的状态价值,很明显是0;同时B的价值是6/8本质:MC算法试图收敛至一个能够最小化状态价值与实际收获的均方差的解决方案时间查分vs蒙特卡罗-求解示例TD算法将首先根据已有经验估计状态间的转移概率,奖励,构建一个MDP,最后计算该MDP的状态函数时间查分vs蒙特卡罗vs动态规划MC:采样,一次完整经历,用实际收获更新状态预估价值TD:采样,经历可不完整,用下一状态的预估状态价值预估收获再更新预估价值DP:没有采样,根据完整模型,依靠一个状态S所有可能的转移状态S’、转移概率、、即时奖励来计算这个状态S的价值时间查分:同策略vs异策略同策略:产生采样的策略和评估控制的策略是同一个策略。异策略:产生采样的策略和评估控制的策略是同一个策略。异策略:较容易的从人类经验或其他个体的经验中学习,也可以从一些旧的策略中学习,可以比较两个策略的优劣。其中可能也是最主要的原因就是遵循一个探索式策略的基础上优化现有的策略。同策略时间查分:sarsa遵循某一策略时,在S,选择一个行为A,与环境交互,得到奖励R,进入S’,再次遵循当前策略,产生一个行为A’,利用Q(S’A’)更新Q(S,A)同策略时间查分:sarsa异策略时间查分:Q-learning遵循策略:行为策略,u目标策略:评估改善的策略,pi它的要点在于,更新一个状态行为对的Q价值时,采用的不是当前遵循策略的下一个状态行为对的Q价值,而是采用的待评估策略产生的下一个状态行为对的Q价值。异策略时间查分:Q-learning异策略时间查分:Q-learning遵循策略:是基于当前状态行为价值函数的一个包含e的贪心策略,个体实际与环境交互的时候遵循的策略,它能保证经历足够丰富的新状态目标策略:是基于当前状态行为价值函数不包含e的单纯贪心策略,保证策略最终收敛到最佳策略提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录多步时间差分方法是单步时间差分(TD)的扩展。扩展之后产生了一类方法,连接了TD和MC。06什么是多步时间查分?背景先前所介绍的TD算法实际上都是TD(0)算法,括号内的数字0表示的是在当前状态下往前多看1步,要是往前多看2步更新状态价值会怎样?这就引入了n-step的概念n-步预测n-StepPrediction多步时间查分-TD(n)n-步回报TD(ג)-前向算法问题:既然存在n-步预测,那么n=?时效果最好呢ג实际过程中一般对每步的值函数都赋予一个权重,将各步时间差分返回值加权平均,用以更新值函数,求解最优策略。TD(ג)-前向算法更新一个状态的状态价值,必须要走完整个Episode获得每一个状态的即时奖励以及最终状态获得的即时奖励TD(ג)-后向算法从另一方面提供了一个单步更新的机制这是之前见过的一个例子,老鼠在连续接受了3次响铃和1次亮灯信号后遭到了电击,那么在分析遭电击的原因时,到底是响铃的因素较重要还是亮灯的因素更重要呢?
两个概念:频率启发Frequencyheuristic:将原因归因于出现频率最高的状态就近启发Recencyheuristic:将原因归因于较近的几次状态给每一个状态引入一个数值:迹追踪(EligibilityTraces,ES),可以结合上述两个启发。TD(ג)-后向算法该图横坐标是时间,横坐标下有竖线的位置代表当前进入了状态,纵坐标是效用追踪值
。可以看出当某一状态连续出现,E值会在一定衰减的基础上有一个单位数值的提高Sarsa(ג)后向算法提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录值函数逼近对于状态行为是连续变量的情况,通过引入线性或非线性函数对值函数进行近似,计算该函数的参数,实现在状态行为空间的泛化,用以解决包含连续变量或者复杂意义的场景情况07大规模强化问题的求解大规模强化学习问题如围棋有3_361个状态空间,控制直升机飞行需要一个连续状态空间。近似价值函数近似函数类型:线性回归/神经网络通过线性或非线性函数对值函数进行近似,求得该函数的参数,也就求所有状态的值函数线性法—梯度下降定义,作用假定J(w)是一个关于参数w的可微函数,定义J(w)的梯度如下:调整参数朝着负梯度的方向,寻找J(w)的局部最小值:
线性法—梯度下降定义作用目标:找到参数向量w,最小化近似函数与实际函数的均方差:
梯度下降能够找到局部最小值:使用随机梯度下降对梯度进行更新,来近似差的期望:每一步,参数朝着实际的价值函数进行一定程度地逼近。
线性法—梯度下降法进行函数近似用一个特征向量表示一个状态,每一个状态是由以w表示的不同强度的特征来线性组合得到
参数更新规则近似价值函数目标函数线性法—梯度下降方法之前所列的公式都不能直接用于强化学习,因为公式里都有一个实际价值函数,而强化学习没有监督数据,因此不能直接使用上述公式。强化学习里只有即时奖励,没有监督数据。我们要找到能替代的目标值,以便来使用监督学习的算法学习到近似函数的参数。
非线性法—DQN深度Q网络:深度强化算法。卷积神经网络+Q-Learning2015年2月,Google
DeepMind公司在Nature上发表了一篇论文:Human-levelcontrolthroughdeepreinforcementlearning。文章描述了如何让电脑自己学会打Atari2600电子游戏。Atari2600是80年代风靡美国的游戏机,总共包括49个独立的游戏,其中不乏我们熟悉的Breakout(打砖块),GalaxyInvaders(小蜜蜂)等经典游戏。Google算法的输入只有游戏屏幕的图像和游戏的得分,在没有人为干预的情况下,电脑自己学会了游戏的玩法,而且在29个游戏中打破了人类玩家的记录。
非线性法—DQN深度Q网络:网络的左边是输入,右边是输出。游戏屏幕的图像先经过两个卷积层(论文中写的是三个),然后经过两个全连接层,最后映射到游戏手柄所有可能的动作。非线性法—DQN非线性法—DQN算法要点DQN利用卷积神经网络逼近行为值函数深度神经网络表示值函数,参数为每层网络的权重,我们用w或者theta表示。我们这时候对值函数进行更新时其实更新的是参数。DQN所用的网络结构是3个卷积层+两个全连接层。输入是经过处理的4个连续的84x84图像,然后经过两个卷积层,两个全连接层,最后输出包含每一个动作Q值的向量。完成了高维状态输入,低维动作输出的表示问题。对于Atari游戏而言,高维状态输入指的是原始图像,低维动作输出指包含了所有动作的Q值的向量而已。非线性法—DQN算法要点DQN利用经验回放对强化学习过程进行训练通过经验回放为什么可以令神经网络的训练收敛且稳定?原因是:对神经网络进行训练时,存在的假设是独立同分布。而通过强化学习采集到的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络当然不稳定。经验回放可以打破数据间的关联。具体做法:在强化学习过程中,智能体将数据存储到一个数据库中,利用均匀随机采样的方法从数据库中抽取数据,利用抽取的数据对神经网络进行训练。非线性法—DQN算法要点DQN设置了目标网络来单独处理TD偏差。如下所示为q网络的损失函数,表示为td目标和要逼近值函数的的均方误差。算法在运行过程中维护两个神经网络DQN1,DQN2,一个网络固定参数专门用来产生TD目标,称为TD网络,目标值相当于标签数据。另一个网络专门用来评估策略,更新参数,逼近值函数。称为动作值函数逼近网络。若两者使用的参数相同,这样就容易使得数据间存在关联性,训练不稳定。参数不一致,则可以解决这个问题。用于动作值函数逼近的网络每一步都更新,而用于计算TD目标的网络每个固定的步数更新一次。提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录策略函数逼近因为值函数在某些情况下不能很好的解决问题,在某些场合,直接分析策略更方便,该逼近使用策略梯度上升的求解方法绕过了值函数,直接求解最优策略08基于值函数vs基于策略vsAC方法为什么要使用策略函数逼近方法?大规模强化学习问题参数化的目的是为了解决大规模问题。通过参数化,用少量的参数来合理近似实际的函数。做法:利用参数化的策略函数,通过调整这些参数来得到一个较优策略。具体的机制是设计一个目标函数,对其使用梯度上升(GradientAscent)算法优化参数以最大化奖励。与值函数相比,有如下优点?更好的收敛性;在对于那些拥有高维度或连续状态空间来说,使用基于价值函数的学习制定策略时,需求取最大值,比较困难,基于策略的学习回避了这个问题。能够学到一些随机策略有时候计算价值函数非常复杂。基于策略就简单许多,比如接球问题:只需要朝着小球落地的方向移动修改策略就行。策略目标函数优化策略的最终目的是什么?尽可能获得更多的奖励。设计一个目标函数来衡量策略的好坏。策略目标函数使用每一个时间步长在各种情况下所能得到的平均奖励。d是在当前策略下马尔科夫链的关于状态的一个静态分布。优化目标函数,找到参数θ来最大化目标函数,多数情况下使用梯度上升求解。有限差分策略梯度策略梯度令J(θ)可以是任何类型的策略目标函数,策略梯度算法可以使J(θ)沿着其梯度上升至局部最大值。同时确定获得最大值时的参数θ:
有限差分策略梯度具体做法是,针对参数θ的每一个分量θk,使用如下的公式粗略计算梯度:
u_k是一个单位向量,仅在第k个维度上值为1,其余维度为0。假设在每一个维度都对参数进行干扰,观察干扰前后目标差异,就是沿着这个方向计算的梯度。在每个维度都这样分开计算有限差分法简单,不要求策略函数可微分,适用于任意策略;但有噪声,且大多数时候不高效。
策略梯度理论分析-得分我们将理论分析并计算策略梯度。这要求策略在执行行为时刻是可微分的,并且其梯度是能计算出来的Scorefunction得分函数函数在某个变量θ处的梯度等于该处函数值与该函数的对数函数在此处梯度的乘积。
策略梯度理论分析-策略梯度定理单步MDP问题从一个分布中采样得到一个状态s,从s开始,采取一个行为a,得到即时奖励然后终止。整个MDP只有一个状态、行为、即时奖励。可以看出目标函数的梯度等于策略函数对数梯度(得分)与即时奖励两部分乘积的期望一个问题是单步MDP的情况是否适用于多步MDP呢?策略梯度理论分析-策略梯度定理扩展到MDP问题答案是肯定的。唯一要变动的就是把即时奖励值换成目标的Q值。蒙特卡罗策略梯度针对具有完整Episode的情况,我们应用策略梯度理论,使用随机梯度上升来更新参数。公式里的期望,通过采样替代,即使用t时刻的收获V。作为当前策略下行为价值的无偏估计随机初始化策略函数的参数θ,对当前策略下的一个Episode:从t=1到t=T-1间的每一个时刻,计算个体获得的收获v,然后更新参数θ。如此然后重复每一个Episode,直到结束缺点:算法收敛速度慢,需要的迭代次数长,还存在较高的方差
Actor-Critic策略梯度主要思想参使用蒙特卡罗策略梯度方法噪声比较大,方差较高。如果能够相对准确地估计状态价值,用它来指导策略更新,会有更好的学习效果。直接利用Q函数逼近方法评估Actor-Critic策略梯度基于Actor-Critic策略梯度学习分为两部分内容:Critic:参数化行为价值函数Qw(s,a),并进行估计Actor:按照Critic部分得到的价值,引导策略函数参数θ的更新。Actor-Critic策略梯度Critic通过线性近似的TD(0)更新w,Actor通过策略梯度更新θ。具体算法流程如下提出问题基础求解方法联合求解方法强化学习概述第一章马尔科夫决策过程第二章动态规划第三章蒙特卡罗第四章时间差分第五章值函数逼近第七章策略函数逼近第八章第九章集成学习与规划目录整合学习与规划从一个统一的视角来阐述基于环境模型的方法(规划方法:比如动态规划)和不需要模型的方法(学习方法:如TD和MC)09重要概念-学习与规划(Learning&Planning)学习:环境初始时是未知的,个体不知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新疆铁道职业技术学院单招综合素质考试题库附答案详细解析
- 江苏省苏锡常镇四市2026届高三下学期教学情况调研(一)英语试卷 含答案
- 2026年哈尔滨电力职业技术学院单招职业适应性测试题库有答案详细解析
- 2026年江南影视艺术职业学院单招职业适应性测试题库附答案详细解析
- 标准劳动合同(农民工)
- 2026年锅炉水处理合同
- 2025-2026学年天津快板教学设计文案
- 8.3.1 评价自己的健康状况 教学设计-2023-2024学年人教版生物八年级下册
- 2025-2026学年社会扎染大班教案
- 自定主题活动记录表一教学设计小学综合实践活动二年级下册浙科技版
- 2026年吉安职业技术学院单招综合素质考试题库含答案详解
- 2026年安徽林业职业技术学院单招综合素质考试题库含答案解析
- 薄抹灰施工方案
- 2026年餐饮服务标准操作流程培训
- 2026年南京交通职业技术学院单招职业技能考试题库及答案详解(基础+提升)
- 卫生院防雷安全生产制度
- 绍兴2025年浙江绍兴市政务服务办公室招聘政务服务专员6人笔试历年参考题库附带答案详解
- 中华人民共和国药品管理法实施条例培训宣贯
- 2024新版2026春北师大版八年级数学下册全册教案教学设计
- 【生物】2025-2026学年人教版生物七年级下册核心知识点
- 基层信访工作培训课件
评论
0/150
提交评论