【《强化学习算法的理论基础综述》3800字】

上传人：E*** IP属地：湖北上传时间：2026-04-25 格式：DOCX 页数：9 大小：258.21KB 积分：13 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

强化学习算法的理论基础综述目录TOC\o"1-3"\h\u16891强化学习算法的理论基础综述 127381.1.1强化学习基本原理 1287001.1.2马尔可夫决策 379681.1.3强化学习求解方法 4强化学习（ReinforcementLearning，RL）源自于自生物学中的动物行为训练，驯兽员使用奖励与惩罚的方法让动物学习行为与状态之间的某些联系ADDINNE.Ref.{DC256249-9A3F-433D-9E92-AA7B98CAA02F}[20]。普遍认为的定义是：智能体为了最大限度地提高奖励值，通过试错的方式不断地进行尝试，以期在一定环境下获得最佳的行为ADDINNE.Ref.{5388BF68-1013-423D-BB82-26FAF61CBEDE}[21]。强化学习是一种通过不断与环境进行交互来达到学习目的的方法，其正好适用于自动驾驶这种环境随时变化的任务。强化学习通过与环境交互来学习策略，不需要大量的人工标注数据，并且具有较强的探索能力。强化学习基本原理强化学习主要由智能体和环境组成。由于智能体和环境的交互方式类似于生物与其所在环境的交互，因此，可以认为强化学习是一套通用的学习框架。强化学习的基本框架如REF_Ref73318025\h图21所示，智能体通过状态、动作、奖励与环境进行交互。假设图中环境处于时刻t的状态，记为，智能于环境中执行某动作。这时动作改变了环境原本的状态并使智能体在时刻t+1到达新的状态，在新的状态使得环境产生了反馈奖励给智能体。智能体基于新的状态和反馈奖励执行新的动作，如此反复迭代的与环境通过反馈信号进行交互ADDINNE.Ref.{F2B6D347-95B9-43BD-ABC6-B4AB745C8CE7}[22]。图STYLEREF1\s2SEQ图\*ARABIC\s11强化学习的基本框架图上述过程的最终目的是让智能体最大化累计奖励，公式REF_Ref73377003\h（21）为累计奖励G的计算过程。（STYLEREF1\s2SEQ公式\*ARABIC\s11）在上述过程中，根据状态和奖励选择动作的规则称为策略π，其中价值函数v是累计奖励的期望。强化学习就是不断的根据环境的反馈信息进行试错学习,进而调整优化自身的状态信息,其目的是找到最优策略或者最大奖励ADDINNE.Ref.{29C51C6E-BE17-4749-B349-7EA4CC2FE4A7}[23]。下面介绍强化学习过程中的三个要素。（1）策略在强化学习中，智能体主要通过在环境中的不断尝试采样，学习到一个最优策略π。假设智能体学习到某一策略，那么其在任何时间步中的状态S下都能得到接下来需要执行的动作a。经过一段时间的执行后，智能体在该策略下所获得的累积奖励的期望成为价值v。策略在状态s下选择动作a的概率，其如公式REF_Ref73377031\h（22）所示：（STYLEREF1\s2SEQ公式\*ARABIC\s12）其中，如果给出的策略是确定性的，那么在该状态下的动作就是确定的，否则是非确定性的动作。（2）奖励值函数奖励函数R在强化学习中起着至关重要的作用，用来评价智能体执行某一策略的动作后所产生的效果的好坏。一般而言，环境是随机的或者未知的，这意味着下一个状态可能也是随机的。即由于所处的环境是随机的，所以无法确定下一次执行相同的动作。以及是否能够获得相同的奖励。而向未来探索的越多，可能产生的分歧（不确定性）就越多。所以评价一个策略的好坏则需要将当前状态的奖励函数和未来状态的奖励函数进行累加，其公式REF_Ref73377075\h（23）为：（STYLEREF1\s2SEQ公式\*ARABIC\s13）其中，R表示智能体在时间步t时能得到得奖励值，γ表示折扣率，γ的值越大，智能体越关心遥远的未来;γ的值越小，未来的奖励函数影响越小，极端情况下，智能体只会关心即时的奖励。（3）价值函数当执行到某一步时，如果需要评估当前智能体在该时间步状态的好坏程度主要由价值函数（ValueFunction）来完成。由于价值函数的输入分为状态s和<状态-动作>对，我们在输入状态时统称为状态值函数，输入<状态-动作>对时统称为动作值函数（Action-ValueFunction），当不讨论其输入时，统称为价值函数。状态值函数v(s)是对未来奖励的预测，表示在状态s下,执行动作a会得到的奖励期望，如公式REF_Ref73377113\h（24）：（STYLEREF1\s2SEQ公式\*ARABIC\s14）而动作值函数主要用来评估当前智能体在状态s选择动作a的好坏程度。用q(s,a)来表示，如公式REF_Ref73377141\h（25）：（STYLEREF1\s2SEQ公式\*ARABIC\s15）马尔可夫决策马尔可夫决策过程（MarkovDecisionProcesses，MDP）是强化学习的核心，其定义为：如果一个过程的后继状态，只由当前状态所决定，这样的交互过程则可以看作是一个马尔可夫决策过程ADDINNE.Ref.{934F1C6F-A04B-4587-9BB7-FC5EF12C4995}[24]。一个完整的马尔可夫决策过程由一个五元组构成，即。其中，状态空间集S：表示时间步i的状态，其中。动作空间集A：表示时间步的动作，其中。状态转移概率：表示在当前状态s下执行动作a后，转移到另一个状态的概率分布,记作；如果带有获得的奖励r，则记作。奖励函数R：在状态s下执行动作a后转移到状态获得的奖励为r，其中。折扣因子γ：当前动作对未来的影响。马尔可夫决策中的状态转化过程如图所示。智能体在状态下选择动作并执行，到达下时刻的状态；在状态下选择动作并执行，到达下时刻的状态。不断往下循环，最终到达状态。图STYLEREF1\s2SEQ图\*ARABIC\s12马尔可夫决策的状态转化过程图强化学习求解方法强化学习的数学基础理论基于具有马尔可夫性质的马尔可夫决策过程，定义强化学习中的值函数和动作值函数后，通过贝尔曼方程对值函数或动作值函数进行形式化表示，最终得到强化学习任务的求解方法。简而言之，强化学习通过优化贝尔曼方程，进而完成带有马尔可夫决策过程的强化学习任务。这使得强化学习的求解过程转化成优化贝尔曼方程，从而大大降低了求解任务的复杂度和学习难度。基于贝尔曼方程可以有三种求解方法：动态规划法，蒙特卡洛法和时间差分法。下面分别介绍这三种算法。2.1.3.1动态规划法强化学习的核心思想是使用值函数v(s)或者状态值函数q(s,a)找到更优的策略π∗给智能体进行决策使用。最优状态值函数与最优动作值函数满足贝尔曼最优方程（Bellmanoptimalityequation），其公式REF_Ref73377316\h（26）和公式REF_Ref73377400\h（27）如下：（STYLEREF1\s2SEQ公式\*ARABIC\s16）（STYLEREF1\s2SEQ公式\*ARABIC\s17）其中，状态、动作、新的状态，最优价值为环境中的每一个状态s和动作a对应的动作状态转化概率乘以未来折扣奖励中的最大价值。其中，为价值函数，可以为或者。动态规划法主要是将上式中的贝尔曼方程转化为赋值操作，通过更新价值来模拟价值更新函数。使用动态规划法求解强化学习时，为了对策略进行评估和改进，从而引入策略评估（PolicyEvaluation,PE）和策略优化（PolicyOptimization,PO）。（1）策略评估对于任意的策略π，策略评估（PolicyEvaluation,PE）可以合理估算该策略带来的累计奖励期望以及准确衡量该策略的优劣程度。对于某一确定性策略，计算其状态值函数，具体实现算法如公式REF_Ref73377443\h（28）：（STYLEREF1\s2SEQ公式\*ARABIC\s18）（2）策略改进策略评估的目的是为了衡量策略的好坏程度，而策略改进（PolicyImprovement，PI）的目的是为了找到更优的策略。对一个动作值函数，可采用贪婪算法获得更优策略，如公式REF_Ref73377566\h（29）：（STYLEREF1\s2SEQ公式\*ARABIC\s19）（3）策略迭代策略迭代的整个过程如REF_Ref73318622\h图23所示，假设现在有一个策略，首先利用策略评估获得该策略状态值函数，然后基于策略改进，获得更优的策略；接着再次利用策略评估得到新策略的状态值函数；最后根据策略改进获得更优的策略。如上所述，反复交替的使用策略迭代和策略改进。经过多轮交替策略迭代，算法不断逼近最优状态值，最后找到最优的策略和其对应的状态值函数。图STYLEREF1\s2SEQ图\*ARABIC\s13策略迭代的过程图（4）值迭代结合策略改进和截断式策略评估，策略迭代算法可以转化为效率更高的值迭代算法。具体而言，每次迭代对所有的状态进行更新，得到如下公式REF_Ref73377629\h（210）：（STYLEREF1\s2SEQ公式\*ARABIC\s110）上式的目的是最大化状态值的概率，表示迭代到第k+1次时，值迭代能够把获得的最大状态值赋值给。直到算法结束，再通过状态值v获得最优的策略。其中，表示在状态s下执行动作a，环境转移到状态并获得奖励的概率。动态规划法完成强化学习任务是在假设环境模型已知的前提下。并可以使用马尔可夫决策过程。其优点在于有完美的数学解释，缺点是需要建立在一个完全已知的环境模型下。实际上，环境模型完全已知这个条件在现实情况下很难做到。当环境的状态空间非常庞大时，算法需要多次遍历所有状态，其效率也难以满足实际的任务需求。虽然动态规划法目前存在着一些不足，但由于强化学习任务基于马尔可夫决策过程。深入了解动态规划法来求解强化学习问题意义重大。2.1.3.2蒙特卡洛控制算法针对基于模型的环境任务，可以直接通过动态规划算法迭代地求解状态值函数v(s)。然而，真实世界中大部分强化学习任务都是免模型的情况，常规的动态规划算法无法进行求解。针对免模型情况下的强化学习任务，可以采用蒙特卡洛控制算法（MC），多次对环境进行“模拟-采样-估值”来进行求解。蒙特卡洛控制主要基于动作值函数，因此在模型未知时无需使用贪婪策略算法进行探索。蒙特卡洛控制策略迭代的过程如REF_Ref73377687\h图24所示。图STYLEREF1\s2SEQ图\*ARABIC\s14蒙特卡洛控制策略迭代过程图蒙特卡洛策略迭代的主要目的是使得策略改进时无需了解模型的完备知识，只在某个状态下采取某种动作使得其价值最大即可。2.1.3.3时间差分控制算法由于蒙特卡洛法基于概率论，不能够真正意义上表达马尔可夫决策过程。基于此，科学家们引入了时间差分（TD）学习法去求解动作值函数q(s,a)。相较于蒙特卡洛法，时间差分法能够更合理的表示马尔可夫决策过程。时间差分控制主要分为固定策略和非固定策略两种。下面介绍属于固定策略的时间差分控Sarsa算法和属于非固定策略的Q-learning算法。（1）Sarsa算法Sarsa算法估计的是动作值函数，即估计在策略下对于任意状态s上所有可能执行动作a的动作值函数而非状态值函数。因此，将时间差分基本式中的状态值函数替换为动作值函数，得到公式REF_Ref73377752\h（211）：（STYLEREF1\s2SEQ公式\*ARABIC\s111）其中，为时间差分目标，为时间查分误差。上式中的动作值函数的每一次更新都需要用到五个变量：当前状态s、当前动作a、获得的奖励r、下一时间步状态和下一时间步动作。上述五个变量组合成。（2）Q-learning算法与属于固定性策略的Sarsa算法不同。Q-learning算法属于非固定策略。即Sarsa算法选择动作时所遵循的策略和更新动作值函数所遵循的策略是相同的；Q-learning算法在动作值函数更新中采用的是不同于选择动作时所遵循的策略ADDIN

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《强化学习算法的理论基础综述》3800字】

文档简介

温馨提示

最新文档

评论

【《强化学习算法的理论基础综述》3800字】

文档简介

温馨提示

最新文档

评论

相关文档