强化学习基本知识

上传人：b*** IP属地：贵州上传时间：2020-03-31 格式：DOC 页数：7 大小：185KB 积分：20 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

强化学习基础知识强化学习基础知识作为人工智能领域机器学习 Machine Learnig 热点研究内容之一的强化学习 Reinforcement Learning RL 旨在通过在无外界教师参与的情况下智能体 Agent 自身通过不断地与环境交互试错根据反馈评价信号调整动作得到最优的策略以适应环境一一 Markov 决策过程决策过程 MDP 强化学习的来源是马尔科夫决策过程 M Markov 性的意思是 x 取 x 1 x 2 x 3 x n 所得到 x n m 的分布与 x 只取 x n 所得到的 x n m 的分布相同既是说未来状态的分布只与当前状态有关而与过去状态无关无后效性若转移概率函数 P s a s 和回报函数 r s a s 与决策时间 t 无关即不随时间 t 的变化而变化则 MDP 称为平稳 MDP 当前状态 s 所选取的动作是由策略 h 决定 S A 0 1 A s 在状态 s 下用策略所选取的动作动作后的结果是由值函数以评估它是由 Bellman 公式得到折扣因子 1 0 值函数 UuSs sVsasPasRashsV 动作状态值函数 SsAa asQsasPasRasQ 对于确定性策略有一个状态转移概率 ssQsV 对于不确定性策略有多个状态转移概率 Aa asQassV 强化学习的最终目的是找到最优策略选择值函数最大的动作最优值函数 max Ss sVsasPasRsV 或者最优动作状态值函数 Ss asQsasPasRasQ max 或者兼而有之为了避免局部最优需要进行随机探索为了逼近既定目标需要抽取最优策略所以算法中存在一个探索与利用的平衡达到平衡有两种方法策略和 Boltzmann 分布方法平衡离散域 greedy 对于电磁微阀控制 s 当前四个微阀状态 a 操作四个微阀的动作 0 为关闭 1 为开启 s 动作后微阀的新状态 P s a s 状态 s 调控微阀使其达到新状态 s 的概率在调控后这个状态的累计奖赏值 sV 本次动作的立即奖赏值根据各点温度及标准差的计算评估得到 asR s a 调节微阀的各种策略二基于模型的动态规划算法二基于模型的动态规划算法动态规划是一个多阶段的决策问题在最优决策问题中常规动态规划算法主要分为下面四类第一类是线性规划法第一类是线性规划法根据 Bellman 方程将值函数的求取转化为一个线性规划问题线性规划方程包含 S 个变量 S A 个不等式约束其计算复杂度为多项式时间 Ss Ss AaSssVsasPasRsVts sV max 第二类是策略迭代第二类是策略迭代仍然是基于 Bellman 最优方程的算法通过策略评估与策略迭代的交替进行来求取最优策略策略迭代分为策略评估和策略改进两部分在评估部分对于一个给定的策略根 k 据 Bellman 公式求解和对于评估部分用贪婪策略得到改进的策略 sV k asQ k 1 k 第三类是值函数迭代法第三类是值函数迭代法其本质为有限时段的动态规划算法在无限时段上的推广是一种逐次逼近算法将 Bellman 公式改写为就 Ss t Aa t SssVsasRsasPsV 1 max 可跳过策略改进步骤直接用迭代法逼近最优值函数 V 从而求取最优策略第四类是广义策略迭代法第四类是广义策略迭代法综合了策略迭代和值迭代方法特点广义策略评估是策略评估与策略改进相结合的学习过程策略评估总是试图让策略和相应的值函数一致而策略改进总是破坏策略评估得到的一致性最终策略和值函数都不再变化是迭代结束下图在两个维度上两条线表示描述了广义策略迭代的逼近过程学习的最终目的是获得最优策略具体的学习过程可以在值函数唯独和策略策略维度上灵活的变化值函数迭代方法只在值函数维度上工作而策略迭代方法在值函数维度和策略维度上交叉进行许多动态规划与强化学习算法的思想都来源于广义策略迭代初始状态决策 1 决策 2 决策 n 结束状态三模型未知的强化学习三模型未知的强化学习对于求解模型未知的 MDP 问题通常有如下 3 类解决思路第一类是学习 MDP 的相关模型然后用动态规划算法予以求解此类方法称为间接强化学习第二类方法不需要估计 MDP 的模型直接利用采样对值函数或策略函数进行评估此类方法成为直接强化学习算法第三类是前两类方法的混合 1 蒙特卡罗方法蒙特卡罗方法蒙特卡洛方法是一种以部分估计整体利用随机数来解决问题的方法其通过统计模拟或抽样以获得问题的近似解该方法只是用于场景中存在终止状态的任务 MC 策略评估主要是利用大数定律以各个状态的回报值的样本平均来估计值函数最终发现最优策略 Re sturnaveragesV 得到的回报金额已赋给第一次访问的 s 也可以将每次访问到终止状态的回报平均 T s 后赋予给 s 的值函数鉴于 MC 策略评估只有在只有在无穷次迭代时才能精确计算因此有人提出了改 Q V VV Vgreedy V 进策略在一幕赋值完成后将用贪婪算法来更新以得到改进策略这样有利于维 k Q 1 k 持探索与利用的平衡也提高了的精确度 Q maxarg asQs Aa 但是面对着以上方法只利用不探索的缺陷将贪婪策略进行的改进引入了基于贪婪策略的在线 MC 控制策略主要做了两个改动第一个是将初始策略用贪婪策略来选择第二个是利用贪婪策略来进行策略更新即对于每一个 Aa 1 aaA aaA as max 1 asQasQ A asQasssQ Aa AaAa 在线策略 MC 控制算法中产生样本的行为策略核和进行 Q 值估计的评估策略是同一策略而在离线策略学习中两者是独立的评估策略用贪婪策略进行改进而行为策略可以根据具体情况灵活设计蒙特卡罗学习方法优点是不必依赖于马尔科夫决策过程在模型未知时也能选择出感兴趣的状态以求其值函数而不必遍历所有值函数 2 时间差分时间差分 TD 算法算法时间差分指的是对同一个变量在连续两个时刻观测到的值的差异假设在时刻 t 系统的状态 st的值函数表示为 V st rt为在当前状态下根据某种动作选择策略采取动作 at后使得状态发生变化转移至新状态 st 1时得到的即时奖赏状态 st下新的值函数的估计值 1 ttt sVrsV 那么时刻 t 的时间差分为 1tttt sVsVr TD 方法通过预测每个动作的长期结果来给先前动作赋予奖励或惩罚即依赖于后续状态的值函数来更新先前状态值函数的自举方法主要应用于预测问题只向后追踪一步的预测问题 TD 0 的迭代公式为 0 1 表示学习率因子 1ttttttt sVsVrsVsVsV 追踪多步的预测问题 TD 的迭代公式为 1tttttttt sesVsVrsVsVsV 为状态的资格迹对某一特定状态其资格迹随状态被访问次数的增加而增 t se 加该状态对整体的影响越大资格迹定义方式分为增量型和替代型两类 3 Q 学习和学习和 sarsa 学习学习 Q 学习不同于 TD 时序差分算法在于它用状态动作值函数 Q s a 作为评估函数而不是值函数 V s 它只需采取贪心策略选择动作而无需知道模型就可以保证收敛是目前最有效的强化学习算法在 Q 学习中 Q 都是估计值而不是实际值是从不同动作的估计值中选择最大 Q 值函数进行更新相对于 Q 学习利用模拟 Q 值进行迭代的离线学习 SARSA 学习更像是一种在线学习是严格根据策略实时更新行为决策与值函数迭代是同时进行的它们之间的区别是更新 Q s a 时一个用的是根据以往经验预测的最优策略一个用的是当前实际动作状态值函数 Q learning max 1 asQasQrasQasQ tt a ttttt Sarsa 1 asQasQrasQasQ ttttttt 4 Q 学习的优化方法学习的优化方法当传统的强化学习的问题空间 S A 变得庞大的时候有两个严重的问题影响了强化学习的实用性其一是速率问题 S A 数据量庞大因此强化学习算法常常收敛较慢其二是复用问题无论是值函数 V s 还是动作值函数 Q s a 或者是策略强化学习的结果总是依赖于 S A 的具体表示这意味着只要问题略微改变以前的学习结果就变得毫无用处但对于某些实际问题由于训练代价较高学习结果的可复用性是非常重要的这两方面激励了强化学习的迁移迁移学习就是复用过去的学习经验和结果以加速对于新任务的学习传统的强化学习方法适于处理小规模的离散状态或离散动作学习任务而不能求解连续状态空间和连续动作空间的问题 1 Dyna Q 学习学习对于环境复杂信息量大必须快速学习的情况例如矿井下的线路规划 Q 学习学习效率会很低它需要采集环境中的足够多的状态动作对和相应值函数才能收敛所花费时间过长不能及时指定路线针对这个问题提出了改进策略将 Dyna 学习框架加入到 Q 学习中可以利用少许真实数据建立环境估计模型然后用规划法产生虚拟样本并更新值函数这样可以以增加计算复杂度来降低时间复杂度 Dyna Q 学习与 Q 学习算法过程的区别是真实样本 T 不仅要更新值函数策略函数还要更新环境的估计模型 P 模型训练好便可产生虚拟样本自行更新转在线为离线集试错于认知将得鱼变成了得渔提高了学习效率但要处理好学习与规划的平衡问题 2 最小二乘时间差分最小二乘时间差分 Q 算法算法 LSTDQ Q 学习的查找表形式只适用于求解小规模离散空间问题而对于实际大规模或连续空间问题智能体不能遍历所有状态而用最小二乘法策略迭代法即可解决它主要通过估计值来逼近动作值函数其矩阵描述形式为 asQ Q 其中表示大小为 S A k 的基函数矩阵 T AS TTT asasas 1 1 通过最小二乘不动点逼近法来学习参数有 RPI 1 其中 P 是大小为 S A S 的矩阵 P s a s P s a s 大小为 S A S 矩阵 sass 输出或 T Aa ass maxarg 最小二乘策略迭代框架如下 3 解决维数灾难的方法解决维数灾难的方法高维空间训练形成的分类器相当于在低维空间的一个复杂的非线性分类器这种分类器过多的强调了训练集的准确率甚至于对一些错误异常的数据也进行了学习而正确的数据却无法覆盖整个特征空间维数越多接近球心样本越稀疏这导致训练数据量严重不足要是这时产生一个错误的新数据就会在预测时产生极大的误差这种现象称之为过拟合同时也是维灾难的直接体现动态规划问题的维数是指各阶段状态变量的维数当状态变量的维数增加时其计算量会呈指数性增长产生过拟合使 Q 学习难以收敛对新数据也缺乏泛化能力

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习基本知识

文档简介

温馨提示

最新文档

评论

强化学习基本知识

文档简介

温馨提示

最新文档

评论

相关文档