下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
马尔可夫决策过程分析综述 强化学习的原理可用图2.1表示,智能体(Agent)在执行一项工作时,首先通过动作A与周围环境(Environment)进行交互,智能体会依据当前的状态选择一种动作,从而产生新的状态,同时环境会依据智能体所采取的动作给出智能体一个回报(Reward)。智能体与环境不断的进行交互产生很多组数据。强化学习利用这些数据不断地修改自身的策略(Policy),智能体最终可以得到问题的最优解。 强化学习历经数十年的探索,已经有了一套可以解决绝大部分强化学习问题的框架,这个框架是马尔可夫决策过程(MarkovDecisionProcess,MDP)在了解马尔可夫决策过程之前需要先了解马尔可夫性,马尔可夫过程。图2.1强化学习原理1.1马尔可夫性 马尔可夫性质(MarkovProperty),指一个随机事件的未来状态仅依赖于当前的状态,而与过去的状态无关,马尔可夫性质的数学定义见式(2-1)。Pst+1st=P[st+1从定义可知,当前状态是包含了所有相关的历史信息,一旦当前状态已知,历史信息将会被抛弃。在数学中,若一个随机过程中的每一个状态都满足马尔可夫性质,则称这一个随机过程为马尔可夫随机过程。在强化学习中,智能体所需完成的任务并不一定完全满足马尔可夫性质,因此,为了简化问题的求解过程,一般假设任务满足马尔可夫性质,并通过约束条件使得问题满足马尔可夫性质。1.2马尔可夫过程 马尔可夫过程(MarkovProcess)是一个无记忆的随机过程。数学上通过一个二元组<S,P>来描述,其中需满足:S是有限状态集合,P是状态转移概率。状态转移概率通常使用状态转移矩阵来描述,状态转移矩阵见式(2-2):P=P11…P1n…P 状态转移矩阵是马尔可夫过程中状态之间的转移概率所组成的矩阵,因此矩阵的大小是状态数n的平方,这反映了当前状态以及后续状态的映射。上述状态转移矩阵表示了由状态st转移到st+1的概率分布,由此可以看出在一个马尔可夫过程中存在多种状态转移的序列,这种状态转移序列被称作马尔可夫链(Markov1.3马尔可夫决策过程 马尔可夫决策过程(MarkovDecisionProcess,MDP),一个MDP由一个五元组构成<S,A,P,R,γ>。其中S为一个有限的状态空间集,A为动作空间集,P为状态转移矩阵,表示当前状态在执行一个动作后,转移到下一个状态的概率分布。R是奖励函数,表示当前状态在执行某一动作后进入下一个状态时所获得的奖励。γ是折扣因子,代表了在执行序列决策时,更加侧重于即时奖励或长远奖励。 其中MDP的状态转移概率的定义是不同于马尔可夫过程的,MDP的状态转移概率是包括动作的,其定义见式(2-3):Pss'a=[St+1= 基于以上定义可知MDP是一种序贯决策的数学模型用于在系统的状态满足马尔可夫性质的环境中模拟智能体可以实现的随机性策略与回报。MDP基于智能体与环境进行构建,包括state,action,policy,reward。在MDP模拟中,智能体会感知当前所处的状态,依据策略执行动作,从而改变所处环境同时获得奖励,奖励随着时间的积累最终称为回报。在强化学习中智能体试图使从环境中获得的回报最大化,而不是即时奖励,因此智能体所获得的奖励总额(回报)可按照公式(2-4)计算:Rt=rt+1+rt+2 公式中,rt+1是智能体在在时间t执行动作a 在MDP中,智能体的目标是使的最终回报最大化。如果马尔可夫决策过程最终可以一直执行永不结束,那么奖励值之和是无穷大的,无法实现最大化。因此引入了折扣因子,利用折扣因子可以重新定义回报函数,见公式(2-5):Rt=rt+1+γrt+2 折扣因子决定了对于未来奖励与即时奖励的重要性。折扣因子的设定值在0-1之间。当折扣因子为0时,代表即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年应急救护知识竞赛
- 2026年二建公路实务高频考点题
- 2025江苏苏州市常熟市教育投资有限公司招聘人员拟录用笔试历年参考题库附带答案详解
- 2025新疆鸿荣轻工有限公司招聘150人(鸿星尔克)笔试历年参考题库附带答案详解
- 2025广西梧州市龙投人力资源有限公司拟聘用人员笔试历年参考题库附带答案详解
- 2025广东珠海市立潮人力资源服务有限公司招聘面点师笔试历年参考题库附带答案详解
- 2025年甘肃省华能庆阳煤电有限责任公司高校毕业生(补录)招聘笔试历年参考题库附带答案详解
- 2026年火电厂热工自动化技术培训通关试卷(重点)附答案详解
- DB15∕T 4375-2026 农牧交错带牧草周年轮供技术规程
- 类风湿关节炎管理建议更新总结2026
- 活塞式压气机课件
- 第四版(2025)国际压力性损伤溃疡预防和治疗临床指南解读
- 《云南省上拉式外脚手架施工技术标准》
- 警棍盾牌基本动作课件
- YST693-2022铜精矿单位产品能源消耗限额
- 盾构弃壳施工方案
- 2025-2026秋季学年第一学期安全主题班会教育记录(共22周)
- 三管三必须安全培训课件
- 校外培训机构安全管理领导小组职责
- 江苏南通2021-2024年中考满分作文57篇
- 2025年县司法局司法协理员招聘考试笔试试题(含答案)
评论
0/150
提交评论