版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
马尔科夫决策过程教学提纲1掌握马尔科夫过程的基本形式2掌握马尔科夫奖励过程和贝尔曼方程3掌握马尔科夫决策过程4掌握最优策略和贝尔曼最优方程序贯决策回顾:强化学习是参与者为了达到长期回报最大化的目标,通过观察系统环境不断试错进行学习的过程,并最终形成最优策略。序贯决策问题:针对随机动态系统的不确定性按时间顺序给出最优策略。(强化学习目标)马尔科夫决策过程(MarkovDecisionProcess,MDP)是解决序贯决策问题的经典方法。3马尔科夫过程马尔科夫性:无后效性的随机过程未来的状态只与当前状态有关,与过去所有状态无关马尔科夫过程:具备马尔科夫性的随机过程马尔科夫链:状态离散的马尔科夫过程准确数学定义转移概率马尔科夫链的统计特性完全由条件概率𝑃{𝑋𝑛+1=𝑠𝑛+1|𝑋𝑛=𝑠𝑛}决定转移概率:从第𝑛步的状态𝑖转移到第𝑛+1步的状态𝑗的条件概率当马尔科夫链{𝑋𝑛}的转移概率𝑝𝑖𝑗(𝑛)与时间参数𝑛无关时,该马尔科夫链具有平稳转移概率;具有平稳转移概率的马尔科夫链是齐次的初始概率:绝对概率:
转移概率矩阵
满足这2条性质的矩阵被称作随机矩阵
𝑛步转移概率矩阵也是随机矩阵通常用于求解𝑛步转移概率矩阵,其中:P(𝑛)表示𝑛步转移概率矩阵P𝑛表示𝑛个P
相乘例子状态空间𝑆={1,2},状态1和状态2之间的状态转移图及(一步)转移概率矩阵如下图(状态转移图和转移概率矩阵)所示,初始概率𝑝1=1,𝑝2=0,求由状态1到状态2的两步转移概率𝑝(2)12答案马尔科夫奖励过程从随机过程的角度了解完基本知识之后,来介绍强化学习中马尔科夫过程的表示方法以上可见,二元组是强化学习中对马尔科夫过程的常见表示,并且,在强化学习中的马尔科夫过程一般指的是齐次马尔科夫链。马尔科夫奖励过程(MarkovRewardProcess,MRP)是指包含奖励函数(RewardFunction)的马尔科夫链。贝尔曼方程(BellmanEquation)
贝尔曼方程
贝尔曼方程实际应用答案马尔科夫决策过程强化学习的理论基石在强化学习过程中,参与者不间断地观察具有马尔科夫性的系统环境,根据观察到的系统环境状态,参与者依据自身的策略,从可行的动作集中选择一个动作,系统依据其状态转移概率矩阵转换到新状态,并返回相应奖励,参与者根据新观察到的系统状态,根据自身的策略重新进行下一步的动作。马尔科夫性的系统环境参与者依据自身的策略选择行动观测当前状态行动作用于环境依据状态转移概率矩阵转换到新状态奖励马尔科夫决策过程的形式化表示参与者根据观察到的环境状态𝑆𝑡∈𝑆,从可行的动作集𝐴中选择一个动作𝐴𝑡
作出决策系统根据其状态转移概率矩阵P转移到新状态𝑆𝑡+1,并针对参与者的行动𝐴𝑡给出相应的奖励R𝑡+1参与者根据新观察到的状态𝑆𝑡+1重新进行下一步的动作𝐴𝑡+1强化学习过程是解决序贯决策问题,可由马尔科夫决策过程完全刻画马尔科夫决策过程的历史记录是由一系列的状态、行动和奖励所组成的时间序列:马尔科夫决策过程的形式化表示马尔科夫奖励过程可以由一个四元组(𝑆,P,𝑅,𝛾)表示,马尔科夫决策过程就是在马尔科夫奖励过程中加入一组有限的行动集(行为集合A)马尔科夫决策过程可以由一个五元组(𝑆,𝐴,P,𝑅,𝛾)表示:(1)𝑆,是一组有限的状态集合,𝑆={𝑠1,𝑠2,...}(2)𝐴,是一组有限的行动集合,𝐴={𝑎1,𝑎2,...}(3)P,是状态转移概率矩阵,𝑝𝑎𝑠𝑠′=𝑃{𝑆𝑡+1=𝑠′|𝑆𝑡=𝑠,𝐴𝑡=𝑎}(4)𝑅,是奖励函数,𝑅𝑎𝑠
=𝐸[𝑅𝑡+1|𝑆𝑡=𝑠,𝐴𝑡=𝑎](5)𝛾,是折现因子,𝛾∈[0,1]看起来很类似马尔科夫奖励过程,但这里的P和R都与具体的行为a对应,而不像马尔科夫奖励过程那样仅对应于某个状态,A表示的是有限的行为的集合。策略和值函数策略:参与者观察环境后产生的行动方案,马尔科夫决策过程采取的是随机性策略参与者采取不同行动的概率,即给定一个状态𝑠,参与者采取行动𝑎的概率为:
𝜋(𝑎|𝑠)=𝑃{𝐴𝑡=𝑎|𝑆𝑡=𝑠}值函数:针对状态或行动的评价函数值函数,包括状态值函数和状态-行动值函数。采用策略𝜋,状态𝑠获得的期望回报:𝑣𝜋(𝑠)=𝐸𝜋[𝐺𝑡|𝑆𝑡=𝑠]状态-行动值函数:采用策略𝜋,在状态𝑠下采用动作𝑎获得的期望回报𝑞𝜋(𝑠,𝑎)=𝐸𝜋[𝐺𝑡|𝑆𝑡=𝑠,𝐴𝑡=𝑎]马尔科夫决策过程中的贝尔曼方程由上可见,值函数可以分为:(1)当前时刻获得的即时奖励(2)后续奖励在当前时刻的累积折现状态值函数𝑣𝜋(𝑠)与状态-行动值函数𝑞𝜋(𝑠,𝑎)之间的关系为:马尔科夫决策过程中的贝尔曼方程贝尔曼方程为:贝尔曼方程的含义计算图解:本例中,参与者在每种系统状态下有两种动作可以选择本例中,每个动作可能导致两种新的系统状态系统在𝑡时刻处于初始状态𝑆𝑡=𝑠参与者采取行动𝐴𝑡=𝑎在𝑡+1时刻,系统处于状态𝑆𝑡+1=𝑠′,参与者采取行动𝐴𝑡+1
=𝑎′状态值函数t时刻的状态-行动值MDP与MRP的关系给定马尔科夫决策过程MDP(𝑆,𝐴,P,𝑅,𝛾)和一个策略𝜋,其对应的马尔科夫奖励过程为MRP(𝑆,P𝜋,𝑅𝜋,𝛾)𝑝𝜋
𝑠𝑠′=Σ𝑎𝜋(𝑎|𝑠)𝑝𝑎𝑠𝑠′R𝜋
𝑠=Σ𝑎𝜋(𝑎|𝑠)R𝑎𝑠马尔科夫决策过程MDP(𝑆,𝐴,P,𝑅,𝛾)的贝尔曼方程为:其对应的马尔科夫奖励过程为MRP(𝑆,P𝜋,𝑅𝜋,𝛾)的贝尔曼方程为:最优化最优策略强化学习的目的是找到最优策略,使获得的长期回报最大获得最优状态值函数和最优状态-行动值函数最优值函数定义:对任意马尔科夫决策过程,必存在一个最优策略,所有的最优策略都会达到最优值函数可以通过最大化最优状态-行动值函数找到:最优状态值函数:所有可能策略下状态值函数中最大的最优状态-行动值函数:所有可能策略下状态-行动值函数中最大的最优化贝尔曼最优方程(BellmanOptimalityEquation)由最优状态值函数、结合贝尔曼方程式得出本章小节所有强化学习问题的分析都可以基于马尔科夫决策过程(MDP)来进行基于研究可行性和归纳性的考量,马尔科夫决策过程将现实环境抽象形成一个环境模型,公式化地定义了强化学习的几大关键要素,包括状态、行动、奖励、转移概
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 循证康复实践中的康复-经验创新
- 循证康复实践中的健康管理整合
- 影像组学模型在肿瘤治疗决策支持系统中的应用
- 影像检查成本与临床需求匹配
- 康复评估的循证康复循证决策支持
- 康复医学研究生科研学科交叉成果
- 智能检测认证中心在高端装备制造业中的建设与产业布局可行性探讨
- 高中政治经济学理论与现实经济问题分析课题报告教学研究课题报告
- 2026年幼儿园上学期中班工作计划
- 人工智能辅助教学中的版权冲突与法律应对研究教学研究课题报告
- 2025年植保无人机应用推广项目可行性研究报告
- 验收规范考试试题及答案
- 人工智能课件说课稿
- DB5104-T 82-2023 康养产业项目认定规范
- 2025江苏连云港市教育局教研室选调教研员3人(公共基础知识)综合能力测试题附答案解析
- 小学语文教师数字教学能力提升策略与教学实践教学研究课题报告
- 2025年中国休闲农业与乡村旅游研究报告
- 失能老年人健康管理服务规范(完整版·附实施流程与评估标准)
- 统一战线教学课件
- 2025广东东莞市谢岗镇招聘编外聘用人员23人参考题库及答案详解(典优)
- 儿童科普太阳系知识
评论
0/150
提交评论