强化学习简介

上传人：1*** IP属地：湖北上传时间：2022-03-24 格式：PPT 页数：48 大小：2MB 积分：30 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、强化学习简介强化学习简介Reinforcement Learning2 2什么是机器学习（什么是机器学习（ Machine Learning）？）？机器学习是一门多领域交叉学科，涉及概率论、机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。识结构使之不断改善自身的性能。 1959年美国的塞缪尔设计了一个下棋程序

2、，这年美国的塞缪尔设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。自己的棋艺。4年后，这个程序战胜了设计者本人。年后，这个程序战胜了设计者本人。又过了又过了3年，这个程序战胜了美国一个保持年，这个程序战胜了美国一个保持8年之久年之久的常胜不败的冠军。的常胜不败的冠军。3 3机器学习的分类？机器学习的分类？机器学习机器学习监督学习：计算机获得简单的输入给出期望的输出，监督学习：计算机获得简单的输入给出期望的输出，过程是通过一个过程是通过一个“训练模型训练模型”，学习通用的准则来从，学习通用的准则来从输入映射到输出输入映射

3、到输出。无监督学习：没有给出标记用来学习算法，让它自己无监督学习：没有给出标记用来学习算法，让它自己去发现输入的结构。无监督学习自己可以被当成一个去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径（特征学习）。目标或者一个实现结果的途径（特征学习）。强化学习：一个计算机程序与动态环境交互，同时表强化学习：一个计算机程序与动态环境交互，同时表现出确切目标（比如驾驶一辆交通工具或者玩一个游现出确切目标（比如驾驶一辆交通工具或者玩一个游戏对抗一个对手）。这个程序的奖惩机制会作为反馈，戏对抗一个对手）。这个程序的奖惩机制会作为反馈，实现它在问题领域中的导航。实现它在问题领域中的导

4、航。4强化学习（强化学习（reinforcement learning）与监督学习、）与监督学习、非监督学习的区别非监督学习的区别n 没有监督者，只有奖励信号没有监督者，只有奖励信号n 反馈是延迟的，不是顺时的反馈是延迟的，不是顺时的n 时序性强，不适用于独立分布的数据时序性强，不适用于独立分布的数据n 自治智能体（自治智能体（agent)的行为会影响后续信息的的行为会影响后续信息的接收接收5思考：思考：五子棋：棋手通过数学公式计算，发现位置五子棋：棋手通过数学公式计算，发现位置1比位置比位置2价值大，这是强化学习吗？价值大，这是强化学习吗？这不叫强化学习，叫规划这不叫强化学习，叫规划如果通过

5、几次尝试，走位置如果通过几次尝试，走位置1比走位置比走位置2赢棋赢棋的可能性大，得出经验，则为强化学习的可能性大，得出经验，则为强化学习6强化学习模型强化学习模型几个定义几个定义自治智能体自治智能体Agent学习的主体，如小猫、小狗、人、机器人、控制程序等学习的主体，如小猫、小狗、人、机器人、控制程序等Agent的特点的特点1、主动对环境做出试探、主动对环境做出试探2、环境对试探动作反馈是评价性的（好或坏）、环境对试探动作反馈是评价性的（好或坏）3、在行动、在行动-评价的环境中获得知识，改进行动方案，达到评价的环境中获得知识，改进行动方案，达到预期目的预期目的 7奖励信号（奖励信号（rewar

6、ds）奖励信号奖励信号R是一个标量信号是一个标量信号表示表示agent在步骤在步骤T中所产生动作好坏中所产生动作好坏Agent的任务是最大化累积奖励信号的任务是最大化累积奖励信号8强化学习模型强化学习模型9例子例子图中黄点是机器人，图中黄点是机器人，目的是走到绿色的目的是走到绿色的方块方块reward+1000，黑色方块是墙壁，黑色方块是墙壁，撞到撞到reward-10，红色方块是陷阱，红色方块是陷阱，撞到撞到reward-1000，其他其他reward+010111213强化学习基本要素强化学习基本要素强化学习基本要素及其关系强化学习基本要素及其关系14策略定义了策略定义了agent在给定时

7、间内的行为方式，在给定时间内的行为方式，一个策略就是从环境感知的状态到在这些状一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。态中可采取动作的一个映射。可能是一个查找表，也可能是一个函数可能是一个查找表，也可能是一个函数确定性策略：确定性策略：a = (s)随机策略：随机策略： (a s) = PAt = a St = s15回报函数是强化学习问题中的目标，它把环境中回报函数是强化学习问题中的目标，它把环境中感知到的状态映射为单独的一个奖赏感知到的状态映射为单独的一个奖赏回报函数可以作为改变策略的标准回报函数可以作为改变策略的标准16值函数：一个状态起值函数：一个状态起agen

8、t所能积累的回所能积累的回报的总和。报的总和。在决策和评价决策中考虑最多的是值函在决策和评价决策中考虑最多的是值函数数17环境模型模拟了环境的行为，即给定一个状环境模型模拟了环境的行为，即给定一个状态和动作，模型可以预测必定导致的下一个态和动作，模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划状态和下一个奖赏。模型一般用于规划规划是算出来的，强化学习是试出来的规划是算出来的，强化学习是试出来的18马尔可夫过程马尔可夫过程马尔可夫奖励过程马尔可夫奖励过程马尔可夫决策过程马尔可夫决策过程马尔科夫决策过程（马尔科夫决策过程（MDP）19马尔科夫性：所谓马尔科夫性是指系统的下一马尔科夫性

9、：所谓马尔科夫性是指系统的下一个状态个状态s(t+1)仅与当前状态仅与当前状态s(t)有关，而与以前有关，而与以前的状态无关。的状态无关。马尔可夫过程马尔可夫过程定义：状态定义：状态s(t) 是马尔科夫的，当且仅是马尔科夫的，当且仅当当P St+1 St = P St+1 S1; :; St 20对于一个马尔科夫状态对于一个马尔科夫状态s和接下来的状态和接下来的状态s , 状态转状态转移概率定义为移概率定义为通常马尔科夫过程是一个二元组（通常马尔科夫过程是一个二元组（S，P），且满），且满足：足：S是有限状态集合，是有限状态集合， P是状态转移概率。状态是状态转移概率。状态转移概率矩阵为：转移

10、概率矩阵为：2122以下状态序列称为马尔以下状态序列称为马尔科夫链，假设从科夫链，假设从C1开始开始2324对于游戏或者机器人，马尔科夫过程不足以描述其特点，因为不管是游戏还是机器人，他们都是通过动作与环境进行交互，并从环境中获得奖励，而马尔科夫过程中不存在动作和奖励。25马尔可夫奖励过程马尔可夫奖励过程马尔可夫奖励过程（马尔可夫奖励过程（MRP）是一种带有价值的马）是一种带有价值的马尔科夫链，由元组（尔科夫链，由元组（S，P，R, ）来表示）来表示S为有限的状态集为有限的状态集P为状态转移概率为状态转移概率R为奖励函数为奖励函数为折扣因子，为折扣因子， 0,1 2627强化学习是找到最优的

11、策略，这里的最优是指得到的总强化学习是找到最优的策略，这里的最优是指得到的总回报最大。回报最大。当给定一个策略时，我们就可以计算累积回报。首先当给定一个策略时，我们就可以计算累积回报。首先定义累积回报：定义累积回报：28当给定策略当给定策略时，假设从状态时，假设从状态C1出发，学生状态序列出发，学生状态序列可能为：可能为：在策略在策略下，可以计算累积回报下，可以计算累积回报G1，此时，此时G1有多个有多个可能值可能值。由于策略。由于策略是随机的，因此累积回报也是随是随机的，因此累积回报也是随机的。为了评价状态机的。为了评价状态s1的价值，我们需要定义一个确的价值，我们需要定义一个确定量来描述

12、状态定量来描述状态s1的价值，很自然的想法是利用累积的价值，很自然的想法是利用累积回报来衡量状态回报来衡量状态s1 的价值。然而，累积回报的价值。然而，累积回报G1 是个是个随机变量，不是一个确定值，因此无法进行描述。但随机变量，不是一个确定值，因此无法进行描述。但其期望是个确定值，可以作为状态值函数的定义。其期望是个确定值，可以作为状态值函数的定义。29当智能体采用策略当智能体采用策略时，累积回报服从一个分布，时，累积回报服从一个分布，累积回报在状态累积回报在状态s处的期望值定义为状态值函数：处的期望值定义为状态值函数：30例例31例例32例例33例例34贝尔曼方程贝尔曼方程状态值函数可以分

13、为两部分：状态值函数可以分为两部分：瞬时奖励瞬时奖励后继状态值函数的折扣值后继状态值函数的折扣值353637马尔可夫决策过程马尔可夫决策过程马尔可夫决策过程是一种带有决策作用的马尔可夫决策过程是一种带有决策作用的马尔科夫奖励过程，由元组（马尔科夫奖励过程，由元组（S，A，P，R, ）来表示）来表示S为有限的状态集为有限的状态集A为有限的动作集为有限的动作集P为状态转移概率为状态转移概率R为奖励函数为奖励函数为折扣因子，为折扣因子， 0,1 3839策略策略策略是指状态到动作的映射，策略常用符号策略是指状态到动作的映射，策略常用符号表示，表示，它是指给定状态它是指给定状态s时，动作集上的一个分布，即时，动作集上的一个分布，即

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习简介

文档简介

温馨提示

最新文档

评论

强化学习简介

文档简介

温馨提示

最新文档

评论

相关文档