强化学习简介.ppt

上传人：T*** IP属地：江西上传时间：2020-02-09 格式：PPT 页数：48 大小：2MB 积分：15 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

强化学习简介ReinforcementLearning 2 2 什么是机器学习 MachineLearning 机器学习是一门多领域交叉学科涉及概率论统计学逼近论凸分析算法复杂度理论等多门学科专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能 1959年美国的塞缪尔设计了一个下棋程序这个程序具有学习能力它可以在不断的对弈中改善自己的棋艺 4年后这个程序战胜了设计者本人又过了3年这个程序战胜了美国一个保持8年之久的常胜不败的冠军 3 3 机器学习的分类机器学习监督学习计算机获得简单的输入给出期望的输出过程是通过一个训练模型学习通用的准则来从输入映射到输出无监督学习没有给出标记用来学习算法让它自己去发现输入的结构无监督学习自己可以被当成一个目标或者一个实现结果的途径特征学习强化学习一个计算机程序与动态环境交互同时表现出确切目标比如驾驶一辆交通工具或者玩一个游戏对抗一个对手这个程序的奖惩机制会作为反馈实现它在问题领域中的导航 4 强化学习 reinforcementlearning 与监督学习非监督学习的区别没有监督者只有奖励信号反馈是延迟的不是顺时的时序性强不适用于独立分布的数据自治智能体 agent 的行为会影响后续信息的接收 5 思考五子棋棋手通过数学公式计算发现位置1比位置2价值大这是强化学习吗这不叫强化学习叫规划如果通过几次尝试走位置1比走位置2赢棋的可能性大得出经验则为强化学习 6 强化学习模型几个定义自治智能体Agent学习的主体如小猫小狗人机器人控制程序等Agent的特点1 主动对环境做出试探2 环境对试探动作反馈是评价性的好或坏 3 在行动评价的环境中获得知识改进行动方案达到预期目的 7 奖励信号 rewards 奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号 8 强化学习模型 9 例子图中黄点是机器人目的是走到绿色的方块reward 1000 黑色方块是墙壁撞到reward 10 红色方块是陷阱撞到reward 1000 其他reward 0 10 11 12 13 强化学习基本要素强化学习基本要素及其关系 14 策略定义了agent在给定时间内的行为方式一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射可能是一个查找表也可能是一个函数确定性策略 a s 随机策略 a s P At a St s 15 回报函数是强化学习问题中的目标它把环境中感知到的状态映射为单独的一个奖赏回报函数可以作为改变策略的标准 16 值函数一个状态起agent所能积累的回报的总和在决策和评价决策中考虑最多的是值函数 17 环境模型模拟了环境的行为即给定一个状态和动作模型可以预测必定导致的下一个状态和下一个奖赏模型一般用于规划规划是算出来的强化学习是试出来的 18 马尔可夫过程马尔可夫奖励过程马尔可夫决策过程马尔科夫决策过程 MDP 19 马尔科夫性所谓马尔科夫性是指系统的下一个状态s t 1 仅与当前状态s t 有关而与以前的状态无关马尔可夫过程定义状态s t 是马尔科夫的当且仅当P St 1 St P St 1 S1 St 20 对于一个马尔科夫状态s和接下来的状态s 状态转移概率定义为通常马尔科夫过程是一个二元组 S P 且满足 S是有限状态集合 P是状态转移概率状态转移概率矩阵为 21 22 以下状态序列称为马尔科夫链假设从C1开始 23 24 对于游戏或者机器人马尔科夫过程不足以描述其特点因为不管是游戏还是机器人他们都是通过动作与环境进行交互并从环境中获得奖励而马尔科夫过程中不存在动作和奖励 25 马尔可夫奖励过程马尔可夫奖励过程 MRP 是一种带有价值的马尔科夫链由元组 S P R 来表示S为有限的状态集P为状态转移概率R为奖励函数为折扣因子 0 1 26 27 强化学习是找到最优的策略这里的最优是指得到的总回报最大当给定一个策略时我们就可以计算累积回报首先定义累积回报 28 当给定策略时假设从状态C1出发学生状态序列可能为在策略下可以计算累积回报G1 此时G1有多个可能值由于策略是随机的因此累积回报也是随机的为了评价状态s1的价值我们需要定义一个确定量来描述状态s1的价值很自然的想法是利用累积回报来衡量状态s1的价值然而累积回报G1是个随机变量不是一个确定值因此无法进行描述但其期望是个确定值可以作为状态值函数的定义 29 当智能体采用策略时累积回报服从一个分布累积回报在状态s处的期望值定义为状态值函数 30 例 31 例 32 例 33 例 34 贝尔曼方程状态值函数可以分为两部分瞬时奖励后继状态值函数的折扣值 35 36 37 马尔可夫决策过程马尔可夫决策过程是一种带有决策作用的马尔科夫奖励过程由元组 S A P R 来表示S为有限的状态集A为有限的动作集P为状态转移概率R为奖励函数为折扣因子 0 1 38 39 策略策略是指状态到动作的映射策略常用符号表示它是指给定状态s时动作集上的一个分布即策略完全的表示智能

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习简介.ppt

文档简介

温馨提示

最新文档

评论

强化学习简介.ppt

文档简介

温馨提示

最新文档

评论

相关文档