




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,强化学习简介ReinforcementLearning,2,2,什么是机器学习(MachineLearning)?机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。1959年美国的塞缪尔设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。,3,3,机器学习的分类?机器学习,监督学习:计算机获得简单的输入给出期望的输出,过程是通过一个“训练模型”,学习通用的准则来从输入映射到输出。,无监督学习:没有给出标记用来学习算法,让它自己去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径(特征学习)。,强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游戏对抗一个对手)。这个程序的奖惩机制会作为反馈,实现它在问题领域中的导航。,4,强化学习(reinforcementlearning)与监督学习、非监督学习的区别,没有监督者,只有奖励信号反馈是延迟的,不是顺时的时序性强,不适用于独立分布的数据自治智能体(agent)的行为会影响后续信息的接收,5,思考:,五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强化学习吗?这不叫强化学习,叫规划如果通过几次尝试,走位置1比走位置2赢棋的可能性大,得出经验,则为强化学习,6,强化学习模型几个定义自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点1、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的,7,奖励信号(rewards)奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号,8,强化学习模型,9,例子,图中黄点是机器人,目的是走到绿色的方块reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0,10,11,12,13,强化学习基本要素,强化学习基本要素及其关系,14,策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。可能是一个查找表,也可能是一个函数确定性策略:a=(s)随机策略:(as)=PAt=aSt=s,15,回报函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏回报函数可以作为改变策略的标准,16,值函数:一个状态起agent所能积累的回报的总和。在决策和评价决策中考虑最多的是值函数,17,环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划规划是算出来的,强化学习是试出来的,18,马尔可夫过程马尔可夫奖励过程马尔可夫决策过程,马尔科夫决策过程(MDP),19,马尔科夫性:所谓马尔科夫性是指系统的下一个状态s(t+1)仅与当前状态s(t)有关,而与以前的状态无关。,马尔可夫过程,定义:状态s(t)是马尔科夫的,当且仅当PSt+1St=PSt+1S1;:;St,20,对于一个马尔科夫状态s和接下来的状态s,状态转移概率定义为,通常马尔科夫过程是一个二元组(S,P),且满足:S是有限状态集合,P是状态转移概率。状态转移概率矩阵为:,21,22,以下状态序列称为马尔科夫链,假设从C1开始,23,24,对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不管是游戏还是机器人,他们都是通过动作与环境进行交互,并从环境中获得奖励,而马尔科夫过程中不存在动作和奖励。,25,马尔可夫奖励过程,马尔可夫奖励过程(MRP)是一种带有价值的马尔科夫链,由元组(S,P,R,)来表示S为有限的状态集P为状态转移概率R为奖励函数为折扣因子,0,1,26,27,强化学习是找到最优的策略,这里的最优是指得到的总回报最大。,当给定一个策略时,我们就可以计算累积回报。首先定义累积回报:,28,当给定策略时,假设从状态C1出发,学生状态序列可能为:,在策略下,可以计算累积回报G1,此时G1有多个可能值。由于策略是随机的,因此累积回报也是随机的。为了评价状态s1的价值,我们需要定义一个确定量来描述状态s1的价值,很自然的想法是利用累积回报来衡量状态s1的价值。然而,累积回报G1是个随机变量,不是一个确定值,因此无法进行描述。但其期望是个确定值,可以作为状态值函数的定义。,29,当智能体采用策略时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态值函数:,30,例,31,例,32,例,33,例,34,贝尔曼方程状态值函数可以分为两部分:瞬时奖励后继状态值函数的折扣值,35,36,37,马尔可夫决策过程,马尔可夫决策过程是一种带有决策作用的马尔科夫奖励过程,由元组(S,A,P,R,)来表示S为有限的状态集A为有限的动作集P为状态转移概率R为奖励函数为折扣因子,0,1,38,39,策略策略是指状态到动作的映射,策略常用符号表示,它是指给定状态s时,动作集上的一个分布,即,策略完全的表示智能体的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆安全出行培训课件
- 2025年黑龙江省七台河市导游资格全国导游基础知识模拟题(附答案)
- 草坪纤维后拉伸工艺考核试卷及答案
- 草坪纤维编织工艺考核试卷及答案
- 2025年河北省保定市事业单位工勤技能考试题库及答案
- 车辆制造基础知识培训课件
- 2025年焊工网络考试题库及答案
- 2025年海南省巾帼家政服务行业职业技能竞赛(母婴护理员)备赛试题(附答案)
- 车辆伤害案例课件
- 罐头冷却后质量稳定性评估工艺考核试卷及答案
- 合规监督概念课件
- 电力变压器智能数字孪生体的构建与展望
- 无锡金栢精密模具有限公司搬迁项目环评资料环境影响
- 放射防护监测原始记录表模板
- 2025-2030中国奶酪行业市场发展现状及竞争格局与投资前景研究报告
- 垫资过桥合同协议
- 规范化司法所模板
- 水泥混凝土旧路面拆除施工方案
- 食品安全自查制度
- 大学生职业生涯规划与就业指导(慕课版) 课件 第七章 职场适应与发展
- 《数字化样机技术》课件
评论
0/150
提交评论