




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励,1,2020/5/19,主体,强化学习模型,i:inputr:rewards:state,a:action,状态si,si+1,ri+1,奖励ri,环境,动作ai,2,2020/5/19,强化学习概述,强化学习围绕如何与环境交互学习的问题,在行动评价的环境中获得知识改进行动方案以适应环境达到预想的目的。学习者并不会被告知采取哪个动作,而只能通过尝试每一个动作自己做出判断。它主要是依靠环境对所采取行为的反馈信息产生评价,并根据评价去指导以后的行动,使优良行动得到加强,通过试探得到较优的行动策略来适应环境。试错搜索和延迟回报是强化学习的两个最显著的特征。但强化学习系统还具有以下更一般的特点:(1)适应性,即Agent不断利用环境中的反馈信息来改善其性能;(2)反应性,即Agent可以从经验中直接获取状态动作规则;,3,2020/5/19,强化学习原理,强化学习系统的基本框架主要由两部分组成,即环境和智能体(Agent)。智能体可以通过传感器(Sensor)感知所处环境,并通过执行器(Actuator)对环境施加影响。从广义上讲,除该智能体之外,凡是与该智能体交互的物体,都可以被称为环境。强化学习的基本原理是:如果智能体(Agent)的某个行为策略导致环境对智能体正的奖赏(Reward),则智能体以后采取这个行为策略的趋势会加强。反之,若某个行为策略导致了负的奖赏,那么智能体此后采取这个动作的趋势会减弱。,4,2020/5/19,图描述了环境与智能体进行交互的一个基本框架。在图4.1中给出的强化学习过程中,Agent不断地与环境进行交互,在每一时刻循环发生如下事件序列:(1)Agent感知当前的环境状态;(2)针对当前的状态和强化值,Agent选择一个动作执行;(3)当Agent所选择的动作作用于环境时,环境发生变化,即环境状态转移至新状态并给出奖赏(强化信号);(4)奖赏(强化信号r)反馈给Agent。,5,2020/5/19,强化学习的过程可以总结如下:Agent选择一个动作a作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent,Agent再根据强化信号和环境的当前状态s再选择下一个动作,选择的原则是使受到正的奖赏值的概率增大。选择的动作不仅影响立即奖赏值,而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略,使得Agent在运行中所获得的累计奖赏值最大。,6,2020/5/19,强化学习作为一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法,具有如下特点:(1)强化学习是一种弱的学习方式,体现为:Agent通过与环境不断的试错交互来进行学习;强化信息可能是稀疏且合理延迟的;不要求(或要求较少)先验知识;Agent在学习中所使用的反馈是一种数值奖赏形式,不要求有提供正确答案的教师;(2)强化学习是一种增量式学习,并可以在线使用;(3)强化学习可以应用于不确定性环境;(4)强化学习的体系结构是可扩展的。目前,强化学习系统已扩展至规划合并、智能探索、监督学习和结构控制等领域。,7,2020/5/19,强化学习模型,除了Agent和环境,一个强化学习系统还有四个主要的组成要素:策略、奖赏函数、值函数以及可选的环境的模型。,8,2020/5/19,策略也称决策函数,规定了在每个可能的状态,Agent应该采取的动作集合。策略是强化学习的核心部分,策略的好坏最终决定了Agent的行动和整体性能,策略具有随机性。策略描述针对状态集合S中的每一个状态s,Agent应完成动作集A中的一个动作a,策略:SA是一个从状态到动作的映射。关于任意状态所能选择的策略组成的集合F,称为允许策略集合,F。在允许策略集合中找出使问题具有最优效果的策略*,称为最优策略。,9,2020/5/19,奖赏函数是在与环境交互的过程中,获取的奖励信号,奖赏函数反应了Agent所面临的任务的性质,同时,它也可以作为Agent修改策略的基础。奖赏信号R是对所产生动作的好坏作一种评价,奖赏信号通常是一个标量信号,例如用一个正数表示奖,而用负数表示罚,一般来说正数越大表示奖的越多,负数越小表示罚的越多。强化学习的目的就是使Agent最终得到的总的奖赏值达到最大。奖赏函数往往是确定的、客观的,为策略的选择提供依据。,10,2020/5/19,奖赏函数是对一个状态(动作)的即时评价,值函数则是从长远的角度来考虑一个状态(或状态-动作对)的好坏。值函数又称为评价函数。状态st的值,是指Agent在状态st根据策略执行动作at及采取后续策略所得到的积累奖赏的期望,记为。例如,将定义为所有将来奖赏值通过衰减率(0,1)作用后的总和。(4-1)其中,为t时刻的奖赏。对于任一策略,定义值函数为无限时域累积折扣奖赏的期望值,即(4-2)其中,和分别为在时刻t的立即奖赏和状态,衰减系数(0,1)使得邻近的奖赏比未来的奖赏更重要。,11,2020/5/19,环境模型是对外界环境状态的模拟,Agent在给定状态下执行某个动作,模型将会预测出下一状态和奖励信号。利用环境的模型,Agent在作决策的同时将考虑未来可能的状态,进行规划。,12,2020/5/19,13,2020/5/19,马尔科夫决策模型,很多强化学习问题基于的一个关键假设就是Agent与环境间的交互可以被看成一个马尔可夫决策过程(MDP),因此强化学习的研究主要集中于对Markov问题的处理。马尔可夫决策过程的本质是:当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作,而与历史状态和历史动作无关。,14,2020/5/19,在强化学习过程中,智能体通过观察其与环境交互改善自己的行为。为了方便起见,假定在时刻点t=1,2,3,处观察某个系统,一个有限的Makrov决策过程由5元组组成:其中各个元的含义如下:(1)s为系统所有可能的状态所组成的非空集,有时也称为系统的状态空间,它可以是有限的、可列的或任意非比空集。在本文中,假定S为有限的,用小写字母s,等来表示状态。(2)对sS,A(s)是在状态s下所有可能动作集合。(3)当系统在决策时刻点t处于状态s,执行动作a之后,则系统在下一个决策时刻点t+1时处于状态s的概率为p(s,a,)。称P=p(s,a,)为转移概率矩阵。(4)当系统在决策时刻点t处于状态s,执行决策a后,系统于本段情节获得的报酬为r(s,a),常称R=r(s,a)为报酬函数。(5)V为准则(Crietrion)函数(或目标(Objective)函数),常用的准则函数有期望折扣总报酬、期望总报酬和平均报酬等。,15,2020/5/19,Q强化学习,Q-learning是一种于环境无关的强化学习。在任意一个马尔科夫过程中,Q方法都能找到一个最优的策略。Q强化学习就是通过一个Q矩阵,找到一个最优(状态,动作)序列。,16,2020/5/19,现在有5间相连的房间,机器人起始状态是0-4任意一个房间,房外(5号房)是目的地。,状态空间有6种,分别对应6个房间。,17,2020/5/19,18,2020/5/19,19,2020/5/19,更新Q矩阵,记录机器人之前的经历。Q矩阵的更新公式如下:Q(state,action)=R(state,action)+Gamma*MaxQ(nextstate,allactions),20,2020/5/19,Q-学习训练算法1.设置学习参数,奖励矩阵R2.初始化矩阵Q3.每次训练中随机设置机器人的初试状态当机器人为达到目标点:从R矩阵中找出当前状态可执行的动作,并从中选取一个动作找出最大的Q(state,action),并更新Q矩阵,21,2020/5/19,Q-学习执行算法设当前状态=初始状态从Q矩阵中找到最大的Q(state,action)设当前状态=下一个状态重复上两步,知道机器人到达目的地,22,2020/5/19,假设现在机器人初始状态位于1号房Q(state,action)=R(state,action)+Gamma*MaxQ(nextstate,allactions)Q(1,5)=R(1,5)+0.8*MaxQ(5,1),Q(5,4),Q(5,5)=100+0.8*
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字货币市场的动态研究
- DB33T 870-2012 罐式集装箱检验规则(发布稿)
- 军事理论(云南民族大学版)智慧树答案
- 永靖消防知识培训课件地址
- 水钻测量基础知识培训课件
- 混凝土施工中表面防护膜使用方案
- 输电线路接地系统建设方案
- 万兆园区冷链物流优化方案
- 氢能产业园氢气供应链的可持续发展方案
- 混凝土搅拌过程的质量监控方案
- 2025年贵州省中考数学试卷及答案
- 学堂在线 积极心理学(上)厚德载物篇 章节测试答案
- 胖东来运营经理培训课件
- 供电公司信访管理制度
- 木工入场安全教育试卷(含答案)
- 工厂厂规厂纪管理制度
- 2025全球翻译行业发展报告
- T/CCS 025-2023煤矿防爆锂电池车辆动力电源充电安全技术要求
- 贴膜安装服务合同协议书
- 新疆遴选公务员笔试题及答案
- (高清版)DG∕TJ 08-2165-2015 建设项目交通影响评价技术标准
评论
0/150
提交评论