人工智能21教学课件_第1页
人工智能21教学课件_第2页
人工智能21教学课件_第3页
人工智能21教学课件_第4页
人工智能21教学课件_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二十一章 强化学习,21.1 介绍 21.2 被动强化学习 21.3 主动强化学习 21.4 强化学习中的一般化 21.5 策略搜索,强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。 设计算法把外界环境转化为最大化奖励量的方式的动作。智能体通过看哪个动作的到最多的奖励来发现要做什么。 智能体动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 试错搜索(trial-and-error-search)和延期强化(delayed reinforcement)是强化学习的两个重要特性。,Psychology,Contr

2、ol Theory and Operations Research,Artificial Neural Networks,Reinforcement Learning (RL),Neuroscience,Artificial Intelligence,强化思想最先来源于心理学研究,1911年Thorndike提出效果律. 强化学习最早可追溯到巴甫洛夫的条件反射实验。 上世纪八十年代末强化学习才在人工智能、机器学习、自动控制等领域广泛研究和应用。 试错学习:选择 + 联系 搜索+记忆 1954年Minsky实现计算机上的试错学习,强化学习一词最早出现在Minsky论文“Steps Toward

3、Artificial Intellegence”。 1969年Minsky获计算机图灵奖,1953年到1957年,Bellman提出求解最优控制问题的动态规划方法,同年还提出最优控制问题的随机离散版本,即马尔可夫决策过程,1960年Howard提出马尔可夫决策过程的策略迭代方法。(强化学习的理论基础) 1972年Klopf把试错学习和时序差分结合。 1989年Waltins提出Q-学习方法 1992年Tesauro用强化学习成功应用到西洋双陆棋,强化学习模型,智能体根据策略选择一个行动执行,然后感知下一步的状体和即时奖励,通过经验再修改自己的策略。目标就是最大化长期奖励,以学习一个行为策略:S

4、-A.,强化学习技术基本思想:如果系统某个动作导致环境正的奖励,则系统以后产生这个动作的趋势就会加强;反之负的奖励将使产生该动作的趋势减弱。 被动学习:智能体的策略固定,目标是学习该策略的效用函数U(s)。(智能体被动接受各种信息) 主动学习:学习者给环境以扰动并观察扰动的后果。,被动强化学习,+1,- 1,0.918,0.660,0.611,0.388,0.655,0.705,0.762,0.812,0.868,智能体应用策略执行一组实验,每次从(1,1)开始,智能体经过一个状态转移序列到达终点。它感知的信息提供了当前状态以及在该状态获得的回报。,0.8,0.1,0.1,(1,1)-0.04

5、 (1,2)-0.04 (1,3)-0.04 (1,2)-0.04 (1,3)-0.04 (2,3)-0.04 (3,3)-0.04 (4,3)+1 (1,1)-0.04 (1,2)-0.04 (1,3)-0.04 (2,3)-0.04 (3,3)-0.04 (3,2)-0.04 (3,3)-0.04 (4,3)+1 (1,1)-0.04 (2,1)-0.04 (3,1)-0.04 (3,2)-0.04 (4,2)-1,学习状态s的期望效用,直接效用估计,状态的效用:指从该状态起的期望总回报。,直接效用估计:进行多次实验,记录每个状态所观察到的未来回报,学习从该状态起的期望总回报。 强化学习有

6、监督学习(状态为输入,观察到的未来回报为输出),问题: 忽略状态间的联系; 不终止学习,就不能获得试验结果。,自适应动态规划(ADP),在运行中学习转移模型,应用价值迭代或策略迭代获得效用函数(最优策略)。,学习转移模型的能力限制着学习效用函数的能力。 问题:随着状态空间的增加,规模迅速地增大。可能变得不可操作。,记录每个行动结果发生的频繁程度,并根据该频率对在状态S执行动作a后能够达到的状态S的转移概率进行估计。 学习转移模型,有监督学习:输入状态-行动对,输出为结果状态。,时序差分学习(TD),时序差分公式(更新公式)TD公式:,调整状态使与已观察到的后继状态相一致。所以算法简单、每次观察

7、所需的计算量较少,不需要一个模型来执行更新,用观察到的转移来调整观察到的状态的值。 学习速度参数可设为随某个状态的访问次数的增加而递减的函数。,更新效用估计以匹配后续状态的效用。,ADP vs. TD,TD调整一个状态使其和已观察到的后续状态一致; ADP调整一个状态使其和所有可能出现的后续状态一致。 TD对每个观察到的转移只进行单一调整,而ADP为了重建效用估计U和环境模型T之间的一致性会按所需尽可能多的调整,观察到的转移其影响在整个U中传递。TD为ADP的一阶近似。,对效用估计进行局部调整,以便使每一个状态都和后续状态相一致。,主动强化学习,ADP贪婪智能体 学习到的模型和真实环境不同,因

8、而学习到的模型的最优策略不是真实环境中的最优。 exploitationexploration,+1,- 1,探索函数,可在一个时间片段内随机选择一个行动,而其他时间遵循贪婪策略,最终收敛到一个最优策略,但速度慢。,依据一个准则(探索函数),最终收敛到一个最优策略。 探索函数 f(u,n) 决定了如何在贪婪与好奇之间取得折中。,给很少尝试的行动加权,给尚未探索的状态-行动对分配较高的效用估计,同时避免已确信具有低效用的行动。,行动-价值函数,Q-学习方法:学习Q函数,Q(a,s): 在状态s进行行动a的价值,时序差分Q-学习方法:一种无模型学习方法。,强化学习中的一般化,函数逼近:,通过函数逼近使得对非常大的状态空间的效用函数进行表示是可行的。同时学习智能体能由其访问过的状态向未

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论