智能控制第6章学习控制-增强学习.ppt_第1页
智能控制第6章学习控制-增强学习.ppt_第2页
智能控制第6章学习控制-增强学习.ppt_第3页
智能控制第6章学习控制-增强学习.ppt_第4页
智能控制第6章学习控制-增强学习.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章 学习控制增强学习 智能控制基础 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 2 6.2.1增强学习的基本思想 v强化学习是介于监督学习和无监督学习之间 的一种学习方法,它不需要训练样本,但需 要对行为结果进行评价,通过这些评价来间 接指导行为的改进,直至满足目标。 3 心理学基础 v19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立 经典条件反射(classical conditioning)理论。 v美国心理学家桑代克(Thorndike)也通过动物实验 发现了效果律(law of effect),即动物可以根据试 错尝试(trial-and-error)中得到的赏罚信息,学得 情景下的有效行为。 v这种行为的效果被随后的斯肯纳(Skinner)称为强 化作用(reinforcement),而相应的学习则被称为 操作条件学习(operant conditioning)。 4 发展历史 v二十世纪五十年代,Minsky 首次提出。 v六十年代,Waltz和付京孙 将这种思想应用 在智能控制中。 v八十年代以后,大量标志性的成果涌现。 5 系统结构图 感知行动 agent 环 境 强化信号r状态s动作a 6 增强学习的建模 v有限Markov决策过程MDP (Markov Decision Processes) 。 n系统状态集合为S; n允许行为集合为As,As与状态s有关; n行动为at下的状态转移概率P(st+1|st, at) n得到即时回报(immediate reward)rt+1的期望 为 7 确定系统 v其中,为状态转移函数 8 即时回报 v举例 9 增强学习的问题 v目标函数构造 v如何获得最优决策和最优目标函数值 10 目标函数 v用累计回报(return) 期望来作为学习的价值函数 。 n无限折扣模型(infinite-horizon discounted model ) n有限模型(finite-horizon model) n平均回报模型(average-reward model) 为策略 11 目标函数求解 12 迭代策略计算IPE (Iterative Policy Evaluation) v目标函数可写作递推形式 vV(s)是递推公式的不动点,可用迭代逼近 13 存在的问题 v需要了解整个系统的模型(状态转移、即时 回报等)。 14 Monte Carlo法 v目标函数为期望,在统计上可以用累计回报 采样的平均值来逼近。 15 存在的问题 v要完成整个尝试才能进行目标函数估计的更 新。 v离线学习。 16 瞬时差分法(Temporal Difference) vSutton在1988年提出。 v根据 v可得: 17 特点 v结合了迭代策略计算法和Monte Carlo法。 v不需要完整的模型 v可进行在线学习 18 最优策略的求解 19 动态规划法 v将递推公式两边取最优 v得到 20 推广策略迭代GPI v推广策略迭代GPI(Generalized Policy Iteration) v特点 V*,*V0,0 V的计算 的选取 21 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 22 6.2.2 增强学习的主要算法 23 1. Q-学习算法 v定义一个与行为有关的价值函数 Q函数: v可知 v策略选取 24 具体算法 v因为 v借鉴瞬时差分的思想 25 确定MDP下的收敛性 v定理6-7:在确定MDP下采取Q学习算法,如 果对任意允许的(s, a),有 | r(s, a)| 和Q 0(s, a) 有界,0SP+1 vHigh: if SP+0.2 y(t) SP+1 vGoal: if SP-0.2 y(t) SP+0.2 vLow: if SP-1 y(t) SP-0.2 vLower: if y(t)SP-1 41 行为设计 v滴定系统采用增量式控制 va为行为编号,具体有: 大减、减、小减、等待、小增、增、大增 7种,依次编号。例如等待的行为编号为4。 42 状态转移图 43 即时回报设计 v除了在Goal区域,其余区域的回报均是惩罚 44 学习策略 v单步Q-学习控制 v行为选择采用贪婪算法,具体参数如下: v折扣因子0.98, v学习率0.3, v探索概率0.3。 45 控制效果 46 v假设机器人欲前往目的地G,不同行为的即时回报r如 下图所示。 G 100 100 0 0 0 0 0 0 0 0 0 0 0 2. 移动机器人路径规划 47 G 100 100 0 0 0 0 0 0 0 0 0 0 0 一步迭代 48 G 100 100 0 0 90 90 90 0 0 0 0 0 0 第2步迭代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论