智能控制第6章 学习控制-增强学习.ppt_第1页
智能控制第6章 学习控制-增强学习.ppt_第2页
智能控制第6章 学习控制-增强学习.ppt_第3页
智能控制第6章 学习控制-增强学习.ppt_第4页
智能控制第6章 学习控制-增强学习.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章学习控制增强学习,智能控制基础,2/51,6.2.1增强学习的基本思想,6.2.2增强学习的主要算法,6.2.3增强学习在控制中的应用,6.2增强学习,3/51,6.2.1增强学习的基本思想,强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。,4/51,心理学基础,19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classicalconditioning)理论。美国心理学家桑代克(Thorndike)也通过动物实验发现了效果律(lawofeffect),即动物可以根据试错尝试(trial-and-error)中得到的赏罚信息,学得情景下的有效行为。这种行为的效果被随后的斯肯纳(Skinner)称为强化作用(reinforcement),而相应的学习则被称为操作条件学习(operantconditioning)。,5/51,发展历史,二十世纪五十年代,Minsky首次提出。六十年代,Waltz和付京孙将这种思想应用在智能控制中。八十年代以后,大量标志性的成果涌现。,6/51,系统结构图,7/51,增强学习的建模,有限Markov决策过程MDP(MarkovDecisionProcesses)。系统状态集合为S;允许行为集合为As,As与状态s有关;行动为at下的状态转移概率P(st+1|st,at)得到即时回报(immediatereward)rt+1的期望为,8/51,确定系统,其中,为状态转移函数,9/51,即时回报,举例,10/51,增强学习的问题,目标函数构造如何获得最优决策和最优目标函数值,11/51,目标函数,用累计回报(return)期望来作为学习的价值函数。无限折扣模型(infinite-horizondiscountedmodel)有限模型(finite-horizonmodel)平均回报模型(average-rewardmodel),为策略,12,目标函数求解,13,迭代策略计算IPE(IterativePolicyEvaluation),目标函数可写作递推形式V(s)是递推公式的不动点,可用迭代逼近,14/51,存在的问题,需要了解整个系统的模型(状态转移、即时回报等)。,15/51,MonteCarlo法,目标函数为期望,在统计上可以用累计回报采样的平均值来逼近。,16/51,存在的问题,要完成整个尝试才能进行目标函数估计的更新。离线学习。,17/51,瞬时差分法(TemporalDifference),Sutton在1988年提出。根据可得:,18/51,特点,结合了迭代策略计算法和MonteCarlo法。不需要完整的模型可进行在线学习,19/51,最优策略的求解,20/51,动态规划法,将递推公式两边取最优得到,21/51,推广策略迭代GPI,推广策略迭代GPI(GeneralizedPolicyIteration)特点,22/51,6.2.1增强学习的基本思想,6.2.2增强学习的主要算法,6.2.3增强学习在控制中的应用,6.2增强学习,23/51,6.2.2增强学习的主要算法,24/51,1.Q-学习算法,定义一个与行为有关的价值函数Q函数:可知策略选取,25/51,具体算法,因为借鉴瞬时差分的思想,26/51,确定MDP下的收敛性,定理6-7:在确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,01,n=1,则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。,27/51,证明,n时,Qn0,28/51,不确定MDP下的收敛性,定理6-6:在不确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q0(s,a)有界,01,0n1,且满足则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。其中,N(n,s,a)为第n次迭代时,单元(s,a)被访问的累计次数。,29/51,学习步长选择,上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快,一般可取n为:,30/51,遍历性条件的策略选择,隐含了贪婪原则的选择策略,,无法同时保证遍历性,需要寻找其它选择策略,在下面的迭代过程中,31/51,-贪婪方法,其中|A(st)|为决策集合的大小,为探索概率,一般随时间的增长而递减。,32/51,Boltzman分布法,模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。的取值一般也随时间的增长而减小。,33/51,2.Sarsa算法,Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st1和at1五个量,所以Sutton在其书中将其命名为Sarsa。一种策略有关(on-policy)的学习算法,34/51,Sarsa学习算法的收敛性,定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(GreedyintheLimitwithInfiniteExploration)条件或RRR(RestrictedRank-basedRandomized)条件,且Varr(s,a)有界,0n1,满足则当n,收敛于最优值Q*(s,a)。,35/51,策略选择条件,GLIE(GreedyintheLimitwithInfiniteExploration)条件每一个(s,a)会被无限访问;Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即:,36/51,存在问题,收敛速度慢(状态空间、决策空间规模)因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。Markov条件,37/51,3.多步学习算法,学习公式改为:en(s)资格迹(eligibilitytrace)(时间信度)0SP+1High:ifSP+0.2y(t)SP+1Goal:ifSP-0.2y(t)SP+0.2Low:ifSP-1y(t)SP-0.2Lower:ify(t)SP-1,42/51,行为设计,滴定系统采用增量式控制a为行为编号,具体有:大减、减、小减、等待、小增、增、大增7种,依次编号。例如等待的行为编号为4。,43/51,状态转移图,44/51,即时回报设计,除了在Goal区域,其余区域的回报均是惩罚,45/51,学习策略,单步Q-学习控制行为选择采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论