(控制理论与控制工程专业论文)强化学习及其在倒立摆控制中的应用研究.pdf_第1页
(控制理论与控制工程专业论文)强化学习及其在倒立摆控制中的应用研究.pdf_第2页
(控制理论与控制工程专业论文)强化学习及其在倒立摆控制中的应用研究.pdf_第3页
(控制理论与控制工程专业论文)强化学习及其在倒立摆控制中的应用研究.pdf_第4页
(控制理论与控制工程专业论文)强化学习及其在倒立摆控制中的应用研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中田科学技术大学自动化系埘! 士学位论文 摘要 强化学习是近几十年来迅速发展起来的一类机器学习算法,并且从8 0 年代 以来逐渐成为机器学习研究的一个比较活跃的领域,引起了包括计算机科学、控 制科学以及心理学领域的学者的极大关注。 本文以倒立摆作为对象,主要研究强化学习算法在控制领域的应用。文章从 介绍强化学习的基本模型、结构和原理开始,详细分析了强化学习的主要算法在 倒立摆控制中的应用:a h c 层和两层网络,q 学习方法等。 接下来,首先在分析得知q 学习与传统的l q r 控制之闻的内在关系后,可 以通过q 学习过程,得到l q r 控制所需要的反馈控制器用于实际的倒立摆系 统,实现控制目的。其次,针对目前强化学习方法控制倒立摆研究中存在的不能 获得系统连续状态输入以及输出连续动作空间给倒立摆的问题,结合神经网络中 b p 网络和感知器网络的泛化特性,通过重新改造智能体的结构,提出了一种新 的方法,即基于神经网络的强化学习算法,通过仿真实验证明了其可行性。此 方法进一步提高了强化学习理论在实际控制系统中的应用价值。最后章是对强 化学习领域所出现的新的算法的尝试。结合遗传算法和神经网络的s a n e 算法目 前被广泛应用于人工智能领域,本文将其在倒立摆平台上作同样的控制效果实 验,结果证明了其相比于a h c 和q 学习算法具有更好的学习速度和控制效果。 本文主要在前人对强化学习研究的基础上,结合本实验室的倒立摆设备,对 各种强化学习算法进行控制实验研究,并尝试解决了原先存在的一些问题,经过 实验,取得了良好的控制效果。事实证明,在对控制对象的数学模型未知的情况 下运用强化学习,通过与外界环境的交互、学习从而达到控制目的不失为一种很 好的方法。 关键词:强化学习q 学习l q r 控制神经网络遗传算法s a n e i i 中同利学技术人学自动化系 a b s t r a c t r e i n f o r c e m e n tl e a r u i n g ,a sa c a t e g o r yo fm a c h i n el e a r n i n g ,h a sb e e na c e n t e ro f a t t e n t i o ni nr e c e n ty e a r s i th a sb e e na p p l i e de x t e n s i v e l yi nt h ef i e l d so fc o m p u t e r s c i e n c e ,c o n t r o ls c i e n c ea n dp s y c h o l o g ye t c t h i sp a p e rf o c u s e so nt h er e s e a r c ho fr e i n f o r c e m e n tl e a r n i n ga n di t sa p p l i c a t i o n i nc o n t r o l ,u t i l i z i n gi n v e r t e dp e n d u l u ma st h ee x p e r i m e n t i n gp l a t f o r m t ts t a r t e dw i t h t h eb a s i cm o d e l ,s t r u c t u r ea n d t h e o r yo fr l ,a n a l y z e dt h em a i nm e t h o d su s e di n v e r t e d p e n d u l u mc o n t r o l :a h co n e t w ol a y e rn e t w o r k ,e l e a r n i n g 。 i nc h a p t e r3 ,a f t e rg e t t i n gt h ek n o w l e d g eo fi n t e m a lr e l a t i o n sb e t w e e nq l e a r n i n g a n dl q rc o n t r o lm e t h o d ,ic a m eu pw i t ha e l e a r n i n gp r o c e s sw h i c he n d e du pw i t h t h ef e e d b a c kc o n t r o l l e rn e e d e db yl q rc o n t r o l ,a n du s e di ti nar e a li n v e r t e d p e n d u l u m i tw o r k e dp r e t t yw e l l i nc h a p t e r5 ,i no r d e rt os o l v et h ee x i s t i n gp r o b l e m s o fc o n t i n u o u ss t a t es p a c ea n da c t i o ns p a c ei nr e i n f o r c e m e n tl e a r n i n g ,am e t h o dw h i c h c o m b i n e db pn e t w o r ka n ds i g m o i da c t i v a t i o nf u n c t i o nw a sp r o p o s e d b ya d j u s t i n g t h es t r u c t u r eo ft h ea g e n t ,w i t hn e u r a ln e t w o r k sg e n e r a l i z a t i o nf e a t u r e ,t h em e t h o dh a s b e e np r o v e dt ob ea p p l i c a b l eb ym a t l a bs o f t w a r es i m u l a t i o nw i t i lr e a lp e n d u l u m s y s t e mm o d e lt h i sm e t h o de n h a n c e dt h er e i n f o r c e m e n tl e a r n i n g sa p p l i c a b i l i t yi n r e a lc o n t r o ls y s t e mi nt h el a s tc h a p t e r ,an e wr e i n f o r c e m e n tl e a r n i n gm e t h o ds a n e w a se x p e r i m e n t e di ni n v e r t e dp e n d u l u mt h em e t h o du s e sg e n e t i ca l g o r i t h m sa n d n e u t r a ln e t w o r ka n di su s e db r o a d l yi n a r t i f i c i a li n t e l l i g e n c ef i e l d ,f r o mt h er e s u l to f s i m u l a t i o np r o g r a m ,w ec a nf i n di t so b v i o u sa d v a n t a g eu p o na h ca n de - l e a r n i n g w h e nc o m p a r e db yl e a r n i n gs p e e d t h i sp a p e ri sm a i n l ya b o u te x p e r i m e n t i n gt h er e i n f o r c e m e n tl e a r n i n gm e t h o d si n i n v e r t e dp e n d u l u m ,b a s e do nt h ep r e v i o u s l yi n v a l u a b l ej o b sf r o mb o t ha b r o a da n d c h i n a it r i e ds o l v i n gaf e wp r o b l e m si nt h et r a d i t i o n a lr lm e t h o da n di tw o r k e dw e l l f r o mt h es i m u l a t i o nr e s u l t w ec a l lf i n dt h a tr li sav e r yg o o dw a yt oc o n t r o la n i n v e r t e dp e n d u l u mb ys i m p l yi n t e r a c t i n gw i t ht h ee n v i r o n m e n t ,w i t h o u tt h e k n o w l e d g eo f t h es y s t e m k e y w o r d :r e i n f o r c e m e n tl e a r n i n g q l e a r n i n g l q rc o n t r o l n e u t r a ln e t w o r k g e n e t i ca l g o r i t h m s s a n e 1 1 1 中围科学技术人学自动化系 致谢 在最终完成本论文的时候,我首先向我的导师吴汉生老师表示 最由衷的感谢! 三年来正是他孜孜不倦的耐心教诲,以及定期的学术 探讨才能使我坚定信念,得以攻克每一个课题,完成这一篇硕士论文。 吴老师严谨的治学态度和高度的敬业精神不但在这三年中让我受益 匪浅,相信在以后的工作和生活中也同样具有指导意义。 同时也要感谢实验室给我营造良好的氛围和学术环境,感谢实验 室的魏衡华老师,张玉斌老师,王大兴老师和李隆老师。以及实验室 的同学,陈星,汪朋,关世勇,何毅等,我们在一起探讨了很多相关 问题。对于他们给予我的热心帮助,我在此一并表示诚挚的谢意! 感谢国内外在强化学习领域做出重要贡献的学者,正是建立在他 们先前工作的基础上,我才得以更快的进入这个课题,也使我的研究 工作容易了很多。 谨以此文,献给我的父母、家人和我的朋友们! 中周科学技术人学自动化系 硕1 学位论文 第一章绪论 1 1 研究背景 强化学习是近年来人工智能、机器学习以及人工神经网络研究的最活跃的领 域。它的引人之处部分原因在于它在某种意义上是整个人工智能问题的一个缩 影。 与以往的机器学习算法不同,强化学习是在未知的环境中进行学习,其任务 即是某个自主学习智能体与外界交互作用以完成某个目标。而且从目前看来强化 学习最贴近于人类的学习。 倒立摆是控制研究中一个最典型的例子,它可以作为各种算法的试验平台。 传统的控制方法是在获得倒立摆的数学模型之后,运用反馈控制原理,采用状态 反馈,l q r 等方法可以实现倒立摆的平衡控制。乖j 用强化学习的方法,可以在 控制对象的模型未知的情况下,通过智能体对外界环境的学习、迭代过程,可以 实现倒立摆控制。 本文是在前人的基础上,结合实验室的设备,寻求改善强化学习控制倒立摆 的方法,使之更适用与实际的控制对象。同时,本文也研究了新型的强化学习算 法,在倒立摆控制中的应用,以及和传统算法的对比情况。 1 2 强化学习的发展与应用概况 强化学习( r e i n f o r c e m e n tl e a r n i n g ) 是机器学习中一种重要的学习方法,在 智能控制,机器人及分析预测等领域有许多应用。所谓的强化学习就是智能体 ( a g e n t ) 学习从环境到行为的映射,以极大化( 或极小化) 标量回报( s c a l a r r e w a r d ) 或强化信号的某一数量指标。这种回报是对所采用动作好坏的一种评价, 而不是告诉强化学习系统r l s ( r e i n f o r c e m e n tl e a r n i n gs y s t e m ) 如何去产生正确 的动作,r l s 不需要外部环境提供太多的信息,而是依靠智能体自身的经历进行 学习。通过智能体与外界环境的反复作用,提高对环境的认识,改进行动策略。 1 2 1 强化学习的发展历史 强化学习是人工智能领域中既崭新又古老的课题,它从动物学习,参数扰动 巾同科学技术人学自动化系坝1 学位论文 白适应控制等理论发展而来。其研究历史大致分为两个阶段:第一阶段是1 9 5 0 年代到1 9 6 0 年代,这一时期是强化学习的萌芽时期:第二阶段是1 9 8 0 年代以来, 这一日、j 期是强化学习的快速发展阶段。 在第一阶段,“强化学习”的概念首先由m i n s k e y 在1 9 5 4 年他的博士论文口j 中提出;那个时候,数学心理学家探索了各种计算模型以解释动物和人类的学习 行为。他们认为学习是随机进行的,并且给出了所谓的随机学习模型。神经网络 的先驱们w i d r o w , h o f f 和r o s e n b l a t t ,以及心理学家b u s h 和m o s t e l l e r 等都对强 化学习进行了研究。他们利用了“奖赏”和“惩罚”这样的术语,但他们的研究 系统越来越趋向于监督学习。在控制领域中,由w a l t z 和付京孙于1 9 6 5 年分别 提出这一概念。在应用方面,最早应用的例子是s a m u a l 的下棋程序,该程序采 用利用类似值迭代,时序差分和q 学习的学习机制,学习一线性函数表示的值 函数。w i d r o w 及其同事们在研究监督学习的同时,认识到监督学习和强化学习 是不同的并与l9 7 3 年,w i d r o w ,g u p t a 和m a l t a 修正了w i d r o w - h o f f 的监督学 习规则( 常称为l m s 规则) 。新规则可实现强化学习,即根据成功与失败的信号 进行学习,代替原来使用学习样本。他们用“有评价的学习”一词来代替“有导 师的学习”。s a r i d i s 把强化控制系统的控制器看成一个随机自动机,首次系统的 提出了采用强化学习来解决随机控制系统的学习控制问题的方法。 尽管如此,2 0 世纪6 0 年代的后期到7 0 年代的后期,对强化学习的研究仍 然陷入了低谷,进入到1 9 8 0 年代,强化学习的研究出现了高潮,进入了第二阶 段。b a r t o 与s u t t o n3 1 9 8 3 年介绍了强化学习在实际控制系统中的应用情况,他 才用了两个单元,a s e ( a s s o c i a t i v es e a r c he l e m e n t ) 和a c e ( a d a p t i v ec r i t i ce l e m e n t ) , 构成了一个评价控制系统,经过反复学习,使倒立摆维持平衡较长的时间。实际 上这一思想就是强化学习中的a h c ( a d a p t i v eh e u r i s t i cc r i t i c ) 算法的早期形式。 1 9 8 4 年,s u t t o n 在( ( m a c h i n el e a r n i n g ) ) 上发表的关于t d 方法的论述,是一篇经 典之作,解决了强化学习中根据时间序列进行预测的问题,并且在一些简化的条 件下证明了t d 方法的收敛性;随后很多学者对t d 方法进行了分析改进和收敛 性的证明;w a t k i n s t ”1 等人提出了q l e a r n i n g 的方法并给出了算法完整的收敛性 证明,被称为强化学习理论的一个里程碑。j i n gp e n g 【5 1 和w i l l i a m s 等人提出了多 中国科学披术人学自动化系硕十学位论文 步的q l e a m i n g 方法;s z e p e s v a r 在一定条件下证明了q l e a r n i n g 的收敛速度。 m a h a d e v a n ,s c h w a r t z 等,利用非折扣性能的评价方法进行学习,并提出了平均 奖赏值的方法r 1 e a r n i n g 的方法。s i n g h 提出了一些用于求解平均奖赏m a r k o v 决策过程系统的无模型强化学习算法,他已从策略评价和最有控制两方面提出了 4 种不同的r 学习演变算法。t a d e p a l i 提出了基于模型的及平均强化值的 h ,l e a r n i n g 方法,通过对自主车的实验研究,表明该算法收敛较快,并具有较好 的鲁棒性。 国际期刊( ( m a c h i n el e a r n i n g 分别在1 9 9 2 年和1 9 9 6 年出版了强化学习的专 辑,着重登载了强化学习的理论研究论文,其中r i c h a r ds u t t o n 于1 9 9 2 年编辑的 第一个专刊标志着强化学习己发展成为机器学习领域的一个重要的组成部分。 ( ( r o b o t i c sa n da u t o n o m o u ss y s t e m 在1 9 9 5 年出版了强化学习的专辑,主要介 绍关于强化学习在智能机器人上的应用情况。 从国内情况来看,强化学习研究虽起步较晚,但在近年来也取得了快速的发 展。1 9 9 6 年,阎平凡 3 8 1 在信息与控制上发表综述文章,提出了强化学习的 原理,算法及其在智能控制中的应用。他还提出了基于可靠度最优的强化学习算 法,并研究了其在过程控制上的应用。杨璐采用强化学习中的t d 法对经济领域 的预测问题进行了研究。蔡自兴采用强化学习方法对非线性系统控制问题进行了 仿真试验。张汝波 4 2 1 对基于强化学习的智能机器人避障行为的学习方法进行研 究。陈焕文 4 3 1 等提出了一个建立在强化学习问题之上,独立于马尔可夫决策过 程的广义强化学习求解模型。蒋国飞等 3 6 1 将q 学习应用于倒立摆控制系统,并 通过对连续空间的离散化,证明了在满足一定条件下q 一学习的收敛性。 1 2 2 强化学习应用现状 强化学习由于其特点在机器人的学习,自动控制系统,游戏比赛,调度管理 等领域中的应用正日益收到重视。目前强化学习研究比较集中的领域是: 1 ) 在控制系统中的应用 已有相当多的研究将强化学习应用于控制领域。强化学习方法不需要外部环 境的数学模型,而是把控制系统的性能指标要求直接转化为一种评价指标,当系 中罔科学技术人学自动化系硕士学位论文 统性能指标满足要求时,所施控制动作得到奖励,否则,得到惩罚。控制器通过 自身的学习,最终得到最优的控制动作。文献【3 3 】用d y n a q 学习结合b p 神经 嘲络给出了一个生物反应器控制实例;文献 3 4 1 以二自由度的机械手控制为例, 研究了强化学习在非线性系统自适应控制上的实用方法;文献 3 4 1 采用硬件实现 一种动作评价随机学习方法,成功的完成了插拴入孔任务和小球平衡器的控制任 务。强化学习在倒立摆中的控制方面更是得到了广泛的应用,本文将在后面的章 节里给予详细的阐述。 2 1 在游戏比赛中的应用 游戏比赛在人工智能领域中始终是一个研究的问题,许多学者也在研究将强 化学习理论应用到游戏比赛中。如最短路径搜索问题,动物觅食游戏等。在应用 方面最早应用的例子是s a m u e l 的下棋程序,近来,t e s a u r o 把瞬时差分法应用 于b a c k g a m m o n ,这就是著名的t d - g a m m o n 。b a c k g a m m o n 大概有1 0 2 0 个状态, i s a u r o 采用三层b p 神经网络把棋盘上的棋子概率和棋手胜率联系起来,通过 训练获得在4 0 盘比赛中负l 盘的战绩。 3 ) 在调度管理中的应用 调度是一个随机优化控制问题的例子,具有很大的经济价值。c r i t i e s 和b a r t o 将强化学习算法用于个四个电梯,十层楼的系统中,这被认为是世界上最好的 电梯控制系统。每一个电梯都有各自的位置状态。这个系统的状态集合将超过 1 0 2 2 个,用传统的动态规划方法( 如值迭代方法) 很难管理。即使每回溯一个 状态只要一秒钟,回溯集合中的所有状态便需约1 0 0 0 年的时间。c r i t i e s 和b a r t o 采用平均的等待时间的平方作为电梯调度算法的性能,用反传算法堋练表示q 函数的神经网络。与其他算法相比较,强化学习算法更加优越。蒋国飞等提出用 q 学习算法来求解运筹学中一类典型的有连续状态和决策空间的库存控制问题。 v a nr o y , b e r t s e k a s 证明了将强化学习算法应用于库存管理化传统的产业方法,效 率提高了1 0 1 5 。另外,s i n g h ,b e r t s e k a s 等强化学习成功的运用于蜂窝电话系 统中的动态信道分配及机器调度的问题上。 4 ) 在机器人行为学习中的应用 强化学习最适合,也是应用最多的,奠过于机器人领域,近年来国际上 兴起了把强化学习应用到智能机器人行为学习的领域。 中固科学技术人学自动化系 颁 + 学位论文 1 i3 强化学习在倒立摆控制中的应用研究 1 3 1 国内外对强化学习控制倒立摆的研究状况 倒立摆作为强化学习在控制中应用的一个典型案例,是一种典型的非线性连 续控制系统。在用强化学习的算法对倒立摆实施控制的研究中,国内外已经取得 一系列的成果。最早有b a r t o 和s u t t o n 等人”设计了单层网络的a h c ( a d a p t i v e h e u r i s t i cc r i t i c ) 方法,将状态划分成1 6 2 个区域,实现了状态离散化的倒立摆 控制。1 9 8 9 年,a n d e r s o n i 。1 又在原有的a h c 方法上,进行改进,实现了连续状 态空间的倒立摆控制。1 9 9 9 年,k d o y a 1 运用r b f 网络也成功解决了倒立摆系 统连续状态空间闼题。同时,作为强化学习的一种,q - l e a r n i n g 算法也被用于控 制倒立摆。1 9 9 3 年,p e n gj f s l 用l o o k u p 表表示q 值的方法同样实现了将倒立摆 状态离散化后的平衡控制。后来,a n d e r s o n6 1 和蒋国飞,吴沧浦分别在各自的论 文中将神经网络与q 学习结合,成功解决了连续状态空间的倒立摆平衡控制问 题。 1 3 2 有待解决的问题 然而,以上方法在解决了倒立摆连续状态空间问题的同时,并没有解决连续 动作空间的问题。在输出动作空间上均设定为正负两个恒定值,+ i o n 与1 0 n , 分别对应给倒立摆一个左推和右推的恒力。这虽然可以实现某些倒立摆的平衡控 制,但是在实际的( 本实验室) 倒立摆控制系统中,不但存在连续的状态输入空 间的问题,还需要输出连续动作空间给倒立摆,才能达到控制目的。这是目前运 用强化学习来控制倒立摆研究中需要解决的问题。 1 3 3 本文解决的问题 本文利用神经网络的泛化特征,将b p 网络和s 激活函数运用于q 学习中, 实现了输出在一定范围内的连续动作空间值,从而提高了强化学习算法的实际应 用价值。同时,本文也通过q 学习的方法,在未知系统模型的情况下,学习得 中斥j 科学技术人学自动化系硕_ j j 学位论文 到l q r 控制方法所需要的反馈控制器参数,用于实际的倒立摆控制。 1 4 本文的主要内容 本文研究利用强化学习算法来控制倒立摆平衡。主要内容份三个方面: ( 1 ) l q r q l ( l q r - ql e a m i n g ) 算法控制倒立摆 传统的l q r 控制方法在已知倒立摆模型的前提下可以对其进行很好的控制 本文将强化学习中的q l e a r n i n g 算法应用于l q r ,以倒立摆作为控制对象,在不需 要知道系统模型的条件下对倒立摆进行控制。实验用m a t l a b 软件仿真,通过若干 次学习,迭代,最终收敛并得到最优控制器,用于实控系统中,达到控制目的 ( 2 )基于神经网络的强化学习算法平衡倒立摆 运用强化学习的方法来对连续的倒立摆系统实现平衡控制是一直以来有待 解决的问题。本文将q 学习与神经网络中的b p 网络,s 激活函数相结合,利用 神经网络的泛化性能,设计出一种新的学习控制策略,通过迭代和学习过程,不 但能够解决倒立摆系统连续状态空间的输入问题,还成功解决了输出连续动作空 间的问题。将此方法运用于连续倒立摆系统的平衡控制中,经过基于实际控制模 型的m a t l a b 软件仿真实验,结果显示了这个方法的可行性。该方法进一步提高 了强化学习理论在实际控制系统中的应用价值。 ( 3 ) 结合遗传算法和强化学习,用s a n e 方法控制倒立摆 本章介绍了强化学习领域的一种薪型算法s a n e ( s y m b i o t i ca d a p t i v e n e u r o n e v o l u t i o n ) ,共生自适应神经元演化算法。s a n e 将共生演化运用于一个 内部连接的神经元网络群体中形成一个完整的神经网络。将此方法运用于倒立摆 控制是既a h c 方法与q 学习方法之后的一种新的尝试。文章介绍了此算法中首先 要用到的遗传算法( c 徂) 理论,设计和应用。然后是对s a n e 方法进行阐述, 分部介绍了s a n e 方法在倒立摆控制中的实现,最后实验结果以及与传统的强 化学习方法的对比。 1 5 本文的组织 中国科学技术大学自动化系 硕士学位论文 本文组织如下: 第二章强化学习模型及其主要算法 本章从强化学习的定义,基本模型出发,引入值函数概念,详细介绍了强化学习 理论的基本原理。并重点讨论了强化学习的算法- a h c 和q 学习算法,各自的结 构,学习过程,以及如何实现在倒立摆控制中的应用。 第三章基于l q r 的强化学习算法在倒立摆中的应用 本章首先介绍l q r 控制方法和q 学习的原理,通过数学分析,推导过程,给出 两者之间的内在关系。从而得出结论,即通过q 学习过程可以得到l q r 方法所 需要的反馈控制器,用于控制对象。最后结合倒立摆这一控制对象,给出仿真结 果。 第四章利用神经网络和强化学习相结合实现连续空间控制系统 倒立摆控制 首先介绍并分析原有的强化学习算法控制倒立摆所存在的问题,然后是关于神经 网络的原理、应用及其特性。在此基础上提出本文的改进算法,即将神经网络加 入到强化学习单元的结构当中,从而解决连续动作空间的问题。在本章最后给出 了仿真实验结果和结论。 第五章共生演化方法实现倒立摆平衡控制 遗传算法作为本章的一个重点在开始给予介绍,包括其原理、特点及其应用。接 着,详细介绍s a n e 算法的原理及其如何在倒立摆中的应用。给出了仿真程序 的各个关键部分。 结束语 参考文献 附录 中用科学技术人学自动化系 硕学位论义 第二章强化学习原理及其主要控制算法 当前强化学习研究的模型基础主要是基于马尔可夫决策过程的,本章将首先 介绍强化学习模型、原理,然后介绍强化学习的主要算法,其中重点介绍a r c 和q 学习算法在倒立摆控制中的应用。 2 1 强化学习模型 如果被闯及什么是学习的本质时,我们可能首先想到的是通过和环境的相互 作用进行学习。在很多情况下,学习某一事件是没有老师进行指导的。例如,孩 子们学骑自行车时,并不是先学习了一些正确骑车的数据就掌握骑车的技巧,他 们在不断的摔打、碰撞中进行学习。也就是说学习者通过自身的传感器获得外部 环境信息,以评价所采用的动作的效果,最终达到学习的目标:即把环境的状态 和动作对应起来。上面这个例子就是一个典型的强化学习过程,它通过与外界环 境进行相互作用,感受环境对动作的反应从而进行学习。因此说在交互中学习应 该是学习理论与智能理论的重要思想。 强化学习就是这样一种无导师学习( u n s u p e r v i s e dl e a r n i n g ) ,学习智能体 ( a g e n t ) 通过与外界进行相互作用,通过动作引起环境状态的改变,并且从外 界环境中接受的强化信号,称之为奖惩或耗费。学习的目的就是寻找优化策略; 即找到一个从状态到动作的映射,以求得到强化信号某种量化指标的最大( 或最 小) 。 强化学习的模型是基于马尔可夫决策过程( m a r k o vd e c i s i o np r o c e s s ) 的, 它主要包含三个集合: ( 1 ) 环境状态集合s :包括外部环境的所有可能的状态,一般可分为 终止状态和非终止状态。 ( 2 )动作集合a :即学习智能体可以采取的所有动作。 ( 3 )强化信号集合r :一般假定这里的元素是有限和非负的实数。 学习智能体和环境的相互作用是由智能体采取动作引起的,同时触发环境状态的 转移。例如,在t 时刻系统处于状态s ,智能体采用动作a ,在环境的状态转入s , 同时智能体收到一个强化信号r ( 一般用r 0 表示其期望,意为在状态s ,采用 动作a 并且进入状态s 。时的立即回报期望) 。这种由个状态转到另一个状态的 中国科学技术人学自动化系 硕_ 学位论文 过程被称为步( s t e p ) :从个状态经若干步进入到一个终止状态的过程称之为 幕( e p i s o d e ) 。图2 1 是强化学习模型的示意图。 s t a t es , 图2 - 1 强化学习的简单框图 a g e n t 与环境进行交互时,在每一个时刻循环发生如下的时间序列: ( 1 ) a g e n t 感知当前的环境状态; ( 2 ) 针对当前的状态和强化信息,a g e n t 选择一个动作执行: ( 3 ) 当a g e n t 所选择的动作作用于当前状态时,环境发生变化,转移至一 新的状态并产生一奖赏( 强化信号r ) ; ( 4 ) 奖赏( 强化信号r ) 反馈给a g e n t 。 需要进一步指出的是,在实际问题中,状态的转移往往不是确定的,面是随 机的。通常情况用p :表示在状态s 是采用动作a 进入状态s 的转移概率,而这 个概率只与s 和a 有关而与s 的前一个状态无关,这就是所谓的马尔可夫性。在 具有马氏性质的环境中寻找策略的过程成为马尔可夫决策过程。公式( 2 1 ) 给 出了p :,严格的数学定义: p 矗a = p r s = sls 。= s ,d l = a ( 2 - 1 ) 前面已经提到,强化学习的目的就是寻找从状态集合s 到动作集合a 的优 化映射( 使智能体得到的某种奖励最大或耗费最小) ,但实际上几乎所有的强化 学习都没有直接去搜索这种映射,而是通过计算状态值函数进而获得优化策略 的,值函数的定义有很多方法,多数情况下采用长期期望回报。 有了马尔可夫决策过程模型,就可以给出强化学习的定义。和以往的学习算 中i 闽科学技术人学自动化系颁l 学位论文 法定义不同,强化学习不是按照算法的特点来定义的,而是通过问题来定义的: 人们把能够解决马尔可夫过程这类问题的算法叫做强化学习算法。 2 2 值函数 几乎所有的强化学习算法都是基于估计状态( 或状态动作对) 的值函数,依 靠计算值函数来寻求一个优化策略。这些值函数用来评价环境所处状态( 或状态 动作对) 的优劣,这里的优劣一般由长期回报的期望来确定。事实上,这种长期 回报依赖于智能体所采用的动作,相应的,值函数的定义是和策略( p o l i c y ) 相 关的。 一个策略7 1 为一个动作状态( s ,a ) 到一个概率的映射( 如果是确定性问题,这 个概率或者为1 或者为0 ,此时,策略万就可以等价的定义为7 :s o a ,其中s 为状念的集合,a 为动作的集合) 。 形象的说,在策略厅下,状态s 的值函数v ”( s ) 为从此状态出发,并且以后 遵循此策略,而取得的回报的期望。公式( 2 2 ) 为其数学定义。 矿”( 5 ) = e 。 + i + + 2 + ,2 + 3 + - - is 。= j = t + t + y v 4 ( 5 ) = s = 丌( s ,d ) 砖 碟+ 。( s ) 】 ( 2 2 ) d 其中e 。表示智能体遵循策略,而取得的回报期望;y 【0 , 1 】为折扣因子。如 果状态s 为终止状态,那么它的值函数设置为零。函数v 4 称为对于策略刀的状 态值函数。 同样,可以定义在策略万下,处于状态s 时,采用动作a 的值函数q ”( j ,口) ,其形式化定义如公式( 2 3 ) 所示: q 4 ( s ,d ) = 疋( 置t = 品a t = 口) = 只 ,+ “墨= 口,a t = a ( 2 3 ) k = 0 称其为在策略万下的状态动作对值函数。 2 3 强化学习控制倒立摆的主要算法 倒立摆是一个典型的非线性控制系统,在对它的控制中,在已知系统模型的 中固科学技术人学自动化系硕上学位论文 条件下,传统的控制算法方法通过得到反馈控制器可以取得较好的控制效果。随 着近年来强化学习理论在控制领域的不断发展,在不需要对象模型的前提下也可 以对倒立摆进行很好的控制。1 9 8 3 年b a r t o ,s u t t o n 等人采用a h c ( a d a p t i v e h e u r i s t i cc r i t i c ) 的方法实现了状态离散化的倒立摆控制。1 9 8 9 年,a n d e r s o n 用 两层神经网络和a h c 方法实现了状态未离散化的倒立摆的平衡控制。以及p e n g p 】等人用l o o k u p t a b l e s 来表示q 值的方法,用q 学习算法来实现对倒立摆的控 制。下面将分别介绍这算法对倒立摆实施控制的方法和效果。 2 3 1a h c 一层网络控制倒立摆 此方法由b a r t o ,s u n o n 在( ( n e u r o n l i k ea d a p t i v ee l e m e n t st h a tc a r ls o l v ed i f f i c u l t l e a r n i n gc o n t r o lp r o b l e m s ) ) 一文中提出,其原理图如图2 - - 2 所示。 四个 评估网络失败信号 图2 2 a h c 一层网络控制倒立摆原理 作为控制对象的倒立摆是如图2 3 所示的非线性系统。小车在长l m 的轨 道上自由的作左右运动,小车上的倒立摆一端被铰链在小车顶部。另一端可以在 小车所在的垂直平面上作自由转动。控制的目的在于通过推动小车向左或向右移 动,使倒立摆平衡并保持小车不和轨道两端相撞。系统的输入为作用在小车上的 力f ,输出有四个状态变量, 中脚科学技术入学自动化系顺l 学位论史 x 一小车的位置,t h e t a 倒立摆偏离垂直方向的角度 xd o t 一小车的速度,t h e t a d o t 一倒立摆的角速度 图2 3 小车倒立摆示意图 倒立摆系统可以用以下运动方程来描述 g s i n s , + c o s 0 , f - f , 掺:三 一m 1 0 2 , s i a a , + n , s g n ( a ,) ,i ,十,h t2 t l l c o s z o t 州。+ mj f 。+ r a t e , s i n 0 , 一缸o s 只 一雎8 9 n ( 毫) 小。+ m ( 2 4 ) 其中g = 9 8 m s 2 ,重力加速度;l t l c = 1 0 k g ,小车质量;m = 0 1 k g ,倒立摆质量; 1 = 0 5 m ,倒立摆的一半长度;u 。= o 0 0 05 ,小车和轨道的摩擦系数;u 。= o 0 0 00 0 2 , 倒立摆和小车的摩擦系数;f 。= 1 0 o n ,在时刻t 作用于小车质心的力小车轨 道长度为4 8 米通过e u l e r 方法数值近似,可用以下差分方程来仿真倒立摆系 统 x ( t + 1 ) = x ( t ) + t z ( t ) ,( 2 - 6 ) z ( t + 1 ) = z ( t ) + t z ( t ) ,( 2 - 7 ) 中国科学技术人学自动化系硕1 1 学位论义 毋( t 十1 ) = 分( t ) + t 占( t ) ( 2 - 9 ) 时间步t 一般设为0 0 2 秒显然以上给出的倒立摆系统是一个确定性系统本 文为了说明基于q 学习和神经网络的方法同样适用于连续随机系统的天模型控 制,在以上确定性倒立摆模型中引入一个噪声信号来构成个随机倒立摆模型, 即在仿真中用以下方程来代替方程( 2 7 ) o ( t + 1 ) = z ( t ) + t z ( t ) + ( p ,o2 ) , ( 2 - 1 0 ) 其中( u ,o2 ) 为离斯噪声 和其他实现倒立摆控制的方法不同,在强化学习方法中,控制器唯一能从环 境得到的反馈是当倒立摆偏离垂直方向的角度超出1 2 。或小车在2 4 米处 和轨道两端相撞时环境给出的一个失败信号因此本文定义即时报酬r 。为 一 f 一1 ,如果i 以i 1 2 。或i 蜀i 2 4 m ,一、 1 0 ,其他 由于控制器是在执行了一系列决策后才得到这个延迟的失败信号,则控制器 必须解决奖励或惩罚随时间分配的问题,即确定在这过程中哪些决策应该对最后 的失败负责整个学习控制系统工作过程如下: 学习单元的动作网络对倒立摆实施一个左推或者是右推的力,然后由状态评估 网络获得倒立摆的下一个状态,将其离散化后划归于某个区域。根据倒立摆所处 的状态来决定强化信号r 的值,也即对先前动作所产生结果好坏的评估,将此强 化信号传给动作网络,决定下一个所应当采取的动作。每次试验当倒立摆的试探 次数( 失败次数) 超过i 0 0 次或一次试探的平衡步数超过1 0 00 0 0 步时,中止倒立 摆的学习并重新开始另一次试验在仿真中,如果倒立摆在一次试探中能保持 1 0 00 0 0 步不到,就认为本次试验已经能成功控制倒立摆平衡了在倒立摆控制 中,每次平衡失败后,倒立摆的初始状态一般设在x = o 的位置 1 3 中田科学披术人学自动化系 运用一层网络的a h c 算法控制倒立摆一般可以在8 0 步左右实现倒立摆平衡。 2 3 2a h c 两层网络控制倒立摆 在用a h c 一层网络控制倒立摆的方法当中,获得倒立摆的状态后,经过离散化, 通过将状态划分成1 6 2 个区域来代表倒立摆系统的当前状态,作为强化学习评估 网络的输入。但是在经过离散化和区域化之后,结果存在一定的不准确性。1 9 8 9 年,a n d e r s o n 又在原有的a 忙方法上,进行改进,用两层网络来代替原来的评 估和动作网络,实现了状态未离散化的倒立摆平衡控制。 a h c 两层网络控制倒立摆的方法是在一层网络中增加一个隐含层,获得系统的 输入状态,输出给下一层网络输出层,作为评估网络的输出。 a h c 两层网络控制方法在经过实验后被证明具有比一层网络明显的改进效果。 一层网络相比于随机控制并没有很明显的提高,每次运行平均会有2 7 0 0 0 次失 败,每次试探平均1 6 次。而两层网络的方法每次试探达到1 2 0 0 0 0 次,大概有 8 0 0 0 次失败。 2 3 3q 学习算法控制倒立摆 q 学习方法是强化学习中的一个重要理论,本文下面将重点介绍。 q 学习算法 强化学习是由w a t k iy i s 于1 9 8 9 年提出来的类似于动态规划算法的一种强化 学习方法。它提供智能系统在马尔可夫环境中利用经历的动作序列选择最优动作 的一种学习能力,并且不需要建立环境模型。q 算法是一种基于m a r k o v 过程的 递增式动态规划算法,q 学习算法实际是m d p ( m a r k o vd e c i s i o np r o c e s s ) 的一种 变化形式。在q 学习中,不需估计环境模型,而是壹接的估计最优的值函数( q 函数) ,并使它按照公式退到控制策略。 m d p 模型 很多强化学习问题基于的一个关键假设就是a g e n t 与环境之间的交互可以 被看成一个马尔可夫决策过程( m d p ) ,因此强化学习的研究主要集中于对m a r k o v 的问题处理。m d p 模型意味着,a g e n t 感知到的目前的环境状态和a g e n t 选择的 中闰科学技术人学自动化系颅【学位沦x 动作,将一一起决定一个固定的( 未知的) 概率分布,决定下一个状态及即时奖赏。 这个模型足非记忆型的且满足m a r k o v 特性,a g e n t 在决定最优策略时,不需要 i 己忆以自d 的状态和动作。 ) r l a r k o v 决策过程模型可用一个四元组( s ,a ,t ,r ) 表示:s 为可能的状态集 合,a 为可能的动作集合,t :s a 一7 1 是状态转移函数,r :sx a 寸r 是奖赏 函数。在每个时间步k ,环境处于状态集合s 中的某一状态札,a g e n t 选择动作 集合a 中的一个动作q ,收到即时奖赏咋,并转移至下一个状态儿。状态转移 函数t ( x 。,吼,y 。,表示在状态扎执行动作吼转换到下一个状态y 。的概率,可用 只。( 吼) 来表示。状态转移函数和奖赏函数都是随机的。a g e n t 的目标就是寻求 最优控制策略,使值函数点( y r k + 0 最大,其中,( o - 7 s 1 ) 是折扣因子。 如果知道状态转移概率p 和奖赏函数r ,可以用动态规划( d p ) 的方法来解 这个优化问题,而在强化学习中,用于确定m d p 的p 和r 并不预先知道。q 学习 就是在转移概率和所获奖赏位置的情况下,直接估计最优的动作值函数( 即q 值)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论