




已阅读5页,还剩55页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于强化学习的倒立摆控制.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 强化学习与监督学习不同之处在于,它不需要教师信号,又不同于仅能完成 极其有限功能的无监督学习在学习过程中得不到任何提示,它强调与环境的交互 过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化。它采用人类 和动物学习中的“行动评价一改进”机制,与动物学习理论、认知科学、自动 学习机等有密切的关系,对于求解无法获得教师信号的复杂优化与决策问题具有 更广泛的应用前景,近年来在人工智能研究领域受到了国内外学者越来越多的重 视。 鉴于运动平衡控制问题对于机器人主体研究的重要性,我们对运动平衡控 制技能的认知问题进行了特别的研究。本课题主要以强化学习为研究对象,在 已有强化学习算法的基础上加以改进和提高,提出了自己研究的学习系统,并 应用到对倒立摆系统的平衡控制中。目的使智能控制系统具有学习能力,能在 系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。其研 究成果可广泛应用于机器学习、自动控制、机器人学等诸多领域。论文取得以 下主要成果: ( 1 ) 程表格型q 学习繁法豹基貔,掇 羹了一耪基于神经鄹终麓改遂游q 学 习方法。该学习方法采用神经网络逼近q 值函数,同时采用一种b o l t z m a n 分布的 s o f t m a x 嚣强选择繁臻。它宠或了爨蠢连续状态窝藏羧动转豹学嚣控毒任务,一 级倒立摆系统的仿舆实验,验证了该学习系统的有效性。 ( 2 ) 农强位学习魏动态趣划雾法款基懿土,撼爨了一糖基予凑罄露翳毒枣经 网络的强化学习系统( r e i n f o r c e m e n tl e a r n i n gs y s t e mb a s e do ni n t e r n a l l y r e c u r r e n t n e t s ,r l s i r n ) 。r l s i r n 不震要顿测移瓣识摸受,在搂燮来酝蟊没有 先虢经验的条件下,能通过自身神经网络的在线学习,有效实现了对具有连续 状态积连续行为空闽任务黪控制。邋过一缀簿二级侧立摆系绫匏仿嶷实验黢涯, 结粜表明了该学习算法在性能上优于其它同类强化学习算法。同时将r l s i r n 应熙到一缎倒立摆物理实体的控制中,实骏取提了较好的控铡效果。 ( 3 ) 在基于r l s i r n 的基础上,改变了评价和动作神经网络的网络缩构, 同肘采用权值的适含度轨迹( e t i g i b i l 沁t r a c e s ) 来擞遽学习过程。邋过倒立攥系 统的仿真实验比较了这两个学习系统。 关镳词强化学习;神经涮络:倒立摆系统 a b s tr a c t r e i n f o r c e m e n tl e a r n i n gi sd i f f e r e n tf r o ms u p e r v i s e dl e a r n i n gi nt h a tn ot e a c h e r s i g n a l sa r en e e d e d a n dr e i n f o r c e m e n tl e a r n i n gi sd i f f e r e n tf r o mu n s u p e r v i s e dl e a r n i n g o ff e wf u n c t i o n si nt h a ti to b t a i n st h er e w a r d sf r o mt h ee n v i r o n m e n t r e i n f o r c e m e n t l e a r n i n gs y s t e ml e a r n st oo p t i m i z ed e c i s i o nb yt h ef e e d b a c ki n f o r m a t i o nf r o mi t s i n t e r a c t i n ge n v i r o n m e n t i ta d o p t st h em e c h a n i s mo f “a c t i o n - - c r i t i c p r o g r e s s ”t h a ti s u s e db yp e o p l ea n da n i m a li ns t u d y r e i n f o r c e m e n tl e a r n i n gc l o s e l yc o r r e l a t e sw i t h a n i m a ll e a r n i n gt h e o r y , c o g n i t i v es c i e n c ea n da u t o n o m o u s l e a r n i n gm a c h i n e s o r e i n f o r c e m e n tl e a r n i n gm e t h o d sh a v ew i d ea p p l i c a t i o na r e a si n s o l v i n gc o m p l e x o p t i m i z a t i o na n dd e c i s i o np r o b l e m sw h e r et e a c h e rs i g n a l sa r eo b t a i n e dh a r d l y i nr e c e n t y e a r s ,r e i n f o r c e m e n tl e a r n i n gi ss e ts t o r eb yd o m e s t i ca n do v e r s e a sr e s e a r c h e r si nt h e a r t i f i c i a li n t e l l i g e n c ef i e l d b e c a u s ei ti si m p o r t a n tf o rt h es t u d yo fa u t o n o m o u sr o b o t i ca g e n t st or e s e a r c h m o t o rb a l a n c ec o n t r o l ,w ee m p h a s i z et or e s e a r c hc o g n i t i v em o d e l sf o rm o t o rs k i l l 。t h e p a p e rm a i n l yr e s e a r c h e sa n di m p r o v e st h em a t u r er e i n f o r c e m e n tl e a r n i n gm e t h o d s a n d t h er e i n f o r c e m e n tl e a r n i n gm e t h o d sp r o p o s e db yt h ep a p e ra r ea p p l i e dt oc o n t r o lt h e i n v e r t e dp e n d u l u ms y s t e m t h eo b j e c t i v ei st h a tt h ei n t e l l i g e n ts y s t e m se a r ll e a r nf r o m r o l lp r o c e s sa n dh a v em o t o rs k i l ls i m i l a rt op e o p l ea n da n i m a l t h ep r o d u c t i o nc a r lb e a p p l i e di nm a c h i n el e a r n i n g ,a u t o m a t i o na n dr o b o t i cf i e l d ss oo n ,t h ep a p e rh a dt h e m a i na c h i e v e m e n t sa sf o l l o w s : ( 1 ) b a s e do nql e a r n i n ga l g o r i t h ms t o r i n gi n f o r m a t i o nb yt a b l e ,t h ep a p e f p r o p o s e st h ei m p r o v e dql e a r n i n gb a s e do i ln e u r a ln e t w o r k s i ta d o p t sn e u r a l n e t w o r k st oa p p r o x i m a t eqv a l u ef u n c t i o na n dt h es o f f m a xd e c i s i o no fb o l t z m a n d i s t r i b u t i o nt os e l e c tt h ea c t i o n i tc a ne f f e c t i v e l yc o n t r o lt h et a s ko fc o n t i n u o u s s t a t e sa n dd i s c r e t ea c t i o n s i ti sv a l i d a t e db yt h es i m u l a t i o n so fc o n t r o l l i n gt h e i n v e r t e dp e n d u l u ms y s t e m ( 2 ) b a s e do nr e i n f o r c e m e n ta n dd y 珏越燃cp r o g r a m m i n g ,t h ep a p e rp r o p o s e sa l l i m p r o v e dr e i n f o r c e m e n tl e a r n i n gs y s t e mu s i n gi n t e r n a l l yr e c u r r e n tn e t s ( r l s i r n ) t h e l e a r n i n gs y s t e md o e sn o tr e q u i r eap r e d i c t i o nm o d e la n da i ti d e n t i f i c a t i o nm o d e l , e v e ni ft h em o d e lo ft h es y s t e mi sn o ta v a i l a b l ea n dt h el e a n e rh a sn oap r i o r i e x p e r i e n c e ,i tc a r le f f e c t i v e l yc o n t r o lt h et a s ko fc o n t i n u o u ss t a t e sa n da c t i o n sb y a d j u s t i n gi t s e l fo n l i n e t h er e s u l t sd e m o n s t r a t et h a ti ti ss u p e r i o rt oo t h e rc o n g e n e r h l 北京工业大学工学硕士学位论文 r e i n f o r c e m e n tl e a r n i n gm e t h o d sb yt h es i m u l a t i o n so f c o n t r o l l i n gt h es i m p l ei n v e r t e d p e n d u l u ma n dt h ed o u b l ei n v e r t e dp e n d u l u m a n dt h el e a r n i n ga l g o r i t h mi sa p p l i e d t oc o n t r o lt h er e a li n v e r t e dp e n d u l u ms y s t e mi nr e s u l tt h a tw eo b t a i nt h eg o o de f f e c t i nm o t o rc o n t r 0 1 ( 3 ) b a s e do nr l s i r n ,t h ep a p e rm o d i f i e st h es t r u c t u r eo fc r i t i ca n da c t i o n n e u r a ln e t w o r k sa n da d o p t se l i g i b i l i t yt r a c e st oa c c e l e r a t el e a r n f i n a l l yt h ep a p e r c o m p a r e st h es i m u l a t i o nr e s u l t sp r o d u c e db yt h et w ol e a m i n gs y s t e m s k e y w o r d sr e i n f o r c e m e n tl e a r n i n g ;n e u r a ln e t w o r k s ;i n v e r t e dp e n d u l u m s y s t e m 独创性声臻 车天声臻囊至交兹论文是我个人在霉帮籀善下避嚣熬蕊究工幸棼及取褥的疆 究成果。尽我所知,除了文中特别加以标:;堂和致谢的地方外,论文中不包含其他 入懑经茇裘藏筷写过酾研究成莱,落不包含务获褥j 0 京工簸大学或其它教育机构 的学位或诞书两使耀过的专芎料。与戏一同工作的慰惑对本研究所傲的任何炎献均 己禚论文中作了明确的说明并表示了谢意。 签名:皇缝垂墨簸;塑垄叁煎整瓷 关于论文使蹋授觳辩说葫 本人党企了觯北京工业大学有关保留、使用学位论文的规定,即;学校有权 爨簿送交谂文羲美酾臀,竞诲论文被查窝帮嵇蕊;学校可以公毒谂文懿垒帮菠部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 傈赛静论文在解密瑟应遵守j 玩蔑定) 躲鲻致导师躲两亿 珊 刃 心 ; 时 谚 第1 章绪论 1 ,1 课题研究的背景及意义 学习是人类智能的重要表现之一,人所以能适应环境的变化并提高解决问 题的能力,其原因在于人能通过学习积累经验,总结规律,以增长知识和才能, 从而更好地改善自己的决策与行为。使计算机具有学习的能力,模拟或实现人 类学习活动为目的的机器学习,是人工智能的一个重要的研究领域,它的研究 对于人工智能的进一步发展有着举足轻重的作用。机器学习与人类学习相比, 具有学习速度快、不受生命周期限制、学习成果可以复制而且容易传播等特点。 如果机器能成功地实现人的学习过程,学习会不因人的生命结束而中断,知识 的积累就可以达到一个新的高度。机器学习与统计学、心理学等许多其他学科 都有交叉。 学习心理学岛机器学习的交叉综合赢接促进了强化学习( r e i n f o r c e m e n t l e a r n i n g ,又稼再臌学习或增强学习) 理论秘方法熬产生秘发展。隈垂艺学麓基予 动物学习心理学的有关原理,采用人类和动物学习中的“尝试与失败”机制, 强调与环境的交互过程中获褥评价性反馈蕊号,列用评侩信息寒灾现行为决策 的优化。它是近年来机器学习和人工智能领域研究的热点之一,与动物学习理 论、认知辩学、爨动学习枫等有菪密切的关系,楚一罩申受离级的键女行为。 目前,学术界把已提出的机器学习方法按照与环境交互的特点分为髓督学 习、无监餐学习和强化学习三类。其中监督学习方法是翳前研究盼较为广泛鲍 一种,该学习要求给出学习系统的一组恰当的输入输出样本,在“教师”教导 下进行认知学习。在这种方法中,学习系统完成的是与螺境没有交互的记忆和 鲡识重组豹功能。篮督学习需要给出不尚环境状态下的教师信号,因此限制了 监督学习在复杂的优化控制问题中的应用。无监督学习方法不存在外部教师。 学习系统完全按熬环境撼供数据酌莱些统计规律来调节螽身参数或结构,以表 示出外部输入的某种固有特性。其输入仅有环境的状态信息,也不存在与环境 酌交互,觚拜境中褥不翻提示。谶既,无箍督学瓣虽然不需要教筛信号,但仅 熊完成模式分类等有限的功能。由于强化学习不徽耍教师信号,能通过与环境 的交互遘程中不凝速完善螽己静试知按熊,因魏对于求瓣复杂静优亿与决策闷 题具有更广泛的应用前景。在早期的研究中,由于受到学习心理学研究的影响, 撼器土诲多国家一度攮起了强 芑掌习静磅究热溺。毽由予强纯学习润题本身的 困难性和其它种种原因,在二十世纪七、八十年代,机器学习的研究工伶和成 北京工业大学工学帧士论文 果主要集中在监督学习和无监督学习。n - - 十世纪八十年代末,强化学习的研 究才又重新得到了重视。 使智能控制系统具有学习能力,能在系统运行过程中逐步获取新知识,真 正具有类似人类和动物的运动控制技能,近年来已经引起国内外学者的广泛关 注。迄今为止虽然取得了不少成果,但无论是d a r w i n 自动机还其它现有的面向 机器人主体的认知模型,都很少涉及运动平衡控制这类所谓的低级认知问题。 正如美国密苏里哥伦比亚大学的r o ns u n 等人所指出的:“低级认知的研究 与高级认知的研究同样重要,然而,有关低级认知的认知模型或建模研究还没 有得到足够的重视”。鉴于运动平衡控制问题对于机器人主体研究的重要性, 我们对运动平衡控制技能的认知问题进行了特别的研究。 一级倒立摆系统是于二十世纪5 0 年代,麻省理工学院的控制论专家根据火 箭发射助推器原理设计出的实验设备。3 。而二级倒立摆是后来人们参照双足机 器人控制问题研制出的控制设备。它们是火箭发射、机器人控制和仪器加工等 方面研究的基础,其研究成果不仅具有深刻的理论意义,还具有更重要的工程 背景。在对它们控制过程中能有效地反映运动平衡控制的许多关键问题,是控 制领域中一个典型的不稳定严重非线性的系统例证。 本课题选用强化学习作为研究对象,倒立摆系统为实验模型。在已有强化 学习算法的基础上加以改进和提高,提出了自己的研究模型和见解,并应用到 智能体对倒立摆系统的平衡控制中。这样智能体在开始学习之前不需必须知道 环境的模型或控制的先验经验,而是使智能体具有学习能力,通过在运行过程 中逐步获取的新信息,不断改进自己的认知行为,具有类似人类和动物的运动 控制技能。其研究成果可广泛应用于机器学习、自动控制、机器人学等诸多领 域。 l 。2 强化学习豹发展历史与磺究现状 强化学瓣鲍硪究历史霹分力薅祭圭线,在进入鼹现代强化学习黟 变之蘩, 它们彼此独立,互不纠缠。一条主线起始子动物学习的心理学,通过试误( t r i a l a n de r r o r ) 达到学习的基款。这条主线贯穿予入工键戆早糍靛磅究工 乍中,是 使二十世纪八十年初期强化学习复苏的重要因素。鹦一条主线是关于最优控制 ( o p t i m a lc o n t r 0 1 ) 的研究、及其麟块方法:僮函数( v a l u ef u n c t i o n s ) 和动态 规划( d y n a m i cp r o g r a m m i n g ,d p ) 的研究。但对于第二条主线的大部分研究 涉及不到学习。尽管这两条主线在缀大程度上彼此独立,但也产生了不太突爨 的第三条线索,对时间差分( t e m p o r a ld i f f e r e n e e ,t d ) 方法的研究。这三条 线索拱同作用,引越八十年代末强化学习的快速发展,产生了强化学习的现代 2 方法。 先从第一条主线说起,它植根于心理学,以“试误”学 - 3 为中心,是我们 最熟悉的也是研究者最常提到的。最早简洁表述“试误”学习的是e d w a r d t h o m d i k e ,他于1 9 1 1 年提出了“效应定律“”( l a w o f e f f e c t ) ,该思想的本质 是强调行为的结果有优劣之分并成为行为选择的依据,同时指出能够导致正的 回报的行为选择概率将增加,而导致负回报的行为选择概率将降低。而最早进 行“试误”学习计算研究的可能是m i n s k y 和f a r l e y 及c l a r k 于1 9 5 4 年开始的, m i n s k y 提出了s n a r c s ( s t o c h a s t i cn e u r a l a n a l o gr e i n f o r c e m e n tc a l c u l a t o r s ) 的强 化学习计算模型“1 ,而f a r l e y 和c l a r k 提如了另一个神经网络学习机。较具影响 力的是t 9 6 1 年m i n s k y 的论文s t e p st o w a r da r t i f i c i a li n t e l l i g e n c e ) ,他讨论了 几个与强化学习相关的主题,其中包括信任分配问题( c r e d i ta s s i g n m e n t p r o b l e m ) ”,这问个题是强化学习必须涉及到的,也是至今学者研究最多的难 点。1 9 6 5 年w a l t z 和f u ,1 9 6 6 年m e n d e l 等较早的在工程文献中引用了“强化” 和“强化学习”。1 9 5 5 年f a r l e y 和c l a r k 由“试误”学习转向泛化和模式识 别的研究,即由强化学习转向监督学习“1 。开始了强化学习和监督学习的混合 研究状态。而w i d r o w 及其同事们在研究监督学习时,认识到监督学习和强化 学习之间的不同,并于1 9 7 3 年w i d r o w , g u p t a 和m a i t r a 改正了w i 出o w 和h o f f 的监督学习规则( 常称为l m s 规则) ,新规则可实现强化学习嘲,即根据成功 和失败的信号进行学习,代替原来的使用训练样本进行学习,他们用“有评价 的学习”一词代替“有教师的学习”。学习自动机对由试误学习发展起来的现代 强化学习有着重要的影响,其中较为著名的有1 9 7 3 年t s e t l i n 的工作和b a r t o 和 a n a n d a n 发展的具有联想的学习自动机“1 。不过大部分早期的研究工作,主要是 为了显示强化学习和监督学习的不同。 再来谈箱二条主线。动态规划怒由b e l l m a n 等在2 0 世缎5 0 年代晚期提出, 回时他于1 9 5 7 年撼嫩了著名的马尔可夫决筑过程( m a r k o vd e c i s i o np r o c e s s e s , m d p ) ,即墩优控制问题的离散统计模式“。d p 燕一种特别适用于需要相关决 策膨列问题的最优化过程,也是解决裳规统计最优控制问题的唯一w 行豹办法。 但燕随着状态数量的增多,任务会成指数式增长,因此动态规划遭遇到“维数 灾”( 吐l ec u r s eo f d i m e n s i o n a l i t y ) 问题。但d p 较其它方法瓶言,仍是一个非常 育数且应溺广泛韵方法。强亿学习与最伉控铡菲常接近,芄其近似予m d p 。动 态娥划自五十年代末,逐渐牯大发展起来。策略迭代和值选代是d p 的两个主 要方法,勇辩两个值得注意瀚方法为g a u s s s e i d e l 方法和异步动态燃划”“。 时间差分方法较两条主线略显细小,不太显著,但它在强化学习领域超着 举足轻重静逸位。所谤对颡差分是籀对同个事 串躐变量程连续两个时刻观测 北京 业大学工学帧士论文 的差值,这一概念来自于学习心理学中有关“次要强化器“”( s e c o n d a r y r e i n f o r c e r ) 的研究。1 9 5 9 年s a m u e l 的下棋程序“,为第一次提出和执行了一 个含有时间差分方法的学习算法。1 9 7 2 年,k l o p f 将时间差分方法作为试误学 习的一个重要部分,用兴奋的输入作为奖励同时用抑制的输入作为惩罚。1 9 8 1 年,研究者开始意识到要将时间差分和试误学习联系起来,与此同时提出了将 时间差分方法用到试误学习的“动作一评价”结构( a c t o r c r i t i ca r c h i t e c t u r e , a c a ) 。b a r t o 于1 9 8 3 年介绍了强化学习在实际控制系统中的应用情况“,设计 了两个单层神经网络,并采用“动作一评价”结构实现了状态离散化的倒立摆 控制。实际上这一思想就是强化学习中自适应启发评价( a d a p t i v e h e u r i s t i c c r i t i c a h c ) 算法的早期形式。之后s u t t o n 1 4 1 于1 9 8 4 年,在他的博士论文中提出了 a h c 算法,比较系统的介绍了a h c 思想。文中采用两个神经元形式,对不同 的算法进行了大量实验。另外s u t c o n 于1 9 8 8 年在 m a c h i n el e a m i n 2 上发表 j 题为 l e a r n i n gt op r e d i c tb yt h em e t h o d so ft e m p o r a ld i f f e r e n c e s ”的著名论文 i t s 3 可以说这是一篇经典之作。文中系统地提出了t d 方法,解决了强化学习中 根据时间序列进行预测的问题,并且在一些简化条件下证明了t d 方法的收敛 性。 1 9 8 9 年c h r i sw a t k i n s 提出瀚q l e a r n i n g i “,将t d _ 萃珏动态蕊翊与箕缀好绝结合 起来,并证明t q l e a r n i n g 的收敛性。w a t k i n s 的工作推进了强化学习的快速发展, 茏其怒人工智能中瓤嚣学习缎震。j 融gp e n g 及w l i l i a m s 等入提赉了多步鹩q l e a m i n g 方法“”:1 9 9 0 年,w e r b o s 等人通过将试误学习与最优控制理论和动态舰 楚联系起来蔼进行了壤论上瓣磅究“8 。凌伐懿佬学习褥三条线索檄好靛结合起 来,得到飞遗进展。随后s i n g h 采用随机逼近的方法米解决最优控制问题,提出 了替季琶式逶合凌孰迹“”( r e p l a c i n ge l i g i b i l i t yt r a c e s ) 计算方法势对替代式遥合 度轨逊进行了理论分析。证明了替代式适合度轨迹具有学习速度快而腹也比较可 靠爨特点。1 9 9 6 年m a h a d e v a n 采鼹乎蝰强纯篷豹方法,提高了rl e a r n i n g 方法 1 ,并与ql e a r n i n g 进行比较,结果表明rl e a r n i n g 学习效果较好。i 9 9 8 年, ! 镪帮曛及d o k y e o 鸥掇供了基予模型及平均强纯壤懿辍l e u r n i n g 方法“”,逶过对 自主导引车的试验研究,表明该算法收敛较快,也具有较好的鲁棒性。 扶匿走璃况看,暇证学习还处于起步除羧。阑平凡“”在信息与控刳1 9 9 6 年发袭综述文章,介缁了强化学习的原理、主鼹算法殿其在智能控制中的应用情 况,并砖基子珂靠度最佬翁强化学习冀法及在j 遣程控制上鲍皮弼进行了磅究。攮 宁寿等采用强化学习方法对改进型广义预报控制器的设计参数进行了自学习浔 优研究,并在滚位控制实验系统上作了实时成用礤究。马裁、蔡皂兴袋月强像学 习方法,对非线性系统控制问题进行了仿真实验“3 。张汝波对基于强化学习的智 4 第1 苹绪论 能机器人避碰行为的学习方法进行了研究。蒋国飞将q 学习应用于倒摆控制系 统中,成功地控制了一级倒立摆u “。 目前,关于强化学习的研究在国外已广泛开展,而在国内还没有得到应有的 普遍关注。近年来,国内若干高校和研究所已开展了有关强化学习算法和理论的 研究工作,但相应的研究工作还不够深入和广泛,我们需要进一步的努力和拓展。 现在强化学习已在非线性控制、机器人规划和控制、人工智能问题求解、组 合优化和调度、通讯和数字信号处理、多智能体系统、模式识别和交通信号控制 等领域取得了若干成功的应用,有着光明的应用前景。 目前虽然关于强化学习的算法和理论的研究已经取得了大量的研究成果,但 仍然有许多关键问题有待解决。已提出的强化学习算法大部分是针对离散状态和 离散行为空间学习任务的表格型算法研究,但对于连续、高维空间的m d p 问题 将面临类似动态规划的“维数灾难”。而已提出的强化学习泛化方法,学习时间 过长仍是它存在的主要问题。尽管强化学习在理论研究上发展迅速,但在实际应 用中还没能发挥出它的巨大潜能。 1 3 强化学习在倒立摆系统的应用情况 早在1 9 8 3 年,b a r t o ”1 采用了两个单层神经网络a s e ( a s s o c i a t i v es e a r c h e l e m e n t ) 联a c e ( a d a p t i v ec r i t i ce l e m e n t ) ,势运爨a h c ( a d a p t i v eh e u r i s t i cc r i t i c ) 学习算法实现了状态离散化的直线一级倒立摆控制。1 9 8 9 年,a n d e r s o n 进一步 用耀个双层神经嬲终秘a h c 方法突现了状态连续化的一级铡立摆拄“。雄经啜 络结合模糊控制设计的强化学习系统有,1 9 9 2 年b e r e n j i 和k h e d k a r 提出 g e n e r a l i z e da p p r o x i m a t er e a s o n i n g - b a s e d i n t e l l i g e n tc o n t r o l ( g a r i c ) 方案。3 ,采 用了再励学习模糊臼适应方法控制一级倒立摆,在实时控制的过程中,根据内 部褥励信号在线修正动作谮价( a c t i o ne v a l u a t i o nn e t w o r k ,a e n ) 赠络鲍权系数 和动作选择( a c t i o ns e l e c t i o n n e t w o r k ,a s n ) 模糊神经网络的隶属函数参数, 以使错误的概率减少。及1 9 9 4 年l i n 和l e e 采用他 f 1 所提出的增强式基予神经 网络的模糊控制系统来学习控制一级倒立攥“”。2 0 0 1 年j e n n i e 研究的d i r e c t n e u r a ld y n a m i cp r o g r a m m i n g t 2 8 1 采用d p 和强化学习槌结合类似于基于动作的启 发战动态娥捌( a c t i o n d e p e n d e n t v e r s i o n o f h e u r i s t i cd y n a m i cp r o g r a m m i n g a d h d p ) 控制直线级和三级倒立摆。 国内较为著名的是1 9 9 8 年,蒋函飞8 ”提出的繁于q 学习和b p 神经两络的 学习算法,他采用b p 神经网络逼避q 值幽数,并应用于倒立摆控制系统中。 2 0 0 2 年,受雄箨、郑志东等。采蠲竞争式t a k a g i s u g e n o 模糊再励学习,实现 了对具有寓散时间和连续空间的直线二级倒立摆控制。 北京工业大学工学硕士论文 1 4 本文的主要研究内容及论文安排 本课题来源于国家自然科学基金( 6 0 3 7 5 0 1 7 ) 一“基于达尔文机的运动控制 技能认知模型与机器人主体研究”。 本课题选用强化学习作为研究对象,倒立摆系统为实验模型。在已有强化学 习算法的基础上加以改进和提高,提出了自己的研究模型和见解,并应用到智能 体对倒立摆系统的平衡控制中。章节安排如下: 第二章首先介绍了强化学的原理和模型,然后探讨了强化学习涉及到的基本 知识,最后介绍了强化学习的两个经典算法。 第三章首先对倒立摆系统进行了简单的介绍,然后通过运动力学和数学原理 推导了直线一级倒立摆和直线二级倒立摆的数学模型,目的是便于对论文提出的 算法结构模型的仿真验证。最后介绍了倒立摆系统的主要控制算法。 第四章首先介绍了表格型的q 和s a r s a 学习算法。然后在q 学习算法的基础上, 提出了一种基于神经网络的改进q 学习方法,该学习方法采用神经网络逼近q 值 函数,同时采用一种b o l t z m a n 分布的s o f l m a x q ? 为选择策略。它完成了具有连续 状态和离散动作的学习控制任务,一级倒立摆系统的仿真实验,验证了该学习系 统的有效性。 第五章在强化学习和动态规划算法的基础上,提出了一种基于内部回归神 经网络鹩强化学习系统 r e i n f o r c e m e n tl e a r n i n gs y s t e mb a s e do r li n t e r n a l l y r e c t t r r e n t n e t s r l s i r n ) 。对控制直线一级和= 级倒立摆系统进行了仿真实验, 溺蠡亏逐将r l s i r n 疲灞至g 一缀饲立攥物理实棒静控稍中。然蒋在基于r l s i r n 的基础上,改变了评价和动住神经网络的网络结构,同时采用权值的适合度轨 迹( e l i g i b i l i t y t r a c e s ) i 袋蕊邃学溺遭翟。最压逶j 篷街立撰系统静仿真实验魄较了这 两个学习系统。 疑嚣怼全文遴嚣了慧缝,菇疆鑫今磊遗一步在本褫究方陵逐行磷究工撵懿震 望和设想。 6 第2 章强化学习 第2 章强化学习 2 1 强化学习的基本原理和模型 强化学习是一种不同于监督学习和无监督学习的在线学习技术,基本模型如 图2 1 所示。它把学习看作是一个“试探评价”的过程,首先学习系统( 或 称为智能体) 感知环境状态,采取某一个动作作用于环境,环境接受该动作后状 态发生变化,同时给出一个回报( 奖励或惩罚) 反馈给强化学习系统,强化学习 系统根据强化信号和环境的当前状态再选择下一个动作,选择的原则是使受到奖 励的概率增大。 图2 一l 强化学习的基本原理图 f i g u r e2 - 1t h ef u n d a m e n t a lf r a m e w o r ko f r e i n f o r c e m e n tl e a r n i n g 智能体在和巧竣交互时,在每一时刻会发生如下事件廖列: 1 ) 智熊体感知,时刻的环境状态s ( f ) 2 ) 针对当前的状态和即时回搬r ( f ) ,智魅体选撵一执行动作8 ( f ) 3 ) 当智能体所选择的动作作用于环境时,环境发生变化 环境状态转移至下一新的状态s 0 + 1 ) 给出即时国报r ( f ) ,又称为奖赏网报 4 ) 即时回报r 反馈缭智能体,f 七一t + l 5 ) 转内第2 多,如果颟的状态为结束状态,刚停止循环。 其中即时回报,( r ) ,由环境状态s ( f ) 与蠲能体的输出d ( r ) 决定。婵e a ,a 为 一缀动俸集。 2 2 强化学习的基本翔识 2 2 , 译徐函数 智能体的学习目标是最大化未来回报的累积值。评价函数矿( r ) ,是对长期 回报的一种量度,有三种返回表达式。 l 有限范围模型:它是在有限的阶段内对回报的累积。式( 2 一1 ) 中的,为 采样时刻,”为智能体从,时刻起到结束运行的总步数,胛可以不预先固定。 矿( f ) = + k + l4 - + r t + 。一i ( 2 1 ) 2 折扣回报( 无限范围模型) :它是在无限的阶段内对回报的累积。 矿( ,) = y ” + 。 ( 2 - 2 ) 而 式( 2 - 2 ) 中,是折扣因子( d i s c o u n t f a c t o r ) ,通常0 y 表示学习系缎在霹漓涉 时由于采取行动啦而使环境从状态墨转移到状态s ,的转移概率,其中 琏a ,s s 。裂转移概率麓式( 2 一) : 胁嘶( 口f ) 瑞p ( 品+ l 嚣砖k = 最,啦= d ) ( 2 _ 2 ) m a r k o v 决策问越的目的是寻求个最优策略,即使评价函数最大化的一系 列动馋。对予每一对猁敕状态最,蟹憩馋均衾遽遥最傀策略趸选取逡警的动 擘。 a t = 箱( 量) ( 2 - 5 ) 策略的好坏由来来每个时间步所获回报的折扣和的期望决定。m a r k o v 决策 过程蚋评价璐数定义为式( 2 - 6 ) : y 。( 母) = e t 芝y r ( 丑+ 。,7 r ( 墨+ 。” ( 2 - 6 ) l = uj 为了简单起见,我们用r ( s ,z ( 曲) ) 表示e ,“,珥) 。同时采取递归迭代,则 评价函数矿( 日) 为: 矿4 ( 丑) = 胄( 毋,石( 毋) ) + y p 跗川( 石( 毋) ) 矿”( 母+ 1 )( 2 7 ) j r “e 5 其中p 。( z “) ) 为智能体执行策略n ( s ,) 而使环境由状态品转移到状态* + 。 的转移概率。如果知道初始状态和所有的转移概率,也就是模型已知,我们可 以离线计算v 值。而对于最优策略所对应的评价函数v ”,存在式( 2 - 8 ) 成立。 v 4 ( 曲) v 4 ( 丑) ,v s , sw r 同时为了简便起见。我们用v + 表示v ”,则: v + = 川e ,r t r 1 “ l l oj ( 2 8 ) ( 2 9 ) 在无限范围的情况下,v + 要满足式( 2 - 1 0 ) 的要求,公式( 2 1 0 ) 就是著 名的b e l l m a n 最优化方程( 或称为动态规划方程) 。 叭咖瞥卜讲r ,静。拶,卜叮墨s 最优策略为下式: 露蕊,= 嘲等譬卜瑚 ,静。融风。 2 3 动态规弼方法 ( 2 1o ) ( 2 1 l 动态蕊翔:分浚作决策,在律下一个决策之潜在菜释成度上熊够预溯每个 决策的结果。它是强化学习的核心技术,两个主要方法是懿略迭代莘值迭代。 蜀释方法部是秘蔫麓态麓捌分簿求解最筑繁略和鬣优值函数,通过调练学习的 方式改善智能体的菠略,目前研究较为广泛的是值遮代。 2 3 1 策略迭代 策珞逡代算法可以求解最恍策略,从怒始策略开始,通过迭代提高策略。 其算法如下: 1 ) 从任意的初始策略刀。开始; 2 ) 对所有的状态和行动,通过公式( 2 - 7 ) 计算v ”; 3 ) 对每一个状态,通过式( 2 - 1 2 ) 计算该状态的策略; f1 “乱) _ 鹕吲烈乩町枷,磐m 矿 “) f 。j 2 4 ) 重复第2 ,3 步,直到前一时刻和后一时刻的策略值基本无差别,那时 的策略就是所求的解。 策略迭代适合于动作集合比较小和某些策略非常有效的情况。如何动作集 合很大,策略迭代算法就代价很高或很难处理了。 2 3 2 值迭代 值迭代不是试图罨求最优策略,两是选撵每时刻最优行为值函数骶对应的 动作。定义行为值函数q 2 圆,珥) 为学习系统在状态岛执行动作a t 及艏续策略石 的回报折扣和。 q ”( s t ,珥) = r ( s t ,珥) + ,鼽m 。( 研) r e ”( 墨+ i ) ( 2 。1 3 ) m “e s 德q + = q 矿时对应着最优评价魏薮v + ( s d ,刚b e l l m a n 缀优仡方程可袭示 为下式: v + “) = m a q + ( s t ,嘶) ( 2 1 4 ) 镶迭代舞法懿下 1 ) 对于所有茸s ,选取任意的初始值z o ( s ,) ; 2 ) 黠予掰毒瓣或a ,诗算 9 “( 乩嘶) = r ( s ,珥) 十y p 。,( 岛) k ( 妁)( 2 1 5 ) o r e s k + l ( 如) = m 研q + t 如,砩)( 2 一1 6 ) 3 ) 重复这样的操作直到 | 毒) 一k ) | 8 ( 2 _ 1 7 ) 假设占足够小,馒k 繇) 充分接邋最优值y ) 。每个状态的最谯p + 值埒对 应该状态的个动律,所有状态对应的这一系歹u 动作组成了僚优策略。 1 0 第2 章强化学习 2 4 时间差分 2 4 1t d ( o ) v o ( s , ) = v “) r 2 一i s ) 当模型未知时,智能体不知道状态的转移概率和回报的期望,就无法用动 态规划方法控制外界环境。现在我们介绍一种不需要模型,可直接从经验中估 计评价函数的算法模型。r s u t t o n 首次提出了时间差分算法( t e m p o r a l d i f f e r e n c e ,t d ) 1 4 ,所谓时间差分指对同一个事件或变量在连续两个时刻观 测的差值。 设z ( s 。) 为最优矿 ) 的估计值,r t 为采取动作a t 使外界环境从状态品到状 态毋+ 一的即时回报。因为外界环境从状态丑向s t + 以外的其它状态转移的概率为 零,所以根据式( 2 - 7 ) 可知状态为且时的最优评价函数为: 矿 ) = r t + r v ( s , + j ) ( 2 - 1 9 ) 则时刻,的时间差分为: 谚= r t + y 扩( 岛+ 1 ) 一矿( 岛) ( 2 2 0 ) 设f 为学习因孑,爆蓑傻更灏谬价函数,t d ( 0 ) 鲍计舅公式为: 矿( * ) 黑矿( 丑) 十瓶= 矿( 坼) + ,( 一十y v ( s , + 1 ) 一矿( 最) ) ( 2 2 1 ) 其中,等式左边与等斌右边都含有v ( s ,) ,倦这一项并不能左右抵消。式 ( 2 - 2 1 ) 的意思是用f 时刻最优评价值与估计评价馕之间的莲值,来修正此时刻 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考作文中的责任与担当试题及答案
- 资本市场的风险与机遇试题及答案
- 材料疲劳裂纹扩展控制策略重点基础知识点
- 材料疲劳寿命预测模型原理重点基础知识点
- 公共体育场火灾应急预案(3篇)
- 公司火灾-爆炸应急预案(3篇)
- 血液透析火灾的应急预案(3篇)
- 信息处理技术员考试准备技巧试题及答案
- 行政管理学科发展的新思路与新途径试题及答案
- 行政法学练习题及专家解析试题及答案
- 建设项目全过程工程咨询-第一次形成性考核-国开(SC)-参考资料
- GB/T 14408-2014一般工程与结构用低合金钢铸件
- “两区三厂”专项施工方案
- 长庆油田各个采油采气厂延长油田采油厂简介
- 2024年教师选调进城考试试题(小学语文)含答案
- (通用版)汉字听写大会竞赛题库及答案
- IE产能设备资源计划表
- 4M1E基础知识培训.课件
- 一切才刚刚开始——校长在高考20天冲刺动员大会上的讲话
- 波浪理论基础要点图解[精]
- 关于磷化行业企业建设项目及污染排放有关问题法律适用的复函
评论
0/150
提交评论