(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf_第1页
(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf_第2页
(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf_第3页
(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf_第4页
(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf_第5页
已阅读5页,还剩124页未读 继续免费阅读

(控制科学与工程专业论文)策略梯度增强学习的理论、算法及应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院博士学位论文 摘要 增强学( r e i n f o r c e m e n tl e a r n i n g ) 又称为强化学习或再励学习,是近年来机器 学习和人工智能领域研究的热点之一。与监督学习不同,增强学习不需要给定输 入状态下的期望输出,而强调在与环境的交互中进行学习,以极大化( 或极小化) 从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信 号的复杂优化与决策问题中具有广泛的应用前景。 作为增强学习领域的一个重要研究方向,策略梯度( p o l i c yg r a d i e n t ) 方法克服了 基于值函数( v a l u ef u n c t i o n ) 的增强学习算法不能保证收敛、难于引入先验知识等缺 陷。但是另一方面,由于在梯度估计过程中方差过大,使得策略梯度算法收敛速 度很慢,成为策略梯度增强学习被广泛应用的一个障碍。为此,本文在国家自然 科学基金重点项目“未知环境中移动机器人导航控制的理论与方法研究 ( 6 0 2 3 4 0 3 0 ) ”的资助下,重点研究策略梯度增强学习理论、算法及其在月球车运动 控制中的应用。在分析了策略梯度增强学习理论框架的基础上,主要研究了两类 提高策略梯度学习算法收敛性能的方法,即:回报基线方法和引入先验知识的方 法。其中,回报基线方法能够有效地降低策略梯度增强学习的梯度估计方差:而 通过引入先验知识不仅可以提高策略梯度增强学习算法的收敛速度,还能克服在 学习初期因为初始化策略的随机性而带来的缺陷。文中针对月球车运功控制中的 多轮协调问题,提出了一种基于混合策略梯度增强学习的自适应控制方法。 本文的创新点和研究成果主要包括: 1 、在策略梯度增强学习理论框架的研究中,证明了现有策略梯度增强学习算 法的梯度估计公式都符合统一的形式。并且在上述理论框架的指导下,对现有的 策略梯度算法进行了推广。 2 、针对部分可观测马氏决策过程( p o m d p ) ,研究了策略梯度增强学习中的回 报基线方法。提出了一种求解最优回报基线的方法,使得策略梯度估计的方差减 小到最小。文中对最优回报基线的性质进行了理论证明,并且提出了一种新的求 解p o m d p 的策略梯度学习算法- - i s t a t e - g r b p ,该算法通过利用回报基线,减小了 梯度估计的方差。仿真实验结果表明,通过减小方差,算法能够有效地提高收敛 速度。 3 、研究了利用模糊推理系统引入先验知识的策略梯度增强学习算法。本文分 别针对具有离散行为空间和连续行为空间的马氏决策问题,提出了两种模糊策略 梯度增强学习方法( f u z z y p o l i c yg r a d i e n t :f p g ) 。因为在模糊规则的制定过程中, 难以确定的往往是后件参数,因此在本文提出的两种模糊策略梯度算法中,都是 利用策略梯度方法调整模糊规则的后件参数。文中证明了这两种模糊策略梯度算 第i 页 国防科学技术大学研究生院博士学位论文 法的收敛性,仿真实验表明了算法的有效性。 4 、提出了利用支持向量机( s u p p o r tv e c t o rm a c h i n e :s v m ) 弓j 入先验知识的混 合策略梯度增强学习方法p g - s v m 。p g s v m 算法在策略梯度增强学习的框架下 利用s v m 来进行初始策略的学习和逼近,从而可以通过训练样本数据来自动引入 先验知识。与已有方法相比,p g - - s v m 算法具有以下几个优点:( 1 ) 只要是能够提 供样本点的先验知识,就可以很容易地结合到算法中来;( 2 ) 在线的策略梯度增强 学习算法可以克服学习过程中的各种不确定性;( 3 1 策略函数的结构可以通过s v m 算法来确定,因而是数据驱动的,而不是预先定义的。 5 、针对月球车运动控制中的多轮协调问题,提出了一种基于混合策略梯度增 强学习的自适应控制方法。由于月球车本身结构的复杂性,基于模型的经典控制 将会有很大的困难,并且经典控制还需要在线估计地形的各种参数。针对这种导 师信号难以获取、模糊规则难以制定的复杂优化控制问题,本文提出了一种基于 混合式策略梯度增强学习p g s v m 的多轮协调控制方法。对于这种具有高维连续 状态和行为空间的复杂问题,以往的增强学习算法不仅特别耗时,并且还需要利 用仿真环境。这不仅需要月球车的动力学模型,还需要对月球车的行驶环境进行 模拟。而本文提出的p g - s v m 增强学习控制方法通过利用基于训练数据的先验知 识,极大地缩短了学习时间,并且保证了在学习过程中的在线性能。这使得学习 过程可以完全在实车上进行,不需要任何的仿真环境,这对推动增强学习的实用 化进程具有重要的意义。最后得到控制器的控制效果是令人满意的。 本文的最后一章对今后进一步的研究方向进行了分析和展望。 主题词:增强学习策略梯度策略搜索机器学习m a r k o v 决策过程 月球车部分可观测m a r k o v 决策过程先验知识多轮协调 第i i 页 国防科学技术大学研究生院博士学位论文 a b s t r a c t i nr e c e n ty e a r s ,r e i n f o r c e m e n tl e a m i n g ( r l ) h a sb e e no n eo ft h ek e yr e s e a r c hf l e a s i na r t i f i e i a li n t e l l i g e n c ea n dm a c h i n el e a r n i n g r e i n f o r c e m e n tl e a r n i n gi sd i f i e r e n tf r o m s u p e r v i s e dl e a r n i n g i nt h a tt e a c h e rs i g n a l sa r en o tn e c e s s a r ya n dar e i n f o r c e m e n t l e a r n i n gs y s t e ml e a r n sb yi n t e r a c t i n gw i t ht h ee n v i r o n m e n tt om a x i m i z et h ee v a l u a t i v e f e e d b a e kf r o mt h ee n v i r o n m e n t t h u s r e i n f o r c e m e n tl e a r n i n gm e t h o d sh a v ew i d e a p p l i c a t i o na r e a si ns o l v i n gc o m l e xo p t i m i z a t i o na n dd e c i s i o np r o b l e m s ,w h e r et e a c h e r s i g n a l sa r eh a r dt ob eo b t a i n e d a sa ni m p o r t a n tb r a n c ho fr e i n f o r c e m e ml e a r n i n g ,p o l i c yg r a d i e n tr e i n f o r c e m e n t l e a r n i n go v e r c o m e ss o m el i m i t a t i o n so fv a l u e f i m c t i o n - b a s e dr e i n f r o c e m n tl e a r n i n g a l g o r i t h m s ,w h i c hi n c l u d e st h ei n a b i l i t yt og u a r a n t e et h ec o n v e r g e n c ea n dt ot h e d i f f i c u l t yi ni n c o r p o r a t i n ga p r i o r ik n o w l e d g e o nt h eo t h e rh a n d ,t h ev a r i a n c eo f p o l i c y g r a d i e n te s t i m a t i o ni ne x i s t i n gp o l i c yg r a d i e n ta l g o r i t h m si su s u a l l yl a r g e ,s ot h es p e e d o fc o n v e r g e n c eb e c o m e sv e r ys l o w ,w h i c hi sas i g n i f i c a n tp r o b l e mf o rp o l i c yg r a d i e n t a l g o r i t h m st ob ew i d e l ya p p l i e d 1 1 l e r e f o r e t h er e s e a r c ht o p i co f t h i sd i s s e r t a t i o i l ,w h i c h i ss u p p o r t e db yt h en a t i o n a ln a t u r a ls e i e n e ef o u n d a t i o no fc h i n a ( n s f c ) u n d e rg r a n t s n o 6 0 2 3 4 0 3 0w i t ht h et i t l e r e s e a r c ho nt h e o r ya n dm e t h o d so f m o b i l er o b o tn a v i g a t i o n a n dc o n t r o li nu n k n o w ne n v i r o n m e n t s ”,f o c u s e so np o l i c yg r a d i e n tr e i n f o r c e m e n t l e a m i n gt h e o r ya n da l g o r i h m sa n di t sa p p l i c a t i o n st om o t i o nc o n t r o lo fl u n a rr o v e r s b a s e do na na n a l y s i so ft h et h e o r e t i c a lf r a m e w o r ko fp o l i c yg r a d i e n tr e i n f o r c e m e n t l e a r n i n g ,t w om e t h o d sh a v e b e e ns t u d i e dt oi n c r e a s et h ec o n v e r g e n c es p e e do fp r e v i o u s a l g o r i t h m s :o n ei st h er e w a r d - b a s e l i n em e t h o du s e di np o l i c yg r a d i e n ta l g o r i t h m sa n d t h eo t h e ri st oi n c o r p o r a t eap r i o r ik n o w l e d g ei n t op o l i c yg r a d i e n ta l g o r i t h m s 1 1 1 e v a r i a n c eo fg m d i e n te s t i m a t i o nc a nb er e d u c e de f f i c i e n t l yb yt h er e w a r d - b a s e l i n e m e t h o d b yi n c o r p o r a t i n gp r i o rk n o w l e d g ei n t op o l i c yg r a d i e n tr e i n f o r c e m e n tl e a r n i n g , t h ec o n v e r g e n c es p e e dc a nb ei n c r e a s e dal o t a n dt h ed r a w b a c k so fr a n d o mi n i t i a l p o l i c i e sc a na l s ob eo v e r c o m e dd u r i n gt h ei n i t i a ll e a r n i n gp h a s e f u r t h e r m o r e ,an e w a d a p t i v ec o n t r o lm e t h o db a s e do nr e i n f o r c e m e n tl e a n i n gi sp r e s e n t e df o rt h ep r o b l e mo f m u l t i - w h e e lc o o r d i n a t i o nc o n t r o lo fl u n a rr o v e r si nt h i sd i s s e r t a t i o n 。 可硷m a i n c o n t r i b u t i o n s o f t h i s d i s s e r t a t i o n a r e a s f o l l o w i n g : 1 d u r i n gt h e r e s e a r c ho nt h et h e o r e t i c a lf r a m e w o r ko fp o l i c yg r a d i e n t r e i n f o r c e m e n t1 e a r n i n g i ti sp r o v e dt h a tt h eg r a d i e n te s t i m a t i o nf o r m u l a so fa l lt h e e x i s t i n gp o l i c yg r a d i e n ta l g o r i t h m sc a l lb eu n i f o r m e d a c c o r d i n gt ot h i sf r a m e w o r k , s o m ec u r r e n tp o l i c yg r a d i e n ta l g o r i t h m sa r eg e n e r a l i z e d 2 皿1 ea p p l i c a t i o n so fr e w a r d - b a s e l i n em e t h o d si np o l i c yg r a d i e n tr e i n f o r c e m e n t l e a m i n gf o rp o m d p a r es t u d i e d am e t h o df o ro 鲥m a lr e w a r d b a s e l i n et om i n i m i z et h e v a r i a n c eo fg r a d i e n te s t i m a t i o ni sp r e s e n t e da n dt h em e t h o di sp r o v e dt h e o r e t i c a l l y a 第i i i 页 国防科学技术大学研究生院博士学位论文 n e wp o l i c yg r a d i e n ta l g o r i t h mw i t hr e w a r db a s e l i n e - - i s t a t c - g r b pt os o l v ep o m d p p r o b l e m si sp r o p o s e di n t h i sd i s s e r t a t i o n n 伦v a r i a n c ei sr e d u c e di ni s t a t e g r b p a l g o r i t h mb yi n t r o d u c i n gr e w a r db a s e l i n e s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e c o n v e r g e n c es p e e do fp o l i c yg r a d i e n ta l g o r i t h m s 啪b ei n c r e a s e dg r e a t l yb yr e d u c i n g t h ev a r i a n c e 3 t h ef u z z yp o l i c yg r a d i e n tr e i n f o r c e m e ml e a r n i n g , w h i c hi n c o r p o r a t e sa p r i o r i k n o w l e d g eb yu s i n g 昀i n f e r e n c es y s t e m s ,h a sb e e ns t u d i e di nt h i sd i s s e r t a t i o n t w o f u z z yp o l i c yg r a d i e n tr e i n f o r c e m e n tl e a r n i n ga l g o r i t h m sa r ep r o p o s e df o rm a r k o v d e c i s i o np r o c e s s e sw i t hd i s c r e t ea n dc o n f i n o u sa c t i o n s ,r e s p e c t i v e l y i nt h e s et w o a l g o r i t h m s ,c o n c l u s i o np a r a m e t e r so ff u z z yr u l e sa r et u n e du s i n gp o l i c yg r a d i e n t m e t h o d sb e c a u s ei ti sd i f f i c u l tt os p e e i f yt h e s ep a r a m e t e r s 1 h ec o n v e r g e n c eo ft h e a l g o t i h m si sp r o v e da n dt h ee x p e r i m e n t a lr e s u l t ss h o wt h ee r i c i e n c yo f t h ea l g o r i t h m s 4 ah y b r i dp o l i c yg r a d i e n tr e i n f o r c e m e n tl e a r n i n gm e t h o dc o m b i n e dw i t hs v m s 伊o - s v m ) t oi n c o r p o r a t e ap r i o r ik n o w l e d g eh a sb e e np r o p o s e d t h ep g - s v m a l g o r i t h m sm a k eu s eo fs v m sf o ri n i t i a lp o l i c yl e a r n i n ga n da p p r o x i m a t i o ni nap o l i c y g r a d i e n tl e a r n i n gf r a m e w o r k , w h i c hh a sn o tb e e ns t u d i e di np r e v i o u sw o r k s b yu s i n g t h ep o l i c i e sb a s e do ns v m s 嬲t h ei n i t i a lp o l i c i e so fp ga l g o r i t h m s p r i o rk n o w l e d g e c a i lb ea u t o m a t i c l yi n c o r p o r a t e dt h r o u g ht h et r a n i n gd a t a t h u s t h el e a r n i n gc o n t r o l a p p r o a c hh a st h r e ea d v a n t a g e sw h e nc o m p a r e d 、v i t l le x i s t i n gp ga l g o r i t h m s :( 1 ) p r i o r k n o w l e d g ec a nb ee a s i l y u s e do n l yb yp r o v i d i n gt r a i n i n ge x a m p l e st os v m - b a s e d s u p e r v i s e dl e a r n i n g ;( 2 ) 1 1 l ec o n t r o l l e rp e r f o r m u n c ec 趾b eo p t i m i z e du s i n go n l i n e p o f i c yg r a d i e n tr l t oc o m p e n s a t eb n k n o w nd i s t u t h a n c e s ;( 3 ) 1 kc o n t r o l l e rs t r u c t u r ei s d e t e r m i n e db ys v m s ,w h i c hi sd a m - d r i v e n , n o tp r e d e f i n e d 5 f o rt h ep r o b l e mo fm u l t i - w h e e lc o o r d i n a t i o ni nm o t i o nc o n t r o lo fl u n a rr o v e r , a l la d a p t i v ec o n t r o lm e t h o db a s e do nh y b r i dp o l i c yg r a d i e n tr e i n f o r c e m e n tl e a r n i n gh a s b e e np r o p o s e d d u et ot h ec o m p l e x i t yo ft h es t r u c t u r eo ft h el u n a rr o v e r ,c l a s s i c a l c o n t r o lm e t h o d sh a v es o m ed i s a d v a n t a g e sa n dm o r e o v e r , o n - l i n et e r r a i np a r a m e t e r e s t i m a t i o ni sn e e d e d ah y b r i dp o l i c yg r a d i e n tr e i n f o r c e m e n tl e a r n i n gc o n t r o lm e t h o di s p r o p o s e dt 0s o l v et h i sc o m p l e xo p f i m a t i o nc o n t r o lp r o b l e m 谢也d i f f i c u l t yi no b t a i n i n g t e a c h e rs i g n a l sa n dd e s i g n i n gf u z z yr u l e s t l l i si sap r o b l e mw i t hh i g h - d i m e n s i o n c o n t i n o u ss t a t es p a c ea n dc o n t i n o u sa c t i o ns p a c e s ot h ep r e v i o u sr la l g o t i h m sa 糟v e r y t i m e - c o n s u m i n ga n dn e e ds i m u l a t i o ne n v i r o n m e n t sw h i c hr e q u i r et h ed y n a m i c a lm o d e l a n dv i r t u a le n v i r o n m e 虹t sf o rl u n a rr o v e r s b yi n c o r p o r a t i n gp r i o ri n f o r m a t i o nb a s e do n t r a i n i n gd a mi nt h er e i n f o r c e m e n tl e a r n i n gc o n t r o lm e t h o d , t h el e a r n i n gt i m e i s s h o r t e n e dg r e a t l ya n dt h eo n - l i n ep e r f o r m c ei s g u a r a n t e e d t h u s , t h el e a r n i n g p r o c , e s s e sc a nb ea c c o m p l i s h e dc o m p l e t e l yo nt h er e a lh m a rl o v e r , w i t h o u ta n yh e l po f s i m u l a t i o ne n v i f ;o n m e n t s t h i si sas i g n i f i c a n tp r o g r e s sf o rt h ep r a c t i c a la p p l i c a t i o no f r e i n f o r c e m e n tl e a r n i n g t h ee f f e c to ft h ec o n t r o l l e ro b t a i n e db yt h em e t h o di s s a t i s f a c t o r y 第i v 页 国防科学技术大学研究生院博士学位论文 n l cd i r e c t i o n sf o rf u t u r er e s e a r c hw o r ka r ed i s c u s s e di nt h el a s tc h a p t e r k e yw o r d s :r e i n f o r c e m e n tl e a r n i n g ,p o l i c yg r a d i e n t ,p o l i c ys e a r c h , m a c h i n el e a r n i n g ,m a r k o vd e c i s i o np r o c e s s e s l u n a rr o v e r ,p a r t i a l l y o b s e r a b l em a r k o vd e c i s i o np r o c e s s e s ,p r i o r k n o w l e d g e , m u l t i - w h e e i c o o r d i n a t i o n 第v 页 国防科学技术大学研究生院博士学位论文 表目录 表3 1 表3 2 表4 1 表4 2 表4 3 表5 1 4 x 3 方格问题中各种算法的性能比较3 9 s h u t t l e 问题中各种算法的性能比较4 0 c a r te e n t i n g 问题中f p g r l 的学习过程( 离散行为,具有先验知识) 。5 9 c a r t c e n t i n g 问题中f p g r l 的学习过程( 离散行为,具有先验知识) 。6 1 c a r t c e n t h a g 问题中f p g r l 的学习过程( 连续行为) 。6 1 学习前后月球车耗电量的对比1 0 4 第1 v 页 国防科学技术大学研究生院博士学位论文 图目录 图1 1“勇气”号火星探测器结构图1 3 图1 2 论文的组织结构 图3 14 x 3 方格问题及其最优无记忆策略 1 6 3 5 图3 24 x 3 方格问题中c p l s a r s a ( , g ) 算法得到的策略3 9 图3 3 在4 x 3 方格问题中c p i s a r s a ( 2 ) 算法和s a r s a ( , t ) 算法性能比较3 9 图3 4s h u t t l e 问题中各种算法性能比较 图3 5p o m d p 环境中策略梯度算法的学习过程 图3 7l s t a t e - c , r b p 算法性能 4 7 4 7 图3 9l s t a t e - c n b p 和i s t a t e - g p o m d p 在l o a d u n l o a d 问题中的性能比较4 8 图3 1 02 0 x 2 0 方格问题 图3 1 1l s t a t e - c , e o l , 和i s t a t e - g p o m d p 在2 0 x 2 0 方格问题中的性能比较5 0 图4 1 c a r tt e n t i n g 问题中小车位置和速度的模糊化 图4 2 学习完毕后控制器控制小车在位v ) 平面内的轨迹 图4 3 轨迹跟踪中的预测控制模型 图4 5 初始策略的控制效果( 离散行为) 图4 6 经过p g 算法调整之后的策略控制效果( 离散行为) 图4 7 跟踪误差对比( 离散行为) 图4 8 路径跟踪时的学习曲线 5 9 7 6 图4 9 第二次利用s v m 生成的策略的控制效果( 离散行为) 图4 11 泛化性能测试时的跟踪误差( 离散行为) 图4 1 2 初始策略的控制效果( 连续行为) 7 9 图4 1 3 经过p g 算法调整之后的策略控制效果( 连续行为) 7 9 8 0 图4 1 4 第二个循环结束时生成的策略的控制效果( 连续行为) 8 0 图4 1 5 跟踪另外一条路径( 连续行为) 图4 1 6 泛化性能测试时的跟踪误差( 连续行为) 图4 1 7 最后的控制律( 离散行为) 图4 1 8 最后的控制律( 连续行为) 图5 1 六轮月球车。 图5 2 转向避障 8 1 8 2 图5 3 原地转向前进避障 。8 2 8 7 国防科学技术大学研究生院博士学位论文 图5 4 原地转向后退避障8 7 图5 5 月球车平面运动学模型8 9 图5 6 前轮正常行驶时,其速度和电流的比值9 i 图5 7 中间轮正常行驶时,其速度和电流的比值9 l 图5 8 后轮正常行驶时,其速度和电流的比值9 2 图5 9 前轮速度偏大的情况9 3 图5 11 后轮速度偏大的情况。 9 4 图5 1 2 前轮速度偏小的情况9 4 图5 1 3 中间轮速度偏小的情况9 5 图5 1 4 后轮速度偏小的情况9 5 图5 1 5 补偿前前轮的速度电流比值和理想值比较9 8 图5 1 6 补偿后前轮的速度电流比值和理想值比较9 8 图5 1 7 补偿前中间轮的速度,电流比值和理想值比较9 9 图5 1 8 补偿后中间轮的速度电流比值和理想值比较9 9 图5 1 9 补偿前后轮的速度,电流比值和理想值比较 图5 2 0 补偿后后轮的速度,电流比值和理想值比较。 1 0 0 图5 2 l 学习曲线1 0 2 图5 2 2 学习完毕后和理想情况的对比( 前轮) 图5 2 3 学习完毕后和理想情况的对比( 中间轮) 1 0 3 图5 2 4 学习完毕后和理想情况的对比( 后轮) 第页 国防科学技术大学研究生院博士学位论文 缩略语 b pb a c kp r o p a g a t i o n e r m e m p i r i c a lr i s km i n i m i z a t i o n f a c l f u z z ya c t o r - c r i t i cl e a m i i l g f p g f u z z yp o l i c yc _ y r a d i e n t f q l f u z z yq - l e a r n i n g f s cf i n i t es t a t ec o n 血o l l e r g a f r lg e n e t i ca l g o r i t h mb a s e df u z z yr e i n f o r c e m e n tl e a r n i n g h r lh i e r a r c h i c a lr e i n f o r c e m e n tl e a r n i n g i c mh 塔缸噬旺锄e o n sc e n t e ro f m o t i o n d i n d e p e n d e n t l ya n di d e n d i t i c a l l yd i s t r i b u t e d i p i n c r e m e n t a lp r u n i n g i - s t a t ei n t e r n a ls t a t e l rl i k e l i h o o dr a t i o 加pm a r k o vd e c i s i o np r o c e s s e s m g m a r k o vg 锄c n a cn a t u r a la c t o r - c r i t i c p g p o l i c yg r a d i e n t p g f a p o l i c yg r a d i e n tw i t hf u n c t i o na p p r o x i m a t i o n p g r l p o l i c yg r a d i e n tr e i n f o r c e m e n tr e a m i n g p g s v m p o l i c yg r a d i e n tc o m e b i n e dw i t hs u p p o r tv e c t o rm a c h i n e p o 姗p p a r t i a l l yo b s e r v a b l em a r k o vd e c i s i o np r o c e s s e s r b f r a d i a lb a s i sf u n c t i o n r lr e i n f o r c e m e n tl e a m i l l g r l & t dr e c u r s i v el e a s ts q u a r c 七t e m p o r a ld i f f e r e n c e s r ms u u c m r a lr j s km i p i n l i t _ = a t :i o n s v s u p p o r tv e c t o r s s v m s u r p p o r tv e c t o rm a c h i n e t d t e m p o r a ld i f f e r e n c e w r n n q w i r e df i t t e dn e u r a ln e t w o r kq - l e a r n i n g 第v i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:筮鳖搓廑埴堡堂蚕丞基垄旦建主垒辁怂迥撞剑史鲍廑周 学位论文作者签名:乏之经日期:歹彬易年,口月占日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用彩印,缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书) 学位论文作者签名:乏:乏室 作者指导教师签名: 日期:如d 易年o 月g 日 日期:一多年to 月参日 国防科学技术大学研究生院博士学位论文 第一章绪论 1 1 研究背景 增强学习( r e i n f o r c e m e n tl c a r n i n g ,又称为强化学习或再励学习) 是近年来机 器学习与智能控制研究的热点领域。增强学习强调在与环境的交互中学习,学习 过程中仅要求获得评价性的反馈信号( 称为回报或增强信号,r e w a r d r e i n f o r c e m e n t s i g n a l ) ,以极大化未来的回报为学习目标。增强学习由于不需要给定各种状态下 的教师信号。因此对于求解复杂的优化决策问题具有广泛的应用前景i l 】。目前,增 强学习在理论和算法研究方面已取得了许多成果,成为求解序贯( s e q u e n t i a l ) 优化决 策问题( 通常建模为马氏决策问题:m a r k o vd e c i s i o np r o b l c m s - m d p ) 的一类有效方 法 2 3 1 1 4 1 1 5 1 1 6 1 r l 。 由于没有教师信号,增强学习需要利用“试错法”来发现哪个行为能带来更 大韵回报。实际问题中,当前时刻的行为不仅决定了当前的回报,还有可能影响 下一时刻的回报,甚至影响后面所有时刻的回报。“试错法”和延迟回报,是增 强学习的两个主要特征,增强学习不是一种具体的算法,而是一种解决问题的思 路,凡是具有这两个特征的方法,都可以认为是增强学习方法圆。 在过去的十年中,增强学习的研究主要集中在基于值函数( v a l u ef u n c t i o n ) 的方 法。但是基于值函数的增强学习方法具有以下几个缺陷: l 、基于值函数估计的方法易于寻找确定性的最优策略,然而,许多问题的 最优策略往往是随机策略,尤其是在部分可观测马氏决策问题( p a r t l y o b s e r v a b l em a r k o vd e c i s i 0 1 1p r o b l c m s - p o m d p ) 中更是如此。 2 、行为值的微小变化可能会引起策略很大的变化,这就使得采用函数逼近 器的值函数方法在很多问题中不能保证收敛 8 1 。典型的值函数方法( 如 q 学习算法、s a r s a 等方法) 如果采用函数逼近器,即使在小规模的m d p 问题中也可能会发散f 9 1 f 1 0 1 1 l 】。 3 、值函数方法需要搜寻具有最大值的那个行为,但是如果行为空间是连续 的,这将会是一个很难或者很费时的问题。 增强学习的另外一大类方法是基于直接策略搜索的策略梯度( p o f i c yg r a d i e n t ) 方法。该类方法把策略参数化,并且估算优化指标相对于策略参数的梯度,然后 利用该梯度来调整这些参数,最后得到最优或者局部最优策略。利用策略梯度方 法最后得到的策略既可以是确定性策略,也可以是随机性的策略。尽管值函数方 法也可以利用近似贪心的行为选择模式得到随机策略,但这需要引进新的参数, 并且设定这些参数也比较困难,没有任何理论指导。相对于值函数方法,策略梯 第l 页 国防科学技术大学研究生院博士学位论文 度方法的收敛性有利于在理论上进行分析和证明。因此,近年来策略梯度增强学 习方法引起了广泛的关注【1 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论