(计算机软件与理论专业论文)机器人足球防御仿真中强化学习方法的研究.pdf_第1页
(计算机软件与理论专业论文)机器人足球防御仿真中强化学习方法的研究.pdf_第2页
(计算机软件与理论专业论文)机器人足球防御仿真中强化学习方法的研究.pdf_第3页
(计算机软件与理论专业论文)机器人足球防御仿真中强化学习方法的研究.pdf_第4页
(计算机软件与理论专业论文)机器人足球防御仿真中强化学习方法的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 机器入足球( r o b o c u p ) 是一个研究多智能体系统在实时对抗环境下决策与合作问题 的平台。由于分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究 的一个标准的平台。防御仿真( s o c c e rk e e p a w a y ) 是机器人足球中的一个小的子任务,是 研究强化学习的标准平台f b e n c h m a r k ) ,大部分强化学习方法都可以在该平台上得以检 验。 强化学习不需要先验知识,直接与环境进行交互获取知识、改进行为策略。由于能 够处理噪声的干扰和随机性,以及延迟的目标,不必知道系统的动态模型。对于大的状 态空间问题也可以通过状态压缩、函数近似的方法解决,能够相对快速地进行决策,能 够解决r o b o c u p 中的诸多富有挑战性的问题,因而在机器人足球中获得了广泛的应用。 本文分析了几种强化学习方法,包括基于值函数( v a l u e b a s e d ) 近似方法、策略梯度 方法( p o l i c yg r a d i e n t ) 、以及a c t o r c r i t i c 方法等。着重讨论了a c t o r c r i t i c 强化学习方法 以及用片( t i l e c o d i n g ) 线性函数近似来获取特征值的方法。而且分析了在防御仿真中使 用a c t o r c r i t i c 方法的优缺点,同时与基于值函数近似的强化学习以及基于策略梯度的 强化学习做了个比较。 最后,通过实验对强化学习算法得到的策略以及标准的策略做了一个比较。结果表 明,通过强化学习方法得到的策略要优于标准策略;对于小的问题,球员在3 6 0 度视角 下,通过a c t o r c r i t i c 强化学习方法得到的策略比基于值函数强化学习方法s a r s a ( ) 得到 的策略要好。 关键词:强化学习;m a s ;a c t o r - c ri t i c ;r o b o c u p ;函数近似 大连理工大学硕士学位论文 r e i n f o r c e m e n tl e a r n i n gr e s e a r c ho nr o b o c u ps o c c e rk e e p a w a y a b s t r a c t r o b o c u pa i m sa tp r o v i d i n gap l a t f o r mi nw h i c hm u l t ia g e n t sc o o r d i n a t ea n dm a k e d e c i s i o ni nr e a lt i m e b e c a u s ei ti sd i s t r i b u t e d ,t i m e c r i t i c a l ,d y n a m i ca n da s y n c h r o n o u s ,i th a s b e c o m eab e n c h m a r kf o rr e s e a r c h i n gi nd i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e s o c c e rk e e p a w a y i sas u b t a s ki nr o b o c u p 。i ti sab e n c h m a r kf o rr e i n f o r c e m e n tl e a r n i n g m o s to fw h i c hc a nb e v e r i f i e di nt h i st a s k r e i n f o r c e m e n tl e a r n i n gd o e s n tn e e dt ok n o wa b o u tt h ee n v i r o n m e n t ,r a t h e ri to b t a i nt h e k n o w l e d g ea n di m p r o v et h ea c t i n gp o l i c yb yi n t e r a c t i n g 、i t l lt h ee n v i r o n m e n t i tc a nh a n d l e t h en o i s ea n ds t o c h a s t i cv a r i a n t e ,d e l a y e dg o a l s ,a n dd o e s n tn e e dt ok n o wt h e s y s t e m d y n a m i c s t h el a r g es t a t es p a c e c a l lb eh a n d l e du s i n gf u n c t i o na p p r o x i m a t i o no rs t a t e c o n d e n s a t i o n i ti sa l s oo r i e n t e dt o w a r d s m a k i n gd e c i s i o n sr e l a t i v e l yr a p i d l yr a t h e rt h a n r e l y i n go ne x t e n s i v ed e l i b e r a t i o no rm e t a - r e a s o m n g s ot h e r ea r em o r ea n dm o r ea p p l i c a t i o n s i nt h er o b o c u ps i m u l a t i o nu s i n gr e i n f o r c e m e n tl e a r n i n g i nt h i sp a p e r ,w ea n a l y z es o m er e i n f o r c e m e n tl e a r n i n gm e t h o d s ,w h i c ha r ev a l u e b a s e d r e i n f o r c e m e n t l e a m i n g ( v b r l ) ,p o l i c y g r a d i e n tr e i n f o r c e m e n tl e a r n i n ga n da c t o r c r i t i c r e i n f o r c e m e n tl e a r n i n ge t c a c t o r c r i t i cm e t h o d sh a v eb e e nd i s c u s s e di nd e t a i l a l s o t i l e c o d m gl i n e a rf u n c t i o na p p r o x i m a t i o ni s u s e di na c t o r - c r i t i ct o g e tf e a t u r e s t h e n a d v a n t a g e s a n d d i s a d v a n t a g e s a r e g i v e n u s i n ga c t o r - c r i t i c i ns o c c e rk e e p a w a ya n d c o m p a r i s o n sa r em a d ew i t hv a l u e db a s e dr e i n f o r c e m e n tl e a r n i n ga n dp o l i c yg r a d i e n tl e a r n i n g a tl a s t ,e x p e r i m e n t sa r em a d et oc o m p a r et h ep o l i c i e sl e a r n e db yr e i n f o r c e m e n tl e a r n i n g a n db e n c h m a r kp o l i c i e s t h er e s u l t ss h o wt h a tt h ep o l i c i e sl e a r n e db yr e i n f o r c e m e n tl e a r n i n g o u t ;i e f f o r mt h eb e n c h m a r kp o l i c i e s ;a l s ot h ep o l i c yl e a r n e db ya c t o r - c r i t i ci sb e t t e rt h a nt h a t l e a r n e db ys a r s a ( k ) ,av a l u e b a s e dr e i n f o r c e m e n tm e t h o do nt h ec o n d i t i o nt h a tt h ep l a y e r s h a v e3 6 0v i e wa n dt h ep r o b l e mi t s e l f i sn o ts oi a r g e k e yw o r d s :r e i n f o r c e m e n tl e a r n i n g :m a s ;a c t o r - c r i t i c :r o b o c u p ;f u n c t i o n a p p r o x i m a t i o n 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:茳建蛆日期:作者签名: 建必日期: 2 0 肼口月j 日日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:主童建蛆 作者签名:! 垫选蚴 导师签名: 塑垄 兰! ! ! 年j l 月上旦日 大连理工大学硕士学位论文 口 多a g e n t 系统中,环境是动态变化的,其他a g e n t 的行为是未知的,要建立领域完 备的先验模型几乎不可能。在这种复杂环境下,a g e n t 应当能够根据以前的经验校正其 行为,即具有学习或自适应能力( a d a p t i o n ) 。在这样的系统中,通常状态空间都是非常 庞大的,类似r o b o c u p 这样大的问题中,由2 2 个球员组成的完整的比赛中,球员和球 的位置就有多达( j 船x5 0z s 种可能【”。如此大的状态空间,遍历状态空间找出最优 的解是不可取的。 强化学习通过与环境交互获得知识,改进行为策略【2 i a 而且能够处理噪声的干扰和 随机性,以及延迟的目标,不必知道系统的动态模型,在复杂的多a g e n t 系统中有着广 泛的应用。成功的应用要数s a m u e l 开发的下棋程序b a c k g a m m o n ,该程序可以在不断 的对弈中改善自己的棋艺,在1 9 5 9 年开发的跳棋程序经过4 年的学习战胜了设计者本 人,又过了3 年,这个程序战胜了美国一个8 年未败过的冠军。后来,t e s a u r o 用时间 差分算法汀d ) 的强化学习方法开发了一个b a c k g a m m o n ( 西洋双陆棋) 程序,这个程序最 初只懂得b a c k g a m m o n 的规则,是个彻底的入门选手,在经过了3 0 万次的学习后,这 个程序战胜了t e s a u r o 本人和所有其他人开发的b a c k g a l l l n l o n 程序,在经过了8 0 万次的 学习后,这个程序战胜了很多大师级高手,在经过了1 5 0 万次的学习后,这个程序达到 了世界顶级选手的水平 3 l 。这两个程序向人们展示了机器学习求解复杂的人工智能问题 的能力。但复杂的问题不止于此,r o b o c u p 所研究的问题要比西洋双陆棋这类问题复杂 的多。西洋双陆棋处理的是静态的、集中式的问题,而r o b o c u p 则处理的是动态的、 分布式的复杂问题。 r o b o c u p 比赛的类型有小型组、类人组、四腿机器人、以及仿真组等。其中仿真组 机器人由于不必考虑硬件的特殊限制深受机器人爱好者的喜爱。r o b o c u p 仿真比赛始于 1 9 9 7 年,是一项重大的国际比赛。官方提供的标准的r o b o c u p 平台也成为研究分布式 人工智能的一个标准的平台,在这个仿真环境中各种人工智能的新思路新方法都可以在 该平台上碍到很好的检验。由于其开放性的比赛风格( 平台源代码公开,每年比赛后各 个球队比赛必须公开其比赛的可执行码) 极大地促进了人工智能的发展。 r o b o c u p 仿真平台本身是一个非常复杂的平台,许多研究者将强化学习应用在某个 小的问题上。r i e d m i l l e r 等将强化学习应用于学习球员的底层技巧以及两个进攻者对一 个或两个防守者的高层策略j 。他们用神经网络的方法来学习球员的底层动作,获得了 很好的效果,组建的球队b r a i n s t o r m e r 多次在r o b o c u p 中获得了好的成绩。p e t e rs t o n e 等将s a r s a ( l ) 强化学习方法应用到r o b o c u p 子任务s o c c e rk e e p a w a y 中,也取得了值得 范建明:机器人足球防御仿真中强化学习方法的研究 借鉴的研究成果 5 8 。他们研究的成果表明,应用强化学习得到的学习策略要比“随机 执行一个动作”策略以及根据人为计算得到的策略要好,同时强化学习能够抗干扰性, 在有噪声存在的情况下仍取得了良好的学习效果。 本文研究的强化学习是基于p e t e rs t o n e 的s o c c e rk e e p a w a y 。他们应用了基于值函 数近似的s a r s a 强化学习方法。这是一种简单有效的强化学习方法,但这种方法也有 自身的局限性。由于这种方法是通过间接地近似b e l l m a n 等式来获得学习,属于基于值 函数的强化学习方法,因而并不能保证所有的策略都能收敛。对一个动作的估计的一个 很小的变化都将导致该动作有可能被丢弃,即使该动作对于a g e n t 的策略是有利的【”。 与此同时,也出现了很多其他的一些称为策略梯度( p o l i c yg r a d i e n t ) 强化学习方法, 这些强化学习是基于参数化的策略。这些强化学习方法的出发点是将策略参数化,然后 通过求效应函数的偏导数,不断调整学习参数,使得a g e n t 学习向梯度增加的方法发展, 这种方法的最大优点是能够处理部分可见的状态、直接搜索策略的解空间【1 0 , 1 1 。这种方 法在部分可观察的马尔科夫决策过程( p o m d p ) 【1 2 】中获得了广泛的应用【l o l ,但也存在一 定的不足。由于存在很大的变化性,学习速度也比较慢。 a c t o r c r i t i c 方法结合了基于值函数近似方法( c r i t i c ) 和p o l i c yg r a d i e n t ( a c t o r ) 方法的 优点,通过将策略参数化,用t d 函数近似方法1 4 j 来近似q 函数,克服了p o l i c y g r a d i e n t 方法的大的变化性,极大地加快了收敛速度。 在本文中,我们利用了t i l e c o d i n g 线性函数近似方法【2 】来表示日函数,将 a c t o r c r i t i c 方法应用于s o c c e rk e e p a w a y 子任务中,获得了比较好的学习效果。我们也 与其它的强化学习方法作了一个比较,得出的结论是,在机器人防御仿真( s o c c e r k e e p a w a y ) 中,球员在3 6 0 度视角内,对于小的问题,a c t o r c r i t i c 方法是一种比较有效的 学习方法。 大连理工大学硕士学位论文 1 绪论 1 1 研究背景 1 1 1a g e n t 的基本概念和性质 a g e n t 的概念源于人工智能学科,最早出现于上个世纪7 0 年代,在8 0 年代后期得 到深入研究。随着计算机网络的发展,a g e n t 已经引起了科学界、教育界、工业界和娱 乐界的广泛兴趣,现在己经成为伽研究乃至整个计算研究议程中的中心问题。人工智 能的本质是研究如何制造出人工的智能机器或智能系统,来模拟人类智能活动的能力, 以延伸人的智能的科学。s t u a r tr u s s e l l 等认为,a g e n t 就是能通过传感器感知环境并通 过效用器对环境进行响应的一切事物【1 5 】。 人类的智能活动是指人类认识世界和改造世界的所有行为的总和,通常反应在五个 方面,即:( 1 ) 通过视、听、触、嗅等感官活动,感知并接受和理解文字、图像、声音、 语言等各种外界的自然信息,即人类认识和理解所在世界环境的能力;( 2 ) 对所面临问题, 通过定的涉及人体生理、心理的活动,以及一系列相关的信息处理进行归纳和推理进 而做出决策即进行问题求解的能力;( 3 ) 通过教育、训练和学习,逐步丰富自身的知识和 技能的学习能力;( 4 ) 积极应对变化多端的外界环境条件并灵活响应的自适应能力:( 5 ) 与他人进行合作( c o l l a b o r a t i o n ) ,共同解决单个人无法解决的大型复杂问题的能力。随着 a g e n t 概念的发展,人工智能研究者认为,理想a g e n t 应该具备上述的五种技能。e t z i o n i 和f r a n k l i n 则认为a g e n t 应具有如下属性【l 6 j : ( 1 ) 反应性:有选择地感知和行动的能力。 ( 2 ) 自主性:目标引导的、主动的和自启动的行为。 ( 3 ) 协作能力:能与其他a g e n t 协调、协同工作以完成共同的目标。 ( 4 ) 通信能力:与人和其他a g e n t 通信,常用的是基于s p e e c ha c t 理论的通信语言。 ( 5 ) 推理能力:能够使用预先了解的关于目标的一般知识,根据抽象的任务说明采 取行动并能选择方法以获得灵活性。 ( 6 ) 时态连续性:在较长的时间区间内,身份与状态的长期保留。 ( 7 ) 个性:能够表现出一定的性格特征,如感情、偏好等。 ( 8 ) 学习能力与适应性:能够适应环境的变化,并根据经验学习和改进。 ( 9 ) 移动性:能够以一种自引导的方式从一个平台移动到另一个平台。 目前,关于a g e n t 的概念的定义,尚没有统一的认识,通常认为a g e n t 就是具有上 述基本特性的计算机软硬件系统,本文中的a g e n t 都是指智能a g e n t 。智能a g e n t 是指 范建明:机器人足球防御仿真中强化学习方法的研究 能在某一环境下运行,并能响应环境的变化,灵活、自主地采取行动以满足其设计目标 的计算实体。 1 1 2 多a g e n t 系统 在大多数情况下,单个智能体能够很好地独立解决一些特定的简单的问题。但对于 复杂的问题,必须依靠多个智能体的协调才能完成。m a s 是由多个a g e n t 组成的一个 联合体,这些a g e n t 之间相互协作,相互服务,共同完成一个任务。多智能体的研究已 经成为人工智能领域的热点之一。 在基于协作的多a g e n t 系统中,如果每个a g e n t 的体系结构、领域知识、意图、能 力等均相同,则称之为同构a g e n t ;反之称之为异构a g e n t 。根据a g e n t 之间的通信和控 制模式可将a g e n t 分为三种:集中式、分布式和混合式体系结构。 集中式结构将系统分成多个组,每个组采取集中式管理,即每一组a g e n t 提供一个 具有全局知识的控制a g e n t ,通过它来实现多a g e n t 合作的局部控制,如任务规划和分 配等,并且由一个消息传递a g e n t 来承担消息传递任务,而整个系统采用同样的方式对 各成员a g e n t 组进行管理。 分布式结构中各a g e n t 组之间和组内各a g e n t 之间均为平等的分布式结构,各a g e n t 组或a g e n t 无主次之分,处于平等地位。a g e n t 是否被激活以及激活后做什么动作取决 于系统状况、周围环境、自身状况以及当前拥有的数据。 混合式结构一般是由集中式和分布式两类结构组成,它包含至少一个管理服务机 构。管理服务机构只对部分成员a g e n t 以某种方式进行统一管理,解决a g e n t 之间的任 务划分和分配、共享资源的分配和管理、冲突的协调等。其它成员之间是平等的,它们 的所有行为由自身做出决策。这种结构平衡了集中式和分布式两种结构的优点和不足, 适应分布式m a s 复杂、开放的特性,因此是目前m a s 普遍采用的系统结构。 1 1 3 基于m a 8 的学习 多a g e n t 学习是多a g e n t 系统的核心,受到越来越多的关注,是多a g e n t 系统中高 难度问题的求解方法的重要组成部分。例如,许多应用领域被抽象成由多个a g e n t 学习 如何协作实现全局目标的问题域。学习方一法进行扩充多a g e n t 学习的研究,一般的方 法是根据多a g e n t 系统的特征,将单a g e n t 的学习方法变换和组合,形成能够适合于多 a g e n t 系统环境特点的各种学习方法。多a g e n t 学习技术引发了对传统机器学习理论的 新的挑战,在多个a g e n t 同时存在,并且同时学习的时候,体现得尤为突出。如何在这 种情况下,a g e n t 如何能够进行学习这一问题倍受人们关注。因此,多a g e n t 学习领域 是一个非常值得研究的、具有挑战性的领域。多a g e n t 学习分为两大类:集中式学习 大连理工大学硕士学位论文 ( c e n t r a l i z e d l e a r n i n g ) 和非集中式学习( d e c e n t r a l i z e d l e a r n i n g ) 。其中的学习过程是指为了 实现一个特定的学习目标而执行的包括规划、推理和决策等在内的所有活动。 集中式学习是指学习过程完全由一个a g e n t 来完成,其间不需要与其他a g e n t 进行 交互,也就是说,进行集中式学习的学习者的行为是完全独立于其它学习者的。非集中 式学习是指多个a g e n t 致力于同一个学习过程,也就是说,学习过程的活动分别是由不 同的a g e n t 同时完成的,每个a g e n t 完成其中的特定活动。在多a g e n t 系统中,若干学 习者可能同时在进行集中式学习,各个学习过程相互独立。类似地,若干a g e n t 学习小 组也可能同时在进行非集中式学习。另外,一个学习者可能被同时包含于一个集中式学 习过程和一个非集中式学习过程。因此,集中式学习和非集中式学习也可以视为多a g e n t 系统中的学习的两种表现。 从学习过程的反馈情况,多a g e n t 的学习可以分为三大类: ( 1 1 监督学习:在监督学习中,环境扮演“教师”的角色,每当学习者向环境输入 一个动作,环境能明确提供其输入所得的输出结果,学习者能够从这样的“输入一输出” 对中获知输入与输出的映射关系,也就是说,环境如同“教师”,对学习者应该如何对 训练输入做出反应进行指导。 ( 2 ) 无监督学习:无监督学习是指环境与学习者不发生任何交互,学习者不知道其 输入动作的输出结果,只能靠自己发现输入动作的规律。 ( 3 ) 强化学习:强化学习与二者不同,但也有一定程度的相似性,处于上述二者之 间,因为学习者采取行为之后不会被告知哪一个行为是最优的,而是被告知该行为的瞬 时回报和迁移的下一状态,这种反馈信息可以用来指导下一步的行为。 由此可以看出,监督学习者能够从教师那里获知“输入一输出”映射关系的知识; 无监督学习者则不能得到输入动作的反馈信息;而强化学习者能够得到有限度的反馈信 息。尽管许多监督学习方法已经得到了很好的应用,但是还不能完成a g e n t 所要实现的 所有学习任务,因为要获得a g e n t 在所有可能的环境下应该采取的期望行为的例子集合 是很昂贵的,甚至是不可能的。a g e n t 如果能够从经验中自主学习,而不是仅从知识渊 博的教师那里得到指导,学习将更加有价值。尽管强化学习会用到可用的有益的知识, 但是信息反馈的最终来源是与环境的交互。强化学习与监督学习相比的另一个重要区别 在于监督学习是离线学习。离线学习的过程是先通过教师的指导学到了正确的求解方法 之后再应用于工作;而强化学习是在线学习,可能边工作边学习,可能开始学习的效果 不是最优的,但是随着学习过程的进行,学习的效果将逐步达到最优。 范建明:机器人足球防御仿真中强化学习方法的研究 1 2r o b o c u p 仿真机器人的研究与发展 1 2 1 发展过程 机器人足球的最初想法由加拿大不列颠哥伦比亚大学的a l a nm a c k w o r t h 教授于 1 9 9 2 年正式提出。日本学者立即对这一想法进行了系统的调研和可行性分析。1 9 9 3 年, m i n o r ua s a d a ( 浅田埝) 、h i r o a k ik i t a n o ( = j l 野宏明) 和y a s u ok u m y o s m 等著名学者创办了 r o b o c u p 机器人足球世界杯赛( r o b o tw o r l dc u ps o c c e rg a m e s ,简称r o b o c u p ) 。与此同时, 一些研究人员开始将机器人足球作为研究课题。隶属于日本政府的电子技术实验室( e t l ) 的i t s u k in o d a ( 松原仁) 以机器人足球为背景展开多主体系统的研究,日本大坂大学的浅 田埝、美国卡内基一梅隆大学的v e l o s o 等也开展了同类工作。1 9 9 7 年,在国际最权威 的人工智能系列学术大会第1 5 届国际人工智能联合大会r r h e1 5 t hi n t e r n a t i o n a lj o i n t c o n f e r e n c eo na r t i f i c i a li n t e l l i g e n c e ,简称i j c a i 9 7 ) 上,机器人足球被正式列为人工智能 的一项挑战。至此,机器人足球成为人工智能和机器人学新的标准问题m 。 r o b o c u p 是国际上的一项教育科研的大型活动,它的目的是通过提供一项涉及很多 技术领域的标准问题来促进人工智能与智能机器人技术的研究。 r o b o c u p 仿真环境与人类足球比赛的环境相似,比赛队员的仿真模型与实际队员也 很接近,实现球员不必考虑硬件上的限制,比赛完全在一个虚拟的环境中进行。仿真环 境是一个二维的球场,各个球员在这个环境中进行比赛。 2 0 0 4 年3 d 足球仿真比赛诞生,加入了第三维使得比赛更加真实。 在r o b o c u p 中分布性、实时性、动态性、异步性使得其成为分布式人工智能研究 的一个标准的平台。 1 2 2 强化学习在r o b o c u p 中的研究 将目标得分作为目标状态,运用m o n t ec a r l o 方法,p e t e rs t o n e 等研究者将 t p o t - r l 【1 8 1 成功地应用于r o b o c u p 整个队来学习传球和射门策略。 根据对球获得的历史位置,a u d o u s 将观察强化学习方法用于更新球员在场上的位 置。 r i e d m i l l e r 等将强化学习应用于学习球员的底层技术已经高层的协作行为【1 j ,他们 研究了2 个进攻者对1 个或者2 个防守者。他们应用强化学习构建的球队b r a i n s t o r m e r 队多次获了好的成绩,2 0 0 5 年获得了r o b o c u p2 d 世界杯冠军。 通过将大的问题层次分解为小的问题,高层使用基于值函数近似方法,动作层使用 参数化的动作,分层强化学习也引起广泛的关注。 大连理工大学硕士学位论文 a ,r t c m u n i t e d 2 0 0 0 队中的球员使用了参数化的动作选择体系结构【l ,a g e n t 在 一个大的灵活的动作空间进行学习。其中有参数化的上百种动作,a g e n t 通过执行动作 的概率来选择合适的动作。 p e t e rs t o n e 将强化学习应用于r o b o c u p 子问题s o c c e rk e e p a w a y 中取得了很好的学 习效果。他们应用线性函数近似来处理大的状态空间,用s a r s a 0 。) 强化学习方法学习高 层的策略,他们的实验结果表明:球员在标准的9 0 度有限的视角情况下,强化学习仍 然能够超过随机化的动作选择策略以及人为编写的策略,这是强化学习在大的状态空间 中的一个非常有代表性的应用。 本文应用的强化学习算法基于p e t e r s t o n e 的基于值函数的学习方法,通过将值函数 的快速收敛的优点以及参数化的策略的策略空间直接搜索的p o l i c yg r a d i e n t 方法结合起 来 1 0 ,1 1 ,2 0 ,2 1 1 ,将a c t o r c r i t i c 方法应用于s o c c e rk e e p a w a y 中,取得了很好的学习效果。 范建明:机器人足球防御仿真中强化学习方法的研究 2 实验平台 2 1r o b o c u p 仿真环境 r o b o c u p 仿真比赛是在一个标准的计算机环境内进彳亍的,比赛规则基本上与国际足 球联合会的比赛规则一致,只是在某些方面有小的改动。比赛采用c l i e n t s e r v e r 方式, 由r o b o c u p 联合会提供标准的s o c c e r s e r v e r 系统,参赛队编写各自的c l i e n t 程序,模拟 实际足球队员进行比赛。 s o c c e r s e r v e r 是一个允许竞赛者使用各种程序语言进行仿真比赛的系统。它提供了 一个虚拟的场地,并对比赛双方的全部队员和足球的状态进行了仿真。c l i e n t 相当于球 员的大脑,指挥球员的运动。s e r v e r 和c l i e m 之间的通信是通过u d p i p 协议进行的, 竞赛者可以使用支持u d p i p 的任何程序系统。c l i e n t 发送指令去控制相应的队员,同 时从s e r v e r 接受队员的感知信息。每个c l i e n t 模块只允许控制一名球员,c l i e n t 之间不 允许直接进行通信,c l i e n t 之间的通讯必须通过s o c c e r s e r v e r 来进行,因此通讯的带宽 受到一定的限制。球员不能单纯依靠与其它球员的交互来实现高层的任务,而必须依靠 自身的学习能力来完成高层的任务。参赛队伍同时运行比赛数目相同的c l i e n t 。s o c c e r - s e r v e r 包含两个程序:s o c c e r s e r v e r 和s o c c e r m o n i t o r 。 s o c c e r s e r v e r 的工作是模拟足球和球员的状态,与c l i e n t 进行通信,按照一定的规 则控制游戏的进程f 裁判功能) 。s o c c e r m o n i t o r 则负责利用w i n d o w s 。( w i n d o w 或 w i n d o w s2 0 0 0 ) 系统显示虚拟场地。s e r v e r 可以同时与多个s o c c e r m o n i t o r 相连,在多个 显示器上同时显示比赛的情况。 2 2s o c c e r s e r v e r 仿真模型 2 2 1 场地和球员 仿真环境中足球和其中的全部对象都是而二维的。任何对象都没有高度的概念。比 赛场地的尺寸为1 0 5 6 8 ( 单位没有意义1 ,球门宽度为1 4 6 4 ,是实际比例的两倍。实验 证明,对于正常的宽度比例是很难进球的。 球员和球都使用圆圈来表示。动作模型是离散的f 在一个仿真周期结束时全部的动 作被执行一次) 。每个仿真周期世界的长短是由参数s i m u l a t o r _ s t e p 决定的。在每个仿真 周期结束前,s o c c e r s e r v e r 接收所有的c l i e n t 的命令,并执行命令,利用当前场上对象( 球 员和球1 的位置和速度信息计算出全部对象新的位置和速度信息。s o o c e r s e r v e r 的动作命 令如表2 1 : 大连理工大学硕士学位论文 表2ls o c o e r s e r v e r 的动作命令 t a b 2 1s o c c e r s e r v e rc o m m a n d s 命令描述 m o v e 互n ( t u mm o m e n t ) ( d a s hp o w e r ) 移动球员到僻砷。此命令只在6 咖r e _ k i c k , o f 模式 下可用。 控制球员转身的角度。m o m e n t 在一1 8 0 1 8 0 之间。 球员身体可以转过的角度随着球员的快速运动而 减少。( m o m e n t 的范围会改变) 在球员所面对的方向上增加球员的速度。p o w e r 应 在一3 0 - 1 0 0 之间( 范围可变) 。 以p o w e r 的力量向d i r e c t i o n 方向踢球。条件是球 ( k i c k p o w e r d i r e c t i o n ) 要在k i c k a b l e范围内。f ,a r e a p o w e r e3 0 1 0 0 】, d i r e c t i o n - 1 8 0 ,1 8 0 】a 向d i r e c t i o n 方向扑球。当球落入宽为 ( c a t c hd i r e c t i o n )g o a l i ec a t c h a b l ew ,长为舻口妇c a t c h a b l ef 的矩形 内时,并且方向为d i r e c t i o n ,守门员可以扑到球。 向所有球员广播m e s s a g e 。m e s s a g e 会迅速被 其他球员( 包括对方球员) 以听得方式接收。 m e s s a g e 是串长小于5 1 2 的字符串。可以包含字母, 阿拉伯数字和符号“+ - * - - 0 ”。球员的听力由距离 限制。 ( c h a n g e _ v i e w 改变球员的视角宽度和视角能力。a n g l e _ a n g l e _ w i d t hw i d t h 可以是w i d e 、n o r m a l 、n a r r o w 。q u a l i t y q u a l i f y ) 为h i 曲或l o w 。 ( s e n s e _ b o d y ) f s e n s eb o d yt i m e r v i e wm o d eq u a l i t yw i d t h ) 拈t a m i n as t a m i n ae f f o r 乃 ( s p e e d a m o u n to fs p e e d ) k i c k k i c k _ c o u n t ) r d a s hd a s h c o u n t ) ( t u r nt u r nc o u n t ) ( s a ys a yc o u n t ) ) 为了反映出实际比赛中球与球员运动的不确定性,s o c c e r s e r v e r 在球及球员的移动 和转身过程中加入了一定的干扰因素。 2 2 2 球员的体力模型 每个球员都有自己的体力值。s o c c e r s e r v e r 通过限制球员的体力来阻止队员始终以 最大速度( p l a y e r 跑动。球员的体力模型包含三个方面:spm a x ) s t a m i n a ( 【o , s t a m i n a _ m a x ) ,表示球员的体力,它限制d a s h 命令的p o w e r 参数a 9 范建明:机器人足球防御仿真中强化学习方法的研究 e f f o r t ( e f f o r t _ m i n ,1 0 】) 表示了球员体力等额使用效率。 r e c o v e r y ( e 【,e c o v e r y _ m i n ,1 o 】) 2 2 3 球员的感知信息 球员从s o c c e r s e r v e r 接受的感知信息包括听觉和视觉信息。对于球员来说,这些信 息是非常重要的。 ( 1 ) 听觉信息 当某球员或裁判( r e f e r e e ) 发送消。息( s a y m e s s a g e ) 时,附近的其他球员包括对方球员可 以立即听到消息,没有延迟。他们以( h e a rt i m ed i r e c t i o nm 如口弘) 的形式听到消息。其 中: t i m e 为当前的仿真周期。 d i r e c t i o n 表示声音来源的相当方向。 对于球员自己发送的消息,d i r e c t i o n 为“s e l f ”,如是裁判发的消息,d i r e c t i o n 为 “r e f e r e e ”,m e s s a g e 代表消息的内容。 队员仅有有限的通讯能力,只能听到一定距离之内的声音,此距离由s o c c e r s e r v e r 参数a u d i o _ c u t _ o f f _ d i s t 决定。一般情况下,在2 个循环周期内,当多名队员同时发送多 个消息时,一名队员只能接收一条,而丢失了其它的消息。裁笋l j ( r e f e r e e ) 所发的消息具 有最高的优先级,可以被全部队员接收到。 ( 2 ) 视觉信息 球员定期从s o c c e r s e r v e r 得到视觉信息,视觉信息按下格式定义: ( s e et i m eo b j l n f oo b j l n f o ) t i m e 指示当前时间。 o b j l n f o 表示了可视对象的信息。其格式为: ( o b j n a m ed i s t a n c ed i r e c t i o nd i s t c h n gd i r c h n gf a c e d i r ) o b j n a m e = 0 l a y e rt e a m n a m eu n u m ) l ( g o a l 1 l r ) i c o a l l ) i ( f l a gc ) i ( n a g 1 l c l r t b ) l ( n a gp 1 r t l c l b ) i ( f l a g 【t j b 】【l r 】 1 0 1 2 0 1 3 0j 4 0 1 5 0 】) i ( f l a g 【l l r t l b 1 0 1 2 0 3 0 ) ( f l a g 1 l r l t l b o ) l ( 1 i n e 【l r l t l b ) 大连理工大学硕士学位论文 d i s t a n c e , d i r e c n o n 表示目标的相对距离和相对方向。d i s t c h n g 和d i r c h n g 分别表示 目标距离和方向的相对变化,d i s t c h n g 和d i r c h n g 不是精确值,只是一个粗略值。当被 观察的目标是其他队员时,参数中增加f a c e d i r ,它表示被观察队员与观察队员之间的 方向夹角。如果两名队员面对同一个方向,则f a c e d i r 为0 。字母:”lrc t b ”分别表示了 左,右,中,上,下。,p 表示罚球区。详见图2 , 1 1 堋。 ( f : g ( f l a g : t f l : 窿l 龃: ( f l a g t11 0 )懵h ;t12 0 ) f j a 8t 截( f 二6 :r2 。 ( f l a grr ;0 ) f l a g :s o , f i 3 j :13 0 ) :l a g :1 :o ! 。( f 1 3 9 :r1 0 ,f ! 二i r5 。( f l a i :r5 0 j 】= f l z g :t j o l i ; 1 :” 。i l md l 牡1 4 9g :t ,一 !)fsp既 l g o a 4r ) f = l a 5 i ( 9 0 4 l :) ( f l 5plc ) , | n 4 9g 二辩 、一 h ! :8s 一曼! e , 呲”鼬 i f l 3 9b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论