




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号密级:编号:工学硕士学位论文基于模糊理论和强化学习的自主式水下机器人运动规划技术硕士研究生:指导教师:学位级别:学科、专业:所在单位:论文提交日期:论文答辩日期:学位授予单位:姜沛然张铭钧教授工学硕士机械电子工程机电工程学院年月年月哈尔滨工程大学哈尔滨工程大学硕士学位论文,哈尔滨工程大学硕士学位论文,。:;哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):塞壁垦:日期:,年月砰日哈尔滨工程大学硕士学位论文引言第章绪论机器人是在综合控制论、信息论和计算机技术等多学科的科学成果基础上应运而生的。我国科学家对机器人的定义是:“机器人是一种自动化的机器,所不同的是这种机器具备一些与人或生物相似的智能能力,如感知能力、规划能力、动作能力和协同能力,是一种具有高度灵活性的自动化机器”。自世纪年代初第一台机器人问世以来,至今已有年的历史,全世界目前安装使用的机器人已有上百万多台。现在机器人已广泛应用于机械、冶金、汽车、电子、海洋、原子能、化工等诸多领域。机器人、原子能和空间技术并列为世纪三大应用科学。目前,庞大的机器人家族已发展到第三代。第一代机器人主要以“示教再现”方式工作,示教内容为机器人操作机构的空间轨迹、作业条件、作业顺序等。示教方法或操作员“手把手”直接做,或是与计算机编程相结合。第二代机器人是年代初,随着生产的发展需要和新技术突破而产生的。由通用化、系列化组件组合成具有视觉、听觉、触觉等简单智能的组合式机器人。这种机器人能根据视觉、听觉和触觉传感器感知外部状况,做出相应的反应。它们聪明能干,能承担很多需要复杂动作的工作。第三代机器人是智能机器人。这种机器人的特点是智能化程度高,自由度数多,不仅具有视觉、听觉、触觉等智能,而且还具有一定的逻辑思维能力,能进行推理、判断,能理解命令、识别对象、感知环境,还能随机应变,进行更为复杂的劳哈尔滨工程大学硕士学位论文动,代替人的部分脑力劳动。、机器人的种类很多,我国的机器人专家从应用环境出发,将机器人分为两大类,即工业机器人和特种机器人。所谓工业机器人就是面向工业领域的多关节机械手或多自由度机器人。而特种机器人则是除工业机器人之外的、用于非制造业并服务于人类的各种先进机器人,包括:服务机器人、水下机器人、娱乐机器人、军用机器人、农业机器人、机器人化机器等。在特种机器人中,有些分支发展很快,有独立成体系的趋势,如服务机器人、水下机器人、军用机器人、微操作机器人等。水下机器人的发展现状水下机器人也称作潜水器()。潜水器设计是一项综合性的复杂工程,它涉及到流体、结构、材料、生命支持、液压、水声、光学、计算机控制等多门学科。潜水器研制水平,往往体现了一个国家的综合技术力量,典型的如深潜器,目前仅美、法、日、俄、中等国家才能研制。二十一世纪是海洋的世纪,作为一个海洋大国,理应在深潜器研制、应用方面占据一席之地。世界上第一台载人潜器日,是由西蒙莱克于年制造的。从世纪年代中期到年代中期是载人潜器发展的鼎盛时期,其技术发展得较为成熟,此后逐渐进入低谷。随着计算机技术的发展,美国、俄罗斯、日本等国先后研制出无人潜器,即水下机器人,它比载人潜器要小,也更灵活。按照水下机器人与母船间有无电缆连接将其分为有缆遥控水下机器人(,)和自治水下机器人(哈尔滨工程大学硕士学位论文,)。通过电缆由母船向其提供动力,人在母船上通过电缆对进行遥控。而自带能源,依靠自身的自治能力来管理和控制自己以完成人赋予的使命。年美国研制成功了世界上第一台一“”,它与载人潜器配合,在西班牙外海找到了一颗失落在海底的氢弹,由此引起了极大的轰动,技术开始引起人们的重视。到了年代,产业已开始形成,在海洋研究、近海油气开发、矿物资源调查取样、打捞和军事等方面都获得广泛的应用“。随着电子、计算机等新技术的飞速发展及海洋工程和军事方面的需要,引起国外产业界和军方的关注。事实上,是一种非常适合于海底搜索、调查、识别和打捞作业的既经济又安全的工具。在军事上,亦是一种有效的水中兵器。与载人潜水器相比较,它具有安全(无人)、结构简单、重量轻、尺寸小、造价低等优点。而与相比,它具有活动范围大、潜水深度深、不怕电缆缠绕、可进入复杂结构中、不需要庞大水面支持、占用甲板面积小和成本低等优点。代表了未来水下机器人技术的发展方向,是当前世界各国研究工作的热点。目前,世界上已有大约四十多个型号的在军事、海上石油、天然气工业及海洋研究等方面得到应用。我国无人遥控潜器及自主式水下机器人从六十年代中期就开始进行了一些探索性研究,“七五”在智能机器人主题下将水下机器人的开发研制列入国家重点攻关项目,“八五”期间智能水下机器人技术得到了迅速发展。经过我国工程技术人员长期努力,先后研制了“海人一号”、“海人二号”水下试验床等。年月,作为我国“八六三高科技发展战略”成果的“探索者一号”米无缆自治式水下机器人(如图哈尔滨工程大学硕士学位论文所示),在太平洋的深海功能试验成功。此后,经过一年半的改造,命名为(如图所示),又于年月再一次在太平洋圆满完成各项海底调查任务。这标志着我国在研究方面已进入世界先进水平。图“探索者一号”无缆自治式水下机器人图“”号水下机器人哈尔滨工程大学硕士学位论文水下机器人路径规划及研究现状路径规划是智能机器人导航中的最重要的问题之一“,其任务就是在环境中给定初始位置和目标位置,按一定的策略是机器人从无碰撞地到达,并且满足一些附加的约束条件。路径规划可以分为全局路径规划和局部路径规划删。全局路径规划及研究现状全局路径规划就是根据先验知识(如地图等),在有限条件下规划出一条从始点到达目标的无碰路径。目前,全局路径规划的研究方法主要有圉搜索法、广义锥法、位置空间法、顶点图法、正规栅格法、势场法、遗传算法等司阳】局部路径规划及研究现状仅靠全局路径规划不能解决在复杂、动态变化环境中的机器人的导航问题。这样,在机器人导航系统中需要基于传感器信息,以在线的方式进行的局部路径规划。局部路径规划是以全局规划为指导,利用在线得到的局部环境信息,避开出现的未知障碍物逐步到达子目标点的过程。局部路径规划处于规划的底层,它通过各种传感器、处理器同环境交互,把全局规划得到的一系列路径关键点作为系统的予目标序列,规划一条实际的路径。对水下机器人来说,局部路径规划的主要任务是避碰,即实时地躲避各种突发障碍物。机器人局部路径规划问题的研究尚处在发展的过程中,并有了初步的成果。将势场的概念应用于移动式机器人的避碰问题“。,。和则提出了哈尔滨工程大学硕士学位论文虚势场的方法并指出了这种方法的局限性“。以上两种方法的缺点在于:对于复杂环境中的机器人,由于影响其速度及方向的力系数不能用数学模型描述,因此难于计算。孙茂相等提出预测控制与人工势场法相结合用于水下机器入实时路径规划中“,缺点是人工势场法存在着局部最小点,机器入容易陷入死区。随着智能控制技术的发展,模糊避碰及神经网络方法在局部路径规划中得到了应用,它们的共同优点在于不需要知道环境的解析模型。,和研究了一种用于避碰的模糊规划器。但是,当机器人处于复杂环境时,以上方法的规则库的一致性很难保证,而且,其规则的调整也非常困难。近来有人将采用算法实现监督学习的神经网络用于机器人的局部规划”。这种方法需要大量有代表性的训练数据来训练神经网络,然而,获取一组无矛盾的训练数据并非易事。总之,对于局部路径规划而言,以上的各种方法的研究基本上处在理论探讨,计算机仿真和实验室阶段,真正应用于水下机器人的实际规划的例子还不多“。由于水下工作环境的特殊性,以及不同的水下机器人的结构”、运动方式,、作业任务,都不同,规划的方法也有所不同”“矧。强化学习发展历史及研究现状强化学习是连接主义学习中的一个重要类型,也是人工智能领域中的一个既崭新又古老的课题。它的发展经历了两个阶段:第一阶段是年代至年代,可以称为强化学习的形成阶段;第二阶段是年代以后,可以称为强化学习的发展阶段。”“。哈尔滨工程大学硕士学位论文在第一阶段,“强化”和“强化学习”这些术语由于年首次提出并出现在工程文献上。同时,在控制理论中和付京孙于年分别独立提出这一概念。早于年在的博士论文中,就描述了一种模拟机,叫做(),这种机器可以通过反复试验来学习。”。虽然在的论文中提到过根据经验估算值函数进行学习的思想,但是对这一思想介绍最多的还是在的程序中嘲,这一程序使用瞬时差分方法学习国际象棋的规则。更有影响力的的是他在年发表的论文“”。这篇论文对一个复杂的强化学习系统中必须解决的计算问题的讨论,对今天的研究仍具有一定的意义,它把这一问题叫做信度分配()问题。在世纪六七十年代,强化学习研究的发展缓慢,并且失去了研究的主题,越来越趋向于监督学习。从而连接主义学习中的监督学习得到了广泛的研究,尤其是在模式识别领域“”“”。进入年代后,随着人们对人工神经元网络的研究不断的取得进展,以及计算机技术的进步,人们对强化学习的研究又出现了高潮。于年首次介绍了强化学习在实际控制系统中的应用情况。它采用了及两个单元构成了一个评价控制系统,通过反复学习,使倒摆系统维持较长的时间,实际上这一思想就是强化学习中的自适应启发评价(,)算法的早期形式。之后,于年在他的博士论文中提出了算法,比较系统的介绍了思想“”;于年提出了顺势差分(,)方法,解决了强化学习中根据时哈尔滨工程大学硕士学位论文问序列进行预测的问题,并且证明了在一些简化条件下方法的收敛性“。在强化学习方法中,另一个比较著名的算法,就是等人提出的学习()“”。对一学习在一定条件下的收敛性进行了证明。最近,与等人将强化学习与最优控制理论和动态规划联系起来进行了理论上的研究。近年来,强化学习的理论及其应用研究正日益受到重视。例如,关于强化学习方法的比较分析及高维连续动作的强化学习等课题得到了美国国防项目的支持。另外,关于强化学习的理论以及结合神经网络技术的方法研究得到了美国国家科学基金,以及美国海军、空军研究办公室的资助。德国、澳大利亚等国的学者也在积极开展有关这方面的研究“”。从国内情况看,主要从强化学习在经济领域的预测、非线性系统控制、智能机器人避碰行为和倒立摆控制系统及库存控制等方面的应用进行了研究,但仍然处于起步状态旧。强化学习作为一种有前途的学习方法,已经引起越来越多人工智能和机器人学者的研究兴趣,近年来,在其理论、方法和实现技术方面进行了全面的研究,其实验研究也趋向于采用真实机器人,而且还从单机器人向多机器人的分布式强化学习发展吼。但鉴于其所面对的真实世界的复杂性和机器人实际性能的限制,还有一系列问题有待解决,其发展的道路上充满挑战。但具有学习能力的机器人无疑是向理想的智能机器人迈近了一步“瑚。课题的来源及本文的主要内容本课题来源于教育部高等学校博士学科点专项科研基金。本文主要研究哈尔滨工程大学硕士学位论文水下机器人局部路径规划技术,使之具有适应海洋环境的智能规划能力。海洋的探索和开发,以及军事上的应用,对自主式水下机器人的智能水平提出了更高的要求。作为一种自主式海洋运载器,自主能力的真正含义是具有和外部环境进行交互的能力。这种交互能力的一个重要方面就是具有运动规划的能力。能够在复杂的海洋环境下完成复杂的使命,也是自主式水下机器人智能行为的重要体现。论文的主要工作如下:()对强化学习的理论及算法做较详细的研究和探讨。()研究水下机器人局部路径规划方法,设计了一种基于模糊理论的水下机器人局部路径规划器,使之能完成复杂环境下的路径规划。()考虑到模糊规划器获取完善的控制规则困难,工作量大的缺点,提出了将学习与模糊理论结合在水下机器人局部路径规划中的应用。()通过实验仿真验证模糊规划器、强化学习与模糊结合的规划器算法的可行性。啥尔滨工程大学硕士学位论文第章模糊理论与强化学习理论简介。模糊理论简介模糊理论及模糊控制概述年,美国加利福尼亚大学的自动控制专家扎德()提出了模糊集合理论,为模糊逻辑的发展奠定了基础。年英国伦敦大学的教授首先成功地把模糊理论用于锅炉和蒸汽机的控制,这一开拓性的工作标志着模糊控制工程的诞生。我国模糊控制理论及其应用研究工作是从年开始的。传统的自动控制,包括经典理论和现代控制理论,对控制器的综合设计都要建立在被控对象的准确数学模型的基础上,但在实际工作中,很多系统的影响因素很多,十分复杂,建立精确的数学模型特别困难,甚至是不可能的。这种情况下,模糊控制就得到了长足发展。因为模糊控制不用建立数学模型,根据实际系统的输入得到输出结果数据,可对系统进行实时控制。模糊控制实际上是一种非线性控制,从属于智能控制的范畴,。模糊控制是以模糊集合论、模糊语言变量及模糊逻辑推理为基础的一种计算机数字控制,它由一定的先验知识来构造模糊控制规则,通过一系列不精确的控制来达到精确的控制目的。模糊控制由于能较好地解决一些经典控制难以处理的一些问题,已成为智能控制的一种重要技术手段。目前,模糊控制技术已广泛应用于家用电器、工业控制和其它许多行业的系统控制,并获得了巨大成功。哈尔滨工程大学硕士学伎论文模糊集合理论模糊集合在年对模糊集合的定义为:设给定论域,到,】闭区间的任意映射队竺秽,“)都确定的一个模糊集合,队称为模糊集合的隶属函数,队()称为对于的隶属度。定义表明,论域上的模糊集合由隶属函数队()来表征,()取值范围为闭区间,队()的大小反映了对于模糊集合的从属程度。可见,模糊集合完全由隶属函数所描述。模糊集合包含有相等、包含、空集、直积等基本运算。隶属函数的确定模糊集合是用隶属度函数描述的。而隶属度函数又是模糊集合论的基础,因而如何确定隶属函数就变成了一个关键问题。隶属函数的确定尽管带有主观因素,但它本质上反映的还是客观事物的渐变性。因此它的确定有如下一些基本原则:表示隶属度函数的模糊集合必须是凸模糊集合(单峰馒头形)。变量所取隶属度函数通常是对称和平衡的。模糊变量的标称值一般取个为宜并且通常取奇数个。隶属度函数要符合人们的语义顺序,避免不恰当的重叠。论域中的每个点应该至少属于一个隶属度函数的区域,同时它一般应哈尔滨工程大学硕士学位论文该属于至多不超过两个隶属度函数的区域。对同一输入没有两个隶属度函数会同时有最大隶属度。当两个隶属度函数重叠时,重叠部分对两个隶属度函数的最大隶属度不应该有交叉。常用的隶属函数确定方法有:模糊统计法、例证法、专家经验法等。模糊语言及模糊推理为模拟人脑思维的模糊性,对系统实现模糊控制,关键技术是要建立一个模糊模型模糊控制规则库,而模糊控制规则库是人们在控制过程中的经验总结所表达的一些不确定性推理规则的集合。因此需要研究模糊信息的处理方法,即模糊语言和模糊推理。模糊语言变量为模糊语言变量给出如下定义:模糊语言变量是由一个五元体(,(),)来表征的变量,其中各个元的意义如下:()是变量名称,如“年龄”、“颜色”、“速度”等。()()是的语言真值的集合;每个语言真值都是上的模糊集合。()是的论域。()是词义规则,词义用()表示,()。词义规则规定了中元素对()的隶属度。()是词法规则,它规定原子词,即原始项构成合成项之后的词义变化。合成项也称合成词。模糊控制规则使用模糊语句表示,基本有下面三种形式的表示:!哈尔滨工程大学硕士学位论文)“”形式设的论域为,的论域为,则以上语句确定了上的模糊关系。)“”形式设的论域为,、的论域为,则以上语句确定了上的模糊关系()()。)“”形式设的论域为,的论域为,的论域为,则以上语句确定了上的模糊关系()。在模糊控制中,用到最多的语句就是“”形式。模糊推理由于在实际应用中,很多问题具有模糊性,需要用模糊推理来解决模糊性问题。模糊推理有如下几种实现方法:()合成法()()真值限定法()直接法()精确值法()强度转移法删由于本文的研究采用了模糊推理的强度转移法,故对此法作详细介绍。由提出的强度转移法是目前控制模糊量有单调性是应用的方法,该法有简单、直观、容易理解等优点呻。所谓强度转移法,就是当控制系统有精确值输入时,精确值在条件语句的前件中所得到的语言变量值强度转移到后件的语言变量值去,从而得到推理结果的方法。考虑一般控制系统由两个输入,一个输出的情况。设输入量为,输出量为,并且它们的语言变量分别用,表示。哈尔滨工程大学硕士学位论文,),贮,)并且有:强度转移法的推理步骤如下:)求前件语言变量强度设有输入,是精确值。首先对每条条件语句前件求强度。对于第一条规则,则有,对,中语言变量值和的隶属度:(,()从而在的一条规则产生的强度为;()日(口)()同理有:)()口()国()()()()母(口)(口)()哈尔滨工程大学硕士学位论文)求推理结果由于强度转移法中,是把精确值对前件的作用强度转移到后件,并作为后件的模糊量隶属度,故有;对第一条条件语句的推理结果为誓()(一)同理,对第二条到第条条件语句,有推理结果:巧()()巧巧,)()(,)则最后有总的推理结果,分别得到后件对应的元素为:()从总的推理结果求输出的精确值一般用它的重心来表示输出的精确值:()()()通常,取为的隶属度值,取为的隶属度值,取为的隶属度值。并设,。为单调函数,孔分别为,。在隶属度为,时的推理结果元素。则可以求出如下:娶缚鍪芝磐:和。佳()“鲁。鲁“在上面式子中,要注意,是对应于语言变量的;这是因为虽然。,哈尔滨工程大学硕士学位论文的语言变量个数不同,但。的语言变量值;。从到顺序排列,故不管。,的语言变量是大于或等于小于,而条件语句中都会选用其中的个或重复选用某些语言变量共次。所以,上面的式子是以为序列标志,而对,不加以考虑。如果。,。,。不是单调的,那么,可以先求出其相应的中心元素,用重心元素取代式()中的推理结果元素,就可以求出输入的精确值。强化学习理论及算法简介强化学习介绍强化学习(,又称再励学习,评价学习)。是一种重要的机器学习方法,在智能控制、机器人及人工智能等领域有许多应用。强化学习目前己发展成为一个多学科交叉科学,包括运筹学、神经网络、心理学、控制工程等,是目前人工智能领域最为活跃的分支之一。强化学习围绕如何与环境交互进行学习的问题,在行动一评价的环境中获得知识,改进行动方案以适应环境达到预想的目的,这就是强化学习。学习者并不会被告知采取哪个动作,而只能通过尝试每一个动作自己来做出判断。试错搜索和延迟回报是强化学习的两个最显著的特征。它主要是依靠环境对所采取行为的反馈信息产生评价,并根据评价去指导以后的行动,使优良的行动得到加强,通过试探得到较优的行动策略来适应环境。强化学习的基本原理和模型强化学习的基本原理是:如果智能体的某个行为策略导致环境对智能体正的奖赏(),则智能体以后采取这个行为策略的趋势就会加强。哈尔滨工程大学硕士学位论文指出智能体为适应环境而采取的学习如果具有如下特征,则称为强化学习:智能体不是静止地、被动等待,而是主动对环境做出试探。强化学习是一种不同于监督学习和非监督学习方法的在线学习技术,强化学习系统与环境的关系如图所示。它把学习看作是一个试探评价的过程,首先强化学习系统(一般是一个智能体)感知环境状态,采取某一个动作作用于环境,;环境接受该动作后状态发生变化,同时给出一个强化信号(奖励或惩罚)反馈给强化学习系统,强化学习系统根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。图强化学习系统与环境的关系智能体在和环境交互时,在每一时刻会发生如下事件序列:)智能体感知当前的环境状态;)针对当前的状态和强化信息,智能体选择一动作执行;)当智能体所选择的动作作用于环境时,环境发生变化,即环境状态转移至一新状态并给出一奖赏(强化信号);)奖赏信号反馈给智能体。哈尔滨工程大学硕士学位论文强化学习的特点问题的确立是一个学科发展的重要且关键的一步,常常比问题求解方法的发现更为重要。学科的发展常以对已有问题的新的解答为重要标志,但重要的进展却常常是认识并确立了普遍且有重要意义的新问题。强化学习就是这样一个学科,这个学科的发生和发展的重要标志是年人们发现了这样一个重要的、普遍的、当时未得到重视的新问题:智能体通过与环境的交互作用来学习以实现某一目标。这个问题就是强化学习问题。强化学习的任务是寻找一条合适的策略,即告知智能体在某一给定环境下选择哪个动作的一系列规则的集合。强化学习这个学科并不是以学习算法的特征,而是以学习问题的特征来定义的。任何可用于解决疆化学习问题的方法都是强化学习方法。在传统的机器学习分类中没有提到过强化学习,而在连接主义中,把学习算法分为三种类型,即监督学习()。、非监督学习()和强化学习”。其中强化学习是在环境(外在单元)只提供一些指示,例如教练只跟运动员说这次的动作做的很不错或者很糟糕,而并不告知运动员正确的动作应该是怎样,完全由运动员自己去摸索,。强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(也即强化信号)函数值最大。强化学习不同于监督学习,主要表现在教师信号上,强化学习中由环境产生的强化信号是对产生的动作的好坏作的一种评价(通常是标量),而不是告诉强化学习系统如何去产生正确的动作。因为外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习,在行动一评价的环境中获得知识,改进行动策略以更哈尔滨工程大学硕士学位论文好地适应环境。强化学习系统的结构组成除了智能体和环境,一个强化学习系统还有四个主要组成要素:策略、奖赏函数、值函数以及环境的模型。策略()在强化学习系统中,最关键的部分就是策略模块,其主要功能是通过学习机制,更新内部知识,选择一个动作作用于环境。智能体的任务是产生控制动作,动作的选择是根据其策略的,一般而言,策略是指智能体在一个给定时间产生动作的方法,其定义如下。策略():描述针对状态集合中的每一个状态,智能体应完成动作集中的一个动作,策略:斗是一个从状态到动作的映射。关于任意状态所能选择的策略组成的集合,称为允许策略集合,。在允许策略集合中找出使问题具有最优效果的策略,称为最优策略。一定程度上,策略是强化学习智能体的核心,因为策略充分决定了智能体的行为,即告诉智能体在什么情况下采取什么动作()。一般来说,策略也可以是随机的()。奖赏函数()奖赏函数决定了强化学习问题中的目标。它是由状态(或状态一动作对)到一个奖赏信号的映射,可记为()或(,)。奖赏信号是对产生的动作的好坏作一种评价,奖赏信号通常是一个标量,例如用一个正数表示奖,而用负数表示罚,一般来说正数越大表示奖的越多,负数越小表示罚的越多。强化学习的目的就是使智能体最终得到的总的奖赏值达到最大。奖赏函数往哈尔滨工程大学硕士学位论文往是确定的、客观的,为策略的选择提供依据,即告诉智能体选择什么动作是好的()。值函数()奖赏函数是对一个状态(动作)的即时的评价,而值函数则是从长远的角度来考虑一个状态(或状态一动作对)的好坏。值函数又称为评价函数。状态,的值,是指智能体从状态,开始执行动作及采取后续策略直到最后达到目标,期间所得到的累计奖赏的期望,记为(,)。例如,将(,)定义为所有将来奖赏值通过衰减率(,)作用后的总和。()五。以:,。墨砘。(。)()其中,(。,口,)为时刻的奖赏。对于任一策略【,定义值函数为无限时域累计折扣奖赏的期望值,即驰)乓(耖冲。)伢;其中,和马分别表示在时刻的立即奖赏和状态,折扣系数,(,)使得邻近的奖赏比未来的奖赏更重要。函数是另一种评价函数。在某些时候,记录状态动作对的值比只记录状态的值更有用,把状态一动作对的值称为值。函数:(,)表示在状态执行动作,及采取后续策略的折扣奖赏哈尔滨工程大学硕士学位论文和的期望。可以看出,状态值(值)是对奖赏的一种预测估计,对于一个状态,如果它的奖赏值低,并不意味着它的状态值(值)就低,因为如果的后续状态产生较高的奖赏,仍然可以得到较高的状态值(值)。估计值函数的目的是得到更多的奖赏,然而动作的选择主要是基于状态值(值)判断的。也就是说,智能体选择这样一个动作,以使产生的新状态具有最高状态值,而不是转移到新状态时有最高的即时奖赏,因为从长远来看,这些动作将产生最多的奖赏。然而,确定值函数要比确定奖赏难得多,因为奖赏往往由环境直接给定,而状态值(值)则是由智能体在其整个生命周期内通过一系列的观察,不断地估计得出来的。事实上,绝大部分强化学习算法的研究就是针对如何有效快速的估计值函数。因此,值函数是强化学习方法的关键。环境的模型环境的模型是某些强化学习系统的另一个元素,并不是所有的强化学习系统都需要建立环境的模型。环境的模型,用形象化的描述,就是环境的行为方式。比方说,给定一个状态和动作,模型将会预测出下一个状态和奖赏。利用环境的模型,智能体在作决策的同时能够考虑未来可能的状态,进行规划。早期的强化学习主要是一种试错学习,与规划是大相径庭的。将模型与规划引入强化学习系统是强化学习的一个较新的发展,使得强化学习方法与动态规划的方法紧密的联系起来了。强化学习将试错学习和规划都看成获得经验的一个过程。哈尔滨工程大学硕士学位论文强化学习的主要算法强化学习的目的强化学习算法的目的是寻找一个策略,以使每个状态的值()(或()的值都同时达到最大。即:设法找出一个策略兀:斗,能够最大化每个状态的值。矿()心。)()(以口)轨,一。咒口。球)()对于任何其他策略万。,都有矿()“(),状态为状态集中的任意状态。此时策略,为最优策略万,而矿。()为最优值函数()。在强化学习中,估计值函数(或”对,有三种动作选择方式来解决学习过程中探索()和利用()的平衡问题:)贪心动作选择()策略)一贪心动作选择()策略)方法策略总是选择值最高的动作,即霈。()(,口);占一策略方法是在小概率的范围内独立于值随机选择动作,而在概率卜占的范围内,选择值最高的动作;方法是根据各动作的值权重比来选择动作,通常只要一个及即可实现。在该方法中,值越高的动作因为所占权重比也越大,故其被选择的机会也越大。哈尔滨工程大学硕士学位论文所有强化学习算法的机制都是基于值函数与策略之间的相互作用。利用值函数可以改善策略,而利用对策略的评价又可以进行值函数的学习,改进值函数。强化学习就是在这种交互过程中,逐步得到最优的值函数和最优策略。强化学习的主要算法强化学习的基本方法有三种:法,法,学习方法。法最著名的用于解决时间信度分配问题的方法就是由于年提出的瞬时差分方法。设观测数据为柏,其中每个而是在时刻得到的观测向量,是最终的结果,对每个观测一结果序列,相应的预测序列为(),(),(),烈),其中(都是的估计,然后利用相继时间预测值的差值作为系统的误差修改参数。当两次预测的值为同一结果时,产生这个结果的可能将加强,否贝产生这个结果的可能将减弱。法算法主要由输入模块、随机动作选择模块、联想搜索网络以及自适应评判网络组成。口学习法一学习是由提出的强化学习中应用较为广泛的一种方法,也对一学习方法在定条件下的收敛性进行了证明。设环境是一个有限状态的离散马尔科夫过程,每步可在有限动作集合中选取某一动作,环境接受该动作后状态发生转移,同时结出评价环境状态以如下概率变化到冀,如式():哈尔滨工程大学硕士学位论文,口。,】()面临的任务是决定一个最优策略,使得总的折扣奖励信号期望值最大。在策略的作用下,状态最的值如():(,)(石(,),口,(,)()动态规划理论保证至少有一个策略,使得式()成立:哪扣学卜。,)一耳学习的任务即是决定。而一学习的思想是不去估计环境模型,而直接优化一个可迭代计算的函数。定义函数为在最时执行鼬且此后按最优动作序列执行时的折扣累计强化值,如式():,口,)(,)口,)()值的调整方法如式():(一一。,)】口,口。)()以)式中:一一学习率,控制学习速度一对。)的折扣系数(。)定义如式():。)墨娩。,口)()这样便不用建立环境状态模型,而只用函数的迭代计算得到一种优化策略。哈尔滨工程大学硕士学位论文等人证明了一学习的收敛条件为:()环境是马尔科夫过程;()用查找表表示函数;()每个状态一动作对可无限次的被重复;()学习速度的正确选择。本章小节本章主要对后面两章所设计的基于模糊理论的局部路径规划器与基于模糊理论与强化学习的局部路径规划器所需要的理论知识进行了简要介绍。首先介绍了模糊理论的基本内容,主要包括模糊集合的定义,隶属函数的确定,模糊语言与模糊变量等;接下来讨论了强化学习的原理和基本模型,介绍了强化学习系统的四个主要组成部分,然后,详细讨论了强化学习的几种基本算法。哈尔滨工程大学硕士学位论文第章基于模糊理论的局部路径规划器设计模糊控制系统的组成模糊控制系统和常规控制系统的最主要区别在于控制器。基本模糊控制器的结构如图所示。输矗靠靼入量模糊控制器图基本模糊控制器的结构模糊化:作用是将输入的精确量转换成模糊化量。输入量包括外界的参考输入、系统的输出或状态等。知识库:包含了具体应用领域中的目标和要求的控制目标。通常由数据库和模糊控制规则库两部分组成。数据库主要包括各语言变量的隶属函数,尺度变换因子以及模糊空间的分级数等。规则库包括了用模糊语言变量表示的一系列控制规则。它们反映了控制专家的经验和知识。模糊推理:是模糊控制器的核心,它具有模拟人的基于模糊概念的推理能力。该推理过程是基于模糊逻辑中的蕴含关系及推理规则来进行的。反模糊化:作用是将模糊推理所得到的控制量(模糊量)变换为实际用于控制的精确量。堕玺董三墨盔堂堡主兰壁堡塞模糊控制本身存在的理论问题水下机器人的信息获取主要通过传感器,模糊控制器为多传感器数据信息融合提供了一种可靠的机制。目前,几乎全部模糊控制系统都采用“伊”形式的控制规则。以往,这些规则的归纳及隶属函数的确定都是紧密依赖于专家的经验和知识。实践表明,这种模糊控制器对某些复杂或难于精确定义的系统具有良好的适用性,但由于模糊理论本身还有待于完善,模糊控制的实现过程存在如下困难和问题:)隶属函数难以确定。)经验的获取有时会遇到困难,且控制规则难以正确归纳。)模糊推理合成及模糊判决运算量大,且运算过程中丢失了许多信息。)模糊控制闭环系统没有统一的数学方法来描述。由于上述缺陷计算出来的控制表不能直接利用,必须在调试阶段对控制表进行调整和对比例因子等进行整定。这项工作是十分费力费时的,由于时间限制和调试时所处环境诸因素的影响,调整后控制系统也难尽人意。基于模糊理论的水下机器人局部路径规划器的设计规划器的结构图水下机器人实时运动模糊规划器哈尔滨工程大学硕士学位论文水下机器人在完全未知的环境下运行,仅仅知道出发点和目标点。在由出发点到目标点的运动过程中,机器人只能通过自身对环境的感知,来建立环境的模型,并且通过不断的试验、观察和推测来获得更新知识的能力。机器人只能依靠与环境的不断交互来获取知识,即只有通过不断的学习,反复调整环境模型及自身的模型,从而完善自身的适应能力,并最终实现在未知环境中运行。简单地讲,就是以实际运行中探测到的各种信息为依据,通过学习得到的控制经验来给出机器人下一步的行动决策,并将决
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学历类自考专业(法律)民法学-法理学参考题库含答案解析
- 2025年学历类自考专业(法律)民事诉讼法学-公司法参考题库含答案解析
- 2025年学历类自考专业(法律)合同法-环境与资源保护法参考题库含答案解析
- 异业联盟合作中的利益分配机制研究考核试卷
- 2025年初入教育行业必-备教师岗位面试模拟题答案
- 互联网医疗对医疗差错预防的作用评估考核试卷
- 乐器批发市场客户需求与乐器维修服务分析考核试卷
- 2025年猪肉行业招聘考试高频考点模拟题集
- 旅行者个人技能提升准备考核试卷
- 2025年学历类自考专业(护理)社区护理学(一)-妇产科护理学(一)参考题库含答案解析
- 制造技术部工作总结报告
- 临时彩钢围搭设施工方案
- 储能站施工组织设计施工技术方案(技术标)
- DB11-T 1947-2021 国土空间分区规划计算机辅助制图标准
- 2024年统编版七年级道德与法制上册全册教案汇编(含26个教案)
- 教培机构培训资料如何上好第一次课
- 洗煤厂安全知识培训课件
- 合同制合同范例
- 2024年司法考试刑法真题及答案
- 《隔离技术规范》课件
- 《云南省学校安全条例(修订草案)》知识培训
评论
0/150
提交评论