已阅读5页,还剩121页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士学位论文基于示范的移动机器人导航技术姓名:刘年庆申请学位级别:硕士专业:模式识别与智能系统指导教师:陈宗海20050401中国科学技术大学硕士学位论文,:,:,:,;,;,:,中国科学技术大学硕士学位论文致谢致谢在我写硕士毕业论文的过程中,周围有很多人支持我帮助我,我非常感谢他们对我的论文工作所做出的无私奉献。首先,我要对我的导师陈宗海教授表达我最深情的谢意。在我的研究生学习阶段,他始终给予我最耐心的指导与支持。在这期间,从他那里所学到的知识和他对我的帮助都使我受益匪浅。感谢他带我进入机器人领域。在这个多彩的世界中开阔了我的眼界,他的关怀、热情和无私奉献的精神始终鼓舞着我。同时,我还要感谢实验室的兄弟姐妹们是他们的想法和建议帮助我完成了论文的终稿。特别的我要感谢胡社教老师和陈锋老师在这几年中对我在学习、生活和工作方面的指导。衷心地感谢周光明师兄对我不断地支持以及在我写论文过程中对我的帮助。我还要感谢实验室每位成员所创造的开心、友善和勇于进取地氛围,在实验室这几年的学习生活是我最宝贵的经验。我最真诚的谢意要送给卓睿、张陈斌、贾梦雷和方伟,他们与我共同经历了研究生阶段的各种考验,从研一的专业课学习到研二的文献整理,一直到研三找工作和做毕业论文。他们的陪伴使我的研究生生活变得丰富多彩。感谢文锋师兄、陈春林师兄、任皴师姐、董道毅师兄和陈会勇师兄在实验室教我做的每件事情他们总是耐心的解答我提出的各种问题。将我最特别的感谢送给我内心最深处的人,将我最深切的爱和感激献给我的父母。他们是世界上最伟大的父母,他们对我的爱、对我的关怀以及为了我所做出的牺牲都让我无以回报。中冈科学技术人学删卜学位论文第一章绪论第一章绪论本章介绍了全文的主要内容以及在通过示范使机器人增加学习和互动能力方面所做的贡献,讨论了研究过程中遇到的主要难题,并给出了相应的解决方案。另外,本章还简述了学习任务的方法,并介绍了分层式抽象行为结构。这个结构利用嵌入式行为的描述将示范转变为任务知识,最后给出了一种利用多超声波信息对环境进行精确建模的方法。机器人学的一个主要目标是使机器人最终被应用于真实的世界中,在工作中帮助人们,在有危险或者人类无法到达的环境中代替人们完成工作。近年来在自主机器人设计方面的进步使我离这个目标越来越近了。本文在类人机器人领域中提出了一个使机器人与人进行交流的框架,并使他们从示范中学习完成新的导航任务,使机器人具有新的学习、自主控制和交互能力,并增加了他们在动态不可预知环境中的应变能力。在不久的将来,机器人不仅可以独立完成任务,也可以组队与其他机器人或人共同完成任务。现在的机器人具有越来越多的用途,比如博物馆里的导航员或者机器宠物等。在不久的将来,他们还可能成为有感情的朋友用于建立新型的社会关系。一般通过人们对机器人进行专门的编程来实现这些不同类型的任务,这是一个非常复杂的过程,因为对于不同类型的任务需要手动创建新的不同的控制器。机器人所要面临的情况之多和所要完成的任务之广使碍对机器人的编程变得十分困难,要对各行各业的所有工作进行预先编程是不可行的。如果机器人能通过与使用者进行灵活而简单的互动来学习使用者的经验技术,完成不同的工作,将会艮有发展前途。随着机器人应用领域的不断推广,越来越多的人成为了潜在的机器人片】户,由于他们并不具备专业的机器人编程技术,所以研发出套适用于所有用户的机器人控制设计系统将会有很大的市场价值。本文所提出的任务目标就是使机器人具备学习任务的能力,并应用于导航领域,使机器人能自动学习人们的导航技术,从而进步完善自主智能机器人的导航系统。因此个很自然的想法就是使机器人通过教师的示范来学习特定的导航任务,这增加了机器人与人互动的能力,从而使用户从手动编写控制器的繁重任务中解脱出来。下面一节将更详细的介绍在通过示范教授机器人方面使存在的主要问题和本文所要实现的目标。动机和目标通过示范教机器人基于示范的学习是通过示范的作用,将技术知识从专家教师转移到学习者。尽管乍一着这个问题很简单(有什么比重复别人做过的事情还难的呢?),但是通过示范来教授机器人却面临许多难题:机器人的感知能力有限,而且与人的感知能力不同,通过对机器人进行什么样的示范才能最大化的传输知识?机器人的构造与人不同,在教师行为与机器人自身运动传感器之间怎样才能建立映射荚系?中国科学技术大学硕士学位论文第一章绪论学习是增量式的,这就是说如果已经存在适当的基础,就可以进步学习到技术和知识,机器人能学到什么或者学习它需要什么样的能力?下面的章节将详细的探讨这些问题,并给出了一个能解决这些问题的方法。机器人的感知能力列于使用基于示范学习系统的机器人来说,机器人对示范的理解能力是个关键部分,根据机器人传感器能力复杂程度的不同,可以使用不同的方法。基于观察技巧的学习,学习者依靠被动地观察教师的工作情况来尝试再现所观察到的行为。他们在大多数情况下是用照相机采集环境信息,这需要用到复杂的电脑视觉技术去解释教师的行为。基于示范的学习方法要求机器人主动参与到示范过程中来,在跟着教师执行任务过程中,用自身的传感器来感知这个任务。对不同特性的机器人要采用不同的示范方式:对于类人机器人一般采用摇操作或者虚拟现实来实现,在移动机器人领域中,最典型的方法是跟随教师。机器人在基于观察的学习中所面临的最大考验是怎样正确地理解教师的示范。因为在大多数真实环境中,都存在观察不全面和噪声的问题。学习者必须能阐述所观察到的东西,并将他们与自己的能力匹配,而且还要考虑到自身结构与教师的差异性。在本文中:我们将机器人所经历的示范作为任务知识从教师转移到机器人的桥梁。机器人的学习能力除了特殊的示范以外,所有的方法都应该解决机器人要学习什么这个问题。如果目的是让机器人学习特定的移动序列(比如:从起点沿直线到达终点),那么重现教师示范的轨迹就够了。这是在基于机器人执彳亍过程中环境不发生变化的前提下进行的。但是在大多数情况下,机器人所要学习的任务依赖井受环境的影响。在学习“穿越”的能力时比如进个门,如果机器人只记录了示范过程中的精确轨迹它将不能在另一个位置上穿过这个门。这个问题主要是由于机器人没有对任务标进行高层描述造成的。在这个例子中,主要目的是要通过一个门,而不管这个门在什么位置上不是遵循特定的移动轨迹。在本文中:我们关注学习高级任务的描述,而不是精确的教师轨迹。机器人所能学习的任务复杂程度也是在设计学习方法时要考虑的一个重要问题。在描述任务时,两个重要的复杂因素是:序列的编码和采集的间隔。关于序列,一种方法是用反应式策略()(如:迷宫导航,但是它没有一个明确的排序能力,只能将环境情况与机器人的行为进行直接匹配。与之相对的是顺序执行任务(如:装配任务),对步骤的序列进行精确的编码。在它们之间的方法是对机器人与环境的相互作用得到序列进行编码并执行,并能对序列进行精确的描述。这些类型的任务都可以由低级行为(如:向右转度)到高级复杂的行为(如:跟踪,进门)所构成。从以上的讨论来看,任务的复杂程度是随着序列的约束和高级组件的使用而增加的。在本文中:我们的目的是使机器人具有学习复杂任务的能力。中国科学技术大学硕士学位论文第一章绪论机器人应具备的知识如前文所述,复杂的任务可以通过对已有的简单控制组件进行复杂的组合来学习。一般来说,用高级技巧比用低级命令更容易学习到复杂的任务。基于示范的方法多数都是尝试在机器人没有任何预备能力的情况下教机器人完成任务。让机器人根据一个新学的能力直接学习一个复杂的任务是很困难的,由于机器既要学习必要的组成模块,又要学习怎样用这些模块来表达更杂的结构。这限制了这个方法学习更复杂任务的能力。在辅助用户的机器人领域中,如果需要用户教机器人所有所需的基本技能,那么这种机器人是没有实际用途的。因此,让机器人具备套能完成基本任务的技能是十分必要的。用户只需要教机器人怎样使用和结合他们的特定要求就可以了。在本文中:我们假设机器人已经具备了一套能完成基本任务的能力。通过以上的讨论,我们可将本文的目标描述如下:基于机器人已有的潜在能力(行为),研发一个使机器人通过自身传感器来经历示范并学习对任务进行高级描述的机制。基于示范学习的任务描述机器人的控制结构殴计系统时应考虑的一个非常重要的问题是决定用什么类型的控制结构,这在很大程度上取决于机器人所要工作的领域、任务的特性以及机器人所具备的能力。我们认为一个合理的控制结构应该具备以下主要特征:模块性:我们的目标是在机器人现有的能力下,研发一个灵活自主的机器人控制器,将这些技能封装在模块里可以组成更复杂的结构。已有模块的复用哇:由于机器人做不同的工作要用到不同的技巧,所以组件模块应不需要用户来制定或通过任务来设计,它们应该按照模块最大复用性来设计。支持学习:既然我们的目标是从教师的示范中研发出一个学习任务描述的方法那么机器人控制结构就应该能从训练过程所收集的观察中自动的构建这神描述,鲁棒性和实时响应性:当机器人在执行任务的过程中,特别是在动态地环境中,比如在人群里,机器人要能对周围的突发事件做出响应。对复杂任务的描述和编码能力:由于我们致力于设计一个学习复杂的任务的方法,因此控制结构应具备对必要描述的编码能力。基于行为的控制()是一个有效的机器人控制方法,它具有模块性、鲁棒性和实时性的特征,可以为机器人的工作创建一个量好的基础,但是它在其他方面的能力有限。本文提出了一个基于行为的分层式结构来对基于行为的控制进行扩展,它具有行为复用性、学习和描述复杂任务的能力。这个结构执行和学习任务时,采用嵌入式行为的描述,这意味着机器人不仅通过观察,还通过动作的执行来学习和描述任务。在第三章将会对这个学习过程做更具体的介绍;中国科学技术大学硕士学位论文第一章绪论基于行为的控制在研究和实际应用领域中,基于行为的控制己成为嵌入式控制系统中所使用的越来越酱遍的方法。基于行为的系统采用同步执行的方法,它一面从传感器或别的行为中采集信息,一面发送指令到执行器,这个过程被称为行为,描述了达到或者维持某种特定目标的行动,是构成复杂智能行为的基础。在基于行为的系统中应遵循的一个重要的原则是建立与执行间隔尺度相匹配的行为。如果既用慢速行为又用快速行为,会使系统在时间尺度上混乱,导致不能维持基于行为的控制系统实时响应的特性。由于基于行为的系统中缺乏抽象行为描述,使他们无法应用于更高级的规划中,所以基于行为的系统还有待于开发和扩展它的全部能力。我们所要寻找的是一个能学习一般任务的描述方法,能按顺序激活机器人的行为。在本文中我们研发了一套能够先进行描述,再执行这个序列的机制。基于行为的系统的另一个局限是对不同的任务都要进行手动设计,缺乏抽象描述阻碍了基于行为系统的自动产生。我们的目标是有效的利用行为的鲁棒性和实时性,研发一个能自动产生基于行为系统的行为的描述并支持多任务中(至少在一个相关任务里)的行为复用,从而避免当转换到不同任务时的任务重定义甚至重编码。在下一节中,我们将介绍为扩展基于行为的控制系统而研发的分层式抽象行为结构,并解决以上的局限性。基于行为的分层式抽象结构一个基于行为的分层式抽象行为结构允许根据行为网络构建复杂的任务的描述。在这个结构中,行为由两部分组成:一部分与感知有关,一部分与动作有关。感知部分称为抽象行为,它封装了行为的前置条件和行为的目标信息。动作部分成为基本行为,在特定条件下完成具体任务。抽象行为是网络描述的基础,他们之间的联系描述了特定任务的前置条件与效果之间的关系。在所生成的网络里,行为的激活不仅依靠自身的条件(特定的环境状态),还依赖于与它相关的前一个行为的效果。这些连接用一个简单自然的方法描述了复杂的行为序列,而且利用连接作为具体任务的激活条件促进了行为的复用,并对学习高级任务描述提供了所需要的灵活性。这个结构也允许构建分层描述:描述任务的整个网络可以根据抽象行为网络被抽象为更高级的组件,井进一步结合来描述更复杂的任务。第三章将详细的讨论这个结构及其组成部分。通过多种形式进行示范学习中国科学技术大学硕士学位论文第一章绪论人们之间学习各种任务是一个复杂的过程,不论是学生还是教师,都需要依靠多种交流和学习手段,比如示范、口述讲解、暗示或手势等。这些方式共同作用就可以产生有效的教学方法。但是机器人只能依靠这些交流手段中的一种或少数的几种。在教机器人时,一般先给它一个典型的任务示范,然后让它在教师的监督下完成一系列实验来检验学习到了什么。在执行过程中,教师会提供反馈来指明修正量(与任务无关的行为或者遗漏的任务部分)。而且,教师也可以提供更多的示范供学习者来归纳任务描述。这些方面在机器人的教学中经常被忽视了,我们考虑了这些问题,显著地改进了学习过程,并且传递了更多的任务信息,同时也验证了一种更加灵活的教学方法。图从示范和教师反馈中学习和改善任务描述本文提出了一种利用多模式来学习描述高级任务的方法,这与人们在相互教学中所使用的方法类似。图给出了我们学习和改善任务描述的整体策略。这个策略的灵活性在于教师可以根据机器人当时的执行情况来调整他的教学方案:在第一次示范后,既可以提供更多的训练样例,也可以通过监督机器人的执行过程来给出反馈。我们的实验表明,使用各种示范和反馈的组合都可以得到很好的结果。本文的主要内容是:使机器人利用多种示范、实践实验和反馈的方式来学习和改善对复杂任务的高级描述。下面的章节将简要的介绍我们研究方法中的一次性学习和通过实践反馈来改善任务的作明。一次性学习从示范中学习任务时,机器人必须能从环境中采集观察信息,并将他们与自身行为之间建立联系。这个联系是通过我们的基本行为结构实现的:感知组件使每次的观察结果匹配一个基本目标。机器人参与示范以后,可以通过自身传感器采集的信息调整它的行为(通过他们的参数),如果使手动设计,则必须在程序中预先设定参数。在任务中的观察给出了行为序列的一般信息,使人们从繁琐的序列编码中解脱出来。中国科学技术大学硕士学位论文第一章绪论通过实践改善所学任务我们的行为机制也存在局限性,那就是当不断的观察到不必要的任务步骤时,会将这个错误步骤编入任务描述:或者当机器人连续的漏掉任务中的一个有关部分时,它无法察觉这种情况。为了解决这个问题,本文提出了监督实践的方法,根据监督机器人执行情况,教师可以提出反馈来说明哪里出现了问题。这个方法的优点是教师并不需要了解机器人的具体构造也不用知道学习任务怎样编码,就能提供有效的指导,对机器人运行情况的一个简单观察就足以能说明机器人学到了什么。因此,当教师发现机器人在执行不必要的步骤或机器人跳过了必要的任务步骤时,可以及时的给出反馈。第五章详细介绍了实践和教师的反馈是怎样改善任务描述的。论文提纲本文余下部分组织如下:第一章:绪论介绍知识转移、类人机器人交互领域的前沿知识和使用的嵌入式行为描述的动机,第二章:学习方法及任务描述提供了这个领域前人的相关工作的回顾。第三章分层式抽象行为结构给出了我们的行为结构在执行复杂任务中的作用,描述了与教师互动和构建任务描述的过程并给出实验验证机器人的学习能力。第四章基于示范的学习介绍示范过程和观察中应注意的主要问题,以及从观察中建立任务描述,并给出了实验验证通过示范来教机器人导航技术的方法。第五章基于实践和反馈的学习改进通过实践和反馈来改善学习的效果,去除与任务无关的学习步骤,并重新学习导航任,务中所遗漏的部分。第六章基于多超声传感器的环境建模通过分析相邻多个超声波传感器测量数据间的相互关系以及环境特征的相关信息,用线段匹配实现对探测环境的建模。第七章总结对所做:作进行总结,并对未来工作进亍展望。中国科学技术大学颈上学位论文第二章学习方法及任务描述第二章学习方法及任务描述本章给出了机器人学习和人工智能等领域相关工作的回顾。首先列举了几个最有代表性的移动机器人控制结构的例子,然后讨论了当前对任务描述进行编码的方法,分析了常用的任务学习策略,并介绍了基于多示范学习的技术。前一章已经介绍了本文的目的,就是在不需要编程技术和机器人知识的前提下,通过示范来转移复杂的任务知识。还介绍了大量与设计方案相关的问题:控制结构的选择,任务描述的学习,示范的方法、通过反馈和实践改善任务学习的能力。机器人控制结构的描述如前一章所述,有很多因素会影响到基于示范的机器人控制结构的选择,比如模块性、组件复用性、实时性、对复杂任务描述的编码能力和对学习所能提供的支持。本章给出了一些最具代表性的机器人控制方法,井介绍了分层顺序执行控制结构,因为它与本文所提出的分层式抽象行为结构有相似部分。反应式系统反应式系统中的控制是由机器人传感器和它的效应器构成的闭环能对变化的和非结构化的环境做出快速的响应。这个方法并不能使机器人具有记忆、维持状态和构建内部环境描述的功能,因此它只能应用于一些相对简单的问题。这类系统的特征总结在表中,下面将进行更详细的讨论。表反应式系统特征总结描述没有任务执行和描述程度简单(反应式规则)鲁棒性和实时响应性非常好模块性部分复用性部分对学习的支持只有反应式策略对复杂任务描述的编码能力:在反应式系统中,只能在所有嵌入式反应规则中查找当前的环境状态,这使得这个系统不适用于需要使用内部模块或需要记忆的复杂任务。反应式系统进行规则收集时,将特定的情况对应特定的行为,这些系统有两种组建方式:平面式:如果耍感知的环境可以被分解为相互独立且唯一的情况,对于一个给定的环境只触发种行为则系统可以按照状态空间与行为空间一对一的方式构建。分层式:如果对于一个给定的情况,触发了一个以上的行为,那么行为的优先级决定了执亍的先后顺序。这些优先级可以在设计时预先设定,也可以动态设定或边学边设定。具有代表性的反应式结构的例子有通用规划,电路语义符号系统和程序等。在反应式系统中,没有明确的序列描述,他们的序列和智能行为都是在机器人与环境动态的交互中产生的,这是限制反应式系统只能完成相对简单任务的另外一个原因。中国科学技术大学硕士学位论文第二章学习方法及任务描述鲁棒性和实时响应性:如上所述,反应式系统最重要的特征是他们能对动态和非结构化环境做出快速响应,这使他们在真实环境中有很好的鲁棒性,能处理不需要复杂推理能力就能解决的问题模块性:根据执行的特殊性,反应式系统可由模块构建,但是多数还是由低级行为构建的。因此,反应式框架既支持组件控制器,又支持非组件控制器。复用性:系统各部分的复用程度是由执行的具体情况决定的,只有重新设计通用规划或程序时,规划和模块才可能被复用。对学习的支持:反应式系统提供对学习的支持,但是由于在任务描述上的限制,学习只能用反应式策略。考虑到以上方面,虽然反应式系统具有很好的实时响应和鲁棒特性,但是他们在任务描述和学习上的局限使得他们无法满足我们所提出的要求。慎思式系统慎恩式系统中的控制主要是利用传感器所能获得的信息和存贮的知识来推断应采取什么行动。通常传感器用于构建一个内部环境模型,然后再规划出一个能达到指定目标的路径。虽然这个结构能使机器人根据模型产生一个复杂的行为序列但是它只适用于变化不大的环境。真实环境和不可预知的环境需要不断地更新内部环境模型并重新规划,这是很费时的。嵌总结了在我们评价标准下慎思式系统的特性,下面将进行更详细地讨论。表慎思式系统特征总结描述有任务执行和描述程度复杂(规划)鲁棒性和实时响应性低模块性有复用性有对学习的支持条件结果操作和规划存储对复杂任务描述的编码能力:与反应式系统相比,慎思式系统广泛的使用了内部环境描述,因那此他们需要知道全部环境模型才能推理出下一步应采取什么行动。环境模型是预先设定的或者由传感器信息构建的,使机器人能推算各种情况下的行动所产生的后果。因此,除了与任务相关的知识以外,这些模型对于构建一个能完成目标的规划来说是必不可少的。慎思式系统可以对复杂行为序列进行描述,并能推理和描述出达到目标的可行路径。在典型的滇思式方法中,一旦构建了计划,它就一步一步地执行,直到到达目标为止。然而,多数的真实环境是动态的,导致环境模型频繁改变致使计划作废。解决这个问题的办法有定时重新规划,监测和增加规划存储。鲁棒性和实时响应性:既然当环境突然发生改变时,环境模型的更新和重新规划都是一个费时的过程,那么机器人就不能在短时间内找到一个可执行的行为,不能做出实时响应是降低系统鲁棒性的一个重要因素。模块性:中国科学技术大学硕士学位论文第二章学习方法及任务描述慎思式系统中的掏建模块多数是高级的州符号表示的操作,并有明确定义的前置条件和后置条件,这些操作使任务分级的分解,产生了模块任务描述。复性:在某种意义上说,操作模块可以完全被前置条件和后置条件所表示,因此他们可以很容易的被其它任务复用。对学习的支持:慎思式系统的主要研究内容是:规划控制器,改善操作器川,操作器预处理【“,程序规划知识和从经验中学习规划。因此,虽然慎思式系统提供了对复杂任务序列的构建和描述,但是他们的实时性和鲁捧性都使他们无法应用于有噪声、动态的环境中。混合式系统反应式和慎思式系统在执行过程中既有优点又有缺点。反应式系统可以对未知环境做出响席,但只能应用于相对简单的任务。慎思式系统可以构建和执行复杂的规划,但对于很多真实环境却不能实现。在机器人控制中,最常用的融合反应式和慎思式系统的方法是混合式系统,它既用慎思层又用反应层。慎思式组件依靠内部描述推理出到达目标的可行路径反应式组件处理机器人的紧急需求,可以在短时间内做出响应。为了能在两层之间提供一个自然的交互,混合式系统需要一个中间层来解决两层问的冲突和不同的描述。构建中间层需要处理两层间复杂的交互,这是混合式系统设计中的最大难题。在表。中我们给出了混合式系统各种特性的总结,下面将进行更详细的讨论。表混合式系统特征总结描述有任务执行和描述程度规划和反应规则鲁棒性和实时响应性好模块性有复用性部分对学习的支持条件,结果操作和规划存储对复杂任务描述的编码能力:与慎思式系统相似,混合式系统通过慎思式组件广泛地利用了内部环境模型并存储知识它门需要这些信息来推理到达目标的可行路径,混合式系统将慎思式丰富的描述与反应式简洁的模型楣结合。在执行时需要系统中间层来调解慎思层与反应层的控制组件,从而避免潜在的冲突。混合式系统有多种设计方法:用一个规划器给反应式系统发出命令这个系统选择使用或者忽略这个命令。”提出了一个混合式策略,它融合了一个符号慎思层和一个反应式控制器作为执行时的行为选择器。其它经典的混合式结构有,川,和离散事件系统)删!州。鲁棒性和实时响应性:中国科学技术大学硕士学位论文第二章学习方法及任务描述混合式系统的反应式组件可以使机器人对环境中的紧急变化做出响应。比慎思式系统的鲁棒性能要好。否则,反应时间可能比反应式系统要长,因为反应层(对突发变化做出响应)和慎思层(尝试完成任务)的策略可能会产生冲突。模块性:混台式系统从它的反应层和慎思层中继承了他们的模块特性。在符号层里,描述是由抽象操作构成的,它允许将任务进行模块化和分层分解。在反应层中,也能用模块化的设计。复用性:与慎思式系统相似,高层组件可以不经任何修改而复用。在低层,由所选择的操作来决定是否复用组件。对学习的支持:混合式系统既可以用反应式的学习技巧也可以用慎思式的学习技巧。【描述了一个混合式结构,它能够学习智能体的行为效果,这个结构也可以用于构建更可靠的规划。到目前为止在我们分析的移动机器人结构中,混合式系统对我们的要求提供了最好的支持。但是,使用这类系统的缺点是中间层设计复杂,合理的协调两个不同的控制层很困难。在后面中我们将更详细的讨论混合式系统,并将这些系统与基于行为的控制做一个比较。基于行为的系统基于行为的系统是一种受生物学启发,能在复杂动态环境中进行控制的方法,因此最适用于非结构化的真实环境。他们由目标获取模块构成,并能持续地并行执行,有维持状态和拘建描述的能力。但是,通过行为结构对这些描述进行有效的分类很困难,也是至今为止为什么多数的基于行为的系统没有使用复杂描述的原因。在表中,我们总结了在我们评价标准下的基于行为系统的特征后面将更详细的进行讨论。表基于行为的系统特征总结描述能力未被充分利用任务执行和描述程度相对简单鲁棒性和实时响应性非常好模块性有、复用性部分对学习的支持能力未被充分利用对复杂任务描述的编码能力:基于行为的系统具有存储状态和互相交流的行为能力,使得他们能够构建环境模型,由于描述的构建过程很复杂,所以这个能力未被充分利用,但也不影响基于行为的系统使用这种描述。较早的完成了一个嵌入式描述,并成功的将慎思式组件融入到基于行为的系统中。并应用于导航系统进行环境建模和路径规划。基于行为的系统中描述的局限性影响了系统可执行任务的复杂程度。一般来说,行为要利用内部的反应式条件,这使得他们不适用于有复杂的序列任务。有许多方法能解决行为激活的问题,也称行为选择闷题。”描述了一个动态行为中国科学技术大学硕上学位论文第二章学习方法及任务描述选择机制,这是基于给定行为指令表所产生的网络来激活行为的。】和用一个选择方法来进行行为裁定。在这种情况下,虽然行为是并行执行的,在同一时间内,会有多个行为产生输出,但是他服从一个优先权顺序表,最后由这个表来选出要执行的行为,将其输出传送给执行元件。其它的行为选择机制包括基于融合的方法,这种方法将各种行为的输出混合在一起作为一条新的执行器命令:选举机制选择有最高得票的行为。更详细的行为选择策略可参见“。鲁棒性和实时响应性:由于行为是快速的过程,与机器人的传感器和效应器直接相连,他们能使系统实时响应环境中的变化。这也增加了系统的鲁棒性,因为环境中的任何变化都能被立即处理机器人能够对突发事件马上做出判断。模块性:基于行为的系统的组件是按照从下到上的方式构建模块的,使简单模块逐渐具备复杂的能力。复用性:一般来说,为了设计基于行为的控制器,要制定能捕捉任务特征的行为激活条件,即使任务的基本过程相同,要对任务中不同的行为进行复用也需要不断的改变行为和编码。对学习的支持:虽然太多数基于行为系统的学习方法都注重学习策略,但是这些系统仍然有能力学习更复杂的任务描述。对以上基于行为系统特征的分析表明,虽然他们能对学习、行为复用提供全面支持,并有对复杂任务描述进行编码的能力。但他们还有很多未被充分利用的潜在能力。基于行为的系统与混合式系统有着相似的能力,又有各自的特点。两个系统都具有相同的描述和计算能力:混合式系统利用环境模型来检索技巧去规划和预测未来,而基于行为的系统能通过行为结构对描述进行分类,不需要中间层就能进行推理。而且,两个系统都有很好的实时和鲁棒特性,但是混合式系统更适用于实时命令较少和能使用更精确内部模型的环境,而基于行为的系统则更适用于有较大变化的环境。由于这些重要特征,我们认为研究基于行为系统的局限性并扩展它对复杂描述的编码能力、复甩性和任务学习能力是十分有意义的。分层式结构本文所要讨论的系统与结构有关,称为分层式部分有序执行结构。这个系统采用一个分层式任务结构,既能设定行为的优先权,又能动态地改变执行时间。这个结构由连续执行模块构成,由环境条件和其它模块所产生的信息来激发这些模块。,”所提出的分层式结构能够提供更复杂的控制流和更丰富的描述,并且已被应用于一个基于网络的多智能体系统。通过使用“供需连接”来使条件分支起作用。将行为的输出与行为的需求(比如激活行为所需要的信息)相联系。这个框架能执行周期或非周期的行为,也支持外部事件触发的行为。分层式系统对行为的控制也被用于虚拟环境中的嵌入式智能体。【给出了一个参数行为描述()来对虚拟类人智能体进行分层中国科学技术大学硕十学位论文第二章学习方法及任务描述式编码。提出的分层式智能体控制结构()使用了三层描述:行为层、传感器层和关联层。这个结构将传感器信息进行抽象,这与抽象行为目标描述很相似。在以上两个结构中,任务中的步骤顺序知识与高级的行为描述的激活条件相联系。我们将这种特定的任务顺序信息编码为行为连接,两种描述类型都支持分层分解任务的执行。至此我们已经回顾了机器人控制结构的主要类型,下面我们将考虑与他们相关的学习能力,因为这是本文所要讨论的重点。基于示范的机器人学习中的任务描述术语学习是人工智能和机器人学研究中的一个主要问题,它代表了机器人的一个重要能力,比如自动获取新的技术和知识,适应环境和任务的变化等。由教师提供知识、建议或者指导可以使学习过程变得简便。为了更好的阐述我们的学习问题,并说明各学习层上的难点,我们通过辨别所要学习能力的复杂度来区分基于示范的教学中的技巧和任务方法。在基于示范学习的文献中,并没有对这些层之间做明确的区分,在大多数情况下,任务学习是指对不同复杂程度的技术的学习能力。为了解释任务和技术所包含的内容,以及各自编码的复杂度,我们对这些概念给出了定义,并讨论了他们与现有术语的联系。正如本章余下部分所述,这些区分对于基于示范的学习的系统设计来说是至关重要的。我们认为技术是一种行为模式,它能描述一个能获得或者维持一个特定目标的能力。刮认为“技术是一种能学习完成任务的能力”,并给出了钉钉子和开门作为这个技术的例子,系统根据自身的技术来完成具有特定目标的行为。在“的文章中,将基本技术定义为“不需要任何模型知识就能完成感知与行为之间的转换,它代表了机器人的基本能力”。这些定义所表达的主要思想是技术是行为的延伸,这种行为依靠更简单的机动能力,也被称为基本行为。这些基本的动作可以是“简单的点对点的移动”,比如向前或向后,他们构建了高级混合动作,因此也称为基本移动、移动规划、基本动作行为、动作单元或者宏观动作。他们是“能完成一个完整行为目标的动作序列,。本文中我们用基本行为来构建技术。机器人通过产生状态与动作的对应关系,可以学习各种能力,比如避障、追随光源等。然而,在一些更复杂的方法中学习技巧可能包括产生一个状态与行为的对应关系,比如双足机器人学习协调行走的行为。如前章所述,另一个影响所有机器人能力的复杂因素就是使用和结合时间序列的能力。技巧可以从最初没有序列能力的纯反应式动作到能从与环境的交互中产生序列的反应式技巧,最后到有精确的序列描述。一个纯反应式技巧的例子是在迷宫中学习导航,机器人由环境状态来改变他的“左”、“右”和“向前”移动。利用示范来加快强化学习以获得杆状平衡的技巧。虽然在控制器中没有对序列进行明确的描述,但是晟后机器人能用有效合理的动作序列来完成这个任务。中周科学拄术大学埘。学位论文第二章学习方法及任务描述技巧和任务级复杂程度的区别是:一个程序表(或者任务级程序)是一个“在一定应用条件下的基本技巧序列”“”。技巧是在特定使用领域中用来完成任务的一系列近似行为。假设存在这样的技巧,一个任务可以描述如:我们认为一个任务是指一个能协调现有技术来完成指定目标的行动。这个定义并不是指任务不能直接由基本动作构成。然而,对于一个非模块的方法来说,既不能从现有的能力中得到任何帮助,又不能通过相同或不同的任务获取任何能力,要设计这样的系统是很困难的,因为对每个任务都要由低级基本动作从头来做,最后很可能导致复杂的任务描述。在构建和执行任务描述的过程中,可以使用多种类型的控制结构:顺序执行、无序执行、条件分支,周期和循环等。在以下的讨论中,我们认为任务级的学习是在抽象的高层中完成的,并作为考虑和执行复杂问题描述时最主要的方法,这些复杂的问题是需要时间序列和分级分解的。虽然所提出的任务学习方法注重于从序列示范中学习,但是控制框架也支持使用其它控制结构。现有结构的能力将在第三章中进行更详细的讨论。本文所关注的是学习任务和解决自动控制系统设计的难题。下面的章节提供了现有的技巧和任务学习的方法,并描述了他们的应用领域和描述的含义。符号描述与非符号描述机器人对任务的描述还可以分为符号描述和非符号描述。根据控制策略对机器人能力进行编码的描述是指“在状态和时间下计算出命令来完成目标”。给定足够数量的训练例子,可以通过功能近似技术来计算策略。这种方法构成了机器人控制器的非符号描述,最常用于关节式控制。在基于示范的学习中,符号任务描述类包括分层式结构“、图表】、装配任务执行树描述和飞行任务的分层结构知识【】。在学习装配任务的领域中,由对物体操作的序列来构建高级符号描述。执行任务时,利用一个预先设计好的能再现所需要的接触转移的技术来重现同样的接触序列。由这些方法所构成的高级描述一般与机器人的控制层分开这意味着需要引入额外的机制来进步处理他们并将他们转化为直接的机器人命令。本文所提出的结构允许利用现有的机器人技术构建抽象任务描述。因此,机器人可以将学习到童接用于完成任务的描述。技巧学习在技巧学习方面,多数方法都是学习移动原理或者学习导航技巧。在移动机器人领域,驯提出了一个基于行为的方法来学习反应式移动行为(进门、沿墙走),并简述了一个根据以前行为进行学习的策略。这个工作最有意思的一点是可以根据机器人已有的行为来完成“教学”;这样就产生了行为克隆,用不同的传感器输入可以得到相同的功能。”演示了复杂学习,比如通过跟随另一个机器人教
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电视户外广告合同协议
- 奶茶店购销合同范本
- 出口欧洲产品合同范本
- 会展劳务用工合同范本
- 2026年施工方案审核合同
- 小学售房合同范本
- 2026年品质量保证合同
- 2026年节能量交易合同
- 2026-2031网络信息安全行业市场分析调研报告
- 2025年工业互联网数据交换合同协议
- 医务科精细化管理细则
- 2025西南大学辅导员考试题库
- 塔吊覆盖区域安全防护施工方案
- 2025版化工设备购销与安全技术合同3篇
- DB33T 2104-2018 建筑业企业技术中心评价规范
- 《教学查房电烧伤》课件
- 大模型原理与技术-课件 chap6 大模型微调
- 《期货入门培训》课件
- 福建省厦门市思明区定安小学2024-2025学年六年级上学期期中数学试卷
- 《多发性骨髓瘤》课件
- 颈肩腰腿疼中医治疗
评论
0/150
提交评论