




免费预览已结束,剩余3页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能中强化学习的研究1.概述 自20世纪90年代以来,随着全球化的形式与国际竞争的日益激烈,对人工智能技术的研究与应用变的越来越被人们关注,且人工智能在制造中的运用以成为实现制造的知识化、自动化、柔性化以实现对市场的快速响应的关键。 但是,目前的人工智能的运用与人们的期待总是有一定的距离。其中,知识的恰当表达与获取、创新能力的实现、软件适应性的缺乏、计算实时性的要求是人工智能运用中的瓶颈问题。而以学习、进化、自组织为主要特征的新一代人工智能可能可以解决这个问题。 知识的恰当表示与获取是以规则为主要代表的符号知识表示具有粒度极限、知识获取困难等弱点,而以神经网络为代表的亚符号知识则难以处理现实世界中复杂的结构化知识,使用进化方法可以很好的解决这个问题。 创新能力的实现。在制造过程中,人们对智能系统的需求包括辅助用户进行创新的能力、代替人类进行决策的能力,以及超越人的知识范围进行创新的能力。使用学习能力可以实现创新能力。 软件适应性的缺乏使专家系统在实际运用中困难重重。其重要原因是无法适应各个环境的不同。具有学习和进化能力的智能系统可以很好的解决这个问题。 计算实时性的要求是智能系统应用中的基本要求,但目前的智能算法都存在搜索收敛速度慢的缺点。较有希望的解决方法是使得系统在求解过程能有效地利用已积累的知识,这种基于知识的搜索能力将随着系统的行动不断增强,从而不必每求解一个问题都从零开始。 在下面的章节中,先简单的介绍一下关于学习、进化与自组织机制的基本概念和共同特征,并对其中一些学习的方法进行详细的叙述。 2.学习、进化与自组织 新一代的智能技术是指80年代以来迅速发展起来的以神经网络(ANN)、进化计算、模糊逻辑、Agent为主要代表的计算只能技术,其中主要具有学习进化与自组织的能力。 学习是指系统适应环境而产生的适应性变化,它使得系统在完成类似任务时更加有效。80年代以来,ANN的学习机制再次得到人们的重视,基于连接机制的亚符号学习又一次成为的当今学习机制研究的热点,提出了竞争学习,进化学习、加强学习等各种新的学习机制。 进化计算是模仿自然界物竞天择、适者生存的进化机制来进行信息处理的技术。进化计算最主要的方法有4种:遗传算法、进化策略、进化规划和遗传编程。这些方法的差异在于基因表达方式的不同以及变异作用的侧重点不同。进化计算的应用十分广泛,主要分为规划、设计、仿真与辩识、控制、分类等。 自组织为具有耗散结构、具有自催化和定向涨落机制的开放式系统在演变过程中呈现出来的全局有序现象,如生命现象、热对流现象等。自组织计算具有以下几个主要特征: 1、问题结构组成的不明确性,结构的形成是系统在对环境信息的不断处理中自发生成的; 2、结构变化没有明确的方向,其知识的积累完全取决于所处理的环境信息中存在的规律性; 3、它强调大量个体的协调作用,是一个高度自主协同的过程,它通过大量的局部相互作用可以产生全局的整体效应。 自组织理论的研究爱目前的复杂性科学的研究中具有突出的地位。 在这三种主要的智能机制中,它们具有多方面的性,主要为以下几点: 1、把结构引入计算过程,这是三者与传统算法的最重要区别。结构作为系统经验与知识的载体,是系统具有学习功能的基础。此外,三者都具有结构与知识的分布性。 2、把系统概念引入计算过程,无论是学习、进化还是自组织,都将算法看作一个系统,从而可以具有反馈能力、记忆能力、动态自适应能力等多种功能,并将计算过程看作系统不断改变的自身过程的过程。 3、把交互性引入计算过程。这种交互包括两种:一是计算内部与环境之间的信息交换,学习系统要从环境获取反馈信息或隐含着规律的信息流,进化系统要把所产生的结构作用于环境,再从环境取得反馈评价信息,自组织系统要求系统与环境之间有不断的信息与能量交流;二是算法内部各组成部分之间的信息交换,学习系统如神经元之间的信息交流,进化系统如种群中个体之间的竞争,自组织系统如系统个体间的竞争与协作。3.学习3.学习 学习机制的研究是人工智能研究的一项核心课题。它是智能系统具有适应性与性能自完善功能的基础。学习过程具有以下特点:学习行为一般具有明显的目的性,其结果是获取知识;学习系统中结构的变化是定向的,要么由学习算法决定,要么由环境决定;学习系统是构造智能系统的中心骨架,它是全面组织与保存系统知识的场所;学习机制与知识表达方式密切相关,神经网络表示形式的知识可以用ANN算法或GA算法来获取,也可以用加强算法来获取。 3.1 统计学的方法 尽管,大部分的学习算法都集中在竞争学习,进化学习和加强学习三个方面。王天树等2使用了统计的方法来对学习方法进行设计。他指出,一般从样本进行学习的模型包括三个部分:样本产生器、训练器和学习机器。学习问题就是从给定的函数集中选择出能够最好地逼近训练器响应的函数。在他的文章中,先指出了一些基本的统计方法,并将统计学与图形学相结合,然后对基于统计学基础的图形推理方法的模型建立进行了讨论。 其中该方法的主要步骤如下: 1.对问题的定义,大多数统计模型和方法是针对特定领域的应用问题提出的。为了给出有意义的问题定义,首先要考虑特定领域的知识和经验。 2.收集实验数据,在收集数据时,明确数据产生的机制也是很重要的,因为通过不同方式所产生的数据可能会导致不同的学习结果。 3.数据预处理,数据预处理是一个非常重要的步骤,它影响着整个学习的成败。预处理包括两个方面即检测和消除非正常的离群样本和对样本做适当的转换。 4.选择或设计模型,对同一个问题或许有许多不同的模型可以描述,不同的模型会导致学习结果的不同,因此需要利用该领域的专家的经验和知识来选择或设计适当的模型。 5.学习模型的参数,在确定了所使用的统计模型后,就可以利用统计学习方法来估计模型的参数,需要注意的时,应该使得模型对未知数据有良好的适应性。 6.解释模型、验证模型。通过学习得到的模型的一般用途是对未知数据做预测,并对模型的结构及参数作出解释。需要使用一定的以知数据作为未知数据对模型进行一定的验证。 3.2 增强式学习 增强式学习(Reinforcement Learning)是一种基于行为方法的半监督学习。一般的学习方法分两类,一类是上文提到的基于模型的,在这种方法,智能体需要环境确切的模型,具有较高的智能,但不适合于不确定的动态环境;另一种是基于行为的方法,在这种方法中,不需要环境的确切模型,采用分层结构,高层行为可以调整和抑制低层的行为能力,但每层中都具有其自主的确定权,如3中的Holonic智能制造系统。增强式具有这些优点,故常用于机器人足球赛4、狩猎问题、甚至战争指挥中5,但是这些都只是理论上的研究,因为机器人足球赛的本身目的也是为了测试人工智能的可用性,且更不可能去让战争去由电脑而不是人去指挥了。 增强式学习是基于逐渐逼近的机理,模仿人类的学习策略,其结构图如图1: 图1:增强型学习结构 在增强型学习的结构中,用A来作为一个动作集合(在图中a表示为A一个动作),用S来表示环境状态的有限值,(在图中s表示为S的一个状态)。T为状态改变的过程,既图中的长箭头线,R为报偿函数,每一步智能体观察某状态s,执行某个动作a,这时,它会从这个过程中得到一个补偿值来判定某个行为的好坏。环境的模型由状态转换函数T:SAS来表示,它是可感知的环境状态到在这些状态下执行动作的一个映射。这个策略可以使用函数值来表达。但是,函数T和报偿r仅依赖于当前的状态和动作,和以前的状态和动作都无关。智能体通过报偿r来决定某些动作的好坏而更倾向于做好的动作以适应环境。 在5的工作中,他使用了一个机器人过机器人系统来对其方法进行测试,仿真环境为1010 的网格空间, 如图2 所示。 两个圆形智能体为协作智能体, 椭圆型的智能体为看守智能体, 两个长方型的物体为障碍物。 协作智能体有4种基本行为: 上、下、左、右运动, 看守智能体只可以上下运动来防止协作智能体过门。 两个协作智能体只有相互配合, 协作站位才可以通过有看守智能体把守的门。只要有一个协作智能体通过把守门就算成功, 图2 所示为一种目标状态。 智能体位置由重心在网格环境中的坐标决定。 图2:6中的机器人过人仿真 在使用了文中所改进的方法后,机器人能够在较快的时间内实现过人的过程。并且在实验次数与学习次数方面也有较好的表现。 另一个就是4中的足球赛运用,他仍旧是以上文提到的方法为基础,不过对其进行了改进,并叙述了算法运用的详细过程。在分层强化学习中,学习的过程公式是机遇Q学习方法的,不过将Q学习的定义规则定义重新定义为: 故在实际的运用中会有更好的表现。 在4的工作中,将学习过程分为三部分进行。第一步先训练智能体学会基本的动作技巧,包括:射门,带球,穿球,开任意球等。然后训练智能体学会在一定的外部环境下,训练智能体在不断改变的外部环境下选取适合的动作。 在实验中将学习状太空间分为了4个部分: 球对学习者的距离和角度 对手对学习者的距离和角度 球门对学习者的距离和角度 球门是否可见。 通过对这几个状态的不断递归(具体方法如图1),在一定次的学习后,机器人可以掌握一定的踢球能力。文中就其研究结果与一些通常的方法进行了比较,结果显示,在一定次数的学习后,他的方法可以得到较优的表现。3.3使用强化学习的Agent3.3使用强化学习的Agent Agent最早是出现与遗传算法中,使用“Ethogenetics(行为遗传)”的思想,突破了人们长期以来关于一个编码串对应于组合优化问题所有策略变量的一个组合方式的传统、静态的认识,而将一个编码串看成某个智能主体(Agent)主动进行的一系列决策行为的结果。 关于Agent的运用有很多种,主要集中在智能Agent,多Agent系统和面向Agent的程序设计这3个相互关联的方面。智能Agent是多Agent系统的研究基础,可以将有关智能Agent看做是多Agent系统的微观层次。 在5中,使用了一种强化学习的Agent来对指挥控制进行仿真研究,试图找到一种可以在一定程度上代替人来进行指挥的系统。 他的方法仍旧是在上文提到的强化学习方法中进行改进,其结构图如下: 图3:Agent强化学习过程框图 其过程描述如下: Agent通过感知器感知环境得到环境的一个状态St. Agent以某一个决策规则选择一个动作或行动方案Ai,并作用于环境。 下一时刻Agent从环境中获取一个奖赏值R(St,Ai),Agent以该奖赏值来修正其内部的决策规则。 在他的工作中,对战场进行了一个仿真,设置为红方与蓝方。红方为进攻方,设置了5个路径向地方的指挥所进攻,而蓝方作为调整方也会对防御策略进行调整。将时间的损耗与人员的伤亡做为判定,并可对其设定一定的权值,如:当不顾伤亡只需时间时将时间权值为,而伤亡为0,当考虑伤亡而不考虑时间时将时间权值设置为0而将伤亡设为0。权值的设置不同回导致结果的不同。 测试的结果是,开始红方智能体Agent会开始以任意的路径对指挥所进行进攻,而在一些次数的循环后,红方Agent会根据作战要求的不同(是以时间为重或是以伤亡为重)来选择适合的路线,而另一方面,蓝方也会根据进攻方的策略不同而对自己的防守做有效的调整。 4.结束语 学习、进化、自组织同样作为人工智能理论的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45991-2025家用和类似用途电器通信质量评价规范
- 2025年智能制造面试预测题
- 2025年文化旅游策划师高级笔试预测题
- 2025年心理健康师初级面试常见问题及参考答案
- 2025年河道保洁员面试问题及标准答案集锦
- 2025年物业空调工笔试模拟题库
- 2025年香席师高级考试模拟题库
- 2025年城市运行客服面试模拟题库大全
- 养老院服务协议
- 2025年礼宾接待笔试模拟题集
- 管道设计培训课件
- 2025-2026学年新交际英语(2024)小学英语一年级上册教学计划及进度表
- 河北省廊坊市2024-2025学年高一下学期期末考试 数学试卷
- 2025年发展对象考试题库附含答案
- 2025年内蒙古中考数学真题(含答案解析)
- 2025年兵团基层两委正职定向考录公务员试题(附答案)
- 2025至2030年中国铍铜棒线材行业市场深度分析及投资策略研究报告
- 2025年福建省高考真题卷历史试题
- 物业公共维修管理课件
- 污水采样培训课件
- 江苏乡镇船舶管理办法
评论
0/150
提交评论