




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能控制IntelligentControl,第八章学习控制系统,8.1学习控制概述,8.1.1什么是学习控制,1.学习的各种定义,定义8.1一个具有生存能力的动物在它的一生中能够被其经受的环境所改造。一个能够繁殖后代的动物至少能够生产出与自身相似的动物(后代),即使这种相似可能随着时间变化。如果这种变化是自我可遗传的,那么,就存在一种能受自然选择影响的物质。如果该变化是以行为型式出现,并假定这种行为是无害的,那么这种变化就会世代相传下去。这种从一代至其下一代的变化型式称为种族学习或系统发育学习,而发生在特定个体上的这种行为变化或行为学习,则称为个体发育学习。,Wiener(维纳)于1965年对学习给出一个比较普遍的定义:,C.Shannon在1953年对学习给予较多限制的定义:,定义8.2假设()一个有机体或一部机器处在某类环境中,或者同该环境有联系;()对该环境存在一种“成功的”度量或“自适应”度量;()这种度量在时间上是比较局部的,也就是说,人们能够用一个比有机体生命期短的时间来测试这种成功的度量。对于所考虑的环境,如果这种全局的成功度量,能够随时间而改善,那么我们就说,对于所选择的成功度量,该有机体或机器正为适应这类环境而学习。,Osgood在1953年从心理学的观点提出学习的定义:,定义8.3在同类特征的重复环境中,有机体依靠自己的适应性使自身行为及在竞争反应中的选择不断地改变和增强。这类由个体经验形成的选择变异即谓学习。,Tsypkin为学习和自学习下了较为一般的定义:,定义8.4学习是一种过程,通过对系统重复输入各种信号,并从外部校正该系统,从而系统对特定的输入作用具有特定的响应。自学习就是不具外来校正的学习,即不具奖罚的学习,它不给出系统响应正确与否的任何附加信息。,Simon对学习给予更准确的定义:,定义8.5学习表示系统中的自适应变化,该变化能使系统比上一次更有效地完成同一群体所执行的同样任务。,Minsky用一个比较一般的学习判据代替改善学习判据,他的判据只要求变化是有益的:,定义8.6学习在于使我们的智力工作发生有益的变化。,定义8.7学习系统是一个能够学习有关过程的未知信息,并用所学信息作为进一步决策或控制的经验,从而逐步改善系统的性能。,定义8.8如果一个系统能够学习某一过程或环境的未知特征固有信息,并用所得经验进行估计、分类、决策或控制,使系统的品质得到改善,那么称该系统为学习系统。,定义8.9学习控制能够在系统进行过程中估计未知信息,并据之进行最优控制,以便逐步改进系统性能。,定义8.10学习控制是一种控制方法,其中的实际经验起到控制参数和算法类似的作用。,定义8.11如果一个学习系统利用所学得的信息来控制某个具有未知特征的过程,则称该系统为学习控制系统。,总之,学习控制的定义,可用数学描述如下:,定义8.12在有限时间域0,T内,给出受控对象的期望的响应yd(t),寻求某个给定输入uk(t),使得uk(t)的响应yk(t),在某种意义上获得改善;其中,k为搜索次数,t0,T。称该搜索过程为学习控制过程。当k时,yk(t)yd(t),则该学习控制过程是收敛的。,根据上述定义,可把学习控制的机理概括如下:,寻找并求得动态控制系统输入与输出间的比较简单的关系。执行每个由前一步控制过程的学习结果更新了的控制过程。改善每个控制过程,使其性能优于前一个过程。,8.1.2为什么要研究学习控制,自适应控制系统能够在不确定的条件下进行有条件的决策。学习系统是自适应系统的发展与延伸,它能够按照运行过程中的“经验”和“教训”来不断改进算法,增长知识,以便更广泛地模拟高级推理、决策和识别等人类的优良行为和功能。自适应控制的应用范围比较有限。当受控对象的运动具有可重复性时,即受控制系统每次进行同样的工作时,就可把学习控制用于该对象。学习控制已成为智能控制的一个重要领域。学习与掌握学习控制的基本原理和技术能够明显增强控制工程师处理实际控制问题的能力,并提供对含有不确定性现实世界的敏锐理解。,8.1.3学习控制的发展,50年代:对学习机的设想与研究始于50年代,学习机是一种模拟人的记忆与条件反射的自动装置。学习机的概念是与控制论同时出现的。下棋机是学习机器早期研究阶段的成功例子。,60年代:发展了自适应和自学习等方法。60年代开始研究双重控制和人工神经网络的学习控制理论,其控制原理是建立在模式识别方法的基础上的。另一类基于模式识别的学习控制方法把线性再励技术用于学习控制系统。研究基于模式识别的学习控制的第三种方法是利用Bayes学习估计方法。,80年代:由于基于模式识别的学习控制方法存在收敛速度慢、占用内存大、分类器选择涉及训练样本的构造以及特征选择与提取较难等具体实现问题,反复学习控制及重复学习控制,在80年代被提出来,并获得发展。,8.2学习控制方案,学习控制主要方案如下:,基于模式识别的学习控制、反复学习控制、重复学习控制、连接主义学习控制,包括再励(强化)学习控制、基于规则的学习控制,包括模糊学习控制、拟人自学习控制、状态学习控制等等。,学习控制具有四个主要功能:搜索、识别、记忆和推理。学习控制系统分两类,即在线学习控制系统和离线学习控制系统,分别如图8.1(a)和8.1(b)所示。,图8.1(a)在线学习控制系统,图中,代表参考输入,输出响应,u控制作用,s转换开关。当开关接通时,该系统处于离线学习状态。,8.2.1基于模式识别的学习控制,从图8.2可见,该控制器中含有一个模式(特征)识别单元和一个学习(学习与适应)单元。模式识别单元实现对输入信息的提取与处理,提供控制决策和学习与适应的依据;学习与适应单元的作用是根据在线信息来增加和修改知识库的内容,改善系统的性能。,图8.2基于模式识别学习控制系统的一种结构,上图所示的基于模式识别的学习控制系统,可被推广为一具有在线特征辨识的分层(递阶)结构,如下图所示。从图可知,该控制系统由三级组成,即组织级、自校正级和执行控制级。,8.2.2迭代学习控制(IterativeLearningControl),迭代学习控制方法最先由日本学者内山提出,并由有本、川村和美多等发展。,定义8.13迭代学习控制是一种学习控制策略,它通过迭代应用先前试验得到的信息(而不是系统参数模型),以获得能够产生期望输出轨迹的控制输入,改善控制质量。,迭代学习控制的任务如下:给出系统的当前输入和当前输出,确定下一个期望输入使得系统的实际输出收敛于期望值。,右图给出迭代学习控制系统的一般框图,图中,yd代表有界连续期望输出;uk为第k次迭代参考输入;uk+1为第(k+1)次迭代参考输入;yk为闭环控制系统的第k次实际迭代输出;k=1,2,,n。,图8.4迭代学习控制原理框图,控制总输入由两部分组成,一为由反馈控制器(控制器或自适应控制器)产生的反馈输入,另一为由前一个控制输入和学习控制器的输出组成前馈输入,即第(k+1)次操作的总控制输入为:,令被控对象的期望输入与实际输入之间的偏差为:从上图能够知道,第k次学习的参考输入和修正信号相加并存储后,作为第(k+)次学习的给定输入,即,8.2.3重复学习控制(RepetitiveLearningControl),下图给出了重复学习控制系统的基本结构。,图8.7重复学习控制系统基本结构,重复控制和迭代控制之间存在一些根本差别:,重复控制构成一个完全闭环系统,进行连续运行。两种控制的收敛条件是不同的,而且用不同的方法确定。对于迭代控制,偏差的导数被引入更新了的控制输入表达式。迭代控制能够处理控制输入为线性地加入的非线性系统。,8.2.4基于神经网络的学习控制,神经控制系统的核心是神经控制器(NNC),而神经控制的关键技术是学习(训练)算法。从学习的观点看,神经控制系统自然地是学习控制系统的一部分。,监督学习神经网络控制器,.,17,成功地实现NNC的第一步就是一定要弄清楚人在控制过程中到底利用了过程及人本身什么信息。,实现NNC的第二步就是构造神经网络,包括选取合适的神经网络类型(如多层前馈网络)。,第三步就是NNC的训练。,下面以小车-倒立摆系统(如下图)控制为例,说明NNC的构造与训练。,.,18,.,19,这是一个模拟的四维非线性动力学系统。其中为重力加速度,状态变量分别为小车位置x,小车速度x,杆的角度和杆的角速度,记为向量z=x,x,T,选择控制器为一个4层前向网络,其结构为4-16-4-1,即输入层、第一隐含层、第二隐含层和输出层分别包括4、16、4、1个神经元。除输入层神经元特性是线性的外,其余各层神经元的变换函数均为S型函数,其中输出层神经元的输出值在-k和k之间连续变化。K为小车-倒立摆系统控制信号的最大幅度。,训练数据包括小车-倒立摆系统的状态和导师加入系统后控制信号的采样值。采用误差反向传播(BP)算法及记录下的样本对网络进行离线训练。,.,20,1线性导师监督学习首先将小车-倒立摆的力学方程式在=0附近线性化,由此得用作导师的线性控制律为:u=kz=k1x+k2x+k3+k4式中k=11.01,19.68,96.49,35.57,.,21,2非线性导师监督学习要寻找更复杂的老师,其办法是采用反馈线性化和解耦变换的非线性反馈,由此来抵消系统的非线性并把它变换成一个线性可控的形式。,3人作为导师进行监督学习,人在控制过程中,凭的不是对系统的动力学性能的分析,而是感觉与经验,为了产生训练数据,人在计算机屏幕上观测小车-倒立摆运动仿真,通过输入装置施加控制器(HNNC)约需要BP算法训练40000次。,.,22,评价学习神经网络控制器,现在假设小车-倒立摆系统的动力学是未知的,并且假设没有现成的成功控制可以模仿。我们要训练出一个神经网络控制器,控制倒立摆使之立起稳定。,将小车-倒立摆系统的四维状态空间分成如下若干互不相交的分块,即小车位置x分成-2.4,-0.8,-0.8,0.8,0.8,2.4共3格;倒摆角度分成-12,-6,-6,-1,-1,0,0,1,1,6,6,12共6格;小车的速度x分成(-,-0.5,-0.5,0.5,0.5,+)共3格;倒立摆的角速度分成(-,-50,-50,50,50,+)共3格,由此分成共162个状态空间分块。,.,23,用两个单层神经网络学习倒摆控制。这两个网络一个称为作用网络或自联想搜索元件(ASE),另一个称为评价网络或自适应评价元件(ACE),各由一个神经元构成,.,24,评价网络的信号用来学习并产生一个评价函数,使现在的状态映射为对作用力和作用时状态的评价网络的输出是评价信号,在每一步控制后,根据对倒摆状态先前的预报和现在的状态来调整这个信号。,作用网络用来学习并产生一个作用,它借助于“强化学习法”来学习的,它试着随机地作用,同时对权重进行增量调整。在作用阶段,它根据系统的状态和评价信号决定输出力的方向,即决定把小车推向左边或右边。,8.3学习控制系统举例,“用于弧焊过程的自学习模糊神经控制系统”,8.3.1自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生产车间午餐管理制度
- 公园小摊活动方案
- 公园引流活动方案
- 上网流量管理制度
- 专利联盟管理制度
- 专用电脑管理制度
- 专网密钥管理制度
- 业主物业管理制度
- 业务员公司管理制度
- 业务报告管理制度
- 江苏省苏州市四市2022-2023学年八年级下学期期末语文试题
- 幼儿园病媒生物防制培训方案
- “影子教育”之全球扩张教育公平、质量、发展中的利弊谈
- JB T 8925-2008滚动轴承汽车万向节十字轴总成技术条件
- (word版)2024年成人高考语文试题及答案
- MOOC Spark编程基础-厦门大学 中国大学慕课答案
- 大易通用能力测评题库
- 联邦学习技术在人工智能中的应用与发展前景
- 地块控制性详细规划说明书
- 工程招标代理服务投标方案(技术方案)
- 【博物馆文创营销方案2600字】
评论
0/150
提交评论