智能控制第6章学习控制迭代学习控制_第1页
智能控制第6章学习控制迭代学习控制_第2页
智能控制第6章学习控制迭代学习控制_第3页
智能控制第6章学习控制迭代学习控制_第4页
智能控制第6章学习控制迭代学习控制_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第6章 学习控制 -迭代学习控制,智能控制基础,2/51,目录,6.1 迭代学习控制,6.2 增强学习,3/51,6.1.1 迭代学习控制的基本思想,6.1.2 线性时变系统的迭代学习控制,6.1.3 一类非线性动态系统的迭代学习控制,6.1.4多关节机械手的迭代学习控制,6.1.5 迭代学习控制面临的挑战,6.1 迭代学习控制,4/51,6.1.1 基本思想,迭代学习(Iterative learning)的基本思想在于总结人类学习的方法,即通过多次的训练,从经验中学会某种技能。 迭代学习控制是智能控制中具有严格数学描述的一个分支。它以极为简单的学习算法,在给定的时间区间上实现未知被控对象以

2、任意精度跟踪某一给定的期望轨迹的控制问题。,5/51,特点,控制器在运行过程中不需要辨识系统的参数,属于基于品质的自学习控制。 这种控制方法特别适用于具有重复运行的场合。它的研究对诸如机器人那样有着非线性、强耦合、难以建模又需要高精度轨迹控制的场合是非常有意义的。,6/51,6.1.1 迭代学习控制的基本思想,6.1.2 线性时变系统的迭代学习控制,6.1.3 一类非线性动态系统的迭代学习控制,6.1.4多关节机械手的迭代学习控制,6.1.5 迭代学习控制面临的挑战,6.1 迭代学习控制,7/51,6.1.2线性时变系统的迭代学习控制,考虑DC伺服驱动控制的速度控制系统。,8/51,数学模型,

3、假设电枢电感足够小,而且忽略机械摩擦。则系统可以简化为一阶系统。 y(t)、v(t)分别表示电机角速度和输入控制电压; K - 力矩系数 Tm- 电机的时间常数,9/51,求解,简化模型 a=(1+AB/K)/Tm; b=A/KTm。 求解得:,10/51,迭代学习的引入,假设期望速度特性 足够光滑,可以由离散数据来拟合。 则初始控制的系统误差为 根据 则下一次校正后的输出控制电压可取:,11/51,迭代过程,12/51,收敛性分析,对于所有的k,取 ;,13/51,其中 可见,前述条件下,迭代学习的过程是收敛的。,14/51,参数的替换,对于参数b预先不知道的情况 ,可以用另一近似值来代替

4、。只要满足以下不等式 : 迭代学习公式仍是收敛的 。 具体证明请见定理6-1。,15/51,线性时变系统的一般情况,系统模型 解 为状态转移矩阵。,16/51,迭代学习公式,其中 是一个给定的矩阵函数。,17/51,定理6-1:收敛性定理,假设 。若给定的任一初始输入矢量u0(t)在0,T区间内连续。则存在正常数和0使得 范数 定义: rr的矩阵F=(fij)范数F定义,18/51,证明,定义一矢量范数 则有:,19/51,两边同乘e-t,并取范数可得:,20/51,其中 可知,所以,总可以选择较大的,使得: 从而保证了时, 。,21/51,状态空间表示,如果矩阵B,C是定常、BC是可逆的,

5、只需满足以下条件: 即可满足迭代学习的收敛性。,22/51,6.1.1 迭代学习控制的基本思想,6.1.2 线性时变系统的迭代学习控制,6.1.3 一类非线性动态系统的迭代学习控制,6.1.4多关节机械手的迭代学习控制,6.1.5 迭代学习控制面临的挑战,6.1 迭代学习控制,23/51,1. 问题的提出,考虑一个二阶非线性动力学系统 可化为一阶微分方程组 简记为:,24/51,假设xd(t),t0,T是系统的一个状态矢量,且属于R2n有界闭合子集W。则控制的问题就是寻找分段连续的控制输入uj(t)序列,使得系统的状态xj(t)跟随xd(t),其跟随误差小于某一给定的精度,即 其中j表示第j次

6、迭代 。,25/51,被控系统进行控制的条件,系统的运行条件如采样频率、初始的控制结构是固定的; 系统不确定性时,在时间0,T内是重复作业的; 函数f()、g()满足Lipshitz连续; g(x(t),t)在t0,T内是齐次和正定函数。,26/51,函数f()、g()满足Lipshitz连续,即: 其中(t)、(t)为有界的正函数,表示欧几里德范数,定义为:,Lipshitz连续,27/51,g(x(t),t)在t0,T内是齐次和正定函数,即满足: 01Ig(x(t),t)2I 矩阵不等式MN的意义是 max(M)min(N),正定函数,28/51,2. 非线性动态系统的稳定性,定理6-2

7、:若函数f()、g()满足Lipshitz连续,且g(x(t),t)在t0,T内是齐次和正定函数,则存在状态反馈 u(t)=K(xd(t)-x(t) 使得系统的状态跟踪误差 xd(t)-x(t)一致有界,即,29/51,反馈增益选取,若取K=adb-1Inn : db-1Inn 时,可得到跟踪误差界为: 其中 是期望轨迹下的期望控制输入,30/51,3. 迭代学习控制策略,为防止反馈增益系数d 过大,引入一个前馈控制器,并由迭代学习获得。,31/51,迭代学习控制的稳定性,定理6-3:记控制输入uj(t)为第j次迭代中反馈控制和前馈控制两项的线性组合,即 其中为误差反馈控制项,且 ; 为前馈学

8、习控制项,由学习控制器产生。,32/51,则前述控制下的跟踪误差为 其中,a0, b2 , v, v=a+(2+1/a)(m+m|ud|m ),33/51,精度分析,定理(6-3)表明了系统的最大跟踪误差与的大小成正比。因此只要控制序列 在整个时间域0,T内收敛于,则系统的跟踪误差可以达到任意精度。 这样,系统的轨迹跟踪控制问题就归结为寻求在时间域0,T上一致收敛于 的前馈输入控制序列的问题了。,34/51,梯度法,定义指标函数 应用梯度法我们得到第j次迭代计算的公式: 的取值范围必须满足02,35/51,实际迭代算法,问题:一般不能获取。 利用已知的 去代替未知的 :,36/51,学习结构图

9、,37/51,实际迭代算法的收敛性,定理6-4:假设 和 有界,即 且 a,b,d的取值满足下列不等式: (1-)db-1-2r0=l10 (2-)db-1-(r0+2a/1)=l20,38/51,其中 p=min(al1,l2); q=(m+mu0)/1 。 则新的迭代学习策略是收敛的,即: 其中 目标函数定义为:,39/51,定理6-5:如果状态误差取:xd(t)-xj+1(t) 学习规则改为: 则 a,b,d的取值满足下列不等式: (2+)db-1-2r0=l10 (2+)db-1-(r0+2a/1)=l20 系统收敛。,另一种迭代方法的收敛性,40/51,迭代学习控制的特点,不需要精确

10、的模型参数,只要一些模型的极限参数; 对周期性的系统扰动完全可以通过迭代学习来克服,对随机扰动也有较强的抑制能力。 学习控制的结构相当简单,学习的信息只须利用线性反馈控制量。 学习算法的收敛条件非常简单,具有有界的不确定性。,41/51,6.1.1 迭代学习控制的基本思想,6.1.2 线性时变系统的迭代学习控制,6.1.3 一类非线性动态系统的迭代学习控制,6.1.4多关节机械手的迭代学习控制,6.1.5 迭代学习控制面临的挑战,6.1 迭代学习控制,42/51,6.1.4多关节机械手的迭代学习控制,固定负载下的机器人迭代学习控制 负载经常变化下的机器人轨迹跟踪的迭代学习控制方法,43/51,

11、机械手动力学方程,D(q):惯量矩阵; : 非线性哥氏力和向心力; G(q): 重力项; a :不确定力矩项(包括磨擦力矩等); :各关节的输入力矩。,44/51,状态方程,取,45/51,迭代学习策略,46/51,10次迭代学习控制效果,期望轨迹曲线,实际系统响应,第一关节,47/51,10次迭代学习控制效果,期望轨迹曲线,实际系统响应,第二关节,48/51,10次迭代学习控制效果,期望轨迹曲线,实际系统响应,第三关节,49/51,负载经常变化下的机器人迭代学习控制,一种基于知识库的改进迭代学习算法 改进迭代学习算法的目的在于如何尽快地得到准确的前馈补偿力矩d,当负载发生变化时,它的基本思想是利用一组已知的、按一定规则排列的、与d相关的数据库,并通过推理机制来求得当前负载m下准确的前馈补偿力矩d(m)。 能经过一个周期的运行达到高精度跟踪控制的目的。,50/51,6.1.1 迭代学习控制的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论