已阅读5页,还剩57页未读, 继续免费阅读
(电力电子与电力传动专业论文)迭代学习控制算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
迭代学习控制算法的研究 a b s t r a c t i t e r a t i v el e a r n i n gc o n t r o l( i l cf o rs h o n ) i san e wa d d “i o nt ot h ec o n t r o l t e c h n i q u e s w i t hag r e a tf o r e g r o u n di nt h ec o n t r o lf o r t h ei n d u s t r yr o b o t ,n u m e r i c a l m a c h i n ea n do t h e rp l a n t sw i t hr e p e t i t i o np r o p e r t y ,i ti sf e a s i b l ei nd e a l i n gw i t ht h e n o n l i n e a rs y s t e m sa n du n m o d e l i n gs y s t e m sa n ds oo n 1 订a n yr e s e a r c h e r sh a v ep a i d t h e i ra t t e n t i o nt oi t e r a t i v el e a r n i n gc o n t r o lb e c a u s eo fi t ss i m p l i c i t ya n de f f e c t i v e n e s s i nr e c e n ty e a r s t h ec o n t e n to fr e s e a r c hi n c l u d e dl e a r n i n ga l g o r i t h m ,c o n v e r g e n c e , r o b u s t n e s s ,i n i t i a ls t a t ea n dl e a m i n gr a t ee t c t h i sp a p e r sm a i nw o r ki n c l u d e st h e f b l l o w i n ga s p e c t s :f i r s t l y , t h ep a p e r i n t r o d u c e dap i d t y p ec l o s e dl o o pi l ca l g o r i t h mi t h e l i n e a ra n dn o n l i n e a rs y s t e m a n dd i s c u s s e dt h ec o n v e r g e n c eo f 恤ea l g o r i t h ma n dt h er o b u s t n e s sa g a i n s tt h o s e d i s t u r b a n c e ss u c ha si n i t i a ls t a t ee r r o r t h i sa l g o r i 岫h a sa d v a n t a g e si ne x c e l l e n t r o b u s t e s sa n dr a p i d1 e a m i n gr a t e a l s o ,t h es i m u l a t i o ne x a m p l e sw e r ep r o v i d e di nt h e p a p e r t h e n ,a i m e da tt h ep r o b l e mo f “e r a t i v el e a r n i n gc o n t r o lf o rn o n l i n e a rd i s c r e t e t i m e v a r i a i l ts y s t e m ,t h ei m p r o v e di t e r a t i v el e a r n i n gc o n t r o la l g o r i t h mw a s g i v e ni nt h e p a p e r t h en e wl e a r n i n gc o n t r o ln 1 1 en o to n l yi n c o 印o r a t e das t a t ec o m p e n s a t i o ni nt h e c o n v e n t i o n a li l cf o r m u l ab u ta l s oa d o p t e dt h ew a v e l e tt r a n s f o r mt of i l t e rl e a r n a b l e t r a c k i n ge r r o r sw n h o u tp h a s es h i f t t h ea c t u a lo u t p u tt r a j e c t o r yo ft h es y s t e ma c h i e v e d b e t t e rc o n v e r g e n c et ot h ed e s i r e dt r a j e c t o r yb yu s i n gt h ei t e r a t i v el e a r n i n gc o n t r o l a l g o r i t h m t h e n ,t h ec o n v e r g e n c e0 ft h en e wa l g o r i t h mw a sp r o v e di nt h et h e o r ya n d t h es i m u l a t i o ne x 跚p l e sw e r ea l s op r o v i d e d f i n a l l y ,a ni t e r a t i v el e a r n i n ga l g o r i t h m w a sp r e s e n t e df o ram i m ol i n e a rt i m e v a r y i n gs y s t e mi nt h ep a p e ra n da n e c e s s a r ya n d s u m c i e n tc o n d i t i o nf o rt h ee x i s t e n c eo fc o n v e r g e n ta l g o r i t h mw a sp r o v e d t h e n ,w e p r o v e dt h a tt h es a m ec o n d i t i o ni ss u m c i e n tf b rt h er o b u s t n e s so ft h ep r o p o s e di e a m i n g a l g o r i t h ma g a i n s ts t a t ed i s t u r b a n c e ,o u t p u tm e a s u r e m e n tn o i s e ,a n di n i t i a l i z a t i o ne r r o r l a s t ly as i m u l a t i o ne x a m p l ew a sg i v e nt oi l l u s t r a t et h ef e s u l t s 1 ( e yw o r d s :i t e r a t i v ei e a r i n gc o t r o l ; l e a r n i n gi a w :a s t r i n g e c y ; n o n l i n e a r s y s t e m ; l i n e a rs y s t e m ;d i s c r e t es y s t e m l i 硕士学位论文 插图索引 图2 1 迭代学习控制过程原理图6 图2 2 渐近跟踪过程8 图2 3 迭代学习控制过程8 图3 1 闭环迭代学习控制算法的构成框图2 0 图3 2 误差校正项的内部结构图2 1 图3 3 闭环d 型迭代学习系统的控制框图2 6 图3 4 倒摆原理图2 7 图3 5 迭代控制下的倒立摆摆角曲线2 9 图3 6 反馈控制下的倒立摆摆角曲线3 0 图3 7 迭代控制下的小车位移曲线3 0 图3 8 反馈控制下的小车位移曲线3 1 图3 9 闭环d 型迭代学习控制跟踪曲线3 2 图3 1 0 每次闭环d 型迭代学习的跟踪误差绝对值总和的变化曲线3 2 图4 1 二级小波变换分解滤波器组树形和非树形结构3 6 图4 2 二级小波变换合成滤波器组树形和非树形结构3 6 图4 3 改进算法与d i l c 算法的跟踪误差绝对值总和变化曲线4 0 图5 1k - 2 时被控对象的跟踪性能4 8 图5 2k :2 时被控对象的跟踪误差4 8 图5 3k = 4 时被控对象的跟踪性能4 9 图5 4 妊4 时被控对象的跟踪误差4 9 i i i 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名:艾丈欢日期:工硎年6 月3 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰卅i 理工大学可以将本学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中 国学位论文全文数据库,并通过网络向社会公众提供信息服务。 作者签名:世玄欢 导师签名:奄戈”氐 日期:2 一一3 年5 月。日 日期:。砖年6 月3 日 硕十学位论文 第1 章绪论 1 1 迭代学习控制的研究背景和意义 迄今为止,自动控制科学经历了经典控制理论、现代控制理论及大系统理论 等阶段的发展,为人类社会带来了巨大的利益。但它们的分析、综合和设计都是 建立在严格和精确的数学模型基础之上的。而实际系统大量存在非线性、时变、 不确定、时浠及强耦合特性等,一般无法获得精确的数学模型。尽管p l d 控制, 特别是近年发展起来的各类鲁棒控制方法在一定程度上均能获得比较好的跟踪控 制效果,但难以满足高精度跟踪控制的要求。另外,绝大多数控制技术都是渐近 地实现跟踪任务的。也就是说在控制的初始阶段带有较大的跟踪误差。在类似于 机器人焊接等需要机器人末端严格按照预先确定的轨迹运行的控制任务中,这类 方法难以得到非常满意的跟踪控制效果。如果希望实现被控系统的输出零误差地 完全跟踪期望轨迹,无疑是一个吸引人的具有挑战性的控制任务。迭代学习控制 技术就是针对这种控制任务提出来的。它从一个不同的角度构造控制律,能够克 服一些传统控制方法难以逾越的困难。 迭代学习控制方法适合于某种具有重复运动性质的被控对象,如在工业生产 孛,搬运及装配工业机器人、数控枫床、磁盘光盘驱动系统、机械系统串的坐标 测量机等都具有重复运行的特性。也就是说这类系统总是重复执行相同的任务, 在同一条轨迹上反复运行。那么,利用系统先前的控制经验和输出误差来修正当 前的控制作用,随着控制过程的反复进行,最终完全有望获得高精度、高性能的 控制效果,即使系统输出尽可能收敛于期望值。基于这一出发点,日本学者 u c h i y a m a ( 1 9 7 8 ) 和a r i m o t o ( 1 9 8 4 ) 提出了迭代学习控制( i t e r a t i v e1 e 锄i n gc o n t r o l , i l c ) 的思想与方法,并很快引起了国际同行的广泛关注。i l c 经历了二十年的发 展,己成为智能控制的重要组成部分。并且由于它是目前己有智能控制方法中有 着严密数学描述的一大分支,在神经网络、模糊技术等相继陷入发展瓶颈的今天, 迭代学习控制方法及其应用研究仍然显示出强大的生命力和广阔的提升空间。不 仅在实际应用中取得了莨好效果,雨且在理论上也取得了丰硕成果,其强大的生 命力受到控制界的极大关注。 1 2 迭代学习控制的发展与现状 自从美国学者f u 在1 9 7 0 年提出这种学习控制的概念后,对学习控制的研究 一直很活跃。1 9 7 3 年美国和日本以学习控制和智能控制为题召开了专题讨论会【2 1 , 迭代学习控制算法的研究 在2 0 世纪7 0 年代发表了大量有关学习控制和智能控制的文章。1 9 7 7 年s a t a d i s l 3 】 发表了他著名的专著随机系统的自组织控制,总结了这些理论成果。在2 0 世 纪8 0 年代,由a r i m o t o 【4 l 与其同事k a w a m u r a ,m i y a z a k i 等人对开环的p 型、p i 型、 p i d 型以及d 型、p d 型的学习算法的理论与应用做了大量的研究工作,取得了相 当一批理论成果,并取得了在机器人应用上的成功,其研究工作带动了当时国际 学术界对迭代学习控制的研究。古典或者现代控制理论对具有在定时间内循环 往复运动的机器人的应用难以收到令人满意的效果。由于迭代学习控制自身的特 点,它的研究对诸如机器人等有着非线性、强耦合、难建模且对运动控制有着高 速、高精度要求的对象有着重要的意义。 在此后的十几年间,迭代学习控制技术随着与其相关的学科及应用领域,如 计算机技术,现代智能控制,机器人技术等的发展而发展。自1 9 9 2 年以来,迭代 学习控制的研究出现了新飞跃,在国内外颇具影响的期刊以及在连续几年的国际 控制决策大会上都发表了不少的研究成果。其代表性的成果是迭代学习算法结构 研究,鲁棒性研究,尤其是工程实际应用方法,研究结果多集中于将迭代学习控 制应用于各种具有某种重复运动性质的受控对象,他们扩大了迭代学习控制理论 的适用范围。 近几年来,迭代学习控制的研究逐步深入,其研究的具体内容包括学习律和 学习系统的研究,学习控制的收敛性,学习控制过程的鲁棒性,收敛速度及初值 问题,分析方法及应用等。自适应、模糊控制、神经网络、变结构控制等先进的 控制技术也越来越多的运用于迭代学习控制,由此产生了各种新算法,获得了用 单一控制方式难以实现的期望特性,还可以克服传统控制方法所固有的特性设计 方面的缺陷。另外,它还渗透到非控制领域,用于参数、模型辨识和曲线拟合等 方面。 目前,迭代学习的应用研究仍是其重点之一,在早期主要集中于离线应用基 础上在线应用已是趋势之一,不断拓宽其应用领域是研究的主要任务之一。 1 3 迭代学习控制所存在的问题 迭代学习控制发展至今,在理论和应用方面已取得了很多成果,但由于迭代 学习控制理论处于形成和发展阶段,还存在许多有待解决的问题: 1 迭代学习控制的初始值问题。迭代学习控制算法在收敛性证明过程中部假设 系统初始状态是理想的或者可重复的,即( o ) = 屯( 0 ) ,( 七= 0 ,1 ,2 ,) 或 工( o ) = 以( 0 ) ,( i = 0 ,l ,2 ,) 。但在实际系统中由于各种不确定因素的存在,很难保 证每次运行的初始状态都与期望轨迹的初始状态相同或者完全可重复,如果初始 状态不同,则必须重新开始学习。因此,放宽迭代学习控制中的初始条件,即学 习控制算法本身对初始偏差的鲁棒性,仍然是具有重要意义的课题。 2 硕十学何论文 2 迭代学习控制器的泛化问题。也就是说,如何利用在学习过程中获得经验知 识。由于目前的迭代学习控制算法都是针对某一特定轨迹来学习的,且对这一轨 迹可以实现很好的跟踪。但当期望轨迹改变时就必须重新学习,缺乏足够的归纳 适应能力。如果能对以往轨迹的学习过程中获得的经验知识全部或部分的利用起 来,那么一定会在某些方面,至少是在收敛速度上有所改善。目前,人们只研究 了利用数据库存储经验知识,但还没有一个有效的寻找策略或者算法能充分利用 这些经验知识。如果这些经验知识能被充分利用,那么,必将增加算法的适应性 和可移植性。 3 迭代学习律的收敛速度问题。由于迭代学习律的收敛性是在迭代次数趋于无 穷时得到的,但是在实际中,这种情况是不现实的,因此,缓慢的收敛速度阻碍 着迭代学习控制的实际应用。在某些重要的学习算法中,如p 型,d 型等的迭代 学习算法,如何提高学习算法的收敛速度,迭代学习控制的收敛速度到底与哪些 因素有关,与学习律,学习律参数和期望输出与实际输出之间的误差大小有什么 样的关系等问题,只是在实验中有了一定的说明,没有给出理论上的证明,还没 有一个很好的数学工具去分析收敛速度,以及如何提高收敛速度。这些仍然是值 得研究的。 4 如何利用先验知识问题。一方面,迭代学习控制只需被控对象少量的先验知 识就可以很好地工作,但实际上并不是所有的被控对象都没有任何先验知识。如 果能将被控对象已有的先验知识充分利用起来,必将推动迭代学习控制的发展;另 一方面,在理论上迭代学习控制器运行时只需系统输入输出信号及期望信号,不 需要系统动态过程的参数,但在实际中为了设计稳定的迭代学习控制器还是需要 一些被控对象的模型参数。 5 控制系统的结构问题。目前,在学习控制中主要是利用开环或闭环学习律, 来讨论算法的收敛性,鲁棒性等。单纯的利用历史数据,即使学习律满足收敛条 件也有可能产生很大的跟踪误差。因此,采用适当的开环和闭环学习增益结合会 收到很好的效果。但是开环或闭环学习增益到底在开闭环控制律中起到什么样的 作用,还不明确,对系统的收敛速度,算法的鲁棒性有什么样的影响,还没有定 论。因此,研究开闭环学习控制具有更广泛的意义。 1 4 本文的主要研究内容 本文将在介绍迭代学习控制的发展研究现状和基本原理基础上,对迭代学习 控制的算法进行较深入的探讨。并且对一些已有算法根据其特点进行了一定的改 进。全文的主要结构如下: 第一章为绪论,主要介绍迭代学习控制研究的背景、意义、目前研究的现状、 存在的问题及发展方向的展望: 迭代学习控制算法的研究 第二章概述了迭代学习控制的基本思想、与其他控制算法的联系和研究内容。 将迭代学习控制与反馈控制、最优控制、自适应控制、鲁棒控制、智能控制等控 制方法作了比较,并简要介绍了学习律、收敛性、鲁棒性、学习速度、初始值和 应用等方面的内容。 第三章讨论了线性系统、非线性系统的开、闭环p i d 型迭代学习算法的收敛 性,给出了相应的理论证明和仿真实验。将闭环d 型迭代学习算法在倒立摆模型 上进行了应用。分析仿真结果,表明此算法所得迭代学习控制器可以使倒立摆在 一定的初始状态下运行到平衡点附近;对比传统的反馈控制输出,该算法的控制 器具有更短的调节时间和更小的超调,能更好地实现倒立摆的稳定控制。又选取了 一个连续线性系统的抽象对象迸行分析,无论是理论推导还是仿真结果都说明:在 一定条件下,闭环算法比开环算法具有更好的收敛性和更强的鲁棒性。采用闭环 算法,学习速度大大提高了。 第四章针对非线性离散时变系统的迭代学习控制闻题,提出了一种改进的迭 代学习控制算法。在新控制算法中,增加了状态补偿,解除了所有迭代时初始条 件相同的限制,而且通过状态补偿可使系统输出更精确地跟踪期望轨迹输出。另外, 还引用了小波变换来对跟踪误差进行了滤波而没有相位补偿,从而削弱了迭代学 习中的高频信号,得到所需的低频信号使系统的实际输出以更快的速度收敛于系 统的理想输出。进一步从理论上证明了新算法的收敛性。理论分析与仿真结果均 表明所提出的迭代学习算法具有更好的收敛特性。 第五章针对多变量线性时变系统提出了一种迭代学习算法,证明了算法收敛 的充分必要条件。进一步地,针对鲁棒性问题,在状态扰动,输出可测噪音和初 始误差的情况下,证明了该条件也是充分的。 第六章,总结与展望。 4 硕十学何论文 第2 章迭代学习控制技术概述 2 1 迭代学习控制基本原理 迭代学习控制( i l c ) 作为智能控制的一个分支,适合于某种具有重复运动性 质的被控对象,其任务是寻找控制输入,即利用系统先前的控制经验和输出误差来 修正当前的控制作用,使系统输出在有限时间区间上尽可能收敛于期望值。并且整 个控制过程要求快速完成1 5 j 。 被控过程的动态特性一般形式表示为: 童2 邝,x ( ) ,“( ) ) ( 2 1 ) y = g ( r ,x ( f ) ) + d ( f ) ”( f ) j 其中:工r “,) ,月”,“矗7 ,工g 为相应维数的向量函数。掘此i l c 问题可以描 述为:给定期望输出为儿( f ) ( 存在与之相应的期望输入( r ) 和每次运行的初始状 态也( o ) ,要求通过多次重复运行( k o o ) ,以给定的学习律下,且在时间r o ,卅 内,使系统控制输入( f ) 一( ,) ,系统输出y 。( f ) 一y 。( ,) 。在传统的迭代学习控制 研究中,一般总是假定下述假设条件满足【6 l 。 系统每次运行时间间隔是有限的固定间隔,即f 【o ,川; 系统的期望轨迹总是预先给定且是己知的; 每一次跟踪时,系统的初始状态x ( o ) 固定,即系统初态具有可重复性。 每一次对期望轨迹儿( r ) 跟踪时,( i ) 、g ( ) 所表示的函数关系不变,即系统( 2 1 ) 具有可重复性; 系统每次运行的输出儿( f ) 可测; 存在唯一的控制输入0 ) ,使得在给定的初始状态x ( o ) 下,y ( f ) = 儿( f ) ; 最后一个假设条件与系统的逆密切相关,它等价于要求系统可逆,这显然是 一个非常强的假设条件。不幸的是,实际上许多动态系统不满足可逆的条件,因 此,有时我们不得不降低完全精确跟踪的要求,而代之以寻找使系统输出最接近 期望输出的系统输入这一合理的要求。这等价于在某种范数意义下,迭代学习控 制算法构造了一系列迭代控制序列k ,它收敛于一个可实现的控制信号虬( r ) ,且 拄。f ) 是如下最优问题的解 毋酬儿( r ) 一y ( ,) i l ( 2 2 ) 其中,y ( f ) 为系统的输出。根据如上假定,第k 次对期望轨迹跟踪时,系统模型可 表示为: 迭代学习控制镡、法的研究 羔暑纂凇榴 s , j , ( ,) = g ( f ,x o ) ,“i o ) ) j 定义输出误差: 吼( f ) = y i ( f ) 一儿( f ) ( 2 4 ) 如果能够恰当利用唧o ) 及控制输入量蜥( ,) 生成下一次跟踪时的控制输入 “( f ) = ( f ) ,( f ) ,n( 2 5 ) 使得当七呻时,虬( r ) 。( f ) 、儿( f ) 一虬( f ) 即在f o ,即范围内: ! 觋“o ) 。“。( f ) , 骢y t ( r ) 5 ,“( f ) ( 2 6 ) 此时,在( 2 5 ) 的作用下,通过对儿9 ) 的反复跟踪,就可以达到高精度控制效果。 以上便是迭代学习控制的基本思想,( 2 5 ) 称为迭代学习律,i l c 的算法研究就是 确定如何利用以前运行的输入坼一。( 力和输出误差一。( ,) 来构造当前运行的控制输入 酢( f ) ,即确定椎( ) = ( 一l ( f ) ,一l ) 的算予( ) 其中8 t 一,) = 耽o ) 一儿一,( f ) 为前 次运行的输出误差,同时还需分析算法的收敛性。整个过程还可以形象地用图2 1 来表示。 图2 迭代学习控制过程原理图 i l c 的基本结构见图2 1 ,图中所有的信号都定义在有限区间r 【0 ,刀上,下标 七表示迭代次数为第次。整个方案运行如下:在第次运行过程中,输入信号“。( f ) 加入被控对象中,产生输出信号n ( f ) 。在此过程中,( r ) 、y 。被存储在相应的 存储器中。当第七次运行结束后,系统将对它们进行离线处理( 当然不是所有的迭 代学习控制都是离线进行的,这跟所采用的算法有关) 。按照l l c 算法将 吼u ) = n ( r ) 一y 。( ,) 和0 ) 进行相应的运算后,得到第+ 1 次的输入信号“( f ) 显然 “( r ) 是( f ) 、n ( f ) 和儿( f ) 的函数。 这时”。( f ) 被存储起来,随后在第| i + 1 次运行过程中,新的输入信号对。0 ) 将 作用到被控对象中去。当然,经迭代后得到的新的输入信号应该比前一次的输入 信号具有更好的控制效果,即能使输出误差逐渐减小。 6 硕七学付论文 关于迭代学习控制的几点评论: 1 一个成功的学习控制方案,它的下一次的输入总是应该使系统性能逐渐得到 改善。评价的标准通常都用输出误差以某种范数的收敛来度量。 2 我们定义的信号有两个变量、f ,需要注意的是,在此七代表迭代的次数, r 代表每次迭代过程中的时间变量,它可以是离散的也可以是连续的。 3 通常我们都假设:系统在每次迭代时,其j 仞始状态都处于相同的状态。这是 研究迭代学习控制的一个非常重要的假设。 4 为分析方便,我们通常设丁为一固定值。当然,r 斗m 也是允许的,这种情 况下称作重复学习控制。 5 i l c 的一大优点在于它仅需要知道系统( 或被控对象) 很少的经验知识。 6 通常我们期望迭代学习控制的对象本身是稳定的,实际应用过程中由于迭代 学习控制经常与其他控制方法结合一起使用,i l c 也可以用来处理被控对象为不 稳定的情况。 7 在实际中,迭代学习方案是不依赖于期望轨迹的。这就是说,如果期望轨迹 交了,只需要重新学习新的轨迹就可以了,并不需要改变迭代学习算法。 根据如上分析,容易得到迭代学习控制步骤如下: 第一步:设置初次工作周期的控制序列“( n ) 。 第二步:得到本次工作周期的输出序列y 。0 ) 及误差序列( 胛) 。 ( 押) = 儿( ”) - y 。( n ) ;下标七表示工作周期的次数即迭代次数。 第三步:利用目标准则判断系统输出儿( 胛) 是否精确跟踪理想输出儿( 行) 。是则 迭代学习结束:否则进入下一步。 第四步:确定下次工作周期的控制序列“川( ) = “。( 玎) + k ( h ) 】,为学习 算子,转入第二步。 从本质上讲,迭代学习轨迹跟踪控制的目标是要获得一个控制序列( 甩) ,使 得系统输出j ,( n ) 精确跟踪理想输出儿( 娌) ( 其中h = l ,;瓦= ,表示系统的一个 工作周期,矗表示系统的采样周期) 。迭代学习的基本原理是利用上一次工作周期 内的误差( ,2 ) 对下一次工作周期的控制输入“。( h ) 进行修正,经过多个工作周期 学习,逐渐使实际输出y ( h ) 收敛于理想输出y 。( ) ”。 2 2 与其它控制算法的联系 迭代学习控制是一种新的控制技术,对于具有重复运动性质的被控对象,能够 通过不断的学习来改变控制效果,实现在有限区间内沿整个轨迹实现任意精度的 轨迹跟踪。在机器手臂,数控机床等具有重复性质的被控对象的控制技术的推动 下,得到了迸一步的发展。下面简要比较几种控制策略与迭代学习控制策略的异 迭代学习控制算法的研究 同,以展示其内在的本质特性。 2 2 1 与反馈控制的比较 “反馈”是控制理论中最基本的概念,传统的反馈控制( 如p i d 控制) 对系统模 型也具有一定的鲁棒性。通过对系统输出或状态信号的反馈与利用,在一定条件 下,反馈控制通常能在时间轴上实现对期望轨迹的渐近跟踪( 如图2 2 所示) 。而迭 代学习控制通过对同一任务的反复运行,多次迭代后能实现完全跟踪( 如图2 _ 3 所 示1 。 输出 时间 籼 图2 3 迭代学习控制过程 ( 注:图2 2 ,2 3 仅为示意图,而非某个系统实际响应过程。) 利用反馈控制的渐近跟踪特性,在迭代学习控制中引入当前输出误差,形成 开闭环迭代学习控制策略,通常能获得比开环迭代学习控制更快的收敛速度。 2 2 2 与自适应控制的比较 对于模型未知系统,将系统辨识与具体的控制方法相结合,就形成了通常所 说的自适应控制。自适应控制与迭代学习控制有很多相似之处,二者都具有某种 智能,能适应系统模型的变化并具有很强的抗干扰能力。这两种控制方法均是在 控制过程中不断对系统进行学习与辨识,不同的是自适应控制是在时间域内进行, 而迭代学习控制则是在迭代域内完成其学习过程。 另外,当系统模型发生变化和出现干扰时,两种策略的处理方法是不同的。 自适应控制是种实时在线闭环控制,根据系统的输出误差调整控制参数,使得 硕十学何论文 系统的输出误差仍然在误差允许范围内;而迭代学习控制通过对系统不断地控制尝 试,改变系统的参考输入量达到控制目的,并不改变算法本身的参数。 自适应控制通常能一次实现对期望轨迹的渐近跟踪,但对于快速时变系统, 辨识过程跟不上系统的变化,此时自适应方法无法很好地对系统进行控制。而如 果快速时变系统同样具有重复性,也就意味着在迭代轴上具有不变性,此时迭代 学习控制仍能对系统进行学习,但需在若干次迭代后才可实现完全跟踪。 2 2 3 与最优控制的比较 大多数最优控制问题可简单描述为:m i i l f f 酬,即给定被控对象和参考信号,寻 h ” 找最优的u ,使e 为最小。可以看出,在最优控制问题中,前提是己知系统精确 的数学模型,求得的最优控制参数值。但是,如果系统模型发生变化,那么己求 得的最优控制将不一定仍是最优的;而且最优控制是一种闭环控制。如果对于一个 稳定的系统。我们完全有可能用迭代学习方法寻找出它要求的最“优”控制来, 因为二者都是以误差的收敛度量的。二者的区别在于迭代学习控制不依赖于模型, 需要较少的先验知识,它一般是离线进行的。将最优控制和迭代学习控制结合起 来也可以提高迭代学习控制的收敛速度,即引入某个目标函数,采用最优化方法 设计最优学习控制律。李新忠等就以跟踪误差的二次型性能指标为优化目标,通 过极小化目标函数,导出相应于开、闭环p 型学习律的新型控制策略,并给出了 收敛条件。 2 2 4 与鲁棒控制的比较 鲁棒控制是一种克服系统不确定性的控制方法,可以在不确定因素一定变化 范围内,保证系统稳定和维持一定的性能指标,从而能有效地解决被控对象模型 不确定性和外界扰动不确定性问题,实现对期望轨迹的渐近跟踪。鲁棒控制将系 统的不确定性分为结构不确定和非结构不确定,多数i l c 策略不直接考虑非结构 不确定而是作为余项。迭代学习控制也具有很强的鲁棒性,可实现对期望轨迹的 整个轨迹的任意精度跟踪。可以浇它属于鲁棒控制。但它与其它鲁棒控制的区别 在于它没有精确的控制器。d o h 等就将迭代学习控制与鲁棒控制理论相结合,提 出由于鲁棒反馈控制器可以稳定系统和保证系统的收敛性,于是将其用于迭代学 习控制结构中,并通过结构奇异值和线性分式变换证明系统的鲁棒稳定性和收敛 性。 2 2 5 与模糊控制的比较 模糊控制适用于难以精确建模的复杂对象( 同样适用于非线性和时变系统) ,不 过模糊控制仍然是一种基于模型( 知识模型人的控制经验) 的控制方式,它以模糊 9 迭代学习控制算法的研究 集合、模糊语言变量以及模糊逻辑推理作为控制算法的数学工具。模糊控制实质 上还是一种反馈控制,与一般的控制系统一样,需要能够提供实时数据的在线检 测装置,且一般认为模糊控制难以实现高精度控制要求。迭代学习控制作为智能 控制的组成部分,有着严格的数学描述,算法相当简单而有效,且系统在迭代域 内有着与离散时间系统相类似的一些性质。因而更容易利用系统科学中的理论与 方法对其稳定性、收敛性进行分析。然而现有的迭代学习控制只能用于某种特定 的轨迹跟踪问题。学习的结果是在记忆下的控制过程,一旦要求改变输出轨迹, 必须重新学习,因而是属于“死记硬背”式的学习,没有较好的联想,推广等知 识应用能力,也就限制了其应用范围。将迭代学习控制与模糊控制理论相结合就 可以弥补迭代学习控制的这一缺陷。王从庆就针对机器入动力学模型的不确特点, 把迭代学习控制与模糊控制理论相结合,运用多变量模糊推理理论,结合现场操 作人员的经验,构成控制经验知识库。经过推理计算获得较精确的控制量,将此 量作为前馈量加到控制系统中,运用迭代学习算法,修难前馈量偏差,使温度输 出曲线高精度跟踪设定目标曲线。 2 2 6 与逆动力学控制的比较 迭代学习控制的思想很简单,就是通过不断地对控制输入进行修正,最终实 现对期望轨迹的理想跟踪。显然,如果系统模型可以获得,那么直接利用系统的 逆模型即可获得实现对期望轨迹跟踪所需的控制输入。举一个简单例子,如果 y o ) = 协( f ) 】已知,那么取“( f ) = ,。1 【虼( f ) 】。( 假设,( t ) 可逆) 便可实现对期望轨迹的 理想跟踪。这就是我们所熟知的机器人控制领域中经常采用的逆动力学控制策略。 因此,迭代学习控制可以看作是对系统逆动力学的学习过程,它也属于一种前馈 式控制策略,而逆动力学控制就是“一步”实现的迭代学习控制。 2 3 迭代学习控制的研究内容 迭代学习控制的研究内容包括在学习算法研究过程中各种学习律的提出以及 学习系统结构形式,迭代学习控制的收敛速度问题、初值问题、学习控制分析手 段问题及迭代学习的应用方法等。 2 3 1 迭代学习律 学习律即迭代学习控制的算法。迭代学习控制的中心向题就是如何选择一种 学习律,使得系统既有良好的稳定性又有较快的收敛速度。学习律的研究是迭代 学习控制的基础,也是迭代学习控制理论研究中最广、最成熟的问题之一,包括 提出新算法、放宽收敛条件、加快收敛速度等。 1 p i d 型学习律 l o 硕十学位论文 目前,绝大多数迭代学习控制算法采用p i d 型,这也是最简单的一类迭代学 习控制算法。由于这个算法和传统的p i d 控制算法极为相似,对参数的调节和整 定规律也一样,从而得到了广泛应用和深入的研究,是最成熟的迭代学习控制算 法之一。a r i m o t o 及其合作者在这一方面的贡献最大,他们提出了d 型,p 型【乳9 】 p d 型1 1 0 】和p i d 型1 1 1 迭代学习律。更重要的是,为了便于理论的分析,他们引入 了五范数这个数学工具,从而得到了保证上述各学习律收敛的充分条件。这一范 数成为了以后许多迭代学习律收敛性分析的基本工具【l ”。对于更一般的非线性系 统 1 3 r1 4 1 多输入输出系统【1 5 1 时变系统1 卅等,许多学者根据不同的系统条件,也得到 了一系列简单的p i d 型学习律的收敛条件。 尽管p i d 型迭代学习律算法简单优美,理论比较完善,且跟踪效果和鲁棒性 也不错,但也存在着较大的问题。首先,在仅有p i 型学习律作用时,只有在系统 是双正则的条件下,才能保证算法的收敛性;而对于系统相对阶大于1 的严格正则 系统,仅靠p i 型学习律作用是不能保证算法的收敛性的,必须加入包含微分的d 型作用。可是在实际应用中,往往存在量测噪声,这将严重影响d 型学习律的效 果。为了抑制噪声的影响,一般又应尽量避免使用d 型学习律。这对于p i d 型迭 代学习律来说,是一个很大的矛盾。 其次,绝大多数论文对p i d 型迭代学习律的收敛性和鲁棒性分析以存在理想 控制信号使系统的输出轨迹与期望轨迹一致为前提,采用b e l l m a n - g r o n w a l l 引理, 并依据旯范数的性质将时间值较大部分的系统误差加以忽略,从而获得收敛性的 证明。不难想象,随着时间值的增大,这部分被忽略的误差将对收敛性产生很大 的影响。仿真结果业已表明,即使在a 范数意义下具有指数收敛速度的学习控制 算法也可能产生巨大的跟踪误差【1 7 】。所以,单纯依靠这些收敛充分条件来选取学 习控制器参数可能存在隐患。这也是所有采用上述证明手段得到收敛条件的迭代 学习律均可能存在的一个缺陷。 最后,学习律的参数选择( 也即控制器的综合问题) 一直是p i d 型迭代学习算法 的难点。算法的收敛速度是评价迭代学习控制的重要指标之一。p i d 型学习律中 的各项学习系数对学习控制的收敛性和收敛速度的影响很重要。在p i d 型迭代学 习控制中,往往会由于参数的选择不恰当,导致开始几次学习运行时,系统的输 出误差很大,导致控制信号也很大。对于真实的系统而言,这是一个难以接受的 缺陷,因为过大的控制信号要么不可实现,要么可能会对系统产生难以恢复的损 害。 2 高阶学习律 学习律中若构造第f + 1 次运行的控制输入“。( f ) 只使用了第f 次迭代的信息数 据时称为一阶学习律,利用第f 次,f 一1 次,直到第f 一+ 1 次的信息数据时, 称为阶数为的高阶学习律,此思想由b i e n 等1 1 s j 提出: 造代学习控制算法的研究 卫 甜l + l ( f ) = 2 :只甜i + l ( f ) + q q “p ) ( 2 7 ) = l 由于高阶学习律对学习过程中以往信息的充分利用,高阶学习律可以改善算法的 收敛速度,使系统的抗干扰性能增强。b i e n 等人首先研究了针对线性时不变系统 的二阶迭代学习算法然后又将其推广到阶( = 2 ) 的情况,并证明了应用于一类 非线性系统时的收敛性。 3 前馈反馈迭代学习律 早期提出的迭代学习控制是基于前次的控制信息,是一种前馈控制,它对不 可重复干扰不具有鲁棒性,在迭代的初始阶段,输出跟踪误差有可能很大。此外, 当系统存在建模误差或具有非线性时,只采用经典的线性反馈控制,反馈增益必 须趋于无穷大,才能精确地跟踪期望轨迹。但在实际工作环境中,反馈增益不可 能无限大。文献 1 9 】提出了前馈反馈控制学习律,反馈控制器用于实现系统镇定 任务和抑制外部干扰,使系统稳定在期望轨迹的邻域内,前馈控制器用于补偿非 线性特性,在反馈控制器的协助下,系统可快速实现在一定精度下的输出轨迹跟 踪任务。 k u c 2 0 1 提出一种反馈前馈迭代学习律为 “+ ( ,) = 甜:o ) + “;0 ) ,“:( f ) = f ( o ) ) ,村玉l ( ,) = 甜f ( f ) + 上0 1 0 ) ) ( 2 8 ) j a n g 【2 1 】提出另一种前馈部分的学习过程稍有不同的反馈前馈迭代学习律为 “。( f ) = “f ( f ) + “;( f ) ,“:( f ) = f ( 气( f ) ) ,“厶1 ( ,) = “。o ) + 三 i ( r ) ) ( 2 9 ) a m a i l n f 2 2 1 针对系统g ,在频域上给出了具有反馈前馈作用的迭代学习律的一 般表示形式 以+ l = 以+ 托乓+ 蜀邑+ 。 ( 2 1 0 ) 并根据压缩映射原理,得到了上述形式收敛的充分条件为 忖+ g 墨) 。( ,一g 妊) l l ( 2 1 1 ) 进而利用日。优化技术,依据上述条件。提出了分步计算迭代控制的前馈作用和反 馈作用的学习律设计方法。然而,条件( 2 1 1 ) 是比较苛刻的,当系统为非最小相位 或严格正则时,无论怎样选择反馈前馈作用,它均不能成立。在这种情况下,必 需引入频段滤波器,牺牲对期望轨迹的高频段信号的跟踪精度,以保证学习律的 收敛性。m o o r e 【2 3 1 提出一个更为通用的具有反馈一前馈作用的算子表达形式 以“= l u + 一e + 瓦乓+ , ( 2 1 2 ) 容易得到,此时相应的收敛条件可由算子范数描述为 忡+ 瓦g r l ( l o g ) 0 l ( 2 1 3 ) 根据上述条件,只有在瓦= ,时才有可能使系统的输出误差一致趋于零,否则,误 1 2 硕十学位论文 差将收敛于非零的值,也就是存在余差。d e r o o v e r 【“1 首先根据期望轨迹的情况和 系统鲁棒稳定性的要求设计好l 和瓦,然后将条件( 2 1 3 ) 转化为一个标准的以优 化设计问题,得到l ,最后按( 2 1 2 ) 式综合学习律。早期的迭代学习律的研究主要 采用开环结构,近年来,绝大多数的迭代学习律都是基于开环和闭环相结合的结 构上提出来的,般均为反馈前馈学习律。 4 遗忘算子迭代学习律 一个实际运行的迭代学习系统存在初始偏差,状态扰动和测量噪声, h e i n z i n g e r 等2 5 1 针对系统存在以上三种干扰的情况,提出了带遗忘算子的p i d 迭 代学习律: j, “。“o ) = ( 1 一,) “。( r ) + ,似o o ) + r 二三p ( r ) + 三已,( f ) + yi p 。( r ) d r ( 2 1 4 ) f i 遗忘算子y 的引入主要考虑初始输入偏差项的影响,为了保证迭代收敛性,随着迭 代次数的增加需不断地减小,的影响。可以看出引入遗忘算子后随着迭代次数的增 加,越早的控制作用越小,这样可以使控制信号的变化比较平滑。w a n g 【26 l 等在将 迭代学习控制应用于机械手轨迹控制时也采用了带遗忘算子的迭代学习控制算 法,并给出了保证算法收敛的充分条件。 5 模型参考学习律 c h e a l l 等2 7 1 在机械臂阻抗控制( 控制目标不是期望轨迹,而是参考模型,它不 跟踪运动或力轨迹,通过目标模型调节机械阻抗1 的启发下提出了模型参考学习控 制,学习律使系统响应收敛于参考模型确定的期望轨迹,该算法可用于改变输出 目标的情形。 6 基于2 d 理论的迭代学习律 由于迭代学习控制算法的学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租车带司机合同范本
- 硅藻泥签约合同范本
- 排泄护理领域的研究进展与临床应用
- 浙海院物理海洋学教学大纲
- 2026年高端私人影院建设公司资金管理制度
- 肠内营养的区别
- 猪肉的营养价值
- 装维管理经验介绍
- 2025-2026学年广东省肇庆市碧海湾学校、博纳实验学校高三上学期9月月考历史试题(解析版)
- 2024-2025学年江苏省南通市高一上学期期末考试历史试题
- 德尔福小发动机管理系统
- 2025年兵团网格员考试题及答案
- 沙子石头购销合同(标准版)
- 材料成形基本原理第三版祖方遒课后习题答案
- PDM知识培训课件
- 小公司安全生产管理制度
- 2025年中国军用级电脑行业市场全景分析及前景机遇研判报告
- 统编版八年级语文上册《生于忧患死于安乐》文言文专项练习题及答案
- 护理专利申报和成果转化
- 2024年西藏公务员录用考试《行测》真题及答案
- GB/T 18226-2025公路交通工程钢构件防腐技术条件
评论
0/150
提交评论