




已阅读5页,还剩77页未读, 继续免费阅读
(控制理论与控制工程专业论文)电梯群控系统的自适应多目标优化方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 本文主要研究了电梯群控系统的自适应多目标优化方法。 由于电梯群控系统重要的实际意义,其自适应多目标优化问题得到了广泛关 注。电梯群控系统是一个典型的多目标系统,为探索解决问题的有效方法,论文 首先系统地总结了电梯群控系统多目标优化方法。在此基础上,建立了电梯群控 系统的自适应多目标优化结构,并且对结构中各组成模块的功能进行了介绍,同 时详细阐述了自适应多目标优化原理。 在自适应多目标优化过程中,优化评价函数参数是解决整个问题的关键。论 文以马尔可夫决策过程为背景,模型化评价函数参数优化问题,根据所研究问题 的特点定义模型各要素。并且通过对自适应优化方法的总结、分析与比较,提出 基于强化学习的评价函数参数优化方法,即利用强化学习的s a r s a ( 2 ) 值迭代算 法和策略梯度算法实现算法的迭代更新,并且将两者分别与t i l ec o d i n g 函数逼近 相结合。然后利用随机过程、矩阵论以及不动点理论,分析证明相关算法收敛性。 针对所提出的评价函数参数优化方法存在收敛速度慢、训练时间长等问题, 将隐偏向信息学习与强化学习相结合,进一步提出了改进的评价函数参数优化方 法。仿真实验表明,改进方法的收敛速度明显提高,同时缩短了学习时间。 设计结合自适应多目标优化单元的电梯群控虚拟仿真环境的结构,定义各部 分功能函数之间的接口。结合电梯群控虚拟仿真环境进行仿真,生成了两种不同 的交通流用于算法的仿真与训练,首先分析比较两种评价函数参数优化方法在解 决电梯群控系统的自适应多目标优化问题中的学习能力,然后通过与其他方法进 行比较,仿真结果不仅体现了所研究的自适应多目标调度优化方法对于不同的交 通模式具有较强的适应性,而且获得了综合性能更好的优化结果。 关键词:电梯群控系统自适应多目标优化评价函数参数优化强化学习 s a r s a ( 2 ) 算法策略梯度函数逼近 a b s t r a c t t h i sd i s s e r t a t i o nm a i n l yr e s e a r c h e so n a d a p t i v em u l t i - o b j e c t i v eo p t i m i z a t i o n m e t h o d sf o re l e v a t o rg r o u pc o n t r o ls y s t e m s t h ep r o b l e mo fm u l t i - o b j e c t i v ee l e v a t o rg r o u po p t i m i z i n gh a sr e c e i v e de x t e n s i v e a t t e n t i o nd u et oi t sh i 【g hp r a c t i c a ls i g n i f i c a n c e a ne l e v a t o rg r o u pc o n t r o ls y s t e m s e r v e s 嬲at y p i c a lm u l t i - o b j e c t i v es y s t e ma i m i n ga ti n c r e a s i n gt h es e r v i c ef o r p a s s e n g e r sa n dr e d u c i n gt h ec o s ts u c ha sp o w e rc o n s u m p t i o n s oi no r d e rt of i n do u t t h ee f f e c t i v es o l u t i o nf o rt h i sp r o b l e m ,m u l t i - o b j e c t i v eo p t i m i z a t i o nm e t h o d sf o r e l e v a t o r g r o u p c o n t r o ls y s t e m sa r e i n v e s t i g a t e ds y s t e m a t i c a l l y a f t e rt h a t ,t h e a r c h i t e c t u r eo fs e l f - a d a p t i v em u l t i o b j e c t i v eo p t i m i z a t i o ni sd e s i g n e d ,i nw h i c ht h e f u n c t i o no f e a c hm o d u l e ,i nt u r n ;i si n t r o d u c e d l a t e r , t h i sd i s s e r t a t i o ne x p a t i a t e su p o n t h ep r i n c i p l eo fs e l f - a d a p t i v em u l t i o b j e c t i v eo p t i m i z a t i o ni nd e t a i l t h em o s ti m p o r t a n ts t e pi no p t i m i z i n gam u l t i o b j e c t i v es y s t e mi so p t i m i z i n g p a r a m e t e r so ft h ee v a l u a t i o nf u n c t i o nw h i c hi sa l s ot h ec o r ei s s u es t u d i e di n t h i s d i s s e r t a t i o n t h ei s s u eo fo p t i m i z i n gp a r a m e t e r si st h e nf o r m u l a t e db yt h ef r a m e w o r k o fm a r k o vd e c i s i o np r o c e s sa n de l e m e n t sa r ed e f i n e da c c o r d i n gt ot h es p e c i f i e df i e l d t h r o u g h t h eo v e r v i e w , a n a l y s i sa n dc o m p a r i s o no fs e l f - a d a p t i v eo p t i m i z a t i o nm e t h o d s , t w oe f f i c i e n ta l g o r i t h m sb a s e do nr e i n f o r c e m e n tl e a r n i n ga r eb r o u g h tf o r w a r da n d d i s c u s s e dc a r e f u l l y , i e s a r s a ( 2 ) a n dp o l i c eg r a d i e n ta l g o r i t h m sa r ee m p l o y e d w h i c ha r et h e nr e s p e c t i v e l yi n t e g r a t e di n t ot i l ec o d i n gf u n c t i o na p p r o x i m a t i o n f u r t h e r m o r e ,o nt h eb a s i so ft h ec u r r e n tt h e o r yr e s e a r c ho nr e i n f o r c e m e n tl e a r n i n g , c o n v e r g e n c ep r o p e r t i e so ft h ec o r r e l a t i v ea l g o r i t h m sa l ea n a l y z e da n dp r o v e db y m e a n so fs t o c h a s t i cp r o c e s s ,t h e o r yo fm a t r i xa n dt h e o r yo ff l x e dp o i n t s t h ep r o p o s e dm e t h o d sf o ro p t i m i z i n gp a r a m e t e r so ft h ee v a l u a t i o nf u n c t i o n , h o w e v e r , h a v ei n e v i t a b l ye n c o u n t e r e dt h ep r o b l e mo ft h ec :u i s eo fd i m e n s i o n a l i t y , w h i c hr e s u l t si ns l o wc o n v e r g e n c ea n dl o n gt r a i n i n gt i m e am o d e lo fr e i n f o r c e m e n t l e a r n i n gb a s e do nh i d d e nb i a s i n gi n f o r m a t i o ni s t h e ne s t a b l i s h e d a sar e s u l t , i m p r o v e dm e t h o d sa r ea d v a n c e da c c o r d i n g l y t h ee x p e r i m e n t sd e m o n s t r a t et h a tt h e i m p r o v e dm e t h o d sc a na c c e l e r a t el e a r n i n ga n dh a v ef a s t e rs p e e dt oc o n v e r g e a n dt h ev i r t u a le n v i r o n m e n ts t r u c t u r ef o re l e v a t o rg r o u pc o n t r o li sd e s i g n e d w h i c hi n c o r p o r a t e sw i t hs e l f - a d a p t i v em u l t i o b j e c t i v eo p t i m i z i n gu n i t m o r e o v e r , t h e i n t e r f a c e sb e t w e e nd i f f e r e n tf u n c t i o n a lc o m p o n e n t sa r ew e l ld e f i n e d t h es i m u l a t i o n e x p e r i m e n t sa led o n ei nt h ev i r t u a le n v i r o n m e n tf o re l e v a t o rg r o u pc o n t r 0 1 f i n a l l y , w i t ht w od i f f e r e n tt r a f f i cf l o w su s e df o rs i m u l a t i n ga n dt r a i n i n go fa l g o r i t h m s ,w e v a l i d a t et h et w od i f f e r e n ti m p r o v e dm e t h o d sf o ro p t i m i z i n g p a r a m e t e r sb y e x p e r i m e n t so ne l e v a t o rg r o u ps c h e d u l i n gt a s k a l t h o u g ht h es t u d i e dm e t h o d s f o ru s e i nm es e l f - a d a p t i v eo p t i m i z a t i o nf o rm u l t i - o b j e c t i v ee l e v a t o rg r o u pc o n t r o ls y s t e m s a r ed i f f e r e n ti nr e s p e c it ot h e i rl e a r n i n ga b i l i t i e s ,t h e yb o t hh a v et h ea d v a n t a g eo f a d a p t i n gt od y n a m i c so f t h ee n v i r o n m e n ts u c ha sd i f f e r e n tt r a f f i cp a t t e r n s t h er e s u l t s a l s os h o wb e t t e rg e n e r a lp e r f o r m a n c eo ft h es t u d i e dm e t h o d si nc o n t r a s tt os o m eo t h e r e x i s t i n gm e t h o d s k e yw o r d s :e l e v a t o rg r o u pc o n t r o ls y s t e m s ,a d a p t i v em u l t i - o b j e c t i v e o p t i m i z a t i o n ,o p t i m i z i n gp a r a m e t e r so ft h ee v a l u a t i o nf u n c t i o n ,r e i n f o r c e m e n t l e a r n i n g ,s a r s a ( 2 ) a l g o r i t h m ,p o l i c yg r a d i e n t ,f u n c t i o na p p r o x i m a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:羽、正骓 签字日期:2 0 0 7年月乡日 学位论文版权使用授权书 本学位论文作者完全了解墨盗盘堂有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 孙正雅 签字日期:2 0 0 7 多月乡日 刷磴名匆 签字日期:2 0 0 7 年月5 同 第一章绪论 1 1 研究背景与研究意义 第一章绪论 1 1 1 电梯群控系统的自适应多目标优化问题 在现代社会和经济活动中,电梯已经是城市物质文明的一种标志。在高层建 筑中,电梯是不可缺少的垂直代步设备,它的重要性与平面交通中的汽车相同。 据国外资料统计,每天乘电梯的人数已经超过了每天乘坐汽车的人数。随着现代 化高楼的发展,对电梯的数量、质量以及如何更好地使用电梯都提出了很高的要 求,单台电梯已经不能很好地应付全部的客流,因此,需要设置几台或多台电梯 来满足人们对上下交通服务的要求,由此产生电梯群控系统的概念。 电梯群控系统【l 】( e l e v a t o rg r o u pc o n t r o ls y s t e m ,e g c s ) 是指将安装在建筑物 内的三台或三台以上的一组电梯作为一个有机整体,使用一个自动控制系统调度 每一台电梯的运行,目的是提高系统对乘客的服务质量,并且降低系统的能量消 耗。电梯群控系统是一个具有多目标的系统,目标的多样性表现在: 1 平均候梯时间要求短。候梯时间是指乘客发出外呼信号开始到乘客进入 电梯所经过的时间。在电梯群控系统中,传统的概念集中于解决“减少候梯时间” 这一指标。平均候梯时间是所有乘客候梯时间的平均值,它是评价电梯群控系统 性能的重要指标。 2 长候梯几率要求低。长候梯时间是指乘客候梯时间超过1 分钟的候梯时 间。长候梯几率是指长候梯时间发生的百分率。乘客的心理烦躁程度是与候梯时 间的平方成正比的,当候梯时间超过1 分钟时,其心理烦躁程度会急剧上升,所 以应尽量减少长候梯的发生。 3 平均乘梯时间要求短。乘梯时间是指乘客从进入电梯开始到乘客到达目 的层离开电梯的这段时间。乘梯时间的增长往往也会使乘客的心理烦躁度增加, 所以乘客的乘梯时间应保持在一定的时间限制之内。平均乘梯时间是所有乘客乘 梯时间的平均值,它是评价电梯群控系统性能的指标之一。 4 系统能耗要求低。电梯的能耗与所选电梯的驱动方式、机械性能有关。 电梯全速运行时所消耗的电能远远低于减速和加速时电能的消耗,因此,电梯启 停次数越多,所耗的电能就越多。因此,电梯群控系统节能主要依靠群控系统合 理地安排以及调度电梯对外呼信号的响应,尽量减少启停次数,同时启停次数的 第一章绪论 减少也会延长电梯群的整体寿命。 5 轿厢内拥挤度要求低。轿厢内拥挤度的增大会给乘客带来不便,合适的 轿厢内拥挤度将提高乘客乘坐电梯的舒适感。 由于电梯群控系统各个目标之间相互矛盾,某个目标的改善可能引起其他目 标性能的降低,例如要求轿厢内的拥挤度减小,则相应地会增加乘客的平均候梯 时间;同时,在不同的交通模式下电梯群的控制目标也有所不同。因此,电梯群 控系统的自适应多目标优化问题是在权衡协调多个目标的基础上,根据系统乘客 人数、进门厅的乘客人数、出门厅的乘客人数等因素,实时分析交通流的变化情 况以及系统实际运行状态,自动选择最适宜于当前交通流的输送方式。 为了完成电梯群控系统的多目标优化,在给定约束条件( 例如,优先响应、 同向优先等) 的情形下,需要引入评价函数用来衡量每一台电梯的服务性能,并 且选择满足约束条件的具有最小评价函数值的电梯,以响应外呼。一般而言,评 价函数直接影响电梯群控系统的优化策略,从而对实际性能评价结果产生影响。 不同的建筑物用途不同,交通特征也不同,即使同一建筑物内的交通模式在一天 的不同时间也是变化的,并且用户的服务需求更为多样,加之系统本身所固有的 不确定性和非线性,恒定不变的评价函数参数,容易导致各目标的不均衡优化。 因此为了使各目标在优化过程中能够充分考虑环境变化等因素的影响,构造自适 应评价函数成为解决电梯群控系统多目标优化问题的关键。一方面根据不同的交 通模式选择不同的参数,另一方面根据实际运行过程中的目标函数值的改变动态 修正参数。这样不仅可以实现系统的自适应动态优化,而且有效提高了电梯群控 系统的运行效率和服务质量。 1 1 2 课题研究意义 近2 0 年来,由于电子技术的不断发展和应用,电梯群控系统的性能也得到 了充分的发展。电梯群控已经不再是以缩短乘客候梯时间为单一目标的优化过 程。随着高楼大厦的不断崛起,人们对大厦中电梯服务系统的要求越来越高,同 时对系统性能的要求也趋向多元化,现代电梯群控系统的研究内容在不断扩大, 目前电梯群控系统的一个重要发展方向是采用多目标优化方法来协调多台电梯 的运行,以提高服务质量和运行效率。 多目标优化也称为多指标优化或者向量优化【2 】,其定义为:寻找一个由设计 变量组成的向量,使它能够满足约束条件和由目标函数组成的向量函数,这些目 标函数形成了对所设计性能指标的描述,而且它们之间往往是相互冲突的,故多 目标优化的目的在于找到一个或多个解,以满足所有目标值的要求。 电梯群控系统作为一个典型的多目标系统,其多目标优化不仅体现在缩短乘 2 第一章绪论 客平均候梯时间,减小乘客平均乘梯时间,还要更多地考虑到均衡电梯拥挤度以 及降低系统运行能耗等优化目标。对电梯群控系统的自适应多目标优化进行研 究,旨在实现系统能够根据环境的变化,自适应选择合理的优化策略,使各目标 函数值尽可能地接近期望值,使电梯群控系统始终处于被优化的状态,从而在真 正意义上实现对多个目标的自适应协调优化。这样必将有效地提高系统的自适应 性并且从整体上使电梯群控系统的性能获得极大的改善。 1 2 研究现状与课题提出 1 2 1 电梯群控系统多目标优化方法的研究现状 电梯群控系统以改善对乘客的服务质量,降低电梯的运行成本为目标,通过 有效协调多台电梯的运行来实现。目前大多数的电梯群控系统都是针对每一个具 体的外呼信号来指派电梯,在这种情况下就需要能够根据当前的系统环境来选择 最为合适的电梯【3 】。一般需要采取以下三步: 1 根据每一台电梯以及所有乘客的状态信息预测交通模式以及候梯时间、 轿厢内拥挤度等目标函数值; 2 根据预测的情况计算每台电梯的评价函数值; 3 选择具有最小评价函数值的电梯以响应外呼信号。 一般情况下,将各个目标函数线性加权求和作为评价函数,显而易见,评价 函数直接影响选择哪台电梯来响应外呼,而评价函数的参数关系到评价函数值的 大小,因此是决定系统性能好坏的最为重要的变量之一。为了使系统性能达到最 优,需要根据系统环境的变化动态优化评价函数参数,下面根据评价函数参数优 化方法来研究电梯群控系统的多目标优化方法的发展历程。 日本日立公司于1 9 8 1 年最早将多目标优化方法应用到实际系统中【4 】,并申 请获得美国专利,其中对于评价函数参数的确定,他采用专家经验的方法,即根 据交通模式事前确定几组参数。由于电梯群控系统的复杂性以及交通流的不确定 性,这种方法存在一定的局限性,即缺乏对实际运行环境的适应性,容易产生不 合理的派梯。 随着人工智能( a r t i f i c i a li n t e l l i g e n c e ,址) 理论的不断发展和完善,灿技术逐渐 被引入到电梯群控系统中,于是也为多目标优化方法提供了新的思路。 kk u r o s a w a 5 等于1 9 8 5 年提出将爬山方法和内置仿真器相结合,使系统能 够根据实际运行状态自适应调整评价函数参数,旨在尽量减小乘客候梯时间并且 降低系统能耗。在系统实际运行过程中,内置仿真器通过对不同的候选参数进行 第一章绪论 仿真比较,利用爬山方法搜索效果最好的参数,但是该方法实时性很差,往往需 要多次比较才能获得满意的结果。 为了提高搜索效率,研究者进行了各种方法的尝试。s h i k i t a r 6 】等在内置仿 真器的基础上,于1 9 8 6 年引入模拟退火方法搜索最优的参数;a f u j i n o 等【_ 刀于 1 9 9 2 年将基于专家系统的启发式方法与内置仿真器相结合,利用专家系统所具 有的系统领域知识搜索合适的参数:随着参数个数的增加,以上这些方法便不适 用了,遗传算法作为全局优化算法,由于能够同时实现多点搜索而越来越受到人 们的关注【8 】,为了实现参数的有效搜索,1 9 9 7 年a t s u y af u j i n o 9 】等将遗传算法应 用到电梯群控系统,每个参数的适应度由内置仿真器评估,采用这种方法可以同 时调整几十个参数,从而有效改善了系统的整体性能。 由于内置仿真器不仅影响系统的响应时间而且不利于系统统计目标值的改 进,尤为重要是电梯群控系统具有不确定性以及非线性等,很难准确建立系统模 型,因此构造内置仿真器是不适合的。模糊控制技术不仅能处理精确信息,还能 处理模糊信息和其他不确定信息,并且能够实现精确性联想和映射,因此模糊控 制技术在电梯群控系统中显示了高度的优越性【l 们。 模糊模型逐渐被应用于系统的控制器设计中1 1 】【1 2 】【1 3 】【1 4 j ,为了更加有效地利 用模糊方法,c h a n gb u mk i m 3 】等进一步应用模糊模型描述系统状态和专家知识, 并且根据模糊推理来确定评价函数中的某些参数,不仅在仿真环境下对于系统性 能的改进优于传统的模糊控制方法,并且于1 9 9 2 年将该系统投入市场使用,获 得了良好的反响。 由于模糊方法过多的依赖于专家知识,难以适应动态变化的交通环境,n i m a s a k i 1 5 】基于神经网络提出了一种具有学习能力的参数调整方法,该方法对于 交通环境的变化的具有很强的适应性,但是存在学习时间长,收敛速度慢的问题。 由于模糊推理对于交通环境的短期变化具有鲁棒性,而神经网络的学习能力 对于交通环境的长期变化具有适应性。于是, n a o k ii m a s a k i 1 6 】等将模糊方法与 神经网络相结合,提出一种基于模糊神经网络的参数调整方法。该方法采用模糊 神经网络存储模糊规则集合进行模糊推理,其中模糊规则集合体现了系统的评价 函数参数,交通环境以及系统响应之间的关系。同时,模糊神经网络作为系统性 能预测模型,相当于内置仿真器的作用,实现根据不同的交通条件准确快速地预 测系统的平均性能以选择有效的评价函数参数,从而产生最优的性能评价结果。 上述方法对于评价函数参数的选择都需要事前确定可能提供最好性能的候 选参数集合。尽管新的理论和方法不断地被应用于电梯群控系统的多目标优化问 题中,h o o nh e o 1 。7 】等采用遗传网络规划( g e n e t i cn e t w o r kp r o g r a m m i n g ,g n p ) 预测 系统目标函数值;为了能够在动态变化的环境中,有效利用当前系统状态信息, 4 第一章绪论 j i nz h o u 1 8 1 等将g n p 与强化学习( r e i n f o r c e m e n tl e a r n i n g ,r l ) 相结合预测系统目 标函数值;q i c h a n gd u a n 1 9 】等建立能够自主学习和自动控制的数据库,该数据库 以类似人脑的形式进行信息处理,知识启发以及做出决策。然而这些方法中对于 评价函数参数的确定仍然依赖于专家经验。 目前,国内也开展了电梯群控系统的多目标优化方法的研究,如上海交通大 学【2 0 】、天津大学t 2 1 】【2 2 】、东北大掣2 3 1 、华中科技大学口4 1 、西安交通大学、华 南理工大掣2 6 】等,但其研究未能充分考虑电梯实际运行状态等因素的变化。事实 上,电梯群控系统评价函数参数的选取不仅与交通流情况密不可分,而且也有赖 于系统运行过程中实际目标函数值的变化。因此,对其进行综合研究将可能更好 地适应交通流的变化,有效提高系统的自适应性,改善系统整体优化性能,提高 服务质量。 1 2 2 自适应优化方法的研究现状 在日常生活中,所谓自适应是指生物能够改变自己的习性以适应新的环境的 一种特征。因此,直观地讲自适应优化方法是通过不断修正优化结果以适应环境 的动态变化。自适应优化与传统优化方法一样,也是一种基于数学模型的优化方 法,所不同的只是自适应优化对于模型的依赖性比较少,需要在实际优化过程中 不断提取有关模型的信息,使模型逐步完善。自适应优化方法可以分为两类,一 类是基于进化计算的优化方法,包括:遗传算法、模拟退火、粒子群优化算法、 人工免疫等;另一类是基于学习原理的优化方法,包括人工神经网络、强化学习 等。 1 基于进化计算的优化方法 ( 1 ) 遗传算法【2 1 7 】 遗传算法最先由j o h nh o l l a n d 于1 9 7 5 年提出的,是基于生物进化理论的原 理发展起来的一种广为应用的、高效的随机搜索与自适应优化方法。遗传算法本 质上是基于自然进化原理提出的一种优化策略,在求解过程中,通过最好解的选 择和彼此组合,则可以期望解的集合将会愈来愈好。 在优化过程中,遗传算法模拟了自然选择和自然遗传过程中发生的繁殖、交 配和变异现象,根据适者生存、优胜劣态的自然法则,利用遗传算法子选择、交 叉和变异逐代产生优选个体( 即候选解) ,最终搜索到较优的个体。 遗传算法受到研究人员广泛重视的主要原因是由于它采用随机搜索方法,其 特点是在求解优化问题中,算法除了需要目标函数的信息以外不需要任何其他信 息,不受搜索空间是否连续或可微的限制就可找到最优解,具有较强的适应能力, 并且便于并行计算,被广泛地应用于自动控制和社会科学领域以及各种优化问 5 第一章绪论 题,包括数量优化问题和组合优化问题。 然而,这种方法尚存在很多问题,首先遗传算法没有有效措施来保证所进行 的是全局搜索;其次变异可以消除基因缺陷,但同时会产生新的基因缺陷,因而 如何有效地消除基因缺陷又是一个重要问题;最后进化的终止判定,严格地说, 遗传算法的迭代是不能完全收敛的,这样终止判定就成为一个亟待解决而又举足 轻重的问题。 ( 2 ) 模拟退火【2 8 】 模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却, 加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有 序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。从理论 上讲模拟退火算法是一种全局优化算法。 在优化过程中,将内能模拟化为目标函数值,当温度较高时,根据其接受准 则,可以接受能量值较大的状态,跳出局部极值,从而使当前状态落入包含最优 解的最优空间中;当温度较低时,接受能量较大状态的可能性迅速减少,由于受 到较低的退火温度控制,使得算法在一定阶段,只接受比当前状态能量值小的状 态,因此当前状态的能量值不断减小,直到找到最优解为止。 模拟退火算法的应用很广泛,可以求解n p 完全问题,但是其参数难以控制, 其主要问题有以下三点: 初始温度的设置问题。初始温度高,则搜索到全局最优解的可能性大,但 是因此需要花费大量的时间;反之,则可节约计算时间,但全局搜索性能可能受 到影响。 退火速度问题。一般来说,同一温度下的“充分”搜索( 退火) 是相当必 要的,必将需要很长的计算时间。 温度管理问题。需要考虑计算复杂度的切实可行性等问题,选择合适的降 温方式。 ( 3 ) 蚁群优化算法【2 9 】 蚁群优化算法是受到人们对自然界中真实蚂蚁的群体行为的研究成果的启 发而提出的一种基于种群的模拟进化算法,属于随机搜索算法的一种。与遗传算 法、模拟退火算法等模拟进化算法一样,通过候选解组成的群体在进化过程中寻 求最优解来实现。 在蚁群优化算法中,通过设计虚拟的“蚂蚁 逐步构造问题的可行解,在一 步解的构造过程中,“蚂蚁 以概率的方式选择信息素强并且启发式因子高的弧 达到下一个节点,直到不能继续移动为止,此时,蚂蚁走过的路径对应求解问题 的一个可行解。该算法已经成功地解决了许多复杂的组合优化问题,由于蚁群优 6 第一章绪论 化算法利用随机策略,使得进化速度较慢,收敛速度不理想;其次,利用正反馈 机制强化性能好的解,导致当前不被选用的路径在以后被选用的概率越来越小, 使得算法在某些局部最优解的附近徘徊,出现停滞现象;而且该算法还没有形成 系统的分析方法,也不具有坚实的数学基础,参数的选择更多的还是依靠实验和 经验。总之,其在理论和实践方面尚由很多问题需要更深入的研究和解决。 ( 4 ) 粒子群优化算法【3 0 】 粒子群优化算法也是一种基于群体智能的进化优化算法,其思想来源于人工 生命和进化计算理论,与遗传算法相类似,也是一种基于迭代的优化工具。 粒子群优化算法求解优化问题时,问题的解对应于搜索空间中的粒子。每个 粒子都有自己的位置和速度,还有一个由被优化函数决定的适应值,各个粒子记 忆、追逐当前的最优粒子,在解的空间中搜索。每次迭代的过程不是完全随机的, 如果找到最好解,将会以此为依据来寻找下一个解。与遗传算法相比,粒子群优 化算法的优势在于简单、容易实现,并且需要调整的参数较少,目前已经广泛应 用于函数优化。然而,粒子群优化算法存在易于陷入局部最优,出现早熟收敛的 问题,目前关于该算法的理论和数学基础的研究还很不够。 ( 5 ) 人工免疫算法1 3 l j 生物免疫系统的免疫功能是通过抗体消灭入侵的病原体( 抗原) 而实现的。 模拟生物免疫系统的功能可以构造人工免疫系统,基于人工免疫系统又可以设计 人工免疫算法。人工免疫算法和遗传算法、蚁群算法等都属于模拟自然界生物行 为的模拟进化算法。 采用人工免疫算法求解优化问题时,满足约束条件的最优解即是抗原;候选 解即是抗体。一个抗体可以用一个字符串表示,用亲和力来描述抗体和抗原之间 的匹配程度,用排斥力来描述两个抗体之间的相似程度。与遗传算法相似,人工 免疫算法也是从随机生成的初始种群出发,采用复制、交叉、变异等算子进行操 作,产生优越于父代的子代,这样循环执行,逐渐逼近最优解。所不同的是,人 工免疫算子模拟了免疫系统基于浓度的抗体繁殖策略,出色地保持了解群的多样 性,从而克服了遗传算法种群多样性保持能力不足的缺点。尽管人工免疫算法已 表现出相当好的性能,但是,其研究仍处于萌芽状态,现有的算法没有统一的标 准,而且不管是理论还是应用都尚未成熟。 2 基于学习原理的优化方法 ( 1 ) 人工神经网络【3 2 】 人工神经网络早期的研究工作应追溯到2 0 世纪4 0 年代,而人工神经网络的 兴起,是以美国物理学家h o p f i e l d 于1 9 8 2 年和1 9 8 4 年在美国科学院院刊发表的 两篇关于人工神经网络研究的论文为标志,随即一大批学者和研究人员围绕着 第一章绪论 h o p f i e l d 提出的方法展开了进一步的工作,形成了人工神经网络的研究热潮。 人工神经网络是在现代神经科学的基础上提出和发展起来的,旨在反映人脑 结构以及功能的一种抽象数学模型。一个人工神经网络是由大量神经元节点经广 泛互连而组成的复杂网络拓扑,用于模拟人类进行知识和信息表示、存储和计算 行为。 在优化过程中,人工神经网络通过对大量实例的反复运行,对于特定的输入 模式,神经网络通过前向计算,产生一个输出结果,然后通过对输出结果的比较 与分析,经过内部自适应过程不断修改网络中权值分布,将网络稳定在一定的状 态下。 神经网络已经在很多领域得到了成功的应用,但是由于缺乏严密理论体系的 指导,在实际应用中,因为缺乏问题的先验知识,往往需要经过大量的试验摸索 才能确定合适的神经网络模型、算法以及参数设置,其应用效果完全取决于使用 者的经验。神经网络的另一大缺陷就是典型的“黑箱性 ,即训练好的神经网络 学得的知识难以被人理解,神经网络集成又进一步加深了这一缺陷。 ( 2 ) 强化学习 强化学习是近年来发展起来的一种新兴优化方法,采用动态规划的基本思想 和结构,汲取人工神经网络、计算机仿真、认知科学、人工智能等领域的成果和 方法,通过对实际系统的仿真,对系统自身进行优化,提高系统的性能。 与基于进化的优化方法相比较,尽管两者都是根据对变化环境的适应能力改 变知识,但是基于进化计算的优化方法并没有很坚实的理论基础,而基于强化学 习的优化方法由于以马尔可夫决策过程( m a r k o vd e c i s i o np r o c e s s ,m o p ) 为基础, 其理论相对更为坚实。 在2 0 世纪8 0 年代,基于试错方法、动态规划和瞬时差分方法形成了强化学 习( r e i n f o r c e m e n tl e a r n i n g ) 理论。1 9 8 4 年,s u t t o n t ”】提出了基于m d p 的强化学习; 1 9 9 6 年,k a e l b l i n g t 3 4 】在总结强化学习的研究时指出,实现这种学习的手段就是 自适应机制;1 9 9 8 年,s u t t o n 和b a r t o 3 5 】将这些研究统称为自适应性计算。 强化学习的基本原理是a g e n t l 通过对感知到的环境状态采取各种试探动作, 获得此种试探动作对此种环境状态的适合度评价值( 通常是一个奖励信号或者惩 罚信号) ,a g e n t 不断地修改从状态到动作的映射策略以获得较大的奖励或者较 小的惩罚,最终学会在这种环境状态下采取最好的反应行为。 强化学习有两个主要特点:报酬( 或者惩罚) 延迟和试凑搜索。因此,强化 学习系统一般要解决两个问题:一个是报酬( 或者惩罚) 随时间分配问题。学习 1 a g e n t 是指在某一环境下具有自主性、社会性、反应性、主动性等特征的计算实体。它可以指一个机器人, 个专家系统,一个过程,一个模块或一个求解单元等。在强化学习问题中,学习者和决策者称为a g e n t 。 8 第一章绪论 系统往往是在执行了一系列的决策后才得到延迟的报酬( 或者惩罚) ,为了调整 决策或者改进性能,系统必须确定在这个过程中哪些决策应该对最后的结果负 责。另一个问题是如何试凑搜索,即采用何种探索策略,也就是报酬( 或者惩罚) 的结构分配问题。尤其当问题的状态空间很大和决策空间很大或者连续时,学习 系统不可能探索所有空间。 目前,强化学习的理论及其应用研究正日益受到重视,关于强化学习的课题 得到了美国国防部,美国国家科学基金、国家青年科学基金以及美国海军、空军 研究办公室的资助【3 6 】【3 7 】【3 8 】【蚓。另外,德国、韩国、澳大利亚等国的学者都在开 展有关强化学习的理论和应用研究m 【4 1 】【4 2 】【4 3 1 。但在国内,强化学习的研究还处 于起步阶段,而且对理论本身的研究相对较少。综合国内外的研究状况,目前对 非马尔可夫环境下的强化学习研究正成为研究的热点。非马尔可夫环境可以进一 步分为函数估计、多a g e n t 强化学习、部分感知强化学习以及强化学习偏差技术 研究】。 强化学习由于其特点在任务调度、自动控制系统、通信网络中的资源分配、 机器人等领域中的应用正日益受到重视。r o b e r tc d t e s 4 5 】等研究了高层建筑中利 用强化学习的多个电梯的调度算法;蒋国飞【4 6 】等利用强化学习对倒立摆进行控 制;m 嘶n a 【4 7 】在无线智能a t m 网络中应用强化学习解决带宽分配和拥塞避免; m a n s f i e l d t 4 8 1 等在多智能体追逃任务中基于强化学习提出n 一学习算法。应用研究 主要解决如何将问题用合适的强化学习模型来描述,以及如何更直接、更简单地 将强化学习加以应用,其中的关键是如何选取强化信号,以及状态的表示。强化 学习具有广泛的应用领域,对于解决自适应多目标优化问题,强化学习将为我们 提供了一种新的有效的途径。 1 2 3 目前存在的问题 1 电梯群控系统多目标优化问题中评价函数参数的优化。 近年来,电梯群控系统多目标优化问题得到了人们的广泛关注,大量先进的 优化方法应用于电梯群控系统,使得电梯群控系统的性能得到很大的改善,但仍 有一些问题需要进一步研究。电梯群控系统的多目标优化方法中,一般情况下, 将各个目标函数线性加权求和构成评价函数,显而易见,评价函数直接影响选择 哪台电梯来响应外呼,而评价函数参数关系到评价函数值的大小,因此是决策系 统性能好坏的最为重要的变量之一。目前对于评价函数参数的优化只能够保证获 得的最优解为多目标优化的有效解,而很难准确地获取设计者认可的满意有效 解,其原因在于评价函数参数的优化或者根据经验量化各目标的侧重点,或者根 据交通模式的不同在事前确定可能提供最好性能的候选参数集合,然后搜索合适 9 第一章绪论 的参数,都难以适应系统环境的动态变化,更无法满足系统在实际运行过程中以 较同步的方式优化多个目标以提高系统整体服务性能的需求。 2 。强化学习在自适应优化问题中的应用 强化学习的机理比较符合生物的学习过程,其思想与b r o o k s 提出的行为主 义思想是完全一致的。从国内的研究状况看,强化学习的应用研究还不广泛,尤 其是在实际系统中应用得更少,因此,应加大这方面的研究力度。 强化学习作为一种通过学习进行优化的方法,特别适合于那些易于仿真而难 于数学分析的复杂系统的优化问题,因此,对于电梯群控系统的自适应多目标优 化问题,采用强化学习方法对其评价函数的参数进行优化具有一定的优势,而且 对于改善系统的性能具有重要的意义。然而,目前关于这方面的应用研究相对较 少,需要解决如何将该问题用合适的强化学习模型来描述,以及如何更直接、更 简单地将强化学习加以应用。 在此基础上,系统地研究强化学习理论,虽然国内外许多学者对强化学习理 论进行了研究并取得一定的成果,但有关理论问题还未得到完全解决,例如,结 合线性函数逼近的s a r s a ( 名) 算法没有收敛点,但也不会发散,总是在较好的策 略附近震荡。这个结果可以满足实际需要,但是否可以从理论的角度刻画这个“震 荡”解? 总之,无论是进行有关强化学习的应用研究还是理论研究,都还有很多问题 值得做进一步地深入探讨和钻研。 1 3 研究内容与创新点 1 3 1 研究内容 1 研究电梯群控系统自适应多目标优化设计问题。在广泛探索电梯群控系 统的多目标优化方法的研究现状的基础上,通过对自适应优化方法的总结、分析 与比较,建立电梯群控系统自适应多目标优化结构,并且设计自适应多目标优化 过程。 2 基于强化学习设计评价函数参数优化方法。将评价函数参数优化问题置 于马尔可夫决策模型下,然后从不同的角度选择有效的强化学习方法动态优化评 价函数参数,使得评价函数参数在系统实际优化过程中能够根据各目标函数值与 期望值的偏差进行动态调整。 3 针对所设计的评价函数参数优化方法,进行算法的收敛性分析。基于现 有理论研究,针对所设计的评价函数参数优化方法,利用随机过程、矩阵论以及 1 0 第一章绪论 不动点理论,分析证明相关算法的收敛性。 4 将隐偏向信息学习方法与强化学习相结合提出改进的评价函数参数优化 方法。一方面,有效实现了评价函数参数修正步长的在线自动调节;另一方面, 充分利用有限的环境信息以减小动作搜索空间从而提高评价函数参数的在线学 习速度,缩短了算法的学习时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 空压机租赁及空场地租赁环保监测服务协议
- 大数据领域股权投资与数据服务合作协议
- 水处理设施建设方案
- 热力工程项目施工组织方案
- 离婚夫妻共同存款及理财产品分配协议保证书
- 离婚法律协议变更与子女抚养权调整执行顾问服务合同
- 民航货物运输合同安全操作规范与应急处理预案
- 校园防溺水安全教育讲座
- 移动数据服务网络设备保密及维护保养协议
- 针灸科出科考试题及答案
- 土地复垦施工设计
- GB/T 5023.3-2008额定电压450/750 V及以下聚氯乙烯绝缘电缆第3部分:固定布线用无护套电缆
- GB/T 21471-2008锤上钢质自由锻件机械加工余量与公差轴类
- GB/T 12670-2008聚丙烯(PP)树脂
- 非贸项下对外付汇的政策解读和实操疑难解答课件
- 高中心理健康课程《人际关系-寝室篇》课件
- 水产微生物学
- 电力系统继电保护课程设计报告-三段式距离保护
- 香港永久性居民在内地所生中国籍子女赴香港定居申请表
- 部编人教版五年级上册小学道德与法治 第5课 协商决定班级事务 课件
- 跨境电商亚马逊运营实务完整版ppt课件-整套课件-最全教学教程
评论
0/150
提交评论