




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据驱动的石化过程建模与优化平台设计与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于数据驱动的石化过程建模与优化平台设计与开发 摘要 流程模拟、先进控制和过程优化技术的研究与应用是企业提高效益的 主要手段之一,而建立准确的系统模型是实现优化的重要前提。由于石化 过程的复杂性,智能建模方法得到了广泛的应用。因此设计开发一个基于 生产数据驱动的智能化实用数据处理、建模与优化集成的平台具有重要的 实用价值。 本文综合利用化学工程、系统工程、计算机、自动化技术,以大型石 油化工生产过程为背景,研究石油化工过程的数据处理、过程建模与优化 控制等技术,应用基于系统托管堆的动态链表以及多线程并行处理技术开 发了基于数据流驱动的石化过程数据处理、建模与优化平台。平台的开发 主要针对实验室从事的石油化工科研领域,同时兼顾其他领域的应用。平 台采用组件化程序设计方法,设计了一系列具有良好的可重用性、语言无 关性、高度开放性的软件组件。 基于平台,快速地定制了高密度聚乙烯装置串级反应优化操作改造系 统,系统在实际企业应用取得社会与经济效益,从而证明了平台的通用性、 可移植性与定制方面的便捷性。 关键词:数据驱动,组件,建模,优化 a b s t r a c t i n t e l l i g e n tm o d e l i n ga n do p t i m i z a t i o n s y s t e mf o rp e t r o c h e m i c a lp r o c e s s b a s e do nd a t a d r i v e n a b s t r a c t p r o c e s s s i m u l a t i o n ,a d v a n c e dc o n t r o la n dp r o c e s so p t i m i z a t i o n t e c h n o l o g i e s a r et h em a i nt e c h n i c a lm e a n sf o r p r o m o t i n gt h e b e n e f i c i a l e f f i c i e n c y i ne n t e r p r i s e s t h e n ,b u i l d i n ga c c u r a t es y s t e mm o d e li sa n i m p o r t a n tp r e m i s et or e a l i z et h eo p t i m i z a t i o n a sp e t r o c h e m i c a lp r o c e s si s v e r yc o m p l i c a t e d ,i n t e l l i g e n c em o d e l i n gm e t h o dg e t sb r o a da p p l i c a t i o n t h e r e b y ,t h e r ew i l lb eo fg r e a tv a l u et od e s i g na n dd e v e l o pa ni n t e l l i g e n t i n t e g r a t e ds y s t e mb a s e do nd a t a d r i v e n ,w h i c hi si n c l u d e db yd a t ap r o c e s s i n g , m o d e l i n ga n do p t i m i z a t i o n i nt h i sp a p e r ,b yc o m p r e h e n s i v eu t i l i z i n gc h e m i c a le n g i n e e r i n g ,s y s t e m e n g i n e e r i n g ,c o m p u t e r ,a u t o m a t i o nt e c h n o l o g y ,t a k i n gl a r g e s c a l e p e t r o c h e m i c a li n d u s t r yp r o c e d u r eo fp r o d u c t i o na sb a c k g r o u n d ,s t u d y i n gd a t a p r o c e s s i n g ,m o d e l i n ga n do p t i m i z a t i o nt e c h n o l o g yi np e t r o c h e m i c a lp r o c e s s , u s i n gt h ec o m p o n e n tp r o g r a m m i n g ,as e r i e so fs o f t w a r ec o m p o n e n t sa r e d e s i g n e d w i t h w e l l - r e u s a b i l i t y ,l a n g u a g e - i r r e l e v a n t a n d h i 曲l y o p e n - p e r f o r m a n c e ,a s o f t w a r es y s t e mi sd e v e l o p e db y i n t e g r a t i n g d a t a p r o c e s s i n g ,m o d e l i n ga n do p t i m i z a t i o nw i t hd y n a m i cc h a i nb a s e do nm a n a g e d i i i 北京化工人学硕上学位论文 h e a pa n dm u l t i t h r e a dp a r a l l e lp r o c e s s i n gt e c h n o l o g i e s 。 am o d e l i n ga n d o p t i m i z a t i o ns y s t e mi ss u i t a b l ef o rp e t r o c h e m i c a lp r o c e s s ,a n dt h es o c i a la n d e c o n o m i cb e n e f i ta r eo b t a i n e df r o mt h ea c t u a la p p l i c a t i o ni nt h ee n t e r p r i s e b a s e do nt h a tp l a t f o r m ,h d p ed e v i c ec a s c a d er e a c t i o no p t i m i z e s o p e r a t i o nr e f o r m i n gs y s t e m h a sb e e nc u s t o m i z e d r a p i d l y i tp r o v e s a p p l i c a b i l i t y a n d p o r t a b i l i t y o ft h e p l a t f o r m a n d s e r v i c e a b i l i t y i n c u s t o m i z a t i o n k e yw o r d s :d a t a - d r i v e n ,c o m p o n e n t ,m o d e l i n g ,o p t i m i z a t i o n i v 北京化工大学位论文原创性声明 本人郑鼋声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重 要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者躲丢应茅作者签名:丞趔! 垄日期:纠翌! ! 丝 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用本授 权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名: 导师签名: 日期:! ! 呈:全:兰兰 第一章绪论 1 1 课题的来源与意义 第一章绪论 石油化工是我国国民经济的支柱产业之一,其所实现的利润约占全国国有及国有 控股企业总利润的1 4 左右。但是我国石化企业在质量、成本、规模、效益方面与发达 国家相比仍然存在较大的差距。为了增强我国石化企业的竞争力,使用信息技术将是 最有效的方式。因此流程模拟、先进控制与过程优化成为石化过程研究的三个重点领 埘。 石油化工企业效益增加的一个最重要的工具就是优化:对工厂的设计、设备的操 作和企业的管理进行优化【2 1 。石油化工生产过程包含了一系列的化学反应,研究这些 过程的数学模型对优化将极其有益。但是由于石化过程的机理十分复杂,传统的优化 方法往往难以实现,因此智能优化算法成为优化石化过程的重点方法。 基于生产数据驱动的石化过程优化中,能够建立准确的系统模型是实现优化的 重要前提。目前比较常用的建模方法主要有三种:辨识建模方法、机理建模方法和智 能建模方法。由于石化过程中存在着机理复杂、高度非线性、强耦合、大时滞等特点, 通常机理建模与辨识建模及其计算是很困难的,因而以神经网络为主的智能建模方法 得到了广泛的应用。 在工业建模过程中,无论是统计建模方法,还是智能建模方法( 如神经网络) ,都 是基于数据的建模方法,因此对用于建模的数据质量都有很高的要求l lj 。但是由于在 工业过程中会有各式各样的噪声干扰,仪表容易出现故障等,因此使得工业数据的质 量很不好。而由于这些数据将不能实际反映反应过程的情况,给数据分析和建模带来 了很大的影响,因此在建模前对数据进行必要的数据预处理是很重要的。 课题基于实验室的重点研究领域一石油化工行业,设计与开发了基于数据流驱动 的数据处理、建模和优化集成平台。 1 2 课题主要研究内容 本课题主要的研究目标是根据石化过程对数据处理、建模与优化算法的需求,以 组件化的设计方法开发一个基于数据流驱动的通用工具平台。平台的通用性主要表现 在算法实现的通用性、统一的接口、快捷添加算法、利用平台便捷地定制实际应用的 系统。平台主要针对的是石油化工领域。 具体内容如下: 北京化工大学硕士学位论文 ( 1 ) 对石油化工过程的建模与优化过程的特点进行研究,开发基于数据驱动的数 据过程建模与优化平台。 ( 2 ) 采用组件化编程、x m l 、编译技术和并行线程等技术实现上述工具平台。 ( 3 ) 对数据处理、建模与优化的常用算法的功能和特点,定义各个算法统一调用 的接口,同时以组件形式实现了十几种常用算法的组件。 ( 4 ) 采用编译原理与数据结构技术相结合以组件形式实现通用公式解释器。公式 解释器可以应用于平台的优化模块,同时也可单独提取出来为其他应用做服务。 ( 5 ) 利用平台定f 1 i j h d p e 串级反应数据处理与建模优化系统。 1 3 论文的章节安排 全文共分五章,具体安排如下: 第一章绪论 介绍了课题的来源与意义,简要介绍了本课题的主要研究工作和研究成果。 第二章平台主要集成的通用算法 介绍了平台中集成的数据处理、建模与优化的常用算法。 第三章平台的设计及实现 本章详细介绍了平台的设计与实现。首先介绍平台的需求分析,介绍平台的整个 体系架构。本章详细介绍数据处理、建模与优化三个模块设计。同时详细介绍平台所 采用的重点技术,介绍通用公式解释器的设计与实现,同时简要地介绍开发的成果。 第四章h d p e 串级反应数据处理与建模优化系统 课题利用平台定制h d p e 串级反应数据处理与建模优化系统。系统建立了反应过 程乙烯总单体单耗的神经网络优化模型,利用智能优化算法进行操作参数优化,提供 了h d p e 优化操作条件,通过现场实施,企业取得良好的效益,证明了平台的有效性 和通用性。 第五章结论与展望 本课题研究的总结,并指出了需进一步开展的工作。 2 第一二章平台主要集成的通用算法 第二章平台主要集成的通用算法 2 1 数据预处理技术 常用的数据预处理算法包括:时序匹配算法、缺失值处理算法、异常数据检测及 处理算法、稳态检测算法、拉依达准则、数据规范化算法和自联想神经网络。 2 1 1 时序匹配 建模中使用的数据包括主变量与辅变量。辅变量的值通常是通过d c s 系统直接获 得,而主变量的真值则通常是通过离线的人工分析获得,同时由于工业流程中存在停 留时间,因此辅变量发生变化到主变量发生变化存在滞后时间,这一般包括传输滞后 和容量滞后。为了使数据使用于分析与建模,需要将主变量与辅变量进行时序匹配, 以使两者能够在时间达到对应。时序匹配中最重要的就是确定滞后时间。通常确定滞 后的时间的方法是在对工艺机理进行深入分析的情况下,依据先验知识来确定滞后时 间【3 】o 2 1 2 缺失值数据处理 数据挖掘的一个主要工具是从数据库的元数据中获取规则。实际数据经常是不准 确的:错误的、不一致的、不确定的和模糊的。随机的缺失数据可以分为三类如下【4 】: ( 1 ) 随机缺少完整性( m c a r ) 这是随机的最高层次。这种情况是某个属性的缺失 概率既不与完整值有关,也不与缺失值有关。这种情况下,任何数据缺失值处理方法 都不会引入数据偏差。 ( 2 ) 随机缺失( m c r ) 这种情况是某个属性的缺失概率与准确值有关,但与缺失值 本身有关。 ( 3 ) 非随机缺失( m c r ) 这种情况是某个属性的缺失概率与它本身有关。 常用的处理方法主要如下: ( 1 ) 使用一个全局的默认值对缺失的变量值进行填充:将缺失的变量值用一个 常量进行替换。 ( 2 ) 使用变量的平均值对缺失的变量值进行填充。 ( 3 ) 使用与给定样本属同一类的所有样本该变量的均值进行填充。 ( 4 ) 使用最可能的值对缺失值进行填充。 北京化工大学硕士学位论文 2 1 3 异常数据 异常数据检测是基于经验数据的研究中一个必要的组成部分。在回归模型中,异 常数据通常分为两大类。其中一种类型是由于在空间位置上偏离其他检测点而引起的 异常数据,称为野点。另一种是指某样本数据不符合其他样本数据满足的模型,称为 回归离群点f 5 1 。 目前已经提出很多的方法解决如下式所示的经典多元线性回归模型的回归离群 点检测。 y = x 口+ e ( 2 1 ) 式中,x 表示一个1 1 p 矩阵,p 个可以没有错误或者错误可忽略的变量,口表示 未知模型的参数的向量,y 意味着输出变量,e 是自相关变量的随机误差( 均值为0 , 均方差为仃z1 。 最常用的回归离群点检查方法如下: 首先对厂,求出其数据的绝对均值s 。,然后根据下式判断其是否为野点,当下式 成立时,则认为置为野点,否则是正常数据卯。 一倍2 , 式中系数k 为经验取值系数,一般的取为2 3 较为合适。 2 1 4 稳态检测 在化工数据预处理中,还有一个比较关键的处理算法就是必须判断当前系统所属 的状态,是稳态还是动态。大部分化工过程建模都是建立反应过程的稳态模型。因此 我们需要对采集的数据进行稳态检测,以去除动态数据,因此动态数据会对稳态模型 造成很大的影响【6 1 。 本文采用的稳态检测的方法:设定滑动窗口的大小n ,当窗口中的n 数据差别较 大时,则认为过程处于暂态,否则过程处于稳态。这里的差别可以用这n 个数据的最 大值与平均值的差来定义【刀。算法所使用的公式为: a = i x l 懈一x ( 2 - 3 ) 4 第二章平台主要集成的通用算法 当a r 时,变量处于动态过程。反之,变量则处于稳态过程。在使用这个方法时, 需要定义各个变量的稳态标准r 。 2 1 5 拉依达准则 数据经常会有过失误差,处理过失误差的常用方法就是拉依达准则( 又称为3 g 准 则) i s 。拉依达准则的内容:如果一组测量数据中某个测量值的残余误差的绝对值 k 3 0 - ( 形= 1 只一yi ) ,则该测量值为异常数据,应剔除。3 0 准则是最常用也是最简 单的粗大误差判别准则。其中。的计算公式如下: 仃= 卜;,c 刀一,】“2 = 喜y ;一c 喜y ,纠开 必,z 一,) 2 c 2 4 , 2 1 6 数据标准化处理 数据标准化就是通过一定的处理,使待处理的数据限定在一定范围内。 数据标准化主要有以下几种方法【9 j : 数据的中心化处理 数据的中心化处理是指将各变量做平移变换,使得各变量的均值为零,采用如 下公式进行处理: x f = x ,一,( f = 1 ,2 ,刀) ( 2 5 ) 式中输入变量向量为x = 【x 。,x2 ,彳。】,中心化处理后的向量为 x = x 。,x 2 ,x 孵】,为x 的均值。 经过数据的中心化处理后,可使得各变量 的平均值为0 。 数据的消除量纲处理 由于在实际过程采集的数据,各变量的量纲会有很大的不同,如果不经过一定 的数据预处理,大量纲的数据对于模型产生的作用将被夸大,而小量纲的数据的作用 将会被忽略,从而不能真实反映数据本身的变化情况。因此,需要对变量的量纲反应 进行消除,处理方法如下式所示: x f = x ,仃j ( i = 1 ,2 ,嚣) ( 2 - 6 ) 式中,仃,为x 的标准差。 气 北京化工人学硕士学位论文 归一化处理 归一化处理是将数据变换到【1 ,1 】之间,其方法有如下三种: 1 ) 利用最大、最小值 x :二生。( 2 7 ) x 麟一x m i l i 其中石a r i a 、x 一分别表示测量变量x 的最小值和最大值,;= 吉喜x ,。 2 ) 对数函数转换 z 。= l o gl o ( x ) ( 2 8 ) 3 ) 反余切函数转换 x 。= 口t a n ( x ) 牛2 y ( 2 9 ) 对数据进行归一化处理之后,在模型预测之后需要利用输出进行反归一化。模型 的预测将不具有外插特性,对于超出范围的数据将会产生很大的误差,因此在训练样 本的选取方法,尽可能包含各变量的极大和极小值。 2 1 7 自联想神经元网络 b a l l a r d 在1 9 8 7 年提出了自联想神经网络( a a n n ) t 10 1 。其网络结构如图2 1 所示【1 , 包括五层:输入层、映射层、瓶颈层、解映射层与输出层。其最大的特点是输入层与 输出层的节点数相同。它是一个全相连的多层前馈感知器。映射层的激活函数一般采 用s 型函数。瓶颈层主要实现信号的编码和压缩。解映射层的激活函数也一般是s 型函 数,主要对从瓶颈层传输来的信号进行解码与解压缩,从而产生输入信号的预测值。 a a n n 一般都采用梯度下降法进行训练。a a n n 一般用于数据压缩与数据过滤【1 2 】。 输入映射瓶颈解映囊|赣如 图2 1 自联想神经网络结构 f i g 2 1a u t o - a s s o c i a t i v en e u r a ln e t w o r ks t r u c t u r e 6 第一二章平台主要集成的通用算法 2 2 建模 由于神经网络具有良好的非线性逼近能力,且不需要对过程机理非常了解,只要 有相应的输入和输出数据就可以实现过程的建模与分析等,因此,神经网络技术在过 程工业建模与分析中得到了广泛的应用。课题主要使用神经网络建模方法,平台同时 集成了一般的统计建模方法。 2 2 1 即神经网络 r u m e l h a r t ,m c c l e l l a n d 于1 9 8 5 年提出了b p 网络的误差反向后传b p ( b a c k p r o p a g a t i o n ) 学习算法【1 3 。1 7 1 。算法的基本原理是利用输出后的误差来估计输出层的直 接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就 获得了所有其他各层的误差估计。b p 神经网络是目前使用最广泛的神经网络算法之 一。b p 神经网络一般分为三层,输入层、隐层和输出层,每层都有若干个神经元,其 网络结构如图2 2 所示。 x l 吻 图2 2b p 网络结构 f i g 2 2b pn e t w o r ks t r u c t u r e b p 神经元网路的训练过程的流程图如图2 3 所示: 7 j r i 也 北京化丁大学硕士学位论文 2 2 2r b f 神经网络 图2 3b p j i i 练步骤 f i g 2 - 3b pt r a i n i n gs t e p s 径向基函数( r a d i c a lb a s i sf u n c t i o n s ) 神经网络是一个由三层节点组成的网络结构。 第一层是输入层,它将第一层的输入前馈到第二层节点。第二层节点与其他神经网络 非常不同,第二层的每个节点都代表一类数据,每类数据具有一个个中心点。第三层 是输出层,是一个线性组合器【l 引。 输入层将同时前馈到隐含层节点,每个节点将计算每个输入向量与自己的中心的 距离。距离值将通过相同的函数进行计算,计算值将作为节点的输出。隐含层的输出 值乘以权值得到乘积的总和传输到第三层。第三层的输出作为最后的结果【1 9 1 。其网络 的结构如图2 4 所利2 0 j : 8 第二章平台主要集成的通用算法 图2 4r b f 网络结构 f i g 2 4r b fn e t w o r ks t r u c t u r e r b f 常用的径向基函数是高斯函数,第j 个隐含节点的径向基函数如下式所示 2 h : 2 1 , 嘭= 厅( 1 ,户e x p ( 一寺) ( 2 。1 0 ) 式中,q 为g j 个节点的中心宽度,_ 为g j 个隐含节点与中心的欧几里得距离, 计算公式如下: v ,+ = l l x - c 川= 式中,x 是输入向量,c j 是g j 个单元的中心向量,维数是输入层节点数。 r b f 网络的输出可表示为: 刀 y t = w j k h j ( 2 1 2 ) j = l 聚类中心的计算可以采用聚类算法( 例如k 均值、最近邻居法等) ,隐含层到输出 层的权值可以利用梯度下降法训练【2 2 】。 2 2 3g r n n 神经网络 g 对州神经网络是n 维输入变量x 生成m 维输出变量r ,r 是实际输出】厂的预测 值。g 鼢州是通过将模式x 与已知输出i 的存储模式置比较来获得输出。预测值y 是存储模式y 驴的加权平均。其网络结构如图2 5 所示,网络结构包括输入层、模式 层、加和层和输出层。 9 北京化工大学硕士学位论文 覆式晨 出鏖 图2 5g r n n 网络结构 f i g 2 - 5g i v e nn e t w o r ks t r u c t u r e 输入层与输出层的关系如下【2 4 1 : w ,伊_ ,( x ) ,= 1 v = - = 二一 ,竹 缈,( x ) _ ,= l 式中,x 是n 维输入向量,是隐含层与加和层之间的连接权值,缈是高斯函数。 高斯函数的定义如下: 以耻州一下i i x - c , i2 巾i = l 叫孚 2 p 2 2 4e i m a n 神经网络 e l m a n 神经网络是j e f 6 n e ye l m a n 在1 9 9 0 年提出的,其网络结构如图2 6 所示【2 5 】。 图2 6e l m a n 网络结构 f i g 2 - 6e l m a nn e t w o r ks t r u c t u r e 1 0 第二章平台主要集成的通用算法 e l m a n 神经网络除了输入层、隐含层和输出层以外,还拥有联系单元节点的集合。 联系单元节点接收隐含节点的输入,产生输出到所有隐含节点。由于联系单元只依赖 于激活隐含节点之前的输入,是用来记忆之前输入节点的信息。本文采用梯度下降法 训练e l m a n ;冲经网络 2 6 1 。 e l m a n 神经网络的数学模型3 2 1 如下: f x ( f ) = f ( w 月t ( f ) + w 口u ( t 一1 ) ) x 。( f ) = x ( t 1 ) ( 2 - 1 5 ) i y ( ,) = g ( w c x ( ,) ) 其中x ( f ) 是隐含层的输出,y ( f ) 是输出层的输出,u ( t 一1 ) 是e l m a n 网路的输入, 形_ 是联系单元与隐含层的连接权值,形口是隐含层与输入层的连接权值,形c 是隐含 层与输出层的连接权值,f ( o ) 和g ( o ) 是隐含层和输出层的激活函数。 激活函数通常取s i g m o i d 函数,如下: 1 f 【x ) 2 瓦杀( 2 - 1 6 ) g ( x ) = h ( 2 1 7 ) 2 2 5 神经网络集成 神经网络集成是用有限个神经网络对同一个问题进行学习,集成在某输入示例 下的输出由构成神经网络集成的各神经网络在此示例下的输出共同决定【2 5 】。k r o g h t 2 9 】 等人通过理论分析得到如下神经网络集成泛化误差的计算公式: 一一 e = e 一彳( 2 18 ) 右边元素的第一项是个体网络的泛化误差的加权平均( e = 。线e “) ,第二项是 差异度的加权平均( 彳= 口线彳口) ,我们称这个为神经网络网络集成的差异度。 生成集成的个体网络的最重要的技术是b a g g i n g 和b o o s t i n g 。 b o o s t i n g 技术【3 0 】 b o o s t i n g 是对于给定的学习算法提高性能的一种普遍方法。b o o s t i n g 算法的主要思 想是产生一系列神经网络个体,这一系列神经网络个体更多地关注之前网格个体预测 不好的训练集。在训练过程中,将维护训练集各个样本的概率集合。总而言之,之前 建立的神经网络预测不好的数据将拥有更高的概率,这样将更有可能被包含在新系列 神经网络的个体的训练集中。 北京化工大学硕上学位论文 19 9 9 年,d r u c k e r 提出了a d a b o o s t r 2 算法。a d a b o o s t r 2 是a d a b o o s t r 算法 ( 1 9 9 6 年f r e u n d 和s c h a p i r e 提出的) 的变种。算法具体步骤如下,假定初始训练集为t , 第i 个样本在第s 步的挑选概率是d s ( f ) 。 ( 1 ) 第一步,对训练集的每个元素赋予相同的概率,同时令s = 1 ,d i ( i ) = 1 n ( 2 ) 基于皿从t 挑选神经网络个体的i ) l l 练集l 。 ( 3 ) 利用t 生成新的网络个体集合k 。 ( 4 ) 计算神经网络个体集合k ,的实际输出与t 的理论输出之间的最大误差l 一。 ( 5 ) 计算个体网络对训练集中每个样本的个别误差l ,: 纠一卜掣 ( 6 ) 计算加权平均误差l 。: 云= 厶n ( f ) ( 2 2 0 ) ( 7 ) 更新概率集合d : d s + l :掣( 2 - 2 1 ) 式中,z 。是归一化参数,b s = = = 。4 1 一l ( 8 ) 令s = s + l ,重复2 8 直到l o 5 。 b a g g i n g 技术 b a g g i n g 是1 9 9 6 年b r e i i i l i l 首次提出的。b a g g i n g 方法是从原始的训练集中随机挑选 若干样本训练不同神经网络个体模型。然后将各神经网络个体的输出进行组合构成集 成网络的输出。每个训练集都是从原理训练集通用引导式地复制获得。假定由输入集 x 和输出集y 组合构成训练集t 。使用相同的概率重复从训练集t 挑选个体网络的训练 集t 日,因此有些训练样本可能会被重复挑中,而有些样本可能从来不会被选中。 b a g g i n g 类算法与b o o s t i n g 类算法的主要区别如下:b o o s t i n g l 拘i ) l l 练集分布依赖 于之前构建的网络的性能;b a g g i n g 的训练集的选择是随机的。因此,在数值应用方 面,b o o s t i n g i :e b a g g i n g 更好。b a g g i n g 算法更适合用于并行。 1 2 第二章平台主要集成的通用算法 2 2 6 最小二乘回归 设有q 个因变量和p 个自变量。为了研究因变量与自变量的统计关系,观测了 n 个样本点,由此构成了自变量与因变量的数据表x 和y 。偏最小二乘回归分别在 x 与y 中提取出t 和u ,要求:( 1 ) t 和u 应尽可能大地携带它们各自数据表中的变异 信息;( 2 ) t 和u 的相关程度能够达到最大。在第一个成分被提取后,偏最小二乘回 归分别实施x 对t 的回归以及y 对t 的回归。如果回归方程已经达到满意的精度,则 算法终止:否则,将利用x 被t 解释后的残余信息以及y 被t 解释后的残余信息进行 第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对x 共提取了多个成分,偏最小二乘回归将通过施行y 。对x 的这些成分的回归,然后 再表达成y 。关于原自变量的回归方程【3 2 1 。 算法流程【3 3 】如下: 1 ) 程序开始,将自变量和因变量的数据分别送入x 和y ,计数器h 置1 ; 2 ) 任选矩阵y 的一列向量y ,送入8 。; 以下步骤是对矩阵x 进行处理: 3 ) 将矩阵x 投影与列向量8 0l z :u = x7 1 ( s 0 7 ) 4 ) 将向量归一化:= u 。l 5 ) 将矩阵x 投影于行向量“ 2 上:“= x u ( u 2u ) 以下步骤是对矩阵y 进行处理: 6 ) 将矩阵y 投影于列向量“上:= y r 厶( f 。f “) 7 ) 将向量1 , 归一化:v = 1 , | | , 0 8 ) 将矩阵y 投影于行向量v 1 上:= 巩( v h7 v h ) 9 ) 检验列向量s o 是否收敛:恢一屯0 47 若否,则s 。= ,程序转回置3 ) 继续执行; 若是,则至此已求出矩阵x 的第h 个p l s 乘法,存于f 。中,然后程序往下执 行n l o ) 以下步骤是对矩阵x 和y 进行分解: 1 0 ) 计算矩阵x 的载荷向量c 7 c = x7 1 t h ( t 7 乙) 1 1 ) 将成分瓯对成分t 进行回归:b = t 2 ( t 7 t ) 1 2 ) 从数据矩阵x 中除去第h 个p l s 成分:x = x t h e 。1 1 3 ) 从数据矩阵y 中除去回归项:y = y b 乙v 7 1 4 ) 检验数据矩阵x 中有意义的信息是否已全部被提取:i i x i i 磊? 若是,程序往下执行1 5 ) ; 若否,则计数器h 加l :h = h + 1 ,检验h p ? 若是,程序转回至l j 2 ) 继续执行;否则,程序往下执行1 5 ) 北京化工大学硕上学位论文 1 5 ) 程序结束 其中为用于存放中间数据的n 维向量,h 为整型计数器,4 ,疋是两个由用 户给定的任意小正数,以规定精度。 最终数学模型可以写为: y = x w c7 曰+ e ( 2 2 2 ) 其中w 为转换矩阵,w l = u 1 ,而w h = u 一w h l ( c r “ ) ( 办= 2 , 3 ,尼) 2 3 优化 2 3 1 粒子群优化算法 粒子群优化算法( p s o ) 是最早d d k e n n e d y 和e b e r h a r t 在1 9 9 5 年提出的【3 3 】。粒子群优 化算法不像其他进化计算方法使用进化控制个体,而是个体在搜索空间中飞行,飞行 的速度将根据自己的飞行经验和竞争者的飞行经验进行动态调整。每个个体在d 维空 间中作为一个没有体积的粒子( 一个点) 。 第i 个粒子用置= ( 置。,置:,x 渺) 表示。第i 个粒子的之前最优位置( 提供最适 应值的位置) 将用只= ( ,只:,) 进行记录。种群中的最优个体的编号用g 表示。 第i 个粒子的速度用杉= ( k 。,k :,t l , o ) 表示,粒子的进化如下式所示【3 4 】: = + c 1xr a n d ( ) ( p u t x t d ) + c 2xr a n d ( ) ( p g d x t d ) ( 2 - 2 3 ) 妇= + 1 ,耐( 2 2 4 ) 式中,c 。、c :是加速因子,是两个正数。r a n d 是两个范围是 o ,l 】的随机函数。 p s o 不像遗传算法使用进化设计和进化策略,不执行选择操作。p s o 中所有的粒 子通过飞行过程保持为种群的成员。粒子将根据自己之前的最好位置和竞争者的最优 位置来更新速度。粒子将根据更新后的速度来飞行。 在进化过程中,每个个体是通过加一个随机函数进行变异( 最普遍的是高斯函数 和柯西函数) ,在这过程中,每个粒子将根据自己和同组的飞行经验进行更新。 p s o 优化算法的步骤如下: 1 ) 根据搜索空间随机初始化粒子群。 2 ) 计算群体中每个粒子的速度向量。 3 ) 对每个粒子,用它的适应度值和个体极值p b e s t 比较,如果较好,则替换 p b e s t ; 1 4 第二章平台主要集成的通用算法 4 ) 对每个粒子,用它的适应度值和全局极值g b e s t i :1 二较,如果较好,则替换 g b e s t ; 5 ) 更新每个粒子的速度。 6 ) 更新粒子的位置。 7 ) 如果满足结束条件( 误差足够好或到达最大循环次数) 退出,否则回到2 ) 。 2 3 2 蚁群优化算法 蚁群算法( a n tc o l o n yo p t i m i z a t i o n ,a c o ) 眭im a r c od o r i g o 在19 9 0 年引入的p 5 。 它是针对硬组合优化问题的基于种群的元启发式方法。它是在解决硬组合问题中 寻找更足够的解决方案的的近似方法。 蚂蚁在寻找它们的最短路径是依赖在寻找过程中的信息的沉淀,在这过程中 蚂蚁将以更大的概率选择拥有更丰富信息素的路径。随着信息素的衰退将导致更 少蚂蚁走的路径中信息素也将减少。这样,最短路径将以更大的概率出现路径中, 这条路径将会被加强直到所有的蚂蚁都选择同一条路径。 总的来说,蚁群算法能够解决所有能够按如下定义的组合优化问题 3 6 1 : 1 ) 恰当的代表权问题。这个问题将以节点集合与节点的边组成的图来描述。 2 ) 边的启发式需求( ) 。这描述的是在图上从一个节点连接到另外一个界 面的启发式适合性的测量标准。 3 )构造自适应的解决方法。启发式应该应用于有效地构造可能解决方案。 4 )信息素更新规则。有效的信息素更新规则将需要相应的信息素衰退规则。 典型的方式是选择最好的n 只蚂蚁,同时更新它们选择的路径。 5 )概率传输规则。这个规则规定了蚂蚁从一个节点到另一个节点的可能性。 假定要解决一个最小化问题( s ,厂,q ) ,s 是候选解决方案的集合,黾目标函 数( 每个候选解决方案s s 的目标函数值是厂( s ) ) ,q 是约束集合。最小化问 题的目标是寻找最优解决方案j ,即最d x c o s t 的带约束的解决方案【3 。 最小化问题( s ,厂,q ) 可以按照如下方式进行特征化: 1 ) 组合的有限集合c = p l ,c 2 ,c , 2 ) 问题状态集合x ,在c 的基础上构造所有可能序列的元素x = ( c l ,c 2 ,) , 序列长度用h 表示。序列的最大长度的界限是正整数n 。 3 ) 带约束的解决方案s 是x 的子集( 即,s x ) 。 4 ) 可行的状态集合x ( 即,x 互x ) 。 5 ) 最优解决方案的非空集合s ( s x 和s s ) 。 算法是通过模拟蚂蚁在带权重的图g = ( c ,l ,? ) 上行走来获得带约束的最优 解决方案。其中c 是顶点集合,l 是c 的全连接,t 是信息素f 的向量。图g 称为构 1 5 北京化工大学硕士学位论文 造图【3 8 1 。 人工蚂蚁被随机地放置在图上的顶点上。然后,人工蚂蚁根据连接线的信 息素的强度随机选择下一个顶点。在行走过程中,约束q 将防止不可能的解决方 案生成。当蚂蚁完成行走,信息素将被更新。 第k 步中,蚂蚁随机选择下一个节点c m 的概率如下式所示: p ( 气+ l = cjt ,稚) 厮r ( c , c y ,龅,c ) ,( 吼,y ) ( 2 2 5 ) o ,其他 信息素更新规则如下: v ( i ,) :r ( i ,) = ( 1 - p ) r ( i ,j f ) i f 厂( ) 厂( s ) ,t h e nj = s v ( i ,) s :r ( i ,) = r ( i ,) + g ( s ) v ( i ,j ) :r ( i ,j ) = m a x * r a i n ,r ( i ,) 其中, p ( 0 p 0 ) 是一个参数, g ( j ) ( o g ( s ) 佃) 是一个函数,f ( s ) f ( s ) jg ( s ) g ( s ) 2 3 3 遗传算法 遗传算法g a 是全局搜索算法,是从一个种群到另外一个种群的搜索。由于算法 不断对参数空间进行取样,搜索目前为止的局部最优解决方案。该算法已被证明可以 在困难的非线性函数中获得全局最优解决方案3 9 1 。 遗传算法的一般步骤如下【删: ( 1 ) 随机初始化种群 随机挑选解,采用二进制编码将解形成染色体,形成的染色体集构成遗传算法的 初始种群,称为第一代。 ( 2 ) 计算适应值 通过预先设计好的适应函数,对每个染色体计算适应值,对染色体进行评价,适 应值满足停止条件则停止。 ( 3 ) 繁殖下一代 通过选择、交叉和变异形成下一代。选择操作是一般使用轮盘赌算法,从第t 代群体p ( t ) 中选择出一些优良的个体遗传到下一代群体p ( t + 1 ) 中。交叉是将群体 p ( t ) 内的各个个体随机搭配成对,对每一对个体,以某个概率( 称为交叉概率) 交 1 6 第二章平台主要集成的通用算法 换它们之间的部分染色体。变异是对群体p ( t ) d p 的每一个个体,以某一概率( 称为 变异概率) 改变某一个或某一些基因座上的基因值为其他基因值。 2 3 4 整数线性规划 整数线性规戈i j ( i l p ) 问题是指在部分或者全部变量要求为整数的约束前提 下,对线性目标函数的优化【4 1 1 。问题可分为纯整数规划,o 1 纯整数规划、混合 整数规划、o 1 混合整数规划、整数可行性问题和0 1 整数可行性规划。纯整数规 划是指所有决定性变量只允许是整数1 4 御。 课题重点考虑了纯整数规划问题,其他整数规划问题可以做进一步的扩展。 为了解决i l p 问题,国内外已经提出了很多方法,包括b & b 、割平面法、多面体开 发、h y b r i d 算法、r l t 、正面析取规划法和预析法f 4 3 】。但是每个算法都有它内在的不 足。所有这些算法中,b & b 算法应用比较广泛。影响整数线性规划的最重要的因素是 整数变量的数量和应用范围的灵活性删。 针对i l p 问题,重要的是单纯形算法和b & b 算法。 1 ) 单纯形算法 单纯形算法已经成功用于解决线性问题【4 5 1 。它是 g e o r g eb d a n t z i g 在1 9 4 7 年 提出的【4 们。使用单纯形算法解决线性规划问题之前,首先需要对约束集合进行转化, 必须把所有约束转化为公式,同时所有变量必须是非负的。这是所谓的标准形式。为 了转化为标准形式,每个不等式约束必须转化成等式。如果第i 个约束是,它将通过 加一个松弛变量量,同时将添加另一个约束s i 0 。而如果第j 个约束是,它将通过 减一个额外变量e ,转化成等式,同时将添加另一个约束e ,0 4 7 1 。这样线性规划问题 将可以按照如下方式处理: 优化目标如下式所利4 8 】: m a x ( z = c x ) ( 2 2 7 ) 满足约束:似= b 。x 0 。 其中c 和a 是x 的系数矩阵,b 是常数向量。这意昧着x 必须满足下式: j z 一凹- i - 一( 2 - 2 8 ) 【a x 2 b 上式可以写成如下: ( 1 0 爿硝兰 p 2 9 , 彳八x 厂例。一7 假定b 是可行性偏差。x 口是基本变量的相应集合,c b 是相关的目标向量。 1 7 北京化工大学硕士学位论文 方案: = ( 三科协( 三管胁瞄6 ) - 渊 驯锵上式左右两边乘以口警。1 将得撇吓式: ( 三一掣 ( 三爿硝三剀( 兰) j ( 三g 岔c 胁瞄i 以矧, 令彳= ( k 忱卜圪) ,只要b 一1 已知,可以通过按照如下方式迭代获得解决 z 于c b b ? ( 2 - 3 2 ) 【x 口= b 。1 b 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- qms考试题及答案
- 电网基建业务知识培训课件
- 电缆知识基础培训课件
- 电线电缆标准培训课件
- 管线保护专项方案
- 【ABeam】2025中国个人信息保护和网络安全相关法律法规的趋势与应对报告
- 北京一模考试美术试题及答案
- 北京初二模拟考试试卷及答案
- 北电实验班分班考试题及答案
- 新解读《GB-T 25389.2-2018风力发电机组 永磁同步发电机 第2部分:试验方法》
- 【MOOC】认识飞行-上海工程技术大学 中国大学慕课MOOC答案
- 国际商务谈判 习题答案、练习题及答案(白远)
- 父母借用子女名义购房协议书
- 2024至2030年DC/DC转换器项目投资价值分析报告
- 关节活动维持与改善技术
- 湖南省长沙市师大附中博才实验中学2024-2025学年九年级上学期开学考试语文试题
- 电网劳务分包投标方案(技术方案)
- 《赏书法之韵》教学课件1
- 2024年新人教版八年级上册物理全册教案
- 第三课 我国的经济发展(课件)
- 02R111小型立、卧式油罐图集
评论
0/150
提交评论