(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf_第1页
(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf_第2页
(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf_第3页
(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf_第4页
(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(动力机械及工程专业论文)火电机组运行优化系统中数据预处理技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 题名:火电机组运行优化系统中数据预处理技术研究 姓名:陈教超 导师:徐治皋( 教授) 学校;东南大学 正文: 随着火电机组单机容量不断增大,电站自动化、信息化水平不断提高,电站信息的集成度也越来 越高,海量的测量数据和专家经验提供了大量反映机组设备运行状态的信息。利用计算机技术、信息 技术以及人工智能技术等对这些宝贵的信息资源进行深层地挖掘,必将提高机组的运行管理水平,促 进机组的状态检修工作,对火电机组的安全运行和节能降耗具有重要的现实意义。本文对火电机组运 行优化系统( u p o s ) 中数据预处理问题进行了深入的研究,论文的主要内容如下: 1 介绍了数据预处理技术的有关知识。主要包括数据预处理的基本功能和主要方法,总结了目前 数据预处理技术在电力工业中的应用领域以及研究现状。 2 研究了基于解析冗余的数据检验方法。建立了基于解析冗余的数据检验模型,通过模型求出过 程变量的最优估计值,根据测量值与估计值的偏差来判断测量值的可信度,算例表明该模型能够较准 确地估计出测量数据的估计值,并能够有效地检验测量数据的可靠性。 3 提出了基于机组运行参数优化目标值的偏差带检验法。研究了机组重要运行参数优化目标值的 定量化问题,对当前电厂s i s 中运行优化目标值的确定方法进行了论述,结合实例介绍了重要运行参 数目标值的确定,并将确定的运行优化目标值用于测量数据的有效性检验。 4 研究了基于神经网络的数据检验方法。总结了常用的动态系统神经网络模型,重点研究了基于 前馈神经网络的数据检验模型和基于回归神经网络的数据检验模型,前馈神经网络采用r b f 网络,回 归神经网络采用改进的e l m a n 网络,算例表明这两种数据检验模型均能够有效地检测出不良数据,进 而用网络估计值替代测量值。 5 研究了数据协调算法。探讨了数据协调的基本模型以及模型的求解,重点研究了基于投影矩阵 的数据协调方法和基于数字滤波的数据协调方法,并通过算例验证了各方法在去除测量数据中随机误 差的有效性。 6 按照知识工程的开发思想和增量式开发的方法开发了数据预处理系统。提出了对实时数据进行 分类分级检验模型,研究了数据预处理系统在u p o s 中集成应用的实现方案以及离线模型。 关键词:火电机组;运行优化;数据预处理;数据检验;神经网络;数据协调 a b s t r a e t a b s t r a c t t i t l e :r e s e a r c ho nd a t ap r e p r o c e s s i n gt e c h n o l o g yo fu n i tp e r f o r m a n c eo p t i m i z a t i o ns y s t e mi nt h e r m a l p o w e rp l a n t n a m e :c 艇nj i a o - e h a o s u p e r v i s o r p r o f x uz h i - g a o s c h o o l :s o u t h e a s tu n i v e r s i t y t e x t : w i t ht h ei n c r e a s i n go f g e n e r a t o ru n i t s s c a l e ,a u t o m a t i z a t i o na n di n f o r m a t i n n i z a t i o n , t h ei n t e g r a t i o nl e v e l o f i n f o r m a t i o ni nt h e r m a lp o w e rp l a n t sw i l lb eh i g h e ra n dh i g h e r l a r g eq u a n t i t yo f i n f o r m a t i o nt h a tr e f l e c t s t h ec o n d i t i o no f u n i tp e r f o r m a n c e ,i sp r o v i d e db ym a s ss e n s o rd a ma n dt h ee x p e r i e n c eo f e x p e r t m a k i n gu s e o f c o m p u t e rt e c h n o l o g y ,i n f o r m a t i o nt e c h n o l o g ya n da r t i f i c i a li n t e l f i g e n e et om i n et h e s ep r e c i o u si n f o r m a t i o n r o s o u l ed e e p l y ,w i l li m p r o v eu n i tp 日f o r m a n c e ,h e l pt oe x a m i n ea n dr e p a i ra n dh a v et h ei m p o r t a n tr e a l i s t i c m e a n i n gt os e c u r i t ya n de c o n o m i c a le f f i c i e n c yo f t h eu n i t t h ep r o b l e mo f d a t ap r e p r o c e s s i n ga r es t u d i e di n t h i st h e s i s ,u s i n gd a t am i n i n g t h em a i nc o n t e n t sa n da c h i e v e m e n t sc a nb ed e s c r i b e da sf o l l o w s : 1 t h et h e s i si n 仃o d u c e ss o m ei n t e r r e l a t e dk n o w l e d g ea b o u td a t ap r e p r o c e s s i n gt e c h n o l o g y i ti n c l u d e s t h eb a s i cf u n c t i o na n dt h em a i nm e t h o d s a tl a s t ,i ts u m m a r i z e st h ea p p l i c a t i o nf i e l d sa n dt h es t u d i n g c o n d i t i o ni np o w e ri n d u s t r y 2 ad a t av a l i d a t i o na l g o r i t h mi ss t u d i e db a s e do nt h es i m p l ei n f o r m a t i o nr e d u n d a n c yi d e at h em o d e lo f d a t av a l i d a t i o nh a sb e e nd i s c u s s e d 1 1 l ee v a l u a t i o nv a l u eo fv a r i a b l ec a nb ec o m p u t e db yt h em o d e lt h e r e l i a b i l i t y o f d a t a c a n b e c h c c k o u t e d b y t h e d i f f e r e n c e o f d a t a a n d i t se v a l u a t i o n v a l u e 3 ad a t av a l i d a t i o nm e t h o db a s e do no p t i m i z a t i o nv a l u ei sp r e s e n t e d t h eq u a n t i t a t i v ea n a l y s i so ft h e o p t i m i z a t i o nv a l u eo f i m p o r t a n tp a r a m e t e r si ss t u d i e d c u r r e n tm e t h o d sf o rc o n f i r m i n gt h eo p t i m i z a t i o nv a l u e i ns u p e r v i s o r yi n f o r m a t i o ns y s t e ma r ed i s c u s s e d ,a n db e u s e dt ov a l i d a t et h er e a l - t i m ed a t a , 4 ah o v e ld a t av a l i d a t i o nm e t h o db a s e do nn e u r a ln e t w o r ki ss t u d i e di nt h et h e s i s t h er l l o d e lo fd a t a v a l i d a t i o nb a s e do nf e e d - f o r w a r dn e u r a ln e t w o r ki sp u tf o r w a r d a ni m p r o v e de h n a nn e t w o r kh a sb e e n i m p l e m e n t e di nt h e n e wa l g o r i t h mf o rd y n a m i cs y s t e md a t av a l i d a t i o n t h es i m u l a t i o nr e s u l t so f ac o o r d i n a t e c o n t r o ls y s t e m ( c c s ) i np o w e rp l a n ti n d i c a t et h ee f f e c t i v e n e s so f t h ep r o p o s e dm e t h o d s 5 d a t ar e c o n c i l i a t i o na l g o r i t h mi ss t u d i e di nt h et h e s i s t h et h e s i si n t r o d u c e st h eb a s i cm o d e lo f d a t a r e c o n c i l i a t i o n d a t ar e c o n c i l i a t i o na l g o r i t h mb a s e do nm a t i xp r o j e c t i o na n dd i g i t a lf i l t e r i n gi sa n a l y z e di n d e t a i l ,t h ee x a m p l e i n d i c a t e s t h ee f f e c t i v e n e s s o f t h e m e t h o d s i n w i p i n g o f f s t o c h a s t i ce t r o l 6 t h et h e s i si n t r o d u c e st h ed e v e l o p m e n to fd a t ap r e p r o e e s s i n gs y s t e m i tp r e s e n t sak i n do f c l a s s i f i c a t i o nm o d e la n das c h e m eo f o n - l i n ea n do f f - l i n eu s i n go f t h ed a t ap r e p r o c e s s i n gs o f t w a r e k e y w o r d e :t h e r m a l p o w e r p l a n t ;p e r f o r m a n c e o p t i m i z a t i o n ;d a t a p r o p r o c e s s i n g ;d a t a v a l i d d a t i o n ; n e u r a ln e t w o r k ;d a t ar e c o n c i l i a t i o n 东南大学学位论文独创性声明 本人声明所里交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了 谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:莅纰导师签名:互缸丝日期:坐y 第一章绪论 1 1 课题研究背景与意义 第一章绪论 能源是国民经济的重要物质基础,对整个国民经济的可持续发展具有十分重要的战略意义。我国能 源蕴藏总量位居世界前列,是世界第二大能源生产国和消费国,然而,由于我国人口众多,人均能源资 源占有量仅相当于世界平均水平的1 陀。改革开放以来,我国在能源领域实行“开发与节约并举,把节 约放在首位”的方针,能源开发与节约工作取得重大进展,能源利用效率得到很大提高,但是仍明显低 于世界平均水平。2 0 0 1 年世界主要国家单位g d p 能耗比较结果表明:我国1 亿美元g d p f l , 耗约1 l 1 2 万 t ,能源强度约为日本的6 5 8 倍,德国的4 4 9 f 吝 ,美国的3 6 5 倍,巴西的2 3 5 倍。印度的1 2 4 倍”j 。可见, 我国在节能降耗方面具有巨大的潜力。在经济正常发展的情况下,能源消耗总量和能源增长速度与国民 经济生产总值和国民经济生产总值增长率成正比例关系,随着我国国民经济的快速发展,对能源的需求 日益增长,导致我国的能源供需矛盾一直十分突出,因此,解决能源问题成了整个国民经济发展的重中 之重i 2 。针对我国能源压力日益增大的问题,我国在“十一五”规划纲要中把降低能耗作为约束性指标, 要求在“十一五”期间( 2 0 0 6 - - 2 0 1 0 年) 使单位国内生产总值能耗降低2 0 左右”j 。 电力工业是国民经济和社会发展的重要基础产业,是能源工业的重要组成部分。我国能源资源的国 情决定了我国电力工业以火电为主,水电为辅、核电和其他新能源发电为补充的电源结构体系。而我国 火电的能源利用效率远低于世界发达国家水平,据有关资料显示:2 0 0 4 年我国火电平均供电煤耗率为 3 7 9 9 ( k w h ) ,比世界发达国家同类指标高出6 0 9 ( k w h ) ,也就是说,若按世界先进水平衡量,我国火电 一年要多耗约1 2 亿t e e 4 。可见,我国火电行业的节能潜力是很大的,在火电行业中大力开展节能降耗 工作能有效地缓解我国的能源紧张问题。 随着我国以“厂网分开、竞价上网”为核心的电力体制改革的不断深入和电力市场的日趋规范,电 力生产企业面临着日趋激烈的市场竞争。而竞争的实质就是如何提高机组的运行、管理水平,节能降耗, 降低发电成本,增强企业的综合竞争力。近年来,为了提高电厂的整体经济效益,各火力发电企业一方 面大力投建大容量、高参数的超临界和超超i 临界机组;另一方面与科研单位合作开发各种形式的火电机 组运行优化管理软件,以降低供电煤耗和发电成本。通过提高机组运行管理水平来达到节能降耗的目的, 在企业层面上可以降低企业发电成本,增强竞价优势,全面提高企业的竞争力;在行业层面上可以有效 缓解我国能源紧张的局面,增强我国电力工业的国际竞争力,所以说节能降耗与运行优化已成为火电机 组日益重要的工作之一。火电机组运行优化管理软件的应用将为生产管理者实现这一目标提供最有力的 工具,因为它符合信息时代企业盈利的法则:把信息变成知识,把知识变成决策,把决策变成利润”1 。 机组运行优化系统是在电站d c s 、m i s 的基础上先后发展起来的,d c s 作为现代大型电站机组的 主流控制系统,为机组性能在线监测和运行优化提供了便捷可靠的运行实时数据来源。m i s 作为现代 大型电站普及的管理信息系统,为运行优化提供了强大的硬件和软件平台。其它相关学科诸如仪器仪 表科学、管理科学、系统科学、人工智能、信息技术、软件技术等为运行优化系统的实现提供了强有 东南大学硕士学位论文 力的理论和工程技术支持。当前,性能在线监测和运行优化正随s i s 的发展而成为其系统架构的一个 重要组成部分,它们以提高电站机组运行安全性、经济性为目的,依托d c s 、m i s 或s i s 软、硬件环 境和数据平台,为运行管理人员提供机组安全、经济运行的优化运行指导和决策支持。 运行实时数据是运行优化系统的基础,一些分析优化算法都是以所需参数的准确测量为前提的, 数据采集的正确与否直接影响在线性能计算的结果和运行优化系统的正常运行。由于测量仪表经常需 要工作在高温、振动、腐蚀等恶劣环境下,这就使得仪表容易发生故障,导致数据采集系统采集到错 误的数据,此外,测量数据还可能受到干扰,漂移和测量环境的影响。错误的测量数据往往会造成严 重的后果,研究表明关键参数的测量数据即使发生1 的漂移也可能造成非常显著的热耗和设备寿命 的变化,而往往这样的偏差是很难被直观地检测出来的。因此,实时数据在系统使用之前进行预处理 是非常必要的。 东南大学能源与环境学院发挥自身在学科和科研力量上的优势,在机组性能在线监测数学模型、 运行优化、计算机网络技术和数据库技术应用等方面取得了一系列具有国内领先水平的研究成果。本 学院开发的大型火电机组运行优化系统( u n i t p e r f o r m a n c e o p t i m i z a t i o n s y s t e m ,u p o s ) 系列软件包已经 成功应用于国内数十台大型机组。应用效果表明u p o s 对机组运行的数据资源进行了充分的加工处理, 充分地反映了机组的运行状态,并且将机组的性能优化与节能管理有机地结合起来,对全厂节能降耗 有比较明显的效果。 本文正是在这样的背景下对火电机组运行优化系统进行研究,运用多种数据预处理方法对火电机组 运行优化系统所需要的运行实时数据在系统使用前进行预处理,开发了相应的数据预处理系统软件,并 将该数据预处理系统集成应用于火电机组运行优化系统中。实践证明该系统能够有效地检测出实时数据 中的显著误差,并用估计值将其替换,对实时数据中的随机误差有很好的平滑作用,为整个机组的真正 优化运行提供了坚实的保障。 1 2 火电机组运行优化 火电机组运行优化系统以在线性能计算和能损分析为基础,通过对运行参数计算,确定机组运行状 态和部件性能对机组经济性的影响,从而揭示出使机组经济性降低的各种因素;通过对设备性能状态分 析和运行参数分析,给出最优经济运行指导;通过对机组运行参数和重要指标的统计和计算,对运行中 的设备进行在线故障诊断【6 l 。目前,火电机组运行优化正处于不断发展完善的过程中,并没有一个统一 的和确切的定义。一般认为,它是在对电站设备及系统进行离线研究分析的基础上,通过在线对其运行 参数进行测量和分析,以一定的安全性、经济性指标对机组的运行状况做出评价与决策,对机组的调整 做出指导。火电机组运行优化系统主要包含以下功能【”j : i 数据采集与预处理 运行实时数据的采集与预处理( 包括数据检验和数据协调) ,是运行优化系统运行的基础和前提。 通过数据采集系统从d c s 、p l c 等现场控制系统采集机组运行实时数据,对采集到的实时数据进行有 效性检验,根据测量信号的不同特征可以采用不同的数据检验方法,如基于信息冗余的方法、基于统 计分析的方法、基于神经网络的方法以及基于机理模型的方法例等,检测出含有显著误差的数据,进 2 第一章绪论 而对其进行校正,然后进行数据协调,消除实时数据中含有的随机误差,保留信号的真实值,以保证 实时数据的可靠性和准确性。预处理后的实时数据存储于运行优化系统的实时数据库,它是运行优化 系统中其他子系统或功能模块实时数据的最终来源,系统实时计算和分析处理的结果数据同样存储于 实时数据库,需要保留作统计分析的数据存储于历史数据库,数据库中的数据可根据需要对用户发布。 2 在线性能指标计算 性能指标指电站全厂及其主要系统与设备( 包括锅炉、汽轮机、回热系统及主要辅机等) 的性能参 数,如效率、煤耗等等。这些指标由现场采集的压力、温度、流量等原始数据通过一定的变换和复杂计 算获得,以反映机组当前实际运行状况。通常需要计算的性能指标包括:全厂性能指标( 发、供电煤耗, 功率,厂用电,热耗,全厂效率) ,锅炉性能指标( 效率,各项损失,过量空气系数,出口烟温) ,汽轮 机性能指标( 热耗,循环效率,高、中、低压缸内效率) ,凝汽器性能指标( 真空,清洁系数,换热系 数,过冷度) ,加热器性能指标( 端差,换热系数) ,其他辅机性能指标( 效率,单耗) 等。性能计算要 遵守一些试验规程,如美国机械工程师学会( a s m e ) 的电站性能试验规程( p 1 ) 、国家锅炉性能试 验规程以及国家汽轮机热力试验规程等。 3 运行优化目标值的确定 运行优化目标值是指机组在当前运行条件下各个运行参数和性能指标的最优值,它为运行人员提供 了机组在不同外部条件( 机组负荷、环境温度、大气压力、燃料特性等) 下的最佳运行方式和参数控制, 这些运行方式建立在现有设备的基础上( 包括热力系统结构、设备的运行状态等) ,通过运行调整使机组 一直处于或接近于最优运行状态。机组运行重要参数指标优化目标值的确定在理论上是一个多维空间寻 优问题,而在工程应用上则是一个定量优化问题。机组运行重要参数指标的优化目标值的定量化是运行 优化能损分析和操作指导的基础和依据。 4 能损分析和运行优化操作指导 能损分析是对机组主要运行参数偏离其运行优化目标值而对机组煤耗率的影响进行定量计算,反映 了改善机组运行性能的主要因素。通过运行参数的能损分析可以监督考核运行人员的运行水平,同时, 为运行人员提供优化运行指导。运行优化操作指导为运行人员提供改善当前运行性能的手段,将电站整 体性能的劣化进行分解,找到劣化的原因和关键,从而可以提供对机组进行调整的建议。通过对实际运 行状况和最优化运行状况进行比较和分析做出在线评价,并为运行人员提供在线诊断和运行调整决策支 持。目前,运行优化操作指导主要包括锅炉吹灰优化指导、真空系统( 包括凝汽器和循环水泵) 优化指 导和可控参数的优化指导。 5 设备故障诊断与决策 设备的故障诊断系统分为状态监测和故障诊断两个主要部分,状态监测是对被监测对象的功能和性 能指标等状态进行检查与监视,而故障诊断则是对被诊断对象故障的定位与分离。通过性能计算和能损 分析的结果和运行专家经验,可以得到设备的经济性能状况。对于经济性下降较大的设备,分析其原因 及发展趋势,根据专家知识、具体的运行规程和经验采取适当的措施,对电厂运行、管理人员具有重要 意义。由于机组设备众多,且关系复杂,在线判断目前有一定的难度。但是,人工智能技术的快速发展 使较好地解决这些问题有了可能。 3 东南大学硕士学位论文 6 指标统计评估与考核 运行重要性能参数和指标的统计评估和考核是实施优化运行的重要内容,通过对在线评价数据和在 线诊断信息进行定期统计分析做出统计和评价报告,为管理人员提供关于机组运行状况考核和设备状态 调整的决策支持,通过指标考核可以大大调动运行人员的积极性,保证优化运行管理的成功实施。 随着大型火电厂自动化水平的日益提高,火电机组的运行优化理论也有了很大的发展。如何将先进 的运行优化理论成果与计算机技术相结合并应用到电站生产实际中去,对于动力工程专业的研究人员来 说是一个紧迫而有挑战的问题。 1 3 数据预处理技术的研究动态 数据预处理问题起源于上世纪6 0 年代,最早在化工领域中展开研究,k u e h n 和d a v i d s o n 于1 9 6 1 年”q 提出对测量的过程数据进行预处理,从此揭开了过程控制中数据预处理的序幕。经过大约二十年的理论 研究,这一技术已逐步应用到化工工业过程中。其应用领域包括1 1 1 :( 1 ) 计划与统计管理,工厂的计 划管理、统计报表和生产决策都要以测量数据为基础,带有误差的测量数据会使管理人员无法掌握工厂 的真实情况,使用数据预处理技术可以为管理人员提供准确的运行实时数据;( 2 ) 过程监测,使用数据 预处理技术在线分析过程数据,可以有效地监测设备和装置的运行状态,诊断出设备的故障情况;( 3 ) 实时优化与控制,实时优化的任务是针对连续生产过程的特点,提高产品质量、节能降耗、降低成本等 以增强市场竞争力,将数据预处理技术与过程优化技术结合使用,可提供可靠的过程优化控制与操作方 案;( 4 ) 设备性能分析,数据预处理可全程地监测重要设备的状况。目前,数据预处理技术的商品化软 件已经问世,其中比较有代表性的有美国s i m c s i 公司的d a t a c o n 、法国t e c h n i p s c g i 公司的 d a t r e c 、英国k b c 公司的d a t a f i n e ( 提供与s q l s e r v e r 、o r a c l e 数据库软件的接口) 以及美国 a b bs i m c o n 公司的r m b 等软件。 最初,数据预处理技术在电力工业的应用与设备故障诊断联系在一起,在核电站较早地进行了广泛 的研究。美国电力科学研究院( e p r i ) 已经开发了两套针对核电站的软件,其中i c m p ( i n s t r u m e n t c a l i b r a t i o nm o n i t o r i n gp r o g r a m ) 应用奇偶空间法( p a r i t ys p a c e ) 监测冗余传感器的性能劣化和对不良数据 进行检验,而i p a s s ( i n s t r u m e n tp e r f o r m a n c ea n a l y s i ss o f t w a r es y s t e m ) 则应用统计方法进行传感器检测 与数据检验。在火电站领域,数据预处理问题己经引起了高度重视,目前国外大型d c s 公司己经初步推 出一些系统,如e l s a gb a i l e y 公司采用人工神经网络方法进行数据预处理,同时采用神经元构造“虚拟 传感器”对过程变量进行在线“测量”,o s i 公司的产品p i 中集成的s i g m a f m e 软件包采用统计检验的方 法实现了数据数据预处理功能。 目前,国内电站许多数据采集系统( o a s ) 在硬件中对数据进行初步处理,通过量程检验( 根据测 量参数的物理意义设定上下限) 可以过滤一些明显错误数据,d c s 系统中的协调控制系统( c c s ) 部分 所需要的重要数据采用多路采样,通过三取中或取二平均的硬件冗余方法可以提高采样的可靠性,但运 行优化系统所引用的大量的d a s 侧数据则普遍没有采用硬件冗余,一般采用根据设计值设定一个范围, 超出该范围的即认为是不良数据,发现不良数据后,即用设计值代替进行计算。这种处理方法对一部分 变化范围很小的参数是有效的,而对那些变化范围很大的参数效果不好。如果数据的变化范围较大,则 4 第一章绪论 设定的范围也较大,发现不良数据的机会就少,用设计值代替不良数据,由于设计值与当前工况的实际 值偏差较大,使计算结果误差较大,可信度下降。为此,一些科研院所进行了大量的研究与实践,如西 安热工研究院开发的火电机组性能监测系统中的测量数据检验模块”,东南大学开发的u p o s 中集成了 参数预处理模块,另外还有基于图论、神经网络和信息冗余的方法。数据预处理技术在电力行业的应用 在国内正处于起步阶段,很多方法还处于理论研究阶段,缺乏成熟的工程技术支持,有待进一步的探索 研究。 近年来,人工神经网络方法在过程建模、故障诊断及控制等领域的研究非常活跃,其在非线性数据 处理领域中的应用开始受到重视【l 【1 4 】,神经网络强大的非线性映射、联想、记忆能力对于电厂运行优 化系统中的数据预处理也特别适用。和传统方法相比,神经网络法作为非参数模型估计方法,只需要利 用历史数据对网络进行训练,不需要清楚过程本身的精确机理模型,避免了过程模型误差可能带来的估 计误差。此外,神经网络法避免了对约束条件的假设,不需要对测量数据中随机误差的分布做特殊要求, 与非线性规划法相比,神经阿络计算速度快,适合在线运行。利用训练好的神经网络,不仅能验证数据 的好坏。而且对于不良数据,可以根据上次好的数据预测出其估计值,误差甚小。但使用神经网络之前, 需要大量的样本数据进行训练,因此样本数据选择的质量将直接影响神经网络的性能,而且当外界条件 变化后,必须进行新的网络训练过程。 1 4 本文的主要研究内容 本文对火电机组运行优化系统中的数据预处理问题进行了较深入的研究。根据测量参数的不同特征 分别研究了三类数据检验方法,即基于解析冗余的检验方法、基于运行优化目标值的偏差带检验方法以 及基于神经网络的检验方法。此外,还研究了用于消除测量数据中随机误差的数据协调算法,主要包括 基于投影矩阵的数据协调方法和基于数字滤波的数据协调方法。最后开发了数据预处理系统,并将数据 预处理系统集成应用于火电机组运行优化系统中。本文的内容安排如下: 第一章是本文的绪论部分。主要介绍了该课题的选题背景和研究意义、火电机组运行优化系统和 数据预处理技术的研究动态。 第二章介绍了数据预处理技术的有关知识。主要包括数据预处理的基本功能和主要方法,总结了 目前数据预处理技术在电力工业中的应用领域以及研究现状。 第三章研究了数据检验方法。根据火电机组测量数据的不同特征,研究了基于解析冗余的数据检 验方法,建立了基于解析冗余的数据检验模型,并通过算例验证了此模型的有效性;提出了基于优化 目标值的偏差带检验方法,重点分析了重要运行参数的目标值的确定方法;研究了基于人工神经网络 的数据检验方法,建立了基于前馈神经网络的数据检验模型和基于回归神经网络的数据检验模型,并 通过算例验证了模型的有效性。 第四章研究了数据协调算法。探讨了数据协调的基本模型以及模型的求解,重点研究了基于投影 矩阵的数据协调方法和基于数字滤波的数据协调方法,并通过算例验证了各方法在去除随机误差的有 效性。 第五章介绍了数据预处理系统的开发。提出了对实时数据进行分类分级检验模型,根据该检验模 5 东南大学硕士学位论文 型,按照知识工程的开发思想和增量式开发的方法开发了在线和离线数据预处理系统。此外,还研究 了数据预处理系统在u p o s 中的集成应用方案。 第六章是论文的结论与展望。总结本文的研究成果,并在研究成果的基础上提出了大量后续工作 的开展思路,并对火电机组运行优化系统的前景做了展望。 6 第二章数据预处理技术概述 2 1 概述 第二章数据预处理技术概述 数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是近年来随着人工智能和数据库 技术的发展而出现的- - f 3 新兴的技术,它是从大量数据中提取出可信的、新颖的、有效的并能被人理 解的模式的高级处理过程,是一个多步骤的处理过程。数据挖掘( d a t am i n i n g , d m ) 只是k d d 中的 一个阶段,但却是最重要的一个阶段,所以人们往往不加区别地使用两者。一般在工程应用领域多称 数据挖掘,而在研究领域人们则多称为数据库中的知识发现“m 【l q 。 目前关于数据挖掘的研究工作大多着眼于数据挖掘算法的探讨而忽略了对数据预处理技术的研究。 由于一些数据挖掘算法对其处理的数据集合一般都有一定的要求,如数据完整性好、数据冗余度小、数 据属性之间的相关性小等。而实际系统中的数据一般都具有不完整性、冗余性、不一致性和模糊性,很 少能直接满足数据挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘 算法的执行效率,而且其中的噪声干扰还会造成挖掘结果的偏差。对原始业务数据进行有效的预处理能 够帮助改善数据质量,进而提高数据挖掘进程的有效性和准确性。因此,数据预处理已经成为数据挖掘 实现过程中的关键问题7 j 。 数据挖掘过程可粗略地理解为四部分:数据采集、数据预处理、数据挖掘、以及结果的解释评估。 数据预处理是其中的重要一环,是必不可少的,尤其是对包含有噪声、不完整以及不一致数据进行挖 掘时,更需要进行数据的预处理,以提高挖掘对象的质量,并最终达到提高数据挖掘所获知识质量的 目的。然而实际系统中所收集到的数据含有噪声、不完整以及不一致数据是非常普遍的。所谓噪声数 据是指数据中存在的错误或偏离期望值的数据;不完整数据是指感兴趣的属性没有值的数据;不一致 数据是指数据内涵不一致的数据。 噪声数据产生的原因有:数据采集设备出现故障;在数据录入过程中发生了人为或计算机错 误;数据传输过程发生错误;由于命名规则或数据代码不同而引起的不一致数据。不完整数据产 生的原因有:有些属性的内容有时没有;有些数据当时被认为是不必要的;由于误解或检测设 备失灵导致相关数据没有记录下来;与其它记录内容不一致而被删除;历史记录或对数据的修改 被忽略了”m 。 数据预处理以发现任务为目标,以领域知识为指导,来组织原始业务数据,放弃一些与挖掘目标不 相关的属性,为数据挖掘算法提供高质量的数据,从而减少数据挖掘的数据处理量,提高挖掘算法的效 率,提升数据挖掘的起点和知识的准确度【j 7 】【 目前,对数据预处理技术的研究还不够完善,但是,对数据预处理技术的研究越来越引起广大学者 的关注。本章将主要探讨数据预处理的基本功能、主要方法以及目前数据预处理技术在电力工业中的应 用领域和研究现状。 7 东南大学硕士学位论文 2 2 数据预处理的基本功能 数据预处理主要是将来自多个数据源( 如:数据库、文件等) 的异构数据合并到一起,根据背景知 识中的约束性规则对原始数据进行检验,经过清洗、转换和归约等操作。生成一种能被数据挖掘工具和 其他计算机工具处理的标准的目标数据。数据预处理包括以下四个方面的功能【”】: 2 2 1 数据集成 数据集成是将来自多个数据源的数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选 择、数据的冲突问题以及不一致数据的处理问题。由于数据可能来自多个数据源,描述同一个概念的属 性在不同数据库取不同的名称,因而在进行数据集成时就常常会引起数据的不一致或冗余。命名的不一 致常常也会导致同一属性值的内容不同。大量的数据冗余不仅会降低挖掘速度,而且也会误导挖掘进程。 因此,数据集成并非是简单的数据合并,而是把数据进行统一化和规范化处理的复杂过程,它需要统一 原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等,从而把原始 数据在最低层次上加以转换、提炼和聚集,形成最初始的挖掘数据。 另外,在数据集成时还应考虑数据类型的选择问题,应尽量选择占用物理空间较小的数据类型,这 对大规模数据集来说将大大减少系统开销。 2 。2 2 数据清洗 数据清洗通常包括:填补空缺数据、去除( 或补偿) 异常数据、平滑噪声数据以及纠正不一致数 据。数据清洗可以分为有监督和无监督两类。有监督过程是在领域专家的指导下,分析收集的数据, 去除( 或补偿) 异常数据和删除重复记录,填补空缺数据;无监督过程是用样本数据训练算法,使其 获得一定的经验,并在以后的处理过程中自动采用这些经验,完成数据清洗工作。数据清洗的另一个 重要内容是数据类型的转换,通常是指连续属性的离散化。通过离散化,可以有效地减少数据表的大 小,提高分类的准确性。数据清洗的具体方法将在下一节中详细介绍。 2 2 3 数据转换 数据转换就是将数据转换成适合数据挖掘的描述形式,主要是对数据进行标准化处理。数据标准化 就是将有关属性的数据按比例投射到一个特定范围之内,如 - 1 ,l 】或【o ,1 】,以消除数值型属性因大小 不一而造成挖掘结果的偏差。标准化处理常常用于神经网络、基于距离计算的虹最近邻分类和聚类挖掘 的数据预处理。对于神经网络,采用标准化后的数据不仅有助于确保学习结果的正确性,而且也能帮助 提高学习的速度。对于基于距离计算的挖掘,标准化方法可以帮助消除因属性取值范围不同而影响挖掘 结果的公正性。数据标准化的具体方法也将在下一节中详细介绍。 2 2 4 数据归约 对于小型或中等规模数据集,采用前面提到的数据清洗和数据转换对数据集进行预处理已经足够 了。但对大型的数据集来讲,对数据集进行预处理还应该采取数据归约。 数据归约的目的就是缩小数据集的规模,又不会影响( 或基本不会影响) 最终的挖掘结果。数据归 约是在对挖掘任务和数据本身内容理解的基础上,寻找依赖于发现目标的数据的有用特征,以缩减数据 规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。它主要有两个途径:属性归约和 8 第二章数据预处理技术概述 样本归约,分别针对原始数据集中的属性和记录。 ( 1 ) 属性归约包括针对属性进行剪枝、并枝、找方程和找相关等操作。剪枝就是去除对数据挖掘 没有贡献( 或贡献很小) 的属性;并枝就是把相近的属性进行综合归并处理;找方程就是发现两个或多 个数值型属性之间的函数关系;找相关就是因子分析,在取值没有规律且离散的属性之间寻找依赖关系, 确定某个特定属性对其他属性依赖程度的强弱,并进行比较。通过属性归约能够有效地减少属性,降低 数据空间的维数。 ( 2 ) 样本归约就是进行数据记录之间的相关性分析,用少量的记录集的线性组合表示大量的记录。 主要采用统计方法,如简单随机取样、等距取样、分层取样等。进行计算时,归并相同元组,并增加必 要的支持度属性域,最简单的支持度属性域就是相同元组的数目,或占总元组的百分比,最后去除那些 支持度较低的元组( 可视为例外或噪声) 。 2 3 数据预处理的主要方法 数据预处理的主要目的是提高数据集的质量,并最终提高数据挖掘所获模型知识的质量。本章上一 节中已经介绍了数据预处理的基本功能,下面将详细介绍一些主要的数据预处理方法。 2 3 1 数据清洗方法 1 空缺数据的处理 ( 1 ) 忽略该条记录。若某条记录中有属性值是空值,则将此条记录排除在数据集之外,尤其当类 别属性的值空缺而又要进行分类挖掘时。当然这种方法并不是很有效,特别是当含有属性空缺值的记录 比例较多时。 ( 2 ) 人工填补空缺值。该方法比较费时,并且当数据集很大、而空缺值又很多时,该方法可行性 较差。 ( 3 ) 用定值填补空缺值。用一定值( 如:默认值或该属性的均值等) 来填补同一属性的所有空缺 值。例如:某火电机组再热蒸汽温度的设计值为5 3 5 ( 2 ,则使用该值填补再热蒸汽温度这一属性中的所有 空缺值。但当一个属性的空缺值较多时,若采用这种方法,就可能会误导挖掘进程。这种方法虽然简单, 但并不推荐使用,或使用时需要仔细分析填补后的情况,以尽量避免对最终挖掘结果产生较大的偏差。 ( 4 ) 用同类别均值填补空缺值。这种方法在进行分类挖掘时使用。 ( 5 ) 用最可能的值填补空缺值。可以用回归分析、决策树等方法预测同一属性空缺值的最可能的 取值。该方法是一种较常用的方法,与其它方法相比,它最大程度地利用了当前数据所包含的信息来帮 助预测空缺值的最可能的取值。 2 异常数据的处理 在数据集中,通常存在不符合数据模型普遍行为的数据,这些数据与其它数据有很大的不同或不一 致,这样的数据称为异常数据。异常数据可能是由测量误差造成的,也可能是数据固有的可变性的结果。 在大多数数据挖掘应用中,都试图将异常数据对最终模型的影响减到最小。对异常数据的检测和把它从 数据集中清除,可以描述为一个从”个样本中选女个与剩余数据显著不同、例外或不一致的样本的过程。 异常数据检测的方法有: 9 东南大学硕士学位论文 ( 1 ) 统计学方法。该方法假设值的分布已知,利用基本的统计参数,如均值和方差,建立方差函 数阀值,所有阀值以外的数据都是可能的异常数据。然而在现实世界中,数据分布是未知的。 ( 2 ) 基于距离的异常数据检测。该方法是计算月维数据集中所有样本间的测量距离,如果样本s 中 至少有p 个样本到s ,的距离大于小那么样本毋是数据集s 中的一个异常样本。显然,此异常数据检测标准 建立在参数p 和d 的基础上,这两个参数可以根据数据有关知识提前给出,或者可以在迭代过程中反复改 变,以检测最可能的异常数据。 ( 3 ) 基于偏差的异常数据检测。该方法定义样本集的基本特征,所有背离这些特征的样本都是异 常样本。 3 噪声数据的处理 噪声是指被测变量的一个随机误差和变化。平滑噪声数据的主要方法包括: ( 1 ) 基于数字滤波的方法。随机误差的处理就是尽可能消除测量中的随机噪声,保留信号的真实 值。对于存在随机误差的数据,常常采用基于数字滤波的方法。常用的数字滤波方法包括;中值滤波、 滑动平均以及指数滑动平均等。 ( 2 ) 分箱方法。该方法利用被平滑数据点的邻近点,对一组排序数据进行局部平滑。首先将一组 数据进行排序,然后将其划分为若干等高度的箱( 即每个箱包含数值的个数相同) ,最后对每个箱内的 数据进行平滑,按照取值不同可分为:箱均值平滑、箱边界值平滑。箱均值平滑即对每个箱中的所有值 均用该箱的均值替换。箱边界值平滑即利用每个箱的边界值( 最大值或最小值) 替

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论