(动力机械及工程专业论文)机组运行优化系统中数据检验和优化目标值问题的研究与应用.pdf_第1页
(动力机械及工程专业论文)机组运行优化系统中数据检验和优化目标值问题的研究与应用.pdf_第2页
(动力机械及工程专业论文)机组运行优化系统中数据检验和优化目标值问题的研究与应用.pdf_第3页
(动力机械及工程专业论文)机组运行优化系统中数据检验和优化目标值问题的研究与应用.pdf_第4页
(动力机械及工程专业论文)机组运行优化系统中数据检验和优化目标值问题的研究与应用.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着我国电力工业的迅猛发展,电站信息的集成度将越来越高。海量的传感器数据 和专家经验提供了大量反映机组运行状态的信息,利用数据挖掘方法对这些宝贵的信息 资源进行加工与应用,必将对运行优化和提高机组的经济性、安全性、可靠性等都具有 重要的现实意义。本文结合数据挖掘的技术。对机组运行优化系统( u p o s ) 中的数据 检验和优化目标值问题的解决方案作了研究,主要内容如下: 论文首先介绍了数据挖掘技术的基础理论,重点介绍了数据挖掘中的数据检验理 论,关联模式和回归模式的有关理论; 其次,论文阐述了基于数据挖掘中的主要素分析( p e 走) 理论和改进的鲁捧自联想 神经网络( r a a n ) 的数据检验方法,检验结果表明两种方法的有效性,同时还总结了 六种常见的传感器故障模式及其数据检验; 然后,论文介绍了数据挖掘中的关联规则在优化目标值挖掘中的运用,首次提出了 基于回归分析理论预测优化目标值的方法,预测结果表明本文算法能够方便、有效、准 确地预测出机组当前运行状况下运行参数的优化目标值; 最后,论文基于数据挖掘的理论和知识工程的增量式开发方法研制了运行优化数据 检验软件和优化目标值挖掘软件。提出了数据分级分类的检验、参数分类挖掘和考虑安 全性影响的预挖掘等思想。以上软件作为u p o s 系统中的两个重要的功能模块,为机组 的节能降耗、运行优化提供了良好的支持。 关键词:电站,运行优化,数据挖掘,数据检验,优化目标值,知识工程,软件 a b s t r a e t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ep o w e ri n d u s t r yi no u rc o u n t r y , t h ei n t e g r a t i o nl e v e lo f i n f o r m a t i o ni np o w e rp l a n t sw i l lb eh i 【g h e ra n dh i g h e r l a r g eq u a n t i t yo fi n f o r m a t i o nt h a t r e f l e c t st h ec o n d i t i o no f u n i tp e r f o r m a n c e ,i sp r o v i d e db ym a s ss e n s o rd a t aa n dt h ee x p e r i e n c e o fe x p e r t s m a k i n gu s eo ft h em e t h o do fd a t am i n i n gt ot r e a ta n da p p l yt h e s ep r e c i o u s i n f o r m a t i o nr e s o u r c e ,w i l lh a v et h ei m p o r t a n ta n dr e a l i s t i cm e a n i n gt oo p e r a t i o no p t i m i z a t i o n a n de c o n o m i c a l e f f i c i e n c y , s t a b i l i t y , r e l i a b i l i t y e t c o f t h eu n i t d a t av a l i d a t i o na n d o p t i m i z a t i o nt a r g e tv a l u e i nt h eu n i tp e r f o r m a n c eo p t i m i z a t i o ns y s t e m ( u p o s ) a l es t u d i e di n t h i st h e s i s ,u s i n gt h et e c h n o l o g yo fd a t am i n i n g t h ee s s e n t i a la c h i e v e m e n t sc a l lb ed e s c r i b e d a sf o l l o w s : f i r s t l y , t h et h e s i si n t r o d u c e st h eb a s i ct h e o r yo f d a t am i n i n ga n de m p h a s i z e st h et h e o r yo f d a t av a l i d a t i o n ,a s s o c i a t i o np a t t e r na n d r e g r e s s i o np a t t e r n i nd a t a m i n i n g s e c o n d l y , t h eu s i n go fp r i n c i p a lc o m p o n e n ta n a l y s i s ( p c a ) a n dn o v e lr o b u s ta u t o a s s o c i a t i v en e t w o r k 佛a a n ) f o rd a t av a l i d a t i o ni se x p a t i a t e da n di m p r o v e di nt h i st h e s i s t h er e s u l t ss h o wt h a tt h et w om e t h o d sa r ee f f e c t i v ei nd a t av a l i d a t i o n a n da tt h es a l t l et i m e s i xk i n d so fs e n s o rf a i l u r em o d e sa r es u m m e du p t h en o v e lr a a n c a ns u c c e s s f u l l yd e t e c t s e n s o rf a i l u r ea n dt e e , o v e rs i g n a l sf o rm a n yr e a s o n s t h e n , t h em e t h o do f a p p l y i n ga s s o c i a t i o n r u l e sa n d r e g r e s s i o na n a l y s i si n t ot h ed e c i s i o no f o p t i m i z a t i o nv a l u e i si n t r o d u c e di nd e t a i l s a n dt h i sm e t h o di se f f e c t i v ei nf o r e c a s t i n g o p t i m i z a t i o nv a l u e so f p a r a m e t e r s u n d e rt h eu n i t sc u r r e n tc o n d i t i o n f i n a l l y , d a t av a l i d a t i o na n do p t i m i z a t i o nv a l u ef i n d i n gs o f t w a r ei sm a d ea n di n t e g r a t e d i n t ou p o sa c c o r d i n gt ot h et h e o r yo fd a t am i n i n ga n dk n o w l e d g ee n g i n e e r i n g a n dm a n y n e wi d e a sa n da l g o r i t h m sa r ep r e s e n t e d t h i ss o f t w a r ec a ns u p p o r tu p o s t or e a l i z et h eu n i t p e r f o r m a n c eo p t i m i z a t i o n k e yw o r d s :p o w e rp l a n t ,o p e r a t i o no p t i m i z a t i o n ,d a t am i n i n g ,o p t i m i z a t i o nv a l u e , k n o w l e d g ee n g i n e e r i n g ,s o f t w a r e j i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名: l 、 堡啊奠生导师签名:触日期:u 。” 第章绪论 第一章绪论 1 1 课题背景与意义 电力工业是我国国民经济的基础产业,也是支柱性产业。改革开放以来,我国电力 工业迅猛发展。自1 9 9 6 年起我国发电装机容量和发电量已跃居世界第二t 仅次于美国”3 。 由于近几年国民经济的飞速发展,到2 0 0 3 年底,全国发电设备容量达到3 8 4 5 0 万千瓦, 增长7 8 。其中,火电2 8 5 6 4 万千瓦,占7 4 3 。全年全国发电量合计1 9 0 8 0 亿千瓦 时,增长1 5 3 。其中,火电增长1 6 ,8 t z l 然而,我国的电力水平与发达国家相比还是很低的。据有关资料介绍,1 9 9 8 年国内 火电机组的平均供电煤耗率为4 0 4 9 ( k r n , ) ,比美国、日本等先进国家高近8 0 9 ( g 砌) p 1 a 到2 0 0 2 年,全国人均占有装机容量o 2 5 k w ,人均用电量1 0 6 4 k w h ,不到世界人均水 平的一半,尚有2 3 0 0 万人没有用上电1 4 】。2 0 0 3 年,全国2 1 个省( 直辖市、自治区) 出 现了电力供不应求的局面f 2 1 。所以,我国的电力发展水平已经远远不能适应2 1 世纪信息 时代对电力供应的要求。大力开展节能降耗工作能有效地缓解我国的电力紧张问题。对 整个电力工业都有十分重要的意义。 而目前我国火电机组的运行水平还有待进一步的提高,其经济性还有比较大的提高 余地,特别是随着我国电力市场日趋规范化,电厂面临着提高竞争力、参与竞价上网的 问题,因此提高管理力度、优化机组运行、提高运行经济性以及降低发电成本对火电厂 具有非常现实的意义,开展火电机组的运行优化管理也成为电力企业的一个非常重要的 任务。 九十年代以来,国内各火力发电机组普遍进行了控制系统的改造,用新一代集散控 制系统( d i s t r i b u t e dc o n t r o ls y s t o n l ,d c s ) 取代传统的模拟控制和手工操作,这是十几 年来我国火电机组技术进步的明显标志。这些都意味着大量热控设备的投入使用以及传 感、测试技术的支持,以提高机组运行的自动化水平。以a b b g e 公司的m o d - 3 0 0 系 统为例,其数据采集系统( d a s ) 负责机组运行参数的采集。它的输入为:模拟量3 4 5 点,热电偶输入6 2 5 点,热电阻输入1 1 5 点,脉冲输入1 5 点,数字量输入1 2 0 0 点 射。 而且随着d c s 系统的进一步发展,管理信息系统( m a n a g e m e n t n f o r m a t i o ns y s t e m m i s ) 和厂级监控信息系统( s u p e r v i s o r y i n f o r m a t i o ns y s t e m ,s i s ) 先后应运而生,使电站生产 自动化和信息化水平得到空前提高。同时这些系统提供了数以千计的传感器数据和专家 经验,这些数据是一种非常宝贵的信息资源,除了为机组控制系统与运行人员提供信息 外,可以进一步进行数据挖掘,提取出有用知识,这些知识必将对机组节能降耗,提高 运行水平,促进状态维修等发挥积极作用。 东南大学动力系开发研制的大型火电机组运行优化系统u p o s ( u n i tp e r f o r m a n c e o p t i m i z a t i o ns y s t e m ) 系列软件正是利用了宝贵的机组运行的数据资源,经过充分的加工 处理,得到大量有用的知识,充分反映了机组运行的状态,系统还将电厂的性能优化与 东南大学硕士学位论文 节能管理有机地结合,从而对全厂节能带来明显效果。 然而机组的运行优化是个多学科交叉的复杂问题,在不少方面依然存在着许多难 点,比如如何保证实时过程数据的可靠性,如何定位和诊断传感器的故障,如何恢复传 感器故障信号,如何合理确定重要运行参数和性能指标的优化目标值问题等等,因此需 要作进一步的研究与解决。本文在这样的背景下对火电机组的运行优化进行研究,开发 了运行优化数据检验软件和优化目标值挖掘软件,并且作为u p o s 系统中的两个重要的 功能模块,为机组的节能降耗、运行优化提供了良好的支持。 1 2 国内外研究动态 在运行优化、性能监测和诊断方面,e p r i 一直处于领导地位。8 0 年代末,e p r i 为e d d y s t o n e 电站研制出了全厂故障监测与诊断系统,对全厂的所有设备进行监测与诊 断,提高了全厂的设备可用率,达到了提高机组的可靠性,降低维护费用,延长机组寿 命的目的【6 】。而西屋电气公司从1 9 7 6 年开始研究电站在线计算机诊断工作,1 9 8 0 年投 入了一个小型的电机诊断系统,后来还开发了大型电站在线监测人工智能诊断系统 ( a i d ) ,并建立了沃伦多诊断运行中心o c ) j 通过d o c 可以监视全美2 0 多个电厂的数 据信息【7 1 。 自八十年代中期,我国开始了机组运行优化与性能监测问题的研究,研究单位包括 了高校、研究所、制造厂家和电厂等。山东电力科学研究院与清华大学等单位在1 9 9 7 年共同开发了“大型汽轮发电机组远程在线振动检测分析与诊断网络系统”p j 。电力科 学院、西安热工所j 西安交通大学和东南大学等单位先后在望亭电厂、杨柳青电厂、下 花园电厂、南京热电厂和洛河电厂等安装了各自的性能在线监测系统【引。 数据检验问题与故障诊断联系在一起,在军事、航空和核电站等部门较早地进行了 广泛的研究,美国电力研究院e p r i 已经开发了两套针对核电站的软件,其中 i c m p ( i n s m m a e n tc a l i b r a t i o nm o n i t o r i n gp r o g r a m ) 应用奇偶空间法( p a r i t ys p a c e ) 监测冗余 传感器的性能劣化和对不良数据进行检验 3 1 。在火电站领域,数据检验问题已经引起了 高度重视,o s i 软件公司产品p i 中集成的s i g m a f i n e 软件包采用统计检验的方法实现了 数据检验功能【3 1 。同时,小波分析也被用于数据的检测和分析。1 9 9 7 年r o b e r tn o w a k 和r i c h a r db a r a a i u k 将小波变换应用于非线性信号处理,研究表明基于小波分析的非线 性特征分析大大优于传统的时域、频域分析方法 9 1 。1 9 9 5 年w j s t a s z e w s k i 提出了基于 小波分析的数据压缩和特征抽取方法,分别讨沦了周期信号、连续非稳态信号和瞬态非 稳态信号的数据压缩和特征抽取【针。在提取数据特征方面,神经网络也得到了广泛应用, 美国南卡罗来纳电力和嫩气公司与p a v i l i o n 技术公司,联合开发了荃于人工神经网络的 锅炉在线优化软件,其另一功能就是利用人工神经网络对测量信号的准确性进行诊断【,j 。 我国在数据检验方面与性能监测系统结合在一起也有不少应用,利用数据采集系统 ( d a s ) 在硬件中对数据进行初步检验,即通过上下限检查过滤一些明显的错误,d c s 系统中的协调控制系统( c c s ) 部分所需要的重要数据采用多路采样,通过三取中或取 第一荤绪论 二平均的硬件冗余方法可以提高采样的可靠程度。另外还有利用参数之间的关联模型等 方法进行数据检验的例子。 目标值问题和偏差分析或能损分析联系在一起,美国、加拿大等西方国家早在七十 年代初就进行这方面的研究,当时的研究重点是用热偏差分析对机组热耗变化进行在线 监视,通过对一些可控参数的调整,使机组运行的能耗减至最小。英国的b a b c o c k c o n t r o l s ,德国的d v g 与v g b ,日本的c r e p i ,m i t s u b i s i ,h i t a c h i ,以及瑞士的b b c 等公司和科研机构也进行了能损和偏差分析方面的研究和试验【”,其目的就是要使机组 在最佳目标运行工况下运行,机组运行性能和经济性达到最优。而且,国外的监测和优 化系统有许多都已经能够动态地给运行人员提供实时降低能损的控制值【l “。在国内,通 常采用供电煤耗率作为评价机组性能的综合指标。八十年代,提出了“热偏差法”与“能 损分析诊断方法”,其基本思想是对运行经济性指标偏差进行逐级分解,从而得到各项 偏差所造成的能量损失。初期的能损监测系统是基于d o s 操作平台的,如在清河电厂 及天津杨柳青电厂的能损分析诊断装置【l “。后来武汉大学在1 9 9 8 及2 0 0 0 年曾先后开发 了两套w i n d o w s 平台下的火电厂能损监测系统l l “。 1 3 国内运行优化系统存在的问题 目前国内的运行优化系统在实施过程中存在很多问题急需解决,如: ( 1 ) 由于庞大的电站数据库中的数据以及实时过程数据都无法保证其正确性,其中存 在不少伪参数,它能引起后面的热力计算和优化系统的误差较大。因此对伪参数 的判别和纠正成为了一个急需解决的难点; ( 2 ) 传感器故障或漂移能够导致测量数据的不准确,因此对传感器故障的诊断,故障 类型的判别以及对故障信号的恢复等都是运行优化中的难点; ( 3 ) 国内在确定关键参数的运行优化目标值时,还处于采用试验结果或设计工况的非 实时参考值的阶段,未考虑随环境等参数影响的变化。因此,需要充分利用现有 的实时和历史数据库资源,探讨目标值的多种影响因素,得出在各种影响因素变 化之下的,符合当前机组运行状况的参数优化目标值。这是运行优化中的核心问 题。 本文针对以上运行优化系统中存在的难点问题进行了研究。实际上,上述问题可以 归结为两个大问题:运行优化数据检验问题和运行优化目标值问题。而利用数据挖掘技 术的强大功能,正可以较好的解决运行优化中的这两大难题。 1 4 论文的主要内容 本文对火电机组运行优化系统( u p o s ) 中的数据检验和优化目标值确定问题进行 了深入研究,并在数据挖掘技术的理论基础上开发研制了运行优化数据检验软件和优化 目标值挖掘软件。全文共分为六章,除第一章绪论外,其余各章阐述了解决上述两个核 心问题的算法及其软件开发实现方案,各章内容安排如下: 3 查堕盔兰堡主兰篁丝塞 第二章介绍了数据挖掘技术的基础理论,重点介绍了数据挖掘中数据检验的有关理 论和数据挖掘在优化目标值确定中的应用方法。 第三章提出了基于数据挖掘的主要素分析( p c a ) 和神经网络的数据检验方法。其 中,本章总结了常见的六种传感器故障信号,并用改进的鲁棒自联想神经网络( r a a n ) 进行了数据检验,结果表明本文算法能够更好的故障定位,抑制噪声,避免残差污染, 提高信号恢复的精度,增强对故障的检测和恢复能力,能够恢复同时多个传感器发生故 障的信号,结构简单,易于实现。 第四章介绍了数据挖掘中的多维关联规则在优化目标值挖掘中的运用,首次提出了 基于回归分析( 包括趋势面预测和非线性逐步回归) 的优化目标值预测方法,结果表明 本文算法能够更准确地预测出机组当前运行状况下的优化目标值。 第五章基于数据挖掘的理论和知识工程的增量式开发方法研制了运行优化数据检 验软件和优化目标值挖掘软件。其中,本章提出了数据分级分类的数据检验,参数分类 挖掘和考虑安全性影响的预挖掘等思想。软件作为u p o s 系统中的两个重要的功能模 块,为机组的节能降耗、性能优化提供了良好的支持。 第六章是论文的总结及展望,在总结本文成果的基础上,提出了后续工作的开展思 路。 第二章数据挖掘技术的基础理论 第二章数据挖掘技术的基础理论 2 1 引言 信息技术的迅猛发展带来了多方面技术的快速发展,如; ( 1 ) 数据存储设备价格不断下降,新的大容量存储介质的出现使得存储海量数据的成 本大幅度下降: ( 2 ) 数据库技术不断发展,超大规模数据库的出现,数据仓库的应用,数据库管理系 统广泛应用。使得数据库存储的数据量急剧膨胀,数据的管理存取更规范方便安全; ( 3 ) 先进的计算机技术,例如更快更大的计算机处理、访问和计算能力,以及计算机 的并行体系结构; ( 4 ) 机器学习的研究有了很大进展,自2 0 世纪5 0 年代开始机器学习的研究以来,机 器学习经历了三个阶段,研究内容分别是:神经模型和决策理论,概念符号获取及知识 加强和领域专用学习。 政府部门、科研机构和商业企业在信息化运作中积累的以不同形式存储的数据,正 在以几何级数的速度迅速增长。大量数据的背后蕴藏着许多重要的有价值的信息,有些 能为决策提供有效的支持,有些还能带来可观的经济效益。但是,数据的繁杂和庞大是 超乎想像的,在如此艰巨的任务面前,利用人工对数据进行有效的分析是做不到的,而 传统的基于统计分析的处理数据的手段也有些力不从心。所以长期以来一直处于“数据 丰富,但知识贫乏”( d a t a r i c hb u ti n f o r m a t i o np o o r ) 的尴尬局面【1 2 】。“学会抛弃信息”便 成为人们提出的一个新的口号。所以,找到一种能够迅速从海量数据中提取有用信息和 知识的方法已经迫在眉睫。 八十年代末,数据挖掘技术正是在这样的背景下产生了,九十年代发展成为新兴的 富有朝气的热点研究领域,目前,从国内外的研究和应用来看,数据挖掘真可谓是如火 如萘。数据挖掘产生前后的主要信息技术的演变如图2 1 所示。2 0 0 1 年1 月,美国麻省 理工学院的科技评论( t e c h n o l o g yr e v i e w ) 杂志提出了将来未来5 年对人类产生重 大影响的l o 大新兴技术,其中排名第三的就是一一数据挖掘【l ”。 下面用一个经典的数据挖掘技术应用的例子来说明数据挖掘的强大威力: 啤酒和尿布的故事曾给数以千计的中国企业带来了巨大的震撼。当年,全球最大的 超级市场沃尔马利用数据挖掘技术对所售商品的统计数据进行挖掘,发现傍晚时婴儿尿 布和啤酒的销售量相当,而且购买者多为男性。经调查才知道,很多男性总在妻子的嘱 咐下,下班后来买婴儿尿布,而丈夫们总是顺便买些啤酒,于是,超市就立即重新布置 货架,将婴儿尿布货架放置在啤酒类商品的附近,同时,将一些佐酒食品、男士用品与 之摆放在一起,使得上述商品的销售量成倍增长。 而本章就是要介绍数据挖掘技术的基础理论,尤其是后文将要应用的数据挖掘中的 数据检验理论,关联模式和回归模式的有关理论知识。 东南大学硕士学位论文 七十年代以前: 敦据的收集和数据库的创建 ( 主要采用文件系统的技术) 。一l 七十年代茔八十年代丽册: 披据库管理系统的出现: 山同络薮据库系统; b 关系数据库系统; c 羲据库建模工具;实律一联系模型t d 教据的组织索引技术; e 最据库查询语言:s o l 等: f 查询优化技术; g 事务管理:并发控制,安全管理; h 联帆事务处理 一o 八十年代中捌起l 高曩蠡据库系统出现: “据数据摸堑分:扩晨关系型、对象 塑和对象关系壅数据库t b 据应用领域分:空问、时问,多媒 体和科学应用羲据库,如识库 。一l 几十年代后朋届: 数据仓库与羲据挖掘出现z 山重据仓库。联机分析处理; b 数据挖薯,知识处理 一上 九十年代盈: 基于咖的敷据库系统出现: 基于x 乩的羹据库系统l h ,跳 j l 新一代集成信息系筑( 发展方向) 图2 - 1 信息技术演变示意图 2 2 数据挖掘的基本概念 数据挖掘( d a t am i n i n g ) ,又称为数据开采、数据采掘等【4 】,是从大型数据库或数 据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,进行归纳性 推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场 策略,做出正确的决策。有很多和数据挖掘相近的术语,如知识挖掘( k n o w l e d g e m i n i n g ) 、 知识获取( k n o w l e d g ee x t r a c t i o n ) 、模式分析( p a t t e r na n a l y s i s ) 、数据考古( d a t a a r c h a e o l o g y ) 、数据分析、数据融合和决策支持等等。在典型的决策支持系统中,数据 挖掘可自动提供对未来情况的分析结果,远远超过传统工具所能提供的历史情况分析。 1 9 8 9 年,在美国底特律举行的k d d 专题讨论会上第一次出现了“数据库中的知识 发现”( k d d :k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 1 3 】,它的出现为自动和智能地把海量的 数据转化为有用的信息和知识提供了手段。一般认为,数据挖掘是k d d 的一个环节, 是采用具体的挖掘算法从数据中自动高效地提取有用模式地过程i 。而k d d 是从大量 数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级的处理过程1 1 ”。一般 对两者是不加以区分的。 目前,最有影响力的有关k d d 的学术会议是k d d 国际会议,其前身是k d d 专题 讨论会【1 3 】,与会代表均是应邀主席。随着k d d 在学术界和工业界的影响越来越大,k d d 组委会于1 9 9 5 年把专题讨论会更名为国际会议,并改为大会代表自愿报名参加【i 。1 9 9 5 苎三兰墼塑丝塑垫查塑苎型墨望 年,在加拿大蒙特利尔市召开了第一次k d d 国际学术会议,以后每年召开一次1 1 3 】。 数据挖掘和知识发现的原始数据可以是结构化的,如关系数据库中的数据,也可以 是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知 识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 2 3 数据挖掘的挖掘模式和方法 数据挖掘的任务就是从大量数据中发现模式,模式是关于数据集的某种抽象描述, 模式可以分为两类:预测型模式( p r e d i c t i v ep a t t e r n ) 和信息型模式( i n f o r m a t i v ep a t t e r n ) 1 1 3 j 5 。 预测型模式通过输入集合的值来计算某一属性,或某几种属性的值,用来解决一个 指定的阎题,从数据库中的一些属性来预测另外一个或多个属性值,其特点是用已知属 性值猜测未知属性值。 信息型模式不解决某一个指定的问题,而是对数据中存在的规律和规则做出的定性 或定量的描述,或者对数据进行分组,这种知识不能直接用于预测,其价值在于提供给 某领域的专家一些建议和这些建议的有效性。 根据实际应用的不同,挖掘模式可分为六大类,其中,关联规则、泛化模式、聚类 模式、时间序列模式主要用于描述数据的一些特征,属于信息型模式,而分类模式、回 归模式可以用于预测,属于预测型模式。 这六大类模式具体介绍如下: ( 1 ) 关联规则:也称关联模式,是形如x j y 的规则,其中x 和y 是关于数据库中属 性的断言,它反映的是数据库中属性间的关联关系。 ( 2 ) 泛化模式:数据泛化是一种将数据库中的数据由低层次向高层次抽象的过程,数 据泛化通过采用联机分析处理( o l a p ) 或面向属性归纳技术将数据库中的最原始、最 基本的数据信息转化为高层次的泛化关系。 ( 3 ) 聚类模式:聚类是把一组数据按照相似性和差异性划分成若干有意义的子集( 类) , 在同一类别中个体间的距离尽可能小,而不同类别中个体间的距离尽可能大。聚类方法 包括统计分析方法、机器学习方法、神经网络方法等。 ( 4 ) 分类模式:分类是对数据的一种抽象,通过找到分类模式将数据库中的数据项映 射到指定的类别。 ( 5 ) 时间序列模式:通过时间序列搜索先后重复发生概率较高的模式,反映数据库中 的属性值在时间顺序上的特征,研究数据序列的趋势特征、数据序列的预测以及数据间 在时阃上的相关关系等问题。 ( 6 ) 回归模式:一般用于对数据库中未知属性值的预测,回归模式的预测值是连续的。 主要方法有回归分析方法和时间序列模式中的相关方法等。 为了完成数据挖掘的六大类任务,必须使用一些方法和技术手段,目前常用方法可 以分为七大类: 查塑查兰堡主兰堡垒塞 ( 1 ) 决策树方法:通过归纳学习,乖j 用信息论中的信息增量和集合论方法寻找数据库 中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立树的分 支,即可建立决策树; ( 2 ) 仿生物技术:包括神经网络方法和遗传算法等; ( 3 ) 统计分析方法:包括常用统计、相关分析、回归分析、假设检验、聚类分析、判 别分析等。 ( 4 ) 模糊数学方法:利用模糊集合理论对实际问题进行模糊评判和模糊决策: ( 5 ) 粗糙集方法:用于数据简化,数据意义评估,对象相似,差异性分析,因果关系 及范式挖掘等。 ( 6 ) 可视化技术:利用可视化数据分析能使用户直观交互的分析数据,能改善数据挖 掘的速度和深度,包括数据、模型和过程三方面的可视化。 ( 7 ) 信号分析方法:利用信号分析的方法和原理,将数据看作由多个通道采样组成的 信号进行分析处理。 2 4 数据挖掘的处理过程 数据挖掘在实际应用对,需要领域专家的参与。由专业知识指导数据库中的知识发 现,并对知识进行评价。这个处理过程是个反复进行的交互过程,具体包括以下几个挖 掘步骤i l 刈: ( 1 ) 应用领域的确定:通过交互了解数据挖掘的任务,分析已有知识,明确挖掘目标; ( 2 ) 数据收集:根据挖掘目标收集相关数据; ( 3 ) 数据检验:分析各字段含义及其与其它字段的关系,然后利用各种方法进行合法 性检查。剔除错误数据和冗余属性,去除空白数据等: ( 4 ) 挖掘算法选择:根据已有知识和目标选择知识发现算法,如分类,回归,聚类等, 并决定如何使用算法; ( 5 ) 算法应用:据选定算法对经过预处理的数据进行模式提取,搜索或产生一个特定 的感兴趣的反映规律和知识的模式; ( 6 ) 结果评价:由专家对知识发现的模式的有效性和新颖性进行评价: ( 7 ) 效果优化:根据评价结果,对挖掘的各个阶段进行优化,包括对问题的再定义和 数据的进一步处理和计算; ( 8 ) 实际应用:将得到的结果和知识应用到实际的系统中,提供决策支持,最终要从 实际应用中检验发现的知识的有效性。 2 5 数据挖掘在数据检验和优化目标值问题中的应用 2 5 1 数据挖掘中的数据检验理论 数据检验实际上是数据挖掘的处理过程中的一个步骤。而数据挖掘领域有几个方 面的工作还需要作大量的深入研究,它们是: - 8 一 墨三兰墼塑丝塑垫查塑薹苎! ! 里堡 ( 1 ) 数据挖掘所处理的数据来自于实际的数据库,数据的完整性、一致性和正确性都 很难得到保证,如何将这些原始的数据加工成学习算法可以接受的数据需要进行深入 的研究; ( 2 ) 数据挖掘所处理的数据量可能非常的大,所以学习算法的效率和可扩充性就显得 尤为重要: ( 3 ) 数据挖掘需要利用目前数据库技术的突破来加快挖掘的速度,提高学习的效率; 本文将对上述研究方向( 1 ) 展开深入研究,实际上这个问题就是数据挖掘处理过 程中的数据检验步骤的问题。在这里,有必要讨论一下数据挖掘理论中有关数据检验步 骤的内容。 现实世界数据库中的数据量迅速膨胀,导致数据库中保存了大量的含有噪声的、不 完整的和不一致的数据,显然,需要对这些数据进行检验,将错误的数据用正确的数据 替代,这就是数据检验的任务。数据检验作为数据挖弼的一个重要阶段,同时能够提高 数据挖掘对象的质量,也能够提高数据挖掘所获模式知识的质量。 数据挖掘定义噪声数据为数据中存在的错误或异常( 偏离期望值) 的数据;不完整 数据的定义是感兴趣的属性没有值的数据;不一致数据的定义是数据内涵不一致的数据 1 3 :6 1 。 噪声数据的产生原因有:数据采集设备有闯题;在数据录入过程中发生了人为 或计算机错误; 数据传输过程中发生错误:由于命名规则或数据代码不同而引起的 不一致数据1 1 3 , 16 】。 不完整数据产生原因有:有些属性的内容有时没有; 有些数据当时被认为是不 必要的;由于误解或检测设备失灵导致相关数据没有记录下来;与其它记录内容不 一致而被删除; 历史记录或对数据的修改被忽略了f 1 3 , 1 6 。 数据检验的方法有很多,根据其作用可以划分为以下四类 1 3 , 1 6 】: ( 1 ) 数据清洗( d a t ac l e a n i n g ) 数据清洗就是要填补遗漏的数据值,平滑有噪声的数据,识别或除去异常值,解 决不一致问题。 ( 2 ) 数据集成( d a t ai n t e g r a t i o n ) 数据集成就是要将来自多个数据源( 如数据库和文件等) 的数据合并到一起。由 于同一个概念的属性在不同的数据库中可能名字不同,在数据合并时可能引起数据不 一致和冗余的问题,因此数据集成后还需要进行数据清洗以便消除数据不一致和数据 冗余: ( 3 ) 数据转换( d a t at r a n s f o r m a t i o n ) 数据转换就是要对数据进行规格化处理。在正式进行数据挖掘之前,尤其是使用 基于对象距离的挖掘算法时,必须进行数据规格化。数据的规格化又称为归一化或标 准化。 ( 4 ) 数据消减( d a t ar e d u c t i o n ) 。 数据消减就是要缩小所压缩数据的规模,但却不会影响( 或基本不影响) 最终的 查堕丕兰堡主兰些堕苎 挖掘结果。现有的数据消减处理方法有:数据聚合,消减维数,数据压缩,数据块消 减和基于概念树的范化等。 本文后面章节将提出的上下限检查和曲线检查都属于“数据清洗”的范畴;本文用 神经网络进行数据检验之前,要将数据规格化,也就是将其处理成特定范围,本文是 【0 ,1 】,也叫归一化,属于“数据转换”的范畴;后文所述的相关分析法能够将强相关的 参数归为一类,减少了数据维数,属于“消减维数”,而主要素分析( p c a ) 方法和基 于改进的r a a n 神经网络的方法能够用压缩后的数据集较好的恢复原来的数据集,属 于“数据压缩”。 另外,主要素分析法和神经网络的方法实质上属于数据挖掘的方法,因此,用数据 挖掘的具体方法可以解决数据挖掘预先必须要进行的数据检验步骤的问题。 2 5 2 关联模式的应用 数据挖掘中关联模式 1 3 , 1 6 的挖掘能够解决优化目标值挖掘时的问题,因此,有必要 具体介绍一下关联模式的有关理论。 关联模式,即利用关联规则进行数据挖掘。关联规则,由a g r a w a l ,i m i e l i n s k i ,s w a m i 提出,是大量数据中存在的一种简单而实用的模式。关联规则是形如x jy 的规则,其 中x 和y 是关于数据库中属性取值的断言。在数据库中,若两个或多个数据项的取值重 复出现且概率很高,它们就存在某种关联,可以建立这些数据项的关联规则。 前文举的超级市场沃尔马的例子中对所售商品的统计数据进行挖掘,发现傍晚时婴 儿尿布和啤酒的销售量相当,这就是一条关联规则。调查后改进了尿布、啤酒和其他商 品的布置,使得上述商品的销售量成倍增长,同时,也提高超市对顾客的亲和力。 数据挖掘关联规则的基本模型 1 6 , 1 7 1 如下:假设i = f ,1 2 , 是m 个不同数据项集 合,d 为与任务相关的数据集合,也就是一个交易数据库,其中每一个交易r 是,中一 组数据项集合,即r ,。每一个交易都与一个唯一的标志符t i d 相联。如果对于,中 的一个子集z ,当且仅当x r 时,该交易丁包含x 。一条关联规则就是一个形如 x y 的蕴涵式,其中,x ,j ,且石n y = 妒。规则x j r 在交易数据库d 中 成立,且具有s ( s u p p o r t ) 支持度和c ( c o n f i d e n c e ) 置信度,这也意味着交易数据库 d 中有s 比例的交易,包含x u y 数据项;且交易数据库d 中有c 比例的交易r 满殿若 包含z 就包含y 条件”。具体描述如下: ( 2 1 ) ( 2 - 2 ) 支持度和置信度是关联规则理论中的两个重要概念,前者用于衡量关联规则在整个 数据记录集中的统计重要性,后者用于反映规则的可信程度。只有支持度和置信度均较 高的规则才是用户感兴趣的有用的规则。 墨三雯墼塑望塑塾查塑薹堡! ! 矍堡 为了挖掘出有意义的关联模式,一般还需要给定两个阈值:最小支持度( m i n i m u m s u p p o r t ,m i n _ s u p ) 和最小置信度( m i n i m u mc o n f i d e n c e ,m i n c o n f ) 1 6 , t 7 1 。这两个阈值 都在o 到1 0 0 之间。前者表示了一组数据项集在统计意义上所需满足的最低条件; 后者反映了用户对关联模式的最低置信度。关联规则的挖掘问题就是生成所有具有用户 指定的最小支持度和最小置信度的关联模式,即这些关联规则的支持度和置信度分别不 小于最小支持度和最小置信度。 关联规则的任务就是在给定的数据记录集中发现所有的强关联规则,一般可以将其 分解为以下两步( 1 川: 1 ) 找到所有的频繁数据项集; 即寻找所有支持度超过用户给定的最小支持度的项的集合。给定m 个数据项,就有 2 “一1 个可能的频繁数据项集。 2 ) 使用找到的频繁数据项集产生强关联规则。 对每个频繁集计算其所有的非空子集,对每个非空子集a ,考察规则aj ( 1 a ) , 如果该规则的可信度大于最小可信度,则输出此规则。 上述讨论的关联规则只有一个谓词,被称为单维关联规则【怕1 ,它是从交易数据库中 挖掘出的。而本文应用关联规则进行目标值确定时是对关系数据库或数据仓库中的数据 进行挖掘,而且涉及到多个谓词,如排烟温度目标值不仅和负荷参数有关,还和环境温 度有关,这时谓词就至少有三个:负荷,环境温度,排烟温度。包含两个或更多谓词的 关联规则就称为多维关联规则【t 6 。与单维关联规则挖掘相比,多维关联规则挖掘不是搜 索频繁项集,而是搜索频繁谓词集【i q 。 因此,本文在应用上述理论时,充分挖掘出对某运行参数有影响的某些参数以及相 关效率,与该运行参数之间的多维关联规则,选择该规则中相关效率较高的区间对应的 运行参数区间作为该参数在这些影响因素下的运行最佳值区间。这是后文提取优化目标 值的基本思路,第四章将有详细论述。 2 5 3 回归模式的应用 数据挖掘模式中的回归模式【1 3 ,l6 】能够解决优化目标值的分析预测的问题,因此,有 必要具体介绍一下回归模式的有关理论。 变量之间的关系可以分成确定性关系和非确定性关系【1 8 】。确定性关系是当自变量的 值给定后,因变量的值随之丽确定,如:电压、电阻和电流之间的关系,球体积与球半 径之间的关系等都可以用精确的函数来描述,属于确定性关系;而非确定关系称为相关 关系。具有相关关系的变量之间,不可能用精确的函数关系来描述,而是围绕一定的函 数关系上下波动。如:身高与体重之间的关系就属于相关关系。还有在电站热力系统模 型中存在的相关关系就更多了,比如汽轮机各级抽汽压力和负荷之间的关系,各级加热 器进出口凝结水的温度之间的关系等等都属于相关关系。 而数据挖掘中的回归模式就是研究变量之间的相关关系的,回归模式是通过统计学 1 1 查堕查堂堡主堂焦笙壅 中的回归分析方法所建的模型来实现的,回归分析可以用回归方程来对个连续数值作 预测,也就是用具有已知值的变量来预测其它变量的值。回归模式的预测值是连续的, 而分类模式的预测值是离散的,这是它们的区别。 回归分析所要处理的问题有: ( 1 ) 确定自变量与因变量之间的定量关系,所建立的定量表达式称为回归方程; ( 2 ) 对自变量与因变量之间的关系进行检验; ( 3 ) 利用所建立的回归方程进行预测或平滑。 根据回归方程中变量个数的不同和自变量次数选择的不同,回归分析可以采用多种 方法来进行,如:一元线性回归,多元线性回归,逐步回归,多项式回归,多项式逐步 回归,一元非线性回归,非线性逐步回归等。 回归分析中最简单的方法就是线性回归,它已经能够解决一些实际问题了。线性回 归就是利用一条直线来描述相应的数据模型。二元回归利用了一个自变量x 来为一个因 变量y 建模,其回归方程是:y = 口1 + 叩,这里y 的变化速率假设是常数,q ,n :是回归系 数,分别表示y 的截距和直线的斜率,利用最小二乘法可以获得这两个回归系数。利用 这个方程就可以对因变量y 作预测。 多变量线性回归是线性回归的一种扩展,它涉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论