(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf_第1页
(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf_第2页
(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf_第3页
(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf_第4页
(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)电厂机组综合评优系统的设计与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力人学硕士学位论文 摘要 本文根据发电企业的特点,结合电厂机组综合评优的实际需求,对数据仓库、 e t l 、o l a p 、数据挖掘等基础理论和关键技术,进行了深入有效的研究。文章重点 讨论了系统构建过程中数据仓库的设计与实现,设计了以电厂机组综合评优为主题 的数据仓库模型,研究分析了电厂机组海量数据从原始数据源到数据仓库的e t l 过 程,并基于此数据仓库进行了机组得分o l a p 多维分析,利用决策树算法和聚类挖 掘实现了机组评优得分的分类预测和各项得分相关参数的聚类分析,从而形成一个 完整的电厂机组评优解决方案。所设计的电厂机组综合评优系统可以满足发电企业 之间的信息交流与整合,实现了对机组得分情况的数据分析,对于电力系统数据仓 库的构建以及电力信息评估决策具有很高的研究意义和应用价值。 关键词:数据仓库,e t l ,o l a p ,数据挖掘 a b s t r a c t b a s e do nt h ec h a r a c t e r i s t i c so f p o w e re n t e r p r i s e ,c o n s i d e r i n gt h ea c t u a ld e m a n do fp o w e r p l a n tu n i tc o m p o s i t i v ee v a l u a t i o n , w ed e e p l yr e s e a r c ha sw e l la st h ep r i n c i p l ea n dc r i t i c a l t e c h n i q u eo fd a t aw a r e h o u s e ,e t l ,o l 皑d a t am i n i n g t h i sp a p e rf o c u s e so nt h ep l a na n d i m p l e m e n t a t i o no ft h ed a t aw a r e h o u s ed u r i n gt h es y s t e ms t r u c t u r ep r o c e s s ,d e s i g nt h ed a t a w a r e h o u s em o d e la st h et h e m eo fp o w e rp l a n tu n i tc o m p o s i t i v ee v a l u a t i o n , r e s e a r c ha n d a n a l y s et h ee t lp r o c e s so ft h em a s s i v ep o w e rp l a n tu n i td a t af r o mt h eo r i g i n a ld a t as o u r c et o d a t aw a r e h o u s e ,t h e nb a s e do nt h ee s t a b l i s h e dd a t aw a r e h o u s e ,w ei m p l e m e n tt h ea p p l i c a t i o n o fo l a pm u l t i d i m e n s i o n a la n a l y s i s ,u s i n gd e c i s i o nt r e ea n dc l u s t e r i n ga r i t h m e t i ct oa c h i e v e t h ec l a s s i f i c a t i o nf o r e c a s to fu n i ts c o r e sa n dt h ec l u s t e ra n a l y s i so ft h er e l e v a n tp a r a m e t e r s f i n a l l yf o r mac o m p l e t es o l u t i o nf o r t h ee v a l u a t i o no fp o w e rp l a n tu n i t t h i sp o w e rp l a n tu n i t c o m p o s i t i v ee v a l u a t i o ns y s t e mi sd e s i g n e dt om e e tt h ec o m m u n i c a t i o na n di n t e g r a t i o no f i n f o r m a t i o na m o n gt h ee l e c t r i c i t ye n t e r p r i s e s ,a c h i e v et h ed a t aa n a l y s eo ft h eu n i ts c o r i n g , w i t hh i g hr e s e a r c hs i g n i f i c a n c ea n da p p l i c a t i o nv a l u ef o rt h ed a t aw a r e h o u s ec o n s t r u c t i o no f p o w e rs y s t e ma sw e l la st h ee s t i m a t ea n dd e c i s i o no ft h ee l e c t r i c i t yi n f o r m a t i o n z h a n gn i n g ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yp r o f z h e n gl i n g k e yw o r d s :d a t aw a r e h o u s e ,e t l ,o l a p , d a t am i n i n g 华北电力大学硕士学位论文 目录 摘要。i a b s t r a c t i 第一章引言1 1 1 研究背景和意义1 1 1 1 电厂机组综合评优的背景和意义1 1 1 2 电厂机组综合评优的研究现状。1 1 2 数据仓库在电厂机组综合评优系统中的应用2 1 3 本文的主要研究内容3 第二章电厂机组综合评优系统总体设计5 2 1 系统需求分析5 2 2 系统关键技术分析5 2 2 1e t l 技术一5 2 2 2o l a p 技术7 2 2 3 数据挖掘技术8 2 3 系统功能设计9 2 4 系统环境和开发工具的选择1 l 2 4 1 系统环境的选择1l 2 4 2 开发工具的选择1 2 第三章电厂机组综合评优系统数据仓库分析与设计1 3 3 1 数据仓库概述1 3 3 1 1 数据仓库定义与特点1 3 3 1 2 数据仓库类型与体系结构1 4 3 2 数据仓库开发工具0 w b 1 5 3 3 数据仓库模型设计。1 6 3 3 1 概念模型设计1 6 3 3 2 逻辑模型设计17 3 3 3 物理模型设计2 0 第四章电厂机组综合评优系统数据仓库实现2 2 4 1e t l 准备2 2 4 1 1e t l 实现方法2 2 4 1 2 数据源分析2 3 4 1 3 数据准备区2 5 i 华北电力大学硕士学位论文 4 2 数据抽取2 5 4 2 1 数据抽取方法2 5 4 2 2 机组运行数据抽取2 6 4 2 3 机组基础数据抽取2 7 4 3 数据转换2 8 4 3 1 数据清洗转换策略2 8 4 3 2 数据清洗2 9 4 3 3 数据转换2 9 4 3 4o w b 实现数据转换3 5 4 4 数据装载3 6 4 4 1 数据装载流程3 6 4 4 2 初始数据装载3 7 4 4 3o w b 实现初始数据装载3 8 4 4 4 增量数据装载4 0 第五章数据仓库的数据分析应用研究与实现4 l 5 1 电厂机组综合评优系统数据分析应用4 l 5 2o l a pj 直用4 l 5 2 1o l a p 模型和开发工具选择4 1 5 2 2o l a p 实现4 2 5 2 3o l a p 结果展示与结论分析4 3 5 3 数据挖掘应用4 5 5 3 1 数据挖掘工具的选择4 5 5 3 2 决策树挖掘4 5 5 3 3 聚类分析挖掘4 7 第六章总结与展望5 0 6 1 总结。5 0 6 2 展望5 1 参考文献5 2 驾e谢5 4 附录5 5 在学期间发表的学术论文和参加科研情况5 6 i i 1 1 1 电厂机组综合评优的背景和意义 电力产业是国家的基础产业,是国家经济发展的命脉,邓小平同志曾说过“经济要 发展,电力应先行。随着改革开放以来我国经济的迅速发展,社会对电力的需求越来 越大,电力市场的竞争日益激烈,尤其是发电企业作为电力产业链的源头,所承受的市 场竞争压力较之以往更加沉重,面临着越来越多的困难与挑战。 随着发电企业向大型化、自动化方向的发展,提高发电机组的运行和管理水平,节 能降耗,增强企业竞争力,已成为发电企业最为关心的问题,而为了增强发电企业的竞 争力,加强对企业数据的管理与分析成为了重中之重。通过对电厂机组进行综合评优, 可以在挖掘机组基础数据背后隐藏的为电厂生产运行提供决策支持的信息的同时,比较 各大电厂机组之间的性能,促进电厂之间的优势互补。 目前实际运行的信息管理系统如生产m i s 、g i s 、计划管理、负荷管理系统等,经 过多年的运行已经积累了大量的历史数据,但是明确的、真正有价值的、有助于决策的 信息却难以获得。数据仓库技术的不断发展解决了这方面的问题,本课题电厂机组综合 评优系统的设计与研究就是建立在数据仓库基础之上,通过建立电厂机组综合评优系 统,在对发电机组的经济性得分、可靠性得分、技术监督指标得分和总得分进行评比的 同时,多角度、全方位展现数据,深层次的挖掘隐藏在电厂机组基础数据背后的大量信 息,揭示电力企业历年积累的数据背后蕴含的规律、规则,从而指导机组的安全经济运 行,使发电企业能够更好的把握机组的运行特性,为电厂管理决策者提供各种参考价值 的生产安全运行方案的同时使各个电厂之间能够相互了解和学习对方的优点,弥补自己 的不足,对电厂自身的长远发展和促进国家经济增长有着重要的现实意义。 1 1 2 电厂机组综合评优的研究现状 在我国,电厂机组性能分析的信息系统经历了近十年的发展,也已经出现了一些比 较成熟的软件,如华北电力大学研制的“机组经济性在线监测诊断指导系统 、“热力设 备应力计算与寿命管理系统 、“控制系统分析、建模与优化整定系统一、“全厂负荷优化 分配系统”、“锅炉受热面积灰结渣检测系统 、“设备故障检测与诊断系统”等等。这些 产品均已上线使用,经受了生产实践的考验并带来了良好的经济效益。但是不足之处是 华北电力人学硕士学位论文 这些系统大都应用于发电企业实际生产运行中,没有对全国各大发电厂的机组数据 进行汇总和性能评价分析,从而不能有效地、全面地对电厂机组性能进行比较和评 价。 从中国电力企业联合会对2 0 0 6 年全国各大电厂机组评优的过程来看,各大参 评电厂向评委会提供各台机组的基础数据和运行数据,评委会根据既定的评分规则 对这些数据进行一系列复杂的计算,得出机组的各项指标得分,相加得出机组总得 分,根据总得分情况对机组进行评比。这种评分过程虽然采用计算机进行计算,但 是计算公式相当复杂,工作量庞大,而且也不能直观的对各大电厂机组的得分进行 比较,从而无法更加全面的利用评优结果指导电厂机组的运行和管理,节能降耗,增强 电厂竞争力。 1 2 数据仓库在电厂机组综合评优系统中的应用 数据仓库是一门方兴未艾的学科,正在受到越来越多的行业和企业的重视。在信息 与商业的综合环境下,数据仓库有着广阔的前景和巨大的潜力。可以说,一个好的系 统解决方案,首要的是数据仓库的建设,在此基础上再进行联机数据分析、数据挖 掘及前端数据展示等瞳,。 2 0 世纪9 0 年代以来,电力信息化迅速发展,已建成了多种信息系统,如负荷 管理系统、配电管理系统、故障诊断系统等,但它们多是面向具体应用的,不能进 行系列决策分析,而且电力系统具有规模巨大、模式复杂等特点,不同的操作系统 和数据库管理系统使电厂业务数据在编码、命名、数据类型、语义等方面都存在较 大的冲突,数据集成性很差,这些状况限制了数据分析和决策支持等技术在电力系 统的应用。而数据仓库解决了这一问题,通过构建数据仓库,将来自不同业务应用 的数据经过抽取、转换和加载,形成主题数据库,并进行各方面的高级业务分析, 将各种来源的数据转化成实用的业务信息,建成一个数据集中的、业务整合的、符 合模型标准的数据仓库应用体系,为电力系统各级单位及决策层面提供高质量的数 据分析平台口1 。为一体化企业级信息系统提供完整的数据支撑,实现企业数据的构 建、保存、更新、集成、分发与共享。 在该电厂机组综合评优系统中,通过构建数据仓库,将各大电厂业务数据库中 的不一致数据抽取、转换并装载到一个统一的集成的数据仓库环境中,为下一步的 电厂机组评优提供一个数据平台,在此基础上再进行评优数据的o l a p 多维分析与 数据挖掘,从而形成一个典型的电力信息评估决策系统。同时,e t l 过程中的数据 转换也实现了电厂机组各项指标得分的自动计算,避免了手工计算的复杂与繁琐。 2 华北电力人学硕十学位论文 1 3 本文的主要研究内容 本文在电力企业数据大集中的背景下,尝试研究开发一套基于数据仓库的电厂 机组综合评优系统。利用数据e t l 技术将各大电厂业务系统及其它相关数据源数据 提取并集成到一个统一的数据仓库中,并使该仓库成为其它应用系统及高级应用分 析的基础数据源。在此基础上对评优数据进行o l a p 多维分析和挖掘,形成一个电 厂机组评优的解决方案,最后在j 2 e e 平台上实现,从而为中国电力企业联合会对 全国各大电厂机组的评估提供了一个方便、快速、可靠的评优分析系统。为实现上 面的研究目标,论文中所涉及的主要研究内容与工作有: 1 在查阅了国内外大量文献资料的基础上,对数据仓库的概念、基本原理、体 系结构、研究现状、发展趋势、关键技术、主流产品等进行了深入有效的研究。 2 借鉴相关行业数据仓库系统经验,结合电厂机组综合评优项目对数据仓库的 运用,对机组评优相关主题进行分析并构建电厂机组评优数据仓库模型,利用多维 模型的典型应用星型模型构建数据仓库; 3 重点讨论电厂机组评优数据仓库的e t l 技术与实现,目前数据仓库e t l 多 采用通用或专用软件工具实现,本文根据系统实际需求,设计开发了数据自动抽取 的接口程序,在此基础上实现电厂机组评优数据仓库的建立,也就是说构建了属于 自己的e t l 工具。系统分析并实现了电厂机组数据从抽取、清洗及转换到数据加载 的整个流程,真正实现电厂机组海量数据从数据源到数据仓库的转移; 4 在o r a c l e a w m 中创建了分析工作空间,完成了维和立方的建立、映射和存 储管理等工作,并通过相应的接口和组件以交叉表、线形图、柱形图等表现形式实 现了机组评优得分的多维数据展示操作;在o d m 中以决策树算法和聚类分析为例 对电厂机组评优数据进行了等级分类预测和聚类挖掘; 5 在数据仓库基础上,采用扩展了o r a c l eb ib e a n s 组件的o r a c l ej d e v e l o p e r 1 0 9 为开发环境,在j 2 e e 架构上,设计并实现了b s 结构的电厂机组综合评优系统, 包括系统平台管理、机组数据查询、数据e t l 、机组评优得分多维分析、机组数据 挖掘等功能模块。 论文的结构安排如下: 1 第一章,主要分析了电厂机组综合评优系统的背景和意义、研究现状、数据 仓库在电厂机组综合评优系统中的应用以及论文研究的内容; 2 第二章,介绍了电厂机组综合评优系统的总体设计,包括系统需求分析、系 统关键技术分析、系统功能设计以及系统环境和开发工具的选择。 3 第三章,介绍了电厂机组综合评优系统数据仓库的分析与设计,包括数据仓 库的一些基本概念、数据仓库开发工具o w b ,并在此基础上进行了电厂机组综合 3 华北电力大学硕十学位论文 评优数据仓库模型的构建; 4 第四章,结合数据仓库技术,介绍电厂机组综合评优系统海量数据的e t l 具体实现过程,包括e t l 准备、数据抽取、转换、装载四个部分; 5 第五章,介绍了数据仓库构建基础上的o l a p 多维数据分析应用和数据挖掘 应用,并展示分析挖掘结果; 6 第六章,结论与展望。对论文研究内容及工作的总结,论文的不足之处及下 一步需要完成的工作。 4 华北电力入学硕十学位论文 第二章电厂机组综合评优系统总体设计 2 1 系统需求分析 随着数据仓库技术的迅猛发展,以及各大数据库厂商对中国市场的关注,数据 仓库技术在电力系统中的应用成为新的研究热点。目前,在国内电力企业客户关系 管理、电力市场营销决策、电力系统负荷预测、电力系统设备状态检修、电厂汽轮 机性能分析预测等领域内,数据仓库和数据分析技术的研究工作开展的如火如荼。 随着竞争机制的引入和电力集约化发展策略的深入实施,以及电力短缺局面的 持续出现,提高电厂机组性能已经成为各大发电企业面临的重大课题。为了能使全 国各个电厂之间相互了解和促进发展,对各大电厂机组性能进行评优是一个有效办 法。同时,将数据仓库技术应用于机组评优过程中,不仅能够建立统一的电力系统 数据平台,提高评优效率,降低工作量,而且还能够对各大电厂机组进行全方位的 数据分析,从而使得各个电厂之间能够相互了解和学习对方的优点,弥补自己的不 足,对电厂自身的长远发展和促进国家经济增长有着重要的现实意义。 2 2 系统关键技术分析 2 2 1e t l 技术 在各大电厂业务数据进入本系统以构建数据仓库时需使用e t l 技术,e t l 是 e x t r a c t i o n t r a n s f o r m a t i o n - l o a d i n g 的缩写,即数据抽取、转换、装载过程,e t l 为 数据仓库的建立提供高质量的可靠数据,是数据仓库的重要组成部分,是数据从数 据源向数据仓库流动的必经阶段h 1 。 2 2 1 1 数据仓库e t l 技术的必要性 数据仓库作为一个独立的数据环境,需要将数据从联机事务处理环境、外部数 据源、脱机的数据存储介质导入到数据仓库中。待转移的数据不仅仅是同构的,更 多的情况是异构的,数据的异质性包括以下几个方面: 1 系统级的不一致性,主要指采用的操作系统或者数据库系统不同,体现在本 课题中,所建立的电厂机组综合评优系统采用的是o r a c l e 数据库,而各大电厂的业 务系统有的采用o r a c l e 、s q ls e r v e r 等关系型数据库,有的仅使用了简单的a c c e s s 、 f o x p r o 等文件型数据库; 5 华北电力人学硕十学位论文 2 数据结构层次的不一致性,即语法级和结构级差异,指数据对象的命名、数 据类型、数据格式上的差异以及各数据源的结构约束方面的冲突、接口和模式上的 不同等; 3 语义表达方面的不一致性,对同一对象的描述采用不同的编码或规范,或同 一个编码在不同的系统中表述的物理对象不同等。 这些数据的异质性构成了复杂的数据环境,给数据仓库的建立带来一定的难 度。e t l 过程就是要消除数据源的这些异构性,将分布的、异构数据源中的数据如 关系数据、平面数据文件等抽取到临时中间层进行清洗、转换、集成,最终按照预 先定义好的数据仓库模型,将数据加载到数据仓库中,数据仓库平台建立之后,即 可在此基础上进行联机分析处理、数据挖掘等数据分析操作。因此e t l 不仅是数据 仓库建立过程中极其重要的一部分,也是一个极其复杂的工作。在数据仓库项目中, e t l 会占其整个项目开发时间的6 0 7 0 ,为后期的o l a p 、数据挖掘、决策分析 等提供足够的支持晦,。 2 2 1 2e t l 的体系结构 e t l 的简单体系结构如图2 1 所示。 图2 1e t l 体系结构图 由于e t l 设立在数据仓库应用的最前端,为数据仓库提供数据内容,因此e t l 的操作时间、顺序和结果对数据仓库中信息的有效性至关重要阳1 。它的成败不仅直 接关系到数据仓库中数据的质量,而且进一步影响到o l a p 分析和数据挖掘等数据 分析工作的质量。数据仓库的构建是电厂机组综合评优系统实现的基础,而数据e t l 过程正是数据仓库构建环节中最重要的一部分,因此,围绕e t l 技术所做的工作不 仅为了实现数据仓库的构建,也是为整个电厂机组综合评优系统的顺利开发打下良 好的基础。 6 华北电力人学硕十学位论文 在第四章我们将详细介绍数据仓库构建过程中的e t l 过程。 2 2 2o l a p 技术 o l a p 是数据仓库系统的主要应用,它以数据仓库为平台,以多维分析为基础,针 对某个特定主题进行联机数据访问、处理和分析,支持复杂的分析操作,并提供直观易 懂的查询结果,使得数据分析人员能够从多角度对数据进行快速、一致、交互的存取, 从而获得对数据更深的了解,为企业管理和决策提供一个崭新的分析工具口3 。 1 o l a p 的逻辑概念包括以下几方面: ( 1 ) 维:人们观察数据的特定角度,一组用来唯一标识和区分数据的值的列表。维与 一个维表相对应,该维表包含了这个维所能取到的各种聚集方式的值。 ( 2 ) 层次:对细节程度不同的多个描述方面可以存在于维上,我们称这多个描述方面 为维的层次。一个层次可以被用来定义一个数据的汇总。如在时间维中,一个层次可能 是一个从日级别到月级别到季度级别再到年级别的数据汇总。 ( 3 ) 级n - 一个级别代表了在层次中的一个位置。在维中,级别被组织成为一个或多 个层次,所有级别的成员都存储在同一个维中。例如,一个日期维有一个层次包括日、 月、季度、年四个级别。 ( 4 ) 度量:度量是一个对应于研究中心点的变量或测度。度量是一个数值,被赋给事 实表中的列。 ( 5 ) 立方:立方是多维数据的逻辑展现,是一个多维数据集,由一个事实表和多个维 组成,一个维可以是一个维表。 o l a p 的多维分析是指对那些以“维形式组织起来的多维数据集采用切片、切块、 钻取和旋转等分析动作来剖析数据,从而使用户能够从不同侧面、不同角度观察数据仓 库中的数据,深入理解多维数据集中的信息哺1 。 2 多维分析操作通常包括如下内容: ( 1 ) 钻取可以改变维的层次、变换分析的粒度,包括向上钻取、向下钻取、交叉钻取 和钻透等。向上钻取即减少维数,是在某一维上将低层次的细节数据概括到高层次的汇 总数据;而向下钻取是从汇总数据深入到细节数据进行观察,是维数的增加。 ( 2 ) 切片和切块是在一部分维上选定值以后,度量值在剩余维上的分布。如果剩余维 有两个是切片,三个则是切块。 ( 3 ) 旋转是指变换维的方向,即在表格中重新安排维的放置,例如进行行列之间的互 换。 7 华北电力大学硕士学位论文 2 2 3 数据挖掘技术 数据挖掘是基于人工智能、机器学习、统计学等技术,高度自动化地分析原有数据, 做出归纳性的推理,从中挖掘出潜在的模式或行为,以帮助决策者做出正确决策的过程 阳3 。也就是说为了寻找未知的模式或趋势而在细节数据中进行搜索的过程,从而生成新 的信息和知识。广义的数据挖掘又称数据库中的知识发现,是从大量的、不完整的、有 噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信 的、潜在的和有价值的信息和知识的过程;狭义的数据挖掘是一个利用各种分析工具在 海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。 1 数据挖掘所发现的知识最常见的有以下五类: ( 1 ) 概念知识 概念知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有 普遍性的、较高层次概念的、中观和宏观知识,是对数据的概括、抽象和提炼。概念知 识的发现方法和实现技术很多,一种是数据立方分析,另一种是加拿大s i m o nf r a s e r 大 学提出的面向属性的归纳方法n0 1 。 ( 2 ) 关联知识 反应一个事件和其他事件之间依赖或关联的知识。如果两项或者多项属性存在关 联,那么其中一项的属性值就可以依据其他属性值进行预测。最著名的关联规则发现方 法是r a g r a w a l 提出的a p r i o r i 算法n 。 ( 3 ) 分类知识 它反应同类事务共有性质的特征型知识和不同事物之间的差异型特征知识,除了最 典型的基于决策树的分类方法,数据分类还有统计、粗糙集等方法。当数据缺乏描述信 息,或者无法组织成任何分类模式时,还可以采用聚类分析,聚类分析是按照某种相近 程度度量方法,将数据分成一系列有意义的子集合。 ( 4 ) 预测型知识 它根据时间序列型数据,由历史和当前数据去推测未来的数据。目前常用的预测方 法有经典的统计方法、神经网络和机器学习等。 ( 5 ) 偏差型知识 它是对差异的和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特 例,数据聚类外的离群值等。 2 数据挖掘的过程可以划分为以下几个步骤: ( 1 ) 问题定义 数据挖掘是为了从大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就 成为整个过程中第一个也是最重要的一个阶段n 引。在这个过程中必须明确数据挖掘任务 华北电力大学硕+ 学位论文 的具体需求,同时确定数据挖掘所需要采用的具体方法。 ( 2 ) 数据收集与预处理 该过程包括:数据选择、数据预处理和数据转换。数据选择的目的是确定数据挖掘 任务所涉及的数据对象,从相关数据源中抽取出与挖掘任务相关的数据集。数据预处理 通常包括消除噪声数据、遗漏数据处理、消除重复数据、数据类型转换等处理。而数据 转换的目的就是消减数据集合的特征维数,即从初始特征中筛选出真正与挖掘任务相关 的特征,以便有效提高数据挖掘效率。 ( 3 ) 数据挖掘实施 根据挖掘任务定义及已有的方法( 分类、聚类、关联等) 选择数据挖掘实施算法, 其间主要考虑数据特点和结果知识描述方式。 ( 4 ) 结果解释与评估 数据挖掘所获的挖掘结果,需要进行评估分析,以便发现有意义的知识模式。此外 还要对所发现的模式进行可视化表示,将挖掘结果转换为用户易懂的另一种表示方法。 2 3 系统功能设计 电厂机组综合评优系统的主要功能就是通过数据e t l 建立机组评优数据仓库,在 此基础上对各大电厂机组各项指标得分进行o l a p 多维分析和数据挖掘等数据分析,分 析和挖掘蕴涵在火电厂大量历史数据中的重要信息,对电厂评优提供一个方便快捷的平 台。基于数据仓库的电厂机组综合评优系统的功能结构如图2 2 所示。本论文重点研究 系统数据仓库的构建过程,并设计实现了在数据仓库建立基础上的数据o l a p 和挖掘分 析应用。 9 华北电力大学硕士学位论文 电厂机组综合评优分析系统 系统平台管理i i 机组数据查询| i 机组数据e t lii 机组评优得分多维分析l i机组数据挖掘 用 户 信 息 管 理 权 限 访 问 管 理 系 统 模 块 管 理 基 础 数 据 查 询 运 行 数 据 查 询 机 组 得 分 查 询 机 组 数 据 抽 取 机 组 数 据 转 换 机 组 数 据 装 载 可 靠 性 得 分 分 析 经 济 性 得 分 分 析 图2 2 电厂机组综合评优系统功能结构图 评 优 总 得 分 分 析 机 组 评 优 等 级 预 测 可 靠 性 聚 类 分 析 经 济 性 聚 类 分 析 1 系统平台管理模块 系统平台管理模块包含用户信息管理、权限访问管理、系统模块管理三个部分。 用户信息管理主要是管理用户的基本信息,对用户基本信息进行增、删、改、查等 操作;权限访问管理主要是对用户进行权限分配,用户分为普通用户及管理员用户, 两种用户权限不同:普通用户只能进行相关信息的查询和应用;而管理员用户则可 以操作和维护系统的所有功能模块。系统模块管理用于对系统各个模块的管理维 护,包括系统的初始化、系统权限配置、系统数据的备份以及实现系统其它功能模 块的相应配鼍信息等,保证系统稳定运行、实时更新和高速存取。 2 机组数据查询模块 机组数据查询模块主要包括机组基础数据查询、机组运行数据查询、机组得分 查询三个部分。用户可以通过访问此模块查询相应机组的基础数据、运行数据、可 靠性得分、经济性得分、技术监督指标得分和总得分;此外该模块还提供数据导出 功能。 3 机组数据e t l 模块 、 机组数据e t l 模块主要包括机组数据的抽取、转换和装载三个部分。机组数 据抽取分为运行数据抽取和基础数据抽取两部分,分别采用吧编码实现的抽取接口 和s q l * l o a d e r 工具实现;抽取来的数据存放于数据准备区的临时数据库中,利用 e t l 工具o w b 对数据准备区的数据进行转换,并将转换后的数据最终装载到 l o 技术监督指标聚类分析 技术监督指标得分分析 华北电力大学硕十学位论文 o r a c l e 数据仓库中。 4 机组评优得分多维分析模块 机组评优得分多维分析模块主要包括可靠性得分分析、经济性得分分析、技术 监督指标得分分析和评优总得分分析四个部分。主要根据电厂机组维、机组容量维、 汽轮机制造厂家维、锅炉制造厂家维、发电机制造厂家维、循环水循环方式维、脱 硫方式维、时间维等八个维度对可靠性得分、经济性得分、技术监督指标得分以及 总得分进行分析,并通过相应组件和接口实现多维数据的展示。 5 机组数据挖掘模块 机组数据挖掘模块主要包括机组评优等级预测、可靠性聚类分析、经济性聚类 分析、技术监督指标聚类分析四个部分。主要根据决策树分类算法对电厂机组评优 得分进行等级划分和预测;利用聚类挖掘对可靠性得分、经济性得分和技术监督指 标得分相关的各个参数进行聚类分析。 2 4 系统环境和开发工具的选择 2 4 1 系统环境的选择 系统环境即软硬件结构,是系统赖以升级和维护的基石,是系统成功应用的关 键所在。随着数据仓库建立时间的推移,数据量将不断增大;随着新的分析目标的 提出,数据仓库的主题会不断追加;随着需求的扩大,系统可能要进行修改和完善。 因此要求系统的软硬件平台应具有可扩展性、跨平台性和易用性等特点。 从这个角度来说,本文考虑选择国内外比较知名的软件平台来开发系统。o r a c l e 公司提供了电力行业解决方案,能够从全方位的角度提供发电企业所需要的整体解 决方案,在电力行业得到了广泛的应用。o r a c l e 和其它软件有通用的接口,能轻松 实现与其它软件系统的整合或集成。此外,o r a c l e 的数据仓库解决方案能够提供一 系列的数据仓库工具集和服务,o r a c l el o g 里面有o w b 、a w m 、o l a f 、j d e v e l o p e r 、 o d m 等工具,从数据仓库的建模设计到数据的抽取、转换、装载,到数据的多维 分析和数据挖掘结果的展示,都提供了整套的开发工具n3 | 。综上所述,本文选择 o r a c l e1 0 9 作为开发软件平台。 系统的硬件平台要具有可扩展性,能够根据实际需要扩展c p u 、内存和硬盘等 硬件资源,以实现软件平台的平滑升级。根据功能需要本系统要考虑的硬件环境有: 1 系统服务器 系统服务器包括数据仓库服务器和应用服务器两个部分。考虑到数据仓库的性 能和多维分析的工作量,要求服务器具有高可靠性、高性能、高吞吐能力、大容量、 华北电力大学硕士学位论文 易扩展等特点,以满足数据仓库查询需要,此外还需要较大的内存配置。应用服务 器主要是完成机组综合评优分析系统的发布和运行,我们采用o r a c l el o g 的o c 4 j 应用服务器来完成。 2 客户端 电厂机组综合评优分析系统是一个典型的瘦客户系统,其客户端只要可以访问 机组评优分析系统的应用服务器,并具有w e b 浏览器,就可以显示机组评优分析系 统应用服务器的运行结果。 2 4 2 开发工具的选择 考虑到系统功能的复杂性、易用性和可移植性,以及与o r a c l e 数据库环境的兼 容性因素,本文选择o r a c l ej d e v e l o p e rl o g 作为开发工具。 o r a c l ej d e v e l o p e rl o g 是一个集成开发环境( i d e ) ,通过它可以使用最新的j a v a 、 x m l 和s q l 行业标准来创建应用程序和w e b 服务n 劓。o r a c l ej d e v e l o p e r1 0 9 与 o r a c l e 数据库无缝集成,能为设计、开发、调试和部署j a v a 以及组成j 2 e e 战略的 其它相关文件提供相当丰富的功能,能与o r a c l e 应用服务器和o r a c l e 数据库一起运 行,并能通过扩展组件轻松展现数据分析和数据挖掘的结果。通过扩展b ib e a n s ( b u s i n e s si n t e l l i g e n c eb e a n s ,简称b ib e a n s ) 组件能为o l a p 决策支持应用程序提 供最基本的可重复使用的开发功能;扩展o r a c l ec o d eg e n e r a t o r 组件可以根据o d m 模型和结果生成j a v a 代码。它还可以通过调用o d m 相关接口,创建基于o r a c l e 内 嵌数据挖掘技术的高级商务智能应用程序。 由以上分析,系统的开发采用o r a c l e 公司的产品来完成,数据仓库建立采用 o r a c l ew a r e h o u s eb u i l d e r ,数据e t l 采用s q l * l o a d e r 、o r a c l ev v ;a r e h o u s eb u i l d e r 和 编码相结合,数据分析采用a n a l y t i cw o r k s p a c em a n a g e r ,数据挖掘采用o r a c l ed a t a m i n e r 。 1 2 第三章电厂机组综合评优系统数据仓库分析与设计 3 1 数据仓库概述 3 1 1 数据仓库定义与特点 数据仓库是2 0 世纪9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。作为一 种新的数据处理体系结构,数据仓库以关系数据库、并行处理和分布式等技术的飞速发 展为基础,用于解决数据丰富但可用信息贫乏的问题n 副。数据仓库主要侧重于对海量数 据的组织和管理,提供有效的数据访问手段,从而为企业决策支持系统和行政信息系统 提供所需的信息。 数据仓库没有一个公认的、标准化的定义。不过随着人们对大型数据系统的研究和 认识,在总结并丰富多个企业信息的经验之后,都或多或少的达成了共识。数据仓库之 父w h i n m o n 在其著作( ( b u i l d i n gt h ed a t a w a r e h o u s e ) ) 中对数据仓库是这样定义的:“数 据仓库是用于支持企业或组织的经营管理中决策分析处理的,面向主题的、集成的、稳 定的、随时间不断变化的数据集合n 6 1 。根据这个被普遍认同的数据仓库的含义,数据 仓库有以下四个特点,这些特点也是数据仓库与传统操作型信息系统的主要区别: 1 数据仓库的主题性:面向主题性是数据仓库中数据组织的基本原则,所有数据 都是围绕着某一主题组织展开的。这样决策者可以方便的在数据仓库中的一个位置检索 到包含某个主题的所有数据,极大地简化了数据分析过程,提高了数据分析效率。这也 是与传统操作型数据库面向应用的特征相对应的。 2 数据仓库的集成性:集成性是指数据仓库中的数据不是从各个业务处理系统简 单收集而来,而是根据决策分析需要,将分散于各处的源数据进行加工、汇总、综合等 集成工作,使数据更适合决策支持,保证了数据仓库内信息的整体性,从而使数据仓库 中的数据更加集成。 3 数据仓库的稳定性:数据仓库最根本的特点是存放数据,这些数据不是最新的, 而是来源于其他数据的抽取和集成。一旦数据进入数据仓库,一般情况下将被长期保留, 即数据仓库一般有大量的查询操作,但是修改删除操作很少,通常只需要定期的加载、 更新,而进行这些操作的周期一般很长。 4 数据仓库的时变性:时变性是指数据随着时间的推移而发生变化。数据仓库能 够不断捕捉业务系统中的变化数据,并将其追加到数据仓库中,以满足决策分析的需要。 数据仓库数据的变化还反应在数据的删除和概括数据的变化上。 1 3 华北电力大学硕士学位论文 3 1 2 数据仓库类型与体系结构 根据数据仓库所管理的数据类型和所解决的企业问题范围,数据仓库类型可以分为 以下三种:企业数据仓库( e d w ) 、操作型数据库( o d s ) 和数据集市n 。 1 企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的 或聚集的数据,这些数据具有不易改变性和面向历史性等特点。此种数据仓库被用来进 行涵盖多种企业领域上的战略或战术上的决策; 2 操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到 数据仓库时的过渡区域。与e d w 相比较,o d s 有下列特点:o d s 是面向主题和面向 综合的;o d s 是易变的;o d s 仅仅含有目前的、详细的数据,不含有累计的、历史性 的数据。 3 数据集市是数据仓库的一种具体化,它可以包含轻度累计、历史的部门数据, 适合特定企业中某个部门的需要。几组数据集市可以组成一个e d w 。 一个完整的数据仓库系统是一个包含四个层次的体系结构,该课题电厂机组综合评 优系统的数据仓库也采用了同样的体系结构,如图3 1 所示。 图3 1 数据仓库体系结构图 数据源:构建数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部 信息和外部信息。本系统的数据源主要包括电厂机组的基础数据和运行数据,这些数据 来自于各大电厂的业务数据库和外部文本文件。 1 4 华北电力大学硕士学位论文 数据的存储与管理:是整个数据仓库系统的核心。主要包含数据e t l 、数据存储 和数据质量管理三个组成部分,实现数据仓库模型建设、数据质量管理、数据源的定义、 数据抽取、转换清洗及装载等功能。 数据e t l 是由于数据源获取的数据十分复杂,这些数据在进入数据仓库之前必须 再进行预处理,完成数据抽取、转换、装载等工作。数据质量管理是由于数据仓库的数 据质量不但影响数据抽取转换的开发周期和f 1 常维护,而且还直接影响到最终结果。因 此在数据仓库项目中,应将数据e t l 、数据质量的评估和管理设计进去,并融合在系统 的开发过程中。 o l a p 、d m 引擎:对分析所需要的数据按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论