已阅读5页,还剩88页未读, 继续免费阅读
(热能工程专业论文)基于火电机组数据仓库的数据挖掘系统的开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 摘要随着电厂自 动化水平的不断提高, d c s系统得到了 广泛的应用,电厂建立 了涵盖火电厂生产全过程的 “ 数据宝库”。 为了充分利用这些 “ 数据宝库” 中的数 据,发现数据中蕴藏的有用知识 ,提高电厂的运营管理水平,本文开发出一套基于 电站机组运行数据仓库的数据挖掘系统来对这些数据进行挖掘,以充分发挥 d c s 数据对电力生产的指导作用。 本文首先建立电厂机组运行数据仓库, 然后在其基础上, 开发出一套基于数据 仓库的数据挖掘系统, 并用该系统来进行机组的性能分析, 得出 一些知识规则, 经 过实践的检验和专家的评估以后, 把这些有用的知识规则用来指导运行生产。 这种 基于电 站机组运行数据仓库的数据挖掘系统的开发, 为电力企业的信息化进程和建 立决策支持系统奠定了一定的基础。 关键词热能动力工程,数据挖掘,数据仓库,决策支持,发电厂 abst ract wi t h i n c r e a s i n g a u t o ma t i z a t i o n l e v e l o f p o w e r p l a n t u n i t s , d c s s y s t e m i s u s e d w i d e l y i n p o w e r p l a n t , t h e y h a v e e s t a b l i s h e d d a t a m i n e w h i c h c o v e r s w i t h t h e p r o c e s s o f p r o d u c t i o n i n p o we r p l a n t . i n o r d e r t o m a k e f u l l u s e o f d a t a mi n e o f d a t a a n d d i s c o v e r a v a i l a b l e k n o w l e d g e c o n t a i n i n g i n t h e d a t a , a n d e l e v a t e m a n a g e m e n t o f o p e r a t i o n i n p o w e r p l a n t , s o t h i s p a p e r a s s u m e s t o e x p l o i t t h e d a t a mi n i n g s y s t e m b a s e d o n t h e d a t a wa r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , f o r ma k i n g f u l l u s e o f t h e f u n c t i o n o f t h e d a t a c o l l e c t e d i n d c s s y s t e m i n p o w e r p l a n t , w h i c h c a n d i r e c t e l e c t r i c p o w e r p r o d u c t i o n . f i r s t l y , i n t h i s p a p e r , e s t a b l i s h d a t a w a r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , t h e n a s s u m e t o e x p l o i t t h e d a t a mi n i n g s y s t e m b a s e d o n t h e d a t a w a r e h o u s e, a n d u s e t h e s y s t e m t o a n a l y s e p e r f o r ma n c e o f u n i t s . a s a r e s u l t , g e t l o t s o f i n f o r m a t i o n r u l e s , a f t e r v a l i d a t i o n o f p r a c t i c e a n d e x p e r t s e v a l u a t i o n , u s e t h e i n f o r ma t i o n r u l e s t o d i r e c t a p r o c e s s o f p r o d u c t i o n . t h e e x p l o i t a t i o n o f t h e d a t a m i n i n g s y s t e m b a s e d o n t h e d a t a w a r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , h a s e s t a b l i s h e d a g r o u n d w o r k f o r i n f o r ma t i o n a l c o u r s e o f e l e c t r i c p o w e r c o r p o r a t i o n a n d e s t a b l i s h me n t d e c i s i o n - m a k i n g b a c k u p s y s t e m l i u g a n g ( t h e r m a l p o w e r e n g i n e e r i n g ) d i r e c t e d b y p r o f . f u z h o n g g u a n g k e y wor d s : d a t a m i n i n g , d a t a w a reh o u s e , t h e r ma l p o w e r e n g i n e e r i n g , d e c i s i o n s u p p o r t 华北电力大学硕士学位论文 摘要 摘要随着电厂自 动化水平的不断提高, d c s系统得到了 广泛的应用,电厂建立 了涵盖火电厂生产全过程的 “ 数据宝库”。 为了充分利用这些 “ 数据宝库” 中的数 据,发现数据中蕴藏的有用知识 ,提高电厂的运营管理水平,本文开发出一套基于 电站机组运行数据仓库的数据挖掘系统来对这些数据进行挖掘,以充分发挥 d c s 数据对电力生产的指导作用。 本文首先建立电厂机组运行数据仓库, 然后在其基础上, 开发出一套基于数据 仓库的数据挖掘系统, 并用该系统来进行机组的性能分析, 得出 一些知识规则, 经 过实践的检验和专家的评估以后, 把这些有用的知识规则用来指导运行生产。 这种 基于电 站机组运行数据仓库的数据挖掘系统的开发, 为电力企业的信息化进程和建 立决策支持系统奠定了一定的基础。 关键词热能动力工程,数据挖掘,数据仓库,决策支持,发电厂 abst ract wi t h i n c r e a s i n g a u t o ma t i z a t i o n l e v e l o f p o w e r p l a n t u n i t s , d c s s y s t e m i s u s e d w i d e l y i n p o w e r p l a n t , t h e y h a v e e s t a b l i s h e d d a t a m i n e w h i c h c o v e r s w i t h t h e p r o c e s s o f p r o d u c t i o n i n p o we r p l a n t . i n o r d e r t o m a k e f u l l u s e o f d a t a mi n e o f d a t a a n d d i s c o v e r a v a i l a b l e k n o w l e d g e c o n t a i n i n g i n t h e d a t a , a n d e l e v a t e m a n a g e m e n t o f o p e r a t i o n i n p o w e r p l a n t , s o t h i s p a p e r a s s u m e s t o e x p l o i t t h e d a t a mi n i n g s y s t e m b a s e d o n t h e d a t a wa r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , f o r ma k i n g f u l l u s e o f t h e f u n c t i o n o f t h e d a t a c o l l e c t e d i n d c s s y s t e m i n p o w e r p l a n t , w h i c h c a n d i r e c t e l e c t r i c p o w e r p r o d u c t i o n . f i r s t l y , i n t h i s p a p e r , e s t a b l i s h d a t a w a r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , t h e n a s s u m e t o e x p l o i t t h e d a t a mi n i n g s y s t e m b a s e d o n t h e d a t a w a r e h o u s e, a n d u s e t h e s y s t e m t o a n a l y s e p e r f o r ma n c e o f u n i t s . a s a r e s u l t , g e t l o t s o f i n f o r m a t i o n r u l e s , a f t e r v a l i d a t i o n o f p r a c t i c e a n d e x p e r t s e v a l u a t i o n , u s e t h e i n f o r ma t i o n r u l e s t o d i r e c t a p r o c e s s o f p r o d u c t i o n . t h e e x p l o i t a t i o n o f t h e d a t a m i n i n g s y s t e m b a s e d o n t h e d a t a w a r e h o u s e o f o p e r a t i o n i n p o w e r p l a n t , h a s e s t a b l i s h e d a g r o u n d w o r k f o r i n f o r ma t i o n a l c o u r s e o f e l e c t r i c p o w e r c o r p o r a t i o n a n d e s t a b l i s h me n t d e c i s i o n - m a k i n g b a c k u p s y s t e m l i u g a n g ( t h e r m a l p o w e r e n g i n e e r i n g ) d i r e c t e d b y p r o f . f u z h o n g g u a n g k e y wor d s : d a t a m i n i n g , d a t a w a reh o u s e , t h e r ma l p o w e r e n g i n e e r i n g , d e c i s i o n s u p p o r t 华北电 力大学硕士学位论文 声明 本人郑重声明: 此处所提交的硕士学 位论文 基于电 站机组数据仓库的 数据挖掘系 统的开发 , 是本人在华北电力大学攻读硕士学位期间,在导 师指导下进行的 研究工作 和取得的 研究成果。 据本人所知, 除了 文中 特别加以 标注和致谢之处外, 论文中 不包含 其他人已 经发表或撰写过的研究成果, 也不包 含为获得华北电 力大学或其他教育机构的 学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已 在论文 中作了明确的说明并表示了谢意。 学位论文作者签名: 日期 关于学位论文使用授权的说明 本人完全了解华北电 力大学有关保留、 使 用学位论文的规定, 即: 学校有权保 管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文; 学校可允许学位论 文被查阅 或借阅; 学校可以 学术交流为 目 的, 复制赠送和交换学 位论文: 同 意学校可以 用不同 方式在不同 媒体 上发表、 传播学 位论文的全部或部分内容。 p密的 学 位论文在解密 后遵守此 规定 ) 作者签名: 导师签名: 日期:日期: 华北电力大学硕士学位论文 第一章绪论 电力行业中的数据利用现状 随着国民经济的不断发展,社会对电力的需求越来越大。为了适应日 益增长的 电 力需求, 机组趋于大容量、高参数,与此同时大容量、高 参数的机组对自 动化程 度的要求也越来越高。 这些大容量机组均配置了先进的d c s 控制系统, 有着完善的 信息收集、传输、加工、存储、查询和控制功能。随着信息化建设的深入,不少火 电 厂建立了企业内部网i n t r a n e t ,实现了d c s 与i n t r a n e t 的互连。这样由d c s 所收 集、加工的生产实时数据就以数据库的形式存储在火电厂企业 内部 网 i n t r a n e t 的数 据库服务器中,形成了涵盖火电厂生产全过程的 “ 数据宝库” 。但面对这些收集、 转换来的 数据集合,目 前极大部分火力发电厂只是采用传统的数据分析、统计手段 来进行日常的 数据汇总、制表、趋势分析等浅层次的处理和利用。受人力、 物力、 财力以及知识的限制,无法从时间和空间意义上,深层次地理解并有效地使用这些 数据。这样所收集的数据,不仅得不到充分利用,反而带来越来越严重的 “ 数据灾 难”和 “ 资源荒废” 。一方面火力发电厂花费大量人力、物力、财力,建立数据采 集系统、集散控制系统以及管理信息系统,仍用传统的数据分析方法去处理数据, 其收获是面对海量的数据 “ 事倍功半 ” ,几乎得不到蕴涵在数据中的a层次信 息, 管理水平得不到实质性的 提高,带来的经济效益也不甚明显。另一方而,火力发电 厂的决策者企盼应用隐含在数据中的知识作为支持,以做出l确的决策,却因 “ 知 识局限”而守着这些 “ 数据宝库 ”开采不出有价值的信息。 在市场经济瞬间万变以及生产设备连续运行的条件下,常规的数据库技术不能 为火电厂的重大决策和优化运行提供客观的、有前瞻性的科学依据。此时,以数据 仓库( d a t a w a r e h o u s e ) 与数据挖掘( d a t a m i n i n g ) 为代表的数据库新技术应运而生, 面对 竞争日益激烈的电力市场,发电企业必须把业务经营同市场需求联系起来,在此基 础上做出科学、正确的决策,以求生存。这就需要把己 经收集到的数据集成、转换 到数据仓库中,在数据仓库中通过数据挖掘来提取蕴涵在火电 厂生产实时数据库的 深层次信息,比如各热力设备中能量转换、利用和损失的规律,热力设备性能状态 渐变和寿命隐性损耗的规律等。 这些有用的知识能够为电 力生产及发展做出即时、 正确的判断, 为管理者制定的决策提供有力的依据, 从而提高发电企业的经济效益。 .2 数据仓库与数据挖掘技术 i . 2 . 1数据仓库技术的发展 1 华北电力大学硕士学位论文 第一章绪论 电力行业中的数据利用现状 随着国民经济的不断发展,社会对电力的需求越来越大。为了适应日 益增长的 电 力需求, 机组趋于大容量、高参数,与此同时大容量、高 参数的机组对自 动化程 度的要求也越来越高。 这些大容量机组均配置了先进的d c s 控制系统, 有着完善的 信息收集、传输、加工、存储、查询和控制功能。随着信息化建设的深入,不少火 电 厂建立了企业内部网i n t r a n e t ,实现了d c s 与i n t r a n e t 的互连。这样由d c s 所收 集、加工的生产实时数据就以数据库的形式存储在火电厂企业 内部 网 i n t r a n e t 的数 据库服务器中,形成了涵盖火电厂生产全过程的 “ 数据宝库” 。但面对这些收集、 转换来的 数据集合,目 前极大部分火力发电厂只是采用传统的数据分析、统计手段 来进行日常的 数据汇总、制表、趋势分析等浅层次的处理和利用。受人力、 物力、 财力以及知识的限制,无法从时间和空间意义上,深层次地理解并有效地使用这些 数据。这样所收集的数据,不仅得不到充分利用,反而带来越来越严重的 “ 数据灾 难”和 “ 资源荒废” 。一方面火力发电厂花费大量人力、物力、财力,建立数据采 集系统、集散控制系统以及管理信息系统,仍用传统的数据分析方法去处理数据, 其收获是面对海量的数据 “ 事倍功半 ” ,几乎得不到蕴涵在数据中的a层次信 息, 管理水平得不到实质性的 提高,带来的经济效益也不甚明显。另一方而,火力发电 厂的决策者企盼应用隐含在数据中的知识作为支持,以做出l确的决策,却因 “ 知 识局限”而守着这些 “ 数据宝库 ”开采不出有价值的信息。 在市场经济瞬间万变以及生产设备连续运行的条件下,常规的数据库技术不能 为火电厂的重大决策和优化运行提供客观的、有前瞻性的科学依据。此时,以数据 仓库( d a t a w a r e h o u s e ) 与数据挖掘( d a t a m i n i n g ) 为代表的数据库新技术应运而生, 面对 竞争日益激烈的电力市场,发电企业必须把业务经营同市场需求联系起来,在此基 础上做出科学、正确的决策,以求生存。这就需要把己 经收集到的数据集成、转换 到数据仓库中,在数据仓库中通过数据挖掘来提取蕴涵在火电 厂生产实时数据库的 深层次信息,比如各热力设备中能量转换、利用和损失的规律,热力设备性能状态 渐变和寿命隐性损耗的规律等。 这些有用的知识能够为电 力生产及发展做出即时、 正确的判断, 为管理者制定的决策提供有力的依据, 从而提高发电企业的经济效益。 .2 数据仓库与数据挖掘技术 i . 2 . 1数据仓库技术的发展 1 华北电力大学硕士学位论文 随着c l i e n t / s e r v e r ( 客户 / 服务器) 技术的 成熟和并行数据库的发展, 信息处理 技术的发展趋势是m:从大量的事务型数据库中抽取数据,并将其清理、转换为新 的 存储格式,即针对决策目标把数据聚合在一种特殊的格式中。随着此过程的发展 和完善,这种支持决策的、特殊的数据存储即被称为数据仓库1 1 1 . 数据仓库的概念一出现,立即引起学术界和工业界 的极大关注 ,厂商们争相展 示出产品, 而研究领域则掀起了 信息研究的一股热潮。 8 0 年代初, w. h . i n m o n a 在 “ 记录系统” 、 “ 原子数据”( a t o m i c d a t a ) 和d s s 等专题研究报告中, 提出了数据仓 库或信息仓库的概念并给出了基本框架描述。其定义为 2 :数据仓库是支持管理决 策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。 数据仓库( d a t a w a r e h o u s e ) 是上世纪9 0 年代信息系统框架的中心,数据仓库技 术是信息处理领域里的一项重大的技术创新。在国外数据仓库是一个己被接受,而 在我 国则是刚刚兴起 的信息管理新概念,是现代计算机应用领域里的一个崭新方 向。它是一种新型的信息管理技术,其研究的主要宗旨是通过通畅、合理、全面的 信息管理,来达到对管理决策的支持。与信息处理技术中的联机处理 8 , ( o l t p ) 相 比,它完全是另一种类型的信息管理方式。 当今世界,信息技术及其产业飞速发展,取得了令人瞩 目的成绩。与此同时, 仟何一个组织 ( 公司或企业)侮天都 会产生或收集到大量的营运数据 ( o p e r a t i o n a l d a t a ) ,如 汀单、库存 日录等。这些运营数据的捕获和维护几乎都是 山相关部门来负 责的,尽管这些数据精确、可靠,但是许多组织并未从中获得有价值的信息。原因 在于这些数据没有获得相关的处理,如归纳、总结等。同时企业内外的数据来源众 多,格式各异,要想从这些零乱的数据中了解变化的形势,并做出正确的反应,就 需要对这些数据进行快速综合、分析,使决策者能得到可视化的更新数据 。数据仓 库正是能够解决这 一 问题的崭新的信息处理技术 3 1 . 2 . 2数据挖掘技术的发展状况 数据挖掘技术 的提出最早可追溯到 1 9 8 9 年 8月在美国底特律召开的第 1 1 届国 际 人工智 能 联合 会议的 专 题讨 论 会2 ,在 该 次讨 论会 上首次 出 现k d d ( k n o w le d g e d i s c o v e ry i n d a t a b a s e )这个术语。随后在 1 9 9 1 年、1 9 9 3 年和 1 9 9 4 年都举行 k d d 专题讨论会,汇集来 自各个领域的研究人员和应用开发者,集中讨论数据统计、海 量数据分析算法、 知识表示、 知识运用等问 题。 随着参与人员的不断增多,1 9 9 5 年 k d d国际会议发展成为年会 2 。参加会议的人数已由 1 9 8 9 年的3 0 人增加到 2 0 0 0 年6 0 0 多 人, 许多国 际 会议 也将k d d 列为 讨论 的专 题 1 9 9 3 年i e e e 的 k n o w l e d g e a n d d a t a e n g i n e e r i n g 率先出版了k d d专刊, 1 9 9 7 年创办了国际性的学术刊物 d a t a m i n i n g a n d k n o w l e d g e d i s c o v e r y ) 。一些著名的软件公司开始开发k d d软件,许多 一2 华北电力大学硕士学位论文 随着c l i e n t / s e r v e r ( 客户 / 服务器) 技术的 成熟和并行数据库的发展, 信息处理 技术的发展趋势是m:从大量的事务型数据库中抽取数据,并将其清理、转换为新 的 存储格式,即针对决策目标把数据聚合在一种特殊的格式中。随着此过程的发展 和完善,这种支持决策的、特殊的数据存储即被称为数据仓库1 1 1 . 数据仓库的概念一出现,立即引起学术界和工业界 的极大关注 ,厂商们争相展 示出产品, 而研究领域则掀起了 信息研究的一股热潮。 8 0 年代初, w. h . i n m o n a 在 “ 记录系统” 、 “ 原子数据”( a t o m i c d a t a ) 和d s s 等专题研究报告中, 提出了数据仓 库或信息仓库的概念并给出了基本框架描述。其定义为 2 :数据仓库是支持管理决 策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。 数据仓库( d a t a w a r e h o u s e ) 是上世纪9 0 年代信息系统框架的中心,数据仓库技 术是信息处理领域里的一项重大的技术创新。在国外数据仓库是一个己被接受,而 在我 国则是刚刚兴起 的信息管理新概念,是现代计算机应用领域里的一个崭新方 向。它是一种新型的信息管理技术,其研究的主要宗旨是通过通畅、合理、全面的 信息管理,来达到对管理决策的支持。与信息处理技术中的联机处理 8 , ( o l t p ) 相 比,它完全是另一种类型的信息管理方式。 当今世界,信息技术及其产业飞速发展,取得了令人瞩 目的成绩。与此同时, 仟何一个组织 ( 公司或企业)侮天都 会产生或收集到大量的营运数据 ( o p e r a t i o n a l d a t a ) ,如 汀单、库存 日录等。这些运营数据的捕获和维护几乎都是 山相关部门来负 责的,尽管这些数据精确、可靠,但是许多组织并未从中获得有价值的信息。原因 在于这些数据没有获得相关的处理,如归纳、总结等。同时企业内外的数据来源众 多,格式各异,要想从这些零乱的数据中了解变化的形势,并做出正确的反应,就 需要对这些数据进行快速综合、分析,使决策者能得到可视化的更新数据 。数据仓 库正是能够解决这 一 问题的崭新的信息处理技术 3 1 . 2 . 2数据挖掘技术的发展状况 数据挖掘技术 的提出最早可追溯到 1 9 8 9 年 8月在美国底特律召开的第 1 1 届国 际 人工智 能 联合 会议的 专 题讨 论 会2 ,在 该 次讨 论会 上首次 出 现k d d ( k n o w le d g e d i s c o v e ry i n d a t a b a s e )这个术语。随后在 1 9 9 1 年、1 9 9 3 年和 1 9 9 4 年都举行 k d d 专题讨论会,汇集来 自各个领域的研究人员和应用开发者,集中讨论数据统计、海 量数据分析算法、 知识表示、 知识运用等问 题。 随着参与人员的不断增多,1 9 9 5 年 k d d国际会议发展成为年会 2 。参加会议的人数已由 1 9 8 9 年的3 0 人增加到 2 0 0 0 年6 0 0 多 人, 许多国 际 会议 也将k d d 列为 讨论 的专 题 1 9 9 3 年i e e e 的 k n o w l e d g e a n d d a t a e n g i n e e r i n g 率先出版了k d d专刊, 1 9 9 7 年创办了国际性的学术刊物 d a t a m i n i n g a n d k n o w l e d g e d i s c o v e r y ) 。一些著名的软件公司开始开发k d d软件,许多 一2 华北电力大学硕士学位论文 大学开始开设数据挖掘的相关课程. 到目 前为止,由美国人工智能协会主办的 k d d国际研讨会已经召开了8次, 规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系 统应用, 注重多种发现策略和技术的集成, 以及多种学科之间的相互渗透a 1 9 9 9 年, 亚太地区在北京召开的第三届p a k d d会议收到 巧8 篇论文, 空前热烈。 并行计算、 计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为 专题和专刊讨论,甚至到了脍炙人口的程度。 已经有一些数据挖掘系统上市,如加拿大 s i m o n f r a s e r 大学开发的多任务挖掘 系统 d b m i n e r , i b m公司a l m a d e n 研究中心开发的多任务挖掘系统q u e s t , s g i 公 司研制的集数据挖掘和强大的可视化工具于一体的数据挖掘系统 m i n e s e t 等。 此外,在 i n t e r n e t上还有不少 k b d 电子出版物,其中以半月刊 k n o w l e d g e d i s c o v e r y n u g g e t s 最为权威。在网上还有许多自由论坛,如 d m e m a i l c l u b 等。目 前, 比 较有 影响的 典 型 数据 挖掘系 统是ta t : s a s 公司 的e n te r p r i s e m in e r , i b m公司 的i n t e l l i g e n t mi n e r , s g i 公司的s e t m i n e r , s p s s 公司的c l e m e n t i n e , s y b a s e 公司的 w a r e h o u s e s t u d i o , r u l e q u e s t r e s e a r c h 公司的s e e 5 、还有c o v e r s t o r y , e x p l q r a , k n o w le d g e d is c o v e r y w o r k b e n c h , d b m in e r , q u e s t等 。同 时可 以访 问 h t t p : / / c v w w . d a t n m i n i n - l a h . c o m网说,该网站提供了 许多数据挖掘系统却 f 一 具的性能 测试报告。 目 前,国外数据挖掘研究的进一步发展主要有对知识发现方法的研究, 如近年 来注重对 b a y e s ( 贝叶斯) 方法以及 b o o s t i n g方法的研究和提高:传统的统计学回归 法在 k d d中的应用; k d d一与数据库的紧密结合等。 在应用方面包括:k dd商业软 件工具不断产生和完善,注重建立解决问题的整体系统 ,而不是孤立的过程。用户 主要集中在人型银行、保险公司、电信公司和销售业。国外很多 i 一 算机 公司非常重 视数据挖掘的开发应用, i b m和微软都成立了相应的研究中心进行这方面的工作t o t 与国外相比, 国内 对 d m k d ( d a t a mi n i n g a n d k n o w l e d g e d i s c o v e r y ) 的研究稍 晚, 没有形成整体力量。1 9 9 3 年国家自 然科学基金首次支持对该领域的研究。 1 9 9 4 年4月在北京召开的第3届亚太地区k d d国际会议响应热烈,收到论文 巧8 篇。 目 前国内 很多高校和科研单位从事数据挖掘的 基础理论和应用的研究,如北京系统 工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开 展对数据立方体代数的研究, 华中理工大学、复旦大学、 浙江大学、 中国 科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南 京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发 现以及 w 比数据挖掘。 所涉及的研究领域很多, 一般集中于学习算法的研究、 数据 挖掘的实际应用以及有关数据挖掘理论方面的研究。目 前进行的大多数研究项目 是 3 华北电力大学硕士学位论文 由政府资助进行的,如国家 自然科学基金、8 6 3 计划、” 十五” 计划等 4 1 1 . 2 . 3数据仓库与数据挖掘在电力系统中的应用 ( 1 )预测未知情况 9 1 广东电力局建立面向 规划的 数据仓库,利用聚类、分类、关联、总结等规则进 行数据挖掘, 为辅助决策系统增加约束条件; 寻求负荷变化与经济因素的联系模型, 克服了单纯从数学模型角度进行负荷预测的局限性。 ( 2 )聚 类分析11 电力系统的运行状态通常被分为正常状态、警戒状态、紧急状态和恢复状态。 一旦电力系统当前的运行状态被确定,电力系统操作员就可以此为据来执行一系列 相应的操作 。数据挖掘算法在这里可 以作为这种状态分类的辅助分析手段 。如用数 据挖掘技术对变压器油中各种气体成分进行聚类分析,从而可以在预先不知道变压 器故障类型的情况下得出变压器油中各种气体成分含量与故障之间的直观联系,为 专家们判断变压器故障类型提供了十分有力的依据。 ( 3 ) 突变和偏差检测 在电力市场中,对负荷进行分类 ,找出其中最显著的变化,以此为根据预测未 来的负荷具有非常重要的意义。数据挖掘技术使得人们能够充分利用多年积累下来 的历史数据,对各种不同类型的负荷进行更加细致的划分,同时发现负荷数据中所 蕴含的一些非常规的负荷模式 。如利用可适应性的决策树来对不同类型的负荷进行 分类。 ( 4 ) 利用可视化工具辅助分析决策p s l 利用可视化工具从电力系统纷繁复杂的数据中提取部分信息直观表示出来,以 利于人工分析决策。 意大利某电力公司混合使用人工智能中的人工神经网络、 模糊 逻辑等技术,把用户的管理、消费、交易等数据进行综合处理,以 欧几里德距离为 判据得到分类用户模型,并用可视化的图表方式表达出来,来辅助分析用户实例。 ( 5 ) 武汉供电局在配电故障统计分析系统中利用数据挖掘方法, 提高了供电可靠性 和经济效益。 其中应用关联分析方法可以确定开关设备故障率同温度、 雨量、 雷暴、 负荷的关系, 应用序列模式分析方法能够发现并预测开关设备的故障率分布,应用 分类和聚类分析方法为各种设备划分适当的故障类型。综合应用这些方法能够达到 很 好的 处 理效 果9 1 一4 华北电力大学硕士学位论文 由政府资助进行的,如国家 自然科学基金、8 6 3 计划、” 十五” 计划等 4 1 1 . 2 . 3数据仓库与数据挖掘在电力系统中的应用 ( 1 )预测未知情况 9 1 广东电力局建立面向 规划的 数据仓库,利用聚类、分类、关联、总结等规则进 行数据挖掘, 为辅助决策系统增加约束条件; 寻求负荷变化与经济因素的联系模型, 克服了单纯从数学模型角度进行负荷预测的局限性。 ( 2 )聚 类分析11 电力系统的运行状态通常被分为正常状态、警戒状态、紧急状态和恢复状态。 一旦电力系统当前的运行状态被确定,电力系统操作员就可以此为据来执行一系列 相应的操作 。数据挖掘算法在这里可 以作为这种状态分类的辅助分析手段 。如用数 据挖掘技术对变压器油中各种气体成分进行聚类分析,从而可以在预先不知道变压 器故障类型的情况下得出变压器油中各种气体成分含量与故障之间的直观联系,为 专家们判断变压器故障类型提供了十分有力的依据。 ( 3 ) 突变和偏差检测 在电力市场中,对负荷进行分类 ,找出其中最显著的变化,以此为根据预测未 来的负荷具有非常重要的意义。数据挖掘技术使得人们能够充分利用多年积累下来 的历史数据,对各种不同类型的负荷进行更加细致的划分,同时发现负荷数据中所 蕴含的一些非常规的负荷模式 。如利用可适应性的决策树来对不同类型的负荷进行 分类。 ( 4 ) 利用可视化工具辅助分析决策p s l 利用可视化工具从电力系统纷繁复杂的数据中提取部分信息直观表示出来,以 利于人工分析决策。 意大利某电力公司混合使用人工智能中的人工神经网络、 模糊 逻辑等技术,把用户的管理、消费、交易等数据进行综合处理,以 欧几里德距离为 判据得到分类用户模型,并用可视化的图表方式表达出来,来辅助分析用户实例。 ( 5 ) 武汉供电局在配电故障统计分析系统中利用数据挖掘方法, 提高了供电可靠性 和经济效益。 其中应用关联分析方法可以确定开关设备故障率同温度、 雨量、 雷暴、 负荷的关系, 应用序列模式分析方法能够发现并预测开关设备的故障率分布,应用 分类和聚类分析方法为各种设备划分适当的故障类型。综合应用这些方法能够达到 很 好的 处 理效 果9 1 一4 华北电力大学硕士学位论文 ( 6 ) s a s 软件在电力负荷特性分析及预测方面的 应用, 可为电 力系统中的数据处理 和分析提供很好的强大工具,从而能更好,更准确地把握数据间的规律,为预测或 其他工作提供良 好的信息支持 4 ( 7 ) 美国田纳西州电网公司依据实时 数据和历史数据建立数据仓库, 并以 此为服务 器,各应用客户系统分布在州内 各地, 通过mo d e m , w a n , i n t e rn e t 等方式自 动获 取数据1 4 1 。 这样就实现了从主机/ 终端式中心计算模式向s u n 工作站与p c 混合网络 中的客户/ 服务器模式分布计算的过渡。 对于电力系统这样一个复杂的大系统,在运行中过程中不断产生和积累大量的 数据。如果能应用数据仓库、数据挖掘技术充分地利用这些运行数据,揭示 电力系 统历年积累的数据背后蕴含的原理、规则,找出解决问题的更加合理的方法,同时 还可为决策提供更加有力的 科学依据。然而数据仓库、数据挖掘方法在国内电 力系 统中的应用也还处于起步阶段,因此,非常有必要结合电力系统的特点,研究数据 仓库、 数据挖掘技术及其应用, 开发面向电力行业的基于数据仓库的数据挖掘软件 。 1 . 2 . 4基于数据仓库的数据挖掘系统 数据库中的知识发现技术k d d ( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 是从大量的数 据中提取出可信的、 新颖的、 有效的、并能被人理解的模式的高级处理过程d l 随 着对数据仓库技术研究的深入, 出 现了基于数据仓库的知识发现技术( k d d w -d a t a m i n i n g a n d k n o w l e d g e d i s c o v e r y ) . k d d w是指知识发现所依赖的数据集来自 于数 据仓库。具体地讲 , kd d w 以数据仓库的主题数据为基础,通过数据收集 、数据挖 掘和知识解释评价等一系列迭代过程产生专业知识,支持多种应用。 数据挖掘技术和数据仓库技术的结合在技术角度上达到了两省的优势互补,具 体表现在以下几个方面: ( 1 )知识发现是一个交互的、迭代的过程,应该允许也需要人工干涉,但应该 使这种干预最小化,以提高 自动化程度。知识发现过程中数据的提取和数据预处理 的环节通常自动化程度不高,而数据仓库技术能完成知识发现中的大部分数据预处 理工作 。 ( 2 )知识发现过程中数据集的 选取对知识发现的结果有直接的影响,这主要体 现在两个方面:一方面是数据集的业务覆盖范围;另一方面是数据集的数据量。在 数据仓库中可以进行数据导航从而确定合适的业务覆盖范围m ,通过上卷、下钻、 切片、旋转等操作来确定合适的数据集。 ( 3 )对知识发现的数据集进行数据添加或更新时,原来建立在这些数据上的既 一5 华北电力大学硕士学位论文 ( 6 ) s a s 软件在电力负荷特性分析及预测方面的 应用, 可为电 力系统中的数据处理 和分析提供很好的强大工具,从而能更好,更准确地把握数据间的规律,为预测或 其他工作提供良 好的信息支持 4 ( 7 ) 美国田纳西州电网公司依据实时 数据和历史数据建立数据仓库, 并以 此为服务 器,各应用客户系统分布在州内 各地, 通过mo d e m , w a n , i n t e rn e t 等方式自 动获 取数据1 4 1 。 这样就实现了从主机/ 终端式中心计算模式向s u n 工作站与p c 混合网络 中的客户/ 服务器模式分布计算的过渡。 对于电力系统这样一个复杂的大系统,在运行中过程中不断产生和积累大量的 数据。如果能应用数据仓库、数据挖掘技术充分地利用这些运行数据,揭示 电力系 统历年积累的数据背后蕴含的原理、规则,找出解决问题的更加合理的方法,同时 还可为决策提供更加有力的 科学依据。然而数据仓库、数据挖掘方法在国内电 力系 统中的应用也还处于起步阶段,因此,非常有必要结合电力系统的特点,研究数据 仓库、 数据挖掘技术及其应用, 开发面向电力行业的基于数据仓库的数据挖掘软件 。 1 . 2 . 4基于数据仓库的数据挖掘系统 数据库中的知识发现技术k d d ( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 是从大量的数 据中提取出可信的、 新颖的、 有效的、并能被人理解的模式的高级处理过程d l 随 着对数据仓库技术研究的深入, 出 现了基于数据仓库的知识发现技术( k d d w -d a t a m i n i n g a n d k n o w l e d g e d i s c o v e r y ) . k d d w是指知识发现所依赖的数据集来自 于数 据仓库。具体地讲 , kd d w 以数据仓库的主题数据为基础,通过数据收集 、数据挖 掘和知识解释评价等一系列迭代过程产生专业知识,支持多种应用。 数据挖掘技术和数据仓库技术的结合在技术角度上达到了两省的优势互补,具 体表现在以下几个方面: ( 1 )知识发现是一个交互的、迭代的过程,应该允许也需要人工干涉,但应该 使这种干预最小化,以提高 自动化程度。知识发现过程中数据的提取和数据预处理 的环节通常自动化程度不高,而数据仓库技术能完成知识发现中的大部分数据预处 理工作 。 ( 2 )知识发现过程中数据集的 选取对知识发现的结果有直接的影响,这主要体 现在两个方面:一方面是数据集的业务覆盖范围;另一方面是数据集的数据量。在 数据仓库中可以进行数据导航从而确定合适的业务覆盖范围m ,通过上卷、下钻、 切片、旋转等操作来确定合适的数据集。 ( 3 )对知识发现的数据集进行数据添加或更新时,原来建立在这些数据上的既 一5 华北电力大学硕士学位论文 成知识将如何更新的问题也是数据挖掘中较难解决的问 题。 但在基于数据仓库的知 识发现中,多维数据的更新和变化一般是由 工作流来管理的,在定义和设计工作流 时,可以把知识发现过程作为此工作流中的一个环节, 这样可以 按照工作流脚本的 内容来对已发现的知识进行处理。 ( 4 )在基于数据仓库的知识发现系统中,数据的组织、存储
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食材存储仓库管理制度(3篇)
- 小麦订购活动策划方案(3篇)
- 超市618活动策划方案(3篇)
- 广西粮油出入库管理制度(3篇)
- 2025陕西延能天元智能装备有限公司招聘(10人)参考考试题库及答案解析
- 2026山东事业单位统考淄博文昌湖省级旅游度假区面向大学生退役士兵专项岗位公开招聘工作人员(1人)笔试备考试题及答案解析
- 2026贵州遵义市务川县档案馆见习生招聘考试参考题库及答案解析
- 2026湖北武汉市江岸区公立幼儿园招聘幼师2人参考考试题库及答案解析
- 2026青海海西州格尔木市省级公益性岗位及劳动保障协理员招聘24人考试备考题库及答案解析
- 江西省国有资本运营控股集团有限公司2026年第一批批次公开招聘备考考试题库及答案解析
- 公司车间现场纪律管理培训
- 精神科保护性约束注意事项
- 故意伤害案件课件
- GB/T 21790-2025闪点的测定用小型闭杯试验仪测定闪燃非闪燃和闪点的方法
- 吉林省户用光伏施工方案
- 江西省婺源县联考2026届数学七年级第一学期期末学业水平测试试题含解析
- 2025至2030水蛭素产品行业发展研究与产业战略规划分析评估报告
- 餐饮连锁加盟店标准运营手册
- 军人翻墙导致的危害课件
- 园区运营年终汇报
- (2025年标准)公司基地农户协议书
评论
0/150
提交评论