(电力系统及其自动化专业论文)数据挖掘技术在电网调度自动化系统中应用的研究.pdf_第1页
(电力系统及其自动化专业论文)数据挖掘技术在电网调度自动化系统中应用的研究.pdf_第2页
(电力系统及其自动化专业论文)数据挖掘技术在电网调度自动化系统中应用的研究.pdf_第3页
(电力系统及其自动化专业论文)数据挖掘技术在电网调度自动化系统中应用的研究.pdf_第4页
(电力系统及其自动化专业论文)数据挖掘技术在电网调度自动化系统中应用的研究.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学 ( 北京) 硕士学位论文摘要 a u t o m a t i o n s y s t e m. t h e r e b y , d a t a wa r e h o u s e a n d d a t a mi n i n g t e c h n i q u e s c o u l d c e r t a i n l y p r o v i d e p r a c t i c a l r e f e r e n c e a n d a p p l i c a t i o n f o r r e g i o n a l d i s p a t c h i n g c e n t e r . z h a o y o n ( e l e c t r i c p o w e r s y s t e m a n d a u t o m a t i o n ) d i r e c t e d b y p r o f . a i x i n k e y wo r d s : d a t a wa r e h o u s e , d a t a mi n i n g t e c h n i q u e s , p o w e r g r i d d i s p a t c h i n g a u t o m a t i o n 华北电力人学 ( 北京) 硕士学位论文 第一章 引言 1 . 1选题意义 随着信息时代的到来,电力系统必将不可抗拒地加速进入信息网络时代。电力 系统和电力企业将形成自己的生产过程自 动化和管理现代化的信息网络。在现代化 企业中,信息管理工作在企业中将发挥越来越重要的作用。企业信息工作主要指进 行生产经营和执行决策所需的资料、数据的收集、加工、传递、储存等管理工作。 把企业物流的管理提高到对企业信息流的管理来控制企业的运作。及时提供给领导 决策所需的多方面的信息。计算机成为标志着一种高科技、高效率和高水平的使用 工具, 已经渗透到电力系统日常工作的许多方面, 无论是其自 身还是所发挥的作用, 都为企业的创新和发展以及经济效益做出了显著的贡献。 电网调度自动化系统是电力系统中最早应用计算机技术的系统之一。在我国, 于7 0 年代成功开发了基于专用计算机和专用操作系统的s c a d a系统, 这标志着我 国第一代调度自 动化系统的诞生,到 8 0年代,科研机构又开发了基于通用计算机 的第二代调度自动化系统一一e ms ,目 前,广泛应用于各级调度机构的电网调度自 动化系统是基于r i s c / u n i x的开放式、分布式的e ms / d ms ,属于第三代调度自动 化系统。 我国研究和开发电网调度自动化系统的工作已历经 3 0 多年,在其发展过程中, 开发者始终围绕着 “ 如何更加有效地保证电网安全和经济稳定运行”这一主题,相 应开展研究工作。特别是在当前,我国电力体制改革迈出实质性步伐,电力工业正 在经历一个打破垄断,引入竞争,逐步建立完善电力市场的过程。面对电力工业出 现的新情况、新问题,调度自 动化系统已不能仅仅满足于为调度员提供监视电网运 行的单一功能,还要考虑如何利用其采集到的大量历史数据,以及与调度密切相关 的电能量系统和调度mi s 等系统不断产生、 存储的数据, 为电力企业的管理决策者 提供有价值的电网运营信息、电力市场信息等必要的决策支持。 基于联机事务处理 ( o l t p ) 的传统数据库技术无法解决这一课题, 其主要原因 是传统数据库的处理方式与决策分析中的数据需求不相称,导致传统数据库无法支 持决策分析活动,这些不相称主要体现在决策处理中的系统响应问题,决策数据需 求的问题和决策数据操作的问题,而近些年,基于数据仓库的联机分析 ( o l a p ) 和数据挖掘等新技术为决策支持系统开辟了新途径。 正是由于电网调度自动化系统在辅助决策应用方面发展的必然性,以及这一功 能对引入计算机数据库管理软件技术的迫切性,使得本论文的研究显得尤为重要和 突出。它必将为调度自动化系统的发展研究注入新鲜血液,弥补理论研究领域的不 足,更为关键的是拓展了调度自 动化系统的应用领域,对电网调度自动化部门的业 华北电力大学 ( 北京)硕士学位论文 务发展有着较强的实践指导意义口 1 . 2国内外电网调度自动化系统数据管理现状 数据仓库和o l a p是2 0 世纪9 0 年代提出的概念,经过十余年的发展,它已成 为仅次于 i n t e rne t 之后的又一技术热点。分析数据仓库的定义,可以看到它具有这 样一些重要特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数 据的集合性和支持决策作用。2 0世纪9 0 年代中期发展起来的数据挖掘技术是从数 据库、数据仓库中挖掘有用的知识,即从数据库中抽取隐含的、未知的、具有潜在 价值信息的过程。数据仓库和数据挖掘技术的出现使有效管理和利用企业生产经营 过程中产生或收集的大量数据成为可能。 目前, 数据仓库和数据挖掘技术在商业、 金融、 制造等行业有较为成熟的应用。 在电力系统中,现阶段,国内外仍处于研究、尝试使用阶段,电力领域中的研究课 题主要集中在电力系统安全稳定性评估、 电力系统的调度运行、 电力系统故障分析、 电力系统规划设计,以及电力市场用户特征分析等方面。 就数据仓库和数据挖掘技术在电力系统调度运行中的研究而言,在国内个别调 度机构己取得一些开发和使用经验,如安徽电力调度通信中心于 2 0 0 1年,采用 m i c r o s o f t s q l s e r v e r 2 0 0 0数据库管理系统,开发了电力调度数据仓库, 提供基于 i n t r a n e t 网络的o l a p工具, 并在电网线损分析、 电力负荷与气象相关性分析方面进 行了数据挖掘的初步尝试;天津大学、哈尔滨工业大学等院校在数据挖掘技术的开 发方面也有所突破。 1 . 3供电企业对数据仓库和数据挖掘技术的需求 多年来,供电企业通过调度自动化系统采集了大量的电网有功、无功、电压等 数据,但是受阻于冗余的数据和数据不一致,使这些数据变得越来越难于访问、管 理和用于决策支持。随着电网规模的不断扩大和数据采集范围的增加,调度自动化 系统的数据量正以成倍的速度增长。在这种情况下,无论是供电企业的生产部门, 还是企业的管理人员,都面临着不断增长的决策支持的需求,但是,开发应用变得 越来越复杂和耗费人力。那么如何把大量的历史数据转换成可靠的商用的信息,以 便于决策支持呢?数据仓库和数据挖掘技术现已被公认为是最好的方案。 数据仓库是企业范围内数据的处理过程,它将企业内分散的原始操作数据和来 自 外部的数据汇集和整理在一起, 为企业提供完整、 及时、 准确和明了的决策信息, 使各类用户能够真正利用决策支持系统工具直接从企业信息池中随机地提取、分析 数据,有效地服务于企业的全方位决策。 作为一个决策支持环境,数据仓库收集存储了各种不同数据源中的数据,通过 数据的组织给决策支持这提供分布在整个企业内部跨平台的数据。 一 2- 华北电 力大学 ( 北京)硕士学位论文 1 . 4论文研究的工作及构成 本论文重点讨论如何通过建立数据仓库设计有效的决策支持系统,讨论调度自 动化系统、数据仓库、数据挖掘技术及其相关问题。主要分两部分对设计方法进行 了阐述,一方面,在对数据仓库进行讨论的基础上,提出了一种对现有调度自动化 系统历史数据应用的方法,提出了一种有助于决策查询的算法。同时,讨论了基于 数据归集进行调度自 动化系统数据管理的设计。本论文由以下章节构成。 第一章简要论述论文的选题意义。 第二章重点讨论数据仓库及数据挖掘技术的原理。 第三章分析了数据挖掘技术在电网调度自 动化系统中的关键问题,包括;在电 网调度自 动化系统中应用数据挖掘技术的步骤;电网调度自动化系统中数据挖掘工 具的选择。 第四章数据挖掘技术在电网调度自 动化系统中的实现,内容包括电网调度自 动 化系统数据挖掘技术需求分析;分别以电网规划和电力营销为例,分析了电网调度 自 动化系统决策支持系统的开发内容,以及电力营销书记仓库的构建过程。 第五章对全文进行总结,对未来发展进行展望。 华北电力大学 ( 北京)硕士学位论文 第二章 数据仓库与数据挖掘技术原理概述 2 . 1 数据仓库定义及机理 传统的数据库技术是事务驱动、面向应用的操作型数据处理。随着决策支持系统要求的提 高,联机分析处理技术得到了发展。同时,数据库由操作型环境发展为一种新的体系化环 境。而数据仓库就是这种体系化环境的核心,它是建立决策支持系统的基础。 2 . 1 . 1 数据仓库的定义 数据仓库 ( d a t a wa r e h o u s e )概念始于上个世纪8 0 年代中期,数据仓库概念创 始人美国 著名信息1程学家w .h i n m o n 在他的 b u i l d i n g t h e d a t a w a r e h o u s e 一书 中对数据 仓库 给 出 了一个较 权威 的定义 :数 据仓 库 就 是面 向主题 的 ( s u b j e c t - o r i e n t e d ) 、集成的 ( i n t e g r a t e d ) 、稳定的 ( n o n - v o l a t i l e ) 、不同时n j 的 ( t i m e - v a r i a n t )数据集合,用于支持经营管理中的决策制定过程。 由 此可得出数据仓库与传统数据库相比所具有的特点: 1 、数据仓库是面向主题的。 所谓面向主题,即是按照业务主题组织的。 面向主题是与传统的面向应用相对 应的。主题是在较高层次将数据归类的标准,每一个主题对应一个宏观分析领域。 基于主题组织的数据划分为各自独立的领域,每个领域有自己互不交叉的逻辑内 涵 。 2 ,数据仓库是集成的。 它汇集了不同数据结构、处理规划、算法及过程,促使原始数据在进入数据仓 库前,必须先经过加工与集成,统一原始数据中的矛盾之处即消除应用问题中的许 多不一致性,并将原始数据的结构从面向应用到面向主题。 3 、数据仓库是一致的和稳定的。 它反映的是历史数据的内容, 也就是说经过集成进入数据仓库后极少或它反映 的是历史数据的内容,也就是说经过集成进入数据仓库后极少或根本就不改变。也 就是说,数据仓库的数据通常是一起载入与访问的,但在数据仓库环境中并不进行 一般意义上的数据更新。 4 、数据仓库是随时间变化的。 为适应决策支持系统 ( d s s ) 进行趋势分析的要求,数据仓库的数据时限远远 长于传统数据库中的数据时限,数据的键码包含时间项,每个源数据都反映了它执 行的那一刻的状态。 5 、数据仓库中存放的数据为信息数据。 - 4- 华北电 力大学 ( 北京) 硕士学位论文 这些数据一般按照便于分析整理的格式存放,对数据的深入分析通常在d s s . 报表生产系统和经营管理系统中进行,传统数据库中存放的数据为操作数据。信息 数据是由操作数据产生的,这一过程通常要使用数据仓库。而且数据仓库还提供了 管理数据变换并追踪个别记录的变换过程等。 对比内容数据库数据仓库 数据内容当前值 历史的、 存档的、 归纳的、 计算的数据 数据目标面向业务操作程序,重复处理面向主题域,分析应用 数据特性动态变化,按字段更新 静态、 不能直接更新, 只 能定时添加、刷新 数据结构 高度结构化、复杂,适合操作 计算 简单,适合分析 使用频率高中到低 数据访问皿每个事务只访问少量记录 有的事务可能需要访问 大量记录 对响应时间的要求以秒为单位 以秒、 分钟、 甚至小时为 计算单位 表:2 . 1 数据仓库与传统数据库的比较 2 . 1 . 2 数据仓库的机理 数据仓库既是一种体系结构和富有哲理性的方法, 也是一种技术。 将数据和信 息从不同的数据源提取出来,经过清洁、转换、聚焦,然后把这些数据转换成公共 的数据模型并且和仓库己有的数据集成在一起。当用户向数据仓库进行查询时,需 要的信息己经准备好了,数据冲突、表达不一致等问题已经得到了解决。这使得决 策查询更容易、更有效。作为一个系统,数据仓库至少包括 3 个基本的功能部分: 1 、数据获取:这个部分负责从外部数据获取数据,数据被区分出来,经过提 取、清洁、转换、聚集等步骤得到集成和综合的数据,载入数据仓库。 2 、数据存储和管理:这个部分负责数据仓库的内部维护和管理,提供的服务 包括数据存储的组织,数据的维护、数据的开发、数据仓库的理性维护等。 3 、信息访问:信息访问部分属于数据仓库的前端,面向不同种类的最终用户, 数据仓库是为它的用户而存在的,没有了用户,数据仓库也就没有任何用处了。这 里主要由桌面系统的各种工具组成。数据仓库的最终用户在这里提取信息,分析数 据集,实施决定,从而可望取得竞争优势。进行数据访问的软件工具,主要是可视 化工具、多维分析工具和数据挖掘工具等。这也是工具制造商们竟相争夺的地段。 新的发展趋势是把信息访问工具紧密集成到数据仓库系统中。 华北电力大学 ( 北京)硕士学位论文 2 . 2数据仓库数据模型 将事务处理数据库称为操作型数据库,以区别于数据仓库。数据模型既适用于 操作型数据库也适用于数据仓库环境。在各个企业或者公司中,管理人员对企业的 业务在头脑中都有一个模型、数据建模时,我们是对管理人员或者说客户头脑中的 模型进行再次建模,而不是对整个现实世界建模。对管理人员头脑中的模型所建的 模型称之为企业数据模型。 企业数据模型建造时没有考虑现存的操作型数据库和数据仓库之间的差别, 企 业数据模型只包含原始数据。当企业数据模型转变到操作型数据库时,一般只需增 加性能因素到该模型中。但是,企业模型转变到数据仓库中要做相当多的改动。首 先要做的是除去纯粹用于操作型环境的数据。然后,在企业数据模型的键码结构中 增加时间元素。最后,还要做企业数据模型到数据仓库模型的稳定性分析。稳定性 分析是根据各个数据属性的变化特性将这些属性分组。不常变化的数据聚集在一 起,时而变化的数据聚集在一起,常变化的数据聚集在一起。稳定性分析的最终结 果是具有相似特性的数据聚集在一起。 有三个层次的数据建模:高层建模 ( e r d ,实体关系层) ,中间层建模 ( d i s , 数据项集) ,底层建模 ( 物理层) 。有许多计算机辅助系统设计 ( c a s e )工具,如 s y s b a s e 公司的p o w e r d e s i g n e r 软件, 可以 用来帮助我们在这三个层次上建模, 也非 常方便在这几个层次之间进行转换。下面简单介绍这三个层次的建模。 2 . 2 . 1 高层建模 高层建模形成一个实体关系图 ( e r d) , e r d是一种属于表示数据库中所有对 象的图,它说明了所有表 ( 实体)及相互之间的关系。高层建模的特点就是实体和 关系,实体的名字放在椭圆内。实体间的关系用箭头描述,箭头的方向和数量表示 关系的基数,只有直接的关系才标志,这样可以使关系的传递依赖最小化。 在e r d层的实体位于最高抽象层, 由集成范围决定哪些实体属于模型的范围, 哪些实体不属于。集成范围定义了数据模型的边界,需要在建模之前进行定义。这 个范围由系统的建模者、管理人员和最终用户共同决定。高层建模结束之后,你能 够给出一个数据仓库粗略的版本。它可以作为一种工具,用来确认你是否已经正确 收集了需求,模型是否能满足数据仓库用户的信息需求,这样,可以和最终用户一 起在高层上确认我们是否已经满足了需求。 2 . 2 . 2 中间层建模 中间层建模细化了高层建模收集到的信息,建立一个更详细的数据仓库定义, 中间层建模的重点是细化数据。现在的焦点集中在系统提供的详细的数据属性上, 实体关系图 e r d)进一步被细化以将个别的属性纳入到数据模型中。 在细化 e r d的过程中,数据仓库体系结构将把数据源映射到它们各自的数据 6- 华北电力大学 ( 北京)硕士学位论文 仓库目的地。在这里也将标识出那些在数据仓库中可能需要,但是现行操作型数据 库中不能提供的,而必须从其他信息源抽取的信息。 2 . 2 . 3 底层建模 物理数据模型是在中间层数据模型创建的, 通过包含键码和模型的物理特性来 扩展中间层模型,从而得到物理数据模型,物理数据模型最后用一系列表来表示, 在确定这些表的结构之后,还有设计的最后一步;确定性能特性,在数据仓库的情 况下,确定性能特性的第一步意味着决定数据的粒度和分割,当然这要导致键码结 构的改变,以便能加入与每个数据单元都相关的时间元,这在下一节中有详述。 做完粒度与分割后,还要做的是数据的物理 i / o( 输入/ 输出)设计。i / o就是 将数据从硬盘上调入计算机,或者将数据从计算机送到硬盘,数据在计算机和硬盘 之间的调入调出是按块进行的。因为硬盘和计算机间的数据传输速度比计算机运算 速度要慢许多,所有物理1 / o是影响性能的主要因素。 数据仓库设计者的工作是要物理地组织好数据, 以便在最短的时间内返回最大 量的数据记录, 这些数据是在执于物理i / o时产生的, 假定应用程序要取5 个记录, 如果这些记录是在硬盘中不同的数据块上,那么就需要5 次 i / o操作;如果我们能 够预测到这些数据将成组地访问,将其并列地放在同一个物理块中,那么这就只需 要一次i / o操作,这样使得程序的运行效率更高。相对于操作型数据库,数据仓库 的数据存放问题的一个有利的因素是:数据仓库中的数据一般不更新。这样设计者 就可以自由地采用物理设计技术,这些技术在数据需要经常更新的情况下很可能就 不能接受。 2 . 3 数据仓库开发模型 数据仓库和操作型数据相比,是提供了高效的查询性能,能够快速地响应复杂 的查询要求;二是提供了数据的多维视图,能够通过o l a p 对多维模型进行旋转、 上钻和下钻、 切片等操作, 提供对d s s 的运行。 数据仓库建筑就是建立数据的多维 模型。 在多维数据模型中, 一部分数据是数字测量值 ( 如谐波数据、 零序电流、 三相 电压等) ,它们是依赖于一组 “ 维”的,这些维提供了测量值的上下文关系,例如 谐波数据与时间、区域、谐波类型有关,这些相关的维唯一决定了谐波测量值。多 维数据视图就是在这些层次的维构成的多维空间中存数字测量值。图2 . 1 中的小格 内存储的数据就是谐波的测量值。 多维模型的另一个特点就是可能对一维或多维做集合运算, 例如对谐波测量值 按区域进行排序和计算。 有了多维模型, 就可以通过o l a p 提供对d s s 的支持。 建 立数据仓库多维模型的许多技术已经逐渐形成,并且还在继续发展。下面介绍两种 比较流行的技术。 华北电力大学 ( 北京)硕士学位论文 区域 海淀 谐波 类型 城区 总谐波畸变率 二次谐波 二次谐波 四次谐波 图:2 . 1 数据仓库的多维模型 2 . 3 . 1 星型模型 星型模型是一种由一点向外辐射的建模范例, 中间有一个单一对象沿半径向外 连接多个对象。 星型模型中心的对象称为“ 事实表” ,与之相连的对象称为 “ 维表” 。 一个简单的逻辑星型模型由一个事实表和若干个维表组成。复杂的星型模型包含数 百个事实表和维表。事实表包含基本的事实数据,可以当成千上万行组成。维表包 含可用于s q l 查找标准的数据属性, 一般比 较小。 下面给出了一个在数据仓库中采 用星型模型的例子,如图2 .2 . 日期表 图:2 .2 星型模型举例 从图 2 . 2中可以看出,“ 事实表”中的每条元组都包含有指向各个 “ 维表”的 华北电力大学 ( 北京)硕士学位论文 “ 维表”中记录的是有关一维的属性。事实表的每一 对应的主键在其它维表中) ,每个指针指向一张维表, 。侮条元组中多维外键限定数字测量值。在每张维表 还有说明该维的一些其他属性字段,维表记录了维的 、下钻 。 预处理的综合数据可以通过创建一些“ 概括表” 进行存储, 日期表月表年表 变电所表 图:2 . 3 雪花模型举例 雪花模型要对星型模型的维表作进一步的层次化, 原来的各维表可能被扩展为 小的事实表, 形成一些局部的“ 层次” 区域。 星型模型由事实表和非规范化的维表组 成,雪花模型的所有维表都进行了规范化,还可以采取星型模型和雪花模型折表的 模式,只有较大的维表才进行规范化。 一 9 华北电力大学 ( 北京)硕士学位论文 2 . 4 数据挖掘技术及其基本原理 2 . 4 . 1数据挖掘的定义 当今数据库的容量已 经达到了上万亿的水平 ( t ) -1 , 0 0 0 , 0 0 0 , 0 0 0个字节,在 这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些 “ 知识” 呢?也就是怎样通过一棵棵的树木了解整个森林的情况? 计算机科学对这个问题给出的最新回答就是:数据挖掘,在 “ 数据矿山”中找 到蕴藏的 “ 知识金块” ,帮助企业减少不必要投资的同时提高资金回报。世界范围 内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、 重新制定他们的产量推广策略 ( 把产品推广给最需要他们的人) ,以用最小的花费 得到最好的销售。 数据挖掘定义从技术上来说是一个利用各种分析工具在海量数据中发现模型 和数据间关系的过程,这些模型和关系可以用来做出预测。从商业角度来说它是一 种决策支持过程,它主要基于 a l机器学习,统计学等技术,高度自 动化地分析企 业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮 助企业的决策者调整市场策略,减少风险作出正确决策。数据挖掘还有不同的术语 如知识发现,模式发现等。 2 . 4 . 2 数据挖掘的分类 随着数据挖掘技术的发展,出现了不同的数据挖掘方式和技术,因此,有必要 对它们进行分类。如图 2 . 1 给出了常规的数据挖掘的分类。通常数据挖掘分为两种 类型的知识发现:“ 验证驱动型”( v e r i f i c a t i o n - d r i v e n )和 “ 发现驱动型” ( d is c o v e r y - d r iv e n ) . 验证型驱动” 是指用户首先提出自 己的 假设, 然后利用各 种 工具通过反复的、递归的检索查询以验证或否定自己的假设,一般在检验假设过程 中 使用结构化查询语言 ( s q l ) 或结构化查询生成器 ( s q l g e n e r o u s ) 。 结构化查询 生成器可分为两大类:查询工具 ( q u e r y ) 和在线分析处理 ( o l a p ) 工具。 在线分 析工具展现给用户的是多维视图的数据。 “ 发现驱动型”是指通过使用机器学习 ( m a c h i n e - l e a r n i n g ) 、统计和数据可视 化等技术 来发现新的 假设。 这些技术对发 现 新的知识起到相当重要的和积极的作用。但是这个流程不完全是自 动的,仍然要分 析人员在知识发现流程中的参与。它又包括描述型和预测型两大类。描述型数据挖 掘技术主要有可视化、 聚集、关联、 统计等技术。 预测型主要有决策树、 规则归纳、 神经元网络等技术。一般我们说的数据挖掘技术主要是指描述型和预测型这类发现 驱动的数据挖掘技术。 华北电力大学 日七 京)硕士学位论文 数据挖掘 验证驱动的数据挖掘发现驱动的数据挖掘 s q l生成器s q l 推述预 测 查询工具i i o l a p分类统计回归 可视化聚焦关联分析统计 规则归纳i 】 神经元网 络决策树 图:2 .4数据挖掘分类图 2 . 4 . 3 数据挖掘的流程 2 . 4 . 11 数据挖掘环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效 的,可实用的信息,并使用这些信息做出决策,数据挖掘环境可示意如下图2 . 5 - 图: 2 .5 数据挖掘环境框图 2 . 4 . 3 . 2 数据挖掘的过程和步骤 下图2 .6 描述了数据挖掘的基本过程和主要步骤 华北电力大学 ( 北京)硕士学位论文 选择挖掘分析和同化转换 图:2 .6数据挖掘的 步骤 图中各步骤的大体内容如下: 1 、确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的 最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘 则带有盲目性,是不会成功的。 2 、数据准备 ( 1 )数据的选择.搜索所有与业务对象有关的内部和外部数据信息,并从中 选择出适用于数据挖掘应用的数据。 ( 2 )数据的预处理。研究数据的质量,为进一步的分析准备。并确定将要进 行的挖掘操作的类型。 ( 3 )数据的的转换。将数据转换成一个分析模型。这个分析模型是针对挖掘 算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 、数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其 余一切工作都能自动地完成。 4 ,结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到 可视化技术。 5 、知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 2 . 4 . 4 数据挖掘的经典技术 1 、统计和可视化 华北电力大学 ( 北京) 硕士学位论文 要想建立一个好的预测模型,你必须了解自己的数据。最基本的方法是计算各 种统计变量 ( 平均值、方差等)和察看数据豹分布情况。你也可以用数据透视表察 看多维数据。 数据的种类可分为连续的,有一个用数字表示的值 ( 比如销售量) 或离散的, 分成一个个的类别 ( 如红、绿、蓝) 。离散数据可以进一步分为可排序的,数据间 可以比较大小 ( 如高、中、低)和标称的,不可排序 ( 如邮政编码) 。 图形和可视化工具在数据准备阶段尤其重要,,i 能让你快速直观的分析数据, 而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林,还允许你拉近每一 棵树来察看细节。在图形模型下人们很容易找到数据中可能存在的模式、关系、异 常等, 直接看数字则很难。 可视化工具的问题是模型可能有很多维或变量,但是我们只能在2 维的屏幕或 纸张展示它。比如,我们可能要看的是信用风验与年龄、性别、婚姻状况,参加工 作时间的关系。因此,可视化工具必须用比 较巧妙的方法在两维空间内展示n 维空 间的数据。虽然目 前有了一些这样的工具,但它们都要用户 “ 训练”过他们的眼睛 后才能理解图中画的到底是什么东西,对于眼睛有色盲或空间感不强的人,在使用 这些工具时可能会遇到困难。 2 .聚集 ( 分群) 聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显, 而咸一个群之伺的数据尽鹭相似。与分类不同 ( 见后面的预测型数据挖掘) ,在开 始聚集之前你不知道要把数据分成儿组, 也不知道怎么分 ( 依照哪几个变量) 。因 此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次 聚集你得到的分群对你的业务来说可能并不好,这时你需要删除或增加变量以 影响 分群的方式, 经过几次反复之后才能最终得到一个理想的结果。 神经元网络和k均 值是比 较常用的聚集算法。 不要把聚集与分类混淆起来,在分类之前,你已经知道要把数据分成哪几类, 每个类的性质是什么,聚集则恰恰相反。 3 、关联分析 关联分析是寻找数据库中值的相关性,两种常用的技术是关联规则和序列模 式,关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动 中所买不同商品的相关性。序列模式与此类似,他寻找的是事件之间时间上的相关 性.如对股票涨跌的分析。 4 、神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度r题提供了一种 相对来说比 较有效的简单方法,神经网络可以很容易的解决具有上百个参数的问题 ( 当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要 华北电力大学 ( 北京) 硕士学位论文 复杂的多) 。神经网络常用于两类问题:分类和问归) 。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层 ( 见图2 . 7 ) . 输入层的每个节点对应一个个的预测变量。 输出层的节点对应目标变量, 可有多个。 在输入层和输出层之间是隐含层 ( 对神经网络使用者来说不可见) ,隐含层的层数 和每层节点的个数决定了神经网络的复杂度。 输入 输出 隐含层 图: 2 .7一个 神经元网络 除了输层的节点,神经网络的每个节点都与很多它前面的节点 ( 称为此节点的 输入 节 点) 连接 在一 起, 每个 连接 对 应一 个权 重w , 此节点 的 值就是 通 过它 所有 输 入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这个函数 称为活动函数或挤压函数。如图2 . 7中节点4 输出到节点6的值可通过如下计算得 到: w 1 4 . 节点1 的值+ w 2 4 . 节点2 的值 神经网络的每个节点都可表示成预测变量 ( 节点1 , 2 )的值或值的组合 ( 节点 3 - 6 ) 。 注意节点6 的值已经不再是节点1 , 2 的线性组合, 因为数据在隐含层中传递 时使用了活动函数。实际上如果没有活动函数的话,神经元网络就等价于一个线性 回归函数,如果此活动函数是某种特定的非线性函数,那神经网络又等价于逻辑问 归。 调整节点间连接的权重就是在建立 ( 也称调练)神经网络时要做的工作,最早 的也是被基本的权重调整方法是回馈法。现在较新的有变化坡度法、类牛顿法、 l e v e n b e r g - m a r q u a r d t 法和遗 传算法等。 无论 采用哪种训练方法, 都需要有一 些参数 来控制训练的过程,如防止训练过度和控制训练的速度。 5 、决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比 如,在贷款申请中,要对申请的风险大小做出判断,图2 . 8是为了解决这个问题而 建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和 1 4- 华北电力大学 ( 北京)硕士学位论文 叶子。 收入 y4 0 ,0 0 0 工作时f 卜5 年 是/否 高负债 低风险高风险 是/ 否 高风险一低风险 图: 2 .8 一棵简单决策树 决策树中最上面的节点称为根节点, 是整个决策树的开始。 本例中根节点是“ 收 入 y4 0 , 0 0 0 ,对此问题的不同回答产生了“ 是”和 “ 否”两个分支。 决策树的每个节点子节点的个数与决策树在用的算法有关。 如c a r t 算法得到 的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点 的树称为多叉树。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以 用来作预测 ( 就像上面的银行官员用它来预测贷款风险) 。常用的算法为 c h a i d, c a r t . q u e s t 和c 5 . 0 . 建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切 分对应一个问题。也对应着一个节点。对每个切分都要求分成的组之间的 “ 差异” 最大。 华北电力大学 ( 北京)硕士学位论文 第三章 数据挖掘技术在电网调度自动化系统中的关键问题 3 . 1在电网调度自动化系统中应用数据挖掘技术的步骤 要想在电网调度自动化系统中成功应用数据挖掘技术,在创建和启动数据挖掘 应用时必须遵循以下 9 步骤: 1 、问题定义 ( 1 )找到关键环节 通常在数据挖掘项目实施的过程中,技术很快变得比商业更重要。因此,很多 在技术层面上令人感兴趣或者技术上的难题得到人们的很大关注,尽管它们的商业 价值很有限,但复杂技术的成本高。所以用户可能讨厌它,不愿使用它,而选择简 单但可以同样解决问题的系统。因此问题定义的关键环节通常是目前还未实施的关 键业务,而不是技术问题。例如要发现系统负荷与温度间的就必须有一个可信和可 测的负荷温度变化率。这一规则一定不能违反,事先确定了测量指标,以后的争论 就只是技术问题,而不是应用问题。 ( 2 )定义可交付系统的标准 在决定了要解决的问题后,详细具体地定义最终项 目和数据挖掘系统的交付指 标也是一个很重要的问题,定义交付指标可以有多种形式,可以是设计项目文档, 也可以是不太正式的一个演示。 重要的并不是媒介的类型, 而是定义交付指标本身。 我们知道,很多数据挖掘系统的实现没有很明确的交付指标,因此它们所做的往往 只是一个数据挖掘应用的实现而己。这样的目标比较容易达到,但是要推销它或取 得别人进一步的支持是很难的。 我们来看一个较好的交付指标的例子,该数据挖掘系统在第二年内可以减少 9 0 %的盲目建设变电站行为。这是一个艰巨的目标,但是比较容易获得其他人的支 持。目标是困难的,因为整个项目的成功不仅仅取决于数据挖掘系统的成功实现, 还要设法将挖掘出的结论结合到企业的业务流程中去,这样才有实际价值。也就是 说,项目 不仅仅是对数据的分析,即使它还只是一个原型,也要多个部门的合作, 这使问题越发困难,但是这样可以保证长期的成功。当我们对解决实际的业务问题 对技术本身更加关注时,数据挖掘应用就成为整个项目 很小的一部分。 ( 3 )选择明确的小问题 人们在选择业务问题时常犯的一个最大的错误就是问题太大或者太含糊。切记 要选择有实际商业价值的尽可能小的问题,项目牵涉到的部门越少越好,但是不要 为了片面追求小而牺牲商业价值。应该清楚项目越大,要完成它所需要的时间就越 长。 如果是很重要的项目, 要先进行小规模的实验或原型测试, 在取得初步成功后, 一 6- 华北电力大学 日七 京) 硕士学位论文 再确定在项目实施过程中用来标志系统商业价值的里程碑。这是很重要的,因为要 确保项目的进行一直能得到他人的关心和支持。 ( 4 )理解已有的调度自动化系统数据流程 在很多情况下,数据挖掘系统都是用来优化原有的调度自 动化系统数据收集和 存储流程的。事实上,一个数据控制系统如果不能与另一个明确的流程集成,那么 它最终很可能失败,因为它肯定需要一些特别的方式来为使用者提供服务和支持。 因此, 在调度自 动化系统已经存在的情况下,首先要理解他们。也应该理解其中的 过程流和数据流,并将他们文档化。 2 、数据挖掘工具使用者定义 ( 1 )建立每一个使用者的资料 了解使用者的最终目的是要知道每一类型使用者的基本情况。例如他们的技术 背景、他们作用系统的频率、 他们对数据挖掘技术的熟悉程度,他们对具体细节的 兴趣。 ( 2 )利用快速启动程序培训未来使用者并且了解使用者的需求和愿望。 要想知道使用者的需求和愿望,就要咨询客户,但由于缺乏背景知识,使用者 往往想象不出数据挖掘系统是什么样子,也不知道这样的系统能做什么。因此,构 造一个被称之为 “ 快速启动程序”的计划大有裨益。这样的计划通常由2 - 4 个半天 或者全天的会议构成要求数据挖掘项目的经理和未来用户的代表出席,它包括以下 几个内容: 向用户培训数据挖掘的基本技术和如何应用这些技术、与用户讨论业务上的问 题,了解他们对一个理想系统的期望是什么、与用户讨论怎样应用数据挖掘应用系 统才能尽可能达到他们的期望值。 ( 3 )系统实施过程中牢记不同使用者的需求 系统可能存在多种用户,他们使用系统的方式也不一样。如初级用户和高级用 户的使用系统的方式就不一样。定义好用户后,在实施系统的过程中要避免如下两 种错误:一是对初级用户来说,交付的系统过于复杂:二是对于高级用户来说,交 付的系统缺少了某些重要功能。这两个错误都会导致系统不可用,其中第一个错误 的代价尤其昂贵,因为一个过于复杂的系统不仅不适合用户使用,而且用户会对系 统失去信心,不愿使用系统。同时,项目小组做了许多原本不需要做的额外工作。 因此,只提供一个复杂度适中的系统并且始终把注意力集中在系统最重要的功能 上。 3 、数据定义 数据挖掘是由可以获取的数据驱动的,其成功在很大程度上取决于数据的数量 和质量。系统短期和长期的成功取决于能否成功的获取和验证数据,并将高质量的 数据有效的输入系统。 i 7 华北电力大学 ( 北京) 硕士学位论文 ( 1 )定位数据字典 建立支持数据挖掘应用的可靠数据资源设施的第一步,就是定位描述系统将要 使用的数据词典。他们可能是逻辑模型、关系数据库表、电子数据表格、或者是文 本型文档。他们应该包括如下内容:数据库的每一列预期存放内容、对数据来源的 描述、以及对数据有效性和可用性的估计。在理想情况下是己经有了一个数据仓库 系统,它把所有需要的数据都很好地组织起来,并对他们进行了明确地定义,而且 便于访问。但是现实的情况常常是,即使存在一个数据仓库,它也不大可能包括所 有为了解决业务问题而需要输入给数据挖掘系统的数据。因为数据仓库系统是一个 很大规模的i t工程, 对它的改变是一个很迟缓的过程, 而数据挖掘技术主要是解决 当前的业务问题,业务解决方案的支持数据是以很快的速度变化。因此,如果已经 存在数据仓库,那么它是一个很好的起点。在那里可能可以找到最新、最准确的数 据词典。但为了给数据挖掘应用提供更好的数据输入,应该搜集和合并多个数据源 和数据词典。 ( 2 )找到理解数据的人 在得到数据字典后,在公司内部找到 1 - 2 个真正理解这些数据含义的人也是很 重要的。因为他们理解这些数据,可以指出数据字典中那些地方不正确。那些数据 因为很少被用到,因此不要使用。 ( 3 )定义指标 除了从原有的数据源搜集到的数据以外,还有必要定义一些可以从源数据中计 算出来的度量指标。数据挖掘系统度量指标的计算方法和源数据的定义和转化都应 该准确地记录到数据挖掘系统的数据字典中。 ( 4 )评估数据完整性的符合程度 在得到数据之后就应该逐列检查它们的完整性。尤其要注意以下问题:值被 遗漏的百分比;实际数据类型和数据字典中描述的不匹配;根据数据字典的定 义,不可能出现的值;在预期范围之外的值;数据的不合理分布。 ( 5 ) 验证数据源 除了验证数据库自身的有效性外,验证各个数据库相互之间的一致性也很有好 处。 执行这样的验证步骤很费力, 也很费时间。 但是为了建立一个可靠的挖掘系统, 这些都是必要的。 4 、控制项目的范围 ( 1 )用文档控制项 目范围的平衡扩大 每一个数据挖掘项目都应该有一份技术文档,详细说明系统将会具有的功能特 征、商业目标和最终交付产品,以及时间表。这份文档用来沟通和协商项目范围的 大小。通过这份文档,就能够和项目 投资人就产品交付日 期和可接受的交付指标达 成一致。 一1 s- 华北电力大学 ( 北京)硕士学位论文 ( 2 )控制数据清洗的范围 要减少数据清洗的代价,应考虑完成以下任务的成本:一是对数据仓库中干对 象和调度自动化历史干对象库中进行匹配,降低复制数据库的成本。二是修补遗 漏的值或者无效值的成本。在这些工作不管是人力成本,还是软件开销,都是极其 昂贵的。因此,在最初的实验中要尽可能避免他们,也就是说,只使用那些干净, 所含数据信息完整一致的数据源。在原始数据中,需要进行清洗的数据对数据挖掘 系统来说是很有价值的,但最好把它们留到最初的实验之后去做。 ( 3 )控制数据转移、建模和存储的范围 数据挖掘系统的输入数据可能来自 很多不同的数据源,需要进行数据的收集、 装载和存储。最初这些工作是由手工进行,但是始终要考虑将来是自 动完成它们。 因此,要有选择性的使用那些必要的数据源和数据字段,排除任何不必要的数据以 减少以后的很多工作。 ( 4 )控制数据挖掘的范围 你需要为将来要交付给使用者的数据挖掘系统设定一个确定的模型,在不同情 况下, 建立一个数据挖掘模型的复杂度和成本差别很大, 这取决于问题的困难程度。 在可以得到可靠的源数据,并且能够验证模型有效性的情况下,将通常要花至少四 周时间来建立和验证模型,而且这些时间是花在数据整理,验证和理解之外的。因 此我们要控制数据挖掘的范围。 ( 5 ) 控制实验性设计和评价的成本 在建立好模型之后,如何减少评价数据挖掘性能的花消也是很重要的一件事 情。有如下几种选择:将由历史数据得到的结论推广到将来,凭过去的经验来估 计挖掘结果的准确性;依据挖掘到的结论采取行动,由活动早期的结果来推断、 计算将来的实际情况。依据挖掘到的结论采取行动,但是在活动的所有结果都出 来之后才进行评价。这时,可以全面地衡量其结果的真实性。这可能需要一年或者 更多地时间来评价促销活动地客户保持度或收益率地影响。第三种选择最好,但要 等到最终地结果出来,因此项目 将不得不停在那里,什么也不能做。第一个选择也 不合适,因为对挖掘结果的估计完全是基于经验规则,没有实际去实行,不能令人 信服。第二种选择是最好的折中,既可以得到实际可测评的结果,又迅速的推进了 项目。这里很重要的一点是在项目启动时,文档就应该就数据挖掘系统性能的评价 方法达成协议,并且设定了其预期值。 5 、实验 数据挖掘应用成功的第一个可见标志是实验的成功。实验展示了模型的最初应 用,以一种可行而且可度量的方式解决了一个实际的业务问题。但是,它的成本应 该是限的。 实验不要等太久。实验的一个关键就是马上实施它,一开始就要把它列到你的 一 t 9 华北电力大学 ( 北京)硕士学位论文 计划中。因为它是原有业务流程的一部分,需要做大量的计划将它与数据挖掘项目 之外的部门联系起来。因此,要早旱通知其它部门,让他们将实验列入时间安排, 而不要等到实验系统已经做好或己经建立一个模型时再告诉他们。 从小的系统开始但要完成全过程,人们常常期望数据挖掘能完成宏伟的目 标, 而把具体的执行细节留到以后,一定要抵制这种诱惑。实验的目的不仅仅是要得到 数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论