(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf_第1页
(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf_第2页
(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf_第3页
(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf_第4页
(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(技术经济及管理专业论文)基于数据挖掘技术的火电厂设备预测检修研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 随着 d c s 系统在电力行业的 普遍推广,电厂的d c s系统中存储着大量有关设 备状态的数据,这些数据的背后隐藏着许多对提高电 厂生产效率、经济安全性有积 极指导意义的信息。本文将关联规则挖掘技术用于火电厂设备状态检修, 试图为火 电 厂的预测检修管理提供决策依据。 文章介绍了数据挖掘的基本知识, 着重研究了 关 联规则的基本理论和算法以及编程实现。内 容安排如下: 首先简介了数据挖掘技术、 数据仓库技术、关联规则挖掘技术、 数据预处理的必要性和方法等,之后探讨了火 电 厂设备检修管理体制的演变与发展,最后在详细研究关联规则挖掘算法的基础 上,开发了关联规则挖掘技术在张家口发电总厂给水泵预测检修系统中的应用实 例, 利用s q l s e r v e r 2 0 0 0 和 d e l p h i 语言完成了关联规则挖掘算法的 编程实 现。 关键词: 数据挖掘,数据仓库, 关联规则, 预测检修 abs tract a s t h e d c s s y s t e m d e v e l o p i n g i n p o w e r p l a n t , t h e r e a r e a g r e a t n u m b e r o f d a t a a b o u t c o n d i t i o n o f e q u i p m e n t s t o r e d i n t h e d c s , m a n y i n s t r u c t i o n i n f o r m a t i o n f o r i m p r o v i n g e ff i c i e n c y a n d e c o n o m y s e c o n d l y , d i s c u s s a p r i o r i a l g o r i t h m a n d i t s p r o v e d o n e s ; f i n a l l y , a ft e r d i s c u s s 吨 t h e d e v e l o p i n g o f e q u i p m e n t ma i n t e n a n c e s y s t e m , a n e x a m p l e o f u s i n g a s s o c i a t i o n r u l e i n p r e d i c t i v e d i a g n o s t i c m a i n t e n a n c e ( p d m ) o f a p o w e r p l a n t a n d i t s d a t a m i n i n g re s u l t s a r e g i v e n t h r o u g h u s in g s q l s e r v e r 2 0 0 0 a n d d e l p h i l a n g u a g e . l i y a n q i a n g ( t e c h n o l o g y e c o n o m i c s 学 校可以采 用影印、 缩印 或其它复制手 段复 制并 保存学位论文; 学校 可允许学位论文被查阅或借阅; 学校可以 学术交流为 目 的 , 复 制赠送和交换学位论文; 同 意学校可以 用不同方式在不同 媒体上发表、 传播学 位论文的全部或部分内容。 ( 涉 密的学 位论 文在解密 后遵守 此规定 ) 作者签名: 日期: d t=/ f n, 歼、 知 导 师 签 名 : la 日明 :娜. , ) . w 华北电力 大学硕士学位论文 第一章 绪 论 本文选题的背景 设备检修管理工作作为安全生产管理中 最重要的基础工作,一直是发电 企业正 常 运行中 非常重要的 环节,设备检修的质量决定了发电 企业能否安全可靠地长期运 行,因而也将直接影响企业的发电 效益。同时,设备检修管理科学化也是现代企业 组织生产和管理的重要手段,也是我国电力企业坚持自 力更生,走向管理现代化的 一项重要技术经济政策。对于火电厂来说, 设备管理工作主要体现在设备使用阶段 的 检修管理,强调采用先进的技术手段对设备的状态进行监测和分析, 最终能够达 到预测设备故障,根据设备状态来进行检修决策的目 的.随着电 力工业发展和改革 的 不断深入,以 严重缺电条件下的数量扩张为特征的电 力系统发展阶段已结束,电 力企业开始向以 平稳增长和整体素质提高为特征的发展阶段过渡。同时,各电 厂开 始进入成本独立核算的管理模式,厂网分开、竞价上网也正在逐步推行。 在这种情 况下,如何降低企业生产成本、 提高企业经济效益也就成为了各电 力生产单位考虑 的焦点,而其中重要的一条措施就是改进设备检修管理工作,在保证设备安全运行 的基础上,降低检修成本。 1 . 1 . 1电厂检修管理工作现状 我国火电厂的检修管理工作过去大多采用计划检修 ( 也叫定期检修) ,在电厂 中通常又分为大修和小修。其原则是不管设备的状态如何,到期必修,缺乏经济性 和针对性,存在着临时性检修频繁,盲目 检修过多等缺陷,从而造成了人力、财力 的大量浪费。 近年来随着我国电力行业的 快速发展, 火电厂电力机组容量的逐渐增 大,机组的自动化程度也有了很大的提高.目 前,大多数电厂都己 建立了 集散控制 系统 ( d c s ) 、数据采集和监视系统 ( s c a d a ) 等生产实时信息系统以 及管理信息 系统 ( m i s ),并且可以 将生产实时信息传入 m i s 系统.在电 厂 d c s 中大都存储了 大量的运营生产数据,在这些大量的历史数据中隐含着许多对电厂生产效率、经济 安全性等有积极指导意义的信息,这些信息可以为发电厂运行、检修和事故处理等 提供决策依据。在此基础上,为了提高企业的竞争能力,许多电力企业的设备检修 开始向状态检修和预测检修过渡。 所谓状态检修 ( c o n d i t i o n b as e d ma i n t e n a n c e . c b m) 就是根据先进的状态监测 和诊断技术提供的设备状态信息,判断设备的异常,预知设备的故障,在故障发生 之前 进行检修的方式,即根据设备的健康状态来安排检修计划,实施设备检修。状 态监 测和诊断是状态检修的基础,而对监测结果的科学分析和有效管理则是状态检 华北电力大学硕 士学位论文 修 得以 实 现的 保 证。 预测 检修 ( p r e d i c t iv e d ia g n o s t i c m a in t e n a n c e . p d m ) 是一 种新 的状态检修技术,它是随着计算机的发展而迅速发展起来的。预测检修是一种以设 备状态监测和分析为基础,以预测设备状态发展趋势为依据的 检修方式。预测检修 是通过先进的设备状态监测手段,离线或在线监测设备的特征信号,经过计算机数 据分析处理,识别设备的早期故障征兆和性能劣化状况以及发展趋势,并在设备故 障发生前及性能降低到不允许极限前安排检修。 它可以 极大地降低检修费用,提高 设备的可靠性. 目 前,虽然很多电厂都提出了 要实行状态检修管理,也有很多人在做这方面的 研究工作n - 1 0 1 ,但国内电厂机组状态检修管理还没有非常成熟的模式, 许多电厂仍 在 探索, 并未实现全面的状态检修。 有的 单位只是实现了不同程度的局部状态检修。 原因是状态检修管理系统并不是一个独立的系统,与之相关的技术很多,最主要的 是以状态监测和故障诊断技术为核心的专家系统。 状态监测就是利用各种传感器对 反映设备与系统运行状态的物理、化学量进行监测;故障诊断是综合利用监测数据 和信息进行决策, 最终判断设备是否处于正常状态。虽然,现在国内的状态监测和 诊断技术有了长足的发展,但也应清醒地看到现有的专家系统都存在着或多或少的 问题。一来主要表现在多数系统不够成熟和稳定,功能不够全面:二来是系统诊断 的 准确性不高,且不是一个全自 动的诊断过程。因此,在面对电厂 d c s 系统中的海 量数据时,单纯依靠现有的技术手段、按传统的数据分析方法,无法发现这些数据 背后所隐含的规律,难以满足发电设备状态监测的需要,不可避免的造成了资 源的 巨大浪费。 数据挖掘技术是近年来应运而生的新兴学科,它利用数据库、人工智能、统计 学、知识库等相关知识,以积累下来的历史数据为研究对象,通过对数据的归类、 分析、处理, 从而挖掘出隐藏在其中的有用的知识,为管理和技术人员的决策提供 有力依据.而电厂是一个过程生产企业,其过去、现在和未来是密切相关的。 有了 过去的历史数据, 就有可能推断出电厂将来的发展趋势,为将来运行、 检修和事故 处理提供决策依据。因此,将数据挖掘技术用于电 厂设备预测检修管理具有一定的 理论和现实意义,可以为电厂带来巨 大的经济效益和社会效益。 1 . 1 . 2数据挖掘产生的背景和现状 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数 据急剧增大, 在这些大量的数据背后隐藏着许多重要信息。如果能把这些信息从数 据库中提取出 来,就可以为公司 创造很多潜在的利润。 数据挖掘的 概念就是从这样 的 商业角度开发出来的,并成为数据和信息之间的桥梁.数据挖掘通常定义为:从 数 据 库中 非 平 凡地 获取 隐 式的、 先前 未 知的 、 并潜 在有 用的 信息li e 。 这里的 非 平 凡 华北电力大学硕士学位论文 指要有一定程度的智能型、自 动性。 数据挖掘和另一个常用术语数据库知识发现长 期同 时 被使用 。 数据挖掘 技术( d a t e m i n in g , d m ) 通常 被视为 是数 据库中 知识发 现 ( k n o w l e d g e d is c o v e ry in d a t a b a s e , k d d ) 过 程中 最 重 要的 一个 步骤. 从数据库中发现出来的知识可以 应用在许多方面, 如信息管理、查询响应、决 策支持、过程控制等等。目 前,数据挖掘不仅被许多研究人员看作是数据库系统和 机器学习方面的一个重要研究课题,而且被许多工商界人士看作是一个能带来巨大 回报的重要领域。 国外许多公司 ( 如i b m, i n f o r m i x , o r a c l e ) 都投入巨资对其进行 研究,并己开发出了一些产品。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量,直到 1 9 9 3 年国家 自 然科学基金才首次支持该领域的研究项目 ,并且目 前进行的大多数研究项目 是由 政府资助的,如8 6 3 计划、 “ 九五” 计划等,从事数据挖掘研究的人员主要在大学, 也有一部分在研究所或公司。 研究所涉及的领域很多, 一般集中在学习算法的研究、 数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目 前,在国内 互联网 上也 出现了介绍数据挖掘知识的主页:如h t t p : / / w w w .d m g r o u p . o r g . c n / . 近年来,很多学者对数据挖掘技术在电 厂中的应用展开了研究,并取得了 一定 的成果。 如数据挖掘技术 ” 们 和数据仓库技术 . 幻 在电力系统中的应用: 将数据 仓库和数据挖掘技术用于电厂报价决策与支持系统 13 3 和负荷预测( 1 4 3 ;将数据挖掘技 术用 于电 厂 过 程优 化(16) 和故 障诊 断(16 3 ; 将 数 据 挖掘 应用 于电 力 系统 厂级 监控 信 息系 统, 2 , 等等。 1 . 1 . 3关联规则挖掘技术及现状 关 联规 则挖 掘 技术是 数据 挖 掘技 术的 一 个重 要问 题, a g r a w a l 于1 9 9 3 年提出 了 关联规则的概念后已经在数据库界引起了广泛的研究【3 3 ; 。 关联规则是形式如下的一 种规则,“ 在购买面包和黄油的顾客中, 有 9 0 %的人同时也买了牛奶”。 对于关联 规则问题的研究最早是r . a g r a w a l , 其目的 是要在交易数据库中发现各项目 之间的 关系。随着条形码技术的发展, 零售企业交易数据库中存储了大量的售货数据。 利 用关联规则发现技术对这些历史事务数据进行分析, 就可以对顾客的购买行为提供 极有价值的信息。 例如, 可以帮助商家如何摆 放货架上的商品, 帮助如何规划市场, 实施促销计划.从事务数据中发现关联规则, 对于改进零售业等商业活动的决策非 常重要。 挖掘关联规则的 关键步骤是发现频繁模式,简称频集。频集挖掘的最杰出算法 是a g r a w a l 等提出的a p r i o r i 算法. 当频繁模式长度较短和数据集较稀疏、 规模较小 时, a p r i o r i 的 性能 不 错. 但是, 对于 存 在长 模 式、 密 集 型、 或海 量 数据 集, a p r io r i 的时间效率和空间可伸缩性都面临挑战。 因此, a p r i o r i 之后有关频集和关联规则挖 华北电力大学硕士学位论文 掘的研究一直很活跃,大致涉及以 下三个方面: ( 1 ) 研究 经典 频 集挖 掘的 高性 能算 法, 包括 对a p ri o r i 算法的 改 进, 以 及 探索 新 的挖掘方法: ( 2 ) 研究如何拓展频集的概念,并提出 相应的 挖掘算法: ( 3 )研究如何拓展关联规则概念及其应用,包括规则的价值评价、新的关联规 则 类型等等。 很多高校、 科研单位也对关联规则挖掘在电 力行业中的应用展开了研究,如用 关联规则挖掘技术对电厂运行过程中 产生的d c s 时延不良 数据进行研究, 这种方法 采用基于关联规则的主成份法对 d c s 时延不良 数据进行重构, 很好地解决了 这一问 题to g ; 将关联规则应用于大型火力发电厂实时控制【 6 0 . 9 9 ; 英国 b e l f a s t 女皇大学也 对关联规则挖掘在电 力系统中的 应用展开了 研究【 , 等. 1 . 2本文选题的意义 在上述背景下,通过对火电 厂检修管理体制、数据挖掘技术、 数据仓库和关联 规则技术的研究,本文试图用数据挖掘中的关联规则技术对存储在电厂d c s 系统中 有关设备状况的大量历史数据进行分析,以便为电厂设备检修管理和安全运行寻找 决策支持.电厂在实际运行过程当中积累了大量的运行数据, 在这些数据背后隐藏 着一些我们凭观察和推理无法直接得到的知识。 而采用关联规则技术则有可能挖掘 出隐藏在这些历史数据中不断重复的现象、属性,并将之作为我们得到的知识。这 些知识可以帮助管理技术人员优化监测和诊断手段,完成设备的预测检修,从而为 电力设备安全、经济、长期和稳定的运行提供可靠的技术和管理保障,最终为实现 电厂设备的现代化综合管理提供有力的决策支持。 因此,本课题既有一定的理论意义,又有一定的实际应用价值。 3本文的研究思路、方法和框架 选取本课题对我来说是一个全新的挑战。从框架上来讲, 本文主要分为三大部 分,第一部分为火电厂的设备检修管理理论部分 ( 第三章) ,这也是文章框架的核 心部分。 主要阐 述了电厂设备检修管理体制的演变,重点叙述了状态检修和预测检 修管理技术及其重要性;第二部分为基础理论研究部分 ( 第二章) 。从方法上来讲, 这部分又属于课题的主要研究方法,是课题研究所使用的主要工具,主要是数据挖 掘技术中的数据仓库技术和关联规则挖掘技术;第三部分是将关联规则挖掘技术实 际 应 用于电 厂给 水泵的 预 测检 修 ( 第四 章) 。 当 然, s q l s e r v e r 2 0 0 0 和d e lp h i 语言 也是研究本文的主要工具。 从思路上讲,由 于数据仓库技术和关联规则挖掘技术都 华北电力大学硕士学位论文 是数据挖掘技术的一部分,因此本文首先研究的 是数据挖掘技术,研究了 其功能、 方法及分类, 进而研究了数据仓库技术和关联规则技术,这些都是论文进行后续研 究的基础;接着是对电厂设备检修管理的研究; 最后是数据仓库和关联规则在电厂 给水泵预测检修中的应用。因此,本文内容具体安排如下: ( 1 ) 第一章绪论部分,主要论述了课题研究的背景、意义及相关课题的 研究现 状,最后阐述了论文的研究思路和内 容: ( 2 ) 第二章基础理论研究部分,主要研究了数据挖掘、数据仓库技术及关联规 则技术的介绍,这些都是为后文的应用奠定 基础的; ( 3 ) 第三章主要是对我国设备维修管理理论、 方式及状态检修技术进行了 研究。 电 力设备检修管理体制是随着生产力的发展和科学技术的进步而不断演变的。因 此,本章首先对设备维修管理理论及其方式进行了研究,接着对国内 外电力设备检 修管理体制的 演变、 各种检修管理体制的概念和优缺点 及国内外电力设备状态检修 的状况进行了 综述, 然后对状态检修和预测检修技术进行了 研究,最后提出了 在我 国电厂全面实行状态检修管理的必要性和原则; ( 4 ) 第四章是关联规则挖掘技术在电厂设备预测检修中的应用实例。在将关联 规则挖掘技术用于电 厂设备预测检修管理之前,必须先研究关联规则的各种算法, 比较这些算法性能优劣,从而决定选择何种算法进行应用。因此 ,本章首先详细研 究了关联规则的各种算法,并对各种算法的效率进行了比 较。然后在此基础上,以 给水 泵为 例, 在s q l s e r v e r 2 0 0 0 创建的 数 据 仓 库平台 上 利用d e lp h i 语言 实 现了 关 联规则挖掘技术在给水泵预测检修中的应用: ( 5 ) 最后总结全文,并提出进一步的研究方向。 华北电 力大学硕士学位论文 第二章 基础理论研究 将数据挖掘技术运用到电厂设备预测检修管理,必须先对其进行全面的了 解。 因此,本章首先研究了数据挖掘技术的定义、功能及其分类等.其次,研究了 数据 仓库技术、数据预处理和关联规则发掘技术,这些都为论文后续开发电厂给水泵预 测检修系统时进行数据的预处理、数据仓库的 创建以 及关联规则算法的研究和选用 等奠定基础的。 2 . 1数据挖掘技术 从定义上讲,数据挖掘( d m ) 就是从大量的、不完全的、有噪声的、 模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知 识的 过程is . 这一 过程 是从 数据 当中 发 现趋 势 或 模式, 目 标是 通 过 对大量 数 据的 分 类从而发现新的信息。在实践中,数据挖掘的任务是从数据中发现有用的模式,包 括预测型和描述型两种模式。预测模式可以 根据数据精确确定某种结果,并且所使 用的数据也可以都是明确知道结果的。例如,电 信业中 预测客户流失情况,数据库 中必须含有过去客户流失的历史数据信息。描述型 模式是对数据中存在的 规则做一 种描述,或者根据数据的相似性把数据分组。描述型模式必须满足以 下几个条件: 首先模式必须是强模式 ( 例如, 这种模式9 0 % 的事件发生) , 然后这个模式是用户感 兴趣的、但又不明显的,其次模式常常发生以示这个模式是有用的。因此,可以把 数 据 挖 掘 活 动 分 成 下 述 两 类 u e ( 1 ) 预测性数据挖掘:生成已知数据集所描述的系统模型: ( 2 ) 描述性数据挖掘:在可用数据集的 基础上生成新的、非同寻常的信息。 在预测领域的后期,数据挖掘的目 标是得出一种模型,以 可执行码来表示。 这 种可执行码可 以用于执行分类 、预测、评估或者其它相似的任务。而描述性领域的 后期,数据挖掘的目标是利用大型数据集中的未知模式和关系获得对所分析系统的 理解.对特定的数据挖掘的应用,预测和描述的相对意义有相当大的变化。预测和 描述的目标都是通过数据挖掘技术来实现的。 2 . 1 . 1 数据挖掘的功能 根据数据挖掘的上述目 标,可将数据挖掘的功能主要分为以 下几种: ( 1 ) 分类:所谓分类,就是按照分析对象的属性,建立组类。 根据一些变量的 数值做计算,再依据结果作分类。我们可以 用一些已 经分好类的资料来研究它们的 特征,然后再跟据这些特征对其它未经分类或新的数据做预测。这些我们用来寻找 华北电力大学硕士学位论文 特征的己分类资料可能是来自 我们现有的历史资料,或是将一个完整的数据库做部 分取样,再经由实际的 运作来测试。 使用的技术有决策数 ( d e c i s i o n t r e e ), 记忆基 础推理 ( m e m o ry - b a s e d r e a s o n i n g )。 ( 2 )聚类:面对海量的资料,首要的任务是将它合理地归类。如果己知要求, 对资料可以 设问,按回答的不同给予分类,这就是上面所说的分类。如果事先没有 任何要求,就只能按资料反映的情况,比较接近的划归一类,这种归类的方法称之 为 聚类。 聚类分析的算法往往按距离的远近来归类,也可以按相似程度的 大小来归 类。只有合理的聚类后, 每一类内 才可以找出有关的特征,否则就难以 发现真正有 用的信息。所以不同类型的问题可以 给出不同的聚类原则, 从而找到不同的特征。 ( 3 ) 估计与预测:估计是根据已 有的长期积累的资料来推测某一属性未知的真 值。 例如按照信用卡申 请者的教育程度、行为和性别估计信用卡的消费量。使用的 技术包括统计方法中的相关分析、回归分析及人工神经网络方法。预测是根据对象 属性的过去观察值来预测该属性未来的取值。例如,由 顾客过去的 刷卡消费量来预 侧其未来消费量。 使用的技术包括回归分析、 时间序列分析及人工神经网络方法等。 ( 4 )关联分析: 关联就是要找出某一事件或是资料中会同时出 现的东西。关联 主要是要找出下面这样的信息:如果a 是某一事件的一部分,则 b 也出现在该事件 中的概率有 x % ( 例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂 牛奶的 概率是8 5 % ) 。 据此确定哪些相关的 对象应该放在一起, 例如超市中相关的洗 漱用品 ( 牙刷、牙膏) ,放在同一间货架上。在客户行销系统上,此中功能可以用 来确定交叉销售的机会,以设计出吸引人的产品群。 ( 5 ) 描述:描述的功能是对复杂的数据库提供简要的描述,最简单的例子就是 变量的均值和方差。这个功能的主要目 的是为了 在使用别的功能时对数据先有较好 的了解。 在建立任何模型之前先做数据描述的工作是十分重要的,因为这会告诉我 们怎样去建模。 2 . 1 . 2数据挖掘的方法和技术, e) 按照数据挖掘的 功能, 可以 将数据挖掘分为以 下几种主要方法和技术: ( 1 )决策树 ( d e c i s i o n t r e e ):决策树是建立在信息论的基础之上, 对数据进 行分类的一种方法。 首先, 通过一批已 知的样本数据建立一棵决策树。然后,利用 建好的决策树,对数据进行预测决策树的建立过程可以看成是数据规则的生成过 程,因此可以认为,决策树实现了数据规则的可视化,其输出 结果也容易理解。例 如:在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我 们很容易地确定贷款申 请者是属于高风险的还是低风险的。 ( 2 )聚类 ( c l u s t e r ):聚类是把一组个体按照相似性归成若干类别,即 “ 物以 类聚” 。它的目的是使得属于同一类别个体之间的距离尽可能的小,而不同类别个 7 华北电力大学硕士学位论文 体间的距离尽可能的大。 聚类分析是按照某种相近程度度量方法, 将用户数据分成 一系列有意义的子集合。 每一个集合中的数据性质相近,不同集合之间的数据性质 相差较大。聚类方法包括统计方法、 机器学习方法、神经网 络方法和面向数据库的 方 法。当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采 用聚类分析。 ( 3 ) 神经网络 ( n e u r a l n e t w o r k ) : 神经网 络建立在自 学习的数学模型基础之上。 它可以对大量复杂的数据进行分析,并可以完成对人脑或计算机来说极为复杂的模 式抽取及趋势分析。神经网 络系统由一系列类似于人脑神经元一样的处理单元组 成,我们称之为节点。 这些节点通过网 络彼此互连,如果有数据输入,它们便可以 进行确定数据模式的工作。神经网 络有相互连接的输入层、中间层 ( 或隐藏层) 、 输出 层组成。 中间层由多个节点组成, 完成大部分网络工作, 输出层输出数据结果。 例如:我们可以指定输入层为代表过去的销售情况、价格及季节等因素, 输出 层就 可以 输出 判断本季度的销售情况的数据。 ( 4 )关联规则 ( a s s o c i a t i o n r u l e ):关联规则是一种简单却很实用的关联分析 规则, 它描述了一个事物中某些属性同时出现的规律和模式。例如: 超级市场中通 过p o s 系统收集存储了大量售货数据,记录了什么样的顾客在什么时间购买了什么 商品, 这些数据中常常隐含着诸如: 购买了 面包的顾客中有 9 0 %的人同时购买了牛 奶的关联规则。关联规则分析是依据一定的 可信度、支持度建立的。 ( 5 ) 遗传算法 ( g e n e t i c a l g o r i t h m s ): 遗传算法是一种基于生物进化论和分子 遗传学的 搜索优化算法。它首先将问 题的可能解按某种形式进行编码,编码后的解 称为染色体;随机选取 n 个染色体作为初始种群,再根据预定的评价函数对每个染 色体计算适应值,性能较好的染色体有较高的 适应值;选择适应值较高的染色体进 行复 制, 并通过遗传算子,产生一群新的更适应环境的染色体,形成新的种群,直 至最后收敛到一个最适应环境的 个体, 得到问 题的最优化解。 ( 6 ) 联 机分 析处 理 ( o l a p ) : 联机 分 析处 理 ( o n lin e a n a l y t ic a l p r o c e s s in g , o l a p )主要通过多维的方式来对数据进行分析、 查询和报表。它不同于传统的联 机事务处理 ( o n l i n e t r a n s a c t i o n p r o c e s s i n g , o l t p ) 应用. o l t p 应用主要用来完 成用户的事务处理,如民航订票系统、银行储蓄系统等等, 通常它需要进行大量的 更新操作,同时 对响 应时间要求比 较高。而 o l a p应用主要是对用户当前及历史数 据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公 司市场营销策略的制定等, 它主要是进行大量的查询操作, 对时间的要求不太严格。 ( 7 )数据可视化 ( d a t a v i s u a l i z a t i o n ):对大量数据的展现也是数据挖掘的重 要方面。就数据可视化系统本身而言,由 于数据量很大,我们很容易面对数据不知 所措,数据挖掘的可视化工具可以通过富有成效的 探索起点并按恰当的隐喻来表示 数据,为分析数据提供很好的帮助。 华北电力大学硕 士学位论文 2 . 1 . 3数据挖掘的一般过程18 , 18 数据挖掘的一般过程如图z - 1 所示,由以下几个步骤组成: 图2 一1 数据挖掘的过程 ( 1 )数据采集:大量全面丰富的数据是数据挖掘的前提,数据采集是数据挖掘 的首要步骤。数据可以来自 于现有事务处理系统,也可以 从数据仓库中 得到。 选取 有效子集对数据挖掘十分重要,在无效数据空间上挖掘会降低数据挖掘的 性能,且 冗余数据会对正确结果产生千扰。 ( 2 )数据预处理:数据预处理是数据挖掘的必要环节。由数据采集阶段得到的 数据可能有一定的 “ 污染” ,表现在数据可能存在自 身的不一致性,或者有缺失数 据的 存在等,因此数据预处理是必须的。同时, 通过数据预处理, 可以对数据做简 单的 泛化处理,从而在原始数据的基础上得到更为丰富的数据信息,进而便于下一 步数据挖掘的顺利进行 。 ( 3 ) 数据挖掘: 这是数据挖掘系统基本部分, 利用各种数据挖掘方法进行分析。 ( 4 )数据挖掘结果的评估: 数据挖掘的结果有些是有实际意义的,而有些是没 有实际意义的,或是与实际情况相违背的, 这就需要进行评估。评估可以根据用户 多年的经验,也可以 直接用实际数据验证模型的正确性, 进而调整挖掘模型,不断 重复进行数据挖掘,最终将结果转换成为用户能够理解的知识。 ( 5 )分析决策:数据挖掘的最终目的是辅助决策。把上一步得到的知识与已有 的知识进行综合, 检查和处理他们之间的冲突,通过简明直观的方法把最终结果展 现给用户,供用户决策使用。 2 . 2数据仓库技术与数据预处理 19 . 20 近年来,随着数据库技术的应用和发展,人们尝试对数据库进行再加工,形成 一个综合的、面向分析的环境,以便更好支持决策分析,进而形成了一种新的数据 存贮和组织技术一数据仓库 ( d a t a wa r e h o u s e )。数据仓库 的出现和发展是计算机 应用到一定阶段的必然产物。数据仓库弥补了原有的数据库数据处理技术的缺点, 将原来的以单纯数据库为中心的数据环境发展为一种综合性体系化的新环境。我们 知道, 数据挖掘是为决策服务的,而数据仓库有搜集海量数据的能力,其中 存储的 也正是分析型数据,能为数据挖掘提供大量的良 好的数据源, 可以说数据仓库的出 华北电 力大学 硕士学位论文 现促进了数据挖掘的发展。 事实上,也正是数据仓库技术的蓬勃发展带来了数据挖 掘技术欣欣向荣的前景。 2 . 2 . 1数据仓库的定义和特点2a , 2 + 1 数 据仓 库概 念 创始 人w .h .i n n l o n 在 其 b u i ld in g d a t a w a r e h o u s e 一 书中 对 数 据仓库的定义是: 数据仓库是在企业管理和决策中面向主题的、集成的 、与时间相 关的、不可修改的数据集合 。 数据仓库的概念,可以从以下两个层次予以理解,首先,数据仓库用于支持决 策, 面向 分析型数据处理, 它不同于企业现有的以操作型数据处理为中心的 数据库, 数据处理从 o l t p ( o n - l i n e t r a n s a c t i o n p r o c e s s ) 转移到 o l a p ( o n - l i n e a n a l y t i c a l p r o c e s s i n g ) ;其次,数据仓库是对多个异构的数据源有效集成,数据集成后按照主 题进行重组,包含历史数据,存放在数据仓库中的数据一般不再修改。 从数据仓库的定义,可以概况出 数据仓库具有如下特点: ( 1 ) 面向 主 题 ( s u b j e c t o r ie n t e d ) : 与 传统的 操 作型 系 统面向 应 用 进行 组 织的 特点相对应,数据仓库的数据是面向主题进行组织的。在逻辑意义上, 它是针对企 业中某一宏观分析领域所涉及的分析对象, 是针对某一主题而设置的。即是用户使 用数据仓库进行决策时所关心的重点方面, 如银行存款情况、 贷款情况、客户群情 况、利润情况等。 主题是一个抽象的概念, 面向主题的数据组织方式,就是在较高层次上对分析 对象的数据 的一个完整的、统一并一致的描述,能够完整 、统一地刻画各个分析对 象所涉及的企业的各项数据,以及数据之间的 联系。传统业务系统是以 优化事务处 理的方式来构建数据结构的,对于某个主题的数据常常分布在不同的业务数据库 中。这对于决策是来说是极为不利的,因为这意味着访问某个主题的数据实际上需 要去访问多个分布在不同数据库中的数据集合。这样将极大的浪费系统处理的时间 和效率,并且数据之间的不一致性和不同步问题,将极大影响决策的可靠性。 基于上述原因, 数据仓库将这些数据集中于一个地方,将对应某个主题的 全部 数据存放在同一张数据表中。例如,对于一个保险公司来说,应用问 题可能是汽车 保险、 健康保险、人寿保险和意外伤亡保险,而公司的主要主题范围可能是顾客、 保险单、保险费与索赔。数据仓库这种按主题的数据组织方式,极大地方便了 数据 分析的过程.数据仓库的关键是决策者的建模和分析,以 排除对决策无用的数据, 提供针对特定主题的数据信息。 ( 2 ) 集成性 ( i n t e g r a t e d ):数据仓库中存贮的 数据是从原来分散的各 个业务系 统中提取出来的,但并不是原有数据的简单拷贝, 而是经过系统加工、汇总和整理 的, 以消除不一致性, 保证数据仓库内的信息是关于整个企业一致的、 全局的信息。 1 0 华北电力大学硕士学位论文 数据仓库中的数据,我们需要明 确两点: 其一,数据仓库的数据不能直接从原有数 据库系统中得到.原有数据库系统记录的 是每一项业务处理的流水帐,这些数据不 适合分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的 数据项,增加一些可能涉及的外部数 据;其二,数据仓库每一主题所对应的源数据 在原分散数据库中 有许多重复或不一 致的地方,必须将这些数据转换成全局统一的 定 义,消除不一致和错误的地方,以 保证数据的质量。否则, 对不准确,甚至不正 确的数据进行分析得出的结果是不能 指导企业做出科学的决策。例如,在操作型环 境中,关于性别 “ 男/ 女”问题, 不同的 应用可能有不同的编码, “ 耐f 或 1 / 0 或 “ y / n ”等,在进入数据仓库后必须一致的 进行编码。对于其它应用设计问题, 如命名习惯、键码结构、属性度量以 及数据特点等等,都应该考虑一致性处理。 ( 3 ) 稳定性 ( n o n - v o l a t i l e ): 操作型环境中的 数据是按逐个记录方式处理的, 如可对记录进行访问、插入、修改和删除,而数据仓库中的数据是批量载入和访问 的。数据仓库的数据不可更新也可以 说是数据本身相对稳定性, 指一旦某个数据进 入数据仓库后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和 查询操作,但修改和删除操作很少。数据仓库的这个特征可以从两个角度去理解。 第一,从数据的使用方式上看,数据仓库的数据不可更新,是指当 数据被存放到数 据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改 其中 存贮 的数据,即数据仓库的数据对最终 用户而言是只读的。第二,从数据的内容上看, 数据仓库存贮的是企业当前的和历史的数据,在一定的时间间隔以 后,当 前的数据 需要按一定的方法转换成历史数据,年 代久远的、 对数据分析不再有用的 需要从数 据仓库中删除。因此,可 以说数据仓库在一定时间间隔内是稳定的。 ( 4 ) 随时间而变化 ( t i m e v a r i a n t ):数据仓库的不可更新是针对应用而言的, 即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据库到被 删除 就永远不变。数据仓库中的数据是随时间的变化不断变化的,即数据仓库内的 信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时 点到目 前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出 定量分析和预测。数据仓库中的数据周期要远远长于操作型系统中的数据周期,操 作型数据库中的时间周期一般为 6 0 9 0天,而数据仓库中数据的时间周期通常是 5 - 1 0年。数据仓库中包含不同时期的 数据集合,故数据仓库中的数据既要标明该 数据的历史时期,也要随时间变化不断增加有潜在价值的新数据,同时删去已无价 值的旧数据.关于数据仓库的结构和维护信息都保存在数据仓库的元数据 ( me t a d a t a )中,数据仓库维护工作由系统根据其中的定义 自 动进行或由系统管理 员定期维护,用户不必关心有关的细节。 一一一一一一一一一一一一生鲤 t 大 * r 士 学 位 论 文二 2 . 2 . 2数据仓库和传统数据库的比较 为了更好地理解数据仓库的概念,在此分析一下数据仓库和传统数据库之间的 差别与联系。 传统数据库是面向具体问题的,数据来源分散、系统环境分散:数据 仓库面向主题、面向决策。数据仓库是基于数据库建立起来的,但它不同于以往的 数据库,主要区别如下: ( 1 )设计目的:数据仓库是为了让领导阶层更好地了解系统事件的 趋势,以便 做出决策而设计;数据仓库系统是为了让业务人员更好地管理业务事件而设计的。 ( 2 )用户对象:数据仓库的用户对象是企业的分析者、决策者和管理者; 数据 库的用户绝大多数是企业的业务处理人员。 ( 3 )数据存储:数据仓库存储精炼的、集成的和多维的数据, 存储机制适合查 询、分析和决策;数据库系统存储当前的、 详细的和纯二维的关系数据,存储机制 适合于业务操作。 ( 4 ) 性能:数据仓库对速度要求不是很高,但对查询、分析和预测方面的性能 要求较高; 数据库系统对系统和应用程序的实施响应速度要求比较高, 但对查询、 分析和预测方面的性能要求不高。 传统的关系数据库( r d b ) 遵循一致的关系模型,其中的数据 ( 记录)以表格的 方式存储,并且能用统一的s q l 语言进行数据访问,因此它的应用常被称为联机事 务 处 理 ( o l t p o n lin e t r a n s a c ti o n p r o c e s s ) 。 其 重点 在于 完 成事 务处 理, 在瞬 间 的时 间里给与 用户响应。 数据仓库技术主要操作对象是多维数据,因此也称为多维数据库。 其数据以阵 列方式存储,既没有统一的规律可循,也没有统一的多维模型可遵循, 更没有统一 的存储数据语言或编程语言接口( a p i ) 可利用,只能按其所属类别进行归类。对应 用而言,多维数据库具备极强的查询能力,但由于其完成的是一种联机分析处理 ( o l a p o n l i n e a n a l y t i c a l p r o c e s s i n g ),因此不追求瞬时响应时间。实际上, o l a p 包含交互式数据查询, 伴随着多种分析方法, 因此数据仓库中的信息尽管是多维的, 它仍然可以用形象化的表格表示。 虽然具有以 上区别,但数据仓库与 传统的数据库又是有联系的。数据仓库大多 是以数据库为基础建立的,数据库是数据仓库的数据源。数据仓库不是大量业务数 据的简单堆砌, 而是把大量业务数据进行相应的清晰、 整理、转换、集成、 综合之 后形成的一种不同于传统数据库的数据库技术。数据仓库中存储了 大量概括性、总 结性的数据,大量的业务数据 ( 细节数据) 存储于原有数据库系统中。 2 . 2 . 3数据挖掘(d m ) 与数据仓库( d w) 的关系 数据仓库是数据挖掘能有效连续进行的条件之一 1 2 , 在数据挖掘循环过程中, 数 一一一一一一一一一一一 * l e 些逆* t 据仓库是一个重要的组成部分,但数据仓库并不是进行数据挖掘的必要条件, 例如 现在有很多数据挖掘工具就是独立于数据仓库之外的, 它们可以独立地输入输出数 据, 以及进行相对独立的数据分析。 然而,为了 最大限度的发挥数据挖掘工具的潜 力, 它们应该像很多商业分析软件一样, 紧密地和数据仓库集成起来, 与数据仓库协 同工作。这样,在人们对参数和分析深度进行变化的时候, 高集成度就能大大简化 数据挖掘过程, 从而大大提高数据挖掘的工作效率。 应用数据挖掘技术, 较为理想的 起点就是从一个数据仓库开始。另一方面, 数据 仓库环境也少不了数据挖掘, 数据 挖掘在数据仓库环境中发挥着重要作用, 不用来进行处理分析的数据存储是毫无用 处的。所以说,数据挖掘和数据仓库这两种技术是相辅相成的,这主要表现在以下 几个方面: ( 1 )数据挖掘中有了大量数据才能发挥作用,数据越具体越好,数据仓库能提 供丰富的数据; ( 2 )数据挖掘只有使用了 千净和一致的数据才能得出有益的结果: ( 3 )数据仓库环境能够对假设进行测试,简化了测评行动效果的工作,使数据 挖掘的循环能够进行下去: ( 4 )数据仓库用到的硬件和关系数据库软件也可以用来支持数据挖掘技术,这 使 得 在这 两项 技 术上的 投 资事 半 加 倍. 数据仓库是用于存储从业务数据库整合而来的数据,特别是来自在线事务处理 系统 ( o l t p ) 中的 数据, 其重点是将这些业务数据转换成有用的策略性信息: 而从 数据仓库中挖掘出有用的数据和知识,则是数据挖掘 ( d m)的重点。二者的 本质 和过程是不同的,先建立数据仓库, 然后才能进行有效的数据挖掘。因此, 可以说 数据挖掘是从数据仓库中找出有 用信息的一种过程和技术。 2 . 2 . 4数据的预处理方法25 . 18 1 数据仓库的 数据有来自 于原来分散的各个业务系统,还有新增的涉外数据,但 它们都不是原有数据的简单拷贝,因为它们都具有一定的杂乱性. 造成杂乱性的原 因很多,可能是记录数据的设备出 现错误,也可能是人或计算机出 现错误,如测量 或记录错误,还可能是传输过程出 现错误等等。因此,数据在进入数据库之前,要 对原始数据进行预处理。大多数数据挖掘应用中,数据预处理过程的某些部分,有 些甚至是整个预备过程,可以独立的描述为一个应用和一个数据挖掘方法。 数据预 处理主要是接受并理解用户的挖掘要求,确定挖掘任务,抽取与挖掘任务相关的数 据源,根据领域知识中的约束规则对数据进行合法性检查,通过清理和归约操作, 生成挖掘算法所需要的目 标数据。数据预处理一般主要有以下几种方法: ( 1 ) 数据清理:数据清理是要去除源数据集中的噪声数据和无关数据,处理遗 华北电 力大学硕 士学位论文 漏数据和清洗脏数据,考虑时间 顺序和数据变化等。主要包括噪声数据处理和缺值 数据处理,并完成一些数据类型的转换。 处 理 空 缺值可以 有以 下几 种 方法: 1 . 忽 略 元 组; 2 一 人工 填写空 缺 值: 知 识用 于 数据量不大的情况;3 . 使用一个全局常量填充空缺值: 4 . 使用属性的平均值填充: 5 . 使用与给定元组属同一类的所有样本的平均值:6 . 使用最可能的值填充空缺值: 可使用回归、基于推导的使用贝叶斯形式化方法的工具和判定树归纳确定。 噪声是一个测量变量中的随机错误或偏差。 数据噪声 ( 具有不正确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论