(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf_第1页
(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf_第2页
(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf_第3页
(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf_第4页
(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(电力系统及其自动化专业论文)电力系统设备缺陷预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 a b s t r a c t d e f e c tm a n a g e m e n to fe l e c t r i c e q u i p m e n t sp l a y s a ni m p o r t a n tr o l ei n e l e c t r i cp r o d u c t i o n u s i n gf o r e c a s t i n gt e c h n i q u e s ,w ec a ng e tf o r e c a s t i n gv a l u e so ff u t u r e i n f o r m a t i o nb yp r o c e s s i n gh i s t o r yd a t a b ya n a l y z i n gt h ec u r r e n ta n dh i s t o r y d e f e c td a t ao fe l e c t r i c e q u i p m e n t s ,w ec a np r e d i c tt h eo c c u r r e n c eo ff u t u r e d e f e c t ,s ot h es e r v i c eu n i t sc a nm a k e p r e p a r a t i o ni na d v a n c e d e f e c tf o r e c a s to fe l e c t r i ce q u i p m e n t si sav e r yd i f f i c u l tw o r k ,t h e r ea r ea l o to fc a u s er e l a t e dw i t ht h eo c c u r r e n c eo fd e f e c t a n dn o wf e wh a sb e e nd o n e a l lo v e rt h ec o u n t r y t h i s p a p e rm a i n l ym a k e s r e s e a r c h e so nt h i sf i e l d i nt h i sp a p e r ,a s c o n s i d e r i n gd e c i s i o ns u p p o r ts y s t e m ( d s s ) o f t h ee l e c t r i c n e t w o r ka st h e w o r k p l a t f o r m o fd e f e c tf o r e c a s t ,t h i s p a p e rd o e s s o m e r e s e a r c h e so nd s s t h e na n a l y z e so nd e f e c td a t ai sm a d e t h i sp a p e rp r o p o s e sad e f e c tf o r e c a s tm e t h o dw h i c hi sb a s e do nt i m e s e r i e s a n a l y s i s i t i s s i m p l ea n dc a np r e d i c tt h eo c c u r r e n c eo ft h ed e f e c t a c c u r a t e l y t h i sm e t h o dh a sa l s ob e e np r o v e di nt h et e s tc a s eo ff o r e c a s t i n g s w i t c hd e f e c to fo n em o d e lo fo n e c o m p a n y k e y w o r d s :d e f e c tf o r e c a s t i n g 、d a t am i n i n g 、t i m es e r i e sa n a l y s i s 3 浙江大学硕士学位论文 第一章绪论 1 1 电网运行分析决策支持系统 1 1 1 业务智能系统 正确、及时的决策是企业生存与发展的重要环节。随着信息技术 的飞速发展,为数众多、规模庞大而类型不一的业务系统在企业相继 投入使用,随之而来产生了大量的电子数据,但恰恰是这些数据从各 方面、各层次和各环节详细和深入地描述了系统在各种条件和情况下 的属性,展现在运行人员和决策者面前的已不仅仅是局限于本部门、 本单位和本行业的庞大数据库,而是浩瀚无埂的信息海洋。如何充分 利用现有数据,将其转化为管理所需的信息,从中发掘知识,支持企 业决策,已成了各个企业面临的迫切课题,参见图卜1 。 图i - 1 知识的层次 在信息技术领域,业务智能系统( b u s i n e s s i n t e l l i g e n c e ,简 称b i ) 应运而生,它由业务数据库系统、决策支持系统等部分构成。 决策支持系统( d e c is ior ls u p p o r ts y s t e m ,简称d s s ) 采用数据仓 库( d a t aw a r e h o us e ,简称d w ) 构建汇总数据的基础,进而支持联 机分析处理( o n l i n ea n a l y t ic a lp r o c e ss i n g ,简称o l a p ) 、数据 4 浙江大学硕士学位论文 发掘( d a t am i n i n g ,简称d m ) 等当今尖端技术以及传统的查询及报 表功能,实现企业的决策分析。 一般地,业务智能系统体系结构如图卜2 所示,其中第一个主体 是模型库系统和数据库系统的结合,是决策支持的基础,为决策问题 提供定量分析( 模型计算) 的辅助决策信息;第二个主体是数据仓库、 o l a p ,它从数据仓库中提取综合数据和信息,这些数据和信息反映了 大量数据的内在本质:第三个主体是专家系统和数据挖掘的结合,数 据挖掘从数据库和数据仓库中挖掘知识,并将其放入专家系统的知识 库中,通过知识推理的专家系统达到定性分析辅助决策。 图1 2 业务智能系统体系结构 1 1 2电网运行分析决策支持系统建设 ! 。一一一 决策信息 知识信息 l t :辈j 数据库管理系统 竺塑垒要_ i 1 1 2 1 建设目标 在全局数据中心集中存储和管理经过清洗、抽取后的设备台帐数 据、运行管理数据、在线监测数据、试验数据、s c a d a e m s 数据以及 浙江大学硕士学位论文 通过其它途径传递过来的各种有用信息。在数据集中的基础上,采用 数据仓库( d w ) 、联机事务分析( o l a p ) 和数据挖掘( d m ) 等技术对 实时数据和历史数据进行分析和挖掘,提出有益于缺陷预测、故障诊 断、设备检修、电能质量改善等方面的决策建议。该系统不仅能够对 企业目前能够采集的数据进行挖掘,还能根据辅助决策的要求对新信 息的补充提出要求,使决策系统的数据信息更加准确、及时、全面和 详实,提升对系统真实反映的水平,使企业领导层对生产、经营的决 策依据更充分、更合理、更科学。 1 1 2 2 建设思路 建立一个高性能、稳定可靠,具有开放性、可扩展性的企业级数 据中心 建立一个满足企业在高速发展过程中对数据共享的要求先进的技 术平台 建立一个业务数据分析平台 通过对系统中的各种数据进行整合,建立关联性的数据模型用于 分析模拟和预测加工,采用o l a p ( o n l i n ea n a l y s i sp r o c e s s i n g ) 的方式进行进一步的处理和数据挖掘,生成各类报告;分析各数据指 标间的关联关系,从中可以反映企业生产经营目前状况,同时也对未 来业务计划的调整起到指导作用。 基于数据仓库和o l a p 技术,建立以电网运行为主题的数据仓库 数据集市,借助于前端的展现工具,实现数据仓库的动态报表和即时 查询、o l a p 数据分析以及数据挖掘的应用,为用户提供任意数据子 集的多维报表和可视化分析,构成一个强大的业务分析支持平台。 建立一个领导决策支持平台 依据数据分析所提供的有预见性的分析报告,企业决策者可以将 在业务过程中所学到的知识加以总结利用,对业务生产和市场策略等 做出调整,以寻求最佳的符合市场需求和发展的途径,使业务运作更 适应市场发展的要求。 6 塑垩查兰堡主兰垡丝奎 1 1 2 3 系统构架 硬件构架,见图1 3 。 图1 - 3 电网运行分析决策支持系统硬件构架图 软件构架,见图1 4 。 图1 - 4 电网运行分析决策支持系统软件构架图 7 浙江大学硕士学位论文 1 2 2 4 研究主题 根据电网运行分析决策支持系统建设目标,其研究主题包括:缺 陷预测、故障诊断、线路运行分析、状态检修、电压无功优化等内容。 本文着重对缺陷预测进行研究。 1 2 电力系统设备缺陷预测 1 2 1 目的和意义 预测技术是通过对已有的历史信息的处理,得到未来信息的预测 值。目前,预测技术已广泛应用于气象、机械等领域,在应用于电力 系统负荷预测、电价预测等方面也积累了许多成功经验。 电力系统设备缺陷预测是把预测技术应用于电力系统运行检修 工作中,通过对线路和站内运行设备的当前和历史缺陷数据的分析, 对未来可能发生的缺陷做出预测判断,从而做好缺陷处理的人力、备 品备件准备,以提高设备管理部门对缺陷处理的快速反应能力,减小 故障发生时由于检修准备不充分而造成的停电损失。 1 2 2 缺陷预测的可行性 预测的准确性是衡量电力系统缺陷预测工作成败的关键,预测的 准确性主要取决于三方面的因素:历史数据的准确性与完备性和适当 的预测方法。电力系统缺陷预测的可行性在于: 1 、电力部门已投运多年的生产管理信息系统、调度管理信息系 统等为数据的积累和利用创造了条件,总体来讲,目前电力部门主要 设备缺陷的历史数据是丰富的,并将随着时间的推移、积累的增加而 越来越丰富。 2 、电力部门专业人员经过专业培训且责任感较强,运行管理部 门一般有一套完整的监控制度,设备的历史缺陷有详细的记录,因而 数据的准确性有一定的保障。 3 、目前常规预测技术已比较成熟,新的预测技术发展得也很快, 给设备缺陷预测工作带来了很广阔的选择空间。 浙江大学硕士学位论文 1 2 3 缺陷预测对象的选择 综合考虑设备运行检修管理、历史数据积累等因素,初期应先选 择主变压器、开关和线路等少数主设备作为缺陷预测对象开展工作, 待积累经验和补充数据后再逐步推开。 1 2 4 缺陷预测方法的选择 预测方法有很多,典型的有:回归分析法、时间序列法、模式识 别法、专家系统法、人工神经网络法等,它们各有其优缺点。由于影 响电力系统设备缺陷发生的因素错综复杂,而且其规律往往是未知 的,开展缺陷预测比较困难,初期采用时间序列法,用时间综合代替 这些因素,应该是较为合理的选择。 1 3 本文所用的方法和组织结构 1 3 1本文所用的方法 电力系统设备缺陷管理是电力系统生产运行检修工作的重要内 容,电力系统设备缺陷预测是运用预测技术对线路和站内运行设备的 当前和历史缺陷数据进行分析,对未来可能发生的缺陷做出预测判 断,促进电力系统运行检修工作。但由于影响电力系统设备缺陷发生 的因素错综复杂,而且其规律往往是未知的,开展电力系统设备缺陷 预测难度很大,因此目前国内外对此开展的工作还不多。 本文所做的很多工作都是参考和利用了前人的研究成果,主要的 创新和改进之处有以下几点: 1 、把设备缺陷预测作为电网运行分析决策支持系统建设的重要 内容,把电网运行分析决策支持系统作为开展设备缺陷预测的工作平 台。对以业务智能系统为基础的电网运行分析决策支持系统建设有关 技术问题进行了着重研究,提出了基于电网运行分析决策支持系统的 电力设备历史缺陷数据整理分析方法,并用实际算例表明了该办法的 有效性。 2 、综合考虑影响设备缺陷发生的各种因素,提出了一种基于时 间序列法的电力系统设备缺陷预测方法,该方法简单、方便,能够较 9 浙江大学硕士学位论文 为准确地预测设备缺陷预测的发生。本文用实际算例表明了该办法的 有效性。 1 3 2 本文的组织结构 第一章介绍了业务智能系统体系结构,电网运行分析决策支持系 统建设目标思路、系统构架和研究主题,明确了开展电力系统设备缺 陷预测的目的和意义,分析了可行性,并对预测对象和预测方法的选 择进行了探讨。 第二章概要地介绍了业务智能系统广泛使用的数据仓库技术、联 机分析处理技术和数据挖掘技术,分析了技术特点,并对典型产品作 了简要介绍。 第三章介绍了数据统计整理分析方法,以某单位主要开关设备缺 陷数据为例进行了统计整理分析和图示。 第四章详细介绍了时间序列概念,对时间序列构成因素进行了分 析,并介绍了相应的测定方法,在此基础上提出了时间序列预测法。 最后利用时间序列预测法对某单位某型开关设备缺陷情况进行了分 析预测。 第五章是本文的总结,并对缺陷预测的发展做了一些展望。 1 0 浙江大学硕士学位论文 第二章数据仓库、联机分析处理 和数据挖掘技术概述 数据仓库( d w ) 、联机分析处理( o l a p ) 和数据挖掘( d m ) 是3 种主要的业务智能信息处理技术。d w 用于数据的存储和组织;o l a p 集中于数据的分析;d m 则致力于知识的自动发现。它们可以分别应 用,以提高相应部分的处理能力。在现代的决策支持系统解决方案中 综合d w 技术、o l a p 技术和d m 技术是最有前途的选择,体系结构如 图2 1 所示。 图2 1 综合d w 技术、0 l a p 技术和d m 技术的体系架构 各个业务数据库的数据通过提取、清理、装载和刷新后按照不同 的主题存放在数据仓库中,原先存放在各个业务系统中的反映企业局 部情况的数据经过整理后转换成反映企业整体情况的信息,这样就完 成了从“数据一信息”的转变。 浙江大学硕士学位论文 存放在数据仓库中的信息通过o l a p 和d m 处理后,形成带有规律 性的能够对企业运营提供指导意义的知识,从而完成从“信息一知识” 的转变。企业的决策层可以利用o l a p 和d m 处理得到的知识制定相应 的策略,并反馈到业务系统中,最终改善企业的运营。 作为商业智能系统中的核心部分,决策支持系统必须具备企业级 的多维信息查询、o l a p 在线分析处理、数据挖掘等功能。 2 1 数据仓库技术 2 1 1 数据仓库定义 w h i l m o n 将数据仓库明确定义如下。“数据仓库是面向主题的、 集成的、稳定的、随时间变化的数据集合,用来支持经营管理中的决 策制定过程。” 数据仓库是数据库技术的一种新的应用。传统数据库主要用于日 常事务处理工作,存放在数据库中的数据基本符合操作型数据的特 点;建立数据仓库并不是要取代事务处理数据库,其目的是对企业内、 外部数据进行有效集成,提供给企业各层决策者使用,存放在数据仓 库中的数据基本符合分析型数据的特点。而且到目前为止,数据仓库 还是用关系数据库管理系统来管理其中的数据。数据仓库弥补了原有 的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一 种新环境:体系化环境。如图2 2 所示: 图2 - 2 数据仓库体系化环境 浙江火学硕士学位论文 表2 - 1 操作型数据和分析型数据的分析 操作性数据的特点 分析型数据的特点 细节的综合的、经过提炼的 在存取的瞬间是准确的代表过去的数据 可更新 不更新 操作需求通常事先可知分析需求通常事先不知道 生命周期符合s d l c生命周期不同于s d l c 对性能( 如操作时延) 要求高对性能要求较宽 一个时刻操作一个数据单元 一个时刻操作一个数据集合 事务驱动分析驱动 面向应用 面向分析 一次操作数据量小一次操作数据量大 支持日常操作需求支持管理需求 2 1 2 数据仓库的几个重要概念 e t l ( e x t r a c t t r a n s f o r m a t i o n l o a d ) :数据装载、转换、抽取工 具。 元数据:关于数据的数据,用于构造、维持、管理和使用数据仓 库,在数据仓库中尤为重要。 维:数据仓库用多维数据库结构建模。其中,每一维对应模式中 的一个或一组属性。 数据立方体:也称多维数据集。它 是一个包含用户需要观察数据的集 合体。立方体作为基本事务的聚合, 是一种适合进行查询的完整的数据 结构。见图2 - 3 。 图2 3 数据立方体 浙江大学硕士学位论文 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度越小。 分割:数据分散到各自的物理单元中去,它们能独立地处理。 2 1 2 数据仓库特点 数据仓库具有以下4 个不同于一般操作型数据库的特点: ( i ) 面向主题数据仓库中的数据是面向主题的,主题是在较 高层次上将数据综合、归类并进行分析利用的抽象,在逻辑意义上, 它对应于企业针对某一宏观分析领域所设计的分析对象。数据仓库主 要是基于关系数据库来实现的,主题的表和视图的内容本质上与各运 行系统数据源的数据一致。为了便于对数据进行分析和处理,需对数 据结构进行重组。 ( 2 ) 集成的数据数据仓库是从分散的子系统中提取数据进行 统一和综合。数据仓库主题对应的源数据在分散数据库中有许多重复 或不一致的地方,数据仓库要通过对数据进行综合、计算、抛弃、增 加,将其转换成全局统一的定义,解决多数据源和数据一致性问题。 ( 3 ) 数据相对稳定数据仓库中的数据反映的是一段相当长时 间内历史数据的内容,是不同时间数据库快照的集合及基于这些快照 进行统计、综合和重组的导出数据,不是简单的联机处理数据。数据 被放到数据仓库以后,最终用户一般只能通过分析工具进行查询、分 析,而不能修改其中存贮的数据。可以说数据仓库在一定时间间隔内 是稳定的。 ( 4 ) 数据随时间不断变化数据仓库存贮的是企业的历史数据, 当前数据要定期性地转换成历史数据,在更高的层次上不断综合,陈 旧、查询率低的数据要从数据仓库脱离,转存到廉价慢速设备上,对 分析处理不再有用的数据要从数据仓库中删除。 数据集市( d a t am a r t ) 是一种更小、更集中的数据仓库,是企 业分析商业数据的廉价途径。它具有特定应用目的,主要针对某个具 有战略意义的应用或具体部门级的应用。它支持客户利用已有的数据 获得重要的竞争优势或找到进入新市场的解决方案。 1 4 浙江大学硕士学位论文 2 1 3 数据仓库逻辑体系结构 图2 4 数据仓库逻辑体系结构 数据仓库逻辑体系结构如图2 4 所示,可以表述为四个层次: 数据集中层 数据集中平台实现的是数据集中层的业务,负责将现有的业务系 统的数据经过抽取、清洗、上传、汇总并加载到数据中心。 数据存储层数据分析 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理 方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据 表现形式。数据存储层存放由源数据抽取而按主题归类的分析数据, 数据的组织形式按星型结构。 数据展现层 数据表现是数据仓库的门面,主要集中在多维分析、数理统计和 数据挖掘方面,为最终用户提供联机分析和动态报表处理功能,并以 丰富的界面以及灵活的定义方式为数据的展现提供支持。 运维管理层 提供用户权限管理、系统维护和开发环境管理。 浙江大学硕士学位论文 2 2 联机分析处理技术 数据仓库是一种管理决策分析的基础。若要有效地利用数据仓库 的信息资源,须有能对数据仓库中的信息进行分析决策的强大工具。 o l a p 就是一种得到广泛应用的专门用于支持复杂的决策分析的数据 仓库使用技术。它可以根据信息管理、业务管理等分析人员的要求, 迅速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理 解的形式将查询结果提供给各种决策人员使用。 2 2 1 o l a p 的发展 联机分析处理技术( o l a p ) 的概念最早是由关系数据库之父 e f t o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对大数据库进行 的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系 数据库进行大量计算才能得到结果,而简单查询的结果并不能满足决 策者提出的需求。因此c o d d 提出了多维数据库和多维分析的概念, 即o l a p 。这一类技术也就与o l t p 有了完全的区分,见表2 2 。 表2 - 2o l a p 与o l t p 的区别 0 l a po l t p 经过清洗、转化后的数据 业务系统中的数据 综合性数据细节数据 历史数据 当前瞬间数据 不更新,定期追加可进行联机更新 一次处理的数据量大 一次处理的数据量较小 面向分析,分析驱动面向业务应用,事务驱动 面向决策人员,支持中高层管理面向操作人员,支持日常事务处理 浙江大学硕士学位论文 2 2 2o l a p 定义 定义1 :o l a p ( 联机分析处理) 是针对特定问题的联机数据访问 和分析。通过对信息( 维数据) 的多种可能的观察形式进行快速、稳定 一致和交互性的存取,允许管理决策人员对数据进行深入观察。 定义2 :o l a p ( 联机分析处理) 是使分析人员、管理人员或执行 人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所 理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解的一类软件技术。( o l a p 委员会的定 义) 。 o l a p 技术主要有两个特点:一是在线性( o n l i n e ) ,表现为对 用户请求的快速响应和交互式操作,它的实现是由客户机服务器体 系结构完成的;二是多维分析( m u l t i a n a l y s is ) ,这也是o l a p 技术 的核心所在。o l a p 的目标是满足决策支持或多维环境特定的查询和 报表需求,o l a p 也可以说是多维数据分析工具的集合。 图2 5 联机分析数据处理示意图 如图2 5 所示,o l a p 的多维分析是将数据想象成多维的数据立 方体,用户的查询相当于在其中的部分维( 棱) 上施加条件,对数据立 方体用切片、切块、聚集、钻取、旋转等方式进行分析,使用户从多 个角度、多个侧面去观察数据仓库中的数据,得到的结果是数值的矩 阵或向量,可将其制成图表展现或输入数理统计的算法。o l a p 的展 浙江大学硕士学位论文 现方式很多,主要有多维报表和图形方式两类,图形方式包括饼图、 柱状图、等高线图、立体曲线图等。 2 2 3o l a p 的12 准则 1 、 透明性准则 2 、存取能力准则 3 、稳定的报表性能 4 、动态稀疏矩阵处理准则 5 、 客户机服务器体系结构 6 、多用户支持能力准则 7 、多维概念视图 8 、维的等同性准则 9 、不受限的跨维操作 1 0 、不受限的维与聚集层次 1 i 、直观的数据处理 1 2 、灵活的报表生成 2 2 4o l a p 的种类及比较 o l a p 的种类主要有如下四种: 1 、d o l a p ( d e s k t o po l a p ) :将o l a p 分析要用到的数据,传输 并存储到用户的客户端,这样用户的访问将不受网络瓶颈的制约,但 操作的安全性和数据的安全性难以保障,并且存在管理性和维护性的 问题。 2 、m o l a p ( m u l t i d i m e n s i 0 1 1o l a p ) :将按照主题定义的o l a p 分 析所要的数据,生成并存储成多维数据库,形成“超立方体”的结构, 生成的多维立方体已经计算生成了一些汇总值。这样用户响应的时间 快,但数据的存储空间增大。 3 、r o l a p :以关系型结构进行多维数据的表示和存储,而不生成 多维立方体,只是存储数据模型与数据仓库数据之间的映射关系,真 正的关系物理存储在数据仓库,进行实时分析。这样增加了对用户的 响应时间,但数据只存储在一次,相对m o l a p ,节省了空间。 浙江大学硕士学位论文 4 、h o l a p :m o l a p ,r o l a p 各自存在不同的优缺点,h o l a p 在它 们中间提出了折中的解决方案。根据对用户经常用到的维度和测量值 的分析,将它们生成多维数据库,而与这些维度和测量值相关的详细 数据,仍然以关系型数据的形式保存在数据仓库中,这样既解决了 o l a p 的速度问题、存储问题、也解决了对详细数据的分析问题。 d o l a p 属于前台o l a p ;r o l a p ,m o l a p ,h o l a p 属于后台o l a p ,其 区别在于r o l a p 将数据存放于关系型数据库之中,而g o l a p 存放于文 件之中,r o l a p 比m o l a p 支持的数据量要大,h o l a p 属于两种结合。 目前d o l a p 技术的发展不但延续了其原有的灵活性、易于开发性和易 管理性的优势,同时通过支持象s s l 等各种加密技术解决了文件存放 于客户端所带来的安全问题;后台o l a p 的优势在于其大数据量下的 查询速度,但是后台o l a p 无法避免维度和层次的预先设定,在提高 查询响应速度的同时降低了灵活性。前台o l a p 在最大限度的保证灵 活性的同时,还依靠后台的主机和数据库性能,以及预建关系型汇总 表来保证性能,现在这种方式比较先进一些。 2 2 5o l a p 的局限性 o l a p 具有很强的功能,它能够将多维数据按照任意的维度路径, 以直观的方式展现给数据分析员。但是,o l a p 也有局限性,它只将 事实进行罗列,系统的复杂性导致用户很难从大量的事实中发现最重 要的因素。 2 2 6 o l a p 典型产品介绍一b r i0 产品 b r i 0 公司的产品是目前数据仓库解决方案中最常用的数据展现 工具,它属于前端工具范畴,主要通过为主流商业用户提供访问数据 库和数据仓库中的信息决策支持方案而立足业界,目前已经从初级的 工作组晋级到企业级。b r i 0 产品的特点是: b r i 0 产品提供查询、o l a p 分析和报告的功能,支持多种语言,包 括中文。 不需要额外语义层,开放的元数据解释器直接读取已有的元数据。 1 9 浙江大学硕士学位论文 支持对主流厂商关系型、多维和操作数据库的查询。直接支持: o r a c le ,d b 2 ,e s s b a s e ,r e db r ic k ,m ss q ls e r v e r 和m sa n a l y s is s e r v i c e s ,本地数据库接口优化了性能。 支持预定义路径和随意钻取,进行精密查询及分析工作,可撷取 企业现有信息系统的资料,为高层主管、报表分析人员、程序开 发人员及员工提供查询及分析。 支持i n t e r n e t i n t r a n e t ,可以通过w w w 进行查询、报表和分析 决策。 可展示图表、曲线图、图片和条状编码,可通过拖放数据列、表 达式、函数、图表和图片快速高效地制作报表。作为企业级报表 解决方案,从简单的趋势摘要到关键性的分析,能以较好的性能 产出符合演示文稿品质的报表,将大量的信息如困难的资料取得、 报表处理及复杂的版面设计等转为灵活的绩效工具 最佳的数据展示解决方案,见图2 - 6 。 图2 - 6b r i o 产品的数据展示解决方案 浙江大学硕士学位论文 2 3 数据挖掘技术 2 3 1从数据库中发现知识与数据挖掘 图2 7 从数据库中发现知识过程 从数据库中发现知识( k n o w l e d g ed is c o v e r yi nd a t a b a s e ,缩 写为k d d ) 是近年来国际上较为活跃的研究领域,也是人工智能与数 据库技术相结合的产物。数据挖掘是k d d 过程的核心,它应用一些专 门算法从数据中抽取出有效的模式,能从大量数据中发现潜在规律, 2 l 浙江大学硕士学位论文 以提取有用知识。k d d 过程包括数据清理、数据集成、数据选择、数 据转换、数据挖掘、模式评估、知识表示等步骤,各个步骤之间相互 影响,反复调整,形成螺旋式的上升过程,如图2 7 所示。 数据清理消除噪声或不一致数据: 数据集成将多文件或多数据库运行环境中的数据进行合并 处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等; 数据选择根据用户要求,利用一些数据库操作对数据进行 处理,从数据库中提取出需要挖掘的数据集合; 数据转换进行离散值数据与连续值数据之间的相互转换, 数据值的分组分类,数据项之间的计算组合等操作。 数据挖掘基本步骤,运用选定的数据挖掘方法,从数据中 提取用户需要的知识。 模式评估根据最终用户的决策目的对提取的知识进行分 析,把最有价值的信息区分出来。 知识表示把知识以能被人理解的方式表达出来,提交给用 户。 表2 - 3数据挖掘工具与传统数据分析工具的比较 传统数据分析工具数据挖掘工具 工具特点回顾型的、验证型的预测型的、发现型的 分析重点已经发生了什么 预测未来情况、解释发生原因 分析目的从最近的销售文件中找锁定未来的可能客户,以减少未 出最大客户来的销售成本 数据集大数据维、维中属性数、维数据维、维中属性数、维中数据 中数据均最小均是庞大的 自动方式 企业管理人员、系统分析数据与系统启动,少量人员指导 员、管理顾问启动与控制 技术状况成熟统计分析工具已经成熟,其他工 具正在发展中 浙江大学硕士学位论文 2 3 2 数据挖掘定义 数据挖掘是从大量不完全的、有噪声的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识,并将其表示成最终能被人理解的模式的高级过程。这 个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发 现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用; 发现的知识支持特定的被发现的问题。数据挖掘工具与传统数据分析 工具的比较见表2 3 。 2 3 3 数据挖掘与数据仓库、o l a p 的关系 数据挖掘成功的关键是要访问正确、完整和集成的数据,在此基 础上才能进行深层次的分析,寻求有益的信息。而这正是数据仓库、 o l a p 所能够提供的,数据仓库是集成数据的一种最好方式,o l a p 则 为数据挖掘提供了一个极佳的操作平台。数据挖掘与数据仓库、o l a p 紧密联系在一起,将取得意外的成功。 与数据仓库、o l a p 结合可以使数据挖掘免除数据准备的繁杂 过程。 数据仓库、o l a p 可以提供数据挖掘过程所需要的数据处理和 分析工具。 数据仓库、o l a p 可以为数据挖掘提供数据下钻、上卷、旋转、 切块、切片等数据操作支持,同时o l a p 的可视化功能还可以 为数据挖掘过程和挖掘结果提供良好的操作平台。 三者结合,可以增强数据挖掘的联机挖掘功能。 2 3 4 数据挖掘体系结构 数据挖掘系统可以大致分为3 层结构,如图2 8 所示。第一层是 数据源,包括数据库和数据仓库。数据挖掘不一定要建立在数据仓库 的基础上,但如果数据挖掘与数据仓库协同工作,将大大提高数据挖 掘的效率;第二层是数据挖掘工具,利用数据挖掘方法分析数据库中 数据,包括关联分析、时间序列模式分析、分类分析、聚类分析等; 浙江大学硕士学位论文 第三层是用户界面,使获取的信息以便于用户于是解和观察的方式反 映给用户,可以使用可视化工具。知识库存放专业领域知识,用于指 导数据准备或数据挖掘结果的评估。 数据仓库数据库其他数据仓j 章 图2 - 8 数据挖掘体系结构 2 3 5 数据挖掘模式 分类模式对己知类别的个体进行归纳,提取出能代表群体 的特征属性。 回归模式用所分析对象属性的历史数据预测未来趋势。 时间序列模式根据数据随时间变化的趋势预测将来值,其 中要考虑时间的特殊性。 聚类模式把数据划分到不同的组中,组之间的差别尽可能 大,组内的差别尽可能小。其应用不需要太多的先验知识。 浙江大学硕士学位论文 关联模式描述事物之间的依赖或关联关系。 序列模式把数据之间的关联性与时间联系起来,发现的规 则也与时间有关。 在解决实际问题时,经常要同时使用多种模式。 2 3 6 数据挖掘主要算法 数据挖掘的许多方法来源于机器学习。机器学习、模式识别、人 工智能领域的常规技术,如统计、聚类、决策树等方法经过改进均可 用于数据挖掘,主要有:统计分析方法、决策树方法、神经网络方法、 覆盖正例和排斥反例方法、粗糙集方法、概念树方法、遗传算法、公 式发现、模糊集方法和可视化技术等。 2 3 7 常用数据挖掘工具介绍 2 3 7 1 数据挖掘工具的分类 按使用的技术可以分成统计分析类、知识发现类和其他类型的数 据挖掘技术三大类。统计分析类是数据挖掘技术中最成熟的一种,已 经得到广泛的应用,统计分析使用的数据挖掘模型有线性分析和非线 性分析、回归分析、时间序歹0 分析、聚类分析等。 按应用范围主要分为2 类:特定领域的数据挖掘工具和通用型的 数据挖掘工具。特定领域的数据挖掘工具针对某个特定领域的问题提 供解决方案,往往采用特殊性的算法,处理特殊的数据,实现特殊的 目的,发现知识的可靠程度也较高。通用型的数据挖掘工具不区分具 体数据的含义,采用通用的挖掘算法处理常见的数据类型,可以实现 多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用 需求来选择。 2 3 7 2 通用统计类数据挖掘工具- - s p s s s p s s ( s t a t is t ic a lp a c k a g ef o r t h es o c i a ls c ie t i c e ) 是世界上 最著名的统计分析软件之一,它集数据文件管理,统计数据的编辑、 处理、分析,统计分析报告生成、各类型统计图表生成以及统计编程 等诸多功能于一身,涵盖了统计学的所有常用的统计方法。目前,s p s s 浙江大学硕士学位论文 已经广泛应用于社会经济统计、工程技术、国防科技、管理科学、医 疗卫生以及教学科研等领域,是统计、计划、管理等部门实现科学管 理决策的有力工具。 图2 - 9s p s s 的主对话框 $ p s s 具有以下主要特点: 工作界面友好完善、布局合理、操作简便,大部分统计分析 过程可以借助鼠标,通过菜单命令的选择、对话框参数设置, 点击功能按钮来完成,不需要用户记忆大量的操作命令。菜 单分类合理,并且可以灵活编辑菜单以及设置工具栏。 具有完善的数据转换接口,可以方便地和w i n d o w s 其他应用 程序进行数据共享和交换。可以读取e x c e l 、f o x p r o 、l o tu s 浙江大学颅十学位论文 等电子表格和数据库软件产生的数据文件,可以读取a s c i i 数据文件。 提供强大的程序编辑能力和二次开发能力,方便高级用户完 成更为复杂的统计分析任务的需要,具有丰富的内部函数和 统计功能。 具有强大的统计图绘制和编辑功能,且增强了三维统计图的 绘制功能,图形更为美观大方,输出报告形式灵活、编辑方 便易行。 附带丰富的数据资料实例和完善的使用指南,为用户学习掌 握软件的使用方法提供更多的方便。软件启动后,用户可直 接上网访问s p s s 公司主页获得更多的帮助和信息。 浙江大学硕士学位论文 第三章数据统计整理分析 企业生产和经营活动的数据一般以原始记录的形式保存下来,但 原始数据有时需要先对其进行加工、整理,才能应用于分析。 3 1 数据审核与筛选 在对原始数据进行整理时,首先需要进行审核,以保证数据的质 量。数据审核主要是审核数据的完整性、准确性、适用性和时效性。 对审核中发现的错误应尽可能予以纠正,如果不能纠正,就需要对数 据进行筛选。数据筛选包括两方面内容:一是将某些不符合要求的数 据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛 选出来,而将不符合特定条件的数据予以剔除。 3 2 数据分类整理与图示 数据经过预处理后,可进一步做分类或分组整理。对分类数据和 顺序数据主要是做分类整理,对数值型数据主要是做分组整理。 3 2 1 分类数据整理与图示 分类数据本身就是对事物的一种分类,因此,在整理时除了列出 所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同 时选择适当的图形如饼图、条形图等进行显示,以便对数据及其特征 有一个初步的了解。频数是落在各个类别中的数据个数,把各个类别 及其相应的频数全部列出来就是频数分布,将频数分布用表格的形式 表现出来就是频数分布表。 3 2 2 数值型数据整理与图示 数值型数据在整理时通常是进行数据分组,分组后再计算出各组 中出现的次数或频数。分组方法有单变量分组和组距分组两种。单变 量分组只适合于离散变量,且在变量值较少的情况下使用。在连续变 旗衽大学硬圭学芷豫定 量或炎激值较多鼹憾搋下,遽常采用组蟊羼分组。数毽裂数握除了可以 用饼图、条形图等图示外,迸可以用直方阁、线圈等方式。 3 ,3 实铡 经窜核与筛选,巢单位2 0 0 0 年1 月2 0 0 2 年1 0 月阅主要开关 设备发生的缺麓情况如下表3 l 驻示; 表3 - 1 缺陷数据 l l| 设餐酸籀都融箔瓒缺麓籀往姣陷静饶 名称l 开掩型号健踩质强级缺赡赡原因澧缺愤况 莓2 电舞关按 容器z 辩i i - 1 0 究1 2辍动野耧圜黯激动开关璃 开关 5 0 - 3 1 5犬断线机械部分撩惫隧 l 开关镶 麓灯不疑据叛表嚣l 义亭亮,z g 商锈镀,引 l 4 8 6 开z n i i 1 0 t 1 2微渤开 不会党起分闸低电微勘开关调 ,c 5 0 - 3 1 5犬 电搬缓帮分紧急 ,驻藕满,睦 2 主 交b 相漓使 3 5 k v已处底枫约合闸 开关8 z n 2 3 a 一4 0 。s 舞关零嫠,低予瓣辏联| 抒魏瀣位已羚充 相1 6 0 0体下限渗漏油紧急藩正常 嚣4 电分阐线嚏换势阕线 容器z n 2 3 m 4 0 ,5 夔秘甥开关拉餮稻镪筷开 开关 1 6 0 0挨开关不牙箕惩 紧急甚娥瑾。7 ( 嚣l雯变 2 2 0 k v b 穗滴 裂辚鼓渗 方由油,c 相分 1 6 3 8开关本s f 6 低医 耀一级阕渗斡态s f 6 气 开关-l w l 4 - i t 0l 冀露援警漏气繁惫溪,邑楚臻。j僖 浙江大学硕士学位论文 开关手 车挂钩 不到位,1 # 电容器户 梅都引起机外头渗油处 3 6 4 2z n 2 3 3 5 1 6 0开关机械闭锁理,测试合 开关 o 一2 5构 不了。机械部分紧急格,可投运调整正常。 1 # 电容器开 关水平连杆 固定套脱 合闸接合闸接落,已处理, 露源z n 2 8 - 1 0 1 2 5触器线 触器线正常,可投更换合闸接 1 0 1 6o 一3 1 5 圈圈烧坏其他紧急 互。触器线圈 1 # 主变 1 1 0 k v 开关 棉纺机构压缩机 1 0 1 开z n 2 8 1 0 1 2 5合闸线 开关合批大皮带断更换合闸线 大o 一3 1 5圈不上其他紧急裂 圈 下面对上述缺陷数据用b r i 0i 具进行整理和图示。 3 0 浙江大学硕士学位论文 3 3 1 一元统计整理分析 首先对缺陷的属性如:缺陷等级、缺陷开关型号、缺陷部位、缺 陷性质和消缺情况分别进行一元统计整理分析,结果如下。 3 3 1 1 缺陷等级频数和百分比 表3 - 2 缺陷等级频数和百分比 缺陷等级频数百分比( ) 紧急 2 0 95 4 8 5 5 6 4 重要 1 6 64 3 5 6 9 5 5 一般 61 5 7 4 8 0 3 总计3 8 1l o o 图3 - 1 缺陷等级饼图 上表3 2 和图3 1 可见,发生的缺陷绝大多数是紧急缺陷和重要 缺陷,二者的比例高达9 8 4 3 。 浙江大学硕士学位论文 3 3 1 2 缺陷开关型号频数和百分比 表3 - 3 缺陷开关型号频数和百分比 开关型号频数 百分比( ) s w 2 2 2 0i iw 1 6 0 04 81 2 5 9 8 4 3 z n 2 8 1 0 1 2 5 0 3 1 5 4 21 1 0 2 3 6 2 s w 2 1 l o iw 3 18 1 3 6 4 8 3 s n l 0 1 02 97 6 1 1 5 4 9 s n i o 一3 5i i 1 2 5 0 2 02 77 0 8 6 6 1 4 l w l 4 11 02 05 2 4 9 3 4 4 s w 2 2 2 0i i1 9 4 9 8 6 8 7 7 z n 2 3 a - 4 0 5 1 6 0 0 1 64 1 9 9 4 7 5 z n 口一1 2 d 1 2 5 0 3 1 51 12 8 8 7 1 3 9 l w l 4 一1 1 0 2 0 0 0 1 02 6 2 4 6 7 2 l w l 5 2 2 01 02 6 2 4 6 7 2 z n 2 3 3 5 1 6 0 0 2 5 92 3 6 2 2 0 5 l w 8 - 3 582 0 9 9 7 3 8 s w 2 1 1 0i i7 1 8 3 7 2 7 z n 口一1 2 t 1 2 5 0 3 1 571 8 3 7 2 7 s n l o - 3 5 1 2 5 0 2 061 5 7 4 8 0 3 s w 2 一l l oi61 5 7 4 8 0 3 浙江大学硕士学位论文 z n 口一1 0 1 2 5 0 41 0 4 9 8 6 9 d w l 3 - 3 5 1 2 5 0 20 5 2 4 9 3 4 d w 2 3 520 5 2 4 9 3 4 d w 2 3 5 r20 5 2 4 9 3 4 l w l 4 一儿oiw20 5 2 4 9 3 4 s w 2 3 5 20 5 2 4 9 3 4 z n 2 8 1 0 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论