




已阅读5页,还剩75页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的电网数据智能分析的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据挖掘是致力于数据分析和理解 揭示数据内部蕴藏知识的技术 是从大量的含 有噪声的数据中挖掘出隐含其中的知识和信息 是当前数据分析的先进手段之一 数据 挖掘的模式主要包括分类模式 聚类模式 时间序列模式 关联模式 序列模式等 电 网数据智能分析系统借助数据挖掘领域中的各种算法模型对电网的电力设备故障 日报 数据 运行数据进行智能分析 通过对大量初始记录数据的清理 根据电网安全运行特 点提炼出与分析因素有联系的记录数据 装载到数据仓库 然后对其进行相应挖掘算法 的处理 得到需要的知识 为保障电网的安全运行提供理论支持 电网数据智能分析系统主要包括数据e t l 知识挖掘 数据动态更新和可视化显示 四个子系统 数据e t l 实现数据的清洗 整理和装载 在保证不减少数据所包含信息的 前提下改善数据质量 提高数据挖掘算法的性能 知识挖掘部分是系统的核心 运用合 适的挖掘算法模型对数据仓库中的数据进行挖掘 得到需要的知识 数据动态更新指随 电网数据的变化实现动态知识挖掘 可视化显示实现挖掘结果的图形显示 本文首先概述数据挖掘的基本概念和数据挖掘模型 阐明了电网数据智能分析系统 的设计思想和体系结构 其次详细论述系统中采用的数据e t l 数据挖掘的关联规则算 法 时序预测算法 数据的动态更新等关键技术及其软件实现 然后分析了系统测试结 果 最后给出结论和展望 本项目课题已通过西北电网公司的验收 并在西北电网智能数据分析中得以使用 取得良好的效果 关键词 数据挖掘 e t l 时序预测算法 关联规则 频繁项集 a bs t r a c t i ng e n e r a l d a t am i n i n gi sa na d v a n c e dt e c h n o l o g yf o rd a t aa n a l y s i s a n di tf o c u s e so n a n a l y z i n ga n du n d e r s t a n d i n gd a t aa n dr e v e a l i n gt h e e s s e n c ek n o w l e d g ea n di n f o r m a t i o n h i d d e ni ns o m el a r g ed a t as e t s i no t h e rw o r d s d a t am i n i n gt r e n d st of i n dt h eu s e f u l k n o w l e d g ea n di n f o r m a t i o nf r o ms o m el a r g ed a t as e t sw i t h t h en o i s ei n f o r m a t i o n t h ep a t t e r n s o fd a t am i n i n gi n c l u d e c l a s s i f i c a t i o n c l u s t e r i n g t i m es e r i e s a s s o c i a t i o n s e q u e n c e e t c t h e i n t e l l i g e n ta n a l y s i so fp o w e rg r i dd a t ai st oe m p l o yd i f f e r e n ta l g o r i t h m sf r o mt h ed a t am i n i n g f i e l dt oa n a l y z ei n t e l l i g e n t l yt h ef a u l t sa b o u tt h ee l e c t r i cp o w e re q u i p m e n t s t h ed a i l y r e p o r t d a t a a n dt h ei m p l e m e n t a r yd a t a m o r ed e t a i l e d l y t h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t a i sb a s e do nt w os t e p s f i r s t a c c o r d i n gt ot h ef e a t u r e sf r o mt h ee l e c t r i cg r i di m p l e m e n t a t i o n a n dt h ea n a l y z e df a c t o r s i te x t r a c t sa n da n a l y z e ss o m er e l a t e dd a t af r o mt h ei n i t i a ld a t a a n d t h e ns t o r e st h er e l a t e dd a t ai n t od a t as t o r e h o u s e s e c o n d b ya p p l y i n gs o m ed a t am i n i n g a l g o r i t h m s w ec a no b t a i ns o m eu s e f u lk n o w l e d g e w h i c hp l a y sat h e o r e t i c a lf o u n d a t i o nf o r t h es e c u r i t ya b o u tt h ee l e c t r i c 鲥di m p l e m e n t a t i o n t h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i cg r i dd a t ai n c l u d e sf o u rp a r t s s u c ha s d a t ae t l k n o w l e d g em i n i n g d a t ad y n a m i cu p d a t e a n dd a t av i s u a l i z a t i o n i ng e n e r a l d a t ae t l i m p l e m e n t st h ec l e a n o u t o r g a n i z a t i o n a n dl o a d i n gf o rd a t a a n di tc a ne f f e c t i v e l yi m p r o v e d a t aq u a l i t y l e a d i n gt of u r t h e rb o o s tt h ep e r f o r m a n c eo fd a t am i n i n ga l g o r i t h m s t h e k n o w l e d g em i n i n gp l a y sas i g n i f i c a n tr o l ei nt h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t a a n d i tc a no b t a i nt h eu s e f u lk n o w l e d g eb ya p p l y i n gt h ed a t am i n i n ga l g o r i t h m st ot h ed a t as e t s f r o mt h ed a t as t o r e h o u s e t h ed a t ad y n a m i cu p d a t ef o c u s e so ni m p l e m e n t i n gt h ed y n a m i c k n o w l e d g em i n i n go nt h eb a s i so ft h ev a r i e t ya b o u te l e c t r i cg r i dd a t a t h ed a t av i s u a l i z a t i o n t r e n d st ov i s u a l i z et h ef i i l i a lr e s u l t s i nt h i st h e s i s f i r s t l y ig i v eab r i e fr e v i e wa b o u tt h eb a c k g r o u n do fd a t am i n i n g s u c ha s s o m eb a s i c c o n c e p t s m o d e l s e t c a n df u r t h e rp r e s e n tt h ed e s i g n i d e aa n ds y s t e m c o n f i g u r a t i o na b o u tt h ei n t e l l i g e n ta n a l y s i sf o re l e c t r i c 鲥dd a t a s e c o n d l y id e t a i l e d l y 知识水坝 damdoc damdoc为您倾心整理 小店 qq 2218108823 a d d r e s st h es y s t e mb a s e do nt h es i g n i f i c a n td a t am i n i n gt e c h n o l o g i e ss u c ha sd a t ae t l c o n j u n c t i o nr u l e t i m es e r i e s d a t ad y n a m i cu p d a t e a n df u r t h e ria l s op r e s e n ts o m ea p p e a l i n g r e s u l t so nt h eb a s i so fi m p l e m e n t i n gt h ed a t am i n i n ga l g o r i t h m sv i as o f t w a r e f i n a l l y s o m e c o n c l u s i o n sa r em a d e a n ds o m er e s e a r c hd i r e c t i o n sa r ea l s oa d d r e s s e d k e yw o r d s d a t am i n i n g e t l t i m es e r i e sp r e d i c t i o na l g o r i t h m a s s o c i a t i o nr u l e f r e q u e n t i t e m 知识水坝 damdoc damdoc为您倾心整理 小店 qq 2218108823 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集 保存 使用学位论文的规定 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版 本人允许论文被查阅和借阅 本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫 描等复制手段保存和汇编本学位论文 同时授权中国科学技术信息研 究所等机构将本学位论文收录到 中国学位论文全文数据库 或其它 相关数据库 保密论文待解密后适用本声明 学位论文作者签名 翻垫指导教师签名 萨印男年彳月8 日 埘引月少曰 西北大学学位论文独创性声明 本人声明 所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果 据我所知 除了文中特别加以标注和致谢的地方外 本论文不包含其他人已经 发表或撰写过的研究成果 也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意 学位沦文作者签名 西侈 a 一缪年 月彦日 西北大学硕士学位论文一 i 引言 1 1 研究背景 i 引言 随着电网信息化技术的不断发展 电网系统中积累的待处理数据量急剧增加 现已 呈现爆炸性增长态势 同时 出现了一种数据越多信息越匮乏的现象 继续采用传统的 事务分析处理很难从海量的数据中获得满意的结果 如何充分和有效的利用这些宝贵的 历史数据 采用合适的数据分析技术 对其进行针对性的分析和挖掘 从中获得有价值 的知识 为电网的安全运行提供决策支持 成为现今亟待解决的问题 数据挖掘技术是从海量的数据中抽取出潜在的 有价值的知识 模型或规则 的过 程 即根据预定义的目标 对大量的数据进行探索和分析 揭示其中隐含的规律 并 进一步将其模型化的先进有效的技术过程 数据挖掘是一门交叉学科 它集成了许多学 科中成熟的工具和技术 包括数据库技术 统计学 机器学习 模式识别 人工智能 神经网络等 2 随着挖掘技术的不断发展 其在各个领域得到广泛的应用 将数据挖掘 技术应用到电网数据的智能分析中即为其重要的应用领域之一 本项目课题借助数据挖掘领域中适宜的算法模型对电网电力设备故障 日报数据 运行数据进行分析 通过对大量初始记录数据的清理 根据电网安全运行特点提炼出与 分析因素 系统设备故障 如时间 地点 天气环境 电厂名称 故障设备 故障原因 日报数据 发电量 用电量 受电量 最大负荷 最小负荷等 运行数据 有功数据 无功数据 有联系的记录字段数据 组成新的电网业务记录表装载到数据仓库中 对其 进行相应挖掘算法的处理 得到需要的知识 为保障电网的安全运行提供理论支持 数据挖掘技术具有计算规模大 算法先进 功能强大等特点 已在数据挖掘领域经 受了大量实际工程项目的考验 应用到电网数据挖掘分析中具有较高的实用性 可靠性 1 2 国内外研究现状 目前数据挖掘作为一种技术和一门学科 已经被国内外研究领域广泛认可 并且具 有自己的机构 刊物和会议 已出版了大量的书籍 世界各国知名大学的研究机构和各 大公司的研究部门都投入了大量精力对其进行研究 并取得了诸多成果 我国近年来也 1 西北大学硕士学位论文一 基于数据挖掘的电网数据智能分析的研究与实现 紧跟国际潮流开展了相关的研究与开发工作 国家的研究基金资助了相应的研究课题 研究重点正由发现方法转向系统应用 并且注重多种发现策略和技术的集成以及多学科 间的相互渗透 但基本以学术研究为主 实际应用仍处于起步阶段 数据挖掘在电力系统上的应用还处于探索阶段 主要集中于以下几方面 电力系统 安全稳定性分析 负荷预测模型的构建 电力系统故障诊断 电力系统仿真模型的性能 评估 电力市场环境下的电力用户行为分析 电力系统异常值监测 数据挖掘模式主要包括分类模式 聚类模式 时间序列模式 关联模式 序列模式 等 本文主要从关联性分析和预测两个方面进行电网数据的知识挖掘 1 2 1 电网数据关联性分析的研究 近年来 专门针对电力系统安全稳定运行的数据挖掘得到了较快的发展 其中 l w e h e n k e l 等学者在这方面做出了较为突出的贡献 其研发的a t d i d t 目前改名为 p e p i t o 电力系统安全稳定挖掘软件现已投入商业发行 但该软件仍存在很多不足之 处 比如对系统变化过于敏感 影响电力系统稳定的因素考虑不全面 算法比较少 没 有考虑利用实测数据对现有的安全稳定因素进行修正等 提到数据挖掘的使用技术 就不能不提到关联规则 关联规则的发展是数据挖掘中 最成功和最重要的任务之一 也是当今数据挖掘中一个非常活跃的研究领域 由于关联 规则挖掘可以发现用传统的方法无法发现的项与项或属性与属性间的关系规律 因而具 有重要的研究价值 3 1 电力系统暂态稳定评估中的关联规则主要体现在从海量数据中发 现分类属性与决策属性间的频繁模式 相关性或因果关系 以便从宏观上把握电力系统 所有组成元素间的关联特性 例如 在考虑所有可运行方式下 数据属性参数的变化与 系统安全稳定程度之间的关联规则 1 2 2 电网数据预测的研究 电网数据的预测主要集中在负荷预测 国外由于其负荷发展变化规律趋于稳定的缘 故 关于中长期预测的研究远远少于短期预测 国内则基本上两者并重 对现有国内比较发达地区的电网调度系统的分析发现 各地区都在努力发展电力信 息管理系统中的数据分析和负荷预测 国内各大电网把负荷预测作为数据分析和预测的 重点 这是因为负荷预测是企业制订基建计划 发供电计划 燃料计划 财务收支计划 等各项重要经营计划的基础 也是计划 规划工作的重要组成部分 负荷的预测使用了 西北大学硕士学位论文一一l 引言 各种预测模型进行短期 中期 长期预测 对与其相关的各种因素 包括天气 节假日 国民经济 历史数据等 进行了关联性分析 从而得出预测结果 例如华东电网使用长期负荷预测数据库和负荷预测软件包 4 1 软件包采用a c c e s s 作 为数据库平台来保存负荷预测中用到的各类历史数据 预测年数据及参数等 一些简单 的查询采用a c c e s s 中的视图进行 复杂的查询和计算则采用v i s u a lc 语言实现 查询 和计算结果在界面上以多种形式显示 华中电网在分析气象因子和负荷变化以及节假日负荷变化规律的基础上 利用气象 因子作为预报量 使用动态的综合线性回归和自回归相结合的混合线性回归以及非线性 的人工神经网络方法来进行电网日负荷和日最大负荷和最小负荷的预测 5 1 华北电网负荷分析与预测软件采用的基本算法是回归分析法 在其它因素比较稳定 的情况下 精度是比较高的 6 1 回归分析法是研究变量和变量之间依存关系的一种数学 方法 由给定的多组自变量和因变量的资料 研究各自变量和因变量之间的关系 形成 回归方程 回归方程分为线性回归方程和非线性回归方程 回归方程求得后 如果给定 各自变量数值 可求出因变量的值 在负荷分析和预测中 回归方程的因变量一般是电 力系统的负荷 自变量是影响电力系统负荷的各种因素 如历史负荷 气象等 东北电网使用e m s 应用软件 7 包括的内容较多 主要有负荷预报和发电计划等 该软件充分利用了c c 2 0 0 0 支撑平台提供的软件资源和各种服务 采用一体化 系统化 设计 实现了管理统一 数据统一 界面统一 1 3 主要研究内容 1 3 1 研究思路 1 电网数据智能分析系统的设计方案 利用j s p 技术 结合s q ls e r v e r2 0 0 5 的智能分析功能 开发基于b s 体系结构的 电网数据智能分析系统 该系统的w e b 解决方案实现表示层和逻辑层的良好分离 使 系统具有很好的扩展性和维护性 同时给网络智能分析系统的开发提供一个完整的思路 和方法 2 实现的功能 电网数据智能分析系统主要包括四个子系统 数据e t l 知识挖掘 数据动态更新 西北大学硕士学位论文 基于数据挖掘的电网数据智能分析的研究与实现 和可视化显示 1 数据e t l 作为现实数据往往存在着严重的质量问题 例如数据不完整 数 据冗余 数据不一致 噪声数据等 会降低挖掘算法的性能 数据预处理旨在消除或减 少数据噪声 处理缺失值以及数据的变换等 在保证不减少数据所包含信息的前提下 合理有效的数据预处理可以压缩数据 改善数据质量 提高数据挖掘算法的性能 2 知识挖掘 知识挖掘主要包括两部分 电网数据的关联性分析和时序预测 a 关联性分析 借助数据挖掘领域中的关联规则技术对电网的数据记录进行分析 通过清理大量初始记录数据 根据电网安全运行特点提炼出与分析因素 系统设备故障 如时间 地点 环境 故障 系统运行数据 电压 电流 有功功率 无功功率 功角 负荷 用电量 发电量等 有联系的记录字段数据 组成新的电网业务记录表 从表中 找出诱因记录字段值和结果字段值组成的频繁字段组合 最后通过预先给定的 支持度 和 置信度 来衡量该频繁字段组合是否能推导出该因素的关联规则 以充分展示各客 观因素对分析因素产生的影响程度 是当前数据分析的先进手段 由于关联规则挖掘可 以发现用传统的方法无法发现的项与项或属性与属性间的关系规律 因此具有重要的研 究价值 西北电网中的多维关联规则主要体现在从海量数据中发现分类属性与决策属性 间的频繁模式 相关性或因果关系 以便从宏观上把握电网组成元素间的关联特性 b 时序预测 对电网统计数据 发电厂单机容量及总容量 日发电量 变电站日 用电量 全网及分省日用电量 火电发电机的煤耗及存煤量 水轮发电机的库容 日均 入库与出库流量 发电厂日最大出力与最小出力 全网及分省日最大负荷及最小负荷 进行分析 采用综合时序预测模型进行预测 为相应计划的制定提供决策支持 3 数据动态更新 实现随电网数据的变化实现动态知识挖掘 4 可视化显示 数据挖掘和分析给出关联性分析结果 结果以文字结论以及图 形化显示给出 1 3 2 技术路线 电网数据智能分析系统主要采用j s p 网络编程技术和数据库s q ls e r v e r2 0 0 5 来实 现 1 采用j s p 程序开发模型 基于m v c 三层模式的w e b 应用设计样式 实现显 示层和逻辑层的良好分离 西北大学硕士学位论文 l引言 2 数据库系统采用s q ls e r v e r2 0 0 5 使用其强大的智能分析功能 数据库的连接 采用数据库连接池技术 提高系统性能 保证数据库连接的高效性和安全性 3 操作系统采用w i n d o w s2 0 0 3s e r v e r 实现强大的网络管理功能 1 4 技术的选择 1 4 1j s p 技术的选择 目前开发包含有动态内容的w e b 页面技术主要有两类 将h t m l 直接嵌入到编程 语言代码中 以此来生成w e b 页面和将逻辑包含在常规的w e b 页面中 以生成动态部 分 1 将h t m l 直接嵌入到编程语言代码开发w e b 页面的技术主要包含 c g i f a s t c g i a p a c h e 的m o d p e r l n e t s c a p e 的n s a p i m i c r o s o f t 的i s a p i 以及s u n m i c r o s y s t e m s 的j a v as e r v l e t 等 2 将逻辑包含在常规的w e b 页面中 以生成动态部分的技术主要有j s p a s p p h p 等 j s p 页面的内置脚本语言是基于j a v a 编程语言的 而且所有的j s p 页面都被编译成 为j a v as e r v l e t 由j a v a 虚拟机执行 这种编译操作仅在对j s p 页面的第一次请求时发 生 从而完成高效的服务器处理 实现较快的响应速度 如图1 1 所示 j s p 页面具有 j a v a 技术的所有好处 包括健壮的存储管理和安全性 作为j a v a 平台的一部分 j s p 还 拥有j a v a 编程语言 一次编写 各处运行 的特点 图1 1j s p 请求处理 1 j s p 页面可以与处理业务逻辑的s e r v l e t 结合使用 开发m v c 模式的w e b 西北大学硕士学位论文一基于数据挖掘的电网数据智能分析的研究与实现 应用 构建扩充性和维护性良好的应用程序框架 2 j s p 是一个规范而不是一个产品 便于完成不同的实现 得到更好的性能和质 量 由于多个公司花费大量的资金去研究和开发 保证了新版本能向后兼容 这是专项 技术无法做到的 3 j s p 是j 2 e e 的一个集成部分 而j 2 e e 是面向企业类应用的一个平台 因此 无论是简单的还是复杂的w e b 应用都可以用j s p 来实现 电网数据智能分析系统采用j s p 技术 以m v c 为开发模式 具有较好的可扩充 性 可维护性 可靠性和较强的容错能力 并且能进行很好的安全性处理 1 4 2s q ls e r v e r2 0 0 5 数据库的选择 s q l s e r v e r2 0 0 5 是一个全面的 集成的 端到端的数据解决方案 它为企业中的用 户提供了一个安全 可靠和高效的平台用于企业数据管理和商业智能应用 9 1 s q ls e r v e r 2 0 0 5 为i t 专家和信息工作者带来了强大的 熟悉的工具 同时减少了在从移动设备到 企业数据系统的多平台上创建 部署 管理及使用企业数据和分析应用程序的复杂度 通过全面的功能集 和现有系统的集成性 以及对日常任务的自动化管理能力 s q l s e r v e r2 0 0 5 为不同规模的企业提供了一个完整的数据解决方案 s q ls e r v e r2 0 0 5 数据 平台包括以下工具 1 关系型数据库 安全 可靠 可伸缩 高可用的关系型数据库引擎 提升了性 能且支持结构化和非结构化 l 数据 2 复制服务 数据复制可用于数据分发 处理移动数据应用 系统高可用 企业 报表解决方案的后备数据可伸缩存储 与异构系统的集成等 包括已有的o r a c l e 数据库 在 守o 3 通知服务 用于开发 部署可伸缩应用程序的先进的通知服务能够向不同的连 接和移动设备发布个性化 及时的信息更新 4 集成服务 可以支持数据仓库和企业范围内数据集成的抽取 转换和装载能力 5 分析服务 联机分析处理 o l 心 功能可用于多维存储的大量 复杂的数据 集的快速高级分析 6 报表服务 全面的报表解决方案 可创建 管理和发布传统的 可打印的报表 和交互的 基于w 曲的报表 西北大学硕士学位论文一1 引言 7 管理工具 s q ls e r v e r 包含的集成管理工具可用于高级数据库管理和调谐 它 也和其他微软工具 如m o m 和s m s 紧密集成在一起 标准数据访问协议大大减少了 s q ls e r v e r 和现有系统间数据集成所花的时间 此外 构建于s q ls e r v e r 内的内嵌w e b s e r v i c e 支持确保了和其它应用及平台的互操作能力 8 开发工具 s q ls e r v e r 为数据库引擎 数据抽取 转换和装载 e t l 数据 挖掘 o l a p 和报表提供了和m i c r o s o f tv i s u a ls t u d i o 相集成的开发工具 以实现端到端 的应用程序开发能力 s q ls e r v e r 中每个主要的子系统都有自己的对象模型和a p i 能 够以任何方式将数据系统扩展到不同的商业环境中 1 5 论文组织 第1 章绪论 介绍了课题的背景与研究意义以及国内外研究现状 简单介绍电网 数据智能分析系统研究的主要内容 使用的技术和论文的结构内容 第2 章电网数据智能分析系统的体系结构 从数据挖掘的概念 挖掘模式 挖掘 使用的相关技术等方面对数据挖掘技术进行了综述 提出了电网数据智能分析系统的体 系结构 介绍业务数据库和数据仓库的表结构 第3 章电网智能分析系统中的e t l 详细分析了e t l 的数据抽取 清洗整理以及 加载的功能和技术 介绍了s s i s 的体系结构以及用s s i s 实现数据e t l 和形成s s i s 包 第4 章电网数据智能分析系统的算法模型 详细分析了电网数据智能分析的数据 挖掘模型 关联性分析和时序预测 重点介绍了关联分析的概念 典型的频繁项集挖掘 算法 在此基础上提出适合电网数据智能分析系统的基于类集的频繁项集挖掘算法 分 析了预测的方法和技术 提出了适合智能分析系统的综合时序预测模型 第5 章电网数据智能分析系统的动态更新与测试结果 介绍了数据仓库数据增量 更新和s s i s 包的自动定时运行 对智能分析系统中的关联性分析和时序预测进行了结 果测试 第6 章结论与展望 主要对已有工作进行总结 分析现有工作中还存在的不足 并提出下一步的工作 1 6 本章小结 本章主要介绍电网数据智能分析系统的研究背景 以及国内外在电网数据挖掘方面 7 西北大学硕士学位论文 基于数据挖掘的电网数据智能分析的研究与实现 的研究现状 提出了电网数据智能分析系统体系结构和实现的主要功能 并对该系统采 用的j s p 和s q ls e r v e r2 0 0 5 技术进行了概述 最后介绍了本文的组织结构 8 西北大学硕士学位论文一2 电网数据智能分析系统的体系结构 2 电网数据智能分析系统的体系结构 2 1 数据挖掘技术 2 1 1 数据挖掘的概念 数据挖掘从本质上说是一种新的信息处理技术 数据挖掘技术把人们对数据的应 用 从低层次的联机查询操作 提高到决策支持 分析预测等更高级应用上 l o 它通过 对这些数据进行微观 中观乃至宏观的统计 分析 综合和推理 发现数据间的关联性 未来趋势以及一般性的概括知识等 这些知识性的信息可以用来指导高级决策活动 从 狭义的观点上 可以定义数据挖掘是从特定形式的数据集中提炼知识的过程 1 1 从广义 的观点看 数据挖掘是从大型数据集 可能是不完全的 有噪声的 不确定性的 各种 存储形式的 中 挖掘隐含在其中的 人们事先不知道的 对决策有用的知识的过程 l l 2 1 2 典型数据挖掘系统结构 基于数据挖掘功能的广义观点 典型数据挖掘系统结构如图2 1 所示 7 一 一 数据库或数 数据挖掘引 源信息 数据清洗 据仓库服务用户 存储库 整理和加载擎 器 图2 1典型数据挖掘系统结构 源信息存储库 存储业务信息 是一个或一组数据库 数据仓库 电子数据表或其 它类型的信息库 数据清洗 整理和加载 对源信息存储库中的数据进行清洗 整理并将符合要求的 数据加载到数据库或数据仓库 数据库或数据仓库服务器 根据用户的挖掘请求 数据库或数据仓库服务器负责提 取相关的数据 数据挖掘引擎 是数据挖掘部分的核心 由一组功能模块组成 用于执行特征化 关联和相关分析 分类 预测 聚类分析等任务 用户界面 在用户和数据挖掘系统之间通信 实现用户与系统的交互 西北大学硕士学位论文一 基于数据挖掘的电网数据智能分析的研究与实现 实际上数据挖掘是知识发现过程的一个基本步骤 知识发现首先从数据源中抽取感 兴趣的数据并把它组织成适合挖掘的数据组织形式 然后调用相应的算法生成所需的知 识 最后对生成的知识模式进行评估并把有价值的知识集成到智能系统中 知识发现主 要由以下几个步骤实现 1 0 1 数据清理 消除噪声和不一致数据 2 数据集成 将多种数据源整合在一起 3 数据选择 从数据库中提取与分析任务有关的数据 4 数据变换 通过各种操作 将数据变换或统一成适合挖掘的形式 5 数据挖掘 核心步骤 采用各种挖掘模型挖掘知识 6 模式评估 根据某种兴趣度度量 识别表示知识真正有趣的模式 7 知识表示 采用可视化技术向用户提供挖掘知识 步骤卜4 是数据的预处理部分 在保证不减少数据所包含信息的前提下改善数据质 量 提高数据挖掘算法的性能 数据挖掘步骤可能与用户或知识库交互 有趣的模式提 供给用户或作为新的知识存放在知识库中 2 1 3 数据挖掘模式 数据挖掘的目的是发现知识 知识要通过一定的模式给出 可用于数据挖掘系统的 知识表示模式是丰富的 通过对数据挖掘中知识表示模式及其所采用方法的分析 可以 更清楚地了解数据挖掘系统的特点 一般可以分为两类 描述和预测 描述性挖掘任务 刻画数据库中数据的一般特性 预测性挖掘任务在当前数据上进行推断 并加以预测 通常分为以下几个类型 概念描述一一特征化和区分 c h a r a c t e r i z a t i o na n d d i s c r i m i n a t i o n 关联分析 a s s o c i a t i o na n a l y s i s 分类和预测 c l a s s i f i c a t i o na n d p r e d i c t 聚类分析 c l u s t e r i n ga n a l y s i s 孤立点分析 o u t l i e ra n a l y s i s 演变分析 e v o l u t i o na n a l y s i s 下面分别对以上几种模式类型进行描述 1 2 1 概念描述 概念描述本质上就是对某类对象的内涵特征进行概括 概念描述分 为特征性描述和区别性描述 前者描述某类对象的共同特征 后者描述不同类对象之间 的区别 概念描述是广义知识挖掘的重要方法 目前已经得到广泛研究 归纳起来有代 表性的方法主要包括观念归纳方法 多维数据分析和面向数据库的概化方法 2 关联分析 关联知识反映一个事件和其它事件之间的依赖或关联 关联知识挖 西北大学硕士学位论文一2 电网数据智能分析系统的体系结构 掘的目的就是找出数据库中隐藏的关联信息 关联可分为简单关联 时序关联 因果关 联 数量关联等 这些关联并不总是事先已知的 而是通过数据库中数据的关联分析获 得的 因而对决策具有新价值 3 分类和预测 分类是数据挖掘中的一个重要的目标和任务 目前的研究和在商 业上应用最多 分类的目的是构造一个分类模型 称作分类器 该模型能把数据库中 的数据项映射到给定类别中 要构造分类器 需要有一个训练样本数据集作为输入 由 于数据挖掘是从源数据集中挖掘知识的过程 这种类知识也必须来自于源数据 应该是 对源数据的过滤 抽取 抽样 压缩以及概念提取等 预测是指由历史的和当前的数 据产生的并能推测未来数据趋势的知识 这类知识可以被认为是以时间为关键属性的关 联知识 因此上面介绍的关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘 中 从预测的主要功能上看 主要是对未来数据的概念分类和趋势输出 4 聚类分析 聚类是把一组个体按照相似性归成若干类别 它的目的是使得属于 同一类别的个体之间的差别尽可能的小 而不同类别上的个体间的差别尽可能的大 数 据挖掘的目标之一是进行聚类分析 通过聚类技术可以对源数据库中的记录划分为一系 列有意义的子集 进而实现对数据的分析 5 孤立点分析 孤立点是指不符合数据的一般模型的数据 在挖掘正常类知识时 通常总是把它们作为噪音来处理 当人们发现这些数据可以为某类应用 如信用欺诈 入侵检测等 提供有用信息时 就为数据挖掘提供了一个新的研究课题 即孤立点分析 发现和检测孤立点的方法已被广泛讨论 主要有基于概率统计 基于距离和基于偏差等 检测技术的三类方法 6 演变分析 描述行为随时间变化的对象的规律或趋势 并对其建模 尽管这可 能包括时间相关数据的特征化 区分 关联和相关性分析 分类 预测或聚类 这类分 析的不同特点包括时间序列数据分析 序列或周期模式匹配和基于相似性的数据分析 2 1 4 数据挖掘常用的基本技术 1 2 1 统计学 统计学虽然是一门 古老的 学科 但它依然是最基本的数据挖掘技术 特别是多元统计分析 如判别分析 主成分分析 因子分析 相关分析 多元回归分析 世 守0 2 聚类分析和模式识别 聚类分析主要是根据事物的特征对其进行聚类或分类 西北大学硕士学位论文一 基于数据挖掘的电网数据智能分析的研究与实现 即所谓物以类聚 以期从中发现规律和典型模式 这类技术是数据挖掘的最重要的技术 之一 除传统的基于多元统计分析的聚类方法外 近些年来模糊聚类和神经网络聚类方 法也有了长足的发展 3 决策树分类技术 决策树分类是根据不同的重要特征 以树型结构表示分类或 决策集合 从而产生规则和发现规律 4 人工神经网络和遗传基因算法 人工神经网络是一个迅速发展的前沿研究领域 对计算机科学人工智能 认知科学以及信息技术等产生了重要而深远的影响 而它在 数据挖掘中也扮演着非常重要的角色 人工神经网络可通过示例学习 形成描述复杂非 线性系统的非线性函数 这实际上是得到了客观规律的定量描述 有这个基础 预测的 难题就会迎刃而解 目前在数据挖掘中 最常使用的两种神经网络是b p 网络和r b f 网 络 5 规则归纳 规则归纳相对来讲是数据挖掘特有的技术 它指的是在大型数据库 或数据仓库中搜索和挖掘以往不知道的规则和规律 6 可视化技术 可视化技术是数据挖掘不可忽视的辅助技术 数据挖掘通常会涉 及较复杂的数学方法和信息技术 为了方便用户理解和使用这类技术 必须借助图形 图像 动画等手段形象地指导操作 引导挖掘和表达结果等 否则很难推广普及数据挖 掘技术 2 1 5 数据挖掘应用领域 1 3 1 数据挖掘应用到商业银行中 数据挖掘技术在银行和金融领域应用广泛 金融事务需要搜集和处理大量数据 对 这些数据进行分析 可以发现潜在的客户群 评估客户的信用等 c r e d i ts c o r i n g 技术就 是利用所掌握的客户基本资料 资产以及以往信用情况等 对贷款客户进行评估 做出 最有利于银行的决定 2 数据挖掘应用到电信中 数据挖掘技术在电信行业也得到广泛应用 这些应用可以帮助电信企业指定合理的 电话收费和服务标准 针对客户群的优惠政策 防止费用欺诈等 1 1 3 数据挖掘应用到科学探索中 近年来 数据挖掘开始应用到尖端科学的探索中 例如 d n a 序列分析被认为是 西北大学硕士学位论文一一2电网数据智能分析系统的体系结构 人类征服顽疾的最有前途的公关课题 但是d n a 序列的构成是千变万化的 数据挖掘 技术的应用可能为发现特殊疾病蕴藏的基因排列信息等提供新的解决途径 当然 数据挖掘还有许多应用领域 这里不可能一一列举 数据挖掘具有高可用性 以及高挑战性 数据挖掘必须和实际应用领域结合研究才具有生命力 2 2 电网数据智能分析系统的体系结构 该系统的智能分析主要是对电网的历史数据进行多维的关联性分析和时序预测 历 史数据的参考价值一般有效范围为5 1 0 年 时间再长就失去了参考意义 采用基于关 系型存储的多维数据仓库存储 其体系结构示意如图2 2 所示 厂 可视化显示分析结果 通过支持度 一分析项关联规则l羹i 用电量预测ll 发电量预测ll 负荷预测l 可信度产生关 联规则 t 联 预三型 关联规则算法 一频繁项集表 任 分 析 电压主题电流主题负荷主题 多维数据模式数据仓库 预测分析 瞻忸j 而 l 埘船韫二 磊h k l 口 裂硒耿处理姒佰耿姬理 数据清数据清 洗 整理洗 整理 抽取分耪 项在t 分析时间l内数据l 臣 刁 图2 2 电网数据智能分析系统体系结构 西北大学硕士学位论文一基于数据挖掘的电网数据智能分析的研究与实现 电网业务数据库 采用s q l s e r v e r 2 0 0 5 数据库 存储电网积累的历史数据 数据预处理 主要是对业务数据库中的数据进行清洗 整理和加载 为数据挖掘提 供适合的高质量数据 数据预处理中的概化处理 1 0 将连续的属性值划分为离散的几个区间 离散的属性 值划分为几个不同的取值范围 从而减少属性值的数量 提高属性值的内涵 方便数据 挖掘的过程以及挖掘结果的可视化展示 有许多具体的离散化方法 这里采用k m e a n s 算法 k m e a n s 方法是一种常用的聚类技术 它对于空间中的n 个样本点 根据一定的距 离函数和准则函数 将其划分为k 个簇 各簇之间区别明显且簇内的样本点相似度高 分布紧密 假设有1 3 个样本点 如果预设k 为3 则根据k m e a n s 算法将把所有样本 点分别划分到3 个簇里 各簇内的样本点用本簇的聚类中心代表 图2 3k m e a n s 聚类示意图 设k 为5 将连续的电网运行样本数据离散为5 个等级 低水平 偏低水平 中等 水平 偏高水平和高水平 分别用1 2 3 4 5 表示 表2 1离散化前的事务集 亿千瓦时 西北大学硕士学位论文一2 电网数据智能分析系统的体系结构 表2 1 续 多维数据模式 采用基于关系 多维数据模型 利用现有的关系数据库作为最终数 据存储系统 采用多维数据库的星型模式 如图2 4 是电网故障数据的星型模型 西北大学硕士学位论文一一基于数据挖掘的电网数据智能分析的研究与实现 图2 4电网故障数据的星型模型 位于星型中心的实体是指标实体 是用户最关心的基本实体和查询活动的中心 为 查询活动提供定量数据 每个指标实体代表一系列相关事实 完成一项指定的功能 位 于星型图形角上的实体是维度实体 其作用是限制用户的查询结果 将数据进行过滤 使得从指标实体查询返回较少的行 从而缩小访问范围 每个维表有自己的属性 维表 和事实表通过关键字相关联 使用星型模式主要有两方面的原因 1 提高查询的效率 采用星型模式设计的数据集市的优点是由于数据的组织已经 过预处理 主要数据都在庞大的事实表中 所以只要扫描事实表就可以进行查询 而不 必把多个庞大的表联接起来 查询访问效率较高 同时由于维表一般都很小 甚至可以 放在高速缓存中 与事实表作联接时其速度较快 便于用户理解 2 星型模式比较直观 通过分析星型模式 很容易组合出各种查询 多维关联性分析 借助数据挖掘领域中的多维关联规则技术对电网的数据记录进行 分析 通过清理大量初始记录数据 根据电网安全运行特点提炼出与分析因素 如电压 电流 频率等 有联系的记录字段数据 组成新的电网业务记录表 从表中找出诱因记 录字段值和结果字段值组成的频繁字段组合 最后通过预先给定的 支持度 和 可信 度 来衡量该频繁字段组合是否能推导出该因素的关联规则 以充分展示各客观因素对 西北大学硕士学位论文一 2 电网数据智能分析系统的体系结构 分析因素产生的影响程度 是当前数据分析的先进手段 由于关联规则挖掘可以发现用传统的方法无法发现的项与项或属性与属性间的关 系规律 因此具有重要的研究价值 多维关联规则主要体现在从海量数据中发现分类属 性与决策属性间的频繁模式 相关性或因果关系 以便从宏观上把握电网组成元素间的 关联特性 预测 采用时序预测模型 对电网积累的历史数据进行分析 对未来的发展趋势进 行预测 按照一定的科学原理 通过对历史数据的分析 找出其内在规律 可以保证预 测工作尽可能地接近实际情况 尤其电网存在如下的普遍规律 首先 电力的发展是有一定规律的 这是我们进行预测的基础 其次 电力的发展是一个连续统一的过程 其未来发展是这个过程的连续 再次 各地区 各年段电力的发展具有一定的可比性 相似性 可视化显示 将挖掘结果通过图形的方式展现给用户 便于用户的理解和使用 2 3 电网数据智能分析系统处理过程 将存储在业务数据库中的电网数据进行清洗 整理 离散化后 加载到基于多维数 据模式的数据库中存储 然后根据不同的挖掘需求 对相应的数据进行多维关联分析和 时序预测 挖掘出所需要的知识 通过图形的形式展现给用户 通过s q l s e r v e r2 0 0 5 代理建立作业 实现挖掘知识的自动更新 2 3 1 电网数据智能分析系统中的表结构 电网数据智能分析系统的表结构分为两部分 业务数据库和数据仓库表结构 1 业务数据库的部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 30578-2025常压储罐基于风险的检验及评价
- 桥梁知识培训日程安排课件
- 2025年电子商务网站开发工程师招聘模拟题集
- 2025年行车安全法规测试题集
- 2025年初级舞蹈教师职业认证考试模拟题
- 2025年政府事务协调与管理能力提升题集
- 桑蚕丝面料知识培训
- 2026届福建龙海市第二中学高一化学第一学期期末复习检测试题含解析
- 2025年网络游戏公司运营总监竞聘面试技巧与常见问题解答
- 2025年注册验船师资格考试(A级船舶检验专业基础环境与人员保护)全真冲刺试题及答案一
- 湖北省圆创高中名校联盟2026届高三第一次联合测评 语文试卷(含答案)
- 医务人员职业道德准则理论试题
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 非标设备检验标准
- 皖2015s209 混凝土砌块式排水检查井
- 外墙涂料工程技术标书
- 教学课件-信号智能电源屏(鼎汉)的简介与维护
- CML慢性髓系白血病医学教学课件
- 临床实习带教工作总结
- 老年营养不良
- 【公开课】社区教案
评论
0/150
提交评论