(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘在短期电力负荷预测中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

at h e s i d e p u t ys u p e r v i s o r :p r o f e s s o rl iz h u o l i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰 写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明 并表示谢意。 学位论文作者签名:倒 e l 强:刁伽彳6 矽 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位 论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文 的全部或部分内容编入有关数据库进行检索、交流。 半年一年口一年半口两年口 薹墨言翥零喾毋烈薹霉菩翥:翳乡山 鼻 u , - e i _ 东北大学硕士学住论文摘要 数据挖掘在短期电力负荷预测中的应用研究 摘要 电力系统短期负荷预测是电力系统调度运营部门的一项重要工作,预测精度的高 低直接影响到电力系统运行的安全性、经济性和供电质量。短期负荷预测是从已知的 社会经济发展和电力需求出发,通过对历史数据的研究分析,对未来一天的系统负荷 进行估计和推算。影响电力负荷的因素很多,这些因素对负荷的影响具有非线性、复 杂性、滞后性等特点。如果影响因素没有分析工f 确,要得到准确的负荷预测是相当困 难的。 要进行准确的负荷预测,必须对历史数据进行深入分析。由于数据挖掘技术具有 从海量信息中挖掘知识的能力,因此在负荷预测中引入了数据挖掘理论,以期建立精 确的预测模型。本文通过制定各种数据挖掘元模式,指导数据挖掘引擎对历史数据进 行挖掘,来发现有用的知识。这些知识包括影响负荷变化的因素、因素变化时负荷变 化的规律、与预测同输入信息最适合的训练样本及预测样本等。在预测模式和模型算 法的选择上,充分考虑季节、气象、温度和节假日等因素,运用逐级均值聚类算法对 以上因素进行多层次、多细节分解聚类并分类。将人工神经网络模型引入到短期负荷 预测,选取历史数据样本利用b p 网络算法进行训练。对影响短期电力负荷的重要因 素加权,用实际负荷数据进行了验证和动态调整,具有较高的预测精度。 针对电网调度部门的实际需要,开发了一套基于调度自动化系统的短期电力负荷 预测系统。该系统集成于地区电网的调度自动化系统,具有较好的实时性、经济性和 实用性,采用面向对象设计方法对负荷预测系统结构进行设计。实现多种负荷预测及 评估功能体系,满足短期负荷预测的各种性能指标。 关键词:电力系统;负荷预测;数据挖掘;b p 网络;预测精度 i i 一, i i : q 、- 、 d e m a n d ,t h r o u g ht ot h eh i s t o r i c a ld a t ar e s e a r c ha n a l y s i s ,d a yo raw e e k - l o n gs y s t e ml o a d w i l lc a r r yo nt h ee s t i m a t ea n dt h ee x t r a p o l a t i o nt ot h ef u t u r e l o a df a c t o ra f f e c t i n gm a n yo f t h e s ef a c t o r so nt h ei m p a c to fn o n - l i n e a rl o a d s ,c o m p l e x i t y ,a n dt h ec h a r a c t e r i s t i c so ft h e l a g i fn oa n a l y s i so ff a c t o r sc o r r e c t ,t ob ep r e c i s ea b o u tt h el o a df o r e c a s t i n gi s av e r y d i f f i c u l td e c i s i o n t oa c c u r a t e l yp r e d i c tt h el o a d ,t h en e e df o ra ni n - d e p t ha n a l y s i so fh i s t o r i c a ld a t a ,a s d a t am i n i n gt e c h n o l o g i e si nt h em i n i n gv a s ta m o u n t so fi n f o r m a t i o nf r o mt h ek n o w l e d g e , a n dt h e r e f o r et h ei n t r o d u c t i o no ft h el o a df o r e c a s t i n gd a t am i n i n gt h e o r y ,w i t hav i e wt o e s t a b l i s h i n ga c c u r a t ef o r e c a s t i n gm o d e l a d o p t i n gv a r i o u sk i n d so fd a t am i n i n gu n i tm o d e l , d a t am i n i n ge n g i n eg u i d eo nh i s t o r i c a ld a t aw a r e h o u s e ,e x c a v a t i o nt od i s c o v e ru s e f u l k n o w l e d g e t h e s ei n c l u d ek n o w l e d g eo ft h ei m p a c to fc h a n g e si n l o a df a c t o r s ,f a c t o r s c h a n g e ,l o a dc h a n g et h el a w ,a n df o r e c a s ti n f o r m a t i o no nt h ei m p o r t a t i o no ft h em o s t s u i t a b l et r a i n i n gs a m p l e sa n df o r e c a s ts a m p l e s i nt h ep r e d i c t i o nm o d e la n dt h ec h o i c e m o d e l a l g o r i t h ma n dg i v ef u l lc o n s i d e r a t i o nt os e a s o n a l ,w e a t h e r ,t e m p e r a t u r ea n dh o l i d a y s , a n do t h e rf a c t o r s ,s t e pb ys t e pm e a n sc l u s t e r i n ga l g o r i t h mu s i n gt h ea b o v ef a c t o r s m u l t i l e v e ld e t a i l so fd e c o m p o s i t i o nc l u s t e r i n ga n dc l a s s i f i c a t i o n a r t i f i c i a ln e u r a ln e t w o r k m o d e lw i l lb ei n t r o d u c e dt ot h es h o r t - t e r ml o a df o r e c a s t s ,h i s t o r i c a ld a t as a m p l e ss e l e c t e d b yb pn e t w o r ka l g o r i t h mf o rt r a i n i n g o nt h ei m p a c to fs h o r t - t e r m e l e c t r i cl o a dt h e i m p o r t a n tf a c t o r sw e i g h t e db yt h ea c t u a ll o a dd a t at ov e r i f yt h ed y n a m i ca d j u s t m e n to fh i g h p r e d i c t i o na c c u r a c y n e t w o r ks c h e d u l i n gd e p a r t m e n tf o rt h ea c t u a ln e e d so ft h ed e v e l o p m e n to fa s c h e d u l i n ga u t o m a t i o ns y s t e mb a s e do nt h es h o r t - t e r mp o w e rl o a df o r e c a s t i n gs y s t e m t h e i i i a l , 东北大学硕士学位论文a b s t r a c t s y s t e mi n t e g r a t e di n t ot h er e g i o n a lp o w e rg r i ds c h e d u l i n ga u t o m a t i o ns y s t e m s ,w i t hb e t t e r r e a l - t i m ep e r f o r m a n c e ,e c o n o m ya n dp r a c t i c a l i t y ,u s i n go b j e c t - o r i e n t e dd e s i g nm e t h o d s a n dc l i e n t s e r v e rd e v e l o p m e n ta p p r o a c ho ft h el o a df o r e c a s t i n gs y s t e mc o m p l e t e dt h e s t r u c t u r a ld e s i g no ff r a m e w o r k ,a n dt h ef u n c t i o na n dm a i nf e a t u r e s a n df r o mt h ef o r e c a s t , d a t am a n a g e m e n tf u n c t i o n s ,a sw e l la ss o m ea u x i l i a r yf u n c t i o n s ,s u c ha sp o i n to ft h e s y s t e mt oc o n d u c t ac o m p r e h e n s i v e b r i e f i n g k e yw o r d s :p o w e r a c c u r a c y l o a df o r e c a s t i n g ;d a t am i n i n g ;b pn e t w o r k ;f o r e c a s t k ) 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第1 章绪论1 1 1 论文工作背景1 1 2 短期负荷预测的研究现状2 1 3 短期负荷预测的特点3 1 4 本文的主要工作4 1 5 本文的组织结构4 第2 章相关技术与研究背景7 2 1 数据挖掘的基本概念7 2 1 1 数据挖掘的功能8 2 1 2 数据挖掘过程9 2 2 数据挖掘中的聚类技术9 2 2 1 聚类分析的基本知识1 0 2 2 2 相似性测度1 0 2 2 3 类的表示1 0 2 3 神经网络型知识挖掘技术1 1 2 4 数据挖掘应用于负荷预测的关键问题1 4 2 5 本章小结1 5 第3 章短期负荷预测模型的建立1 7 3 1 常见电力负荷预测系统模式1 7 3 1 1 两库模式j 1 7 3 1 2 三库模式1 8 3 2 基于数据挖掘技术的电力负荷预测模型的架构1 9 3 2 1 模型条件的设置1 9 东北大学硕士学位论文目录 3 2 2 模型各部分的功能2 0 3 2 3 模型的特点和作用2 1 3 3 j 、结2 2 第4 章聚类分析及其在负荷预测中的应用2 3 4 1 聚类算法2 3 4 1 1 聚类分析原理2 3 4 1 2 逐级均值聚类算法二2 4 4 2 聚类算法在负荷预测中的应用2 6 4 2 1 负荷与非负荷因素之间的关系。2 6 4 2 2 考虑特殊天气因素进行聚类2 8 4 2 3 预测实例分析3 1 4 3 本章小结3 2 第5 章神经网络及其在负荷预测中的应用3 3 5 1b p 神经网络算法。3 3 5 2b p 神经网络在负荷预测中的应用3 5 5 2 1 考虑节假日和季节因素的b p 网络预测。3 6 5 2 2b p 算法负荷预测结果分析3 7 5 3 本章小结4 0 第6 章负荷预测软件开发4 1 6 1 预测系统的运行环境4 1 6 2 预测系统的结构。4 1 6 2 1 系统智能化预测模型实现4 1 6 2 2 数据管理。4 2 6 3 负荷预测模块4 4 6 3 1 评估系统模块4 5 6 3 2 负荷预测模块4 6 6 4 分析评价4 9 6 4 1 事前评估分析4 9 6 4 2 事后误差评价5 0 6 5 报表模块5 1 - 预测负荷一方面受负荷的历史表现影响,另一方面也受众多的非负荷因素的影 响。在这些非负荷因素中,有一些因素是无法事先预知的,如电网故障等,但大部分 因素如气象、节假日等信息均可以在预测之前得到。因此,如何有效地考虑这些非负 荷因素对负荷预测的影响就成为提高负荷预测精度所必须要解决的问题。 电力负荷对季节、温度、天气等是敏感的,不同季节、不同地区的气候以及温度 的变化都会对负荷造成明显的影响【2 1 。例如,目前辽宁电网采用的负荷预测模型及模 式已经逐渐开始暴露出局限性,不能满足短期负荷预测精度,尤其是节假日负荷预测 的精度要求。开发出一个先进的、高水平的、符合辽宁电网特点的电网负荷模型,兼 顾温度等气候因素,综合考虑辽宁地域范围内各类负荷构成及增长水平的新的负荷模 型已经成为当前电网工作的主要任务之一。 数据挖掘是从大量数据中挖掘出隐含的,先前未知的,对决策有潜在价值的知识 和规则,提取的知识表示为概念、规则、规律、模式等形式,这些知识蕴涵了数据之 中的数据对象之间的特定联系,揭示出一些有用的信息。本文基于辽宁电网负荷预测 模型的需求,利用数据挖掘的方法,来得到能够反映非负荷因素和负荷之间关系的知 识,在负荷预测中应用这些知识,从而有效提高负荷预测的精度。 本课题的来源为沈阳工程学院2 0 0 7 年青年基金科研项目“基于数据挖掘的电力 负荷预测研究与软件实现 ,在原有短期负荷预测方法的基础上考虑气候、季节、气 温和节假日等因素,并结合当前先进的计算机应用技术,形成一套可行的预测模型, 能够在理论上针对辽宁地域特点提出短期负荷预测的新思路。同时,在完善理论研究 的基础上进行预测软件的研发,形成负荷预测软件系统,满足短期电力负荷预测快速 性、精确性等需求,应用于教学实验或科学研究。 东北大学硕士学位论文第1 章绪论 1 2 短期负荷预测的研究现状 短期负荷预测的方法很多,并且随着这一领域研究的不断深化,新的短期负荷预 测方法不断涌现。总的来讲,短期负荷预测的发展可以分为三个阶段:传统预测方法 阶段、现代预测方法阶段和短期负荷预测的应用研究阶段。 传统预测方法阶段的基础是传统数学工具,代表性的方法有回归模型法、时间序 列法、趋势外推法等1 2 1 。这类方法比较成熟,算法简单,计算量小,速度较快,但都 是线性模型方法。这些模型过于简单,无法模拟复杂多变的电力负荷。因而,预测的 精度往往不能满足实际工程的要求,特别是节假日的预测效果更不能保证,加上不具 备自适应学习能力,预测系统的鲁棒性没有保证。现代预测方法是随着人工智能研究 领域的兴起而出现的,它结合了人工智能领域的神经网络【3 , 4 , 5 , 6 , 7 1 、小波分析【8 ,9 】、模糊 数学【1 0 , 1 1 】等学科的最新研究成果,这是短期负荷预测方法发展历史中一个里程碑,其 中最主要的是神经元网络理论的运用与发展1 3 j 。由于影响负荷变化的因素有很多,且 关系错综复杂,寻常的模型如状态估计和多元回归等方法难于把握其影响因素和负荷 变化之间的非线性函数关系,因此需要一种具有高度非线性函数映射关系的模型来进 行模拟,神经元网络模型就具有这样的优点和特性,事实上正是因为它的发展才使得 高精度的负荷预测成为可能。负荷预测的应用阶段可以分为可实现应用阶段和智能化 应用阶段。可实现应用阶段主要是在实际应用中通过对几种较优的负荷预测方法进行 优化处理、取长补短,通过组合策略,达到进一步提高预测精度或优化算法的目的; 智能化应用阶段主要是通过运用各种数学方法与计算工具,针对以往测试和预测结 果、实际负荷背景进行智能化的模型选择或模型相关参数调节,同时实现人机交互界 面友好,减少人为的干扰或作用。 从目前国内外关于短期负荷预测研究的各种文献来看,研究的重点还是改进的、 新的建模思路和模型算法,实质上是为了寻找较好的关于负荷影响因素与负荷之间的 模拟函数。建立模拟函数算法库,通过预测评估找出最优的一组组合策略对未来的负 荷进行预测。在预测处理时,一般选择最近一段时间的负荷进行分析处理,求出网络 模型参数进行负荷预测。运用这种方法的原因在于样本选择的难度,由于负荷历史数 据库和天气数据库中具有大量数据,负荷对于季节变化等影响因素的大幅变化,以及 该变化的规律难以把握【引,现在的预测样本都是选在离预测日较近的预测范围内,如 同一个季度等。假设在一个短的时间段内( 包含预测同) ,选定的网络训练学习输入 输出样本之间,预测输入样本与实际负荷之间的某种函数关系,是稳定或者是较为稳 2 。厶。 东北大学硕士学位论文第1 章绪论 摹译一。: ,n 。 定的,这样才能通过训练样本求出该网络所描述的函数关系,并通过传入预测输入样 本求出实际负荷,得到比较满意的结果1 5 1 。这种方法的弊病在于: ( 1 ) 如何制定稳定或相对稳定时间区间的判断标准; ( 2 ) 如何考虑并处理影响因素发生剧烈变化导致负荷特性的剧烈变化,如天气占 主导因素的负荷环境中,温度急升导致负荷的快速变化; ( 3 ) 缺少对以往负荷环境的分析,没有充分利用以往的负荷事实; ( 4 ) 模拟函数算法本身的局限性,如影响因素的区域不同性( 供电地区内的不同 区域,一些影响因素其强弱不同,影响不同) ,对于非数值影响因素处理策略的困难 性( 如:暴雨、大雨、雾等在作为预测输入时如何表述? 同一因素的强弱如何区分? ) , 部分影响因素的难以获得性( 如:突然的冲击负荷,其负荷占负荷总量的比重相当大) , 影响因素发生时间的不确定性( 如:已知有暴雨,但是确切时间未知) 等等,这些因 素处理得不好,会导致模型弱的学习能力。 。 1 3 短期负荷预测的特点 短期负荷预测的预测提前期相对来说比较短,它的主要作用是用来参考制定调度 计划,可以说是电力系统最为常见也最为重要的预测模型,预测精度要求高,实效性 强【6 j 。由于调度计划是要预先安排的,特别是在当前的电力市场条件下,购售电双方 都更需要得到未来某段时间的预测结果,以安排购售电合同的签订。现在的发展趋势 予 已把短期负荷预测软件集成到能量管理系统( e m s ) 中,需要实时与e m s 其它模块 和调度员交换信息,以实现在线预测。 通过对负荷特性的分析,负荷预测的精度主要受以下几方面的影响1 1 2 】: ( 1 ) 影响负荷的天气因素很多,影响程度又随用户类别而异,进行负荷预测的模 型大多只包括研究对象的主要因素,而忽略了很多次要的因素,这样的模型只是一种 简化的反映,作为可估计的随机事件,气象预报本身不准确又会造成双重误差; ( 2 ) 进行负荷预测所需的大量历史资料并不能保证其准确可靠,这也必然会带来 预测误差; ( 3 ) 特殊事件的不确定性将造成负荷预测的较大误差,这类事件在我国特别多; ( 4 ) 反映负荷的周期性、趋势性以及与影响因素之间的关系的样本数难以确定; ( 5 ) 随机负荷部分并非平稳的随机序列; ( 6 ) 大电网( 省级) 负荷变化有较强的统计规律性,预测结果较准确。而地区级电 网的统计规律不甚明显,不能稳定地指导负荷预测。 3 东北大学硕士学位论文第1 章绪论 从分析负荷的历史记录可以看出,负荷除具有明显的随机性外,还具有明显的周 期性1 8 】,即负荷的变化具有以季、以周或以日为周期的特点,负荷记录的时间越长, 这种周期性看得越清楚。因此,要做短期负荷预测,就必须分析过去几年的负荷记录。 综上所述,作为一非平稳时间序列,电力系统短期负荷具有以下特点: ( 1 ) 周期性:负荷以日、周、季为周期发生波动,大周期中“嵌套 小周期; ( 2 ) 波动性:负荷序列在取值较小的时段,其波动的幅度较小,在取值较大的时 段其波动的幅度较大; ( 3 ) 非平稳性:其方差是发散的,具有一定的增长趋势。 1 4 本文的主要工作 , 对于短期负荷预测来说,准确分析气象等非负荷因素对负荷的影响,是影响负荷 预测精度的关键之所在。气象因素对负荷的影响是通过电力用户对外界环境的感知实 现的,所以气象对负荷的影响不可避免地具有滞后性。也就是说,气象和负荷之间的 关系具有非线性、复杂性、滞后性等几个特点。因此,在短期负荷预测过程中如何有 效的考虑这些非负荷因素对负荷的影响就成为短期负荷预测系统设计的重点和难点 问题。本文将数据挖掘引入到电力系统负荷预测,一方面利用数据挖掘来发现影响负 荷变化的因素,负荷和天气等影响因素之间潜在的重要关联,影响因素的强弱性和发 生条件等等事实,并在此基础上进行了短期电力负荷预测方法的分析。另一方面本文 通过对模型和算法进行抽象和提取,建立模型算法库,通过预测测试和实际预测情况 建立预测情况数据支撑平台,通过数据挖掘给予如何组预测模型和选择预测模式提供 参考,实现模型的自主选择,从而实现智能化建模的功能。关键就是通过数据挖掘决 定网络训练样本和输入样本,通过对以往负荷的测试记录和预测记录进行分析,对预 测模型算法提供指导。选用逐级均值聚类算法对以上因素进行聚类和分类,并对辽阳 地区进行预测负荷预测。项目的目标是:研发一套适合于辽宁地区的短期电力负荷预 测系统,采用面向对象设计方法和客户服务器模式,设计完整的负荷预测系统的框 架、实现的满足短期负荷预测功能和性能指标。 1 5 本文的组织结构 根据前述研究内容,本文共分7 章。 第1 章介绍课题的研究背景和意义以及研究现状,同时也介绍研究的主要内容和 解决的关键问题。最后对文章的结构进行说明。 4 东北大学硕士学位论文 第1 章绪论 第2 章简要介绍数据挖掘和电力负荷预测的相关概念,并在此基础上详细介绍基 于数据挖掘的电力负荷预测过程。 第3 章通过对目前电力负荷预测系统构架模式进行分析、比较,提出基于数据挖 掘技术的新型电力负荷预测模型。 第4 章给出充分考虑气候、温度、节假日等因素并采用逐级均值聚类算法选取历 史数据进行聚类和分类的方法。 第5 章通过负荷的变化与天气变化之间相对稳定的关系,找出b p 网的训练样本, 并用b p 神经网络进行预测。 第6 章介绍应用面向对象的程序设计方法,研发出数据分析能力强、具有多层次 的图形交互功能的短期负荷预测软件的过程。 第7 章总结全文,并指出进一步的工作。 东北大学硕士学位论文 第1 章绪论 - - 东北大擘硕士学位论文第2 章相关技术与研究背景 第2 章相关技术与研究背景 2 1 数据挖掘的基本概念 数据挖掘是数据库技术、人工智能、机器学习和统计学等学科相结合的产物。简 单地说,数据挖掘是从大量数据中提取或“挖掘”知识。一种比较公认的定义是:数 据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非 平凡过程【1 3 】。 有人把数据挖掘看成是知识发现的同义词,也有人把数据挖掘看成是知识发现的 一个步骤。知识发现这个概念来源于人工智能( 舢) 领域【1 4 】,其过程如图2 1 所示,主 要包括如下几个步骤: 图2 1 数据挖掘被视为知识发现的一个步骤 f i g 2 1d a t am i n i n gw a gr e g a r d e da sas t e pt o w a r d sk n o w l e d g ed i s c o v e r y ( 1 ) 对数据库、数据仓库或其它数据进行分析选择得到与任务相关的目标数据; ( 2 ) 对目标数据进行预处理,包括坏数据辨识、修正等过程,得到预处理后数据; ( 3 ) 对预处理后数据进行数据变换,包括归一化、汇总、聚集等操作,得到便于 进行挖掘的转化后数据: ( 4 ) 对转化后数据应用数据挖掘算法进行挖掘,得到各种不同的知识和数据模 式; 东北大学硕士学位论文笫2 章相关技术与研究背景 ( 5 ) 对所得到的知识和数据模式进行评估,最终得到可以在实际中得到应用的知 识。 2 1 1 数据挖掘的功能 数据挖掘不仅能对过去的数据进行查询和遍历,并且能够对将来的趋势和行为进 行预测,并自动探测以前未发现的模式,从而很好地支持人们的决策。被挖掘出来的 信息,能够用于信息管理,查询处理,决策支持,过程控制以及许多其它应用。数据 挖掘按其功能划分主要包括以下几类: ( 1 ) 关联分析。若两个或多个数据项的取值重复出现且概率很高时,它就存在着 某种关联,可以建立起这些数据项的关联规则。关联分析的目的是找出数据库中隐藏 的关联网。在大型数据库中,这种关联规则是很多的,一般用“支持度和“可信度” 两个阈值来淘汰那些无用的关联规则。 ( 2 ) 分类。分类是数据挖掘中应用得最多的方法。分类是找出一个类别的概念描 述,它代表了这类数据的整体信息,即该类的内涵描述,一般用规则或决策树模式表 示,一个类的内涵描述分为特征性描述和区别性描述。特征性描述是对类中对象的共 同特征的描述,区别性描述是对两个或多个类之间的区别的描述。 ( 3 ) 聚类。数据库中的数据可分为一系列有意义的子集,或称为类。在同一类别 中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客 观现实的认识、即通过聚类建立宏观概念。 ( 4 ) 时序模式。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序 列的影响。例如,在所有购买激光打印机的人中,半年后有8 0 的人再购买新硒鼓, 2 0 的人用旧硒鼓装碳粉。 ( 5 ) 偏差检测。数据库中的数据常有一些异常记录,从数据库中检测出这些偏差 很有意义。偏差包括很多潜在的知识,如分类中的反常实例,不满足规则的特例,观 测结果与模型预测值的偏差,量值随时间的变化等。偏差检测的基本方法是寻找观测 结果与参照之间的差别。 ( 6 ) 预测。预测是利用历史数据找出变化规律,“即建立模型并用此模型来预 测未来数据的种类,特征等。 东北大学硕士学位论天第2 章相关技术与研究背景 ,粤 一 2 1 2 数据挖掘过程 数据挖掘的过程大体可以分为三步:数据准备( d a t ap r e p a r a t i o n ) 、数据挖掘( d a t a m i n i n 曲和结果的解释与评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) 1 1 5 】。 ( 1 ) 数据准备 数据准备又可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理( d a t a p r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。 数据选取的目的是搜索所有与业务对象有关的数据信息,并从中选择出适合于数 据挖掘应用的数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记 录、完成数据类型的转换等。 ( 2 ) 数据挖掘阶段 数据挖掘阶段首要任务是确定挖掘的任务或目的。清晰地定义出业务问题,认清 数据挖掘的目的是数据挖掘的重要一步。然后,决定使用什么样的挖掘算法。选择实 现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法 来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理 解的知识,而有的用户或系统的目的是获取预测准确度尽可能高的预测型知识。 ( 3 ) 结果解释和评价 数据挖掘阶段挖掘出来的模式,经过用户或机器的评价,可能存在冗余或无关的 模式,这时需要将其剔除;也可能模式不能满足用户要求,这时整个挖掘过程需要重 新选取数据、采用新的数据变换方法、设定新的挖掘参数,甚至采用其它的挖掘算法。 因此,数据挖掘是一个反复迭代的过程。 2 2 数据挖掘中的聚类技术 聚类( c l u s t e r i n 曲【1 6 】就是将数据对象分组成多个类或者簇( c l u s t e r ) ,在同一个簇 中的对象之间具有较高的相似度,而不同簇中的对象差别( 相异度) 较大。其中相异 度是根据描述对象的属性值来计算的,对象间的距离是经常采用的度量方式。聚类分 析方法作为统计学的分支,在多年的研究中主要集中在关于各种距离的聚类分析上 1 1 7 1 。在数据挖掘中,聚类分析主要集中在聚类方法的可伸缩性,对聚类复杂形状和类 型的数据有效性,高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚 类方法上。 东北大学硕士学位论文 第2 章相关技术与研究背景 2 2 1 聚类分析的基本知识 聚类分析是一种重要的人类行为,人就是通过不断地改进下意识中的聚类模式来 学会如何区分各种事物。聚类分析已经广泛地应用于包括模式识别、数据分析、图像 处理、市场分析研究等方面。通过聚类分析,人们可以识别密集的和稀疏的区域,从 而发现全局的分布模式,以及数据属性之间有趣的相互关系【1 8 】。从统计学角度来看, 在聚类分析中常把对象称为样品或个体,把它的属性称为定量或指标,变量的描述可 以定性的或定量的。 一般常用多个指标特征变量来描述一个样本点。指标特征变量可以分为一下3 种,不同类型的指标特征变量有不同的处理策略。间隔尺度:使用连续的实数来表示 的数量信息,比如温度、浓度、长度等。有序尺度:特征变量取离散值,没有数量信 息,但是具有次序关系,比如成绩分为优、良、中、及格等。名义尺度:特征变量取 离散值,不仅没有数量信息,而且也没有次序关系,它仅仅是名称而已。比如肤色分 为黄、白、棕、黑等。 对于间隔尺度的指标特征变量,一个样本点实际上就是础空间中的一个点,可 以很方便地定义加、减、乘、除以及各种复杂运算,它和我们的直观是很一致的。对 于名义尺度特征变量就没有这么便利了,因为对于这种特征变量无法定义合适的运 算。所以,现有聚类分析的大部分研究都是集中在间隔尺度特征变量上,涉及一些有 序尺度特征变量,对于名义尺度特征变量就更少了。 2 2 2 相似性测度 聚类分析按照样本在性质上的亲疏远近进行分类。为了使类分得合理,必须描述 样本之间的亲疏远近的程度【1 9 l 。刻画样本点之间的相似性主要有以下两类函数: 相似系数:两个样本愈加相似,则相似系数值愈接近1 ;样本点愈不相似,则相 似系数值愈接近0 。这样就可以使用相似系数值来刻画样本点性质的相似性。 距离:设使用冗个指标特征变量来描述样本,那么我们就可以把每个样本点看作 咒维空间的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本 点性质较相似,距离较远的样本点差异较大。 2 2 3 类的表示 聚类的表示方法大致有以下几种: 1 0 东北大学硕士学 第一种为 类。 第二种为 ( 1 8 a g e 3 0 ) v ( 8 0 0 s a l a r y o ,3 9 ( x ) :l g o ) 一厂o ) i ,v x e u ( 2 3 ) 该定理表明只要是有限维空间中的连续函数触) ,总存在具有上述神经元特征口 o ) 的三层网络( 盯) ,使得其输出函数g g ) 能以任意精度逼近舷) 。 当。触) 不是连续函数时,为简单起见,令m :i 。 若函数触) 只在阽【- 1 ,1 】上有定义,且满足平方可积条件: ,。i m ) 1 2 d x ( 2 4 ) 则可以将触) 在【- 1 ,1 】上展开成f o u r i e r 级数。在舷) 的连续点处,有限项级数和的 三角形式为: 12 查! ! 垄兰堡主兰竺垒查 苎! 主塑茎垫查皇竺塞塑重 附,叫) 。+ 薹 口删( 批) + b k s i n ( 狨) 】( 2 5 ) 其中口t 2 j = 。,厂o ) c o s ( 勿缸) 出,七= o ,1 ,2 , b k2 j = 。厂o ) s i n ( 娥皿,k ;1 , 2 , f f f , a ;n ) 在均方意义下收敛于触) ,即 v 6 ,科:f 。i f ( ,工,一厂o ) 1 2 出 6 ( 2 6 ) 由此可知,只要存在三层网络( 口) ,能逼近c o s ( 2 兀h ) ,s i n ( 2 奴) 即可。原问题 , - 7 p a 简化为存在( 口) 能够以任意精度逼近s i n ( t ) 臣p 可。 具有s i g m o i d 单元的3 层前向网络能够逼近连续函数或定义于r n 空间紧集上的 函数【2 3 1 。假设s i g r n o i d 函数必须连续或单调,网络逼近函数的能力不是由激活函数的 连续性或单调性决定,而是函数的有界性起了关键作用。具有局部有界分段连续激活 函数的标准前向网络可以逼近任意连续函数至任意精度的充分必要条件是网络的激 活函数是非多项式( 有限阶次) ,并且指出激活函数的阈值有很重要的作用,它是保证 上述充要条件成立的一个重要因素。 ( 1 ) 如果激活函数局部黎曼可积且是非多项式,则前向网络可以一致逼近紧集上 的连续函数【2 4 】; ( 2 ) 如果激活函数局部有界且是非多项式,则前向网络可以l p ( t ) 逼近连续函数, 是具有紧支撑的输入环境测度( i n p u te n v i r o n m e n tm e a s u r e ) 。 因此,在进行负荷预测时,关键是要搞清楚影响负荷及负荷变化的因素是什么? 它们之间复杂的、难以描述的关系可以通过神经元网络进行模拟,如图2 3 所示。 i :- 一l _ + l i :il i :i 1 7 , ;il - 七二 c 旬上近似 c 旬下逛似 图2 3 类c 的样本集的使用c 的上、下近似集的粗糙近似。 f i g 2 3k i n do fcs a m p l ec o l l e c t i o nu s eco n ,u n d e ra p p r o x i m a t ec o l l e c t i o nr o u g ha p p r o x i m a t i o n 1 3 东北大学硕士学位论文第2 章相关技术与研究背景 2 4 数据挖掘应用于负荷预测的关键问题 在负荷预测软件总体模型中引入数据挖掘的目的有以下几点: ( 1 ) 寻找影响负荷变化的因素。寻找影响负荷变化因素最重要的一条途径是对负 荷特性的聚类分析结果中的孤立点进行研究,通过比较孤立样本点与其它正常样本点 之间在已知影响因素上的差别,来分析是否有新的影响因素在起作用。在实际研究中, 那些包含元素少的类也需要对其进行分析。 ( 2 ) 寻找相关影响因素变化时负荷的变化情况规律。可以通过分析某些具有相同 的、特定的影响因素的负荷特性,来对负荷规律进行探索,如温度达到一定程度之后, 每升高一度,负荷的特性如何变化? 双休日负荷特性在不同的季节如何表现等。 ( 3 ) 改变现有预测模型算法样本选择的方式。现有方法一般仅选择离它最近的时 间段的样本进行分析,虽说有关研究,也加入了前年的同季样本,但这可能将具有相 同天气特点、特殊事件等主要影响因素的一些历史样本排除在外,这显然是不明智的。 ( 4 ) 决定网络训练样本和预测输入样本,对预测模型选择提供参考。负荷预测智 能化模型的关键就是通过数据挖掘决定网络训练样本和输入样本,通过对以往负荷的 测试记录和预测记录进行分析,对预测模型算法提供指导。它的实现依赖于描述性的 数据挖掘分析。 以上几点,现有预测方法要么是很难实现的,要么没有考虑,本文希望通过数据 挖掘对此进行分析。它们可以视为需要通过数据挖掘发现的“有趣”模式,指导数据 挖掘引擎进行数据分析和知识发现。 数据挖掘功能用于指定数据挖掘任务中要找的模式类型【矧。一般地,数据挖掘任 务可以分两类:描述和预测。描述性挖掘任务刻厕数据库中数据的一般特性。预测性 挖掘任务在当前数据上进行推断和预测。本文在运用数据挖掘技术时,即分两步走, 首先,在安装负荷预测软件之后,针对现有历史数据库,构造数据支撑平台,进行描 述性数据挖掘,寻找有趣模式,并记录相关的重要中间结果( 实现第1 、2 个目的) , 然后,在每日进行预测时,输入预测信息进行预测性挖掘,决定训练和预测样本,并 对模型选择提供监督( 实现第3 、4 个目的) 。此外,每隔一段时间( 如一周或一月) , 对整个数据集重新执行一次描述性数据挖掘。本文采用数据挖掘的这种特殊模式主要 是考虑到效率问题,每次预测对数据集进行如聚类分析等描述性挖掘是费时也是不必 要的,这是由于当数据集充分大时,少量的数据不会对整个负荷数据及其影响因素空 间产生大的影响和改变。 14 东北大学硕士学位论文第2 章相关技术与研究背景 数据挖掘应用于负荷预测的个难点,即必须要求有一个好的数据分析专家,同 时要有非常友好的人机界面1 2 6 1 ,这无疑会大大增加整个负荷预测软件的难度和强度。 一方面一个好的应用软件应该减少专家的人为介入,否则软件的普适性很差,应用成 本相当大。另一方面,数据挖掘在整个负荷预测软件中只是一个中间件,它的目的是 为负荷预测提供各种知识,人机界面的设计会使软件设计的难度和成本大大增加。如 何使预测软件直接获得这种知识,减少专家的参与是一件具有挑战性的工作,也是一 项必须去克服的难题。 数据挖掘应用于负荷预测的另一个难点是历史数据的准确性和完整性难以达到。 一方面s c a d a ( s u p e r v i s o rc o n t r o la

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论