




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)基于数据挖掘的短期负荷预测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 针对电力负荷受到多因素的影响以及典型训练样本选择问题,提出了一种基于 数据挖掘技术的新型短期负荷预测方法。首先利用小波奇异性检测原理和软阈值细 节消噪法对原始负荷数据进行剔除异常值预处理。其次将处理后的负荷序列利用小 波变换分解为不同的频率分量。对于每一分量,利用信息熵与主成分分析法联合对 负荷影响因素约简;利用动态聚类法由少到多自动确定网络隐层节点数和训练样本 集;在采用动态聚类和最小二乘初始化网络的基础上,通过蚁群算法优化网络参数。 最后,通过小波重构得到真正的曰负荷预测结果。利用本文方法对实际的地区电网 进行了测试,结果表明,该方法具有较高的预测精度和较强的适应能力。 关键词:短期负荷预测,数据挖掘,小波分解,径向基神经网络 a b s t r a c t f o r 墨m u l t i f a e t o rp o w e rl o a dp r e d i c t i o np r o b l e ma n dt y p i c a lt r a i n i n gs a m p l e s e l e c t i o n ,an e wm e t h o df o rs h o r t - t e r ml o a df o r e c a s t i n g ( s t l f ) b a s e do nd a t am i n i n g i sp u tf o r w a r d f i r s to f a 1 1 t h r o u g ha d j u s t i n ga m p l i t u d eo fw a v e l e tm o d u l u sm a x i m aa n d p r o c e s s i n gt h ew a v e l e td e c o m p o s e dd e t m ls i g n a tb ys o f tt h r e s h o l db a s e do rw a v e l e t a n a l y s i sa n ds i n g u l a r i t yt h e o r y , f a u l td a t ai no r i g i n a ll o a d sa r ee l i m i n a t e d t h e n ,t h r o u g h w a v e l e tt r a n s f o r m ,t h ep r o c e s s e dl o a ds e q u e n c ei sd e c o m p o s e di n t od i f f e r e n tf r e q u e n c y p a r t s f o re a c hp a r t ,i n f o r m a t i o ne n t r o p ya n dp r i n c i p a lc o m p o n e n ta n a l y s i sa r ei n t e g r a t e d t or e d u c el o a di n f l u e n t i a lf a c t o r s ;d y n a m i cc l u s t e r i n ga n a l y s i si su s e dt oa u t o m a t i c a l l y d e t e r m i n eh i d d e nn o d e sa n dt r a i n i n gs e t ;a n tc o l o n yo p t i m i z a t i o na l g o r i t h mi se m p l o y e d t oo p t i m i z et h en e t w o r kp a r a m e t e r si n i t i a l i z e db yd y n a m i cc l u s t e r i n ga n dl e a s ts q u a r e m e t h o d f i n a l l y t h ee v e n t u a lf o r e c a s t e dr e s u l t sa r eo b t a i n e dt h r o u g hw a v e l e tr e s t r u c t u r e t h et e s t i n gr e s u l t so fs t l fi na c t u a lp o w e rn e t w o r ks h o wt h a tt h ep r o p o s e dm e t h o d p o s s e s s e sh i g h e rf o r e c a s t i n ga c c u r a c ya n d b e t t e ra d a p t a b i l i t y k a n gl i f e n g ( s i g n a la n di n f o r m a t i o np r o c e s s i n g ) d i r e c t e db yp r o f y i nc h e n g q u n & i n s t r u c t o rs u nw j i k e yw o r d s :s h o r t - t e r ml o a df o r e c a s t i n g ,d a t am i n i n g ,w a v e l e td e c o m p o s i t i o n , r b fn e u r a ln e t w o r k l 声明 本人郑重声明:此处所提交的硕士学位论文基于数据挖掘的短期负荷预测方 法研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工 作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:兽函虹日期:立巧l l 坐一 i 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交字位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅:学校 可以学术交流为目的,复制赠送和交换学位论文:同意学校可以用不同方式在不 同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:导师签名: 华北电力大学硕十学位论文 1 1 电力负荷预测的意义 第一章引言 随着国民经济的发展和人民生活水平的提高,电力作为一种非常重要的能源, 已经深入到社会的各个角落,人们对电能质量的要求也越来越高。由于电能不具有 存储性,发电过量,就会导致电能浪费,费用增加,造成经济损失;而发电不足, 又不能满足电力用户的需求,导致用电紧张,影响电力系统的安全稳定。如果从邻 近电网高价购买电能或利用费用高的发电机组承担负荷,同样也会造成经济损失。 因此,负荷预测对发电、输电和电能分配等方面的合理安排有着重要的影响,是实 现电力系统安全、稳定、经济运行的保障,是电力系统规划、计划等管理部门做出 正确决策的依据。 负荷预测是指以准确的历史数据和调查资料为依据,从用电量的历史和现状出 发,用科学的方法预测未来电力系统负荷发展趋势和变化规律的科学。根据预测 时间跨度的不同,一般可以分为长期、中期、短期和超短期负荷预测【2 1 。长期负荷 预测一般指1 0 年以上并以年为单位的预测,中期负荷预测指5 年左右并以年为 单位的预测。它们的意义在于帮助决定新的发电机组的安装( 包括装机容量大小、 型式、地点和时间) 与电网的规划、增容和改建,是电力规划部门的重要工作之一。 短期负荷预测是指一年之内,以月、周、r 、小时为单位的负荷预测,通常预 测未来一个月、一周、一天的负荷指标,也预测未来一天2 4 小时的负荷。其意义 在于帮助确定燃料供应计划;对运行中的电厂处理要求提出报告,使对发电机组出 力变化事先得以估计;经济合理地安排本网内各机组的启停,降低旋转储备容量, 在保证正常用电的情况下合理安排机组检修计划。 超短期负荷预测是指提前l 小时、半小时甚至l o 分钟对负荷进行预测,主 要用来对电网进行在线控制,对发电厂进行合理调度,以提高电网的经济性和安全 性。 对于电力系统来说,与人们的同常生活生产密切相关的是短期负荷预测,故本 课题的研究对象为短期电力负荷预测。 1 2 短期负荷预测的研究现状 国内外关于短期负荷预测的研究早在二十世纪五六十年代就丌始了,不过主要 是靠有经验的人进行人工预测。从七十年代丌始,开展了大量以电力负荷预测模型 和方法为主体的研究。这一阶段提出的各种预测方法可以归结为两类:基于参数模 型的方法和基于非参数模型的方法。 l 华北电力人学硕十学付论文 基于参数模型的方法就是通过分析负荷与历史负荷及负荷影响因素之i 日j 的定 性关系,建立负荷预测的数学模型或统计模型,如回归模型、时间序列模型、趋势 外推模型等,通过对历史数据的估计可得到这些模型的参数,并且通过模型的残差 ( 如预估误差) 来评价模型。该方法具有结构简单、运算量小、训练时j 日】短、所需 的历史数据较少等优点。然而,由于负荷预测具有非线性、时变性和不确定性,要 通过清晰的数学方程表达输入与输出之间的非线性关系存在如下困难:( 1 ) 影响负 荷的因素很多,且错综复杂,影响程度又随用户类别而异,对它们之间的关系很难 建立一个合适而且精确的数学模型;( 2 ) 估计和调整模型参数也存在着困难。因为 模型参数是从历史数据估计出的,而这些历史数掘很可能已无效,已不能反映当前 负荷的变化。( 3 ) 不具备自学习,自适应能力,在扰动情况下预测系统的鲁棒性没 有保障。因此,电力系统工作者和专家将注意力集中在能充分发挥计算机的信息处 理能力,而又不过分依赖于准确的数学模型的基于非参数模型的方法。 基于非参数模型的方法优于传统方法的地方在于它们考虑了负荷预测系统的 鲁棒性,并且在非线性关系下具有较强的逼近能力。非参数模型的建立方法主要有 灰色理论、专家系统、模糊逻辑、神经网络等。其中,神经网络从二十世纪九十年 代起,一经提出就成为电力工作者研究的重点,至今方兴未艾。 1 2 1 神经网络在短期负荷预测中的应用 神经网络具有高度的非线性映射能力,强大的自学习、自适应能力和优良的联 想记忆功能。如果神经网络结构构建合理,并用准确的历史负荷数掘和相关的影响 因素数据对网络训练,网络就能够学习训练数据中蕴含的规律,并将这种规律保存 在权值矩阵中。i j i i 练好的网络就可以完成电力负荷预测工作,并且预测具有较高的 精度。因此,自从1 9 9 1 年美国学者p a r k 等人提出用神经网络预测电力负荷以来, 该领域受到极大的关注,许多学者对此展开了探讨和研究。 由于最初提出用于负荷预测的神经网络采用传统的b p 算法,具有易陷入局部 最小、收敛速度慢的缺陷,人们纷纷从学习算法、0 1j 练样本、网络自身结构及与模 糊、小波等理论的结合多个方面想方设法对其改进。国外进行了大量理论研究,达 到了较高的水平,部分已投入实际应用,国内也有了比较系统的研究。清华大学张 伯明教授从改进学习算法入手,采用共轭梯度法训练神经网络p j ,国内著名人工智 能学者蔡自兴教授则将多层感知器与一种全局优化算法多分辨遗传算法结合l jj ,均 避免了局部最优。华中科技大学的熊信艮教授从训练样本入手,提出了相似性样本 选择原理【4 l ,浙江大学的汪乐宇教授则引入了数据挖掘技术中的模糊聚类法pj ,均 使网络i ) l l 练的数据源合理、适量。东南大学的单渊达教授从网络自身的结构入手, 采用径向基函数( r b f ) 代替s i g m o i d 函数作为神经网络的基函数,从而出现了一 种学习速度比b p 网络快的多的径向基网络预测法【”。华北电力大学的牛东晓教授 2 华北电力人学硕十学位论文 将小波理论和神经网络结合【7 j ,国家电力科学研究院的胡兆光老师将a i 和模糊系 统结合邛j ,超越了神经网络单一方法的负荷预测模式,预测效果都较好。 总体上来说,随着电力市场的快速发展,电力负荷影响因素的急剧增多,数据 量的急剧增大,单一神经网络预测法已不能满足当前对电力负荷预测精度和预测速 度的要求,而数据挖掘恰恰可以有效处理大数据量的情况。因此,将神经网络与其 他数据挖掘技术优化组合,取长补短。是当前短期负荷预测方法研究的热点和重点。 1 2 2 短期负荷预测中常用的数据挖掘技术 数据挖掘是指从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的 知识和规则的过程,提取的知识可以表示成概念、规则、规律、模式等形式。数掘 挖掘过程包括数据准备、知识提取、知识表示与评估三个阶段1 9 l l l 。 ( 1 ) 数据准备:这个阶段又包括数据清理、数掘集成、数据变换及数掘归约 等步骤,主要完成对原始数据提取、清理、聚集、汇总等操作。 ( 2 ) 知识提取:这个阶段进行实际的挖掘操作,运用选定的数掘挖掘算法, 从数据中提取用户所需的知识。这一阶段又包括:a 、决定产生知识的方式,包括 发现型和验证型两种方式:b 、选择合适的挖掘技术与方法;c 、挖掘知识的操作;d 、 证实发现的知识等步骤。 ( 3 ) 知识的表示与评估:将发现的知识以用户可以理解的方式呈现、提交给 决策者。如果不能令决策者满意,要重复上述挖掘过程。 数据挖掘是一个多学科交叉的研究与应用领域,主要涉及到人工智能、机器学 习、神经网络、统计学和模式识别等领域。因此,在整个挖掘过程中采用的技术也 涉及到上述多个领域,主要包括:信息论法、集合论法、仿生物法、统计分析法、 模糊论法等。 面对电力系统迅速膨胀的数据信息量,针对系统运行安全性、经济性的要求, 将数据挖掘用于负荷预测是非常有利的,尤其是对短期负荷预测。由于环境因素、 社会信息等变化较大使得预测精度并不理想,而数据挖掘则可以根据用户信息、气 象条件、社会环境、电力数据等寻找其中不为大家所熟悉和了解的规律,提高预测 精度,故本文提出了基于数据挖掘的短期负荷预测的思路。 1 3 本论文的主要工作 本论文主要从数据挖掘的分类与预测、关联分析和聚类三大任务的角度出发, 采用相应的数据挖掘技术神经网络、粗集论、进化计算、聚类分析、小波变换及统 计学方法主成分分析等,对短期电力负荷进行预测。所完成的工作包括: ( 1 ) 采用小波奇异性检测原理和软阈值细节消噪法对负荷历史数掘进行预处 3 华北电力人学硕十学位论文 理,从而为精确的预测做好数据上的准备。 ( 2 ) 通过小波变换对负荷的内在特性进行深入分析,比较全面且准确的确定 对负荷影响较大的相关因素。 ( 3 ) 采用收敛速度快,样本需要量少,推广能力强的r b f 网络作为短期负荷 预测模型内核。 ( 4 ) 将数据挖掘中的粗集论与统计学理论中的主成分分析法结合解决神经网 络输入参数问题。 ( 5 ) 针对一般隐含层节点数目难以确定的问题,本文引入一种可以动态增加 节点数目的方法一动态聚类法,并由此确定r b f 网络隐节点函数的中心和训练样 本的类别数。 ( 6 ) 由于b p 算法易陷入局部最小的缺陷会限制r b f 网络的优点,考虑设计 一种新的混合学习算法,即在采用动态聚类和最小二乘法初始化网络的基础上,通 过蚁群优化( a c o ) 算法调整网络参数。 ( 7 ) 采用本文所提方法( 小波分解与基于a c o 算法的r b f 网络结合的预 测方法) 与下列三种模型 模型1 :基于a c o 算法的r b f 网络的预测方法( 不采用小波分解) 模型2 :小波分解与基于a c o 算法的b p 网络结合的预测方法( 不采用r b f ) 模型3 :小波分解与基于b p 算法的r b f 网络结合的预测方法( 不采用a c o ) 对实际地区电网一天2 4 h 的整点负荷进行预测,对其预测结果运用以下几个性能 指标:均方根误差( r m s e ) 、平均绝对百分误差( m a p e ) 、最大相对误差( m a x e ) 、 相对百分误差及运行时间进行比较,并绘制预测曲线。 4 华北电力大学硕十学位论文 第二章电力负荷数据的预处理 2 1 电力负荷数据预处理的意义 由于我们获取的原始负荷数掘来自于电力系统的s c a d a 数据库,在数掘采 集、转换、传输的各个环节都有可能受到干扰或发生故障,导致数掘异常。另外, 当系统出现故障、系统失去负荷、短时的系统冲击负荷、瞬时故障跳闸、重合闸以 及出现拉闸、限电等现象时,这些突发的负荷变动显然会对负荷的规律性造成破坏。 我们把由于随机干扰和冲击负荷导致电力系统历史负荷反常态势的数掘统称为异 常数据,它们将以伪信息、伪变化规律的方式提供给负荷预测作为参考,必然影响 负荷预测的精度和可靠性。因此,在建立负荷预测模型之前,对原始负荷数据进行 预处理是必要的。 2 2 电力负荷中异常数据的处理 对于电力系统负荷中异常数据的识别及处理,研究人员已经提出了一些方法, 如:经验修正法、分时段设定阈值法、曲线置换法、数据对比法、插值法、概率统 计法等。这些方法对于首元素是异常数据及大段异常数据连续存在的情况,易产生 误判和漏判。因此,近年来,人们又开始致力于数据挖掘方法对异常数据的处理。 先利用聚类算法从大量可能含有异常数据的负荷曲线中提取特征模式( 把聚类中心 矢量作为负荷特征模式) ,然后利用分类算法将含有异常数据的曲线模式同特征曲 线模式分开来实现异常数据的辨识,再采用适当的调整方法进行异常数掘修币。由 于此法可以准确确定异常数据出现的位置,所以是负荷预测中数据预处理的常用方 法,但这种方法不能对随机干扰导致的异常数据进行处理。随着小波理论的发展, 根据小波分析和局部奇异性原理,通过模极大值的调整和细节信号的软阈值处理柬 检测并消除异常数据的方法得到了广泛的推广。 本文就采用了小波奇异性检测原理与软阈值细节消噪法,并通过具体的负荷预 测实例与聚类分类法i 】进行对比,验证了所选方法的合理性和币确性。 2 2 1 小波奇异性检测原理消除冲击负荷 由小波奇异点检测的基本原理可知,如果选择小波函数为平滑函数的一阶导 数,对信号进行多尺度分析,在信号异常点处,其小波变换后的系数具有模极大值。 由于小波变换每一尺度的局部模极大值浓缩了该尺度的主要信息,故由伪数据引起 的异常信息将主要通过模极大值体现,因此,通过小波变换的模极大值点可以检测 到信号中可能的异常点并进行处理【2j 【1 引。具体的检测与消除方法如下: 5 华北电力大学硕士学位论文 设第f 天,时刻的负荷经小波变换后第j 尺度的小波变换值为职( f ,_ ,) 。计算 模极大值为: 若l 彬( f ,一1 ) i c 阿( f ,州n 阿( f + 1 ) i t 限( f ,州,则w s ( i ,d 是极大值点,记为 m a x ( f ,d ( 1 ) 对存在正负模极大值的分解结果,分别计算正、负模极大值的平均值为: 则“班蹲: 旷- = 击耋既( “) ,儿( “) 。 唬= 击喜睨( “) ,既( “) t 旷, 既( f ,) 1 2 w 彬。( f ) 0 为尺度因子;r 为位移因子,可萨可负:( ,) 为母小波。小波妒要 求满足容许性条件: c 一一弹。 此时可由信号的小波变换恢复出原信号,恢复公式为: 巾)=古j!啊(口,州。(,)da厂dro- 一 “ ( 3 2 ) ( 3 3 ) 小波函数驴( 0 经整数缩放和整节点平移生成时间一频率空日j 中的函数族,构 成了离散小波 九。( f ) ) h 。设“,) e l 2 ( r ) 是待分解信号,根据小波级数展开有: ( 1 ) = d k q j k 。( t ) ( 3 4 ) 其中,d k = ( f ,九) ,t ,”z 。 m a l l a t 给出了代替上式的一个离散算法,即金字塔算法。其计算过程如下1 2 0 】: 分解: 重构: c 。k 。1 - - - y :c 瓦 d :。去毛c 石 ( 矿n ) 。2 击毛k : ( e - a ) 。2 古乏昧: 1 3 ( 3 - 5 ) ( 3 - 6 ) ( 3 7 ) ( 3 8 ) 华北电力大学硕士学位论文 式中,c :,d :为相应小波的分解系数;吩、舒为相应小波的离散滤波器。 利用小波的分频性能可以提取相邻频带的不同信息,而且各频带内的信息相互 正交,没有冗余,避免了因小波变换结果之间的关联造成分析的困难。负荷信息中 的线性变化分量和高频随机分量经小波变化后。其频谱将呈现明显的分离特征【2 ”。 故本文中采用小波理论对负荷序列进行分解以聚焦到负荷的细节频率分量。 3 2 2 小波分解中影响负荷预测的关键因素 母小波和分解尺度的合理选择是关系到电力负荷预测精度的关键问题1 2 2 l 2 3 】。 ( 1 ) 母小波的选择:负荷预测中常用作母小波的是正交小波d b l ,d b 2 和双 正交小波b i o r 5 5 。考虑到双正交小波具有对称性,保证了小波的滤波特性具有线性 相位,在信号的分解和重构中不易造成失真。所以,本文中的母小波采用具有对称 性的双正交小波b i o r 5 5 。 ( 2 ) 分解尺度的选择:分解尺度太小会丢失负荷频率成分,尺度太大也并不 能明显提高预测精度,反而会降低计算的效率。一般认为,将负荷数据分解为尺度 3 是比较合理的。 ( 3 边界问题的处理:小波交换时。对于边界问题的处理目前提出的解决方 法大致分为三类,其中最简单的是边界延拓。边界延拓通常有对称延拓、周期延拓 和平滑延拓等。对于对称的双正交小波,一般选择对称延拓方式。 3 2 3 初选负荷相关影响因素 本文中按照3 2 2 确定的母小波和分解尺度,通过对负荷数据序列小波分解详 细分析负荷特性,从而初选出比较全面且准确的影响因素。以华北某地区电网2 0 0 2 年4 月份最后两周的负荷数据为例,采用双正交小波b i o r 5 5 分解至尺度3 ,分 解结果如图3 - 4 所示。 ;0000aof i 天= i 石孓二了= = = i 万互j :巧= 1 0 匕! 二竺= 二:、竺:二二:二二= = j 0 5 0 1 1 5 02 2 , 5 03 0 0 3 5 0 n 3 醐e 至三三至三三至三! 歪_ 盒05 0 1 0 01 5 02 0 02 5 03 0 03 5 0 羹击弱严乎乎孕晋黑。 比;器匝巫巫巫至巫巫亚互巫珂 们,盅嶝! 坚竺笪型竺竺竺竺堂堂堂- j l i , t 问,l l 图3 - 4 华北某地区两周负荷序列的小波分解 华北电力人学硕十学位论文 在图3 - 4 中,口0 是原始负荷数据序列,a 3 是其低频部分( 即近似部分) ,主 要是周期分量及非周期负荷分量;奶、以、d l 为高频部分( 即细节部分) 。d l 主 要表现为随机分量,砣主要体现日周期分量及部分随机分量,奶主要是周期分量、 非周期负荷分量及部分随机分量。从图中可以看出,原始负荷序列口o 经小波分解 后,各频率分量都表现出不同的特性。近似部分n 3 曲线比较光滑,基本保持了原 负荷曲线的形状,同原始负荷曲线具有相同的特性:日和周的周期性、连续性;细 节部分以除了具有口3 的特性外,还具有隐藏的半日周期性;细节部分以其只 周期中内嵌了4 个短周期,说明负荷序列每日内出现4 次典型的耗电量波动,经研 究表明,对于以选择和以相同的影响因素预测效果较好;细节部分d l 主要是 随机分量,具有短时依赖关系。根据上述分析,对于各频率分量构成的子序列,初 选取的负荷相关影响因素如表3 1 所示。 表3 - 1 各子序列的负荷相关影响冈索 序列影响因素 ,( f 2 1 ,f ) ,t ( i - 2 1 ,f 1 ) ,砸一2 l ,f _ 2 ) ,“f 一2 l ,f 一3 ) ,砸一2 1 ,什1 ) ,t ( i 一2 1 ,f + 2 ) , j ( j - 2 1 ,f + 3 ) ,( f - 1 4 ,) ,z ( i 1 4 ,t - 1 ) ,t ( i 1 4 ,一2 ) ,( f 1 4 ,r 一3 ) ,“f - 1 4 ,+ 1 ) ,t ( i 一1 4 ,f + 2 ) , f ( f 1 4 ,f + 3 ) 砸7 ,) ,l ( i - 7 ,t - i ) ,t ( i - 7 ,t 一2 ) ,l ( i - 7 ,- 3 ) ,f ( f 一7 ,+ 1 ) ,l ( i - 7 ,+ 2 ) ,l ( i - 7 ,t + 3 ) t ( i 3 ,f ) ,t ( i 3 ,t 0 1 ) ,1 ( i 一3 ,t 2 ) ,z c i 一3 ,f 一3 ) ,z ( i - 3 ,十1 ) ,l ( i 3 ,f + 2 ) ,1 ( i 一3 ,f + 3 ) l ( i 2 ,r ) ,l ( i - 2 ,- 1 ) ,t ( i 一2 ,f 一2 ) ,t ( i 2 ,f - 3 ) ,t ( i 一2 ,f + 1 ) ,l ( i 2 ,f + 2 ) ,t ( i 一2 ,t + 3 ) t ( i 一1 ,f ) ,t ( i - 1 ,t - 1 ) ,t ( i 一1 ,f - 2 ) ,l ( i 一1 ,f 一3 ) ,t ( i 一1 ,f + 1 ) ,l ( i 一1 ,f + 2 ) t ( i - 1 ,t + 3 ) ,( f ,f - 1 ) ,t ( i ,t 一2 ) ,l ( i ,f 一3 ) d ( ,) ,d ( i 一1 ) ,d ( i 一2 ) ,d ( i 一3 ) d 3 d 2 t ( i ,一1 2 ) ,t ( i 1 ,f - 1 2 ) ,t ( i 2 ,一1 2 ) 及口3 中所有项 饥 前2 4 时刻的负荷,d ( f ) ,d ( i - 1 ) 注:表中l ( i ,) 表示第i 天第t 时刻的负荷值。d f ) 代表第i 天的日类型 从表3 1 中可以看出,对于某一时刻不同予序列负荷的影响因素也不相同,只 有通过分析不同子序列的负荷特性,选择出比较合适且较准确的因素,负荷预测才 能更加精确。 1 5 华北电力人学硕十学佛论文 第四章电力负荷预测的径向基神经网络模型 径向基网络( r b f ) 具有良好的推广能力,在用于对复杂函数关系的问题做泛 函逼近时,具有较高的精度;而且由于网络本身的结构特点,具有局部逼近能力, 学习速度比常规的b p 算法要快的多,因而具有十分广阔的应用前景。 4 1r b f 神经网络的结构 r b f 网络是一种性能优良的前馈型神经网络,可以在任意精度下逼近任意的非 线性函数。它的典型结构是一个三层前向网络f 2 ”,包括输入层、隐含层和输出层, 结构如图4 1 所示。 输入层隐含层输出层 图4 - 1r b f 网络的结构 在图4 1 中,r b f 网络的输入层直接由信号源节点构成,其作用只是接受输 入信号并将其传递到隐含层。该层神经元函数均为线性函数,与隐含层之f 8 j 的连接 权值固定为l 。隐含层是r b f 网络中最重要的一层,其节点数由所求解问题的具 体情况而定。该层神经元的传递函数为径向基函数,即一种满足局部分布的对中心 点径向对称衰减的非负非线性函数。输出层节点的输出是隐含层非线性基函数输出 的线性组合( 其连接权值是可调的) 。输入信号在隐层节点传递函数的作用下产生 局部响应,当输入信号的值接近径向基函数的中心点时,隐层节点将产生较大的输 出。这种网络具有较强的局部逼近能力,因此r b f 网络也称为局部感知场网络, 收敛速度快,而且不会陷入局部最小。 4 1 1r b f 网络输入层节点数的确定 r b f 网络输入层节点数是由该网络所映射的非线性函数的输入变量个数决定 的。在本文中,由于是用r b f 网络进行短期负荷预测,故输入变量就是负荷相关 影响因素,输入节点数就是负荷相关影响因素的个数。在第三章表3 - l 中我们已经 列出了根据小波分解后的负荷特性和研究经验仞选的影响因素,从表中可以看出, 由此确定的负荷影响因素的数目是比较大的,如果不加处理的直接将这些因素全部 1 6 华北电力大学硕十学位论文 作为网络输入变量,网络规模就会非常大,因而网络运行时间就会很长,不容易收 敛。另外,这些初选出的影响因素是否每一个都对负荷很重要,较多不很重要因素 的存在是否会淹没重要因素的作用,它们之白j 是否存在相关性,是否可以用少许独 立交量代替具有相关性的因素且基本不丢失信息。基于上述考虑,本文提出了将粗 糙集( r s ) 信息熵法和统计学主成分分析法( p c a ) 结合对初选因素进行约简,从 而选择出对负荷作用重大且彼此间互不相关的影响因素。通过这样的数据处理,作 为网络输入变量的负荷影响因素的个数大大减少,网络结构的规模也大大降低,运 行时间缩短,而且易于收敛。 4 1 1 1r s 理论及信息熵的相关概念 r s 是波兰科学家z d z i s l a w p a w a k 在2 0 世纪8 0 年代初提出的,其特点是不 需要预先或附加给定某些属性的数量描述,直接从给定问题的描述集合出发,通过 不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题中的内在规 律,反映了知识的不确定程度【”l 。 属性约简是粗糙集理论研究的核心内容之一。对于许多大型决策系统而言,仅 有部分条件属性必须保留,如果能将冗余属性删除,则可大大提高系统潜在知识的 清晰度,这一过程称为属性约简。基于租糙集理论的属性约简研究,传统的方法是 从代数的观点出发,以不可分辨关系为基础,通过引入上近似集和下近似集,计算 逼近精度而实现属性约简,这种约简方法是基于属性重要性的约简法。苗夺谦, d u n t s c h 和g e d i g a 等人从信息论角度,建立了知识与信息熵的关系,通过引入知 识熵和条件熵展开属性约简问题的讨论t 2 6 】【2 7 】【2 8 】【29 1 。 对一个包含决策和条件属性的决策表,如果两条记录的条件属性一致,决策属 性不一致,则称这两个记录信息不一致。对于不包含不一致信息的决策表,代数法 和信息论法等价。对于不一致的决策表,即包含冲突信息,代数观点的属性约简不 一定是信息论观点的属性约简,但信息论观点的属性约简一定是代数观点的属性约 简 3 0 l 。因此,属性约简的信息论观点更加有效的选择重要属性,删除冗余属性。 另外,孙才新、张晓星等人提出了一种基于优先级函数的粗糙集约简法1 3 “,该 方法在计算过程中摆脱了对原始数据表的依赖,算法比较灵活,但约简历时较长。 故本文中选择了基于粗糙集理论的信息熵法对负荷影响因素约简。 用,表示论域,属性集合中的条件属性集合记为c ,决策属性集合记为d 。 月c 、矗d 分别表示u 上基于条件属性集合c 、决策属性集合d 的等价关系,其 相关概念如下1 3 2 】【3 3 j : 定义4 1r f 在上的子集的概率分布为: 1 7 华北电力人学硕十学位论文 p ( 【川) = 1 丌i x 1 1 ( 4 1 ) 式中,】u r 。,表示u 的月c 等价类;i 【加| 表示集合啪的“势”,在此可用 冈所含元素个数表示。 定义4 2 知识月c 的信息熵h ( r c ) 为: ( r c ) = 一p ( x ) l o gj p ( x ) x f 定义4 3知识胄d 相对于知识贾c 的条件熵为: ( 4 2 ) 片( 月。i r c ) = 一,( 【】) | d “y 】l 【x 】) l 。gp ( 【r 】i 【】) ( 4 - 3 ) j【r 】 式中,【r e u r o ;尸( i 【工】) = i i t n i x x f 。 定义4 4条件属性集c 中属性。关于决策属性d 的重要程度z ( c ,d ) 为 ,( q ,d ) = ( f 一。) 一h ( r 。l 耳) - ( 如l r ,) ( 4 - 4 ) 式中,“c 。d ) 的值越大,表明在条件属性集c 中,属性。对决策属性d 越重要。 若,( c d ) = 0 ,则属性。是多余的,可从条件属性集中去掉。属性集c 简化为 c - c , 。在实际应用中,常常需要设定一个重要性闽值1 0 ,若l ( c ,d ) i o ,则属性c 对决策属性是重要的,取所有大于阈值的属性构成最终的约简集。 4 1 1 2 基于信息熵的负荷预测最佳约简集发现 由上述4 1 1 1 节中对粗糙集信息熵观点的讨论可以看出,如果将负荷预测系 统看作是一个决策系统,小波分解后根据负荷特性初选出的负荷相关影响因素看作 是条件属性集,预测负荷为决策属性,则从所有可能的相关影响因素中除去冗余或 次要的因素,选择出重要的因素,即是属性约简的问题。 定义4 4 既给出了粗糙集信息论观点下属性重要性的衡量标准,也给出了由全 部条件属性集为初始属性集开始进行约简的判断依据。 设待挖掘的负荷数据库t = ,其中c 、d 分别为影响因素属性集和 待预测负荷属性。则最佳约简集的发现过程主要分为三步: ( 1 ) 建立关系数据表:由条件属性集c 和决策属性d 构成初始决策表。 ( 2 ) 属性值离散化:对待挖掘的负荷数据库r 各属性上的取值分别进行合理 1 8 华北电力大学硕十学位论文 分类,并以类别标识代替各记录在该属性上的取值,形成离散化后的负荷数据库 t a 。 ( 3 ) 负荷预测最佳属性集发现:对离散化后的负荷数掘库别,将相关影响因 素集c 作为初始的条件属性集,根据定义4 4 提出的属性重要性的衡量标准及属性 约简的判别依据,按照定义4 1 、定义4 2 、定义4 3 和定义4 4 的公式对c 进行逐 步约简,删除次要和冗余属性,得到负荷预测的最佳约简集。 下面分别给出属性值离散化和最佳属性集发现的算法。 ( 1 ) 基于增减量的属性值离散化方法 对属性值进行分类以实现属性值离散化时,典型的分类方法有等深划分、等宽 划分及模糊聚类等【”1 。但是分类过多,会导致属性集合引导出的等价划分过细,无 法形成有效知识:而分类过少,又不能很好的反映数据分布特征。事实上,在此处 需要考虑的仅仅是相关因素对待预测负荷是否影响及影响程度,因此,我们选择了 一种更加简单易行的基于增减量的属性值离散化方法。 假设待挖掘的负荷数据库r 已按照时间顺序对样本记录进行了排序。对于每 条记录,每个属性值离散化后只有0 和1 两种取值。对于数值型属性,在时i 日j 顺 序上,若后一条记录与前一条相比值有所增加,则离散化值为1 ,否则为0 。对于 类别型属性,在时间顺序上,若后一条记录与前一条相比类别有所不同,则离散化 值为1 ,否则为0 。据此,待挖掘的负荷数据库r 离散化为只有0 和l 的数据 库t a 。 ( 2 ) 基于信息熵的最佳属性集发现算法 输入:离散化后的负荷数据库t a = ,其中,c 为相关影响因素集, d 为待预测负荷。 输出:条件属性集c 的一个最佳约简集口。 s t e p l :计算趴中d 相对于c 的条件熵h ( r o ir c ) s t e p 2 :令嚣= c ,设置属性的重要性阈值e ,并设循环次数f 的初值为0 r e p e a t 1 ) i = f + j ,取离散化后的数据库尉中的第i 个属性a , 2 ) 计算d 相对于丑删除以后的条件熵h ( r 。ir 。) 3 ) 如果片( i r 。) = h ( r 。i r ) 表明属性嘶是冗余的,应当约简,b = b 一 嘶 否则 表明研是重要属性,不能约简,b 不变 u n t i l 属性集口不再发生变化 1 9 华北电力大学硕士学位论文 4 1 1 3 基于信息熵的负荷预测实例 本文以华北某地区电网2 0 0 2 年9 月l 同负荷的口3 分量预测为例,按照 4 1 1 2 中所述的算法对该序列寻找最佳约简集,并通过采用l e v e n b e r g m a r q u a r d t 算法的3 层b p 网络预测后的结果如表4 1 所示。另外,还将本文采用的信息熵 法约简后预测的结果与未约简、基于属性重要性原则、基于优先级函数的方法约简 后的预测结果进行了对比。 表4 一l 三种基于粗糙集的属性约简泫的对比 从表4 1 中可以看出,采用信息熵法寻找的最佳约简集中属性的个数为2 3 , 是最少的,说明该方法约简效果较好。由于网络输入变量最少,在隐节点个数相当 的情况下进行负荷预测时,网络运行时间也是最短的。但是,属性较少是否意味着 丢失了重要因素? 从预测的均方根误差来看,采用信息熵法约简后的预测误差除了 比基于优先级函数的方法约简后的预测误差稍大,比未约简或基于重要性原则约简 后的预测误差均小。另外,基于优先级函数的最佳属性集发现过程本身比较费时, 约为3 0 m i n - 1 h ,而本文采用的信息熵法约简过程只需4 m i n 。故综合来看,信息 熵约简法效果好。 经信息熵法约简后,虽然选择出了对负荷重要性较大的因素,但是这些因素丑j 是否存在相关性并没有考虑。如果存在相关性,并且通过某种方法在基本不丢失原 始信息的基础上可以用较少的独立变量代替,那么网络结构的规模就会进一步减 小,运行时间进一步缩短。对于短期负荷预测来说,预测时间当然是越短越好。另 外,由于筛选出的输入变量更加准确,预测精度也会更加提高。 通过对上述选择出的2 3 个较重要负荷影响因素之间的相关性分析可知,互相 关系数最大值为o 9 1 9 1 ,最小值为o 0 0 0 6 。由此可见,这些选择出的变量之日j 确 实存在相关性。而统计学理论中的主成分分析法是在保持原始信息基本不变的条件 下,消除相关性的一种非常有效的手段。故针对r b f 网络输入变量的确定,本文 中在采用上述信息熵约简法的基础上,再采用主成分分析法约简。 4 1 1 4 主成分分析法 主成分分析方法【3 5 j 【3 6 1 是研究多个数值变量问相关性的一种多元统计方法。在基 2 0 华北电力大学硕士学位论文 本保持原变量信息不变的前提下,能通过原变量的少数几个线性组合来代替原变量 并揭示原变量之丑j 的关系。目的是利用为数较少的互不相关的新变量反映原变量的 绝大部分信息。 设有疗个样本,每个样本观测p 项指标:舶,也,x p ,则原始数据的矩阵为: x = 一lo l2 x 2 ix 2 2 一 x 月i 工 2 其中:却为第f 个样本的第j 个指标的观测值。 假设一组新变量z i ,z 2 ,磊可以表示为原变量的线性组合,即: ( 4 5 ) ( 4 6 ) 如果系数劬满足口:+ + 2 = l ,f = 1 ,2 ,p 并且劬的确定使乃与乃( f _ ,) 互相无关,使z l 为期,耽,x p 的一切线性组合中方差最大者,z 2 是与z l 不相 关的均,却,却的一切线性组合中方差次大者,2 ;是与z i ,z 2 ,z p i 不相 关的x i ,肋,x p 的一切线性组合中方差最小者,则称z l ,乃,乙为原变量的第 l ,第2 ,第p 主成分。 主成份的求解可以通过以下4 个步骤来实现【3 7 1 1 3 8 】1 3 9 】: ( 1 ) 数据规范化 对原始数据按照公式( 4 7 ) 进行规范化处理: x := 兰丛主j 兰l ,( ,= l ,2 ,”;l = l ,2 ,p ) 4 _ 7 其中:瓦= 上r t 童i = 1 。2 = 击莓( h 一瓦) 2 。 ( 2 ) 计算规范化后的数据矩阵的协方差矩阵及特征值 假设原始数据矩阵x 经过规范化处理后的矩阵为x ,则其协方差矩阵r 为; 2 华北电力人学硕士学位论文 r :三似) 7 x 月、 7 ( 4 8 ) 其中,r 为一半正定实对称矩阵。设a i 芝a i 兰之l 兰0 为置的p 个非负特征值, 相应的标准正交特征向量为d = ( a l l ,如,砟) ,定义z = ( 而,z 2 ,乙) 7 为主成分 向量,则 z=d t x ( 4 9 ) ( 3 ) 选择m ( m 0 ( 并) = ( 万2 + x 2 ) 9 ,口 r ,则聚类数k = k + i ,第i 个样本成为第k 类的聚类重心:否则 第f 个样本属于第- ,类,该类的重心变为一= 去霉一,m 表示第,类中的样本 个数。 ( 3 ) 计算对应的总歪d r ( s ) 。若q ( s ) 一d ( s ) c f ,( d ;( s ) 是上次的总歪) ,转 ( 4 ) ,否则转( 1 ) 。 ( 4 ) 停止计算,此时k 值为相应的模式聚类数,z j ( ,= 1 ,2 ,k ) 为相应的聚 类重心。 动态聚类学习算法中,r 值的大小与总歪相关,值越小,聚类数越多,对应 的总歪也越小。也就是说,总歪会随羞聚类数的增加而单调下降,当聚类数等于样 本数时,总歪是最小的,显然聚类数过多聚类过程就失去了意义。因此,随着聚类 数从小到大的逐步增加,当总歪相对聚类数的增加程度变化较大时,说明样本数掘 的聚类效果受聚类数的影响较大,还应该继续改变聚类数;当总歪相对聚类数的增 加程度而变化不大时,说明此时样本数据达到了较为合理、基本稳定的聚类程度。 因而本文中以反映这一规律的经验公式( 4 1 8 ) 作为选取最优聚类数k 和最佳, 值的标准。 a x 删 ,) ( 4 1 8 ) 式中,足为选择标准,k 为相应的聚类数,d ( 为对应的总歪。最大k 值对应的 情况就是聚类程度较稳定的最优聚类。 经过上述算法聚类后,不仅可以确定出隐节点函数的中心,也确定出了r b f 网络隐含层节点的数目,即样本数据的聚类数。 4 1 2 3 动态聚类实例 以华北某地区电网2 0 0 2 年9 月1 日负荷的口3 分量预测为例,选择前两个 月负荷数据的口3 分量为数据源。样本中的输入部分是由表3 一l 中口3 分量的相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 投诉宿舍吵闹申请书
- 早上买早餐申请书
- 在职研究生报名申请书
- 申请男女寝室改造申请书
- 黄河医疗理赔申请书
- 关于处罚申请书
- 改名名字申请书
- 护士加薪申请书范文
- 残疾人创业贷款申请书
- 以饭店抵押借贷的合同6篇
- 2025中医四大经典知识竞赛真题模拟及答案
- 2025至2030年川渝地区成品油行业市场运行现状及未来发展预测报告
- 2025年山东省委党校在职研究生招生考试(政治理论)历年参考题库含答案详解(5卷)
- 中医特禀体质讲解
- 危险化学品装卸管理课件
- 减肥与能量代谢课件
- 世赛基地管理办法
- 2024荆州理工职业学院辅导员招聘笔试真题
- (高清版)DB11∕T 2453-2025 大型活动医疗保障通 用要求
- 气管插管病人的护理及注意事项讲课件
- CJ/T 316-2009城镇供水服务
评论
0/150
提交评论