已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声明 本人郑重声明:此处所提交的硕士学位论文应用信息熵和遗传神经网络的 电力短期负荷预测研究,是本人在华北电力大学攻读硕士学位期间,在导师指 导下进行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和 致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获 得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我同工作的 同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 学位论文作者签名:拉益垒 f t 期: 甜,2 j o 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有 权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩 印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅; 学校可以学术交流为目的,复制赠送和交换学位论文:同意学校可以用不同 方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名 日期 杨敏 0 j ,2 5 0 剥币笨名吾、圆砂钪、 ,、iny i ,研胂j 导师签名:堕13 里 ,u 、 日 期:世:g :纽 华北电力大学硕士学位论文 1 1 课题研究的内容和意义 第一章绪论 电力系统负荷预测就是在充分考虑一些重要的系统运行特性、增容决策、自然 条件与社会影响的条件下,研究和利用一套处理过去和未来的系统的数学方法,在 满足一定的精度要求下,确定未来某特定时刻的负荷数值。 1 1 1 电力系统负荷预测的分类和用途 负荷预测根据所对应的用电目标可分为城市民用负荷、商业负荷、农村负荷、 工业负荷以及其他负荷的负荷预测。 负荷预测按用电大小、时刻特征不同可分为:最高负荷、最低负荷、平均负荷、 负荷峰谷差、高峰负荷平均、低谷负荷平均、平峰负荷平均、全网负荷、母线负荷、 负荷率等。 最常见的分类是按周期特性分类,分为长期、中期、短期和超短期四类。 超短期负荷预测用于质量控制和a g c ( 自动发电控制) ,需要5 l o 秒的值。 用于安全监视需要l 5 分钟的负荷值,用于预防控制和紧急状态处理需要1 0 6 0 分钟的负荷值; 短期负荷预测主要用于水电分配、水火电防调、机组经济组合和联络线交换功 率计划,需要1 7 天的负荷; 中期负荷预测主要用于水库调度、机组检修、变化计划和燃料计划,需要1 月 1 年的负荷值; 长期负荷预测用于电源和网络规划,需要数年至数十年的负荷值。 1 1 2 短期负荷预测的意义 随着电力工业体制改革的深化和国民经济的发展,人们对电能质量的要求越来 越高,电力负荷预测是保证电能质量的一个基本工具,特别是对未来一天或几天的 短期负荷预测显得尤其重要。随着电力市场化改革的深入,各电力公司作为电力市 场的主体,一切经济活动都以经济效益为中心,都要立足于电力市场。深入研究电 力市场的供需形势及其发展是公司经营活动的基础,而电力负荷预测工作是准确把 握市场脉搏、分析未来电力需求走势的必要工具。在电力市场条件下,只有在进行 实时负荷预测后才能安排负荷平衡、备用发电容量的调度和发电机组的上网顺序。 准确的需电量和电力负荷预测是实行电力市场的基本条件和首要任务,它所提供的 华北电力大学硕士学位论文 未来的负荷数据,对电力系统的控制及运行都非常重要。短期负荷预测的重要意义 可以归纳如下: 1 短期负荷预测是电力系统优化调度( 如机组最优组合、经济调度、最优潮流 计算等) 的基础工具,是电力企业日常经营管理工作的重要组成部分,准确的短期 负荷预测是电网调度机构制定发供电计划和做好电网供需平衡的关键,它有助于系 统运行人员高效地预估电能的生产、输送、分配以及消费情况,制定出经济、合理 的发电方案。对一个大电网,根据短期负荷预测提供的信息,既可以实现发电容量 的合理调度,对运行中的发电厂的出力要求提出预告,从而可以对发电机组出力变 化的情况事先得以估计,又可以经济合理地安排本网内各发电机组的启停机,从而 可以使系统在安全范围内,保持必要的旋转储备容量的耗费为最小,使发电成本为 最小,确保电网安全、稳定、优质、经济的运行。 2 随着我国电力市场的进一步发展,短期负荷预测在电力系统的经济运行方面 的影响会愈来愈明显,对于发电公司,短期负荷预测是制定发电计划和报价的依据: 对于供电公司,短期负荷预测为供电方制定购电计划提供依据;对于输电公司,短 期负荷预测也是电网安全、可靠、经济运行的基础。 3 电价是电力市场的杠杆和核心内容,体现了电力市场的竞争性和开放性,而 电价的制定是在未来给定电价计算期的负荷预测的基础上完成的。因此,发电企业 要保证其电价的竞争能力并且盈利,就必须获得精确的短期负荷预测值,才能定出 既有竞争力又保证盈利的电价。 4 提供转运业务是电力市场中电网的一项基本功能,是电力市场平等竞争的必 要条件,可以给电网带来巨大的效益。而电网在执行转运业务时是根据短期负荷预 测的数据及各发电机的运行参数来制定发电计划和调度计划,所以准确的短期负荷 预测才能有效地促进供、运、用电三方的协调。 5 在初级发电市场,所有电量统一进行竞价,只在电费结算时考虑合同电量, 按照差价合约结算。由于电费结算按时段进行,需将合同电量按负荷预测曲线分配 至各时段,所以不准确的短期负荷预测将导致违约,甚至引起电量分配的不合理, 造成电量不足等问题。 综上所述,如何提高预测精度是目前研究短期负荷预测理论与方法的中心和重 点,准确的短期负荷预测己成为实现电力系统管理现代化的重要内容之一。 1 2 电力系统负荷预测方法概述 随着现代科学技术的快速发展,负荷预测技术的研究也在不断深化,各种各样的负 荷预测方法不断涌现。传统方法有:外推法、相关法、时间序列法、卡尔曼滤波、 华北电力大学硕十学位论文 灰色系统等:目前常用的基于智能原理的方法,如人工神经网络、专家系统、模糊 理论、小波理论等也已经在预测中得到研究和应用。鉴于方法众多,仅就传统方法、 智能方法的原理及其优缺点作简介。 1 2 1 传统负荷预测方法 l 、回归法 基于数理统计的回归分析方法,即通过对变量的观测数据进行统计分析,确定 变量之i u j 的相关性来实现预测。主要分为线性回归和非线性回归。 一元线性回归是将负荷看成仅与某一因素有线性关系,事实证明负荷是受多个 因素影响的线性组合,所以一元线性回归模型不可取。 多元线性回归是将负荷看成多个因素的线性组合。 然而对于负荷预测的输入与输出削的非线性关系,运用以上方法很难找到理想 的数学模型来描述,无法详细地考虑气象等影响因素。此外,回归变量应选取主要 因素而忽略次要因素,但对主要因素较难确定。这些问题都制约了此方法的发展。 2 、时间序列法 时问序列法是应用较早、最为广泛、发展比较成熟的一种方法。它把负荷数据 看作是一个按季节、按周、按天以及按小时周期性变化的时间序列,根据负荷的历 史资料,设法建立一个数学模型来描述电力负荷这个随机变量变化过程的统计规律 性,在数学模型的基础上确立负荷预测的数学表达式,对未来的负荷进行预报。常 用的时间序列模型有:自回归模型( a r ) 、滑动平均模型( m a ) 、自回归一滑动平 均模型( a r m a ) 等。 时间模型辨识的基本依据是对原时问序列的相关分析,即订算时间的均值、自 相关和偏相关函数,从而确定模型的类型。模型辨识后,利用原序列有关的样本数 据,对模型参数进行估计。 上述时间序列方法的主要缺点是:建模所需特征难以确定、对非平稳状念辨识 更具困难、难于实现非线性关系处理、输入变量数目限制、对样本要求苛刻等。 3 、卡尔曼( k a l m a n ) 滤波法 建立状态空间模型,把电力负荷作为状态变量,用状态方程和量测方程来描述。 卡尔曼滤波法递推的进行计算,适用于在线预测。该方法是假定噪声的统计特性己 知的情况下得出的,实际上估计噪声的统计特性是存在困难的。 4 、灰色系统理论 在灰色理论研究中,将各类系统划分为白、黑和灰色系统。“白”指信息完全 已知,“黑”指信息完全未知,灰色是介于白色、黑色之间的系统。对电力系统负 华北电力人学硕士学位论文 荷而言,对其影响的有供电机组、电网容量、生产能力、大用户情况、某些产品耗 电情况等信息是已知的。但是,影响负荷的其他因素,如天气、管理政策的变化、 地区经济活动等难以确切知道。鉴于此情况,可将电力系统看成扶色系统。灰色系 统建模的优点在于:要求负荷数据少、不要求掌握分和规律和变化趋势,因此运算 方便、易于检测。其局限性是仅适合具有指数增长趋势的负荷指标,对非指数增长 指标会形成拟合狄度较大,当数据离散程度越大预测精度越差。 1 22 目前常用方法一智能计算方法 智能的含义很广,难于精确定义。智能计算方法属于软计算,它是一种计算智 能系统的信息处理方法。与上述传统方法的“硬计算”不同,软计算允许存在不精 确性和不确定性。软计算不是一个单独的方法论,而可以是方法论的协作体,其主 要协作技术有神经网络理论、模糊推理系统、遗传算法、混沌理论等。这些方法和 专家系统、蚁群搜索、模拟退火、数据分析、自适应、自学习等技术密切结合、互 为补充的预测方法,概称为智能技术。软计算在负荷预测中已得到广泛研究和应用。 首先介绍几种单一的预测方法: 1 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 技术 运用神经网络技术进行电力负荷预测,是一种新的研究方法,由于它可以模仿 人脑的智能化处理,对大量非结构性、非精确性规律具有自适应功能,具有信息记 忆、自主学习、知识推理和优化计算的特点,特别是其自学习和自适应功能较好的 解决了天气和温度等因素与负荷的对应关系,所以,人工神经网络得到了许多中外 学者的赞誉。 现在研究最多的是应用误差反向传播算法【2 】【3 】( e r r o rb a c k p r o p a g a t i o n ,又称 为b p ) 进行短期负荷预测,常用的是简单的三层a n n 模型,其主要思路为:将历 史数据及对电力负荷影响最大的几种因素作为输入量输入人工神经网络,经过输入 层、隐含层和输出层中各神经元的作用最后生成输出量,再以输出误差为目标函数 对网络权值进行不断的修正直至误差达到要求,经训练后的网络就可以进行预测工 作,只要把待预测日的相应刺激输入神经网络就可以得到相关的输出,即预测结果。 由于人工神经网络具有一定的联想和推理功能,所以对于训练过程中没有出现过的 情况神经网络同样可以进行预测。b p 网络结构见图1 - 1 。 神经网络具有如下的优越性: 神经网络可以处理那些难于用解析规则描述的过程或系统,可通过对样本数 据的学习,自动实现对系统的描述; 神经网络是并行结构,在处理实时性要求高的问题上显出极大的优越性: 华北电力人学硕十学位论文 神经网络是非线性系统,人们已从理论上证明了多层感知器能够任意逼近一 给定函数、甚至逼进各阶导数: 神经网络具有很强的信息综合能力、很好的容错性,它能恰当地协调好互相 矛盾的输入信息。 ddd 口n 口口dd 口 口口 o 口0 图1 1b p 网络结构 神经网络的缺点: 不同的应用模型中,没有现存的理论依据来指导人工神经网络模型输入参数 的选取及处理: 缺乏一种有效的方法来解决人工神经网络在训练过程中可能产生的学习不 足或者是过拟合现象: 对于周期性的人工神经网络模型输入参数,没有确定样本量的依据; 收敛速度慢且易陷入局部极小,训练过程比较消耗时间; 神经网络的结构确定,包括输入变量的恰当选取及隐含层数目的大小等要在 实践中进行摸索。 2 、模糊逻辑( f u z z yl o g i c ) 技术 模糊理论适合描述广泛存在的不确定性,同时它具有强大的非线性映射能力, 能够在任意精度上一致逼近任何定义在一个致密集上的非线性函数,并能够从大量 的数据中提取它们的相似性,这些特点正是进行短期负荷预测所需要的,也是其它 方法所欠缺的。目前模糊理论在电力系统负荷预测中已经取得了一些成就。 模糊预测方法是模拟专家的推理和判断方式,它并不需要建立精确的数学模 型。有着以下的优点: 模糊理论中的“隶属函数”可比较明确的描述专家的意图、处理电力系统中 许多不精确的、模糊的现象: 华北电力大学硕士学位论文 对气象的影响和临时发生的重大事件这些难以用数学关系描述的因素,模糊 方法可以借用经验丰富的调度员( 专家) 的经验,往往比计算预测准确: 由于模糊预测系统的自适应能力,使系统具有较强的自适应性和鲁棒性: 但随着模糊理论更深入的研究和应用,模糊理论也显露出了一些不足: 模糊的学习能力比较弱; 当其映射区域划分不够细时,映射输出比较粗糙; 受主观人为因素的影响较大。 3 、小波分析( w a v e l e t ) 技术 小波分析( w a v e l e ta n a l y s i s ) 是一种时域一频域分析方法,既发扬了f o u r i e r 分 析的优点,又克服了f o u r i e r 分析的某些缺点,在时域和频域上同时具有良好的局部 化性质,并且能根据信号频率高低自动调节采样的疏密,容易捕捉和分析微弱信号, 可以聚焦到信号的任意细节,尤其是对奇异信号很敏感,能很好的处理微弱或突变 的信号。它将一个信号的信息转化成小波系数,可以方便的处理、存储、传递、分 析或用于重建原始信号。山于电力系统中日负荷曲线具有特殊的周期性,负荷以天、 周、年为周期发生波动,大周期中嵌套小周期,因此小波分析的优点决定了它可以 有效地应用于负荷预测问题的研究。 单一的预测方法都各有其优缺点,所以结合各种预测技术优点的组合方法,即 软计算得到了越来越多的关注。 文献【4 】提出了基于神经网络的纵向负荷预测与扶色理论模型的横行误差校正 相结合的方法。选用不同天相同时刻,且具有相同影响因素的负荷作为人工神经网 络的输入进行纵向负荷预测,利用预测负荷之前的各个整点时刻负荷预测值的误差 组成一个时间序列来建立灰色理论模型,由此可预测出预测时刻的负荷预测误差 值,根据此误差值对负荷预测值进行横向误差校正。文献【5 】为了克服传统k 均值聚 类法局部寻优的缺陷,提出了基于确定性退火聚类选取径向基函数( r b f ) 网络隐 层节点中心的方法,并采用了遗传算法有效的解决了径向基函数网络的学习问题。 文献【6 】针对径向基函数神经网络进行负荷预测时,如果输入空问严重自相关及网络 维数较高时,预测精度下降的问题,提出了一种应用于电力负荷预测的改进r b f 神 经网络新方法。具体是利用主成分分析( p c a ) 方法对原输入空间进行重构,并根 据各主成分的贡献率来确定网络结构,从而有效的解决了预测精度下降的问题。文 献 7 】利用微软公司商品化和通用的决策支持对象( d s o ) ,重点考虑气象因素对短期 负荷的重要影响作用,设计了决策树形式的数据挖掘模型,通过数据培训进程实现 完整的决策树模型内容,通过输入气象预报数据,用决策树算法计算出预测结果。 文献【8 】提出了一种基于谱分析法进行建模的短期负荷预测方案,该方案利用负荷历 华北电力人学硕十学位论文 史数据的谱分析结果进行人工神经网络模式分类和选择输入变量,采用快速傅立叶 变化( f f t ) 进行负荷数据的预处理,运用滤波算法及小时负荷曲线的频谱分析来 研究电网负荷的周期特性,取得良好的预测结果。文献【9 】提出了一种基于模糊逻辑 原理的负荷预测方法,使用遗传算法对系统参数进行训练。在遗传算法中,将推理 规则与隶属函数的确定结合在一起,从而确定系统参数的最优组合,由此建立起 个较合理的模糊负荷预测系统。文献【l o 提出基于相空f e l j 重构理论( p s r t ) 与改进 混沌神经网络( i c n n ) 融合的s t l f 新模型,所构造的i c n n 预测模型对负荷初值 和混沌轨迹的游动性有很强的敏感性,可表征复杂的动力学行为和具有全局寻优的 性能,以p s r t 确定i c n n 的输入维数,训练样本集按预测相点步进动态相轨迹和 最近邻点集原理形成的,可增强预测模型对混沌动力学的联想和泛化推理能力:文 中用遗传算法作为i c n n 的学习算法,对两类不同负荷系统只、周预测仿真测试, 证实所研究的预测模型能有效、稳定的提高预测精度,具有较高的适应能力。文献 13 】提出了改进遗传算法与神经模糊网络( n f n ) 结合的小时负荷预测方法,根据不同 的同类型及温度参数,由改进的遗传算法确定网络的最优参数,自动获取网络的隶 属函数及规则数。文献1 4 1 使用不同的模糊模型对短期负荷进行预测,带模糊因子 的谐波模型用于夏季及冬季,仅仅和待预测时间相关,而带模糊因子的混合模型与 预测时问及温度均相关,两个模型共同完成负荷的预测工作。文献【1 5 提出以关联 度代替欧氏距离来确定相空间最邻近点,以改善高嵌入维重构空间全局l y a p u n o v 指数谱形状方法对短期电力负荷序列进行预测。文献 1 6 通过借鉴免疫网络调节和 免疫规划,提出了一种基于人工免疫网络的短期负荷预测模型。在人工免疫网络的 设计中,融入了免疫调节原理,利用免疫规划来进化网络结构,采用了新的个体编 码方式、神经元适应度函数和自适应混沌变异算子,通过免疫规划进行网络结构的 设计,并结合免疫网络调节的进化算法进行网络的学习。文献【1 9 】提出了一种基于 小波分解和人工神经网络的电力系统短期负荷预测方法。通过小波变化把负荷序列 分解为不同频段的子序列,再对这些子序列分别采用相匹配的人工神经网络模型进 行预测,最后综合得到负荷序列的最终预测结果。文献1 2 0 使用模糊逻辑与神经网 络相结合的方法,由模糊逻辑系统根据气象相似日对神经网络的预测输出结果进行 修正。 1 3 目前电力系统负荷预测存在的主要问题 如前所述,目前对于短期负荷的研究已经很多,也取得了很多研究成果,但仍 - 旧存在一些尚未解决的问题,总结如下: 1 、电力系统负荷历史数据的预处理方法。电力系统负荷运行是一非平稳随机 运行的过程,其中存在着许多偶然因素的影n 向,比如拉闸限电等人为因素的影响, 华北电力大学硕士学位论文 并且历史负荷数据的量测还存在着噪声影响,因此负荷的历史数据常常包含有“不 良数据”,这就需要在对其利用前进行预处理,因此需要研究数据预处理的方法。 2 、众所周知,气象因素对短期负荷的影响很大,但目前大部分的预测方法仅 仅只考虑了温度的因素,而对于温度、风力等因素没有考虑,这样的处理方法不够 全面也很粗糙,如何处理气象因素的影响仍是目前短期负荷预测的主要研究问题。 3 、未来各种可能引起负荷发生变化的情况,并不能事先确切的全部掌握。 4 、某些复杂的因素,即使知道它们会对负荷发生影响,但要定量的准确判断 其影响,常常是困难的。 5 、虽然神经网络是建立非线性预测模型和综合其他影响因素的一个强有力的 工具,但是如何选择神经网络输入参数,如何加快网络的收敛速度,如何有效的避 免网络陷入局部最小,如何选择合理的网络结构等等问题仍是一个尚未解决的难 题。 6 、在国家法定节假日( 元旦、春节、五一和国庆) 媚间,负荷与平时相比明 显降低,尤其是春节更是持续长时间、大幅度的曲线下降和变形。由于数据量较少, 无法形成足够有效的样本集,神经网络方法不能适用于节假r 预测中,荠且受气象 因素影响比平同大,需要另找预测方法。 7 、进一步利用其他的先进方法。 1 4 本文的主要工作 针对电力系统多因素负荷预测问题的复杂性,融合粗糙集方法与遗传神经网络 各自优势,提出一种新型的预测模型一一粗糙集遗传神经网络模型。利用粗糙集理 论中信息熵的概念,约简负荷影响因素,简化网络输入变量。利用遗传算法对神经 网络进行权值修正。具体工作有如下几点: 1 、对负荷历史数据进行预处理,为精确的预测做好数据上的准备。由于电力 系统负荷的随机非平稳特征及数据量测噪声的影响,获得的历史数据中存在“不良 数据”,严重影响了负荷预测的精度。为此,我们采用数据预处理的方法对数据进 行筛选,剔除“不良数据”的影响,为改善负荷预测的精度提供可靠的保证。 2 、引入综合反映气温、湿度及风力对人体作用的几个气象因子( 体感温度、 温湿指数及舒适度指数) 来评价气象因素对短期负荷的影响。 3 、引入数据挖掘中粗糙集理论解决神经网络输入参数的确定问题;研究基于 信息熵的负荷预测最佳属性集发现算法。 4 、针对b p ( 误差反向传播) 算法网络训练费时,并且易趋向局部最小点的缺 点,本文将遗传算法( g e n e t i ca l g o r i t h m s ,简称g a ) 引入神经网络参数的训练, 华北电力人学硕士学位论文 提出了基于遗传优化的神经网络电力系统短期负荷预测方法。 5 、采用基于信息熵和遗传神经网络的方法和传统b p 预测方法对实际地区电网 的一天2 4 h 的整点负荷进行预测,对其预测结果运用相对误差指标进行比较,并绘 制预测结果曲线。 9 华北t 也力人学硕十学位论文 第二章数据挖掘技术和遗传神经网络原理 2 1 数据挖掘技术概述 2 1 1 数据挖掘的定义 数掘挖掘。,英文记作d a t am i n i n g ,对数掘挖掘比较公认的定义是著名学者 w j f r a w l e y ,gp i a t e t s k y - s h a p i r o 等人提出的:数据挖掘就是从大型数据库的数据 中提取人们感兴趣的知识。这些知识是隐含的、事先不知道的、但又是潜在有用的 信息。提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、模式( p a t t e r n s ) 等形式。 数据挖掘更为广义的定义是:数掘挖掘是在一些实时或观察数据的集合中寻找模式 的支持过程,数据挖掘的对象可以是包括数据库在内的任何组织形式的数据集合。 数据挖掘是一门交叉学科,涉及到数据库技术、人工智能技术、数理统计、机 器学习、并行计算、模式识别等多门学科的知识。数据挖掘把人们对数掘的应用从 低层次的简单查询,提升到从数据中挖掘知识,从而为决策提供了更好的支持。 2 1 2 数据挖掘的任务 数据挖掘的任务主要有:关联分析、概念描述、聚类、分类、偏差检测、时序 模式分析。 ( 1 ) 关联分析:如果两个或多个变量的取值之间存在某种规律性,就称为关 联。数据关联是数据库中存在的一类重要的可被发现的知识。关联分析的目的就是 找出数据库中隐藏的关联网。 ( 2 ) 概念描述:是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,后者描述 不同类对象之间的区别。 ( 3 ) 聚类:数据库中的数据可被划分为一系列有意义的子集,即类。在同一 类别中,个体之间的距离最小,而不同类别中的个体之间的距离偏大。聚类增强了 人们对客观现实的认识,是概念描述和偏差分析的先决条件。 ( 4 ) 分类:分类是找出一个类别的概念描述,它代表了这类数据的整体信息, 即该类的内涵描述。通过得到的内涵描述信息模式能够把数据库中的元素映射到给 定类别中的某一个。 ( 5 ) 偏差检测:数据库中的数据常有一些异常记录,它们与数据的一般行为 或模型不一致,即偏差。偏差常常隐含着很多潜在的知识,因此从数据库中检测出 1 0 华北电力人学硕十学位论文 这些偏差具有重要意义。 ( 6 ) 时序模式分析:通过时白】序列搜索出重复发生概率较高的模式。 2 1 3 数据挖掘的过程 数据挖掘过程包括数据准各、知识提取、知识表示与评估三个主要阶段。 ( 1 ) 数据准备:这个阶段又包括数据清理、数据集成、数据变换以及数据归 约等步骤,主要完成对原始数据进行提取、清洗、聚集、汇总等操作。 ( 2 ) 知识提取:这个阶段进行实际的挖掘操作,运用选定的数掘挖掘算法, 从数据中提取用户所需的知识。这一阶段又包括: a 、决定产生知识的方式,包括发现型( d i s c o v e r y d r i v e n ) 和验证型 ( v e r i f i c a t i o n d r i v e n ) 两种方式: b 、选择合适的挖掘技术与方法: c 、挖掘知识的操作; d 、证实发现的知识。 ( 3 ) 知识表示与评估:将发现的知识以用户可以理解的方式呈现、提交给决 策者。如果不能令决策者满意,需要重复以上数据挖掘的过程。 2 1 4 数据挖掘常用技术 ( 1 ) 信息论方法:利用信息论原理,主要有i d e i b l e 等方法。 ( 2 ) 集合论方法:基于集合论理论。主要有粗集方法、概念树方法。 ( 3 ) 仿生物方法:基于生物学理论。主要有神经网络、遗传算法等方法。 ( 4 ) 统计分析方法:基于数理统计理论。主要有相关分析和回归分析、差异 分析、聚类分析等方法。 ( 5 ) 模糊论方法:利用模糊集合理论对一实际问题进行模糊评判、模糊决策、 模糊模式识别和模糊聚类分析等方法。 2 2 遗传神经网络的基本原理 2 2 1 多层前馈神经网络 2 ,2 1 1 基本神经元 神经网络”1 是模仿人脑信息储存与处理的检索机制和功能,由大量的处理单元 ( 称为神经元) ,通过广泛地互相连接而形成的复杂的网络系统。信息通过神经元 之问的相互连接进行传递。 华北屯力- 人学硕士学位论文 神经元是神经网络的基本计算单元,它模拟了人脑中神经元的基本特性,一般 是一个多输入、单输出的非线性单元( 它可以耦合到任意多个其他神经元作为其输 入) ,看一定的内部状态和闽值。一个基本神经元模型如图2 一l 所示。 该神经元输入输出关系为 图2 一i 基本神经元模型 输出y ( 2 一1 ) 其中,x ,x :,x 。为神经元,的输入,y 为神经元j 的输出,w j 。,w j z , ,w 。为神经元j 的权值,通常限制在( 0 ,i ) 或( 一i ,1 ) 之间,o j 称为阈值, f ( ) 称为输出变换函数,又称激励函数。激励函数的形式有多种,最常用的是s 形 函数,即s i g m o i d 函数 y = f ( s ) = 1 ( 1 + e ) ( 2 - 2 ) 2 2 1 2 多层前馈神经网络模型 大量的神经元以不同的互连方式相连构成了不同的神经网络结构。按连接方式 区分,神经网络可分为前馈神经网络、反馈神经网络和混合神经网络。试验表明, 多层前馈神经网络与其他结构的神经网络在估计精度、收敛性等方面性能相当,而 且具有结构简单、算法稳定等特点,因此在实际中得到广泛的研究与应用。我们在 此也主要讨论前馈神经网络。 前馈神经网络:各神经元接受前一层的输入,并输出给下一层,没有反馈。节 点分为两类,即输入节点和计算节点。计算节点包括中问各层节点和输出节点,可 d = w i | 0 xw 。y 向 = 一x 。p 唧 i = 文n 华北电力大学硕士学位论文 有任意个输入,但只有一个输出( 它可以耦合到任意多个其它节点作为其输入) 。 计算节点通过激励函数实现信号的传递。通常前馈神经网络可分为不同的层,第i 层 的输入只与第i 一1 层输出相连,输入和输出节点与外界相连,分别称作输入层和输 出层,而其他中间层称为隐层( 隐含层) 。前馈神经网络中最重要的是反向传统网 络( b p 网络) 和径向基函数网络( r b f 网) 。 k o s m o g o r o v 定理己经证明含有一个隐层的三层前馈神经网络是一个通用的函 数逼近器,在合理的结构和恰当的权值的条件下,可以以任意精度逼近连续函数。 这说明对于前馈神经网络来说,有个隐层已经足够。因此,通常前馈神经网络采 用的是三层网络结构。图2 2 表示了一个三层前馈神经网络模型。 , 一 一, x 6 0 一。z 一 n n0 图2 - 2 三层前馈神经网络模型 2 2 1 3 神经网络的特点 神经网络系统是高度非线性的动力学系统。除了具有一般非线性动力系统的共 同特点,它还具有自身几个重要的特点: ( 1 ) 并行性:网络中每个单元都是一个独立的信息处理单元,它的计算均可 独立进行,而整个网络系统是并行计算的。这一特点有利于提高系统的处理速度。 ( 2 ) 自学习、自适应性:网络连接强度的调整可在对所给数据或实例的“学 习”或“使用”中不断调整,以适应特定的功能需要。学习获得的知识分布储存在 整个网络大量的连接权中。 ( 3 ) 容错性:信息分布地储存在整个网络连线的权系数上,每个权系数又涉 及或记录着不同的信息或知识,即信息或知识在神经网络中是分布式地储存的。这 种方式决定神经网络具有容错性。如果有一些处理单元损坏,系统仍能正常工作。 神经网络在解决电力负荷预测的建模问题具有很大的优势。强大的自学习、自 适应能力使应用神经网络进行负荷预测不需要有关数据的任何先验知识,能够从数 据样本中自动地学习以前的经验,并自动地逼近那些最佳刻化了样本数据规律的函 1 3 彳一象: l , 二一 华北电力人学硕士学位论文 数。同时,神经网络是大规模并行分布处理的决定了它具有较快的处理速度和容 错能力。 2 2 2 遗传算法 2 2 2 1 遗传算法的基本思想 遗传算法( g e n e t i c a l g o r i t h m ,简称g a ) 基于d a r w i n 进化论和m e n d e l 的遗传 学说,由h o l l a n djh 教授最先提出的一种并行随机算法。它依据适者生存,优胜劣 汰的进化规则,对包含可能解的种群反复进行基于遗传算法的操作,不断生成新的 种群,并使种群不断优化,同时以全局并行搜索方式来搜索优化种群中的最优个体, 以求得满足要求的最优解。较强的全局寻优能力和并行搜索能力是遗传算法的重要 特性。 在g a 中,优化问题的所有参数都被编码,形成一个有限的串,称为染色体或 个体,即每个个体对应于优化问题的一个可行解。所有个体的集合称为种群,利用 合理的适应度函数对每个个体进行评估,并在此基础上进行选择、交叉、变异等遗 传操作生成新一代种群,在适应度函数和遗传操作的作用下,g a 进行并行运算, 逐步提高种群的平均性能,相应问题的解将收敛到全局最优。 2 2 2 2 遗传算法的重要组成部分 编码机制、适应度函数、遗传操作和控制参数是遗传算法四个晟重要的组成部 分1 : ( 1 ) 编码机制( e n c o d i n gm e c h a n i s m ) :正如研究生物遗传,是从染色体着手, 染色体是由基因排成的串一样,g a 也不能直接处理问题空间的参数,而只能处理 以基因链码形式表示的个体。因此,要使用g a ,就必须把优化问题的解的参数形 式转换成基因链码的表示形式,这一转换操作称作编码。根据编码符号的不同,编 码机制可分为二进制编码、实数编码等;从染色体长度固定与否,编码机制可分为 不变长编码方法和可变长编码方法。这里对这几种编码方式着重介绍: 二进制编码:将原问题的解映射成为o ,l 组成的位串,然后在位串空问上 进行遗传操作。结果再通过解码过程还原成其解空间的解,然后再进行适应度的计 算。二进制编码是传统的编码方式。 实数编码:直接采用十进制数进行编码可直接对解进行遗传操作和适应度 的计算。 不变长编码:染色体长度固定,在进化过程中不发生变化。 可变长编码:与不变长编码对应,染色体长度在进化过程中可变。 ( 2 ) 适应度函数( f i t n e s sf u n c t i o n ) :优胜劣汰是自然进化的原则。优、劣要 1 4 华北电力大学硕士学位论文 有标准。在g a 中用适应度函数描述每一个体的适宜程度。对于优化问题,一般选 择目标函数作为适应度函数。引进适应度函数的目的在于可根据其适应度对个体进 行评估比较,定出优劣程度。 ( 3 ) 遗传操作( g e n e t i co p e r a t o r ) : 遗传算法中包括以下三个基本遗传操作: 选择操作:根据染色体的适应度,在种群中按一定概率选择生存下来的个体。 一般通过选择,将使适应度高即优良的个体有较大的存在机会,而适应度小即低劣 的个体继续存在的机会则较小。 交叉操作:按一定的概率随机地选择个体对,然后对个体对随机地交换基因 以生成新的个体。根据交叉点的多少,个体对的交叉方式可分为单点交叉、两点交 叉及多点交叉。 单点交叉又叫简单交叉。具体操作是:在个体基因串中随机设定一个交叉点。 实行交叉时,两个交叉个体交叉点前或后的部分进行互换,并生成两个新个体。两 点交叉与多点交叉则是单点交叉的推广,随机设定两个或多个交叉点进行交叉。 变异操作:按一定的概率随机地改变某个个体的基因,以生成新的个体。变 异操作的基本步骤主要包括两步: a 、在群体中所有个体的码串范围内随机地确定基因位置 b 、以事先设定好的变异概率来对这些基因位置的基因值进行变异 交叉和变异是g a 中两个十分关键的操作。交叉操作因其全局搜索能力作为主 要操作,变异操作因其局部搜索能力而作为辅助操作。g a 通过交叉和变异这一对 相互配合又相互竞争的操作而使其具备兼顾个局和局部的均衡能力。但是如何有效 地配合使用交叉和变异操作,是实现g a 必须考虑的问题。 ( 4 ) 控制参数( c o n t r o lp a r a m e t e r s ) :在遗传算法中,主要的控制参数有:n 一种群中所包含的染色体的数目:g 一遗传代数;e 一进行选择操作的概率:p c 一 进行交叉操作的概率;p m 一进行变异操作的概率。 2 2 2 3 遗传算法实现的主要步骤 g a 实现的主要步骤: s t e p1 、参数解码,选择要求取的量作为基因,采用合适的编码方式进行编码, 每个基因编码代表解空间的一个解; s t e p2 、在编码的解空间中,随机生成一个初始群体( 不要求定是可行解) ; s t e p3 、对群体中的每一个个体进行适应度评价; s t e p4 、根据个体的适应度,对群体中的个体进行选择、交叉、变异遗传操作, 1e 华北电力大学硕士学位论文 生成新一代群体; s t e p5 、反复进行s t e p 3 、4 ,每进行一次谓之群体进化了一代,直至进化了k 。代 ( k 。为预制的进化代数) ; s t e p6 、从k 。代群体中选出适应度值最大的个体,该个体对应的就是所求的解。 流程图见图2 3 。 v 随机产生初始种群 种群评价 v 洗柽、夺叉、蛮异 里 产生新种群 图2 - 3 遗传算法流程图 y 华北电力大学硕:t 学位论文 第三章基于信息熵的负荷预测最佳属性集发现方法 确定负荷量与哪些因素有关以及选择哪些因素作为负荷预测模型的输入量是 负荷预测建模首先要解决的问题。目前选择簏略一般有两种:一种是尽可能地包括 所有相关因素,虽然预测精度有所提高,但常常造成预测系统庞大、结构复杂、运 算速度慢、难于理解;一种是凭以往经验进行选择但存在一定的主观性,缺乏有 效的科学依据,并且可能造成关键因素的遗漏或次要因素的冗余。本章首先针对这 一问题的解决展开讨论。 本章首先简要阐释了负荷预测最佳属性集的含义与定性标准,然后从数据挖掘 的角度,在结合粗集理论信息论观点相关定理的基础上,提出了基于信息熵的负荷 预测最佳属性集发现方法。 3 1 负荷预测最佳属性集 负荷预测模型是表达未来负荷量与历史负荷量及相关环境因素间关系的模型。 确定负荷量与哪些因素有关以及选择哪些因素作为负荷预测模型的输入量是负荷 预测建模首先要确定的问题。理想情况下,我们将所有可能影响负荷变化的相关因 素作为输入变量来预测负荷量,但在实际中显然并不适用。般而言,影响电力负 荷量值的相关因素很多并且相互关联,若将所有因素都作为负荷预测系统的输入量 进行预测,不仅导致预测系统庞大、结构复杂,预测速度慢、难于理解,而且容易 产生亢余。更为有效的途径是找到影响负荷变化的关键因素集合,并且这个集合要 具有与理想情况下接近的对未来负荷量变化趋势( 或未来状态) 的决定能力。借用 决策系统中“条件属性”这一术语,我们将影响负荷变化的相关因素称为负荷预测 条件属性,则寻找这样的条件属性集我们把它称为负荷预测最佳属性集发现。 在进行负荷预测最佳属性集发现时,首先要确定“最佳”的标准。根掘上面的 分析,我们对最佳属性集确定了以下两个最基本的定性标准: ( 1 ) 具有尽可能少的冗余属性 ( 2 ) 具有与全部条件属性集接近的对未来负荷量变化趋势( 或未来状态) 的 决定能力 作为分析不确定性信息的一个有力工具,粗集理沦( r o u g hs e tt h e o r y ) 目前在 数据挖掘、决策分析等领域取得了广泛的应用。对于给定的决策信息表,粗集理论 可以利用属性重要性来分析表中不同属性对决策属性的依赖程度。特别是应用属性 约简的手段,可以提取出数据中存在的冗余成分。因此将粗集理论的属性约简方法 应用于解决负荷预测最佳属性集发现是个好的途径。 华北电力大学硕士学位论文 3 2 粗集理论及信息论观点 粗集理论是波兰科学家z p a w l a k 提出的一种基于数学概念处理不确定和含糊 信息的重要工具。它根据由属性派生的等价关系进行分类,将知识看作是关于论域 的等价划分,是区分论域中不同对象的能力。用粗集理论来处理不确定性问题的最 大优点在于它不需要关于数据的预先的或附加的信息,容易使用。 属性约简是粗集理论研究的个核心内容。对于许多大型决策系统而言,仅有 部分条件属性必须保留,如果能将冗余属性删除,则可大大提高系统潜在知识的清 晰度,这一过程称为属性约简。基于粗集理论的属性约简研究,传统的方法是从代 数的观点,以不可分辨关系为基础,通过引入上近似集和下近似集,计算逼近精度 而实现属性约简的。而本文则从信息论的角度,建立起了知识与信息熵的关系,通 过引入知识熵和条件熵的概念,展开属性约简问题的讨论。 在一个包含条件属性和决策属性的决策信息表中,如果两个样本记录条件属性 值相同而决策属性值不同,则称两个记录信息不一致。在文献【1 1 】中证明:对于 不包含不一致信息的决策表而占,属性约简的信息论观点和代数观点是等价的。但 对于不一致决策表,即决策表中存在冲突样本而言,代数观点的属性约简不一定能 够保证也是信息论观点的属性约简,但反之则是。这表明属性约简的信息论观点包 含了其代数的观点,而在普通状况下,如在含有矛盾、冲突信息的决策表中,属性 约简的信息论观点能够更加有效地选择重要属性,删除冗余属性。因此我们着重基 于粗集理论的信息论观点从属性约简的角度讨论负荷预测最佳属性集发现问题。下 面我们给出粗集理论及其信息论观点下的一些基本定义乜叫1 乜”: 定义3 1 :在人工智能研究中,一个实例( 现实世界中的一个对象、个体) 经 常使用属性一值对的集合来表示,实例集就是这样的实例集合,记为u 。u 可被划 分为有限个类x ,x ,x 。,使得 x f u ,x 。g ,x 。n x = a ( i j ) ,( i ,j = 1 ,2 ,n 且u x 。= u ) 一般的,一个信息表知识表达系统s 可以表示为 s = 这里,u 是对象的集合,也称为论域,r = c u d 是属性集合,子集c 和d 分别 称为条件属性集和结果属性集,v = uv r 是属性值的集合,v r 表示属性r e r 的属性 值范围,即属性r 的值域,f :u r 三、,是一个信息函数,它指定u 中每一个对象x 的属性值。 华北电力大学硕士学位论文 为了直观方便,u 也可以写成一个表,纵轴表示实例标记,横轴表示实例属性, 实例标记与属性的交汇点就是这个实例在这个属陛的值。这个表称为信息表,是表 达描述知识的数据表格。 定义3 2 :一个决策表是一个信息表知识系统s = ,r = c u d 是属 性集合,子集c 和d 分别称为条件属性集和结果属性集,d t a 。 定义3 3 :一个决策系统是一个二元组: l = 其中u 是一组对象的非空有限集合,称为论域:设有1 1 个对象,则u 可表示为: u : x 。,x :,x 。l 。a 是有限个属性的非空集合,设有m 个属性,则其可以表示为: a = a ,a :,a 。】。对每个a a ,a :u 一) v a ;,v a 。是属性a 的值域。a 划分为 两个不相交的集合:条件属性集c 和决策属性集d ,并且满足a = c u d 且c n d = o 。 作为最基本的情况,d 中只含有一个决策变量,表示为d = d 。 定义3 4 :设一决策系统( u ,c u d ) ,属性集合p = c ,c :,c 。 c ,在其上定 义定价关系i n d ( p ) 为: i n d ( p ) = ( x ,y ) e u 2 l 任意c 。p ,有c ( x ) = c ;( y ) ) 等价关系i n d ( p ) 将对象集u 划分为若干个子集,称作p 在u 上导出的划分。 定义3 5 :设一决策系统( u ,c u d ) ,设p c ,q _ c d ,p 、q 在u 上导出的划 分分别为x = x 。x :,x 。) ,y = y l ,y 2 ,y m ) ,则p 、q 在u 的子集组成的代数上 的概率分布为: i x :p 憾,p 茇,:p 凄。, i v :p = 。急,急) j 其中,p ( x ;) = i x 。i l u l ,i = l ,2 ,n ;p ( y j ) = n i u i ,j = 1 ,2 ,m 定义3 6 :属性集合p 的信息熵h ( p ) 定义为 h ( p ) = 一著p ( x 抛( p ( x ) ) 定义3 7 :给定一决策系统( u ,c u d ) ,设p c ,o c _ d ,p 、q 在u 上导出的 华北电力大学硕士学位论文 划分分别为x = x 。,x 2 , - - ,x 。) ,y = v 1 ,v 2 ,y 。j ,则属性集合q 相对于属性集合p 的条件熵h ( q p ) 定义为: h ( q i p ) = 一善p ( x ;) 丢p ( xj x ;) l o g ( p ( y j i x 。) ) 其中,p ( y i x ;) = iy j n x i l 吲,i = 1 ,2 ,n ,j = 1 ,2 ,m 定义3 8 :属性重要性的信息论观点定义 设t = ( u ,c u d ) 是一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 给水管线维护保护方案设计及技术要点
- 基础教育课程改革成果汇报
- 云南地方特色文化教材开发方案
- 一线员工职业素养培训教材
- 建筑外墙保温材料施工标准流程
- 高校招生宣传文案写作模板
- 工业设备控制阀使用说明书
- 零售门店陈列与销售提升实操指南
- 小学作文能力提升有效练习方法
- 2025年应急演练评估与演练总结安全培训试卷及答案
- 丙型肝炎防治指南
- 2025年基层党支部书记述职报告
- 中国稀土镁合金治炼项目投资可行性研究报告
- GB/T 30340-2025机动车驾驶员培训机构业务条件
- 传统文化经典教案范例分享
- 2025艺术品买卖合同范本
- 新保密教育线上培训考试试题及答案
- 2025年幼师考编真题及答案
- 科技企业员工绩效考核管理办法
- 2025年潜水泵行业分析报告及未来发展趋势预测
- 2025低空经济无人机网络安全事件案例分析报告
评论
0/150
提交评论