




已阅读5页,还剩51页未读, 继续免费阅读
(电力系统及其自动化专业论文)基于分布式数据挖掘的短期负荷预测的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.目毖o口 尸明 本人郑重声明: 此处所提交的硕士学位论文 基于分布式数据挖掘的短期负荷 预测的研究 ,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研 究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论 文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得华北电力大学或 其他教育机构的学位或证书而使用过的材料。 与我一同工作的同 志对本研究所做的 任何贡献均己在论文中作了明确的说明并表示了谢意。 学位论文作者签名:日期: 关于学位论文使用授权的说明 本人完全 了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、 并向有关部门 送交学位论文的原 件与复印件; 学校可以 采用影印、缩印或 其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅; 学校 可以 学术交流为目 的, 复制赠送和交换学位论文; 同意学校可以 用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的 学位论文在解密后遵守 此规定 ) 作者签名:导师签名: 日期:日期 : 华北电力大学硕士学位论文 第一章绪论 科学的预测是正确决策的依据和保证。 负荷 预测是电 力系统领域的一个传统研 究问题,是指从己知的电力系统、经济、社会、气象等情况出发,通过对历史数据 的分析和研究,探索事物之间的内在联系和发展变化规律, 对负荷发展做出预先估 计和推测。负荷预测是电 力系统规划、计划、 用电、调度等部门的基础工作,其重 要性早已被人们所认识。负荷预测的结果除了由负荷本身的历史规律决定外,还受 众多非负荷因素的影响。多年来,许多学者对这一课题进行了深入的研究,提出了 许多方法。负荷的变化因地区和气象而异,因而根据具体情况研究出合适的负荷预 测模型,是一项具有重要意义的工作。 t . 1短期负荷预测的重要意义 短期负荷预测的重要意义可以归纳如下: ( 1 )短期负荷预测是电力系统优化调度 ( 如机组最优组合、经济调度、最优 潮流计算等)的基础工具,是电力企业日常经营管理工作的重要组成部分,准确的 短期负荷预测是电网调度机构制定发供电计划和做好电网供需平衡的关键,它有助 于系统运行人员高效地预估电能的生产、输送、分配以及消费情况,制定出经济、 合理的发电方案。对一个大电网,根据短期负荷预测提供的信息,即可以实现发电 容量的合理调度,对运行中的发电厂的出力要求提出预告,从而可以对发电机组出 力变化的情况事先得以 估计,又可以经济合理地安排本网内 各发电机组的启停机, 从而可以 使系统在安全范围内, 保持必要的旋转储备容量的耗费为最小, 使发电 成 本为最小,确保电网安全、稳定、优质、经济运行。 ( 2 )随着我国电力市场的进一步发展,短期负荷预测在电力系统的经济运行 方面的影响会愈来愈明显, 对于发电公司, 短期负荷预测是制定发电计划和报价的 依据; 对于供电公司,短期负荷预测为供电方制定购电计划提供依据; 对于输电 公 司,短期负荷预测也是制定发电计划及安全、可靠、经济运行的基础。 ( 3 ) 电价是电力市场的杠杆和核心内 容, 体现了电力市场的竞争性和开放性, 而电价的制定是在未来给定电 价计算期的负荷预测的基础上完成的。 因此, 发电 企 业要保证其电价的竞争能力并且盈利, 就必须获得精确的短期负 荷预测值, 刁 能制 定出既有竞争力又保证盈利的电价。 ( 4 )提供运转业务是电 力市场中电网的一项基本功能,是电 力市场平等竞争 的必要条件, 可以给电网带来巨大的效益。 而电网在执行运转业务时是根据短期负 荷预测的 数据及各发电机的运行参数来制定发电计划和调度计划, 所以 准确的短期 负荷预测才能有效地促进供、 运、用电 三方的 协调。 华北电 力大学硕十 学位论文 ( 5 ) 在初级发电市场, 所有电 量统一进行竞价,只在电费结算时考虑合同电 量,按照差价合约结算。由 于电费 结算按时段进行, 需将合同电量按负荷预测曲线 分配至各时段, 所以 不准确的短期负荷预测将导致违约, 甚至引起电量分配的不合 理,造成电量不足等问题。 ( 6 ) 系统 充 裕性 评估 ( p r o j e c te d a s s e s s m e n t o f s y s t e m a d e q u a c y ) 由电 力调 度 中心负责,主要内容是分析预测中短期系统供需平衡和系统安全 情况,目 的是让市 场成员正确了解信息。p a s a是发电市场得以顺利进行的基础。这也充分体现了准 确的短期负荷预测对系统及发电市场的重要影响和应用。 综上所述, 如何提高预测精度是目 前 研究短期负荷预测理论与方法的中心和重 点,准确的短期负荷预测己 成为实现电 力系统管理现代化的重要内容之一 1 . 2 ff 期负荷预测研 究现状 随着现代科学技术的快速发展, 负荷预测技术的研究也在不断深化, 各种各样 的负荷预测方法不断涌现, 从发展的时间来分,可以 分为传统的 负荷预测方法和现 代的负荷预测方法。 从预测的模型来分, 可以 分为单一智能的预测方法和综合智能 的预测方法。单一智能预测方法指的是 只利用一种智能方 法的模型, 显然综合智能 方法就是综合了多种智能方法的模型。 ( 1 )单一预测方法 i 如神经网络法,小波分析法,模糊理论法,专家系统法均属于单一预测方法。 无论是哪种单一的预测方法均具 有不足和缺陷, 随着对负荷预测的深入研究和广泛 应用,单一的预测方法的 应用越来越难以适应发展, 现在人们正 在探索和研究多种 智能方法综合的预测模型。 ( 2 )综合智能预测方法 单一的方法均有其优缺点, 研究者考虑把多种智能方法综合在一起, 实现其优 缺点的互补, 提高负荷预测模型的性能, 从而提高负荷预测的精度, 一般有松散 结合:并联型结合;串联型结合; 网络学习型结合; 结构等价型结合。 文 献 2 把 粗 糙集 和神 经网 络 结合 建 立 短 期负 荷 预测 模 型, 采 用粗 糙集 理论 对各 种影响负荷预测的因素变量进行识别, 以此确定预测模型的输入变量; 在此基础上 通过属性约简和属性值约简获得推理规则集,再以这些推理规则构筑神经网络预测 模型,并采用附加动量项的b p 学习算法对网 络进行优化. 文献 3 融合粗糙集方法 与神经网络方法各自 的优势, 提出 一种新型的负荷预测模型 粗糙集径向基函数 神经网络模型( r s r b f n ) . 运用粗糙集方法和信息嫡概念, 在不改变样本分类质量 的条件下约简影响负荷的因素, 简化网络输入变量。 文献 4 针对决策树i d 3 算法的 缺陷,提出了属性一 值对的两次信息增益优化算法,该算法克服了 i d3算法在选取 华北电力大学硕十学 位论文 属性进行扩展时易偏向属性值多的属性及 i d 3 算法属性间相关性考虑较少的 缺点, 通过对嫡闽值的 设定和预剪枝技术, 部分克服了i d 3 算法对噪声敏感的不足, 结合 预测f i 气象、星期等信息, 建立日 特征负荷决策树模型进行日 特征负荷的预测。 文 献 5 为 有 效 选取 预 测 变量 和 训练 模 式、 提高 预测 精 度, 提出 了 一 个 基于 数 据 挖掘 技 术的负荷预测模型, 该模型首先利用粗糙集理论和遗传算法选取与负荷相关的预测 变量, 再选取与预测日 相似的训练模式,最后利用神经网络对负 荷进行预测。文献 6 把一种新的灰色理论自 修正模型应用到负荷预测的误差校正中。 提出了 纵向负荷 预测与横向误差校正相结合的方法, 首先选用同 一时刻并且具有相同影响因素的负 荷作为人工神经网络的输入进行纵向负 荷预测, 利用预测时 刻之前的整点时刻负荷 预测的误差来建立一个带自 修正功能的灰色理论模型进行负荷预测的横向误差校 正. 文 献 7 针 对大电 网 的 短 期 负荷 预 测, 建 立了 按地 域 划分 的网 格 化电 力系 统 短 期 负荷预测模型。 各子网根据自 身的 历史负荷和气象条件建立对网 格更为有效的负荷 预测模型,并采用了面向粗糙集的默认规则挖掘算法构造各单一预测模型,从而获 得更加准确的预测结果. 文献 8 提出了一种将混沌和神经网络相结合的方法用于短 期负荷预测。 利用混沌方法重构相空间系统吸引子, 用前向神经网 络拟和吸引子上 的 全局整体映射,构成了混合预测模型。 在实际应用中,将基于奇异值分解的噪声 消减滤波算法应用到数据的 预处理中, 并用混沌学习算法来训练神经网络参数。 文 献 9 以 软计算方法中的神 经网络和模糊系统为实 现工具, 将数据挖掘中的分类和聚 类思想应用于负荷预测问 题的 研究中, 根据数据挖掘理论中的分类和聚类思想, 构 建 k o h o n e n网和 b p网的组合模型进行坏数据辨识和调整。采用 c a r t算法完成模 糊推理系统的结构辨识任务, 构造相应的a n f i s 网络进行参数辨识. 文献 1 0 深入 研究了天气和特殊事件对电 力负荷的影响,建立了 结合径向 基 ( r b f ) 神经网络和 专家系统来进行短期负荷预测模型.利用 r b f神经网络的非线性逼近能力预测出 日负荷曲线,然后利用专家系统根据天气因素或特殊事件对负荷曲线进行修正,使 其在天气突变等情况下也能达到较高的预测精度。文献 1 1 采用分类和回归树 ( c a r t )算法对输入变量选择和输入空间划分进行了尝试,并构造 a n f i s网络进 行参数辨识。 文献 1 2 1 利用遗传算法有指导地计算神经网 络隐层节点数,从而确定 一个较合理的神经网络结构; 其次,由遗传算法从初始权值的 解群中选取出一优秀 的初始权值,克服初始权值选取的盲 目 性 ;最后,将得到的神经网络结构和优秀的 初始权值结合起来,利用改进的 b p算法进行电力系统短期负荷预测。文献 1 3 提 出了一个用来进行电力负荷预测的基于 自适应卡尔曼滤波算法的人工神经元网络 ( a n n ) . 文献【 1 4 利用粗糙集理论中的信息嫡概念来 选取与待预测量相关性大的 参 数作为输入。 所构造 a n f i s系统是基于数据进行建 模并进行参数辨识的,这样有 效地避免了模糊推理系统 ( f u z z y i n f e r e n c e s y s t e m f i s ) 中人为主观因素对预测的 负 面 影响 , 客 观地反 映了 相关 变 量 与负 荷 值之间 的 复 杂 关 系。 文 献 【 1 5 提出了 一 种 3 华北电力大学硕十学位论文 基于决策树技术的短期负荷预测算法, 利用决策树对影响负荷变化的因素进行了筛 选;并在此基础上按照负荷分别进行处理,得到平稳的负荷序列;然后应用时间序 列技术进行预测。文献 1 6 采用神经网络与模糊逻辑互补的方法建立了负荷预测模 型。 通过粗糙集理论中的信息嫡概念对神经网络的输入参数进行了 筛选,以待预测 量相关性大的参数作为输入,不仅减少 了神经网络的工作量,缩短了计算时间,而 且提高了预测的准确性; 在神经网络中,通过引进动量系数和遗忘系数优化网络, 提高了 a n n 的收敛速度;在模糊逻辑中,充分利用了人们对负荷变化取得的主观 经验,引进不平均隶属函数,来反映负荷对温度的敏感性。文献 1 7 通过对电力负 荷变化规律和影响因素的分析, 提出了一种基于组合式神经网络的短期电力负荷预 测模型。该模型综合运用神经网络、模糊聚类分析和模式识别理论方法进行建模。 首先,采用模糊聚类分析方法,以每天的 2 4点负荷数据、天气数据以 及天类别数 据为指标,将历史数据分成若干类别;其次,对每一类别建立相应的神经网络预测 模型;预测时通过模式识别,找出与预测天相符的预测类别,利用相应的神经网络 预测模型进行2 4 小时的短期电力负荷预测。 文献【 1 8 1 讨论了非线性电力负荷持久性 问题 ,并在持久性区间利用分形插值算法进行了短期负荷预测。运用分形理论中的 重标极差分析方法构造 了电力负荷分析模型,揭示了负荷波动变化的持久性,表现 出了隐藏于随机性之后的有序性,说明负荷特性是可以延伸的,由于在持久性区间 内负荷之间是紧密联系的, 因此可利用分形拼贴定理与分形插值算法求取与负荷历 史记 录相近吸引子的迭代函数系统,进而实现高精度的a电力负荷预测。文献 1 9 提出了一种基于模糊聚类分析和 b p网络的短期负荷预测方法。考虑了温度 、相对 湿度 以及 日类型等影响负荷的因素,通过模糊聚类分析将负荷历史数据分成若干 类,找出同预测 日相符的预测类别,然后建立相应的 b p网络模型,用附加动量和 变学习速率的方法预测每小时的负荷。文献 2 0 为使负荷预测更精确,鉴于预测对 象的不确定性和非线性 ,采用 a n f i s预测电力系统短期负荷。a nf i s将模糊理论 与神经网络融合,利用神经网络实现系统的模糊逻辑推理,采用混合学习算法调整 前提参数和结论参数,自动产生模糊规则。该系统具有非线性映射和 自学习能力, 不基于数学模型,用独特的空ir ri 分层方法建立若干模糊推理系统,依靠专家经验获 取控制信息,能用于负荷预测的非线性建模,获取负荷数据的最佳估计,克服数据 处理过程中存在的不确定性和不完备性。所用 a n f i s 模型为2 输出 1 输入 5 层 1 阶 s u g e u 。模糊系统。文献 2 1 针对传统 k均值聚类算法的不足,提出了 一种新的 聚类算法逐级均值聚类算法, 解决了传统聚类算法解的局部最优性问 题和如何 确定聚类数 目的问题。在应用该算法确定 r b f模型隐含层的中心向量时,同时确 定了隐含层的节点数和r b f 网络模型的结构。 文献 2 2 给出了一种短期电 力负荷预 测的组合数据挖掘算法。 通过日负荷特性分析, 在设定长度的最近历史日 期中 选择 与预测日天气最相似的为基准日,通过该模式下天气相似 日的相关影响因素差异与 4 华北电力大学硕士学位论文 相应负荷变化率关联规则挖掘建模, 挖掘模型算法采用 c 4 . 5 和c a r t算法的基于 b p网络加权组合, 算法还基于范例推理给出节假日调整因子校正节假日的影响, 设计 出 一 种高 精 确 度短 期 负荷 预 测系 统。 文献 2 3 综合 考 虑温 度、日 期 类型 和天 气 等因 素 对短 期电 力 负 荷的 影 响, 提出 了 将 径向 基 ( r b f ) 网 络和 模 糊 逻辑 相 结 合的 预 测方法。利用具有非线性 逼近能力的 r b f神经网 络预测出预测日 的最大负荷值和 最小负荷值, 并用模糊逻辑预测预测日的负 荷系数, 进而得到预测日的负荷值。 文 献 【 2 4 建立了 一 种新 的 人工 鱼 群神 经网 络 预 测 模型, 利 用 人工 鱼 群算 法 训 练神 经网 络的权值,再将该 神经网络用于短期负荷预测, 文献【 2 5 为提高电力系统短期负荷 预测准确度, 构建了一 种新型的负荷预测模型。 该模型首先采用多 层前馈神经网络, 以与预报点负 荷相关性最大的几种因素作为输入因子,以改进 b p算法作为 预测算 法, 来获得预报日相似日 负荷曲 线; 然后引入自 适应模糊神经网络, 用于预测预报 日的最大、最小负荷;针对模糊神经元的权值更新问题,采用一种新的权值更新算 法 一步搜索寻优法, 在获得预报日相似日 各点负荷和最大、 最小负荷的基础上, 通过纵向变换,对预报日 的负荷修正, 进一步减小预测误差。 1 . 3分布式数据挖掘的意义及研究现状 目前的数据挖掘算法和模型主要采用集中式, 大多要求所有被挖掘的数据必须 存放在一个单一的、集中的数据仓库中。因此,即便在数据分布存储的情况下,也 要求把这些数据重新收集到一个集中的地方。 这导致网络需要通过有限的带宽来移 动大容量的数据,从而使响应时间变长,数据的私有性和安全性被破坏; 此外,现 有的集中式数据挖掘算法又不太适合于大容量、 分布式的数据分析应用。 随着计算机和网络技术的发展,我们可以方便地获取 i n t e rne t 上的各种信息资 源。传统的基于单一数据库表的数据挖掘己经不能满足需要。一个企业的数据资源 往往存在于地理分布的各个数据库中,数据库中的数据可以是结构化的、 也可能是 半结构化和非结构化的。 现代决策需要来自 各个方面的 信息。 面对基于 i n t e rne t 上 的 “ 信息海洋” , 我们需要提取有用的、 可以 指导决策的知识。在这种分布式环境下 的数据挖掘, 与传统的基于单一数据表相比 ,具有很重要的现实意义。可以充分利 用己有的资源,也可以实现并行数据挖掘, 解决数据挖掘的空间和时间“ 瓶颈” 。 基 于 这种地理分布式、 形式异构的 信息资 源上的数据挖掘, 需要一套复 杂的方法来访 问、清理原数据,以及对挖掘过程的协调。 目 前,对分布式数据的 挖掘表现为以 下三种形式: ( 1 ) 建立一个统一的数据库或数据仓库,将分布的数据抽取出来,物理地存 储在一个地方. 这样将分布式数据挖掘转换为本地数据挖掘. ( 2 )每个 a g e n t 在本地学习,共享挖掘的结果。由一个 a g e n t 来负责集成所 华北电 力大学硕十 学位论文 有的 挖掘 型a g e n t 。 每 个 挖掘 型a g e n t 采 用标 准 的 算 法, 还 可以 充 分利 用 各种 算 法 进行合作。 ( 3 ) a g e n t 独 立 的 工作 , 在进 行 本 地学 习 的同 时 就 相互间 进 行 交互 ,不 再需 要另外一个 a g e n t 来对它们进行集成。 一般说来, 一个a g e n t 就是针对一个数据源。 文献 2 6 介绍了分布式数据挖掘的定义、重要性、 研究现状以及数据源,然后 详细介绍了两个典型的分布式数据挖掘系统, 最后探讨了分布式数据挖掘系统应该 具 有的 特 点。 文献 2 7 提出了 一 种基 于软 构 件的 分 布 式 计算 环 境c o r b a的 新 型分 布 式 数据 挖掘 体 系, 并 且提 出了 新 的 知 识 评 价 结构。 文 献 2 8 结合w e b 服务 技 术的 跨平台, 统一数据表示格式以及可实现软组件重组和数据重用的 优点, 提出了we b 服务的分布式数据挖掘体系,可实现分布式异构环境下的大容量数据的数据挖掘。 文献 2 9 提出了一种具 体的基于 w e b服务 ( s o a p )的分布式数据挖掘系统,对异 构数据库的数据挖掘进行了一些有意义的探讨.文献【 3 0 提出了 一个基于多 a g e n t 的分布式数据挖掘形式模型, 并结合数据挖掘方法和知识集成技术对该模型进行了 深 入的 分 析和 讨论。 文 献 3 1 给出 了 在 新 一 代 分布 式 对象 平 台 .n e t 实 现 移动 代 理系 统的必要性和可行性, 介绍了 在两类平台 上实 现代理迁移的相关技术和方法。 文献 3 2 1 给出了 基于代理的分布式数据挖掘系统设计,用来实现大容量的数据在分布式 存储情况下的 数据挖掘。文献 3 3 提出了 一种关联规则 挖掘大项集生成的并行和分 布式处理的计算框架的算法,该算法以大规模事务数据库为基础,将数据有效地分 片后做分布或者并行处理,通过节点之间的通信降低了节点间传输的数据量。文献 3 4 引入移动 a g e n t 来设计一个分布式数据挖掘系统的体系结构, 分析了 分布式数 据 挖 掘需 要解 决的问 题。 文 献 【 3 5 提出 了 一 个 短 期负 荷 预 测的 分 布 式 解决问 题系 统, 该 系统 是一 个多a g e n t 系 统, 每 个a g e n t 具有自 动 计 算和 与 其 它a g e n t 协调 工 作 从 而推理计算出 令人满意的负荷预测解决方法。 该系统使用了三个基本模块: 黑板模 块、 知识源模块和控制机制。 将现阶段的 预测 精度高的算法植入知识源模块中。 文 献 3 6 研究在 分 布式、 异构 和 历史 遗 留 数 据 库中 进 行 数据 挖 掘的 方 法和 策 略, 讨 论 了 分布式数据库的挖掘方法,在此基础上扩展讨论异构数据源的数据挖掘方法, 最 后, 讨论历史遗留数据库的 挖掘方法, 针对历史遗留 数据库进行移植或者集成为一 个数据仓库。文献 3 7 充分利用网格计算平台中的任务管理、 任务调度和资源管理 等服务来进行分布式数据挖掘, 介绍了一种基于网格平台的分布式频繁模式挖掘算 法。该算法借鉴了f p - g r o w t h 算法的思想并利用网格平台 所提供的分布式计算的各 种便利的服务,能在网格计算环境中进行分布式频繁模式的挖掘.文献 3 8 对如何 简化机群系统上分布式数据挖掘系统的开发和维护,给出了一个完整的解决方案, 并对数据挖掘系统的非算法部分进行深入的研究,给出了数据分布式存储,数据缓 冲机 制和 负 载平 衡策 略3 个关 键优 化 技术 , 并 在实 际 应 用中 加以 实 现。 文 献3 9 使 用蚁群优化来解决数据挖掘问题,针对 p a r e p i n e l l i 等人提出的单一数据库的基于 6 华 北电 力大学硕士 学位论文 a c o的分类算法而提出了基于分布式数据库体系结构的a c o分类算法, 采用了与 p a r e p in e lli 算 法 不同 的 启发 函 数计 算 方 法 及信 息 素改 变方 法。 1 . 4目 前电力系统短期负荷预测存在的问题 如前 所述,目 前对于短期负荷的研究己 经很多,也取得了很多研究成果, 但仍 旧 存在一些尚 未解决的问 题, 基于因素影响的 短期负荷预测还有许多问 题有待进一 步研究. ( 1 )影响因素是在目前经验基础上得到和划分的,随着认识的深入,可能还 会再细分。 ( 2 )电力系统获得日天气气象数据将越来越详细,负荷预测可以根据不同 气 象数据提出相应的预测模型。 ( 3 ) 特别事件因素 对负 荷的影响,目 前只在区别日 类型上给予考虑。 事实上, 可以 把特别事件日负荷作为一个单独模型来研究其变化规律, 但这需要在大量纪录 的基础上进行。 ( 4 )在电力系统 目前的负荷预测研究中,预测方法应与实际情况相结合,尤 其注重对气候条件,电 价弹性, 市场环境, 负荷构成等负荷的重要影响因素的细致 研究。考虑到电力系统是一个多因素共同作用的系统,与相关因素相配合,可 以尝 试对历史数据进行数据挖掘,从中找出 影响预测精度的重要相关因素 ( 或者称为主 导因素) 。 ( 5 ) 着力挖掘新的相关因素。例如,当日 温度对当日负荷的影响只是一个方 向,由于温度具有累积效应,连续多日 高 温和某日单独高温对该日的负荷影响程度 大小不相同。 因此,可以 尝试引 入能够体现温度累积效应的指标, 构成相应负荷预 测。 我们提出了基于网格化的电力系统短期负荷预测模型门 来提高负荷预测的精 度,在此模型中,引入了网格化的负荷预测机制,根据实际情况, 采用分区预测的 思想。该模型侧重算法研究,缺少对网格化负荷预测机制的整体结构 框架的 研究。 由于各电网的负荷数据库分布在网 络的不同位置, 形成了 一种分布式结构, 各分区 子电网又分别具有各自的负荷预测系统, 结合目 前电 力系统负荷预测工作的实际情 况, 针对上述短期负 荷预测研究中存在的各种问 题, 本文在网格化负荷预测模型的 基础上, 提出了基于分布式数据挖掘的负荷预测的模型结构, 该模型用于解决现有 负 荷预测系统的整合和算法共享, 完善网格化负荷预测机制。同时, 本文提出了 一 种基于神经网 络与决策树相结合的挖掘算法,用神经网络来选择影响负荷的因素, 以及用决策树对负荷样本进行训练和预测,并将该方法与改进决策树算法i 4 1 和 m d r b r算法17 进行t比 较。 华北电力大学硕十学位论文 1 . 5本文的主要工作 本文在网格化负荷预测模型的 基础上, 提出一种基于分布式数据挖掘的预测模 型的结构, 完善了网格化负荷预测机制, 综合运用神经网络、 信息嫡、决策树等数 据挖掘方法, 试图提高 短期负荷预测的精 度,解决大电网进行短期负荷预测时 存在 的问题。 本文的主要工作有: 1 .结合电网在地理位置上的分布式结构以及各级系统在做负荷预测时之间的 独立性, 提出 基于分布式数据挖掘的负荷预测模型的 体系结构, 来实现现有算法和 原有负荷预测系统的整合。 2 .研究一种基于神经网络和决策树相结合的挖掘算法进行电力系统短期负荷 预测,使预测模型能够排除噪音的干扰,缩小分类规则集,提高在使用规则时的效 率以及预测精度。 3 .以保定电网和京津唐电网的短期负荷预测为例,详细介绍分布式数据挖掘 用于负荷预测的结构和具体实现,并实现该负荷预测的整体结构; 利用本文所提出 的预测算法对各区域模型的影响因素进行计算, 预测出各区域的负荷, 然后对各区 域的负荷预测结果进行综合, 比较了本文算法、 改进决策树算法和m d r b r算法三 者的优缺点。 华北电力大学硕十学位论文 第二章 分布式数据挖掘 在 网格化的负荷预测模型中,各个分区 ( 子网)首先对负荷数据进行本地挖掘 和预测,然后将各子网的负荷结果上传上一级进行综合,这种机制与分布式数据挖 掘的过程类似。因此,在完善网格化负荷预测模型中需要处理两个方面内容,一方 面是引入分布式数据挖掘理论,另一方面是如何实现该分布式数据挖掘系统, 在实 际应用中,各个分区存在着各自独立的负荷预测系统,这些系统拥有不同的算法, 每种算法都有自己的优点和不足,但是这些系统由 于实现的编程语言不同,不能实 现网络的 交互,而在网格化模型中,需要分区和上级 ( 大电网) 进行数据的交互从 而完成大电网负荷的综合。如果要完全摒弃原有的系统,重新建立一个符合要求的 新系统,显然不是一个很好的解决办法。那么提高资源的利用率,以及如何集成和 整合有关应用系统, 实现相关信息资源在规定范围内的共享将是需要解决的技术难 题。 电力系统在地理位置上构成了一种分布式的结构,网络的分布式结构为分布式 的数据挖掘提供了基础,负荷预测也是如此。某个地区,其所辖的各分区的负荷所 受到影响因素各不相同,负荷模型的构建也各不相同,对各个分区建立负荷预测模 型要比只建立整个地区的负 荷预测模型的精度要高,而各个分区又有各自 的负荷预 测系统,各个系统具有不同 的挖掘算法。我们可以充分利用这些现有的各个分区的 负荷预测系统,来实现新算法服务和原系统整合同时又能提高负荷预测的精度。如 各市局的负荷预测挖掘系统完成本地负荷的挖掘和预测后,将结果传递到该市局的 上一级机构 ( 省局或电网) ,上级机构根据这些市局的负荷再进行挖掘综合,从而 预测出该地区的负荷。这样就形成了一种分布式的数据挖掘结构。本文首先讨论分 布式数据挖掘的特点、体系结构、技术支持,以表明该方法应用在电力系统方面的 可行性。在后面的章节中 我们提出了 用于负荷预测的分布式数据挖掘的系统架构。 2 . 1分布式数据挖掘的简介2 6 2 . 1 . 1引言 近几年, 数据挖掘的研究有了很大进展。 在分布式数据库环境中进行数据挖掘 的研究显得尤为突出.所谓分布式数据挖掘( d i s t ri b u t e d d a t a m i n g , d d m) 就是使用 分布式计算, 从分布式数据库中发现知识的过程。 分布式数据库的数据挖掘的 研究 得到了如此的重视, 其主要原因是: 数据挖掘的目 标是大规模的数据集, 而在现 实环境中,绝大部分的大型数据库都是以分布式的形式存在的。因此,提 出新的分 布式数据挖掘系统的体系结构是非常必要的。在数据挖掘系统中,经常需要来自 华北电力 大学硕士学 位论文 不同站点的数据库中的数据,这就使得数据挖掘系统必须具有分布式挖掘的能力, 同时也需要我们根据分布式数据挖掘的 特点设计出新的分布式数据挖掘算法。 随 着w ww的快速应用普及, i n t e rn e t 成为人类历史上最大的数据源, i n t e rn e t 中的数 据在以 几何级数的速度增长, 如何利用i n t e rn e t 中的资 源, 如何在i n t e rn e t 中 进行数 据挖掘也开始成为人们考虑的问题。 因为 i n t e rn e t 本身就是一个分布式的系统, 分 布式数据挖掘系统是在i n t e rne t 中获得知识的 最好工具。 虽然分布式数据挖掘是近几年才提出的新的 研究领域,但其诱人的应用前景, 目 前己有相当数量的研究人员投入到对该领域的研究当中,并且取得了一定的成 果。 早期对分布式数据挖掘的 研究工作主要集中 在水平划分的分布式数据库, 其中, 最为突出的发展是多代理技术, 这是提高分布式数据挖掘效率的有效手段, 许多典 型的分布式数据挖掘系统都使用了这种软件代理技术,如 s t o l f o的 j a m 系统、 k a m g u p ta 的p a d m a 系 统、 c h a v e z 的c h a lle n g e r 系 统。 后来, 针 对垂 直划 分 的分 布 式数 据 库, k a r g u p t a . p a r k 等人 又 提出 了 汇 集 型数 据挖 掘 系统 ( c d m ) . 如何 设计 出 一个分布式数据挖掘系统的体系结构, 真正能支持各种分 布式数据挖掘算法、真正 实现平台无关性是目前乃至今后的分布式数据挖掘的研究工作的非常重要的一个 方面。 分布式数据挖掘的数据源就是分布式数据库, 或者是把集中式数据库按水平方 式或垂直方式划分后分布在不同站点的分布式数据集。 在水平划分情况下, 各站点 的数据是同质( 或同构) 的,即每个站点上的数据具有相同的特征( 或属性) 集。在垂 直划分情况下,各站点的数据是异质( 或异构) 的.即每个站点上的数据具有不同的 特征( 或属性) 集。当前,绝大多数分布式数据库是垂直划分的。由于各个分区的负 荷受到的影响因素不同,分布在各个分区的用于预测的负荷数据库的数据也不相 同,即数据是垂直划分的 ( 具有不同的属性集) 。 2 . 2 . 2 典型的分布式数据挖掘系统 典型的分布式数据挖掘算法的两个基本步骤是:局部数据分析,生成局部数 据模型。 组合不同数据站点上的局部数据模型, 得到全局数据模型。 如果是对水 平划分的分布式数据库进行数据挖掘,由于各站点上的数据模式同构, 所以 ,相对 来说, 挖掘方法比较简单,只要将通常的局部数据分析方法稍加修改, 然后按上述 步 骤进 行, 一 般能 够 挖掘出 合 适的 全 局数 据模 式。 其 中 最常 用的 系 统是 k a u g u p ta 和h a m n z a o g lu 等 人 提出的 使用 软 件 代理的 并 行/ 分 布 式 数据 挖 掘系 统( p a d m a ) . 如果是对垂直划分的分布式数据库进行数据挖掘,由 于各 站点上的数据模式异构, 使用通常的局部数据分析方法, 不能正确生成构造全局数据模型所需要的局部数据 模 型。 为 此, k a r g u p ta 和p a c k 等 人 提出 了 汇 集 型数 据 挖 掘 系 统( c d m ) , 下 面详 细 介绍这两个分布式数据挖掘系统。 1 0 华北电力大学硕士学位论文 ( 1 )使用软代理的并行/ 分布式数据挖掘系统 ( p a d m a ) p a d m a的 体 系 结构 。 p a d m a 的 体 系 结 构如 图2 - 1 所示 。 它 有 二 个主 要 模块 : 数据挖掘代理、 协调器和用户接口。 数据挖掘代理模块用于访问 数据,从中 提取 有用的高级信息。 数据挖掘代理在完成某个挖掘活动时指定。 并行工作的数据挖掘 代理通过协调器共享它们的信息。 协调器用于协调 各个代理, 将挖掘到的信息提 供给用户接口, 实现从用户到代理的反馈。 用户接口是用户与挖掘系统进行信息 交换的桥梁。 进行分布式数据挖掘时,协调器接受用户以标准 s q l表示的查询,并以 广播 方式通知各代理。然后, 各代理提供它们提取到的与该查询有关的信息。最后,由 协调器把这些信息汇集起来,提供给用户。 p a d m a的功能。p a d m a的功能分 成三个部分:并行数据查询和访问、并行 数据分析以及交互式聚类 / 数据可视化。 其中, 并行数据查询和并 行数据分析两部分 实现了系统的并 行挖掘。 并行数据查询和访问。 在大规模的数据挖掘中,并行数 据查询和访问, 能够有效地提高系统的响应速度。在p a d m a中, 每个数据挖掘代 理独立维护它们 自己的磁盘子系统, 完成局部的输入/ 输出操作, 从而为整个系统提 供了并行的数据查询和访问。 对于分布式文档, 各数据挖掘代理则 使用经过简化的 模块化数据分析算法,每个代理及其协调器都有一个文件高速缓存.p a d ma为了 能够并行查询和访问 关系数据库, 把各个文本文档组成一个文本主体, 作为一个关 系表存放在系统中。并行数据分析。 p a d m a的数据分析主要由 各软件代理以分 布式并行方式完成,分别将一个 “ 概念图”( 聚类层次结构图,或决策树,或类似 于相关矩阵的统计分析结果) 返回到协调器。由 协调器负责组合这些概念图,并以 用户可理解的形式传送到界面上。 为生成文档聚类的概念层次, 数据挖掘代理( d m a ) 同时使用了有监督和无监督的层次聚类技术。 图2 - 1 p a d ma系统体系结构 1 1 华北电力大学硕十 学位论文 p a d m a的两种 代理。 p a d m a中有两种代理:文本型代理和数字型代理。 文本型 d m a 。 设置文本型 d m a的目 的是标识具有统计意义的文档聚类, 这些聚 类能够用于识别某文件主体中各文档之间的共同模式。文本挖掘包括两个主要步 骤:选择文档的表示方法;发现文档之间的关系。 p a d m a使用层次结构表示 文档, 而在确定文档之间的关系时则使用无监督的层次聚类算法, 以及优化的用户 反馈驱动的分片合并线性分类器。 p a d m a的无监督文本挖掘基本上是建立在统计 分析的基础上, 并用层次聚类算法生成概念树,由它把文档和聚类关联在一起。 数字型 d m a 。 并行数字型 d m a用于完成简单的统计分析,如计算特征之间的相 关矩阵等。 ( 2 )汇集型数据挖掘系统 ( c d m ) 在d d m的实际 应用中, 经常不能充分存取异构分布式数据集的公共值, 为了 推 广应 用d d m , 1 9 9 8 年k a r g u p t a 和p a c k 等 人 提出了 汇 集型 数据 挖 掘系 统 (c d m ) e 它使用正交基函 数进行局部分析, 解决通常的局部数据分析方法不能正确生成构造 全局数据模型所需要的局部模型的问题。 c d m的基本概念e c d m是一种在分布式垂直划分特征空间中进行归纳学习的 新方法,其基本思想是,将待学习的函数用一组合适的基函数按分布式方式表示, 整个c d m算法与不同站点发现模式的 特定归 纳学习算法无关。允许各数据点 选择 不同的学习算法,c d m 能 够生成整个数据集的全局分布式模式,不必假定 按照各 站点上特征空间的 特殊划分方式,将整个建模问题进行分解。 c d m 的体系结构。c d m 的体系结构如图 2 - 2所示,虽然该结构只有两层,但 在具体实现时 可扩充到多 层.这种体系结构建立在把归纳学习分解成局部 ( 本 地) 和 非局部基函数求解的基础上,系统为每个数据点提供山局部观测变量定义,并用于 局部分析和计算基函数的程序,通过各数据点对学习算法、通信方式和处理方法的 选择,给每个程序分配一个自 治度。 这些程序实际上就是软件数据挖掘代理。 一般 情况下各软件代理是 独立无关的,必要时也相互协作。与p a d ma类似, 软件代理 通过协调器相互协作。 华北电力大学硕十学位论文 图2 - 2 c d m系统的体系结构 c d m 的学习过程。c d m 的学习过程也分为学习和测试两个阶段。在学习 阶段,所有代理首先根据各自的局部数据进行学习,一旦各个代理识别出局部基函 数及其系数, 就把每个代理不正确预测的与数据子集相对应的 索引, 发送到协调器。 此外,还把预测某个类别的强度或可信度发送到协调器。为了评价对特定类别预测 的强度或可信度, 相对于数据库中同 一类别标示的输出总数, 计算正确预测输出的 百分比。然后,由协调器标示由所有代理不正确预测的公共数据集,并请求从所有 代理那里得到这个数据集。协调器一旦获得这个数据集,就运行它的学习算法,以 确定用不同站点上的特征变量定义的基函数。在测试阶段,每个代理独立进行分 析和预测, 并把预测结果及有关的可信度发送到协调器,由协调器根据每个代理完 成任务时的可信度,对预测结果进行排序。 同时,根据用户定义的可信度阐值,确 定各个代理的预测结果的可信度, 如果协调器认为所有代理的预测结果都是不可信 的, 就自己承担起整个学习任务,并请求从各个代理那里得到相 应的观测特征值, 一旦得到这些值,协调器就运用它自己的模型/ 规则, 作出最终的预测。 如果协调 器从各代理那里接受到一个高可信度的 预测结果, 就把这个预测结果作为整个系统 的预测输出。 因此, c d m 的主要步骤可归纳如下:在每个数据点上产生 近似正交基函数 及其系数。 把选择好的数据样本从每个站点传送到某个站点, 并生成与非线性交 叉项相对应的近似基函数系数。 组合局部模型, 并把该模型转换成用户所希望的 规范化表示形式,然后将模型输出。 华北电力大学硕十学位论文 2 . 2 . 3分布式数据挖掘系统的特点 由 于基于网络的分布式数据库通常处于一种分散的状态, 其特点是数据的异构 和站点的分散, 这给分布式数据挖掘造成了 很大的困难.因此, 提出一个能有效地 处理分布式异构数据的挖掘系统框架是非常重要的。 只有在有效的框架和体系结构 支持下,分布式数据挖掘算法刁 能 真正地发挥作用。我们甚至可以说,没有有效的 框架和合理的体系结构的支持, 分布式数据挖掘基本上是不可能的。 为了有效的支 持分布式数据挖掘,一个分布式数据挖掘系统应该具有以下的特点: ( 1 ) 通讯便利。一个有效的分布式挖掘系统应该可以 在本系统的各个站点间很 方便地进行通讯。 这种通讯 应该是在较高层次上完成的, 例如不需要考虑底层是使 用何种协议。 此外, 这种分布式数据挖掘系统中的通讯功能应该可以 很方便地处理 原始数据、所挖掘的知识、挖掘的请求以及挖掘请求的参数。有些情况下甚至可以 传送挖掘算法本身。 ( 2 )容易扩展。由于数据挖掘理论和算法研究的快速发展,新的知识形式、新 的数据挖掘算法不断出现。为了能够保证分布式数据挖掘系统的持续可用,分布式 数据挖掘系统应该设计成容易扩展的开放式系统。当出现新的算法、新的知识形式 时,系统能够通过自身的扩展性功能加入这些新的知识形式、新的算法,而无须对 系统进行重新构造或编写。 ( 3 ) 灵活挖掘。分布式数据挖掘系统应该可以灵活响应用户的各种数据挖掘要 求,比如对不同大小,不同位置的数据库的挖掘,对同一数据库挖掘各种形式的知 识,对一个数据库的某个子集进行挖掘等等。 ( 4 )移动挖掘。在有些数据挖掘算法中,需要挖掘算法顺序访问各个站点中的 数据集,那么,分布式数据挖掘系统必须可以支持挖掘算法的移动性。也就是说, 当一个算法在一个站点上完成了在本站点的数据挖掘任务之后,还可以移动到其它 站点上继续进行挖掘。 ( 5 )知识共享。在各个站点间进行分布式挖掘时必须采用可以被理解的知识形 式。一是因为分布式数据挖掘一般包含面向知识的挖掘,即在本地知识的基础上挖 掘全局知识, 所以 必须采取能够统一理解的 知识表示方式才能 够在各个站点间实现 协同挖掘。 二是因为各个站点上的用户可能需要访问其它站点上的知识,这也需要 有一种通用的知识表示方式。 6 ) 平台无关。由于在分布式系统中存在着平台的异构、操作系统的异构、 数 据库系统的异构, 因 此分布式数据挖掘系统应该能够完成在各种平台的数据挖掘任 务。无论是各个站点上的数据挖掘算法, 还是全局数据挖掘算法, 都必须能够处理 各种平台上的数据处理及通讯任务。 ( 7 )安全保证。 在分布式系统中进行数据挖掘需要考虑的一个问题就是安全性 华北电力大学硕士学位论文 的保证。 一般来说有二个方面的安全性考虑: 一是数据存取的权限控制,二是知识 存取、传送的安全, 三是挖掘任务的设置 权限, 即什么角色可以发 起什么样的数据 挖掘任务。 ( 8 ) 集中控制。 为了方便地实 现分布式数据挖掘, 一个用于集中控制的站点 ( 可 以是浮动的) 是必须的. 在不存在全局控制站点情况下,整个系统的通讯开销是非 常巨大的。 为了得到全局知识, 所有的站点 将进行大量的广播,比 起使用全局控制 站点的系统来说, 开销和难度无疑要大得多。 此外, 在某些分布式数据挖掘算法中, 需要进行全局范围内的决策, 这也是引入全局控制站点的一个自 然原因。实际上在 引入了全局控制站点后,系统的可扩展性和灵活性都得到了很好的支持。 实际上, 在设计一个分布式数据挖掘系统时, 还需要考虑其它一些问题,比如, 如何处理各站点间负载的均衡, 如何处理异构数据之间的联系 对于挖掘出来的知识 如何有效地表示和与用户的交互等等 。 但是这些问题有些可以利用现有的分布式系 统研究的成果和结论,有些则己经在现有的数据挖掘算法和系统研究中得到了充分 的考虑.因此,目前乃至今后的分布式数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版社区老年人营养配餐服务合同范本
- 2025年二手房买卖合同补充条款及房屋交易合同备案服务协议
- 2025版商铺转租租赁物使用限制与责任界定合同
- 2025版科技项目研发成果托管合作协议
- 2025年度自流平地板买卖合同范本
- 2025版虚拟现实产业发展担保合同
- 2025版牲畜养殖企业承包与养殖产业链合作合同
- 2025年互联网企业知识产权抵押贷款合同
- 2025东莞租赁合同范本(含租赁期限延长)
- 2025版新能源发电设备采购与现场安装维护合同
- 2025年幼儿教师资格保教知识与能力试题及答案
- (2025年标准)职工转岗协议书
- 湖南省衡阳市祁东县2024-2025学年七年级下学期期末考试英语试卷(含笔试答案无听力音频及袁恩)
- 2025湖南省低空经济发展集团有限公司招聘12人(第二次)笔试参考题库附带答案详解(10套)
- 2025重庆对外建设集团招聘41人笔试参考题库附带答案详解(10套)
- 2025年中级消控笔试题目及答案
- 《无人机飞行控制技术》全套教学课件
- 石油行业较大危险因素辨识与主要防范措施
- 2025年教育管理领导力案例分析试题及答案
- 办公软件培训课件
- 成人氧气吸入疗法-中华护理学会团体标准
评论
0/150
提交评论