




已阅读5页,还剩49页未读, 继续免费阅读
(电力系统及其自动化专业论文)具备可解释能力的市场清算价格预测模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文针对神经网络结果的不可解释性与不能提供预测不确定信息的现 状,利用决策树技术与神经网络技术构建了适于电价预测的混合预测模型。 首先,将电价预测模型转化为电价变化率预测模型;然后利用决策树技术构 建了电价变化率决策树预测模型,在获得预测电价变化率的同时,也获得了 该类电价变化率的可能概率及其主要影响因素;然后,针对大于可接受的电 价变化率误差水平的分类样本,重新构建该分类的基于神经网络的混合预测 模型。最后,采用澳大利亚昆士兰州电力市场实例数据验证了本文模型的有 效性。 关键词:电力市场,市场清算价格,价格预测,决策树 a bs t r a c t t os o l v et h ep r o b l e m so fa r t i f i c i a in e u r a ln e t w o r km o d e lw h i c hs t r u c t u r ei sn o t e a s yt ob eu n d e r s t o o do rb ee x p l a i n e da n dt h er e s u l t sc a l l tp r o v i d em o r ee x t r a i n f o r m a t i o na b o u tt h ei n d e t e r m i n a c yo ft h ef o r e c a s t i n gp r i c e s oan o v e lh y b r i dm o d e l i sp r e s e n t e di nt h i sp a p e r , u s i n gt h ed e c i s i o nt r e ea n dt h ea r t i f i c i a ln e u r a ln e t w o r k m e t h o d s f i r s t ,t h ee l e c t r i c i t yp r i c ef o r e c a s t i n gm o d e li st r a n s f o r m e di n t ot h e e l e c t r i c i t yp r i c er i s i n gr a t i of o r e c a s t i n gm o d e l s e c o n d ,t h ee l e c t r i c i t yp r i c er i s i n gr a t i o f o r e c a s t i n gm o d e li sb u i l tf o re a c hp e r i o db a s e do nt h ed e c i s i o nt r e ea p p r o a c h ,w h i c h n o to n l yp r o v i d e st h er i s i n gr a t i oo ft h ee l e c t r i c i t yp r i c eb u ta l s og i v e st h ep r o b a b i l i t y a n dt h em a i n l yi n f l u e n c ef a c t o r so ft h er a t i o t h e n , t h ea r t i f i c i a ln e u r a ln e t w o r k m o d e l sa l eb u i l tf o rt h ec l u s t e r sw h i c hh a v eb a da c c u r a c yo fp r i c ef o r e c a s t i n gt h a t c l a s s i f i e db yt h ed e c i s i o nt r e e f o r e c a s t i n gm o d e l s f i n a l l y , r e a l - w o r d d a t ao f q u e e n s l a n ds p o tm a r k e ti na u s t r a l i ai se m p l o y e dt od e m o n s t r a t et h ev a l i d i t yo ft h e p r o p o s e da p p r o a c h c a oj i l i a n g ( p o w e rs y s t e ma n da u t o m a t i o n ) d i r e c t e db yp r o f z h a n gl i z i k e yw o r d s :e l e c t r i c i t ym a r k e t ,m a r k e tc l e a r i n gp r i c e ,p r i c e f o r e c a s t i n g , d e c i s i o nt r e e 声明尸明 本人郑重声明:此处所提交的硕士学位论文具备可解释能力的市场清算价格 预测模型研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研 究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文作者签名:日期:沙型:皇:! 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日期:川:垄:! : 导师签名a 建奠 日期:出- 乙 华北电力大学硕士学位论文 1 1 选题背景及研究意义 第一章引言 国家“十一五”规划中明确提出要深化电力体制改革,完善区域电力市场,落 实电价改革方案,因此电价的杠杆调节作用将更加明显。对促进市场竞争、提高电 力系统运行效率和实现资源优化配置将起到十分重要的作用。电价不仅成为联系用 户( 用电方) 、市场监管者( 电力监管委员会) 、发电商( 发电企业) 的经济纽带, 更是关系到用电方、发电方经济利益的重要因子。对于买卖双方,如果事先能够较 为准确地预测到电价,就能够在激烈的市场竞争中处于有利地位,从而获得更多的 经济利益。因此,对电价特点及其电价预测进行研究有着极其重要的现实意义。 对于发电商,电价是他的产品价格,其利润依赖于成功的报价策略,而报价策 略形成的基础是对短期电价进行准确预测。因此,准确预测电价,将有助于发电企 业构造最优的电量、电价投标策略,从而优化报价进而获得最大的利润。从长远的 角度看,通过电价预测,发电方可以初步预测未来一个时期内的电价发展走向,从 而确定将来一定时期内竞价电量和合同电量的分配比例,将自身参与市场竞争的风 险降到最小。 对电力用户来说,电价构成了他的单位购电成本。根据电价预测结果,用户可 以制定合理的用电计划,确定合适的购电量和购电时段。比如可以将电价较高时段 的负荷转移到电价较低的时段( 峰谷电价) ,这样可以降低生产成本,增加产品的 竞争力从而获得更大的利润。 对于电力监管机构,准确的电价预测为促使市场健康、稳定、有序的竞争和发 展以及各种电价政策的制定提供科学依据。国家电力监管委员会通过对短期电价的 预测,把握市场电价的总体变化趋势,及时向政府部门提出调整电价的建议。各级 地方电力监管机构可以借助电价预测监管包括发电、输电、售电在内的所有电力企 业的市场竞争行为,防止具有市场操纵力的电力企业垄断或操纵电价,从而维护电 力消费者的利益,保证电力市场的正常运行。 随着电力市场化的不断深入,电价预测的重要性将越来越突显,预测结果越准 确就越能使各市场参与者在竞争且多变的环境下做出更加明智的商业决策。因此, 对电价进行积极深入的研究是非常有意义的。诸多学者投入了大量精力对此进行了 深入的研究和应用,但与负荷相比,电价具有更强的波动性,并且受到更多非确定 性因素的影响,尤其是市场成员行为、发电商报价策略及其拥有的市场力等因素。 而许多非确定性因素很难进行检测和量化,更无法纳入电价的预测模型,给电价的 华北电力大学硕士学位论文 准确预测设置了较大障碍。 1 2 国内外研究动态 1 2 1 电价预测综述 近年来,众多专家学者就短期电价预测进行了大量的研究,尝试了多种电价预 测模型和方法。如时问序列法【1 3 1 、神经网络法【4 7 1 、组合预测法【8 】、支持向量机【9 1 、 混沌理论 1 0 - m l 】、随机生产模拟【1 2 】等,并取得了丰硕的成果。在各种预测方法中,模 拟法由于需要大量的系统、市场数据、计算量大,从而限制了其在较大电力系统中 的应用。将支持向量机和混沌理论等方法引入电价预测中日前还处于初步研究阶 段。时间序列法和神经网络法在各种预测方法中应用的最早,也最为成熟。尤其神 经网络凭其强大的非线性能力能够很好的映射电价与各影响因素之间复杂的非线 性关系,并同发展起来的各种数据预处理方法结合构建电价预测模型,取得了较好 预测效果,从而获得最为广泛的应用。 文献 1 3 】首次将神经网络技术应用于电价预测。文献 1 4 】则较早的把b p 神经网 络技术用于短期电价预测,此后围绕神经网络出现了很多改进的方法。随着各种相 关技术的兴起并不断被引入到电价预测当中,现在已很少采用单一技术构建预测模 型,各预测方法模型主要在以下几个方面进行了改进: ( 1 ) 对各输入数据序列进行数据预处理,凸显其规律性。而将不同的数据预 处理方法与不同的预测工具结合可以得到不同的预测方法。 文献 1 5 】利用小波变换对时间序列进行分解变换分解成多个有序序列,从而使 分解变换后的序列具有更好的规律性,通过对原始数据进行预处理后再利用累积式 自回归滑动平均模型来预测,最后利用小波变换的反变换将生成的预测电价变换成 最终预测电价。 文献 5 】 1 6 】【1 7 】通过相似搜索技术寻找相似序列。文献 16 】通过相关性分析技术 进行初始输入数据的筛选,搜索分析提供的历史电价和负荷从中得出相关性较大的 数列。文献 5 】【1 7 】中通过搜索历史数据中负荷电价数据序列与预测日相似的相似 日,然后通过神经网络修正得到预测日数据。 文献 1 8 】利用平滑技术除去原始数据中与时间有关的变化趋势,消除了电价的 增长趋势,处理后的数据中既包含了u m c p 变化的导数信息,又可以基本上去除季 节、整体电量供给水平、能源价格等较缓慢的影响因素。 。 ( 2 ) 利用各种技术优势,互补构造模型,弥补单一算法或模型内部的缺陷。 文献 7 1 q b 为了克服传统神经网络学习速度慢和易陷入局部极小点问题,采用模 2 华北电力大学硕士学位论文 糊数学中的计算方法构建模糊神经网络,从而加快了信息处理的速度,增强了系统 的容错能力,扩大了系统处理信息的范围,增强了系统处理信息的灵活性。 文献 1 0 r p 以电价时间序列和负荷时间序列的混沌特性为基础,利用多变量混 沌时间序列的相空间重构理论并结合神经网络的非线性能力构建预测模型,并用来 预测系统边际电价。 文献 8 】用预测置信度来调节权重系数,把辐基函数网络和多层感知器的预测结 果作现行组合,预测了新英格兰电力市场的市场出清价格。 文献 1 9 】利用多元回归网络克服b p 神经网络自身算法的缺陷,得到了更高的学 习精度和更快的收敛速度,从而建立了基于遗传算法的小波神经网络电价预测模 型。该模型结合了遗传算法的全局优化搜索能力以及小波神经网络良好的时频局部 性质,有效地提高预测精度,避免了b p 神经网络的固有缺陷。 文献 2 0 】首先利用模糊粗糙集理论中的信息熵来选择动态模糊神经网络的输 入,在模糊神经网络内部引入递归环节,构成动态模糊神经网络,并采用具有全局 寻优能力的遗传算法来训练网络f 6 儿2 ,从而克服单纯b p 算法易陷入局部最小点的 问题。 ( 3 ) 考虑特殊因素对电价的影响,从而构造出一些特殊指标。 文献 2 2 】中作者引入市场供求指数作为影响系统边际电价的因素。作者分析认 为系统边际电价不是一个按正常规律变化的量,不直接取决于气象因素等众多随机 变量,而是直接与负荷曲线、系统可用的发电容量、发电商的报价模式、系统和机 组的约束条件等因素密切相关。认为系统边际电价预测更加适合定位为一个给定市 场,而不是一个包含众多随机因素的随机时间序列预测的问题。 文献【2 3 】中为了真实反映参与竞价的发电商所面对的市场需求,在输入层引入 竞价空间的概念。 文献 2 4 】从备用角度在输入向量中添加旋转备用指标。 文献 2 5 1 用容量裕度相对值倒数定义了一个指标,并用其来判断价格钉的产生。 文献 2 6 1 为了衡量市场力的发电容量而设置了必须运行率指标m m r 。本文作者 认为市场出清价是由发电商的报价排序决定的,而发电商的报价策略完全是根据预 测的负荷、自身拥有的市场力和估计的其他发电商报价策略来决定的。相比众多预 测方法对时段的重视,本文作者认为相应的预测日或预测时段实际电价的高低之所 以具有的关联性是由于相应的系统负荷存在相关性,并认为时期因素对电价预测的 影响,也是因为不同时期内系统负荷的不同造成的,而不单独考虑。该文预测结果 的精度相比其他预测方法模型虽不具优势,但是由于模型简单,预测速度快,能够 满足在线预测的要求。 3 华北电力大学硕士学位论文 1 2 2 决策树数据挖掘技术综述 近年来出现的数据挖掘技术被认为具有令人兴奋的研究前景。面对汹涌而来的 海量数据,企业对数据挖掘应用形成极大的需求,有力地推动了该技术的发展。目 前,国内总体上还处于理论探索、应用试验阶段。决策树作为一种重要的数据挖掘 技术,以其建模速度快、模型简单、结构直观、易解释、分类精度高等众多优点从 而获得了广泛应用。 各决策树算法中,以q u i n l a n 在1 9 8 6 年提出了i d 3 算法【27 】最有影响。该算法是 一个典型的决策树学习系统,它以信息熵作为分离目标评价函数。自从该算法出现 以后,研究人员围绕该算法展开了大量的研究,提出了许多富有成效的优化、改进 算法。各改进算法主要工作集中在扩充决策树属性的取值范围及改进选择分离属性 标准;提高决策树构造效率,消减数据库遍历次数等方面。 针对i d 3 算法的不足,我国学者刘小虎提出了m i d 3 算法 2 8 1 ,改进了选择新属 性的启发式函数,能取得比i d 3 算法更好的分类效果。属性选择时,不仅考虑该属 性带来的信息增益,而且考虑选择该属性后续选择的属性带米的信息增益。 c 4 5 算法f 2 9 】是q u i n l a n 在i d 3 算法的基础上加入了对连续型属性、属性值空缺 情况的处理,并采用了较为成熟的剪枝算法,是各种决策树算法中应用最为广泛、 最有影响力的一种。c 4 5 算法是一种归纳学习算法,它先从所有的事例中选取一部 分构造决策树,再用剩下的事例测试决策树并对它进行调整。它不仅能处理具有连 续值类型的属性,还可以对属性的取值集合进行等价类划分,划分在同一类的属性 值在属性值判断时走向同一分支。 此后针对c 4 5 算法的不足,肖勇等提出了利用遗传算法构造决策树的算法。即 利用遗传算法从上一代决策树群体经过遗传算子的操作产生下一代群体演化直到 满足终止条件。该算法在正确性、节点数和平均深度等方面相比c 4 5 算法有所提高, 但是由于遗传算法计算量大,费时较岁3 0 l 。 以i d 3 算法为代表的决策树构造算法都把研究的重点放在属性的选择上,洪家 荣等学者从示例学习最优化的角度分析了决策树归纳学习的优化原则,提出了一种 新的基于概率的决策树构造算法p i d 3 l 】。 c a r t 算法由b r e m a n 等人提出,已在统计学领域得到普遍应用。该算法可以 处理高度倾斜或多态的数值型数据,也可以处理顺序或无序的类属性数据。 此后,为了满足对大容量的数据进行数据挖掘的需求,i b ma l m a d e n 研究中心 设计了s l i q 算法,该算法采用了与排序技术以减少计算连续属性的代价。但是该 算法要求类表驻留内存,从而限制了其处理数据的规模。其后的s p r i n t 算法完全 消除了内存的限制,但仍然需要使用与训练集大小成比例的散列树,当训练集增大 4 华北电力大学硕+ 学位论文 时,代价加大。 1 3 本文所做的主要工作 本文在对电价及其影响因素进行分析的基础上,利用决策树数据挖掘技术,对 负荷、电价等历史数据进行挖掘,并与神经网络技术结合构建适于电价预测的混合 预测模型,使得电价预测模型在具备模型结构可解释及提供预测结果不确定性信息 的同时,能够满足对预测精度的要求,从而能够为用户的最终决策提供更多参考信 息。 本文主要工作包括如下几点: 1 ) 在阅读大量中外文献的基础上,对现有各类电价预测方法及其特点进行了综 述,尤其对基于因子分析类预测方法进行了详细的分析总结。 2 ) 概述了电价及其电价预测相关理论。研究分析了电价形成、电价特点及其影 响因素,并同负荷的相关特性进行了比较。 3 ) 系统阐述了决策树技术特点、c 4 5 算法原理,b p 神经网络原理、算法及其 改进方法。并就决策树技术的可解释性和神经网络的非线性能力进行了研 究。 4 ) 基于决策树模型具有可解释的优点构建了分时段的决策树电价变化率预测 模型。 5 ) 将神经网络的非线性映射能力与决策树技术结合构建了适于电价预测的混 合预测模型。 6 ) 实例验证。本文利用澳大利亚昆士兰州电力市场的实际运行数据对本文所构 建模型的有效性进行了验证。并就模型的预测结果同单一决策树模型的预测 结果及其模型的可解释性做了详细的比较分析。 华北电力大学硕士学位论文 2 1 电价的形成 第二章电价及其电价预测 电能作为一种商品,在市场交易中,与其它商品一样服从价值规律,同时又由 于电力生产的特殊性生产和消费是同时进行的,又使得电价具有一定的特殊 性。在我国,电价的制定既要遵循市场经济规律,也要考虑到我国电力工业的现状 和发展。电力法中明确规定要本着合理补偿成本、合理收益、依法计入税金、公平 负担的原则制定电价。 电价的定价方法主要有两大类,即会计成本法和边际成本法。会计成本法是一 种传统的、也是常用的定价方法。它是根据电力企业会计记录与财务报表中出现的 成本记录来核算供电成本。边际成本方法是根据增加单位k w ( 或k w h ) 用电而增 加的成本,按各类用户的受电电压、用电时间,严格计算增加单位k w ( 或k w h ) 用电而引起的成本增加值,计算长期边际容量( 电量) 成本【3 纠。会计成本核算的单 位容量成本和单位电量成本分别是容量总成本和电量总成本的加权平均。边际成本 核算的单位边际容量成本和边际电量成本分别直接地反映了系统容量和电量的经 济成本。会计成本反映的是过去沉入成本,边际成本是反映将来的成本,能真实反 映未来资源的价值。边际成本定价方法从经济效率的原则出发,财务平衡能力稍差。 会计成本定价则更注重财务平衡,缺乏对未来合理利用资源的引导。两种方法各有 优缺点,目前各国大多是将会计成本法和边际成本法综合运用,这样既能从总体上 保证财务平衡,又能合理地考虑各类用户间电价水平的比价关系。 市场清算价格是电力市场中反映电力商品短期供求关系的统一价格。在电力市 场交易中,交易中心将发电商的功率段按报价由低到高排序,由有约束排序决定发 电商的出力顺序。般情况下,在交易时段开始时,用以满足系统负荷需求的所有 发电商的最高价格为该时段的市场出清价格【4 9 1 。这些价格按时间排序就形成了电价 的时间序列。 2 2 电价的特点 如第一节所述,各个交易时段的清算价格按时问排序后就形成了电价的时间序 列。而电价作为一个时间序列主要具有如下特点【3 3 】: 1 ) 周期性。图2 1 至图2 2 中数据均采集于澳大利亚电力市场2 0 0 6 年度1 至9 月份实际运行数据。由图2 1 可以看出电价、负荷曲线都具有比较明的季节 的周期性。图2 2 中一天内的电价变化和一周内的电价变化曲线具有明显的 6 华北电力大学硕士学位论文 车羊本编鲁 图2 - 12 0 0 6 1 - 2 0 0 6 9 月份负荷、电价曲线 本一致。 图2 - 22 0 0 6 9 1 - 2 0 0 6 9 3 0 月份电价曲线 2 ) 波动性。与负荷相比,电价的波动性高出更多。由图2 1 可以看出负荷的周 期性明显且波动非常平稳。相比负荷,电价的波动性则要非常剧烈,周期性 也没有负荷那么明显了。 3 ) 价格尖峰特性。市场电价常出现价格的非正常跳跃而形成价格尖峰,从图 2 1 中可以看出尖峰时段的电价高达9 0 0 0 多美元,尖峰现象特别明显。价 格跳跃和价格尖峰给电价预测带来了巨大的困难。虽然导致“价格钉”的原 因错综复杂,但是其表现形式都是造成电能供需关系的短时紧缺,从而使电 价上升,由图2 1 可知,价格钉基本上发生在负荷高峰时段j 因此,只要能 找到一个准确反映电能短期紧缺程度的变量,就能够很好地解决“价格钉 的预测。文献 3 4 】认为极端气象条件、用电高峰时段的负荷波动等因素是影 7 华北电力大学硕士学位论文 响“价格钉形成的主要因素,因此作者根据负荷大小利用混沌理论对“价 格钉”进行预测。文献2 5 】【3 5 1 从系统容量裕度的角度出发,来判别“价格钉” 出现的可能性,并用系统容量裕度相对值的倒数作为判别“价格钉”是否发 生的指标。 4 ) 非增长性。负荷作为经济发展的标准之一,随着社会生产的发展和进步,总 体上具有增长和上升的趋势。这种趋势可作为一个可利用的因素体现在中长 期预测中,而电价不具备总体增长的趋势,电价作为电能的价格,是随着各 种影响凶素不断波动变化的。 5 ) 具有“近大远小”的性质,即未来的变化趋势更多地取决于历史时段中近期 的发展规律,远期的历史数据与未来发展趋势的相关性较弱。 6 ) 均值特性。与普通商品一样,电价也围绕其价值波动,服从价值规律。 2 3 电价的影响因素 电价作为电能商品的货币表现,其形成贯穿于电力系统的始终。因此,其影响 因素众多:即包括发电侧和需求侧的因素,又包括输送电力的电力网络方面的因素。 现有的数学分析类电价预测方法考虑的影响因素主要有以下几个方面: 1 ) 历史电价。电价序列中相邻时段的电价具有较强的相关性,尤其是前几个时 段的电价和历史日中同一时刻的电价。电价预测正是利用这种电价间的联系来预测 下一个时段或者次日同一时段的电价的,几乎所有的预测方法均将历史电价作为一 个重要的影响因素,大部分时间序列法就直接利用历史电价建立预测模型。 2 ) 负荷。在电力市场中,由于信息不对称,电力用户对电价的弹性不是很大, 通常假设用户是没有弹性的,其需求曲线是一条垂直线。在短期内,如果假定发电 成本不会有太大变化的话,则正常供应也不会有太大的变化。由此可看出电价基本 上是由负荷决定的。如图2 3 所示。 图2 - 3 负荷对电价的作用 8 华北电力大学硕士学位论文 3 ) 负荷、电价变化率。结合专家经验知识,在不同负荷或电价水平下,相同的负 荷绝对变化量对电价的影响是不同的,如负荷5 0 0 0 m w ( 电价$ 3 0 ) 变化5 0 0m w 与 3 0 0 0 m w ( 电价$ l o ) 变化5 0 0m w 对电价的影响是有差别的,同时为抵消燃料价格 涨落、物价水平等因素对电力成本产生的影响以及发电商报价策略的改变,有的预测 方法就直接将负荷( 电价) 转换成负荷( 电价) 基值和负荷( 电价) 变化率来处理,从 而将预测负荷( 电价) 转变为预测负荷( 电价) 变化率【3 7 】【3 引。 4 ) 时段因素p 引。同一日的不同时段,不同日的不同时段,电价都会表现出较大 的差异。如高峰时段的电价肯定高于低谷段的电价,周末的电价低于工作日的电价。 如文献【1 4 】在输入因素的选取上加入时段和星期标识,文献【1 8 】在模型输入层引入星期 指数等等。 5 ) 市场参与者拥有的市场力。电力市场是寡头市场,特别在发电侧,参与竞争 的发电商数目有限,发电公司通过对市场需求和对其他发电厂商的估计,进行策略 性报价,在负荷高峰及一些特殊时段,通过持留发电容量或抬高价格等非正常手段 报出偏离生产成本的电力价格。文献【2 6 】为衡量市场力而设置了必须运行率指标。 以上因素均为市场内因素,此外,电价还受到电力市场体制结构、社会经济形 势、电力系统运行方式、国家经济政策等因素的影响。 2 4 电价预测的基本概念 电力市场化是全球电力系统发展的大趋势,电价作为这个市场的核心,其波动 将影响到各种资源在电力市场中的流动和分配,从而起到强大的经济杠杆作用。在 电力市场环境中,准确的电价预测对于市场中各个参与者而言都具有非常重要的意 义。 所谓电价预测,即在充分考虑市场供求关系,市场参与者实施市场力大小,电 力成本以及电力市场体制结构、社会经济形势等电价影响因素的情况下,利用数学 工具对相关历史数据进行挖掘分析,探索电价与其影响因素之间的内在联系及电价 自身发展变化的规律,在满足一定精度和速度的情况下,对未来电力市场中的电力 交易价格进行预测【4 们。 2 5 电价预测的分类 根据不同的分类标准,电价预测有不同的分类方法。具体如下: 根据预测时间的长短,可以将电价预测分为:短期、中期和长期以及特殊日预 测。但是由于电价预测的难度相对负荷预测来讲难度要大,尤其是中长期预测难度 9 华北电力大学硕士学位论文 太大,目前大多研究都集中在短期电价预测方面。 根据预测点的类型,可以分为整个系统、一个特定区域和一个特定母线的电价 预测。 根据预测的内容,可以分为确定性预测和电价空间分布预测,前者是当前讨论 较多的热点,主要针对短期电价预测,后者主要基于概率论与数理统计知识,确定 预测结果的可能波动范围及其一段时间内的均值。 根据预测主体类型,可以分为i s o 进行的电价预测和发电商等进行的电价预测 等。 2 6 电价预测的流程 在对电价进行预测建模时,可以大体分成如下几个流程,如图2 4 所示: 图2 4 电价预测的基本流程 1 ) 预测目标的确定。只有在预测目的明确的前提下,才可以规定预测对象的 范围、期限和内容等。 2 ) 基础资料的分析。通过分析选择那些有代表性的、真实程度和可用程度高 的数据资料作为预测的基本资料,并对其进行预处理。 3 ) 模型的选取。根据所确定的预测内容,对预测对象进行客观、详细的分析, 并结合实际情况和资料的可利用程度,选择建立合理的数学模型。 4 ) 模型的建立。模型选取之后就可以根据历史数据求取模型参数,并对未来 时刻进行预测。 5 ) 预测结果的评价。对模型的预测结果进行分析比较,判断其准确性和合理 性,并对其修正得到最终的预测结果。 2 7 本章小结 电能作为一种商品,同样服从价值规律,但是由于电力生产的特殊性又使得电 价同时具有一些自身特性。随着电力市场化的逐渐深入,电价作为电力市场中的杠 杆,直接影响着市场中买卖双方的利益,因此对电价的形成机理、特点及其影响因 素进行认识分析是非常必要的。 本章首先简要叙述了电价的形成机理,并对两类主要的电价定价方法:会计成 本法和边际成本法的定价原理及其各自优点与不足作了较为详细的说明和比较。电 价虽然同负荷存在着较大的相关性,但相比于负荷,电价的一些自有特性更为明显, l o 华北电力大学硕士学位论文 如价格尖峰特性。本章第二、三小节详细分析了电价的特点及其主要的影响因素, 并将其同负荷相关特点进行了比较。电价是如此的重要,如果可以对其进行准确的 预测,则可掌握市场先机,为决策提供支持,自是市场各方很自然的想法,本章最 后三节具体阐述了电价预测的基本概念,电价预测的分类,电价预测的基本流程等 方面的内容。 华北电力大学硕士学位论文 3 1 数据挖掘 第三章数据挖掘及其决策树技术 3 1 1 数据挖掘的概念 数据挖掘作为一门跨学科的技术,它涉及到统计学、数据库技术、机器学习、 模式识别、人工智能、可视化技术等诸多领域,因此很难给出一个准确的定义。文 献【4 1 】给出的数据挖掘定义如下:数据挖掘就是对观测到的数据集( 经常是很庞大的) 进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方 式来总结数据。文献【4 2 】给出的定义如下:数据挖掘又称为知识发现,它是从数据集 中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。 即数据挖掘的最终目的都是为了得出有价值的规律或知识。 3 1 2 数据挖掘的任务 根据数据分析的不同目标来划分数据挖掘任务的类型是很方便的。下面给出的 分类并不是唯一的,还可以进行更细的划分1 4 1 1 。 探索性数据分析( e x p l o r a t o r yd a t aa n a l y s i s ,e d a ) :该方法的宗旨是对数据 进行探索,在探索时我们可能对要寻找什么并没有明确的想法。通常,e d a 技术是交互式和可视化的,但随着维数的增多,可视化变得越来越困难。 描述建模( d e s c r i p t i v em o d e l i n g ) :描述模型的目标是描述或产生数据的过 程的所有特征。 预测建模( p r e d i c t i v em o d e l i n g ) :预测建模的目标是建立一个模型,这个模 型允许我们根据已知的变量值来预测其它某个变量值。 寻找模型和规则:该类数据挖掘应用致力于模式探索。其中一个应用是在 天文学方面探测异常的星体和星系。 根据内容检索:这种情况下,用户用一种感兴趣的模式并且希望在数据集 中找到形似的模式。这种任务对于文本和图像数据集合应用最普遍。 尽管上述五种任务批次间具有明显的差异,但它们也有很多共同的特点。例如 很多任务都具有“任意两个数据向量间的相似性或者距离的概念。还有一个共同 点是评分函数的思想,不过对于不用类型的任务,具体的函数形式往往有很大差异。 另外很明显的一点是,不同的任务需要不同的模型和模式结构,就像不同种类的数 1 2 华北电力大学硕士学位论文 据需要不同的结构一样。 3 1 3 数据挖掘的过程 数据挖掘过程不是统计学、机器学习以及其它方法和工具的随意应用,它不是 在分析技术空间里面乱闯,而是一个经过精心策划和深思熟虑过的,并决定什么才 是最有用、最有前景和最有启迪作用的一个过程。适合数据挖掘问题的一般实验性 程序包括以下几个步骤【4 3 】。 1 ) 陈述问题和阐明假设:大多数基于数据的模型研究都是在一个特定的应用领域 里完成的。因此,拥有领域内详尽的知识和经验是必不可少的。这一步要求将 应用领域的专门技术和数据挖掘模型相结合。 2 1 数据收集:这一步是关于数据是怎样产生和收集的。 3 ) 数据预处理:数据预处理通常至少包含如下两个常见任务。一个是异常点的检 测和去除,异常点是与众不同的数值,和大多数观察值不一致;另一个是比例 缩放、编码和选择特征,数据预处理过程包括几个步骤,如各种比例缩放和不 同类型的编码等。 4 ) 模型评估:该过程的主要任务是选择并实现适当的数据挖掘技术。 5 ) 解释模型和得出结论:数据挖掘模型应该有助于决策,因此,要对这种模型进 行说明以使模型有用,因为人们不会在复杂的“黑箱模型”的基础上作决策。 3 1 4 数据挖掘在电力系统中的应用 随着信息化、数字化技术的发展,电力系统中各类计算机监控系统、管理信息 系统、地理信息系统、电能量采集及计费系统以及电网运行的生产实时系统等数字 化技术得到了广泛的应用,由此产生了海量的信息数据。面对电力系统中迅速膨胀 的数据信息量,传统的统计分析手段已经难以满足要求,因此需要更加快速有效的 方法或技术从现有数据中分析加工并提炼出有效信息甚至获得更深层次的规律,并 保证系统安全、可靠、经济的运行,从而更好的服务于电力工业。数据挖掘技术能 够高效快速的处理海量数据,受到电力工作者的重视,并得到了逐步应用。当前, 数据挖掘在电力系统负荷预测、电价预测、电力调度优化、电力用户特征提取、电 力系统运行模型分类等方面都得到初步应用。随着电力市场化的逐步深入和完善, 经济运行形式分析,安全性和可靠性分析的全方位的协调要求,数据挖掘技术必将 获得更大更广泛的应用。 华北电力大学硕士学位论文 3 2 决策树技术 3 2 1 决策树基本概念和原理 决策树是一种类似流程图的树结构,它提供了一种展示“在什么条件下就会得 到什么值”这类规则的方法。决策树的基本组成部分有:决策节点、分支和叶。树 中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,而每个树叶 节点代表类或类分布。 在数据挖掘中使用决策树对数据集进行归纳分类的优点很多,如能够转换成容 易理解的分类规则;决策树中叶节点对所有到达叶子的实例给出了一个包括了所有 可能分类的概率分布,而根据其发生概率值可以大概估计出所建模型对未知数据的 预测准确性,从而可获得不确定性信息;决策树的输出包含属性的排序,因此,决 策树中可以大致判断属性的相对重要性;分类速度快、准确性高、具有相对快捷的 学习速度;伸缩性好:擅长处理非数值型数据等。 3 2 1 1 决策树的剪枝 作为分类结果的决策树,没有必要让其生长的太“枝繁叶茂”,否则,即降低 了树的可理解性和可用性,同时也使决策树本身对训练集数据的依赖性增大,也就 是说,这棵决策树对此训练集数据可能非常准确,一旦应用到新的数据时其准确性 却急剧下降,这种情况称为过分适应【2 7 1 。 为了使决策树蕴含的规则具有普遍意义,必须防止过分适应。而且,防止过分 适应也可以减少训练时间。因此,为解决过分适应的问题,必须对树进行剪枝。目 前决策树的修剪策略主要有预剪枝和后剪枝。预剪枝就是通过提前停止树的构造而 对树剪枝。后剪枝的方法就是在树完全生长后,再根据一定的规则,剪去决策树中 不具有一般代表性的叶节点或者分支。 3 2 1 2 决策树生成分类规则 对决策树进行广度优先遍历,对每一个叶节点,找到从根节点到叶节点的一条 路径,该路径上所有节点的划分条件合在一起,就可以生成分类规则,这种形式的 规则成为决策树规则,可以用i f t h e n 这种形式来表现。生成规则时,每个叶节点 都创建一条规则,每个分割都成为规则中的一个条件,叶节点中的类别就是t h e n 的内容。分类规则的一般形式为i f a n d a n d a n d t h e n 。在对样本进行分类时,只需根据已经找到的规则,就可 1 4 华北电力大学硕士学位论文 以知道该样本所属的类别。 3 2 20 4 5 算法 决策树算法自从被提出以来,至今已经有了很大的发展,其中最有影响力和最 为典型的决策树算法是q u i n l a n 在1 9 8 6 年提出的著名的i d 3 算法【4 4 1 。该算法采用信 息熵度量属性差异,但是,该指标也存在一定的局限性,即趋向选择具有大量不同 值的属性,而属性取值较多的属性却不一定是最佳的分类属性。此后,针对该算法 的不足又出现c 4 5 、c a r t 等算法,以及适用于大数据集、具有可伸缩性的s l i q 、 s p r i n t 和r a i n f o r e s t 等算法。 c 4 5 算法是q u i n l a n 在i d 3 算法的基础上加入了对连续型属性、属性值空缺情 况的处理,并采用了较为成熟的剪枝算法,是各种决策树算法中应用最为广泛的一 种。c 4 5 算法是一种归纳学习算法,它先从所有的事例中选取一部分构造决策树, 再用剩下的事例测试决策树并对它进行调整。它不仅能处理具有连续值类型的属 性,还可以对属性的取值集合进行等价类划分,划分在同一类的属性值在属性值判 断时走向同一分支。 3 2 2 10 4 5 算法原理 c 4 5 算法继承了i d 3 算法的全部优点,并且弥补了i d 3 算法的缺陷,该算法 的基本算法与i d 3 算法相同,但修改了属性评估划分的标准,将属性分裂数据集后 所产生的子节点的数量和规模也考虑进去,提出了信息增益率( i n f o r m a t i o ng a i n r a t i o ) 指标作为选择测试属性的标准。信息增益率由如下公式1 求得。 g a i n r a t i o ( 彳) = 面g a 面i n ( a 丽) ( 3 1 ) g a i n ( a ) = ,( 墨,是,) 一层( 4 ) ( 3 - 2 ) ,( _ ,屯,) = 一层l 0 9 2 ( p ) ( 3 - 3 ) 刚) = 杰华“,蹦( 3 - 4 ) 式( 3 - 1 ) 中,a 代表以属性彳的属性值为基准进行分割;s p l i t l n f o ( a ) 表示通过把决策树的某一 节点由属性彳分成几个分支所产生的信息量;g a i n ( a ) 代表属性爿对于分类的信息增益。式( 3 2 ) 中,i ( s 。,s 2 ,) 为一个给定的样本分类所需的期望信息;刚) 为由属性a 划分成子集的熵; 1 5 华北电力大学硕士学位论文 其中m 为类标号属性具有的属性值个数;s ,为类c j 包含的样本数;q ( f = l ,2 ,m ) 为属性值个 数m 定义的类。式( 3 3 ) 中,只为样本属于类c f 的概率。式( 3 - 4 ) 中,为属性彳具有的属 性值个数;s ,为属性彳将样本s 划分成v 个子集之一;s f 是子集s ,中类q 的样本数;项 1 l i 为第,个子集的权重系数。 j c 4 5 算法对具有连续值属性的处理过程如下: 1 ) 按属性的值对数据集排序。 2 ) 用不同的阀值将数据集动态的进行划分。 3 ) 当输出改变时确定一个阀值。 4 ) 取两个实际值的中点作为一个阀值。 5 ) 取两个划分,所有样本都在这两个划分中。 6 ) 得到所有可能的阀值、增益及增益比。 7 ) 每一个属性会变为取两个值,即小于阀值或不小于阀值。 即针对属性有连续数值的情况,比如说属性c 有连续的属性值,则在训练集中 按升序方式排列4 ,4 ,彳m ( 肘为训练节个数) 。如果彳共有n 中取值,则对每个 取值1 ,( j = l ,2 ,疗) 将所有记录进行划分。这些记录被划分成两部分,一部分落 入y ,的范围内,而另一部分则大于1 ,。然后针对每个划分分别计算增益或增益率, 选取具有最大信息增益率的属性作为当前划分。 3 2 2 20 4 5 算法流程 假设用t 代表当前样本集,候选属性的集合用a t t r i b u t el i s t 表示,则c 4 5 算法 可如下表示脚】: 1 ) 创建根节点n ; 2 ) 如果样本t 都属于同一类c ,则返回n 为叶节点,标记为类c ; 3 ) 如果a t t r i b u t e - l i s t 为空或t 中所剩的样本数少于某给定值则返回n 为叶节 点,标记n 为t 中出现最多的类; 4 ) 遍历a t t r i b u t e l i s t 中的属性计算信息增益率,选择具有最高信息增益率的属 性t e s t a t t r i b u t e ,标记节点n 为t e s t _ a t t r i b u t e ; 5 ) 如果测试属性为连续型,则找到该属性的分割阀值; 6 ) 遍历节由节点n 长出的新叶节点。如果该叶子节点对应的样本子集丁只有唯一 的一种决策类别,则将其标记为t 中最普通的类。否则,在各叶子节点上递归调用 该算法,继续对它分类; 1 6 华北电力大学硕士学位论文 7 ) 计算每个节点的分类错误,进行树剪枝。 3 2 2 3c 4 5 算法同其他决策树算法比较 对比各种算法各有所长,从其出现的先后顺序来看,后面出现的算法总是希望 解决之前的算法在速度、伸缩性,可解释性以及准确性等方面的某些不足。c 4 5 算 法相比i d 3 算法解决了对连续型属性、属性值空缺的处理。c a r t 算法采用基尼指 数来选择测试属性,生成结构简单、易于理解的二叉树。为了提高算法的可伸缩性 和并行性,从而可对大数据集进行有效数据挖掘,出现了s l i q 和s p e i n t 算法。 各种决策树算法比较如表3 1 所示: 表3 - 1 几种决策树算法的比较 3 2 3 微软决策树算法 微软公司在2 0 0 0 年推出了s q ls e r v e r2 0 0 0 ,它的分析服务有两部分,其中数 据挖掘包含两种算法:微软决策树和微软聚类。s q ls e r v e r2 0 0 0 中提供的数据挖掘 分类采用决策树分类算法。该算法与c 4 5 算法十分类似,但它不是使用信息增益 率作为测试属性的选择标准,而是采用贝叶斯权( b a y e s i a ns c o r e ) 。为了使算法具 有可伸缩性,微软决策树算法采用了一种叫做类计数表( c l a s sc o u n tt a b l e ) 的数据 1 7 华北电力大学硕士学位论文 结构。并用深度优先策略生成决策树,采用基于分类误差的剪枝算法进行决策树的 修剪。 微软决策树的算法结构: 为了高效地建立待分裂节点的类计数表,微软决策树采用两层结构,在建树算 法和数据库之间建立一个数据挖掘中间件,如图3 1 所示。当数据挖掘用户向数据 挖掘中间件提出需要类计数表的请求时,中间件从数据库中提取相关的数据建立类 计数表送往数据挖掘用户。 键斑鬈求 。,一”、 数据 l 数据中 数 挖掘 琢嘭类 间件 据 用户 计数袭 库 一一 图3 - 1 微软决策树的结构 数据挖掘中间件有两个模块生成,执行模块和调度模块。 执行模块( e x e c u t i o nm o d u l e ) 的作用: 1 ) 一次扫描数据:生成多个节点的类技术表。 2 ) 分段运输数据:当节点对应的数据较大时,对数据库扫描。随着树的增大,节 点对应的数据量变小,在文件系统中扫描数据。节点的数据量变得更小时,数据可 放到中间件内存中,对内存数据扫描。 调度模块( s c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 写字楼专业知识培训课件
- 飞机透明件制造胶接装配工技能等级考核试卷及答案
- 公司玻璃热加工工合规化技术规程
- 做主播签合作协议书
- 真空电子器件装配工工具生命周期管理考核试卷及答案
- 稀土电解工创新项目落地考核试卷及答案
- 高空作业机械操作工岗位现场作业技术规程
- 广东省华师附中实验学校2026届八年级数学第一学期期末质量跟踪监视试题含解析
- 辽宁省盘锦市名校2026届九年级数学第一学期期末学业质量监测试题含解析
- 医学心理学概述
- 墩柱安全教育培训课件
- 新版中华民族共同体概论课件第十五讲新时代与中华民族共同体建设(2012- )-2025年版
- 2025年全国《家庭教育指导师》考试模拟试题(附答案)
- 2026届房山区高三开学考试语文试题及参考答案
- 桡骨骨折复位内固定术
- 2025至2030年中国办公设备租赁行业市场深度分析及发展前景预测报告
- 新版机动车交通事故责任强制保险合同
- 2024-2025学年江苏省南通市海安市高二(上)月考物理试卷(10月份)(含答案)
- 造白渣原则及渣况判断
- 23秋国家开放大学《液压气动技术》形考任务1-3参考答案
- 大班健康《贪吃的大嘴鱼》
评论
0/150
提交评论