(控制理论与控制工程专业论文)基于支持向量机的中短期电力负荷预测.pdf_第1页
(控制理论与控制工程专业论文)基于支持向量机的中短期电力负荷预测.pdf_第2页
(控制理论与控制工程专业论文)基于支持向量机的中短期电力负荷预测.pdf_第3页
(控制理论与控制工程专业论文)基于支持向量机的中短期电力负荷预测.pdf_第4页
(控制理论与控制工程专业论文)基于支持向量机的中短期电力负荷预测.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着电力市场竞争日益激烈,中短期电力负荷预测受到越来越多的关注,并逐 渐成为电力市场的一个重要研究领域。本文对支持向量机、粒子群优化等算法做了 深入的分析,介绍了数据预处理的方法,并且对负荷数据进行分析,找出了其内在 的规律,然后分别由处理前后的负荷数据组成支持向量机的训练样本集,采用序列 最小优化算法实现对支持向量机的快速训练,最终得到预测结果,之后又按星期属 性分类进行负荷预测,仿真结果表明数据预处理后的预测精度较高,按星期属性分 类进行负荷预测所得结果精度更高。 关键词:中短期,电力负荷预测,支持向量机,粒子群优化,数据预处理 a b s t r a c t m e d i u ma n ds h o r tt e r ml o a df o r e c a s t i n gh a sb e c o m ei n c r e a s i n g l yi m p o r t a n ts i n c e t h ec o m p e t i t i o no ft h ee l e c t r i cp o w e rm a r k e ti sm o r ed r a s t i ca n dh a sg r a d u a l l yb e c o m e o n eo ft h em a j o ra r e a so fr e s e a r c hi nr e c e n ty e a r s t h i sp a p e ri n t r o d u c e ds u p p o r tv e c t o r m a c h i n e ( s v m ) a n dp a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) t h e o r i e s t h i sp a p e ra l s o i n t r o d u c e dm e t h o d so fd a t ap r e p r o e e s s i n ga n da n a l y z e dt h ed a t at oi d e n t i f yi t si n t e r n a l l a w s a f t e rt h a tt h i sp a p e rg a i n e dt h et r a i n i n gd a t ar e s p e c t i v e l yb a s e do nt h eo r i g i n a la n d p r e p r o c e s s e d d a t aa n du s e ds e q u e n t i a lm i n i m a lo p t i m i z a t i o n ( s m o ) a r i t h m e t i ct o a c h i e v et h ef a s tt r a i n i n go ft h es u p p o r tv e c t o rm a c h i n e s ( s v m ) f i n a l l yt h el o a d f o r e c a s t i n gr e s u l tw a sg a i n e d t h e nt h i sp a p e rd i dl o a df o r e c a s t i n gw i t ht h ed a t ab y c l a s s i f i e da c c o r d i n gt ow e e kp r o p e r t y t h es i m u l a t i o nr e s u l t ss h o wt h a tw ec a ng e th i g h f o r e c a s t i n ga c c u r a c yb yu s i n gt h ep r e p r o c e s s e dd a t aa n dt h eh i g h e rf o r e c a s t i n ga c c u r a c y a l lo v e rt h i sp a p e rb yc l a s s i f i c a t i o nf o r e c a s t i n ga c c o r d i n gt ow e e kp r o p e r t y w a n gj i n g x i a n ( c o n t r o lt h e o r ya n dc o n t r o le n g i n e e r i n g ) d i r e c t e db ya s s o c i a t ep r o f z h a iy o n g j i e k e yw o r d s :m e d i u ma n ds h o r tt e r m ,e l e c t r i cl o a df o r e c a s t i n g ,s u p p o r tv e c t o r m a c h i n e ,p a r t i c l es w a r mo p t i m i z a t i o n ,d a t ap r e p r o c e s s i n 摘要 随着电力市场竞争日益激烈,中短期电力负荷预测受到越来越多的关注,并逐 渐成为电力市场的一个重要研究领域。本文对支持向量机、粒子群优化等算法做了 深入的分析,介绍了数据预处理的方法,并且对负荷数据进行分析,找出了其内在 的规律,然后分别由处理前后的负荷数据组成支持向量机的训练样本集,采用序列 最小优化算法实现对支持向量机的快速训练,最终得到预测结果,之后又按星期属 性分类进行负荷预测,仿真结果表明数据预处理后的预测精度较高,按星期属性分 类进行负荷预测所得结果精度更高。 关键词:中短期,电力负荷预测,支持向量机,粒子群优化,数据预处理 a b s t r a c t m e d i u ma n ds h o r tt e r ml o a df o r e c a s t i n gh a sb e c o m ei n c r e a s i n g l yi m p o r t a n ts i n c e t h ec o m p e t i t i o no ft h ee l e c t r i cp o w e rm a r k e ti sm o r ed r a s t i ca n dh a sg r a d u a l l yb e c o m e o n eo ft h em a j o ra r e a so fr e s e a r c hi nr e c e n ty e a r s t h i sp a p e ri n t r o d u c e ds u p p o r tv e c t o r m a c h i n e ( s v m ) a n dp a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) t h e o r i e s t h i sp a p e ra l s o i n t r o d u c e dm e t h o d so fd a t ap r e p r o c e s s i n ga n da n a l y z e dt h ed a t at oi d e n t i f yi t si n t e r n a l l a w s a f t e rt h a tt h i sp a p e rg a i n e dt h et r a i n i n gd a t ar e s p e c t i v e l yb a s e do nt h eo r i g i n a la n d p r e p r o c e s s e d d a t aa n du s e ds e q u e n t i a lm i n i m a lo p t i m i z a t i o n ( s m o ) a r i t h m e t i ct o a c h i e v et h ef a s tt r a i n i n go ft h es u p p o r tv e c t o rm a c h i n e s ( s v m ) f i n a l l yt h el o a d f o r e c a s t i n gr e s u l tw a sg a i n e d t h e nt h i sp a p e rd i dl o a df o r e c a s t i n gw i t ht h ed a t ab y c l a s s i f i e da c c o r d i n gt ow e e kp r o p e r t y t h es i m u l a t i o nr e s u l t ss h o wt h a tw ec a ng e th i g h f o r e c a s t i n ga c c u r a c yb yu s i n gt h ep r e p r o c e s s e dd a t aa n dt h eh i g h e rf o r e c a s t i n ga c c u r a c y a l lo v e rt h i sp a p e rb yc l a s s i f i c a t i o nf o r e c a s t i n ga c c o r d i n gt ow e e kp r o p e r t y w a n gj i n g x i a n ( c o n t r o lt h e o r ya n dc o n t r o le n g i n e e r i n g ) d i r e c t e db ya s s o c i a t ep r o f z h a iy o n g j i e k e yw o r d s :m e d i u ma n ds h o r tt e r m ,e l e c t r i cl o a df o r e c a s t i n g ,s u p p o r tv e c t o r m a c h i n e ,p a r t i c l es w a r mo p t i m i z a t i o n ,d a t ap r e p r o c e s s i n 声明尸明 本人郑重声明:此处所提交的硕士学位论文基于支持向量机的中短期电力负荷预 测,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得 的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 学位论文作者签名: 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播 学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:拙 日期: 导师签名:弛 e t 期:塑仁l j 华北电力大学硕士学位论文 1 1 选题背景及意义 1 1 1 电力负荷预测 第一章绪论 电力系统负荷的大小与特征,无论是对于电力系统设计还是对于运行研究而 言,都是极为重要的因素。电力系统的作用就是对各类用户尽可能经济地提供可靠 而合乎标准要求的电能,以随时满足各类用户的要求,也就是要满足负荷要求。因 此,对负荷的变化和特征有个事先的估计,是电力系统发展和运行研究的重要内容。 电力系统负荷预测理论就是因此而发展起来的,在现代电力系统工程科学中它已经 成为占有重要地位的研究。 电力系统负荷预测【1 】【4 l 是指从已知的经济、社会发展和电力系统需求出发,考 虑经济、气候、特殊事件等诸多相关因素,通过对历史数据的分析和研究,探索电 力系统各参数间的内在联系和发展规律,以未来经济和气候的预测结果为依据,对 未来的电力需求做出估计和预测。电力负荷预测的研究已有较长的历史,从上世纪 七十年代初开始,对电力负荷预测的研究就呈现出逐步上升的趋势,到了八十年代, 由于能源紧张造成的对负荷科学管理的迫切要求以及对准确和适应性强的负荷模 型的需求,使得对负荷预测的重视程度越来越高。九十年代,随着世界各国电力市 场的发展,负荷预测受到了人们更加广泛的重视。至今,国内外的许多专家、学者 在预测理论和方法方面已做了大量的研究工作,取得了很多卓有成效的进展。 电力负荷预测有利于制订合理的电源建设规划、管理用电计划、降低发电成本、 提高电力系统的经济效益和社会效益。同时,负荷预测是实现电力系统安全、经济 运行的基础。对一个电力系统而言,提高电网运行的安全性和经济性,改善电能质 量,都依赖于准确的负荷预测。因此,准确的负荷预测对电力市场决策支持系统来 说非常重要1 5 j 。 目前的预测按照周期长度大体上可以分为超短期负荷预测、短期负荷预测、中 期负荷预测和长期负荷预测四种。在这几类负荷预测中,中期和短期负荷预测应用 的范围较广,在现代电力系统的安全和经济运行中起着重要的作用【6 】。中短期负荷 预测是电力系统发电计划的重要组成部分,是合理安排电网运行方式、机组启停计 划、交换功率计划等的基础,因此负荷预测精度的好坏直接关系到产业部门的经济 利益。一方面,负荷预测不足可能会导致用电紧张、系统运行安全性下降,只能新 增费用高的机组来临时承担或者从邻近的电网买入价格较高的电能。另一方面,预 测过量可能会导致过多的旋转备用,增加运行费用,造成资源浪费。总之,中短期 1 华北电力大学硕士学位论文 负荷预测工作的准确性对电力系统的经济效益有着重要的影响,是电力系统最基础 性的工作之一。 我国的电力系统正由垄断经营阶段逐步向发电竞争阶段过渡,负荷预测工作的 重要性得到普遍重视,其预测水平已经成为衡量一个电力企业是否走向现代化的显 著标志之一,是电力企业能否保持竞争力的重要因素之一。以竞争为特点的市场经 济运营模式为电力系统的短期负荷预测提出了新的要求和标准,虽然国内外对负荷 预测方法的研究已经取得了很多成功的经验,但由于电力负荷的复杂性、随机性、 多变性、影响因素的不确定性,目前的方法都存在着某些不足之处,而不断发展的 新学科新技术为电力负荷预测带来了新的研究途径和方法【7 h 1 u 。 1 1 2 支持向量机算法 v l a d i m i rn v a p n i k 1 2 l 等人早在2 0 世纪6 0 年代就开始研究有限样本情况下的机 器学习问题,直到2 0 世纪9 0 年代中期有限样本情况下的机器学习理论逐渐成熟起 来,形成了一个比较完善的理论体系统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y , 简称s l t ) 。支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 是在统计学习理论 的基础上发展起来的。它是由c o m e s 和v a p n i k 于1 9 9 5 年首先提出来的一种新的通 用机器学习方法,已成为近年来机器学习研究的一项重大成果。它避免了局部极小 点,并能有效的解决过学习问题,具有良好的推广性和较好的分类精确性。支持向 量机已应用于模式识别、回归分析、函数估计等领域,并已经成功应用到文字识别、 人脸识别、电价预测、电力系统谐波分析、网络重构、电力系统暂态稳定分析、故 障测距等诸多实际问题中。目前支持向量机已经成为国际上人工智能领域和机器学 习领域的研究热点。 然而,在基于支持向量机的电力系统负荷预测的实际应用中,尚存在一些问题 有待解决,其它理论和技术在电力系统负荷预测中的移植,对拓宽解决原有问题思 路,改进原有技术方法,具有重要的理论意义和实用价值。针对基于支持向量机的 电力系统负荷预测中存在的问题,以及支持向量机算法与其它理论和技术的综合应 用,基于支持向量机的电力系统负荷预测的研究依然需要深入下去。 1 2 国内外研究现状 电力负荷预测的核心问题是预测的技术方法。随着现代科学技术的快速发展, 负荷预测技术的研究也在不断深化,各种各样的负荷预测方法不断涌现。主要研究 方法有基于数理统计理论的方法和基于人工智能的方法两大类。基于数理统计理论 的预测方法主要包括:回归模型预测法、时间序列预测法、灰色预测法、趋势外推 预测技术i ”l ;基于智能原理的电力负荷预测方法包括:模糊预测法、专家系统法、 小波分析技术、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称a n n ) 方法1 1 4 h 1 6 l 。 2 华北电力大学硕士学位论文 其中运用神经网络技术进行电力负荷预测具有如下优越性:可以通过对样本数据 的学习自动实现对系统的描述;是并行结构,在处理实时性要求高的问题上显出 极大的优越性;是非线性系统,人们已经从理论上证明了多层感知器能够任意逼 近给定函数甚至逼近各阶导数的能力;具有很强的信息综合能力和很好的容错性, 它能恰当地协调好互相矛盾的输入信息。另一方面神经网络也有一些缺点:不同 的应用模型中,没有现存的理论依据来指导人工神经网络模型输入参数的选取及处 理;缺乏一种有效的方法来解决人工神经网络在训练过程中可能产生的学习不足 或者是过学习现象;对于周期性的人工神经网络模型输入参数,没有确定样本量 的依据;收敛速度慢且易陷入局部极小,训练过程比较消耗时间;神经网络的 结构确定,包括输入变量的恰当选取及隐含层数目的大小等要在实践中进行摸索 【1 7 l o 以上所介绍的各种预测方法也都有它们各自的特点和适用的范围,没有哪一种 算法适用于各种负荷预测模型,而预测精度明显高于其它算法。目前看来想找到一 种适应各种负荷结构电网的通用且效果好的算法并不是很现实的,但支持向量机方 法在解决实际问题中的成功应用及其所表现出的令人向往的优良特性,使其迅速引 起了人们的重视。目前,越来越多的学者认为,关于统计学习理论和支持向量机的 研究,将很快进入像8 0 年代后期人工神经网络研究那样的飞速发展阶段,并将带 来机器学习领域一场深刻变革。支持向量机方法在回归算法的研究中表现出极好的 性能,被认为是神经网络的替代方法,目前在时间序列预测领域已经得到应用,可 以将其用到电力负荷预测领域。支持向量机用于回归分析有如下优点:由于它是 基于小样本学习的理论,不需要利用样本趋于无穷大的渐进性条件,因而在小样本 情况下同样能得到具有推广价值的模型;制造支持向量机的过程实际上就是求解 一个凸二次优化方程,理论上可以得到全局最优解,不存在局部最优的问题;支 持向量机通过求解凸二次优化问题得到隐层节点数和权向量,因而它的网络结构是 根据训练样本自动确定的:通过采用核函数方法,一方面有效地解决了传统机器 学习方法难以解决的维数灾难问题,另一方面通过改变核函数的形式,就可以构造 不同类型的学习机器1 1 8 j 。 1 3 主要研究内容 中短期电力负荷预测不仅在电力系统规划和运行方面具有重要地位,而且随着电力 市场改革的深入开展,中短期电力负荷预测的作用也日益显著,其预测精度直接影响到 了电网及各发电厂的经济效益。虽然各种预测算法已经在负荷预测中予以应用,但也应 该看到,负荷预测算法中某些方面存在的问题依然没有彻底解决,预测精度仍有待于进 一步提高。因此本文将粒子群优化算法用于支持向量机中几个重要参数的优化,对 3 华北电力大学硕士学位论文 原始数据进行了预处理并按星期属性进行分类预测,明显提高了预测精度。具体而 言,本文将开展的工作主要有以下几点: 第一章:绪论。分析了选题的背景及意义,介绍了国内外电力负荷预测的方法,总 结了支持向量机的优势,并对其研究现状进行了说明。 第二章:支持向量机的回归算法。首先简要介绍了机器学习的主要问题和经验风险 最小化原则,然后讲述统计学习理论中学习过程的一致性,边界的理论和结构风险最小 化原理等内容,为支持向量回归算法的理论奠定了基础,继而分别从线性回归和非线性 回归两个方面推导支持向量回归算法,之后介绍了几种常用的核函数,最后讲述了支持 向量回归的快速训练算法:序列最小优化算法。 第三章:粒子群算法用于支持向量机参数优化。分析了支持向量机算法中几个主要 参数的重要性,继而介绍了粒子群优化算法的研究背景、基本原理、算法流程及算法的 时间复杂度分析。并对粒子群算法的收敛性能进行了分析,通过借鉴别人的研究成果, 给出了粒子群优化算法的一些典型的参数选择方式。 第四章:基于河北南网负荷的数据分析与处理。对河北南网2 0 0 6 、2 0 0 7 年9 6 点负荷 数据进行水平、垂直及标准化处理,使原始数据中突变的负荷数据得到了平滑处理。 又通过对数据进行周期性分析得知数据的年、月、星期及每天的周期属性。为下一 步进行负荷预测奠定了良好的基础。 第五章:仿真实例及分析。利用支持向量机算法进行中短期电力负荷预测,且 按星期属性分类进行预测。 第六章:总结。对论文的重点研究内容进行了归纳和总结,并对今后研究工作 的方向进行了展望。 4 华北电力大学硕士学位论文 第二章支持向量机的回归算法 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 是一种新的通用机器学习 方法。它是c o m e s 和v a p n i k 于1 9 9 5 年首先提出来的,已成为近年来机器学习研究 的一项重大成果。v a p n i k 与c h e r v o n e n k i s 的统计学习理论( s t a t i s t i c a ll e a r n i n g t h e o r y ,简称s l t ) 对有限样本情况下模式识别中的一些根本性问题进行了系统的 理论研究,很大程度上解决了模型选择与过学习问题、非线性和维数灾难问题、局 部极小点等问题,支持向量机正是在这一理论基础上发展起来的。与传统的人工神 经网络相比,支持向量机不仅结构简单,而且各种技术性能,尤其是泛化能力 ( g e n e r a l i z a t i o n a b i l i t y ) 明显提高,这已被大量实验证实。到目前为止,支持向量 机已应用于模式分类、回归分析、函数估计等领域,并已经成功应用到文字识别1 1 9 j 、 人脸识别【2 0 h 2 1 1 、电价预测1 2 2 1 、电力系统谐波分析【2 3 h 2 4 1 、网络重构【2 5 1 、电力系统 暂态稳定分析【2 卟1 2 7 1 、故障测距1 2 8 】等诸多实际问题中。本章首先介绍了机器学习、 统计学习理论的一些基本内容和支持向量机的基本思想,然后详细介绍了用于回归 分析的支持向量机算法及支持向量回归机的快速训练算法:序列最小优化算法 ( s e q u e n t i a lm i n i m a lo p t i m i z a t i o n ,简称s m o ) 。 2 1 机器学习简介 如果一个系统能够通过执行某个过程而改进它的性能,这就是学习。s i m o n 在 人们对机器智能的研究中,希望能够用机器来模拟人从实例学习的能力,即从一些 观测数据出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观 现象,对未来数据或无法观测的数据进行预测,这就是机器学习。 2 1 1 机器学习的主要问题 机器学习的目的是根据给定的训练样本求出对某系统输入与输出之间依赖关 系的估计,使它能够对未来输出做出尽可能准确的预测。机器学习问题可以形式化 的表示为:变量y 和石之间存在一定的未知依赖关系,即遵循某一未知的联合概率 f ( x ,y ) ( 工和y 之间的确定性关系可以看作是其特例) ,机器学习问题就是n 个独立 同分布观测样本 ( 五,y 1 ) ,( x 2 ,y 2 ) ,“,y i ) , ( 2 1 ) 式中毛= ( 毛) 。, 而) 。) r r “,y ie r ,i = 1 ,f 。 在一组函数 ,( z ,) 中寻求一个最优的函数r ( x ,) 对依赖关系进行估计,使期 望风险 5 华北电力大学硕士学位论文 尺( ) 一f l ( y ,厂( x ,) p f ( 工,y ) ( 2 2 ) 最小。式中 厂( 工,缈) ) 为预测函数集,为函数的广义参数,故 厂( 工,) ) 可以表示任 何函数集。l ( y ,f ( z ,) ) 是由于用,( z ,缈) 对y 进行预测而造成的损失,称作损失函 数,它是评价预测准确度的一种度量,不同类型的学习问题有不同形式的损失函数, 预测函数通常也称作学习函数、学习模型或学习机器。 有三类基本的机器学习问题,它们是模式识别( 分类问题) 、函数逼近和概率密 度估计。 对模式识别问题,输出y 是类别标号,两类情况下y = o ,1 或 l ,1 ,预测 函数称作指示函数,损失函数的基本定义可以是 啦,( 圳一0 , y 一= 厂f 蹦, ( 2 3 ) 使风险最小就是贝叶斯决策中使错误率最小。 在函数逼近问题中,y 是连续变量,损失函数可以定义为 l ( y ,厂( 工,) ) - ( y 一厂( z ,w ) ) 2 , ( 2 4 ) 即采用最小平方误差准则。 而在概率密度估计问题中,学 - - j 的目的是根据训练样本确定工的概率分布。记 估计的概率密度函数为p ( x ,) ,则损失函数可以定义为 l ( p f x ,) ) 一一l o g p ( x ,o ) 。 ( 2 5 ) 2 1 2 经验风险最小化 在上面的问题表述中,学习的目标在于使期望风险最小化,而联合概率f ( z ,y ) 是未知的,所以利用样本并无法计算和最小化期望风险,因此采用所谓经验风险最 小化( e m p i r i c a lr i s km i n i m i z a t i o n ,简称e r m ) 准则,即用样本定义经验风险 i j 5 i 唧( ) 一l ( m ,( 薯) ) 。 ( 2 6 ) 蜀 由此可见,经验风险最小化就是用经验风险( ) 代替期望风险r ( ) ,用使 经验风险最小的厂( 石,q ) 来近似使期望风险最小的,( z ,c 0 0 ) 。v a p n i k 证明,如果 ( 甜) 收敛于r ( ) ,则( ) 的最小值收敛于尺( ) 的最小值,该命题的充要条 件是( ) 依概率一致收敛于r ( ) 。 在函数逼近问题中,将式( 2 - 4 ) 定义的损失函数代入到式( 2 - 6 ) 中,就得到 了传统的最小二乘拟合方法;而在概率密度估计问题中,采用式( 2 - 5 ) 的损失函 数的经验风险最小化方法就是最大似然方法。 6 华北电力大学硕士学位论文 2 2 统计学习理论 统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从 理论上较系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期 望风险的关系及如何利用这些理论找到新的学习原则和方法等问题。主要包括如下 四个方面的内容: 1 ) 经验风险最小化原则下统计学习一致性的充要条件; 2 ) 在这些条件下关于统计学习方法推广性的界的结论; 3 ) 在这些界的基础上建立的小样本归纳推理准则; 4 ) 这种推理准则的实现方法。 其中最有指导性的理论结果是推广性的界和与此相关的一个核心概念v c 维。 2 2 1 学习过程一致性的条件 关于学习一致性的结论是统计学习理论的基础,也是它与传统渐进统计学的基 本联系所在。所谓学习过程的一致性,就是指当训练样本数目趋于无穷大时,经验 风险的最优值能够收敛到真实风险的最优值。只有满足一致性条件,才能保证经验 风险最小化原则下得到的最优方法在样本趋近于无穷大时使期望风险最小的最优 结果。 经验风险和真实风险之间的关系可以用下图来表示: 风险值 样本数 图2 - i 经验风险与真实风险关系示意图 在统计学习理论中,有如下关于学习一致性的定理: 学习理论关键定理:对于有界的损失函数,经验风险最小化学习一致的充分必 要条件是经验风险在如下意义上一致地收敛于真实风险: 7 华北电力大学硕士学位论文 l i m p is u p ( r ( o j ) 一( 曲) i l0 ,v 0 ( 2 7 ) 4 一。 l m j 其中,p 表示概率,( ) 和r ( ) 分别表示在n 个样本下的经验风险和对于同 t o 的真实风险。这一定理把学习一致性的问题转化为式( 2 - 7 ) 的一致收敛问题。 由期望风险和经验风险的定义可知,它既依赖于预测函数集,也依赖于样本的概率 分布。 在学习过程中,经验风险和期望风险都是预测函数的函数。统计学习的目的不 是用经验风险去逼近期望风险,而是通过求使经验风险最小化的函数来逼近能使期 望风险最小化的函数,因此其一致性条件比传统统计学中的一致性条件更为严格。 2 2 2v c 维 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有关 函数集学习性能的指标,其中最重要的是v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 。 分类方法中v c 维的直观定义是:对一个指示函数集,如果存在,个样本能够被函数 集中的函数按所有可能的种形式分开,则该函数集能够把z 个样本打散,函数集 的v c 维就是它能打散的最大样本数目z 。若对任意数目的样本都有函数能将它们打 散,则函数集的v c 维是无穷大。有界实函数的v c 维可以通过用一定的阐值将它 转化成指示函数来定义。v c 维是统计学系理论中的一个核心概念。 v c 维简而言之,它描述了组成学习模型的函数集合的容量,也就是说刻画了 此函数集合的学习能力。v c 维越大,函数集合越大,其相应的学习能力就越强。 例如,对于二分类问题而言,h 是运用学习机器的函数集合将点集以2 种方法划分 为两类的最大的点数目,对于每一个可能的划分,在此函数集合中均存在一个函数 厶,使得此函数对其中一个类取+ 1 ,而对另外一个类取1 。如果在r 1 2 j 上的3 个点, 分别用“( r ) 、“( b ) 、“( p ) 一表示,那么3 个点最多存在2 3 种划分:( r p , b ) 、( r b ,p ) 、( p b ,r ) 、( r p b ,) 、( b ,r p ) 、( p ,r b ) 、( r ,p b ) 、( ,r p b ) 。其中, 二元组的第1 项指示的是+ 1 类,二元组的第2 项指示的是1 类。对于任意一个划分, 均可以在函数集中找到一个有向线与之对应。如图2 - 2 所示,划分线的正方向线所 指的是+ 1 类,反向所指的是1 类。 从图2 2 中可以看出,函数集合无法划分二维平面中任意4 个点,所以函数集 合的v c 维等于3 。 2 2 3 推广误差边界 为构造适合于小样本学习的归纳学习原理,可以通过控制学习机器的推广能力 来达到此目的。统计学习理论给出了如下估计真实风险尺( ) 的不等式,对于任意 t o e f ( r 是抽象参数集合) ,以至少1 一刀的概率满足以下不等式 8 式中 华北电力大学硕士学位论文 m ) s ( 小v 防 l l ,f 鱼、l : z ( 2 - 8 ) ( 2 - 9 ) 称为置信风险,z 是样本个数,参数h 称为一个函数集合的v c 维,对于线性分类器 满足 hs 2r 2 + 1 , 式中r 为包络训练数据的最小球半径。 机器学习过程不仅要使经验风险最小,而且还要使v c 维尽量小, 才会有较好的推广能力,这是结构风险最小化准则的基本思想。 ( 2 一1 0 ) 对未来样本 图2 - 2 在二维平面中被有向线段打散的三个点 2 2 4 结构风险最小化归纳原理 传统的机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是 不合理的,因为我们需要同时优化经验风险和置信风险。基于此提出了结构风险最 小化归纳学习过程,它克服了经验风险最小化的缺点,在实际应用中取得了更好的 学习效果。 结构风险最小化归纳原理的基本思想是:如果要求风险最小,就需要不等式 ( 2 - 8 ) 中的两项共同趋于极小,并且在获得的学习模型经验风险最小的同时,希 望模型具有更高的推广能力,这就要求置信风险尽可能小。 9 1 r 华北电力大学硕士学位论文 在式( 2 8 ) 中,若训练样本数目z 固定,则影响风险r ( ) 的变量有和h , 其中依赖于学习机器所选定的函数f ( x ,) ,通过改变可控制经验风险的大 小;v c 维h 则依赖于学习机器所工作的函数集合。为了控制h ,可以将函数集合结 构化,建立h 与各函数子结构之间的关系,通过控制对函数结构的选择来实现v c 维h 的控制,其方法如下: 首先,考虑函数嵌套子集的集合如图2 3 所示【1 2 1 , & cs 2c c & c 只, ( 2 1 1 ) 式中s k = f ( x ,) ,e o e f ,且 s 2v 墨,( 2 一1 2 ) 结构s 中的任何元素拥有一个有限的v c 维,且 如sj i l 2s s ,ks 丸。 ( 2 1 3 ) 如果给定一组样本( j c l ,y 。) ,( 艺,y :) bo ( 西,m ) ,结构风险最小化原理在函数子集& 中选择一个函数f ( z ,群) 来最小化经验风险,同时瓯确保置信风险为最小。 图2 - 3 函数嵌套子集决定的函数集合 综上所述,以图2 - 4 1 2 9 】为例,已知一个嵌套的函数子集序列s ,是,墨,其v c 维分别对应为啊,j i l 2 ,丸,且有asj 1 2s 一,图中给出了真实风险、经验风险和置 信风险分别与v c 维h 的函数变化关系曲线。从中可以看出,随h 的增大,经验风险 ( ) 因对应的函数集合的描述能力增强而减小,从而机器学习能力得到增强。 ,l 、 但根据式( 2 - 8 ) ,置信风险掣f ;l 则随h 的增大而增大,于是式( 2 - 8 ) 所描述 , 的真实风险r ( m 1 曲线呈凹型,若要获得最小的真实风险,需要折中考虑经验风险和 置信风险的取值。 实现结构风险最小化归纳原理可以有两种思路,一种是在每个子集中求最小经 验风险,然后选择最小经验风险和置信风险最小的子集,显然这种方法比较费时, 1 0 华北电力大学硕士学位论文 当子集数目很大甚至是无穷大时是不可行的。第二种思路是构造函数集合的某种结 构,使得在其中的各函数子集均可以取得最小的经验风险,然后在这些子集中选择 适当的子集使置信风险最小,则相应的函数子集中使得经验风险最小的函数就是所 求解的最优函数,事实上,支持向量机所采取的就是这种方法。 风险 欠学习过学习 风险 风险 图2 - 4 结构风险最小归纳原理 2 3 支持向量回归算法 支持向量回归的基本思想是:设t 时刻有输入和输出样本集 乙= ( 而,y 。) ,( 五,) ,) ,x e r 4 , y e r ”, ( 2 1 4 ) 式中为输入量,) ,。为输出量。 通过支持向量机训练回归出一个函数,( z ) ,使由该函数求出的每个输入样本的 输出值和输入样本对应的目标值相差不超过误差,同时使回归出的函数尽量的平 滑。 2 3 1 线性回归的情况 对于线性回归的情况,假设函数的形式为 1 ( x ) 一( w z ) + 6 , ( 2 1 5 ) 式中,w e x ,6 尺,( ) 表示x 内的点积。 要使回归出的函数,( z ) 尽量平滑就是要寻求一个尽量小的w ,因此上式的最优 华北电力大学硕士学位论文 化问题司捕述为 m 。i 。n j = i l l w j l 2 ( 2 1 6 ) w 上 ” 怫- w x i ) - b 0 为惩罚系数,用于对样本错分的惩罚。 上式中引入了损失函数i q ,经验风险由不敏感损失函数来度量,其中不敏 感损失函数的数学表示形式如下 i 亭l 。;罹l 一:喜:三三, c2 一8 , 式中,占为允许误差。 g 不敏感损失函数如图2 - 5 所示。 言 j i 。 一+ 图2 - 5 不敏感损失函数 图2 - 6 表示了线性支持向量机中使用软间隔损失机制的情况。 1 2 华北电力大学硕士学位论文 图2 - 6 回归问题中的不敏感损失带 为启竿决以上凸一次优化l 口j 题? i 八l a g r a n g e 凼毅 l 2 三1 1 w l l - + c 砉a , ( e + 岛一咒+ ( w 。毛) + 6 ) 一 荟口? ( + 等) + 只一( w 鼍) 一6 一善( 现复+ 西等) , 式中a i ,口? ,r i ,拼苫0 , i = l l 。 利用对偶原理可得上式的对偶最优化问题: maxra艏ina= 一三窆( q 一西) ( 旷口施一, a w , b ,;,言。2 角、 i ,、 j ,、7 i 一套( 一西) + 砉咒( 呸一西) , s 一骞( q 一西) 一- - , k 西 o ,c 】 锯以卜对儡问颢可得 ( 2 - 1 9 ) ( 2 - 2 0 ) w = ( 旷西) 而 ”1 ,( 2 - 2 1 ) 厂( 工) = 妻( 口i 一口? ) ( 。z ,) + 6 阈值b 可通过下式计算得到 b - a v e r g e l e s i g n ( a ,一西) + y i w 五) i 。 ( 2 2 2 ) 从以上分析可以看出,s j i tw - - i 以表示成训练样本鼍的线性组合。在计算,( z ) 时无需明确的计算出向量w ,只需计算出训练样本之间的点积即可,这为训练非线 1 3 华北电力大学硕士学位论文 性的回归函数提供了便利。 2 3 2 非线性回归的情况 对于支持向量回归的非线性情况,其解决思路是通过函数将输入样本映射至希 尔伯特空间,在该空间中样本是线性的,这样就可以应用上节所述的线性回归中的 训练方法,然后引入核函数代替特征样本中样本之间的点积,即 七( ,工) = ( 中( 五) m ( z ) ) , ( 2 2 3 ) 式中m ( x ) 为输入空间到希尔伯特空间的映射。这样就可以避免单独的计算函数 巾( x ) 。 在非线性情况下,分类超平面为 w ( 工) + 6 ;0 , ( 2 - 2 4 ) 最优分类超平面问题描述为 m i n ,! w r w , ( 2 2 5 ) s 丁l 矿y i - w ( 毛t 矿) + ( x 6 i ) 一- 咒b s af e ,i = l - - - , t , 类似于上节所述,得到对偶最优问题 m 叩a x 毗m 锚i n = 毫( q a 川旷口m 五) 毗) ) , 2 6 ) 一妻( 呸一口? ) + 骞魏( q 一茸) s 丁j 骞( q 一西) = o , i q ,西 o ,c 】 w 。吝( 一西) ( 毛) ( 2 2 7 ) ,( x ) ;荟t ( 口;一西) 七( t ,x ) + 6 阈值b 可通过下式计算得到 化僻l f s 咖( q _ ) + 咒一批一西) 地,工) l ,( 2 - 2 8 ) 显然,在以上的计算过程中,无需确切知道映射函数巾( z ) ,而仅仅需要知道核函数 1 4 华北电力大学硕士学位论文 k ( x i ,工) ,这给计算带来了很大的方便。 通过以上对支持向量回归算法的推导,结合本文所要完成的电力系统中短期负 荷预测问题,其所要解决问题就是要通过样本集z t 。u 五 获得预测值y 。,使之尽可 能接近实际值y ,那么式( 2 - 2 6 ) 优化问题的解即为预测模型的参数,从而预测值 可以通过训练好的向量呸一西和新增样本薯+ 。计算得到 ,( ) s ( q 一西弦( ,工) + 6 。 ( 2 2 9 ) 2 3 3 核函数 核函数七( ,工) 是满足m e r c e r 条件的任意对称函数,常用的核函数有: 1 ) 多项式函数 七( 玉,x ) - - ( x , x + 1 ) 4 d - 1 , ,n : ( 2 3 0 ) 2 ) 径向基函数 支( 薯,x ) 一e x p ( 一睁一薯1 1 2 2 0 2 ) ; ( 2 3 1 ) 3 ) 感知器 4 ) 指数径向基 七( 而,z ) = t a n h ( 3 x i x + b ) ; ( 2 - 3 2 ) 七( 毛,工) - 0 x p ( 一忙一z , u 2 0 2 ) 。 ( 2 3 3 ) 2 4 支持向量回归的序列最小优化算法 支持向量机的训练需要求解一个二次规划的优化问题,传统的利用标准二次型 优化技术解决对偶问题的方法可能是训练算法慢的主要原因:首先,需要计算和储 存整个核函数赫森( h e s s i a n ) 矩阵,当样本点数目较大时,需要很大的内存;其次, 在二次型寻优过程中要进行大量的矩阵运算,大多情况下,寻优算法是占用算法时 间的主要部分。 s v m 的训练运算速度是限制它的应用的主要方面,近年来人们针对方法本身的 特点提出了许多算法来解决对偶寻优问题。 从前面的分析已知,只有对应于支持矢量的l a g r a n g e 乘子不为零,其他的 l a g r a n g e 乘子均为零,在大多数情况下,支持矢量数比训练数据数要少得多,因此 可在较小的变量集合上求解优化问题。基本思路是:将优化问题分解成子问题迭代 求解,每次只处理部分训练数据,则矩阵不必包含不在当前迭代步的训练数据所对 应的项,从而解决了存储问题。通过反复求解子问题,当所求的解都满足

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论