




已阅读5页,还剩63页未读, 继续免费阅读
(电力系统及其自动化专业论文)基于gsa的电力系统不良数据辨识方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士论文 基于g s a 的电力系统不良数据辨识方法研究 a b s t r a c t i nm o d e mp o w e rs y s t e m ,t h eq u a l i t yo fd a t ai n f l u e n c e st h es a f e t ya n ds t a b i l i t yo ft h e p o w e rs y s t e md i r e c t l y i np a p e r , g s a - b a s e dd a t a - m i n i n gt e c h n i q u ew a sa n a l y z e da n d a p p l i c a t e di n t ob a dd a t ad e t e c t i o no f t h ep o w e rs y s t e m s h o r t c o m i n g so ft h et e c h n i q u e w e r ef o u n db yal o to fs i m u l a t i o n s t o o v e r c o m e :h es h o r t c o m i n g s ,an e w j u d g m e n tw a s p r e s e n t e dt oe s t i m a t et h eo p t i m a ln u m b e ro ft h ec l u s t e r :e l b o wj u d g m e n tb a s e do n g s a ,a n di ta l s ow a sa p p l i c a t e di nb a dd a t ad e t e c t i o no ft h ep o w e rs y s t e m e l b o w j u d g m e n tb a s e do ng s ai sak i n do f t e c h n i q u e sw h a tc a ne s t i m a t et h eo p t i m a lc l u s t e rn u m b e rw e l l i nb a dd a t ad e t e c t i o no fp o w e rs y s t e m ,b pn e u r a ln e t w o r ki su s e df i r s t ,t h e nt h et e s t i n gr e s u l t sa r e c l u s t e r e d ,a n dt h e ne l b o wj u d g m e n tb a s e do ng s ai su s e dt oe s t i m a t et h eo p t i m a lc l u s t e rn u m b e r , a tl a s tg o o da n db a dd a t aw i l lb es e p a r a t e dd i s t i n c t l y i np a p e r , t h er e a l t i m ed a t am e a s u r e m e n t so f ap a r to fj i a n g s up o w e rn e t w o r kw a ss i m u l a t e d t h er e s u l t sr e v e a l e dt h a ti nk i n d so fb a dd a t a c o n d i t i o n st h eb a dd a t ac o u l db ed e t e c t e db yt h en e wt e c h n i q u ee f f i c i e n t l ya n dc o r r e c t l y k e y w o r d s :e l b o wj u d g m e n t ,g s a ( g a ps t a t i s t i ca l g o r i t h m ) ,b a dd a t ad e t e c t i o n ,d a t a m i n i n g ,c l u s t e ra n a l y z e 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:矽乃年莎月目 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:扛协d 年占月l o 目 硕士论文基于g s a 的电力系统不良数据辨识方法研究 1 绪论 1 1 电力系统不良数据辨识的必要性“、2 1 随着国民经济的高速发展和人民生活水平的不断提高,电力系统得到了飞速 发展,系统的结构和运行方式也日趋复杂,这就对电能的可靠性和电能质量提出 了更高的要求。 电力系统不良数据的辨识是电力系统实时网络分析的重要功能,其目的在于 排除量测数据中偶然出现的少量不良数据,以提高系统运行的可靠性。 在现代电力系统中,各种数据的质最变得越来越重要。电力系统操作中的不 良数据不仅影响软件环境的性能,更严重的是,操作员基于不良数据所作的决策 将使系统正常运行受到威胁,甚至可能威胁到整个电力系统的安全。因此,为了 确保电力系统的安全,监测这些不良数据并把它们有效的从原始测量数据中提取 出来有着重要的意义。 不良数据需通过检测与辨识处理,才能满足系统对测量数据的要求。所谓检 测是用来判定是否存在不良数据,而辨识则是为了寻找出哪一个数据是不良数 据,以便进行剔除或修正。 电力系统接受到的不良数据的来源可能有: a ) 测量与传送系统受到较大的随机干扰; b ) 测量与传送系统出现的偶然故障; c ) 电力系统快速变化中各测点问的非同时测量。 1 2 电力系统不良数据辨识的研究现状 不良数据辨识是电力系统状态估计的重要目的之一。状态估计是利用实h 、j 量 测系统的冗余度来提高数据精度,排除随机干扰所引起的错误信息,估计或预报 系统的运行状态的。状态估计首先应用于宇宙飞船、:卫星、导弹、潜艇和飞机的 追踪、导航和控制中。它主要使用六十年代初由卡尔曼、布西等人提出的一种递 推式数字滤波方法。电力系统状念估计也是由卡尔曼滤波开始的。 1 9 6 8 年丰田淳一提出用卡尔曼滤波方法做负荷预报和水库来水预报的文 章,已经属于状态估计在电力系统中应用的研究。然而状态估计在电力系统中被 广泛地研究和实际应用,却是针灯实时潮流问题进行的f i j 。1 9 6 9 年美国麻省理i : 学院的( f c s c h w e p p e ) 等人提出了基本加权最小二乘法状态估计,在同时 期,美国邦那维尔电力系统( b p a ) 的拉森( r e l a r s o n ) 等人提出了卡尔曼 型逐次估计算法,随后世界各国相继开展这方面的研究工作。最早应用状态估计 程序的是挪威水利电力局所属的较小的电网和美国电力公司所属的较大的电网。 硕+ 论文基丁g s a 的电力系统不良数据辨识方法研究 至七十年代末,状态估计应用在电力系统中所得到的效果已被肯定,现已进入实 用的阶段。新设计的电力系统调度中心普遍包含这一功能。 经过几十年的发展,目前国内外已经提出了多种不良数据检测和辨识的方 法。常用的方法主要是基于状态估计的方法,有残差搜索法、非二次准则法、零 残差法、估计辨识法等。这些方法主要是将加权残差或标准残差值作为特征值, 假设其服从某一概率分布,并按照一定的置信度水平确定一个门槛值,进行假设 检验。找到可疑测量数据后,将其从测量数据中排除或减小其权值,得到新的状 态估计值。近年来,国内外学者对上述方法进行了研究,提出了许多有益的改进 意见。例如在非二次准则中,应用快速g i v e n s 变换,将新量测增加到已处理过 的量测集中,可以用增益函数的增量近似代替正则残差的平方,避免了计算残差 灵敏度矩阵。或者通过分析量测误差对残差的影响范围,从而有效分离量测误差 的传播范围,以避免在全系统内辨识不良数据“。 随着神经网络的出现,由于具有处理非线性输入输出关系的能力,神经网络 技术成为经常被使用的方法。一旦神经网络模型被很好的训练,它能很快给出一 个鉴别绝大多数种类的测量误差的结果,便于在控制中心建立一个可靠的数据仓 库。 然而,这类方法存在一些缺点: a ) 是很可能出现残差污染和残差淹没现象,从而造成漏检或误检,影响了 辨识的效果。 b ) 由于这种常规的不良数据辨识算法采用非线性残差方程,辨识过程中需 要多次状态估计的计算,因此计算量极大。 c ) 此外采用线性化残差方程,利用残差灵敏度矩阵的子矩阵计算测量的估 计值,由于灵敏度矩阵是高维满阵。因此这种方法计算量仍很大。 d ) 当出现多个不良数据的情况下,使用这种方法经常会发生错误辨识的现 象。 e ) 神经网络方法的不足之处在于高度依赖网络的训练过程,训练样本的选 定及其代表性将直接影响最后辨识的效果。 f ) 神经网络辨识电力系统不良数据通常要选取合适的阈值进行判断,闽值 的选取直接影响到最后的辨识效果。而闽值选取高度依赖经验,使得实际应用倍 感困难。”“” 近期,基于数据挖掘技术的方法普遍被学术界认可并被实际应用所证明。这 种方法从一组数据中提取正确、未知、可理解的以及有用的信息。通过使用这种 技术,存在于海量信息中的新的、有用的信息可以被及时地发现。数据挖掘过程 大致被分为以下几步:数据准备( 包括数据集成、数据选择、数据预处理和数据 硕士论文 基于g s a 的电力系统不良数据辨识方法研究 转换) 、数据挖掘及解释评估。从概念上讲数据挖掘也可看成是发现数据组成的 内在特征的知识恢复。因此,论文将研究基于g s a ( g a ps t a t i s t i ca l g o ri t h m ) 的数据挖掘的方法,探索新的电力系统不良数据检测辨识方法,并将之引入到电 力系统不良数据辨识的应用中来。“、”“1 1 3 数据挖掘在电力系统中的应用 在电力系统中用数据挖掘技术来完成的决策任务可归纳为以下几方面: 1 ) 电力系统的调度运行1 调度运行部门在电力系统的运行中始终处于核心地位。它的任务就是实时处 理来自系统的大量反馈信息,并依此做出相应决策。在进入电力市场机制运行后 调度中心在保证系统运行的安全性和稳定性的基础上,还要考虑各种经济问题, 如各投资者的经济利益以及如何制定合理的电价这将进一步增加调度运行的复 杂性。在这种情况下,我们必须强调决策指定过程中的科学化和规范化。数据挖 掘技术有助于调度运行部门制定相关决策。 2 ) 数据挖掘技术用于决策支持和控制“4 “。 如在常规的电力系统运行模式下,需要依赖经验丰富的专家。 + 旦电力系统 发生故障。系统中保护装置的动作信息自动传递给调度中心,调度员则需要根据 经验从这些信息中判断出故障原因和故障发生的具体位置,由此来实施具体的故 障隔离和恢复处理。为了减少损失,要求在极短时间内完成,对调度员的压力很 大。因任何人面对2 0 0 0 个m i n 数据流组成的数据表都不可能进行有效处理。在信 息流量庞大的今天,这种故障处理模式已无法适应。基于粗糙集的数据挖掘方法 具有强定性分析能力,能从给定问题的数据分析,通过不可分辨关系和不可分辨 类确定给定问题的近似解。从信息表中去除冗余属性,获取该问题的内在规律, 并能估计某一属性的重要程度,得到分类规则的能力。因此,数据挖掘可将每一 种状态的故障特征提取出来,将其作为调度人员判断电力系统处于何种状态和如 何快速做出故障处理和决策的有力工具。 3 ) 电力系统建模“” 反映电力系统本质特征的电力系统模型是电力系统运行和调度的基础。然而 由于电力系统是一个大规模的复杂系统,精确数学模型如基于状态空间和传递函 数的一类动力学模型应用起来比较困难。数据挖掘技术不受对象模型和复杂度的 限制,它更多的从数据的角度来考察系统,在对数据进行充分的考察后,利用简 约和特征提取等技术,生成对象的简洁描述,并随着数据的增长模型不断完备。 数据挖掘的结果是一些包括概念和规则等揭示电力系统内在联系的数据模式,对 电力系统的不稳定性、不一致性和不完整性可以充分表达。 硕士论文 基t - g s a 的电力系统不良数据辨识方法研究 4 ) 数据挖掘技术用于设备运行状态的监视“。 系统运行人员借助基于状态监控和预诊断技术的综合智能系统,对电力系统 设备的使用情况进行扫描。发现问题可及时地安排电力设备检修,延长了电力设 备使用寿命,降低了检修成本,并保证了系统的高可靠性。如在发电厂中建立一 个针对两个发电机组的运行信息系统。通过关系数据库与神经网络等技术相结 合。数据挖掘技术可自动发现某些不正常的数据分布,暴露运行中的异常变化和 各种因素,协助检修工程师迅速找出问题发生的范围,并采用可视化界面查询机 组运行情况,及时检修和采取对策。 5 ) 电力系统负荷预测和分类“。“1 ”1 电力系统负荷预测是电力系统调度的重要内容,是保证电力系统安全经济运 行和实现电网科学管理及调度的基础。电力系统负荷预测可分为长期、中期、短 期和超短期负荷预测。长期负荷预测一般预测未来几年或几十年的负荷,主要用 于为电站的长期规划和建设提供依据。中期负荷预测提前预测未来一个月的负 荷,为发电的原料储备、购买等提供依据。短期负荷预测是预测未来几天或几小 时的负荷,用于电力系统调度优化。超短期负荷预测是预测未来几分钟的负荷, 用于保持电力系统的稳定性。由于短期负荷预测的难度最大,目前电力系统的负 荷预测研究主要集中于短期负荷预测。 电力系统短期负荷预测目前的研究方法有时间序列法、线性回归法和神经网 络法等,这些方法在实践中取得了一定的成果。但是,这些方法在电力系统短期 负荷预测研究中多注重于定量分析,缺乏定性分析的有效手段,即缺乏从负荷数 据及其相关数据中获得其中内在的因果关系。如对于神经网络方法,+ 个很普遍 的问题就是如何确定神经网络的输入量,通常人们按经验选取诸如节假h 、天气 等作为输入进行模型训练,这样获得的神经网络模型具有人为的主观因素,不是 直接数据驱动的,影响负荷预测的精度。同时,由于电力系统中存储的电力负荷 数据是海量数据,用传统的统计分析方法和手工方法难以获得隐古在其中的规 律,而数据挖掘技术为挖掘数据的潜在、有价值信息提供了有利的手段。运用时 间序列相似性挖掘和决策树分类等数据挖掘手段对电力负荷数据进行深度挖掘, 获得有效的负荷分类、影响负荷主要因素等知识,结合时间序列方法和神经网络 方法等技术建立负荷预测模型,将不仅能从定量上提高负荷预测的精度,并且定 性上分析影响负荷各因素的重要性及负荷问的内在因果关系,对负倚预测的研究 起推动作用。 1 4 基于g s a 的数据挖掘概述 数据挖掘中的聚类分析是无( 教师) 监督学习的一种重要的工具。聚类过程 中聚类离散度的对数i n w ( k ) ( 即聚类内各数据点之间的欧氏距离平方和,后面简 硕t 论文 基于g s a 的电力系统不良数据辨识方法研究 称其为聚类离散度) 可以表示为相对于聚类数量k 的_ + 条典型曲线。离散度 i n ( 七) 随着聚类数量k 的增加而单调递减( 事实上当每个测量值都作为一个聚 类时,i n 矽( 七) 的值为0 ) 。 聚类分析中一个主要的难题是估计聚类的最佳数量,聚类离散度与聚类个数 的关系包含着最佳聚类个数的信息,基于g s a 的数据挖掘就是挖掘此种信息的方 法之一。它的基本思想是寻找一条参考曲线,将观察值的聚类离散度,与参考值 的聚类离散度的期望( 考虑分布误差) 对比,对比的间隙记为g a p ( k ) 。g a p 值 ( 间隙值) 带有最佳聚类个数的信息。当g a p ( k ) 的值最大时,所对应的k 就 是最佳聚类个数。参考值分布可用在观察值范围内的均匀分布来实现“”1 。 目前,国外对g s a 方法的研究刚起步,2 0 0 0 年t i b s h i r i n ir ,w a l t h e rg 提出了这种方法,但是在很多方面还有待于进。步完善,尤其是在参考数据集的 产生问题上还没有一个很完备的过程,尤其在高维数据分析时参考数据集没有一 个通用的方法产生。但是之后的几年在i e e e 以及其他的一些期刊中陆续出现了 基寸二g s a 方法应用的论文,说明这种方法有其一定的应用价值。 g s a 的一个最突出的优点就是改变了以往聚类分析需要聚类个数进行分析 的缺陷,可以自动确定最佳的聚类个数,得到最优的聚类结果。有效增强如k 均值等许多聚类方法的效能。其应用也是多方面的,如投资模式分析、信号分析、 电力系统不良数据辨识等。在投资模式分析中,传统的聚类分析方法需要指定聚 类个数进行聚类分析,而使用g s a 方法估计最佳的聚类个数,帮助投资者确定 最佳的投资模式,体现了方法的优点。在信号分析中,g s a 方法通过寻找最佳 的聚类数自动确定在不确定盲源分离( u n d e r d e t e r m i n e db l i n ds o u r c es e p a r a t i o n ) 中信号源的数量,从而得到测量出的混合信号中潜在的信号源的时一频结构。在 电力系统中,可以利用g s a 方法对人工神经网络进行优化和改进,形成基于g s a 的数据挖掘结构体系并用于电力系统不良数据的辨识。近期,国内电开始了关于 这方面的研究工作,可见该方法具有很好的研究价值和应用前景。“、9 “1 基于g s a 的数据挖掘方法在实际应用中有以下三点优点: a ) 这种方法与传统的状态估计方法相比,算法优化,而效能更高。特别对 于大系统,数据量巨大的情况下,此方法避开了残差灵敏度矩阵的计算,在计算 时间上将会有一定的提高。 b ) 这种方法是基于神经网络对原始量测量的处理基础上的,训练好的神经 网络可以很快给出一个鉴别绝大多数种类的测量误差的结果,因此此方法可以有 效地避免状态估计中经常出现的残差污染及残差淹没现象。并且g s a 方法具有无 ( 教师) 监督学习的优势,可以自动查找并辨识不良数据。 c ) 这种方法可以在各种不同场合下灵活的使用。对于现代控制中心,安装 硕士论文 基于g s a 的电力系统不良数据辨识方法研究 的各种应用软件的数量在不断增加,它还能被集成到其他智能计算方法比如神经 网络中,易于软件实现,并可以大大增强软件的强壮性及有效性。 1 5 论文的主要研究工作 在论文中,将基于g s a 的数据挖掘的方法运用到电力系统不良数据辨识中。 论文介绍的方法不需要任何特殊的接1 :3 ,可以实现智能的并且自动的查找不良数 据。通过把g s a 方法嵌a n 数据挖掘过程中,可以大大降低数据的错误辨识率。 这种基于g s a 数据挖掘的集成方法可以在不同的不良数据场合下被用来发现不 良数据。 另外通过对g s a 方法的仿真分析,发现它也不是完善的,针对算法的一些缺 陷论文对g s a 方法进行了改进,提出了一种确定聚类个数的新判据,并将之与 g s a 结合应用于电力系统不良数据辨识,仿真证明该方法有很好的准确性和可靠 性,并在计算速度方面较原方法有较大提高。 论文的主要的研究工作如下: a ) 研究聚类理论及算法。运用b p 神经网络方法对江苏电网部分数据进行训 练及测试,为数据辨识做准备。 b ) 应用g s a 方法进行不良数据辨识仿真,分析其优劣并发现问题。 c ) 针对原g s a 方法存在的问题,提出估计最佳聚类个数的一种新判据:肘 形判据,并将其与原g s a 方法相结合,对已有的方法进行改进。 d ) 编制程序,将新判据用到电力系统不良数据辨议中,并对比原方法进行 比较分析,证实该方法的可靠性、有效性以及强适应性。 硕士论文基于g s a 的电力系统不良数据辨识方法研究 2 基于g s a 的数据挖掘体系 g s a 是一种强化聚类分析准确性和高效性的有效方法。在应用于电力系统 不良数据辨识时,并不是对电力系统原始量测数据直接进行分析,而是建立在人 工神经网络对量测数据的预处理的基础上的。神经网络具有处理非线性输入输出 关系的能力,一旦神经网络模型被很好的训练,它能很快给出一个鉴别绝大多数 种类的测量误差的结果。”。利用神经网络的这一特性,从神经网络的输入输出数 据中挖掘出量测误差值的信息。基于g s a 的聚类分析进而对这样的数据进行自动 检测辨识,确定最佳的聚类个数,最终对应辨识原始数据中的不良数据。基于 g s a 的数据挖掘框架结构如图2 + 1 所示1 5 i 】: 图2 1 基于g s a 的数据挖掘体系框架图 本章将对基于g s a 的数据挖掘体系及相关理论算法进行研究。 2 1b p ( b a c kp r o p a g a tio n ) 神经网络算法“8 ”1 由图2 1 可知,在基于g s a 的数据挖掘体系中,首先将数据样本作为训练数 据对神经网络进行训练,然后再利用神经网络对数据进行测试,测试后得到输入 输出羞的平方值才可以用来进行基于g s a 的挖掘。因此,神经网络模块在整个算 法体系中的作用是对数据进行预处理,拟使用b p 神经网络对电力系统原始量测 量进行处理。这里着重介绍b p 神经网络算法及原理。 反向传播算法也称b p 算法。由于这种算法在本质上是一种神经网络学习的 数学模型,所以有时也称为b p 模型。b p 算法是为了解决多层前向神经网络的权 系数优化而提出来的。所以,b p 算法也通常暗示着神经网络的拓扑结构是一种 无反馈的多层前向网络。故而,有时也称无反馈多层前向网络为b p 模型。 硕士论文基于g s a 的电力系统不良数据辨识方法研究 感知机学习算法是一种单层网络的学习算法。在多层刚络中,它只能改变最 后权系数。因此,感知机学习算法不能用于多层神经网络的学习。1 9 8 6 年, r u m e l h a r t 提出了反向传播学习算法,即b p ( b a c kp r o p a g a t i o n ) 算法。这种算法 可以对网络中各层的权系数进行修正,故适用于多层网络的学习。b p 算法是目 前最广泛使用的神经网络学习算法之一。 a ) b p 算法的原理” b p 算法是用于前馈多层网络的学习算法,前馈多层网络的结构一般如图 2 1 1 所示。 它含有输人层、输出层以及处于输入输出层之间的中间层。中间层有单层或 多层,由于它们和外界没有直接的联系,故也称为隐层。在隐层中的神经元也称 隐单元。隐层虽然和外界不连接但是,它们的状态影响输入输出之间的关系。 这也是说,改变隐层的权系数,可以改变整个多层神经网络的性能。设有一个m 层的神经网络,并在输入层加有样本x :设第k 层的第i 个神经元的输入总和表 示为u j ,输出! ;从第k 一1 层的第j 个神经元到第k 层的第i 个神经元的权 系数为彬,各个神经元的激发函数为f ,则各个变量的关系可用下面有关数学 式表示: 图2 1 1b p 网络结构示意图 x ? = 厂( u ? ) 吖= j y j ( 2 。1 1 ) ( 2 、1 2 ) 反向传播算法分二步进行,即正向传播和反向传播。这两个过程的工作简述 如下: 1 ) 正向传播 输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后, 则传向输出层;在逐层处理的过程中,每,一层神经元的状态只对下一层神经元的 状态产生影响。在输出层把现行输出和期望输出进行比较,如果现行输出不等于 堡主鲨奎薹王鱼兰垒塑皇垄墨堕j j ! :三垦墼塑塑望互鲨墅塑 期望输出,则进入反向传播过程。 2 ) 反向传播 反向传播时,把误差信号按原来正向传播的通路反向传回,并对每个隐层的 各个神经元的权系数进行修改,使误差信号趋向最小。 b ) b p 算法的数学表达“”“1 t p 算法实质是求取误差函数的最小值问题。这种算法采用非线性规划中的 最速下降方法,按误差函数的负梯度方向修改权系数。 为了说明t p 算法,首先定义误差函数e 。取期望输出和实际输出之差的平 方和为误差函数,则有: e = 土y f 石m m ) 2 ( 2 1 3 ) 其中:y 是输出单元的期望值,它也在这里用作教师信号; 爿? 。是实际输出。 l a - bb p 算法按误差函数e 的负梯度方向修改权系数,故权系数的修改量 正比于一& a 彬。很明显。根据b p 算法原则,求a 是最关键的。有 卫生:坠婴( 2 1 4 ) a wua u l k8 w v 豢:驾竺圳卜, a a 故而 旦:旦见“ 从而有 驴叩赢一叩斋叫 令 d ? 。蠢 则有学习公式: = 一,7 d 弼“ ( 2 1 5 ) ( 2 1 6 ) ( 2 1 7 ) ( 2 1 8 ) ( 2 1 9 ) 其中:玎为学习速率,即步长,- - i 殳i xol 问的数a 从上面可知,钟实际仍末给出明显的计算公式,下面求d ? 的计算公式: 9 硕士论文 基于g s a 的电力系统不良数据辨识方法研究 d ? = 熹:要婺 (2川o)ou。, o x ,0 u 从式( 2 1 9 ) 可知在式( 2 1 1 0 ) 中,有 筹丫( ( 2 1 1 1 ) 为了方便进行求导,取f 为连续函数。一般取非线性连续函数,例如s i g m o i d 函数。当取f 为非对称s i g m o i d 函数时,有: 倒? ) 2 鬲面1 而 ( 2 1 1 2 ) 从而有 厂( u ? ) = 厂( u ? ) ( 1 一厂( ) ) = ? ( 1 一) 再考虑式( 2 】1 0 ) 中的偏微分项& o x , k ,有两种情况需考虑: 如果k = m ,则是输出层,这时有r 是输出期望值,它是常数。 熹= 熹w r 从而有卵= 并? ( 1 一x ? 。) ( x ? 一f ) ( 2 1 1 3 ) 从式( 2 1 3 ) 有 ( 2 1 1 4 ) ( 2 1 1 5 ) 如果k m ,则该层是隐层这时应考虑上一。层对它的作用,故有: 旦:v l 丝竺 粥。一a u “1 溅 从式( 2 1 8 ) 中,可知有: o e i k + l 矛一q 从式( 2 1 2 ) 中,可知有: o u l 一a ( 蹦) 面万一i 矛 故而有 ( 2 1 1 6 ) ( 2 1 1 7 ) ( 2 1 1 8 ) 素2 ;矿 ( n 9 ) 最后有: d ? = x ? ( 1 一x ? ) w i j d j “ ( 2 1 2 0 ) 从上述过程可知:多层网络的训练方法是把一个样本加到输入层,并根据向 前传播的规则: x j = f ( u ? ) 不断一层一层向输出层传递,最终在输出层可以得到输出? 。 0 硕士论文基于g s a 的电力系统4 i 良数据辨识方法研究 把x 和期望输出r 进行比较。如果两者不等,则产生误差信号e ,接着则按 下面公式反向传播修改权系数: 孵一叮x 尸( u ? = e x y ) ( 2 j 2 1 ) j 其中 d ,= x ? ( 1 石,) ( ,一r ) d ? = x k ( 1 ? ) 彤,计“ , 上面公式中,求取本层彰时,要用到高一层的彬“。可见,误差函数的求 驭是从输出层玎始,到输入层的反向传播过程。在这个过程中不断进行递归求误 差。 通过多个样本的反复训练,同时向误差渐渐减小的方向对权系数进行修f , 以达到最终消除误差。从上面公式也可以知道,如果网络的层数较多时,所用的 计算量就相当可观,故而收敛速度不快。 为了加快收敛速度,一般考虑上一次的权系数,并以它作为本次修正的依据 之一,故而有修正公式: ( t + 1 ) = 一彬? 盖,+ a a ( f ) ( 2 1 2 2 ) 其中:玎为学习速率,即步长,野= 0 1 0 4 左右 口为权系数修正常数,取0 7 一o 9 左右。 在上面,式( 2 1 2 1 ) 也称为一般化的1 ) e 1 l a 法则。 c ) b p 算法的执行步骤“”1 在反向传播算法应用于前馈多层网络,采用s i g m o i d 为激发函数时,可用下 列步骤对网络的权系数彬,进行递归求取。注意对于每层有r 1 个神经元的时候, 即有i = 1 ,2 ,i 1 ;j = 1 ,2 ,n 。对于第k 层的第i 个神经元,则有n 个权系数w ,w 。,w 。另外取多一个w 。,用于表示阈值0 。,并且在输入样 本x 时,取x = ( x ,x 。,x 。,1 ) 。 算法的执行步骤如下: 1 ) 对权系数彬,置初值。对各层的权系数彤,置一个较小的非零随机数,其 中w n = 一0 。 2 ) 输入一个样本x = ( x ,x 。,x 。1 ) ,以及对应期望输出y = ( y 。,y z , y 。) 。 3 ) 计算各层的输出。对于第k 层第i 个神经元的输出! ,有: 月+ 1 【,j = ,x 2 := l ,彤m 。) :一口 硕士论文基于g s a 的电力系统不良数据辨识方法研究 ? = f ( u k , ) 4 ) 求各层的学习误差d j 。 对于输出层k = m ,有 d ,= y ? 1 ( 1 一x 肿) ( x ,一r ) 对于其他各层,有 d ? = x j ( 1 一x ? ) , 5 ) 修正权系数肜和阈值0 用式( 2 1 2 1 ) 时有:( 。) = ( ,) 一吁d ? y 。 用式( 2 1 2 2 ) 时有:( ) = ( f ) 一r - d x ;1 + 以( r ) 其中: ( f ) 一叩d j 。x 尸+ a a 0 一1 ) = ( ,) 一0 1 ) 6 ) 当求出了各层各个权系数之后,可按给定指标判别是否满足要求。如果 满足要求,则算法结束;如果未满足要求,则返回3 ) 执行。 这个学习过程,对于任一给定的样本x ,= ( x m x ,x ,1 ) 和期望输出 匕= ( 巧。,匕:,) 都要执行,直到满足所有输入输出要求为止。 2 2 聚类分析 2 2 1 聚类概念及主要聚类方法”“3 “”1 聚类( c l u s t e r i n g ) 是一个将数据集划分成若干组( c l u s t e r ) 或类( c l a s s ) 的过程。划分时遵循两个原则,即最大化同一组内数据的相似度;最小化不同组 间数据的相似度。相似或不相似的度量是基于数据对象描述属性的取值来确定 的。通常就是利用( 各对象间) 距离来进行描述。将一群( s e t ) 物理的或抽象 的对象,根据它们之间的相似程度,分为若干组,其中相似的对象构成一组,这 一过程就称为聚类过程。聚类分析就是从给定的数据集中搜索数据对象之间所存 在的有价值联系。而在许多应用中,个聚类中所有对象常常被当作一个对象来 进行分析处理。许多领域,包括数据挖掘、统计学和机器学习都有聚类研究和应 用。 作为统计学的一支,聚类分析已有多年的研究力史,这些研究主要集中在基 于距离的聚类分析方面。基于k 一均值、k 一中心和其他些聚类分析工具已经 被加入到许多统计分析软件包中,诸如:s p 1 u s ,s p s s 和s a s 。在数据挖掘中, 聚类是无监督学习的一个例子。与分类不同,无监督学习不依靠事先确定的数据 类别,以及标有数据类别的学习训练样本集合。正因为如此,聚类分析又是一一种 观察式学习( 1 e a r n i n gb yo b s e r v a t i o n ) ,而不是示例学习( 1 e a r n i n gb y 硕士论文基于g s a 的电力系统不良数据辨识方法研究 e x a m p l e ) 。在概念聚类方法中,仅当一组对象可以由一个概念所描述时,这些对 象才能构成一个类。这与基于几何距离表示相似程度并进行聚类的传统聚类方法 有所有不同。概念聚类方法主要包含两部分内容:发现适当的类;根据每个类形 成相应的特征描述。在这里,最大化类中对象相似度,最小化类间对象相似度的 基本指导思想仍然适用。 目前文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目 的以及具体应用要求。如果利用聚类分析作为描述或探索的工具,那么就可以对 同一个数据使用多种算法,以发现数据可能揭示的结果。通常聚类分析算法可以 划分为以下几大类: a ) 划分方法( p a r t i t i o n i n gm e t h o d ) 给定一个包含n 个对象或数据集,划分方法将数据集划分为k 个子集( 划分) 。 其中每个子集均代表一个聚类( k n ) 。也就是说,将数据分为k 组,这些组满 足以下要求:每组至少应包含一个对象;每个对象必须只能属于某一组。需要注 意的是后一个要求在一些模糊划分方法中可以放宽。 给定需要划分的个数k ,首先创建一个初始划分,然后采用迭代重定位技术, 即通过移动不同划分( 组) 中的对象来改变划分内容。一个好的划分衡量标准通 常就是同一个组中的对象彼此相近或相关,而不同组中的对象较远或彼此不同。 当然还有许多其它判断划分质量的衡量标准。 为获得全局最优结果就需要穷举所有可能的对象划分。为此大多数应用采用 二种常用启发方法:k 一均值算法,该算法中的每一个聚类均用相应聚类中对象 的均值表示:k - - m e d o i d s 算法,该算法中的每一个聚类均用相应聚类中离聚类 中心最近的对象来表示。这些启发聚类方法在分析中小规模数据集以发现圆形或 球状聚类时工作得很好。但为了使划分算法能够分析处理大规模数据集或复杂数 据类型,就需要对其进行扩展。 b ) 层次方法 层次方法就是通过分解所给定的数据对象集来创建一个层次。根据层次分解 形成的方式,可以将层次方法分为自下而【:和自上而下两种类型。自下而i 二的层 次方法从每个对象均为一个( 单独的) 组开始逐步将这些( 对象) 组进行合并, 直到组合并到了层次顶端或满足终止条件为止。自上而下层次方法从所有对象均 属于一个组开始,每个循环将其( 组) 分解为更小的组,直到每个对象构成一 组或满足终止条件为止。 层次方法存在的缺陷是在进行( 组) 分解或合并之后,无法回溯。这一特 点也是有用的,因为在进行分解合并时无须考虑不同选择所造成的组合爆炸问 题。但这特点也使得这种方法无法纠正自己的错误决策。 硕十论文基于g s a 的电力系统不良数据辨识方法研究 将循环再定位与层次方法结合起来使用常常是有效的,即首先通过利用自- f 而上层次方法,然后再利用循环再定位技术对结果进行调整。一些具有可扩展的 聚类算法,如:b i r c h 和c u r e ,就是基于这种结合方法设计的。 c ) 基于密度方法 大多数划分方法是基于对象间聚类进行聚类的。这类方法仅能发现圆形或球 状的聚类而较难发现具有任何形状的聚类。而基于密度概念的聚类方法实际上就 是不断增长所获得的聚类直到“临近“( 数据对象或点) 密度小于一定阈值( 如: 一个聚类中的点数,或一个给定半径内必须包含至少的点数) 为止。这种方法可 以用于消除数据中的噪声( 异常数据) ,以及帮助发现任意形状的聚类。 d b s c a n 就是一个典型的基于密度方法,该方法根据密度阈值不断增长聚类。 o p t i c s 就是一个基于密度方法,该方法提供聚类增长顺序以便进行自动或交互 式数据分析。 d ) 基于网格方法 基于网格方法将对象空间划分为有限数目的单元以形成网格结构。所有聚类 操作均是在这一网格结构上进行的。这种方法主要优点就是处理时间由于与数据 对象个数无关而仅与划分对象空间的网格数有关,从而显得相对较快。 s t i n g 就是一个典型的基于网格的方法。c l i q u e 和w a v e c l u s t e r 是两个基 于网格和基于密度的聚类方法。 e ) 基于模型方法 基于模型方法就是为每个聚类假设一个模型,再去发现符合相应模型的数据 对象。一个基于模型的算法可以通过改造一个描述数据点空间分布的密度函数来 确定具体聚类。它根据标准统计方法并考虑到“噪声“或异常数据,可以自动确 定聚类个数,因而它可以产生强鲁棒性的聚类方法。 一些聚类方法将若干聚类方法的思想结合在一起,因此有时很难明确界定一 个聚类算法究竟属于哪一个聚类方法类别。此外,一些应用也需要将多个聚类技 术结合起来方可实现其应用目标。 2 2 2k 一均值聚类。2 ”、“1 k 一均值算法是根据聚类中的均值进行聚类划分的聚类算法。 输入:聚类个数k ,以及包含n 个数据对象的数据库。 输出:满足方差最小标准的k 个聚类。 处理流程 a ) 从n 个数据对象任意选择k 个对象作为初始聚类中心。 b ) 循环下述流程c ) 到d ) ,直到每个聚类不再发生变化为止。 c ) 根据每个聚类对象的均值( 中心对象) ,计算每个对象与这些中心对象的 4 硕士论文基于g s a 的电力系统不良数据辨识方法研究 距离,并根据最小距离重新对相应对象进行划分。 d ) 重新计算每个( 有变化) 聚类的均值( 中心刑象) 。 k 一均值接受输入量k ,然后将n 个数据对象划分为k 个聚类以便使得所获 得的聚类满足以下要求:同一聚类中的对象相似度较高,而不同聚类中的对象相 似度较低。聚类相似度则是利用各聚类中对象的均值所获得一个“中心对象”( 引 力中心) 来进行计算的。 k 一均值算法的工作过程说明如f :首先从1 3 个数据对象任意选择k 个对象 作为初始聚类中心。而对于所剩下的其它对象,则根据它们与这些聚类中心的相 似度( 距离) ,分别将它们分配给与其最相似的( 聚类中心所代表的) 聚类。其 中距离可采用最常用的欧几里得距离,具体计算方法为: d ( t ,x ,) = 【( 峋 这里x 和x 是两个p 维的对象。 然后再计算每个所获新聚类的聚类中心( 该聚类中所有对象的均值) ,不断 重复这一过程直到标准测度函数开始收敛为止。一散都采用均方差作为标准测度 函数,具体定义如下: e = y y i p m 。i 2 ( 2 2 2 ) 智p “e c i 其中,e 为数据库中所有对象与相应聚类中心的均方差之和,p 为代表对象 的空间中的一个点,m 。为聚类c 。的均值( p 和m ,均是多维的) 。公式( 2 2 2 ) 所 示聚类标准旨在使所获得的聚类具有以下特点:各聚类本身尽可能的紧凑,而各 聚类之问尽可能的分开。k 一均值算法的计算复杂度为0 ( n k t ) ,因而它在处理 大数据库时也是相对有效的( 具有可扩展性) 。这里n 为对象个数,k 为聚类个 数,t 为循环次数。通常有k n 和t 一g a p ( 2 ) 一s ( 2 ) 。 因此,在这种情况下,最佳的聚类数量应该是k “1 = 1 ,g a p ( k ) 、的分析结 果以及l n w ( k ) e 1 n w , ( k ) 】的曲线分析分别如图3 2 3 和图3 2 4 所示。 04 0 , 3 藿n : 盘0 1 0 图3 2 3 正常情况f 的g a p ( k ) s , 图3 2 4 正常情况下l n w ( k ) 研l n 哪( ) 】的曲线图 b 1 单个不良数据出现的情况 在以往的研究中,多数文献是以在正常量测值_ l :附加一定的扰动量来模拟不 一s差_善妥篓 硕士论文基丁:g s a 的电力系统不良数据辨识方法研究 良数据,但一般附加的扰动比较大,使得所用方法很容易能够正确辨识。例如文 献 4 在用r n 与状态预估结合的方法进行不良数据辨识时,不良数据偏离正确值 大于5 0 ;文献 5 在用混合不岛数据检测方法时,不良数据偏离正确值大于5 0 ;文献 1 2 在多不良数据辨识法中,不良数据偏离正确值最少大于3 4 ;文 献 1 3 在多不良数据辨识法中,不良数据比真实值减少3 0 。为使算法更具说 服力,下面的仿真中附加扰动的幅度要比上述文献中的有所降低。 此种情况以量测数据的第1 9 0 组为仿真对象。此时假设编号为3 4 的量测值 ( 谏壁发电厂2 5 5 6 号负荷出线) 成为不良数据,正常量测值为1 2 6 4 3 。现在假 设其值偏离正确值的大小为1 5 ,则不良数据编号为3 4 的量测值现在的值为 1 4 5 3 9 4 5 ,则将这组含有不良数据为编号为3 4 的量测值的数据作为神经网络的 输入,经过已经训练好的神经网络进行测试,得到的输入输出差的平方的数据如 图3 2 5 所示。 量灞数据序号 图3 25 单不良数据情况的误差值平方 此单个不良数据出现的情况f ,程序分析的结果显示最佳的聚类个数为2 , 计算了聚类个数为1 、2 、3 三种情况,对聚类个数为1 、2 和3 的计算分析结果 见表3 2 2 : 表3 2 2 单个不良数据情况下g s a 算法分析 聚类个数k l n w ( k ) e 1 n 虻( 七) 】 g a p ( k ) s i k = 1- 21 1 6 40 0 6 7 3 4 221 8 3 70 0 5 8 4 18 k = 29 2 9 24 3 7 1 l49 2 0 90 0 9 6 3 8 8 k = 3- 1 0 ,0 7 36 5 0 6 23 5 6 6 80 0 8 4 0 l 在k = l 时,g a p ( 1 ) = 2 1 8 3 7 ,s = 0 0 5 8 4 1 8 ;当k = 2 时,g a p ( 2 ) = 4 9 2 0 9 , s ( 2 ) = o 0 9 6 3 8 8 。不满足g a p ( 1 ) g a p ( 2 ) s ( 2 ) ,说明检测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 起重工内部技能考核试卷及答案
- 打造咨询智库方案
- 废纸制浆工招聘考核试卷及答案
- 郑州职业转型咨询方案
- 彩钢板屋面加厚施工方案
- 网络营销方案及技巧论文
- 镁矿开采环境法律合规性检验
- 昆明水保咨询方案
- 清洁设备绿色升级研究
- 咨询决策学习方案
- 内部控制与风险管理(第3版)题库
- 医院培训课件:《预灌式抗凝剂皮下注射》
- 退耕还林转包合同模板(2篇)
- 2025年中考语文备考之名著复习:《艾青诗选》题集组(答案)
- 2024年游泳初级指导员认证理论考试题库(浓缩500题)
- 新能源发电技术 电子课件 2.5 可控核聚变及其未来利用方式
- 移动互联网时代的信息安全与防护学习通超星期末考试答案章节答案2024年
- 体育与健康-《立定跳远》教学设计
- 人工智能训练师理论知识考核要素细目表一级
- GB/T 9799-2024金属及其他无机覆盖层钢铁上经过处理的锌电镀层
- 退休返聘人员劳务合同范本
评论
0/150
提交评论