版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-52-基于结构化告警文本的变电站跳闸事件诊断方法分析案例目录TOC\o"1-3"\h\u806基于结构化告警文本的变电站跳闸事件诊断方法分析案例 1240451.1数据归一化 161121.2基于结构化告警文本的跳闸事件诊断方法架构分析 2210871.3基于支持向量机的跳闸事件判定模型 4215801.3.1监督学习与支持向量机 4151001.3.2算法设置 6326311.4基于k-means聚类算法的跳闸事件类型判定模型 8201141.4.1非监督学习与k-means聚类算法 8146031.4.2余弦相似度 9107391.4.3算法设置 10243751.5算例验证 101.1数据归一化数据标准化(归一化)方法是大数据技术中的基础,是整个数据挖掘方法的开端,属于数据预处理的方法。不同类型的数据可能具有不同的衡量标准,在这样的情况下,若无法对不同的数据统一量纲,可能会影响最终的分析结果。为了避免量纲不统一造成的负面影响,需要在数据挖掘前,对数据进行归一化处理。在本文中,对于一个告警信息集,依据其对应的告警类型,不同关键词的出现次数差别很大,有的可能有上百次,而有的仅有零次或一次。其向量化后的数据,不同维的参数值可能相差很大,不在同一数量级,因此需要进行归一化处理以便于后期的处理分析。由于要做归一化处理的向量的维数是确定的,即领域本体词典的本体数,因此本文采用“min-max标准化”方法对其进行归一化,使其各维的参数都趋于[0-1]之间,避免影响后期对跳闸事件诊断的准确性。min-max标准化(Min-MaxNormalization)方法是一种线性标准化方法,通过对原始数据进行线性变换,使待处理的数据都被缩减到[0-1]区间内[58]。在本文中,对应的就是将各个向量的每一维的参数都缩放至[0-1]区间内。该方法的标准化函数如下式(5-1)所示: (5-1)其中max代表一个告警信息样本对应的向量中,各维度参数的最大值;而min代表的便是该向量各维度参数中的最小值。1.2基于结构化告警文本的跳闸事件诊断方法架构分析在对结构化后的告警信息完成了预处理后,告警信息已经转变为了传统意义上的向量形式,是可以被机器识别的语言。因此,可以通过机器学习的方式对其进行分析处理。对于变电站跳闸事件的诊断,和机器学习传统的多分类问题相似,输入多种类的数据,得到不同的事件类型。在传统的多分类问题中,需要对相似度设定一个阈值,以此来判断数据对应的类型。但是在跳闸事件诊断的过程中,不同告警信息集之间的差异性很大,如果采用多分类方法直接对跳闸事件及跳闸事件类型进行诊断,对于参数的调节和阈值的设定会使诊断方法过于复杂,而且这种参数调节或阈值设定很容易造成诊断的不准确。为应对此种情况,本文提出基于分类和聚类的两层架构,来对跳闸事件进行诊断。这样既可以避免阈值设定不准确而造成的种种问题。图5-1智能诊断算法架构图在上述的两层诊断框架中,第一层首先对跳闸事件是否发生进行诊断。对于某一设备来说,这一诊断的结果只有两种,跳闸或非跳闸。此时,这一层就相当于是一个二分类器,因为要判定的只是两种结果之一。第一层诊断之后需要输出一个跳闸与否的诊断结果,跳闸事件发生,则继续进行第二层诊断,判断跳闸事件类型。若第一层诊断跳闸事件未发生,则诊断结束。本文采用支持向量机模型(SVM)进行第一层诊断,因为对比其他传统分类模型,该模型在处理高维非线性的分类问题上表现较好。在第二层中,对已判定为发生跳闸的事件的类型进行判断。此时所要判定的类型有很多种,因此采用聚类模型对其进行判断。这一层采用k-means聚类算法,通过计算告警信息集之间的余弦相似度,来判定该跳闸事件的事件类型,因为k-means算法相较于其他聚类算法来说,实现更加简单,需要调节的参数少,且收敛速度快。总体算法架构如图5-1所示。相较于第三章中基于改进前缀树思想的跳闸事件诊断模型,该模型同样具有不依赖时间和空间序列的优点以及便于更新的优点。在该诊断模型的架构中,挖掘的数据是结构化后的告警信息,特征代表的是相关本体词的出现次数,对于信号发出的前后顺序并没有严格的时间序列要求。此外,如果出现未知的跳闸事件类型或告警信息的格式规范进行了更新,只需要对本体词典进行更新即可。因为该模型的诊断过程是基于向量化后的结构化向量数据,而向量化过程的决定因素只在于本体词典的完整性。1.3基于支持向量机的跳闸事件判定模型1.3.1监督学习与支持向量机监督学习(Supervisedlearning),是机器学习中的一个概念,是其中某些具备相同特征的方法的统称。给定一个已知的用来训练的数据集(训练集),用来找到一个函数描述这些数据直接的关联,这就是监督学习[59]。监督学习最重要的特征是不同的数据已经有了标记,在模型学习的过程中可以通过标记去判断不同类型的数据和不同的标记有何关联。之后再通过这个训练好的模型,去对未知的、但与训练数据同类型的数据进行判定,判定输入的数据是属于哪一类标记。这种方法统称分类,最典型的算法有支持向量机(supportvectormachine,SVM)、BP神经网络等。支持向量机的原理是将要处理的数据映射到高维特征空间进行分类[60]。在SVM中,即使数据不是线性可分的,也可以通过决策手段实现分类。首先,确定各类别之间的分隔标志,接着将分隔标志转换为超平面,并以此来进行数据转换。最后,当有新的数据输入时(即测试数据),可通过该分隔标志判断其对应类别。除了类别之间的分隔线,支持向量机还会确定两个类别的边界线,这些落在边界线上的数据点,就是支持向量。分隔线与边界线之间的空挡,被称为边距。不同类别间的边距越宽,支持向量机模型在对测试数据分类时的表现就会越好。如图5-2中,虚线就是支持向量,实线就是分割线。SVM是依据数学统计学习相关知识的一种通用性很强的监督学习分类算法,其分类决策依据结构风险最小化(StructualRiskMinimization,SRM)原则如图5-3所示。图5-2支持向量机分类示意图在本文中,采用SVM算法来对跳闸事件进行判定。对于一个已经转换为向量形式的告警信息集,要判定其是否对应了跳闸事件,其实就是一个二分类问题。结果只有两种,跳闸或无跳闸。由于向量化后的告警信息维数很高,且并不是线性关系,因此采用支持向量机进行跳闸事件判断,因为相比于其他的分类算法,支持向量机可以通过核函数将非线性问题转化为线性问题,它在处理非线性高维问题时的表现更佳,且可以有效避免维数灾难的难题[61-62]。图5-3支持向量结构风险最小化现如今在使用SVM进行分类时,最常用的核函数有四种,分别是线性核(LinearKernel)如式(5-2),Sigmoid核(SigmoidKernel)如式(5-3),多项式核(PolynomialKernel)如式(5-4)以及径向基核函数(RadialBasisFunction,RBF)如式(5-5)。其中径向基核函数又被称为高斯核,其在解决特征较多且样本数量较大的非线性问题时,表现更佳。 (5-2) (5-3) (5-4) (5-5)1.3.2算法设置本文中采用SVM算法对跳闸事件进行判定,采用某省2019年全年告警数据进行数据提取。对于SVM分类模型来说,最重要的参数设定便是核函数的选取。线性核(LinearKernel)具有一定的限制条件,其只能解决线性可分的问题,因此在本文的SVM参数选择中不考虑线性核。而多项式核、Sigmoid核以及径向基核函数都可以解决非线性问题,因此在训练过程中对这三种核函数进行性能评估对比,选出效果最佳的核函数。在模型训练过程中,对于跳闸样本数据,本文选取了某省2019年100起跳闸事件对应的告警数据集,作为100个正样本。对于无跳闸样本数据,本文对某省2019年全年数据进行时间区间为1分钟的随机分割,即在某一数据库中随机选取起始时间,并将起始时间一分钟后的时间节点作为终止时间,由在该时间区间内的告警信息组成告警信息集,作为100个负样本。同时,为了评估训练效果,本文采用留一法(Leave-One-OutCrossValidation)进行交叉验证:在训练阶段,对于整体的200个训练样本,每次选取199个样本作为训练集进行训练,剩余的1个样本作为测试集用来测试。这样训练过程就会反复进行200次,相当于将一个拥有200个样本的训练集当作200个拥有199个样本的不同训练集使用。与此同时,在每一次训练结束后,都相当于输入了一个测试样本对其分类效果进行了测试。迭代完成后,输出结果对应混淆矩阵,进行模型性能评估。本章中依据现阶段业内常采用的对分类器和分类方法性能评估指标,对该模型的性能进行评估。在机器学习的分类模型中,常用准确率ACC、灵敏度SP与特异性SN来评价分类效果。对于跳闸事件诊断模型来说,其中准确率表示被正确分类的样本与样本总数的比例,灵敏度表示存在事故跳闸事件的样本被正确判断的比例,特异性则表示不存在事故跳闸事件的样本被正确判断的比例。准确率、灵敏度特异性的计算方式分别如下式(5-6)、(5-7)及(5-8)所示。 (5-6) (5-7) (5-8)确定了数据提取规则、训练方式及性能评估方法后,对SVM跳闸事件诊断模型不同核函数性能效果进行评估。分别采用径向基核函数(RBF)、多项式核以及Sigmoid核进行测试,不同核函数对应测试结果混淆矩阵如下表5-1、表5-2以及表5-3所示。表5-1RBF核函数测试结果混淆矩阵实际类别判定类别YESNO总计YES98(TP)2(FN)100NO1(FP)99(TN)100总计99101200表5-2多项式核函数测试结果混淆矩阵实际类别判定类别YESNO总计YES89(TP)11(FN)100NO1(FP)99(TN)100总计90110200表5-3Sigmoid核函数测试结果混淆矩阵实际类别判定类别YESNO总计YES91(TP)9(FN)100NO14(FP)86(TN)100总计10595200得到交叉验证结果混淆矩阵后,结合式(5-6)、(5-7)及(5-8)计算不同核函数情况下对应的分类模型准确率、灵敏度特异性,以此来分析不同核函数对跳闸事件诊断模型的性能效果的影响,选取各项指标最佳的核函数作为跳闸事件诊断模型第一层架构SVM模型的核函数。经过计算,得到不同核函数对应SVM模型性能效果指标如下表5-4所示。表5-4不同核函数对应SVM模型性能指标核函数性能指标RBF核多项式核Sigmoid核ACC0.9850.9400.885SP0.9800.8900.910SN0.9900.9900.860由表5-4得知,RBF核函数在对跳闸事件进行跳闸与否诊断时表现最佳,无论是准确率、灵敏度还是特异性都高于多项式核函数与Sigmoid核函数,因此本章在基于结构化数据的跳闸事件诊断模型第一层SVM分类模型中,采用RBF核函数。1.4基于k-means聚类算法的跳闸事件类型判定模型1.4.1非监督学习与k-means聚类算法非监督学习不同于监督学习,它使用的是没有标记的数据作训练,通过模型的学习,发现数据中某些隐含的性质和规律,以此实现对不同数据的分类[59]。图5-4聚类示意图在非监督学习中,典型的代表便是聚类算法。聚类算法对输入的数据集进行划分,力图将其分割为几个不相交的子集,这些子集代表着不同的种类,又被称作“簇”(cluster)。这样分割后,每一个“簇”可能都代表着一种隐含的种类,簇中的数据都有一些共性,如图5-4所示。k-means算法是聚类算法中最典型的一种,它又被称作k均值算法。该算法将距离度量作为权重,将输入的数据划分为若干种类,并通过计算每一个种类中数据的均值,形成一个“类中心”,又被称为质心,这个中心点就是用于表征一类数据特征的标记[63]。图5-5k-means算法流程k-means算法的基本流程如图5-5所示。首先设定一个想要的k值,即所需的类中心个数。之后从用于训练的样本集中随机抽取k个训练数据作为这些类的中心点,并计算训练样本数据集中所有数据样本与这些类中心点的距离度量。接着,将训练数据集中的所有样本按照距离度量归类至距离最小的类,并重新计算每一个类中的均值,即中心点。最后,循环往复k值设定后的其余步骤,直到类的中心不在变化时,结束整个算法。此时,最后得到的类中心对应的类,就是聚类的最优结果[64-65]。1.4.2余弦相似度在上一小节中提到,将样本数据分到距离类中心最近的那个类中时,需要有一种合理的策略来计算这一距离。在欧式空间中采用的是欧式距离,在处理文档中采用的是余弦相似度函数,有时候也采用曼哈顿距离作为度量,不同情况使用的度量方式是不同的[66]。在本文中,需要进行聚类的数据,是由告警信息文本转化而来的高维向量,因此余弦相似度是最为合理的度量标准。余弦相似度描述的是两个向量之间夹角的余弦值,如式(5-9): (5-9)式中,和分别代表两向量的第i维坐标。1.4.3算法设置本文中采用k-means聚类算法对已被诊断为跳闸事件的样本数据进行二次诊断,在二次诊断中判断跳闸事件的具体类型。依据第二章中对于跳闸事件类型的划分将跳闸事件按设备类型及电压等级划分为27种。由于在实际情况中,跳闸设备类型是事故跳闸类型的主要分类方式,且对于聚类算法来说,中心点过多很容易导致聚类不准确,因此在本节中对于事件类型的划分进行简化,仅按照设备类型的不同,将事故跳闸类型分为四种。向量化后的告警信息维数太大,且在其中数词和地点词部分对应的维度数值较高,很容易对聚类的准确性造成干扰。为了避免这种干扰的情况,首先需要对数据进行切割,即将数词和地点词部分对应的维度切割出去,仅留名词及动词部分。对处理后的数据进行聚类,具体算法步骤如下:第一步:对数据进行切割处理,切掉向量前几维中代表地点词和数词的维度,得到聚类所需数据;第二步:规定聚类中心数k=4,并初始化这四个中心点C1,C2,C3,C4;第三步:对于所有的样本数据,计算各样本与中心点的余弦相似度,将样本对象分到与对应中心点最相似的那个类中;第四步:对于经过上一步划分后产生的4个类,分别计算到类内其他点余弦相似度均值最小的点,并将该点定义为新的类中心;第五步:循环执行第二三四步,直到聚类中心点固定不再改变,结束循环,完成聚类。1.5算例验证本文中使用Python语言对上述功能实现验证。验证环境为处理器为Intel(R)Core(TM)i3-6320CPU@3.90GHz3.91GHz,内存为8GB的PC机,数据库使用达梦数据库。(1)诊断效果验证为验证本章中基于结构化告警信息的跳闸事件诊断方法,采用某省电力调控中心2020年1月至2020年6月全省500kV变电站的告警数据对模型进行算例验证。经过验证,对于某省500kV变电站2020年1月至2020年6月跳闸事件的判定结果如下表5-5所示:表5-5跳闸事件判定结果诊断结果实际发生次数漏诊次数误诊次数828200如表可见,模型对某省2020年1月至2020年6月跳闸事件的判定完全正确,准确率为100%。之后在第二层中对判定为跳闸事件的测试样本进行聚类,判断其跳闸类型。经过检测,对于某省2020年1月至2020年6月跳闸事件类型的诊断结果如下表5-6所示:表5-6跳闸事件类型诊断结果跳闸事件类型实际发生次数诊断结果漏诊次数误诊次数线路故障跳闸717100电容器故障跳闸6600电抗器故障跳闸3300主变故障跳闸2200总计828200聚类结果如图5-6所示。其中左上角图代表电抗器故障跳闸的类,右上角图代表线路故障跳闸的类,左下角图代表电容器故障跳闸的类,右下角图代表主变故障跳闸的类。图中横坐标表示向量中的维度,纵坐标代表归一化后对应维度的特征值。红色曲线代表一类中的聚类中心点,蓝色曲线代表各类中样本点。通过曲线可以看出,各类的聚类效果良好,中心点与所有样本整体趋势十分接近。综合表5-6结果与图5-6展示,模型对于判定为跳闸的82起事件的类型划分完全正确,模型整体表现优异。对比第三章中基于改进前缀树思想的跳闸事件诊断方法的算例验证结果,该方法正确诊断了第三章中漏诊段及误诊断的所有跳闸事件,成功规避了告警信息误发及漏发引起的误诊段及漏诊断的问题。图5-6聚类结果图(2)关键信息误发实例针对第三章中因信息误发导致误诊段的某一事件进行具体单例分析。依据第三章诊断结果,2020年5月10日04时52分17秒,500kVXF变电站发生500kV线路故障跳闸事件,相关告警信息如下表5-7所示(已经过去重处理):表5-7某误诊跳闸事件原始告警SC.XF站/公用信号/500kV2号故障录波装置录波启动动作SC.XF站/公用信号/500kV2号故障录波装置录波启动复归SC.XF站/第一组控制电源消失告警SC.XF站/500kVBX二线/第一套保护PSL-603通信中断告警SC.XF站/500kVBX二线/第一套保护PSL-603通信中断复归SC.XF站/500kV.5023开关/油压低重合闸闭锁告警SC.XF站/500kV.5023开关/油压低重合闸闭锁复归SC.XF站/500kV.Ⅱ母线线电压正常534.55SC.XF站/XF5023开关事故分闸对于表5-7中的告警信息,本章诊断结果为无跳闸事件发生。尽管对应的告警信息集中误发了事故分闸信号,但因为告警信息集对应的特征向量中,其余事故跳闸相关的特征维度偏向正常,单一维度特征变化对整体诊断影响不大,因此成功诊断为无跳闸。(3)关键信息漏发实例针对第三章中因信息漏发导致漏诊段
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江西九江永修县农旅投资开发有限公司招聘工作人员备考题库附答案详解(研优卷)
- 2025江苏淮安市清江浦力合产业投资发展有限公司招聘2人备考题库及1套完整答案详解
- 2026年中储粮集团湖南分公司招聘备考题库(50人)完整参考答案详解
- 2025浙江绍兴市科技产业投资有限公司下属合资企业浙江城华新能源发展有限公司招聘1人备考题库(含答案详解)
- 护理安全:药物核对“三查七对”实操指南
- 2026电科蓝天校园招聘备考题库附答案详解(黄金题型)
- 2025四川越王楼文化传播有限公司招聘讲解员等岗位5人备考题库及完整答案详解
- 2026云南玉溪宸才人力资源咨询管理有限公司招聘森林草原火灾预防专业队队员备考题库完整参考答案详解
- 2026上海黄浦区城银清算服务有限责任公司校园招聘16人备考题库含答案详解
- 住院患者分级护理实施全流程
- 前庭性眩晕的护理查房
- 幼儿园群众信访管理制度
- 儿童流感科普课件
- (高清版)DG∕TJ 08-2243-2017 市属高校建筑规划面积标准
- 电能计量装置错误接线分析-低压三相四线电能表错误接线分析
- 夫妻忠诚协议书合同
- 2025年全国高压电工证(复审)理论考试试题(1000题)附答案
- 玻璃及铝板幕墙工程监理细则
- 中频炉四大紧急情况应急预案
- 2025年建筑架子工(普通架子工)培训题库及答案
- 《银保网点经营》课件
评论
0/150
提交评论