




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的变压器故障诊断研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 及时查找变压器的潜伏性故障是电力部门关注的一项重要课题。随着我国电力 工业的迅速发展,变压器数量激增,测试数据越来越庞大,借助工具对变压器进行 放障诊断势在必行。本文基于数据挖掘技术对变压器的故障诊断方法进行了深入研 究,提出了基于阈值的数据离散化和归一方法;通过设计和构建模型,详细分析了 朴素贝叶斯分类、支持向量机分类在变压器故障诊断中的应用;针对变压器状态信 息不完备的情况,构建并分析了粗糙集约简和支持向量机回归的模型;提出了将支 持向量机回归应用于对缺失属性的估计。实验证明,支持向量机回归与朴素贝叶斯 分类相结合,对变压器故障诊断的准确率极高,且可以有效处理不完备数据。 关键词:贝叶斯分类,支持向量机,粗糙集,变压器,故障诊断 a b s t r a c t i ti sv e r yi m p o r t a n tt of i n di n c i p i e n tf a u l t sa se a r l ya sp o s s i b l e w i t ht h ed e v e l o p m e n to f d o m e s t i cp o w e ri n d u s t r y , t h ed a t ao ft r a n s f o r m e rc o n d i t i o np r o l i f e r a t e ,a n dn e wm e t h o d si n v i r t u eo f i n t e l l i g e n tt e c m i q u ca l ec a l l e df o rt r a n s f o r m e rf a u l td i a g n o s i s i nt l l i sp a p e r , i n - d e p t h r e s e a r c hh a sb e e nd o n eb a s e do nd a t am i n i n gt e c h n i q u e s n e ws c a t t e r i n gm e t h o da n d n o r m a l i z i n gm e t h o di sp r e s e n t e d d e s i g na n db u i l dt h em o d e l so fn a i v eb a y e s i a nc l a s s i f i e r a n ds v m c l a s s i f i e r , a n dt h e na n a l y s et h e i ra p p l i c a t i o n si nt r a n s f o r m e rf a u l td i a g n o s e s f o rt h e i n c o m p l e t ed a t a , d e s i g na n db u i l dt h em o d e l so fr o u g hs e ta n ds v mr e g r e s s i o n ,a n db y a n a l y z i n g p r e s e n tt oe s t i m a t et h em i s s e dd a t u mb ys v mr e g r e s s i o n t h ee x p e r i m e n t so n a c t u a ls a m p l e ss h o wt h a tc o m b i n i n gs v m r e g r e s s i o nw i t hn a i v eb a y e s i a nc l a s s i f i e rc a ng e t a d m i r a b l ev e r a c i t y , e v a ni f t h e r ea l ei n c o m p l e t ed a t a w a n gf a n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f z h uy o n g l i k e yw o r d s :b a y e s i a nc l a s s i f i e r , s v m ,r o u g hs e t , t r a n s f o r m e r , f a u l td i a g n o s i s 声明尸明 本人郑重声明:此处所提交的硕士学位论文基于数据挖掘的变压器故障诊断 研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作 和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 曼望 日期: 兰竺2 二墨:芗 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:盟 导师签名:簋垒多 日 期:2 望丑当 华北电力大学硕士学位论文 1 1 选题背景及研究意义 第一章绪论 电力变压器是电力系统中重要的输变电设备,其正常运行对电网的安全、稳定 起着非常关键的作用。虽然目前已对变压器配备避雷针、差动、接地等多重保护, 但是变压器内部结构复杂,由于长期运行造成绝缘老化、材质裂化,以及外部的破 坏和影响等因素,故障和事故是难以避免的。同时,客观上存在现场检修技术水平 不够,延误变压器的及时维修,也会严重影响电力系统的安全运行。因此,及时查 找出变压器的潜伏性故障,排除可能导致系统崩溃的潜在因素是电力部门关注的一 项重要课题。变压器的运行维护,特别是故障诊断工作,对于提高电力系统安全运 行的可靠性具有非常重要的意义。 随着数据库技术的迅速发展和数据管理系统的普遍推广,电力部门积累的数据 也日益增加,变压器检修试验所获取的数据不再只是少量的单次数据,而是包括离 线试验数据和大量连续监测的在线数据,又加上现场中往往会受到环境和条件的限 制,因此,激增的大量数据背后隐藏着很多模糊的和不完备的重要信息。如何对这 些不确定性知识进行知识表达和处理,始终是变压器诊断领域研究的热点问题1 1 】。 虽然目前电力系统中广泛应用的管理信息系统( m i s ) 可以高效地实现数据的录入、查 询、统计等功能,也能应用油中溶解气体的三比值法、特征气体法等传统方法对变 压器进行故障诊断,但无法表达试验数据与变压器状态之间的模糊关系,无法根据 现有的数据准确获取电力变压器的运行状态并作出诊断决策。正是由于缺乏相应手 段对数据背后隐藏的知识进行挖掘,所以可能导致“数据爆炸但知识贫乏”的现象。 数据挖掘技术的出现为分析电力变压器的大量运行数据和测试数据,诊断电力变压 器的运行状态提供了技术支持,基于数据挖掘的变压器故障诊断正是在这一背景下 提出的。 本课题是我校为河北省衡水供电公司研制“基于数据挖掘技术的变压器状态评 估系统”的故障诊断模块,其目标是利用变压器油中溶解气体分析( d i s s o l v e d g a s e s a n a l y s i s ,简称d g a ) 测试结果,借助贝叶斯分类器、粗糙集和支持向量机等数据挖 掘技术,对变压器故障的诊断方法进行研究,以提高变压器运行可靠性,为状态维 护和制定维修计划提供智能化的决策,最大限度保障电力系统的安全运行。 由于变压器的故障诊断知识十分缺乏,而电力部门又保存了变压器各次的测试 数据,所以采用数据挖掘技术进行变压器故障诊断是可能的。反过来,变压器故障 诊断可为验证和发展某些数据挖掘方法提供支持。 华北电力大学硕士学位论文 1 2 数据挖掘技术研究现状 1 2 1 数据挖掘概念的提出 近几十年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数 据库被用于商业管理、政府办公、科学研究和工程开发等领域,于是,信息过量几 乎成为人人需要面对的问题。面对“被数据淹没,却饥饿于知识”的挑战,为了从 海量信息中及时发现有用的知识,提高信息利用率,数据挖掘( d a t am i n i n g ,简称 d m ) 技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【2 1 。与其 相近的术语有很多,如从数据库中发现知识( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决策支持等。原始数据可以是结构化的,如关系型数据库中的数据,也可以是 半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现 知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用 于数据自身的维护【3 】。因此,数据挖掘是一门广义的交叉学科,它汇聚了数据库、 人工智能、数理统计、可视化、并行计算等不同领域的学者和工程技术人员。 数据挖掘所能发现的知识有如下几种:反映同类事物共同性的广义型知识、反 映事物各方面特征的特征型知识、反映不同事物之间属性差别的差异型知识、反映 事物之间依赖或关联的关联型知识、根据历史的和当前的数据推测未来数据的预测 型知识,以及揭示事物偏离常规的异常现象的偏离型知识。所有这些知识都可以在 不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不 同用户、不同层次决策的需要。 1 2 2 数据挖掘研究现状 自从1 9 8 9 年被第一次提出以来,数据挖掘技术发展很快,研究重点从发现方 法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互 渗透。作为人工智能与数据库技术相结合的产物,数据挖掘技术以发现事件间的相 互关联,甚至利用已有的数据对未来的活动进行预测为目的,不仅是面向特定数据 库的简单检索和查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分 析、综合和推理,以指导实际问题的求解。它以数据库、人工智能以及数理统计等 学科为理论基础,在生物医学界、金融数据分析、零售业以及电信业等很多领域得 到广泛的研究。常用的发现工具和方法有:分类、聚类、模式识别、可视化、决策 树、遗传算法和不确定性处理等。本论文主要研究其中的贝叶斯分类器( b a y e s i a n 2 华北电力大学硕士学位论文 c l a s s i f i e r ) 、粗糙集( r o u g hs e t s ,r s ) 、支持向量机( s u p p o r t v e c t o rm a c h i n e s ,s v m ) 等理论和技术。 ( 1 ) 贝叶斯分类器 贝叶斯学派诞生以来,其方法和理论得以重视和发展是在二十世纪。随着人工 智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供 了更为广阔的空间。8 0 年代贝叶斯网络用于专家系统的知识表示,9 0 年代进一步 研究可学习的贝叶斯网络,用于数据挖掘和机器学习。近年来,贝叶斯学习理论方 面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、不确 定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和 学术刊物i s b a 。 贝叶斯分类器是一种典型的基于统计方法的分类模型【4 】。它以贝叶斯定理为理 论基础,巧妙地将事件的先验概率与后验概率联系起来,利用先验信息和样本数据 确定事件的后验概率,对于解决复杂系统不确定因素引起的故障具有很大的优势, 被认为是目前不确定知识表达和推理领域最有效的理论模型之一。近年来,贝叶斯 分类器已经在多个领域中获得了广泛关注,特别是在医疗诊断、设备故障诊断等方 面得到了深入的研究并应用于实践【5 1 。但是,目前还没有应用贝叶斯分类器对变压 器进行故障诊断的实际系统。 ( 2 ) 粗糙集理论 粗糙集理论是波兰数学家z p a w l a k 于1 9 8 2 年首次提出的一种分析数据的数学 理论【6 】。1 9 9 1 年,p a w l a k 发表了第一本关于粗糙集理论的专著r o u g hs e t :t h e o r e t i c a l a s p e c t so fr e a s o n i n ga b o u td a t a ,从而掀起了粗糙集的研究高潮,1 9 9 2 年在波兰召 开了关于粗糙集理论的第一届国际学术会议,1 9 9 5 年a c mc o m m u n i c a t i o n 将粗糙 集列为新浮现的计算机科学研究课题。目前,国外基于粗糙集的知识发现系统已经 开发了不少,其中有代表性的是:美国k a n s a s 大学开发的l e r s 系统【7 1 、波兰p o z n a n 工业大学研制的r o s e 系统、加拿大r e g i n a 大学开发的k d d r 系统和挪威t r o l l d a t ai n c 公司开发的e n o u g h 等。 粗糙集理论作为一种处理不确定、不精确、不完善信息的新数学工具,己在生 物医学、环境保护、故障诊断等领域得到广泛研究。例如:文献【8 】用粗糙集理论约 简冗余信息后,建立了污泥体积指数的神经网络软测量模型;文献 9 】在可辨识矩阵 属性约简基本算法的基础上,提出了基于t a b u 搜索的电网故障信息决策表属性约简 新算法,有效解决了常规基于核的约简算法的有效计算问题。 ( 3 ) 支持向量机理论 支持向量机是在统计学习理论的基础上发展起来的一种机器学习方法。b o s e r 、 3 华北电力大学硕士学位论文 g u y o n 和v a p n i k 于1 9 9 2 年首次提出了最优边界分类器,而s v m 分类器的完整概 念是v a p n i k 于1 9 9 5 年提出的。虽然支持向量机发展时间较短,但是由于它的产生 是基于统计学习理论的,因此具有坚实的理论基础。近几年,s v m 算法得到了国 内外的广泛关注。在模式识别方面,应用于手写字识别、语音识别、文本分类、人 脸图像识别、遥感图像分析等问题,且精度超过了传统的学习算法;在工业领域, 已经有人将其应用于线性和非线性动态系统的辨识等等。 而在故障诊断领域,s v m 以其优良的性能引起了众多研究人员的注意。由于 能够在有限特征信息情况下,最大限度地发掘数据中隐含的分类知识,因此,国内 外许多针对不同故障对象的诊断研究在理论和仿真方面都取得了基本令人满意的 结剿1 0 - 1 2 ,但大多数研究仍处于实验室阶段,真正应用到实际中还需要进一步的研 究和实践。 1 2 3 数据挖掘技术在电力系统中的应用现状 由于电力系统中数据信息量的迅速膨胀,近年来数据挖掘技术在电力行业已经 开始受到重视【l 。文献 1 4 】针对电力远程监测管理系统中参数众多和信息量巨大的特 点,提出了一种具有数据挖掘功能的系统,从监测数据库的海量信息中提取隐含的事先 未知的潜在有用信息,作为对系统进行有效管理的依据;文献 1 5 】分析和研究了数据 挖掘在故障录波分析中的应用,为故障录波数据分析提供一种新的解决问题的思路和方 法:文献 1 6 1 介绍了武汉供电局在配电故障统计分析系统中利用数据挖掘方法,从 而提高供电可靠性和经济效益;文献 1 7 1 介绍了上海市电力公司调度通信中心建立 的基于数据仓库的上海电力市场运营监视与数据挖掘系统;文献【1 8 】对变压器状态 信息的数据集市进行研究,并取得了良好的效果。 由于变压器测试受检测条件和人员水平的限制,测试结果中往往存在一些错误 和虚假数据,又由于变压器是一个复杂系统,其故障的产生与发展、状态的变化等 受到多种不确定性因素的影响,因此,变压器的故障诊断问题适于采用数据挖掘的 思想和方法进行研究,从大量的试验数据中寻找变压器故障与状态信息的规律。文 献 1 9 研究了粗糙集数据挖掘方法直接从决策表中提取出潜在规则的方法,通过实 验表明数据挖掘技术在电力变压器故障诊断中具有很好的应用前景。 1 3 变压器故障诊断研究现状 1 3 1 传统的变压器故障诊断方法 检测变压器状态的方法有很多,其中油中溶解气体分析法是检测变压器内部故 障的重要方法。对于大型电力变压器,目前几乎都是用油来绝缘和散热,变压器油 4 华北电力大学硕士学位论文 与油中的固体有机绝缘材料在运行电压下,因放电和热的作用,会随运行时间的增 加而逐渐老化和分解,产生少量的各种低分子烃类及一氧化碳、二氧化碳等气体。 通过分析油中溶解气体的含量及相互关系对变压器进行状态诊断的方法,在现场得 到了广泛的应用,如以c i - h 、c 2 h 4 和c 2 h 2 三组分相对含量为基础的三角图法,以 h 2 、c h 4 、c 2 h 4 、c 2 h 6 和c 2 h 2 相对浓度比为基础的气体主导型图法等。i e c 标准中 的三比值法则以特征气体的3 个相对比值c h 4 h 2 、c 2 h 4 c 2 h 6 和c 2 h 2 c 2 h 4 来进行 故障诊断,被普遍认为是最为简明的解释【2 0 1 。日本电气协同研究会提出的电协研法 和我国湖北电力试验研究所提出的改良电协研法都对i e c 编码作了进一步的补充, 成为运行现场应用较广的方法。 然而,这些方法大多仍局限于阀值诊断的范畴 2 1 , 2 2 】,一般只给出一个判定边界 的描述,难以确切反映故障与表现特征之间的客观规律,并且很难在溶解气体含量 较小的情况下对变压器状态进行分析,也就是说,只有当某些特征气体含量超过“注 意值”时,判断结果才被认为是有意义的。传统方法的这些缺点无疑对变压器潜伏 性故障的发现和分析非常不利。 1 3 2 人工智能方法在变压器故障诊断中的研究现状 针对传统方法的不足,各种智能技术如人工神经网络【2 ”6 】、遗传算法 2 7 , 2 8 、小波分 析1 2 9 1 、模糊推理【3 0 j 1 1 、灰色聚类【3 2 】、p e t r i 网络 3 3 - 3 5 1 等被引入变压器故障诊断中,取得 了比较好的效果。然而由于变压器的复杂性、测试手段的局限性、知识的不精确性,各 种方法表现出不同的优缺点。例如:神经网络能处理模糊的、有噪声的或不相容的变压 器试验数据,但神经网络隐藏节点层的感知器在系统中不能解释,存在诊断结果的准确 性依赖于样本的完备性,无法处理不完整样本的不足,而且当目标误差减小到一定程度 后,识别效果会出现“振荡”现象;p e t r i 网将领域知识编成一系列产生规则,可以解决 许多系统的故障诊断问题,但大量的规则导致运行速度较慢,很难适应要求,当遇到新 故障或新信息时,会产生“匹配冲突”、“组合爆炸”的问题【3 研;虽然专家系统已在变压 器故障诊断中得到应用,但是也存在不少缺陷1 9 】,如知识获取的瓶颈问题、知识脆弱性、 推理单调性等,而且从专家那里获取知识与表达困难,带有定性和主观的特点,难于定 量和客观的表示。 另外,国内外大多数结合智能方法的研究仍然停留在实验室阶段,真正投入使 用并且功能完善的智能系统并不多。其主要原因是理论研究所限定的条件与实际应 用的情况相差甚远,特别是忽略了变压器试验数据的不完备性,在数据预处理方面 和充分挖掘有用信息方面还存在诸多问题。对这些问题的总结如下: ( 1 ) 各种基于人工智能技术的变压器故障诊断模型的结构一般是固定的,诊 断过程中,输入信息的个数和种类不能改变,且模型缺乏自学习能力,推 华北电力大学硕士学位论文 广性和移植能力不强; ( 2 ) 现有的智能诊断方法中,对不完备信息的处理方法研究较少而变压器 故障诊断实际工作中很难保证信息的完备性,如果缺失关键属性,则只能 重新获取信息,甚至诊断无法进行; ( 3 ) 目前已有的研究中,对变压器d g a 数据的预处理方法研究较少,大部分 采用现有的离散化和归一化方法,忽略了实际问题中,变压器的不同气体 含量值及气体比值,其定量标准差异很大的情况。 由于以上问题的存在,迫切需要研究人工智能方法,特别是数据挖掘技术在变 压器故障诊断中的应用,实现变压器故障诊断的实际应用性。高准确性,容错性和 扩展性。 1 4 论文的主要研究工作及组织结构 本文针对变压器故障诊断现有方法中存在的不足,应用贝叶斯分类器、粗糙集、 支持向量机等理论和技术,进行了基于数据挖掘技术的变压器故障诊断的研究工 作。论文的主要内容及章节安排如下: 第二章首先介绍贝叶斯分类器的基础理论,详细探讨朴素贝叶斯分类器的分类 原理;根据变压器故障诊断的领域特性,合理选择分类器的属性变量和决策变量, 提出一种新的数据离散化的方法,设计并实现基于朴素贝叶斯分类器的变压器故障 诊断模型,并基于现场实际数据对该模型进行验证。 第三章首先介绍支持向量机理论及其分类原理;详细讨论支持向量机理论用于 多分类的各种实现技术;设计并实现用于变压器故障诊断的支持向量机树形模型, 并与朴素贝叶斯分类等其他多种分类方法作出详细比较,得出结论。 第四章针对在关键信息缺失较多时,朴素贝叶斯分类器对变压器故障诊断的正 判率明显下降,而支持向量机则无法进行诊断的情况,研究粗糙集理论对不完备信 息的处理情况;建立模型对变压器信息进行属性约简,以降低信息的不完备程度, 并对实验结果作出分析。 第五章首先介绍支持向量机回归技术;应用简化的s m o 算法解决支持向量机 计算过程中出现的二次规划问题;针对粗糙集处理不完备数据的局限性,提出用 s v m 回归算法估计变压器缺失属性的方法;设计并实现s v m 回归与朴素贝叶斯分 类相结合的变压器故障诊断模型,验证该模型的有效性,为数据挖掘中多种策略和 方法的集成应用提供有力证明。 6 华北电力大学硕士学位论文 第二章朴素贝叶斯分类在变压器故障诊断中的应用研究 2 1 贝叶斯分类器基础知识简介 2 1 1 贝叶斯分类器 分类有规则分类( 查询) 和非规则分类( 有指导学习) 。贝叶斯分类属于非规 则分类,它通过训练集( 已分类的例子集) 训练而归纳出分类器,并利用分类器对 没有分类的数据进行分类。分类过程中,以贝叶斯定理为理论基础,巧妙地将事件 的先验概率与后验概率联系起来,利用先验信息和样本数据确定事件的后验概率。 给定一个实例数据集合d ,d = x i ,五,以,c ) 是离散变量的有限集,其中 五,五,以是属性变量,c 为类变量,其取值范围为 q ,巴, ,属性x i 的取值 表示为五,实例数据集合d 又称为训练数据库。实例,= ( 一,x 2 ,毛) 属于类c ,的概 率由贝叶斯定理表示为 p ( c ,l x 。,工:,x 。) = ! ! 兰! i i i j 警。一。, = 口p ( c ) p ( x 1 ,x 2 ,x n b ) 其中口是正则化因子,p ( 勺) 是类勺的先验概率,p ( c si 墨,而,毛) 是类q 的后 验概率,后验概率反映了样本数据对类c 。的影响。公式( 2 - 1 ) 还可以表示为 p ( c a x l ,而,靠) = 岱尸( o ) 丌p 瓴l 而,屯,五_ 1 ,勺) ( 2 2 ) 根据贝叶斯最大后验准则,对于给定的某一实例= ( 五,x 2 ,毛) ,贝叶斯分类 器选择使后验概率p ( 。,i 而,恐,矗) 最大的类。,为该实例,i 的类标签。因此,贝叶斯 分类器进行分类的关键是如何计算v ( x , l x 。,而,而+ c ,) ,各类贝叶斯分类器的区别 就在于它们以不同的方式求取p ( 玉l 五,屯,鼍+ c ,) 的值。常用 的贝叶斯分类器有朴素贝叶斯分类器、贝叶斯网络分类器和t a n ( t r e ea u g m e n t e d n a i v eb a y e s i a n ) 分类器等。 7 华北电力大学硕士学位论文 2 1 2 朴素贝叶斯分类器 朴素贝叶新( n a y v eb a y e s i a n ,n b ) 分类器是基于贝叶斯公式的分类器,当训练数 据库d 的所有实例都完整时,通过对实例出现频率的统计,求出给定类变量c 条件 下各个属性变量x 的条件概率。它属于两层的贝叶斯网络,仅含一个父节点( 代表 类变量c ) ,其余为子节点( 代表属性变量蜀) ,子节点变量之间相互独立。 由贝叶斯公式可知,对于朴素贝叶斯分类器: 吲一一巾= 等掣 = a p ( c j ) p ( 一,x 2 ,i n l c s )( 2 3 ) = a p ( c ) 碍p ( 鼍b ) 通过训练集d 获得p ( 勺) ,尸( 一b ) ,( x 。l c j ) 的值,对给定的属性值 而,使p ( c s l x , ,屯,靠) 最大( 也就是使p ( 勺) 0 p ( x i e j ) 最大) 的。值便是 而,所属的类。具体计算方法如下: 类变量取第,个值c ,的先验概率的计算公式为: 州吨) = 等 ( 2 - 4 ) 其中札,为类变量为c 的样本数;为样本总数。 用似然概率作为各属性节点的条件概率估计值,其计算公式为: 驯叫诅引啪:等 ( 2 _ 5 ) 其中艇? 表示样本集中类变量为c ,和z :畸同时出现的样本数。 若嘈为0 ,则使用公式( 2 6 ) 进行调整: 1 嘲勺) 2 n 互 2 6 ) + 朴素贝叶斯分类器以简单的结构和良好的性能受到人们的关注,理论上,条件 变量满足条件独立下它是最优的。这个条件独立性是指:属性变量之间的依赖相对 于属性变量与类变量之间的依赖是可以忽略的【”1 。 8 华北电力大学硕士学位论文 2 2 基于n b 的变压器故障诊断研究实现 2 2 1 数据挖掘系统的总体设计 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效 的,可实用的信息,并使用这些信息作出决策或获取知识。图2 1 形象的表示出本文 针对变压器数据进行挖掘工作所处的整体环境,其中,变压器数据集市是数据挖掘 的工作对象;服务器主要是响应数据挖掘模块的请求,提取相应的数据;数据挖掘 模块是整个系统的核心部分,在该诊断系统中,该模块主要完成变压器d g a 数据的 预处理和根据d g a 数据对变压器的运行状态进行分类的功能;用户通过可视化工具 与数据挖掘系统进行交互,由用户提出挖掘任务、指定重要的挖掘参数,以及由当 前返回的结果指导进一步的挖掘工作。 图2 1 数据挖掘环境图 数据挖掘涉及到对挖掘业务对象的分析、对数据挖掘技术的分析,以及对数据 的管理等不同层次的工作任务。本文主要针对数据挖掘技术进行研究,包括数据预 处理和挖掘工具的设计等。设计变压器故障诊断的数据挖掘步骤如图2 2 所示: i 一赢r i 磊r 磊磊t 磊二磊翮 -ili 图2 2 变压器故障诊断的数据挖掘步骤 由于目前传统的基于d g a 的变压器故障诊断方法很大程度上依赖于经验的积 累,而且一般只给出判定边界的描述,难以确切反映故障与表现特征之间的客观规 律。因此,本节基f n b 的数据挖掘技术,以准确诊断变压器运行状态、弥补现有变 压器故障诊断方法的不足为目的,进行了条件属性和决策属性的选择、d g a 数据的 预处理,n b 挖掘模型的建立等一系列工作。 9 华北电力大学硕士学位论文 2 2 2 条件属性、决策属性的确定 故障诊断归结为从故障征兆到故障类型的映射,其实质是根据条件属性( 故障 征兆) 确定决策属性( 故障类型) 的分类过程。为了使分类过程在复杂性与推广性 之间求得平衡,以避免欠学习或过学习的出现,分类模型的合理设计是十分重要的。 大型充油电力变压器的故障涉及面广,而且复杂多样,变压器常见故障的划分 方法也有很多。实际上,变压器的各种故障都可能危及内绝缘的安全,因此,各种 外部及内部原因引发或直接造成的变压器内部故障,按性质又可分为热性故障和电 性故障。在分析变压器故障特点的基础上,依靠油中溶解气体所提供的有效信息将 变压器的状态类型划分六种:正常运行( c 0 ) 、低能放电( c i ) 、高能放电( c 2 ) 、中低 温过热( c 3 ) 、高温过热( c 4 ) 、局部放电( c 5 ) 。 反应故障特点的特征很多,分类器设计的目的之一是选择具有代表性的条件属 性变量,以便实现采用少量、有代表性的条件属性提供尽量多的信息。变压器的状 态不同,绝缘油中所溶解气体的浓度、各种气体的比例关系也不相同,也就是说, 油中溶解气体的组分和含量在一定程度上反映出变压器绝缘老化或故障的程度。因 此,本文在油中溶解气体分析技术的基础上,将关键气体与某些气体的相对比值一 同作为条件属性变量,这种信息的复用可以从一定的数据中挖掘出更多的有用信 息。定义条件属性及其数据类型如表2 - 1 所示: 表2 - 1 条件属性及其数据类型 麟 条件属性数据类型黼条件属性数据类型 瓤戮 h 2 的浓度( l 几) f l o a t黝 总烃的浓度( f 饥) f l o a t 鳓c h 4 的浓度( l l l ) n o a t 缫 c 2 h 2 c 2 h 4 的比值 n o a t 麟c 2 h 6 的浓度( u l ) f l o a t 麟 c 2 h 4 h 2 的比值 n o a t 麟 c 2 h 4 的浓度( f l l ) f l o a t 鍪勰 c 2 h 4 c 2 h 6 的比值 f l o a t 黼缓c 2 h 2 的浓度( f u l ) n o a t 鍪颡鬻 c 0 2 c o 的比值 f l o a t 以额定电压在2 2 0 k v 及以下的变压器作为研究对象。收集5 4 0 条变压器油中气 体浓度的完整数据,去掉测试结果明显有误的数据,并对冲突数据进行处理之后, 得到5 0 8 条可用数据,其中,3 7 0 条变压器正常运行的数据,1 3 7 条有明确故障的 数据。按照上述的数据结构建立数据库,以此作为研究的实验对象。 2 2 3d g a 数据的离散化预处理研究 数据的离散化问题属于数据挖掘过程中的预处理问题,在模式识别等其他环节 之前进行。其本质上可归结为利用选取的断点对条件属性构成的空间进行划分的问 题,把这个n ( n 为条件属性的个数) 维空间划分成有限个区域,使得每个区域中对象 的决策相同。例如,假设某个属性有小个属性值,则在此属性上就有m 1 个断点可 1 0 华北电力大学硕士学位论文 取,通过合并属性值,减小问题的复杂度。 连续属性的离散化可以由领域专家根据经验给出相应的区间,也可以由系统根 据某种原则自动地对输入空间进行划分,具体算法有:等距离划分算法、等频率划 分算法、n a f v es c a l e r 算法、s e m in a i v es c a l e r 算法、基t 届性重要性的离散化算法 等。连续属性的离散化主要来自于两方面的要求: ( 1 ) 减少数据元组的需要。在实际中,数据集规模一般都很大,里面存储了 大量的数据,如果直接以这些数据来进行挖掘,时间和空间要求都很大。 因此将这些连续值的属性离散化,可以使得数据集中的元组数量大大压 缩。 ( 2 ) 离散化是算法适用性的需要。目前数据集中常常涉及到连续值属性,而 现在许多的学习和分类算法却只能用于离散化属性。因此必须将连续值的 属性离散化后,才能应用这些算法。 朴素贝叶斯分类器是一类符号化分析方法,所有的属性值均看作定性数据,所 以对连续属性值进行离散化是关键问题之一。研究中,首先采用s e m in a i v es c a l e r 算法,按照从小到大排列实例,根据相邻对象及决策属性的情况取断点的方法,具 体算法描述如下: 对于每一个属性口a ,进行下面的过程: ( 1 ) 根据口 ) 的值,由小到大排列实例x u ; ( 2 ) 从上到下扫描,设秘和x ,代表两个相邻的对象, 矿口( 0 = 口( 劢o rd a ( x 1 ) = d a ( x j ) , 继续扫描; 1 e l s e 得到一个断点c ,且c = 去( 口 ) + d ,) ) : ( 3 ) d f 代表瓤所属的等价类所对应的决策中出现频率最多的决策值的集合: ( 4 ) fd j d ,o rd r d j ,不取此断点, e l s e 选取此断点。 经过实验,条件属性h 2 只取到一个断点,而c h 4 、c 2 h 6 没取到断点。因此, 需要根据该领域的实际情况和变压器d g a 数据本身的特点,寻求更加合理和实用 的离散化方法。 考虑到实际问题中,变压器的不同气体含量值及气体比值,其定量标准差异很 大。因此,可行的转换方法是根据一定的规则,对不同属性值设定阈值从而分段, 每一段作为定性数据,从而保证挖掘工作的顺利进行。依据我国的d l t 7 2 2 2 0 0 0 导则以及专家经验,本文设置的离散化闽值标准如表2 2 所示: l i 华北电力大学硕士学位论文 表2 - 2 离散化标准( 单位:tl l ) 离散化标准 属性变量 0 l2 h 2 1 4 0 1 4 0 u 7 0 0 7 0 0 c h i 6 0 u 4 0 04 0 0 c 2 h 6 1 0 01 0 0 u 1 5 01 5 0 c 2 h 4 1 2 0 1 2 0 u 2 0 02 0 0 c 2 h 2 5 5 u 3 53 5 总烃 1 5 01 5 0 c 2 h 2 c 2 h 4 o 1o 1 u 33 c 2 h 4 h 2 o 1 u 1 o 1 1 c 2 h 4 c 2 h 6 l1 u 33 c 0 2 ,c o 3 u 7 37 2 2 4 变压器故障诊断分类器的建立 朴素贝叶斯( n b ) 分类器以其简单的结构和良好的性能受到人们的关注。因此 本文根据所确定的变压器故障诊断条件属性和决策属性,建立变压器故障诊断n b 模型。如图2 3 所示: 图2 - 3 变压器故障诊断n b 模型 在c 群语言环境下编程实现,实现过程中,技术要点如下所述: ( 1 ) 待测数据和样本数据均存放于s q ls e v e r 数据库中,数据的读取和更新采 用a d o n e t 技术; ( 2 ) 为了程序的运行方便和现场需要,可以对测试数据进行总体测试,也可以 选择单条数据,或者手动输入单条数据进行测试( 如图2 4 所示) 。测试数 据库中存放原始数据,诊断之前进行离散化处理;而样本数据库中为经离 散化处理了的样本数据; ( 3 ) 进行故障诊断时,如果存在属性缺失,则通过自动赋特殊值的方法,对分 类器的节点数进行相应的变化,即分类器的子节点与所选用的属性变量相 对应: 1 2 华北电力大学硕士学位论文 图2 - 4 程序运行界面 ( 4 ) 本文所实现的朴素贝叶斯分类器具有自学习能力,即当增加新样本时,分 类器可根据新样本重新计算相应的参数。随着样本集的不断丰富,变压器 故障分类器的准确性将会得到提高。 该模块的总体结构如图2 5 所示: 图2 - 5n b 变压器故障诊断模型结构图 2 3 变压器故障诊断n b 分类器的实例分析 2 3 1 n b 分类器用于故障诊断的准确率实验 以所搜集的5 0 8 条完整数据为基础,为了保证实验的合理性,将每类均按照1 :3 1 3 华北电力大学硕士学位论文 的比例随机划分测试集和训练样本集,即每次随机抽取1 2 7 条数据作为测试数据, 其余的3 8 1 条数据作为训练样本集,训练所建的模型。进行1 5 次划分,并进行1 5 次诊断实验,其中正判率最高为1 0 0 ,最低为9 6 9 ,平均正判率为9 9 2 。表2 - 3 中的5 条数据用传统的三比值法找不到对应结果或者三比值出现误判,而用该模型 进行诊断,结果均与实际故障相符。 表2 - 3 实例数据诊断结果 i d12345 x l3 61 6 5 19 74 21 3 2 9 x 2 3 0 9 04 0 56 22 0 3 8 x 31 03 31 9 058 0 9 x 49 34 55 8 36 30 6 3 x 57 123 47 30 1 6 x 61 4 0 11 7 01 2 1 22 0 32 9 1 l x 70 0 80 0 4o 0 61 1 63 9 4 x 80 8 3 0 0 5 4 1 81 4 8o 1 5 x 99 31 3 60 2 81 2 6o 0 8 x 1 02 6 5 2 9 8 2 6 4 3 1 7 2 5 7 0 0 20 1 10 2 01 2 22 0 0 三比值 无对应编码无对应编码低温过热无对应编码低能放电 实际故障高温过热 局部放电 高温过热 高能放电 正常 诊断结果 已 c ,c 4c 2c o 2 3 2 分类器条件属性选择的实验 为了判断所选用的属性变量是否科学,增加六个可选属性,并参考我国电力研 究者提出的“无编码比值法”f 2 n ,定义其离散化标准如表2 4 所示。进行与上小节 类似的实验,添加上述六个属性中的一个或多个,实验结果显示并不能明显提高所 建模型的诊断准确率。 表2 - 4 可选属性及其离散化标准 离散化标准 属性变量 ol23 c 2 h 2 总烃 2 u 2 0 u 7 07 0 h 2 悔烃 5 5 u - 3 0 u 7 07 0 c h 4 总烃 2 02 0 u 7 07 0 c 2 h 6 总烃 2 0 u 7 07 0 c 2 h 4 总烃 5 5 u 2 0 u 7 07 0 c h 4 + c 2 h d 总烃 2 0 u 7 0 u o ,表示此样本为造成线性不可 分的点。利用l a g r a n g e 乘子法及对偶原理对公式( 3 - 5 ) 进行处理,可得到线性不 可分条件下的对偶问题: r 警彤 ) = ;一丢军;q m 乃x t , x = a - - 圭 。 c s 一6 ) 满足约束: z y 。吼- - - 0 ,o 岱i 墨c ,i = 1 ,2 , - - - , ,l , ( 3 7 其中,c 为大于零的常数。 在对这类约束优化问题的求解和分析中,库恩一塔克条件限a m s h k u h n t u c k e r ,k k t ) 起着重要的作用,k k t 条件为: 华北电力大学硕士学位论文 l 若q = o ,则乒= o ,y j ( w x l + 6 ) 1 ; 若0 f z i 0 ,i = 1 ,2 ,肛; ( 3 ) 只有支持向量才在w o 的展开中具有非零的系数钟,支持向量为使得( 3 - 8 ) 中不等式成立的向量,有w o = 咒群五,砰o 。 又因为最优超平面的充分必要条件是分类超平面满足条件: 印 【( 薯w o ) - b o y , 一1 ) = o ,i = l ,2 ,一 把w 0 的表达式代入l a g r a n g e 函数中,问题转化为对偶问题,即在非负象限 a o , o ,i = l ,2 ,九 ,并且 q = o 下最大化泛函 : q ) = 一去q 吒只乃( _ ) ,然后求解这个二次规划问题,得到l a g r a n g e 乘 华北电力大学硕士学位论文 子q ,i = 1 ,2 ,一的最优解,从而可以求得参数w ;而根据m 【( w 而) 一6 】= 1 ,任选 一个支持向量代入就可求得参数b 。 此时,支持向量机的线性分类决策函数表示为: f ( x ) = s g n ( 咒q ( 一,x ) - b ) ( 3 1 0 ) 支持向量 对于非线性分类,首先采用一个非线性映射庐把数据映射到一个高维特征空间, 然后在高维特征空间中进行线性分类,映回到原空间后就成了输入空间中的非线性 分类,如图3 - 3 所示: l 现 口口 口 口口 丁乏f融k , 口 乡丁 口、 u卜 口口 , , 图3 - 3 输入空间对特征空间的映射 它等价于在高维特征空间中的线性决策函数,上式要求得系数矾,只要寻找下 述泛函的最大值: q ( 口) = 瞄一寺q qy iy j k ( x ,一) , 。 s , j ( 3 - 1 1 ) s t q 0 ,扛1 ,2 ,栉,m = o 支持向量机的非线性分类决策函数表示为: 厂( x ) = s g n ( 儿口f k ( 一,x ) - b ) ( 3 - 1 2 ) 由上小节的分析可知,为了避免高维空间中的复杂计算,支持向量机采用核函 数k ( 五y ) 代替高维空间中的内积运算( x ) ,( y ) ) 。选择不同的函数作为内积的回 旋,可以实现输入空间中不同类型的非线性决策面的核函数。常用的核函数有: ( 1 ) 多项式核函数:k ( x ,) = 【( x ,t ) + l r ( 2 ) 径向基( r b f ) 核函数:k ( x ,t ) = 耳q 卜一t 1 1 ) = e x p ( 一酬x 一圳2 ) ( 3 ) 两层神经网络的核函数:g ( x ,x ,) = s i g m o i d v ( x 五) + c 】; 2 1 华北电力大学硕士学位论文 ( 4 ) 一阶b 样条核函数:足( z ,五) = l + 砰+ 妄卜一玉l o “) 2 + ( x a x a 3 3 , z 其中,( x a x , ) = m i n ( x , x j ) 。 总之,支持向量机理论最初来源于数据分类问题的处理,s v m 就是要寻找一个 满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平 面使其两侧
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度医疗机构内部审计专员岗位聘用合同书
- 2025年生物制药企业医疗器械批量供应合同
- 2025医疗纠纷鉴定与责任追究合作协议范本
- 2025年企业并购重组财务尽职调查与风险评估合同
- 2025年度国际马拉松赛事品牌形象设计及全程赞助合作协议
- 2025年智慧供水系统节能升级改造合同规范范本
- 2025年度企业劳动争议调解协议书制作及法律风险评估合同
- 2025年度特色小吃店员工权益保障劳动合同范本
- 2025城乡规划调整后宅基地置换合同模板下载
- 茶楼合伙经营装修设计合作协议-茶楼茶艺馆装修设计及品牌形象塑造服务合同
- 公安科技信息化课件
- 桥梁工程支架浇筑连续箱梁的施工监理实施细则
- 2025年国家药品监督管理局直属单位招聘126人笔试模拟试题及参考答案详解
- 2025年医疗器械经营企业法律法规培训考试(含答案)
- 2025年部编版新教材语文九年级上册教学计划(含进度表)
- 2025年多省公务员联考公安基础知识考试真题(附答案)
- 2025年云南省中考数学真题含答案
- 留疆战士考试题库及答案
- 中小学老师管理办法
- 食堂工作人员食品安全培训
- 绍兴市上虞区东关片区涝区治理-五甲渡闸站建设工程报告书
评论
0/150
提交评论