




已阅读5页,还剩56页未读, 继续免费阅读
(电力系统及其自动化专业论文)在线智能报警的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 随着电网规模的不断扩大,汇集到电网调度中心的各种信息量激增,使得调度 员对于快速变化的报警信息无所适从,淹没在海量的报警信息中,使得报警信息不 能起到它应有的作用。数据挖掘是从大量历史数据中产生可信的、新颖的、有效的 并能被人理解的模式的处理过程。通过数据挖掘可以发现隐藏在大量数据背后的具 有规律性、趋势性的问题,从而在实时报警信息中利用所分析和建立的规则提取能 反映电网特征量的信息,去除信息噪声污染,为调度员准确掌握电网运行状况服务。 本文介绍了数据挖掘的知识,并采用了基于决策树的算法构造了一个适用于s c a d a 报警信息辨识的分类器。对报警信息进行处理,剔除噪声数据,处理后的信息再经 推理机推理得出更为有用的报警信息,以文字等易于接受的方式提交给调度员,同 时把得出的报警信息作为启动决策支持系统相应模块的一个条件,提高了决策支持 系统的智能性。 关键词:电力系统,数据挖掘,分类器,智能报警 a b s t r a c t w i t ht h ec o n t i n u o u se x p a n s i o no ft h es c a l eo fp o w e rg r i d s ,v a r i o u sa m o u n to f i n f o r m a t i o nw h i c hg a t h e r e dt o g e t h e rt h ep o w e rg r i dc o n t r o lc e n t r es u r g e s ,m a k ed i s p a t c h e rf o r c h a n g eq u i c k l yo fa l a r mi n f o r m a t i o ni n d e c i s i v e ,d r o w ni nt h es e at h eq u a n t i t yo fa l a r m i n f o r m a t i o n ,m a k ea l a r mi n f o r m a t i o nc a nn o tp l a yi t sd u er o l e d a t am i n i n g ( d m ) i sap r o c e s s t h a tc a ng e n e r a t eac r e d i b l e ,i n n o v a t i v e , e f f e c t i v ea n dc a nb eu n d e r s t o o dm o d e lf r o mal a r g e n u m b e ro fh i s t o r i c a ld a t a d mi st od i s c o v e rr e g u l a r i t ya n dt h et r e n do ft h ep r o b l e mw h i c ha r e h i d e db e h i n dl a r g ea m o u n t so fd a t a , i nt h eu s eo fr e a l t i m ea l a r mi n f o r m a t i o nw i t ht h e e s t a b l i s h e dr u l e ,i tc a nr e f l e c tt h ec h a r a c t e r i s t i c so fi n f o r m a t i o n 、r e m o v et h ei n f o r m a t i o no f n o i s ep o l l u t i o na n ds u p p l yt h ep o w e rn e tc o n d i t i o nf o rt h eo p e r a t o r t h i sp a p e r , w h i c hi n c l u d s d a t am i m n gk n o w l e d g e ,u s i n gt h ed e c i s i o nt r e eb a s e do nt h ea l g o r i t h mc o n s t r u c t sas c a d a a l a r mi n f o r m a t i o nt oi d e n t i f yt h ei n f o r m a t i o n w ec a ni m p r o v et h ea l a r mi n f o r m a t i o na f t e r r e m o v i n gt h e n o i s ed a t a ,a n db e r e tb yg o i n gt h r o u g ht h ei n f e r e n c ee n g i n e ,t h e ni ti sr e l e a s d t ot h ed i s p a t c h e ri nt h et e x to rm o r ea c c e p t a b l em a n n e r , a sar e a s u l t ,w i t ht h eh e l po ft h ea l a r m i n f o r m a t i o nt h ed e c i s i o nm a k i n gs u p p o r t i n gs y s t e mc a nb e c o m em o r ei n t e l l e c t u a l w a n gj i n g ( ( e l e c t r i cp o w e r a n di t sa u t o m a t i o n ) d i r e c t e db yp r o f l i uw e n y i n g k e yw o r d s :p o w e rs y s t e m ,d a t am i n i n g ,d a t ac l a s s i f i e r ,i n t e l l i g e n ta l a r m 声 一n = j尸 本人郑重声明:此处所提交的硕士学位论文在线智能报警的研究,是本人在华 北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。据本 人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 学位论文作者签名:圣香妻 日期:趔绥2 :! 垡 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 【涉密的学位论文在解密后遵守此规定) 作者签名:羔盏皇 导师签名: 华北电力大学硕士学位论文 1 1 选题背景及其意义 第一章绪论 随着电力系统的飞速发展,人们对电力供应的依赖性越来越高,大家希望得到 优质、可靠、稳定的电能。所以,能够准确、快速的判断故障的原因,对于确定故 障元件的准确率、缩短停电时间以及降低停电损失都是非常有意义的。 远动技术和通讯技术的发展,使电力系统自动监视和控制水平得到不断的提 高,这使电力系统的实时信息直接进入调度通讯控制中心成为可能。调度人员可以 根据这些信息迅速掌握电力系统的运行状态,及时地对电力系统运行方式的改变做 出决定,并能及时地发现和迅速地处理系统所发生的事故。 近年来,随着电力系统向着高电压、大机组、现代化大电网发展,电网规模不 断扩大,汇集到电网调度中心的各种信息量激增,使得调度员对于快速变化的报警 信息无所适从,淹没在海量的报警信息中。根据在鄂尔多斯调度中心的粗略统计, 正常情况下,每分钟约有2 0 3 0 条报警信息。现阶段s c a d a ( 数据采集与监视系统) 系统由于通道和设备的限制,所上送的信息中包含有大量的不良信息,这些数据看 起来和其它数据一样也反应了一定时刻电网发生的事件,由于这些数据本身并不是 电网运行状态的真实反应,所以它的存在就对我们正确掌握电网实际运行状态造成 了干扰。而在电网发生复故障或自动装置动作不j 下常时,情况更加严重,可能在l s 之内有上千条报警信息涌入控制中心,这远远超出了运行人员的故障处理能力。现 有的e m s ( 能量管理系统) s c a d a 系统对报警信息的处理比较简单:将不同类型的 报警信息用不同的颜色标示出来,并在显示窗口上不断地滚动。这种处理方式只是 将报警信息进行了非常粗略地分类,简单地罗列,没有进一步挖掘报警信息中包含 的深层次的知识,显示的方式也不够直观。综上所述,一方面由于报警信息的激增, 另一方面由于对报警信息的处理不够深入,造成了现在调度员对报警信息不感兴 趣,使得报警信息没有起到它应有的作用。在这种背景下,就需要一套智能报警系 统,对报警信息进行充分的分析,剔除噪音数据,提取出有用的知识,并以更加直 观的方式呈现给调度员,使调度员通过报警信息对系统当前发生的事件有清楚的了 解。 通过对s c a d a 报警信息的过滤,提取结论性信息,即报警知识,并将过滤后的 报警信息以直观的方式呈现给调度员,减少报警信息的数量,避免调度员被过多的 报警信息淹没。另外,可以将智能报警系统作为智能调度决策支持系统的子系统, 提高决策支持系统的智能化程度。 华北电力大学硕士学位论文 数据挖掘( d a t am i n i n g ) 技术,又称为数据开采或数据库中的知识发现( k d d : k n o w l e d g ed is c o r e ri nd a t a ) 。数据挖掘是从大量数据中产生可信的、新颖的、 有效的并能被人理解的模式的处理过程。通过数据挖掘可以发现隐藏在大量数据背 后的具有规律性、趋势性的问题。经过多年的应用,电力调度自动化系统( s c a d a e m s ) 积累了大量的报警信息数据,这些数据中可能蕴涵着一些潜在的有价值的消息。传 统的数据库技术只是数据的简单存取和统计,而先进的数据挖掘技术能够发现其中 潜在的知识,可以在大量的数据中发现人们直观上难以发现的有价值的信息和知 识,利用这些知识对实时报警信息进行处理,并在此基础上再进行知识推理,形成 智能报警分析处理系统,具有重要的现实意义和很好的发展前景。 1 2 国内外研究动态 国外的研究进展:通过i e e e 的检索,可以发现国外对智能报警系统研究的高潮出 现在上世纪8 0 年代末到9 0 年代中期,应用的领域包括交通系统、化工生产、医学、电 力系统等1 引。其中,美国在这方面研究水平比较高,已经有几个系统投入使用,如美 国的c o n s o l i d a t ee d i s i o n 公司和n o r t h e r ns t a t e sp o w e r 公司研发的两套系统m 川1 。 此外欧洲和日本也有相关系统的报道,但近几年关于此类系统报道较少。 国内研究的进展:国内对智能报警在电力系统中的应用的研究报道很少,没有引起 足够的重视,更没有实际应用的报道。 从w o l l e n b e r g 于1 9 8 5 年第一次提出基于规则式的智能报警处理器哺。,相应的模型 也于不久后研制出,并有两个系统已经安装在电力设备控制中心,用来支持电力网络的 每天的操作( 即美国的c o n s o l i d a t ee d i s i o n 公司和n o r t h e r ns t a t e sp o w e r 公司所研 发的两套系统) ,这两套系统在运行中也获得了调度人员的好评。在加拿大,欧洲和日 本,其它系统也正在发展或已经投入运行。 在九十年代后期,香港的中国光电公司进行了p l c 在智能预警系统中与e m s 结合的 初次尝试,这套系统采用了了一个具有商业利用价值的基于知识产生规则的软件包,它 可以用于单机平台。该系统的特点是方便执行,最小化实时系统的干扰和低成本。在电 力系统受到干扰时,该系统采用基于假设的方法形成对调度员解释的过程模型,并在最 初的试验取得了不错的结果w 1 。 文献w 提出一种基于人工神经网络的方法,并把该方法应用于一个正在测试的智能 报警系统,这个系统是用来分析复合警报,并验证引起这些警报的特殊问题。人工神经 网络法是模拟人类神经系统传输、处理信息过程的一种人工智能技术,它具有学习和自 我学习的能力,并具有一定的容错能力。该系统在一小系统经过大量训练后,经初步测 试已具有定位拓扑的能力。但是人工神经需要有大量的样本进行学习,而且给出的结果 2 华北电力大学硕士学位论文 缺乏解释能力1 。 文献副u 副介绍了p e t r i 网络在报警信息处理中的应用。p e t r i 网络( p e t r in e t ) 是 由德国数学家c a p e t r i 于1 9 6 0 1 9 6 5 年提出的一种通用的数学模型,是在构造有 向图的组合模型的基础上,形成可用矩形运算所描述的严格定义的数学对象。p e t r i 网 可以图形的方式描述系统功能和处理流程,是复杂的逻辑关系形象化。 文献制提出了一种新的理论方法,就是把数据挖掘技术应用于电力系统警报信息处 理中。数据库中的知识发现的核心技术数据挖掘( d a t am i n i n g d m ) 是近年来国际 上较为活跃的研究领域,是人工智能与数据库技术相结合的产物。它应用一些专门算法 从数据中抽取出有效的模式,从大量数据中发现潜在规律,提取有用知识。面对现在越 来越庞大的电力系统所产生的海量报警信息,数据挖掘技术可以挖掘出其背后隐藏着的 许多重要信息,大大降低对电力系统警报数据库的搜索开销。工程实现中,电力系统警 报信息的序列模式挖掘可以和系统故障诊断专家系统结合,为其提供警报时间的时序规 则知识,有效提高电力系统故障诊断的效率和精度。 另外,文献u 副给出的是一种新的基于逻辑的方法用于分析在线操作环境的警报信 息;文献u 训介绍的是基于t a b u 搜索的警报处理系统;文献。介绍的是一种实时专家系 统等。相应的方法在应用中大部分取得了不错的效果,但单一的方法也有其自身的缺陷, 所以综合已有的技术解决警报信息处理问题,扬长避短,研究开发出更加完善的智能报 警系统是摆在研究工作者面前的重要课题。 1 3 数据挖掘在电力系统中运用的可行性n 纠9 1 1 3 1 电力系统的特点 电力系统的自动化建设开展得比较早,总体水平较高。对于电力系这样一个典型的 大系统,随着各种计算机监控设备、地理信息系统和管理信息系统的日益发展,电力系 统数据库中的数据呈爆炸性增长。同时,各种自动化系统的应用及信息化水平的不断提 高,使得电力系统中的数据具有以下的特点: 夺数据格式多样化在电力系统中,目前还没有制定一个统一的数据存储和转换标准, 从而使数据格式各不相同。 夺数据种类繁多电力系统是一个标准的混杂系统,每一种数据来源中还包含有许多 不同种类的数据,其上层( 调度中心) 给出的调度决策主要是逻辑性的操作指令,而 下层控制( 发电机的励磁和调速控制) 主要是连续性的。为了达到电力系统的多目标 优化控制的目的,应将不同性质的上层和下层控制有机地结合起来。 数据来源广泛在电力系统中,除某些特别的应用外,数据的主要来源是由分布于 系统各处的各种装置实时采集的现场数据和由调度中心的s c a d a 系统、管理信息系 3 华北电力大学硕士学位论文 统( m i s ) 、能量管理系统( e m s ) 、地理信息系统( g i s ) 等产生的大量数据,包括实时 数据、档案数据、模拟数据等。另外,整个电力系统是用大规模的非线性微分方程 组和非线性代数方程组来描述的,二者联立就组成了大规模奇异非线性动态大系统。 在对其进行特征描述时往往涉及到上千个状态变量。传统的处理方法是对系统进行 降维或简约化处理,这在一定程度上降低了最终结果的精度。 夺数据具有时变特性电力系统每时每刻都要产生大量的数据,数据更新比较快,包 括当前和过去的数据,这就要求我们可以对历史性的数据做透视分析。 夸数据质量差在电力系统中,采集得到的数据包含着噪声、数据缺失等不确定因素。 这些不确定因素往往需要通过一些数学方法进行削弱,比如状态估计等。 在这种情况下,工程技术人员陷于一个难题,即“数据丰富”而“知识贫乏”,为 了缓解数据供给和数据分析能力之间的矛盾,电力系统迫切需要一种能快速处理海量数 据的技术支持。 1 3 2 数据挖掘的特点 与面向经典理论的电力系统分析方法相比,数据挖掘在三个主要方面能体现出较高 的优越性:对潜在问题和规律更高的预见性、计算效率、对不确定量的检测和管理。 1 ) 对潜在问题和规律更高的预见性。在目前的工程实践中,往往在系统中出现不符合 需要的结果后,工程人员才不得不去解决一些新的问题,即总体上缺乏一种对潜在 问题和规律的高预见性。然而,“对数据整体特征的描述及对其发展趋势的预测 正 是数据挖掘的特点所在,运用数据挖掘可克服这些困难。 2 ) 更高的计算效率。利用数据挖掘提取出来的是综合信息,而不是数值结果,它们可 为实时决策带来更高的速度。此外,对于输入信息的需求,数据挖掘可能只需要有 意义或可用的输入参数,而不需要对模型的完整描述,即屏蔽掉了冗余信息。这些 特点势必会带来效率的提高。 3 ) 对不确定量的管理。在电力系统中发生的某些事件,总是带有一定的不可预料性, 如继电保护误动、操作员误操作、对某一负荷模型的不正确描述等。数据挖掘通过 放宽对动态模型的假设来进行仿真,再利用相应的领域知识对其加以有效管理。 总之,电力系统结构相当复杂,所面临的各种问题庞大而复杂,有的无法建立精确 的数学模型,或不允许单纯用数学模型来描述,有的则无法建立数学模型。对于这些问 题,数据挖掘技术的应用都能体现出较高的优越性,是解决此类问题的有力工具。 1 4 本文所作的工作 本文的主要研究工作分为以下几个部分: 4 华北电力大学硕士学位论文 1 数据挖掘技术的研究分析 介绍数据挖掘技术的概念、原理、模型方法和在电力系统的应用现状,并讨论 电力系统中的数据挖掘策略。 2 研究基于数据挖掘的报警信息的噪声处理 研究数据挖掘的分类任务,采用基于决策树算法构造适用于s c a d a 报警信息辨识 的分类器。对报警信息进的信息进行处理,剔除噪声数据 3 智能报警系统的实现 将基于处理后的数据与s c a d a 采集监控的其它数据相结合,按照提取整理的相应规 则知识和推理机制进行推理,得出能反映电网特征且被调度员接受的报警信息,同时将 报警信息作为启动调度决策支持系统相应模块的条件,使得调度决策支持系统更为智能 化。 5 华北电力大学硕士学位论文 第二章数据挖掘原理概述 2 1 数据挖掘的含义n 旷2 门 数据挖掘,( d a t am i n i n g ) ,就是指从数据中提取隐含在其中人们事先未知的、 但又是潜在有用的信息和知识,并将其表示成最终能被人理解的模式的高级过程。 数据挖掘不但能够从大量不完全、有噪声、模糊、随机的数据中学习己有的知识, 而且能够发现未知的新知识。得到的知识是“显式”的,既能为人所理解,又便于 存储和应用,因此从一开始就得到广泛的重视。也有学者称之为数据库知识发现 ( k d d ) ,因为它是从数据库中发现有用知识的过程,它更强调d m 是与数据库密切 相关。数据挖掘的对象定义为数据库,而更广义的说法是不仅是数据库,也可以是文 件系统,或其他任何组织在一起的数据集合,最新的挖掘对象则是数据仓库。 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括 好几层含义:数据必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用;并不要求发现放之四海而皆准的知识,仅 支持特定的问题发现。 数据挖掘的出发点是代替专家从大量的数据中挖掘出隐含于其中的知识,它使 数据存储技术进入了一个更高级的阶段。它不仅利用了数据库的存储功能,对历史 数据进行查询和遍历,能回答“什么 ;并且能够找出历史数据之间的潜在联系,挖 掘出其背后隐藏着的许多重要信息( 这些信息是关于数据的整体特征的描述及对发 展趋势的预测,在决策生成过程中具有重要的参考价值) ,从而可很好的支持人们的 决策,能回答“为什么 。 数据挖掘是一门涉及面很广的交叉性新兴学科,它涉及到数据库、人工智能、 数理统计、可视化、并行计算等领域。但数据挖掘技术是一门从一开始就面向应用 的技术,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微 观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现 事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘被认为 是目前解决“数据爆炸”和“数据丰富,信息贫乏”的一种有效方法。 2 2 数据挖掘的发展状况 知识发现这一词汇最早出现在1 9 8 9 年美国召开的第1 1 届国际人工智能大会 上。随后在1 9 9 1 、1 9 9 3 和1 9 9 4 年都举行了k d d 专题讨论会,汇集来自各个领域 的研究人员和应用者,集中讨论数据统计、海量数据分析算法、知识表示、知识运 6 华北电力大学硕士学位论文 用等问题。随着参与人员的不断增多,1 9 9 5 年k d d 国际会议发展成为年会,研究 的重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以 及多种学科之间的相互渗透。许多国际会议也将k d d 列为讨论的专题,l9 9 3 年i e e e 的( ( k n o w l e d g ea n dd a t ae n g i n e e r i n g ) ) 率先出版了k d d 专刊,1 9 9 7 年创办了国际 性的学术刊物q ( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ) ) 。时至今同,数据挖掘方兴 未艾,正处于快速发展时期,它与人工智能一起被列为“未来3 5 年内将对工业 产生深远影响的五大关键技术”之首。 目前,数据挖掘不仅被许多研究人员看作是数据库系统和机器学习方面的一个 重要的研究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领域。 世界上许多公司( 如i b m 、o r a c l e ) 都投入巨资对其进行研究,并开发产品。从数 据库发现出来的知识可以用在信息管理、查询响应、决策支持、过程控制等许多方 面,如医疗诊断和预测、气象、地质和金融数据分析,超市或银行的客户行为分析, 电力系统报警诊断与预测、欺诈侦测等等。数据挖掘现在正向着分布式挖掘、多媒 体数据挖掘、w e b 数据挖掘、网络安全数据挖掘等方向发展。 与国外相比,国内的数据挖掘研究相对较晚,1 9 9 3 年国家自然科学基金开始对 数据挖掘研究进行支持。目前,国内许多高校和科研单位都在从事数据挖掘的基础 理论和应用的研究,如清华、华中科技、复旦、浙大、中科院计算技术研究所等。 同时,在国内互联网上也出现了介绍数据挖掘知识的主页, 如 h t t p :w w w d m g r o u p o r g c n ,但是这些大部分都处在科研阶段,和实际应用相结合的道 路还很漫长。 2 3 数据挖掘的过程 数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析 和知识应用这样几个阶段,这些阶段在具体实施中可能需要重复许多次。而且为完成这些阶 段的任务,需要不同专业人员参与其中,具体过程如下: ( 1 ) 确定数据挖掘对象。定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一 步。根据用户的要求,确定数据挖掘是发现何种类型的知识,因为对数据挖掘的不同要求会 在具体的知识发现过程中采用不同的数据挖掘算法。 ( 2 ) 准备数据。根据用户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主 要从这些数据中提取知识。在选择数据后,还需要对数据进行预处理,对数据进行清洗,解 决数据中的缺陷、冗余、数值的不一致、数据定义的不一致、过时的数据等问题,最后形成 真实数据库。 ( 3 ) 挖掘模型的构建。将数据转化成一个分析模型,这个分析模型是针对挖掘算法建立 7 华北电力大学硕_ 卜学位论文 的。建立一个真i f 适合挖掘算法的分析模型,是数据挖掘成功的关键。模型的建立必须从数 据的分析开始,首先为模型选择变量,接着从原始数据中构建新的预示值,卜一步就需要从 数据中选取一个子集或样本建立模型,最后需要转换变量,使之和选定来建立模型的算法一 致。 ( 4 ) 数据挖掘。运用选定的数据挖掘算法,从数据中提取出用户一所需要的知识,这些知 识可以用一种特定的方式表示或使用一种常用的表示方式,如产生规则等。 ( 5 ) 结果分析。当数据挖掘出现结果后,要对挖掘结果进行解释并且评估。在许 多情况下,利用可视化技术可将数据挖掘结果表现得更加清楚,更有利于对数据挖 掘结果的分析。 ( 6 ) 知识的应用。这一过程主要是将数据挖掘得出的预测模式和各个领域的专家 知识结合在一起,构成一个可供不同类型的人使用的应用程序,也只有通过对挖掘 知识的应用,彳能对数据挖掘成果做出正确的评价。 数据挖掘的一般流程如图2 一l 所示: 圈文 耥! 罚g 翮 和数哩i - 阿稚 芹i 图2 1 数据挖掘流程图 数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性, 二是用于挖掘的数据质量和数量( 数据量的大小) 。整个挖掘过程是一个动态过程, 需要按照用户的期望不断调整。一般对于挖掘的数据质量和数据挖掘技术的有效性 进行监测评估,这一工作贯穿在整个挖掘过程中。往往需要按照评估的反馈信息重 复先前的过程,甚至重新开始。 墨 b 1 i i 匍厂嘉 挈薪i-_i-二-二川 一一i l i c婴习静 匦目御 华北电力大学硕士学位论文 2 4 数据挖掘技术的模型与方法心2 1 司 2 4 1 数据挖掘的基本任务 数据挖掘的基本任务主要有六类: 1 分类( c l a s s i f i c a t i o n ) 分类即区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上 运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 2 估值( e s t i m a t i o n ) 估值与分类相似,不同之处在于,分类描述的是离散型变量的输出,而估值处 理连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。 3 预测( p r e d i c t i o n ) 通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型, 该模型用于对未知变量的预言。预测其目的是对未来未知变量的预测,这种预测是 需要时问来验证的,即必须经过一定时间后,才知道预言准确性是多少。 4 相关性分组或关联规则( a f f i n i t yg r o u p i n go ra s s o c i a t i o nr u l e s ) 通过分析数据或记录间的关系,发现描述变量之间或者数据集或其一部分的特 征值之间的重要的相关性,即决定哪些事情将一起发生。 5 聚类( c l u s t e r i n g ) 聚类是对记录分组,把相似的记录分在一个聚集里。聚类和分类的区别是聚类 不依赖于预先定义好的类,不需要训练集。 6 描述和可视化( d e s c r i p t i o na n dv i s u a l i z a t i o n ) 即对数据进行归约、概化或图形描述等。 针对这些任务,有很多的技术方法,大体可分为机器学习、统计方法、神经网 络和数据库方法。机器学习包含归纳学习方法、基于案例学习、遗传算法等;统计 方法包含回归分析、判别分析、聚类分析、探索性分析等;神经网络方法包含前向 神经网络、自组织神经网络等;数据库方法主要是多维数据分析方法,另外还有面 向属性的归纳方法。 2 4 1 1 分类 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目 的是学会一个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数 据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用 历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。 和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。 9 华北电力大学硕士学位论文 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记 录或元组构成,每个元组是一个由有关字段( 又称属性或特征) 值组成的特征向量, 此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v l ,v 2 ,v n :c ) : 其中v i 表示字段值,c 表示类别。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法 包括贝叶斯法和非参数法( 近邻学习或基于事例的学习) ,对应的知识表示则为判别 函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决 策树或判别树,后者则一般为产生式规则。神经网络方法主要是b p 算法,它的模 型表示是前向反馈神经网络模型( 由代表神经元的节点和代表联接权值的边组成的 一种体系结构) ,b p 算法本质上是一种非线性判别函数。另外,最近又兴起了一种 新的方法:粗糙集( r o u g h s e t ) ,其知识表示是产生式规则。不同的分类器有不同的 特点。有三种分类器评价或比较尺度:l 预测准确度:2 计算复杂度:3 模型描述的 简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目 前公认的方法是l o 番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件 环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问 题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎: 例如,采用规则表示的分类器构造法就更有用,而神经网络方法产生的结果就难以 理解。 另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的 有缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是 连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。 2 4 2 数据挖掘的模型 数据挖掘的主要模式有分类模式、回归模式、时间序列模式、聚类模式、关联 模式、序列模式等。具体表述如下: ( 1 ) 分类模式:是一种分类器,能够把集中的数据映像到某个给定的类上,从而 可以应用于数据预测。它常表现一棵分类树,根据资料的值从树根开始搜索,沿着 数据满足的分支往上走,走到树叶就能确定类别。 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目 的是学会一个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数 据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用 历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。 和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。 ( 2 ) 回归模式:与分类模式相似,其差别在于分类模式的预测值是离散的,回归模 l o 华北电力大学硕士学位论文 式的预测值是连续的。 ( 3 ) 时间序列模式:根据资料随时间变化的趋势预测将来的值。其中要考虑时间 的特殊性质,只有充分考虑时间因素,利用现有的数据随时间变化的一系列值,才 能更好的预测将来的值。 ( 4 ) 聚类模式:把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽 可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组, 也不知道根据哪些数据项来定义组。 ( 5 ) 关联模式:是数据项之间的关联规则。而关联规则是描述事物之间同时出现 的规律的知识模式。 ( 6 ) 序列模式:与关联模式相似,它把数据之间的关联性与时间联系起来。为了 发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。 2 4 3 数据挖掘方法论 数据挖掘是人工智能与数据库技术相结合的产物。它的许多方法来源于机器学 习。因此机器学习、模式识别、人工智能领域的常规技术,如聚类、决策树,统计 等方法经过改进后均可用于数据挖掘。对于不同的系统,d m 需要采用不同的技术 方法和手段,大致可归纳为下列几种类型: 1 ) 决策树方法 在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代 表不同的类别。由于分类规则比较直观,因而较易于理解。在机器获取领域内己研 制出许多实施决策树的有效算法,如:国际上最有影响和最早的决策树算法,q u i u l a n 研制的i d 3 方法,数据库越大它的效果越好。此后又发展了各种决策树方法,如i b l e 方法使识别率提高了lo 。 2 ) 人工神经网络( a n n ) 方法 神经元网络( n n ) 技术是属于软计算领域内的一种重要方法。在k d d 的应用方 面,当需要从复杂或不精确数据中导出概念和确定趋向比较困难时,利用n n 技术 特别有效。经过训练后的n n 可以想象成具有某种专门知识的“专家 。因此可以 像人一样从经验中学习。其缺点是n n 的知识获取过程是一个“黑箱系统,受训 后的n n 所代表的预测模型不具有透明性。 3 ) 粗糙集( r o u g hs e t ) 方法 粗糙集理论是一种研究不精确、不确定性知识的数学工具,为数据挖掘提供了 一种新的方法和工具。这是因为:由于数据挖掘研究的实施多为关系型数据库,关 系表可被看作为粗糙集理论中的决策表,它为粗糙集的应用提供了方便;客观事物 中的规则有确定性的和不确定性的,从数据库中发现不确定性的知识,为粗糙集方 华北电力大学硕士学位论文 法提供了用武之地;从数据中发现异常,排除k d d 过程中的噪声干扰也是粗糙集 的优势运用粗糙集方法实现k d d 的算法,它有利于并行执行,能极大的提高发 现效率,对于从大规模数据库中的k d d 的研究是极为重要的;在数据挖掘中前述 的其他算法,如神经网络方法,不能自动选择合适的属性集,而粗糙集方法能进行 预处理,滤去多余属性,以提高发现效率;粗糙集方法要比模糊集或神经网络方法 在获得决策规则和推理过程方面更易于证实和检测。 4 ) 进化计算( e v o l u t i o n a r yc o m p u t a t i o n ,缩写为e c ) 它是模拟生物进化的一类计算方法的统称。包括遗传算法( g a ) 、遗传编程( g p ) 、 进化策略( ( e s ) 、进化规划( ( e p ) 。它们大多具有以下特点:进化计算是在适应度函数 约束下的智能化搜索,在目标函数( 适应度函数) 驱动下“优胜劣汰 ,通过多次迭 代逐步逼迫目标。由于进化计算一般都采用了杂交、变异等操作,扩大了搜索范围, 因此其能逼迫全局最优解。且其具有框架式的算法结构。一般只要完成编码和适应 度函数选择,其余的遗传、杂交、变异等操作都可以自动完成。进化算法己在优化 计算和分类机器学习方面显示了明显的优势。 5 ) 统计分析方法 统计分析的理论基础主要是统计学和概率论的原理,是一种较为精确的数据挖 掘技术。它是一种基于模型的方法,包括回归分析、因子分析和判别分析等,该方 法的优点是容易理解,结果描述精确。统计分析在实际应用中较为广泛,著名的统 计产品供应商s p s s 公司开发了s p s s 和s y s t a t 统计软件包,同时,s a s 公司也 开发出相应的产品s a s 和j m p ,这些产品都占有一定的应用市场。 6 ) 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例 如,把数据库中的多维数据变成多种图形,这对揭示数据的状况、内在本质及规律 性起了很大作用。 数据挖掘的出现只有短短的几年时间,如今方兴未艾。数据挖掘技术所表现出 的广阔应用前景吸引了众多的研究人员和商业公司。一批数据挖掘系统被开发出 来,并在商业、经济、金融、管理等领域都取得了应用性成果。采用的方法综合了 机器学习、模式识别、统计学、知识发现、数据库和数据分析等领域的研究成果。 但总的说来,这些系统基本上还停留在实验阶段,在适应性、系统效率方面还不尽 人意。随着硬件环境、挖掘算法的改进及应用经验的积累,数据挖掘技术与应用将 会得到长足的进展。 2 4 4 数据挖掘与传统分析工具的区别和联系 数据挖掘技术的发展基于其他相关领域的技术发展,包括数据库、人工智能和 1 2 华北电力大学硕士学位论文 机器学习等。但是数据挖掘技术和这些相关研究领域的技术又有一些显著的差异。 2 4 4 1 数据挖掘与o l a p 数据挖掘与联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 都属于分析型工 具,但两者之间有着明显的区别。数据挖掘是一种挖掘型工具,它能自动地发现隐 藏在数据中的模式,是一种有效地从大量数据中发现潜在数据模式、做出预测性分 析的分析工具。一个成熟的数据挖掘系统,用户根本不必提出确切的问题,而只需 挖掘隐藏的模式,这样更有利于发现未知的事实。 o l a p 是一种自上而下、不断深入的分析工具:用户提出问题或假设,o l a p 负 责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。 与数据挖掘相比,o l a p 更多地依靠用户输入问题和假设,但用户先入为主的局限 性可能会限制问题和假设的范围,从而影响最终的结论。显然,从对数据分析的深 度和角度来看,o l a p 位于较浅的层次,而数据挖掘则实现了更深的层次一一公式 模型。所处分析模型层次的不同决定了这两者的分析能力和所能回答的问题种类不 同。 2 4 4 2 数据挖掘与人工智能和机器学习 数据挖掘强调整个过程,而大多数机器学习文献仅集中在学习或归约上。在机 器学习中,似乎总是假定存在待学习的东西,即存在某个产生数据的潜在的令人感 兴趣的概念或机制。在数据挖掘中,数据是主要的,我们无需假定在数据之后存在 什么可以感知的结构。 事实上,人工智能及机器学习方法构成了数据挖掘算法的核心,例如人工神经 元网络、决策树学习、规则规约等方法就是某些数据挖掘算法的主要成分之一。 数据挖掘利用了人工智能的进步带来的好处。这两门学科都致力于模式发现和预 测,利用了人工智能技术的应用程序,把这些高深复杂的技术封闭起来,使人们不 用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。 2 4 4 3 数据挖掘与统计学 数据挖掘不是为了替代传统的统计分析技术,相反它是统计分析方法学的延伸 和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确 度还是令人满意的,但对使用者的要求很高。而随着计算机能力的不断增强,有可 能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。 数据挖掘算法有些本来就是统计的方法,但是随着算法的进一步研究和与计算 机联系的越来越紧密,使得这项技术本身已经不属于统计了,究其根本是因为数据 挖掘是面向应用的。 1 3 华北电力大学硕士学位论文 2 5 数据挖掘技术在电力系统中的应用心7 4 们 数据挖掘技术从一开始就是面向应用的,对于电力系统这样一个典型的大系 统,随着各类计算机监控设备、地理信息系统和管理信息系统的日益发展,电力系 统数据库中的数据呈爆炸性增长。现在,电力系统即将进入数字化时代,要点就是 如何数字地、形象地、实时地描述与再现某一实际运行的电力系统的物理结构和特 性、技术性能、经济管理、环保指标、人员状况等方面的大量信息。为了对这些数 据进行分析加工,从中获得对于系统有用的知识,国内外的许多学者对数据挖掘技 术在电力行业中的应用展开了研究,并取得了一定的成果。 数据挖掘在电力系统中的主要应用有电力系统故障分析、电力系统负荷预测、 电力系统稳定分析,决策支持系统、电力设备,电力企业的客户管理与营销决策等。 1 电力系统故障分析 电力系统故障分析建立电力系统故障数据仓库,采用数据挖掘的方法对电网 故障进行统计分析,有助于辅助决策,合理安排检修计划,减少气候和负荷变化对 长生故障的影响,提高供电质量; 2 负荷预测 负荷预测根据历史负荷数据预测未来负荷变化趋势。如果预先设定的负荷模型 与实际负荷相差较大,预测结果就不可信。建立历史负荷数据仓库,采用数据挖掘 的方法,自学习地发现负荷变化规律,建立负荷模型,在此基础上进行预测的结果 将会更加合理准确。 3 稳定分析 电网稳定性分析需要得出确定的判断结果,而影响电网稳定的不确定因素却很 多。利用数据挖掘中决策树方法,把电力系统的运行状态分为稳定和不稳定两种。 根据相应的规则对系统数据进行自动分析,直至判断出状态的稳定性为止。利用提 取出的安全评估知识,在系统正常运行时给出系统可能存在的隐患,提高系统的安 全稳定性; 4 决策支持系统 调度运行部门在电力系统的运行中始终处于核心位置。它的任务就是实时处理 来自系统的大量反馈信息,并依次做出相应的决策。数据挖掘技术有助于调度部门 制定相关决策。 5 电力设备 电力设备的各种诊断、测试、维护和故障分析的历史资料给设备寿命估计、维 护管理和新产品的设计修改提供了很多有价值的信息。采用数据挖掘技术来研究生 产实施数据库,揭示其中蕴藏的深层信息,比如电力设备的状态监测、设备寿命管 1 4 华北电力大学硕士学位论文 理、设备的故障诊断等方面。 6 客户管理与营销决策 随着电力市场的逐步建立,电力企业逐渐由政府职能转变为企业职能,电力企 业销售的不仅仅是电能,还有服务,客户对电力产品和服务的满意与否,将成为电 力企业发展的决定性因素。 除此之外,数据挖掘技术也可应用于网络参数估计,发电机竞标,电价预测, 还可应用于电网规划,远程检测等方面。 电力系统是一个复杂的系统,电力的供应和生产昼夜不息,变化频繁,具有运 行状态复杂,信息量大等特征。目前国内外都采用先进的能量管理系统( e m s ) 实现 对电力系统的监控和管理。作为一个开放的计算机系统,e m s 拥有完善的处理电力 系统日常业务的数据库系统,包括s c a d a 数据库、能量管理数据库和网络数据库、 培训
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市环境动态监测-洞察及研究
- 规范市场秩序维护消费者权益条例
- (2025年标准)果树修剪施肥协议书
- (2025年标准)国企重组协议书
- 环保行业环境监测实战指南
- 旅游景区智慧旅游服务与管理系统建设
- 日常行政工作流程规范手册
- (2025年标准)罐车租赁协议书
- 测量工程与仪器使用作业指导书
- 房地产销售市场分析与策略制定
- 2025至2030中国股指期货行业发展分析及发展前景与投资报告
- 美术介绍教学课件
- 2025年福建省福州左海供应链集团有限公司招聘笔试参考题库含答案解析
- 2025届上海市中考语文真题作文题目解析+范文
- 素描构图与透视教案
- 体育培训入股协议书
- 2025年职工技能大赛考核试题及答案
- 仓库运输管理方案计划
- 2025年“铸牢中华民族共同体意识”应知应会知识竞赛题库试卷及答案
- 云计算环境下的数据安全与隐私保护研究
- 传媒入股协议合同
评论
0/150
提交评论