(电力系统及其自动化专业论文)基于数据挖掘技术的高压输电线路故障选相方法.pdf_第1页
(电力系统及其自动化专业论文)基于数据挖掘技术的高压输电线路故障选相方法.pdf_第2页
(电力系统及其自动化专业论文)基于数据挖掘技术的高压输电线路故障选相方法.pdf_第3页
(电力系统及其自动化专业论文)基于数据挖掘技术的高压输电线路故障选相方法.pdf_第4页
(电力系统及其自动化专业论文)基于数据挖掘技术的高压输电线路故障选相方法.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北电力人学硕十学位论文 a b s t r a c t f a u l tp h a s es e l e c t i o ni sac r i t i c a ll i n ki nr e l a yp r o t e c t i o no fh v - t r a n s m i s s i o n l i n e s ,a n df a s ta n da c c u r a t es e l e c t i o ni so fg r e a ts i g n i f i c a n c et ot h es a f e t yo ft h el i n e s a n ds t a b i l i t yo ft h es y s t e m i nt h eh v - t r a n s m i s s i o nl i n es y s t e m si no u rc o u n t r y , t h e f a u l tp h a s es e l e c t i o ne l e m e n t sp l a ya ni m p o r t a n tr o l ei na s s u r i n gt h er e g u l a rf u n c t i o n o ft h ep r o t e c t i o ne q u i p m e n t s e s p e c i a l l yt h o s en e wt y p ep r o t e c t i o n st h a tg a i nw i d e a t t e n t i o nr e c e n t l ys u c ha s t r a v e l i n g w a v e p r o t e c t i o na n dt r a n s i e n tp r o t e c t i o n a r em o r ed e p e n d e n to nr e l i a b l ef a u l tp h a s es e l e c t i o n p h a s es e l e c t i o ne l e m e n t sa r e i m p o r t a n tp a n so ft h el i n ep r o t e c t i o ne q u i p m e n t s ,a n dt h e y s e r v et h ec o m b i n e d r e c l o s i n gi nc o n v e n t i o n a lp r o t e c t i o n s ,t os e l e c tt h es i n g l ef a u l tp h a s ew h e nas i n g l e f a u l to c c u r sa n dt h e nt r i pt h ec i r c u i tb r e a k e r ,o t h e r w i s ec u tt h et h r e ep h a s ec i r c u i t b r e a k e r s t h ep a p e rr e s e a r c h e sa n da n a l y z e st h ep r e s e n ts t a t eo ft h ep h a s es e l e c t i o n m e t h o d s ,a n dg i v e sd e e pa n a l y s i s ,c o m p a r i s o n sa n dd i s c u s s i o n st ot h eb a s i ca l g o r i t h m a n di t sa p p l i c a t i o nc o n d i t i o no fe a c hm e t h o d ,f o c u s i n go nt h ea p p l i c a t i o no fs h a n n o n e n t r o p ya n ds v m i nt h et r a n s m i s s i o nl i n e f a u l ts e l e c t i o n t h ea s s o c i a t i o nb e t w e e n f a u l tc h a r a c t e r i s t i c sa n de m de n t r o p ya n de m d s i n g u l a re n t r o p y a r e i l l u s t r a t e d t h r o u g hf i n i t ee m de n t r o p ya n de m ds i n g u l a re n t r o p yw i t hd e f i n i t e p h y s i c sm e a n i n g ,t h e f a u l tc h a r a c t e r i s t i c so ft r a n s i e n t s i g n a l s a r ed e s c r i b e d c o m p l e t e l ya n dc l e a r l y , a n df a s ta n de x a c td e c i s i o n so ft h ef a u l tt y p ea n df a u l tp h a s e a r e e a s i l y r e a l i z e d t h e a p p l i c a t i o n o fe m di n p h a s e s e l e c t i o no v e r c o m e s d i s a d v a n t a g e so fo t h e rm e t h o d s ,s u c ha si n a c c u r a t ed e c i s i o no ft h ef a u l tp h a s ea n d d i s a b i l i t yt or e c o g n i z ew h e t h e rag r o u n d e df a u l to c c u r so rn o ta n dm i s t a k e si np h a s e s e l e c t i o n c o m b i n e dw i t ha n a l y s i so ff a u l ts i g n a l s ,t h ep a p e ra p p l i e se m d ,s i n g u l a rv a l u e a n a l y s i s ,s v ma n ds h a n n o ne n t r o p yt ot h ee x t r a c t i o na n da n a l y s i so ft r a n s i e n ts i g n a l s n l em e t h o di sf a s ta n da c c u r a t ei np h a s es e l e c t i o n a n di si m m u n et ot h ee f f e c t so ft h e n o i s e s ,t h et r a n s i t i o n a lr e s i s t a n c e ,t h ef a u l tl o c a t i o n sa n dt h ei n i t i a ld e g r e eo ft h ef a u l t l a r g en u m b e ro fs i m u l a t i o nr e s u l t si n d i c a t et h a tt h ea p p l i c a t i o no ft h ep r o p o s e dd a t a m i n i n gt e c h n o l o g yi nh vt r a n s m i s s i o nl i n ef a u l tp h a s es e l e c t i o ni sf e a s i b l ea n d e f f e c t i v e k e yw o r d s : d e e o m p o s i t o m t r a n s m i s s i o nl i n e ;f a u l t yp h a s es e l e c t i o n ;e m p i r c a lm o d e s h a n n o ne n t r o p y ;s i n g u l a rv a l u ed e c o m p o s i t i o n 论文原创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。 文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法 律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申 请的论文或成果。 本人如违反上述声明,愿意承担以下责任和后果: 1 交回学校授予的学位证书; 2 学校可在相关媒体上对作者本人的行为进行通报; 3 本人按照学校规定的方式,对因不当取得学位给学校造成的名誉损害, 进行公开道歉; 4 本人负责因论文成果不实产生的法律纠纷。 论文作者签名;奎毗邀 目期:鲨塞年土月三l 日 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属东北电 力大学。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权 利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时, 署名单位仍然为东北电力大学。 论文作者签名:奎嗑痉日期:丑年j 月j 旺日 导师签名: 妻廷委。日期:丝年土月丝日导师签名:誊近。日期:二丝l 年土月丛日 第1 章绪论 第1 章绪论 1 1课题的背景与意义 电能是现代社会中最重要、也是最方便的能源。电力系统由发电机、变压 器、母线、输电线路及用电设备组成。输电线路一方面跨越的空间距离大,一 般为几十到几千千米,另一方面长期暴露在环境条件恶劣的户外,无法进行有 效的维护,与其他电气元件比较,输电线路所处的条件决定了它是电力系统中 最容易发生故障的一环。输电线路上,最常见同时也是最危险的故障是相与相 或相与地之间的非正常连接,即短路。其中以单相接地短路最为常见,而三相 短路是比较少见的。在输电线路上,还可能发生断线及几种故障同时发生的复 合故障。短路发生时会产生很大的短路电流,同时使系统中电压大大降低。短 路点短路电流及短路电流的热效应和机械效应会直接损坏电器设备。电压下降 影响用户的正常工作,影响产品质量。短路更严重的后果,是因为电压下降可 能导致电力系统发电厂之间并列运行的稳定性遭受破坏,引起系统振荡,直至 整个系统瓦解。因此输电线路的短路故障诊断是电力系统诊断的一个重点。 在我国高压输电系统中,故障选相元件对于继电保护装置的正确运行具有 重要作用,特别是近年来受到广泛关注的新型行波保护和暂态保护更离不开快 速可靠的故障选相。在传统的保护装置中选相元件的作用是单相接地短路时, 选出故障相来实现单相跳闸,在两相和三相短路时实现三相跳闸。故障选相是 自动重合闸的首要条件,因此选相元件成为高压输电线路继电保护装置的重要 元件。此外,故障选相也是精确故障测距的重要前提。常用的有阻抗选相元件、 对称分量选相元件和两相电流差突变量选相元件。 微处理机保护在电力系统中的应用对选相元件提出了更高的要求,即不仅 要准确的判别出单相故障的相别,并且还要准确的判别相间故障的相别,选相 元件的作用不仅要为自动重合闸服务,同时也为保护装置的测量元件( 如距离 元件) 的正确动作服务,并且能够提供准确判别故障类型所必需的数据。传统 东北电力人学硕上学位论文 曼量曼皇量曼曼曼曼曼量曼量曼曼曼曼曼曼曼曼曼曼蔓曼曼曼i 一 一一一i l l i 的选相元件不能满足上述要求,因此研制新的选相元件有重要价值。 电力系统的故障情况很多,故障中需要分析的问题也包含很多方面的内容。 如故障选相,故障测距和故障诊断( 故障元件识别) 等。本课题的研究主要包 括故障选相( 故障类型识别) 。故障选相的目的是当电力系统发生故障时确定故 障发生的相别。 1 。2 高压输电线路故障选相方法的研究现状及存在问题 众所周知,线路故障时,故障相电流升高,电压降低,根据此特征,早期 的传统保护通常采用相电流选相元件、低电压选相元件和阻抗选相元件。相电 流和低电压选相元件虽然实现简单,但前者仅适用于电源侧且灵敏度较低,容 易受负荷电流和系统运行方式的影响,因此只作为辅助选相之用。后者仅适用 于电源较小的受电侧或线路很短的送电侧,应用场合受到限制。阻抗选相元件 受负荷电流和过渡电阻的影响较大,现在也不单独使用,往往作为辅助判据。 在数字式微机保护中,选相元件通常由软件实现,这给选相元件的实现带 来了很大的灵活性。目前主要采用工频相电流差突变量选相和序分量相结合的 选相元件。在保护启动后第一次利用工频相电流差突变量选相,振荡闭锁期间 由于突变量提取困难而采用序分量选相。 随着暂态保护的提出,保护的动作速度得到了很大提升,在利用暂态故障 分量的继电保护和故障测距中,为了保证选相速度,有关文献构造了基于暂态 故障分量的选相元件。 伴随着人工智能技术在电力系统各个领域日益广泛的应用,将其( 特别是 神经网络) 用于故障选相也引起了人们的重视。 1 突变量选相 在数字式微机保护中,利用其记忆功能,可以很容易的获得电流或电压的 突变量( 即故障分量) 。目前广泛采用的相电流差突变量选相是利用不同故障时 两相工频电流差的变化量的幅值特征选相,附加鉴别有无零序分量区分两相短 路和两相短路接地【l 】。该元件在故障初期灵敏度高,不受负荷电流和过渡电阻影 响。但是当保护位于弱电源侧或发生转换性故障时灵敏度不足甚至会导致误选 相【2 】。为了克服这一缺陷,可以考虑采用相间电压突变量选相【3 1 ,该元件具有相 第1 章绪论 电流差突变量选相的特点,又弥补了其不足,但在长线末端故障时存在灵敏度 可能不足的问题。补偿电压( 相补偿电压和相间补偿电压) 突变量选相同时具 有相电流差突变量和相间电压突变量选相的优点,其选相性能比较优越,近年 来也获得了比较广泛的应用【3 j 。文献 4 】综合利用了相间电压突变量和补偿相电流 差突变量,由二者的组合运算构成了相间标量。通过分析三个相问标量在不同 故障下的关系实现选相。 文献 1 ,5 采用c l a r k 模变换获得保护装设处各模电流故障分量在不同类型故 障下的幅值特征,以此构成选相判据。 2 序分量选相 系统故障时,可分为正常网络和故障附加网络的叠加。对故障附加网络运 用对称分量法进行分析,可得到各序电流或电压分量在不同故障下的相位和幅 值特征。不同文献基于此构造了选相元件。 文献【7 】提出了一种零、负序电流相对相位相区划分方法,辅以相间阻抗排 除法实现选相,具有很强的耐过渡电阻的能力。但对于单相接地故障,其相区 的裕度较小,可能由于计算误差或较为特殊的扰动而使单相接地时的相位移出 相应相区,从而误选为相间接地故障。 文献【8 进一步分析了不同故障时各电流序分量间相位关系和幅值关系。相 区的划分有6 0 。的裕度,与幅值关系的结合,提高了选相的可靠性。 文献【9 】基于不同故障情况下每相正负序电流分量之间的相角差选相。为了 区分两相短路和两相短路接地,结合了故障前零负序电流分量分别以正序电流 分量为基准的比值和故障后此比值之间的关系。 文献 1 0 】通过对正负序故障分量电流波形进行相关分析,求得相关系数( 表 征了波形相似度) ,实现选相判断。为了解决以一相为基准时,另外两相中的一 相发生接地故障时,相关系数无法区分的问题,采用多参量判据。由于实际系 统中保护安装处的电流相位与故障支路电流有一定偏移,为提高选相可靠性, 采用三相相对比较法。该元件理论上可取前半个周波的波形进行相关分析,在 动作速度上有一定优势。 文献 1 1 】根据线路故障时保护装设处各电压序分量特点,提出了反应电压序 分量相对相位和幅值关系的选相元件,其选相流程和文献【8 】相似。 东北电力大学硕士学位论文 暑蔓曼舅曼皇鼍舅曼曼曼鼍曼量曼曼鼍! l i i 蔓寰舅曼皇曼曼 文献 1 :2 1 作了进一步的研究,运用模糊逻辑思想将电流电压序分量选相元件 有机融合在起,创新性的通过故障序分量比相结果所处的故障相区的对比获 得更好的选相效果。 3 基于故障暂态量选相 随着电力系统规模的日益扩大,大容量机组和超高压输电线路的增多,为 了增大输电线路传输容量和提高系统暂态稳定性,对保护的动作速度提出了更 高的要求。传统的单纯依靠工频量的保护原理难以满足为快速切除故障而带来 的对系统稳定性的要求。因此,新型的基于故障暂态量的超高速保护得到了人 们的青睐。由于暂态保护的动作速度大为提高,从而对作为继电保护重要环节 的选相元件的选相速度也提出了更高的要求。为适应发展需要,展开了基于故 障暂态量的选相元件研究。 文献 1 7 】基于电流行波比较原理,通过比较三相行波电流之差的极性选相。 当两两之间极性相反时,相邻元件输出正值并判定为故障相。 文献 1 8 】中母小波采用了一个快速衰减复函数,对各相电流信号中特定频率 成分进行检测,分析故障相和非故障相的小波变换在此频率上的不同表现,提 取故障特征。为充分利用小波变换结果全面揭示信号特征,所用判据为小波变 换的幅度信息与相位信息的复合。该元件具有算法简单、基本不受故障类型、 过渡电阻、初相角和故障点位置的影响的优点。 文献 1 9 】提出了基于模量小波变换能量特征的选相原理,根据各暂态电流模 量的小波能量,通过比较大小选择故障相,该元件计算量较大,在单相接地且 故障初相角为零时,没有暂态过程而直接过渡到故障后的稳态,判据将失效。 4 基于人工智能的选相元件 人工神经网络( a n n ) 是模拟人类神经系统传输、处理信息过程的一种人 工智能技术。它具有分布式存储知识的结构,不仅可以存储大量信息,而且连 接权和连接结构都可通过学习和训练得到,具有自适应和自组织能力,不管输 电线路发生何种故障,只要利用仿真结果对神经网络进行训练,使其产生所需 要的响应,即可将其应用于故障选相。 文献 2 l 】采用径向基神经网络( r b f ) 。为了解决随机选取输入向量所带来 的些问题( 例如为了达到一定精度,网络过于庞大等) ,利用正交最小二乘学 第1 章绪 论 习方法,故障后三相电流,电压作为输入特征向量,不需滤波,具有收敛速度 快,精度高,实时性好等优点。 文献 2 2 1 n 用具有持续学习能力的最简径向基神经网络( m i m 删选相。在 训练过程中通过删除策略以获得最优隐藏神经元个数,由于具有持续学习能力, 在很大程度上减少了训练时问,简化了整个网络的结构,特征向量采用经过推 广卡尔曼滤波的基频电压电流,并结合了零序电流分量和可能对选相造成影响 的系统频率。 文献 2 3 】采用前馈神经网络( f n n ) ,为了获得好的收敛速度,用加动量项的 b p 算法对网络训练。特征向量选取三相电流和电压,为了提高选相可靠性,加 了个后处理单元,只有一个输出值连续三次大于门槛值时才确定为响应故障, 该元件具有非常快的选相速度,可在7 m s 内实现选相,但是,为了保证可靠性, 必需极大量的训练样本数据。 文献 2 4 15 刚用故障时产生的高频信号,通过对前馈神经网络的训练实现选 相。采用三相电压在6 个不同频段内能提供更多信息的频谱作为输入特征向量。 该元件具有不受过渡初始角,大接地过渡电阻和系统稳态情况下操作产生的谐 波影响等特点。 文献 2 5 】以不需滤波的三相电压、电流和零序电压、电流作为有限冲击响应 神经网络的输入向量实现选相。在不同的保护安装位置对网络进行训练,这一 方面使应用具有普遍性,但同时也加大了工作量。 5 目前存在的问题 在实际应用中,基于工频量选相元件获得了巨大成功,但其动作速度难以 很快,并且,目前广泛采用的电流序分量相对相位比较结合阻抗选相的选相元 件在振荡过程中存在误选相的问题,不能适应未来超高速保护的需要。利用故 障暂态量可以做到高速选相,但一方面目前广泛采用的电容式电压互感器传变 频宽较窄,要准确提取随需要的电压高频分量尚存在一定困难,另一方面,基 于电流行波的选相仅仅检测和识别某个时间的小领域内( 波头) 的波形特征, 而波头的形状和极性又与线路两端的波阻抗的变化情况( 即母线结构) 有关, 幅值与故障发生的时刻密切相关,其选相可靠性较差。另外,由于雷电,网络 操作,谐波等影响产生的行波干扰,使得抗干扰性能也不好。 东北电力大学硕士学位论文 神经网络所存在的问题主要在于:1 、使用前需要大量的有代表性的样本供 其学习,但如何获得与实际运行系统相符合的大量训练样本是一个问题;2 、学 习完成之后,如果系统结构发生变化,则需增加新的样本重新学习;3 、a n n 通 常给出一个介于0 l 之间的数字作为输出,对结果缺乏解释能力,不利于运行 人员理解诊断结果;4 、如何选择合理的网络结构还没有充分的理论依据。 1 。3 本文的主要工作 数据挖掘技术包括数据库技术、人工智能、机器学习、神经网络、统计学、 模式识别等。本文根据信号处理中的e m d 原理,结合数据挖掘技术的一些领域, 针对传统选相元件所存在的问题,提出了输电线路故障选相的新方法。利用 m a t l a b 仿真程序,根据实际的电力网的结构,建立了仿真模型。并且考虑了 各种故障因素对线路选相的影响。仿真结果利用m a t l a b 软件进行分析。本文 的主要工作包括以下几个方面: 1 对传统选相方法进行分析和总结,阐明了各种选相方法的优点和存在 的不足及使用范围。 2 阐明了e m d 、信息熵的基本原理,详尽研究了电力系统发生各种故障 时的故障特征,在此基础上,提出了一种基于e m d 熵和支持向量机相结合的输 电线路故障选相方法,该方法不受各种因素的影响,能够准确快速的选相。 3 提出了基于e m d 奇异值熵的输电线路故障选相方法,研究了e m d 奇 异值熵对暂态信号提取的机理,提出的选相判据简单易行。 4 通过大量的仿真,并利用m a t l a b 分析了各种故障时的数据,验证了 本文选相方法的准确性及优越性。 第2 章e i d d 及支持向量机方法简介 第2 章e m d 及支持向量机方法简介 2 1 e m d 方法 2 。1 。1概述 当输电线路发生故障时,其相应的信号一般表现为非平稳特征,如何从非平 稳信号中提取出故障特征是关键。以傅立叶变换为核心的传统频谱方法虽然在 平稳信号的特征提取中发挥了重要作用,但对于非平稳信号,傅立叶变换只能 分别给出信号在时域或频域的统计平均结果,却无法同时兼顾信号在时域和频 域的全貌和局部化特征。而这些局部化特征恰好是电力系统故障特征的表现。 因此,对于非平稳信号而言,我们自然希望能有一种分析方法把时域分析和频 域分析结合起来,即找到一个二维函数,它即能反映信号的频率内容,又能反 映该频率内容随时间变化的规律,还能准确地反映出信号能量随时间和频率的 分布。这种方法就是时频分析。 基于多分辨率原则的小波变换是一种时域与频域相结合的分析方法,目前已 成为国际上众多学者和学科领域共同关注的热点。小波分析本质上是可调的窗 口傅立叶变换,虽然具有多尺度特性和“数学显微”特性,但是由于小波基函 数的长度有限,在对信号作小波变换时会产生能量泄漏,另一方面,一旦选择 了小波基和分解尺度,所得到的结果是某一固定频率段的信号,这一频率段只 与信号的采样频率有关而与信号本身无关,从这一点上来讲小波分析不具有自 适应性。e i v i d ( e m p i r i c a lm o d ed e c o m p o s i t i o n ) 方法基于信号的局部特征时间尺 度,能把复杂的信号函数分解为有限的经验模态函数( i n t r i n s i cm o d ef u n c t i o n , i m f ) 之和,每一个i m f 分量所包含的频率成分不仅与采样频率有关而且最重要 的是随信号本身变化而变化,因此e m d 方法是自适应的信号处理方法,非常适 合非线性和非平稳过程。 东北电力大学硕士学位论文 2 1 2e m d e m d 方法假设任何信号都由不同的经验模态函数( i m f ) 组成,每个i m f 可 以是线性的,也可以是非线性的,i m f 分量必须满足下面两个条件:一是其极值 点个数和过零点数相同或最多相差一个,二是其上下包络线关于时间轴局部对 称。这样任何一个信号就可以分解为有限个i m f 之和,而i m f 可以按以下方法 “筛分( s i f t ) ”获得: ( 1 ) 确定信号x ( ,) 的所有局部极值点,然后用三次样条线将所有的局部极大 值点连接起来形成上包络线,用三次样条线将所有的局部极小值点连接起来形 成下包络线,这两条包络线包络了所有的信号数据。 ( 2 ) 上下包络线的平均值记为碍,求出 z p ) 一m t = 扛 ( 2 1 ) 理想地,如果啊是一个i m f ,那么扛就是x ( f ) 的第一个分量。 ( 3 ) 如果局不满足i m f 的条件,把作为原始数据,重复( 1 ) ,( 2 ) 得到上、下 包络线的平均值嘲。,再判断矗,= 拓一铂,是否满足i m f 的条件,如不满足,则 重循环k 次,得到7 j l m l ) 一确。= 魄。,使得满足i m f 的条件。记q = 7 j l 。,则q 为 信号x ( f ) 的第一个满足i m f 条件的分量。 为了保证i m f 分量在幅值和频率上都有明确的物理意义,对筛分的迭代次 数必须有所限制,过多的迭代次数将有可能使得所有i m f 分量成为一个具有常 幅值的调频信号,仅仅保留了频率调制的特点,而无法说明幅值变化的物理现 象。具体在算法实现上,可利用下面的经验公式判断: 肋= t 卅( ,) 一j j l 。( r ) 1 2 ( 2 2 ) 颤,o ) t = 0 s d 称为筛分门限值,一般取o ,2 o 3 。如果s d 小于这个门限值,筛分过程结束。 ( 4 ) 将q ( t ) 从x ( f ) 中分离出来,即得到一个去掉高频分量的差值信号( f ) 即有 r t ( t ) = x ( t ) 一c l ) ( 2 3 ) 将吒( f ) 作为原始数据,重复步骤( 1 ) ,( 2 ) 和( 3 ) ,得到第二个i m f 分 c 2 ( t ) , 第2 章e m d 及支持向量机方法简介 重复刀次,得到, 个i m f 分量。这样就有 一乞= r 2 ,一l 一巳= ,:l ( 2 - 4 ) 当巳( f ) 或,;l ( ,) 满足给定的终止条件( 通常使( f ) 成为一个单调函数) 时,循 环结束,由( 2 3 ) 式和( 2 4 ) 式可得到: x q ) = q o ) + ,:i ) ( 2 5 ) 式中,( f ) 为残余函数,代袋信号的平均趋势。而各i m f 分量 q 0 ) ,q ( ,) 乞) 分别包含了信号从高到低不同频率段的成分,每一频率段所包 含的频率成分都是不同的,且随信号本身的变化而变化。通常,e m d 方法分解 出来的前几个i m f 分量集中了原信号中最显著、最重要的信息,从这个角度上 讲,e m d 方法就是种新的主成分分析方法。 实际上,该方法得到了一个用于信号分解的自适应的广义基。从信号分解 基函数理论角度来说,上述分解方法是在基函数理论上的一种创新。因为该信 号分解方法中,基函数是依赖于信号本身的,也就是自适应的,不同的信号分 解后的基函数是不同的。该基函数不同于f o u r i e r 分解中的基函数,f o u r i e r 分解 的基是一系列恒定幅度和恒定频率的正余弦函数;也不同于小波分解中的基函 数,小波分解的基函数是预先确定的,由于分解的效果取决于基函数的选择, 所以不能保证最优的分解效果。而e m d 分解方法的基函数是一系列可变幅度和 可变频率的正余弦函数,它是由信号中自适应得到的。因此,可以得到很好的 分解效果。 2 2 支持向量机分类器 2 2 ,1概述 传统的统计模式识别的方法都是在样本数目足够多的前提下进行研究的, 所提出的各种方法只有在样本趋向无穷大时其性能才有理论上的保证。而在多 数实际应用中,样本通常是有限的,这时很多方法都难以取得理想的效果。统 计学习理论是一种专门的小样本统计理论,为研究有限样本情况下的统计模式 识别和更广泛的机器学习问题建立了一个较好的理论框架,同时也发展了一种 新的模式识别方法支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) ,能够较好 东北电力人学硕士学位论文 地解决小样本学习问题,目前,统计学习理论和支持向量机已经成为国际上机 器学习领域新的研究热点。 统计模式识别问题可以看作是一个更广义的问题的特例,就是基于数据的 机器学习问题。基于数据的机器学习是现代智能技术中十分重要的一个方面, 主要研究如何从一些观测数据( 样本) 出发得出目前尚不能通过原理分析得到 的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预 测。现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,因此 这种机器学习在从现代科学、技术到社会、经济等各领域中都有着十分重要的 应用。当我们把要研究的规律抽象成分类关系时,这种机器学习问题就是模式 识别。 统计是我们面对数据而又缺乏理论模型时最基本的( 也是唯一的) 分析手 段。传统统计学所研究的是渐进理论,即当样本数目趋向于无穷大时的极限特 征,统计学中关于估计的一致性、无偏性和估计方差的界等,都属于这种渐近 特性。但实际应用中,这种前提条件却往往得不到满足,当阅题处在高维空间 时尤其如此,这实际上是包括模式识别和神经网络等在内的现在机器学习理论 和方法中的一个根本问题。 v l a d i m i rn v a p n i k 等人早在2 0 世纪6 0 年代就开始研究有限样本情况下的 机器学习问题,由于当时这些研究尚不十分完善,在解决模式识别中往往趋于 保守,且在数学上比较艰涩,而直到9 0 年代以前并没有提出能够将其理论付诸 实现的较好的方法。加之当时正处在其他学习方法飞速发展的时期,因此这些 研究一直没有得到充分的重视。直到9 0 年代中,有限样本情况下的机器学习理 论研究逐渐成熟起来,形成了一个较完善的理论体系一统计学习理论( s t a t i s t i c a l l e a m i n gt h e o r y ,s l t ) 。而同时,神经网络等较新兴的机器学习方法的研究则遇 到了一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、 局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统 计学习理论逐步得到重视。 1 9 9 2 1 9 9 5 年,在统计学习理论的基础上发展出了一种新的模式识别方 法支持向量机,在解决小样本、非线性、及高维模式识别问题中表现出许 多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。虽然统计 第2 章e n i d 及支持向量机方法简介 学习理论和支持向量机方法中尚有很多问题需要进一步研究,但许多学者认为, 它们正在成为继模式识别和神经网络研究之后机器学习领域新的研究热点,并 将推动机器学习理论和技术有重大的发展。 基于统计学习理论的支持向量机虽然在形式上类似于多层前向网络,但是 支持向量机方法能够克服多层前向网络的固有缺陷,它具有以下几个优点: ( 1 ) 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不 仅仅是样本趋于无穷大时的最优值。 ( 2 ) 支持向量机算法最终将转化成为一个二次型寻优问题,从理论上讲,得 到的将是全局最优点。 ( 3 ) 支持向量机算法将实际问题通过非线性变换转换到高维的特征空间,在 高维空间中构造线性判别函数来实现原空间中的非线性判别,这一特殊的性质 能保证机器有较好的泛化能力,同时它还巧妙地解决了维数灾难问题,使得其 算法复杂度与样本维数无关。 2 2 2 统计学习理论 统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。 它从理论上较系统地研究了经验风险最小化原则成立的条件、有限样本下经验 风险与期望风险的关系、结构风险最小化原则的理论思想以及实现这一新原则 的实际方法( 算法) 一支持向量机。因此在介绍支持向量机的算法之前,有必要 先介绍统计学习理论的重要概念和内容:经验风险最小化原则、v c 维、推广性 的界和结构风险最小化原则。由于统计模式识别问题就是基于数据的机器学习 问题,所以下面首先介绍机器学习的概念和方法。 1 ) 函数估计模型 我们可以用下面三个部分来描述从样本学习的一般模型( 如图2 1 ) : ( 1 ) 产生器( g ) ,产生随机向量x r ”,它们是从固定但未知的概率分布函 数f ( x ) 中独立抽取的。 ( 2 ) 训练器( s ) ,对每个输入向量x 返回一个输出值y ,产生输出的根据是 同样固定但未知的条件分布函数f ( y x ) 。 ( 3 ) 学习机器( l m ) ,它能够实现一定的函数集f ( x ,口) ,a a ,其中人是 东北电力大学硕士学位论文 参数集。 按照这个模型,学习的问题可以描述为:根据训练样本,从给定的函数集 f ( x ,口) ,口人中选择出能够最好地逼近训练器响应的函数。 预测输出y 图2 - 1 机器学习的基本模型 2 ) 机器学习 机器学习的目的是根据给定的训练样本求对某系统输入输出之间倚赖关系 的估计,使它能够对未知输出作出尽可能准确的预测。 机器学习问题可以表示为:己知变量y 与输入x 之间存在一定的未知依赖关 系,即存在一个未知的联合概率f ( x ,y ) 。( x 和y 之间的确定性关系可以看作是 一个特例) ,机器学习就是根据n 个独立同分布观测样本: ( 而,m ) ,( x 2 ,y 2 ) ,( ,以) ( 2 6 ) 在组函数 厂( x ,c o ) 中求一个最优的函数 厂( x ,) ,使预测的期望风险 尺( 国) = l l ( y ,f ( x ,c o ) ) d f ( x ,y ) ( 2 7 ) 最小。其中。 f ( x ,缈) ) 称作预测函数集,国q 为函数的广义参数,故 f ( x ,c o ) ) 可以表示任何函数集:l ( y ,f ( x ,c o ) ) 为由于用 f ( x ,o j ) 对y 迸行预测而造成的损 失。不同类型的学习问题有不同形式的损失函数。 3 ) 经验风险最小化 显然,要使式( 2 7 ) 定义的期望风险最小化,必须依赖关于联合概率f ( x ,y ) 的信息,在模式识别问题中就是必须己知先验概率和类条件概率密度。但是, 在实际的机器学习问题中,我们只能利用己知样本式( 2 6 ) 的信息,因此期望 风险无法直接计算和最小化。 根据概率论中大数定理的思想,人们自然想到用算术平均代替式( 2 7 ) 中 的数学期望,于是定义了 第2 章e m d 及支持向量机方法简介 r 唧( 国) = 圭( m ,厂( 薯,国) ) ( 2 8 ) ,f = 1 来逼近式( 2 7 ) 定义的期望风险。由于咫。( 缈) 是用已知的训练样本( 即经 验数据) 定义的,因此称作经验风险。用对参数彩求经验风险r 。( 彩) 的最小值代 替求期望风险r ( c o ) 的最小值,就是所谓的经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o n ,e r m ) 原则。事实上前面提到的各种分类器设计方法( 包括神经网 络分类器) 都是在经验风险最小化原则下提出来的。 4 ) v c 维 神经网络与其它经典模式识别方法将经验风险最小化原则视为当然的出发 点,并未研究其合理性和适用范围。v c 理论严格地证明了经验风险最小化原则 合理性的依据:一致收敛性的充分必要条件、快速收敛的充分条件和一致收敛与 概率分布无关的充分必要条件,它们是统计学习渐近理论三个最重要的成果。 这些成果的详细表述和严格证明均可在v a k n i k 的相关著作中找到。 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列 有关函数集学习性能的指标,其中最重要的是v c 维( v a p n i k c h e r v o n n k i s d i m e n s i o n ) 。模式识别方法中v c 维的直观定义是:对于一个指数函数集,如果 存在h 个样本能够被一个函数集中的函数按照所有可能的2 玎种形式分开,则称 函数集能够把h 个样本打散( s h a t t e f i n g ) 。函数集的v c 维就是它能够打散的最大 样本数目h 。如果对于任意数目的样本,都有函数能将它们打散,则函数集的 v c 维就是无穷大。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。 但目前还没有通用的计算任意函数集的v c 维的理论,只是对一些特殊的函数集 的v c 维可以准确知道,而对于一些比较复杂的学习机器( 比如神经网络) ,其 v c 维除了与函数集( 神经网络结构) 选择有关外,还受学习算法等的影响,因此 其确定更加困难。 5 ) 推广性的界 统计学习理论中,关于经验风险和实际风险之间的关系称作推广性的界。 统计学习理论中关于函数集的推广性的界的结论表明,对于指示函数集f ( x ,c o ) , 东北电力人学硕上学位论文 如果损失函数q ( z ,国) = l ( y ,f ( x ,c o ) ) 的取值为0 或l ,则经验风险最小化原则下 学习机器的实际风险由两部分组成: r ( r o ) 如。( 国) + ( 2 - 9 ) 其中第一部分为训练样本的经验风险,另一部分称作置信范围( c o n f i d e n c e i n t e r v a l ) 。 由于置信范围是函数集的v c 维( 厅) 和训练样本数目( ) 的函数,为了强调这 一特点,可把上式重写为: 8 ( r o ) 如口 ) + o ( n h ) ( 2 1 0 ) 当, h 较小时,置信范围较大,即用经验风险近似真实风险就有较大的误差。 6 ) 结构风险最小化 由上可知,传统机器学习方法中普遍采用的经验风险最小化原则在样本数目 有限时是不合理的,因为我们需要同时最小化经验风险和置信范围。有了式 ( 2 1 0 ) 的理论依据,我们就可以用另一种方法来解决这个问题,即首先把函数 集s = f ( x ,t o ) ,国q 分解为一个函数子集序列( 或叫子集结构) , sc 是c c 瓯c s ( 2 1 1 ) 使各个子集能够按照的大小排列,也就是按照v c 维的大小排列,即: 忽见玩 ( 2 1 2 ) i 御 弋j 彳o ,腿 图2 - 2 结构风险最小化示意图 间 这样在同一个子集中置信范围就相同,在每一个子集中寻找最小经验风险, 通常它随着子集复杂度的增加而减小。选择最小经验风险与置信范围之和最小 第2 章e i d d 及支持向量机方法简介 的子集,就可以达到期望风险的最小,这个子集中使经验风险最小的函数就是 要求的最优函数。这种思想称作有序风险最小化或者结构风险最小化( s t r u c t u r a l m s km i n i m i z a t i o n ,s r m 原则) ,如图2 2 所示。 实现结构风险最小化原则可以有两种思路。一是在每个子集中求最小经验 风险,然后选择使最小经验风险和置信范围之和最小的子集。但这种方法比较 费时,当子集数目很大甚至是无穷时不可行。因此有第二种思路,即设计函数 集的某种结构使每个子集中都能取得最小的经验风险( 如使训练误差为0 ) ,然后 只选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是 最优函数。支持向量机方法实际上就是这种思想的具体实现。 2 2 3 支持向量机 支持向量机是统计学习理论中最年轻的内容,也是最实用的部分。其核心 内容是在1 9 9 2 年以后提出的,目前仍处在不断发展阶段。 1 ) 广义最优分类面 s v m 方法是从线性可分情况下的最优分类面( o p t i m a lh y p e r p l a n e ) 提出的。 考虑图2 3 所示的二维两类线性可分情况。 图2 3 最优超平面的概念 图中的两种不同的圆圈分别表示两类的训练样本,h 为把两类没有错误地 分开的分类线,q 和皿分别为过各类样本中离分类线最近的点且平行于分类线 的直线,q 和之间的距离叫做两类的分类空隙或分类间隔( m a r g i n ) 。所谓最 东北电力人学硕上学位论文 皇曼i 一 一一一i 一一 一 i 鼍曼曼皇曼皇鼍鼍曼皇曼曼曼曼曼 优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类空 隙最大。前者是保证经验风险最小( 为零) ,而使分类空隙最大实际上就是使推 广性的界中的置信范围最小,从而使真实风险最小。推广到高维空间,最优分 类线就成为最优分类面。 设线性可分样本集为 ,只) , ,咒) f = l , - - - n ,x 屹,少 + i ,一1 。d 维空 间中线性判另i j 函数的一般形式为g ( x ) = w x + b ,分类面方程为: w x + b = 0 ( 2 1 3 ) 将判别函数进行归一化,使两类所有样本都满足k ( x ) l l ,即使离分类面最近的 样本的j g ( 圳= 1 ,这样分类间隔就等于2 l j w 0 ,因此使间隔最大等价于使0 w 8 ( 或 1 1 w l l 2 ) 最小;而要求分类线对所有样本正确分类,就是要求它满足 乃【( w t ) + b - i 0 i = 1 ,2 ,n ( 2 1 4 ) 因此,满足上述条件且使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论