(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf_第1页
(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf_第2页
(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf_第3页
(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf_第4页
(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(机械工程专业论文)基于vc和matlab混合编程的风电场风速预测系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕二f = 学位论文 摘要 随着全球能源危机的出现,世界各国都将目光投向了可再生能源。风能是一种 非常重要的清洁能源,它安全、环保,可以提供稳定、长期的资源供应。风力发电 是风能利用的主要形式,也是当前可再生能源技术中最成熟,最具有规模化开发条 件、商业化发展前景的发电方式之一。 风速预测一直是风电研究热点,如果对风电场的风速预测的比较准确,则有利 于调整调度计划,提高风电穿透功率极限,有效减轻风电对整个电网的不利影响, 降低电力系统的运行成本和旋转备用等,这样就可以在开放的i 电力市场环境下正确 的制定出电能交换计划。 本文将风速预测的理论和实践相结合,以支持向量机理论为基础。主要工作如 下:首先,通过m a t l a b 软件强大的数据处理功能,实现支持向量回归机法预测 风速:然后对支持向量回归机的建模方法进行深入研究。 风速具有较大的随机性,特征提取具有一定困难,而且特征的选择也有很大的 主观性,容易造成信息的不足或是冗余。本文为了提高风电场风速预测的精度,提 出了基于相空间重构的s v r 的风速时间序列预测方法。该方法首先对时问序列进行 相空间重构,然后利用重构的相空间中的相点作为特征输入,对模型进行训练。预 期该方法能够根据时间序列的内在规律,自适应的构造输入特征,使得风速预测的 精度和有效预测时间的长度大大提高。 最后在该方法基础上运用v c + + 高级语言编写该方法的可视化软件。充分发挥 m a t l a b 和v c + + 语言各自的优势,复杂的算法在m a t l a b 中实现,界面在v c + + 中编写,降低开发难度,缩短开发周期。通过v c + + 与m a t l a b 混合编程,达到高 效的程序开发过程和高效的程序执行速度。编写出的软件可以时时的添加、修改、查 询风速数据,数据直接存储到数据库中,最终实现风速在软件平台上的预测。 本论文在进行文献调研和资料研究的基础上,论述了风电场风速预测的意义和研究 现状,在分析传统风速预测方法的基础上,将支持向量回归机与相空间重构技术结合的 方法应用到风速预测中来,试图建立了基于相空间重构的s v r 风速预测新方法,希望 该方法能够根据时间序列的内在规律,自适应的构造输入特征,使得风速预测的精度和 有效预测时间的长度大大提高。并采用具有强大功能的编程语言:v c + + 和m a t l a b 为 平台,编写出一款风电场风速预测软件平台,希望有助于促进风电场风速预测的进步。 关键词:支持向量回归机;相空间重构;特征选择:风速预测 华:l l , g 力大学硕士学位论文 a bs t r a c t w i t ht h ee m e r g e n c eo ft h eg l o b a le n e r g yc r i s i s ,t h ew o r l dw i l lt u r nt h e i ra t t e n t i o nt o r e n e w a b l ee n e r g y w i n de n e r g yi sav e r yi m p o r t a n tc l e a ne n e r g y i ti ss a f e t y , e n v i r o n m e n t a l l y f r i e n d l y i tc a np r o v i d es t a b l e ,l o n g t e r ms u p p l yo fr e s o u r c e s w i n dp o w e r i st h em a i nf o r mo f w i n d ,a n di sc u r r e n t l yt h em o s tm a t u r e ,m o s tl a r g e s c a l ed e v e l o p m e n tc o n d i t i o n sa n d p r o s p e c t sf o rc o m m e r c i a ld e v e l o p m e n t w i n ds p e e df o r e c a s th a sb e e nah o tr e s e a r c h i ft h ef o r e c a s t sf o rw i n df a r m sa r em o r e a c c u r a t e ,i tw i l lh e l pt oa d j u s ts c h e d u l i n g ,t oi m p r o v ew i n dp o w e rp e n e t r a t i o nl i m i t ,t or e d u c e a d v e r s ee f f e c t so nt h ee n t i r eg r i de f f e c t i v e l y , t or e d u c eo p e r a t i n gc o s t sa n ds p i n n i n gr e s e r v eo f t h ep o w e rs y s t e m ,e t c t h i sy o uc a nw o r ko u tt h ec o r r e c te n e r g ye x c h a n g ep r o g r a mi na no p e n e l e c t r i c i t ym a r k e te n v i r o n m e n t i nt h i sp a p e r , w ec o m b i n et h et h e o r ya n dp r a c t i c eb a s eo ns v r m a i nw o r ki sa sf o l l o w s : f i r s t w eu s et h ep o w e r f u ld a t ap r o c e s s i n gc a p a b i l i t i e so fm a t l a bs o f t w a r et oa c h i e v es v r t op r e d i c tt h ew i n ds p e e d t h e nw es t u d yt h em o d e l i n go fs 躁i n d e p t h a st h er a n d o m n e s so fw i n ds p e e d ,f e a t u r ee x t r a c t i o nh a ss o m ed i f f i c u l t i e s ,b u ta l s o f e a t u r e ss e l e c t i o ni sa l s ov e r ys u b j e c t i v e e a s i l yl e a dt oi n s u f f i c i e n ti n f o r m a t i o no rr e d u n d a n t i no r d e rt oi m p r o v et h ea c c u r a c yo fw i n ds p e e df o r e c a s tt h ew i n ds p e e dt i m es e r i e s f o r e c a s t i n gm e t h o do fs v rb a s e do np h a s es p a c er e c o n s t r u c t i o ni sp r o p o s e d f i r s t ,w e r e c o n s t r u c tt h ep h a s es p a c eo ft h et i m es e q u e n c e ,a n dt h e nu s et h ep h a s ep o i n to f r e c o n s t r u c t e dp h a s es p a c ea si n p u to ff e a t u r e s ,a n dt r a i nt h em o d e l t h i sm e t h o dc a nb e e x p e c t e da c c o r d i n gt ot h ei n t e m a l 1 a w s o ft h et i m es e r i e sa n dc o n s t r u c t i n gt h ei n p u t c h a r a c t e r i s t i c sa d a p t i v e l y i tm a k e st h ep r e d i c t i o na c c u r a c ya n dt h el e n g t ho ft h et i m eo f p r e d i c te f f e c t i v e l yi n c r e a s e ds u b s t a n t i a l l y f i n a l l y , w eu s ev c + + t ow r i t ev i s u a l i z a t i o ns o f t w a r eo ft h em e t h o d i no r d e rt or e d u c e d e v e l o p m e n te f f o r ta n ds h o r t e nt h ed e v e l o p m e n tc y c l e f u l lm a t l a ba n dv c + + l a n g u a g et o t h e i rs t r e n g t h s w ei m p l e m e n tc o m p l e xa l g o r i t h m si nm a t l a ba n dw r i t ei n t e r f a c ei nv c + + t oa c h i e v et h ep r o c e s so fp r o g r a md e v e l o p m e n te f f i c i e n t l ya n dt h es p e e do fp r o g r a m e x e c u t i o ne f f e c t i v e l yt h r o u g hm a t l a ba n dv c + + m i x e dp r o g r a m m i n g y o uc a na l w a y su s e t h es o f t w a r et oa d d ,m o d i f y , q u e r yw i n dd a t a t h ed a t aa r es t o r e di nt h ed a t a b a s ed i r e c t l y u l t i m a t e l yw i n ds p e e di sf o r e c a s t e di nt h es o f t w a r ep l a t f o m t h i sp a p e rd i s c u s s e st h es i g n i f i c a n c eo fw i n ds p e e dp r e d i c t i o na n dt h er e s e a r c hs t a t u s b a s e do nl i t e r a t u r er e s e a r c h i nt h e a n a l y s i s o ff o r e c a s t i n gm e t h o d so ft r a d i t i o n a l ,a c o m b i n a t i o no fs v ra n dp h a s es p a c er e c o n s t r u c t i o ni sa p p l i e dt ow i n ds p e e dp r e d i c t i o n t l r v i n gt oe s t a b l i s han e wm e t h o do fw i n ds p e e df o r e c a s to fs v rb a s e do np h a s es p a c e r e c o n s t r u c t i o n t h i sm e t h o dc a nb ee x p e c t e da c c o r d i n gt ot h ei n t e r n a l l a w so ft h et i m es e r i e s a n dc o n s t r u c t i n gt h ei n p u tc h a r a c t e r i s t i c sa d a p t i v e l y i tm a k e st h ep r e d i c t i o na c c u r a c ya n dt h e 1 e n g t h o ft h et i m eo fp r e d i c te f f e c t i v e l yi n c r e a s e ds u b s t a n t i a l l y a n du s i n gap o w e r f u l p r o g r a m m i n gl a n g u a g e :v c + + a n dm a t l a b a sap l a t f o r mt ow r i t eap l a t f o r mo fw i n ds p e e d p r e d i c t i o ns o f t w a r et h a th e l p st op r o m o t et h ep r o g r e s so fw i n ds p e e df o r e c a s t k e y w o r d s :s u p p o r tv e c t o rr e g r e s s i o n ,p h a s es p a c er e c o n s t r u c t i o n ,f e a t u r es e l e c t i o n , w i n ds p e e df o r e c a s t 华北电力大学硕:j = 学位论文 1 1 国内外风电发展现状 第一章绪论 经济的高速发展伴随着长期居高的能源需求、温室气体减排、环境保护的艰巨 使命,特别是日本福岛第一核电站发生的核泄漏事故引起了人们的广泛关注,世界 各国对替代能源技术的选择更成了当务之急。在此背景下,风电等清洁能源产业的 发展前景更被看好。 欧洲一宜以来都是风力发电市场的领导者。截至2 0 0 9 年底,其累积装机总容 量达到7 6 5 5 3 万千瓦,占全世界风电总装机容量的4 7 9 ,超额完成了到2 0 1 0 年 风电装机容量达到4 0 0 0 万千瓦的目标。但2 0 0 9 年各国在新增装机容量方面,欧洲 开始失去多年的领先地位只占了2 8 2 ,而北美洲高达3 9 3 ,亚洲高达3 0 ,中 国和美国成了推动全球风电产业发展的火车头。欧洲风能协会2 0 l1 年在比利时首 都布鲁塞尔发表公报表示:欧盟计划在今后2 0 年投资4 0 0 0 亿欧元,以实施风电 :,7 卜+ 。, 7 、:东南东 5 、,7, 、,7 、1 ,j 1 1 2 5 j 、 ? 。、 。,? 、 南西 、 :1 ,南东 2 2 5 。 、,7、,7 1 3 5 。 南南西 i 一+ 南南东 2 0 2 5 。 雨 1 5 7 5 。 1 8 0 。 图2 2 风向玫瑰图 2 、风速 风速是通常风速仪在一个极端的时间内,在测风高度为l o m 测到的瞬时风速。 由于空气运动的湍流特性,致使风速在不停地随机变化。为研究方便起见,我们把 实际风速分解为平均风速和脉动风速2 3 】: 矿( f ) = 矿( ,) + v ( ,) ( 2 一1 ) 其中,v ( t ) 为瞬时风速,是指真实风速值。v ( t ) 为平均风速。v ( ,) 为脉动风速。 3 、风级 风级是根据风对地面物体或海面物体引发的各种现象,按强度等级来估计大小 的。英国人弗朗西斯蒲福( f r a n c i sb e a u f o r t ) 于1 8 0 5 年拟定了风速的等级。自1 9 4 6 年以来风力等级又做出了一些修订,由1 3 个等级改为1 8 个等级。 华北电力大学硕士学位论文 2 3 平均风速模型 2 3 1 平均风速 平均风速是指是指空间某个固定点在某个时间段内所有瞬时风速的平均值,我 国规范规定的时距是lo m i n l 24 1 。时距即测量时间间隔的大小决定了平均风度的大小。 由范德豪芬的实验得出,时间间隔如果取在l o m i n 到l h 范围内时,就可忽略湍流 引起的天气变化,因为此时功率频谱曲线比较平坦,用公式表示为: 矿= 击肌砌 f ,一,i ( 2 2 ) 我们通常将大气分为3 个区域:距离地面2 m 以内的区域称为地层;2 l o o m 的区域称为下部摩擦层,地层和下部摩擦层合称为地表层或地面边界层;10 0 2 0 0 0 m 的区域称为上部摩擦层;2 0 0 0 m 以下的区域总称为摩擦层或大气边界层; 2 0 0 0 m 以上的区域称为自由大气层。测量结果表明,低于l o o m 的大气层内,空气 的流动受到黏性、涡流和地面摩擦等因素的影响,靠近地面的风速较低,离地面越 高风速越大。在大气边界层中,风速沿高度的变化的曲线称为风廓线,变化规律称 为风切变律。风速廓线可采用对数律分布和指数律分布来表示。 a 对数律分布2 4 】 离地面低于1 0 0m 的表面层中,可以忽略剪切应力的变化,采用普郎特对数律 分布公式表示风速随高度的变化规律: 矿:鱼l n 三 庀 z o ( 2 3 ) 式中,矿是高度z 处的平均风速;儿是摩擦速度,一般取0 1 - - - 0 3 m s ;k 是卡 门常数,一般近似取o 4 ;z l ,是地表粗糙长度,不同地表情况有不同z d 值。 b 指数律分布2 4 】 用指数律分布计算风速廓线,计算时比较简单,是目前常采用的。可以表示为: 矿( 厅) = 矿( 似尝) ” ,7 ( 2 - 4 ) 式中,h 、h i 为离地高度;r ( h o 为离地面高度办,处的已知的风速;w 砂为未知 的离地面高度h 处的风速;门为风廓线指数,其值与大气的稳定度、地面的粗糙度 等因素有关,一般为l 8 1 2 。 不仅如此,随着昼夜的更替风速产生有规律的变化,称作风的日变化【2 4 1 。午后 太阳光的照射最强,地面吸收的热量达到最大值,空气增温,膨胀上升,致使高空 r 华北电力大学硕士学位论文 的冷空气向下沉。通常从地面到大约1 0 0 m 高的近地面层中,上层的风大于下层风。 由于上下气流的对流交换,上层中水平速度较大的空气传播到低层。在这股空气达 到地面之前,多少还保持着原来的较大风速,致使地面风速成为一天当中最高值。 此后,太阳照射逐渐减少,上下对流对地面的影响随之渐减,地面风速也随之减小, 一直到次日清晨日出之前,地面风速达到一天中的最小。 2 3 2 平均风速概率密度函数 平均风速的分布随时间和空问不断变化,具有一定的统计规律。根据已有的平 均风速历史数据,可以绘制出风速的概率密度曲线图。要得到准确的平均风速的概 率密度曲线,就需要大量的历史风速数据。有两种概率密度函数可以用来描述平均 风速的分布:威布尔q :布( w e i b u l l ) 2 4 埔1 瑞利分布( r a y e i g h ) 2 4 1 。前者可以表示为: p ( 石) :生( 兰) 川e x p 【_ ( 旦) t 】 c c c(2-5) k 是形状参数,c 是尺度参数。瑞利分布是威布尔分布在k = - 2 时的一个特例。 2 4 脉动风速模型 2 4 1 脉动风速 大气运动是一种随机的湍流运动。可以用数理统计的方法研究随机变化的脉动 风速。脉动风速概率密度函数非常接近于高斯分布,时间平均值为0 。根据式( 2 - 6 ) 可以看出,脉动风指空间某固定点上的平均风速值与瞬时风速值之间的差值: 矿( f ) = y ( ,) 一y ( ,) ( 2 6 ) 2 4 2 脉动风的统计特性 1 、湍流强度2 3 1 湍流强度反映脉动风速的相对强度,是描述风速随空间和时间的变化程度,即: 一( 甜3 + v 3 + w 3 ) 3 y ( 2 7 ) 式中,矿是平均风速;”,1 ,w 分别表示三个正交方向上的脉动风速分量。地 面的粗糙长度和离地面高度决定了湍流强度的大小。地面粗糙长度增加,湍流强度 增大:高度增高,湍流强度减小。 2 、湍流积分尺度1 2 3 】 湍流积分尺度说的是涡旋的平均尺度。大气的湍流运动由大气涡旋运动组合而 0 华北电力大学硕士学位论文 成,不同尺度的大气涡旋起着不同的作用。当空间两点出于同一个涡旋之中时,涡 旋的作用会增强,两点的脉动速度是相关的,他们之间的距离小于湍流积分尺度。 而两点常常处于不同的涡旋,涡旋作用会减弱,两点的脉动速度是不相关,他们之 间的距离大于湍流积分尺度。地面的粗糙长度和离地面高度影响了湍流积分尺度的 大小。它随地面粗糙长度增加而减小,随离地高度增加而变大。地面粗糙长度增加, 湍流湍流积分尺度减小;高度增高,湍流湍流积分尺度增大。 3 、湍流功率谱密度2 3 】 湍流功率谱密度描述了湍流中不同尺度的涡旋动能对湍流脉动动能的贡献,是 湍流脉动动能在频率空间上的分布密度。用于描述脉动风特性的功率谱有多种,包 括卡曼谱、泊诺夫斯基谱和卡门谱等【23 1 。其中,卡曼谱应用较多,即: 盯) = 勰 ( 2 - 8 ) s 为功率谱密度;仃为标准差:歹为测风高度处的平均风速,单位m s ;l 为 湍流积分长度。 2 5 极端风速模型 极端风很少出现,它有很严重的破坏作用。风力机设计及风况研究中必须考虑 极端风的破坏作用,包括极端平均风速和各种剧烈的阵风。极端风一般有下面几种: 寒潮大风、热带气旋、龙卷风等【24 1 。风力机标准中规定了一个每年平均风速的5 倍 的参考风速v r e f 2 5 】。轮毂高度上5 0 年极端风速是1 4 倍的v r e f ,年极端风速是5 0 年一遇极端风速的7 5 ,并且根据高度的不同按照指数为0 1 1 的幂函数来变化。 2 6 本章小结 本章主要介绍了与风和风速特性有关的基本概念。首先阐述了风是如何形成 的,因为有太阳辐射和地球自转风才得以形成,可以知道风能是取之不尽用之不竭 的。接下来介绍了风的一些表征,风向表示风的方向、风速表示风的大小,并给风 速规定了级别用来判断风的大小。由于空气运动的湍流特性,导致风速的随机变化, 最后将风速细分为三个方面进行了研究平均风速、脉动风速、极端风速。平均风速 随距离地面高度的增加而增大,它的大小随着季节的变换而变换,甚至在一天中也 是瞬息万变的。脉动风是平均风速与瞬时风速的差值,通过湍流强度、湍流积分尺 度和功率谱密度这几个方面描述了它的统计特性。极端风虽然很少出现,但它会对 构造物产生很严重的破坏作用,在研究中是必须考虑的。通过本章对风及风速特性 有了一个清晰的了解,为接下来风速预测方法的研究奠定了良好的基础。 1 0 华北电力大学硕士学位论文 第三章支持向量回归机风速预测 2 0 世纪9 0 年代,由v a p n i k 首先在统计学习理论基础之上提出了支持向量机 ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 理论【18 , 2 6 。s v m 是一种基于结构风险最小化原理 的机器学习技术,具有较好的泛化性能和精度,这种方法最初以分类问题提出,后 来人们将其运用于回归问题,取得了良好的效果,使支持向量机预测风速成为可能。 3 1 机器学习问题 基于数据的机器学习研究是现代智能技术的重要方面,该研究从样本数据出发 寻找规律对未来的数据进行预测。最基本的机器学习问题有三类:模式识别即分类、 函数逼近即回归估计和概率密度估计0 2 9 1 。大致可以将其实现方法分为三种:第一是 经验非线性方法,如人工神经网络;第二是经典的参数统计估计方法;第三是统计 学习理论【2 7 2 8 】( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 。 估计出系统输入与输出之间的依赖关系是机器学习的目的。可以描述为:x 变 量与y 变量遵循某一未知的联合概率f ( x ,y ) ,有未知的依赖关系。对于给定的行个 独立分布的观测样本: ( x l ,y 1 ) ,( x :,y 2 ) ,( ,此)( 3 1 ) 在一组函数 f ( x ,c o ) ) 中,为函数的广义参数,求出一个最优函数f ( x ,。) ,对 依赖关系进行估计,使期望风险最小: r ( o a ) = jl ( y ,f ( x ,) ) d f ( x ,y )( 3 - 2 ) l ( y ,f ( x ,c o ) ) 预测造成的损失。不同形式的损失函数,对应不同类型的学习问题。 学习的最终目标在于使期望风险最小。但是,由于联合概率f ( x ,y ) 未知,而且 无法计算得到期望风险r ( o ) 。于是采用经验风险最小化准则( e r m ) : 尺唧( 咖去喜坳( 硼( 3 - 3 ) 设计学习算法使( 3 - 2 ) 式的估计最小化,通过参数,用经验风险最小值去逼近 期望风险最小值。 用e r m 准则代替期望风险最小化这只是直观上想当然的做法,并没有经过充 华北电力大学硕士学位论文 分的理论论证。多年来,人们把工作集中在最小化经验风险上。即使可以假定玎趋 于无穷大时,经验风险逼近期望风险。实际问题中,很多的样本数目往往是有限 的。因此,在有限样本下e r m 准则得到的结果并不能保证真实风险最小。 3 - 2 统计学习理论 统计学习理论与传统统计学相比,是一种专门研究小样本的机器学习规律。 3 2 1v c 维 v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 是目前为止对函数集学习性能最好的 描述指标,是统计学习理论的一个核心概念。在模式识别方法中,v c 维是这样定 义的:对于给定的h 个样本,如果存在一个指示函数集,能够用函数集中的函数按 所有可能的2 厅种形式将这h 个样本分开,就称这个指示函数集能够把h 个样本打散, 它能打散的最大样本数目h 就定义为指示函数集的v c 维。若对给定的任意数目的 样本,都有函数集能将它们打散,则这个函数集的v c 维就是无穷大。 1 j 渺 图3 一lv c 维为9图3 - 2v c 维为2 图3 1 中9 个样本能完全被包含4 个分类超平面的函数集分开,所以该函数集 的v c 维为9 :而在图3 2 中图中函数集只能将9 个样本分为2 类,所以它的v c 维 等于2 。 v c 维反映出了函数集的学习能力,学习机器越复杂,v c 维越大。可惜的是, 我们目前只知道一些特殊函数v c 维的求解方法,对于任意函数集的v c 维,还没 有通用的计算理论。 3 2 2 推广性的界 经验风险和实际风险之间的关系就是推广性的界。指示函数集中的所有函数, 包括使经验风险最小的函数,实际风险尺 ) 和经验风险r e i n p ( c o ) 2 _ f 日q ,以至少l 一7 7 的 概率,满足如下关系: 1 2 华北电力大学硕士学位论文 尺( ) g e m p ( ) + h ( 1 n ( 2 n h ) + 1 ) - i n ( r 4 ) - ( 3 4 ) 玎是样本数,h 是v c 维。由上式( 3 4 ) 可以看出学习机器的实际风险分成两 部分:一是经验风险,二是置信范围。上式可以简化为: 尺( ) r 。( ) + y ( 3 - 5 ) 式( 3 5 ) 中l f ,指置信范围。在有限训练样本下,出现过学习的原因是,学习机器 复杂性越高,则置信范围越大,导致真实风险与经验风险之间的差别可能越大。机 器学习过程,不但要使使v c 维尽量小,还要经验风险最小,以便缩小置信范围, 3 2 - 3 结构风险最小化原则 由上结论得出,在有限样本时,e r m 原则不合理,置信范围和经验风险需要同 时最小化。其实,在传统方法中,训练样本如果选择了合适的模型,就可以取得比 较好的效果。但因为缺乏理论指导,这种选择只能依赖于先验经验和知识,过分依 为了解决上述问题,统计学习理论提出了一种新策略,即结构风险最小化 ( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 准则30 1 ,其中把函数集构造成为一个函数子集 序列。有两种思路实现s r m 原则: l 欠学习一卜过学习 i 、真实风险的界7 j ,7 。,j 、 一 、 , 一 一一一、 经验风险 rr 一卜、一 ? 。 一| | 誊,l t ) 1 、把整个函数集构造成s is :,s 。,即一个函数子集序列,排列各个子集v c 维大小,设h h ,h 。在子集中寻找最小经验风险,在子集间折中考虑置信 范围和经验风险,最终获得最小期望风险。如图3 3 所示,取& 时显然期望风险( 即 真实风险) 最小。显然当子集数目很大甚至无穷时这种方法比较费时,不可行。 2 、经验风险保持固定,并设计函数集的某种结构,使每个子集中都能找到经 验风险最小,即最小化置信范围。最后只需使置信范围最小,即选择适当的子集, 则最优函数就是,这个子集中使经验风险最小的函数。 上述第二种思想就具体体现了支持向量机方法。其一个优点就是不需要知道函 数集v c 维的具体值,只需知道不同函数集之间v c 维的相对大小。 3 3 支持向量机分类 3 3 1 最优分类超平面 线性情况下,最优分类超平面的思想可以用图3 4 的二维情况进行说明。图中, h 为分类面,空心点和实心点代表两类样本。h i 、h 2 为平行于分类面的平面,其 由各类中离分类线最近的样本所确定,其之间的距离为分类间隔( m a r g i n ) 。所谓最 优分类面就是要求将两类正确分开,训练错误率为0 ,分类间隔最大的面叫最优分 类超平面。支持向量就是指h i 、h 2 上对应的训练样本点。 h i 图3 4 最优分类超半囱 3 3 2s v m 分类 学习目标是构造一个判别函数,尽可能正确分类测试数据。 样本集和非线性样本集分别加以讨论【3 1 1 。 假定线性可分的大小为n 的训练样本集: t = ( 五,y ,) ,( 屯,儿) ,( 矗,y 。) ,x i r 4 ,y i ( 十1 ,一1 ) 1 4 下面我们针对线性 ( 3 6 ) 存在超平面h 可以表示为: x + b = 0 ( 3 - j 7 ) r d 为分类线方程的法向量,b r 。对于所有置满足下列不等式: x ,+ b l ,少,= l c o 工,+ b 一l ,y j = 一1 对上式我们可以进行归一化成如下紧凑形式: y j ( x ,+ b ) l ,i = l ,f 7 点x 到超平面h 的距离为: 分类间隔为: d ( 6 x ) = 可c o x 犷+ b ( 3 - 8 ) ( 3 9 ) ( 3 1 1 ) ) ( 3 - 11 ) 卜m 胪i + n 。d :,) + 巧m 圳i n d q一=产+l|cox旷,+bi+”m叫inrain(co,b,xi m i n ( c o , b , x r a i n 皆= 赢h ( 3 - 1 2 ) 卜胪+ 。 巧圳,片+ 一”- - l 督2 二 ) 使分类间隔最大就要使恻i 最小,同时使v c 维的上界最小,也就使所确定的指 示函数具有最好的泛化能力。确定最优超平面相当于构造最优的分类函数,构造:最 优分类超平面的问题也转化为在满足式( 3 5 ) 的约束条件下最小化泛函: m i n i 2 ( 3 一1 3 ) j ,y f ( x i + b ) l ,i = l ,r 这个二次规划问题有唯一的极小值点,这个优化问题的解是由一个拉格朗日泛 函的鞍点给出的: l ( c o , 6 ,a ) :翔卜主a i i ( vc o ) + 6 卜1 ( 3 - 1 4 ) 利用拉格朗日优化方法,把上述最优分类超平面的问题转化为w o l f e 对偶问题, 对a ;求解下列函数的最大值: 华北电力大学硕士学位论文 m a x 窆a ,一去窆彬一a 如j _ ) i = 1 二i 、j - 1 一 “y ,a ,= 0 ( 3 一l5 ) a j o ,i = 1 , a ir a j 为拉格朗日乘子。这是一个二次函数寻优的问题,在不等式约束下存在唯 一解。求得最优分类函数( 判别函数) 是 ( x ) = s g n ( w - x ) + 6 ) = s g n a ;y 舡,x ) + 6 + ) ( 3 一1 6 ) 以上都是讨论的线性情况,但是很多问题是非线性的。s v m 非线性特性实现过 程:把输入样本x 映射到高维甚至为无穷维特征空间h 中,使用线性分类器完成分 类。如果能够找到一个函数k ,使得k ( x ,x ,) = f ( x f ( x ,) ,那么,高维空间只需 进行内积运算 3 2 1 。在特征空间h 中构造最优超平面时,使用空间中的点积 f ( x f ( x ,) 代替f ( ) 。但在求解最优化问题和计算判别函数时不是先给出映射 o ( x ) ,而只需计算核函数,所以如何选择、构造核函数是十分重要的阎题。原空间 中的函数就可以实现这种内积运算,甚至没必要知道f 变换的具体形式,同时计算 复杂度却没有增加。此时目标函数( 3 1 5 ) 变为: m a x a i - - 去z y i y j a i a ,k ( x ,x j ) i = 1 - ,= l s j z y i a ,= 0 ( 3 17 ) ,= 1 a f 0 ,i = l ,胛 而相应的分类函数( 判别函数) 变成: 厂( x ) = s g n k , y ,x ( x ,x ) + 6 + ( 3 1 8 ) 判别函数就是支持向量机。支持向量机由训练集和核函数完全刻画。 3 3 3 核函数 据c o v e r 定理,要提高非线性样本的可分概率,可以通过非线性函数变换,把 输入空间的样本数据映射到高维的特征空间,如图3 5 。但是,映射到高维空间, 会引起“维数灾难”,应用核函数可以解决这个矛盾。非线性变换由核函数隐含 地实现,核函数的计算在输入空间中来进行,它没有在令人生畏的高维特征空间中 1 6 华北电力大学硕二l :学位论文 计算,最终只和输入空间中的样本的内积计算有关。这就是为什么核函数能够克服 “维数灾难”1 3 4 。 q ) ( x ) 样本空问x 特征空问y ll m ( o ) _ i i 獬似。) i 、 、 似引i 赫 1 、喇州 、i w 、 一,、 似)、 一 ( ) 、 图3 5 非线性变换 核函数是以内积的形式来定义的,使得非线性映射变成隐含的操作,只需k ( ,) 就够了。核函数、映射函数以及特征空间是一对应的,核函数k ( x ,y ) 确定了,就 隐含地确定了映射函数( x ) 及特征空间y 。核参数的改变,就隐含地改变映射函数, 从而改变样本数据予空问分布的复杂程度即改变维数。 如 3 2 文所指出,内积是描述相似性的工具。也就是说,对于某一类的样本 x 2 “,x :,x 。,现有一未知归属的样本x ,利用内积就可以描述x 和x ix :,x 。之 间的相似程度。实际上分类问题也就是一个度量相似性的问题,于是选择不同的核 函数,就选择了不同的相似性度量方式。不同的支持向量机有不同的核函数。只要 满足m e r c e r 定理的函数都可以作为核函数【35 1 。 m e r c e r 定理:核函数k ( x ,y ) 满足o ( x ) 驴( x j ) = k ( x ,x ,) 的充要条件:对任意满足 式( 3 - 2 0 ) 的函数g 俐,式( 3 2 1 ) 成立。 i g ( x ) 2 d x l 时,称为多元回归分析。回归问题就是寻找一个从输入空间到输出空间的映 射厂:j 尺,使得f ( x ) y 。进而求出输出值少,。 v a p n i k 为了讨论s v m 回归定义了s 不敏感误差函数,如图3 - 6 所示: 、 , 、 ? 1 一 一卜 一 图3 - 6s 不敏感误差函数 1 r 华北电力大学硕士学位论文 坳h k 刮一s 剖八爿锄 p 2 回 当s = 0 时,( 3 - 2 6 ) 式等同于绝对误差函数。误差小于s 时,忽略不计。误差:k 于s 时,误差函数的值为实际误差减去s 。可得这种误差函数中间有一个宽度为2s 的不敏感带,我们称为s 管道,或s 带。 回归分析中,我们的目的是寻找一个对训练样本数据集拟合得最好的平面,即 最优回归超平面。回归学习的样本点只有一类,所寻求的最优回归超平面,不是要 将样本点分得“最开”,而是样本点都在超平面内,即样本点离超平面的总偏差最 小。图3 7 给出粗略示意图。 、2 t 7 、: 碗 、 、! ! i 、 、 、 i | 、一、 迥吵、 、 、h 图3 - 7 最优i 到归超半向图不 落在边界上的样本点决定了最优回归超平面,如图3 7 中的被圆圈圈住的实心 点,称为支持向量。求得的函数关系y = f ( x ) 是线性函数,称为线性回归分析。反 之y = f ( x ) 是非线性的,称为非线性回归分析,非线性回归求解十分困难。图3 8 给出线性回归与非线性回归示意图。 线性回归 非线性回归 、 八、- 、- 、 、 、, l 、0 、 、 、1 、 、 - - 一 图3 8 线性回归与非线性回归图示 1 9 3 4 2s v m 线性回归 首先讨论s v m 线性回归,采用s 不敏感函数作为误差函数。 即所有样本点都落入s 管道中。对于训练样本集: t = ( 五,y 1 ) ,( 叠,y 2 ) ,( _ ,儿) ,x i r a , y i r 限定问题所需要寻找的回归函数f ( x 1 为线性函数,即: y = f ( x ) = ( c o x ) + b 司题就转化为一个二次凸规划问题,如下式: 总偏差为零时, ( 3 2 7 ) ( 3 - 2 8 ) m i n 圳1 1 2 s ,y ,一( x f ) 一b s( 3 2 9 ) ( x i ) + b y i s 然而实际问题中不可能所有样本点都恰巧落在管道中,常常会有噪音干扰。当 样本之间的距离大于s 时,就属于s v m 回归时的线性不可分的情况。此时,s 一不 敏感函数的基础上,引入松弛变量考,如图3 9 : o、 、 一。八、o jf 誊 、9 、。 眇0 o o 、f 、 。 : 、 j 虿| | 、h 图3 - 9 有偏离点的最优回归超平面示意图 对式( 3 2 9 ) 修改,得到一个新的二次凸规划问题: m i n 翔1 | 2 + c ( 考,+ 考? ) s ,y f 一( c o x i ) 一b s + i ( 3 3 0 ) ( x i ) + b y f s + 考? 考,考j 0 华北i u 力大学硕二l 学位论文 其中c 为事先给定的参数,考,对应于样本点在最优回归超平面的上方的情况, 考j i 对应于样本点在最优回归超平面的下方的情况。我们应用 k k t ( k a r u s h k u h n t u c k e r ) 条件,可求得上述问题的最优回归超平面。若所有的考,与 毒;i 都为零,( 3 3 0 ) 删1 - l 疋v i ( 3 2 9 ) 。定义拉格朗日函数: :翻卜c 窆( 毒i + 毒) 一芝a 知+ 考,一少j + ( c o x i ) + 6 ) 一 。 j 2 1i 2 1 。 ( 3 - 3i ) h 、 a j ( s + 考j + y ,一( c o 工i ) - b ) - ( r 7 i i + 7 7 7 ? ) & ,a j 为拉格朗日乘子,c 为惩罚系数,s 为不敏感损失值。对上( 3 - 31 ) 式 关于,b ,考,考;求偏导并令偏导为零,得到: 豢= 和飞 p 3 2 , 尝一# 飞比= 。 p 3 ;, 凳:c a ? 一叩;i :o ( 3 - 3 , 4 ) a 芒 “ 上述三式带入( 3 3 1 ) ,可以消去c o ,b ,考,考? ,7 7 ,7 7 7 得到: m i n 去芝( 仅卜a ,) ( 仅j a 从x ,x ,) + s 窆( a ) a ,) 一窆y ,( a 卜a ,) 盯主( a 卜a ,) :0 ( 3 - 3 5 ) 0 a - a ;c ,i :1 , 2 ,门 求解得到最优解a + = l ,a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论