(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf_第1页
(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf_第2页
(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf_第3页
(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf_第4页
(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)基于svm的梅雨量预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 删f 删 y 1 8 915 i l t l l 1 i i i f 。1 7 l l u l 近1 0 0 多年来全球气候变化日益剧烈,各种天灾接踵而至,夏季旱涝灾害是 其中重要灾害之一。长江中下游梅雨期资料对度量当地夏季旱涝是一项主要指 标,因此对梅雨总量的预测研究对研究长江中下游夏季旱涝情况有重要的意义。 如何通过观测有限个历史样本建立模型实现预测是寻找最优预测模型的重 要工作。统计学习理论是针对小样本情况下的机器学习理论,其核心思想是通 过控制学习机的复杂度实现对其推广能力的控制。在这一理论下发展起来的支 持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 以v c 维cd i m e n s i o n ) 和结构风险最 小化原贝j j ( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 为基础,解决了小样本、过学习、非 线性、高维数、局部小等许多实际问题。 时间序列预测是智能计算中主要研究课题之一。本文主要研究的重点是根 据近1 0 6 a ( 1 8 8 5 1 9 9 0 年) 长江中下游沿江梅雨期的梅雨总量数据和4 9 a ( 1 9 5 4 2 0 0 2 年) 泰州地区梅雨量数据,分别建立径向基核函数、多项式核函数的时间序列支 持向量机( s v m ) 回归模型,并采用网格寻优参数函数、遗传算法、粒子群优化 算法对模型的参数分别进行优化,然后对这六种模型的预测效果进行比较,选 择出最佳的模型。 关键词:梅雨,支持向量机,时间序列,网格寻优,遗传算法,粒子群优化 a b s t r a c t i nt h ep a s t10 0y e a r so rm o r e ,g l o b a lc l i m a t ec h a n g ei n c r e a s i n g l y ,a n dk i n d so f n a t u r a ld i s a s t e r sc o m eo n ea f t e ra n o t h e r ,a n ds u m m e rd r o u g h t sa n df l o o d sa r eo n eo f t h em a j o rd i s a s t e r t h ei n f o r m a t i o no fm e i y ui nm i d d l e l o w e rr e a c h e so fy a n g t z e r i v e ri sm a j o ri n d i c a t o r st om e a s u r ed r o u g h t sa n df l o o d si nt h em i d d l e l o w e rr e a c h e s o fy a n g t z er i v e ri ns u m m e r s op r e d i c t i o no fm e i y ut o t a li si m p o r t a n ti ns t u d y i n g d r o u g h t sa n df l o o d si nt h em i d d l e - l o w e rr e a c h e so fy a n g t z er i v e ri ns u m m e r h o wt oc r e a t eap r e d i c t i o nm o d e lb yo b s e r v i n gaf i n i t en u m b e ro fh i s t o r i c a l s a m p l e si sa ni m p o r t a n tw o r ko fe c o n o m i ca c t i v i t y s t a t i s t i c a ll e a r n i n gt h e o r y ( s l c ) f o c u s e so nt h em a c h i n el e a r n i n gt h e o r yo fs m a l ls a m p l e s i t sc o r ei st oc o n t r o lt h e g e n e r a l i z a t i o nl e a r n i n gm a c h i n eb yc o n t r o l l i n gt h ec o m p l e x i t yo fm o d e l s s u p p o r t i n g v e c t o rm a c h i n e ( s v m ) i sam e t h o do fm a c h i n el e a r n i n gb a s e do nv cd i m e n s i o na n d s t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l eo ft h es t a t i s t i c a ll e a r n i n gt h e o r y s v mh a s a d v a n t a g e si ns o l v i n gs m a l ls a m p l es i z ep r o b l e m si np r a c t i c a la p p l i c a t i o n s ,s u c ha s s m a l l s a m p l e ,n o n i i n e a r ,o v e rl e a r n i n g ,n ol i n e a r ,h i g h d i m e n s i o n a la n dl o c a l m i n i m u mp o i n t t i m es e r i e sf o r e c a s t i n gi so n eo ft h em a i ni e s e a r c h t o p i c si ni n t e l l i g e n t c o m p u t i n g a c c o r d i n gt or e c e n t1 0 6 a ( 1 8 8 5 1 9 9 0 ) d a t ao f t h em e i y ui nm i d d l e l o w e r r e a c h e so fy a n g t z er i v e ra n d4 9 “19 5 4 - 2 0 0 2 ) d a t ao ft h em e i y ui nt a i z h o u ,b u i l t s v m r e g r e s s i o nt i m es e r i e sm o d e lb a s eo np o l ya n dr b f ,a n du s e dp a r a m e t e rf u n c t i o no fg r i do p t i m i z a t i o n ,g e n e t i ca l g o r i t h m s ( g a ) ,p a r t i c l es w a r mo p t i m i z a t i o n ( p s o ) t oo p t i m i z et h em o d e lp a r a m e t e r s ,a n dt h e nc o m p a r a t i v ee f f e c t i v e n e s so ft h e s es i x p r e d i c t i o nm o d e l s ,a n ds e l e c tt h eb e s to n e k e y w o r d :m e i y u , s v m ,t i m es e r i e s ,g r i do p t i m i z a t i o n , g a ,p s o 目录 第一章绪论1 1 1 引言:1 1 2 国内外研究现状。1 1 2 1 梅雨量预测研究现状1 1 2 2 支持向量机回归研究现状3 1 3 研究背景及历史意义4 1 4 论文的组织结构。5 第二章统计学习理论与支持向量机7 2 1 统计学习理论7 2 1 1 经验风险最小化原则7 “ 2 1 2 统计学习理论的主要思想8 2 2 支持向量机1 1 2 2 1 支持向量机回归原理1 2 2 3 本章小结1 6 第三章基于s v m 的时间序列预测1 7o 3 1 时间序列概述1 7 3 1 1 时间序列的概念1 7 3 1 2 时间序列的种类1 7 3 2s v m 时间序列预测原理。1 8 3 3s v m 核参数的确定方法。1 9 3 3 1 网格搜索法1 9 3 3 2 遗传算法2 0 3 3 3 粒子群优化算法2 2 3 4 本章小结2 3 第四章特征向量的预处理2 5 4 1 变量的统计特征2 5 4 2 样本数据归一化方法2 7 4 3 本章小结2 8 第五章s v m 的时间序列模型在梅雨量预测中的应用2 9 5 1 长江中下游地区梅雨预测试验2 9 5 1 1 数据资料2 9 5 1 2 试验流程2 9 5 1 3 样本的构造。3 0 5 1 4 核函数3 0 5 1 5 核参数的选取。3 1 5 1 6 试验结果对比31 5 2 泰州地区梅雨量预测试验3 8 5 2 1 泰州地区梅雨量数据背景3 8 5 2 2 试验流程图3 8 5 2 3 样本的构造3 9 5 2 4 实验分析对比3 9 5 3 本章小结4 3 第六章总结与展望。4 4 6 1 总结4 4 6 2 展望。4 4 参考文献4 6 致谢51 附录一缩写词表5 2 附录二本文对应图表5 3 作者简介5 4 第一章绪论 1 1 引言 第一章绪论 近1 0 0 多年来天气变化异常厉害,而人类进入了工业革命后,环境污染日益 严重,更加剧了这一变化,如今地震、海啸、龙卷风、雷暴、干旱、洪涝等等 自然灾害频出,保护人类的生命财产安全越来越受到全球科研人员的重视。本 文主要利用支持向量机回归技术对梅雨量进行预测分析。 1 2 国内外研究现状 1 2 1 梅雨量预测研究现状 很早以前,我国就有关于梅雨时期气候特征的研究【l 】。解放后,关于梅雨 的研究有了很大进展。先后有高由禧【l 】的对1 9 4 6 年的梅雨进行了高空天气学分 析。程纯枢2 】指出梅雨期暴雨是很常见的。谢义炳【3 】对梅雨时期降水天气系统结 构进行了三维分析。六十年代徐群分析了1 8 5 5 年以来近八十年的梅雨特型4 1 。 许多研究工作表明,梅雨除了有显著年际变化外,还存在着明显的年代际 变化特征。章淹【5 】分析了近5 0 年江淮梅雨变化。指出2 0 世纪5 0 年代以后江淮梅 雨经历了集中降水期缩短、降水量减少等重大转变。王叶红等【6 】对1 9 5 1 1 9 9 8 年 长江中下游6 7 月降水进行分析发现近4 8 年来长江中下游降水存在3 个明显的 气候段:5 0 年代为多雨期,6 0 7 0 年代为干早期,8 0 9 0 年代为多雨期。在近一百 多年中,梅雨量的长期演变显示出存在5 段持续异常期:1 8 9 0 1 9 0 0 年梅雨量持续 偏少;1 9 0 6 1 9 1 9 年为异常丰梅期;1 9 2 8 1 9 3 7 年为出梅显著提早的少梅 期;1 9 5 8 1 9 6 8 年则为入梅迟,出梅早的异常少梅期;1 9 7 9 1 9 9 9 年出现具有很大年 际变率的梅雨偏多期。魏凤英等人的工作表吲7 】近百年长江中下游梅雨强度就 大尺度而言以1 9 4 1 年为界分成强、弱两种状态,但在不同尺度上还存在多个突 变点,梅雨强度年代际振荡在2 0 世纪5 0 年代以后有所加强。胡波等【8 】用近4 0 年 南京信息工程大学硕士学位论文 浙江省梅雨降水时间序列分析了浙江省梅雨年际、年代际的变化,结果表明梅 雨总量具有较稳定的年代际振荡,其周期分别为2 2 2 3 年和1 1 1 2 年。 近年来,人们开始关注气候系统的重要成员一海洋的作用。海洋热状况 的变化和海气相互作用被认为是引起短期气候变化的一个重要因素。海洋对梅 雨气候变化的影响也有不少研究工作。毛天松分析了北太平洋海温的作用【9 】。 指出北太平洋海温异常通过热成风作用,使西太平洋东西风带强度和副高位置 发生异常,造成长江中下游夏季风的异常。李峰、何立富分析了在2 0 世纪7 0 年 代中期前后长江中下游地区夏季降水的显著变化及其可能原因指出【1 0 1 :长江中 下游地区夏季降水有明显的年代际特征,它与西太平洋副高的关系也具有显著 的年代际变化。2 0 世纪7 0 年代中期以后长江中下游地区夏季降水明显增多,直 接原因是受西太平洋副高影响,而我国近海的海温作为热源强迫的作用在1 9 7 6 年以后变得显著起来,它可以使西太平洋副高位置偏南,强度增强。前冬和春 季的中东太平洋海温异常通过海洋过程影响夏季近海的海温从而强迫西太平洋 副高,使得长江中下游地区夏季降水异常。同时热带中东太平洋海温与东亚夏 季风间的关系也存在明显的年代际变化,1 9 7 6 年前两者关系不明显,1 9 7 6 年之 后两者关系密切。中东太平洋的海温异常通过该大气过程影响东亚夏季风变异, 从而造成长江中下游地区夏季降水异常。周丽等人l l l j 最近将1 8 8 5 年以来长江中 下游梅雨量和全球海温进行不同时间尺度的周期带通滤波,并分析了其相互间 的关系,发现两者的相关要比滤波前显著,特别是年代际振荡的相关十分显著。 指出特定周期带的海温年际和年代际振荡对长江中下游梅雨都有较明显的影 响。黄荣辉【1 2 】,n i t t a 1 3 】从西太平洋暖池海温演变入手,来建立它与未来副热带 高压位置的关系以预测江淮流域降水。陈烈庭【1 4 】,符祟斌【1 5 1 研究了厄尔尼诺现 象和赤道东太平洋海温距平对北半球环流及江淮早涝的影响。王斌【1 6 1 等人从中 太平洋与东亚季风遥相关的角度讨论了e n s o 影响中国南方和日本东部夏季旱 涝的物理机制,间接地讨论了影响梅雨的物理机制。杨修群【1 7 】指出4 6 月赤道中 东太平洋海温偏高( 偏低) ,则6 月长江流域偏旱( 偏涝) 。最近,艾锐秀等【l8 】建立 2 第一章绪论 了一个海温与夏季副高物理联系模型,他们认为当太平洋海温呈厄尔尼诺分布 型,夏季副高将加强西伸,但是没有给出这一过程的作用机制。陈菊英分析了 春季南方涛动和初夏南海高压对长江中下游夏季洪涝的影吲1 9 1 。分析表明,南 海高压的信号比春季南方涛动还要强。 气候系统有着诸多的组成部分,积雪、海冰的变化对气候系统的影响也正 日益受到全球的关注。 以上综述了梅雨特征及影响梅雨气候变化因子的一些研究工作。日本、韩 国对梅雨也有着相当深入的研究,不但有关于梅雨世纪变化的研究,甚至还重 建了小冰期时的梅雨资料,使用统计技术来分析日本梅雨降水、日照、地表气 温等要素,以了解其旱涝特征。 前面人们的研究主要是集中在影响梅雨的一个或多个特征因子上,或者利 用统计学的方法把这些已经知道的影响因子集合起来分析( 需要有大量的历史 数据) 。但这样分析有其一定的局限性,随着气象科学的发展,人类对影响梅雨 的因子的认知也肯定越来越多。所以在现阶段无法找出影响梅雨的所有因子, 利用老方法也就无法真实的模拟出梅雨量这一模型。而本文利用时间序列支持 向量机技术可以很巧妙的避开这一问题。 1 2 2 支持向量机回归研究现状 回归分析,又称为拟合分析,是数理统计学中应用最广泛的一个分支,是 分析数据寻求变量之间关系的一种有力工具。它的发展已有将近2 0 0 年历史,从 高斯提出的最小二乘法开始,随着在现实中的深入应用,回归分析也在不断的 快速发展。正是由于它在现实中被广泛地应用于工业、农业、经济、保险、生 物、交通运输业、教肓学、工程技术和社会科学等领域,使得任何一种新兴的 学习算法都想尽可能的来分析这一问题。因此,多年来有许多科学家对回归分 析方法的理论和应用进行了研究和探索,得出了许多种关于回归方面的方法( 例 如:最小二乘回归法、主成分回归方法、岭回归方法、逐步回归方法、偏最小 二乘回归法、l o g i s t i c 回归方法、稳健回归方法、投影寻踪回归方法、近邻回归 南京信息工程大学硕士学位论文 方法等等) ,并把它们应用到解决一些实际问题中,且取得了一定的成果。尽 管应用这些方法能解决一些实际题,但是它们各自在处理问题时只是在某些方 面有一定的优势,而在其它方面还是存在一些欠缺。尽管它们存在各自不同的 缺陷,但目前这些方法在国内外仍得到了充分的重视和比较广泛的应用。 传统的机器学习算法都以经典统计数学的渐近理论为依据。该理论的大数 定理规定:统计规律只有在己知样本数无限多时才显露出来。但实际工作中已知 样本数总是有限的,忽视这一矛盾是造成实际计算中过拟合弊病的重要原因。 针对经典统计数学这一弱点,v a p n i k 学派提出了“统计学习理论”和“支持向量机 ( s u p p o r tv e c t o rm a c h i n e ,s v m ) t 2 0 1 。支持向量机最初主要用于分类方面。其实, 在小样本时它也可用于回归研究,并且具有很好的泛化能力。它既能处理非线 性回归问题,又能抑制传统回归方法( 如最小二乘回归法等) 常遇到的过拟合弊 端。当这种理论应用于回归分析时就是所谓的支持向量回归( s u p p o r tv e c t o r r e g r e s s i o n ,s v r ) 理论,s v r 在国外应用的比较广泛,已被广泛应用于生物学、 医学、环境保护、信息技术、农业、交通运输、工程技术、化学化工、物理学、 工业制造业、商业等领域。它遵守结构风险最小化原则,与其它各种回归方法 相比,具有更强的泛化能力,是目前泛化能力最强的一种方法。目前,国内外 将此方法应用具体的实验数据处理的研究很多,但对于某一特定的数据,没人 能找到一个通用的支持向量机模型。因此,本文旨在找到一个合适的梅雨量预 测的支持向量机回归模型,为梅雨量的预测提供另一种可靠的方法,提高梅雨 预测的准确性。 1 3 研究背景及历史意义 梅雨是我国长江中下游地区特有的天气气候现象,它的出现是和大范围雨 带南北位移紧紧相连的。进入初夏,从热带海洋北上的暖湿空气常常伸展到长 江中下游地区,有时到达淮河及其以北地区,与从北方南下的冷空气在这一地 区相遇,它们势均力敌,互不相让,处于“拉锯”状态,形成一条稳定的降雨带, 导致绵绵阴雨天气。冷暖空气交界面,在气象上叫锋面,导致梅雨的这个锋面 4 第一章绪论 叫做梅雨锋。梅雨期间,有时有瓢泼大雨倾盆而下,出现局地或区域性暴雨。 在一般情况下,梅雨期暴雨的强度不及台风暴雨强度那么大,但由于这个时期 冷暖空气交汇频繁,使暴雨出现的机会较多,持续时间长。暴雨引起江河泛滥、 淹没庄稼、房屋,桥梁铁路以及通讯被中断,还引发山洪爆发、泥石流等次灾 害。对人民生命财产安全和造成经济损失是相当巨大的。特别是1 9 9 1 年江淮流 域持续性暴雨是近百年来罕见的。这一年,梅雨天气出现早,持续时间近2 个月, 雨量集中,强度大,比常年同期偏多1 3 倍。这次异常梅雨造成的洪涝灾害还波 及到湖北、河南、湖南、上海和浙江的部分地区【2 1 1 。 每到汛期,气象部门高度重视梅雨期间暴雨预报,及时发布暴雨预报信息, 为减灾防灾保护人民的生命财产做好各项气象服务。本文在徐群等提供l1 6 年长 江中下游的梅雨【2 2 1 数据的基础上,利用支持向量机对梅雨量进行回归预测研究, 为研究长江中下游地区旱涝情况提供了另外一种可靠的方法。 1 4 论文的组织结构 本论文在较深入了解支持向量机技术的研究背景和研究现状的基础上,开 展基于s v m 的梅雨量预测模型的研究,先对实际的梅雨数据进行预处理,然后 建立时间序列支持向量机模型,核参数的选取分别采取网格寻优算法,遗传算 法,粒子群优化算法,本文以找出预测效果最好的模型为目标。 本文章节及内容安排如下: 第一章绪论。主要分析了国内外支持向量机技术的发展情况,基于s v m 的 梅雨量预测模型的研究方向,以及进行这样研究在现时期所具有的历史意义。 第二章统计学习理论与支持向量机技术。主要介绍统计学习基本概念和理 论,在此基础上详细地介绍了支持向量机的基本知识和支持向量机回归理论。 第三章基于s v m 的时间序列预测。主要介绍什么是时间序列预测,研究遗 传算法,网格优化算法,粒子群优化算法的基本原理,并提出基于这三种算法 对s v m 参数进行优化的方法。 第四章特征向量的预处理。主要介绍回归过程中变量统计特征及样本数据 s 南京信息工程大学硕士学位论文 归一化方法。 第五章s v m 的时间序列模型在梅雨量预测中的应用。详细介绍样本的构 造,核函数的选取,核参数的选取。并利用不同算法构造出的支持向量机模型 对近1 0 6 a ( 1 8 8 5 1 9 9 0 年) 长江中下游沿江梅雨期的梅雨总量数据进行试验,并 比较这些模型的预测结果,找出效果最好的模型,验证最好模型的应用可行性。 第六章总结与展望。主要总结了本文研究的工作及创新点,提出了未来的 研究方向。 6 第二章统计学习理论与支持向量机 第二章统计学习理论与支持向量机 基于数据的机器学习是现代智能技术的重要方面,其重要理论基础是统计 学。与传统统计学相比,统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l d 是一种 专门研究小样本情况下机器学习规律的理论,为机器学习问题建立了一个较好 的理论框架,发展了一种新的通用学习算法一一s v m s v m 能较好的解决小样 本学习问题,在模式识别、回归估计和信号处理等问题中展示了优秀的性能。 2 1 统计学习理论 2 1 1 经验风险最小化原则 根据v a p n i kv 所著的s t a t i s t i c a ll e a r n i n gt 1 1 e o r y 一书【2 3 】,机器学习问题可以概 括为:假设输入x 与目标输出y 之间存在某个未知的依赖关系,即遵循某一未知 的联合概率p ( x ,y ) ( x 和y 之间的确定性关系可以看作是其特例) ,机器学习问题 就是根据,个独立同分布观测样本g 。,y 。) ,g :,y :) ,g ,j ,) 学习到一个假设 h = f ( x ,w ) 作为预测函数,其中w q 是广义参数,它对尸g ,y ) 的期望风险 r ( w ) = 旺( y ,厂g ,w ) ) d p ( x ,y ) ( 2 1 ) 最小,其中,上( y ,f ( x ,w ”为由于用f ( x ,w ) 叉e y y 预测造成的损失,不同类型的学 习问题有不同形式的损失函数。 要计算( 2 1 ) 式中的期望风险,必须依赖关于联合概率p ( x ,y ) 的信息。但是, 由于我们可以利用的信息只有有限的样本,( 2 1 ) 式中的期望风险无法直接计算 和最小化。因此,传统的学习方法中采用了所谓经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o n ,e r m ) 准则,即用有限的样本定义经验风险: r e r a p g ) = 专三,f ( x i ,w ” j = l ( 2 - 2 ) 用于逼近( 2 1 ) 式所定义的期望风险。通过求经验风险尺唧 ) 的最小值代替求期 7 南京信息工程大学硕士学位论文 望风险r ( w ) 的最小值,就是所谓的经验风险最小化原则。各种基于数据的传统 回归方法,如多元线性回归、神经网络等,实际上都是在经验风险最小化原则 下提出的。 事实上,用经验风险最小化准则代替期望风险最小化并没有经过充分的理 论论证,只是直观上合理的想当然做法,但这种思想却在多年的机器学习方法 研究中占据了主要地位。人们多年来将大部分注意力集中到如何更好地对经验 风险最小化,而实际上,经验风险最小化原则却存在明显的缺陷: 只有当样本趋于无穷多时,根据概率论的思想,才有 i m r 绷,( w ) = r ( w ) 。 r 。, ) 最小时的参数值喝与r ( w ) 最小时的参数值w 无法保证是同值。 因此,可以看到:经验风险r 哪( w ) 的最小,并不能保证实际风险r ( w ) 的最 小。某些情况下,当训练误差过小反而会导致实际风险的上升,这就是某些机 器习方法中出现的所谓过拟合( o v e r t i t t i n g ) i h - j 题。如在神经网络中,如果对于有 限的训练样本,采用复杂的网络结构,使得算法的学习能力过强,足以记住每 一个训练样本,此时经验风险很快就可以收敛到很小甚至为零,但却无法保证 它对未来新样本能够得到好的预测。这就是经验风险最小化原则的不足之处。 这个时候,需要一种能够指导在小样本情况下建立有效的学习和推广方法的理 论。统计学习理论就是基于这个目的提出来的。 2 1 2 统计学习理论的主要思想 统计学习理论研究了有限样本条件下有关经验风险与期望风险之间关系等 问题,并据此提出了结构风险最小归纳原理,克服了以往经验风险最小化原则 的缺点1 2 4 1 。统计学习理论的核心内容就是研究小样本统计估计和预测的理论, 主要内容包括四个方面: 经验风险最小化准则下统计学习一致性的条件; 在这些条件下关于统计学习方法推广性的界的结论; 在这些界的基础上建立的小样本归纳推理准则; 8 第二章统计学习理论与支持向量机 实现新的准则的实际方法( 算法) 。 其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是 v c 维。 v c 维 统计学习理论定义了一系列有关函数集学习性能的指标,其中最重要的是 v c 维。v c 维的直观概念就是由函数集能够“打散”的最大样本数目。即:对一指 示函数集,如果存在,个样本能够被函数集中的函数按所有可能的2 7 种形式分 开,则称函数集能够把,个样本打散,函数集的v c 维就是它能打散的最大样本 数目;若对任意数目的样本都有函数能将它们打散,则函数集的v c 维是无穷大。 简而言之,v c 维描述了组成学习模型的函数集合的容量,刻画了此函数集合的 学习能力。v c 维越大,函数集合越大,其相应的学习能力就越强。遗憾的是, 目前尚没有通用的关于任意函数集v c 维计算的理论,只确定了一些特殊的函数 集的v c 维。另外,对于一些比较复杂的学习机器( 如神经网络) ,其v c 维除了与 函数集( 神经网结构) 有关外,还受学习算法等的影响,其确定更加困难。 推广性的界 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险 之间的关系,即推广性的界。关于回归估计问题,结论是:对指示函数集中的所 有函数( 包括使经验风险最小的函数) ,经验风险r 啪“) 和实际风险r ( w ) 之间至 少以1 7 7 的概率满足如下关系: 尺( w ) 尺唧( w ) + l ( 2 - 3 ) ) = ( 2 4 ) 以上两式中,h 是函数集的v c 维,是样本数。似,) 为置信区间,它和学 习机器的v c 维及训练样本数有关。在有限训练样本下,当样本数l 固定时,学习 机器的v c 维越高( 复杂性越高) ,则置信范围越大,此时,真实风险与经验风 9 南京信息工程大学硕士学位论文 险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过 程不但要使经验风险最小,还要使v c 维尽量小,以缩小置信范围,才能取得较 小的实际风险,即对未来样本有较好的推广性,它与学习机器的v c 维及训练样 本数有关。 0 结构风险最小化 根据风险估计公式( 2 - 3 ) ,如果训练样本数目z 不变,则控制风险r ( w ) 的参 量有两个:尺。,( w ) 与厅,其中,经验风险r 唧) 依赖于学习机器所选定的函数 h = f ( x ,w ) ,这样,可以通过控制广义参数w 来控制经验风险;v c 维h 依赖于 学习机器所工作的函数集合。为了获得对h 的控制,可以将函数集合结构化, 建立h 与各函数子结构之间的关系,控制函数结构的选择以实现对h 的控制。可 见,在保证分类精度( 经验风险) 的同时,降低学习机器的v c 维,可以使学习 机器在整个样本集上的期望风险得到控制,这就是结构风险最小化( s t r u c t u r e 黜s km i n i m i z a t i o n ,s r m ) 的由来。 由v c 维的讨论可以看到,经验风险和期望风险依赖于学习机器函数族的选 择。把函数集s = 扩g ,w ) ,w q ) 分解为一个函数子集序列: s lcs 2c cs ic cs( 2 - 5 ) 使各个子集能够按照置信范围,) 的大d , 排y u ,也就是按照v c 维的大小排 列,即: 魄h2玩(2-6) 所谓结构风险最小化,便是构造一组嵌套的函数子集,使得其v c 维由内向 外依次递增,然后在其上寻找经验风险和置信范围之和最小的子集,从而使得 实际风险的上界最小化,如图2 1 所示。 1 0 第二章统计学习理论与支持向量机 风险 2 2 支持向量机 欠学习 过学习 函数集子集;s 1 c s z c s l v c 维:h l 如 h 3 图2 1 结构风险最小化图 支持向量机,是统计学习理论中最年轻的内容,也是最实用的部分。其核 心内容是在1 9 9 2 至u 1 9 9 5 年间提出的。支持向量机方法是v a p n i k 等人根据统计学 习理论提出的一种新的机器学习方法,它以结构风险最小化准则为理论基础, 通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到 最小,保证了通过有限训练样本得到的小误差回归模型,对独立测试集的测试 误差仍然较小。因而,它是一个具有最优回归能力和推广能力的学习机器。支 持向量机方法的几个主要特点为: 支持向量机方法是基于统计学习理论的结构风险最小化准则,与传统的 机器学习方法不同,它不仅使经验风险最小而且通过寻找最大间隔分界面来控 制模型的复杂度,从而有效地避免了过拟合现象,为模型选择的问题提供了很 好的思路; 它是专门针对有限样本情况下,其目标是得到现有信息下的最优解而不 仅仅是样本数趋于无穷大时的最优解; 南京信息工程大学硕士学位论文 0 支持向量机方法最终转化为在线性条件下的凸二次优化问题,从理论上 说,找到的极值点是全局最优点,解决了在神经网络方法中无法避免的局部极 值问题; 支持向量机方法将实际问题通过非线性映射变换到高维的特征空间,在 高维空间中,通过构造线性判别函数来实现原空间中的非线性判别,特殊性质 能保证机器有较好的推广能力,同时它巧妙地解决了维数问题,这在一定程度 上解决了特征维数过大所导致的维数灾难问题。 支持向量机最初主要用于解决分类问题,后来又不断扩展到其它领域,并 且产生了很好的效果。近几年随着理论上的研究和应用上的不断推广,支持向 量机开始用来解决回归问题,在回归建模方面也有较好地应用。 2 2 1 支持向量机回归原理 s v m 方法可以很好的应用于回归预测,在回归预测问题中仍保留了最大间 隔算法的主要特征:非线性函数可以通过核特征空间中的线性学习器得到,同时 系统的容量由与特征空间的维数不相关的参数控制。 由于非线性回归问题的解决基于线性的基础之上。所以在介绍非线性回归 问题前,我们将先介绍线性回归问题的算法【2 5 】。 假定样本g ,y 。x g ,y ,) 服从某种概率分布p g ,y 融r ”,y 尺) ,线性回归 的问题就是求线性回归函数: 厂b ) = + 6( 2 - 7 ) 使其能够很好的拟合一个给定标记为】,互r 的训练点集s ,使得 只= f c ( x ,y ,厂舻( x ,y )( 2 8 ) 最小,其中c 为损失函数。 从几何角度将就是寻找一个拟合给定点的超平面。图2 1 显示了一维线性回 归函数。图中显示为尾的距离为某个训练样例的误差。 1 2 第二章统计学习理论与支持向量机 、王 x 图2 2 一维线性回归函数 这个问题从1 8 世纪开始研究,最著名的是最小二乘法,它能在线性目标被 高斯噪声干扰的情况下获得最优结果。数值稳定性和泛化性的考虑促使介绍该 技术的一个改进,它类似分类情况下的最大间隔超平面:选择一个使得误差平方 和权重向量w 的范数最小的函数。这个由h o e d 和k e m a r d 提出的解就是岭回归。 s v m 通过引入可选择的损失函数开始应用与回归问题,( s m o l a ,1 9 9 6 ) ,引 入损失函数后,它可以忽略真实值某个上下范围内的误差。 粼a s v c ,由于尸g ,y ) 未知,不能直接最小e r y ,因此考虑最小化: r r e g 【厂】- r 唧l 厂】+ a l 2 = c g ,y ,厂) + a i | 叫1 2 ( 2 9 ) t = l 其中:允为正则常量,c g ,y ,f ) 为损失函数,常用的损失函数有:s 一不敏感 损失函数、二次函数、h u b e r 损失函数和l a p l a c e 损失函数口。其中s 一不敏感损 失函数具有较好的性质而得到广泛的应用。 以s 一不敏感损失函数为例说i j f j s v r 。g 一不敏感损失函数rg ,j ,厂) 定义 为: e ( x ,y ,厂) = i y - f ( x ) i 。= m a x ( o ,l y - f ( x ) - s 1 ) , 这里厂是域x 上的实值函数,y 是观测值。该定义指出当x 点的观测值y 与 南京信息工程大学硕士学位论文 预测值厂之间的误差不超过事先给定的小正数时,认为该函数对这些样本点 的拟合是无差错的。 s 一不敏感损失函数支持向量回归( 一s v r ) 的标准形式( v a p n i k ,1 9 9 5 ) 是: m i n 昙ow | 1 2 + c 圭g ,+ 考j ) ( 2 1 0 ) y f 一 一b s + 约束条件: + 6 - y 。s + 考】:( 2 11 ) 考,考? 0 ,江1 , c 为惩罚因子,c 越大,表示对错误的惩罚越大,考,毒j 为松弛变量,g 为 不敏感损失函数。代价函数( 2 4 ) 为凸二次问题,约束( 2 5 ) 是线性函数,所以 第二章统计学习理论与支持向量机 求得a ,a 0 由k k t 条件知,对最大间隔分类情况,最优解必须满足等式: 口+ y l ( ( w ,x ,) + b ) 一1 j = 0 ,f = l ,2 , ( 2 1 3 ) 而对线性s 不敏感回归函数,最优解解结构是: a l ( w ,x ,) + 6 一y f s 一毒f 】= o ,f = 1 , 2 , ( 2 1 4 口? 陟,一 ,t ) 一b s 一毒? 】= 0 ,f = 1 ,2 , ( 2 1 5 ) 毒。4 7 = o ,口,a ? = o ,i = 1 , 2 , ( 2 - 1 6 ) ( 口。一c 培。= o ,( 口? 一c 旁? = o ,i = 1 9 2 , ( 2 1 7 ) 从解的结构信息知,最靠近超平面的点a i 非零,所有其他点对应的a ,为零。 口非零的点即为支持向量( s u p p o r tv e c t o r ,s v ) 。在权重表达式中,只有这些点包 括在内。此外,由解的结构表达式,利用任意训练数据,可求得b ,为了结果 的准确性,我们对所有支持向量计算b ,然后求平均值: b = a v e r a g e k 馨。+ y 。一。( 口。一口;k ( x ,x 。) ( 2 1 8 ) 其中:5 。= f ( x 。) 一y 。 从而得到未来样本的预测函数: g ) = ( 口,一口壤,x ) + 6 ( 2 1 9 ) 对于非线性回归问题,可以用核函数代替内积将数据映射到高维特征空间。 在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,即高维空 间的线性回归与原空间的非线性回归是对应的。引入核函数后二次规划问题为: 一 一s 圭( 口,+ 口? ) + 圭g 卜口,) y im 昙圭( 口卜口。k 卜口,运g ,_ ) ( 2 2 0 ) 【 l 兰l1 = 1 - l ,= jj 约束条件: 圭( 口卜口,) :o ,o 口f ,口墨c ( 2 - 2 1 ) 从而回归函数可以表示如下形式: 1 5 南京信息工程大学硕士学位论文 厂g ) :圭( 口,一口? k g ,x ) + 6 2 3 本章小结 理。 ( 2 2 2 ) s v m 是本文研究的理论基础,本章介绍了统计学习、s v m 和支持向量机回归的基本原 第三章基于s v m 的时间序列预测 第三章基于s v m 的时间序列预测 3 1 时间序列概述 时间序列是某种统计指标的数值按照时间先后顺序排列起来的数列。在时 间序列中,每个时期数据的大小,都受许多不同因素的影响。时间序列预测是 一种分析历史数据随时间的变化趋势,构造时间序列模型,再把模型外推来预 测目标的未来值的一种方法。 3 1 1 时间序列的概念 时间序列是指同一种现象在不同时间上的相继观察值排列而成的一组数字 序列。时间序列是随时间变化的序列值或事件,时间序列数据库是指由随时间 变化的序列值或事件组成的数据库,这些值或事件通常是在等时间间隔测得的 【2 6 】 o 时间序列由两个基本要素组成:一个是现象所属的时间,另一个是现象在各 个不同的时期内所达到的水平。 3 1 2 时间序列的种类 按照组成时间序列的两个基本要素对时间序列进行分类,可以进行两种方 式的分类。 首先,把时间序列按照指标的性质不同进行分类,可以分为绝对数时间序 列、相对数时间序列和平均数时间序列。其中,绝对数时间序列是基础序列或 者称为原始序列,相对数时间序列和平均数时间序列是在绝对数时间序列的基 础上加工计算得到的川。 其次,把时间序列按照时间连续性的不同进行分类,又可分为连续时间序 列和离散时间序列。如果数据序列是连续的,称为连续时间序列;如果数据序列 是离散的,则称为离散时间序列。 1 7 南京信息工程大学硕士学位论文 3 2s v m 时间序列预测原理 假设系统采样得到的输出时间序列为x ix :,x 。,一为第f 次采样值,该输 出序列也是对未来值进行预测时的输入序列。时间序列预测就是根据时间序列 的历史观测值对未来某一时刻的取值进行估计,即寻找未来时刻的取值与历史 观测值之间的关系【2 7 五8 1 。设输入x = g r _ l ,x h ) ,基于s v m 时间序列预测模型 的建立就是寻找如下关系: f :r 。专r ,矗= 厂g n ,x m ) = 厂g ) ,丁= 1 , 2 , ( 3 - 1 ) k 为嵌入维数,x ,为根据丁时刻的前k 个值的预测值,根据s v m 理论,时间序 列模型的建立也即寻求如下的表达式成立: 厂g ) :圭( 口,一口泓( x ) + 6 ( 3 2 ) 在训练回归模型时,组成如下的训练样本对:输入b 。,x :,x 。) 对应某一时 刻的输出为k + 。) ,g :,x ,x ) 对应k + :) ,并依此类推,由,个训练样 本就可以构造,一k 个训练样本对。当模型训练完成后,对未来值第1 步预测的形 式为: x ;+ 。= 厂g x r r ) ,第2 步预测为:x ;+ := 厂g n ,x r 也。) ,后续以此类推,此 为单步预测。如果第2 步预测为:g ;+ :) = g ;巾,_ 小。) ,后续以此类推,则 为多步预测,本文主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论