已阅读5页,还剩46页未读, 继续免费阅读
(概率论与数理统计专业论文)基于支持向量机的时间序列预测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文独创性声明 本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文中除特别加以标注和 致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果,其他同志的研究成果对本人的 启示和所提供的帮助,均已在论文中做了明确的声明并表示谢意。 学位论文作者签名:熬圣 学位论文版权的使用授权书 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及学校有 权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权 辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库并进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质 论文的内容相一致。 保密的学位论文在解密后使用本授权书。 学位论文作者签名: 羞蠢垒指导教师签名:细蔓生 一 签名日期:m 0 年j 月多。日 辽宁师范大学硕士学位论文 摘要 时间序列预测是人工智能与数据挖掘中主要研究课题之一如何通过观测有限个历 史样本建立模型实现预测是整个经济活动的重要工作时间序列预测的方法很多,如传统 的时间序列分析方法和神经网络方法等这些方法在处理平稳时间序列中体现了一定的 优势,但同时也存在着很多不足,预测精度往往达不到人们所期望的效果统计学习理论是 针对小样本情况下的机器学习理论,其核心思想是通过控制学习机的复杂度实现对其推 广能力的控制在这一理论下发展起来的支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 以 v c 维cd i m e n s i o n ) 和结构风险最小化原则( s 仃u c t l 瑚】r i s km i n i m i z a t i o n ,s r m ) 为基础, 解决了小样本、过学习、非线性、高维数、局部小的模式识别等实际问题 本文主要讨论了支持向量回归算法相对于经典非线性模型预测的绩效问题文章绪 论简要阐述了问题的由来、课题研究背景以及国内外研究现状第二章介绍了时间序列分 析的基本理论和方法,如a r 模型、m a 模型、a r i m a 模型和s a r i m a 模型的理论基础 和建模思想第三章详述了s v m 的统计理论基础,并介绍了支持向量机的回归理论第四 章以法国铁路客运量为研究案例,详细分析了季节时间序列的特点以及建模流程,并对得 到的模型进行比较、分析,得到了很高的预测精度第五章是本文的核心本章将我国某饮 品公司月销售量数据应用于支持向量机回归模型,并将预测结果与经典时间序列方法所 得的结果比较,得出了支持向量机方法预测精度更高的结论,体现了支持向量机理论在季 节时间序列数据上应用的优越性最后,总结了支持向量机方法的优点,展望了支持向量机 方法的发展前景并提出多元化的研究方向 关键词:支持向量机;季节时间序歹u ;b o x j e n k i n s 模型 基于支持向量机的时间序列预测 r e s e a r c ho nf o r e c a s to ft i m es e r i e sb a s e do ns v m a b s 仃a c t t i m es e r i e sf o r e c a s t i n gi so n eo f t h em a i nr e s e a r c ht o p i c si na r t i f i e i a li n t e l l i g e n c ea n dd a t a m i n i n g h o wt oc r e a t ea m a t h e m a t i c a lm o d e lb yo b s c 删 i n gaf i n i t en u m b e ro f h i s t o r i c a ls a m p l e s i sa ni m p o r t a n tw o r ko fe c o n o m i ca c t i 啦w eh a v el o t so ft i m es e r i e sf o r e c a s t i n gm e t h o d s , s u c ha st h et r a d i t i o n a lt i m es e r i e sa n a l y s i sa n dn e u r a ln e t w o r km e t h o d s ,w h i c hg e ta d v a n t a g e s i nd e a l i n gw i t hs t a t i o n a r yt i m es e r i e s ,t os o m ee x t e n t ,d o e sn o ta c h i e v et h eh o p ef o rr e s u l t s s t a t i s t i c a ll e a r n i n gt h e o r y ( s l c ) f o c u s e so nt h em a c h i n el e a r n i n gt h e o r yo fs m a l ls a m p l e s i t s c o r ei st oc o n t r o lt h eg e n e r a l i z a t i o nl e a r n i n gm a c h i n eb y c o n t r o l l i n gt h ec o m p l e x i t yo fm o d e l s s u p p o r t i n gv e c t o rm a c h i n e ( s v m ) i sam e t h o do fm a c h i n el e a r n i n gb a s e do nv cd i m e n s i o n a n ds t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l eo ft h es t a t i s t i c a l l e a r n i n gt h e o r y s v mh a s a d v a n t a g e si ns o l v i n gs m a l ls a m p l es i z ep r o b l e m si np r a c t i c a la p p l i c a t i o n s ,s u c ha ss m a l l s a m p l e ,n o n l i n e a r , o v e rl e a r n i n g ,n o - l i n e a r , h i g hd i m e n s i o n a la n dl o c a lm i n i m u mp o i n t t h e s e p r o b l e m se x i s t i nm a n y l e a r n i n gm e t h o d s t h i sp a p e rm a i n l yd i s c u s s e se i t h e rs u p p o r tv e c t o rr e g r e s s i o na l g o r i t h mo rt h ec l a s s i c a l t i m es e r i e sa n a l y s i sw h i e l li sb e t t e ra tt h ep r e d i c t i o na c c u r a c y t h ee x o r d i u m ,e l a b o r a t i n go nt h e b a c k g r o u n do ft h ep r o b l e m ,t h ep u r p o s ea n ds i g n i f i c a n c eo ft h er e s e a r c h ,t h ep r e s e n tr e s e a r c h s t a t u sa th o m ea n da b r o a da n dm a j o rc o n t e n t so f t h er e s e a r c h i nc h a p t e r2 ,t h eb a s i ct h e o r ya n d m e t h o do ft r a d i t i o n a lt i m es e r i e sa n a l y s i si sg i v e n s u c ha sa rm o d e l ,m am o d e l ,a r m a m o d e la n ds a r i 队m o d e l t h et h i r dc h a p t e rd e s c r i b e st h eb a s i ct h e o r yo fs u p p o r tv e c t o r m a c h i n e s ,a n dt h e ni n t r o d u c e st h es u p p o r tv e c t o rr e g r e s s i o na l g o r i t h mi nd e t a i l i nt h ef o r t h c h a p t e r , w e t a k et h ee x a m p l e o f p a s s e n g e r t r a f ! f i ct oa n a l y s i st h ec h a r a c t e r i s t i c so fs e a s o n a lt i m e s e r i e s n e x tw eu s es a 砒m am o d e lt op r e d i c tt h ef u t m et r e n do f i t c h a p t e r5i st h ec o r eo f t h e a r t i c l e i nt h i sc h a p t e r , w eu s es v ra n ds a r j m am o d e lt op r e d i c tt h ef u t u r et r e n do ft h e m o n t h l ys a l e so fad r i n k i n gl i s t e dc o m p a n y 1 1 1 er e s u l t ss h o wt h a ts v rm e t h o dc a np r e d i c t n o n s t a t i o n a r yt i m es e r i e se 蚯c i e n t l ya n dh a sh i g h e rp r e d i c t i o na c c u r a c yt h a nc l a s s i c a l t r a d i t i o n a lt i m es e r i e sa n a l y s i sm e t h o d s i nt h ef i n a lc h a p t e r , w ep r o p o s et h em e t h o di n t e g r a t e d m a n yk i n d so f a d v a n t a g e so f f o r e c a s t i n gm e t h o d sa n dh y b r i dp r e d i c t i v em o d e l sw i l lh a v eav a s t p o t e n t i a lf o rf u t u r ed e v e l o p m e n t k e yw o r d s :s u p p o r t i n gv e c t o rr e g r e s s i o n ;s e a s o n a lt i m es e r i e s ;b o x - - j e n k i n sm e t h o d 一一 辽宁师范大学硕士学位论文 目录 摘j 要】【 a b s t r a c t i i 1 绪论1 1 1 课题的研究背景1 1 2 国内外研究现状1 1 3 本文主要工作及组织结构2 1 3 1 主要工作2 1 3 2 组织结构3 2 时间序列模型的理论概述4 2 1 时间序列模型的相关概念4 2 1 1 时间序列定义4 2 1 2 平稳时间序列定义与检验方法4 2 2 平稳时间序列模型7 2 2 1a r 模型的定义及其统计特性。7 2 2 2m a 模型的定义及其统计特征8 2 2 3a r m a 模型的定义及其统计特征9 2 3 非平稳时间序列模型1 0 2 3 1a r i m a 模型1 0 2 3 2s a r i m a 模型的识别与平稳化方法1 2 2 4 建模流程12 2 5 小结1 3 3 支持向量机理论概述一1 4 3 1 支持向量机的统计学习理论基础1 4 3 1 1 机器学习问题描述1 4 3 1 2 经验风险最小化原则与结构风险最小化原则1 5 3 1 3 核函数一1 6 3 1 - 3 最优化理论1 7 3 1 4 w o l f e 对偶1 8 3 2 支持向量机回归理论1 9 3 2 1 理论基础1 9 3 2 2 线性回归算法2 0 。i i i 基于支持向量机的时间序列预测 3 2 3 非线性回归算法2 2 3 3 小结2 3 4 时间序列模型在铁路客运量预测中的应用实例2 4 4 1 引言2 4 4 2 客运量短期变化特点分析2 4 4 3 基于s a r i m a 模型的预测。2 6 4 - 3 1 数据预处理与平稳化2 6 4 3 2 模型的建立与残差检验2 8 4 3 3 模型的预测及分析比较2 9 4 4d 、结:3 0 5 支持向量机在饮品销售量预测中的应用实例3 1 5 1 引言3l 5 2 数据分析和预处理31 5 3 模型的识别与建立3 2 5 3 1s a r i m a 模型的识别与检验3 2 5 3 2 自回归s v m 模型的建立3 4 5 3 3 预测精度比较分析。3 5 5 4 卅、结3 6 6 总结与展望。3 7 参考文献3 9 攻读硕士学位期间发表学术论文情况4 0 致 谢4 1 - 二烈一 辽宁师范大学硕士学位论文 1绪论 1 1 课题的研究背景 随着科技的高速发展,各个应用领域产生了一系列高维的时间序列数据同时,计算机 技术的普及为时间序列数据提供了有利的存储条件古人云:“凡事预则立,不预则废 为 使未来的不确定性降到最低,我们需要在现有的历史数据中寻找规律,对事件进行各种短 期、长期、微观以及宏观的预测如在经济领域中,研究者根据时间序列存在的惯性,分析 时间序列的历史观察值,建立时间序列预测模型,并利用模型分析统计数据的规律,实现预 测除经济和金融领域外,时间序列分析【l 】还广泛存在于其他各个领域,如经济预警、客户 信用评级、石油价格预测、气象预测、工业控制、天文观测、污染指数评估、临床诊断 等领域时间序列预测对我国完善现代经济体制、制定经济政策、调整产业结构、调整行 业比例等经济活动起着重要的指导作用因此,科学决策的重要基础时间序列预测已 成为当今各个领域的研究热点【2 】【3 j 时间序列分析的方法很多,如传统的时间序列分析方法与神经网络方法h 鄙等这些 方法在处理平稳时间序列中体现了一定的优势但传统的统计方法除了要求有大量样本 数据外,还要预先知道样本的先验概率在实际中,这些要求很难实现,因此它的推广能 力受到一定限制同时,神经网络方法虽然解决了一些非线性问题,但其只是使经验风险 达到最小,并没有使期望风险最小,也存在着网络结构难确定、容易陷入局部最小、过拟 合等缺陷虽然经典时间序列分析方法在经济、科研等社会领域占有了卓越的地位,但由 于在时间序列的分析与建模过程中存在着主观因素,如模型的选择与定阶等,因此其预 测精度往往达不到人们所期待的结果 支持向量机【6 ( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是建立在v c 维( v cd i m e n s i o n ) 和结构 风险最小化原则 7 ( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 基础上的,改变了传统的神经网络 中经验风险最小化原则,因此具有很好的泛化能力它在函数拟合,模式识别、图像分类、 手写体识别等其他机器学习问题中显示出了无可比拟的优越性 s v m 主要用于分类和回归在分类方面支持向量机的主要思想基础是针对两类分 类问题,分类理论的应用已经很成熟,但在回归领域应用相对较少,特别是对有季节性趋 势的时间序列研究有待深入 1 2 国内外研究现状 1 9 7 0 年,随着美国统计学家b o x 和j e n k i n s 的著作t i m es e r i e sa n a l y s i s ) ) 的问世, 基于支持向量机的时间序列预测 时间序列分析形成了一整套集建模、估计和预测为一身的完整理论体系在动态数据的 预测、分析与控制等方面,时间序列分析显示了巨大的优越性,因此时间序列模型通常也 被称为b o x j e n k i n s 模型自m e e s e 和r o g o f f 提出的随机游走模型h 1 在汇率预测方面都 要明显优于复杂的结构模型以来,人们越来越倾向于应用时间序列模型预测 按系统本身的性质划分,经典时间序列分析方法分为线性系统与非线性系统线性 模型踟有自回归模型a r ( a u t or e g r e s s i v e ) 、移动平均模型m a ( m o v i n ga v e r a g e ) 和自 回归移动平均模型a r m a ( a u t or e 莎e s s w e m o v i n ga v e r a g e ) 等,其理论及应用已经发展 得比较成熟但在当今环境下,我们所获取的样本大多是含有很多复杂因素在内的非线 性时间序列,因此,目前对预测的研究热点主要集中在非线性模型上 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是数据挖掘中的一项新技术,是由v a p n i k 领导的研究小组在1 9 6 3 年提出的一种基于统计学习理论的机器学习方法由于s w 解决 模式识别问题中往往趋于保守一直没有得到充分的重视9 0 年代,统计学习理论 ( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 的提出使s v m 迅速发展在国内,自从2 0 0 0 年张学工教 授嘲n 引入支持向量机以来,便掀起了支持向量机理论的研究热潮文献u 虬阐述了支持向 量回归机的原理及其方法的发展,指出了它在金融方面的应用方向和前景文献n 2 3 进一 步深入讨论了支持向量机分类与回归算法,提出一种单参数约束下的回归模型,并证明 了该模型与标准回归模型的等价性文献n 引将支持向量回归算法应用于混沌时间序列预 测中,同b p 网络及r b f 网络的预测结果进行了比较,仿真实验表明:支持向量回归方法 具有很好的泛化能力和抗噪声能力文献n 劬在分析神经网络收敛速度慢、结构参数确定 无理论依据、存在局部极小值等缺点的基础上,分析了s v m 的优势结构风险最小化 原则,并将s v m 应用于股票价格的短期预测,得到了很高的预测精度文献n 5 1 6 1 通过对 b p 反向神经网络算法和支持向量机在金融时间序列中的预测,采取不同的评价标准,说 明了支持向量机在金融时间序列预测这一领域的优越性 1 3 本文主要工作及组织结构 1 3 1 主要工作 本文主要讨论s v r 建模及预测相对于经典非线性模型预测的绩效问题结合法国巴 黎等主要城市铁路客运量这一月度数据,说明了b o x j e n k i n s 模型的良好的预测能力虽 然b o x - - j e n k i n s 模型的应用领域越来越广,但要建立高精度的时间序列模型,过程却很 复杂,对模型的建立和参数的估计都有很高的要求支持向量机理论在小样本学习理论 中虽然有一定的优越性,但在带有趋势性、季节性等很多复杂因素在内的非平稳时间序 列中应用相对较少在这种背景下,本文对这种季节性时间序列,以我国某饮品上市公司 2 辽宁师范大学硕士学位论文 的月销售量为研究对象,利用支持向量回归方法建模,并与季节a r i m a 模型进行比较分 析实验证明s v r 模型预测的结果更加精确 1 3 2 组织结构 根据论文的主要研究工作,对本文章节进行如下安排: 第一章:简要介绍课题研究的背景和意义,国内外研究现状,以及本论文的主要内容 和组织结构 第二章:介绍了时间序列预测的基本理论和b o x j e n k i n s 方法及建模流程,如a r 模 型、m a 模型、a r i m a 模型及s a r i m a 的理论基础和建模思想 第三章:详细阐述了基于统计学习理论的支持向量机的主要思想,重点放在支持向量 机回归理论推导和算法实现上第二章与第三章是实例应用的理论基础 第四章:针对法国铁路客运量这一典型的季节性时间序列,分析了季节时间序列的特 点以及建模流程通过比较,确定模型,进行预测,得到了很高的预测精度 第五章:将我国某饮品公司月销售量数据应用支持向量机回归模型,并将预测结果与 经典时间序列模型所得结果比较,验证了支持向量机在该领域的实用性 第六章:本文工作的总结和进一步研究的建议 3 基于支持向量机的时间序列预测 2 时间序列模型的理论概述 2 1 时间序列模型的相关概念 2 1 1 时间序列定义 按照时间顺序排列的随机变量序列: 五,五,托, ( 2 1 ) 称为时间序列嘲如果用: 五,骂,瓦 ( 2 2 ) 表示随机变量墨,五,置,耳的个观测值,就称( 2 2 ) 为( 2 1 ) 的个观测样本,其中 是观测样本的个数如果用: 五,恐,x 3 , ( 2 3 ) 表示五,五,五,的观测值,就称( 2 3 ) 是( 2 1 ) 的一次实现或一条轨道 2 1 2 平稳时间序列定义与检验方法 如果随机过程吲:f ) 满足: ( 1 ) 对于任意的f n ,脚 0 ,则称该序列不相关 偏相关系数定义为丸= 等,v 七 ,z 其中: d j | = p l p l 1 p 2 p i 一2p 女 ,d= l n : p b 五 岛 1 : p t - 2 虹的拖尾性和截尾性与自相关系数风中的定义类似 ( 2 ) 单位根检验法 图形检验法虽然很直观,但在检验过程中具有一定的主观性,故识别精度不高,所以需 要采用单位根检验法精确地判定时间序列的平稳性单位根检验的方法很多,由于本文主 要使用a d f 检验法,这里主要介绍刎卯检验法 对于a r ( p ) 序列: 5 基于支持向量机的时间序列预测 五= 旃五1 + 办置一2 + + p 置一p + a ,a t n ( o ,) ( 2 9 ) 其特征方程为a ,一破允p 1 一九= 0 当l 丑i 1 ( f = 1 ,2 ,p ) 时,表明特征根在单位圆内, 该序列平稳反之,则说明序列不平稳将( 2 9 ) 两边减去置一,则: a x t = p x , - l + 届置- 1 + + 卢j 置一口+ 口,a t 一( o ,) ( 2 1 0 ) 其中p = 破+ 唬+ 九一1 ,岛= 一办+ 。一办+ :一办+ ,一九( - ,- 1 ,2 ,3 ,p 一1 ) a t - , 为五的一 阶差分算子若序列) 平稳,则p q 时,p 。趋于正态分布 p 七m o ,专( 1 + 2 善p 珈( 2 2 1 ) 所以用: 三 即斛专( 1 + 2 喜硐】2 ) - 6 8 3 , ! p p k 0 ,考察p m ,仇+ 2 p i 析满足条件 1 1 k + i f 2 专( 1 + 2 喜p 瑚i 的比例在肌步达到9 5 5 ,或恢+ 专( 1 + 2 喜p 瑚j 的比例在 朋步达到6 8 3 ,而在前m 一1 步没有达到,其中i = 1 ,o 一,则我们说p k 在m 步截尾 下面以m a ( 1 ) 为例讨论m a ( q ) 模型的预测,m a ( 1 ) 模型的一步预测满足: r k + l 2 c o + 口 “一b 口 , 同时取条件期望,得到: 磊( 1 ) = e ( “i ,“,) - c o - o , a , 这里误差为v a r e ( 1 ) 】_ 吒2 ( 1 ) = r h + l 一磊( 1 ) = a m ( 2 2 4 ) ( 2 2 5 ) 2 2 3a r m a 模型的定义及其统计特征 a r m a 模型的全称是自回归移动平均( a u t o r e g r e s s i v e - m o v i n g a v e r a g ea 剧v t a ) 模型 若一个系统在f 时刻的值五不仅与它之前时刻的响应有关,而且与它之前时刻的扰动有 关,那么这个系统就是自回归移动平均系统,即a r m a 模型 定义2 3 自回归移动平均模型a r m a ( p ,q ) 满足: :九+ 圭噍+ a t 一壹b 口f - , i f f i lf = l ( 2 2 6 ) 其中a t n ( o ,蠢) 的白噪声序列,p ,q 为非负整数,p 代表差分的阶数,q 代表自回归阶 数引入延迟算子召,其中召( 置) = 置q ,b ( 置- ) = 墨令 矽( b ) = 1 - 哆马- - - m 办哆,唬= - 1 , ( 2 z 7 ) j = li = 1 则上式简记为: 满足条件: p ( b ) = 1 - 色岛= 一g 哆,o o = - 1 , ( 2 2 8 ) i = z ,= l 矽( b ) 置= p ( b ) q 9 ( 2 2 9 ) 基于支持向量机的时间序列预测 ( 1 ) 口) 与矽) 无公因子 ( 2 ) 对任意的m ,z ,有吮o ,吃o ( 3 ) p ,) 为白噪声序列 ( 4 ) e ( x t a ,) = o ,v t 0 ) 进行预报,即进行以时刻f 为原点,步长为,的预 测,得到: j 5 l ( ,) = e ( + ,l ,r h 一。,) = 死+ 谚j 5 i u f ) 一g ( i - 0 ( 2 3 0 ) i = i j = l 其中: 预测误差为: 尝ii 芸r h + 1 卜- 1 三二l d - i ,:a h + t _ i l i o , 泣3 - , 【磊( 一) =口。( 一) = 一 7 p ( z ) = “一磊( z ) ( 2 3 2 ) 2 3 非平稳时间序列模型 在实际应用中,有许多非平稳的时间序列,但是我们可以通过差分和对数变换等方法 使之变为平稳序列,这种系统就是a r m a 模型 2 3 1a r m a 模型 a r m a 模型全称为自回归求和滑动平均( a u t o r e g r e s s i v ei n t e g r a t e dm o v i n g a v e r a g e , a r m m ) 模型 定义2 4 设d 札,如果: d z = ( 卜b ) d 墨= ( 一1 ) 置书t z ( 2 3 3 ) , k - - o :是a r i m a ( p ,g ) 序列,就称其为一个求和的a r i m a ( p ,d ,g ) 序列,简称为a r i m a ( p ,d ,g ) 序 列,其中p 为自回归阶数,g 为移动平均阶数,d 为差分次数,是二项式系 数a r i m a ( p ,d ,g ) 序列所满足的模型是: 彳( 曰) ( 1 一召) “墨= 曰( 曰) q ,f z ( 2 3 4 ) 1 0 辽宁师范大学硕士学位论文 其中实系数多项式a ( z ) 和b ( z ) 满足条件多项式的零点都在单位圆外,b 为延迟算子该 模型的表示方法有以下三种: ( 1 ) 用差分方程表示: “= 口l 薯+ ,1 + + 口j 口+ d + ,- ,一一q b + ,- l 一一岛岛“一g + 岛+ ,】, ( 2 3 5 ) 在时刻f 对上式两边取条件期望时,有: i x , “】= 毫( ,) = a j i x , “- l 】+ + 口户“ 薯“叩卅卜岛【岛“1 卜岛 q “1 】+ 【b + ,】;( 2 3 6 ) ( 2 ) 用冲击s ,的加权和表示: x t “2ex t c t g j x t + 1 一j ,a o 2 1 。, “2 一j 2 j = o 在时刻t x 寸上式两端取条件期望时,有: ( 2 3 7 ) 毛+ , = 毫( ,) = t + ,】+ 口l q + ,一l 】+ + q l q + l 】+ q q + 口,+ l q l 】+ : ( 2 3 8 ) ( 3 ) 用无穷加权和加一个随机冲击表示: 在时刻t 对上式两端取条件期望时,有: ( 2 3 9 ) t + ,】= 毫+ ,= x z 州 + 口川】 ( 2 4 0 ) i = 1 当序列 x t ,t = 1 ,2 ,) 有季节性、趋势性和周期性时,需要建立季节模型,即 s a l c l m a ( p ,d ,口) ( p ,d ,q ) ,模型,其满足: 丸( 占) 尸( b 5 ) o - b ) d ( 1 - b 5 ) d 互= 岛( 刀) o q ( b 5 ) q ( 2 4 1 ) 其中: 丸( b ) = 1 一萌b 一红b 2 一一砟b p , ( 2 4 2 ) p ( b 5 ) = 1 一,b 5 一西2 ,b h 一一厅b 愚, 岛( b ) = i - o , b - 0 2 8 2 一岛曰9 , ( 2 4 3 ) ( 2 4 4 ) 件 s+ , 一“ z , 石 。皿 = “ x 基于支持向量机的时间序列预测 o q ( 曰。) = 1 一o ,b 5 一 2 ,b 拈一 9 召$ , ( 2 4 5 ) p 为自回归阶数,尸为季节自回归阶数,g 为移动平均阶数,q 为季节移动平均阶数 d ,d 分别为普通差分和季节差分的阶数,s 为季节长度口,一n ( o ,仃;) 2 3 2s a r i m a 模型的识别与平稳化方法 该模型的识别与平稳化需要经过以下几步1 7 1 : ( 1 ) 计算的自相关函数 风 和偏自相关函数 丸 ( 2 ) 根据p 。) 和 丸) 的截尾性和拖尾性,以及是否有季节效应判断t 为a r ,m a 、 a r m a 或s a m m a 模型中的哪一种 ( 3 ) 若p 。) 和 虹) 在一定周期( 如月度数据以1 2 为周期,季度数据以4 为周期) 有相似 的波动则对x t 进行步长为j 的一阶季节差分,差分后的序列记为v ,x ,若 风) 和 丸) 均 不截尾,且其中至少有一个函数不呈负指数函数衰减到零,则对x t 进行一阶差分,差分后的 序列记为v x t ( 4 ) 对乳,的p 。) 和 虹) 重复( 2 ) ,( 3 ) 两步若两个函数仍出现( 3 ) 里的第一种情况,则对 而进行二阶差分,得到v 2 t ,直到找到d ,使得v d t 的 成) 和 丸 截尾或拖尾为止;若两个 函数出现( 3 ) 中第二种情况,则对x t 进行二次季节差分,得到v ,2 t ;直到找到d ,使得v 。d t 的( 风) 和 丸) 截尾或拖尾为止一般情况下,差分过程交替使用,找到最小的d ,d ,以保留 尽可能多的信息量使得序列平稳 事实上,将s a r i m a 模型经过一阶或高阶季节差分就可以得到a r i m a 模型,而a r i m a 模型经过一次或多次差分就可以变为a r m a 模型 2 4 建模流程 “b o x - - j e n k i n s 方法建立时间序列模型分为以下几步: ( 1 ) 识别模型的平稳性,利用差分,取对数等数学变换消除时间序列中的季节性与趋势 性,将序列平稳化; ( 2 ) 识别模型并估计模型中的参数,对所得到的模型进行适应性检验; ( 3 ) 利用建立的模型进行预测建模流程图如图2 1 1 2 辽宁师范大学硕士学位论文 2 5 小结 图2 1 经典时间序列建模流程图 f i g 2 1 m o d e l i n gp r o c e s sf o rc l a s s i ct i m es e r i e s 本章详细介绍了经典时间序列模型的理论基础及建模思想,其模型能够被很好理解 的原因在于数据间的函数关系为线性然而,任意一个时间序列模型只是对现实数据的一 种近似逼近,目前还没有任何一个理论能证明一组时间序列一定满足线性性质或是能够 被推广到任意形式的预测函数关键在于所讨论的时间序列能否被任意一个特定的模型 所描述在许多情况下,唯一的办法就是采用不同模型并按照已经取得的标准来评比其结 果的优劣 1 3 基于支持向量机的时间序列预测 3 支持向量机理论概述 s v m 【6 】是统计学理论中最年轻的部分,是统计学习理论从理论思想向方法应用的过 渡它主要应用于分类和回归领域,由于本文主要应用支持向量机回归算法,故下面主要介 绍s v m 的统计学习基础与s v r 相关理论 3 1 支持向量机的统计学习理论基础 3 1 1 机器学习问题描述 机器学习【7 】作为数据挖掘的重点研究方向,其主要任务是通过训练输入样本集,挖掘 出隐藏的输入样本集同输出数据之间的规律,并利用该规律使其能对未知样本集进行预 测其模型可用图3 1 表示 y y 图3 1 机器学习问题的描述 f i g 3 1d e s c r i p t i o nf o rm a c h i n el e a m i n gp r o b l e m s 其中训练样本集z 可以表示为x = ( 五,y 1 ) ,( 而,奶) ( 吒,蚝) ) ,其中n 代表训练样本的 个数,五r ”表示训练样本为n 维向量,机器学习的主要目的是确定y 和x 之间的函数关 系,记y = q ( x ,a ) ,其中a 表示目标函数中所有参数的集合对于样本集合x ,由概率论中的 大数定律定义预测类别一y 的期望风险( 5 酮定义为: r ( a ) = il ( y ,q ( x ,a ) ) d f ( x ,y ) ( 3 1 ) 其中l ( y ,q ( x ,口) ) 为损失函数,表示预测类y 与实际类别y 之间损失的平均值,f ( x ,y ) 表 示y 和x 之间的依赖关系遵循的概率在函数系q ( x ,a ) 中要找到一个函数q ( x ,a 。) 使期 望风险最小,是机器学习追求的目标从式( 3 1 ) 中我们可以看出,要获得期望风险值,要 求概率函数f 已知,而在现实生活中f 通常是未知的,我们只知道样本信息石,因此期望 1 4 辽宁师范大学硕士学位论文 风险的值无法直接计算并最小化为此传统机器学习方法引入了另外一个重要概念:经 验风险最小化原则 3 1 2 经验风险最小化原则与结构风险最小化原则 经验风险由概率论中的大数定律定义,表达式如下: 1一 曩唧( 嘞) = 圭三( 乃,厂( 薯,口) ) ( 3 2 ) ,l = l 将期望风险最小化转换为经验风险最小化的原则,称之为经验风险最小化晦3 ( e m p i r i c a l 砒s km i n i m i z a t i o n , e r m ) 原则,简称e r m 原则e r m 原则假定当聆趋向于无穷大 时,k 趋向于期望风险r 然而,在实际应用过程中,样本数目很难满足无穷大,尤其是在样本特征复杂的情况下, 人仃了很难获取足够的样本信息,此时,基于风险最小化原则的分类算法并不能取得理想的 分类效果而且将注意力集中在经验风险最小化,一味追求训练误差最小,也会影响模型推 广能力,出现过学习现象过学习现象是e r m 原则失效的主要原因,当模型设计不合理或 者样本有限的情况下都会发生过学习的现象因此在输入样本数目有限的情况下,用经验 风险最小化进行估计期望风险并不可靠为了克服这个缺点,v a p n i k 等人提出结构风险最 小化( s 觚c t u r er i s km i n i m i z a t i o n ,s r m ) 原则在介绍s r m 原则以前,给出v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产房护理工作应急预案(3篇)
- 2025年多省公务员联考公安基础知识考试真题及答案
- 2025年人力资源师(初级)劳动关系风险防范能力测试考试试题及答案
- “班级之星”在班级管理中的应用
- 2025年山东政治考试真题及答案
- 2025年机场安检考试题一及答案
- 职业培训合同中的补偿条款
- 军官考试试卷数学及答案
- 电力施工安全措施规范
- 吸氧护理技术试题及答案
- 《平方差公式》说课课件
- 《PDCA培训教材》课件
- 作为大学生如何践行总体国家安全观1500字
- 食品安全考试试题及答案2021
- 07第七讲 发展全过程人民民主
- 数独题目中级90题(后附答案)
- 宁骚公共政策学
- 机电安装工程预留预埋施工方案改用于上传
- 第9章 钢中的回火转变
- 门诊病历管理规定
- 腹直肌分离康复(产后康复课件PPT)
评论
0/150
提交评论