




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)基于组合svr的非平稳时间序列模糊建模方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 基于组合s v r 的非平稳时间序列模糊建模 方法研究 摘要 时间序列数据广泛存在于工农业生产、财政、投资等许多领域中,而来自实 际应用环境中的时间序列往往体现出较明显的非平稳特征。因此,对非平稳时间 序列进行分析和建模具有重要的理论意义和实用价值,本文的研究工作正是基于 此方面展开的,是辽宁省基金项目“面向复杂工业对象的预测方法研究”的一部 分。 本文主要对非平稳时间序列建模问题进行研究。首先,对建模的方法进行比 较,通过实验确定采用具有全局最优解和较好泛化推广能力的支持向量回归技术 进行建模。 其次,提出一种面向时间序列预测的支持向量回归模型参数选择方法。针对 时间序列的特点,提出一种改进的交叉校验( c r o s s v a lid a tio n ) 的网格搜索 ( g r id s e a r c h ) 方法,并通过对支持向量回归模型中的不敏感参数 进行加权, 来获得较优的支持向量回归模型参数。实验结果表明,使用该方法选择的参数构 建模型,可以得到更好的预测结果。 最后,提出一种基于组合s v r 的非平稳时间序列模糊建模方法。在对非平稳 时间序列进行模糊分块和对传统的支持向量回归进行改进的基础上,通过启发式 的加权方法将模糊分块的信息与s v r 结合起来,通过多s v r 组合的方式对非平稳 时间序列建模。通过对典型的非平稳时间序列进行实验表明,所提方法适合于对非 平稳时间序列进行建模,具有较高的模型精度。 关键词:支持向量回归;非平稳时间序列;改进的交叉校验;网格搜索; 模糊分块;组合s v r 东北大学硕士学位论文a b s t r a c t t h er e s e a r c ho fm u l t i - s v rm e t h o db a s e d f u z z ym o d e l i n g m e t h o df o rn o n s t a t i o n a r yt i m es e r i e s a b s t r a c t t i m es e r i e sd a t aw i d e l ye x i s t si nt h ei n d u s t r ya n d a g r i c u l t u r ep r o d u c t i o n ,f i n a n c e ,i n v e s t i n e n t a n dm a n yo t h e rf i e l d s i nt h ec o n t e x to fp r a c t i c a la p p l i c a t i o ne n v i r o n m e n tt i m es e r i e so f t e n a p p e a r sr a t h e ro b v i o u s n o n s t a t i o n a r yf e a t u r e t h e r e b y ,i th a si m p o r t a n tt h e o r e t i c a l s i g n i f i c a n c ea n dp r a c t i c a lv a l u e st om o d e lf o rn o n s t a t i o n a r yt i m es e r i e s t h er e s e a r c hw o r k o ft h i s p a p e ri sb a s e do nt h i sa s p e c t ,w h i c hi sp a r to ft h en a t u r a ls c i e n c ef o u n d a t i o no f l i a o n i n gp r o v i n c en a m e d “t h er e s e a r c ho ft h ep r e d i c t i o nm e t h o do r i e n t e d c o m p l i c a t e d i n d u s t r i a lo b j e c t ” t h i sp a p e rr e s e a r c h e sm a i n l yo nt h ep r o b l e mo fm o d e l i n gf o rn o n s t a t i o n a r vt i m es e r i e s f i r s t l y ,i tm a k e sac o m p a r i s o no ft h em o d e l i n gm e t h o d s ,a n dm a k e sc e r t a i nt oa d o p ts u p p o r t v e c t o rr e g r e s s i o n ( s v r ) a st h em o d e l i n gm e t h o db y e x p e r i m e n t a t i o n ,w h i c hh a sg l o b a l o p t i m u ma n dp r e f e r a b l eg e n e r a l i z a t i o n ; s e c o n d l y ,t h i sp a p e rp r o p o s e sam e t h o df o rg e t t i n gp a r a m e t e r so fs v rm o d e l so d e n t e d t i m es e r i e sp r e d i c t i o n c o n c e r n i n gw i t ht h ef e a t u r eo ft i m es e r i e s ,i t p u t sf o r 、a r dam o d i f i e d c r o s s 。v a l i d a t i o nm e t h o db a s e do ng r i d - s e a r c h ,a n dw e i g h t st h en o n s e n s i t i v el o s s i ns u p p o r t v e c t o rr e g r e s s i o nm o d e li no r d e rt og e tb e t t e rp a r a m e t e r so fm o d e l s t h e e x p e r i m e n t ss h o w t h ev a l i d a t i o no ft h ep r o p o s e dm e t h o d t 1 n a 儿y ,t h i sp a p e rp r e s e n t san e wa p p r o a c hf o rm o d e l i n gn o n s t a t i o n a r yt i m es e r i e su s i n g m u l t i - s v r b a s e do nt h ef u z z ys e g m e n t a t i o no ft h en o n s t a t i o n a r yt i m es e r i e sa n d m o d i 五e d s v r ,i tc o m b i n e st h ei n f o r m a t i o no ff u z z ys e g m e n t a t i o na n ds v r w i t hah e u r i s t i cw e i g h t i n g o n 3 ,a n dm o d e l s n o n 。s t a t i o n a r yt i m es e r i e sb ym u l t i s v r e x p e r i m e n t i n go nt y p i c a l n o n 。8 t a t l o n a r yt i m es e r i e s ,t h er e s u l t ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e rh a sg r e a t p r a c t l c a lv a l u e sf o rn o n 。s t a t i o n a r yt i m es e r i e sm o d e l i n g ,a n d t a k e so nu p p e rm o d e lp r e c i s i o n k e yw o r d s :s u p p o r tv e c t o rr e g r e s s i o n ( s v r ) ,n o n s t a t i o n a r yt i m es e r i e s , i m p r o v e dc r o s s v a l i d a t i o n ,g r i d s e a r c h ,f u z z ys e g m e n t a t i o n ,m u l t i s v r i i i 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 = 匕 思。 学位论文作者签名:氓少敞 日期:力弦莎、,- b 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名:弓扶少镝叉 签字日期: i ,q6 l 、l , 导师签名:了击耐衫 签字目期:洒i 1 石 东北大学硕士学位论文 第一章引言 第一章引言 本章对全文内容做出概述。首先指出本文研究课题的产生背景及所要解决的 问题,然后在简要分析相关技术的基础上提出解决方法,最后给出论文结构框架。 1 1 研究背景 时间序列是一种重要的复杂数据对象,无论是经济领域中每年的产值;国民 收入;某一商品在某一市场上的销量;某一商品在某一市场上的价格变动;某股 票数据的变化情况等,或是社会领域中某一地区的人口数;医院患者人数;铁路 客流量等,还是自然领域的太阳黑子数、月降水量、河流流量等等,都形成了一 个时间序列。 社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一 步的分析和处理。人们希望通过对这些时间序列的分析,从中发现和揭示某一现 象的发展变化规律,或从动态的角度描述某一现象和其他现象之间的内在数量关 系及其变化规律,从而尽可能多的从中提取出所需要的准确信息,并将这些知识 和信息用于预测,以掌握和控制未来行为。 1 2 问题提出 在研究时间序列的过程中,一些问题引起了笔者的注意: ( 1 ) 关于建模方法的选择,即,什么建模方法比较适合非平稳时间序列建模? 和神经网络相比,支持向量回归有什么优势? ( 2 ) 支持向量回归模型中参数如何选择? ( 3 ) 为了提高非平稳时间序列的建模精度,需要改进现有支持向量回归建模方 法,以便更适合实际问题。如何改进? 1 3 解决方法 针对上面提出的问题,本文从以下方面来解决: ( 1 ) 近十年来,人们提出用神经网络作为时间序列预测方法,代替传统的时间 序列预测方法。并且,现在已经有许多成功的应用显示神经网络作为时间序列建 模及预测的一个很有效的工具【1 ,2 1 。但神经网络也有其自身的局限性,如易陷入局 东北大学硕士学位论文第一章引言 部极小、推广能力不足和过度拟台等敞陷。 在统计学习理论基础上发展起来的支持向量机已经展现出优秀的学习性能, 并山最初的分类任务成功地扩展到处理回归、概率密度估计和异常值检测等问题。 支持向量机一改传统方法的经验风险最小原则,而是根据结构风险最小化原则提 出地,这就使其能够达到更好地泛化能力。支持向量机另外一些优势可以通过与 神经网络相比展示出来,支持向量机只有少数可调的参数,而且训练问题可以归 结为解一个凸二次规划问题,从而所得的解是全局最优的,通常是唯一的。通过 艾验比较和分析。支持向量机更适合对非平稳时州序列进行建模,所以本文选择 支持向量机作为建模工具。 ( 2 ) 目前还没有统一有效的参数选择方法,传统的参数选择方法是交叉校验 ( c r o s s - v a l i d a t i o n ) 和网格搜索( g r i d ) 方法。考虑到时间序列本身的特点,本文提出一 种面向利间序列的改进的交叉校验参数选择方法。 ( 3 ) 现实世界中的时问序列数据多数来自于工业生产、商、也活动等等,通常这 些叫问序列数据都是非平稳的。处理非平稳时间序列的一种有效的方法是先对它 进行分块,使得同一个分块中的大部分的数据来自同一个数据源”1 ,然后再对每一 个分块进行建模。对于两个分块交叉部分可以用模糊集来处理。本文提出一种基 于组合s v r 的非平稳时间序列的模糊建模新方法。首先,提出一种改进的支持向 量回归( s v r ) 的表达形式:然后,通过启发式的加权方法将模糊分块的信息与s v r 结合起来;最后,提出种基于组合s v r 的建模方法。实验结果表明,本文提出 的方法对于非平稳时问序列的建模具有较高的实用价值。 1 4 论文结构 本文详细论述了基于组合s v r 的非半稳时间序列的模糊建模方法,第章为 引言部分,介绍该系统的 些相关背景知识及问题的提出与解决方法;第二章简 单介绍支持向量机的有关知识;第三章阐述本文基于s v r 建模的理由:第四章介 绍了本文提出的面向时间序列的支持向量回归模型参数选择方法;第五章详细论 述了本文提出的基于支持向量回归的非平稳时间序列的模糊建模方法;第六章结 论,主要讨论此次工作中的创新和有待改进的地方。 论,主要讨论此次工作中的创新和有待改进的地方。 东北大学硕士学位论文 第二章支持向量机介绍 第二章支持向量机介绍 本章主要对支持向量机理论进行介绍。首先介绍机器学习的相关内容,然后, 简述了统计学习理论的有关知识,最后介绍了支持向量机的主要内容【4 1 。 2 1 机器学习的基本问题 机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的 估计,使它能够对未知输出做出尽可能准确的预测。可以一般地表示为:变量y 与 x 存在一定的未知依赖关系,即遵循某一未知的联合概率f ,y ) , 和y 之间 的确定性关系可以看作是其特例) ,机器学习问题就是根据门个独立同分布观测样 本 ( x l ,y 1 ) ,( x 2 ,y 2 ) ,( x n ,y 甩) ( 2 1 ) 在一组函数扩 ,w ) ) 中求一个最优的函数 ,w o ) 对依赖关系进行估计,使 期望风险最小。 r ( w ) = il ( y ,f ( x ,w ) ) d f ( x ,y )( 2 - 2 ) 其中,矿 ,w ) ) 称作预测函数集,w 为函数的广义参数, ,w ) ) 可以表示 任何函数集;l ,f ( x ,w ) ) 为由于用f ( x ,1 , v ) 对y 进行预测而造成的损失,不同类 型的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习模型或学 习机器。 有三类基本的机器学习问题, 即模式识别、函数逼近和概率密度估计。对模 式识别问题,输出y 是类别标号,两类情况下y = 0 ,1 或 1 ,1 ) ,预测函数称作 指示函数,损失函数可以定义为 坳撇w 炉髋篇暑 协3 , 使风险最小就是b a y e s 决策中使错误率最小。在函数逼近问题中,y 是连续变量( 这 里假设为单值函数) ,损失函数可定义为 l ( y ,f ( x ,w ) ) = ( 少一f ( x ,w ) ) 2 ( 2 - 4 ) 即采用最小平方误差准则。而对概率密度估计问题,学习的目的是根据训练样本 确定x 的概率密度。记估计的密度函数为p ( x ,w ) ,则损失函数可以定义为 东北大学硕士学位论文 第二章支持向量机介绍 2 2 统计学习理论 2 2 1v c 维 l ( p ( x ,w ) ) = 一l o g p ( x ,w ) ( 2 5 ) 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有 关函数集学习性能的指标,其中最重要的是v c 维( v a p n i k c h e r v o n e n ki s d i m e n s i o n ) 。模式识别方法中v c 维的直观定义是:对一个指示函数集,如果存 在h 个样本能够被函数集中的函数按所有可能的2 “种形式分开,则称函数集能够 把h 个样本打散;函数集的v c 维就是它能打散的最大样本数目h 。若对任意数 目的样本都有函数能将它们打散,则函数集的v c 维是无穷大。有界实函数的v c 维可以通过用一定的阈值将它转化成指示函数来定义。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。遗 憾的是,目前尚没有通用的关于任意函数集v c 维计算的理论,只对一些特殊的 函数集知道其v c 维。对于一些比较复杂的学习机器( 如神经网络) ,其v c 维除了 与函数集( 神经网结构) 有关外,还受学习算法等的影响,其确定更加困难。对于给 定的学习函数集,如何( 用理论或实验的方法) 计算其v c 维是当前统计学习理论中 有待研究的一个问题 5 , 6 1 1 。 2 2 2 推广性的界 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之 间的关系,即推广性的界f 7 1 。关于两类分类问题,结论是:对指示函数集中的所有 函数( 包括使经验风险最小的函数) ,经验风险r e m p ( w ) 和实际风险r ( w ) 之间以 至少1 - 1 1 的概率满足如下关系【8 1 : 尺( w ) 兄印( w ) + ( 2 - 6 ) 其中h 是函数集的v c 维,”是样本数。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一是经验 风险( 训练误差) ,另一部分称作置信范围,它和学习机器的v c 维及训练样本数有 关。可以简单地表示为 r ( w ) r e 。( w ) 4 - o ( h n )( 2 - 7 ) 它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范围越 4 东北大学硕士学位论文 第二章支持向量机介绍 大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习 现象的原因。机器学习过程不但要使经验风险最小,还要使v c 维尽量小以缩小 黄信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。 需要指出,推广性的界是对于最坏情况的结论,在很多情况下是较松的,尤 其当v c 维较高时更是如此。而且,这种界只在对同一类学习函数进行比较时有 效,可以指导我们从函数集中选择最优的函数,在不同函数集之间比较却不一定 成立。v a p n i k 指出,寻找更好地反映学习机器能力的参数和得到更紧的界是学习 理论今后的研究方向之一。 2 2 3 结构风险最小化 从上面的结论看到,e r m 原则在样本有限时是不合理的,我们需要同时最小 化经验风险和置信范围。其实,在传统方法中,选择学习模型和算法的过程就是 调整置信范围的过程,如果模型比较适合现有的训练样本( 相当于b i n 值适当) ,则 可以取得比较好的效果。但因为缺乏理论指导,这种选择只能依赖先验知识和经 验,造成了如神经网络等方法对使用者“技巧”的过分依赖。 风险 函数集子集:5 l c sz c s 3 v c 维:h i 2 h 3 图2 1 结构风险最小化 f i g 2 1 s t r u c t u r a lr i s km i n i m i z a t i o n 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列, 使各个子集按照v c 维的大小( 亦即5 的大小) 排列;在每个子集中寻找最小经验 风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小,如图2 1 所示。这种思想称作结构风险最小化, ( s t r u c t u r a lr i s km i n i m i z a t i o n 或译有序风险最 小化p 1 ) 即s r m 准则。统计学习理论还给出了合理的函数子集结构应满足的条件 东北大学硕士学位论文 第二章支持向量机介绍 及在s r m 准则下实际风险收敛的性质r 7 1 。 实现s r m 原则可以有两种思路,一是在每个子集中求最小经验风险,然后选 择使最小经验风险和置信范围之和最小的子集。显然这种方法比较费时,当子集 数目很大甚至是无穷时不可行。因此有第二种思路,即设计函数集的某种结构使 每个子集中都能取得最小的经验风险( 如使训练误差为0 ) ,然后只需选择选择适当 的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。支 持向量机方法实际上就是这种思想的具体实现。 2 3 支持向量机 支持向量机简称s v m ,是统计学习理论中最年轻的内容,也是最实用的部分。 其核心内容是在19 9 2 到1 9 9 5 年间提出的【7 1 ,目前仍处在不断发展阶段。 2 3 1 广义最优分类面 s v m 是从线性可分情况下的最优分类面发展而来的,基本思想可用图2 2 的两 维情况说明。图中,实心点和空心点代表两类样本,h 为分类线,h 1 ,h 2 分别 为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分 类间隔( m a r g i n ) 。所谓最优分类线就是要求分类线不但能将两类正确分开( 训练错 误率为0 ) ,而且使分类间隔最大。分类线方程为x w + 6 = 0 ,我们可以对它进行 归一化,使得对线性可分的样本集 f ,yf ) ,卢1 ,栉,x rd ,y + l ,1 ) ,满足 m 【( + 6 ) 卜l 0 ,f = 1 ,玎( 2 8 ) h a r g l n 2 j | 硼i j 图2 2 线性可分情况下的最优分类面 f i g 2 2t h eo p t i m a lh y p e r p l a n eu n d e rt h el i n e a rc o n d i t i o n 此时分类间隔等于2 l l w l l ,使间隔最大等价于使i l w l l 2 最小。满足条件( 2 8 ) 且使 1 2 1 1 w l l 2 最小的分类面就叫做最优分类面,hl ,h2 上的训练样本点就称作支持向量。 使分类间隔最大实际上就是对推广能力的控制,这是s v m 的核心思想之一。 6 东北大学硕士学位论文堑三主墨量鱼重垫! 立丝 一一一一一 统计学习理论指出,在n 维空间中,设样本分布在一个半径为r 的超球范围内, 则满足条件| | w i | 列的正则超平面构成的指示函数集厂( x ,w ,6 ) 。s g n ( w x ) + 6 ) ( s g n ( ) 为符号函数) 的v c 维满足下面的界 h m i n ( r 2 a 2 】,) + 1 ( 2 - 9 ) 因此使l w l l 2 最小就是使v c 维的上晃最小,从而实现s r m 准则中对函数复杂性的 选择。 利用l a g r a n g e 优化方法可以把上述最优分类面问题转化为其对偶问题,即在 约束条件 ”口,= 0 ( 2 _ l o ) i = l 和 a ,0 ,f _ 1 ,1 1( 2 - 1 1 ) 下对a i 求解下列函数的最大值 q ( 口) = 倪,一去口,口,y , y j ( x , _ ) ( 2 - 1 2 ) ,- l f y = l a i 为与每个样本对应的l a g r a n g e 乘子。这是一个不等式约束下二次函数寻优的问 题,存在唯一解。容易证明,解中将只有一部分( 通常是少部分) a i 不为零,对应的 样本就是支持向量。解上述问题后得到的最优分类函数是 厂( x ) = s g n ( w x ) + 6 = s g n z 口? m ( x ,x ) + 6 + ) ( 2 1 3 ) j = l 式中的求和实际上只对支持向量进行。b 是分类阈值,可以用任一个支持向量( 满 足( 2 8 ) 式中的等号) 求得,或通过两类中任意一对支持向量取中值求得。 在线性不可分的情况下,可以在条件( 2 8 ) 中增加一个松弛项芎j 兰0 ,成为 y ,( w - x ,+ 6 ) - 1 + 鲁o ,i = 1 ,2 ,( 2 1 5 ) 2 3 2 支持向量机 对于维空间中的线性函数,其v c 维为+ l ,但根据式( 2 9 ) 的结论,在 1 1 w l l _ - 3 的出现。神经网 络技术通过模仿大脑神经元工作的机制对系统历史、经验的数据进行学习,从而 建立研究系统的等价模型【5 1 。k o l m o g o r o v 连续性定理为神经网络奠定了坚实的理 论基础。它证明了存在一个三层网络,其隐单元输出函数为非线性函数,输入及 输出单元函数为线性函数,此网络的总输入输出关系可以逼近任意一个非线性函 数。现在,神经网络已经成为时间序列预测的一种重要手段。 3 3 2 存在的问题 虽然时间序列分析技术经过近一个世纪的发展己经取得长足的成果,但是面 对着工程中越来越复杂的情形,它仍然显现出自身的不足。尤其是在面对复杂的 应用情形时,当前时序分析技术中还存在着不少问题。 线性时序模型的建立需要满足两个基本的假设:系统是线性的和静态的。但 是如果研究对象是现实中稍稍复杂一些的系统,这两个假设就常常难以满足。 神经网络技术使得人们可以对一些非线性系统的行为做出预测,这在一定程 度上弥补了随机时序分析技术的不足。但是用神经网络技术对时序进行预测时, 性能还不十分稳定。另外,系统的模型由神经网络结构及其参数隐式表达,不具 有透明性,因而我们对时序系统的内部情况一无所知。还有,用神经网络进行预 测存在着训练不足和训练过度的问题。 另外,在对时间序列的预测上,无论是随机模型、相空间重构还是神经网络, 当前它们都是通过全局或者局部的拟合来进行点预测( p o i n tp r e d i c t i o n ) 的,一般预 测的结果以数据点的形式来表示【1 2 】。然而,通过以前的分析我们可以看出,在面 对复杂系统时,对系统的未来状态做出基于区域的预测更合理。 3 3 3 时间序列问题的本质 从哲学意义上讲,进行预测所依据的原理有两类:基于演绎和基于归纳。 为了解释过去和预测未来,我们需要去发现那些隐藏在现象背后的规律。对 于一个系统而言,如果存在确定性的方程并且可解的话,便可用其预测未来的输 出。如果这些方程我们并不知道,我们就必须从过去的数据中发现主宰系统演化 的规律,借助这些规律完成对系统未来的预测。 如果应用的条件比较苛刻,并且我们具有相关领域的显式知识,我们可以通 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 过数学等工具依据基本定理建立关于系统的动力学方程,从而对系统的未来行为 作出预测。这就是所谓基于演绎的预测。 然而,大部分时候预测是基于归纳的。也就是说,我们仅仅拥有关于系统演 化的一系列观测数据,对系统的结构和系统的模型参数所知甚少。由于认识的局 限性,大部分系统的复杂度使我们无法对其建立合理的数学模型。这样,我们就 不得不依据这样的基本原理:如果事情过去常常出现或发生,那么它将来就可能出 现或发生。 从系统论的观点出发,时间序列可以视为系统输出的一部分,而大部分系统 内部的动力学机制是未知的,或所知信息是有限的。因而本质上来说,时序分析 是基于归纳的。时间序列分析就是对可以获得的部分的系统输出数据进行分析, 提取其蕴含的系统特征,构造对应的等价系统,从而完成对该系统的功能刻画, 并依据相应的模型完成对系统未来行为预测的过程。从本质上讲,时序分析仍然 是发现规律和运用规律的过程。 3 3 4 困境的根源 我们认为,当前时序分析困境的根源在于试图从纯数学的角度出发,对时序 数据进行建模和预测,并且不重视认识对象本身复杂度对分析结果的影响。这具 体表现在以下几个方面: ( 1 ) 试图建立全局的模型,这里全局的含义是双重的。一方面,在模型的构造 过程中,试图用一个单一的模型去拟合所有的历史数据,而且在拟合时不加区分 地对待历史数据。但是,复杂系统通常随时间的推移会呈现出复杂的动态行为。 依赖单一的模型去拟合这些数据是不合适的另一方面,模型的预测范围包括系统 所有的未来行为,假定了系统的未来均可预测。然而对于复杂系统而言,存在着 不可预测的行为。 ( 2 ) 模型的形式过于固定,所发现规律的形式过于固定,由数学形式加以表示, 拟合实质上是对参数的寻优过程。对于复杂系统而言,预先对规律形式做出比较 严格的假定是没有根据的。系统规律的确定性的强弱和形式是未知的。方法本身 应该去设法发现出这些规律。 ( 3 ) 预测基本上是点预测。从上面的认识过程可以看出,对于复杂系统而言, 区域预测才是有意义的。 不言而喻,我们能够对时序做出的分析结果取决于两方面的因素:系统本身 的复杂度和分析处理的方法。为了取得合理的分析结果,时序分析的方法要和复 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 杂系统的系统性质相结合。由上可知,复杂系统的行为使得对其建立全局、精确 的数学模型的可能性大大降低。时序分析的方法需要做出相应的调整或改变。 3 4 时序预报技术 3 4 1 确定型时序预报 确定型时间序列模型,可用于根据时间序列的过去变化特征来预测其将来的变 化特征。其所以是确定型的,因为它不涉及时间序列的随机性根源或随机性质。 这种简单外推方法,在经济预测和企业预测中,尽管精度不如随机模型,但是作 为标准工具已应用多年了,因此有必要回顾和评价。 ( 1 ) 简单外推模型: 可以描述时间序列z ( t ) 的基本特征之一是它的长期增长模式,尽管有短期的上 下起伏运动,但z ( t ) 可能显示明显的向上发展趋势。如果相信这种向上趋势存在 并且将继续下去的话,那么,就可以建立一种简单模型,描述该趋势,并用于预 测,即外推z ( t ) 。 最简单的外推模型是线性趋势模型。如果相信序列z ( t ) 在每一个时间周期以恒 定的绝对数量增长的话,那么,就可以通过拟合下述趋势线来预测未来的z ( t ) z t = c 1 + c 2 t ( 3 2 ) 式( 3 - 2 ) 中,z 。是在时间t 时z 的数值,c l ,c 2 为系数。 更为现实的是,可以假定序列z ( t ) 是以恒定百分数增加,而不是以恒定绝对值 增加。这种趋势模型称为指数增长模型,如 z t = f ( t ) = a e 儿( 3 3 ) 此处e 为自然对数,a 和r 值的选择是要使f ( t ) 和z 。之间的相关系数为最大的常数。 第三种外推法是以自回归趋势模型为基础的,如 z t = c + c2 z t 1( 3 4 ) 采用这种外推法,当e l = 0 时,c 2 代表序列z 。的变化率。另一方面,如果使c 2 等于 1 ,c l 不等于0 ,则外推的序列在每一周期将增加同样的绝对量。式( 3 4 ) 口- f f ;以变为 对数自回归趋势模型: l o g z t 2 c 1 + c 2l o g z t i ( 3 5 ) 如果c 1 确定为0 ,则c 2 值为序列z 。的复合增长率。以自回归模型为基础的线 性外推和复合外推一般都作为简单的预测手段。 ( 2 ) 移动平均模型: 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 另外一种常用于预测的确定型时间序列模型是移动平均模型。现举一简单例 子,假定预测月度序列,可以采用以下模型: f ( 1 ) - - 1 1 2 ( z l - l + z 1 2 + + z 1 1 2 ) ( 3 6 ) 这样,一个周期以后的预测即可由下式求出 z t + l = l 1 2 ( z t 十z t i + b z t 1 1 1 ( 3 - 7 ) 如果相信下一个月序列的可能数值为前1 2 个月数值的简单平均数时,上述移 动平均模型就会很有用。但是,z t 的理想预测是由其过去数值的简单平均数得出 的这种假设是不现实的。通常更适当的做法是,使z t 的最近期数值起的作用比早 期的数值更大些。在这种情况下,移动平均数中的最近数值应该给以更大的加权。 能做到这点的确定型预测模型就是指数加权移动平均( e w m a ) 模型。 瓦l = a z r + a ( 1 - a ) z n + a ( 1 - a ) 2 乙一2 = d ( 1 - a ) z ( 3 - 8 ) 此处a 为0 和1 之间的数,它能指出最近值与较旧的值对比时的加权情况。 3 4 2 随机型时序预报 ( 1 ) 自回归模型( a r ) : 自回归模型是一种在描述时间序列方面特别有效的随机时间序列模型。在这个 模型中,时间序列的现在值z 。是用该序列过去数值的线性组合加上一个白噪声扰 动项a i 来表示。 z t 2 9 + 0 1 z t 1 + 0 2 z t 2 + + p z t p + a i( 3 - 9 ) ( 3 9 ) 式称为p 阶自回归过程a r ( p ) 。自回归模型这一命名的理由是,一个线性模 型 y 2 0 1 x l + 0 2 x 2 4 - + p x p + a( 3 - 1 0 ) 称为回归模型,也可以说y 对x i ,x 2 ,x p 进行回归。n ( 3 9 ) 式表示z 。是对其 自身的过去的数值进行回归,故称为自回归模型。 ( 2 ) 移动平均模型( m a ) : 另一种描述观察时间序列的重要模型叫做移动平均模型。在这类模型中,时 间序列的现在值z ,是用白噪声扰动项的线性组合来表示,即 z t 3 “+ a t + o la t 1 + 0 2 a t 2 + + 0 qa t q + ( 3 11 ) ( 3 1 1 ) 式成为q 阶移动平均模型m a ( q ) ,式中0 1 ,0 。可以是正或负。 ( 3 ) 自回归移动平均混合模型( a r m a ) : 为了使模型在拟合实际数据时具有更大的灵活性,有时在模型中既包括自回 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 归部分也包括移动平均部分是有利的。这就是白回归一一移动平均混合模型。其 表示式为 z t = “+ l z t - 1 + 2 z t 2 + + p z t p + a t + 0 1a t 1 + 0 2 a t 2 + + 0 qa t q ( 3 1 2 ) 模型( 3 1 2 ) 式含有p + q + 2 个未知参数u ,l ,2 ,p ,0 1 ,0 2 ,0 q 和6 0 。这些未知参数 要利用实际数据进行估计。 3 4 3 基于神经元网络的时序预报 神经网络技术通过模仿大脑神经元工作的机制对系统历史、经验的数据进行 学习,从而建立研究系统的等价模型。k o l m o g o r o v 连续性定理为神经网络奠定了 坚实的理论基础。它证明了存在一个三层网络,其隐单元输出函数为非线性函数, 输入及输出单元函数为线性的函数,此网络的总输入输出关系可以逼近任意一个 非线性函数。因为任何一个时间序列都可以看成一个由非线性机制确定的输入输 出系统,所以k o l m o g o r o v 定理从数学上保证了用神经网络对时间序列预测的可行 性。 在实际应用中,常常用b p 神经网络对时间序列进行预测。同线性模型相比, 用神经网络技术进行的时序预测,以智能学习的机制对时序数据进行分析,不再 需要假定随机性为时序数据和系统的基本特征,不再需要将线性假设作为时序分 析的前提。这为时序的预测提供了一种新的方向。但是通过神经网络学习所获取 的系统的知识是以由网络结构及其参数隐式表达的,具有透明性。另外,在神经 网络的学习中存在着学习不足和过度适应的问题,这使得这种方法很不稳定。在 由n e i l a g e r s h e n r e l d 和a n d r e a s s w e i g e n d 【3 】等人组织的时间序列预测和分析竞赛 中,同样的一批数据集,取得最好预测效果和最差预测效果的方法都是神经网络。 ( 1 ) 简单描述: 在时间序列预测中,前馈网络是最常使用的网络。在这种情形下,从数学角 度看,网络成为输入输出的非线性函数。记一个时间序列为 x 。) ,进行其预测可用 下式描述: x n + k 2 f ( x n ,x n 1 ,x n - m + 1 ) ( 3 13 ) 时间序列预测方法即是用神经网络来拟合函数f ( ) ,然后预测未来值。 ( 2 ) 网络参数和网络大小: 用于预测的神经网络性质与网络参数和大小均有关。网络结构包括神经元数 目、隐含层数目与连接方式等。对一个给定结构来说,训练过程就是调整参数以 获得近似基本联系,误差定义为均方根误差,训练过程可视为一个优化问题。 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 在大多数的神经网络研究中,决定多少输入与隐层单元数的定量规则问题目 前尚未有好的进展,仅有的是一些通用指导:首先,为使网络成为一个完全通用的 映射,必须至少有一个隐层。l9 8 9 年r o b e r t n i e l s o n 证明一个隐层的b p 网可 逼近闭区间内任意一个连续函数。其次,网络结构要尽可能简单,即满足要求的 最小网络最好。实际上,通常从小网络开始,逐步增加隐层数目。同样输入元数 目也是类似处理。 3 5 面向非平稳时间序列预测的两种建模方法比较 由上述的内容可知,以往的时间序列建模,神经网络( n n ) 应用的较多,神 经网络具有并行处理的结构,可塑性的网络连接、分布式的存贮记忆、全方位的 互连、强大的非线性处理能力等优点,但也存在诸多问题收敛速度慢,易陷入局 部极小和推广能力不足等缺陷;而第二章介绍的s v m 是一种较适合非线性数据建 模的新方法,具有推广能力强、全局最优解、适合小样本数据训练等优点。对于 本文所研究的非平稳时间序列的建模问题,究竟采取二者中的哪种方法更适合, 本小节将通过实验进行分析和论述。 3 5 1 实验一:基于太阳黑子活动数据集进行比较 3 5 1 1 数据准备 太阳黑子是一种纯时间序列预测问题,时间序列预测f 1 4 1 就是根据时间序列的 历史实际观测值抄( ,) ,y ( t 1 ) ,y ( t 一聊+ 1 ) ) 及影响该时间序列的相关变量 x 1 ( f ) , x 2 ( t ) ,x n ( f ) ) 对其未来时刻t + k ( 霓 o ) 时的取值y ( f + 霓) 进行估计,即,寻找未来时 刻的取值y ( ,+ 尼) 与其历史观测值秒( f ) ,y ( t 1 ) ,少( f 一聊+ 1 ) ) 及其影响变量 x 1 ( ,) , x 2 ( t ) ,x n ( ,) ) 之间的关系,可用下式描述: y ( ,十助2f ( ,) ,y ( t - 1 ) ,y ( t 一朋+ 1 ) ,x i ( t ) ,x 2 ( t ) ,x n ( ,) )( 3 1 4 ) 其中,当k = 1 时,称为一步预测,当k l 时称为直接多步预测。参数m 称 为步长。本文只考虑一步预测和纯时间序列预测,即: y ( t + 1 ) = ,( j ,( ,) ,y ( t 一1 ) ,y ( t m + 1 ) )( 3 1 5 ) 当训练回归模型时,样本对可以表示为:输入向量抄( r ) ,y ( t 一1 ) ,y ( ,脚+ 1 ) ) , 对应的输出值为y ( f + 1 ) ,输入向量 y ( ,+ 1 ) ,y ( f ) ,y ( ,栩+ 2 ) ,对应的输出值为 y p + 矽,并依此类推,由n 个训练样本就可以构建n m 个训练样本对。本节回归步 数m = 5 。 本节采用1 7 0 0 年至1 7 9 9 年太阳黑子活动数据。为使数据处理更方便,用下 东北大学硕士学位论文 第三章非平稳时间序列建模方法的选择 式标准化原始数据: 三:尘丛 ( 3 1 6 ) x = 2i j 。l oj 吒 其中,触为太阳黑子活动数据的平均值,以为太阳黑子活动数据的均方差。 图3 1 经过标准化的太阳黑子数据 f i g 3 1t h en o r m a l i z e ds u n s p o t sd a t a 图3 1 为经过标准化后的1 0 0 个太阳黑子数据,数据呈现非线性和非平稳性。 下面将分别采用支持向量回归和b p 网对该数据集进行训练和预测,以比较两种建 模方法。 为了评价预测的准确性,采用的误差计算公式为 n ( 0 - t i ) n m s e = 号_ ( 0 一,) 2 j = 1 ( 3 - 1 7 ) 其中,n 为数据集中样本数据的数目,巧为某一点的真实值,+ 为某一点的估 计值,;为所有点的估计值的平均。 ( 1 ) 采用s v r 进行建模 通过多次实验比较【”】,选择一组较优的参数:惩罚系数c = 2 0 ,不敏感参数 e = 0 5 ,同时采用的核函数为径向基核函数,即: e x p ( 一g a m m a 母i n v i 2 ) ( 3 - 1 8 ) g a m m a = o 0 0 3 9 0 6 2 5 。 ( 2 ) 采用n n 进行建模 由于是采用n n 对非线性过程进行预测,不但n n 的输入、输出存在着强烈 的非线性,因此要求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国青年公寓市场品牌竞争与运营模式创新报告
- 办公自动化课程指南
- 内存条购买建议
- 如何利用花园绿植打造亲水空间
- 咸宁市高职生英语学习状况剖析与提升路径探究
- 考研数学解题策略和解决问题的技巧
- 地产项目竣工验收规定
- 工地安全管理方案制定
- 专业素质评估标准
- 呼吸运动对三维适形放疗肺肿瘤剂量分布的影响及临床策略探究
- 2025年蜀道投资集团有限责任公司招聘笔试备考题库附答案详解(达标题)
- 美术基础 课件 第1、2章 美术简介;素描
- 2025年廉价航空行业研究报告及未来发展趋势预测
- 新能源企业盈利能力分析-以比亚迪股份有限公司为例
- 国家奖学金申请答辩汇报
- 2025年“学宪法讲宪法”知识竞赛题库含答案
- 2024年辽宁省地矿集团招聘真题
- 2025年绿化工技师试题及答案
- 【《基于哈佛分析框架的爱尔眼科公司财务分析(数据图表论文)》13000字】
- 榆林市无人机管理办法
- 建筑公司安全管理制度范本
评论
0/150
提交评论