




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于神经网络的季节性时间序列预测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的季节性时间序列预测方法研究摘要预测模型是数据挖掘技术中的重要组成部分。时间序列预测属于数据挖掘中的复杂类型数据的挖掘,被广泛地应用于各种领域。季节性时间序列受到季节变动因素影响外,还受到趋势、循环和非规则成分变动因素的影响,对于这种具有复杂的非线性组合特征的序列,采用单一的线性模型进行预测,结果往往不理想。近年来兴起的人工神经网络有表示任意非线性关系和学习等能力,给解决这类问题提供了新的思想和方法。本文分析了时间序列预测的线性和非线性模型的特点,提出了基于神经网络的组合预测模型和叠合模型,融合多种预测方法优点于一体,为时间序歹0 预测提供了一种新的预测方法。在这个思想指导下开展的主要工作如下:1 ) 对传统的时间序列预测线性模型g m ( 1 ,1 ) 和a r i m a 模型的基本理论和方法进行了分析:2 ) 研究了多层前向神经网络的结构和反向传播算法即b p 算法,讨论了神经网络预测模型的设计方法和设计步骤。对影响网络泛化能力的因素进行了讨论。针对季节性时间序列预测,提出了一种季节性神经网络预测模型;3 ) 以a r i m a 乘积模型和神经网络理论为基础,提出了一种用于季节性时间序列预测的组合数学模型。采用最优加权组合预测模型,将单一的a r i m a 乘积模型和季节性神经网络模型进行组合优化,同时考虑了季节因素和非线性成分等特征。预测结果表明,该模型在许多性能方面优于任何单一预测方法,为季节性时间序列预测提供了一种新的实用方法;4 ) 季节性时间序列具有增长性和波动性的二重趋势。g m ( 1 ,1 ) 模型能反映时间序列的总体变化趋势,但不能很好反映其季节性波动变化的具体特征,在模拟与预测波动时间序列中有明显的局限性。本文提出用季节性神经网络的方法来解决这问题,利用g m ( 1 ,1 ) 模型对时间序列趋势项进行预测,通过季节性神经网络模型对灰色模型的残差序列进行分析,提取其中的非线性成分作为预钡4 时的补偿项,形成叠合模型。实例表明,所建模型具有较好的适应性和预测精度。关键词:时间序列;神经网络;灰色模型;a r i m a 模型;组合预测;r e s e a r c ho ft h es e a s o n a lt i m es e r i e sf o r e a s t i n gm e t h o db a s e do nn e u r a ln e t w o r ka b s t r a c tp r e d i c t i o nm o d e lp l a y sa ni m p o r t a n tr o l ei nd a t am i n g i n g t h et i m es e r i e sf o r e a s t i n gi st h ea r e ao fm i n i n gc o m p l e xt y p e so fd a t a ,a n dh a sav a s ta p p l i c a t i o ni nv a r i o u sf i e l d s t h es e a s o n a lt i m es e r i e sh a st h ei n f l u e n tf a c t o r so fs e a s o n a lm o v e m e n t ,t r e n dm o v e m e n t ,c y c l i cm o v e m e n ta n di r r e g u l a rm o v e m e n t f o rs u c has u i t ew i t ht h ec h a r a c t e ro fc o m p l e x i v en o n l i n e a rc o m b i n a t i o n ,t h ef o r e c a s t i n gr e s u l t sb yac e r t a i nl i n e a rm o d e la r en o ts a t i s f i e d t h ea r i t i f i c a ln e u r a ln e t w o r kr i s i n gi nr e c e n ty e a r sh a sa b i l i t i e ss u c ha ss h o w i n gr a n d o mn o n l i n e a rr e l a t i o n sa n ds t u d i n ge t c ,a n do f i e r st h en e wt h o u g h t sa n dn e wm e t h o d st os o l v et h i sk i n do fp r o b l e m t h ep a p e ra n a l y z st h el i n e a ra n dn o n l i n e a rt i m es e r i e sf o r c a s t i n gm e t h o d ac o m b i n e df o r e c a s t i n gm o d e la n das u p p l e m e n t a r ym o d e lb a s e do nn e u r a ln e t w o r ka r ep u tf o r w a r d t h e s em o d e l ss y n t h e s i z et h em e r i t so fm u l t i p l ef o r c a s t i n gm e t h o d sa n do f f e ran e we f f e c t i v es o l u t i o no ft i m es e r i e sf o r c a s t i n g i nt h i st h o u g h t ,t h em a i nw o r ki nt h i st h e s i sa sf o l l o w i n g :1 ) t h eb a i s i ct h e o r ya n dm e t h o do ft h ec o n v e n t i o n a l t i m es e r i e sl i n e a rf o r c a s t i n gm o d e lb a s e do ng m ( i ,1 ) a n da r l m am o d e la r ed e e p l ya n a l y z e d ;2 ) t h es t r u c t u r eo fm u l t i p l a y e rf e e d f o r w a r dn e u r a ln e t w o r k sa n db a c k - p r o p a g a t i o na r i t h m e t i c - - b pa r i t h m e t i ca r es t u d i e d ,a n dt h ed e s i g nm e t h o d a n dt h es t e p so ff o r e c a s t i n gm o d e lb a s e do na n na r ed i s c u s s e d t h ef a c t o r so fi n f l u e n c i n gn e t w o k se x t e n s i v ea b l i t i t yi sd i c u s s e d as e a s o n a lm o d e lo fn e u r a ln e t w o r ki sm a d eb yu s i n ga r i t i f i c i a ln e u r a ln e t w o r kt os o l v es e a s o n a lt i m es e r i e sp r e d i e t o n ;3 ) ac o m b i n e df o r e c a s t i n gm o d e lb a s e do nm u l t i p l es e a s o n a la r i m am o d e la n ds e a s o n a la n nm o d e lw i t hs e a s o n a lf c a t u r ei sp u tf o r w a r d t h e s es i n g l em o d e l sa r ea p p l i e dt ob u i l dt h eo p t i m a lm i xf o r e c a s t i n gm o d e l ,a n d p r e d i c t i o nr e s u l ts h o wt h em o d e li ss u p e r i o rt ot h es i n g u l a ro n ei nm a n yp e r f o r m a n c ea s p e c t s i to f f e r san e we f f e c t i v es o l u t i o no fs e a s o n a lt i m es e r i e sp r e d i c t i o n ;4 、t h es e a s o n a lt i m es e r i e sh a st h ed o u b l et r e n d so fi n c r e a s i n ga n df l u c t u a t i n g g m ( i ,1 ) m o d e lr e f l e c t sw i t hh i g ha c c u r a c yt h eg e n e r a lt r e n do ft h et i m es e r i e sw h i l ef a i l st or e f l e c tt h ec h a r a c t e r i s t i c so fs e a s o n a 】uf l u c t u a t i o n o b v i o u sl i m i t a t i o ni se x i s t i n gi nt h em o d e lo fg r e yp r e d i c t i o nf o rs i m u l a t i n ga n dp r e d i c t i n gs e a s o n a lt i m es e r i e s as e a s o n a ln e u r a ln e t w o r km e t h o di sp r o p o s e dt os o l v et h i sp r o b l e m t h et r e n do fc a nb ef o r e c a s t e db yg m ( 1 ,1 ) m o d e l ,t h es e a s o n a ln e u r a ln e t w o r k si su s e dt oe x t r a c tt h en o n l i n e a rp a r tf r o mt h er e s i d u a le r r o rs e r i e so fg r e yf o r e c a s t i n g as u p p l e m e n t a r ym o d e li so b t a i n e db ya t t a c h i n gt h es u p p l e m e n t a r yi t e mt ot h eo r i g i n a lm o d e l a ne x a m p l ed e m o n s t r a t e st h em o d e lh a sg o o da d a p t a b i l i t ya n dp r e c i s i o n k e yw o r d s :t i m es e r i e s ;n e u r a ln e t w o r k ;t h eg r e ym o d e l ;a r i m am o d e l ;c o m b i n e df o r e c a s t i n g1 1 1独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究。r 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得盒匿王些盍鲎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:吖吖岭签字目期:d 节年扫“日学位论文版权使用授权书本学位论文作者完全了解金毽王些盍堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘。允许论文被套阅和借阅本人授权金鲤王些太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书)学位论文作者签名;f 冲断签字日期:d 每年r 月,6 日学位论文作工作单位:通讯地址:影导师签名:签字日期电话:邮编:鼠瞧致谢本人在三年的硕士研究生课程进修班学习和撰写学位论文的过程中,自始至终得到了我的导师胡学钢教授的精心指导、热情鼓励和大力支持,无论从课程学习、论文选题,还是到收集资料、论文成稿,都倾注了胡学钢老师的心血,由衷感谢胡学钢老师在学业指导及各方面所给予我的关心以及从言传身教中学到的为人品质和道德情操。老师广博的学识、严谨的治学作风、诲人不倦的教育情怀和对事业的忠诚,必将使我终身受益,并激励我勇往直前。同时,真诚感谢计算机信息学院的全体老师,他们的教诲为本文的研究提供了借鉴和指导,并创造了许多必要条件和学习机会;感谢研究生部和学位办的领导和老师们,在我课程学习和论文撰写期间,给予我的大力支持。感谢所有的同学给予的帮助。作者:竹凇2 0 0 4 年0 4 月2 0 日第一章绪言利用数据库管理系统( d b m s ) 可以对数据库中的数据进行有效的存取,但随着数据库管理系统的广泛应用,部门业务不断拓展,数据库中存储的数据量急剧增大,并且趋于分散,传统的d b m s 尽管提供了比较完善的存取和查询功能,但不能满足人们对大量数据进行知识抽取、发现数据间隐藏的依赖关系,从而为决策提供科学支持的需要。数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 和数据挖掘( d a t am i n i n g ,o m ) 正是在这种情况下产生发展的一种新型数据分析技术,成为近年来人工智能、数据库应用等领域的研究热点。目前,k d d 的研究涵盖了多个领域的多种知识发现方法,已经能够发现时间序列规则、关联规则、分类规则、聚类规则等多种知识类型。随着数据汇集工具、先进数据库技术以及万维网( w w w ) 技术的迅速发展,出现了大量结构各异的复杂数据类型,如空间数据,多媒体数据,时序数据,文本数据等,如何从大量的复杂类型数据中发现感兴趣的知识和模式是当前数据挖掘研究的重点和难点。本章首先介绍数据挖掘、时间序列的数据挖掘,最后提出本文的研究内容和本文的内容组织安排。1 1 数据挖掘概述从数据库中发现知识( k n o w l e d g ed is c o v e r yi n1 ) a t a b a s e k d d )是八十年代末开始的。k d d 词是在8 9 年8 月于美国底特律市召开的第一届k d d 国际学术会议上正式形成的。刚开始每两年召开一次国际k d d学术会议,9 3 年后每一年召开一次国际k d d 学术会议。这几次国际k 1 3 d学术会议上讨论的问题有:( 1 ) 定性知识和定量知识的发现;( 2 ) 数据汇总;( 3 ) 知识发现方法;( 4 ) 数据依赖关系的发现和分析;等等。1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘( d a t am in i n g ,d m ) 国际学术会议。由于把数据库中的“数据”形象地比喻成矿床,“数据挖掘”一词快流传开来。9 5 年以来,国外在数据挖掘和知识发现方面论文已经非常多,已形成了热门研究方向。1 1 1数据挖掘的基本概念1 、数据挖掘的定义目前有关数据挖掘的定义有很多,有的定义为:数据挖掘是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程ja 这些信息的表现形式为:规则、概念、规律及模式等,可帮助决策者分析历史数据及当前数据,从中发现隐藏的关系和模式,进而预测未来可能发生的行为。但目前比较公认的定义是:数据挖掘就是从大型数据库中提取人们感兴趣的知识 3 1 ,这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念、规则、规律及模式等形式。数据挖掘所处理的问题,就是在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关部门在进行决策时参考。此外,数据挖掘看重的是数据库的再分析,包括模式的结构或资料特征的判定,其主要目的就是要从数据库中发现先前关心却未曾获悉的有价值信息1 4j 。数据挖掘是人工智能和数据库发展相结合的产物。2 、数据挖掘与知识发现的关系根据f a y y a d 等人( 1 9 9 6 ) 对知识发现( k d d ) 的定义:k d d 是从数据集中识别出有效的、新颖的、潜在的、有用的以及最终可理解模式的非平凡过程 3 1 。k d d 的过程一般包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示【5j 。k d d 是一种知识发现的过程。而数据挖掘却只是k d d 中的一个很重要的步骤。总之它们最终目的是取得决策支持所需的信息,这个信息能突破盲点,获得人所未见的知识和信息。1 1 2 数据挖掘的任务数据挖掘的任务就是从数据集中发现模式。模式可以有很多种,按功能可分为两大类:预测型模式和描述型模式。描述性模式刻画数据库中数据的一般特性,预测性模式在当前数据上进行推断,以进行预测。在实际应用中,往往根据模式的实际作用又可分为六项:关联分析、聚类分析、分类、预测、时序模式、偏差检测i 们。下面简要介绍如下:l 、关联分析( a s s o c i a t i o na n a l y s i s )关联分析是指在数据库中寻找值的相似性,即发现数据之间的关联规则。一般用支持度和可信度两个闽值来度量关联规则的相关性。利用数据挖掘得到的关联规则,只是对数据库中数据相关性的一种描述,在没有得到其他数据验证的前提下,不能保证利用过去数据得到的规律在未来的情况下仍然有效。2 、聚类分析( c l u s t e r i n g )2我们将数据库中的数据分组成为由类似的数据对象组成的多个类的过程称为聚类。由聚类生成的每个类是一组数据对象的集合,同一类中的数据彼此相似,不同类中的数据相异。聚类分析是一种重要的人类行为,它增强了人类对客观世界的认识。通过聚类,我们可以建立宏观的概念。对于数据库中数据的聚类,我们可以发现数据的分布模式,以及可能的数据属性之间的相互关系。3 、分类( c l a s s i f ic a t i o n )分类是数据挖掘中一项非常重要的任务,也是在商业等领域应用最多的数据挖掘操作。分类就是找出一个类别的概念描述,它代表了这类数据对象的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。该模型能把数据库中的数据项映射到给定类别中的某一个。我们称为建立模型而被分析的数据元组为训练数据集,训练数据集中的单个元组称作训练样本。分类是利用训练数据集通过一定的算法而求得分类规则。4 、预测( p r e d i c a t i o n )预测是利用历史数据找曲变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是回归分析,即用大量的历史数据,以时间为变量建立回归方程。在最简单的情况下,回归采用像线性回归这样标准的统计技术。但大多数现实问题是很难用简单的线性回归进行预测的,如销售量、股票价格等,因为要描述这些事件的变化可能需要数以百计的变量,而且这些变量本身也往往是非线性的。为此人们又发明了许多新的手段来解决这类问题,如非线性回归、决策树、神经网络等。5 、时序模式( t i m es e r ie sp a t t e r n )时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。所采用的方法一股是在连续时间流中截取1个时间窗口( 1 个时间段) ,窗口内的数据作为1 个数据单元,然后让这个时间窗口在时间流上滑动,以获取建立模型所需要的训练集。6 、偏差检测数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况是非常重要的。事实上,在偏差中包括很多有用的知识,如分类中的反常实例、模式的例外、观察结果对模型预测的偏差、量值随时间的变化等。偏差检验的基本方法就是寻找观察结果与参照之间的差别。1 1 3 数据挖掘的方法和技术1 7 1数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据挖掘方法和技术。1 、决策树方法决策树方法是数据挖掘中经常使用的方法,它可以用来进行数据分析,也可以用来做预测。决策树( d e c is i o nt r e e ) 是一个类似流程图的树型结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表1 个测试输出,而每个树叶点代表类或类分布。树的最顶层节点是根节点。决策树建立的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。1 9 8 6 年,j r q u i n l a n 在机器学习杂志上发文介绍了i d 3 算法。1 9 9 3年,q u i n l a l l 出版了专著p r o g r a m sf o rm a c h i n el e a r n i n g ,介绍了极其流行的决策构造树c 4 5 ,其新功能是将决策树转换为等价的规则表示,并且解决了连续取值的数据学习问题。除i d 3 ,c 4 5 2 _ 外,分类树分析还有许多不同的算法。c h a i d 就是一种被广泛使用的分类算法。2 、神经网络方法神经网络最早由心理学家和神经生物学家提出,鲁在寻求开发和测试神经的计算模拟。由于神经网络在解决复杂问题时能够提供一种相对简单的方法,因此近年来越来越受到人们的关注。典型的神经网络模型主要分三大类:( 1 ) 以感知机、b p 反向传播模型、函数型网络为代表,用于分类、预测和模式识别的前馈式神经网络模型;( 2 )以h o p f ie ld 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;( 3 ) 以a r t 模型、k o h o n e n 模型为代表的,用于聚类的自组织映射方法。神经网络的知识体现在网络结构的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上。3 、统计分析方法在数据挖掘过程中,经常会用到传统的统计分析方法对数据进行分析。这些传统的统计方法主要有:常用统计、相关分析、回归分析、差异分析、聚类分析、判别分析等。4 、模糊数学方法客观事物往往具有某种不确定性。系统的复杂性越高,则其精确性越低,也就意味着模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好的效果。45 、可视化技术可视化技术在数据挖掘过程中的数据准备阶段是非常重要的,它能够帮助人们进行快速直观地分析数据。利用可视化方法很容易找到数据之间可能存在的模式、关系和异常情况等。由于在模型中的数据一般都是多维的,因此如何将n 维空间上的数据在二维空间上展示出来,是可视化方法的重要内容。1 1 4 数据挖掘技术的研究方向【8 、9 】目前,数据挖掘技术的研究还很不成熟,其应用还存在较大的局限性,成为其今后的发展方向:1 、数据输入形式的多样性。应用中经常需要对一些半结构化、非结构化的数据形式如文本、图形、数学公式、图象或w w w 资源进行挖掘操作,但目前的数据挖掘工具一般只能提供对数值型的结构化数据的处理,对数据中存在缺损或噪声的情况也没有有效的方法。2 、数据挖掘算法的有效性与可测性。数据挖掘的对象向更大型的数据库、更高的维数和属性之间更复杂的关系方向发展。更多的记录和属性意味着更大、更高维的搜索空间,从而导致组合爆炸:属性之间的关系变缛更为复杂( 如表现为层次结构) ,会大大提高知识搜索的代价。从一个大型数据库中抽取知识的算法必须高效、可测量,即数据挖掘算法的运行时间必须可预测,且可接受,指数和多项式算法等复杂性的算法不具有实用价值。目前的研究发展到用并行处理或抽样的方法处理大规模数据以获得较高的计算效率,根据问题的定义和领域知识选择出需要的属性从而降低维数并有效处理属性之间的复杂关系等。3 、用户参与和领域知识。有效的决策过程往往需要多次交互和多次反复,使数据挖掘的结果准确地描述数据挖掘的要求,并易于表达实现在多抽象层次上交互挖掘知识。目前许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域知识。4 、证实技术的局限。数据挖掘使用特定的分析方法或逻辑形式发现知识。如归纳方法。但系统可能无法去交互证实所发现的知识的正确或正确的程度,使得发现的知识没有普遍性而不能成为有用的知识。5 、知识的表达和解释机制。许多应用中重要的是用户能够理解发现的知识。这要求知识的表达不仅限于数字或符号,而是更易于理解的方式,如图形、自然语言和可视化技术等。同时,只有当数据挖掘系统能提供更好的解释机制,用户才能更有效地评价这些知识,并且区分出哪些是真正有用的知识,哪些只是常识性的知识或异常情况。6 、知识的维护和更新。新的知识发现可能导致以前发现的知识失效,因此知识需要动态维护和及时更新。目前研究采用增量更新的方法、数据快照和时间戳等方法来维护已有的知识。7 、私有性和安全性。数据挖掘能从不同角度、不同抽象层次上观察数据,将影响到数据挖掘的私有性和安全性。通过研究数据挖掘导致的数据非法侵入,可改进数据库安全方法,以避免信息泄露。8 、支持的局限、与其他系统的集成。目前的数据挖掘系统尚不能支持多种平台。一些产品是基于p c 的,一些是面向大型主机系统的,还有一些是面向客户机月艮务器环境的。另外,由于方法功能单一的发现系统的适应范围的限制,要充分发挥系统的作用,应该和数据库、知识库、专家系统、决策支持系统、可视化工具、网络技术等进行有机集成。1 2 时间序列的数据挖掘1 2 1 时河序列和时f - - j 序列数据库时间序列数据是指把反映某一总体特征的同一指标的数据,按照一定的时间顺序和时间间隔( 如月度、季度、年度) 排列起来的统计数字,也称为动态序列数据或时序数据。时序数据由随时间变化的序列值或事件组成,而序列数据由有序事件序列组成,它可以有时间标记也可以没有。如w e b 页面遍历是一种序列数据,但可能不是时序数据。所谓时间序列数据库就是指由随时间变化的序列值或事件组成的数据库。在时序数据库中,按照研究的对象和问题的不同,可以得到各种时间序列。例如产品销售记录、股票市场日波动( 股票价格数据) 、地区降雨量数据、气象温度数据、科学实验、医疗和医院门诊量等等,对象的属性值可能会随时间而改变,即这些数据随时间的变化呈现出有某种规律的趋势。这样,我们就可以对这些数据表示的事物进行预测。在自然科学、工程技术及经济管理等各领域中,大量决策问题离不开预测,预测是决策的基础。为了进行预测,就必需建立预测模型。1 2 2 时问序列的数据挖掘数据挖掘技术可以用来发现时间序列数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划是有用的。例如,银行数据的挖掘可能有助于根据顾客的流量安排银行出纳员。可以挖掘股票交易数据,发现可能帮助你制订投资策略的趋势。通常,这种分析需要定义时间的多粒度。例如,时间可以按财政年、学年或日历年分解。年6可以进一步分解成季度或月。时间序列数据挖掘是复杂类型数据挖掘中的一个重要分支。它们的研究主要有:趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期模式挖掘。1 、趋势分析一个时序变量y ,它可以表示成时间t 的函数y = f ( t ) ,描述一个点随时间变化的情况。主要有四种变化用于描述时序数据或其中某一个时段:( 1 ) 长期或趋势性变化。反映一般变化方向,其时序图是在较长时间间隔上的数据变化。( 2 ) 循环变动或循环变化。特点是循环性,即趋势线或曲线在长时期内呈摆动迹象。它可以是也可以不是周期性的。( 3 ) 季节性变动或变化。变化模式趋势性交化或近似趋势性变化,在连续几年的有关月份期间重复出现。( 4 ) 非规则或随机变化。反映由随机或偶然事件引起的零星时序变化。确定数据趋势的常见方法是计算n 阶移动平均值,其优点是可以平滑时序数据,但有时会丢失头尾数据,此时可以采用适当权重的移动平均方法降低其负面影响。也可以用徒手法( f r e e - h a n dm e t h o d ) 和最小二乘法来计算趋势。但徒手法的计算代价很大,且只对大规模数据挖掘可靠。使用最小二乘法可得到最好的拟合曲线,即具有最小的d i 2 ,其中d i 表示偏差或误差,指点( x i ,y i ) 的值,与对应曲线c 的值之间的差值。通过时间序列的趋势分析,人们可以在较合理的情况下,制定出长期或短期的预测。因此趋势分柝实际上即是时间序列预测。对于时间序列预测的研究由来已久,并在长期的研究中形成了一套完整的理论。时间序列预测方法有经典的统计方法、神经网络和机器学习等。i 9 6 8 年b o x 和j e n k i r l s 提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,进行时间序列的预测。目前,对时间序列预测方面的研究主要是非线性模型的研究。一、1 9 8 0 年加拿大统计学家b a t e s 和w a r t s 引入曲率度量以后,非线性模型的研究重到了快速发展并取得了可喜的成果。常用的非线性时序模型有限:门限子回归模型、指数自回归模型、双线性模型等。二、对时间序列采用非线性的迭代、学习模式,如人工神经网络方法来拟合较为复杂的时问序列数据。9 0 年代,非线性模型预测研究是针对非线性问题发展相应的非线性模型及解法。神经网络所具有的本质非线性、联想学习能力、自适应能力和空错能力,使得预测科学工作者意识到神经网络有可能成为预测科学中求解一般非线性问题的通用模型和方法。2 、时序分析中的相似性搜索时序数据的相似性分析通常采用欧氏距离作为依据。相似性匹配有两种方式:子序列匹配和整体序列匹配。许多信号分析技术要求频率域数据,所以在相似性搜索前要进行正交数据变换,将数据从时间域转换到频率域。使用独立于数据的变换方法较好,如离散傅立叶变换和离散小波变换等。在数据转化之后,再采用多维索引方法进行相似性搜索,方法有r 一数、r 3 树、x 树、后缀树( s u f f i xt r e e ) 等。3 、序列模式挖掘以下几个参数的取值严重影响序列模式挖掘的效果:( 1 ) 时间序列的持续时间t ,它可以是数据库中的整个序列也可以是用户指定的一个子序列;( 2 ) 事件重叠窗口( e v e n tf o l d i n gw i n d o w ) w 。在指定时间周期内出现的一组事件,可以视为某一分析中一起出现的事件:( 3 ) 被发现的模式中的时间间隔( i n t e r v a t ) i n t 。关联规则挖掘中采用的a p r i o r i 特性可用于序列模式挖掘,现有大多数序列模式挖掘算法实际上是a p r i o r i 算法的变种或改进,只是所考虑的参数设置和约束有所不同i i o 。j h a n 等在文献【1 1 1 中提出了一种新颖的频繁模式增长法( f r e q u e n tp a t t e r ng r o w t h ) 。4 、周期模式挖掘共有3 种周期模式挖掘:( 1 ) 全周期模式挖掘,其技术见于信号分析和统计学;( 2 ) 部分周期模式挖掘;( 3 ) 循环或周期关联规则挖掘。后两种挖掘大部分采用改进的a p r i o r i 挖掘方法,文献【1 2 1 和【。3 l 对这两种周期模式挖掘提出了几种不同的算法。此外,很多统计技术可以用来分析时间序列数据,如自回归法、单元a r i m a ( 自回归求和移动平均)模型、长记忆( 1 0 n g m e m o r y ) 时间序列模型等。针对时间序列的数据挖掘研究,从大量时间序列历史数据中挖掘有价值信息的算法及实现技术,是个新的、极具有挑战性的研究领域。1 3 本文的研究内容和章节安排1 3 1 本文的研究内容基于线性模型对非线性较强的季节性时间序列进行预测时,可能会产生相对较大的预测偏差。本文提出三种解决方法:( 1 ) 可直接采用神经网络进行预测;( 2 ) 采用最优加权组合预测思想将神经网络和线性模型进行组合优化,提高预测精度;( 3 ) 采用神经网络对线性模型的残差进行补偿校正,从而与基于线性模型的预测相结合而构成线性和非线性叠合预测模型。本文研究内容主要分为四部分:( 1 ) 本文分析了时问序列预测方法状况。经典的预测方法用于非线性系统预测有一定困难。而神经网络具有优良的非线性特性,特别适用于高度非线性系统的处理。因此神经网络是解决非线性预测问题的有效方法。为预测理论开辟了新的发展空间。( 2 ) 对单一的传统预测模型灰色模型g m ( 1 ,1 ) 、a r il t a 模型和b p神经网络模型进行了研究分析。针对季节性时间序列特点,提出了季节性神经网络预测模型;( 3 ) 针对许多时间序列的波动有季节规律性。采用最优加权组合预测模型将单一的a r i m a 乘积模型和季节性神经网络模型进行组合优化,同时考虑了季节因素和非线性成分等特征,比经典的季节性预测方法和单一式考虑因素方法有了进一步改进。( 4 ) 季节性时间序列具有增长性和波动性的二重趋势。利用g m ( 1 。1 ) 模型对时间序列趋势项进行预测,通过季节性神经网络模型对其残差序列进行分析,提取其中的非线性成分进行补偿校正,形成叠合预测模型。实例表明,所建模型具有较好的适应性和预测精度。1 3 2 本文的章节安排第一章绪言。介绍了数据挖掘和时间序列数据挖掘技术,最后给出本论文的研究内容和内容组织安排。第二章时间序列预测分析。详细分析了传统时间序列预测方法和不足。介绍了基于神经网络的非线性时间序列预测方法。第三章时间序列的神经网络预测模型。概述了1 3p 神经网络的预测模型理论、算法、模型设计及改进方法等。第四章季节性神经网络和a r i m a 模型的组合预测模型。研究分析了a r i m a 乘积模型、季节性神经网络模型原理和组合预测思想,最后结合实例,表明该模型在许多性能方面优予任何单一预测方法。第五章基于残差修正的季节性时间序列预测模型。首先研究了g m ( 1 ,1 ) 模型原理及灰色神经网络叠合模型原理,最后给出预测实例。第六章总结及展望。对本文的主要研究工作进行简要的阐述、说明,并对需要进一步解决的问题进行了探讨和展望。9第二章时间序列预测分析时间序列是一种十分常见的数据形式。在金融、工业、气象、医学、交通乃至计算机网络等十分广泛的领域,有大量的数据都是以时间序列的形式存在的,目前,在数据挖掘中,对时间序列的关注也越来越多。时间序列中的数据挖掘已经成为该领域中一个热点问题。它们的研究主要有:趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期模式的挖掘。时间序列数据对象的属性中随时间而改变,数据变化很可能随时间呈现出某种发展趋势或周期性。因此,为了进行预测,要从分析时间序列数据的变化特征着手,找到其随时间变化的规律,建立适当的预测模型,以判断未来数据的预测方法。其基本思想是:过去的变化规律会持续到未来,即未来是过去的延伸。时间序列数据的挖掘,属于数据挖掘中的复杂类型数据的挖掘,现在对于复杂数据的挖掘研究尚在起步阶段。但目前国内外在时间序列预测分析这方面的研究已取得了一些成果,并在长期的研究中形成了一套完整的理论。时间序列模型包括:移动平均法、指数平滑法、b o x j e k i n s 模型、灰色系统模型、自适应过滤法、曲线拟合、季节周期预测等,时间序列预测方法除了上述的经典统计方法外,还有神经网络和机器学习等。本章首先介绍时间序列趋势分析,并简单介绍传统预测方法和组合预测方法,最后介绍非线性时间序列预测方法和神经网络预测方法。2 1时间序列趋势分析从经济到工程技术,从天文到地理和气象,几乎在各种领域都可以遇到时间序列。在科技高速发展的今天,越来越多的时间序列信息被储存在计算机上,如证券公司的计算机积累了大量的股票信息,商场的p o s 系统收集了大量的销售信息,工厂的监控系统保存了大量的工业参数的历史数据,医院中医院信息系统( h i s ) 收集了大的时序资料。这些数据中包含了很多有用的信息,对时序数据进行分析具有很重要的价值。例如,对股票信息进行分析,可以用来预测股票的走势:对商品销售信息进行分析,预测商品销售的趋势,可以用来决策商品的进货、价格等,从而获得最大利润。2 1 1 时间序列的因素分析时间序列是随时间变化的事物的结果,这种变化必然存在某种趋1 0势,因而趋势分析是时间序列挖掘的重要方面。在时间序列中,每个时期数据的大小,都受许多不同因素的影响。例如:移动电话的数量就受到居民的实际收入水平、初装费、月租费等因素的影响。时间序列趋势分析通常对各种可能发生影响的因素按性质的不同分为四大类:长期趋势、季节变动、循环变动和不规则变动1 。1 、长期趋势变动长期趋势变动是指由于某种根本性因素的影响,时间序列在较长时间内朝着一定的方向持续上升或下降,以及停留在某一水平上。它反映的是在很长一段时间内总的走向趋势,这种走向可以用一个“趋势曲线”或者“趋势直线”来显示。2 、循环变动循环变动是以数年为周期的周期变动。主要指循环性,即趋势性或曲线在长时间内呈摆动迹象,它可以是也可以不是周期性的,即在等时间间隔之间,循环不需要沿着同样的模式演进。与长期趋势不同,它不是朝单一方向发展,而是涨落相间的波浪式起伏变动。3 、季节变动季节变动是指由于自然条件的影响,时间序列在一年内随着季节的转变而引起的周期性变动。季节变动的周期性比较稳定,一般是以一年为一周期,它反映的是每年都重复出现的事情,如在情人节来之前,巧克力和花的销量寒然增大。即在连续的很多年中,有一段时期总是与这年中的其他时期不同。4 、不规则变动不规则变动是指由各种偶然性因素引起的无周期变动。它反映的是由一些随机或突发的偶然事件而产生的零星时序变化,如劳工纠纷、洪水或企业人事变动等。可分为突然变动和随机变动。大多数时间序列模型包括了两个基本成分:趋势和季节性。前者描述了一个常规的随时间变化的系统线性或( 更常见的) 非线性成分。该成分是不重复的,或者至少在已有数据覆盖的范围内是不重复的。后者在形式上有相似的本质( 稳定时期后跟随一段指数增长) ,不同的是,后者经过一段时间间隔就会重复前一段的现象。在现实生活的数据中,这两个最基本的时间序列成分共同存在。2 1 2 时间序列的基本类型时间序列受到长期趋势、季节变动、循环变动和不规则变动等不同因素影响,呈现出不同的特征。时间序列一般可分为水平时间序列、趋势时间序列、季节性时间序列和周期性时间序列四种基本类型。不同类型的时间序列资料预测方法也不同。若时间序列的变化基本上是由偶然的随机因素所引起的,各段时期的平均值基本上保持不交或变化很小,其动态曲线围绕一条水平线小幅度的起伏是水平时间序列,其预测方法可用移动平均法或指数平滑法。若时间序列的动态曲线呈现出明显的随时问推移雨增加或减少的趋势就是趋势时间序列预测时可将时间t 依次赋值0 ,l ,2 ,k作为自变量,以观测指标( 如发病率、门诊量等) 作为因变量,根据散点图分布情况,拟合各种曲线。时间序列的动态曲线呈现出以一定时间间隔( 周、月、季、年等)为周期的循环往复的变化时是季节性时间序列。对季节性时间序列进行预测可同时兼顾季节性和趋势性的影响。若各时间间隔的数据基本上保持不变或变化很小,其动态曲线围绕一条水平线上下波动,而没有明显的随时间推移不断增长或减少的趋势,就是季节性水平时间序列;若呈明显的随时间推移而不断增长或减少的趋势,就是季节性趋势时间序列。季节性水平时间序列的预测方法可有:同季( 月) 平均法、指数平滑外推法;季节性趋势时间序列的预测方法可有:季节性线性趋势时间序列预测的求和法及乘积法等、季节性曲线趋势时间序列预测的多项式及其它曲线、季节性随机变化时间序列的b o x - j e n k i i s 模型等。时间序列的动态曲线呈现出一年以上( 几年以至十几年) 较长周期的循环变化时就是周期性时间序列,它是特殊的季节性时间序列。2 1 3 时间序列预测的基本模型l h j一个时间序列的形成。其理论模型基本上可以分为两类:一类为加法模型。另一类为比例模型。1 、加法模型:设时间序列的全变动为y t ,长期趋势变动为t t ,季节性变动为s t ,循环变动为c t ,不规则变动为i t ,则y t = t t + c t + s t + i t2 、比例模型:设时间序列的全变动为y t ,长期趋势变动为t t ,季节性变动为s t ,循环变动为c t ,不规则变动为i t ,则y t = t t 冲c c t 牛s t 牢it上述两类模型均以长期趋势变动为基干,其它变化与趋势变化相1 2结合。在大多数情况下,可以把时问序列看作是趋势变化或季节变化类型,不必特别去区别循环变化和随机变化,可统一作为残差来处理。长期变化类型只是描述历史数据大体的变化趋势,将来的数据可以按此趋势发展。所以这种变化模型多为单调上升或单调下降匆,多为指数类型或s 形的曲线,预测较简单,用通常的时间序列预测就能得到很好的效果。而对于循环变化和周期变化类型,则具有较高的非线性。此时可用非线性预测方法,以适应对象模型的非线性。对于具体的时间序列,要有哪几类变动组合,采用何种基本模型,应根据所掌握的资料、时间序列的性质及研究的目的来确定。通过对时间序列的长期趋势、循环、季节性、不规则成分的变动的系统分析,人们可以在较合理的情况下,制定出长期或短期的预测。2 2 时间序列的传统预测方法时间序列预测法,就是将预测目标的历史数据按照时间的顺序排列成为时间序列,然后分析它随时间的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3.17 明朝的灭亡 说课稿 2023-2024学年统编版历史七年级下册
- 2025光纤光缆购销合同
- 2025建筑材料采购分包合同
- 2024年七年级历史上册 第一单元 史前时期:中国境内人类的活动 第3课 远古的传说说课稿 新人教版
- 沪科版高一物理必修二第一章第一节平抛运动教学设计
- 2.2 充分条件、必要条件、充要条件说课稿-2025-2026学年高中数学苏教版2019必修第一册-苏教版2019
- 福建省16次年会教学设计《探索生长素类似物促进插条生根的最适浓度》教案
- 印刷厂员工更衣室管理规定
- 厦门事业单位笔试真题2025
- 2025合同样本-实习生合同范本
- 旧楼拆除防尘降噪专项措施
- 2025年中国毛皮服装市场调查研究报告
- 矿山开采运输管理制度
- 律师行业税务问题课件
- 2025年中医适宜技术考试练习题库(含答案)
- DB63T 1599-2025 高海拔高寒地区公路边坡生态防护技术设计规范
- 横向合同终止协议
- Module 9 great inventions Unit 3 教学设计 2024-2025学年外研版九年级英语上册
- 医院危险化学品安全管理制度
- 特殊教育《学习剪指甲》
- 投资担保合同范本7篇
评论
0/150
提交评论