【时间序列预测常用方法探析11000字(论文)】_第1页
【时间序列预测常用方法探析11000字(论文)】_第2页
【时间序列预测常用方法探析11000字(论文)】_第3页
【时间序列预测常用方法探析11000字(论文)】_第4页
【时间序列预测常用方法探析11000字(论文)】_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时间序列预测常用方法分析摘要对于不同的时间序列,预测方法的选择问题对提高预测精度非常重要。本文基于回归模型、自回归滑动平均模型、求和自回归滑动平均模型租、神经网络和径向基函数神经网络的基本原理和算法描述。本章在环境下实现了这五种时间序列预测方法,并利用这五种方法对同一个信号进行建模和预测,分别比较这几种方法在不同情况下的预测性能,另外,笔者利用计算机生成了两个随机数据序列,分别是服从区间,上的均匀分布数据和服从均值为,方差为的高斯分布数据用五种预测方法对这两类数据进行预测,比较它们的预测效果。关键词:时间序列;短期预测;神经网络目录引言 3一时间序列预测的意义和生活中的运用 4二五种时间序列预测方法的实现和比较 52.1五种时间序列预测方法 52.2模型预侧法 52.3模型的可解释性问题 7三时间序列都具有非线性的特点和常用的误差指标 113.1时间序列非线性特点 113.2常用的误差指标 12四总结 18参考文献 19引言时间序列是指按照时间顺序取得的一系列观测值,很多数据是以时间序列的形式出现的,从经济、金融到工程技术,从天文、地理到气象,从医学到生物等各个领域都涉及到时间序列,例如船舶运动,每天的气温,公路事故数量的周度序列等等。在自然科学和社会科学各研究领域中,大量决策题都离不开预测,时间序列预测是指利用时间序列的若干历史观测值来预测未来某时刻的取值。时间序列预测的应用非常广泛,如天气预报,股价指数的预测,船舶运动的极短期预报等等。一时间序列预测的意义和生活中的运用时间序列是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法,在统计学中作为一种常用的预测手段被广泛应用。时间序列分析在第二次世界大战前应用于经济预测。二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。时间序列构成要素是:现象所属的时间,反映现象发展水平的指标数值。现实生活中的很多数据都是以时间序列的形式出现的,时间序列是一种重要的复杂数据对象,无论是某股票价格的变化,某商品每个月的销售量还是自然领域的太阳黑子数,月降水量等等,都形成一个时间序列。在社会,经济,技术等领域中存在着大量的时间序列数据有待进一步的分析和处理,人们希望通过分析这些时间序列数据从中发现某一现象的发展变化规律,从而尽可能多的从中提取出所需要的准确信息,利用这些数据预测未来,从而达到更好的控制将来事件的目的。预测的科学性在于,它有科学基础,包括理论,资料,方法,计算等因素,依赖于对客观规律的认识和掌握。预测的目的在于为制定计划和进行决策提供客观依据,社会经济,工程等诸多领域都离不开预测,日常天气的预测,网络流量的预测,股票走势的预测都和我们的日常生活息息相关。我们现在的预测方法还不够成熟,对一些重大的自然灾害,比如地震,海啸等,没有形成有效的预测方法。解决预测问题关键是通过研究历史数据弄清楚序列的内在发展规律及相依关系,从而利用时序的自身变化规律对未来做出预测。而现实中的数据的结构千变万化,要探索历史数据的本质形式,建立一个真正可以预测的时序模型具有很大的挑战性。二五种时间序列预测方法的实现和比较2.1五种时间序列预测方法基于回归模型、自回归滑动平均模型、求和自回归滑动平均模型租、神经网络和径向基函数神经网络的基本原理和算法描述。对于不同的时间序列,预测方法的选择问题对提高预测精度非常重要。本章在环境下实现了这五种时间序列预测方法,并利用这五种方法对同一个海浪信号进行建模和预测,分别比较这几种方法在不同情况下的预测性能,实验中用到的海浪信号,单位被规范化。另外,笔者利用计算机生成了两个随机数据序列,分别是服从区间,上的均匀分布数据和服从均值为,方差为的高斯分布数据用五种预测方法对这两类数据进行预测,比较它们的预测效果。2.2模型预侧法杜会经济系统中的许多变t除了含有随机性扰动和趋势性变化以外,还兼有季节性(或称作周期性)波动。这种季节性的波动是由于系统内部的周期性运动与变化规律和系统的外部环境的季节性作用特点等因素所造成的。由于这种因果关系的错综复杂和不明确,人们通常撇开这些复杂的关系而转向直接对被测量的时间序列进行分析和研究,从而同时预测出其趋势性变动和季节性波动.可见,季节性波动预测较一般预测有特殊的困难。为此,人们提出了各式各样的预测方法来解决这一问题。总结这些方法我幻不难发现,它们在本质上都是设法将季节性的波动从原时间序列中“剔除”出去,然后用一般的预侧方法对无季节性的新时间序列进行预测,最后再通过某种手段将季节性反映出来.而达到这一目的的途径是多种多祥的,但总体来说,可以分为四类:季节性因子分解预测法、oBx一eJnkins季节模型预侧法、按季节分解预侧法以及分解—组合预测法.下面,通过对各类方法的分析和比较,可以看到它们各自的特点和缺陷.申此,我们又会很自然地发现一些需要改进的问题。我们知道,评价一种预测方法的优劣,一方面要看它的预测精度,另一方面还要考虑它的简便性和预测费用等问题。本文正是根据这一原则,对常用的季节性波动预测方法进行了较全面的归纳总结,指出了它们各自的特点和缺陷.从而为这些方法的选择使用和改进提供了依据。最后,文章就各方法存在的问题提出了进一步改进的设想.作者将就这些问题另文作具体探讨.时间序列预测在很多领域有着极其广泛的应用,它一般是利用历史样本建立起统计模型,并由这一模型来阐释数据规律,从而进行控制和预报。平稳时间序列如何进行建模和预测,尤其是线性模型,关于送方面的研究由来己久。常见的方法有AR模型、MA模型、ARMA模型、最小二乘估计、岭回巧、Lasso回归等等,它们由其各自的优越性在时间序列预测中取得了不错的效果。但现实中,有很多的时间序列,数据是海量的高维的,并且具有非平稳、非线性特点,上述方法己不再完全适用。于是,统汁学家们提出了人工神经网络W及支持向量机方法,和最小二乘、岭回归、Lasso回归比起来,它们的非线性预测性和实用性的特点较为突出,也就越来越受青睐。2.3模型的可解释性问题在进行时间序列的预测时,我们总希望非零参数少些,且每个分量对因变量的影响尽可能大些,沒样也许偏差会有所增加,但预测误差却减小了,同时使得模型简单化,但遗憾的是,OLS并不能满足这些要求。特别是在实际的问题研究中,变量之间不可避免地会有复共线性现象(变量么间有近似的线性关系),一旦变量之间有复共线性,OLS就不再是一个良好的估计了,会出现一系列不好的现象,比如估计值不稳定,化及估计值与实际值不相符合,有时甚至出现自变量和因变量之间的相关性正负颠倒。岭回归的基本思想、重要性质及峰参数的选取。岭回归方法同普通最小二乘法相比,一个最本质的区别就是;岭回归估计已经不再是无偏估计了。景小二乘估计是无偏的,但OLS在设计矩阵X呈病态时变得很不合理了。而岭回归估计改良了最小二乘估计,它通过让系数有偏来解决复共线性问题。假设一个估升量有很小的偏差,但其精度却远远比无偏估计量要高,也即更加向真实参数值靠巧,人们当然更巧意选取该估计量。虽然岭回归估计比普通最小二乘估计更加的稳健,在一定范围内有着优良的特性,但是岭参数fc值的确定依赖于未知参数,特别是用岭迹法来选取A值,主观性较强。岭回归估计压缩了回归系数,能使得模型比较稳定,但由于没有剔除掉一些变量,有些不重要的回归系数并未直接压缩成0,模型中的变量个数过多,导致模型的可解释性差。若协调參数4越大,它的约束效力就会越小,当f的值大到超出某一界限时,约束画數的约束作用就会完全消失,这时的回归系数估计值即是OLS估汁量;又若协调参数Ub较小,约束效力就会很明显,这时回归系数估计值就是OLS的收缩估计量,显然t的大小直接决定了最终能够入选模型的自变量个数。因此,协调参数*的确定,在Lasso方法中尤为关键。在自变量分布未知的情况下,这里简单介绍两种参数f的估计方法一-交叉验证方法和广义交叉验证方法。2.3.1Lasso回归岭回归的比较如上文所述,岭回归估计虽然是对最小二乘估计的改进,但它仅仅是对回归系数进行一定程度的压缩且并不能压缩至0,因此模型的可解棒性不好,而Lasso回归不仅仅对系数进行压缩,甚至使一些系数直接变成化从而达到了降维和变量选择的目的。在维数为2时,图2.2直观地展示了为何Lasso能产生值为0的系数。该函数的桐圆边界在图2.2中用闭合曲线表示,它的中屯、是最小二乘估计所得的系数解。图2.2(a)表示Lasso回归,其约束条件是一个旋转的正方形,Lasso解就是楠圆边界首次跟正方形相交时刻,此情况发生于正方形的角上,这样就造成了系数为化图2.2(b)表示岭回归,因为圆形没有角,相遇时刻较难在坐标轴上发生,所W有零解的可能性很小。Lasso方法在压缩系数,特别是在变量选择方面的优势显而易见,但若处理的数据是高维海量的或者是小样本时,计算开销大或过学习现象又会随之发生,从而Lasso回归的优越性又会丧失。2.3.2支持向量机1W5年,Vapnik等人提出了支持向量化学习方法,近年来备受学术界关注,该方法的很多优点都能体现在处理非线性问题和高维模式识别中。支持向量机(SupportVectorMachine,SVM),WVC维理论[10]和结构风险最小原理[51为基础,而不是传统的经验风险最小化[15]原则,因此泛化能力比较好。此外,在处理非线性问题的时候,将其转换成高维空间中的线性问题,其中的巧积运算用核函数来代替,进而复杂计算问题得W化解,维数灾难W及局部极小难题也得到解决。2.3.4支持向量机与前H种方法的比较不管是上文所述的最小二乘估计,吟回归,还是Lasso回归,都是通过构造线性模型,然后进行参数估计和变量选择,在此基础上建立回归模型,且—些假设条件为前提,比如正态分布假设,假定预测对象的变化趋势会持续等等。然而,现实中的时间序列有着高维、海量、非线性、非平稳等特点,传统的线性模型显然无法满足这些要求,达不到人们的期望。流行的神经巧络方法拥有较好的非线性逼近能力,但确定模型结构比较难,易出现局部极小值现象。另外,神经网络是通过构建含加权值的网络模型来学习的,具有隐性的知识结构,因而缺乏解释能力,运些不足使得神经网络的实际运用有很大的局限。支持向量机方法能很好地克服这整不足,其基础么一是结构风险最小化,充分考虑了样本的复杂性和拟合性,有很多的优点,比如对样本依赖程度低、泛化能为强W及拟合效果巧等。通过选定核函数、回归类型和参数进行学习,过程简单,不管是拟合度还是预测的准确性和稳定性都比最小二乘、岭回归和Lasso回归,M及神经网络要好,在实际应用中表现出很好的性能。但是对于支持向量机,有关核函数及其参数的选取对回归效果会有很大影响,而目前,并没有通用的选择方法,这仍然是需要进一步研究的工作内容。最小二乘估计、岭回归、Lasso回归和支持向量机这四种方法的相关理论,包括基击原理、性质、参讚強择、模型实现等,井将它们进行比较,最后采用matM)软件进行实例验证。最小二乘估计在很多领域有着宽泛的应用,但在处理共线性问题上有巧显的劣势;吟回归是对最小二乘的改进,能很好地处理复共线性问题,并且对各个系数进行一定程度的压缩,但参数fc的确定比较主观,而且并不能使个别不重要的变量系数压缩至零,模型的可解释性不巧;Lasso回归不但能对自变量系数进行压缩,而且能使个别系数直接为零,从而进行变量选择,较岭回归有很大的改进;支持向量化通过选取适当的核函数、回归类型和参数进行机器学习,能处理非线性、高维数据,预测效果明显比前H种方法好,越来越广泛地应用到实际生活中。但由于时间、水平有限和方法的限制性,本文的研究内容比较粗糖,四种方法的预测效果有区别但效果没有想象中的明显,特别是由于种种原因,获得的样本数据并不够多,也未能实现神经网络与这四种方法的比较,这些都有待进一步提高和改进,期望在后的学习中能获得更深入更全面的理解。三时间序列都具有非线性的特点和常用的误差指标3.1时间序列非线性特点时期序列的主要特点有:1)序列中的指标数值具有可加性。2)序列中每个指标数值的大小与其所反映的时期长短有直接联系。3)序列中每个指标数值通常是通过连续不断登记汇总取得的。2.时点序列:由时点总量指标排列而成的时间序列时点序列的主要特点有:1)序列中的指标数值不具可加性。2)序列中每个指标数值的大小与其间隔时间的长短没有直接联系。3)序列中每个指标数值通常是通过定期的一次登记取得的。(二)相对数时间序列把一系列同种相对数指标按时间先后顺序排列而成的时间序列叫做相对数时间序列。(三)平均数时间序列平均数时间序列是指由一系列同类平均指标按时间先后顺序排列的时间序列。5编制原则\o"编辑本段"编辑:保证序列中各期指标数值的可比性(一)时期长短最好一致(二)总体范围应该一致(三)指标的经济内容应该统一(四)计算方法应该统一(五)计算价格和计量单位可比6变量特征\o"编辑本段"编辑:非平稳性(nonstationarity,也译作不平稳性,非稳定性):即时间序列变量无法呈现出一个长期趋势并最终趋于一个常数或是一个线性函数。波动幅度随时间变化(Time-varyingVolatility):即一个时间序列变量的方差随时间的变化而变化这两个特征使得有效分析时间序列变量十分困难。平稳型时间数列(StationaryTimeSeries)系指一个时间数列其统计特性将不随时间之变化而改变者。[4]7分析方法\o"编辑本段"编辑(一)指标分析法通过时间序列的分析指标来揭示现象的发展变化状况和发展变化程度。(二)构成因素分析法通过对影响时间序列的构成因素进行分解分析,揭示现象随时间变化而演变的规律。8分析模型\o"编辑本段"编辑时间数列的组合模型1加法模型:Y=T+S+C+I(Y,T

计量单位相同的总量指标)(S,C,I对长期趋势产生的或正或负的偏差)2

乘法模型:Y=T·S·C·I(常用模型)(Y,T计量单位相同的总量指标)(S,C,I对原数列指标增加或减少的百分比)9序列预测\o"编辑本段"编辑时间序列预测主要是以连续性原理作为依据的。连续性原理是指客观事物的发展具有合乎规律的连续性,事物发展是按照它本身固有的规律进行的。在一定条件下,只要规律赖以发生作用的条件不产生质的变化,则事物的基本发展趋势在未来就还会延续下去。时间序列预测就是利用统计技术与方法,从预测指标的时间序列中找出演变模式,建立数学模型,对预测指标的未来发展趋势做出定量估计。时间序列是指依照时间次序纪录随机事件的变动过程。时间序列分析就是对时间序列的变更规律进行观察和研究,对其未来趋向进行估计。我们通进诸多的历史数据建立统计模型,用它来估计未来值。建立模型肯定会涉及到很多的参数,那么首先就需要估计出模型的参数。最小二乘估计在线性模型参数化计中的地位举足捏重,归根结底是它具有线性无偏的特征。然而在如今的大数据时代,人们往往需要处理大型回归问题,随着自变量个数的増多,复共线性问题随之而来,这往往致使最小二乘估计的性质很不好。如果从线性无偏估计扩充到非线性估计或者有偏估计,将无法体现出最小二乘估计的优势。于是,许多新的估计方法如主成分估计、岭估汁、Lasso估计等被提出来。当设计矩阵病态(即存在复共线性问题)时,岭估计确实改进了最小二乘估计。岭估计引进了一个有偏参数,并且对该参数取适当的值,这样就可W将由复共线性引发的估计误差去除。岭回归估计使得模型的精确程度有了较大的提高,但与此同时,偏差却有了小规模的增大,且它使系数趋近于0但却不完全为0,常常将模型中的所有变量都予W保留,当自变量过多时,它并不能给出一个简单且解释性很强的模型。Lasso回旧本质上是最小化残差平方和,但必须W各系数的绝对值之和小于某个常数为前提条件。该回巧方法不仅能使系数趋近于0,甚至可W直接压缩至0,能起到很好的变量选择作用,模型的可解释性较强,送点明显优于岭回归。但是当样本数远少于自变量个数时,模型又会出现过稀疏现象,从而得不到最优的模型。现在很多的时间序列都具有非线性的特点,上几种方法显然无法满足日益复杂的数据要求。支持向量机能够很好地处理非线性和离维模式识别问题,此方法的基础是统计学结构风险最小化原理和VC维理论,在处理非线性问题的时候,将其转换成高维空间中的线性问题,其中的内积运算用核函数来代替,进而复杂计算问题得到化解,维数灾难封及局部极小难题也得到解决。3.2常用的误差指标先从简单的方法说起。给定一个时间序列,要预测下一个的值是多少,最简单的思路是什么呢?(1)mean(平均值):未来值是历史值的平均。(2)exponentialsmoothing(指数衰减):当去平均值得时候,每个历史点的权值可以不一样。最自然的就是越近的点赋予越大的权重。或者,更方便的写法,用变量头上加个尖角表示估计值(3)snaive:假设已知数据的周期,那么就用前一个周期对应的时刻作为下一个周期对应时刻的预测值(4)drift:飘移,即用最后一个点的值加上数据的平均趋势介绍完最简单的算法,下面开始介绍两个timeseries里面最火的两个强大的算法:Holt-Winters和ARIMA。上面简答的算法都是这两个算法的某种特例。(5)Holt-Winters:

三阶指数平滑:

Holt-Winters的思想是把数据分解成三个成分:平均水平(level),趋势(trend),周期性(seasonality)。R里面一个简单的函数stl就可以把原始数据进行分解:一阶Holt—Winters假设数据是stationary的(静态分布),即是普通的指数平滑。二阶算法假设数据有一个趋势,这个趋势可以是加性的(additive,线性趋势),也可以是乘性的(multiplicative,非线性趋势),只是公式里面一个小小的不同而已。

三阶算法在二阶的假设基础上,多了一个周期性的成分。同样这个周期性成分可以是additive和multiplicative的。举个例子,如果每个二月的人数都比往年增加1000人,这就是additive;如果每个二月的人数都比往年增加120%,那么就是multiplicative。对预测结果的精度和可靠性进行评价是预测分析的重要组成部分,常用多项误差形式来对预测结果进行评价,以此来判定各种预测方法的优点和可行性,而只用某一项误差指标来评价预测结果是不可靠也不够科学的,这里使用文献中用到的常用的误差指标如下,其中否是序列在时刻的实际观测值,又是序列在时刻的预测值:偏差:归一化偏差:均方根误差:标准偏差:当然很多时候并不符合这个要求,例如这里的airlinepassenger数据。有很多方式对原始数据进行变换可以使之stationary:(1)差分,即Integrated。例如一阶差分是把原数列每一项减去前一项的值。二阶差分是一阶差分基础上再来一次差分。这是最推荐的做法(2)先用某种函数大致拟合原始数据,再用ARIMA处理剩余量。例如,先用一条直线拟合airlinepassenger的趋势,于是原始数据就变成了每个数据点离这条直线的偏移。再用ARIMA去拟合这些偏移量。(3)对原始数据取log或者开根号。这对variance不是常数的很有效。如何看数据是不是stationary呢?这里就要用到两个很常用的量了:ACF(autocorrelationfunction)和PACF(patialautocorrelationfunction)。对于non-stationary的数据,ACF图不会趋向于0,或者趋向0的速度很慢。下面是三张ACF图,分别对应原始数据,一阶差分原始数据,去除周期性的一阶差分数据:对海浪信号取不同时间段做预测的实验结果比较了预测步长的增加对预测效果的影响外,还需要通过选取不同时间段进行预测来比较这几种预测方法的性能。经过多次实验,笔者发现对于不同的时间段,神经网络的预测效果都能保持比较高的精度,而,模型的预测精度要差很多。选取海浪信号的第到个数据做步预测,其中第到的数据时序图如下图所示:由上面两张表可以明显的看出,在利用原始海浪数据的第1400-1449个数据进行20步预测,预测第1450-1469个数据时,神经网络的预测精度远远高于线性模型。其中BP神经网络的预测精度最高,四种误差值都最小,从图3.35和图3.36可以看出,BP神经网络的预测值与观测值非常接近,尤其是最后的5个点,无论从取值还是趋势上都非常接近。RBF其次,而线性模型AR,ARMA和ARIMA的预测误差则增加很多,而且三者都有一个共同点,就是最后五个值(从第1465-1469数据)的预测值和趋势偏离了海浪数据的原始观测值,这几个预测值几乎无效。从运行时一间上比较,此次预测中RBF的时间最短,BP其次,这两个神经网络所用时间都小于三种线性模型。因此,在选取的样本数据少的情况下,神经网络的预测效果要好于线性模型,而且所花时间也最短。从以上的实验结果中可以看出,这五种预测方法用于该均匀分布随机数据的预测效果都不算理想。其中AR模型的预测效果要优于另外两种线性模型;ARIMA模型的预测精度比ARMA更高;BP网络除了归一化偏差外,其它误差值都小于RBF网络;另外,在预测的20个数据中,神经网络预测的后面两个数据比线性模型要更接近于实际值;尽管BP网络的归一化偏差,均方根误差和标准偏差比AR和ARIMA模型更大,但从图3.46中可以看出,BP神经网络预测值的上升和下降趋势与实际值的上升、下降趋势最接近。从运行时间上比较,RBF神经网络依然保持最短,其次是BP网络;它们的运行时间都小于三种线性模型,线性模型中AR模型运行时间最短,ARIMA其次。从以上的实验结果中可以看出,这五种预测方法用于该均值为0,方差为1的高斯分布随机数据的预测精度都不高,但对于前14个预测值,五种预测方法都能较好的预测出数据的变化趋势。从运行时间上比较,RBF最短,其次是BP网络,线性模型中AR模型的运行时间最短。2丄3最小二乘估计的不足由上节可知最小二乘估计是线性无偏的,它有着很好的性质,但是也不能忽略它的不足之处:预测精度问题。OLS的偏差很小,但其方差有可能很大;上面几节分别用这五种时间序列预测方法对同一个海浪信号进行了三种不同情况下的预测实验,分别是:利用前2944个数据做20步预测,预测第2945-2964个数据(神经网络选取第2401-2944个数据作为样本数据);利用前2944个数据做30步预测,预测第2945-2974个数据(神经网络选取第2401-2944个数据作为样本数据);利用第1400-1449个数据进行20步预测,预测第1450-1469个数据。得到的偏差、归一化偏差、均方根误差和标准偏差分别如表3.4、表3.6和表3.8所示,比较误差值和预测值与观测值的拟合曲线可以得出:(1)当利用前2944个数据做20步预测时,ARIMA模型的预测结果最好,其次是BP神经网络和RBF网络。但预测步长由20增加到30时,神经网络就能体现出比另外三种线性模型更高的预测精度,预测误差随着预测步长增加而增加的幅度要远小于AR,ARMA和ARIMA模型。另外在这三种线性模型中,ARIMA一直保持比另外两种更好的预测效果,预测的步长能到达更长。(2)当取出2974个历史数据中的任意时间段进行预测时,发现神经网络一直能保持比较满意的预测效果。论文以第1400-1449个数据预测第1450-1469个数据为例做了比较,AR,ARMA和ARIMA在预测的前15个点中的效果还可以,但是后面的5个数据偏离原始观测值很多,趋势也不对。而BP神经网络和RBF神经网络都能得到很好的预测精度,四种误差的取值都远小于另外只个线性模型,且无论从取值还是上升或下降的趋势上都能与原始观测值非常的接近,运行时间也比三种线性模型短。同时,本章利用计算机生成了两个随机数据序列,一个是服从区间【0,1]上的均匀分布数据;另一个是服从均值为0,方差为I的高斯分布数据。分别利用五种预测方法对它们进行预测,取前80个数据做20步预测,预测第81-100个数据。从预测的结果中看出,这两类数据的预测精度都不理想,误差较大,而且神经网络相对于线性模型,除了运行时问最短之外并没有体现明显的优势。但是对于这两类数据,在短期预测内,线性模型和神经网络都能较好的预测出数据的变化趋势。因此当给定的样本数据足够大,进行短期预测时,AR,ARMA和ARIMA的效果都不错,可以用来对线性时间序列进行预测,但是预测的步长有一定的限制。从上面的实验可以看出AR模型有时候能得到比ARMA模型更好的预测效果,这是因为对于不同的时间序列有它所适合的模型,在进行预测之前,需要通过时间序列的自相关函数的统计特性进行判别,确定最适合的模型进行预测。本次论文用的海浪数据本身就没有明显的增长或衰减趋势,因此这里使用ARIMA模型预测的效果并没有体现出很大的优势。神经网络的预测步长可以达到比AR,ARMA和ARIMA更长;虽然在选取同样长的样本数据做预测时,神经网络花费的时间长,但可以在保持较高预测精度时相应的减少样本数据,这样可以使得预测的时间短很多,提高了实时性。时间序列短期预测系统是利用MATLAB中的GUI界面开发的,主要通过MATLAB中的GUIDE向导来建立和设计系统。在建立该系统的过程中,主要有两个部分:第一是在GUI的对象设计编辑器(LayoutEditor)界面上布局控件位置以及完成控件属性的设置。第二是GUI编程,在对应的M文件中编写代码,控制界面中的控件响应用户的行为,实现系统的整个功能。此系统主要功能有:输入界面方便用户自主的输入待预测的时间序列名、预测步长、选择用来预测的样本数据段以及预测方法;对于不同的预测方法所需要的参数,会自动跳出对话框供用户输入变量;输出界面中直观地显示四种误差指标的值,预测值与观测值的比较和预测的误差值,并且将预测值存入一个“.dat"文件。这些功能方便用户在系统上对五种预测方法进行实验比较分析,并且可以自由设置预测方法的参数。在本次论文的实验中,线性模型AR,ARMA和ARIMA的预测步长不能达到很长,但对海浪信号的短期预测还是非常有效的,而神经网络则碰到以下问题:(1)BP神经网络的预测结果不稳定,这源于神经网络算法易陷入局部最小点的缺陷。在BP神经网络的预测中,笔者利用init()函数对创建好的网络进行初始化,而这个初始化是随机的,因此造成了每次运行的结果不一样,不能每次都得到很高的预测精度。为了避免因为初始值的不好而影响预测效果,笔者在程序中定义了一个目标误差,只有当小于这个误差值时,才利用此时的网络进行预测,这在一定程度上避免了BP网络的不稳定性,但运行时间又得不到保证,有的时候会耗上很长时间才能达到较好的预测精度,这样就不利于网络的在线适应性,实时性能差。(2)神经网络预测时,隐层的神经元数目选择对预测精度有很大影响,而目前隐层的神经元数目还没有通用的理论方法,根据设计者的经验和多次实验来确定,一般都采用试凑法的方式进行选择,这也就影响了最终的预测精度。本文虽然在时间序列预测上对几种方法进行了总结和实验比较,但是还有一些问题需要继续深入的研究,比如线性模型的识别及这几种预测方法的改进。四总结作用可以反映社会经济现象的发展变化过程,描述现象的发展状态和结果。可以研究社会经济现象的发展趋势和发展速度。可以探索现象发展变化的规律,对某些社会经济现象进行预测。利用时间序列可以在不同地区或国家之间进行对比分析,这也是统计分析的重要方法之一。线性模型有很多时候用于非线性时间序列分析中,但结果并不理想,因此有很多基于这些方法的改进,比如:可以将希尔伯特一黄变换(HHT)31中的经验模态分解(EMD)与AR模型结合使用,对时间序列进行预测。经验模态分解的特点是能够对非线性,非平稳过程的数据进行线性化和平稳化处理,并在分解的过程中保留数据本身的特性,能够在不改变原数据物理特性的前提下代替原数据。它可以把一个非线性,非平稳的信号系统分解为几个线性的、平稳的分量和一个单调的余项。此时,可以利用EMD将信号分解为几个IMF,然后建立每个IMF的自回归模型,分别预测,再把预测的结果加和。目前有很多文献已经将这种方法应用到时间序列预测中。介绍了基于EMD和AR模型用于船舶运动极短期预报,证明了方法是可行的。另外,本文中建立的线性模型参数都由历史样本数据确定,当预测步长增加时,固定的模型参数可能导致误差增加的更快,因此,可以在每进行一步预测之后,将预测值加入到原始样本数据中重新估计模型参数。本文在建立BP神经网络模型时,对神经元节点的传递函数没有进行深入研究,隐含层的神经元个数也是用试凑法确定,没有理论依据,缺乏科学性,而为了达到比较好的预测精度,笔者采用的方法运行时间相对较长,这些都需要进一步的改进。神经网络预测过程中有个缺陷就是容易陷入局部最优,预测结果不稳定,可以利用遗传算法来优化神经网络,避免陷入局部最优,提高预测效果和预测的稳定性。参考文献[1】E.P.Box,G.M.Jerkins,G.C.Reinsel,时间序列分析:预测与控制,中国统计出版社,1999.[2】安鸿志,陈兆国,杜金观,潘一民.时间序列的分析与应用[M).北京:科学出版社,198

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论