时间序列预测法_第1页
时间序列预测法_第2页
时间序列预测法_第3页
时间序列预测法_第4页
时间序列预测法_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.时间序列分析法对于预测,有定性和定量两类方法,定性的方法主要是作一些趋势性或转折点的判定。常用的方法有专家座谈会法,德尔菲法等。常用的定量预测方法有两种,一种是回归分析法另一种常用方法就是时间序列分析法。这一章主要介绍有关时间序列分析法的有关内容。3.1基本概念所谓时间序列就是一组按照一定的时间间隔排列的一组数据。这一组数据可以表示各种各样的含义的数值,如对某种产品的需求量、产量,销售额,等。其时间间隔可以是任意的时间单位,如小时、日、周、月等。通常,对于这些量的预测,由于很难确定它与其他因变量的关系,或收集因变量的数据非常困难,这时我们就不能采用回归分析方法进行预测,或者说,有时对预测的

2、精度要求不是特别高,这时我们都可以使用时间序列分析方法来进行预测。当然,时间序列分析法并非只是一种简单的预测分析方法,其实,基本的时间序列分析法确实很简单,但是也有一些非常复杂的时间序列分析方法。采用时间序列分析进行预测时需要用到一系列的模型,这种模型统称为时间序列模型。在使用这种时间序列模型时,总是假定某一种数据变化模式或某一种组合模式总是会重复发生的。因此可以首先识别出这种模式,然后采用外推的方式就可以进行预测了。采用时间序列模型时,显然其关键在于假定数据的变化模式(样式)是可以根据历史数据识别出来;同时,决策者所采取的行动对这个时间序列的影响是很小的,因此这种方法主要用来对一些环境因素,

3、或不受决策者控制的因素进行预测,如宏观经济情况,就业水平,某些产品的需求量;而对于受人的行为影响较大的事物进行预测则是不合适的,如股票价格,改变产品价格后的产品的需求量等。这种方法的主要优点是数据很容易得到。相对说来成本较低。而且容易被决策者所理解。计算相对简单。(当然对于高级时间序列分析法,其计算也是非常复杂的。)此外,时间序列分析法常常用于中短期预测,因为在相对短的时间内,数据变化的模式不会特别显著。1关于在预测中误差的一些常用表示方法:e二xFiii其中x.表示i时刻的真实值或观察值;Fi表示i时刻的预测值;e.表示i时刻的误差。iii平均误差(Meanerror)ME二12,enii=

4、1平均绝对误差(Meanabsolutedeviation)MAD=-enii=1均方差(Meansquarederror)MSE=1e2nii=1标准差(Standarddeviationoferrors)SDE=1e2n,1ii=1百分比误差(percentageerror)xfPE=一tx100txt平均百分比误差(Meanpercentageerror)MPE=1PEtnii=1平均百分比绝对误差(Meanabsolutepercentageerror)MPE=1tnii=12时间序列的基本样式所有有规律的时间序列,都是由一种或几种基本类型的时间序列样式或模式构成的。这些基本样式有:水

5、平型,线性趋势型,非线性趋势型,季节型和周期型。因此对于一个实际时间序列,可以根据其类型的不同,采用不同的模型进行预测和分析。3.2平滑法这是时间序列分析方法中最简单的一种。321简单滑动平均法(simplemovingaverage)F=S=丄(xxx)(1)t1tntt-1t-n1其中xt表示t时刻的真实值或观察值;Ft+1表示t+1时刻的预测值;上式也可以写成如下形式:F,(x-x)F(2)t1ntt-nt由此式可以看出,随着所使用的历史数据或样本点的数量n的增加,平滑作用逐渐加强。简单滑动平均法显然只适合于水平样式的数据,如果历史数据中存在明显的上升或下降趋势,或者有季节性波动则这种方

6、法是不适用的。因此它只能用来对一些变化平衡或缓慢量进行预测,如对需求量稳定的商品的销量进行预测。对于()或(2)式,如果其中的n等于,则成为:F,xtt也就是说,t+1时刻的预测值就是t时刻的观察值,或者说是用当前的观察值来预测下一期的数值。这种方法称为naive(天真)预测法。这种方法虽然过于简单,可以说是没有进行预测,但是它可以作为评价其他时间序列法预测结果好坏的一个标准。如果你使用了一个非常复杂的时间序列分析模型来对某一个问题进行预测,其误差比这种简单的天真预测法还糟糕,则这个模型显然不是一个好的预测模型。3.2.2.单指数平滑法由于(1)或(2)式在实际应用中存在许多缺点,如零权值问题

7、,数据存贮量大问题。因此人们希望有一种简单的法来用于实际预测,这样就提出来了指数平滑法,其中最简单的就是单指数平滑法。由于数据是呈水平趋势变化,因此在(2)式中用来代替xt1不会引起太大误差,因tt-1此有下式,F,1(x-F)Ft1nttt或者说,F,1x(1-)Ft1ntnt令a=丄则有,nTOC o 1-5 h zF,ax(1a)F(3)t1tt这就是所谓的单指数平滑法公式。其中a为预测值的平滑系数。上式不仅计算简便,而且所需历史数据极少,只有一个。同时,上式中实际上包含了所有的历史数据,也就是说克服了所谓零权值的问题,因为将(3)式展开后可以写如下形式,F,ax+a(1-a)x+a(1

8、-a)2x+a(1-a)3x(4)t+1tt-1t2t-33)式也可以写成如下形式,66)F,F+a(xF)TOC o 1-5 h zt+1ttt由于e,(xF),所以tttF,F+ae(5)t+1tt由(5)式可以看出,预测值实际上就是在上一次预测值的基础上加上a乘以上次预测的误差。显然,如果a1,则在预测值中包含很大的调整,相反如果J0,调整量变小,预测值或预测曲线趋于平缓。因此,单指数平滑法适用的范围与简单平滑法相同,只适用于水平样式的数据。例:罗宾逊拆卸公司生产的取钉器的需求量预测。观察值及预测值如下表所示。表现9-1取钉器的简单移动平均和指数平滑平均值的计算指数平滑滑动平均值时期需求

9、(单位:千)四个月的移动平均a=0.4a=0.1在表7-1中计算了两组指数平滑平均值,它们分别采用不同的a值。当a=0.4时,第11和12两个月的平均值计算如:=0.4(156)+0.6(143.84)=148.70(第12月的预测值)=0.4(152)+0.6(148.70)=150.02(第13月的预测值)注意在第12月未,新得到的数据152与以前计算出的平均值148.70来共同计算下一个平均值。指数平滑法的突出优点是只需要一个实际数据来计算新的平均值。使用指数平滑法时的几个应注意的问题与移动平均法的相似性2a从表91中可以看到,在所有的时间里a=0.4时的指数平滑平均值与四个月的移动平均

10、值非常相似。然而a=0.1时其结果是大不相同的。下述公式说明了在指数平滑法中如何选择a使之具有与移动平均法中取时间周期数为2a2N+1假设=0.4则N=1.6/0.4=4,若=0.1则N=1.9/0.1=19。因此=0.4时的指数平滑值类似于四周期的移动平均值,而=0.1时的结果则会类似于19周期的移动平均值。增大来调整权值在指数平滑法中以前的数据作用是逐步衰减人,或者说老的数据被逐渐地遗忘。值越大数据衰减地越快,就象在移动平均法中使用的数据越少。这是因为在方程1中老的平均值被乘以(1),因此老的数据的权值随着的增大而迅速衰减。也就是说,越是大的,在预测中老数据(匚丿的影响越小。(问题17和1

11、9表明了当数据逐步变老时其作用是呈指数减小的,这也是为什么这种方法称为指数平滑法的原因。)平滑与响应减小值会导致平均值更加平滑(减少波动),而增大值会导致平均值对新数据的响应更快。从表7-1中可以看出值越小平均值的变化越慢,越平滑。例如,实际数据在第九个月达到其最大值159,当=0.4时,平均值从141变到148来响应实际值的最大值;与之相对的是,=0.1时,平均值仅仅增大一个单位来响应实际值的最大值。平滑与响应是相矛盾的,但它们有各自的优点。我们将在后面多次讨论这个问题。初值在计算指数平滑法的第一个值或初值时我们需要进行一些特殊的处理。因为在方程1中我们需要一个“老平均值”,而没有以前的数据

12、怎么办呢?这个问题称为初始化,而且是在指数平滑法中常常不为人们所重视的问题。然而,在后面我们将看到这是一个极为重要的问题。注意目前我们用前四个月的平均值作为指数平滑法的初值(见表7-1)。323线性指数平滑法(Holts)如果时间序列呈现一种趋势(上升或下降),则单指数平滑法会有一种滞后性。因此在这种情况下要采用其他方法。如果这种趋势是一种线性上升或下降的趋势,则可采用Holts的方法,TOC o 1-5 h zT=(S-S)+(1)T(7)ttt1t1S=x,(1)(S,T)(8)ttt1t1F二S,mTt,mtt(9)其中,st为预测值的平滑值;a为预测值的平滑系数;Tt为趋势值(斜率)的

13、平滑值;B为趋势值的平滑系数;F为t+m时刻的预测值。注意这里可以进行m步以后的预测,t+m而简单平滑法或单指数平滑法只能进行一步以所的预测。例:对下表中的观察值进行预测。时间观察值单指数平滑值a=1.0误差1326333941251561872182492710306393123153183213243273假如在此,1.0,P1.0,则对于时期2有,S=x+(1,)(S+T)(1)x+(0)(S+T)6221t211T=p(s-S)+(1卩)T(1)(6-3)+(0)(T)322111对于时期3有,S(1)x+(0)(S+T)9T(1)(9-6)+(0)(3)3继续照此方法计算下去,对于时

14、期10有,S(1)x+(0)(S+T)30101099T(1)(30-27)+(0)(37+3)310由此可以看出,在计算过程中,每次首先更新S的值,然后再更新T的值。有了这现两项数值,就可以进行预测值的计算。例如对时期11,有,FS+(1)T30+(1)333111010与此类似,还可以对12,13,14期的数据进行预测,它们分别为,FS+(2)T30+(2)336121111FS+(3)T30+(3)339131212FS+(4)T30+(4)342141313当然在上述例子中,观察值中不包含随机成份,所以平滑系数值都取的是1且误差为0。如果实际观察值是包含随机成份的,则平滑系数值要小于1

15、,且预测误差也不会等于0。在上面的这一组公式中,(7)式实际上就是对(S-S)取平滑值。而(8)式与单指tt1数平滑法的(3)式相比较可以看出,只是在第二项中多了前一步的趋势增加值St-1。而预测值就是当前的平滑值再加上趋势增加值。由于e=(xF),F=S,T,且ttttt1t1S=S,T+a(x(ST)=F+aett1t1tt1t1ttT二T,(SST)二T,(SF)二T,(ae)二T+aett1tt1t1t1ttt1tt1t所以(7)至(9)式也可以写成下列形式,S二F,ae(7)tttT二T,ae(8)tt-1tF二S,mTt,mtt(9)上述公式可用于实际计算使用。注意,0a,卩0,其

16、参考值为:a:0丄卩:0.01324季节性指数平滑法(Winters)在实际工作中,常常会遇到一些带有季节性变动的数据,对此可以使用Winters的季节性指数平滑法模型进行预测。其模型为,TOC o 1-5 h zS=a+(1-a)(S+T)(io)tItt1tLT=(S-S),(1)T(11)ttt1t1xI+(1-Y)I(12)tStLt HYPERLINK l bookmark42F二(S,mT)I(13)t,mttt-L+m其中,st为消除了季节因素影响的平滑值;a为预测值的平滑系数;Tt为趋势值(斜率)的平滑值;B为趋势值的平滑系数;It为季节因素的平滑值;Y为趋势值的平滑系数;L为

17、季节的长度(如在一年中一个季节中所包含的月数);F为t+m时刻的预测值。注意这里t+m也可以进行m步以后的预测,与Holt的方法相同。季节系数实际上就是:X_实际观察值厂平滑趋势值t它表明了季节因素的影响,其含义可以通过下图看出,例:现有如下按季节收集的销售数据:年季节时期销售额(1000)季节系数前四个为初值平滑值预测值1515)现在需要对25,26,27,28期的销售额进行预测。假定平滑系数为a0.20,o.io,丫0.05,这里的季节值L=4。解:这里的计算需要利用Winter的公式逐步进行,计算到24期时有,F(S(i)T)I(709.56i7.4)0.90654.0324232320

18、S(0.2)_斗(1-0.2)(ST)24I232324-40.26610.8(709.5617.40)=728.060.90T(0.1)(S-S)(1-0.1)T242423230.1(728.06-709.56)0.9(17.40)17.51I0.05(1-0.05)1S24-4240.056610.95(0.9024)=0.9027728.06对于25,26,27,28期的销售额进行预测时,显然需要用到m值,以及其他季节系数值。最终结果为,F728.06(1)17.5(1.01)753.0025F728.06(2)17.5(1.07)816.526F728.06(3)17.5(1.18)

19、921.127F728.06(4)17.5(0.90)718.328对于季节性线性指数平滑模型(10)至(13)也可以写成下列简单形式SSTae/I(14)tt-1t-1tt-LTta,e/1tt-1tt-LII+Y(l)e/SttLtt16)F(S+mT)It+mttt-L+ml7)3.2.5.阻尼趋势指数平滑法阻尼趋势指数平滑法(Dampedtrendexponentialsmoothing)是另一种常用的指数平滑法。因为在实际工作中,一个量的增长或下降趋势是不会永久持续下去的,而是经过一段时间的增长或下降后其趋势会逐渐消失,这种现象类似于物理中的阻尼现象,所以我们称具有这种特性的指数平滑

20、模型为阻尼趋势指数平滑法。这时的模型为,Sx+(1,)(S+Ttttt,118)Tp(S-S)+(1-p)Tttt,1t,119)FS+艺申iTt+mtti1同样,上述公式也可以表示成下面的形式20)e(x-F)ttt21)SS+T+ett-1t-1t22)TQT+pe(23)tt-1t例:3.2.6.指数平滑法的计算问题1平滑初值的确定:对于单指数平滑法:件xi对于HoltsDamped:F1x1,T1x2-x1,e10对于Winters:Sx,Txx,其中x为x中消除了季节因素后的值。11121另一类方法是采用最小二乘法,列出方程后求出最优初值。2平滑系数的选择:在上述公式或模型中我们遇到

21、了几个平滑系数,即J,卩,Y,。这些值的确定,主要方法是通过搜索法,比较不同数值下的MSE或MAD,求出最小误差所对应的系数值。3方法有效性的判定:上述各种方法是否能用于实际问题的预测,其关键在于其误差e(x-F)的分布,ttt如果误差的均值为0,方差为常数,则方法或模型的选择是适当的,否则就需要寻求其他模型或方法。3.3分解法第二类常用的时间序列分析方法就是所谓的时间序列分解法。这种方法的基本假定与所有的时间序列分析法的假定相同,即认为实际数据是由模式值加上随机误差组成的。但是,所不同的是认为模式值是由趋势、季节和周期的共同影响而构成的,而且每一种影响是可以识别出来的。用数学表达式表示就是,

22、xf(S,T,C,R)(24)tttttxSxTxCxR(25)ttttt显然随机部分是没有办法预测的,所以我们认为变量的预测值就是前三部分的乘积。下面以一个例题为例说明进行分解的步骤。某造纸厂的按季度观察到的销售量及有关计算数据如下表所示:(2)季节观察值滑动平均值T*C比值S*R*1001趋势与季节分解假设这里对最前面四个季度(即1986年的四个季度)的销售量相加然后计算其平均值可以得到,x+x+x+x3017.6+3043.54+2094.35+2809.84=10965.331234x10965.33/4=2741.333这里的平均值2741.33显然是不包含季节因素的(因其为全年各季

23、度的和),而且这个值中不包含或只包含很少的随机成份,因为随机误差的均值为零,所以当多项观察值相加后正负随机误差相互抵消了。因此,通过这样的方式计算出来的平均值实际上只包含趋势和周期部分,即T*C。与此类似,如果将第二至五项观察值相加然后求出平均值就可以得到,x+x+x+x3043.54+2094.35+2809.84+3274.80=11222532345x1122253/42805.634这里2805.63也是四个不同季节的数值的均值,它也不包含季节因素,同时不包含或极少包含随机的成份。同样的方式可以计算出表中的第三列数值。由此可以看出这种计算的方式就是在计算均值的过程中将老的观察值放弃掉同

24、时换上最新的一个观察值,即采取滑动的方式进行计算。所这这样计算出来的值也称为滑动平均值,由于滑动平均值的特性,我们有如下关系式,MAT,C2季节与随机的分解由于表中的第三列表示了T*C,而表中的第二列是观察值,或原始数据,根据定义它实际上表示了T*C*S*R。因此如果将第二列的数除以第三列的数,其比值为第四列的值,这一列的值表示了S*R,即,因此这一列的值只包含季节与随机成份,为了方便起见,这里的数值乘上了100。由于这一列比值中包含季节成份,所以可以由它来计算季节系数。季节系数的含义与前面所讲述的相同。在第四列数值中,它包含了随机误差。由于随机误差所具有的特性,即均值为0,因此如果我们将若干

25、项数值相加,则正负随机误差会相互抵消。据此,我们将第四列的数据按每一个值所属的季节排列成下表的形式,年一季度二季度三季度四季度季度平均值SS(调整后)/然后对每一个季度的数值求平均值,由于求平均值就可以消除随机误差的影响,所以就可以分离出季节因素,即,SXRS因此可以计算出每个季度的平均值,也就是季节系数的平均值S。由于将这样计算出来的各个季度的季节系数相加再求平均值,其值不一定正好为100,因此需要对其进行调整。季节系数的调整非常简单。由于我们要求调整后的季节系数值之和为400,所以将400除以现在的和402.74,得到一个修正系数值0.9932;然后将每一个季节系数值S乘以这个调整系数值,

26、就可以得到最终的调整后的季节系数值,如上表所示。1)中心滑动平均值在前面的滑动平均值的计算过程中,我们只是将第1至4季度的平均值放在了第3季度的位置上,但是只要我们仔细一想会发现这里有问题。因为,我们计算出来的第1至4季度的平均值2471.333严格地说应该是第2.5季的平均值;第2至5季度的平均值2805.632严格地说应该是第3.5季的平均值,而在实际中并没有2.5季和3.5季。为了得到每个季节的真正平均值我们还需要做一点工作,这就是对2.5季的平均值2471.333和3.5季的平均值2805.632再求一次平均值,这样就可以得到第3季度的真正平均值,即(2.5+3.5)/2=3。这样求出

27、来的平均值,(2471.333+2805.632)/2=2773.483称为中心滑动平均值。注意,采用这种方式计算平均值,最终所得到的平滑值比前面的方法还要要少一个(通常,如果求n个数的平均值,则所得到的平均值数量要少n-1个)。当然,如果在每一个周期中所包含的季节数为奇数个,则不需要再求中心平均值了,因为它本身就是中心平均值。现在按中心平均值的方法重新计算,可以得到下表中的数据。(5)季节观察值滑动平均值T*C中心滑动平均值T*C比值S*R*100当然相应的季节系数值也需要重新计算,其结果如下表所示,年一季度二季度三季度四季度季度平均值SS(调整后)/2)中位平均值仔细观察关于季节系数的计算

28、过程,可以发现,在每一个季节所属的列中,总会有一个值特别大或小,这往往是由于一些特殊发问所引起的,如异常天气、罢工、促销活动、战争等,而这些情况并不是总会发生的,所以在计算的过程中应该忽略其影响,所以在求季节系数时,应该剔出异常值,简单地说就是去掉一列中的最大值和最小值后所剩余的中位值中再求其平均值,这样就等到了比较真实的季节系数值。这样求得的最终结果为,调整前的S:112.11109.4275.50103.24400.27调整所的S:112.03109.3575.45103.17400.003从趋势中分离周期因素由于MA=T*C,现在需要将周期部分分离出来。在此可以对MA这一列数据采用线性回

29、归分析的方式,得到一条回归直线y二abt,其参数为,a=2735.85b=38.96回归直线为,T二abt二2735.8538.96tt因此可以分离出周期因素,即,MAT,C厂二=CTT如此例中,因为T二2735.8538.96(10)二3125.45102735.852735.85+38.96(20)=3515.05T2735.85+38.96(30)=3904.6530T2735.85+38.96(40)=4294.2540所以,C3071.367/3125.4598.210C3051.936/3515.0599.63204分离随机因素由于,X=S*T*C*RMA=T*CS*T*C*Rsa

30、sXT*C*RSXT*CXT*C*RMAT*CRerr之样就可以分离出随机误差。这一部分虽然不能用于预测,但可以用来检验。也就是说用来检验我们前面的时间序列分解的是否合适与有效。5准备预测前面我们已经给出了下列表达式,xS,T,C,Rttttt在进行预测时,由于随机误差部分是没有办法预测的,因此作为预测,我们可以使用下列表达式进行,FS,T,Ctttt对于此例中的第49期,即1998年第一季度的预测值,首先其趋势部分为,T2735.85+38.956(49)=4644.69449从季节系数的计算表中可知对应的季节系数为112.03。最后,周期部分必须要人为地予以估计,即靠我们的判断一确定。由于

31、第48期的周期值为98,如果我们没有其他更多的信息来估计49期所处的位置,我们可以认为其周期值仍然为98。因此,最终的预测值为,98112.03FTXCXS4644.694xx=5099.449494949100100与此类似,对于第50期,即1998年第二季度的预测值,首先其趋势部分为,T2735.85,38.956(50)=4683.6549对应的季节系数为109.208,周期值可以估计为99。因此,最终的预测值为,99109.35FTxCxS4683.65xx=5073.8505050100100同样,可以分别计算出第51期和52期的预测值分别为,F3563.251F4912.552时间

32、序列分解法计算步骤小结:确定季节系数。通过计算中心滑动平均值和中位平均值,得到每一期(月)的季节系数。确定趋势值。对中心滑动平均值通过回归分析得到回归方程ya,bt。确定周期系数。将中心滑动平均值除以趋势值就可以得到周期值。如果有条件的话,通过更多的数据来确定周期值。准备预测。采用FSxTxC的公式计算预测值。tttt3.4自回归积分滑动平均法(ARIMA)前面介绍了一些基本的时间序列分析法,这些方法分别适用于不同的情况。尽管这些方法很简单,但是在使用时常常受到一些限制,而且其方法的理论基础产不是很坚实。这就需要有一种能适应任何情况,且理论上很清晰严格的方法,这就是ARIMA类方法。341自相

33、关(Autocorrelation)在回归分析中,我们知道量与量之间存在着一种相关关系,即一个量发生变化时,另一个量也会发生相应变化,且呈线性关系。这种相互关联的程度可以用相关系数r(-lvrv1)来描述,若rT1,则表示一个量增长,另一个量也增长;若rT-1,则表示一个量增长,另一个量减少。若rT0,则表示它们完全不相关,即一个量发生变化,另一个量不会呈现有规律的变化。自相关的含义类似于相关关系,自相关系数类似于相关系数,只不过在自相关关系中,它描述的不是两个不同的量之间的关系,而是描述的同一个变量在不同时间之间的相关关系。如下列序列中的序列A和序列B。注意,序列B是由A得到的,或者说是从A

34、中提取出来的,即A的第二个值是B的第一个值,A的第三个值是B的第二个值,如此类推。变量A变量BTOC o 1-5 h z HYPERLINK l bookmark10435544889这样变量A,B可以视为两个不同的变量,然后采用同样的处理方法进行相关处理。与此类似,设有时间序列Y,采用相同的构造方法,可以构造出Y,丫2,或丫3等不同的时间序列。时间原序列Y滞后一个时间构成的丫滞后二个时间构成的Y2滞后三个时间构成的丫3t=1t=2t=3t=4t=5t=6t=7t=8t=9t=10Y1是由Y的对应值滞后一个时间单位构成的。显然,由于Y是由有限个数据组成,而Y1的第一个元素是Y的第二个元素,所以

35、Y1没有最后一个值。同样道理,Y2没有最后两个数值,Y3没有最后三个数值。现在可以将Y与Y1视为两个变量,作为一组变量计算其相关系数(当然在计算中只能用到成对的数据)。同样可以将Y与Y2作为一组,Y与Y3作为一组计算其相应的相关系数。若计算出来Y与Y1的相关系数为0.8,则说明任意连续的Y中的两个值是呈现正相关的;若计算出来的Y与Y2之间的相关系数为-0.70,则说明任意两个间隔一个时间单位的两个量是负相关的,即一个量增长,另一个量向相反的方向变化。由于时间序列Y1,Y2,和Y3实际上都是从一个变量Y得到的,所以这种相关关系称为自相关关系。自相关关系提供了关于数据模式的重要信息。对于一个纯粹随

36、机的序列,其自相关系数必然接近或等于零。但是对于呈现很强的季节性或周期性特征的数据,必然是高度自相关的。例,对某地区的月平均气温进行自相关处理,观察其自相关系数。从计算出的自相关系数值可以看出,这个序列呈现一种很强的季节性,因为它的最大值每隔12个月出现一次,如r0.86,说明相隔12个月的温度呈现正相关。正是采用这种方法计算出来的自相关12系数得到的信息可以用来构造高级的时间序列模型。如果我们有多年的月平均气温数据,则可以计算出Y与滞后1、2、3、个时间单位的序列的自相关系数。通过比较这些自相关系数值的大小,可以发现,凡是12的倍数的自相关系数都较大,因此我们不难想象可以用这样的时间序列模型

37、来进行预测,Y二YTOC o 1-5 h ztt12Y,YY=t121_24t2Y,Y,Y=124136-243-24t-48等类似的模型来进行预测。此外,还有一个与多元回归分析中的偏相关系数类似的“偏自相关系数”(partialautocorrelation)。其作用将在后面介绍具体计算方法时再作介绍。3.4.2.ARMA时间序列模型有三种主要类型的时间序列分析模型可以用来描述各种形态的时间序列,它们分别是1。自回归AR;2)滑支平均MA;3)自回归滑动平均ARMA。1一般的AR模型一般的AR模型表达式为,yy+ey,+ey,e(1)t1t12t2ptpt其中Yt是因变量。Y,Y,,Y是自变

38、量,显然它们是同一变量的值,但是在不同tt1t2tp的时刻。最后,et是误差或残差项,表示随机误差部分,它是不能用任何模型来解释可求出的。方程(1)称为自回归模型,因为它与通常的回归分析模型,y二a,bx,bx,11kk类似。只不过这里的自变量是Y自身而已,当然是不同时间的滞后值。如果我们能够1)确定方程(1)就是我们所需的合适的模型;2)确定p的值;3)估计出自回归系数e,e,,e的值。我们就能用方程(1)来进行预测。12p例:p二3,i=0.8,2=0.5,匸-0.4,且有如下数据,时间观察值预测值误差t-5t-4t-3t-2t-1则时刻t的预测值为,二,Y+,Y+,Y+et1t12t23

39、t3t二0.80(115)+0.5(110)0.4(130)+et二95+et其中,et是随机误差。2一般的MA模型并非所有的时间序列都可以用方程(1)来描述。对于某些时间序列我们需要另一种类型的模型,这就是滑动平均模型。一般的MA模型表达式为,=eeee(2)tt1t12t2qtq其中,et与前面相同是随机误差;而e,e,,e为以前各期的预测误差。0为平tt1t2tq滑系数。方程(2)与(1)相似,只不过是将以前各期的变量值换成以前各期的预测误差值。因此,从本质上讲这种模型本身也是一种自回归模型,只不过是与自己的误差相关而已。这种模型之所以称为滑动平均模型,是因为它与我们前面提到的简单指数平

40、滑模型类似,都是与自己的误差有关。例:如果已知q=2,=0.6,=0.3,且前两期的预测误差为-50和70,则时刻t12的预测值为,=eeYtt1t12t2=e0.6(50)0.3(70)t=51+et其中,et是随机误差。3.般的ARMA模型对于所有的时间序列,只要其中不包含趋势,都可以用方程(3)来描述。即自回归与滑动平均相结合的模型。一般的ARMA模型表达式为,Y,Y+Y+Y+e0e0e0e(3)t1t12t2ptpt1t12t2qtq显然方程(3)是方程(1)与方程(2)相结合的产物。由于此模型中包含了p项Y的历史数据,q项预测值与实际观察值的误差,所以这种模型也可以简单地称为ARMA

41、(p,q)。方程(3)表面上看起来虽然很简单,但是实际上它是一个非常复杂的时间序列模型。这了说明这一点让我们先看一下MA(1)和AR(1)模型。一阶滑动平均模型MA(1)为,Y,e0ett1t1,e0Y+0et1t11t2,e0Y02et1t11t2,e0Y02Y+0et1t11t21t3,e0Y02Y03e,t1t11t21t3,-0Y02Y03Y0nY+e1t11t21t31tnt由此看出它实际上就是无穷阶自回归模型,或AR()。此外,将此式与单指数平滑模型的展开式比较,F=ox+a(1a)x+a(1a)2x+a(1a)3x+t+1tt1t2t3不难理解为什么称此类包含误差项的模型为滑动平

42、均模型。现在我们再来看一阶自回归模型,即AR(1),Y,Y+et1t1t由于Y,Y+e,e+Yt11t2t1t11t2Y,Y+e,e+Yt21t3t2t21t3Yt3,Y1t4+et3,e+Yt31t4所以有,=0Y+eTOC o 1-5 h zt1t,1t=0e+0Y+e1t,11t,2t=0e+02Y+e1t,11t,2t=0e+02e+0Y+e1t,11t,21t,3t=0e+02e+02Y+e=1t,11t,21t,3t即,=e+0e+02e+0ne+tt1t,11t,21t,n由此看出它实际上就是无穷阶滑动平均模型,或MA()。同样对于一个简单的ARMA(1,1)模型可以采用同样的方

43、式将其转化成单纯的AR模型或MA模型。从中不难看出,ARMA(p,q)实际上是用一种非常简明的形式来表达了非常复杂的时间序列模型。其实AR模型早在1926-1927年就有人提出来了,MA模型也早在1937年就提出来了,混合的ARMA(p,q)模型是在1954年提出来的,但是这些模型一直都没有进一步的发展,也没有看到什么应用,其主要原因是计算量太大,无法在实际中应用。随着计算机的广泛应用和普及,ARMA类模型在实际中的应用才成为可能。其中首先提出实际应用方法的是Box-Jenkins在1976年提出的方法,即著名的ARIMA模型。343Box-Jenkins方法(ARIMA模型)前面虽然给出了A

44、RMA(p,q)模型的表达式,但是要想将其用于实际预测还有许多问题要解决,如p=?,q=?,0,0,,0=?,,=?即如何确定具体的模型?12p12qBox-Jenkins在1976年提出了一套完整的解决方法。如下图所示,假定一个一般类型的ARMA模型成立亠辨识出一个试验性的模型第一阶段诊断这个模型是否满足要求?估计这个模型的参数p,亠辨识出一个试验性的模型第一阶段诊断这个模型是否满足要求?估计这个模型的参数p,q,0第二阶段第三阶段第三阶段用这个模型预测首先假定ARMA(p,q)模型对于给定的问题是成立的,或对这个问题是合适的。然后通过三个阶段完成预测工作。第一阶段,根据历史数据辨识出一个试

45、验性的模型;第二阶段,采用历史数据,找出最适合于这个试验模型的参数并进行检验;如果判断出不满足要求,则回到第一阶段选用另一个试验模型;如果模型可以被接受,则进入到第三阶段;第三阶段,根据模型进行预测。1第一阶段,辨识出一个试验性的模型Box-Jenkins方法中最困难的部分就是辨识出合适的模型。一般ARMA模型有两类参数,即p和q,及对应的,,,和0,e,,e。这一阶段可以分为三步来完成。12p12q第一步,通过差分来获得静态数据。应用ARMA模型的最根本的假设就是数据是水平型的数据。因此在得到p和q之前,必须保证数据是水平型的,或者说是不存在趋势的。这样的数据就称为静态数据(stationa

46、rity)。当然,现实中的数据不可能都是没有趋势的数据。为了得到静态数据,可以采用差分的方法。如果实际数据包含线性趋势则可以通过一阶差分获使之成为静态数据。如果实际数据包含类似二次函数的非线性趋势则可以通过二阶差分获使之成为静态数据。对于其他类型的非线性趋势,我们总可以通过连续差分的方式使之成为不包含趋势的数据。下面通过几个例子说明差分的方法。首先看下列包含线性趋势的数据的差分情况,原数据一阶差分新序列4-2=26-4=28-6=210-8=212-10=2-从上表中可以看出一阶差分的方法就是,Y=YYttt,1从上表中还可以看出,由原序列差分后得到的新序列是一组常数,这是因为原数据中不包含随

47、机因素。如果实际数据中既包含其他数据模式又包含随机因素,差分仅仅只会移去趋势部分,对于其他则毫无影响。对于包含非线性趋势的数据也同样可以通过差分使其静止。例如,原数据一阶差分二阶差分(新序列)如果上述差分,也称为短差分后的数据还存在季节波动,则可以通过长差分或季节差分使其静止。如按月排列的数据,可以用今年元月份的数据减去去年元月份的数据。也就是说,在静态数据中不仅不能包含趋势,也不能包含季节或周期性变动。差分后的数据与原数据显然有很大差别,最后在预测时显然需要有一个还原的过程,这个过程称为积分,即Integration,或ARIMA中的I所代表的含义。第二步,识别p,q一旦数据达到静止,可以对

48、达到静止的新序列计算其自相关系数和偏相关系数。通过这两个相关系数序列的值就可以确定p和q的值。其中自相关系数和偏相关系数的表达式为,假设观察值(时间序列)为,1myxxTOC o 1-5 h z111m1yxx212m2yxxn1nmnYYY1m自相关系数:,(yyPirxy,xx)2,(yy)2ii偏自相关系数:1其中,Q,工y-(abx+bxbx)2i11i22immii,1工y-(abx+bxbx+bx+bx)2i11i22ij-1(j-1)ij+1(j+1)immii,1显然,对于每一个时间序列来说,可以计算出对于每一个Yi的自回归系数和偏自回归i系数,这样它们就形成了一个序列,可以将

49、其在座标图上表示出来。具体的识别方法是根据计算出的自回归系数和偏自回归系数所形成的形态来判断。下面的图形显示了在不同的情况下所对应的模型,上述系统适用AR(1)模型-1-1-1上述系统适用AR(1)模型-1-1-1-1上述系统适用MA(1)模型,等等。判断模型参数的一般原则是:如果AC呈指数衰减到0,则(可能)为AR模型,其阶数由PAC中显著不为0的数量及位置确定。如果PAC呈指数衰减到0,则(可能)为MA模型,其阶数由AC中显著不为0的数量及位置确定。如果AC及PAC都快速衰减到0,则为ARMA混合模型。AR的阶数由PAC中显著不为0的数量及位置确定;MA的阶数由AC中显著不为0的数量及位置

50、确定。对于季节型数据,需要进行长差分。ARMA模型中的季节值通常用P和Q来表示,其估计方法与原理同短差分相同。第二阶段,参数估计与检验第一步,参数估计根据自回归系数和偏自回归系数可以初步给出变量的模型,这个模型也称为试验性模型。例如,对于一个问题来说,我们已经得到,p1,q0,P0,Q1,并且没有差分,即1=0。其模型为,YY,e-0et1t1t12t12显然,在上述模型中,参数0和e可以为任意值,如0.5,0-0.3或1121120.2,00.4等。究竟哪一组系数值最合适呢?确定的方法仍然是比较在不同的参数112值下的预测误差值et的MSE。最小的MSE所对应的参数值就是所估计的模型中的最优

51、参数。具体操作也是通过搜索法进行。第二步,模型诊断当得到最优模型参数后(MSE最小),试验模型也就随之确定了。这时会有两种情况发生,一种是预测误差值et形成的序列是完全随机的,这说明试验模型已经完全找出了变量序列中的模式,这个试验模型就是所求的预测模型;另一种是试验模型没有完全找出变量序列中的模式,预测误差值et形成的序列不是随机的,这时这个试验模型还不能用。怎样才能确定是哪一种情况呢?有一种非常简单的方法,这就是计算预测误差值et形成的序列的自相关系数。如果没有一个不同滞后时间的自相关系数值在95%的置信水平下不等于0,则是第一种情况,即这个试验模型是合适的模型。否则需要重新识别新的试验模型

52、。第三阶段,准备预测当我们得到的模型是合适的,就可以利用这个模型进行预测。采用ARMA模型进行预测,不仅可以得到预测值,同时还可以得到预测值的95%或99%的置信区间。所以,ARIMA模型是一个统计模型,这是普通时间序列分析方法所不能获得的。值得说明的是,ARIMA模型实际上是一类模型,在标准ARIMA模型的基础上还衍生出了许多其他模型,如多变量ARIMA模型等。由于ARIMA模型的计算复杂,计算量极大,因此通常都需要借助于计算机来进行计算。一般的大型统计软件中都会有这样的功能,如SPSS和SAS中都有。3.5利用SPSS进行时间序列分析3.5.1.基本数据处理方法利用SPSS进行时间序列分析

53、,首先需要定义变量的时间值。如果时间序列中存在缺失值,还需要缺失值处理,否则SPSS将拒绝进行计算。完成上述工作后,就需要制作时间序列曲线图,通过该图可以大致判断出时间序列的样式或规律,从而初步确定所用的时间序列分析模型。下面以1978年10月至198年月观察到的南极上空臭氧数据为例说明有关数据处理的基本方法。图显示的是部分原始数据:上图中的数据没有定义时间。定义时间序列时间的操作方法是选择Data(数据)菜单中的Definedates.(定义时间)命令。这时将出现Definedates(定义时间)对话框窗口:由于现在的数据是月度数据,且起始月份为以1978年10月,因此在上述对话框中的“Ca

54、seare”选项下选择“Years,months”,然后在“FirstCaseIs”选项下填写年月数值,如下图所示:完成上述对话框的设置后,单击OK按钮即可定义时间序列的时间值。这时的数据窗口中将增加若干新的变量,如下图所示:ence.oence.oENOZO项中。然后单击OK按钮即可得到如下图所示的时间序曲线图ODate80706050403020ENOZO项中。然后单击OK按钮即可得到如下图所示的时间序曲线图ODate80706050403020从上图中可以看出现在的曲线还不完整,也就是说时间序列中有许多缺失值。如果不作处理,是不能进行时间序列分析的。下面是处理时间序列缺失值的操作方法。选

55、择“Transform(变换)菜单中的“ReplaceMissingValues.”(替换缺失值)命令。执行上述命令后将出现“ReplaceMissingValues.”(替换缺失值)对话框。从对话框左边选择要处理的变量进入右边的“NewVariable(s)”(新变量),这里选择“ozone”。然后在“NameandMethod”选项中选择一种处理方法。SPSS缺失值的处理方法共有以下几种:Seriesmean序列均值:按整个时间序列的均值作为所有缺失值点的插值。Meanofnearbypoints临近点均值:按时间序列缺失值点临近点的均值作为插值。Medianofnearbypoints临

56、近点中位数:按时间序列缺失值点临近点的中位数作为插值。Linearinterpolation线性插值:按时间序列缺失值点临近点两端的数值进行线性插值。如果某一缺失值点临近点两端的数值分别为10和16,则线性插值为13;如果某二个连续缺失值点临近点两端的数值分别为10和16,则线性插值分别为12和14。依此类推。Lineartrendatpoint线性趋势值:按时间序列缺失值点临近点左边的数值进行线性趋势插值。如果某一缺失值点临近点左边的数值分别为10和12,则线性插值为14;如果某二个连续缺失值点临近点左的数值分别为10和12,则线性插值分别为14和16。依此类推。interpolation线

57、性插值”。具体操作方法是,在“Method”下拉选择框中选择“interpolation”;然后单击“Change”按钮。选定插值方法后的画面如上图所示。最后单击OK按钮即可完成缺失值的处理。进行缺失值处理后的数据窗口中增加了一个新的变量,即“ozone-l”如下图所示:注11:ozone_1ozoneyear_month_date_ozone_1var128.2197811OCT1978226.2197811NOV197826.20333.2197812DEC197833.20443.319791JAN197943.30542.919792FEB197942.90664.019793MAR1

58、97964.00740.119794APR197940.10834.419795MAY197934.40924.019796JUN197924.001024.419797JUL197924.401119798AUG197925.00+1225.619799SEP197925电13I意第1,24.81行“ozone1979!-1”的值25,10是由(24.4+2OCT197956)/2得到的。24.80以后的分析都是针对新变量“ozone-1”进行的。下面是“ozone-1”的曲线图。不难发现图中的曲线是连续不断的。)ENOZO(TNIL)ENOZO(TNIL3.5.2.指数平滑法指数平滑法是时

59、间序列分析中经常使用的一类方法。下面以某企业最近四年的29寸彩电销售量为例说明几种常用指数平滑法的使用及使用过程中的一些问题。表显示的是部分原始数据:选择“Statistics”菜单中的“TimeSeries”命令中的子命令“ExponentialSmoothing.”指数平滑)。1:t29寸995995Loglmear995DataReduction995NonparametricTests995995Smoothing”6349958AUG1995Save保存:如果需要保存预测结果,则可单击该按钮。由于现在还不知道模型效果如何,所以还谈不上保存结果,后面将说明具体其用法。XllARIMA.

60、SeasonalDecomposition.CustoirTablesCompareMeansGeneralLinearModelCorrelateAutoregression.SurvivalQ旧圖禺|社i?|鋼|rSummarize卜.iHFileEditViewDataTransformStatisticsGraphsUtilitiesWindowHelp命令后将出现“Exponentialsmoothing”varvarExponentialSmoothing.择“ExponentialSimple”(简单),该选项为SPSS默认值。根据需要可以进行如下设置:MissingValueA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论