免费预览已结束,剩余46页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
3. 时间序列分析法对于预测,有定性和定量两类方法,定性的方法主要是作一些趋势性或转折点的判定。常用的方法有专家座谈会法,德尔菲法等。常用的定量预测方法有两种,一种是回归分析法,另一种常用方法就是时间序列分析法。这一章主要介绍有关时间序列分析法的有关内容。3.1 基本概念所谓时间序列就是一组按照一定的时间间隔排列的一组数据。这一组数据可以表示各种各样的含义的数值,如对某种产品的需求量、产量,销售额,等。其时间间隔可以是任意的时间单位,如小时、日、周、月等。通常,对于这些量的预测,由于很难确定它与其他因变量的关系,或收集因变量的数据非常困难,这时我们就不能采用回归分析方法进行预测,或者说,有时对预测的精度要求不是特别高,这时我们都可以使用时间序列分析方法来进行预测。当然,时间序列分析法并非只是一种简单的预测分析方法,其实,基本的时间序列分析法确实很简单,但是也有一些非常复杂的时间序列分析方法。采用时间序列分析进行预测时需要用到一系列的模型,这种模型统称为时间序列模型。在使用这种时间序列模型时,总是假定某一种数据变化模式或某一种组合模式总是会重复发生的。因此可以首先识别出这种模式,然后采用外推的方式就可以进行预测了。采用时间序列模型时,显然其关键在于假定数据的变化模式(样式)是可以根据历史数据识别出来;同时,决策者所采取的行动对这个时间序列的影响是很小的,因此这种方法主要用来对一些环境因素,或不受决策者控制的因素进行预测,如宏观经济情况,就业水平,某些产品的需求量;而对于受人的行为影响较大的事物进行预测则是不合适的,如股票价格,改变产品价格后的产品的需求量等。这种方法的主要优点是数据很容易得到。相对说来成本较低。而且容易被决策者所理解。计算相对简单。(当然对于高级时间序列分析法,其计算也是非常复杂的。)此外,时间序列分析法常常用于中短期预测,因为在相对短的时间内,数据变化的模式不会特别显著。1关于在预测中误差的一些常用表示方法:其中xi表示i时刻的真实值或观察值;Fi表示i时刻的预测值;ei表示i时刻的误差。平均误差(Mean error)平均绝对误差(Mean absolute deviation)均方差(Mean squared error)标准差(Standard deviation of errors)百分比误差(percentage error)平均百分比误差(Mean percentage error)平均百分比绝对误差(Mean absolute percentage error)2时间序列的基本样式所有有规律的时间序列,都是由一种或几种基本类型的时间序列样式或模式构成的。这些基本样式有:水平型,线性趋势型,非线性趋势型,季节型和周期型。因此对于一个实际时间序列,可以根据其类型的不同,采用不同的模型进行预测和分析。3.2 平滑法这是时间序列分析方法中最简单的一种。3.2.1. 简单滑动平均法(simple moving average)(1)其中xt表示t时刻的真实值或观察值;Ft+1表示t+1时刻的预测值;上式也可以写成如下形式:(2)由此式可以看出,随着所使用的历史数据或样本点的数量n的增加,平滑作用逐渐加强。简单滑动平均法显然只适合于水平样式的数据,如果历史数据中存在明显的上升或下降趋势,或者有季节性波动则这种方法是不适用的。因此它只能用来对一些变化平衡或缓慢量进行预测,如对需求量稳定的商品的销量进行预测。对于(1)或(2)式,如果其中的n等于1,则成为:也就是说,t+1时刻的预测值就是t时刻的观察值,或者说是用当前的观察值来预测下一期的数值。这种方法称为naive(天真)预测法。这种方法虽然过于简单,可以说是没有进行预测,但是它可以作为评价其他时间序列法预测结果好坏的一个标准。如果你使用了一个非常复杂的时间序列分析模型来对某一个问题进行预测,其误差比这种简单的天真预测法还糟糕,则这个模型显然不是一个好的预测模型。3.2.2. 单指数平滑法由于(1)或(2)式在实际应用中存在许多缺点,如零权值问题,数据存贮量大问题。因此人们希望有一种简单的法来用于实际预测,这样就提出来了指数平滑法,其中最简单的就是单指数平滑法。由于数据是呈水平趋势变化,因此在(2)式中用Ft来代替xt-1不会引起太大误差,因此有下式,或者说,令则有,(3)这就是所谓的单指数平滑法公式。其中为预测值的平滑系数。上式不仅计算简便,而且所需历史数据极少,只有一个。同时,上式中实际上包含了所有的历史数据,也就是说克服了所谓零权值的问题,因为将(3)式展开后可以写如下形式,(4)(3)式也可以写成如下形式,由于,所以(5)由(5)式可以看出,预测值实际上就是在上一次预测值的基础上加上乘以上次预测的误差。显然,如果,则在预测值中包含很大的调整,相反如果,调整量变小,预测值或预测曲线趋于平缓。因此,单指数平滑法适用的范围与简单平滑法相同,只适用于水平样式的数据。例:罗宾逊拆卸公司生产的取钉器的需求量预测。观察值及预测值如下表所示。表现9-1取钉器的简单移动平均和指数平滑平均值的计算指数平滑滑动平均值时期需求(单位:千)四个月的移动平均a=0.4a=0.11145214331354158145.25 145.25 145.25 5155147.75 149.15 146.23 6145148.25 147.49 146.10 7136148.50 142.89 145.09 8139143.75 141.34 144.48 9159144.75 148.40 145.93 10137142.75 143.84 145.04 11156147.75 148.70 146.14 12152151.00 150.02 146.72 在表7-1中计算了两组指数平滑平均值,它们分别采用不同的a值。当a0.4时,第11和12两个月的平均值计算如:S110.4(156)+0.6(143.84)=148.70(第12月的预测值)S120.4(152)+0.6(148.70)=150.02(第13月的预测值)注意在第12月未,新得到的数据152与以前计算出的平均值148.70来共同计算下一个平均值。指数平滑法的突出优点是只需要一个实际数据来计算新的平均值。使用指数平滑法时的几个应注意的问题与移动平均法的相似性从表91中可以看到,在所有的时间里a0.4时的指数平滑平均值与四个月的移动平均值非常相似。然而a0.1时其结果是大不相同的。下述公式说明了在指数平滑法中如何选择a使之具有与移动平均法中取时间周期数为N值时相似的结果:(6)假设a0.4则N1.6/0.44,若a0.1则N1.9/0.119。因此a0.4时的指数平滑值类似于四周期的移动平均值,而a0.1时的结果则会类似于19周期的移动平均值。增大a来调整权值在指数平滑法中以前的数据作用是逐步衰减人,或者说老的数据被逐渐地遗忘。a值越大数据衰减地越快,就象在移动平均法中使用的数据越少。这是因为在方程1中老的平均值被乘以(1a),因此老的数据的权值随着a的增大而迅速衰减。也就是说,越是大的a,在预测中老数据(St1)的影响越小。(问题17和19表明了当数据逐步变老时其作用是呈指数减小的,这也是为什么这种方法称为指数平滑法的原因。)平滑与响应减小a值会导致平均值更加平滑(减少波动),而增大a值会导致平均值对新数据的响应更快。从表7-1中可以看出a值越小平均值的变化越慢,越平滑。例如,实际数据在第九个月达到其最大值159,当a=0.4时,平均值从141变到148来响应实际值的最大值;与之相对的是,a=0.1时,平均值仅仅增大一个单位来响应实际值的最大值。平滑与响应是相矛盾的,但它们有各自的优点。我们将在后面多次讨论这个问题。初值在计算指数平滑法的第一个值或初值时我们需要进行一些特殊的处理。因为在方程1中我们需要一个“老平均值”,而没有以前的数据怎么办呢?这个问题称为初始化,而且是在指数平滑法中常常不为人们所重视的问题。然而,在后面我们将看到这是一个极为重要的问题。注意目前我们用前四个月的平均值作为指数平滑法的初值(见表7-1)。3.2.3. 线性指数平滑法(Holts)如果时间序列呈现一种趋势(上升或下降),则单指数平滑法会有一种滞后性。因此在这种情况下要采用其他方法。如果这种趋势是一种线性上升或下降的趋势,则可采用Holts的方法,(7)(8) (9)其中,St为预测值的平滑值;为预测值的平滑系数;Tt为趋势值(斜率)的平滑值;为趋势值的平滑系数;Ft+m为t+m时刻的预测值。注意这里可以进行m步以后的预测,而简单平滑法或单指数平滑法只能进行一步以所的预测。例:对下表中的观察值进行预测。时间观察值单指数平滑值=1.0误差1326333963412935151236181537211838242139272431030273假如在此,则对于时期2有, 对于时期3有, 继续照此方法计算下去,对于时期10有, 由此可以看出,在计算过程中,每次首先更新S的值,然后再更新T的值。有了这现两项数值,就可以进行预测值的计算。例如对时期11,有,与此类似,还可以对12,13,14期的数据进行预测,它们分别为,当然在上述例子中,观察值中不包含随机成份,所以平滑系数值都取的是1且误差为0。如果实际观察值是包含随机成份的,则平滑系数值要小于1,且预测误差也不会等于0。在上面的这一组公式中,(7)式实际上就是对取平滑值。而(8)式与单指数平滑法的(3)式相比较可以看出,只是在第二项中多了前一步的趋势增加值St-1。而预测值就是当前的平滑值再加上趋势增加值。由于,且所以(7)至(9)式也可以写成下列形式,(7)(8)(9)上述公式可用于实际计算使用。注意,其参考值为:3.2.4. 季节性指数平滑法(Winters)在实际工作中,常常会遇到一些带有季节性变动的数据,对此可以使用Winters的季节性指数平滑法模型进行预测。其模型为,(10)(11)(12)(13)其中,St为消除了季节因素影响的平滑值;为预测值的平滑系数;Tt为趋势值(斜率)的平滑值;为趋势值的平滑系数;It为季节因素的平滑值;为趋势值的平滑系数;L为季节的长度(如在一年中一个季节中所包含的月数);Ft+m为t+m时刻的预测值。注意这里也可以进行m步以后的预测,与Holt的方法相同。季节系数实际上就是:它表明了季节因素的影响,其含义可以通过下图看出,xtSt例:现有如下按季节收集的销售数据:年季节时期销售额(1000)季节系数(前四个为初值)T平滑值预测值m=11992113620.96223851. 02334321.14443410.881993153821.009.17264091.0714.7424.79374981.1814.99481.10483870.9015.07383.531994194731.0115.64444.32210513495.533115824124741995113544214582315681416557199611762821870731977342059219971216271.012227251.073238541.1817.404246610.9017.5125753.03现在需要对25,26,27,28期的销售额进行预测。假定平滑系数为:,这里的季节值L=4。解:这里的计算需要利用Winter的公式逐步进行,计算到24期时有,对于25,26,27,28期的销售额进行预测时,显然需要用到m值,以及其他季节系数值。最终结果为,对于季节性线性指数平滑模型(10)至(13)也可以写成下列简单形式,(14)(15)(16)(17)3.2.5. 阻尼趋势指数平滑法阻尼趋势指数平滑法(Damped trend exponential smoothing)是另一种常用的指数平滑法。因为在实际工作中,一个量的增长或下降趋势是不会永久持续下去的,而是经过一段时间的增长或下降后其趋势会逐渐消失,这种现象类似于物理中的阻尼现象,所以我们称具有这种特性的指数平滑模型为阻尼趋势指数平滑法。这时的模型为,(18)(19)(20)同样,上述公式也可以表示成下面的形式,(21)(22)(23)例:3.2.6. 指数平滑法的计算问题1 平滑初值的确定:对于单指数平滑法:对于Holts Damped:对于Winters:,其中为x中消除了季节因素后的值。另一类方法是采用最小二乘法,列出方程后求出最优初值。2 平滑系数的选择:在上述公式或模型中我们遇到了几个平滑系数,即。这些值的确定,主要方法是通过搜索法,比较不同数值下的MSE或MAD,求出最小误差所对应的系数值。3 方法有效性的判定:上述各种方法是否能用于实际问题的预测,其关键在于其误差的分布,如果误差的均值为0,方差为常数,则方法或模型的选择是适当的,否则就需要寻求其他模型或方法。3.3 分解法第二类常用的时间序列分析方法就是所谓的时间序列分解法。这种方法的基本假定与所有的时间序列分析法的假定相同,即认为实际数据是由模式值加上随机误差组成的。但是,所不同的是认为模式值是由趋势、季节和周期的共同影响而构成的,而且每一种影响是可以识别出来的。用数学表达式表示就是,(24)(25)显然随机部分是没有办法预测的,所以我们认为变量的预测值就是前三部分的乘积。下面以一个例题为例说明进行分解的步骤。某造纸厂的按季度观察到的销售量及有关计算数据如下表所示:(1)(2)(3)(4)季节观察值滑动平均值T*C比值S*R*10013017.6023043.5432094.352741.33376.39942809.842805.633100.15053274.802835.568115.49063163.282840.558111.36172114.312894.24073.05283024.572907.410104.03093327.482989.960111.288103493.483071.365113.744112439.933187.92076.537123490.793277.320106.514133685.083319.258111.021143661.233303.883110.816152378.433296.07372.160163459.553337.210103.666173849.633347.198115.011183701.183413.185108.438192642.383444.67876.709203585.523501.935102.387214078.663553.405114.782223907.063599.925108.532232828.463725.92075.913244089.503791.158107.869254339.613851.543112.672264148.603873.540107.101272916.453872.32575.315284084.643848.028106.149294242.423810.273111.342303997.583801.413105.160312881.013789.31076.030324036.233818.788105.694334360.333909.525111.531344360.533982.318109.497353172.184029.20078.730364223.764111.738102.724374690.484195.225111.805384694.484237.768110.777393342.354326.23577.258404577.634394.980104.156414965.464477.873110.889425026.054509.820111.447433470.144496.89877.167444525.944570.21099.031455258.714611.093114.045465189.584642.748111.778473596.764481.66380.255483881.601 趋势与季节分解假设这里对最前面四个季度(即1986年的四个季度)的销售量相加然后计算其平均值,可以得到,这里的平均值2741.33显然是不包含季节因素的(因其为全年各季度的和),而且这个值中不包含或只包含很少的随机成份,因为随机误差的均值为零,所以当多项观察值相加后正负随机误差相互抵消了。因此,通过这样的方式计算出来的平均值实际上只包含趋势和周期部分,即T*C。与此类似,如果将第二至五项观察值相加然后求出平均值就可以得到,这里2805.63也是四个不同季节的数值的均值,它也不包含季节因素,同时不包含或极少包含随机的成份。同样的方式可以计算出表中的第三列数值。由此可以看出这种计算的方式就是在计算均值的过程中将老的观察值放弃掉同时换上最新的一个观察值,即采取滑动的方式进行计算。所这这样计算出来的值也称为滑动平均值,由于滑动平均值的特性,我们有如下关系式,2季节与随机的分解由于表中的第三列表示了T*C,而表中的第二列是观察值,或原始数据,根据定义它实际上表示了T*C*S*R。因此如果将第二列的数除以第三列的数,其比值为第四列的值,这一列的值表示了S*R,即,因此这一列的值只包含季节与随机成份,为了方便起见,这里的数值乘上了100。由于这一列比值中包含季节成份,所以可以由它来计算季节系数。季节系数的含义与前面所讲述的相同。在第四列数值中,它包含了随机误差。由于随机误差所具有的特性,即均值为0,因此如果我们将若干项数值相加,则正负随机误差会相互抵消。据此,我们将第四列的数据按每一个值所属的季节排列成下表的形式,年一季度二季度三季度四季度198676.40100.151987115.49111.3673.05104.031988111.29113.7476.54106.511989111.02110.8272.16103.671990115.01108.4476.71102.391991114.78108.5375.91107.871992112.67107.1075.32106.151993111.34105.1676.03105.691994111.53109.5078.73102.721995111.81110.7877.26104.161996110.89111.4577.1799.031997114.04111.7880.26季度平均值S112.72109.8876.29103.85402.74S(调整后)111.95109.1375.77103.15400.00400/402.740.9932然后对每一个季度的数值求平均值,由于求平均值就可以消除随机误差的影响,所以就可以分离出季节因素,即,因此可以计算出每个季度的平均值,也就是季节系数的平均值S。由于将这样计算出来的各个季度的季节系数相加再求平均值,其值不一定正好为100,因此需要对其进行调整。季节系数的调整非常简单。由于我们要求调整后的季节系数值之和为400,所以将400除以现在的和402.74,得到一个修正系数值0.9932;然后将每一个季节系数值S乘以这个调整系数值,就可以得到最终的调整后的季节系数值,如上表所示。1)中心滑动平均值在前面的滑动平均值的计算过程中,我们只是将第1至4季度的平均值放在了第3季度的位置上,但是只要我们仔细一想会发现这里有问题。因为,我们计算出来的第1至4季度的平均值2471.333严格地说应该是第2.5季的平均值;第2至5季度的平均值2805.632严格地说应该是第3.5季的平均值,而在实际中并没有2.5季和3.5季。为了得到每个季节的真正平均值我们还需要做一点工作,这就是对2.5季的平均值2471.333和3.5季的平均值2805.632再求一次平均值,这样就可以得到第3季度的真正平均值,即( 2.5+3.5)/2=3。这样求出来的平均值,(2471.333+2805.632)/2=2773.483称为中心滑动平均值。注意,采用这种方式计算平均值,最终所得到的平滑值比前面的方法还要要少一个(通常,如果求n个数的平均值,则所得到的平均值数量要少n-1个)。当然,如果在每一个周期中所包含的季节数为奇数个,则不需要再求中心平均值了,因为它本身就是中心平均值。现在按中心平均值的方法重新计算,可以得到下表中的数据。(1)(2)(3)(4)(5)季节观察值滑动平均值T*Cstc中心滑动平均值T*Csaf比值S*R*10013017.6023043.5432094.352741.3332773.48375.51342809.842805.6332820.60099.61953274.802835.5682838.063115.38963163.282840.5582867.399110.31972114.312894.2402900.82572.88783024.572907.4102948.685102.57493327.482989.9603030.663109.794103493.483071.3653129.643111.626112439.933187.9203232.62075.478123490.793277.3203298.289105.836133685.083319.2583311.570111.279143661.233303.8833299.978110.947152378.433296.0733316.64171.712163459.553337.2103342.204103.511173849.633347.1983380.191113.888183701.183413.1853428.931107.940192642.383444.6783473.30676.077203585.523501.9353527.670101.640214078.663553.4053576.665114.035223907.063599.9253662.923106.665232828.463725.9203758.53975.254244089.503791.1583821.350107.017254339.613851.5433862.541112.351264148.603873.5403872.933107.118272916.453872.3253860.17675.552284084.643848.0283829.150106.672294242.423810.2733805.843111.471303997.583801.4133795.361105.328312881.013789.3103804.04975.735324036.233818.7883864.156104.453334360.333909.5253945.921110.502344360.533982.3184005.759108.857353172.184029.2004070.46977.932364223.764111.7384153.481101.692374690.484195.2254216.496111.241384694.484237.7684282.001109.633393342.354326.2354360.60876.649404577.634394.9804436.426103.183414965.464477.8734493.846110.495425026.054509.8204503.359111.607433470.144496.8984533.55476.543444525.944570.2104590.65198.590455258.714611.0934626.920113.655465189.584642.7484562.205113.752473596.764481.663483881.60当然相应的季节系数值也需要重新计算,其结果如下表所示,年一季度二季度三季度四季度198675.5199.621987115.39110.3272.89102.571988109.79111.6375.48105.841989111.28110.9571.71103.511990113.89107.9476.08101.641991114.04106.6775.25107.021992112.35107.1275.55106.671993111.47105.3375.74104.451994110.50108.8677.93101.691995111.24109.6376.65103.181996110.49111.6176.5498.591997113.65113.75季度平均值S112.19109.4475.39103.16400.18S(调整后)112.14109.3975.36103.12400.00400/400.180.99952) 中位平均值仔细观察关于季节系数的计算过程,可以发现,在每一个季节所属的列中,总会有一个值特别大或小,这往往是由于一些特殊发问所引起的,如异常天气、罢工、促销活动、战争等,而这些情况并不是总会发生的,所以在计算的过程中应该忽略其影响,所以在求季节系数时,应该剔出异常值,简单地说就是去掉一列中的最大值和最小值后所剩余的中位值中再求其平均值,这样就等到了比较真实的季节系数值。这样求得的最终结果为,调整前的S:112.11109.4275.50103.24400.27调整所的S:112.03109.3575.45103.17400.003 从趋势中分离周期因素由于MA=T*C,现在需要将周期部分分离出来。在此可以对MA这一列数据采用线性回归分析的方式,得到一条回归直线,其参数为,a=2735.85b=38.96回归直线为,因此可以分离出周期因素,即,如此例中,因为所以,4 分离随机因素由于,X=S*T*C*RMA=T*Csas所以,err之样就可以分离出随机误差。这一部分虽然不能用于预测,但可以用来检验。也就是说用来检验我们前面的时间序列分解的是否合适与有效。5准备预测前面我们已经给出了下列表达式,在进行预测时,由于随机误差部分是没有办法预测的,因此作为预测,我们可以使用下列表达式进行,对于此例中的第49期,即1998年第一季度的预测值,首先其趋势部分为,从季节系数的计算表中可知对应的季节系数为112.03。最后,周期部分必须要人为地予以估计,即靠我们的判断一确定。由于第48期的周期值为98,如果我们没有其他更多的信息来估计49期所处的位置,我们可以认为其周期值仍然为98。因此,最终的预测值为,与此类似,对于第50期,即1998年第二季度的预测值,首先其趋势部分为,对应的季节系数为109.208,周期值可以估计为99。因此,最终的预测值为,同样,可以分别计算出第51期和52期的预测值分别为,时间序列分解法计算步骤小结:确定季节系数。通过计算中心滑动平均值和中位平均值,得到每一期(月)的季节系数。1. 确定趋势值。对中心滑动平均值通过回归分析得到回归方程。2. 确定周期系数。将中心滑动平均值除以趋势值就可以得到周期值。3. 如果有条件的话,通过更多的数据来确定周期值。4. 准备预测。采用的公式计算预测值。3.4 自回归积分滑动平均法(ARIMA)前面介绍了一些基本的时间序列分析法,这些方法分别适用于不同的情况。尽管这些方法很简单,但是在使用时常常受到一些限制,而且其方法的理论基础产不是很坚实。这就需要有一种能适应任何情况,且理论上很清晰严格的方法,这就是ARIMA类方法。3.4.1. 自相关(Autocorrelation)在回归分析中,我们知道量与量之间存在着一种相关关系,即一个量发生变化时,另一个量也会发生相应变化,且呈线性关系。这种相互关联的程度可以用相关系数r(-1r1)来描述,若,则表示一个量增长,另一个量也增长;若,则表示一个量增长,另一个量减少。若,则表示它们完全不相关,即一个量发生变化,另一个量不会呈现有规律的变化。自相关的含义类似于相关关系,自相关系数类似于相关系数,只不过在自相关关系中,它描述的不是两个不同的量之间的关系,而是描述的同一个变量在不同时间之间的相关关系。如下列序列中的序列A和序列B。注意,序列B是由A得到的,或者说是从A中提取出来的,即A的第二个值是B的第一个值,A的第三个值是B的第二个值,如此类推。变量A变量B355448899等这样变量A,B可以视为两个不同的变量,然后采用同样的处理方法进行相关处理。与此类似,设有时间序列Y,采用相同的构造方法,可以构造出Y1,Y2,或Y3等不同的时间序列。时间原序列Y滞后一个时间构成的Y1滞后二个时间构成的Y2滞后三个时间构成的Y3t=13-25-6t=2-25-6-6t=35-6-62t=4-6-621t=5-621-3t=621-34t=71-342t=8-342t=942t=102Y1是由Y的对应值滞后一个时间单位构成的。显然,由于Y是由有限个数据组成,而Y1的第一个元素是Y的第二个元素,所以Y1没有最后一个值。同样道理,Y2没有最后两个数值,Y3没有最后三个数值。现在可以将Y与Y1视为两个变量,作为一组变量计算其相关系数(当然在计算中只能用到成对的数据)。同样可以将Y与Y2作为一组,Y与Y3作为一组计算其相应的相关系数。若计算出来Y与Y1的相关系数为0.8,则说明任意连续的Y中的两个值是呈现正相关的;若计算出来的Y与Y2之间的相关系数为-0.70,则说明任意两个间隔一个时间单位的两个量是负相关的,即一个量增长,另一个量向相反的方向变化。由于时间序列Y1,Y2,和Y3 实际上都是从一个变量Y得到的,所以这种相关关系称为自相关关系。自相关关系提供了关于数据模式的重要信息。对于一个纯粹随机的序列,其自相关系数必然接近或等于零。但是对于呈现很强的季节性或周期性特征的数据,必然是高度自相关的。例,对某地区的月平均气温进行自相关处理,观察其自相关系数。从计算出的自相关系数值可以看出,这个序列呈现一种很强的季节性,因为它的最大值每隔12个月出现一次,如,说明相隔12个月的温度呈现正相关。正是采用这种方法计算出来的自相关系数得到的信息可以用来构造高级的时间序列模型。如果我们有多年的月平均气温数据,则可以计算出Y与滞后1、2、3、个时间单位的序列的自相关系数。通过比较这些自相关系数值的大小,可以发现,凡是12的倍数的自相关系数都较大,因此我们不难想象可以用这样的时间序列模型来进行预测,或等类似的模型来进行预测。此外,还有一个与多元回归分析中的偏相关系数类似的“偏自相关系数”(partial autocorrelation)。其作用将在后面介绍具体计算方法时再作介绍。3.4.2. ARMA时间序列模型有三种主要类型的时间序列分析模型可以用来描述各种形态的时间序列,它们分别是1)自回归AR;2)滑支平均MA;3)自回归滑动平均ARMA。1 一般的AR模型一般的AR模型表达式为,(1)其中Yt是因变量。是自变量,显然它们是同一变量的值,但是在不同的时刻。最后,et是误差或残差项,表示随机误差部分,它是不能用任何模型来解释可求出的。方程(1)称为自回归模型,因为它与通常的回归分析模型,类似。只不过这里的自变量是Y自身而已,当然是不同时间的滞后值。如果我们能够1)确定方程(1)就是我们所需的合适的模型;2)确定p的值;3)估计出自回归系数的值。我们就能用方程(1)来进行预测。例:,且有如下数据,时间观察值预测值误差t-5100982t-4120125-5t-3130131-1t-21101100t-11151123则时刻t的预测值为,其中,et是随机误差。2 一般的MA模型并非所有的时间序列都可以用方程(1)来描述。对于某些时间序列我们需要另一种类型的模型,这就是滑动平均模型。一般的MA模型表达式为,(2)其中,et与前面相同是随机误差;而为以前各期的预测误差。为平滑系数。方程(2)与(1)相似,只不过是将以前各期的变量值换成以前各期的预测误差值。因此,从本质上讲这种模型本身也是一种自回归模型,只不过是与自己的误差相关而已。这种模型之所以称为滑动平均模型,是因为它与我们前面提到的简单指数平滑模型类似,都是与自己的误差有关。例:如果已知,且前两期的预测误差为-50和70,则时刻t的预测值为,其中,et是随机误差。3 一般的ARMA模型对于所有的时间序列,只要其中不包含趋势,都可以用方程(3)来描述。即自回归与滑动平均相结合的模型。一般的ARMA模型表达式为,(3)显然方程(3)是方程(1)与方程(2)相结合的产物。由于此模型中包含了p项Y的历史数据,q项预测值与实际观察值的误差,所以这种模型也可以简单地称为ARMA(p,q)。方程(3)表面上看起来虽然很简单,但是实际上它是一个非常复杂的时间序列模型。这了说明这一点让我们先看一下MA(1)和AR(1)模型。一阶滑动平均模型MA(1)为,由此看出它实际上就是无穷阶自回归模型,或。此外,将此式与单指数平滑模型的展开式比较,不难理解为什么称此类包含误差项的模型为滑动平均模型。现在我们再来看一阶自回归模型,即AR(1),由于所以有,即,由此看出它实际上就是无穷阶滑动平均模型,或。同样对于一个简单的ARMA(1,1)模型可以采用同样的方式将其转化成单纯的AR模型或MA模型。从中不难看出,ARMA(p,q)实际上是用一种非常简明的形式来表达了非常复杂的时间序列模型。其实AR模型早在1926-1927年就有人提出来了,MA模型也早在1937年就提出来了,混合的ARMA(p,q)模型是在1954年提出来的,但是这些模型一直都没有进一步的发展,也没有看到什么应用,其主要原因是计算量太大,无法在实际中应用。随着计算机的广泛应用和普及,ARMA类模型在实际中的应用才成为可能。其中首先提出实际应用方法的是Box-Jenkins在1976年提出的方法,即著名的ARIMA模型。3.4.3. Box-Jenkins方法(ARIMA模型)前面虽然给出了ARMA(p,q)模型的表达式,但是要想将其用于实际预测还有许多问题要解决,如p=?, q=?, =?, =? 即如何确定具体的模型?Box-Jenkins在1976年提出了一套完整的解决方法。如下图所示,假定一个一般类型的ARMA模型成立辨识出一个试验性的模型估计这个模型的参数p,q,,诊断这个模型是否满足要求?用这个模型预测第一阶段第二阶段第三阶段首先假定ARMA(p,q)模型对于给定的问题是成立的,或对这个问题是合适的。然后通过三个阶段完成预测工作。第一阶段,根据历史数据辨识出一个试验性的模型;第二阶段,采用历史数据,找出最适合于这个试验模型的参数并进行检验;如果判断出不满足要求,则回到第一阶段选用另一个试验模型;如果模型可以被接受,则进入到第三阶段;第三阶段,根据模型进行预测。1第一阶段,辨识出一个试验性的模型Box-Jenkins方法中最困难的部分就是辨识出合适的模型。一般ARMA模型有两类参数,即p和q,及对应的和。这一阶段可以分为三步来完成。第一步,通过差分来获得静态数据。应用ARMA模型的最根本的假设就是数据是水平型的数据。因此在得到p和q之前,必须保证数据是水平型的,或者说是不存在趋势的。这样的数据就称为静态数据(stationarity)。当然,现实中的数据不可能都是没有趋势的数据。为了得到静态数据,可以采用差分的方法。如果实际数据包含线性趋势则可以通过一阶差分获使之成为静态数据。如果实际数据包含类似二次函数的非线性趋势则可以通过二阶差分获使之成为静态数据。对于其他类型的非线性趋势,我们总可以通过连续差分的方式使之成为不包含趋势的数据。下面通过几个例子说明差分的方法。首先看下列包含线性趋势的数据的差分情况,原数据一阶差分新序列24-2=2246-4=2268-6=22810-8=221012-10=2212-从上表中可以看出一阶差分的方法就是,从上表中还可以看出,由原序列差分后得到的新序列是一组常数,这是因为原数据中不包含随机因素。如果实际数据中既包含其他数据模式又包含随机因素,差分仅仅只会移去趋势部分,对于其他则毫无影响。对于包含非线性趋势的数据也同样可以通过差分使其静止。例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年会计高级面试题库及答案
- 创业计划书轻食店营销策略
- .改革完善存量空间高效盘活实施方案
- 行政案件业务培训课件
- 数字化技术在建筑结构设计中的创新应用
- 2025年体育硕士考试题库及答案
- 产教融合视角下表演艺术专业现代学徒制人才培养研究
- 新疆昌吉回族自治州昌吉州第二中学2026届高二化学第一学期期中联考模拟试题含解析
- 机电设备故障排查与维护方案
- 临时交通标志与设施布置方案
- 语文园地六 课件
- 2025国家公务员政治理论应知应会知识试题库与答案
- (2026年)中国老年肌少症诊疗专家共识解读课件
- 2026年中国电商业发展展望及投资策略报告
- 杭州商铺买卖合同范本
- 车库赠送转让合同范本
- 2025江苏苏大教服集团校园招聘笔试历年典型考点题库附带答案详解试卷3套
- 花知晓在日本市场的营销策略分析
- 2025年南昌市消防救援支队水上大队招聘勤务及宣传勤务文员3人笔试考试备考试题及答案解析
- 施工班组退场协议书
- 人武部2025年终总结样本(3篇)
评论
0/150
提交评论