10SPSS时间序列分析教案(PPT52页)_第1页
10SPSS时间序列分析教案(PPT52页)_第2页
10SPSS时间序列分析教案(PPT52页)_第3页
10SPSS时间序列分析教案(PPT52页)_第4页
10SPSS时间序列分析教案(PPT52页)_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS统计软件 时间序列分析横截面数据时间序列数据人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(cross section)数据,也就是对大体上和时间无关的不同对象的观测值组成的数据另一个称为时间序列(time series),也就是由对象在不同时间的观测值形成的数据。前面讨论的模型多是和横截面数据有关。这里将讨论时间序列的分析。我们将不讨论更加复杂的包含这两方面的数据。 时间序列和回归时间序列分析也是一种回归。回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样

2、分布而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。即时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。当然时间序列的自变量也可能包含随着时间度量的独立变量。从下图可以看出。总的趋势是增长的,但增长并不是单调上升的;有涨有落。但这种升降不是杂乱无章的,和季节或月份的周期有关系。当然,除了增长的趋势和季节影响之外,还有些无规律的随机因素的作用。时间序列的组成部分 时间序列的分解 一个时间序列可能由趋势、季节、循环和随机成分组成,因此:如果要想对一个时间序列本身进行较深入的研究,要把序列的这些成分分解出来、或

3、者把它们过虑掉。如果要进行预测,则最好把模型中的与趋势、季节、循环等成分有关的参数估计出来。时间序列的分解,通过计算机统计软件,可以很轻而易举地得到该序列的趋势、季节和误差成分。 spss分解步骤:分析预测季节性分解时间序列模型理论基础: 指数平滑 如果不仅满足于分解现有的时间序列,想要对未来进行预测,就需要建立模型。这里先介绍比较简单的指数平滑(exponential smoothing)。指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。而

4、“指数”意味着:依已有观测值“老”的程度,其权数按指数速度递减。以简单的没有趋势和没有季节成分的纯粹时间序列为例,指数平滑在数学上是一个几何级数。 这时,如果用Yt表示在t时间的平滑后的数据(或预测值),而用X1, X2, , Xt表示原始的时间序列。那么指数平滑模型为: 或者,等价地:这里的系数为几何级数。因此称之为“几何平滑”比使人不解的“指数平滑”似乎更有道理。根据数据,可以得到这些模型参数的估计以及对未来的预测。 时间序列模型理论基础: 指数平滑 如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往是无法满足要求的;而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。下面

5、介绍高精度的ARIMA模型。ARIMA模型基础:AR模型AR 模型也称自回归模型。假定时间序列用X1, X2, , Xt表示,则一个纯粹的AR (p)模型意味着变量的一个观测值由其以前的p个观测值的线性组合加上随机误差项zt (该误差是独立无关的)而得: 这看上去象自己对自己回归一样,所以称为自回归模型;它牵涉到过去p个观测值(相关的观测值间隔最多为p个).yt=1yt-1+2yt-2+pyt-p+zt ARIMA模型基础:MA模型MA 模型也称移动平均模型,一个纯粹的MA (q)模型意味着变量的一个观测值的误差由目前的和先前的q个随机误差的线性的组合而得: 由于右边系数的和不为1(q 甚至不

6、一定是正数),因此叫做“移动平均”不如叫做“移动线性组合”更确切。 zt=t-1t-1-2t-2-qt-qARIMA模型基础:ARMA模型自回归和移动平均模型也即ARMA(p,q)模型,是AR (p)模型和MA(q)模型的组合:ARMA(p,0)模型就是AR (p)模型,而ARMA(0,q)模型就是MA(q)模型。这个一般模型有p+q个参数要估计,看起来很繁琐,但利用计算机软件则是常规运算,并不复杂。 yt=1yt-1+2yt-2+pyt-p + t-1t-1-2t-2-qt-qARIMA模型基础:平稳性和可逆性问题ARMA(p,q)模型有意义则要求时间序列满足平稳性和可逆性的条件.这意味着序

7、列均值不随着时间增加或减少,序列的方差不随时间变化等。一个实际的时间序列是否满足这些条件是无法在数学上验证的,但模型可以近似地从后面要介绍的时间序列的自相关函数和偏相关函数图来识别。一般人们所关注的的有趋势、季节和循环成分的时间序列都不是平稳的。这时就需要对时间序列进行差分来消除这些使序列不平稳的成分,而使其变成平稳的时间序列,并估计ARMA模型.估计之后再转变该模型,使之适应于差分之前的序列得到的模型称为ARIMA模型。ARIMA模型基础:差分差分是什么意思呢?差分可以是每一个观测值减去其前面的一个观测值,即Xt-Xt-1。这样,如果时间序列有一个斜率不变的趋势,经过这样的差分之后,该趋势就

8、会被消除。一般而言,一次差分可以将序列中的线性趋势去掉,二次差分可以将序列中的抛物线趋势去掉。对于复杂情况,可能要进行多次差分,才能够使得变换后的时间序列平稳。上面引进了一些必要的术语和概念。下面就如何识别模型进行说明。要想拟合ARIMA模型,必须先把它利用差分变成ARMA(p,q)模型,并确定是否平稳,然后确定参数p,q。ARIMA (p,d,q)(P,D,Q)s模型在对含有季节、趋势和循环等成分的时间序列进行ARIMA模型的拟合研究和预测时,就不象对纯粹的满足平稳条件的ARMA模型那么简单了。一般的ARIMA模型有多个参数,没有季节成分的可以记为ARIMA(p,d,q),如果没有必要利用差

9、分来消除趋势或循环成分时,差分阶数d=0,模型为ARIMA(p,0,q),即ARMA(p, q)。在有已知的固定周期s时,模型多了4个参数,可记为ARIMA(p,d,q)(P,D,Q)s。(如果是每年的月数据则s=12,其它周期依此类推,如每月的周数据s=4等)这里增加的除了周期s已知之外,还有描述季节本身的模型识别问题。其中,P、Q为季节性的自回归和移动平均阶数,D为季节差分的阶数,s为季节周期。 时间序列模型:ARIMA (p,d,q) 模型ARIMA 模型基本原理: ARIMA模型全称为自回归移动平均模型(Autoregressive Integrated Moving Average

10、Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。ARIMA 方法是时间序列短期预测中一种常用而有效的方法, 它是用变量Yt 自身的滞后项以及随机误差项来解释该变量, ARIMA 方法能够在对数据模式未知的情况下找到适合数据所考察的模型, 因而在预测方面得到了广泛应用。它的具体形式可表达成ARIMA (p , d , q) , 其中p 表示自回归过程阶数; d 表示差分的阶数; q 表示移动平均过程的阶数。如果时间序列数据是非平稳的, 则需要对其进行d 阶差分, 使其平稳

11、化, 然后对平稳化后的序列用ARIMA 建模。注:spss中ARIMA 建模方法会自动进行差分和平滑处理,但不处理异常值。时间序列模型: SARIMA 模型在对含有季节、趋势和循环等成分的时间序列进行ARIMA模型的拟合研究和预测时,模型需要增加4个参数,增加后可记为ARIMA(p,d,q)(P,D,Q)s。(在有已知的固定周期s时,如果是每年的月数据则s=12,其它周期依此类推,如每月的周数据s=4等)这里增加的除了周期s已知之外,还有描述季节本身的模型识别问题。其中,P、Q为季节性的自回归和移动平均阶数,D为季节差分的阶数,s为季节周期。 时间序列模型还可增加自变量来提高预测的准确性(有的

12、情况下)。但应注意:使用专家建模器时,只有在自变量与因变量之间具有统计显著性关系时才会包括自变量。如果选择ARIMA模型,“变量”选项卡上指定的所有自变量都包括在该模型中,这点与使用专家建模器相反。添加方法如右图所示。时间序列模型:带自变量的ARIMA模型时间序列分析的一般步骤 :数据的准备阶段数据的观察及预处理阶段数据分析和建模阶段模型的评价阶段模型的实施阶段(预测) 数据准备 SPSS的数据准备包括数据文件的建立、时间定义和数据期间的指定。其中数据文件的建立与一般SPSS数据文件的建立方法相同,每一个变量将对应一个时间序列数据,且不必建立标志时间的变量。具体操作这里不再赘述,仅重点讨论时间

13、定义的操作步骤。 SPSS的时间定义功能用来将数据编辑窗口中的一个或多个变量指定为时间序列变量,并给它们赋予相应的时间标志,具体操作步骤是: (1)选择菜单:数据定义日期,出现窗口: (2)个案框提供了多种时间形式,可根据数据的实际情况选择与其匹配的时间格式和参数。至此,完成了SPSS的时间定义操作。SPSS将在当前数据编辑窗口中 自动生成标志时间的变量。同时,在输出窗口中将输出一个简要的日志,说明时间标志变量及其格式和包含的周期等。时间序列的图形化观察及预处理时间序列的图形化及检验目的 通过图形化观察和检验能够把握时间序列的诸多特征,如时间序列的发展趋势是上升还是下降,还是没有规律的上下波动

14、;时间序列的变化的周期性特点;时间序列波动幅度的变化规律;时间序列中是否存在异常点,时间序列不同时间点上数据的关系等。 时间序列的图形化观察工具 序列图(Sequence) 一个平稳的时间序列在水平方向平稳发展,在垂直方向的波动性保持稳定,非平稳性的表现形式多种多样,主要特征有:趋势性、异方差性、波动性、周期性、季节性、以及这些特征的交错混杂等。 序列图还可用于对序列异常值的探索,以及体现序列的“簇集性”,异常值是那些由于外界因素的干扰而导致的与序列的正常数值范围偏差巨大的数据点。“簇集性”是指数据在一段时间内具有相似的水平。在不同的水平间跳跃性变化,而非平缓性变化。 自相关函数图和偏自相关函

15、数图(ACFPACF) 所谓自相关是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性(即数据与其前k个数据的相关性),对自相关的测度往往采用自协方差函数和自相关函数。白噪声序列(平稳序列)的各阶自相关函数和偏自相关函数值在理论上均为0(即数据与其前面的数据无相关性)。而实际当中序列多少会有一些相关性,但一般会落在置信区间内,同时没有明显的变化规律。对于平稳的时间序列,理想情形是自相关函数在一定的条件下服从正态分布,当样本量n很大时,一般在自相关ACF图形中其值介于两条虚线之间的概率为95%;如果存在明显不在这两条直线之内的情况,说明序列存在k阶自相关(适合用ARIMA模型),如

16、果在r处之后,全部落入这个范围,说明序列中的数据与其自身的前r个数据有相关性,即k=r,序列表现出MA(r)的移动平均特性,pacf类似。 Spss操作:分析预测 自相关互相关图 对两个互相对应的时间序列进行相关性分析的实用图形工具。互相关图是依据互相关函数绘制出来的。是不同时间序列间不同时期滞后序列的相关性。 Spss操作:分析描述统计 互相关图时间序列的图形化观察工具附:spss自相关函数和偏自相关函数图具体分析 首先自相关(ACF)和偏自相关(PACF)都是在时间序列模型中经常用来判断模型的工具,最好用滞后阶数的那个图来看比较直观,在ARIMA(p,d,q)模型中,参数的选择:确定p d

17、 q,首先要确定 d,答:看序列要不要差分后才能平稳。 其次确定 AR、MA 还是ARMA ? 答:若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。 接下来,关键在于分清托尾、截尾的概念。答:相关函数值在kq以后全部是0,称为截尾性;如果随着滞后期k的增加,函数值呈现指数或正弦波衰减,趋于0,称为拖尾性。说白了,截尾就是前面只有孤立的长长一根,后面突然全没了。拖尾就是没有截干净的,后面杂七杂八还有。 确定AR 、MA

18、 还是ARMA 后,第三,才是确定p、q。答:看拖尾部分,有几根在可信区间外,偏自相关确定p,自相关确定q。时间序列的图形化观察和检验的基本操作 绘制序列图的基本操作(1)选择菜单分析预测 序列图(自相关图)。(2)将需绘图的序列变量选入变量框中。(3)在时间标签框中指定横轴(时间轴)标志变量。该标志变量默认的是日期型变量。(4)在转换框中指定对变量进行怎样的变化处理。(5)单击时间线 按钮定义序列图中需要特别标注的时间点。(6)单击格式按钮定义图形的格式,可选择横向或纵向序列图;对于单变量序列图,可选择绘制线图或面积图,还可选择在图中绘制序列的均值线;对多变量的序列图,可选择将不同变量在同一

19、时间点上的点用直线连接起来。 序列图时间序列的图形化观察 时间序列的预处理 时间序列预处理的目的和主要方法 预处理的目的可大致归纳为两个方面: 第一,使序列的特征体现得更加明显,利于分析模型的选择;第二,使数据满足于某些特定模型的要求。 序列的预处理主要包括以下几个方面:序列缺失数据的处理序列数据的变换处理 主要包括序列的平稳化处理和序列的平滑处理等。均值平稳化一般采用差分处理,方差平稳化一般用变换处理。 时间序列的平滑处理目的是为了消除序列中随机波动性影响。平滑处理的方式很多,常用的有各种移动平均、移动中位数以及这些方法的各种组合等。中心移动平均法 计算以当前为中心的时间跨度k范围内数据的移

20、动平均数。向前移动平均法 若指定时间跨度为k,则用当前值前面k个数据(注意:不包括当前值)的平均值代替当前值。移动中位数 它以当前时间点为中心,根据指定的时间跨度k计算中位数。 时间序列的平滑处理 时间序列缺失值处理的基本操作序列缺失数据处理的基本操作(1)选择菜单转换替换缺失值。 (2)把需处理的变量(序列)选择到新变量框中。(3)在名称和方法框中选择处理缺失值的处理方法。在名称后输入处理新生成变量名,在方法中选择处理缺失值的替代方法,并单击确定按钮。其中:序列均值:表示整个序列的均值作为替代值。临近点的均值:表示利用邻近点的均值作为替代值。对此用附近点的跨度框指定数据段。在数后输入数值k,

21、表示以缺失值为中心,前后分别选取k个数据点。这样最后填补的值就是由这2k个数的平均数。也可选择全部,作用同序列均值选项。临近点的中位数:表示利用邻近点的中位数作为替代值。数据段指定方法同上。线性插值法:表示用缺失值前后两时点数据的某种线性组合进行填补,是一种加权平均。点处的线性趋势:表示利用回归拟合线的拟合值作为替代值。 请注意,如果序列的第一个和最后一个数据为缺失值,只能利用序列均值和线性趋势值法处理,其他方法不适用。 序列数据平滑处理的基本操作(1)选择菜单转换创建时间序列 (2)把待处理的变量选择到新变量名称框。(3)在名称和函数框中选择数据变换法。在名称后输入处理后新生成的变量名,在函

22、数中选择处理方法,在顺序后输入相应的阶数,并单击确定按钮。其中的方法除前面介绍的几种外,还包括:累计求和:即对当前值和当前值之间的所有数据进行求和,生成原序列的累计值序列。滞后:即对指定的阶数k,用从当前值向前数到第k个数值来代替当前值。这样形成的新序列将损失前k个数据。提前:与数据滞后正好相反,即指定的阶数k,从当前值向后数以第k个数值来代替当前值。这样形成的新序列将损失后k个数据。时间序列模型举例 以某地区2005年1月到2015年4月的进出口总额数据为基础,建立预测模型,预测2015年4月后5个月的进出口总额。序列图模型选择:由于影响进出口总额的因素很多,且这些因素之间常常存在多重共线性

23、,所以找出影响进出口总额的诸多因素并进行建模比较困难。由于金融和经济领域数据常常是自相关非平稳的,从进出口总额的自相关图容易看出,自相关函数值明显有不在95%置信区间内(两条直线之间)的情况,说明序列存在k阶自相关性;另外从序列图容易看出,数据序列有明显的趋势性和波动性且不平稳,因而采用ARIMA模型进行预测比较合理而且精度较高。自相关图ARIMA模型的确定数据分析和建模阶段ARIMA预测模型步骤:分析预测创建模型,打开如下对话框在方法中选择专家建模器(无需自己确定ARIMA 模型的p、d、q等各个参数,软件自行优化给出),然后打开条件对话框数据来源:进出口总值数据分析和建模阶段在专家建模器条

24、件中选择模型类型,本例选仅限ARIMA模型并考虑季节性因素,当前周期为s=12。 数据分析和建模阶段统计量的设计如下图:R方:拟合优度可描述模型的回归效果;参数估计可给出模型的相关参数;显示预测值可在输出窗口中显示预测值。数据分析和建模阶段图表的设计如下图:以图表的形式输出观察值、预测值、拟合值,并绘制残差自相关图和残差偏相关图,用以分析拟合效果。数据分析和建模阶段保存的设计如下图:在数据编辑器中保存预测值,及相应的置信区间,并给出残差(噪声残值);并保存模型文件为“进出口总额.xml”。数据分析和建模阶段选项的设计如下图:设计预测截止时间,本例为2015年12月,并可修改置信区间(本例为默认)运行结果由模型描述表可得序列模型的类型为ARIMA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论