《商务统计分析 第2版》 课件 第12、13章 时间序列预测、非参数检验_第1页
《商务统计分析 第2版》 课件 第12、13章 时间序列预测、非参数检验_第2页
《商务统计分析 第2版》 课件 第12、13章 时间序列预测、非参数检验_第3页
《商务统计分析 第2版》 课件 第12、13章 时间序列预测、非参数检验_第4页
《商务统计分析 第2版》 课件 第12、13章 时间序列预测、非参数检验_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章

时间序列预测1第12章时间序列预测——目录12.1时间序列构成因素12.2预测方法的评估12.3平稳序列的预测12.4趋势型序列的预测12.5趋势与季节混合型序列的预测2时间序列(timeseries)是按照一定的时间区间进行索引的随机变量序列。平稳时间序列(stationarytimeseries)指的是只包含随机波动的序列。这类序列中的各个观察值基本上在某个固定的水平上随机波动。非平稳时间序列(non-stationarytimeseries)指的是除了随机波动外,还包含趋势、季节变动和周期波动中的一种或多种成分的序列。312.1时间序列的构成因素固定值图12-1四种要素:趋势、季节变动、周期波动和随机波动。趋势(trend)是指在一个较长时间段内,时间序列呈现出的持续向上或者持续向下的稳定变动。时间序列中的趋势可以是线性的,也可以是非线性的。412.1时间序列的构成因素——趋势图12-2(b)图12-2(a)季节变动(seasonality)是指在一个较短时间段内(一般小于一年),时间序列呈现出的重复性的、可预测的变动。例如。电风扇的销售低谷在冬季,而销售高峰在夏天。这种季节性是气候条件,生产条件,节假日以及风俗习惯等诸多因素的联合影响所引起。这里我们所说的“季节”一词是广义的周期性变化。不仅仅代表一年四季,而是泛指任何有规律的变动周期,可以是小于一年的季,月,旬,周,日。512.1时间序列的构成因素——季节性图12-3周期波动(cyclicity)也称循环波动(cyclicalfluctuation)是指在一个较长时间段内(一般大于一年),时间序列呈现出的围绕长期趋势的一种波浪形或振荡式变动。周期性变动是变动周期超过一年的、非固定长度的变动,但每一变动周期的长短不同,上下波动的幅度也不一致,循环波动可以是1-5年周期,也可以是10年以上的长周期。612.1时间序列的构成因素——周期性图12-4随机波动(randomness)也称不规则波动(irregularvariations)是指除趋势、季节变动和周期波动以外,时间序列所呈现出的由临时性或偶然性因素引起的变动。如地震、洪灾、军事冲突、政治动乱或一些偶然因素对社会经济所造成的影响及结果。不规则变动是不以人的意志为转移的,是无法控制的。712.1时间序列的构成因素——随机性图12-5时间序列分析需要把趋势(T)、季节变动(S)、周期波动(C)和随机波动(R)这几种成分从时间序列中有目的的分离出来,或者所对数据进行分解、整理,并将它们的关系用一定的数学关系式进行表达,然后分别进行分析,即建立时间序列的分解模型。按照四种成分对时间序列影响方式的不同,时间序列可分解为多种模型,比如加法模型,乘法模型等,其中比较常用的是乘法模型。8

12.1时间序列的构成因素——时间序列的分解模型乘法模型:加法模型:12.2预测方法的评估——评价预测方法预测误差:预测值与实际值的差距最优的预测方法:使预测误差最小常用的计算方法:平均绝对误差和均方误差。平均绝对误差:平均绝对误差可以避免相互抵消的问题,因而可以准确的反应实际预测误差的大小。12.2预测方法的评估——评价预测方法均方误差:如果避免误差太大对研究问题来说很重要,那就应该使用均方误差,因为它相对于平均绝对误差而言增加了相对较大误差的计算权重,反之则使用平均绝对误差。均方误差具有良好的数学性质,有利于快速求得使其最小化的模型参数。平稳序列(stationaryseries)指的是不含趋势、季节变动和循环波动的序列,即其通常只包含随机成分。本节主要介绍简单平均法、加权移动平均法和指数平滑法。1112.3平稳时间序列的预测移动平均法:把最近d期数据的算术平均值作为t+1期的观测值。简单移动平均法能消除数据的随机波动对预测结果的影响,因而适合预测较为平稳的时间序列。对每个实际观测值赋予相同的权重,忽略了一个重要的事实,在大多数情况下,远期和近期观测值对未来值的影响是不一样的。1212.3平稳时间序列的预测加权移动平均法:是基于简单移动平均法上的一种改进预测方法。对每个实际观测值赋予不同的权重—近期权数较大,远期权数较小,但权数之和为1。可以根据预测误差(如均方误差)最小原则,来寻找最优的权重组合。1312.3平稳时间序列的预测指数平滑法:

通常设1期的预测值等于1期的实际观测值2期的预测值为:3期的预测值为:4期的预测值为:结论:任何预测值是过去所有实际观测值的加权平均值。1412.3平稳时间序列的预测

15例12.1:分别用移动平均法、加权移动平均法、指数平滑法预测2016年中国的电力出口量。解:(1)移动平均法(移动间隔为4):因此,2016年中国的电力出口量为183.25亿千瓦时。序号年份电力出口量/亿千瓦时120101912201119332012177420131875201418262015187表12-12010-2015年中国的电力出口量12.3平稳时间序列的预测16解:(2)加权移动平均法:权数设置为:12.3平稳时间序列的预测则1980年的预测值为:因此,2016年中国的电力出口量为184.96亿千瓦时。17解:(3)指数平滑法():2011年的预测值为:12.3平稳时间序列的预测因此,2016年中国的电力出口量为186.0255亿千瓦时。2012年的预测值为:2013年的预测值为:2014年的预测值为:2015年的预测值为:2016年的预测值为:18线性趋势(lineartrend)是指时间序列呈现出稳定的上升或下降的线性变化规律。当时间序列含有线性趋势时,可以用一元线性回归模型进行预测,即将时间当作自变量,实际观测值当作因变量。线性回归方程:12.4趋势型时间序列的预测—线性趋势回归参数值(最小二乘法):趋势预测的效果:一元线性回归方程的判定系数、估计标准误、模型显著性等指标例12.2:根据表12-2中的蔬菜产量数据,用一元线性回归方程预测2019年的蔬菜产量,并将实际值和预测值绘制成图形进行比较。19,12.4趋势型时间序列的预测—线性趋势回归表12-22000-2018年蔬菜产量时间序列序号年份蔬菜产量(万吨)1200044467.942200148422.363200252860.564200354032.325200455064.666200556451.497200653953.058200751767.679200854457.9610200955300.3011201053030.8612201159766.6313201261624.4614201363197.9815201464948.6516201566425.1017201667434.1618201769192.6819201870346.72

20,12.4趋势型时间序列的预测—线性趋势回归(万吨)图12-6蔬菜产量的预测21当时间序列不是以固定的常数(即斜率)上升或下降的时候,则此时间序列具有非线性趋势(non-lineartrend)。当时间序列的实际观测值按指数规律变化时,需要用指数曲线(exponentialcurve)方程对时间序列进行预测。指数曲线:12.4趋势型时间序列的预测—非线性趋势回归参数的计算:先取对数,再由最小二乘法可得例12.3:根据表12-3中的人均GDP数据,用指数曲线方程预测2019年的人均GDP,并将实际值和预测值绘制成图形进行比较。22,12.4趋势型时间序列的预测—非线性趋势回归表12-32000-2018年人均GDP时间序列序号年份人均GDP(元)12000794222001871732002950642003106665200412487620051436872006167388200720494920082410010200926180112010308081220113630213201239874142013436841520144700516201550028172016536801820175920119201864644解:对取对数得:

由最小二乘法可得:

所以指数曲线方程为:

带入t=20,可得:23,12.4趋势型时间序列的预测—非线性趋势回归图12-7人均GDP的预测24当时间序列的实际观测值变化比较复杂时,如在一段时间内下降,在另一段时间内上升,或者更为复杂(存在多个拐点),此时,需要通过拟合多阶曲线来刻画这种复杂的非线性趋势。二阶曲线:1个拐点三阶曲线:2个拐点多阶曲线:12.4趋势型时间序列的预测—非线性趋势回归参数的计算:由最小二乘法可得例12.4:根据表12-4中石油占能源消费总量的比重的数据,用合适的多阶曲线方程预测2019年的石油占能源消费总量的比重,并将实际值和预测值绘制成图形进行比较。25,12.4趋势型时间序列的预测—非线性趋势回归表12-42000-2018年石油占能源消费总量的比重时间序列序号年份石油占能源消费总量的比重120000.2200220010.2120320020.2100420030.2010520040.1990620050.1780720060.1750820070.1700920080.16701020090.1640112010016801320120171015201401830172016018801920180.1890解:石油占能源消费总量的比重先下降,再上升,存在一个明显的拐点,因此,用二阶曲线方程预测较为合适。二阶曲线方程为:

由最小二乘法可得:

带入t=20,可得:26,12.4趋势型时间序列的预测—非线性趋势回归图12-8石油占能源消费总量的比重的预测27当时间序列同时存在趋势和季节性时,时间序列既在某一段时间内递增或递减,同时各年内的相同季节中存在类似的波动。为了对这种类型的时间序列进行预测,可以根据多元线性回归的思想,将时间和表示季节性的虚拟变量当作自变量,实际观测值当作因变量。引入虚拟变量的多元回归预测:12.5趋势与季节混合型—引入虚拟变量的多元回归参数的计算:最小二乘法可得虚拟变量的设置:n个虚拟变量对应表示n+1个季节预测效果:可用多元回归方程的判定系数、系数显著性、模型显著性等指标进行衡量例12.5:根据表12-5中的数据,预测布丁酒店2017年1月的客房出租率,并将实际值和预测值绘制成图形进行比较。28,表12-52005-2006年布丁酒店各月的客房出租率序号年份月份时间客房出租率12015115912015226312015336812015447012015556312015665912015776812015886412015996212015101073120151111621201512124722016113642201621469220163157322016416672201651768220166187122016719672201682071220169216522016102272220161123632201612244712.5趋势与季节混合型—引入虚拟变量的多元回归解:客房出租率同时含有季节性和趋势成分,应引入月份虚拟变量,并进行多元回归预测。

将12月设为基准变量,引入11个月份虚拟变量,则多元回归预测方程为:

由最小二乘法可得:

带入t=25,可得:所以,2017年1月布丁酒店的预测客房出租率为66.36%。29,12.5趋势与季节混合型—引入虚拟变量的多元回归30,图12-9客房出租率的预测12.5趋势与季节混合型—引入虚拟变量的多元回归31当时间序列是同时含有趋势、季节变动和随机波动的复合型序列时,需要对时间序列进行分解预测—先将时间序列的各个因素依次分解出来,然后进行预测。常用的有乘法模型和加法模型,此节仅介绍乘法模型。乘法模型:12.5趋势与季节性—时间序列分解法第1步:确定并分离季节成分以季节指数来表示时间序列中的季节成分,将季节成分从时间序列中分离出去,即用序列中的每个实际观测值除以对应的季节指数,以消除季节成分。32乘法模型:12.5趋势与季节性—时间序列分解法第1步:确定并分离季节成分季节指数的计算方法有很多种,这里只介绍基于移动平均趋势剔除法的季节成分的确定和分离,其基本步骤是:计算移动平均值,并进行中心化处理,即对移动平均的结果再进行一次2项移动平均,得出中心化移动平均值。计算季节指数,即将时间序列的每个实际观测值除以对应的中心化移动平均值,再计算各比值的季度/月份平均值,即为季节指数。调整季节指数,若上一步得出的季节指数的平均值不等于1,则需要将每个季节指数除以总平均值以进行调整,最后得出标准的季节指数。计算得到消除季节成分后的时间序列,即用序列中的每个实际观测值除以对应的季节指数,以获得消除季节影响后的时间序列。33乘法模型:12.5趋势与季节性—时间序列分解法第2步:建立预测模型并进行预测根据消除季节成分后的时间序列的特征(线性趋势或非线性趋势),建立对应的预测模型(一元线性回归模型、指数模型或多阶模型),并进行预测。第3步:计算最后的预测值用上一步得到的预测值乘以第1步中的季节指数,即为最终的预测值。例12.6:根据表12-6中的数据,用时间序列分解法预测2016年的各季度的商品销售量。34,12.5趋势与季节性—时间序列分解法表12-62012-2015年各季度的商品销售量年份季度时间商品销售量/万件201211152012221920123372012441020131516201326202013378201348112014191620142102220143119201441212201511319201521425201531515201541618解:该商品销售量时间序列数据具有明显的季节成分,因此,我们将分三步进行:第一步:确定并分离季节成分我们这里用移动平均趋势剔除法计算并分离季节成分(1)计算移动平均值该时间序列数据具有明显的季节成分,故采取4项移动平均法,如第一个移动平均值对应于2.5季度,其他的以此类推,结果如表12-7第4列所示接下来进行中心化处理,即对先前的移动平均值再进行一项2次移动平均,如第一个中心化移动平均值对应于3季度,其他的以此类推,结果如表12-7第5列所示(2)计算季节指数先计算季节比率,即将时间序列的每个实际观测值除以对应的中心化移动平均值,如35,12.5趋势与季节性—时间序列分解法解:其他的以此类推,结果如表12-7第6列所示再计算各比值的季度/月份平均值,即为季节指数,如其他的以此类推,结果如表12-7第7列所示(3)调整季节指数因先前计算的季节指数的平均值不等于1,故需进行调整,即将每个季节指数除以总平均值以进行调整,最后得出标准的季节指数,如其他的以此类推,结果如表12-7第8列所示

36,12.5趋势与季节性—时间序列分解法

3712.5趋势与季节性—时间序列分解法

解:38,12.5趋势与季节性—时间序列分解法表12-7消除季节影响的商品销售量的时间序列值年份季度商品销售量移动平均值中心化移动平均值季节比率季节指数调整后的季节指数消除季节成分后的销售量2012115

12.8844

2012219

12.9357

12.75

201237

12.8750.54370.57350.584511.9760

13.00

2012410

13.1250.76190.76780.782512.7796

13.25

2013116

13.3751.19631.14231.164213.7433

13.50

2013220

13.6251.46791.44121.468813.6166

13.75

201338

13.7500.5818

13.6869

13.75

2013411

14.0000.7857

14.0575

14.25

2014116

14.3751.1130

13.7433

14.50

2014222

14.6251.5043

14.9782

14.75

201439

15.1250.5950

15.3978

15.50

2014412

15.8750.7559

15.3355

16.25

2015119

17.0001.1176

16.3202

17.75

2015225

18.5001.3514

17.0207

19.25

2015315

25.6630

2015418

23.0032

39,12.5趋势与季节性—时间序列分解法第13章

非参数检验40第13章非参数检验——目录利用二项分布对两类数据以及中位数进行推断第1节符号检验利用秩-顺序数据对两个或多个总体进行推断第2节威尔科克森符号秩检验第3节威尔科克森秩和检验第4节克鲁斯卡尔-沃利斯检验利用秩-顺序数据对两个变量计算等级相关系数第5节斯皮尔曼秩相关系数41符号检验:用于检验两个相关样本的观测值之差的正负号频次是否存在显著差异多用途的非参数方法对总体分布没有假定的要求既能分析分类型数据,也能分析数量型数据4213.1符号检验符号检验应用:总体中位数假设检验(独立样本)匹配样本的假设检验为了进行符号检验,从总体中随机抽取样本。将抽取的随机样本中大于中位数的值标记为加号,小于中位数的值标记为减号。如果一个值等于中位数,则在进一步分析中将其删除。令p表示加号的概率。若中位数实际值和假设值相等的假设成立,那么样本数据中每个观测值大于或小于假定值的概率都是0.5。抽样分布:p=0.5的二项分布:4313.1符号检验中位数总体中位数假设检验:考虑一个总体,其中没有任何一个数值恰好等于中位数,则中位数是中心趋势的度量,它将总体分为两个部分,其中50%的值大于中位数,另外50%的值小于中位数。当总体是偏斜分布时,中位数是总体中心位置的最佳度量。4413.1符号检验——总体中位数假设检验总体中位数假设检验的原假设和备择假设的一般形式如下:总体中位数的检验统计量如下:H0:总体中位数的实际值与假定值一致H1:总体中位数的实际值与假定值不一致:观测值与假定的中位数的差值为正的个数4513.1符号检验——总体中位数假设检验例:某地产商想要确认城市平均楼盘价格的中位数与媒体公布的7600元/m2是否有显著差异,故对某城市16座预出售的楼盘均价进行调研,结果如下所示(单位:百元/m2)。试检验该城市平均楼盘价格的中位数与媒体公布的7600元/m2是否有显著差异。72 73 76 77 87 90 70 7168 80 83 76 82 89 78 79解:设该城市平均楼盘价格假定的中位数为7600元/m2,依题意提出如下假设:H0:该城市平均楼盘价格的中位数等于7600元/m2H1:该城市平均楼盘价格的中位数等于7600元/m24613.1符号检验——总体中位数假设检验二项式检验

类别数字观测到的比例检验比例精确显著性水平(双尾)楼盘价格组1<=76007.44.50.804组2>76009.56

总计

161.00

SPSS输出检验结果如表13-1所示:表13-1楼盘均价的中位数符号检验从表13-1中可以看出楼盘价格小于等于中位数的有7个,大于中位数的有9个。SPSS给出的精确双尾概率为

,所以不能拒绝原假设。也就是说该城市楼盘价格的实际中位数与7600元/m2有显著差异,媒体公布的数据不准确。4713.1符号检验——匹配样本的假设检验匹配样本:可以是同一研究对象分别给于两种不同处理的效果比较的观察值;或者同一研究就对象处理前后的效果比较的观察值。匹配样本的符号检验要求两个样本的观测值之差服从对称分布匹配样本假设检验的原假设和备择假设的一般形式如下:H0:两个总体的分布相同H1:两个总体的分布不相同匹配样本的检验统计量如下::两个匹配样本数据对的差值为正的个数48例:为了研究放松(如听音乐)对于入睡时间的影响,随机选择了11名志愿者,分别记录他们未进行放松时的入睡时间及放松后的入睡时间,数据如下表13-2。检验该放松方法对睡眠时间的影响是否有显著差异。13.1符号检验——匹配样本的假设检验表13-2

经历放松前后两种方式的入睡时常(单位:min)编号1234567891011放松前2315171819302214132821放松后181017141524201872218解:这里有两个匹配总体。为了检验放松对入睡时长的影响是否存在显著差异,提出如下假设:H0:两个总体分布相同H1:两个总体分布不同49从表13-3中,可以看出有9个志愿者放松前的入睡时长高于放松后的入睡时长,有1个志愿者放松后的入睡时长高于放松前的入睡时长,有1个志愿者的入睡时长在放松前后没有变化,样本容量为10。13.1符号检验——匹配样本的假设检验SPSS输出检验结果如表13-3和表13-4所示:表13-3频率

数字放松前的入睡时长-放松后的入睡时长负差分a1正差分b9结c1总计11a.放松前的入睡时长<放松后的入睡时长

b.放松前的入睡时长>放松后的入睡时长

c.放松前的入睡时长=放松后的入睡时长

5013.1符号检验——匹配样本的假设检验SPSS输出检验结果如表13-3和表13-4所示:表13-4检验统计a

放松前的入睡时长-放松后的入睡时长精确显著性水平(双尾).021ba.符号检验b.使用了二项分布。

从表13-4中可以看出,SPSS给出的精确双尾概率为所以拒绝原假设,认为放松对入睡时长有显著差异。威尔科克森符号秩检验:检验两个匹配总体的位置(中位数)是否存在显著差异匹配样本观测值之差具有对称分布可以同时考虑样本差异大小和差异方向上的信息。13.2威尔科克森符号秩检验威尔科克森符号秩检验的原假设和备择假设的一般形式如下:H0:两个总体的分布相同H1:两个总体的分布不相同匹配样本的检验统计量计算步骤如下:设X,Y是具有对称分布的两个匹配连续总体。从两个总体中分别抽取两个独立的随机样本分别为,;组成数据对;计算;秩(rank):一组数据按照从小到大顺序排列以后,每个观测值所在的位置。13.2威尔科克森符号秩检验计算;将从小到达排列,并找出它们的秩。最小的

秩为1,最大的

秩为n,如果有相同的,则取各点秩的平均值;计算正的秩的总和,负的

秩的总和

。小样本情况下::统计量W服从威尔科克森符号秩分布:统计量W近似服从正态分布大样本情况下:13.2威尔科克森符号秩检验例:根据例13.2的数据,检验放松对入睡时长是否有显著影响。解:依题意给出如下假设:H0:两个总体的分布相同;H1:两个总体的分布不相同。SPSS输出的结果如表13-5和表13-6所示:表13-5列组

数字等级平均值等级之和放松前的入睡时长-放松后的入睡时长负秩1a4.004.00正秩9b5.6751.00结1c

总计10

a.放松前的入睡时长<放松后的入睡时长b.放松前的入睡时长>放松后的入睡时长c.放松前的入睡时长=放松后的入睡时长从表13-5可知,有8个志愿者放松前入睡时长高于放松后的入睡时长,有1个志愿者放松后的入睡时长高于放松前的入睡时长,有1个志愿者的入睡时长在放松前后没有变化,样本容量为9。13.2威尔科克森符号秩检验从表13-6可知

,SPSS给出的精确双尾概率为所以拒绝原假设,认为放松对入睡时长有显著差异。

表13-6检验统计a

放松前的入睡时长-放松后的入睡时长Z-2.409b渐近显著性(双尾).016a.Wilcoxon带符号等级检验b.基于负秩。13.3曼-惠特尼秩和检验曼-惠特尼秩和检验:检验两个独立总体间是否存在显著差异独立样本不要求两个样本总体服从正态分布可使用顺序型数据,也可以使用数量型数据曼-惠特尼秩和检验的原假设和备择假设的一般形式如下:H0:两个总体的分布相同H1:两个总体的分布不相同独立样本的检验统计量计算步骤如下:设X,Y是两个相互独立的连续总体。从两个总体中分别抽取两个独立的随机样本分别为,;混合两组数据,并将新样本按照从小到大的顺序排列,得到它们的秩,新样本的样本容量为;13.3曼-惠特尼秩和检验分别对样本、对应的秩求出秩和、;若,检验统计量

;若,检验统计量

若,检验统计量W为第一个变量所在样本组的W值。小样本情况下::统计量U服从曼惠特尼分布:统计量U近似服从正态分布大样本情况下:13.3曼-惠特尼秩和检验例:市盈率指的是某公司股票当前价格除以12个月的每股收益。下表列出了北京的10家公司和上海的12家公司的市盈率。检验北京公司和上海公司的市盈率之间是否存在显著差异?

表13-7北京和上海公司市盈率北京12345678910

市盈率1522118243121364583367

上海ABCDEFGHIJKL市盈率29932445125172114122391419解:将北京的公司看作一个整体,上海的公司看作另一个整体,要检验北京的公司和上海的公司的市盈率是否存在显著差异,做出如下假设:H0:北京公司总体和上海公司市盈率总体分布相同H1:北京公司总体和上海公司市盈率总体分布不同13.3曼-惠特尼秩和检验SPSS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论