《流数据》课件-07-流数据序列分析与回归分析-2021_第1页
《流数据》课件-07-流数据序列分析与回归分析-2021_第2页
《流数据》课件-07-流数据序列分析与回归分析-2021_第3页
《流数据》课件-07-流数据序列分析与回归分析-2021_第4页
《流数据》课件-07-流数据序列分析与回归分析-2021_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1流数据与时间序列2基于模型的时间序列预测3流数据学习模型4流数据处理最优化方法5小结序列数据2序列长度为n

的序列S:将索引集合In

=

{1,

2,.

.

.

,

n}

映射到域OS:In→

O所有长度为n

的序列集合为On=OIn={In→

O}域O

上的所有序列集合为O∗={In→

O|n∈N0}序列可以根据域O

进行分类分类值(标称值,字母,枚举)连续值(实数)先后顺序序列数据常见的序列数据文本数据:字符序列{a,...,Z,0,...,9,...}*蛋白质数据:氨基酸序列AminoAcids*基因数据:核苷酸序列{C,G,A,T}*视频数据:图像序列images*音乐数据:音符序列notes*3文本视频音乐时间序列数据交通流量COVID-19每日新增确诊……4

数据随时间记录索引In表示特定的时间点时间序列是一类特殊的序列时间序列的分类5平稳序列有趋势序列复合型序列非平稳序列时间序列时间序列的分类平稳序列(stationaryseries)基本上不存在趋势的序列如:观察值基本围绕某个固定水平波动如:观察值虽有波动,但并不存在某种规律,这种波动可被认为是随机波动6时间序列的分类非平稳序列(non-stationaryseries)有趋势序列:线性趋势、非线性趋势复合型序列:有趋势、季节性和周期性的复合型序列7平稳序列的性质由平稳随机过程产生的时间序列概率分布函数不随时间的平移而变化期望值、方差和自协方差是不依赖于时间的常数随机性时间序列模型以时间序列的平稳性为基础ARMA(自回归滑动平均模型)GARCH(广义自回归条件异方差模型)8P(Y1,Y2,…,Yt)=P(Y1+m,Y2+m,…,Yt+m)E(Yt)=E(Yt+m)Var(Yt)=Var(Yt+m)

Cov(Yt,Yt+k)=Cov(Yt+m,Yt+m+k)非平稳序列的分析是否也以平稳性为基础?非平稳序列的性质现实中的时间序列大多是非平稳的均值、方差、自协方差,其中

任一随时间变化可以有变化规律,也可以

无变化规律趋势性(Trend):随时间向上或向下的移动趋势周期性(Cyclicity):变化趋势是交替变化的波状变异不固定季节性(Seasonality):固定时间范围内重复出现如:天、小时、年9趋势性季节性周期性非平稳序列的性质周期性与趋势性的差异趋势性只沿着单一方向周期性是存在持续的上升下降周期性与季节性的差异周期性并不一定出现

相似的循环出现的“波形”季节性并不一定出现

短时频繁“波动”10趋势性季节性周期性非平稳序列的性质不规则变异(Irregularvariation):没有规律可寻的变动从时间序列分离了T、S、C后剩余的因素随机扰动:短暂的、不可预期的和不可重复出现的随机变动长期看会在一定程度上抵消异常变动:具有偶然性、突发性的重大变动长期也不会抵消需特殊处理11这是随机扰动?还是异常变动?时间序列的表示平稳序列使用均值、方差特性拟合非平稳序列如果只具有单一的特征如:趋势性可用绝对数表示如:季节性、周期性用相对

数表示如果具有多种特征将非平稳序列经过处理后

变成平稳序列,再进行分析!12趋势性T、周期性C、季节性S、不规则性I趋势性季节性周期性时间序列的表示加法模型x=T+S+C+I时间序列的特征相互独立如:季节性以数量表示,即时间序列之平均值加上或减去某一数量乘法模型x=T×S×C×I时间序列的特征相互影响如:季节性是以百分比表示,

即时间序列值乘以平均趋势

值的某一百分比时间序列的特征更多呈现出乘法模型,难以抽取13趋势性T、周期性C、季节性S、不规则性I时间序列的表示方法非数据适应性表示方法不关心时间序列数据的具体取值只关心序列总体特征数据适应性表示方法需关心不同时间区间的变化基于模型的表示方法对时间序列进行表示和预测14E=220acd时间序列的表示非数据适应性表示方法不关心时间序列数据的具体取值将时间序列看成“波形”通过频谱分析抽取非数据特征15如:离散傅里叶变换(DFT:DiscreteFourierTransform)如:离散小波变换(DWT:DiscreteWaveletTransform)时间序列的表示方法数据适应性表示方法用时间窗口将时间序列进行分割,并分别对每一段时间序列片段进行分析和表示优点:能够适应时间序列的演变过程16如:符号聚集近似表示方法

(SAX:SymbolicAggregate

approXimation)如:分段聚合近似方法

(PAA:PiecewiseAggregate

Approximation)时间序列的表示方法基于模型的表示方法假设时间序列是对某种模型的观察结果,并尝试抽取这一模型,以描述时间序列的特征基于模型的表示方法具有较强的可解释性自回归模型(AR:AutoRegressive)前期元素取值为自变量,观察值为因变量移动平均模型(MA:MovingAverage)前期的随机扰动(ɛ)为自变量,观察值为因变量自回归移动平均模型(ARMA:AutoRegressiveMovingAverage)既考虑前期元素取值,又考虑前期的随机扰动(ɛ)差分整合移动平均自回归模型(ARIMA:AutoRegressiveIntegratedMovingAverage)如果非平稳序列在进行差分后会显示出平稳序列的性质17时间序列的预测传统时间序列预测方法如果非平稳序列是差分平稳过程或趋势平稳过程可以将非平稳序列转换为平稳序列如:Box-Jenkins方法基于机器学习的时间序列预测方法使用机器学习方法,但不适合流数据处理如:最小二乘支持向量机(LSSVM:LeastSquaresSupportVectorMachine)寻找时间序列模型的参数如:长短期记忆网络(LSTM:Long-ShortTermMemory),解决长期依赖基于参数模型的在线时间序列预测方法在线进行时间序列的模型拟合与预测解决时间序列模型随数据抵达而持续更新问题如:在线ARMA/ARIMA模型18时间序列预测的步骤Box-Jenkins方法非平稳序列是差分平稳过程或趋势平稳过程平稳性检验是否可以转换

为差分平稳过程

或趋势平稳过程模型识别是AR模型还是MA模型还是ARMA模型模型检验

求解时间序列模型参数191流数据与时间序列2基于模型的时间序列预测3流数据学习模型4流数据处理最优化方法5小结差分平稳与趋势平稳过程基于模型的时间序列预测21单整序列d

阶单整(integratedofd

)序列定义:时间序列经过d

次差分后变成平稳序列记号:I(d),其中I(0)为平稳序列非单整序列序列无论经过几次差分,都不能变为平稳的22

yt=yt

–yt-1

2yt=

(

yt)=

(yt

–yt-1)–(yt-1–yt-2)

1,

2,3,4,5,6……1,

1,1,1,1,1……1,

2,5,10,17,26,37……1,

3,5,7,9,11……2,

2,2,2,2,……一阶单整序列I(1)二阶单整序列I(2)差分平稳过程和趋势平稳过程设含有一阶自回归的随机过程yt=

+γt+yt-1+εt(*)其中,εt

是白噪声,t

为时间趋势若

=1,γ=0,则yt=

+yt-1+εt(**)随

的正负,yt表现为上升或下降趋势(*)为带位移(

)的随机游走过程这种趋势称为随机性趋势

yt确定,该序列为差分平稳过程若

=0,γ

0,则yt=

+γt+εt

(***)随γ

的正负,yt表现为上升或下降趋势(*)为带时间趋势的随机变化过程这种趋势称为确定性趋势yt排除时间因素确定,该序列为趋势平稳过程若

=1,γ

0,则yt=

+γt+yt-1+εt(****)yt包含确定性与随机性两种趋势23yt-yt-1=

+εt(**)yt-γt=

+εt

(***)差分平稳过程和趋势平稳过程差分平稳过程

yt=

+yt-1+εt随机性趋势可通过差分的方法消除yt=

+yt-1+εt

差分变换为

yt=

+εt

趋势平稳过程

yt=

+γt+εt确定性趋势无法通过差分的方法消除需要通过除去趋势项消除yt=

+γt+εt

除去γt

变换为yt-γt=

+εt单位根过程

yt=yt-1+ut考虑将差分平稳过程中的

+εt扩展为ut若{ut}为平稳过程,且E(ut)=0,cov(ut

,ut-s)=

s<∞,s=0,1,…则为单位根过程24yt-yt-1=

+εtyt-γt=

+εt平稳性检验基于模型的时间序列预测25单位根检验定义通过检验特征根是在单位圆内还是单位圆上(外),来检验序列的平稳性方法DF(Dickey-Fuller)检验ADF(AugmentDickey-Fuller)检验PP(Phillips&Perron)检验26DF检验

27AR:AutoRegressive前期元素取值为自变量,观察值为因变量如何判断是否平稳特征根是在单位圆内还是单位圆上ADF检验

28本质上AR是p阶差分方程,解是数列目的是判断数列是否收敛收敛则平稳

单位圆上单位圆内ADF检验实际检验时从模型III开始,然后模型II、模型I何时检验拒绝零假设(即原序列不存在单位根,为平稳序列),何时检验停止否则,就要继续检验,直到检验完模型I为止检验原理与DF检验相同,只是对模型I、II、III进行检验时,有各自相应的临界值ADF检验保证了随机误差项的白噪声特性29模型识别基于模型的时间序列预测30ARIMAAuto-RegressiveIntegratedMovingAverage起源于离散时间滤波方法20世纪30-40年代电气工程师NorbertWiener等人提出统计学家GeorgeBox和GwilymJenkins在20实际70年代将其应用到商业和经济数据因此命名为Box-Jenkins模型ARIMA的组成差分平稳的单整序列(I)自回归模型(AR)移动平均模型(MA)31ARIMA表示什么非季节ARIMA模型可以使用3个参数表示,ARIMA(p,d,q)模型p=自回归项的数量d=非季节差分的数量q=移动平均项的数量也可以包括常数项32时间序列信号(预测值)噪声(残差值)X常数?3个旋钮p012d012q012ARIMA表示什么季节ARIMA模型可以使用额外的3个参数表示,ARIMA(p,d,q)×(P,D,Q)模型P=季节自回归项的数量D=季节差分的数量Q=季节移动平均项的数量33P、D、Q不能大于1时间序列信号(预测值)噪声(残差值)X常数?6个旋钮p012d012q012P01D01Q01自回归模型ARp

阶自回归模型:AR(p)还记得差分平稳过程吗yt=

+

1yt-1+…+

pyt-p

+εt序列{yt

}某一时刻t

与前p个时刻序列值之间存在关系

随机序列{εt

}是白噪声,且和前时刻序列yk(k<t)不相关AR(p)的滞后算子形式引进滞后算子B:

,一般有

34

如果B=1,则

如果B>1,则收敛

如果B<1,则发散

平稳条件:滞后算子特征根在单位圆外记移动平均模型MAq

阶移动平均模型:MA(q)还记得趋势平稳过程吗yt=

+γt+εt

序列{yt

}中,yt

表示为若干个白噪声的加权平均和

随机序列{εt

}是白噪声MA(q)的滞后算子形式记35

平稳条件:无条件平稳

自回归移动平均模型ARMA自回归模型与移动平均模型的综合

记为ARMA(p,q)滞后算子形式36

性质总结37模型AR(p)MA(q)ARMA(p,q)自相关函数拖尾截尾拖尾偏自相关函数截尾拖尾拖尾平稳的条件滞后算子特征根在单位圆外无条件平稳滞后算子特征根在单位圆外可逆的条件无条件可逆滞后算子特征根在单位圆外滞后算子特征根在单位圆外自相关函数(ACF:Auto-CorrelationFunction)偏自相关函数(PACF:PartialAuto-CorrelationFunction)拖尾:以指数形式单调/震荡衰减,或不规则的缓慢衰减到零截尾:衰减的很突然,从某个时间点后直接阶跃到接近零性质总结自相关函数的截尾偏自相关函数的截尾38模型识别39自相关函数偏自相关函数差分平稳过程模型类型拖尾p阶截尾**平稳过程AR(p)拖尾p阶截尾**d

阶差分平稳过程*ARIMA(p,d,0)q

阶截尾***拖尾平稳过程MA(q)q

阶截尾***拖尾d

阶差分平稳过程*ARIMA(0,d,q)拖尾拖尾平稳过程ARMA(p,q)拖尾拖尾d

阶差分平稳过程*ARIMA(p,d,q)p阶后阶跃到零q

阶后阶跃到零d

阶差分后是平稳过程******参数估计与检验基于模型的时间序列预测40参数估计

41参数估计AR(p)模型参数估计(普通最小二乘法)目标函数(最小二乘法:残差平方和最小):对目标函数求导,目标是其=0AP模型自回归系数的最小二乘估计误差方差的最小二乘估计42

参数估计ARMA(p,q)模型参数估计(非线性最小二乘法)43模型阶数的确定AIC准则(Akaikeinfocriterion,最小化信息量准则)对于ARMA(p,q)BIC准则(Bayesianinfocriterion,贝叶斯信息量准则)AIC准则中参数个数过多可能导致过拟合引入模型参数个数相关的惩罚项,避免样本维数高训练样本少可能导致的维度灾难

44k为模型参数的个数,L为模型的极大似然函数

选择使AIC最小的(p,q)组合

k为模型参数的个数,L为模型的极大似然函数n为样本量模型的检验目的与标准:残差项是否为白噪声序列检测条件Box-Ljungtest/Q检验BG检验(bartlett定理)45

均值=0方差固定无自相关

在线ARIMA基于模型的时间序列预测46在线ARIMA算法批处理ARIMA的问题对噪声项和随时函数的强假设如噪声的独立同分布、t-分布参数估计方法需要访问全体数据如最小二乘法、最大似然估计不符合流数据的特征,无法应对概念漂移在大数据集上的内存开销巨大流数据只能根据窗口大小缓存在线ARIMA算法(Liuetal.,2016)允许任意误差项处理持续到达的数据,同步更新模型内存占用与样本规模无关47在线ARIMA算法

48在线ARIMA算法

49损失函数累加值最优决策的损失函数累加值在线ARIMA算法

50估计m估计m1流数据与时间序列2基于模型的时间序列预测3流数据学习模型4流数据处理最优化方法5小结概述流数据学习模型52学习模型概述基于模型的学习构建数据的模型使用该模型进行数据的预测如AR、MA、ARMA、ARIMA等基于实例的学习不预设模型结构通过训练学习样本数据特征通过相似度度量方式将其泛化到新数据如回归、分类树、FIMT等回归(Regression)模型一种用于估计一个或多个自变量(如元组的属性)与因变量(其值必须预测)之间关系的技术一般用于预测(Forecast)53为什么要回归分析回想基于模型的序列分析过程最重要的问题:时间序列都是平稳或差分平稳过程吗?概念漂移怎么办?54用什么模型?如何判断是这种模型?如何获得模型参数?如果时间序列不是平稳的怎么办?为什么要回归分析回想基于模型的序列分析求解AR(p)模型参数估计多元线性回归55

回归与分类的差异回归与分类的差异回归于预测数据的取值,一般是连续的分类用于预测数据所归属类别,主要是离散和有限集回归与分类的联系56TRUEFALSE预测点分类区间分类区间回归的分类自变量个数一元回归多元回归因变量类型简单回归多重回归自变量和因变量之间的关系类型线性回归非线性回归参数回归线性回归假定自变量和因变量之间存在线性关系使用损失函数量化预测和真实值间距离

(如:平方损失)非线性回归非线性最小二乘回归非参数回归不直接求线性

或非线性函数用核函数、

决策树等模式描述模型(不是序列模型)核回归、非参数乘法回归、回归树等57回归分析指标线性回归58误差

59

MSE误差

60

MAERegret界

61

从时间维度看累积效果,不关注具体时刻!最小二乘估计及其扩展流数据回归分析62范数与正则化

63损失函数真值学习模型正则化方法减小特征权重:岭回归降低特征维数:Lasso最小二乘估计

64

最小二乘估计最小二乘估计的问题当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定65假设已知x1,x2与y的关系服从线性回归模型y=10+2φ1+3φ2+ε给定φ1,φ2的10个值,如下表的第(2)(3)两行:

序号12345678910(1)φ11.11.41.71.71.81.81.92.02.32.4(2)φ21.11.51.81.71.91.81.82.12.42.5(3)εi0.8-0.50.4-0.50.21.91.90.6-1.5-1.5(4)yi16.316.819.218.019.520.921.120.920.322.0最小二乘估计

66

序号12345678910(1)φ11.11.41.71.71.81.81.92.02.32.4(2)φ21.11.51.81.71.91.81.82.12.42.5(3)εi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论