【《金融时间序列预测的基本理论综述》4900字】_第1页
【《金融时间序列预测的基本理论综述》4900字】_第2页
【《金融时间序列预测的基本理论综述》4900字】_第3页
【《金融时间序列预测的基本理论综述》4900字】_第4页
【《金融时间序列预测的基本理论综述》4900字】_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

II金融时间序列预测的基本理论综述目录TOC\o"1-3"\h\u5618金融时间序列预测的基本理论综述 1289861.1金融时间序列的特征 1144111.2金融时间序列的数据预处理 2107661.1.1数据的差分处理 2191541.1.2数据的归一化 2259951.1.3滑动窗口技术 3165761.3ARIMA模型的基本理论 414621.3.1.ARIMA模型的原理 4268851.3.2ARIMA模型的构建 4181001.2LSTM的基本理论 6318151.1.1LSTM内部结构 6326041.1.2LSTM的前向传播过程 670701.1.3LSTM的损失函数 8254781.1.4LSTM的优化器 8200271.1.5LSTM的超参数选择 10157441.3模型效果的评估 11本章从四个部分展开介绍金融时间序列预测的基本理论:第一部分介绍金融时间序列的特征;第二部分介绍金融时间序列分析中常用的数据预处理方法;第三部分介绍ARIMA模型的基本理论以及模型构建过程;第四部分介绍LSTM的结构原理以及建模必要过程。1.1金融时间序列的特征时间序列是指按照一定的时间间隔(如每时,每日,每周,每月,每年等)收集的一系列数据。根据时间的变化,将随机变量的变化或随机事件的产生用数据的形式记录下来,形成的具有时间先后顺序的一系列数据就是时间序列。而使用相关的方法和理论对时间序列进行数据采集、处理、分析、以及预测序列未来变化趋势的技术被称为时间序列分析。根据收集数据的背景的不同,时间序列可以被分为很多种,金融时间序列就是其中之一。金融时间序列数据与普通时间序列的不同之处在于,它反映了金融市场在时间维度上的变化情况。在独特的金融理论背景下,金融时间序列具有高复杂度、高噪声、高混乱度、动态性、非线性相关性以及非参数性等特点[28]。并且金融时间序列数据存在着多种不同的性质(如趋势性、季节性等),多为非平稳序列。因此,在对金融数据进行分析之前,需要预先消除数据中存在的的趋势性和季节性等因素,使之转变为平稳序列。另外,金融数据还具有强烈的波动性,在外界因素的作用下序列会随着时间的前向推移不断上下浮动。随机波动会导致金融时间序列数据的趋势在稳步上升后突然下降或在逐渐下降后突然上升,想要对其准确预测十分困难。1.2金融时间序列的数据预处理在采集到研究样本后,时间序列分析的首要工作是对数据进行预处理。首先分析数据的特征,然后根据数据特征以及研究需要对样本采取恰当的预处理机制。否则会受到数据中多种因素的干扰而难以挖掘到有效信息,预测结果欠佳。常见的用于预处理方法有:数据的差分处理、数据的归一化和滑动窗口技术等。1.1.1数据的差分处理金融时间序列大多具有非平稳性的特点,而传统的时间序列模型只能针对平稳时间序列建立模型。因此,需要对具有非平稳性的样本采取合适的算法进行转化,将其处理为平稳性数据。目前应用最广的数据平稳化方法是差分法。设一组序列为则对该序列进行差分处理后得到的序列为:2-(1)经过一次差分变换的得到的时间序列称为一阶差分序列,重复2-(1)的变换过程可以得到更高阶数的差分序列。1.1.2数据的归一化在机器学习和深度学习研究领域里,对于使用梯度下降算法优化的模型,特征的尺度将对其优化效率产生很大的影响。如果不对样本数据实行归一化处理,当数据相差较大不在同一尺度时,会出现梯度迭代方向偏离最小值的情况。这将使得模型优化效率降低,训练时间变长。如图1.1所示。图1.SEQ图\*ARABIC\s11尺度相差过大的梯度更新轨迹而对数据进行归一化处理,可以使得梯度更新的方向更接近最小值方向,大大提高训练速度,如图1.2所示。图1.SEQ图\*ARABIC\s12归一化处理后的梯度更新轨迹归一化的第一步是提取数据集的最大值与最小值,然后对数据集所含全部序列值用如下公式进行变换。2-(2)1.1.3滑动窗口技术金融时间序列与普通时间序列相比,具有快速、大规模和持续的特点,最新的数据往往对预测起着至关重要的作用。因此,序列中的最新信息是往往是金融市场参与者们的关注焦点,它们是预测金融数据的关键。在面对庞大的数据时,采用滑动窗口技术可以始终保持以最新时段的数据作为模型的实时输入。因此,滑动窗口技术在金融时间序列预测领域得到广泛应用。滑动窗口技术对数据的处理原理如图1.3所示。图1.SEQ图\*ARABIC\s13滑动窗口技术其中表示模型的输入,表示时间序列值,进入(或离开)窗口的时间点表示为。为窗口的宽度,其中前个点为训练模型的历史数据,第点为时间序列的预测值。1.3ARIMA模型的基本理论1.3.1.ARIMA模型的原理ARIMA模型是目前最为常用的传统时间序列模型,其原理与ARMA相似。而ARMA的原理如下所示:且:其中,代表模型的自回归阶数,代表模型的移动平均阶数,经过上述过程建立的ARMA模型可表示为。ARIMA模型在ARMA的基础上添加一步差分过程,解决了ARMA不能处理非平稳数据的问题。首先对非平稳数据进行次差分处理,将其转化为平稳时间序列,随后对转化后的数据应用模型建模,形成最终的。1.3.2ARIMA模型的构建ARIMA模型的构建过程大致分为平稳性检验、非白噪声检验、模型定阶和模型检验,下面将对这几个流程分别展开描述。1.平稳性检验ARIMA模型是平稳时间序列的过去误差和过去序列值的线性组合,检验研究样本是否平稳是建模的前提。确定样本的平稳性后才能对模型参数进行选择。平稳性分为严平稳和宽平稳[31],ARIMA模型中的平稳性条件是宽平稳。当时间序列的主要性质近似稳定(二阶矩平稳),即时间序列满足:a.,;b.,为常数;c.,且,。其中表示常数,则称具有宽平稳性。常用的检验方法为图检法与ADF检验法结合。首先绘制样本折线图,观察图像走势,如果图像未呈现明显趋势,可以初步判定为平稳时间序列。随后对序列进行ADF检验,如果值大于提前设置的显著性水平,则样本非平稳。针对非平稳样本,采用差分法对其变换,直至将其转化成平稳序列。1.非白噪声检验得到平稳序列后,需要检验其是否为白噪声,白噪声中含有的可提取信息极低,因此,如果数据为白噪声,则失去了研究意义,需更换数据。常用的白噪声检验方法为Ljung-Box()检验,该方法的原假设和备择假设为:检验统计量为:其中,表示检验样本的长度,表示样本阶自相关系数,为滞后阶数。如果值小于提前设置的显著性水平,拒绝原假设,则说明样本序列之间存在自相关性,不为白噪声序列。3.模型定阶完成平稳性检验并证明序列不为白噪声后,需要对模型定阶,即选取合适的值和值。常用的方法是通过观察自相关函数()图和偏自相关函数()图的拖尾性或截尾性特征来定阶。定阶规则如表1.1:表1.1ARIMA模型定阶规则当图和图的截尾或拖尾特征不好判断时,采用信息准则法定阶。常用的准则和准则。准则计算公式为:2-(3)准则计算公式为:2-(4)其中表示模型参数的数量,表示模型的极大似然函数。选择或值最小的一组。4.残差检验选择好模型阶数后,即可对模型进行训练,训练完成后可以得到残差序列。残差序列是样本与模型估计值之差,如果残差序列不为白噪声,说明残差中还残留着部分信息,模型对样本信息的提取不够充分。在进行残差检验时可以采取多种方法共同观测,如检验,自相关性检验,QQ图检验,多种方法共同分析,可以使结果更全面准确。1.2LSTM的基本理论LSTM是一类用于捕获时间序列中蕴含的长期和短期依赖关系的特殊RNN模型。其在RNN的基础上加入了门控结构,在一定程度上解决了RNN存在的长期依赖问题。近年来,在深度学习领域得到广泛应用。1.1.1LSTM内部结构LSTM是一个高度复合的非线性参数函数,它将一列向量通过隐含层映射到另一组向量。其内部结构如图1.4所示。图1.SEQ图\*ARABIC\s14LSTM内部结构1.1.2LSTM的前向传播过程LSTM通过门控结构来决定信息传递至神经元的程度。LSTM拥有三种门控结构,分别为遗忘门、输入门、输出门[33]。下面对这三种门控结构展开描述。(1)遗忘门:遗忘门的作用是确定从神经元中舍弃什么样的信息,是LSTM前向传播过程的第一步。设前一时间点的输出值为,当前时间点的输入值为,门的偏置项设为,则遗忘门的输出值表示为:其中表示遗忘门的权值向量,表示值域为[0,1]的的函数,其作用是决定信息传输的比重。(2)输入门:输入门的作用是确定何种信息被放在神经元中,由两个部分组成,第一部分为输入门层,其输出值的表达式为:用来决定候选神经元的输入程度。第二部分通过层创建一个当前时刻的候选细胞状态,表达式为其中为输入门的权值矩阵和为偏置值,为神经元经过更新后的权值矩阵,为神经元经过更新后的偏置值。简单来说,输入门通过函数创建新的输入值,通过函数决定输入比重。(3)神经元的记忆更新在进行上述过程后,获得了时刻的控制信号、和候选细胞状态,可对时刻的细胞状态进行更新,得到时刻的细胞状态:(4)输出门输出门的作用是生成时刻LSTM结构的输出值,分两步。第一步运行一个层来产生一个值域为[0,1]的控制信号。第二步运用函数对细胞状态进行转换,并通过计算它和层的输出值的乘积,得到LSTM的输出值。其中,和为输出门的权值向量和偏置值。1.1.3LSTM的损失函数损失函数的提出是为了衡量预测值与实际样本值的不一致程度。选择合适的损失函数可以计算出LSTM每次迭代的输出值与真实值的误差,指导LSTM下一次迭代向着正确的方向进行。LSTM中常用的损失函数有以下几种:均方误差(MSE)损失函数MSE表示样本真实值与估计值之间欧式距离。设时刻的样本值为,估计值为,MSE的函数表达式为:2-(3)交叉熵损失函数交叉熵是信息熵概念的延申,广泛应用于分类问题。其作用是度量两个概率分布间的差异性信息,衡量模型训练得到的概率分布与真实分布的差异情况。设时刻数据的真实概率为,模型训练得到的概率为,交叉熵损失函数的函数表达式为:1.1.4LSTM的优化器神经网络训练过程的本质是损失函数的最小化问题,求解这个问题的方法被称为优化器。常用的优化器有以下几类:1.随机梯度下降法(SGD)其思路是沿着梯度方向前进一定距离,该算法的更新规则如下:其中表示要更新的参数,表示参数的目标函数。SGD算法简单易实现,但是也有一些不足,如选择恰当的初始学习率困难,且不同参数以同一学习率迭代等。1.自适应梯度法(AdaGrad)AdaGrad的核心思想是在更新步长时,额外增加分母——梯度平方累积和的平方根。更新规则如下:其中为待更新的参数,为第时间步的梯度,表示第时间步的梯度平方,为学习率。该算法能够针对不同的参数选择不同的更新速度。对于更新频繁的梯度,随着累积的分母项的逐渐增大,其更新步长减小。而稀疏的梯度其分母项的累计速度较慢,因此更新步长相对较大[34]。在数据分布稀疏的情境下,AdaGrad算法能实现更高效的收敛。但是随着时间步的增加,AdaGrad的分母项的梯度平方不断累积,分母项不断增大,会使得学习率过小,参数更新速度过慢。3.RMSProp算法RMSProp算法在更新学习率时,结合了梯度平方的指数移动平均数[35]。这种做法克服了AdaGrad的梯度急剧减小的问题[35]。该算法的原理如下:a.计算时间步的梯度:b.计算梯度平方的指数移动平均数:其中表示指数衰减率。c.更新参数:其中,作用是避免除数为0。为学习率。4.Adam算法Kingma和Ba(2014)[36]提出了Adam优化器。该算法的进步之处在于,计算更新步长时综合考虑了梯度的一阶矩和二阶矩。具体计算步骤如下:a.计算时间步的梯度:b.分别计算梯度的指数及指数平方的移动平均值:上式中的初始值和的初始值统一设置为0。参数和分别表示和衰减率。c.对和进行修正。由于中和的初始值均为0,在训练过程的初期会使得和更新方向偏向0。因此要对和进行如下修正:d.更新参数。得到修正后的和后可对进行更新:与AdaGrad算法和RMSProp算法相比,Adam具有诸多优势。算法简单易实现,能自动调整学习率,适用于梯度稀疏或梯度存在大量噪声的情况。1.1.5LSTM的超参数选择超参数是构建模型过程中涉及的无法通过训练得到的参数。在构建LSTM的过程中,隐藏层神经元的数量、优化器的初始学习率、滑动窗口的长度等均为超参数,无法通过训练获得。超参数的选择会影响模型的预测结果,因此需要采取正确的算法进行选择。常用选择算法有网格搜索和随机搜索。网格搜索适合处理模型超参数较少(一般不大于三个)的问题情境。其原理是对每个超参数预先给出搜索范围,在所有超参数搜索空间的笛卡尔积中遍历,找到使验证集误差最小的超参数组合,如图1.5所示。图1.SEQ图\*ARABIC\s15网格搜索随机搜索是一种遍历式的搜索方法,更易找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论