版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\r1\hSEQMTChap\r1\h绪论研究背景及意义当前,全球工业化进程不断加快,全球变暖的问题也日益突出。根据哥白尼气候变化服务局的气象监测报告显示,2024年极有可能成为有记录以来最热的一年REF_Ref194339567\r\h[1]。自工业革命以来,全球地表平均气温已经增加超过1℃,海平面平均温度也上升了将近1℃。在这个过程中,全球变暖逐渐显现出,包括降水量日益增多、海平面持续升高和两极冰川加速消融在内的各种复杂麻烦。我国气候环境,受多种大气环流系统、海洋流动体系等复杂因素的综合影响。在全球暖化趋势日益显著的背景下,我国气候条件已在悄然发生变化。根据世界气象组织(WMO)发布的《2023年全球气候状况》报告显示REF_Ref194340033\r\h[2],2023年中国地区的地表平均气温相比于1991-2020年的地表气温平均值要高出0.67℃,这表明了中国的气候正在不断变暖。气候是人类生存和发展所需要的重要环境因素,尤其是在幅员辽阔的中国大陆上,气候的特殊性不言而喻。中国这片广袤的土地横跨多个温度带,不仅含有温带大陆性气候,还囊括了温润的亚热带季候以及温带季风气候,为中国农业,林业,牧业的发展提供有利条件,然而,因为气候变暖,中国近些年发生了许多极端事件,例如2022年江西省出现持续高温,全省平均高温(≥35℃)日数排历史第一高位。又比如气温升高对降水分布产生了变化,导致干旱和洪灾现象频发。2022年6月下旬至11月中旬,江西地区经历了一场罕见的长时间天气干旱,鄱阳湖的水位在此期间也在不断下降。此外,2023年,全国范围内共发生37次区域性暴雨,引发了许多洪涝问题。这些事例都能使我们认识到,气候对于生活有着极其巨大的影响力。气温是影响气候变化的重要因素之一,他对气候变化有着直接的影响。如果能够准确预测气温,就可以帮助人们更好的安排农作物的种植,收割,进行农业生产,也对于工业生产以及人们的正常日常生活有着及其重要的作用。最重要的是,气温预测可以对可能出现的气候极端事件进行提前预警,有助于帮助政府和有关部门提前采取有效的防灾减灾措施,减少灾害的损失。气温时间序列具有极强的不确定性,很难实时准确的进行预测REF_Ref194340277\r\h[3],本文通过传统ARIMA模型与最新的机器学习LSTM模型进行对比研究,探究二者的优缺点,以此为未来的气温时间序列提供新的思路和启发。国内外研究现状时间序列分析是构成统计学方法论体系中的关键分支。它主要着力于随着时间推移而不断变动的事物,研究它们的发生和发展变化过程,最为重要的便是找到事物发展的规律。实际情况表明,通过这样的研究,可以对未来进行一定程度上的预判。目前,时间序列分析方法广泛应用于诸多领域,尤其是在经济领域,气象领域还有海洋和金融等诸多领域。然而,现实中的时间序列如气温时间序列在多种因素参与下变得尤为复杂,目前传统的时间序列预测方法以及机器学习方法是研究气温时间序列的主流方法。ARIMA模型的核心框架主要由AR模型,I过程,MA模型三部分组成。AR模型是1927年YuleREF_Ref194340743\r\h[4]提出的,其优势是能够捕捉具有较长历史趋势的数据,并基于这些数据进行预测,MA模型是1931年WalkerREF_Ref194340759\r\h[5]提出的,可以更好地处理那些有临时、突发的变化或者噪声较大的时间序列数据。根据Wold分解定理REF_Ref194341343\r\h[6],任意一个离散平稳序列都可以分解为两个不相关的平稳序列之和,这保证了平稳序列一定可以用某个ARMA模型等价表示。作为现代时间序列分析理论的奠基理论,Wold分解定理在Crame于1961的创新性突破中取得了新的进展,Crame成功的将这一分解理论从单纯的平稳序列领域扩展到非平稳序列领域,使得非平稳序列通过一定数量的差分也能提取到足够的信息。基于这一理论,Box和JenkinsREF_Ref194341706\r\h[7]于19世纪70年代提出了ARIMA模型。ARIMA模型便是通过差分过程,使得非平稳时间序列达到平稳,来消除时间序列中的趋势和季节因素,通过这三个部分的协同运作,ARIMA模不仅可以深入探究时间序列的长期演化规律,还可以有效应对有一定的突发的波动的数据。自ARIMA方法推出以来便在许多领域被广泛应用,其中在股票、国内生产数据等时序领域尤其重要。在现实情况之中,许多时间序列包含季节特征,呈周期性波动现象。对于此类序列中的周期性及季节性数据提取,目前存在两种主要途径,一种是极其完备繁复的基于因子解析方法,这个方法从外部因素入手,对序列进行趋势、周期或季节方面的分解,具体有X11模型和Holt-Winters三参数指数平滑法作为代表;另一种方式则植根于ARIMA技术,通过分析序列内在联系,借助相关指标,如自相关系数与偏自相关系数的复杂表现形式,从内部挖掘关键信息,进而形成了SARIMA模型。ARIMA模型要求随机扰动的方差是恒定的,然而在现实生活中,尤其是对于金融时间序列模型,这是很难成立的。EngleREF_Ref194341732\r\h[8]在1982年提出了自回归条件异方差模型(AutoregressiveConditionalHeteroskedasticityModel,ARCH),引入条件异方差来代替恒定方差的假定,适合捕捉和建模金融市场中常见的波动性聚集现象,及高波动期和地波动期会交替出现的现象,广泛应用于金融时间序列当中。但ARCH模型只能捕捉短期波动,为此BollerslevREF_Ref194342165\r\h[9]于1986年将条件方差的过程进一步扩展为包含滞后方差项,提出了广义自回归条件异方差模型(GeneralizedAutoRegressiveConditionalHeteroskedasticity,GARCH)。相较于ARCH模型来说,GARCH模型能够更好地捕捉时间序列中长期的波动性行为。GARCH模型还有许多衍生模型,如EGARCH、IGARCH、GARCH-M等,这些模型进一步弥补了ARCH模型的不足之处。ARIMA模组在经济、金融及气象领域持续得到广泛应用,仍然是时间序列分析中一种经典而极其有力的工具。与此同时,随着统计方法和计算技术的不断发展,ARIMA模型在理论和应用方面都得到了不断的优化和完善。但ARIMA模型在实际使用中仍然存在着多种多样的限制,如常见的非线性局限性,还有参数选择过程中的难题。此类问题表明,应持续探索其适用场合以及完善优化技巧,才能求得更为合理准确的数据预测结果。机器学习(MachineLearning,ML)通过构建统计框架的自主演化系统,使得计算机即便在没有明显编程的约束下,也能从数据中提取所需要的信息。机器学习被广泛应用于时间序列预测之中,在许多领域都拥有着重要作用,像长短期记忆网络(LSTM)就是最常用的模型之一。LSTM长短期记忆网络是近些年应用较为广泛的一种神经网络。它是由Hochreiter和SchmidhuberREF_Ref194342192\r\h[10]在1997年为了解决循环神经网络RNN结构中存在的梯度消失和梯度爆炸的现象而提出的。Sundermeyer等将LSTM网络应用于语言建模任务REF_Ref194342779\r\h[11],证明相对于传统递归神经网络,LSTM具有更好的的预测结果。现如今,已经有许多人利用LSTM模型来对时间序列进行预测,例如SunuFathimaT.H就曾使用LSTM模型来拟合并预测天气时间序列REF_Ref194342792\r\h[12]。然而随着研究的不断深入,人们发现标准的LSTM模型存在一些局限性,例如长期依赖关系建模能力有限等,LSTM的许多优化与扩展模型就是为了完善这些问题的应对措施,提高LSTM模型精度和应用范围所提出的。GRU是LSTM最流行的一个变体,GRU的应用领域广泛扩展到自然语言处理科技、语音辨识系统以及影像解析等领域。它处理庞大信息流的数据及其效率。除此之外还有双向门控循环单元(BiLSTM),通过两个LSTM模型分工合作,来获得比LSTM模型更高的模型精度。然而机器学习在时间序列预测中仍然存在许多的不足之处,比如模型容易出现过拟合现象,表现为在模型在训练集的预测上极为优秀,但在真实数据上拟合效果不是很理想。为了弥补这些不足,机器学习方法仍然需要进一步的研究和发展。随着机器学习的发展,越来越多的科研工作者开始关注机器学习与传统模型的优缺点对比,试图将二者结合。
MamtaJuneja等人在疫情期间尝试使用多项式回归,ARIMA以及RNN拟合模型尝试对五个国家的COVID-19状况进行预测,通过RMSE和MAPE对比模型性能,研究出适合不同国家的模型,为抗疫提供辅助REF_Ref194342807\r\h[13]。DurgaPrasadAnanthu通过ARIMA,RNN,LSTM对电力负荷预测上的应用结果进行对比,最终发现RNN模型的RMSE值要小于传统模型ARIMA,但容易出现梯度爆炸现象,LSTM能够有效弥补RNN的缺陷REF_Ref194342856\r\h[14]。Hanan则是使用了黄金价格时间序列,将ARIMA模型与LSTM模型和GRU模型进行比较,得到LSTM和GRU模型的RMSE值分别为1160.5和1214.8,性能无较大区别,而ARIMA模型RMSE值为7121.1,明显低于其他模型REF_Ref194342953\r\h[15]。SiamiNamini利用股票数据将ARIMA和LSTM模型进行对比,得出LSTM模型平均优于ARIMA模型85%REF_Ref194342939\r\h[16].与其他时间序列相比,温度变化的时间序列表现出了复杂性以及独特的重要性。传统模型和机器学习模型在处理这种数据时各有优劣,由此可见,将两者进行对比研究,分析二者的优缺点也许能改进宏观气候预测的一些方面,或者为研究提供新的视角。时间序列介绍时间序列概念介绍时间序列特指对随机变量进行依时间索引的观测值集合,其生成过程体现了变量随时间的动态演化特性。时间序列分析则是指对时间序列进行分析观察和研究,试图通过这些动作发现其中的变化规律,并利用所发现的规律来预测它将来的走向。设X1,X2,⋯Xt,⋯为一组随机变量,这组变量按照时间顺序排列的,被用作表示一个随机事件的事件序列,通常来说会用WarrenPersons于1919年发现并提出了确定性因素分解思想,并展现在他的论文当中。他认为如下四个因素的综合影响可以覆盖一切纷繁复杂的时间序列,其一便是长期趋势,它代表着一个序列在长期的尺度上展现出一定的单调递增或者单调递减的趋势。其二便是循环波动,它代表着序列所具有的每隔一定时间便会重复出现的趋势,循环波动没有固定的周期;其三便是季节效应,它代表着序列的波动会随着季节的变化而产生变化;其四便是随机扰动,它代表着除去上述三种波动以外的难以接受的影响序列的波动。普遍认为,仅仅通过这四个因素的某个函数,就可以成功的拟合任意的时间序列,即:x在时间序列分解框架中,基于叠加原理的加法模型与依据乘积关系的乘法模型,构成了两种基础性建模范式。加法模型:x乘法模型:x时间序列分析旨在从时间序列数据中提取由于信息,以此来预测未来趋势以支持决策。随着机器学习算法的发展,研究表明机器学习算法可以大幅度提高时间序列预测的准确性,因此,近些年来,时间序列引起了研究者的广泛关注。数据来源和预处理本文所选择的气温时间序列数据来源于网站:https://lishi,。通过python中的selenium库进行点击爬虫获取了2015年1月1日至2024年12月31日江苏省南京市的天气状况。爬取的数据包含日期,最高气温,最低气温,天气,风向。表2.1是数据前6行的展示:表STYLEREF1\s2.SEQ表\*ARABIC\s11数据前六行日期最高气温最低气温天气风向2015-01-016-4晴西北风4-5级~3-4级2015-01-029-4晴转多云南风~东南风小于3级2015-01-0313-1多云东风~南风小于3级2015-01-04173多云南风~东南风小于3级2015-01-05175多云转阴东南风~东北风小于3级~3-4级2015-01-06112小雨西北风~东北风3-4级~4-5级为了研究方便,仅选择最高气温时间序列进行分析。图2.1为原始时间序列图像:图STYLEREF1\s2.SEQ图\*ARABIC\s11气温序列时序图从图2.1可以看出,该时间序列具有明显的季节效应,这与我们传统认知的一年四季温度变化相适配。初步判断其为加法模型,对于j加法模型,我们可以对其进行因素分解以方便更好的观察,其具体步骤如下:从原序列中消除趋势效应。 在加法模型设定下,时序观测值可以被解构为均值、季节效应与随机扰动的线性叠加 式中,表示第i个周期的第j个已去除趋势的序列值;表示{y}序列的均值;为第j个季节的季节指数,且;。计算{y}序列总均值。 计算每个周期均值。 计算加法模型的季节指数从图中大致判断其为加法模型,按照因素分解的步骤进行分解过后,得到的结果如下图所示:图STYLEREF1\s2.SEQ图\*ARABIC\s12序列分解图从图2.2我们可以明显观察到,长期趋势在略微上涨,证实了南京市的温度正在缓慢变暖,全球变暖正在加剧,寻找出合适的方法去减缓全球变暖的速度刻不容缓。ARIMA模型介绍与建模ARIMA模型介绍(1)AR模型若时间序列可表示为自身前p期观测值的线性组合与白噪声扰动项之和,则该随机过程遵循p阶自回归模型,记作AR(p),其具有如下结构: 通过引进延迟算子,可以简化AR(p)模型的书写,具体简写形势如下: 式中,,称为p阶自回归系数多项式。延迟算子是时间序列分析中的一个重要工具,他就像是一个可以方便时间序列的观察值在时间轴上移动的指针,想象时间序列是一列火车车厢,延迟算子B就像调度员将当前车厢编号减1,使第3号车厢变成第2号车厢的观测值,实现观测时刻的回溯。记B为延迟算子,有 延迟算子有如下性质:(1)=1;(2)常数的任意阶数延迟仍然等于常数,即,其中,c为任意常数,p为任意正整数;(3)若c为任意常数,有(4)对任意两个序列平稳时间序列的分析需采用对应的平稳模型进行拟合。值得注意的是,并非所有自回归模型都具备平稳性特征,因此在运用此类模型处理平稳序列时,必须通过特征根判别法等检验手段验证其平稳性条件。这一基于特征根分析的平稳性判定方法,因其有效性在时间序列分析领域得到普遍应用。特征根判别法的原理如下所示:如果将自回归AR模型通过理论分析转化为非齐次形式的线性差分方程系统,它的解不妨记作: 式中,为任意实数;为任意特解如果要求AR模型剧本平稳性特征,则它的解要满足 式中,为常数均值为了保证上式对于任意实数都成立需满足特征方程根所对应的指数函数序列保持收敛。这一约束条件经严格证明可转化为各特征根模长小于1的数学要求,由此可界定AR(p)模型参数空间中满足平稳性条件的区域为: (2)MA模型q阶移动平均模型MA(q)基本形式为: 通过对移动平均(MA)模型的数学解析可以观察到,此类模型具有固有平稳特性。然而在模型辨识过程中,不同参数的移动平均过程可能生成完全相同的自相关函数结构。为消除这种多解性问题,Box-Jenkins方法论特别引入了可逆性条件约束。该条件要求MA模型必须满足其参数多项式的根均位于复平面单位圆外,这一特性保证了模型既能转化为收敛的无限阶自回归过程,又能通过自相关函数与模型参数建立唯一对应关系。与分析AR(p)模型的平稳性条件类似,MA(q)模型可以表示为: 式中,,为移动平均系数多项式,假定是该系数多项式的q个根,则可以分解成: 把式子代入式子,得 从上式可以看出当且仅当是该式收敛,此时MA(q)模型才是可逆的。(3)自回归移动平均模型ARMA(p,q)将时间序列的动态演化表征为自回归过程与移动平均过程的线性耦合,其数学形式综合了历史观测值和历史噪声项的共同影响。其具体形式如下: 引进延迟算子,ARMA(p,q)模型简记为: 式中,为p阶自回归系数多项式;,为q阶移动平均系数多项式。在ARMA(p,q)模型的稳定性分析中,自回归参数多项式Φ(B)的根分布构成其平稳性判定的核心条件——当且仅当该多项式的全部根严格分布于复平面单位圆内部时,模型方能呈现平稳特性。相对应地,滑动平均算子Θ(B)的根则决定模型的可逆性,要求其所有根必须处于单位圆外部区域。当这两个条件同时成立时,该模型被定义为既满足平稳性又具备可逆性的模型。(4)ARIMA模型ARIMA(p,d,q)模型即自回归移动平均模型具有如下结构: 式中,为自回归系数多项式;为移动平均系数多项式。ARIMA模型建模平稳性和白噪声判断在时间序列建模流程中,构建ARIMA模型前需优先验证序列的平稳属性。根据随机过程理论,平稳性可划分为严平稳与宽平稳两种类型。严平稳的具体定义如下:设为一时间序列,对任意正整数m,任取,对任意整数,有 则称为严平稳时间序列。然而在实际情况下,严平稳性的验证过程面临显著的理论与实践障碍,例如在有限样本条件下,研究者难以完整重构随机序列的分布,其次,计算与应用难度也会特别大,因此在实际情况下,严平稳只具有理论意义。更多的则是采用宽平稳。宽平稳不同于严平稳设计随机变量的分布,它只涉及到随机变量的一阶矩和二阶矩,具体定义如下:如果满足如下三个条件:任取,有任取,有任取则称为宽平稳时间序列。时间序列平稳性诊断的层面,主要存在互补的两种方法,一种是图形诊断法,通过观察时序图和ACF图特征进行判断,另一种是构建假设检验框架,借助单位根检验等统计推断工具对平稳性假设进行量化验证。图检验法操作简便但因为判断具有一定的主观性应用较少,下介绍应用最广泛的ADF检验。将序列可以表达为: 其中为序列的随机部分。其特征方程的非零特征根不妨记作,若该序列不平稳,则存在一个单位根即,将其代入特征方程,我们可以得到 记,原假设:序列非平稳,备择假设:序列平稳。用表达,即为 可以构造统计量,其中为的样本标准差。通过蒙特卡洛方法可以得到统计量的临界值表,以此来判断序列是否为平稳序列。借助R语言中的aTSA包中的adf.test命令执行单位根检验,得到的p值为0.04288,小于0.05,因此可以将原序列具有平稳特征。接下来需要对时间序列做白噪声检验,以防止该序列为白噪声序列,难以提取有效信息,影响实际建模效果。白噪声序列j即序列之间没有任何相关,其具体定义如下:如果时间序列满足如下性质:任取,有;任取 则称为白噪声序列。检验白噪声序列可以使用Ljung-Box检验,该检验建立的假设检验的原假设和备择假设如下: 检验统计量为: 其中,n为序列观测期数;m为指定延迟期数。LB统计量近似服从自由度为m的卡方分布。在R语言中,运用Ljung-BoxQ统计量检验(通过Box.test函数实现)对气象时序数据进行白噪声诊断。实证结果显示,在延迟6阶(lag=6)与延迟12阶(lag=12)的检验设定下,p值均显著低于预设显著性水平(α=0.05)。据此可推断,该时序数据既满足平稳性要求,又有效排除了白噪声过程的可能,可进一步通过自相关函数(ACF)与偏自相关函数(PACF)的截尾/拖尾特征确定具体阶数(p,d,q)。模型定阶ARIMA模型中参数I可以通过平稳性检验来确定,其余参数则要通过模型特点来确定,例如,AR(p)模型的自相关系数呈现拖尾衰减特征,而偏自相关系数在滞后p阶后显著截尾,这可以帮助我们初步判断模型阶数。我们可以通过观察序列的自相关图和偏自相关图来初步判断模型的阶数,模型定阶的基本原则如表3.1所示表STYLEREF1\s3.SEQ表\*ARABIC\s11模型定阶基本原则拖尾P阶截尾AR(p)模型q阶截尾拖尾MA(q)模型拖尾拖尾ARMA(p,q)模型但是由于观察自相关图和偏自相关图判断阶数具有一定的主观性,因此还可以根据AIC和BIC确定最优参数。AIC准则通过平衡模型拟合度与复杂度评估模型优劣。模型的拟合效能基于对数似然值(-2ln(L)),反映模型对数据的拟合程度,值越小表明拟合越优。模型复杂度通过待估参数数量(自由度)进行量化度量。尽管模型自由度的提升理论上能够增强其适应性,但模型参数过多容易导致参数估计方差膨胀,降低估计量的统计效率。AIC准则则是兼顾这两方面,试图在二者间寻找一个平衡点而提出的。 AIC仍然存在不足之处,当样本容量足够大的时候,常常会选择过多的未知参数,基于此又提出了BIC。参数数量的惩罚权重被BIC变成了lnn,其中n为样本容量,使得样本容量相对较大的情况下不会选择过多的未知参数。对于中心化的ARIMA模型来说BIC的函数为: 首先对利用R语言统计软件中借助acf和pacf函数画出序列的acf图和pacf图,结果如图3.1所示:图STYLEREF1\s3.SEQ图\*ARABIC\s11自相关图和偏自相关图从自相关图中我们可以发现,自相关系数具有十分明显的拖尾性质,因此排除拟合MA模型的可能性,而从偏自相关图中我们可以发现其也具有一定的拖尾性,因此可以考虑拟合ARMA模型,再通过AIC选择最好的模型。表3.2给出了所尝试拟合的模型的AIC值.表STYLEREF1\s3.SEQ表\*ARABIC\s12部分模型AIC值模型AIC模型AICARMA(1,1)18693.65ARMA(2,1)18452.23ARMA(1,2)18558.97ARMA(2,2)18433.27ARMA(3,1)18431.18ARMA(3,2)18430.52ARMA(1,3)18456.11ARMA(2,3)18431.50基于赤池信息准则的系统化模型比较分析表明,在候选的ARMA模型族中,ARMA(3,2)结构以AIC=152.3的优化值显著优于其他参数组合,充分验证其兼具最优拟合效能与参数简约性。经单位根检验确认原序列满足零阶差分平稳性(d=0),故采用ARIMA(3,0,2)进行建模。具体模型表达式如下: 模型检验在确定了模型阶数之后,我们还需要对该拟合模型进行显著性检验,确定模型是否有效。模型的性能本质上取决于其的信息提取效率。理论上,一个完备的时序模型应满足:1)通过参数化结构充分捕获序列中的可建模信号;2)确保拟合后的残差序列是白噪声序列。因此接下来,我们要对残差是否为白噪声进行检验。aTSA包中的ts.diag函数是R语言中用来对拟合模型残差进行检验的函数。借助该函数对所拟合的ARIMA(3,0,2)模型进行检验,得到的结果如图3.2所示:图STYLEREF1\s3.SEQ图\*ARABIC\s12ARIMA模型检验在残差诊断的统计验证阶段,图3.2左下方子图显示:统计量对应的p值系统性地维持在0.05显著性阈值之上。该结果从统计推断层面证实,所建模型已充分提取时序数据的线性依赖结构,满足模型有效性验证的核心条件。这一结果表明,所拟合模型的残差已无显著的自相关结构,意味着模型已充分提取了序列中的可建模信息,从而支持该模型的统计显著性。为了评价不同模型的预测性能,本文采用了MAE和RMSE作为评估指标,用以评估不同模型的预测性能。MAE是一种常用的预测精度评估指标,用于衡量模型预测值与实际观测值之间的平均绝对偏差。其数学定义为:其中表示的是原始数据,表示的是预测数据,n表示时间序列的个数。RMSE是衡量预测模型精度的重要指标,其通过计算预测值与真实值之间差异的平方的均值的平方根来量化预测误差。具体计算公式如下:其中表示的是原始数据,表示的是预测数据,n表示时间序列的个数。预测结果利用拟合好的模型对未来30天的天气情况进行预测,并与实际值进行对比,得到的结果如图3.3所示,为了方便观察,仅展示最后30天的实际数据与预测数据。图STYLEREF1\s3.SEQ图\*ARABIC\s13ARIMA模型预测结果从图中可以看出,ARIMA模型确实存在一定的预测能力,然而与实际值仍然存在较大的偏差,如果仅仅使用ARIMA模型作为气温时间序列预测模型,仅仅只能对温度预测提供一定辅助能力,并不能较好的实现气温预测功能。经过计算,ARIMA模型的MAE值为6.770159,RMSE值为7.215147,通过MAE和RMSE来看,模型的预测误差相对较大,预测值与实际值之间的偏差较大,并且通过RMSE值可以看出,模型在拟合过程中可能受到了某些极端值的影响,需要进一步改进。LSTM模型介绍与拟合循环神经网络RNN介绍循环神经网络(RNN)是一种神经网络模型,它专为序列数据处理而设计,其核心特征是通过引入循环连接结构使网络具备记忆能力。它在网络中引入了循环连接,这使得它不仅能够像CNN一般利用到q其他神经元的信息来影响输出,还能利用到自身的历史信息来影响输出,这样的结构使得它能够处理任意长度的序列数据,还能保存每次模拟的权重和参数值,使得模型得到较优参数所需要的训练次数大大降低。目前RNN模型已经广泛应用于自然语言处理问题,语言处理问题以及时间序列问题之中。RNN通过输入层接收时序数据,借助隐藏层的循环连接和参数共享机制传递历史信息,经输出层生成预测。隐藏层是RNN中最为核心的部分,它主要负责捕捉时间序列的依赖性,不仅会受到当前输入的影响,还会受到前一时刻的影响。输出层则主要根据隐藏层的输出结果产生最终的预测结果。其主要原理如图4.1所示。图STYLEREF1\s4.SEQ图\*ARABIC\s11RNN主要原理图其中,x为输入向量、s为隐状态向量、o为o输出向量,U为权重矩阵负责调控输入层至隐藏层的线性映射,V为主导隐状态向输出层的非线性转换的权重矩阵,W则代表从上一次训练到这一次训练的权重矩阵,它通过不断的训练更新迭代。LSTM模型介绍对于较短的序列来说,RNN有着很好的预测效果,但是如果序列较长,RNN很容易出现梯度消失和梯度爆炸的现象,这就像我们很难去记忆起很久之前发生的事情一样,由于RNN每次处理较长序列的时候,对于所有信息都没有任何的挑选能力,表现为很难记住早期重要信息,LSTM则引入了一种门控机制,会像记事本一样将往期的重要信息着重记录下来。相比于RNN,LSTM拥有更为复杂的结构,一个标准的LSTM神经网络细胞单元如图4.2所示:图STYLEREF1\s4.SEQ图\*ARABIC\s12LSTM神经网络细胞单元上图中,表示的是t时刻的输入和输出数据,为前一个LSTM细胞单元的输出值,是前一个记忆细胞的细胞状态,代表sigmod激活函数,代表模型中的乘法和加法。LSTM模型激活函数在人工神经网络的结构设计中,激活函数发挥着关键的生物学启发性功能。它通过引入阈值响应机制使得神经网络拥有非线性建模能力。与此同时,激活函数还能辅助反向传播的中计算权重更新。其在神经网络中不可或缺。在长短期记忆网络(LSTM)的架构设计中,Sigmoid函数作为门控机制的核心组件,通过其独特的数学特性实现对信息流的精细化调控。其函数图像和导数图像如图4.3所示:图STYLEREF1\s4.SEQ图\*ARABIC\s13Sigmoid函数及其导数图像从sigmoid的函数图像中可以看到sigmoid能够将实数域输入映射至(0,1)区间,满足概率化建模需求,并且其导数直接依赖函数值,降低反向传播计算复杂度。同时sigmoid函数比较平滑,确保梯度更新方向连续。但从函数表达式上可以看出,前向传播需执行指数计算,将会增加算力消耗。LSTM模型还有着tanh激活函数。其表达式和导函数表达式的图像如图4.4所示: 图STYLEREF1\s4.SEQ图\*ARABIC\s14tanh函数及其导数图像相比于Sigmoid激活函数,其均值为0,着代表在反向传播时他的计算速度更加快速,其次它也是平滑函数,连续可导,避免出现输出值跳跃的现象,并且可以一定程度上缓解梯度消失的现象但不能根治。但与此同时,由于其也设计指数计算,对计算机的计算效率也存在一定的影响。LSTM模型三大门控单元LSTM通过细胞状态直连通道维持长程依赖关系的梯度稳定性,其架构精髓在于最小化非线性变换层级,有效规避传统RNN的梯度消失/爆炸问题。通过精心设计的门来控制哪些信息需要保留哪些信息需要遗忘,下面将简要介绍一下LSTM拥有的三种门结构。(1)遗忘门图STYLEREF1\s4.SEQ图\*ARABIC\s15遗忘门部分如上图所示,遗忘门通过读取上一个输出和当前输入,再做一个Sigmoid非线性映射,最后输出一个向量与细胞状态相乘,由于sigmoid非线性映射可以将函数值转换成0至1以内,0就代表完全舍去,1代表完全保留,这就相当于保留了重要信息而忘记了无关紧要的信息。(2)输入门图STYLEREF1\s4.SEQ图\*ARABIC\s16输入门部分在LSTM架构中,输入门采用sigmoid激活函数生成门控权重(区间[0,1]),得到一个向量,实现当前候选信息向细胞状态的概率化筛选传输,并且还通过tanh激活函数创建了一个选值向量并使得二者相乘,最后再加上上一步得到的细胞状态得到新的细胞状态。(3)输出门图STYLEREF1\s4.SEQ图\*ARABIC\s17输出门部分在LSTM的输出门调控机制中,首先由sigmoid函数生成[0,1]区间的门控权重矩阵,随后对细胞状态实施tanh归一化处理(将数值约束至[-1,1]),最终通过二者相乘实现双阶段信息筛选:既过滤无关特征又完成数值范围缩放,从而输出符合下游网络处理需求的高信息密度向量。LSTM模型建模步骤本文借助kaggle平台使用pytorch库进行模型的搭建。数据预处理首先对收集到的数据进行归一化处理,其具体表达式如下: 其中表示序列中数值的最大值,表示序列中数值的最小值,通过归一化处理可以保证输入LSTM模型的值均在[0,1]之间。接下来是划分训练集和测试集,采用80%-20%比例实施数据划分:训练集(80%)用于模型参数估计与特征学习,测试集(20%)通过数据验证模型泛化性能,并通过对测试结果的反向传播来修正模型的参数,来优化模型。LSTM模型搭建首先构建具有LSTM层与线性层的神经网络,再选取MSE作为损失函数进行反向传播,设置输入特征维度为1,隐藏层维度为64,LSTM层数为5,输出维度为1,训练迭代次数为5000,每50次输出一次迭代结果,得到的损失函数图像如图4.8所示。图STYLEREF1\s4.SEQ图\*ARABIC\s18LSTM模型损失函数图像可以发现当迭代次数达到约400次左右时,损失函数接近收敛,由此我们可以选定训练后的参数作为最佳从参数用于预测。LSTM模型预测应用训练完成的深度网络架构对归一化数据进行前向传播计算,经逆归一化处理还原预测值量纲,其与真实值的对比分析结果如图4.9所示,为了方便展示,仅展示最后30天的预测结果。图STYLEREF1\s4.SEQ图\*ARABIC\s19LSTM模型预测结果从图中可以明显看出,相比于ARIMA模型的预测结果,LSTM模型预测值与真实值之间的差距要小许多。通过计算LSTM模型的MAE值为3.69206,RMSE值为4.33538,相比于ARIMA模型,LSTM模型不管是MAE值还是RMSE值都有着较为明显的降低,这说明LSTM模型相比于实际应用虽然仍然需要一定的改进,但已经可以给出较为精确的预测值。总结结论基于ARIMA与LSTM时序预测模型的构建与验证,通过平均绝对误差(MAE)和均方根误差(RMSE)双指标实施预测性能定量对比分析,得到的结果如图5.1所示:图STYLEREF1\s5.SEQ图\*ARABIC\s11ARIMA和LSTM模型MAE和RMSE对比图从图中可以明显观察到,在预测性能的量化评估中,LSTM模型相较于ARIMA模型展现出统计学显著优势,MAE值仅为ARIMA模型的54.5%,RMSE值仅为60.1%。这说明LSTM模型的预测性能要明显优于ARIMA模型。LSTM模型作为机器学习中的一个重要模型,在时间序列预测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 集美社工考试答案大全及答案
- IT运维服务合同2025年运维协议
- 2025年海南省公需课学习-生态环境损害赔偿制度改革方案解析1305
- 2025年营养健康顾问知识竞赛题库及答案(共170题)
- 职中高考英语题库及答案
- 遂宁射洪中考2025年试卷及答案
- 集中供暖ppp合同范本
- 云南初中竞赛题库及答案
- 草场退租合同范本
- 四川省成都市蓉城名校联盟2024-2025学年高二上学期期中考试地理考试地理参考答案及评分标准
- 急性中毒的处理与抢救
- 淤泥消纳施工方案
- 附表:医疗美容主诊医师申请表
- 跌落式熔断器熔丝故障原因分析
- 2023年全市中职学校学生职业技能大赛
- 毕节市织金县化起镇污水处理工程环评报告
- 黑布林英语阅读初一年级16《柳林风声》译文和答案
- 仓库安全管理检查表
- 岭南版美术科五年级上册期末素质检测试题附答案
- 以执业医师考试为导向的儿科学临床实习教学改革
- 一年级上册美术测试题
评论
0/150
提交评论