版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ARIMA-LSTMs-XGBoosts模型理论概述目录TOC\o"1-3"\h\u16996ARIMA-LSTMs-XGBoosts模型理论概述 1289051.1相关理论介绍 1155811.2组合模型构建思路 464991.3组合模型建模预测 41.1相关理论介绍1.支持向量机回归针对小样本问题,Vapnik等根据统计学习理论提出了支持向量机(SupportVectorMachin,SVM)模型。虽然支持向量机模型常用于分类预测问题,但是通过引入损失函数的概念支持向量机也可以拓展到函数回归问题上,形成支持向量机回归(SupportVectorRegression,SVR)模型[REF_Ref32165\n\h65]。支持向量回归的基本原理为将输入样本空间通过适当的核函数映射到高维特征空间,然后在此新空间中构造一个回归估计函数[REF_Ref32328\n\h66]。SVR函数的具体形式为: 3-(20)其中,代表预测值,为映射函数,、为参数。定义SVR模型的不敏感损失函数为: 3-(21)其中,为不敏感系数,可以对模型的拟合精度进行调节。那么,为估计参数和,要使最小化SVR的正则风险函数,即: 3-(22)式中,为正则化常数。考虑到允许误差拟合存在的情况,引入松弛变量和,则问题变为: 3-(23)再利用对偶原理,将优化问题转化为: 3-(24)式中,,是拉格朗日乘子,是核函数。最终的函数可表示成: 3-(25)在SVR函数模型中,正则化常数和不敏感损失函数是SVR模型的主要参数,主要用于确定和控制模型的复杂性,它们的准确选择可以提高模型的性能[REF_Ref32400\n\h67]。此外核函数的选择直接影响SVR模型的性能,因此为了适应不同的数据类型应搜索不同的内核函数并适当调整其参数,常用核函数的具体函数式为[REF_Ref32423\n\h68]:(1)Linear (2)Polynomial (3)RadioBasisFunction 2.Stacking集成学习集成学习(Ensemblelearning)的本质就是针对同一问题,通过采用某种策略整合数个有差异的个体学习器学习得到的结果,从而获得一个优于单个个体学习器预测性能的集成模型[REF_Ref31525\n\h69]。集成学习模型可以分为同质集成和异质集成。典型的同质集成模型包括Bagging和Boosting等,Stacking集成学习方法则属于异质集成模型[REF_Ref32165\n\h65]。随着近年来集成学习算法的研究愈发深入,Stacking集成学习方法开始被广泛使用。与Bagging和Boosting算法不同的是,Stacking是对不同的学习模型进行组合,并且采用了元学习模型代替了投票法。元学习模型的输入即个体学习器,也就是层模型的输出,元学习模型的输入特征数即所使用的层模型的个数[REF_Ref31525\r\h69]。Stacking算法其实就是通过建立多个层模型得到不同模型的预测结果,然后将其作为输入信息输入到下一层的学习器(元学习模型)中,使得该层的学习器能够对上一层学习器的成果充分学习,进而得到更高的预测精度,其流程图如下图1.13所示。需要注意的是,Stacking在对个体学习器进行选择时,应尽量选择预测效果好且异质性较强的模型,这样通过元学习模型的集成学习才容易取得更好的预测成果。图1.13集成学习流程图1.贝叶斯优化算法在模型拟合时,选择合适的参数以实现高精度并非总是容易的,既可能出现拟合过度,也可能出现拟合不足,不同的参数设置可能会导致模型性能上的显著差异。贝叶斯优化算法正是为了寻找最优的参数组合而提出的,近年来,它在机器学习超参数调优方面得到了广泛的应用[REF_Ref31720\n\h70]。贝叶斯优化框架主要包含两部分:第一个组成部分是一个概率代理模型,它由一个先验分布和一个观察模型组成,先验分布是对未知的目标函数状态的假设,观察模型描述了数据的生成机制。第二个组成部分是通过已知数据的后验分布构成的采集函数,以采集函数最大化最为下一“最佳”评估点的选择标准。在观察目标每次的搜索输出之后,先验函数被更新以在目标函数的空间上产生更具信息量的后验分布。与网格搜索和随机搜索优化算法相比,贝叶斯优化算法能找到最优的超参数集,使得全局最优具有更高的搜索效率[REF_Ref32459\n\h71],对非凸问题进行调参的结果仍然是稳健的;同时,它能在开采和勘探之间找到一个平衡点来避免算法陷入局部最优,使得模型的性能达到全局最优[REF_Ref32498\n\h72]。基于python软件的hyperopt模块实现贝叶斯优化算法主要包含以下四个部分:(1)定义目标函数。目标函数即为我们想要使其达到最小化的对象,一般使用当前参数下的数据集的损失函数。(2)设定参数搜索空间。在目标函数确定后,应对参数的搜索范围和分布进行设定,使算法在该区间下寻找是定义的目标函数达到最小的参数最优组合。(3)优化算法的选择。优化算法的作用为在构造替代函数后选择下一组超参数组合,基于目标函数进行评估,主要包括:随机搜索,模拟退火以及TPE算法等。(4)结果的历史数据。在此部分中,能够记录并存储历史选择的超参数组合和所定义的目标函数值,也就是我们想要最小化的函数值。1.2组合模型构建思路由第三章所构建的ARIMA模型、多变量的XGBoost模型以及多变量的LSTM模型的预测结果可以发现,ARIMA预测值对于单变量时间序列拟合较好且预测值偏高,加入影响因素进行预测的LSTM模型和XGBoost模型预测精度提升但相对真实值偏低,且影响因素作为经济指标具有时间性,无法获取未来值预测未来的人均GDP,故考虑构建一种组合模型在提升精度的同时能够实现样本外的人均GDP预测。具体思路为:使用ARIMA模型分别预测各影响因素,将预测值作为影响因素建立多变量的LSTM模型和多变量XGBoost模型,与ARIMA模型构成三个个体学习器,通过Stacking集成学习建立ARIMA-LSTMs-XGBoosts组合模型,即将三者的预测值输入到元学习模型中,输出最终的预测值,并采用贝叶斯优化法对模型调参获得最终的组合模型。1.3组合模型建模预测组合模型的建模预测步骤如下:(1)首先,由于ARIMA模型对于单变量的拟合程度较高并可以进行样本外预测得到未来期的预测值,故根据第三章ARIMA模型的建模步骤,对各指标分别建模,得到各影响因素的预测值。(2)以第三章对单变量时间序列人均GDP所建立的ARIMA模型作为个体学习器1;(3)以ARIMA模型对各影响因素的预测值作为输入特征,建立多变量的LSTM模型。经试验比较,设置滑动窗口数为1,隐藏层神经元个数为2,使用MSE作为损失函数,tanh作为激活函数,以Adam算法作为优化器,banchsize为1,迭代次数为80次,构建了单层的多变量LSTM模型作为个体学习器2;(4)同样,以ARIMA模型对各影响因素的预测值以及滞后一期的人均GDP预测值作为XGBoost模型的输入部分,经试验,objective参数选择reg:squarederror,参数n_estimators为440,learning_rate为0.03,booster设置为gbliner,建立了多变量的XGBoost模型作为个体学习器3;(5)最后,将适合小样本的非线性拟合的SVR模型作为元学习模型,以个体学习器1,2,3所得到的预测值作为输入,输出人均GDP。定义训练集拟合的均方误差为目标函数,将SVR模型的参数C的范围设置为(0,100),可选核函数包括linear,rbf和poly,参数gamma的取值范围为(0.001,0.1),优化算法选择TPE算法,迭代次数为100次,使用贝叶斯优化法对SVR模型进行调参,得到相对最佳的参数组合为:C=1.0010,gamma=0.0136,kernel=linear,训练集的拟合情况如下:图1.14训练集拟合图如图1.14所示,组合模型的预测值几乎与真实的人均GDP完美吻合,进而使用该模型对测试集验证,得到结果如表1.8,ARIMA-LSTMs-XGBoosts组合模型的预测精度相对各单一模型较高,平均相对误差仅为0.42%,且各年份的预测相对误差均在1%以内。表1.8模型结果比较模型年份绝对误差相对误差平均相对误差ARIMA20161064.961.97%4.48%20172379.11.96%20184960.277.51%单变量LSTM2016-1351.212.49%7.38%2017-4729.077.88%2018-7775.9611.78%多变量LSTM2016-341.120.63%5.65%2017-3666.686.11%2018-6754.6810.23%单变量XGBoost
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机械密封件制造工岗前安全宣传考核试卷含答案
- 孤残儿童护理员QC管理能力考核试卷含答案
- 输蔗破碎工安全宣教评优考核试卷含答案
- 过磷酸钙生产工操作水平竞赛考核试卷含答案
- 药物制剂工岗前工作标准化考核试卷含答案
- 某钢铁企业炼铁工艺操作准则
- 皮革加工卫生管理细则
- 沈阳市四所中学视角下当代中学生人际交往的现状、问题与突破路径研究
- 汽车法兰零件精密冲裁工艺:原理、技术与实践应用
- 2026年安全文化建设考试真题及答案
- 镇江市2026烟草专卖局招聘考试-行测-专业知识题库(含答案)
- 2026年上海对外经贸大学辅导员招聘笔试模拟试题及答案解析
- 南通市医疗机构主要运行指标定期公布工作实施方案
- 四川三江招商集团有限公司2026年3月公开招聘工作人员考试参考试题及答案解析
- 【励志教育】主题班会:《张雪机车夺冠》从山村少年到世界冠军的缔造者【课件】
- AI赋能地理教学的应用实践研究-初中-地理-论文
- 浙江省杭州山海联盟2024-2025学年度七年级英语下册期中试题卷(含答案)
- 2026山东青岛海上综合试验场有限公司招聘38人备考题库含完整答案详解(历年真题)
- 湖北省武汉市2026高三下学期3月调研考试化学试题 含答案
- (新教材)2026年部编人教版三年级下册语文 语文园地三 课件
- 护理团队建设与沟通技巧
评论
0/150
提交评论