下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XGBoost模型理论概述目录TOC\o"1-3"\h\u4309XGBoost模型理论概述 1299061.1XGBoost模型理论介绍 1260331.2单变量XGBoost模型建模预测 3313611.3多变量XGBoost模型建模预测 41.1XGBoost模型理论介绍极端梯度提升(ExtremeGradientBoosting,XGBoost)模型是一种分布式高效梯度提升算法,它是一种有监督学习算法,可解决分类、回归等机器学习问题,分为树模型和线性模型两种[REF_Ref30333\n\h63]。XGBoost树模型是以多棵CART决策树作为子模型,采用GradientTreeBoosting算法对多棵CART决策树进行集成学习,每棵决策树预测真实值与之前全部决策树预测值之和的残差,最终结果为全部决策树的预测值累加之和[REF_Ref26561\n\h24]。树模型的定义如下: 3-(9)其中,代表第棵决策树,样本特征通过决策树映射到该决策树的叶子节点上,该叶子节点上的分数为,样本在所有树的得分(预测值)之和即为其最终预测值。模型的目标函数包含损失函数和正则化项两部分: 3-(10)其中,,为叶子节点的个数。若正则项为0,则目标函数即为传统的GradientTreeBoosting。为找到一个最优的使得目标函数达到最优,首先将式3-(13)改写为: 3-(11)其中,为第次训练的样本的预测值,为第次训练的树模型。为对目标函数进行近似和简化处理,将目标函数进行泰勒展开,并去掉不对优化结果产生影响的常数项,得到: 3-(12)其中,,,分别为损失函数的一阶梯度和二阶梯度。将和定义为: 在树结构固定的条件下,可通过求解上述目标函数方程可得到叶子节点的最优和最优目标函数值为: 3-(13) 3-(14)目标函数的值越小,CART的结构越好。XGBoost应用贪婪算法遍历所有切分点,最终选择分裂后目标函数值最小的切分点[REF_Ref30760\n\h64]。一个节点分裂前后的两棵树的目标函数之差为式3-(18)中的,通过计算,选出所有特征及其切分点中的最大值,即可确定最优特征和最优切分点。 3-(15)XGBoost模型不仅可以实现树模型,还可以实现线性模型,XGBoost线性模型是以ElasticNet和并行坐标下降为基础的[REF_Ref26561\n\h24]。其目标函数同样由损失函数项和正则化项构成,其定义如下: 3-(16)其中,。、分别为L2、L1化正则项的系数,为L2正则项对偏置项的系数。同样,可对XGBoost线性模型公式作泰勒展开并去掉常数项,为简化问题,暂时将L1正则项移除,只考虑L2正则项,将目标函数式近似为: 3-(17)对公式求最值,可得到的最优解为: 3-(18)再重新将L1正则项引入,通过判断与0的大小关系得到最终的梯度。同理,求得偏置项的最终梯度为: 3-(19)1.2单变量XGBoost模型建模预测本小节基于Anaconda3中的scikitlearn库实现。与LSTM模型预测方法相似,使用XGBoost模型预测单变量时间序列问题也要根据过去的数据预测未来。对原始数据进行归一化处理后,同样地将移动窗口数设置为3,通过滑动窗口法将无监督问题转化为有监督数据。对于本文所用的1978-2018年人均GDP数据,经转化后共获得38条样本。全部数据集划分成前35年样本作为训练集,后3年即2016-2018年样本作为测试集,并对数据进行归一化处理。经试验比较,XGBoost模型中n_estimators参数为400,booster提升器为gblinear,learning_rate为0.2,objective为reg:squarederror,对训练集建模,得到1981-2018年数据的拟合情况如下:图1.11单变量XGBoost模型训练集拟合图如图1.11所示,模型在部分时段拟合存在一定误差,但整体拟合趋势较好。用测试集对训练集拟合的模型进行验证,并对得到的预测结果进行反归一化处理,结果见下表:表1.6测试集验证结果真实值预测值绝对误差相对误差平均相对误差2016年5413957651.173514.1686.49%2.69%2017年6001460926.45912.44531.52%2018年6600666041.3237.3203120.06%如表1.6所示,XGBoost模型的预测效果较好,相比于LSTM模型,XGBoost模型的平均相对误差提高了约4.7%,同时也优于传统的ARIMA模型。1.3多变量XGBoost模型建模预测我们在单变量XGBoost模型的基础上,将宏观经济指标引入XGBoost模型,即XGBoost预测模型共有8个输入变量。考虑到当期的宏观经济指标以及滞后期的人均GDP对当期的人均GDP解释力较强,因此引入了t时刻的影响因素指标和t-1时刻的人均GDP指标作为输入特征。经试验比较,设置多变量的XGBoost参数分别为:n_estimators=400,learningrate=0.04,booster=gblinear,objective=reg:squarederror,其余为默认参数,对预测值进行反归一化后,得到模型的拟合情况如下:图1.12多变量XGBoost模型训练集拟合图利用建立的多变量XGBoost模型对测试集进行验证,得到结果如表1.7。相比单变量XGBoost模型,平均相对误差降低近1%,此外,与多变量LSTM模型相比,该模型的预测精度更高。表1.7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢筋绑扎技术质量交底指导方案
- 2026天津市和平区面向甘肃白银靖远籍招聘事业单位人员农业考试模拟试题及答案解析
- 2026重庆市永川区来苏镇公益性岗位招聘1人农业笔试备考题库及答案解析
- 2026安徽阜阳阜南骏臣高级中学教师招聘农业考试备考试题及答案解析
- 攀枝花市仁和区2026年从“三支一扶”计划志愿者中公开考核招聘乡镇事业单位工作人员(2人)农业笔试参考题库及答案解析
- 四川职业技术学院2026年公开考核招聘高层次人才(20人)农业考试模拟试题及答案解析
- 2026江苏无锡市滨湖城市建设发展(集团)有限公司招聘1人农业笔试模拟试题及答案解析
- 2026年安徽中医药大学资产经营有限公司派遣人员(中药调剂员煎药员)招聘农业笔试模拟试题及答案解析
- 2026四川内江市威远县面向全县考调城区学校教师69人农业考试备考试题及答案解析
- 2026云南红河数据产业集团有限公司招聘农业笔试备考题库及答案解析
- 疤痕培训课件
- 河北省保定市六校联考2024-2025学年高二下学期6月期末化学试卷
- 伊利公司库房管理制度
- 第九讲:信息与大数据伦理问题-工程伦理
- 船舶维修服务的组织结构及岗位职责
- 2025新疆农业大学辅导员考试试题及答案
- 建筑与市政工程施工现场临时用电安全技术标准JGJT46-2024
- (高清版)DG∕TJ 08-15-2020 绿地设计标准 附条文说明
- 消防监督检查一般流程和技术要点
- 初中学业水平考试美术试题及参考答案
- 百家讲坛2001-2016年节目播出表-总目录
评论
0/150
提交评论