【《PM2.5反演模型构建与评估分析案例》6700字】_第1页
【《PM2.5反演模型构建与评估分析案例》6700字】_第2页
【《PM2.5反演模型构建与评估分析案例》6700字】_第3页
【《PM2.5反演模型构建与评估分析案例》6700字】_第4页
【《PM2.5反演模型构建与评估分析案例》6700字】_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PM2.5反演模型构建与评估分析案例目录TOC\o"1-3"\h\u10059PM2.5反演模型构建与评估分析案例 1173511.1反演数据相关性分析 166371.2高湿订正影响研究 2292161.3PM2.5反演模型构建与对比 33231.3.1随机森林模型 4219061.3.2深度神经网络模型 5145121.3.3结合空间距离与注意力机制的神经网络模型 7326811.3.4模型反演精度评估与对比 81.1反演数据相关性分析PM2.5污染物的积累、扩散、输送以及稀释等现象与气象要素、地形要素息息相关。各种气象要素决定着当地的大气传输条件,从而影响PM2.5的扩散、输送和稀释。地形要素与大气环境条件相结合,则决定着PM2.5污染物在当地积累的难易程度。因此在进行PM2.5反演模型构建时,需要充分考虑各类反演要素对PM2.5的影响。本文选取的反演要素有气溶胶光学厚度(AOD)、气温(T)、湿度(RH)、气压(SP)、距地表10米高度处的风的向东分量(U10)、距地表10米高度处的风的向北分量(V10)、大气边界层高度(PBLH)以及地表高程数据(DEM),同时考虑到地表植被景观覆盖度对PM2.5浓度空间分布存在的影响以及PM2.5日均浓度变化具有一定的时间规律,还选取了地表高植被覆盖指数(HVC)、地表低植被覆盖指数(LVC)两种植被覆盖要素数据与数据所处月份(MONTH)、数据所处一年内天数(DAY)两种时间数据,共计12种反演要素。在构建反演模型前,探究各季节这些反演数据与PM2.5之间的相关性关系,验证这些要素与PM2.5之间的密切程度。下表展示了不同季节各要素与PM2.5之间的相关系数。表4-1反演要素与PM2.5的相关系数季节AODTRHSPU10V10PBLHHVCLVCMONTHDAYDEM春季0.59-0.130.420.12-0.21-0.025-0.48-0.0810.081-0.13-0.14-0.17夏季0.57-0.280.160.17-0.094-0.092-0.12-0.120.13-0.094-0.1-0.17秋季0.57-0.140.460.13-0.2-0.12-0.48-0.120.130.220.22-0.14冬季0.54-0.290.570.1-0.36-0.3-0.5-0.170.17-0.054-0.057-0.16由上表的相关系数可以发现,各种反演要素对PM2.5的影响存在差异,相同反演要素在不同季节对PM2.5的影响也会有所变化。气溶胶AOD、相对湿度RH与边界层高度PBLH的相关性最高,说明三者是PM2.5浓度变化的主要影响因子。气溶胶AOD、相对湿度RH、地表气压SP与PM2.5浓度一直呈现正相关,气溶胶AOD是反映空气污染严重程度的重要指标,其值越高则大气污染越严重,相应的PM2.5浓度也越高;相对湿度RH越高,具有吸湿特性的气溶胶粒子则越吸湿增长,导致了PM2.5浓度的增加;地表气压SP与PM2.5浓度的正相关性则是因为当某地被高气压控制时,气流会向周围地区辐射,在中心地区会形成下沉气流,使得污染物不易扩散,PM2.5浓度持续增加。气温T、大气边界层高度PBLH、高程DEM与PM2.5浓度呈现负相关关系,气温T通过两种方式影响PM2.5浓度,一是影响近地表的对流强度,温度越高,对流越强,从而影响污染物的对流与扩散,使得PM2.5向上运输,近地表的PM2.5浓度下降,二是影响燃料使用量,气温较低的情况下,人类社会供暖需求变高,燃料使用增加,从而使得污染排放增多;在无风或者风对污染物的输送作用不明显时,污染物会积聚在边界层内,大气边界层高度PBLH决定了污染物在垂直方向上可以扩散的空间,大气边界层高度越高,近地表的PM2.5越容易稀释;高程则影响着污染物扩散的难易程度。10米风的东向风量U10、10米风的北向风量V10与PM2.5浓度均为负相关,二者对PM2.5浓度的影响则是由于京津冀地区的西面、北面主要为山地,东面和南面主要为平原,西风和北风有助于PM2.5的稀释扩散。高植被覆盖HVC、低植被覆盖LVC与PM2.5浓度一个负相关,一个正相关,这和植被对PM2.5的吸收、吸附和转移作用有。PM2.5浓度与月份、天数在秋季为正相关,其他季节为负相关,这种差异表明了并不是简单的线性关系。上述的相关性分析,说明了各反演要素对PM2.5浓度有一定影响,且不同季节表现不同,所以有必要进行分季节建模研究。1.2高湿订正影响研究由第二章的高湿订正原理可以知晓,AOD与PM2.5之间的物理意义不相同,二者之间的相关性容易受到气溶胶吸湿特性与垂直分布特性的影响,高湿订正便是在这一背景下被提出的,旨在减小气溶胶物理特性对AOD-PM2.5相关性的影响。考虑到湿度订正有正向AOD订正与反向PM2.5订正两种形式,同时相对湿度、大气边界层高度与PM2.5浓度的相关性有季节性差异,所以本文对高度订正、湿度订正以及它们的组合订正进行了实验研究,并分季节对比不同订正形式下多元线性回归的反演效果,然后从中选取出较优的一种订正形式用于后续的反演模型搭建。所进行的较优订正形式研究,按照高度订正与湿度订正的组合可以分为以下几组:未经订正组(E0)、AOD经高度订正,PM2.5经湿度订正组(E1)、AOD经高度订正组(E2)、AOD经湿度订正(E3)、AOD经高度订正与湿度订正(E4)。实验结果如下表所示。表4-2各季节不同订正形式多元线性回归模型拟合优度季节E0E1E2E3E4春季0.52610.55290.55180.52760.5520夏季0.40150.36300.36210.42830.3624秋季0.55180.60740.60420.55710.6041冬季0.51540.57430.57260.51970.5723观察上表的拟合优度,可以发现不同的订正组合对模型反演效果确实存在影响,且在不同季节的影响程度差异较大。春季、秋季和冬季只要进行了数据订正,不管何种组合形式,都能提升模型的反演效果。而四种订正形式中,仅AOD进行湿度订正的形式(E3)对模型反演效果的提升最小,其余三种订正形式的提升程度比较接近,其中,AOD进行高度订正,PM2.5进行湿度订正的形式(E1)以微弱的优势成为几种订正形式在春秋冬三季中的最优订正方案。夏季的实验结果则与春秋冬三季的情况截然不同,四种订正形式中只有AOD进行湿度订正的形式(E3)才能提升模型的反演效果,其余三种组合在数据订正后反而使得模型的反演效果下降。同时与其他三个季节的最优订正形式进行对比,可以发现夏季的E3形式对模型反演效果的提升程度明显不如E1形式对春秋冬三季的提升。经过上述实验,我们得到了研究区域各个季节较优的订正形式,春秋冬三季均是对AOD进行高度订正,PM2.5进行湿度订正的形式,夏季则是只对AOD进行湿度订正的形式。1.3PM2.5反演模型构建与对比由于本文所提出的PM2.5反演模型需要使用研究区域各格网点至93个地面空气质量监测站点的距离数据,若是在划分训练数据集与测试数据集时,只是单纯的打乱数据然后随机按比例选取,这样无法保证搭建的模型具有较好的鲁棒性与可靠性,因此数据的随机划分应该考虑地面监测站点的空间位置,使训练数据集与测试数据集在空间位置上能较好的覆盖整个研究地区,从而减小样本选取差异引起的估算误差。考虑地面站点空间位置后,我们从93个站点中选取了64个作为训练站点,剩余29个作为测试站点,其空间分布如下图所示。图4-1京津冀地区空气质量监测站点类型划分1.3.1随机森林模型随机森林模型是机器学习算法中高度灵活,极为常用的一种算法,其是基于集成学习中的bagging框架思想将多棵决策树集成的一种模型,基本单元是决策树。本文是基于python语言中被广泛使用的第三方机器学习库sklearn搭建的随机森林模型。根据sklearn的官方文档,随机森林模型在应用于回归问题时,参数总共有19个,其中对模型的评估性能影响较大的参数主要有n_estimators(决策子树的数量)、bootstrap(是否对样本集有放回的抽样)、max_depth(决策树的最大生长深度)、max_features(决策树的最大选择特征数)、min_samples_leaf(叶子节点含有的最少样本数量)、min_samples_split(节点可分的最小样本数量)。本文会在保持其他参数不变的前提下,对以上六种参数进行调整优化。随机森林模型可以看作众多决策树模型嵌入bagging框架中,因此整个模型的参数调整优化将按照这样的思路:首先对随机森林的外层bagging框架进行参数优化,在确定了框架参数后再对模型内部的决策树参数进行调整。本文优化调整的六种参数中,n_estimators与bootstrap属于bagging框架参数,max_depth、max_features、min_samples_leaf和min_samples_split属于决策树参数。n_estimators又是对模型影响程度最大的参数,过低会导致模型不准确,而若是过高则会增加模型复杂度,影响效率,所以先对其进行调整,优化完毕后调整bootstrap,再调整4个决策树参数。参数的调整范围与最终的优化结果如下表所示。表4-3随机森林模型主要参数的调整范围及优化结果参数含义范围最优值n_estimators决策子树的数量[1,300]25bootstrap是否对样本集有放回的抽样[True,False]Truemax_depth决策树的最大生长深度[1,50]22max_features决策树的最大选择特征数[1,12]6min_samples_leaf叶子节点含有的最少样本数量[1,20]3min_samples_split节点可分的最小样本数量[1,20]81.3.2深度神经网络模型在回归任务中,输入变量越多,对模型拟合能力的要求也越高,而深度神经网络(DNN)的表达能力广泛,能以任意精度逼近任意复杂度的非线性函数。而现代计算机具有十分强大的算力,DNN模型复杂的特征选择、训练学习过程均可以交给计算机完成,这也使得DNN模型能够拥有很好的智能性与复杂性,可以更好地描述现实世界中的线性或非线性关系。本文所使用的DNN模型是基于PyTorch深度学习框架搭建的,模型结构如图所示。本模型可分为输入层(InputLayer)、隐藏层(HiddenLayer)与输出层(OutputLayer),输入层的输入数据是已完成高湿订正的12维向量(包含了气溶胶光学厚度、气温、相对湿度、气压以及大气边界层高度等12个反演要素),隐藏层共有4个,各层的神经元个数分别设置为1000、700、400、100,最后由输出层输出各像素的PM2.5浓度反演值。图4-2深度神经网络模型结构除了网络层数与各层神经元个数,一个神经网络的构建还需要确定学习率、批处理大小、迭代次数、激活函数、损失函数以及优化器。常用的激活函数有Sigmoid函数、Tanh函数以及ReLU函数。Sigmoid函数与Tanh函数的输出值域分别为(0,1)与(-1,1),而PM2.5浓度不存在负值,并且浓度数值普遍达到了数十,因此不适合使用Sigmoid函数与Tanh函数进行运算。ReLU函数的图像如图所示,其值域为[0,∞),更加契合大气污染的浓度数值特点,所以DNN模型隐藏层的激活函数全部设置为ReLU函数。在损失函数的选择上,由于本模型最后得到的是一个具体PM2.5浓度估计值,并不是分类任务中输出的类别概率,所以DNN模型的损失函数设置为回归任务中常用的均方误差函数。优化器对整个模型的训练速度和训练效果影响很大,目前常用的优化器可以划分为两大类,第一类的学习率不会受到梯度影响,在优化过程中全程保持不变或者按照一定的计划随时间变化,这类优化器常见的有SGD(随机梯度下降)、Momentum-SGD(带动量的随机梯度下降)、Nesterov-SGD(使用Nesterov动量的随机梯度下降),这一类可以称为SGD系列优化器;第二类的学习率会随着梯度自适应改变,并尽可能去减小乃至消除设置的全局学习率的影响,这类优化器常见的有Adagrad、Adadelta、RMSprop、Adam、Adamax等,通常被称为自适应学习率系列。在上述优化器中,Adamax不仅较为成熟、性能相对较优、迭代效率更高,且与均方误差损失函数相契合,所以DNN模型选用此优化器。同时,为了防止模型出现过拟合的情况,DNN模型中还使用了正则化中的Dropout技术,在模型的一轮训练中按照概率P随机“弃用”部分神经元,待这轮训练结束,未被“弃用”的神经元得到更新后,重新“激活”这些神经元,然后在新一轮训练中重复这一过程。本研究的DNN模型中,Dropout的概率P设置为0.5。在确定了激活函数、损失函数与优化器等细节后,通过多次的实验调整参数,最终确定了模型的初始学习率、批处理大小以及迭代次数,模型最终的架构与参数如下表所示。表4-4模型架构与参数设置内容设置情况隐藏层数量4各隐藏层神经元个数1000、700、400、100激活函数ReLU损失函数MSE优化器Adamax正则化Dropout(P=0.5)初始学习率0.001批处理大小256迭代次数10001.3.3结合空间距离与注意力机制的神经网络模型PM2.5是地球表面的客观存在,在大气输送的作用下,不同地区的PM2.5并不完全孤立,反而存在一定的空间相关性。普通DNN模型存在着无法顾及PM2.5的空间相关性与PM2.5反演精度仍具有提升空间的问题。鉴于以上两点,本文对普通DNN模型做出了一定的修改,提出了结合空间距离与注意力机制的神经网络(SDANN)模型,该模型在DNN模型的基础上加入了空间距离神经网络模块、注意力机制模块以及高湿订正模块,目的是通过空间距离模块将研究区域内各点之间的距离信息融入到网络模型的训练学习中,以及通过注意力机制模块提高模型对输入数据中重要特征的关注度,从而最终提升PM2.5浓度的反演效果,模型的具体结构如下图所示。图4-3结合空间距离与注意力机制的神经网络模型结构图其中,空间距离模块含有三个隐藏层,每层的神经元个数分别为64、32、12,注意力机制模块是六个并列的隐藏层,神经元个数均为12。在激活函数的选择上,这两个模块与反演模块有所不同。空间距离模块选择了在ReLU函数的基础上扩充了数值范围的PReLU函数作为激活函数,以减少训练学习过程中神经元不被激活的情况,保证模块输出的空间权重的质量。注意力机制模块得到的是对输入特征各维度的关注程度,数值范围是(0,1),ReLU函数不满足这一要求,因此从Softmax函数与Sigmoid函数中选择激活函数。为了避免注意力层学习关键特征不到位,对网络造成负面影响,降低网络反演效果的情况出现,本模型注意力机制模块的激活函数设置为输出更加均衡的Sigmoid函数。这两个模块的具体设置如下表所示。表4-5空间距离模块与注意力机制模块具体设置内容空间距离模块设置注意力机制模块设置隐藏层数量36各隐藏层神经元个数64、32、1212激活函数PReLUSigmoid正则化Dropout(P=0.8)无1.3.4模型反演精度评估与对比本文先使用训练集训练各个模型,完成模型的训练后,评估并对比各模型在测试集上的表现,从而选出最优的反演模型。评估所用的指标包含了决定系数(R2)、平均绝对误差(MAE)以及均方根误差(RMSE),三者的公式如下: (公式2-19) (公式2-20) (公式2-21)其中,为模型反演得到的PM2.5浓度,为真实的PM2.5浓度,为PM2.5浓度的均值。各个模型分季节训练完成后,在测试集上的表现如下所示,表4-6记录了各个季节三个模型的评估指标具体数值,图4-4与图4-5则分别是模型的R2对比图和MAE/RMSE对比图。由下表的评估指标可以发现,三个模型在四季的R2均能达到0.7以上,最高可达0.941,MAE基本保持在10以下,大多数的RMSE处在9至16的范围内,说明所用的三个模型均具有较好的泛化性,能较好的解决PM2.5浓度反演问题。各季节的反演效果差异较大,其中春季、秋季和冬季,模型的R2均在0.85以上,而夏季三个模型的R2均下降到了0.8之下,表明相比其他季节,夏季的情况更为复杂,模型的解释能力略有不足,需要进一步优化模型或者考虑PM2.5浓度受其他因素影响的情况。同时可以发现,所有季节普通DNN模型与SDANN模型的反演效果均要明显好于随机森林模型,二者的R2均有所提升,同时MAE与RMSE有较大程度的降低,这说明在PM2.5浓度反演这类非线性问题上,神经网络模型相较于随机森林模型有更强的拟合求解能力。而对比普通DNN模型与SDANN模型的反演效果,可以发现,空间距离信息与注意力机制的引入,对模型在四个季节的反演精度均有提升效果(春季R2上升了0.023,MAE下降了0.63,RMSE下降了1.151;夏季R2上升了0.026,MAE下降了0.302,RMSE下降了0.536;秋季R2上升了0.015,MAE下降了0.621,RMSE下降了1.234;冬季R2上升了0.006,MAE下降了0.46,RMSE下降了0.777),证明了本文所提出方法的有效性。表4-6各季节三种模型反演效果对比季节模型R2MAERMSE春季随机森林模型0.8677.79911.420普通DNN模型0.8926.83610.276SDANN模型0.9156.2069.125夏季随机森林模型0.7077.79010.772普通DNN模型0.7546.9609.872SDANN模型0.7806.6589.336表4-6(续表)季节模型R2MAERMSE秋季随机森林模型0.8649.89415.694普通DNN模型0.9267.57411.583SDANN模型0.9416.95310.349冬季随机森林模型0.87712.32221.684普通DNN模型0.9349.32815.932SDANN模型0.9408.86815.155图4-4各模型在测试集上的R2对比图图4-5各模型在测试集上的MAE与RMSE对比图为了更加直观的比较模型的拟合与预测能力,分析预测值的实际分布情况,本文还制作了各个季节三个模型在测试集上的预测值和观测值的散点图,具体展示如下。a1春季随机森林模型散点图b1春季普通DNN模型散点图c1春季SDANN模型散点图a2夏季随机森林模型散点图b2夏季普通DNN模型散点图c2夏季SDANN模型散点图a3秋季随机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论