北京大学-侯俊雄-1-基于Spark计算框架与随机森林的PM2 5浓度实时预报系统_第1页
北京大学-侯俊雄-1-基于Spark计算框架与随机森林的PM2 5浓度实时预报系统_第2页
北京大学-侯俊雄-1-基于Spark计算框架与随机森林的PM2 5浓度实时预报系统_第3页
北京大学-侯俊雄-1-基于Spark计算框架与随机森林的PM2 5浓度实时预报系统_第4页
北京大学-侯俊雄-1-基于Spark计算框架与随机森林的PM2 5浓度实时预报系统_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主题:1 .基于火花计算框架和随机林计算框架和随机林模型模型的数字城市和智能城市Spark 2.5浓度实时预测系统浓度实时预测系统许俊雄、李奇、朱亚杰、彭肖、毛成北京大学地球和空间科学大学遥感和地理信息系统研究所,北京,100871,Jx.hou summary实验证明,该模型可以更准确地实时预测0-72小时PM2.5浓度,使用火花分裂计算框架有效地减少算法所需的时间,因此,本文在该模型和火花分布式计算框架的基础上构建了PM2.5实时预测系统。关键字关键字:PM2.5实时预测;分布式计算随机森林;空气质量0介绍2013年以来我国大部分地区经常发生大规模空气污染事件大气污染问题已经成为我国大部分城市的主要城市问题之一空气质量指数Air质量指数(AQI)通常用于表征空气质量水平,其值取决于大气中六种污染物的浓度值:PM2.5、PM10、SO2、NO2、CO、O3。在这些大气污染物中,气溶胶粒子(即PM2.5)对人体健康的危害很大,特别是空气动力学直径不超过2.5m的气溶胶粒子1。因为对气溶胶粒子,特别是PM2.5的监视预报是科学的,也是现实的。传统的大气污染物预测方法主要分为两类:基于理化机制模型的预测方法和基于机器学习的预测方法,这两类算法在学术界和应用领域有广泛的研究和应用。基于物理化学模型的预测方法是模拟大气污染物的物理化学过程,实际预测未来大气污染状况2,因此,利用该模型预测空气质量时,需要对大气污染物的物理化学转化机制有全面的了解,在计算过程中制定详细的表面污染物排放清单,现阶段很难获得国内详细的表面排放污染物清单。基于机器学习的事前报告方法在统计学原理的基础上,在空气污染物浓度、气象因素及相关历史资料中寻找其相互变异方法,因此,该模型不需要对污染物的理化过程建模,大大简化了大气污染物预测过程,并通过实验证明了良好的预测效果。本论文的主要研究对象是大气污染物PM2.5,其构成成分复杂变化,其形成、转换和沉淀过程复杂,给PM2.5浓度预报带来了很多困难。同时大气环境是典型的复杂的庞大系统,很难完全掌握系统的整体状态。另外,大气环境的状态转换过程具有明显的不确定性,因为大气中包含的成分的物理化学过程随大气状态而变化。因此,使用机构模型建模PM2.5有一些限制3。随着大数据时代的到来,机器学习算法受到了广泛的关注。因为各行各业的海洋数据为机器学习方法提供了充分的学习样本,极大地促进了机器学习理论和方法的普及。近年来,随着大气污染问题日益严重,我国各城市基本上建立了一定数量的大气监测站,使城市的大气污染状况能够全天候检测。此外,分布在全国的气象观测站提供了全天候全国范围的气象参数,可以准确预测未来1周、15天的天气参数,为使用机器学习方法预测大气污染物浓度提供了可靠的数据基础3。近年来,很多学者开始使用机器学习算法进行PM2.5浓度预报。Siwek试图将小波变换与神经网络和支持向量机一起预测PM2.5的日平均浓度,结果表明小波变换可以显着提高预测模型的精度4;Dong使用隐藏的Markov模型预测接下来24小时的PM2.5浓度范围5;Sun使用隐马尔可夫模型预测了PM 2.5浓度的日平均值6;朱亚杰等使用PM2.5浓度作为支持向量机模型,在3天内按小时7;Feng X等使用人工神经网络对PM2.5浓度进行建模8。这些研究都取得了良好的PM 2.5预测结果。本文分析了历史大气污染物浓度数据和历史气象数据,建立了基于随机森林方式的PM2.5浓度实时预测模型。1 1数据数据论文中使用的数据包括历史大气污染物数据和历史气象数据两类。其中,历史空气污染物数据从2013年10月16日到2015年10月3日在北京、天津和河北的102个空气质量地面监测站点(PM2.5、PM10、SO2、NO2、CO、O3浓度,以前的8小时PM2.5、PM10)历史气象数据是2013年10月16日至2015年10月3日北京、天津、河北所有气象站的数据,包括温度、湿度、风速、风向等指标,数据源与国家气象局、数据更新时间不确定,数据更新频率约为1小时2次。论文用单站点预测方法对京津冀地区PM2.5进行了建模,确保了PM2.5预测的准确性。为了帮助建立PM2.5预测模型,将历史大气污染物数据和历史气象数据混合在一起的原则:对于每个时间节点的大气污染物数据,选择与相应时间节点1的最近时间节点相匹配的气象数据。此外,该论文还以单站点预测的方式进行了大气污染物浓度建模,具有高可扩展性,可以直接推广到各个站点,因此选择了站点号为1007A的海淀区万柳空气质量监测站点作为实验数据。2 2 . 2 .预测因素分析和模型预测因素分析2.1.12.1.1预测因素分析预测因素分析2 . 1 . 12 . 1 . 1时间因素对PMPM2.5浓度的影响对北京、天津、河北大面积地区的影响,为了全面明确时间因素对PM2.5浓度的影响,文某在北京、天津、河北选择了空气质量监测网站,选择了pm 2.2 .北京海淀湾流站(1007A)、天津市南京路(1016A)和石家庄人民会馆(1034A)在3个网站上。(a) PM2.5浓度月变化规律(b) PM2.5浓度周变化规律(c) PM2.5浓度时间变化规律图1京津冀PM2.5浓度时序规律图1显示了京津冀PM2.5浓度时序变化规律,分别为日、州、省北京、天津、河北三个空气质量监测网站PM2.5值的月变化、周变化、时间变化具有一定的规律,随着北京、天津、河北的地理位置接近,其变化规律大体一致。图1(a)显示了北京、天津、河北地区PM2.5浓度月变动的规律,京津冀地区PM2.5浓度总体上显示了冬季、春季、夏季和秋季的低模式,这是由北京和河北的近似气候组决定的。图1(b)显示了京津冀PM2.5浓度的周浮动法,京津冀PM2.5浓度显示了目前工作日逐渐达到最高值,从周日开始减少的规律,可能与城市活动有关,平日城市活动活跃,大气污染物逐步累积,城市地区PM2.5的浓度逐渐提高图1(c)显示了京津冀PM2.5浓度的日变化规律,京津冀PM2.5浓度大体上表示日高特性,波动规律与气温变化规律相反,由于气温影响大气污染物扩展环境,因此可能需要进一步的研究证明该机制。图1与北京、天津、河北的PM2.5浓度和时间因素特别是月、周、时间有明显关系,因此论文将预测时的时间信息添加到预测模型中,如月、周、时间数,从而提高预测结的准确度。除了2.1.22.1.2大气污染物因素对PMPM2.5 2.5浓度的影响外,影响PM2.5浓度的是PM2.5和其他大气污染物在理化水平上相互转化或转移的过程中的相互作用,因此北京海淀万柳站将分析PM2.5和其他大气污染物的相关性,调查大气污染物因素对PM2.5浓度的影响。(a) PM2.5和CO相关散布图(b) PM2.5和NO2相关散布图(c) PM2.5和PM10相关散布图(d) PM2.5和SO2相关散布图(e) PM2.5和O3相关散布图(f)PM2.5由图2(a)、图2(b)、图2(c)和图2(d)表明,它与CO、SO2、NO2和PM10存在一定关系,并且PM2.5和PM10的关联性最高。这是因为PM2.5和其他污染物之间有一定的理化转换过程。特别是PM2.5和PM10之间可能存在很高的相互转换,因此两种大气污染物有很强的相关性。此外,图2(e)显示了PM2.5与O3的相关性低,因此O3对PM2.5预测没有贡献。最后,图2(f)显示,PM2.5延迟相关系数在0-24小时内保持相当高的水平,在24-72小时内保持一定水平,这表明,在PM2.5预测中,培训时的PM2.5值对预测时的PM2.5值也有一定贡献。经过以上分析,论文决定通过输入训练时的PM2.5值,预测时的其他大气污染物(CO,SO2,NO2,PM10)作为模型,建立PM2.5预测模型。但是,实验证明,PM10值的增加降低了模型的精度,由于PM2.5和PM10的过度相关性导致模型中存在大量重复信息,从而影响模型的准确性,因此PM10中排除了模型输入参数集。研究表明,2.1.32.1.3气象因素对PMPM2.5 2.5浓度的影响气象因素是影响PM2.5浓度的重要因素之一,气象条件对PM2.5浓度有重要影响的温度、湿度增加和减少、风向风速的变化、太阳辐射的强弱等有可能影响PM2.5浓度。以北京市为例,图3显示了北京地区PM2.5浓度与温度、湿度、风速和风向的关系。(a) PM2.5和温度箱图;(b)PM2.5和湿度箱图;(c)pm 2.5和风向箱图;(d)pm 2.5和风速箱图3北京地区pm 2.5浓度和温度、湿度、风速和风向箱图如图3(a)所示图3(c)和图3(d)显示PM2.5浓度与f风速风向有明显关系。即风速越大,PM2.5浓度越低,风向为西北风时PM2.5浓度相对低,风向为南风时PM2.5浓度相对高。总体上,气温、相对湿度、风速、风向对PM2.5浓度有一定影响,但这种效果不是绝对的,而是PM2.5浓度变化是多种因素综合影响的结果。2.22.2预测模型预测模型2.2.12.2.1随机林算法随机林算法决策树算法是机器学习中常用的算法,可以分为两种类型。分类树、回归树、分类树和决策树包含以前由Leo Breiman等建议的两种类型的决策树9。任意目录林可以看作是决策树的升级版本。在实际应用中,决策树算法简单、快速、精度高,但容易拟合。随机目录林是包含多个决策树的分类器,根据各个树输出的类数,建议解决Leo Breiman和Adele Cutler最初建议的问题10。随机林算法的步骤如下:1)在范例资料集中执行Bootstrap范例,以取得n个新范例资料集。2)为在第一步中获得的n个样本数据集分别创建完全增长决策树,但在创建决策树的过程中,只有一些随机选择的属性(而不是所有属性)会针对每个节点进行拆分。3)以投票或平均值预测新标本。随机森林的一个重要特征是可以估计其他属性的重要性。根据2.2.22.2.2 PMPM2.5 2.5浓度预测模型浓度预测模型2.1部分的预测因素,论文给出了当前时间点的PM2.5浓度值、预测时大气气体污染物(CO、SO2、NO2)浓度值、预测时的气象参数(温度、相对湿度、风速、风向)论文使用数量从2013年10月16日到2015年10月3日,根据网站编号为100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论