版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国家发展和改革委员会信息安全专项资金申请报告基于智能化支撑平台的环境管理信息化示范项目第PAGEII页湖北省环境科学院水、土、气污染防治支撑平台建设方案2017年3月湖北省环境科学院水、土、气污染防治支撑平台第PAGEI页目录1 建设背景 12 建设需求 12.1 重点水体环境质量与水生态系统改善及风险管控技术支撑平台 12.2 土壤污染防治决策信息支撑平台 32.3 大气环境质量改善科技支撑平台 43 总体设计方案 44 环境模型库建设方案 64.1 模型库管理 64.2 水环境分析模型 64.2.1 数据来源 74.2.2 模型库支撑 74.3 土壤环境分析模型 104.3.1 数据来源 104.3.2 模型库支撑 104.4 气环境分析模型 134.4.1 立体监测网络数据分析 134.4.2 大气环境质量分析 144.4.3 环境质量预报预警 164.4.4 移动源动态污染排放分析 174.4.5 大气环境敏感点识别 185 模型计算引擎建设方案 195.1 产品组成 205.2 产品功能 225.3 环境模型应用 246 模拟仿真平台建设方案 246.1 二维平面模拟仿真 246.2 三维立体场景模拟仿真 266.3 数据可视化平台展现 28湖北省环境科学院水、土、气污染防治支撑平台第1页建设背景党的十八大以来,环保部门把党中央、国务院的决策部署,转化成路线图和施工图,以大气、水、土壤污染治理为重点,坚决向污染宣战,生态环境保护取得积极进展。主要表现在:污染治理进程明显加快,环境设施建设取得积极成效,农村环境综合整治进展顺利;环境法治建设日益加强,加大环保督政和公开约谈力度,从严查处企业环境违法行为,推动一批突出环境问题得到解决,地方政府保护环境的责任意识、排污企业的守法意识、公众的监督意识稳步提升;环境制度和管理不断完善,出台生态环境损害责任追究等配套文件,划定生态红线、开展战略和规划环评、严格项目环评、注重标准引导、推进产业结构调整等环境预防措施得到强化,绿色环保观念日益深入人心。按照加强生态环境保护、推进以改善环境质量为核心的思路,要求环保部门加强对环境治理效果的直接考核,针对不同环境要素(水、气、土壤)推出不同的环境保护和治理方案,并坚持结果导向,关注治理效果,确保环境保护措施能切实发挥作用。建设需求从水、土壤、气污染防治入手,建立重点水体环境质量与水生态系统改善及风险管控技术支撑平台、土壤污染防治决策信息支撑平台、大气环境质量改善科技支撑平台,支撑湖北省各环境要素的管理工作。重点水体环境质量与水生态系统改善及风险管控技术支撑平台本项目拟以我省长江流域、汉江中下游流域等重点水体为研究对象,以水环境质量改善和水生态系统改善为目标,以水环境风险成因解析和管控定量分析为特色,在现有水环境质量监测数据、水生生态数据、污染源监管数据和相关水文监测数据、气象监测数据的基础上,利用水质模型模拟、水环境承载力测算和大数据分析等先进技术,实现对我省重点流域水环境质量和水生态现状的评价分析,水质污染的风险管控和解析,水质变化的预测和预警,不同污染防治规划方案的情景分析,重点水体水环境容量的计算和分配,突发污染事件的应急决策等功能,拟用三年时间,建成我省重点水体环境质量与水生态系统改善及风险管控解析技术支撑平台。1.水质模型综合管理建立水质模型库的管理子系统,集成成熟的水质数值模型,根据水体现状确定模型参数、水质参数、计算方法,研建地表水的水质数值模型。并将各水质模型集成化管理,实现动态模拟水环境的时空变化规律。2.水质污染模拟及事故预警通过分析研究对象的潜在风险源,选取重点潜在风险污染物,模拟突发性水质污染事故的潜在风险污染物扩散迁移,动态显示事故的发展过程。1、突发性水环境污染事故应急模拟。根据突发性水环境污染事故发生的位置、污染物的种类以及污染物进入水体的方式,通过系统提供的不同事故模拟项目的建立方式,快速进行污染物扩散的应急模拟分析。2、污染时间趋势模拟分析及预警。对同一位置某时期范围内污染扩散情况进行模拟,当污染模拟数据超过标准值时进行提示报警。3、污染沿程模拟分析及预警。对同一时间不同位置污染扩散情况进行模拟,当污染模拟数据超过标准值时进行提示报警。4、应急处理措施对比分析。模拟不同应急处理措施实施后可能产生的效果,对比不同措施间的治理效果。5、排放标准预期实施效果评估。模拟排放标准实施后可能产生的效果,评估标准实施的必要性。3.达标系统方案效能评估建立我省重点水体水环境质量达标系统方案效能评估体系(体现“一水一策”,其工作任务随水环境质量改善情况进行动态调整),尤其是对长江、汉江、清江等流域,要进行中长期污染防治措施环境效益的分析,模拟达标系统方案、规划、措施实施后可能产生的效果,对比不同方案间的治理效果,探寻最佳管理措施。4.水环境容量核算及承载力分析1、测算主要水体水环境容量,根据容量测算结果倒推污染控制管理目标,合理分配各区域水体环境容量。2、预测区域需水量,评价水资源供给的安全性及用水的合理性,提出水资源配置方案。5.水生态系统风险管控计算水生态系统各项特征指标,通过分析水生态系统的干扰因素,对生态风险进行评估,模拟水生态系统演化趋势。1、水生态风险评估。分析水生态系统及其组分的风险源,预测风险出现的概率及其可能的负面效果和影响强度。2、水生态系统演化趋势模拟分析及预警。分析和计算水生态系统各项功能指标,分析演化趋势并给出退化阈值,当超过阈值时进行预警。3、风险控制措施对比分析。模拟不同风险控制措施实施后可能产生的效果,对比不同措施间的优势和劣势。4、水生态系统改善措施对比分析。模拟不同改善措施实施后可能产生的效果,对比不同措施间的优势和劣势。土壤污染防治决策信息支撑平台(1)建立土壤污染诊断子系统建立土壤污染诊断子系统,根据调查地块各点位不同深度土壤污染物的实验室分析数据,形成调查地块污染物分布模型,并计算出土壤单因子污染或复核污染的污染程度、污染范围、污染土量,最终实现土壤污染诊断。(2)建立土壤监测点位信息管理子系统建立土壤监测点位信息管理子系统,对每一个农用地和重点行业企业用地开展的土壤环境质量调查监测点形成独立可识别的二维码,并将监测点位相关信息录入系统,实现通过子系统APP扫码即可获得监测点位相关信息,为后期监测复核工作提供支撑。录入的监测点位信息包括:监测点编号、所在重点区域类型、所在重点区域名称、所在重点区域位置、所在重点区域中心点经纬度、拐点经纬度、监测点经纬度、所在重点区域主导上风向、周边敏感目标类型、敏感目标经纬度、监测点八方位照片图、监测点采样深度、采集样品个数、样品采集现场记录以及钻孔记录等。大气环境质量改善科技支撑平台在现有污染源普查数据、排放清单数据、环境质量监测数据、工业源排放数据和气象数据等数据平台基础上,构建湖北省大气环境质量改善科技支撑平台,2017-2019年主要工作任务如下:(1)网格化的大气污染物排放特征分析和交互传输矩阵数据库建立(收集污染物排放数据并网格化处理(在常规污染物数据基础上,补充我省VOCs、移动源污染物、扬尘等特殊因子),获取分行业和分指标的网格化污染排放数据,分析小尺度下污染物排放、扩散及交互影响特征);(2)重点城市环境空气质量达标系统方案及效能评估体系(体现一城一策,工作任务随环境质量改善情况进行动态调整);(3)重污染天气精准应对方案与措施(细化全省和各地的重污染天气应急方案,实现精细化的应急措施制定);(4)湖北省大气污染风险分析及应急处置(开展湖北省重点工业园区及企业大气污染风险评估,构建全省大气污染风险地图,制定重大污染事件下的应急处置措施);(5)大气环境承载力分析与污染物减排任务最优分解方案研究(测算全省大气环境容量,分析环境承载力,健全排污权交易制度,制定污染物减排任务最优分配方案)。总体设计方案根据环科院水、土、气污染防治支撑平台建设需求,从数据采集输入、模型计算、模型管理、模型效果展示几个方面进行设计,总体设计框架如下所示:如上图所示,环境科学水、土、气污染防治支撑平台总体设计架构分为4个层次:数据采集层数据采集层提供了完善的数据交换平台,提供数据的收集整理,并按照科学模型计算所需的格式进行输入,面向模型库提供基础数据服务。模型库汇集了常用的水、土壤、大气分析模型,包括水EFDC模型:环境流体动力学模型;WASP模型:水质分析模拟程序;气AERMOD模型:一种稳定状态烟羽模型;CALPUFF模型:非定常三维拉格朗日烟团输送模式;SMOKE排放源处理模型;CMAQ模型:多尺度空气质量模型等;土壤分析模型EPIC:土壤可蚀性评价模型;WEPP:新一代土壤水蚀预测模型等。支持新建模型和模型更新、参数校准功能。模型计算采用东软集团SaCa系列产品SaCaRealRec进行模型计算,SaCaRealRec产品定位于大型数据科学平台,致力于提高构建智能应用的能力以及效率,简化复杂机器学习算法的使用成本。利用SaCaRealRec可以对环境模型进行快速计算,提高模型应用效率。模拟仿真对模型的计算结果提高多种方式仿真模拟展示,包括二维平面模拟仿真(基于ArcGis平台);三维立体场景模拟仿真(基于skyline平台);数据可视化平台展现(基于SaCaDataViz平台)。实现模型计算结果的形象展现和说明,给模型使用者直观真切的感受,有利于做出判断和决策。环境模型库建设方案模型库管理模型库管理功能包括模型的定义、组合、存储和调用,对环境模型进行分类,支持模型的更新,支持模型参数矫正,提供多种查询方式,为环境数据科学分析提供技术支撑。(1)模型选择从水、土壤、气环境模型中分别抽取能决定模型适用范围、复杂程度的若干技术参数,并用这些参数组件模型关系,实现GIS和文本技术参数查询、检索和选择所需的环境模型。(2)数据管理应用GIS进行各类空间数据和属性数据的输入、管理、并根据模型选择的结果将这些数据转换成相应模型能利用的数据形式。通过GIS内部调用模型进行必要运算,并将运算结果返回到GIS中进行显示、查询、输出。由于所有数据都统一在GIS中管理,不同模型可以共享同一数据源,避免了数据重复输入造成的数据冗余和相互差异,模型间也可以相互比较。(3)操作界面由于GIS内部调用环境模型,避免了用户与环境模型的直接接触,GIS界面成为同类模型的共同界面,保持了同类模型应用风格的一致性。水环境分析模型利用大数据技术,通过业务规则和业务模型的建立,对环境监测和监管数据进行深入挖掘,加强监测数据的综合管理和关联分析能力建设,从而发现流域及环境管理中存在的问题或风险,同时在“以问题为导向”的建设原则指导下,选用满足需求、应用成熟的水动力模型、水质模型,并集成数据处理、GIS等技术,为水质监测预警、水污染防治规划的编制等的制定提供技术支撑,为水环境管理提供全面、及时、科学的管理和决策依据。数据来源系统所需数据包括环保系统及水利厅、海洋与渔业厅的水质监测数据、污染源监测数据以及水文、气象、河道空间等建立水质模型等数据。模型库支撑流域水环境综合分析需要加强环境质量数据与污染排放数据关联分析能力建设,并根据水质预测预警及流域环境污染防治决策支撑的需要建立水质模型库,集成多个成熟的水质数值模型,包括机理模型和黑箱模型,并将模型与系统平台进行数据集成,将模型包装成模型计算服务,为水质预测预警、水环境容量动态测算、污染防治规划方案情景模拟、污染物超标扩散模拟等功能提供服务,实现污染负荷、水文气象等数据的自动输入以及模拟结果的自动解析。从水质模型结构上,可以将水质数学模型分为白箱和黑箱两大类。白箱模型属于机理模型,它建立在模型变量的运动规律及其理论推理的基础之上,白箱模型通常通过逻辑演绎建立,从理论上讲,白箱模型是普遍适用的模型;黑箱模型属于经验模型,它的基础是反映事物客观变化的数据,根据数据反映的规律通过统计建立反映这些数据之间的关系的表达式。EFDC模型:环境流体动力学模型环境流体动力学模型,简称EFDC模型(EnvironmentalFluidDynamicsComputerCode)是由美国Virginia海洋研究所的Hamrick等根据多个数学模型集成开发研制的综合模型,现在是美国环保署(EPA)推荐使用的模型。该模型是一个多任务、高集成的环境流体动力学模块式计算程序包,用于模拟水系统一维、二维和三维流场、物质输送(包括温、盐、非粘性和粘性泥沙的输送)、生态过程及淡水入流。其模拟范围为:河口、河流、湖泊、水库、湿地以及自近岸到陆架的海域。可以同时考虑风、浪、潮、径流的影响,并可同步布设水工建筑物。该模型到目前为止已经用于几十个海域的相关计算,得到广泛的应用,被誉为21世纪最有发展前途的环境流体动力学模型。采用该数学模型对本工程海域潮流场进行模拟计算,计算中采用水平方向上的变笛卡尔正交坐标与垂直方向上的Sigma坐标相结合以及三维数学模型二维化的方法。WASP模型:水质分析模拟程序WASP(Thewaterqualityanalysissimulationprogram,水质分析模拟程序)是EPA推荐使用的水质模型软件,使用较为广泛,能够模拟河流、湖泊、水库、河口等多种水体的稳态和非稳态的水质过程。DR-WQM模型:河流突发性水污染事故的简化模型针对园区废水的需求特点,东软开发了一种河流突发性水污染事故的简化模型(以下简称:DR-WQM模型),采用有限差分方法中的四点隐式差分格式进行数值求解。土壤环境分析模型整合土壤环境状况历史数据与实时数据、污染场地环境风险数据、国控及省控土壤重点监控企业排放数据、重点行业企业污染地块信息等。同时,采用主成分分析、污染指数法、层次分析法等分析统计方法对土壤环境数据进行多种组合分析和生态风险评估,并借助3S(RS、GIS、GPS)技术和已有的基础地理信息修复和优化土壤图件。数据来源土壤环境分析系统所需数据包括土壤污染状况详查、土壤环境质量例行监测、土壤环境日常监管执法系统、国控和省控土壤重点监控企业清单、地理信息和相关属性数据,以及国土、农业、林业、住建等外厅局有关部门的土壤环境监测和调查数据。模型库支撑土壤环境监测数据分析的应用支撑包括统计分析方法以及土壤图件修复优化。土壤数据分析方法包括主成分分析法、污染指数法、富集因子法、潜在生态危害指数法、污染程度法、模糊数学综合判断法、灰色聚类法等。目前主成分分析法已在水、土壤等环境介质中的污染物评价以及环境介质质量的评价中有所应用。污染指数法主要用于评价分析土壤中的重金属污染物,具有一定的客观性和可比性,易于计算。污染指数法评价模型包含单因子污染指数法和综合污染指数法。灰色聚类法将土壤污染状况按照不同分级标准采用白化隶属函数在闭区间连续取值进行评价,为开展土壤重金属污染评价、特定区域的土壤防治以及农田生态系统保护工作等提供科学依据。模糊数学法是研究和处理模糊现象的定量化分析方法,结合遥感数据和GIS技术可以建立土壤的pH值、有机质、全氮等土壤肥力多指标评价模型,分析土壤肥力空间分布。模糊数学发在土壤综合指标的评价中具有简便可行性。基于GIS技术,将计算的各个采样点数据的评价指数,使用表面功能来表示连续分布的空间上的污染情况,从而生成可视化程度较高的针对不同污染物的的土壤污染评价图。重金属元素的空间分布及污染程度模型运用模型求出各区域各金属相对于背景平均值的比值作为金属污染程度,再求出各区域重金属污染程度,并将各区进行比较。之后,我们加上各重金属的毒性,对各重金属求出权数,再结合国标重金属污染等级和已知的各组数据来确定金属的污染程度。各金属元素的平均浓度重金属元素污染程度EPIC:土壤可蚀性评价模型土壤侵蚀和生产力影响估算模型EPIC是一种较有影响的农田生产管理和水土资源评价模型。土壤侵蚀和生产力影响估算模型EPIC(Erosion-ProductivityImpactCalculator)(Williams等,1984)是美国研制的一种基于“气候-土壤-作物-管理”综合连续系统的动力学模型,可以评价土壤侵蚀对土壤生产力的影响,用来估计农业生产和水土资源管理策略的效果。EPIC模型由气象模拟、水文学、侵蚀泥沙、营养循环、农药残留、植物生长、土壤温度、土壤耕作、经济效益和植物环境控制等模块组成,包含了三百多个数学方程。WEPP:新一代土壤水蚀预测模型WEPP是美国农业部组织力量开发的新一代土壤侵蚀预测预报模型。该模型是一个独立的计算机应用软件,具有良好的操作界面。运用该模型可以对坡地、末端小流域的侵蚀和水文过程进行模拟、预测、预报。模型既可对单一的降雨过程进行分析,也可对一定时间周期内的侵蚀和水文过程进行分析,并且可用数据、图形和曲线等形式输出运行结果。气环境分析模型包括立体监测网络数据分析、大气环境质量大数据分析、环境质量预警预报、移动源动态污染排放、大气环境敏感点识别,通过立体监测网络数据分析与布点优化、大气环境质量数据的大数据分析、空气质量预警预报技术提高、移动源高分辨率动态排放清单建立以及大气环境敏感点的识别,为大气环境管理提供丰富的数据、专业的分析以及科学的的决策支持。立体监测网络数据分析通过接入空气质量自动监测站、超级站、微型或小型空气站点等仪器设备构成的立体监测网络。引入先进模型和技术,利用多源数据融合技术及云计算、物联网、大数据技术,完善环境质量的动态监测、统计分析与评估预警、综合研判,优化空气质量监测站点的选择和布设,使得环保部门能够深入研究大气环境的情况,探索出解决大气污染问题的新方法、新思路,进而采取针对性改进措施避免大气污染情况的发生,为人们的生产生活营造良好的大气环境。数据来源系统所需数据包括空气质量自动监测数据,空气质量自动监测数据来自国控、省控等监测站点的环境空气自动监测小时数据、日数据以及空气质量传感器、微型或小型空气站点等仪器设备采集的数据。应用支撑系统的应用支撑包括空气质量自动监测设备、空气质量传感器、微型或小型空气站点等监测仪器设备与传感器。其中,微型或小型空气站点是一种广谱型的气体传感器,对日常生活中常见的气体,如颗粒物、臭氧、挥发性气体等都具极高的灵敏度,按构成传感器的材料可分为半导体和非半导体两大类。微型或小型空气站点能够满足人类对小气候环境下的空气质量进行实时监测的趋势和要求,可实时监测并远传空气质量参数。除了硬件设备支撑外,为了更好的展现立体监测网络数据分析结果,需要以地理信息系统(ArcGIS)作为软件支撑,从而实现在GIS地图上更加直观的分析展示。模型算法采用SaCaRealRec提供的大数据分析模型。大气环境质量分析系统整合气象预报和实况数据、污染源数据、空气质量预报数据、社会经济以及卫星遥感等各类型大气环境质量相关数据,并采用相关性分析、聚类分析等多种数学方法,对数据进行挖掘分析,并对数据进行了时空分析、组分分析、气象场聚类分析、污染与经济要素关联分析等多种分析,找出数据之间的相互关系,为大气环境治理提供充足的数据分析支持。数据来源系统所需数据包括气象预报和实况数据、污染源排放数据、空气质量预报数据、社会经济以及卫星遥感等。其中,气象数据来自气象部门、中央气象台、欧洲中心等国内外机构或互联网;污染源数据主要来源于环保部门、交通运输部门、公安交警部门、船舶海运部门;空气质量预报数据来自系统所建空气质量预报模式的预报数据;社会经济数据来源于统计部门;卫星遥感来源于通信部门、气象部门以及互联网。应用支撑大气环境分析的应用支撑包括对比分析、相关性分析、时空分析、聚类分析、关联分析等多种数学分析方法。模型算法CMAQ由美国环保局于1998年6月首次发布,经过十几年的研究发展,已经更新到5.0.1版本。CMAQ在模拟过程中能将天气系统中、小尺度气象过程对污染物的输送、扩散、转化和迁移过程的影响融为一体考虑,同时兼顾了区域与城市尺度之间大气污染物的相互影响以及污染物在大气中的气相各种化学过程,包括液相化学过程、非均相化学过程、气溶胶过程和干湿沉积过程对浓度分布的影响。环境质量预报预警利用已有空气质量监测站点数据,纳入卫星遥感、激光雷达、飞航监测等数据,依托数值预报模型与统计模型,结合污染源、气象、交通流、航空、船运、路网、物流、医疗健康、人类活动和兴趣点等多种数据源来实时分析区域尺度与细粒度的空气质量,指导公众出行、服务政府管理,对空气质量的发展趋势提出预测预警。数据来源系统所需数据包括空气质量自动监测数据,空气质量预报数据,卫星遥感、激光雷达、飞航监测等数据,污染源、气象、交通流、航空、船运、物流、医疗健康、人类活动和兴趣点等多种数据,其中空气质量自动监测数据来自国控、省控等监测站点的环境空气自动监测小时数据、日数据等;空气质量预报数据来自系统所建空气质量预报模式的预报数据;气象数据来自气象局。其他数据来自统计或调研资料。应用支撑系统的应用支撑包括数据同化和Hysplit模型。数据同化是一种最初来源于数值天气预报,为数值天气预报提供初始场的数据处理技术,包括4个基本要素:模拟自然界真实过程的动力模型;状态量的直接或间接观测数据;不断将新观测的数据融入过程模型计算中、校正模型参数、提高模型模拟精度的数据同化算法;驱动模型运行的基础参量数据。模型算法先取得气象模式的资料和排放源数据资料。然后数据资料进入多个空气质量预报模式,分别进行并行计算。最终各个模式产生的结果,由多模式集合预报技术产生预报结果。这些预报结果会导入到应用展示系统中,进行最终的展示发布和决策分析。移动源动态污染排放分析针对中国大城市交通排放污染问题,以某个城市为目标城市,建立高时空分辨率的路网交通流预测模型、基于微观工况的机动车排放模型和基于路网交通流的动态排放清单,实现交通源对某个城市环境空气质量特别是PM2.5、NOx、O3排放贡献的定量解析。数据来源系统所需数据包括某个城市机动车的基础数据,包括机动车保有量数量、累计行驶里程、机动车型分类、道路的车型比例分布、油品控制等静态交通流数据,道路拥堵状况、城市交通报告、道路车流拍摄等动态交通流数据,数据来自公安交管部门。应用支撑系统所需的应用支撑为AERMOD模型和地理信息系统。 模型算法AERMOD(AMS/EPAREGULATORYMODEL)模型是由美国国家环境保护局开始联合美国气象学会组建法规模式改善委员会在工业复合源模型框架的基础上建立起来的稳定状态烟羽模型,它以扩散统计理论为出发点,假设污染物的浓度分布在一定范围内符合正态分布,采用高斯扩散公式建立起来的模型。大气环境敏感点识别通过开展敏感点分级分类分析,综合考虑监测数据、预测数据、影响空气质量达标的关键因素、污染源重点区域、污染源重点行业、移动源重点车型等因素,运用数据挖掘、认知计算等数学方法,建立大气环境敏感点识别规则库,从而有效识别出不同级别的大气环境敏感点,并以此为依据采取有针对性的大气环境防治措施,进一步提高大气环境质量。数据来源大气环境敏感点识别所需数据来自大气环境综合分析模块中的大气环境质量综合分析、大气环境规划大数据分析、大气污染溯源分析、大气质量达标管理系统等分析结果数据。应用支撑大气环境敏感点识别所需应用支撑包括数据挖掘、认知计算等多种数学方法。模型算法采用SaCaRealRec提供的大数据分析模型。模型计算引擎建设方案采用SaCaRealRec数据科学平台作为模型计算引擎,SaCaRealRec产品定位于企业级数据科学平台,致力于让每一个企业都能拥有自己的数据研究院,从而能够提高企业构建智能应用的能力以及效率,简化复杂机器学习算法的使用成本,从而帮助企业实现数据驱动的商业模式。SaCaRealRec数据科学平台是聚焦大数据智能战略的分析挖掘平台及服务。整个系统基于分布式批处理框架、分布式内存处理框架、分布式流数据实时框架以及大规模机器学习算法库等大数据科学相关技术,提高企业构建智能应用的能力及效率,简化复杂机器学习算法的使用成本,从而帮助用户实现数据驱动的价值体现。产品组成SaCaRealRec致力于提供简单易用的预测分析平台,通过流程化的WebUI大大降低大数据挖掘的使用成本,使得每一个平凡的软件工程师都能够利用精妙的数学模型以及大数据处理技术构建自有模型来解决当今环境科学面临的具有挑战的问题。整个数据科学平台由SaCaRealRecCore基础分析平台、SaCaRealRecFeature多维特征分析、SaCaRealRecNotebook可视化模型构建平台、SaCaRealRecGraph图挖掘平台,SaCaRealRecDeep深度学习平台,SaCaRealRecStream流计算平台、SaCaRealRecService预测服务接口、SaCaRealRecMonitor监控管理调度平台以及SaCaRealRecTemplate数据挖掘流程模库9个组件。1)SaCaRealRecCore基础分析平台SaCaRealRec数据科学平台借助于开源Hadoop&Spark大数据生态系统技术体系,基于支持横向扩展的分布式计算架构以及分布式层级存储(支持多种存储设备的统一管理包括硬盘、SSD以及内存等),能够对海量数据进行大规模机器学习模型构建,有效的解决传统BI以及分析系统难以对全量数据进行建模的问题。2)SaCaRealRecNotebook可视化模型构建平台SaCaRealRec数据科学平台采用最新的Notebook的形式帮助数据分析师或者数据科学家进行全流程可视化的模型构建引导。通过可视化Notebook的形式,SaCaRealRec平台能够对数据科学家所有的操作进行完整的记录以及展现,所有执行过程以及返回的结构都在同一个Notebook进行全面保留,极大的方便数据科学家在模型构建过程对结果的反复校验以及修改的需求。传统BI流程图更加关注于结果查看而忽略了数据探索过程需要反复修改调整问题,传统BI流程图的构建往往非常复杂,中间结果不能直观查看,导致流程图构建非常困难,而采用Notebook的方式能够更好的提高模型构建效率以及团队之间的协作能力。3)SaCaRealRecGraph图挖掘平台随着社交媒体的快速发展,互联网中包含大量的以关系网络形势存储的数据,这些复杂的关联网中蕴藏着巨大的价值信息,SaCaRealRecGraph组件支持丰富的图论算法以及关系网络挖掘方法,例如PageRanking以及标签传播算法用来计算关系网络中的关键节点以及核心Hub。4)SaCaRealRecSQL在线实时分析针对大规模机器学习场景下,业务模型的构建之前往往需要复杂的数据预处理操作对数据进行清洗、过滤、抽取等操作,SaCaRealRec数据科学平台支持SQL语言表达形式,支持数据分析师以及业务人员进行SQL高级语言的交互式查询,系统会对SQL语言进行解析转化成底层分布式计算逻辑,从而实现对海量数据分析查询达到准实时的性能要求。5)SaCaRealRecFeature多维特征分析数据挖掘流程当中其中大部分的工作量都体现在了特征过程阶段,数据科学家需要对原始数据进行不同方式的特征转换方法,SaCaRealRec数据科学平台为数据科学家提供了灵活的准实时多维分析功能,支持类SQL以及UDF(自定义函数)的混合查询转化过滤方法,大大缩减了特征工程的工作时间。6)SaCaRealRecDeep深度学习随着人工智能的快速发展,基于传统的人工神经网络的机器学习算法得到了快速的发展,深度学习算法借助于分布式计算能力,能够有效的解决多层神经网络的学习效率。借助于多隐藏层的深度神经网络学习算法,深度学习能够更好的表现非线性关系,使得预测结果的精准度更高。7)SaCaRealRecService预测服务接口对于构建完成的智能模型,SaCaRealRec数据科学平台提供了多种应用部署模式,除了基本的模型导出进行部署以外,平台支持对已构建模型的直接管理以及应用部署,从而能够通过SaCaRealRecService组件提供的RESTful接口直接进行跨平台预测调用,打通了数据科学到数据工程之间的隔阂。8)SaCaRealRecStream流计算平台由于外界环境因素千变万化,静态的智能模型往往有效性随着时间的推移而逐渐下降。在下一代的智能应用时代,系统需要拥有自适应能力的机器学习算法,能够对持续接受的数据流进行实时处理,对数据挖掘模型中的参数能够进行持续增量更新,达到真正的智能学习模式。9)SaCaRealRecMonitor监控管理调度平台由于SaCaRealRec数据科学平台采用分布式机器模式支持对海量数据的大规模机器学习模型构建,SaCaRealRecmonitor监控管理调度平台能够对整个集群的物理状态进行监控(包括CPU、内存、磁盘IO等),同时对模型训练以及应用部署服务任务进行全方面管理监控,确保整个集群的高效运转。10)SaCaRealRecTemplate数据挖掘流程模版库数据挖掘模型的构建过程往往依赖于资深的数据分析师,而目前很多企业并不具备这样的人才储备。SaCaRealRecTemplate包含了专家构建的流程模版,记录了专家构建模型的全流程操作,从而大大降低了企业在智能应用构建方面的人才要求。通过流程模版库中查找跟自己业务贴近的模版,能够直接复用全流程方法,大大降低使用初期的知识门槛。11)SaCaRealRecUsers多用户管理平台数据科学平台提供基于分布式集群模式的B/S应用模式,针对多用户共享同一分布式集群的应用场景,SaCaRealRec数据科学平台提供多用户的单点登录,数据访问隔离,计算资源多策略分配等管理功能,帮助数据科学家团队能够高效协作完成智能应用构建的任务。产品功能作为数据科学平台,系统提供了标准的数据挖掘流程,包括数据采集、特征抽取、模型训练、评估评测以及部署应用五大关键功能。1)数据采集支持对所有主流数据库、文件系统以及文本格式的数据接入,其中可以直接加载的文本格式包括MicrosoftExcel文件格式、CSV文本格式等。针对海量数据的模型构建,平台系统支持对大数据生态系统技术的对接,其中包括Hadoop的分布式文件系统HDFS、分布式里数据库HBase以及传统关系数据库。2)特征分析构建一个高效精准的机器学习模型有很大一部分因素取决于特征工程,采集到的原始数据包含较多的噪音且维度之间存在依赖关系造成数据的冗余,这些因素都将直接影响后续模型构建的准确性以及时效性,对采集到的原始数据需要数据科学家在多维分析的基础上,经过过滤、转化、降维等特征抽取流程,能够有效过滤噪音反应样本的本质。SaCaRealRec平台在特征工程方面提供了对海量数据的统计分析、可视化展现功能帮助数据科学家分析了解数据本质、概率分布等特性,通过提供的多种数据清洗、转化、降维算法,能够有效支持不同机器模型的特征抽取的需求以及特征复用等管理功能,从而大大降低特征工程的开发成本。3)模型训练大数据分析平台的核心是高效精准的数据挖掘算法库,SaCaRealRec提供了基于分布式计算框架编写的高性能大规模机器算法库,从而能够保证对全量数据的模型构建,避免了传统分析工具只能利用小数据样本进行机器学习的弊端。系统在用户体验方面,提供了全流程可视化操作WebUI,同时支持模型迭代训练过程的实时可视化展现,能够对模型训练过程实现全透明管理监控,辅助数据科学家构建高性能精准的挖掘模型。4)评估评测机器学习数据挖掘不是“一锤子”能解决问题,需要反复的迭代实验,根据数据变化调整优化模型,这些都离不开对模型的有效评估方法。SaCaRealRec支持离线评估和在线评估两种模型评估手段,简化模型评估工作,支持评估结果的可视化展现,让评估结果更加易于理解,让训练出的模型更匹配业务问题。5)部署应用相较于传统商业智能平台的机器学习模型所能提供的辅助决策功能,SaCaRealRec大数据分析平台能够对构建的智能模型直接进行系统部署应用,从辅助决策进化到自动化决策。大数据科学家所构建的机器学习模型能够通过云服务REST接口或者现场POJO应用部署,从而能够在大数据科学团队与数据工程团队之间建立顺畅的桥梁,确保智能应用的敏捷开发。环境模型应用通过使用SaCaRealRec数据科学平台对环境数据进行分析、特征提取、环境建模,实现对水、气、土壤污染状况精准预测的功能,从而能够环境政策制定提供数据支持。基于SaCaRealRec数据科学平台提供的丰富大规模机器学习算法库,通过扩展水、气、土壤多种模型算法,并通过实践数据进行离线评估比较,运用组合模型进行预测,其主要流程分为两步:一是对原始数据进行特征抽取工程,基于SaCaRealRec数据科学平台提供的多维特征分析功能组件,对环境基础数据、监测数据、模型参数进行数据预处理,并将连续数值处理为离散特征,如“时间”“空间”特征的离散化。二是基于特征抽取过程中构建的多维特征向量,结合环境模型进行构建,基于SaCaRealRec数据科学平台强大的分布式计算能力,为水、气、土壤环境构建多种组合预测模型,最终实现大规模环境数据模拟展现。模拟仿真平台建设方案模拟仿真平台提供对模型计算结果数据的展现方式,支持二维平面模拟仿真(基于ArcGis平台);三维立体场景模拟仿真(基于skyline平台);数据可视化平台展现(基于SaCaDataViz平台)。二维平面模拟仿真基于ArcGis平台构建二维平面模拟仿真系统,通过对模型计算结果的集成,综合分析评价环境数据。利用GIS的空间分析功能,综合性地分析建设项目各种数据,帮助确立环境影响评价模型。结合GIS系统层的结构,将不同的环境影响进行计算并叠加。在区域环境质量现状评价工作中,将地理信息与大气、土壤、水等环境要素的监测数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物标志物与药物不良反应预测模型
- 生物墨水的生物安全性评价方法
- 生活质量评估在再程放疗方案选择中的作用
- 电子商务专家认证考试内容解析
- 产品经理面试题及产品思维训练
- 深度解析(2026)《GBT 19496-2004钻芯检测离心高强混凝土抗压强度试验方法》
- 保洁绿化领班工作创新与问题解决方法含答案
- 电子工程师技术支持岗位的常见问题与答案
- 信息录入员岗位面试题及答案
- 环境噪声污染的统计心血管效应与结果防护策略
- 2025年广西继续教育公需科目考试试题和答案
- 俄乌之战课件
- 2026年铁岭卫生职业学院单招职业倾向性考试题库及参考答案详解一套
- 2025年厨房燃气报警器安装合同
- 环孢素的临床应用
- 国开电大《11837行政法与行政诉讼法》期末答题库(机考字纸考)排序版 - 稻壳阅读器2025年12月13日12时58分54秒
- 2025河北廊坊市工会社会工作公开招聘岗位服务人员19名考试笔试备考试题及答案解析
- 2025国家电投集团中国重燃招聘18人笔试历年参考题库附带答案详解
- 框架日常维修协议书
- 智研咨询发布-2025年中国电子变压器件行业市场运行态势及发展趋势预测报告
- 创伤后成长(PTG)视角下叙事护理技术的临床应用
评论
0/150
提交评论