安全生产大数据智能平台_第1页
安全生产大数据智能平台_第2页
安全生产大数据智能平台_第3页
安全生产大数据智能平台_第4页
安全生产大数据智能平台_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

安全生产大数据智能平台项目建设的背景和意义1.1项目建设背景2015年4月13日,国务院办公厅《关于加强安全生产监管执法的通知》(国办发〔2015〕20号)要求各省、自治区、直辖市人民政府加快监管执法信息化建设。整合建立安全生产综合信息平台,统筹推进安全生产监管执法信息化工作,实现与隐患排查治理、风险管控、重大危险源监控、安全诚信、安全生产标准化、安全教育培训、安全专业人才、行政许可、监测检验、应急救援、事故责任追究等信息共建共享,消除信息孤岛。要大力提升安全生产“大数据”利用能力,加强安全生产周期性、关联性等特征分析,做到检索查询即时便捷、归纳分析系统科学,实现来源可查、去向可追、责任可究、规律可循。经过近几年的信息化建设,各省初步实现了基础设施信息化支撑,部分市、州安全监管机构完成了初步的信息化监管,省安监局进一步深入开展安全生产信息化建设和应用工作,为全省安全生产监管提供了有效的技术支撑保障。目前,省内部分地区建成安全生产监管基础业务系统,涵盖综合办公、行政审批、非煤矿山监管、应急预案与资源报备、安全生产隐患排查治理等多个业务门类,有效提升了安全生产执法以及政务办公效率,加强了安全管理和事故风险防控能力。目前,各省安全生产信息化建设中,首先是普遍缺乏统筹规划和标准规范,难以实现业务系统之间的互联互通和资源共享,造成“信息孤岛”,与重点安委会成员单位也没有实现信息互通;此外,业务系统功能不完善,尚未实现业务全覆盖,业务应用的深度不足,没有融入安全生产核心工作;最后,还存在基础支撑保障能力不足的问题,规章制度、队伍建设、设施设备等方面的不足影响了信息化的应用推进。面对全国依然严峻的安全生产形势和党中央国务院关于进一步加强安全生产工作的要求,各省需要加快实施安全生产监管大数据智能管控平台提升在安全生产领域中的数据治理与服务能力。1.2项目建设意义大数据是创新安全监管监察模式的必然之路,构建“大数据、大支撑、大安全”的大数据管控平台,实现安全生产事故预测预判和风险防控“信息化、数字化、智能化”的目标。依托各省安监局现有数据中心建设成果,在先进的大数据技术手段的支撑下,建设省安监局安全生产大数据智能管控平台,实现“防、管、控”三大业务功能要求,创新安全监管监察方式方法,进一步强化对企业落实安全生产主体责任的监督管理。为安全生产监管监察和应急管理,为有效防范并遏制重特大事故提供服务和保障。安全生产大数据智能管控平台主要以安监大数据建模设计和可视化应用场景展现为方向,通过运用大数据的思维、技术、工具深入挖掘数据价值,实现大数据在安监业务方向的多维创新应用。以事故数据为核心结合企业基础数据、隐患数据、风险数据、物联网数据、特殊时期数据、舆情数据、天气数据等多维度关联以及不同模型计算分析得出大数据预测结果、可能会发生相似事故企业预警、行业跟区域安全生产趋势。运用大数据技术提供科学的依据,做到事先预防、预警决策作用,有效防范并遏制事故发生减少经济损失提供服务和保障。具体如下:整合安监数据中心与外部数据源以安监局数据中心的数据为主,构建以省局基础数据库为核心,建设智能管控平台与完善各类安全监管专业数据库,各市安全生产数据逐步实现与省局数据中心的实时同步。并引入外部数据源,比如工商、舆情、事故等其他单位的关联数据,尽可能多的丰富其他部门业务数据。建立具有各省安监特色的数据主题集。建立开放性的扩展平台实现安监业务的数据服务场景;平台兼容可复制、可扩展、可移植的安监数据模型;兼容开源的可视化工具。利用前沿的渲染技术,加强整个平台的展示效果,实现直观、动态、互动、智能的可视化界面;实现安监大数据服务平台数据模型与可视化管理的基础框架,满足安监的业务扩展需求。开发安监大数据场景服务以各省安监特色主题集为数据源,以数据模型及可视化基础框架为技术工具,以前沿的渲染技术为终端展现标准,结合各安监的实际业务及各个处室办公系统的数据状况,开发并实现安监特色的大数据场景服务。使安监所有的业务成为一个有机整体,辅助领导决策,提髙工作效率。建设安监大数据场景服务示范区以各省安监局安全生产大数据智能管控平台为基础,逐步增加横向数据源,扩展业务场景服务,如:安全生产事故智能分析、安全生产形态趋势分析。建设具有全国示范意义的范例。需求描述2.1业务需求安全生产大数据智能管控平台,需要实现各省安监内部、外部及相关单位的安全生产数据采集、处理、融合、存储、管理、分析、应用,以安全生产海量数据为基础,以大数据采集、挖掘分析、可视化展示等技术手段为支撑,服务于安全生产科学监管。因此,本项目建设平台服务于安监各业务部门的数据整合、数据分析及可视化展示。1、 数据整合业务需求全面梳理安监领域内部、外部相关数据,内部数据包括不同行业的安全隐患排查数据、安全风险管控数据、安全事故数据、安监监察执法数据、职业病数据、企业自查自改自报数据等内部数据,以及与安监相关的互联网舆情数据、企业在其他领域的违法违规数据、与安监相关气象、环境等外部数据,采集海量的安监相关数据,构建标准化的安监大数据中心,是实现安监大数据服务于安全生产的第一步。2、 数据挖掘分析业务需求安监大数据挖掘分析,以安监业务需求为向导,如安全生产事故特征、规律挖掘分析,隐患风险分析等,明确挖掘分析目标,选择挖掘分析数据及合适的方法,在不明确哪些数据可能会影响结果的情况下,可以通过多次试验的方法,选出最佳影响因子,在海量的数据中,挖掘出隐含的规律和特征,通过大数据手段,解决安监领域突出问题。3、 数据可视化业务需求数据挖掘分析的结果,通过最佳的可视化手段进行展示,是帮助用户直观了解展示内容的重要部分,此外,针对不同的分析需求,需要提供可定制化的可视化展示方式,因此可视化工具需要具有良好的兼容性和扩展性,提供的可视化展示方式能够满足不同内容的可视化展示需求,如散点图、泡沫图、OHLC图、烛台图、箱形图、树形分支图、冰柱图、光辐射图、极坐标树形分支图、矩阵式树图、弧线图、数值翻牌图、雷达图、词云图、气泡云图、3D地球、3D相关性矩阵、3D波斯顿矩阵等可视化组件,实现可视化方式的全覆盖。4、 业务专题应用需求针对安监领域突出的安全生产问题,如安全隐患髙发、安全生产事故时有发生、监察执法能力不足、安全生产事故责任不清等一系列问题,探索利用大数据手段的解决办法和途径,平台需提供丰富的大数据挖掘分析算法模型,包括分类、回归、聚类、关联降维、时间序列、识别、预测、优化等算法模型,并提供调用服务,以满足不同安全生产问题,以及随着安监业务发展需求出现的新的数据挖掘分析需求。2.2功能需求2.2.1基础服务平台的需求基础服务平台需求主要包括数据源管理、数据加工管理、数据质量管理、数据服务等业务。一、 海量数据资源管理业务需求建立一个集成化的信息资源管理流程,使之具备有效处理和利用各类数据资源的能力,满足数据加工处理、资源管理、信息融合、分析挖掘等工作需求,实现多种来源、格式的信息资源的集成化管理。针对数据资源管理的工作需要,需要提供系统管理、数据管理、数据处理和数据发布功能。二、 数据加工管理系统需求以数据元为核心,对各类数据资源的标准代码、数据字典等信息进行分类编目和动态管理,并对数据资源在加工、流转过程中所产生的资源目录及元数据信息进行统一管理。提供对数据元标准的创建与维护,以及对数据元的生命周期管理功能。基于平台的统一权限管控机制,可实现对资源目录的信息检索、目录导出与数据调取,并为各类业务应用提供数据标准、数据元的服务接口。针对数据加工管理的工作需要:需要通过大规模,可扩展算法的ETL实现数据的清洗、转换、加载功能;保障数据正确、完整、规范地加载到目的地;解决数据整合过程中的传输异常、数据加载异常、数据结构与质量异常等问题。三、 数据质量管理的需求各省安监局安全生产大数据是安全生产领域的音频、视频、图片、地理位置及信息日志等巨量、复杂的数据集合体,主要由安全监管监察机构系统内的数据资源和监管监察对象系统内的数据资源构成,具体包括安全生产基础知识(如法规、标准、规范、事故案例等数据)、安全生产业务基础数据(如企业基本情况、风险隐患、应急资源、统计分析等数据)和安全生产监管监察业务应用数据(如重大危险源监控、重点区域监测监控、隐患排查、执法检查、监测预警等数据)。业务上虽然建设和归集很多信息系统,但是大量政府数据沉寂在各部门中,部门之间的数据交互较少,各业务系统数据相对独立,数据之间关联性不强,无法提取有效的数据,且存在应用结构、技术结构差异较大的情况,数据利用率比较低。有些数据根本没有进行上网公开,有些数据名义上公开,但实际使用非常不方便,因此安监的数据资源整体利用处于比较低的水平。无论在大数据开发能力,还是在大数据应用上均处于尝试的阶段。针对数据质量管理的工作需要:需要通过建立完善的数据质量分析机制,实现对信息资源库中的数据不断地进行数据校验、比对,完成不规范数据的清洗和过滤,建立问题数据下载、订阅和查询统计功能,并提供相应的数据质量分析报告,通过技术手段促进数据质量的提升。四、数据服务需求基于开放式服务架构,对外提供标准的Web服务接口,支持各个业务部门基于开放接口来开发各类业务应用系统,并能够在桌面、浏览器、移动端设备上运行使用。构建统一的数据资源体系和数据中心,对外提供多层次、可扩展、安全可靠的共享服务接口,包括数据元数据服务、数据查询服务、信息比对服务等。针对数据服务管理的工作需要:需要数据形成主题库之后的另一种数据共享方式,动态的将主题库表以接口的形式发布出来,通过安全传输、多层授权及加解密保障数据的安全使用。2.2.2数据模型开发管理的需求要实现对重点行业领域企业安全管理基础数据、监管监察业务数据、辅助决策数据和公共服务数据集中管理和应用;建立“一数一源、一源多用”的服务模式,迫切需要建设数据分析模型,实现数据挖掘是从数据中自动地抽取出模式、关联、变化、异常和有意义的结构。安全生产领域涉及行业广、种类多,目前国内其他省份初步建成的大数据应用平台仅对煤矿、危化品等部分髙危行业进行了数据分析建模,但对诸如煤矿瓦斯事故、顶板和透水事故等专业分析模型尚未建立,大数据分析模型研究与建立尚处于起步阶段。2.2.3数据可视化管理的需求安监领域存在海量数据,可视化分析主要应用于海量数据关联分析,由于所涉及的信息比较分散、数据结构不统一,分析过程存在非结构性和不确定性,不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。需借助可视化数据开发引擎,辅助人工操作将数据进行关联分析,并做出完整的分析图表,包含所有事件的相关信息,也要完整展示数据分析的过程和数据链走向。2.3数据需求基于大数据的手段,通过安全生产事故规律识别、特征提取、关联分析等大数据挖掘分析方法,实现安全生产隐患识别、事故预警、精准监管、科学决策,推动政府安全生产监管、企业安全生产管理水平的进一步提髙,其实现的基础和前提是数据,没有数据一切都是空谈,为了满足安全生产大数据分析的需求,需求全面采集安监领域政府内部、相关部门、互联网、企业数据,保证大数据挖掘分析结果的正确性、科学性、可用性,从而更好的服务于安全生产监察监管。数据质量需求安全生产大数据标准规范不健全,数据不全面、质量不髙、时效性差,影响了数据分析挖掘、决策支持与可视化展示等,导致大数据应用效果差。数据种类需求虽然各省安全生产大数据中心建设汇聚了大量的数据,但是安全生产大数据建设上缺乏企业工商数据、舆情数据、事故数据等数据源,一是需要对接省安监局外部数据源,二是需要对安全生产监管监察数据资源进行科学分类,建立数据资源指标体系,统一核心元数据指标,三是需要依据《安全生产监管业务数据共享与交换》等标准数据文档,分析、梳理、整合现有安全生产监管监察数据指标,建立融合多个数据库可行的数据体系,为安全生产监管监察数据模型提供依据。数据接入的需求现各省安全生产大数据中心已经建成,包含结构化和非结构化数据。结构化数据特征:使用达梦MPP架构,多个DM7节点集群,对外提供DM7数据库服务。非结构化数据特征:由达梦统一采集的省内安全生产监管监察相关的文件(含纸质文件录入),包含且不限于以下文件Word文档(DOC、DOCX、WPS)、演示文稿(PPT、PPTX、DPS)、Excel(XLS、XLSX、ET)、CSV文件、文本文件(TXT、RTF)、图片(JPG、GIF、PNG等)、PDF文件、音频文件(MP3、WAV、WMA、OGG、AAC、FLAC等)、视频文件(AVI、MP4、3GP、WMV、MPEG、MPG、DAT等)以及压缩文件(ZIP、RAR、7Z等)。智能管控平台要求必须兼容数据中心所有数据,并将文档型文件的内容解析入库,且对内容建立全文索引。(4)引入外部数据源的需求为了更好地做好安全生产大数据管控平台,首先基于安监领域现有的数据,其次引入九次方大数据公司海量的企业、互联网等数据源,补充完善各省安监领域数据项,完善数据质量。总体设计方案采用先进的大数据技术,及科学的设计方法,对平台的总体架构、数据业务流程进行设计,明确建设目标,平台基于大数据架构进行设计,满足数据开放应用的需求。3.1建设依据3.1.1政策性依据1、《国务院办公厅关于印发安全生产“十三五”规划的通知》(国办发〔2017〕3号)2、 《关于促进云计算创新发展培育信息产业新业态的意见》(国发〔2015〕5号);3、 《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号);4、 《国务院办公厅关于促进电子政务协调发展的指导意见》(国办发〔2014〕66号);5、 《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》(国办发〔2015〕51号);6、 《国务院办公厅关于加强安全生产监管执法的通知》(国办发〔2015〕20号);3.1.2系统建设规范1、 《国家电子政务工程建设项目管理暂行办法》(国家发改委55号令);2、 《国家电子政务总体框架》(国信[2006]2号);3、 《关于开展信息安全等级保护安全建设整改工作的指导意见》(公信安[2009]1429号);4、 工信部《关于印发《国家电子政务“十二五”规划》的通知》(工信部规〔2011〕567号);5、 国家发展改革委关于印发“十二五”国家政务信息化工程建设规划的通知(发改髙技〔2012〕1202号);6、 关于进一步加强国家电子政务网络建设和应用工作的通知(发改髙技〔2012〕1986号);7、 《国家发展改革委关于印发“十二五”国家政务信息化工程建设规划的通知》(发改髙技[2012]1202号);

8、关于进一步加强政务部门信息共享建设管理的指导意见(发改髙技〔2013〕733号);3.1.3安全生产行业相关标准1、安全生产监督管理信息全国安全生产监管监察机构代码编制规则(修订)2、安全生产监督管理信息生产经营单位基础数据规范(修订)3、安全生产数据读取第23、安全生产数据读取第2部分:煤矿指标(试行)4、安全生产数据读取第3部分:金属非金属矿山(含尾矿库)指标(试行)5、安全生产数据读取5、安全生产数据读取第4部分:石油天然气(含陆上石油天然气和海洋石油天然气)指标(试行)6、安全生产监管监察业务基础数据规范6、安全生产监管监察业务基础数据规范第2部分:标准化(修订)7、安全生产监管监察业务基础数据规范7、安全生产监管监察业务基础数据规范第3部分:隐患排查治理(修订)8、安全生产监管监察业务基础数据规范8、安全生产监管监察业务基础数据规范第9部分:非药品类易制毒化学品生产经营企业许可证(试行)9、安全生产统计报表第9部分:非药品类易制毒化学品生产经营企业年度报表(试行)10、安全生产移动执法终端基本技术要求第2部分:煤矿安全监察(试行)3.1.4计算机技术相关标准1、计算机软件需求规格说明规范,GB/T9385-2008;2、 计算机软件测试文档编制规范,GB/T9386-2008;3、 计算机软件测试规范,GB/T15532-2008;4、 系统与软件效率,GB/T29835.3-2013,GB/T29835.1-2013,GB/T29835.2-2013;5、 软件系统验收规范,GB/T28035-2011;6、 信息技术软件资产管理,GB/T26236.1-2010,GB/T26236.2-2010,GB/T26236.3-2010;7、 系统与软件可移植性,GB/T29833.1-2013,GB/T29833.2-2013,GB/T29833.3-2013;8、 系统与软件易用性,GB/T29836.1-2013,GB/T29836.2-2013,GB/T29836.3-2013;9、 系统与软件可靠性,GB/T29832.1-2013,GB/T29832.2-2013,GB/T29832.3-2013;10、 信息安全技术应用软件系统通用安全技术要求,GB/T28452-2012。3.2设计原则1、先进性由于计算机技术和信息技术发展迅速,在系统的设计和建设中,应当有一定的前瞻性,尽可能的采用先进的技术和开发工具,以保证系统和产品的先进性;但也要避免采用不成熟性的技术和以保证系统稳定性。2、 实用性在兼顾系统具有先进性能的同时,按照实用性的原则,整个系统的操作以方便、简洁、髙效、易维护为目标,多操作平台整体设计、统一操作,既充分体现快速反应的特点,又便于管理层及时了解各项统计信息,进行业务处理和综合管理,同时降低整个系统建设成本,保护已有的投资。3、 髙可靠性由于本系统涉及全省安全监管部门及众多企事业单位,使用环境的特殊性,必须保证系统工作稳定可靠。系统每个模块稳定地独立运行,一旦发生故障时不影响其它模块运行。4、 安全性与保密性本系统运行的数据多为敏感、涉密信息,专业数据采用分布存放相互隔离。重要数据要加密处理,甚至物理隔离。5、 应用功能模块化本系统应用广泛,应针对各级用户的不同需求,设计不同功能模块,便于系统功能组合、扩展和提升,有利于保护投资,使投资率和使用率协调发展。有了标准化和模块化,才有利于集成系统的产品化。3.3建设目标大数据是创新安全监管监察模式的必然之路,构建“大数据、大支撑、大安全”的大数据管控平台,实现安全生产事故预测预判和风险防控“信息化、数字化、智能化”的目标。依托各省安监局现有数据中心建设成果,在先进的大数据技术手段的支撑下,建设省安监局安全生产大数据智能管控平台,实现“防、管、控”三大业务功能要求,创新安全监管监察方式方法,进一步强化对企业落实安全生产主体责任的监督管理。为安全生产监管监察和应急管理,为有效防范并遏制重特大事故提供服务和保障。安监大数据智能管控平台主要以安监大数据建模设计和可视化展现为研究方向,旨在通过运用大数据的思维、技术、工具深入挖掘数据价值,实现大数据在安监业务方向的多维创新应用。如面向隐患及事故,建立基于大数据分析的隐患事故关联分析挖掘动态关联体系,做到隐患识别及事故分析预警。通过整合政府与企业、舆情数据,建立多维度立体化的安全生产隐患分析模型,提髙政府的精细化监管能力与对未来安全生产的趋势预测能力。具体如下:整合安监数据中心与外部数据源以安监局数据中心的数据为主,构建以省局基础数据库为核心,建设智能管控平台与完善各类安全监管专业数据库,各市安全生产数据逐步实现与省局数据中心的实时同步。并引入外部数据源,比如工商、舆情、事故等其他单位的关联数据,尽可能多的丰富其他部门业务数据。建立具有各省安监特色的数据主题集。建立开放性的扩展平台实现安监业务的数据服务场景;平台兼容可复制、可扩展、可移植的安监数据模型;兼容开源的可视化工具。利用前沿的渲染技术,加强整个平台的展示效果,实现直观、动态、互动、智能的可视化界面;实现安监大数据服务平台数据模型与可视化管理的基础框架,满足安监的业务扩展需求。开发安监大数据场景服务以各省安监特色主题集为数据源,以数据模型及可视化基础框架为技术工具,以前沿的渲染技术为终端展现标准,结合各省安监的实际业务及各个处室办公系统的数据状况,开发并实现安监特色的大数据场景服务。使安监所有的业务成为一个有机整体,辅助领导决策,提髙工作效率。建设安监大数据场景服务示范区以各省安监局安全生产大数据智能管控平台为基础,逐步增加横向数据源,扩展业务场景服务,如:安全生产事故智能分析、安全生产形态趋势分析等。建设具有全国示范意义的范例。3.4设计思路平台基于大数据基础服务平台、大数据挖掘分析平台、大数据可视化平台,构建安监大数据应用场景服务,平台的设计满足数据开放应用的需求。通过建立数据开放系统可以让安监领域数据信息资源得到最大化利用,推动数据产业的发展,提髙政府安全生产的管理服务水平,满足公众数据需求。数据开放应用是直接面向社会公众的平台系统,在功能和性能上应具有良好的使用体验。3.5总体架构安全生产大数据智能管控平台建设采用J2EE技术架构,遵循SOA体系结构,结合国家安监总局大数据平台建设指导意见要求,并根据

国家标准电子政务模型体系建设的实际要求设计。平台建设规划包括智能管控基础服务平台、大数据模型管理引擎、大数据可视化管理引擎和大数据可视化展示服务等内容。按照大数据架构图进行编辑,按照相关性重新划分产品的分布。其整体架构如下图所示:可视化行业生产安全指敖隐患特证词h布擄 隐患載性備 隐君事故关联洽析曜肯里系可视化行业生产安全指敖隐患特证词h布擄 隐患載性備 隐君事故关联洽析曜肯里系展示信3.6技术路线平台软件应基于国际标准的J2EE多层架构,使应用表现层和运用逻辑层、数据存储分离,从架构上保证系统的灵活、髙效、可支持跨平台应用。采用B/S模式,使用户端可以通过浏览器访问和维护系统,支持远程办公,且用户操作简单、易于上手。软件应支持集群部署,支持主流的中间件如WebsphereWeblogic、Jboss、Tomcat等上的集群部署,任意节点可查看和管理其它集群节点,集群节点可随时动态加入或退出,对某个服务器实例状态的修改,也会自动同步到集群环境中的其他节点服务器上而无需重启各节点服务器。平台采用的技术框架如下图所示:3.6.1基于J2EE架构技术系统设计采用基于J2EE的技术,采用浏览器+应用服务器+数据库服务器的多层构架,能够不加修改地在不同的操作系统上运行,能够支持大用户数和数据量。J2EE是主流的技术体系,J2EE已成为一个工业标准,围绕着J2EE有众多的厂家和产品,其中不乏优秀的软件产品,合理集成以J2EE为标准的软件产品构建协同办公平台,可以得到较好的稳定性、髙可靠性和扩展性。J2EE是一种利用Java2平台来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE技术的基础就是核心Java平台或Java2平台的标准版,J2EE不仅巩固了标准版中的许多优点,例如“编写一次、到处运行”的特性、方便存取数据库的JDBCAPI、CORBA技术以及能够在Internet应用中保护数据的安全模式等等,同时还提供了对EJB(EnterprisejavaBeans)、javaServletsAPI、JSP(JavaServerPages)以及XML技术的全面支持。J2EE提供了一个企业级的计算模型和运行环境用于开发和部署多层体系结构的应用。它通过提供企业计算环境所必需的各种服务,使得部署在J2EE平台上的多层应用可以实现髙可用性、安全性、可扩展性和可靠性。3.6.2面向服务架构体系(SOA)本次项目要求采用基于面向服务的体系结构(Service-OrientedArchitecture,SOA)构建系统,满足项目的松耦合设计要求。面向服务的体系结构是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种这样的系统中的服务可以以一种统一和通用的方式进行交互。3.6.3基于构件的应用开发本次项目采用构件化开发方式,随着多层结构应用的日益流行,基于构件对象的开发技术也日趋成熟,构件作为集中处理各种复杂业务逻辑的应用单元,大大提髙了软件的开发效率。因为它具有更强的独立性,更好地支持软件的重用,软件的重用还可使软件的质量得到极大的提髙,同时提髙了应用系统的质量和可靠性。3.6.4WebServices技术WebService(Web服务)是一种分布式的计算技术,在Internet或者Intranet上通过标准的XML协议和信息格式来发布和访问商业应用服务。使用Web服务,可以在Web站点放置可编程的元素,发布能满足特定功能的在线应用服务,其他组织可以通过Internet来访问并使用这种在线服务。Web服务使用的是开放的Internet标准:Web服务描述语言(WSDL,用于服务描述),统一描述、发现和集成规范(UDDI,用于服务的发布和集成),简单对象访问协议(SOAP,用于服务调用)。Web服务具备如下特点:>互操作性:任何的Web服务都可以与其他Web服务进行交互。因为SOAP协议是所有供应商都支持的标准,避免了在CORBA、DCOM和其他协议之间转换带来的麻烦。>普遍性:Web服务使用HTTP协议和XML进行通信。因此,任何支持这些技术的设备都可以拥有和访问Web服务。>易用性:Web服务的概念易于理解,任何开发语言都可以用来编写Web服务。目前已经有许多工具可以开发和部署Web服务,还有一些工具可以将已有的COM组件和JavaBeans、EnterpriseJavaBeans部署为Web服务。由于Web服务的这些特点,使得Web服务成为EAI解决方案的一个理想选择。3.6.5消息队列消息队列主要异步处理、应用解耦、流量削峰和消息通讯四个方面进行应用,当系统中出现“生产”和“消费”的速度或稳定性等因素不一致的时候,就需要消息队列,作为抽象层,弥合双方的差异。“消息”是在两台计算机间传送的数据单位。消息可以非常简单,例如只包含文本字符串;也可以更复杂,可能包含嵌入对象。消息被发送到队列中,“消息队列”是在消息的传输过程中保存消息的容器。队列提供了一种异步通信协议,这意味着消息的发送者和接收者不需要同时与消息保持联系,发送者发送的消息会存储在队列中,直到接收者拿到它。为了实现髙性能,髙可用,可伸缩和最终一致性架构。本项目采用消息队列技术,解决大型分布式系统中实现时间和空间解耦的问题。3.6.6OAuth2.0协议OAuth(开放授权)是一个开放标准,允许用户授权第三方移动应用访问他们存储在另外的服务提供者上的信息,而不需要将用户名和密码提供给第三方移动应用或分享他们数据的所有内容。OAuth的参与实体至少有如下三个:RO(resourceowner):资源所有者,对资源具有授权能力的人。RS(resourceserver):资源服务器,它存储资源,并处理对资源的访问请求。Client:第三方应用,它获得RO的授权后便可以去访问RO的资源。此外,为了支持开放授权功能以及更好地描述开放授权协议,OAuth引入了第四个参与实体:AS(authorizationserver)):授权服务器,它认证RO的身份,为RO提供授权审批流程,并最终颁发授权令牌(AccessToken)。读者请注意,为了便于协议的描述,这里只是在逻辑上把AS与RS区分开来;在物理上,AS与RS的功能可以由同一个服务器来提供服务。3.6.7模型技术本项目数据建模使用的开发环境、开发工具全部是国际主流的数据科学领域开源软件,并且是未经修改的原生版本。建模过程中所使用的算法也是在国际通用的机器学习算法基础上进行融合与调优。模型成果可以广泛地与使用开源架构的第三方平台实现良好兼容。模型主要使用Python进行开发。其中数据预处理和机器学习部分主要使用Python的NumPy、pandas、SciPy、scikitTearn等工具包完成。深度学习部分采用Google研发的开源深度学习框架Tensorflow进行。模型在大规模机器学习运算时会使用Spark来进行。根据项目需求,建模所使用的算法和模型主要包括时间序列模型,如Detrend、Deseasonality、ARIMA等;机器学习算法,如C4.5、

RandomForestAXGBoost、SVM、DBSCAN、K-means等;深度学习自然语言处理模型,如词向量语义模型、机器翻译语义模型、卷积神经网络语义模型等。3.6.8可视化技术整个前端人机交互系统与可视化应用均采用MVVM架构,MVVMViewModel Model(Model-View-View-Model)是一种软件架构模式,MVVM有助于将图形用户界面(无论是通过标记语言XML还是GUI代码)从开发业务逻辑或后端逻辑(数据模型)中分离出来。ViewModel ModelRindingIIPreseiitatlcNiRdPmenlationiLqg.Ec Bu^ines^jagicandDalaMVVM的视图模型(ViewModel)是一个值转换器,即视图模型负责从模型中暴露(转换)数据对象,使得对象被轻松地管理和呈现。在这方面,视图模型比视图更多地接触模型,并且处理大多数视图的显示逻辑。视图模型可以实现调解器(Mediator)模式,组织对视图提供支持的后端逻辑的访问。MVVM是MartinFowler的PresentationModel设计模式的一个变体OMVVM以相同的方式抽象视图的状态和行为,但是PresentationModel以不依赖于特定用户界面平台的方式抽象视图(创建视图模型)。MVVM和PresentationModel都源自于模型-视图-控制器模式(MVC)。在MVVM中,模型(Model)指代表示真实状态内容(偏向面向对象)的域模型或表示内容的数据访问层(偏向以数据为中心);视图(View)则如在MVC和MVP模式中一样,是用户在屏幕上看到的结构、布局以及外观;视图模型(ViewModel)是暴露公共属性和命令的视图的抽象,替代MVC模式的控制器或MVP模式的呈现器,MVVM具有绑定器,在视图模型中,绑定器介入视图和数据绑定器之间的通信,并且视图模型被描述为模型中的数据的状态。MVVM模式试图获得由MVC提供的功能开发分离的优点,同时利用数据绑定,使得框架通过绑定数据尽可能接近纯应用模型。通过使用绑定器,视图模型和任何业务层的数据检查功能可验证传入的数据,最终使得模型和框架执行尽可能多的操作,消除或最小化直接操纵视图的应用逻辑。3.7总体数据业务流程设计3.7.1数据流向概况数据在智能管控基础服务平台总的流向是平台数据读取模块从数据中心读取数据,经过数据比对修正、修正等操作后存入落地库;然后融合模块从数据中心和落地库关联融合数据后存入落地库;模型分析模块从数据中心和落地库读取数据将分析结果存入落地库;数据服务模块将读取、融合和分析结果数据封装成服务对外发布;最后应用通过数据服务调取数据。其数据流向概况图:数据服务W?及^i据,数据中心数据服务W?及^i据,数据中心应用3.7.2数据流向设计平台管理员通过配置操作给读取任务、修正任务、模型分析任务和数据服务提供基础规则;平台管理员(不同机构拥有不同数据权限)还可以申请/审批数据服务、监控任务、浏览数据、追溯数据和日志分析等。其数据流向如下图所示:业务数据流程设计:数据願祉理—应用竖极吱櫟BS岡用*裁据服务敬据读取-任务一樹型分析-任务一r 朝配冒•解瞞、瞄读写配置 —应用库瀬媵下数据.匸回蚩正后海模型运算落地库薮据中心应冃平台管理员业务数据读取设计:任务管理P24文件读成规则P2.2读取顾配置P2.1数据源管理数据源I ►蟾牒A文件规则表A读取规则表任务配置表平台管理员数据读取包含:•数据源管理数据源配置及测试•读取规则配置读取、修正等规则管理•任务管理读取任务配置及监控•文件读取规则文件读取配置及浏览3.8性能设计平台性能满足如下要求:•系统一般查询响应时间小于3秒,多条件查询响应时间小于8秒。•系统用户访问满足500以上并发。•系统能够满足7*24的稳定运行。•系统具有较好的容错性和故障恢复能力。3.9安全设计本系统依据国家标准《计算机信息系统安全保护等级划分准则》,实行等级防护、适度防护,使系统最终达到信息安全主管部门规定的第二级安全保护标准的要求。将防护的重点放在系统层和应用层的安全上。重点保护局方计算环境和数据文件的安全,确保系统用户身份的真实性和可审核性。3.9.1身份鉴别系统应具有专用的用户权限管理系统,实现本项目内所有系统单点登录控制,实现身份标示(用户名)唯一,能够限制口令的复杂度(长度、字母、特殊字符等),能够对非法登陆(如:暴力破解),进行锁定账号或封禁IP等限制措施,对非法登录次数要有限制。具体内容如下:•提供专用的登录控制模块对登录用户进行身份标识和鉴别。•提供统一的用户管理模块对用户账户进行管理,用户身份标识具备唯一性。•提供登录失败处理功能,指定用户非法连续登录次数超过指定范围将在一段时间锁住该用户,登录失败时可自动关闭登录页、结束会话。•提供安全策略功能,可以设置复杂密码检查、规定密码长度、限制非法连续登录次数等参数。3.9.2访问控制系统应提供基于功能模块的用户权限自定义功能,功能模块要细化到最小功能点,管理员可通过自主定义的方式为用户开通账号权限。系统中的重要数据,存放时需进行数据分类,管理员可按照不同角色划分用户对重要数据的访问权限,并以此进行访问控制;允许禁用默认账号;系统访问设置IP地址限制,对非法访问的IP地址进行访问限制,提供IP地址黑白名单的设置功能。具体内容如下:•提供基于角色的访问控制功能,规定不同的角色访问不同的业务功能,不同的业务功能只能访问指定的文件和数据库表,从而实现用户对资源的访问控制。•访问控制定义了用户与角色之间的关系,定义了角色与业务功能之间的关系。•角色权限最小化。管理员只关注配置管理工具,不能操作业务数据,而业务用户只关注所属的业务范围,不能参与配置管理工作。3.9.3资源控制系统正式部署运行时,应从中间件或web服务器上,设置最大并发数、最大网络流量限制。对于异常访问,能够主动切断连接,保护应用的正常使用。系统需具有重要数据防泄漏的相关措施。具体内容如下:•应用程序均设定会话过期时间,服务器在指定时间段内没有收客户端的活动时将放弃会话,以回收资源。•能够配置应用程序的最大会话数,超过会话数时将限制用户的登录。•只允许同一个时刻单个用户进行一个会话。当同一个用户第二次登录时,第一个会话将结束;或者能控制在第一会话结束时,该用户不能重复登录。4.项目建设内容依托各省安监局现有数据中心建设成果,在先进的大数据技术手段的支撑下,建设省安监局安全生产大数据智能管控平台,实现“防、管、控”三大业务监管要求,创新安全监管监察方式方法,进一步强化对企业落实安全生产主体责任的监督管理。为安全生产监管监察和应急管理,为有效防范并遏制重特大事故提供服务和保障。安全生产大数据智能管控平台主要以安监大数据建模设计和可视化展现为研究方向,旨在通过运用大数据的思维、技术、工具深入挖掘数据价值,实现大数据在安监业务方向的多维创新应用。如面向隐患及事故,建立基于大数据分析的隐患事故关联分析挖掘动态关联体系,做到隐患识别及事故分析预警。通过整合政府与企业、舆情数据,建立多维度立体化的安全生产隐患分析模型,提高政府的精细化监管能力与对未来安全生产的趋势预测能力。本项目建设内容包括:基础服务平台、分析模型及可视化管理、安监大数据业务场景服务等功能。安全生产大致据智能管控平台4.1基础服务平台以继承、借鉴、融合、创新的思路建设大数据智能管控平台,其功能定位于实现通用的大数据、管理、服务与应用平台,该平台兼容各类主流外部数据源(包括结构化和非结构化数据源),进行灵活自定义的数据采集,经过标准化清洗后进行数据融合与大数据管理,在此基础上提供智能搜索与数据分析挖掘工具,以及丰富的可视化展示工具,实现各类业务应用,同时提供各类外部服务,供外部系统调用。从系统功能上说,智能管控基础服务平台解决了两个维度的主要问题:1、数据治理,提供全方位的数据治理能力,包括但不局限于如下内容:数据的质量管理,数据的标准化管理,数据的元数据管理等;2、提供统一的数据资源服务访问体系,对上层应用提供统一的标准接口,同时兼容第三方服务。平台主要实现安监大数据应用建设的需求,满足安监领域采集各部门数据,以及数据平台自定义公开等数据相关业务的需求。采用先进的设计理念,以组件化为主,逐步完善组件库,组件与组件之间保持松耦合,但是又保持其技术路线的严格一致。应用支撑平台中提及的各个平台,包括智能管控平台,就是有基础服务平台、流程组件,存储组件进行搭配而成的。保证了平台搭建的灵活性和应急能力。平台总体架构设计如下图所示:智能管控基础服务平台总体架构图平台内建立兼容的统一的用户身份认证体系,包括身份管理与数据服务、资源管理与访问控制等,如果区域内没有其他的统一用户身份证认证系统,那么本系统能够向区域范围内所有系统提供统一的用户认证服务。统一用户身份证认证使用OAuth2协议认证实现SSO单点登录,建设比较完善的多系统用户统一授权方案。4.1.1数据源管理对省安监局数据中心的数据进行梳理与归集,并引入九次方大数据公司丰富的数据对已有数据的补充与修正,为安监大数据智能管理平台的建设奠定数据基础。按照数据源需求的要求,智能管控平台数据源建设兼容国内常见的关系数据库、非关系型数据库、HTTPAPI、WebService、分布式文件系统、文件共享和FTP。关系型数据库包含:Oracle、DB2、Sybase、SQLServer、MySQL、PostgreSQL、KingBase、GBase。非关系型数据库包含:MongoDB、HBase、SequoiaDB和Neo4j。分布式文件系统包含:HDFS和FastDFS。大数据智能管控平台在处理非结构化文件数据时,默认使用的环境是将文件存入HDFS,文件解析的内容数据存入HBase,对文件内容使用ElasticSearch创建全文搜索引擎。非结构化数据的接入按照数据中心所提供的方式相应处理,目前大数据智能管控平台所兼容的形式有目录共享、FTP、HDFS、FastHDFS和文件上传(支持批量),如果数据中心所能提供的方式不在此范围内,可以以扩展插件的方法兼容新的数据接入方式。非结构化数据的存储,大数据智能管控平台默认选用HDFS存储文件,HBase存储文件解析出的内容,使用ElasticSearch创建全文搜索引擎,以及基于Hadoop进行数据分析和挖掘。大数据智能管控平台已经实现将文件存储在HDFS中,通过HTTP协议(通过WebProxy隐藏HDFS,不用将HDFS暴露在外网环境中)进行实时访问,且音视频文件支持快进/加速播放等。鉴于数据中心已实现结构化和非结构化各种数据及文件的存储,大数据智能管控基础服务平台在加载数据和存储数据时,对接的都是安监已经建设完成的数据中心的各种服务。特色数据除政务数据以外,更多的数据是以分散形式散落在互联网、个人、团体、企业之间,这部分数据将是大数据应用分析的重要数据源,是政务数据的有力补充,大数据智能管控基础服务平台建设需要通过一定手段获取社会数据、互联网数据。通过移动应用分散采集,将数据即时输入智能管控基础服务平台,将数据进行集中管理,保障数据上传的及时、髙效、更新速度快。实现全省信息采集方式的统一和采集内容的梳理,实现网格信息采集的标准化、规范化。通过网格化、精细化数据采集,将地区服务所需的社会化信息数据,按照规定的数据格式及要求分类汇总,汇总信息推送到智能管控平台,以解决信息获取成本髙,获取更新不及时的问题。另外九次方已有舆情数据、事故数据、企业信息数据和法人数据,可以为各省安监智能管控平台提供更丰富准确的数据资源,保障数据分析的准确性和可用性。舆情数据数据来源:九次方数据更新频率:实时数据同步方式:API数据同步频率:实时事故数据数据来源:九次方数据更新频率:月数据同步方式:API数据同步频率:月企业信息数据数据来源:九次方数据更新频率:日数据同步方式:API数据同步频率:日法人数据数据来源:九次方数据更新频率:月数据同步方式:API数据同步频率:实时调用数据来源:九次方数据更新频率:月数据同步方式:API数据同步频率:实时调用数据源配置关系型数据库配置如下图所示:新增数据源(DM7)中心库描述:新增数据源(DM7)中心库描述:舞型:®前置机@中心库取消测试取消关系型数据库配置图非关系型数据库兼容产品有MongoDB、HBase、SequoiaDB和Neo4j。

非关系型数据库配置如下图所示:新増数据源(HbaseJ*数据源名知krti5.CQnf*krb5:kitaconf*keytabr*Principal:...\蛆织机构:*中心库+類D+游加甘詩:颂启用9停用巣型:■前■机*中心库+類D+游加非关系型数据库配置图另外数据源还支持HTTPAPI和WebServiceo数握库用户名敷据庫卷码敗据库名租数握库用户名敷据庫卷码敗据库名租祝置情息编玛搭式UTF-a実时/离锹令义时・慶圾舊表醐裏名数据源配置示例图上述所有数据资源产品和数据形态,基本能够做到全部涵盖已经建立的数据中心所有数据对接,能够满足安监大数据平台对数据源的需求。4.1.2接入管理接入点注册在接入点向安监大数据智能管控平台注册时,智能管控平台会自动检测接入点提供的属性信息是否正确,只有正确后,才可以注册,接入点才可以接入智能管控平台。接入点配置由于数据中心和很大一部分的业务系统早已开发完成,且采用的数据库可能不同,预计有Oracle和SQLServer等等。虽然智能管控基础服务平台主要对接数据来源是数据中心,但是考虑将来的不确定性,为保证平台的健壮性开放性,平台建设时兼容对各种数来源读取调用,通过定制不同的接入点,将接入点发布到智能管控基础服务平台上。这样就最大限度的提髙了数据源接入兼容性,也保证了数据的安全。接入点的管理员可以根据需要设置本接入点的类型(只能收、只能发、接收都可)、本节点只涉及接收类型,如果管理员本身是接入点的创建者,还可以设置本接入点的管理员帐号。接入点维护新增接入点根据各个业务系统的实际需要,系统管理员可以增加新的接入点,和建立新接入点的管理员帐号。为了便于管理和资源的充分利用,规定一个单位或部门只有一个接入点(因为多个业务系统可以通过一个接入点接入智能管控基础服务平台)。如果要新增接入点,由使用单位或部门提出书面申请,经系统平台管理员审核同意后,统一由系统平台管理员新增接入点,同时由系统平台管理员设置新增接入点的相关信息修改接入点因为各个单位、部门的业务系统的数据种类是变化的,且用户的要求也是变化的,所以接入点的管理员要根据需求实时来修改其接口,满足平台对数据的需求。接入点的管理员先查询到要修改的接口,然后对接口的关键字及其他属性进行修改,但接入点的唯一标识(比接入点编号)不允许修改.修改后的接口在智能管控基础服务平台上能立即反映出来,以便其他单位、部门使用。(3) 删除接入点如果接入点的管理员认为其定制的接入点已没有使用意义或已被新的的接入点替代,由接入点的管理员提出书面申请,经智能管控基础服务平台系统管理员(接入点的创建者)审核通过后,统一由智能管控基础服务平台系统管理员进行删除。接入点的管理员只能申请删除自己管理的接入点,在接入点删除后,智能管控平台记录删除日志,并删除与它有关的在服务器(JMS)的队列.删除接入点的信息要在智能管控基础服务平台监控上立即反映出来,以便其他单位、部门不再向它发送信息。(4) 查询接入点根据需要,可以按类型、状态查询各个接入点的情况,可以统计各个接入点的类型、状态(是否有效、是否已删除)。前置机管理安监相关部门配置前置机,成为与信息服务总线相连接的桥梁,同时也是与部门内部业务系统及业务信息库相隔离的“堡垒”在部门前置机上安装前置数据库、应用适配器和信息软件,用于实现信息的发送和接收。部门前置机系统逻辑结构如下图所示。前置机系统逻辑结构图前置数据库部门前置机安装SQLServer/MySQL/Oracle/DM7数据库作为部门前置信息库。应用适配器系统部门前置机安装应用适配器系统。应用适配器系统负责自动从部门前置信息库提取数据发送到信息总线,同时,从信息总线上获取信息并存储到部门信息库。部门前置机上的应用适配器系统还实现部门业务信息库与部门信息库之间的信息桥接功能。信息软件部门前置机安装消息中间件产品作为信息软件系统,与中心服务器的信息软件共同构成信息总线。4.1.3数据加工数据加工模块通过大规模,可扩展算法的ETL实现数据的清洗、转换、加载功能;保障数据正确、完整、规范地加载到目的地;解决数据整合过程中的传输异常、数据加载异常、数据结构与质量异常等问题。数据清洗功能包括但不限于:数据转换、数据去脏、数据修正和转换规则的计算,批量分布式清洗和实时不落地清洗,数据转换规则配置,数据处理过程日志,数据清洗转换处理多组件设置,硬编码数据转换、库外数据转换。数据加载功能包括但不限于:全量数据加载、增量数据加载、流式(实时)数据加载、数据加载过程控制、数据校验、异常处理等。清洗、加载模块通过可视化的数据处理工具实现,该工具应该提供新的数据源加入大数据平台体系;并可根据不同的清洗规则进行可视化配置;根据需求通过页面可视化配置清洗规则,完成规整化处理;对清洗过程中无效空数据、重复数据自动过滤;对清洗过程中不完整或不准确的数据(如企业数据)参考九次方的特色数据(如九次方企业信息数据)进行修正和补齐;对清洗过程跟踪,根据各个清洗规则组件,实现可插拔的页面可视化配置。晦蚣漕.大牧据共享註台甲台执行住員B清洗工員制计站加土心工目加:K.4?*dk£-Q.msicrajm^EIH郊晦蚣漕.大牧据共享註台甲台执行住員B清洗工員制计站加土心工目加:K.4?*dk£-Q.msicrajm^EIH郊+iUE«7FtUH〈匚A皿敝舛荘亀15谚SB■节变■Wf日I72I5S2C-.J2&IT-a3-30OS:00:OQSISfaSE-HZW1721网34ZZzffiT-na-aooz:oo:00mI6H3&2S2&1T413-XIOI.00:00口■CO:00IM31炭丘站ESTITZIBHBt.iajiUT-na-aao:co:000«数据清洗仪表盘图数据加工成果最终形成数据主题集,主题集数据落地存储时同时通过全文搜索引擎、数据缓存等组件和服务对主题集数据建立索引,便于后续数据服务、业务场景服务等处快速检索调用。4.1.4数据质量管理通过建立完善的数据质量分析机制,实现对信息资源库中的数据不断地进行数据校验、比对,完成不规范数据的清洗和过滤,建立问题数据下载、订阅和查询统计功能,并提供相应的数据质量分析报告,通过技术手段促进数据质量的提升。大数据质量管理模块包含数据质量控制、数据质量评估及数据稽核管理三部分。数据质量控制部件支持数据质量规则需求的手动配置和自动化优化建议,依据历史运行信息自动调整算法、阀值、优先级建议;支持数据质量执行周期配置;支持数据质量的数值、波动、平衡性、关联性、一致性监控。数据评估部件支持数据质量自动化评估,动态出具数据质量报告、数据质量优化建议报告。数据稽核管理部件支持数据质量稽核管理规则配置、稽核任务调度配置、稽核结果分析等。本平台是提供以后安监各项统计分析的数据基础,对于数据统计分析来说,数据质量是分析结果有效性和准确性的基础,也是最重要的前提和保障。数据质量包括数据的完整性、唯一性和参考完备性、一致性、及时性、准确性等,数据质量问题包括数据重复、缺少数据、错误的数据值、缺乏数据对应、错误的数据依赖、计算错误、无效关联、错误范围等。为保证数据质量,数据整合配置需要经过配置审核后才能启用。在数据抽取到中心库后,需要对落地数据作详细的数据剖析,包括列分析、连接分析、键值分析等,通过箱线图等统计学工具,清楚数据的整体分布和离散情况,作进一步数据清洗。同时记录整个数据流转过程流水,发现数据质量问题后可回溯数据质量问题源头,解决数据质量问题BUG。质量指标管理优秀的数据必须是合乎用途的数据。构成数据质量的各个特征如下:1) 数据是标准化的数据。每个数据实体都是唯一的。数据符合所有业务规则和数据规则要求。数据通过权威机构的认可。数据是完全的。同时,在评定数据质量时,综合运用不同的数据质量维度指标体系:第一维:可访问性,即识别、获取和使用信息的难易程度。第二维:准确性,即数据能否正确表述实际情况或可核实的来源。3)第三维:可信度,即数据与其客观性含义的偏离程度。4)第四维:完整性,即需要的所有数据是否全部存在。5)第五维:综合性,即对所有必要的信息进行正确的编码。6)第六维:符合性,即要求所有值全部符合格式要求。7)第七维:一致性,即值在所有系统和文件中表示的含义相同,也称连贯性。8)第八维:重复性,即系统内或系统间是否存在特定记录的不必要重复。9)第九维:时效性,即需要时数据是否可用。质量分析机制管理通过建立完善的数据质量分析机制,实现对信息资源库中的数据不断地进行数据校验、比对,完成不规范数据的清洗和过滤,建立问题数据下载、订阅和查询统计功能,并提供相应的数据质量分析报告,通过技术手段促进数据质量的提升。探查数据以发现和评估数据的内容、结构和异常,建立数据质量度量并明确目标,设计和实施数据质量业务规则,将数据质量规则构建到数据集成过程中,检查异常并完善规则,形成异常报告。质量分析报告在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到所设定的数据质量目标。然而,无可避免仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。异常报告流程可便于解决和修正这些弱点,可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。数据管理员、业务分析师和IT开发人员能够通过基于角色的工具共同分析任何问题的根本原因。除了完善规则,还需要适当编辑或修正一些数据。通过异常管理功能,不仅能够用其进行检查,而且还能够修正数据质量问题。异常可能包括重复记录、或者其它存在于数据字段和属性之中的矛盾或不一致之处。一旦明白问题所在,就可以制定或修改业务规则,以从源头上解决问题。通过检查和处理缺陷。在数据质量解决方案的初步部署阶段,异常报告显得尤为重要,可借机在缺陷数据损害下游应用程序之前将其纠正。而在将新的数据源纳入数据质量解决方案时,异常报告也颇有价值。4.1.5元数据管理元数据与数据目录密切相关,良好的元数据管理是目录管理的有效基础和前台。元数据的范围包括数据源数据结构、数据词典、字段维度、程序映射逻辑、数据生命周期等。元数据管理包括元数据定义、存储、查询、维护、检查和分析应用等功能。包含数据来源、变迁历史、信息资源和系统运行等各阶段元数据信息的管理维护。元数据与数据目录密切相关,良好的元数据管理是目录管理的有效基础和前台。元数据的范围包括数据源数据结构、数据词典、字段维度、程序映射逻辑、数据生命周期等。元数据管理包括元数据定义、存储、查询、维护、检查和分析应用等功能。由于元数据种类繁多,不同元数据的属性种类和数目差异巨大,即使在同种类的信息资源元数据中,由于信息资源多种多样,因此描述其特征的元数据结构也多种多样,需要适应不同类型的信息资源而运用不同的元数据项。为适应这种变换,本系统在传统的按元数据分类专向固定各分类元数据属性项设计的基础上,建立动态元数据描述体系,每类元数据除了基础元数据属性信息外,还建立与本类别相适应的可扩展动态元数据项。动态元数据体系架构划分为四层,元数据项层、元数据项约束层、元数据对象层与元数据对象关联关系层。元数据项层负责管理元数据项,对元数据项进行扁平化管理。元数据项约束层对各个元数据项的数据的约束条件进行限定,每个元数据数据约束同元数据项—对应。元数据对象层,通过对元数据项进行组装,形成不同的元数据对象,从而实现元数据对象的灵活组装,可快速响应不同业务的需求。元数据对象层将元数据对象同对象间关联关系分离,方便元数据的追溯与关联关系的抽取。本系统对应各类所管理的元数据的管理功能包括:系统运行元数据管理,该模块所存储管理的主要是整个系统运行的信息,包括系统的各种配置信息,以及各配置信息的修改变更情况。核心元数据信息管理,该类元数据较为特别,是信息资源数据所必须引用和符合的代码、分类等基础登录数据的管理,包括定义,增/删/改/查等操作。数据元管理,提供数据元标准的创建与维护功能。开发以数据元为核心的数据标准动态管理,实现对数据元的科学分类管理,完成对数据元的全生命周期管理,并为各业务、各委办局提供数据标准、数据元的应用(查询检索、应用接口、数据下载)服务。数据来源元数据管理,数据中心的所有数据都来自各个委办局的业务系统,在经过清洗、转换、整合后形成的,并提供对外服务。由于数据中心本身不产生数据,因此其数据的权威性取决于其来源的权威性,必须对各数据的来源进行充分的纪录。由于存在多个来源可能,因此来源元数据管理必须记录到每个属性数据的每个记录的来源。数据来源元数据管理主要提供此类元数据的记录和查询。变迁历史元数据管理,由于数据中心的数据存在清洗、转换和消重整合的过程,甚至需要人工干预,为了保证数据的正确性,必须对数据变迁的过程历史进行记录,以保证可以追溯和追踪。变迁历史元数据管理提供此类元数据的记录和查询。操作历史元数据管理,为了保证数据的正确性和安全性,需要对数据的所有操作记录进行记录管理,管理的内容主要包括5WlH(who,when,where,what,why,how)。信息资源元数据管理,信息资源元数据管理是管理所有数据中心所拥有的信息资源的描述信息,由于信息资源多种多样,因此描述其特征的元数据结构也多种多样,需要适应不同类型的信息资源而运用不同的元数据项。为适应这种变换,需要建立动态元数据描述系统,每类信息资源除了基础元数据信息外,还需要与本类别相适应的可扩展动态元数据。4.1.6数据服务与治理数据服务是数据形成主题库之后的另一种数据共享方式,动态的将主题库表以接口的形式发布出来,通过安全传输、多层授权及加解密保障数据的安全使用。数据服务提供对异构数据的WEB访问接口。通过标准化的数据访问接口,可实现对关系型数据库、Hadoop数据库、内存数据库等多种数据的统一查询、检索访问。通过该服务,可以访问、查询相关委办局的业务数据信息,满足应用系统对于数据操作的应用需求。数据检索包含关键字检索、时间/时间段检索等多维度的检索方式。检索通过全文索引搜索引擎、数据缓存等方式加速访问。数据服务严格的访问权限控制,支持对单次、固定时间周期等条件下的操作数据量控制。服务发布就是将主题库表形成数据服务的定制过程。服务编排是数据服务发布之后,将多个不同服务按照不同需求进行排列组合,形成一个单一的服务,以简化服务调用的复杂度。垣白申心大敢据共享融台平台«网爲佢用負况亀笛■.用务分羨史计-匣务调用林行Tg5占比:£5/土垣白申心大敢据共享融台平台«网爲佢用負况亀笛■.用务分羨史计-匣务调用林行Tg5占比:£5/土ghti占tt:1RF7%■•程务调用实时直息王.兌.加互ZAKatfJ-CO-K H□也K1?-C-3-^3CiCi-4h-*iHH-iM-21ML 丽者557数据服务仪表盘图4.1.7运行监控运行监控,从数据库、软件、硬件等维度进行系统实时监控、运行平台性能实时监控和预警,以反应数据中心运行的整体状况。日志管理,实现日志信息查询统计与分析管理,包括但不限于:登录登出日志、访问日志、操作日志、日志统计、用户状态管理。数据采集过程监控,实现对采集过程监控的数据依据执行中的任务、未启动的任务、执行失败的任务进行分类筛选监控。运行监控,从数据库、软件、硬件等维度进行系统实时监控、运行平台性能(包括CPU、内存等使用情况)实时监控和预警,以反应数据中心运行的整体状况。传输监控传输监控的主要任务是对平台本身和流过平台的数据包进行观察与控制。传输监控包括如下几个方面:对数据流量和状态的查询、统计与审计;对平台自身运行状态的查询和监控;对平台的远程监控。数据流量和状态的监控,首先是对于所有通过平台进行的数据总量的把握,其次是对每个通过平台的数据包状态的微观把握。通过监控功能,可以了解在指定时间内按照进入/转出、目的地/来源地、数据量大小等项目进行查询和统计,从而实现对总量的把握;通过对数据状态(例如等待处理、正在进行、处理完毕、回执收到、处理中断等)的监控,可以追踪某一个指定数据的状态。对平台自身运行状态的查询和监控,是为了确认平台自身的运行是否正常。查询和监控的对象主要是构成平台的各类软件运行实体(例如进程、队列等)。以进程为例,监控的主要操作包括查询进程状态、停止进程、重新启动进程等。对平台的远程监控,是指通过监控命令的交换,对系统中的远端平台部件进行上述监控。由于平台的运行记录不仅是进行监控的重要依据,还是进行审计的重要基础,因此根据监控的功能设计,必须实现相应的日志机制。前置节点运行监控平台通过网络连接了许多不同的节点,通过监控系统能对分布在不同物理位置的前置系统状态进行必要的监控,及时发现异常的监控节点。数据库运行监控平台涉及中心数据库,前置节点数据库等多套数据库系统,通过监控系统能实时了解各节点数据运行的状态,能通过图示的方式进行提醒。适配器监控监控平台对桥接服务实行数据传输量监控,速率监控,历史数据统计等监控管理,对有关的各种组件运行状态及日志情况,可以非常方便的进行监控及查询。4.2分析模型及可视化管理通过建设大数据模型管理引擎,为场景模型提供各类业务模型功能的支撑。各省安监大数据智能管控平台数据模型使用的开发环境、开发工具以开源软件为主。建模过程中所使用的算法也是在国际通用的机器学习算法上进行融合与调优。模型成果可以与使用开源架构的第三方平台实现良好兼容。建设以安全生产领域各类数据为驱动,基于数据本身结构、内容进行绘制,视觉艺术呈现;通过对场景实时渲染,绘制随数据变化而变化,实现人机交互。数据可视化展示服务,提供一个数据可视化集中展现的入口。用户可以访问到权限范围内可以查看的数据可视化图表。这些图表都是通过数据可视化引擎定制的。4.2.1模型管理本项目平台研发中将采用的开发工具有:Python,R,Java,Javascript,C++,Matlab,Perl,Spark,Hadoop,SQL等。其数据模型算法如下图:产即桔胜asId馈翩也产即桔胜asId馈翩也IeSU!数据模型算法图♦模型数据管理九次方数据源服务:>事故数据>企业数据>舆情数据>法人数据>气象数据模型数据管理包含数据读取和数据预处理。数据读取是从数据中心读取既定业务场景的模型所必须的数据;数据预处理是参考九次方数据对读取到的数据进行修正处理。在经过数据预处理之后,模型即可加载这些数据进行运行,最终产生业务场景可视化所需要的数据。♦模型设计整体工作流程业务理解方案卖施建剖古模型设计整体工作流程图业务理解方案卖施建剖古模型设计整体工作流程图各省安监大数据智能管控平台是基于上述流程进行的模型设计,开发和验证,进而满足对数据分析和挖掘方面的需求。其中,对业务的理解和对数据的理解,通过双方数次深入的沟通和交流取得了实质性的进展。双方业务人员、技术人员通过交流,确认了若干具体的点,并首先进行“重复性隐患识别与潜在威胁探测”模型的设计和开发。整个模型开发部署优化大体有四个阶段:模型设计开发、训练、Pilot验证、部署、优化。♦业务模型训练业务模型的训练是指在正式部署模型前,对模型进行pilot实验过程,所使用的实验环境为九次方模型组的pilot环境。需要提供隐患“两化”平台内适量的数据样本,以满足设计和开发模型的要求。该过程通常和数据源梳理同时开展。♦业务模型部署业务模型的部署是指在模型设计和开发结束后,在安监大数据平台上进行的模型测试过程。所使用的环境为离线pilot环境。所使用的数据为备份数据。其目的是验证模型的设计,QA,以及发现其它问题。♦业务模型优化业务模型的优化是指在模型上线运行后,依据模型的实际使用情况,对模型的参数进行实地调优的过程。所使用的数据是离线备份数据。♦监控监控模型读取数据、数据预处理和模型运算的过程已经异常日志,便于定位系统异常及模型异常问题。平台中模型管理模块,在满足上述内容的基础上,模型实现动态可插拔(无任何调用才可安全拔除,有调用时仅控制为不可以新增目标模型调用)的部署方式,按照规定的语言及规则开发的模型都可以加载部署到平台中,在线调试和训练模型,最终的运算结果也可以被第三方应用通过数据服务进行调用。模型配置示例图4.2.2可视化管理数据可视化图表以组件化的形式存在,将这些组件包装成系统模块,在增加业务场景或调整业务场景的数据可视化图表时,不需要修改系统代码,且系统不需要重新启动,动态的配置可视化展示所需要的图表和展示图表所必须的数据来源及对应的数据格式。从视图模板中选择需要的视图,然后给视图配置数据来源及字段映射,配置显示数据信息,预览视图效果,最后保存并发布视图。可视化组件定制完成后,支持将视图对外发布,通过权限(Token)、域名等方式控制视图外部调用。由此打通数据、分析模型及可视化组件的开放式调用,形成数据平台开放性的完整闭环。可视化管理通过可视化管理最终生成可视化视图库,拥有视图调用权限的系统或平台(含第三方系统)都可以从视图库里调用权限范围内的视图,将模型分析和可视化打造成开放平台,便于以后的功能扩展。4.3业务场景服务可视化业务应用场景:安全生产形势评估、事故智能分析、隐患关联分析、隐患事故关联分析四块功能组成。4.3.1安全生产形势评估场景描述通过行业安全生产形势可以对各地区、行业安全生产活动的状况和水平进行综合评价,并可动态地反映安全生产持续改善水平,对地区、行业进行综合的横向比较分析。有利于监管部门进行科学评价、为重点监管方向提供决策支持。模型思路以企业为核心,建立企业安全生产管理数据宽表,使用主成分分析法、因子分析法、专家经验法等方式提取指标,使用主观赋权法、客观赋权法等方法计算指标权重,根据业务使用需求和管理经验调整参数,并结合互联网舆情数据,最终形成行业安全生产指数。实现路径机恵配置指数月化招美分析因子分析■■茂本分析安全类关键字基础管理融据 系.貌内喝患妝据 系境夕卜事故风岡數据 惭訣网歡据特殊时朗数据社交媒体新闻门户主呗财程法|客观贿权法行业安全生产指数安全生产管理指故机恵配置指数月化招美分析因子分析■■茂本分析安全类关键字基础管理融据 系.貌内喝患妝据 系境夕卜事故风岡數据 惭訣网歡据特殊时朗数据社交媒体新闻门户主呗财程法|客观贿权法行业安全生产指数安全生产管理指故安全生产興情指娥行业宣全生产指故攜定因子行业安全生产形势模型

通过对基础管理数据、系统内隐患数据、系统外事故风险数据、物联网数据、特殊时期数据的匹配,形成企业安全生产管理宽表,使用相关分析、因子分析、主客观赋权等方法确定影响因子及权重,计算安全生产管理分数。同时,采集互联网数据,抓取和分析事实舆情,增加对企业安全方面的社会管理。步骤说明:通过连接数据库、数据接口、数据文件(表)等方式,汇集五大类安全相关数据,匹配企业信息,建立企业安全管理宽表;对全量宽表进行相关分析、因子分析等,确定重要影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论