版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字季生平台解决方案
目录
L总体架构设计..................................................................6
1.1物理实体.................................................................6
1.2虚拟实体..................................................................7
1.3数字李生引擎..............................................................8
1.4数字李生服务..............................................................8
2.数字李生引擎.................................................................10
2.1交互驱动模块............................................................10
2.2数据存储和管理模块......................................................11
2.3模型管理模块............................................................12
2.4模型/数据融合模块.......................................................12
2.5智能计算模块............................................................13
3.总体设计....................................................................13
3.1.总体建设思路...........................................................13
3.2.系统总体架构..........................................................14
3.3.数据架构..............................................................15
3.4.技术路线..............................................错误!未定义书签。
4.平台详细设计方案............................................................15
4.1.标准规范建设...........................................................15
4.1.1.数据规范编制.......................................................16
4.1.2.技术规范编制.......................................................17
4.1.3.管理办法编制.......................................................17
4.2.社会大数据体系信息平台基础支撑设计.....................................18
4.2.1.大数据基础支撑分布式数据库存储系统设计............................19
4.2.2.社会大数据体系舆情分析设计........................................24
4.2.3.商业智能分析平台..................................................26
4.3.大数据平台数据治理库建设...............................................31
4.3.1.总体架构............................................................31
4.3.2.核心数据库..........................................................32
4.3.3.应用数据库.........................................................34
4.4.大数据平台数据治理目录编制..............................................35
4.4.1.依据大数据目录权责清单疏理大数据平台数据治理目录....................35
4.4.2.企业法人大数据平台数据治理目录.....................................36
4.4.3.自然人大数据平台数据治理目录.......................................74
4.4.4.政务诚信专题信息目录...............................................78
4.4.5.商务诚信专题信息目录...............................................79
4.4.6.社会诚信专题信息目录...............................................86
4.4.7.大数据公信专题信息目录.............................................91
4.5.大数据平台数据治理目录服务系统设计......................................93
4.5.1.运行模型...........................................................95
4.5.2.系统结构............................................................97
4.5.3.功能要求............................................................99
4.5.4.其它要求...........................................................100
4.6.大数据平台数据治理数据质量管理系统设计.................................100
4.6.1.规则管理...........................................................100
4.6.2.流程管理...........................................................101
4.6.3.监控管理...........................................................101
4.6.4.结果管埋...........................................................101
4.6.5.统计分析...........................................................101
4.6.6.绩效管理...........................................................102
4.6.7.系统管理...........................................................102
4.6.8.信息交换...........................................................102
4.7.大数据平台数据治理共享平台建设.........................................102
4.7.1.总体架构...........................................................103
4.7.2.数据交换子系统.....................................................104
4.7.3.数据归集子系统.....................................................108
4.7.4.数据清洗子系统.....................................................110
4.7.5.数据对比子系统.....................................................113
4.7.6.数据分发子系统.....................................................118
4.8.相关大数据平台数据治理服务系统建设.....................................120
4.8.1.行业大数据分类监管数据分析子系统..................................120
4.8.2.公共大数据平台数据治理查询服务子系统..............................121
4.8.3.大数据报告管理子系统..............................................131
4.8.4.黑名单与荣誉名单子系统............................................131
4.8.5.大数据联动监管子系统..............................................132
4.8.6.大数据监测预警子系统..............................................134
4.8.7.全文检索子系统....................................................136
4.8.8.大数据平台数据治理上报系统........................................136
4.9.大数据异议处理........................................................139
4.10.大数据平台数据治理大数据分析系统.....................................140
4.10.1.综合决策支持....................................................140
4.10.2.自定义报表.......................................................142
4.10.3.即席查询.........................................................142
4.10.4.领导驾驶舱.......................................................142
4.10.5.统计分析.........................................................142
4.11.大数据数据对接.......................................................144
4.11.1.与“大数据中国”网站系统的对接..................................144
4.11.2.与省大数据系统对接...............................................144
5.安全设计....................................................................145
5.1.安全体系总体设计.......................................................145
5.2.技术目标...............................................................146
5.3.管理目标...............................................................146
5.4.安全技术方案...........................................................147
5.4.1.网络与边界安全....................................................147
5.4.2.主机系统安全......................................................147
5.4.3.应用安全..........................................................148
5.4.4.数据安全...........................................................148
5.4.5.防火墙设计.........................................................149
5.4.6.WEB入侵防护设计...................................................151
5.4.7.安全隔离网关设计..................................................151
5.5.安全管理方案..........................................................153
5.5.1.安全组织体系建设...................................................153
5.5.2.安全管理制度建设...................................................154
5.5.3.信息安全管理原则..................................................155
5.5.4.其他管理措施......................................................156
5.5.5.售后服务内容、要求和期限..........................................157
5.5.6.维护要求..........................................................157
5.5.7.技术培训要求......................................................157
5.5.8.其它要求...........................................................158
L总体架构设计
基于数字季生的智能系统强调的是物理系统与虚拟系统的协调感知统
一,所以基于数字挛生的智能系统最重要的有两个方面:一是数字化的物理
系统与虚拟系统的实时连接;另外就是实现数字挛生系统的智能计算模块。
本节将实时连接以及智能计算的模块定义为“数字挛生引擎”,最终形成数
字挛生系统的通用参考架构,包括物理实体、虚拟实体、数字学生引擎和数
字季生服务四个部分,如图1所示
数字季生服务
0
图1数字李生系统的通用参考架构
1.1物理实体(PhysicalEntity)
物理实体,是数字挛生所要映射的在物理空间实际存在的一个系统。数
字李生系统所包括的物理实体需要有数字化接口,能进行数据采集和信息映
射。物理实体中的各个部分,通过物理连接或活动关系结合起来,其本身可
以是一个CPS单元、CPS系统或CPS体系。
物理实体中各异构要素的全面互联感知是构建数字学生系统的前提和
关键,智能感知的基础在于泛在的数据采集,常见的数据来源包括各类声光
热电力传感器、条形码、计算机/手机/平板电脑/手环等智能终端、系统固
有的机器/设备或者智能仪表、系统人员数据、企业的管理数据、本地/云端
存储的历史可追溯数据等,数据传输方式通常有现场总线和工业以太网技术、
射频识别技术、无线蓝牙技术、工业互联网技术等。
物理实体信息感知的手段包括直接和间接两类。直接手段是指物理实体
木身带有传感器,能采集白身的数据;间接手段是通过物理实体外在的环境
感知,间接获取物理实体的运行状态。例如,针对某些机械设备,其内置的
温度、振动等传感器可以感知其运行状态,而通过视频、声音等方式从外部
环境采集设备信息,可以获取其运行的外在表现状态。这些外在传感器的信
息也是物理实体数据采集的一部分。
物理实体的另外一个功能是“精准执行”,即能接收虚拟实体、数字挛
生引擎发送过来的指令,完成某些动作。依靠高速、低延迟、高稳定的数据
传输协议,物理实体能及时接收虚拟系统仿真、分析、优化后的管控命令并
精准执行,并将执行结果实时反馈给数字字生体以进一步迭代优化。
借助互联网、云计算、边云协同等技术,物理实体各组成部分在空间维
度上远距离分布式协同控制成为可能,而不必将系统局限在狭小的范围内。
物理实体可以具有分散化、社会化、协同化的特点。
简而言之,为了支撑数字李生系统的实施,物理实体需要具备数字化接
入能力。从角色来看,物理实体是数字挛生系统的实现基础,同时也是数字
挛生系统最终所要优化的目标对象。
L2虚拟实体(VirtualEntity)
虚拟实体是物理实体对应在信息空间的数字模型,以及物理实体运行过
程的相关信息系统。信息系统是物理对象的信息模型抽象,并且包括了一些
物理实体运行过程的管理、控制等逻辑。
虚拟实体的模型是指在物理实体设计和运行过程中所构建的几何模型、
机理模型以及数据模型。这些模型可以看作是对物理实体的一个定义。对于
一个工业产品来说,模型包括三维设计模型、有限元分析模型、制造工艺模
型、运行过程的数据模型等。
由于当前的很多产品、系统本身就是一个CPS系统,因此,信息系统是
物理实体运行过程不可缺少的部分,例如,数控机床所包含的数控操作系统、
数控程序,工厂和车间运行相关的ERP、PLM、MES等系统,这些信息系统是
物理系统运行必不可少的部分,也是物理实体在信息空间所对应的虚拟实体
的一部分。
在数字李生系统里面的虚拟实体,可以看成是物理实体在信息空间的一
个数字化映射。在数字挛生技术出现之前,这些虚拟实体的组成部分就已经
存在,并且在仿真分析、系统运行管控等方面已经开展丰富的应用。但是这
些应用没有充分发挥实时数据的作用,模型之间也没有构建成系统化的联系,
因此是局部的、非系统化的“浅层数字映射”。
1.3数字李生引擎(DigitalTwinEngine)
数字李生引擎一方面是实现物理系统和虚拟系统实E寸连接同步的驱动
引擎,另一方面是数字挛生系统智能算法和智能计算引擎核心,为用户提供
高级智能化服务。在数字李生引擎的支持下,数字挛生系统才真正形成,实
现虚实交互驱动以及提供各类数字李生智能化服务,所以数字李生引擎即是
数字李生系统的“心脏和大脑”。
如前文分析,数字挛生引擎从功能上来说主要包括交互驱动和智能计算。
数字李生应用通过构建拟实的界面,充分利用三维模型等来形象地展示计算
和分析的结果,提高人机交互的水平。其智能计算是利用数据驱动模型进行
仿真分析与预测,提供传统虚拟实体应用所没有的智能计算结果
在数字挛生系统出现之前,虚拟实体已经包含了很多反映物理实体运行
规律的模型,用来对物理实体进行模拟仿真,同时,虚拟实体中的信息系统
也包括了很多物理实体运行过程所采集的数据,但是这些模型和数据因为分
属不同的应用目的而开发,没有很好地融合起来,不能充分发挥作用。数字
挛生就是解决传统应用模型和数据分离的各自为政的问题,通过两者的融合
充分发挥协同作用。数字挛生引擎的另外一个重要功能,就是完成模型和数
据融合,包括相关的数据管理和模型管理功能。
L4数字李生服务(DigitalTwinService)
数字挛生服务是指数字挛生系统向用户各类应用系统提供的各类服务
接口,是物理实体,虚拟实体在数字挛生引擎支持下提供的新一代应用服务,
是数字李生系统功能的体现。
物理实体和虚拟实体在没有数字李生引擎的支持下,能进行传统意义上
的系统运行,完成各自预定的功能。但是,数字季生引擎能让物理实体、虚
拟实体融合在一起,形成数字挛生系统,具有原来物理实体和虚拟实体独立
运行所没有的新的功能。一个完整的数字李生系统包括服务接口支持,也就
是功能接口,能让数字挛生系统真正地为用户所用。
数字挛生服务包括仿真服务、监控服务、分析服务和预测服务,同时,
由于人机交互要求更高,虚必现实(VR)、增强现实(AR)和混合现实(MR)是数
字李生应用的重要形式,因此,数字李生服务也包括对这些应用的服务接口
支持。
数字李生服务根据数字挛生系统的不同,具体实现内容也不同,其设计
和实现根据不同的行业、不同的规模而不同,同时,随着数字李生系统的不
断进化,其服务内容也会不断增加,是一个逐步完善的过程。
基于数字挛生服务,根据不同的应用需求,可以开发不同的应用。数字
挛生的应用部分可以是传统信息系统的升级,部分是全新开发的应用。由于
移动互联、泛在计算的广泛应用,手机、平板电脑、智能眼镜等将是数字挛
生应用的一个新的发力点,也是提供给用户沉浸体验的新手段。
综合上述内容,一个数字挛生系统各个部分的组成结构如图2所示。
图2数字挛生系统组成结构图
2.数字挛生引擎
数字李生引擎是连接物理实体和虚拟实体,实现数字挛生系统的一个核
心模块。“虚拟实体+数字李生引擎二数字李生体”,因此,本节对数字挛生
引擎的一般组成进行进一步的说明。图2给出了数字李生引擎的基本模块,
图3对其组成给出了进一步的说明。
数字学生*务
相关软件系统
(外籍软件)
虚收实体
图3数字李生引擎的基本组成
2.1交互驱动模块
交互驱动模块,是数字学生引擎用来连接各个相关系统的核心模块,包
括物理实体交互驱动接口、虚拟实体交互驱动接口、外部软件交互驱动接口
和服务接口。
物理实体交互驱动接口,是从物理实体采集实时数据的接口以及传送给
物理实体的指令执行接口。传统的信息系统应用、管控软件中,也包括了对
物理实体的数据采集和指令下达,但是数字挛生系统根据模型和数据融合需
求,需要更多的数据,以及更精准的指令执行功能,就需要数字挛生引擎的
交互接口来提供额外的驱动接口,实现数字挛生的增强功能。
虚拟实体交互驱动接口,是数字挛生引擎的一个主要接口。模型数据大
部分通过这个接口进入数字学生引擎。一些计算结果也通过这个接口传回给
虚拟实体。根据上述分析,虚拟实体包括了数字模型和信息系统,传统的管
控功能还是需要通过信息系统完成,而数字挛生引擎所产生的新的数据能辅
助模型仿真,信息系统运行更好地完成。
外部软件交互驱动接口,是指物理实体和数字挛生体本身之外的一些软
件,为数字挛生系统提供软件环境。例如,一个数字李生车间其主要的软件
系统是MES,而企业级的ERP、SCM、PLM等软件系统就是数字李生车间系统
的外部软件;对于一个建筑来说,BIM是其关键模型,而这个建筑所在的小区
信息系统、CIM就是外部软件。外部软件为数字李生系统的运行提供了参考
信息,以及一些功能支撑,所以需要专门的接口来获取相关的模型和数据。
服务接口,是数字李生引擎为数字李生服务模块提供各类模型和数据访
问的接口。这类接口比较多,根据不同的实际系统需求而进行定义。
2.2数据存储和管理模块
数据存储和管理,是数字挛生引擎运行的一个数据支撑环境。虚拟实体
的信息系统包括了物理实体运行过程的相关数据,但是这些数据是根据业务
需求而定义的,不能满足数字挛生系统运行过程的数据需求,因此,在已有
的信息之外,数字挛生引擎需要定义自己的数据存储和管理。从这个意义上
说,数字李生引擎的数据存储和管理是虚拟实体中包含的信息系统中的数据
存储之外的一个补充。
这个模块一般包括实时数据库、主题数据库和数据仓库。主题数据库存
放的是按各类分析主题整理的实时或半实时数据。数据仓库包括了按一定主
题存放的经过分析整理后的数据,用于支持联机分析处理(OLAP)和数据挖掘。
数据抽取、数据转化、数据集成是传统意义上的ETL(抽取、转化、装
载)过程,数据更新则是根据物理实体和虚拟实体接口,实时在线更新相关
数据的过程。
需要说明的是,由于数据的多样性,所以需要根据不同数据特点来选择
关系型数据库、非关系型数据库或者是分布式文件系统来存储不同的数据,
数字李生引擎需要支持多模式数据库管理系统的数据应用集成与管理。
2.3模型管理模块
模型管理,主要包括机理模型和基于数据的模型。这些模型如果在虚拟
实体中已经包含,则在数字挛生引擎中无须重建,但是需要对模型进行跟踪,
保证这些模型在数字李生应用中可用和可管理。
模型采集,是指根据数字挛生智能计算和模型/数据融合需要,从虚拟
实体中选择相关模型导入到数字李生引擎模型库的过程。模型训练,是根据
应用需要,从数据中训练新模型的过程。模型更新,是对模型进行完善和更
新的过程。模型分发,是根据服务需求,对相关模型分发过程进行管理的模
块。
2.4模型/数据融合模块
模型和数据的融合,是数字享生的基本特征。脱离了模型的数据分析,
就会脱离物理实体的基本逻辑和应用场景,导致数据分析的无目的性;而离
开了实时数据,模型只能作为物理实体设计规划时的静态应用,不能指导实
际运行。
模型和数据映射,是建立相关模型和实时数据的关联关系。例如,利用
三维几何模型,可以构建实时数据的空间关系,支持数据在三维空间中的展
示;对于仿真模型引入实时数据,可以完善仿真参数,让模型运行更加贴合
实际过程。
模型和数据的比较,是构建模型运行结果和实际系统运行结果的比较关
系,这个对于一些管控方案的评估起到关键作用,也能评估模型参数设定是
否合理。
数据驱动下的模型更新,是对传统建模过程中参数不确定的一个补充。
在物理实体运行前,很多仿真参数都是假设的,或者是理论模型,不能和实
际运行状况吻合。通过数据分析结果来完善模型参数让模型更拟实,是数字
挛生的一个基本功能。
模型驱动下的数据采集,是利用机理模型来指导数据分析的基础。传统
的大数据一个特点就是价值密度低,其含义就是大量的数据看起来是没有用
的,或者说是“无心”采集的;而在工业领域,由于传感器部署都是需要成
本的,没有目的的数据采集在工业领域往往不切实际。利用机理模型分析需
求来指导数据采集过程,有限成木下部署最多的数据感知点,是数字挛生应
用顺利开展的一个基础。
数据和模型,是数字挛生系统的两个基本面。数据代表了物理实体,是
从物理实体运行过程采集而来,代表实际;模型代表虚拟,是从数字模型分
析、仿真而来,虚实融合就是模型和数据的融合。
2.5智能计算模块
智能计算模块是数字挛生引擎的驱动力,通过智能计算实现数字李生服
务所需要的各类功能。
预测分析,是利用“模型+数据”对物理实体的运行过程进行预测。可
以是一个运行规律的计算,也可以是对几种方案的仿真评估。给出虚拟实体
未来运行趋势的分析,为物理实体的运行提供优化建议。
知识推理,是利用已有的知识模型,对一些事实进行推理分析得到推理
结果的过程。一般用于规律已知情况下的判断和决策。
在线/离线分析,是利用计算模型,进行在线分析、离线分析。根据所
掌握的分析模型以及应用需要,可以选择在线或离线模式。一般来说,大量
的计算需要采用离线模式;局部的、明确的一些判断,则可以结合边缘计算
架构实现在线模式。
X在环仿真,是指“硬件在环仿真”或“软件在环仿真”。对于一个物
理实体,其规划设计、安装调试过程往往是十分复杂的,利用硬件在环仿真,
可以对软件设计进行优化;而软件在环仿真,又可以对硬件设计和安装进行
评估和检验。利用模型和数据的融合,这部分功能在数字挛生系统中可以得
到很好的支持。
3.总体设计
3.1.总体建设思路
将资源管理与资源应用明确划分并有机整合,推动一体化建设。通过一体化
手段,转换和改造传统信息系统建设的模式,利用平台加应用的构建模式,将我
市大数据体系建设与资源管理建设合二为一进行整合建设,不仅节省财政投资,
而且充分考虑二者之间的关系,以数据管理为基础,建立大数据体系应用,使我
市的大数据体系工作形成有机的整体,并为未来的跨部门业务协同,一次采集多
次使用打下基础。
在业务实现方面,注重整个体系的完整性、实用性、适应性和可扩展性,通
过业务逻辑组合方式,将资源整合、资源利用、服务提供等全部纳入项目建设框
架内,重点突出资源共享、互联互通、统一数据、安全可靠、重在应用等特性。
在技术实现方面,着重强调应用体系的跨平台、跨应用、分布式、兼容性强、
安全可靠等特性,采用成熟的JavaEE标准规范和开发平台,实现公共大数据平
台数据治理管理系统的设计、部署和实施,使应用体系能够整合异构数据资源,
实现数据级和应用级集成,同时确保应用系统技术先进性。
3.2.系统总体架构
从业务实现的角度,对各部门的数据归集和大数据应用的建设提出了业务模
型。
1、基础设施层:主要包含各类网络环境、硬件基础设施和系统基础软件三
大部分。硬件基础设施包括存储、服务器、交换机、防火墙、终端设备等硬件基
础设施;系统基础软件包括服务器操作系统、数据软件。
2、数裾存储层:存储包括各相关部门、社会机构、公共事业单位、1:县大
数据、政务数据库、省平台大数据数据、以及其他征信系统大数据数据等。通过
数据库软件进行结构化与非结构化数据的存储,同时实现读写分离的主从配置,
保障数据库的读写效率及稳定性,为业务应用提供数据支撑满足实际用户的需求,
为业务应用提供数据支撑。
其中数据处理平台包含数据归集、数据清洗、数据比对、数据分发三个子系
统。
3、应用支撑层:应用支厚层包含一些基础性、底层性的系统支撑功能、平
台、BI工具,提供包括智能分析系统、工作流管理系统等,为系统提供基础支撑
服务。
4、业务应用层:包括提供应用服务的系统,运行在应用支撑层上,包含政
务大数据平台数据治理服务系统、大数据数据分析平台、统一接口平台、统一安
全服务平台等。
3.3.数据架构
大数据平台数据治理体系平台数据架构包含:基础数据层、主题数据层、内
部业务应用层、外部业务应用层,具体如卜:
1、基础数据层:以企业、个人、事业单位、社会组织的身份信息、经营管
理信息、公共记录信息、金融信息等为基础支撑数据,构建大数据平台数据治理
的基础数据库。
2、主题数据层:通过对基础数据的筛选、清洗,按照各相关部门大数据监
管需求,形成相关的主体数据库。
3、内部应用层:满足各相关部门对大数据监管需要,提供大数据平台数据
治理数据及定制功能,包括:定制查询、部门协查、大数据分析、共享服务等;
各相关部门可通过相关大数据平台数据治理服务系统、大数据体系综合应用系统、
社会大数据平台数据治理数据利用分析等应用软件对数据进行查询、筛选。
4、外部业务层:对自建有大数据平台数据治理系统的部门,可按照其管理
需要定制需要共享的大数据平台数据治理,通过企业大数据平台数据治理共享交
换平台共享到部门。
4.平台详细设计方案
4.1.标准规范建设
4.1.1.数据规范编制
4.1.1.1.数据标准
•元数据标准。元数据是指对数据的描述,例如数据交换频率、数据字段、
共享范围等信息。元数据标准制定是为各监管部门数据收集、整合与应
用时提供统一的指引作用,本项目元数据标准定义市场监管信息资源的
核心元数据及扩展方法,分别定义关系数据表、文件格式数据、服务数
据三类格式数据的核心元数据定义,为市场监管目录设计与资源目录模
块开发奠定标准模板基础;
•数据元标准。数据元是指数据库中字段的格式规定。因历史原因,各监
管部门在信息化建设过程中,没有统一的数据标准统一开发规范,当前
跨部门监管数据资源不对称、格式不统一等问题严重,本项目在整合数
据过程中,数据元标准制定统一规范了跨部门监管数据的字段与格式要
求,向各监管部门明确提供数据的统一格式要求,也是本平台数据ETL
过程的重要标准。
•大数据平台数据治理分类规范:为加强社会大数据平台数据治理资源的
记录、整合、应用,规范和指导各部门大数据平台数据治理管理系统建
设,将制定大数据平台数据治理分类规范。规范是在梳理市大数据平台
数据治理资源基础上,参照省、国家大数据平台数据治理相关标准规范
编制而成。
4.1.1.2.目录标准
•信息资源目录编码标准。根据资源提供部门、数据类型等提出社会大数
据平台数据治理目录、资源、市场监管号、资源目录版本的统一编码规
则;
•社会大数据平台数据治理共享目录。基于数据标准与信息资源目录编码
标准制定规范的《社会大数据体系信息共享目录》,通过定期更新发布方
式提供各监管部门使用。
4.1.2.技术规范编制
4.1.2.1.开放接口接入规范
为方便第三方系统接入,以加快数据实时共享性,提供丰富的数据应用方式
本期为第三方系统提供开放接口,开放接口包括第三方系统向《社会大数据体系
信息平台》提供数据的接口,以及第三方系统应用《社会大数据体系信息平台》
的数据接口。数据交换接入规范提出数据开放接口的提供与应用规范,为第三方
接入单位提供标准的指引技术文档。
4.1.2.2.信息资源公开技术规范
社会大数据体系信息平台信息资源部署在政务外网环境,而大数据平台数据
治理等系统将部署在互联网环境。在统一的社会大数据体系信息专题库下,信息
资源公开技术规范将指引实现信息资源从政务外网定时推送到互联网功能。
4.1.2.3.数据接口标准规范
制定数据对外服务的应用接口标准,用于规范数据对外服务的接口实现数据
的接口查询,包括数据查询和预警数据查询。
4.1.3.管理办法编制
管理制度本身是由人来制定和执行的,定应尽量做到科学全面,符合实际情
况,使人们在接受制度管理时,能够乐于接受。平台数据归集涉及信息资源提供
方、信息资源管理方、信息资源使用方、平台管理运维单位、平台建设单位等其
他相关部门及人员,管理对象包括信息资源、技术平台。信息资源共享交换体系
自制订管理制度分为信息资源管理维护制度、技术平台管理维护制度两类。
4.1.3.1.信息资源管理维护制度
1、信息资源责任公开制度
通过本制度,鼓励相关部门公开本部门可共享信息资源,规范约束信息资源
提供方及时、准确提供最新共享信息资源,明确信息资源提供方的信息公开职责,
公开信息资源的备案制度,奖惩考核办法等。
2,信息资源动态管理制度
明确共享交换信息资源注册、更新、注销管理办法,保证共享数据库中信息
资源的鲜活性,对共享数据库中数据实现动态管理。
3、信息资源安全管理办法
本办法明确信息资源提供方和使用方共享交换信息资源的安全保密协议制
度,保证共享信息资源在采集、存储、备份、访问授权、传输、使用等过程中的
安全。
4、信息资源共享查询制度
本制度明确信息资源使用方共享查询信息资源的管理流程,获取信息资源后
的备案制度等。
4.1.3.2.技术平台管理维护制度
1、平台管理办法
本办法明确信息资源提供方、信息资源使用方、技术平台管理运维单位、技
术平台建设单位等其他相关部门及人员在平台运行维护、日常管理中的责权利关
系,岗位职责等。主要依据《信息资源共享交换平台使用管理办法》制定本管理
办法。
2、平台对外服务指南
本指南说明技术平台为各部门应用系统提供的支撑服务,技术平台支持的不
同接入方式,每种接入方式的特点及适用范围,各相关部门、单位在将应用系统
接入到技术平台过程中,应该填写的表单、所遵循的工作流程等。主要依据《大
数据平台数据治理资源共享交换体系规划》、《大数据平台数据治理资源共享交换
平台对接指南》制定本服务指南。
3、平台安全运营管理制度
本制度从技术平台环境设备安全、运行安全、信息安全、人员安全、运营管
理、安全审计等各方面做出规定,全面保护技术平台安全运营。
4.2.社会大数据体系信息平台基础支撑设计
4.2.1.大数据基础支撑分布式数据库存储系统设计
本期只作设计,不包括在本期项目建设范围内。
分布式、高性能、交互式SQL并行查询数据库系统,用于查询存储在
ApacheHadoopHDFS或HBase之上的大数据。分布式数据库存储系统除了提供业
界广泛使用的Hadoop大数据的存储平台,也提供同Hive一致的元数据、SQL语
法、JDBC/0DBC驱动程序。
分布式数据库存储系统是基于Hadoop及Hive的实时交互式SQL大数据查
询工具,通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从
HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了查询的
延迟时间,具有较高的查询性能。
分布式数据库存储系统主要有以下特性:
・面向实时查询,结果秒级返回
•兼容Hive的类SQL语法,包括自定义函数及自定义聚合函数
•可以和Hive共享元数据存储
•支持从HDFS和HBase读取数据
•运行时环境用C++实现,并利用了LLVM的技术,动杰优化执行代码
•支持JDBC接口
要求支持的功能还包括:
•高可用、高容错
可配置为高可用的部署模式,即将单台主节点架设在两台主机上,一台处于
活动状态,别一台处理待命状态。活动主节点响应正常操作,实时同步数据到备
份主节点。活动主节点失效时,实时切换到备份主节点。
数据块多副本分布式存储,保证某个数据节点失效的情况下,其它数据节点
上仍然有可用的数据块,保证数据不会丢失。
•列式存储
数据是存储在HDFS之中,支持多种常见的ApacheHadoop文件格式和压缩编
码。分布式数据库存储系统可以加载和查询由其他Hadoop组件,如Hive、HBase、
Pig等生成的数据文件。
•负载均衡
分布式数据库存储系统集群提供查询负载均衡功能,将查询请求分摊到不同
的集群节点上执行,达到负载均衡的目的。
分布式数据库存储系统集群各节点对应用是透明的,应用只需要连到一台主
节点,而不用关心集群中的其它节点。
在某个集群节点失效情况卜,应用仍然可以止常连接,负载均衡器会将请求
转发到其它可用的节点上。
支持多种负载均衡策略,如轮询、权重、最少连接等。
•范式模型
支持三范式模型。
灵活的视图处理。
支持星形模型。
三范式模型与量型模型互相转化。
实体
CUSTOMER
FACTCustomerJD
/Customer_Name
ProductJD
“Customer_Desc
Customer_ID
Region_ID
YearJD
Month_ID
REGIONSalesTIME
RegionJDProfitYearJD
CountryMonthJD
StateWeekJD
CityDayID
•海量数据查询
亿级数据规模下,性能全面超越商业的RDBMS数据库。
TB级数据下,性能比Hive有数倍甚至上百倍的提升。
更适合海量数据,特别是TB级及以上的数据处理。
•SOL标准兼容
兼容SQL-99标准,支持大部分SQL-2003标准。
对于DDL语句,除常规的建库、建表、建视图外,还支持表分区、表缓存等
特性。
DML方面,提供LOADDATA批量加载数据,能支持非常复杂的多表JOIN和
UNIONo
支持丰富的数学、字符串、日期时间、聚集、分析函数等,还支持用户自定
义函数。
SQL语法基本同HiveSQL兼容,语法上同其它数据库SQL语法大体一致。
•ETL支持
分布式数据库存储系统提供了JDBC/ODBC接口,能支持几乎所有的ETL工具
产品。
分布式数据库存储系统能友好支持Sqoop,将外部数据源的数据抽取到分布
式数据库存储系统直接使用。也可以将分布式数据库存储系统数据导出到外部数
据源。
采用分布式数据库存储系统作为数据仓库,还可以简化ETL环节,在分布式
数据库存储系统内进行数据转换,节省大量时间。
Sqoop导出
Transform
DeUlDeUiledaAQgreg
Sqoop导入Hadoop
•可视化管理
%b控制台提供监控仪表盘界面,对分布式数据库存储系统数据库信息、集
群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。
通过图形界面对集群进行整体控制、资源监控,也可以对单个节点进行管理,
了解各节点资源使用情况,进行会话管理等。类PL/SQLDeveloperIDE的数据库
管理界面,可完成建库、建表、SQL查询编辑器、执行计划、数据导入、导出、
数据复制等常用操作。
•线性可扩展
分布式数据库存储系统可通过添加廉价的服务器实现性能更好的分布式计
算。
随着集群节点数的扩充,其查询并发能力将随节点数增加而增大。
查询的响应时间,会随着节点数的增多而缩短。
可轻松扩展到上千台集群规模,满足TB甚至PB级数据查询。
节点数节点数
•分布式并行查询引擎
提交到分布式数据库存储系统的SQL查询由查询计划器进行解析,生成并行
执行计划。
各节点由下至上,并行方式完成数据局部计算,中间结果不写磁盘。
分布式数据库存储系统使用Pull方式获取各节点的局部数据结果,以流式
传递汇集到执行计划根节点完成计算。
••I,并行任务分片
节点同制8交换
AQQ⑹:©
口内存接忏
®母
G
SSAqgr4
HashJolnIaV
■・®
HasbJoin
・
八6$节怠3
•多级I/O压缩缓存
采用列存储压缩技术,压缩存储具有较高的压缩比,压缩率最高可以达到30%
以下,极大的减少I/O的吞吐量.
采用零拷贝技术相比传统技术节省了一半的拷贝操作,在数据传输性能上要
节省65%的时间。
表缓存技术,可以提升分布式数据库存储系统数据库集举整体的内存使用率,
可以提升50倍以上的I/O性能。
•支持第三方应用接口
分布式数据库存储系统提供多种应用程序接口,包括JDBC、ODBC、CLI>
Thrift等。
JDBC/ODBC为第三方应用连接到分布式数据库存储系统提供了便利性。
CLI(命令行界面)可以让数据库管理人员、数据仓库工程师方便、灵活的进
行数据库管理、数据查询、SQL脚本调优及诊断等Thrift接口是跨语言的访问
接口,可以让Java、C++、Python、PHP开发者采用一致的接口进行编程,灵活
定制访问分布式数据库存储系统的数据库应用。
4.2.2.社会大数据体系舆情分析设计
本期只作设计,不包括在本期项目建设范围内。
•采集能力要求
实现对新闻、论坛、博客、微博、图片、SNS、视频网站、QQ群、云数据中
心、电子报、WAP、微信、搜索、文档、境外媒体等,监测人员能够自行添加、
修改、移除目标监测网站;
支持多语种、少数民族语言采集;
支持至少5000以上采集站点目标;
支持注册论坛需要验证码的数据抓取、虚拟帐号登录等采集方式
支持自动识别语言和网站编码:可对任何形式的网站进行采集(RSS、PHP、
JAVA、HTML、AJAX等);
基于C、C++或者C#开发的C/S架构的采集软件,可以实现客户端的自由安
装,配置、可视化的用户操作管理,自由添加关键词,添加网址即加即用;
数据采集引擎可视化,能够独立运行,采集引擎数据接口开放,可以推送到
指定数据库,可以自动清理自定义时间段内的数据,保留有效时间段内的数据;
可以自定义采集频率周期,最快频率周期必须在5分钟以内。
•分析
单机分析效率达到每天30万条数据以上
可根据自定义类似进行数据自动分类
可实现专题事件的分析(网站分布、载体分布、地域分布、传播情况、趋势
情况等)
可实现对指定作者、虚拟身份的发帖情况分析(发帖平率、感情倾向性、敏
感性等)
可实现对不同站点内容进行分析,对于敏感数据进行提示等
•舆情预警
可以通过邮件、弹窗、手机短信(短信预警不少于10人)或者自动刷新等方
式第一时间获取舆情信息。
支持用户定制个性化预警信息,各用户定制的个性化舆情信息只有自己可以
看到;
无需事先设置关键字,系统自动推送预警业务相关的数据。业务类别可按需
定制;
手工预警一一紧急事宜可手工发送短信、邮件、页面弹窗、APP消息提示(系
统截图);自动预警一一支持对关键字匹配到的帖子自动发送邮件、页面弹窗、
APP消息提示、声音或短信预警;报警类型必须包括:短信、邮件、页面弹窗(系
统截图)、APP消息提示;报警可以针对每个事件或者领导人配置报警规则;
支持将不同人员关注的不同信息发送到各自的邮箱、短信、页面弹窗、APP
消息提示;
预先设置预警规则的内容可在首页弹窗显示,且可对预警贴进行详情查看,
并对相似文章进行统计;
组合预警功能。可选择微博、论坛、博客、国内新闻、电子报刊、视频及境
外新闻等各类网站与关键字组合的预警,便于实现对重点站点的针对性关注。
4.2.3.商业智能分析平台
具体技术指标要求如下:
•技术架构
采用J2EE架构和B/S模式,采用JAVA语言开发,支持Tomcat.WebLogic>
WebSphere等多种应用服务器运行平台。用户可以通过IE,Safari等浏览器进
行访问。
•软件开发接口要求
软件应提供二次开发接口,可以根据需求方便地对系统进行灵活的定制修改
和功能扩展。
•软件集成开发要求
软件应具备良好的可扩展性和集成性,应提供丰富的报表访问接口技术,支
持如IAPI接口、URL接口、WebService接口等第三方接口调用,软件还应支持与
其他应用系统的单点音录集成。
•遵循MD模型和ROLAP理论
软件在构建数据仓库时应遵循规范的“事实表+维表”的数据库模型,后台
提供OLAP引擎,前台提供基于WEB的OLAP操作,并完整支持下钻、切片、旋
转、钻透等操作。
•报表设计
软件应提供在线报表设计工具,便于用户快速的编辑报表,采用图形化设计
界面,类似EXCEL的操作风格,支持合并拆分单元格、任意表头、多级斜线、富
文本等功能,能实现各种复杂报表的快速设计,也能实现各种图形展示的设计,
如杜邦分析、组织架构图等。软件应提供自动保存报表的编辑进度的功能。
•分析展现方式
软件应支持对报表数据和业务数据的多种展现形式,提供固定报表,多维分
析报表、丰富的统计图模型、领导驾驶舱等常用展现方式。支持所有常用展现方
式的钻取功能,允许用户对所有常用展现方式定义热点,通过点击热点钻取到其
他报表、图形或明细。支持单元格鼠标指向的高亮显示。支持报表的行列锁定等
等。
•统计图类型
软件应提供丰富的统计图类型和样式,类型包括但不限于柱状图、饼图、折
线图、面积图、条形图、雷达图、散点图、走势图、仪表盘、汽泡图、箱线图、
K线图、复合条饼图等等;样式包括但不限于2D、3D、EXCEL风格、WEB风格、
秋天风格、Flash风格等。同时,软件还应提供丰富的绘图功能,如杜邦分析、
组织架构树等图形。
•公式体系
软件应内置公式引擎,语法应与EXCEL非常类似,支持指标拾取,可自动分
析出运算表达式中的依赖顺序,自动的按顺序计算表达式。支持除四则运算外的
其它复杂的分析模式,如:取前期数据、增幅、排名、标准差、相关系数、跨主
题跨报表取数等等。同时,软件还应提供自定义函数途径以满足各种不同的数据
统计需求。
•图形化建模
软件应支持图形化建模功能,可以在可视化建模界面中新建、编辑、删除主
题表,将主题维度度量,主题和维度的关系用直观易懂的星形图方式展现出来,
并支持用鼠标点选和拖拽的方式进行主题和维度属性及关联的增删改。
•报表母版
软件应提供类office,ppt的母版功能,可以轻松的在报表母版中定义的格
式,包括背景
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 配电间安全操作管理制度培训
- 企业三总师安全职责与风险管理实务
- 2026埃及美术讲解面试题目及答案
- 城镇排水泵站电动机运行中的检查规定培训课件
- 店长岗位职责
- 汽车测评与选购(项目五任务二)
- 2025年区块链溯源提升供应链创新能力
- 钢构生产车间外包合同
- 小区清洁垃圾外包合同
- 天津市河西区2024-2025学年七年级上学期语文期末试卷(含答案)
- FSSC22000 V6食品安全管理体系管理手册及程序文件
- 雨课堂在线学堂《商务形象设计》课后单元测试答案
- 三年级万以内的加减法(1500道题-直接打印)
- 风力小车专业知识培训课件
- 产品生产过程质量检查记录表
- 2025年银行、金融反诈骗预防措施知识考试题库(含答案)
- 水力发电企业知识培训课件
- 区域森林生物量遥感估测的技术解析与多元应用探究
- MSA测量系统表格GR-R
- 中国肿瘤整合诊疗指南(2025版)结直肠癌及肛管癌更新要点解读
- 综治中心建设汇报
评论
0/150
提交评论