(高清版)DB4208∕T 59-2024 《荆门城市大数据采集规范》_第1页
(高清版)DB4208∕T 59-2024 《荆门城市大数据采集规范》_第2页
(高清版)DB4208∕T 59-2024 《荆门城市大数据采集规范》_第3页
(高清版)DB4208∕T 59-2024 《荆门城市大数据采集规范》_第4页
(高清版)DB4208∕T 59-2024 《荆门城市大数据采集规范》_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

代替DB4208/T59-2017荆门城市大数据采集规范2024-02-01发布2024-03-01实施荆门市市场监督管理局发布I前言 I I 12规范性引用文件 13术语和定义 14总体架构 54.1数据采集工作流程 54.2数据采集处理架构 64.2.1数据采集系 64.2.2消息服务 64.2.3数据交换管理中 74.2.4任务系统 74.2.5运行与监控 74.3数据采集网络架构 74.3.1数据采集逻辑架构 74.3.2数据采集物理部署 74.4采集过程数据分析 84.4.1数据类型 84.4.2数据质量 84.4.3数据存储 95技术规范 95.1数据采集方案选择 95.1.1数据库接入方式 5.1.3API接人方式 15.1.4网页接入方式 5.1.5流式接入方式 5.1.6消息接入方式 5.2数据采集周期 5.3数据采集更新机制 5.3.1全量抽取 5.3.2增量抽取 5.4数据采集实施 5.4.1数据采集实施流程 5.4.2任务分解 5.4.3数据采集监控 Ⅲ本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件代替DB4208/T59-2017,与DB4208/T59-2017相比,除文件编号按照新要求更新外,主要技术参数未发生变化。本文件由荆门市电子政务信息中心(荆门市大数据中心)提出。本文件由荆门市行政审批局归口。本文件起草单位:荆门市电子政务信息中心(荆门市大数据中心)。本文件主要起草人:胡玉荣、罗传军、肖立刚、杨金龙、刘波、田原、陆焱、王娅纷、熊士杰、陈永锋、李祥琴、游明坤、赖旭、武永成、董尚燕、张牧、吴际林、刘珊艳、余建国、方靖、庄小林。本文件于2017年5月首次发布。本文件实施应用中的疑问,可咨询荆门市行政审批局,联系电话:(0724)2376309,邮箱:690882384@;对本标准的有关修改意见建议请反馈至荆门市电子政务信息中心(荆门市大数据中心),联系电话:(0724)2376119,邮箱:282685564@据交易、技术产品、安全保密等关键共性标准的制定和实施。”享的总体框架和技术规范,涉及数据处理的整个流程:首先进行数据采集,然后通过数据整合(包括数据清洗和数据比对),将整合成功的数据装载到公共基础信息库,根据需要提供数据共享。五个标准规范的制定是荆门市电子政务信息中心(荆门市大数据中心)和全市信息行业人员的共同1凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.17信息技术词汇第17部分:数据库GB/T17532术语工作计算机应用词汇GB/T22239信息安全技术信息系统安全等级保护基本要求GB/T25647电子政务术语GB/T29262信息技术面向服务的体系结构(SOA)术语DB4208/T58荆门城市大数据术语关于数据和数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。通过计算机网络将物理上分散的存储资源构成一个虚拟的存储设备,集中管理数据的一种存储方2方式。准的过程。和数据。像、文本等。介于结构化数据和非结构化数据之间,一般是自描述的,数据结构和内容混合在一起的数据,如3全称ExtractTransformationLoad,用来描述从数据源抽取(extract)所需的数据,经过预处理后,按照预先定义的数据仓库模型进行转换(tra为应用系统提供的,实现消息通信功能的运数据交换平台中与数据提供方进行信息交换共享4全称ApplicationProgram使用数字签名技术产生的数据,签名的对象包括了原始文件信息、签名参数、签名时间等信息。TSA(时间戳机构)对此对象进行数字签名产生时间戳,以证明原始文件在签名时间之前已经存在。5从数据源中进行数据采集的过程,包括全量抽取和增量抽取。一种应用编程接口或Web应用编程接口,通过标准的规约进行定义、并通过标准进行访问和使用。4总体架构4.1数据采集工作流程数据采集工作流程见图1所示。任务任务入库图1数据采集工作流程6a)主管部门向数据提供方和中心管理方发送数据采集通知,统筹协调数据采集前所涉及工作安b)中心管理方对已确定的待采集数据做好采集实施准备;汇聚,数据采集处理架构见图2所示。数据受工作业务、信息化程度和安全性等多种因素的限制,形态数据交换管理中心任务并发出消务运行与控L据数据采数据采数据采集系统数据采集数据采集据采集数据提供方业务数据(数据库、文件、接口、消息等)台NH成。控,数据流监控及与消息服务的通信,中心汇聚处理。7处理及对外调用接口等功能组成。2)共享库:存储从数据提供方推送来的前置机1前置机2前置机n前置库前置库前置库8数据采集物理部署见图4所示。数数据大数据中心煎机数据煎机数抿据3图4数据采集体系物理部署4.4采集过程数据分析待采集的数据主要来源于数据提供方和互联网上的社会舆情数据,基本覆盖拥有人口、法人、建筑物、地理、宏观经济等五大库相关政务数据资源的单位。根据业务的需要,可对数据来源进行扩充。数据来源具有独立性,扩展的类别不会影响已建设的数据分类存储和处理。数据提供方已确定的待采集数据以多种形式和类型存在,可分为结构化数据、非结构化数据和半结构化数据。从目前采集的数据分析,主要涉及结构化和非结构化数据,具体说明如下:a)结构化数据:可以用二维表结构来逻辑表达实现的数据,如Oracle、MySQL、DB2、SQLServer等数据库的数据;b)非结构化数据:不方便用二维表结构表现的数据,如文本、图片、XML、网页、报表、图像、音频、视频信息等;c)半结构化数据:介于结构化数据和非结构化数据之间的数据,数据字段数目不定,可根据实际需要进行增减,如HTML文档、电子邮件等。4.4.2数据质量在数据采集过程,为保证数据质量,宜遵循如下原则:a)完整性:数据不存在缺失,并保留历史数据等状况;b)一致性:数据遵循统一的规范,统一编码,数据集合保持统一的格式。同一指标在系统不同应用中应保证数据的一致性,同一指标数据在不同维度和不同颗粒度下应保证上下一致;c)准确性:数据记录不存在异常或错误;d)及时性:数据从开始到完成采集的延迟时间短。实时数据的采集,在网络状况良好的情况下,数据交换平台宜在5秒内完成采集;e)保密性:对待采集的数据进行加密,保证数据不被非法用户访问,只被拥有权限的用户访问。94.4.3数据存储数据采集过程,涉及前置库和中心汇聚库的数据存储。前置库存储在前置机上,用于存放通过数据采集系统抽取后准备入库到中心汇聚库的数据或从大数据中心推送来的数据。前置库中表和字段的创建,既可按数据来源分类进行手动增加,也可以通过Oracle或MySQL直接进行导入。根据数据来源的独立性,中心汇聚库的数据按数据提供方进行独立的分类存储和处理,从互联网这一特定的数据来源获取的社会舆情数据也作为一个单独的类别进行存储。中心汇聚库作为数据缓冲层,存储的数据均是最新数据。一旦有新的数据进入,旧的数据就会被置换,始终保持从数据采集系统采集来的最新数据,并采用数据片批次置换机制进行存储。中心汇聚库的数据,宜按照如下要求:a)在数据采集前,需先按数据提供方进行分类,再进行表和字段的创建,可以手动增加,也可以通过Oracle或MySQL直接进行导人;b)若前置库和中心汇聚库的数据库表结构存在差异,系统需对表字段和内容进行转换。若两者对同一属性的表示方式不一致,系统需提供数据内容转换。1技术规范数据采集是实现信息资源共享的前提和基础,在采集数据过程应遵循“一数一源”的原则。1.1数据采集方案选择通过前期调研和梳理,确定数据提供方的待采集数据形态和提供方式。根据实际情况,确定数据采集实施方案并签定相应保密协议。数据提供方接人数据的方案可包括:数据库接人方式、文件接入方式、API接入方式、网页接入方式和消息接入方式。1.1.1数据库接入方式采用前置库与数据交换平台进行连接的方式。在此方式下,数据提供方的应用系统通过前置库中转,与大数据中心进行信息交换,数据库接入方式的业务流程见图5所示。数据库接入方式适用于满足如下条件的数据采集:a)信息化程度高、保密性强。可在数据提供方的应用系统与数据交换平台间进行物理或逻辑隔离,如公安局,宜采用物理隔离;b)配置前置机。在数据提供方或大数据中心配置连接政务内、外网的前置机,并在前置机上安装数据库管理系统和交换节点软件。↓链接失败采用文件形式与数据交换平台进行数据交换的方式。在此方式下,数据提供方将数据保存为xml、据量大的数据文件,建议尽量选择数据库接人方式,文件接入方式的业务流程见图6所示。文件接入方式适用于满足如下条件的数据采集:a)有数据但没有系统或相关数据没有进入数据库或数据采集周期性较长的情况(如按月、按季、按年报送);2)HTTP方式:大数据中心提供相应的文件交换可以对上传文件进行检查和控制。文件上传系统应提供文件上传权限管理、数据验证、上传结果查询功能。解析成功开始包含未验证文件包括下载文件解析解析失败根据类型解析析记录不包括存储本地不能解析记录结束图6文件接入方式的业务流程1.1.3API接入方式根据数据提供方提供的RestfulAPI或Webservice接口快速接入数据交换平台,并由服务总线统一对外提供服务的对接方式,API接入方式的业务流程见图7所示。在此接入方式下,数据提供方需要提供适用于数据量大的数据采集。API接入方式适用于满足如下条件的数据采集:a)信息交换频繁,与数据提供方业务处理紧密联系的应用系统;b)需要直接在线提供数据。有封装规范的RestfulAPI或Webservice调用接口,并提供详细的服务描述信息。开始开始保存结束照一定规则和筛选标准进行数据归类,形成数据库文件。网页接人方式的业务流程见图8所示。网页接开始开始创建网页基础信息输入系统信息输入待采集页面信息保存结束DB4208/T59—2024c)配置连接政务外网的前置机,在前置机上安装交换消息处理软件(消息中间件)。a)数据一次采集:一次性将所有待采集数据(如一个完整的数据表)全部采集到中心汇聚库;b)数据实时采集:采集响应时间要保证实时性、低延迟,可按秒、分进行数据片采集;据采集,可按每周、每月、每季、每年等时间周期进行数据片采集。b)将确定的待采集数据的表或视图原封不动的从数据库中抽取出来,并转换成ETL工具可识别的格式,全量导人到中心汇聚库的目标表。用于抽取自上一轮次抽取后数据库表发生变化的数据。捕获变化的数据可采用的方式有:触发器、b)源表的数据发生变化,相应的触发器将变化的数据写入临时表;c)抽取线程从临时表抽取数据。b)更新或修改表数据时,修改时间戳字段值;全表比对进行增量抽取,逐条比较源表和目标表的记录,将新增和修改的记录读取出来。可采用a)在表中增加版本号列来存储数据行变化,每次变化都将版本号列的数据增加1;b)使用参考表记录每次采集数据时对应的版本;d)采集完后将参考表对应版本号更新为与源表一致的版本号。b)扫描日志文件查看数据库表的变化情况进行实时采集。a)前置库用户、角色权限等的分配、表空间的划分以采集方案采集配置采集调度启启动数据采集中心汇聚库前置库采集方案选择采集配置管理采集调度大数据中心方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论