《互联网公共安全数据处理流程》 编制说明_第1页
《互联网公共安全数据处理流程》 编制说明_第2页
《互联网公共安全数据处理流程》 编制说明_第3页
《互联网公共安全数据处理流程》 编制说明_第4页
《互联网公共安全数据处理流程》 编制说明_第5页
已阅读5页,还剩4页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公共安全科学技术学会团体标准

《互联网公共安全数据处理流程》

编制说明

起草单位:北方工业大学、公安部一所、清华大学

2021年6月9日

目录

一、工作简况..............................................1

1.任务来源...........................................1

2.编制目的...........................................1

3.标准编制过程.......................................1

4.标准编制原则.......................................2

—国内外研究现状........................................3

三标准内容和分析........................................4

四国内外相关标准研究及制修订情况........................6

1.国内相关标准情况...................................6

2.国外相关标准情况...................................6

五与有关现行法律、法规和强制性标准的关系................7

六重大分歧意见的处理经过和依据..........................7

七标准执行要求..........................................7

八执行贯彻国家标准的要求和措施建议......................8

九废止现行有关标准的建议................................8

+其他予以说明的事项....................................8

《互联网公共安全数据处理流程》编制说明

一、工作简况

1.任务来源

2018年8月,国家科技部重点研发计划项目《国家公

共安全应急平台》完成项目立项,其中课题《基于〃互联网

+〃的社会公共安全风险防控技术》要求编制互联网公共安

全数据处理流程标准规范(送审稿),完成时间为2021年,

标准类别为公共安全科学技术学会团体标准。

2.编制目的

随着信息技术的飞速发展,互联网已经成为人们发布信

息和获取信息最主要的媒介,这使得人们可以从互联网上快

速了解到实时发生的事情。同时,这些网络大数据中包含着

大量的公共突发事件信息,如果能够实时地从网络大数据中

挖掘突发事件信息,将会为政府相关部门快速处理事件和做

好舆论引导赢得宝贵的时间,因此这种变化也为公共安全预

警和管理提供了新的途径。然而当前网络承载的数据呈现出

爆炸式增长的态势,表现为数据种类多种多样、结构复杂、

规模庞大。〃数据爆炸〃使得数据的价值密度较低且无标准

格式,因此无法直接地使用网络数据。为了提高从互联网中

实时获取公共突发事件信息的能力,需要编写互联网公共安

全数据处理流程,指导相关的数据获取和数据清洗工作。

3.标准编制过程

1)立项启动阶段

用需求,制定系统的、完整的数据处理流程。

4)可实施性

标准中指导使用的措施和方案应具有可实施性。

二国内外研究现状

2011年,国际标准化组织(ISO)发布了ISO

22320:2011EN《SocietalsecurityEmergency

managementRequirementsforincidentresponse》,该

标准对应急信息制作和发布的过程中应包含的活动说明,以

基于互联网的公共安全多源异构数据做为数据源,并根据包

含的活动说明中的计划与指导、收集、处理与使用等部分展

开制定。2013年,YD/T2673:2013《面向舆情分析的互

联网数据采集与交换格式定义》针对新闻、博客、论坛和微

博这四个社交网络平台,进行了互联网结构化数据采集与交

换格式的定义,为后续网络数据采集提供了借鉴。2019年,

GB/T37722:2019《信息技术大数据存储与处理系统功

能要求》规定了大数据存储与处理系统的分布式文件存储、

分布式结构化数据存储、流处理框架等的功能要求,在技术

层面对数据存储进行了规范。此外,ISO/IEC20546:2019

EN《Informationtechnology-Bigdata-Overviewand

vocabulary》和GB/T352952017《信息技术大数据术

语》的出版使数据处理领域的大部分术语得到了明确的定

义。这些指标体系的提出为进行互联网公共安全数据处理提

供了有益的探索。

3

三标准内容和分析

L标准的主要内容和框架

《互联网公共安全数据处理流程》共分7章。

1)范围

本标准适用于建设社会公共风险应急平台过程中的数

据提供单位和数据处理单位,用于指导各单位的数据采集和

清洗工作。

2)规范性引用文件

下列文件对本标准的应用是必不可少的。凡是注日期的

引用文件,仅注日期的版本适用于本文件。凡是不注日期的

引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T1.1-2020《标准化工作导则第1部分:标准的

结构和编写》

GB/T38673-2020《信息技术大数据大数据系统

基本要求》

SJ/T11615.1-2016《网络数据采集分析软件规范第

1部分:框架》

SJ/T11615.2-2016《网络数据采集分析软件规范第

2部分:数据格式描述》

3)术语和定义

本标准给出9条术语,其他一些术语由于在《GB/T

35295-2017信息技术大数据术语》有定义,本标准未

再列出。

4

4)总体说明

本标准对网络数据的分类、互联网公共安全数据的来源

以及相应的数据格式进行了概述。

5)网络数据采集

本标准详细阐述了互联网公共安全数据的采集流程,包

括数据获取、数据传输和数据存储。

6)数据清洗流程

基于对互联网公共安全数据的特征和后续数据应用需

求的分析,本标准对在此基础上规范提出了数据清洗流程,

该流程主要包括数据抽取、数据清洗和数据加载三部分。

7)数据清洗过程管理

在进行互联网公共安全数据处理的同时,本标准对数据

清洗过程管理规范提出了相应的原则和要求,包括数据清洗

角色要求、数据审核管理要求、数据更新总体原则和数据校

正处理要求。

2.重点内容分析

1)网络数据采集流程

主要流程包括三部分:数据获取、数据传输和数据存储。

第一,数据获取主要是通过对网页结构或App框架进

行分析,设计对应的爬虫程序并进行数据抓取。

第二,数据传输明确了数据传输程序应能实时、高效地

处理所有采集点发送过来的数据包,同时提出相应的策略包

括环形缓存机制、双向队列式的内存分配方式、高并发收发、

传输安全性保障、多副本策略等。

5

第三,数据存储提出了选择数据库和存储方式的考虑因

素,并列举了部分存储策略。

2)数据清洗流程

主要流程包括三部分:数据抽取、数据清洗和数据更新。

第一,数据抽取提出了从数据源中抽取数据的方式,主

要是增量抽取。

第二,数据清洗主要是进行校验、格式转换、去重、修

复、过滤,以及依据相关要求进行信息提取和数据标注。

第三,数据更新提出了使用文本文件存储结合脚本处理

程序进行实现的方法。数据更新的更新方式为增量更新。

3)数据清洗过程管理

主要包括四部分:数据清洗角色要求、数据审核管理要

求、数据更新总体原则和数据校正处理要求,其中数据清洗

角色要求包括数据提供者管理要求和数据管理者管理要求。

四国内外相关标准研究及制修订情况

1.国内相关标准情况

《YD/T2673-2013面向舆情分析的互联网数据采集

与交换格式定义》

《SJ/T11615-2016网络数据采集分析软件规范》

《GB/T38673-2020信息技术大数据大数据系统

基本要求》

2.国外相关标准情况

《150-22320:2011SocietalsecurityEmergency

6

managementRequirementsforincidentresponse》

《£0-20546:2019Informationtechnology-Big

data-Overviewandvocabulary^

五与有关现行法律、法规和强制性标准的关系

本系列标准与有关现行法律、法规和强制性标准无抵

触。

六重大分歧意见的处理经过和依据

无重大分歧意见。标准起草组与多家单位及专家经过多

次研讨,积极采纳了所提出的修改建议,最终形成征求意见

稿。

七标准执行要求

建议将本标准按推荐性标准颁布。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论