版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240
A90
T/CAPSA
团体标准
T/xxxXXXX-XXXX
互联网公共安全数据处理流程
InternetPublicSafetyDataProcessingProcess
点击此处添加与国际标准一致性程度的标识
(征求意见稿)
XXXX-XX-XX发布XXXX-XX-XX实施
公共安全科学技术学会发布
T/XXXXXXX—XXXX
目次
目次........................................................................................1
前言....................................................................................2
互联网公共安全数据处理流程.................................................................3
1范围......................................................................................3
2规范性引用文件............................................................................3
3术语和定义................................................................................3
4总体说明..................................................................................4
4.1网络数据分类............................................................................4
4.2互联网公共安全风险数据来源.............................................................4
4.3数据格式描述...........................................................................4
5网络数据采集..............................................................................4
5.1数据采集流程............................................................................5
5.2数据获取...............................................................................5
5.3数据传输...............................................................................6
5.4数据存储...............................................................................6
6数据清洗流程..............................................................................6
6.1数据清洗流程............................................................................7
6.2数据抽取...............................................................................7
6.3数据清洗...............................................................................7
6.4数据更新................................................................................9
7数据清洗过程管理.........................................................................9
7.1数据清洗角色要求.......................................................................9
7.2数据审核管理要求......................................................................10
7.3数据更新总体原则......................................................................10
7.4数据校正处理要求......................................................................10
附录A......................................................................................................................................................................11
附录B......................................................................................................................................................................12
1
T/XXXXXXX—XXXX
-i-L-
刖言
本标准按照GB/T1.1-2020给出的规则起草。
本标准由公安部第一研究所和北方工业大学“社会公共安全风险数据管理技术研究”课题组提出。
本标准由公共安全科学技术学会归口。
本标准起草单位:北方工业大学、公安部一所、清华大学
本标准主要起草人:徐继宁、武国亮、雷振伍、李超、刘硕、曲亚鑫、史运涛、焦彦宗、丁函
本标准为首次发布。
2
T/XXXXXXX—XXXX
互联网公共安全数据处理流程
1范围
本标准定义了公共安全互联网数据采集和清洗的标准流程,并为数据的加工及管理过程提供方法
建议和指导。
本标准适用于建设社会公共风险应急平台过程中的数据提供单位和数据处理单位,用于指导各单
位的数据采集和清洗工作。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该口期对应的版本适用于本文件;不注口期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T1.1-2020《标准化工作导则第1部分:标准的结构和编写》
CB/T38673-2020《信息技术大数据大数据系统基本要求》
SJ/T11615.1-2016《网络数据采集分析软件规范第1部分:框架》
SJ/T11615.2-2016《网络数据采集分析软件规范第2部分:数据格式描述》
3术语和定义
GB/T35295-2017界定的以及下列术语和定义适用于本文件。
3.1
数据处理dataprocessing
本标准的数据处理是指招来自互联网的原始数据按照需求进行数据采集,数据清洗和初步打标等
工作。不包括大数据的高效传输,以及数据统计等数据处理工作。
3.2
数据采集dataacquisition
对数据资源进行收集并形成原始记录的过程。
注:大数据平台的数据来源包括政府平台的业务数据、物联网平台的传感器数据、互联网平台的用
户活动记录数据等。
本标准涉及到的数据采集指通过技术手段而非管理手段从互联网平台获取数据,即从互联网上通
过爬虫程序获取符合需求的相关数据信息的过程。
3.3
脏数据dirtydata
脏数据是指系统中的数据在其相应特定领域卜值域超限,数据格式不规范或不一致,或者业务语义
模糊或矛盾,或者已经过期等。
3.4
数据清洗datacleaning
数据清洗是指利用现有的数据挖掘手段和方法,发现和清洗“脏数据”,将“脏数据”转化为满足数据
质量要求或应用要求的数据的过程。它是发现并纠正数据文件中可识别错误的一道重要程序。
3.5
3
T/XXXXXXX—XXXX
文本情感分析opinionmining
对文本信息的主题、意见持有者、主客观性、情绪态度等情感信息的挖掘和分析,进而识别出主观
性文本的情感趋向。
3.6
突发公共安全事件publicsafetyemergency
指造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的突发事件,按照社会危害程
度、影响范围等因素分为自然灾害、事故灾难、公共卫生和社会安全事件。
3.7
数据完整性准则dataintegrityfundamentals
对数据进行有关存在性、有效性、结构、内容及其它他基本数据特征的测量标准。
3.8
表达质量presentationquality
如何进行有效信息表达以及如何从用户收集信息的测量标准。
3.9
问题数据abnormaldata
指数据迁移或数据库交换数据过程中无法正常存储的格式错误数据。
4总体说明
4.1网络数据分类
网络数据可以分为结构化数据和非结构化数据,其具备以下特点:
a)结构化数据
1)相对结构规范;
2)语义确定;
3)获取方式通用;
b)非结构化数据
1)信息不易抽取,语义不确定;
2)复杂多样,结构不规范;
3)获取方式多样,
4.2互联网公共安全风险数据来源
互联网公共安全风险数据资源,主要来自于社交平台,视频网站和新闻媒体的以网络舆论为主体的
实时数据,包含文字、图片、音频和视频等数据以及阅读数、评论数等用户行为数据,常见于论坛、博
客、微博、微信、视频、新闻和平面媒体等平台。
4.3数据格式描述
为了数据的统一存储和管理,针对不同网络数据来源的同一语义属性,应定义统一的数据属性和格
式。定义的数据格式将为数据存储和处理作支撑,因此需遵循可存储、可扩展、可转换的原则。
互联网公共安全数据抓取格式规范见附录A。
5网络数据采集
4
T/XXXXXXX—XXXX
5.1数据采集流程
网络数据采集是对互联网平台数据进行筛选、采集以及存储的过程。数据类型包括文本、图片、视
频和音频等,并将静态信息和动态信息保存在媒体上。互联网相关数据源作为输入,经过数据获取、数
据传输和数据存储最终存放至采集库(存储源数据)中,如图1所示。采集库可根据数据存储的要求选
择关系型或非关系型数据库。
图1互联网公共安全数据采集流程图
5.2数据获取
互联网公共安全数据的获取建立在不损害个人、组织与数据有关权益的基础上,遵守数据安全保护
相关的法律法规,以保障数据获取的合法性。
针对不同平台来源的数据,应分别对网页结构或App框架进行分析,进而设计对应的爬虫程序进行
数据抓取。具体的数据采集流程如图2所示:
5
T/XXXXXXX—XXXX
图2数据获取流程图
在数据源分析阶段应该分析考量数据源平台的反爬虫设置,应包含但不限于以下几项:
a)检查爬虫程序是否能够有效抓取数据;
b)该网页或App是否有针对大量爬虫行为进行的反爬虫行为限制;
c)定期更新爬虫程序以适应数据源平台的变化。
5.3数据传输
数据传输程序应能实时高效地处理所有采集点发送过来的数据包。常用的策略有:环形缓存机制、
双向队列式的内存分配方式、高并发收发、传输安全性保障、多副本策略等。若使用了多图本策略和数
据库阵列负载均衡,数据接收软件还需要提供单点故障容错的机制:
a)单个数据库若发生故障,任何数据读写都不应该受到影响;
b)数据接收程序能自动忽略受损数据库节点,并提供对应的系统监控警报。
5.4数据存储
网络数据存储数据库中存储记录数量在百亿条甚至千亿条以上的数据集,应根据数据量和数据结
构,考虑成本、口」伸缩性和可扩展性选择相应的数据库和存储方式。例如,针对非结构化数据可采用
Hbase+分布存储的方式,即把数据存放到多台Hbasc数据库服务器上,每台服务器存储一部分的数据。
考虑分布式数据库存在单点故隙恢复和可管理性等问题,采取一个多副本存储的分布式数据库方式,该
方式可在非人工干预下完成自动化副本亚制和数据版本校验的工作。
在数据进行存储的同时应生成作用于数据全生命周期、全局唯一的.主记录ID和附件记录1D(如果
存在附件),并建立主记录和附件记录的关联,以便进行数据查询。
6数据清洗流程
6
T/XXXXXXX—XXXX
6.1数据清洗流程
在数据存储后应进行数据清洗,以方便用户识别、判断、分析或者可视化处理等后续操作。数据清
洗流程包括数据抽取、数据清洗和数据更新。
数据清洗总体流程如图3所示:
(开始)
数据抽取
数
据
清
洗
数据更新
结束
图3数据清洗总流程图
6.2数据抽取
数据抽取是从数据源中抽取数据的过程,抽取方式为增量抽取。增量抽取是指在上次抽取完成后,
对数据库中新增或修改数据的抽取。
6.3数据清洗
6.3.1数据清洗概述
数据清洗是实现数据标准化的主要处理环节,需要根据清洗规则对数据进行校验、格式转换、去重、
修复、过滤等操作,将其转化为满足标准及质量要求的数据,最后依据相关要求进行信息提取和数据标
注。
6.3.2缺失值检测和格式校验
缺失值检测:缺失值是在数据采集时由于某种原因应该得到而没有得到的数据。缺失值检测通过检
测数据属性值中的空或来判断是否含有缺失值。
格式校验:通过检查表中属性值的格式是否正确来衡量有效性,如时间格式、多余字符、乱码等。
6.3.3字段标准化
字段标准化是根据数据标准把非标数据转换成统一的标准格式进行输出。针对不同来源同类数据
的同一语义属性,按照统一规则进行标准化,例如时间、地址、经纬度等属性的格式标准化。
7
T/XXXXXXX—XXXX
6.3.4脏数据处理
63.4.1脏数据处理概述
脏数据处理包括:重复数据去除、正面情感数据去除、缺失值数据处理和拼写错误修正。具体流程
图如图4所示。
脏
数
据
处
理
信息提取和数据标注
数据更新
(结束)
图4脏数据处理流程图
6.342重复数据去除
当两条数据的主属性值(抓取时间、发布时间、来源平台、发布作者、标题、内容)全部相同时,
判断为重复数据,并对其中一条重复数据判定为无效数据,并进行删除操作。
6.3.43正面情感数据去除
社会公共安全风险数据一般为带有负面或中性情感的舆论数据•,因此需要通过对数据标题和内容
属性值进行文本情感分析,对判定为正面情感的数据判定为无效数据,并进行删除操作。
6.3.4.4缺失值数据处理
针对缺失值数据,应根据缺失值属性的可修复性对数据进行缺失值修复,无法修复的数据判定为无
效数据。
例如:缺失值数据是如下情况时,判定该数据为无效数据,并进行删除操作:
a)“抓取时间”和“发布时间”全部缺失;
b)“内容”缺失;
c)“来源平台”缺失。
8
T/XXXXXXX—XXXX
缺失值数据可修复规则如下:
a)“抓取时间”缺失时,基于数据抓取的实时性,将“发布时间”属性值复制给“抓取时间”:
b)“发布时间”缺失时,基于数据抓取的实时性,将“抓取时间”属性值复制给“发布时间”;
c)“用户名”缺失时,将该属性值修改为“匿名”;
d)“标题”缺失时,将该属性值修改为“unknown”。
6.345拼写错误修正
各个数据源平台通常会设置敏感词限制,导致发布内容中可能会出现故意的拼写错误以规避这种
限制,因此需要对数据进行拼写错误修正。拼写错误包括如下情况:
a)词语中穿插出现符号或字母;
b)字词使用拼音或者同音、繁体或外文字词代替;
拼写错误修正的主要方法是分离字符、替换同音词和同译词,通过对修正前后的文本语义概率进行
计算判断是否进行修正,仅当语义概率提升时选择进行拼写错误修正操作。
6.3.5信息提取和数据标注
基于社会公共安全风险数据的特殊性,应对数据进行相关信息的提取和标注,以便于公安部门及相
关研究机构进行使用、分析和处理。基于互联网数据中的内容属性,运用语音识别、图像分割与F1标检
测、事件抽取、命名实体识别等方法,同时依据扩展属性进行相关信息的提取。
数据标注是将提取到的信息添加到数据相应的扩展列中,如未提取到相应信息则对应扩展列属性
值标记为“None”。根据突发公共安全事件相关内容对所有数据进行属性列扩展,应包含但不限于以下
3个公共属性列族和1个事件扩充属性项。公共属性列族包括事件信息、事件导致的损失/危害信息、事
件处置信息。
数据标注信息应按照上述事件属性信息进行标注,标注信息数据结构见附录Bo
6.4数据更新
数据更新是将清洗后的数据加载到数据库中,依据数据存储方式使用文本文件存储结合脚本处理
程序进行实现.数据更新的更新方式为增量更新,即仅更新源表变化的数据。设计增量更新机制时,因
满足以下要求:
a)将业务系统中的变化数据按一定的频率准确地捕获到,同时不能对业务系统造成太大的压力,
影响现有业务:
b)保证数据更新后目标表的正确性;
c)保证作业失败后的可恢复重启的易维护性;
7数据清洗过程管理
7.1数据清洗角色要求
7.1.1数据清洗角色定义
数据清洗管理涉及的数据管理角色有提供者和管理者。提供者负责提供清洗的网络数据,管理者负
责数据清洗系统的基本运行管理、数据清洗规则制定、数据清洗发起等。
7.1.2提供者管理要求
提供者配合管理者根据接入数据指标规范与接入数据内容、接入数据流程要求,配置与部署接入服
务,实现接入数据库的数据传输;发现并提供应接收数据清洗系统的问题数据,及时按规范处置,并通
知管理者。
7.1.3管理者管理要求
管理者对数据清洗系统的管理要点应包括:管理者应负责协调并明确数据清洗规则;管理者应负责
9
T/XXXXXXX—XXXX
构建清洗后数据及问题数据各自的数据库和数据表的结构;管理者应负责将数据库发现的问题交给提
供者,并协调提供者修改完善。此外,管理者应对数据清洗服务器的各项操作进行严格管理。
7.2数据审核管理要求
数据审核的目标使确保数据内容与被描述对象相一致,并且质量符合数据产品标准要求。
数据审核可以贯穿于整个数据资源加工过程之中,可以量化评价的内容包括数据来源质量评价、数
据加工模型与算法质量评价、数据产品质量评价等。
数据审核可以由数据采集加工人员自检,也可以由数据库主要承建单位专门开展。适宜时,数据审
核宜采取抽样检查或计算机辅助方法进行。
数据库主要承建单位应明确审核所参照的评估模型和方法以及技术要求等。如果政府、上级管理部
门、或学科领域内已存在相关的数据质量管理国际、国家规范或行业标准,数据审核宜采取这些相关标
准。
审核指标的设置应在符合实际的前提下尽可能不应与当前国际领先水平有太大差距。审核指标可
以包括但不限于准确性,真实性误差等技术参数,特色数据和重点数据宜适当提高指标。
数据资源审核通过后方可正式对用户提供服务,未能通过审核的数据一般应返回到必要的流程进
行修正或重新加工。
7.3数据更新总体原则
数据更新前应订立数据更新计划,计划内容包括更新的频率和周期,数据更新的内容、范围和总量
控制等。
7.4数据校正处理要求
数据校正应在数据接入阶段中解决问题。如原始数据提供者申请数据校正处理,经管理者同意后,
应由原始数据提供者和管理者一起制定校正规则,在数据接入过程中清洗校正。原始数据提供者应定期
对数据源系统进行检查。
T/XXXXXXX—XXXX
附录A
(规范性附录)
互联网公共安全数据采集格式
互联网公共安全数据采集格式见表A.1。
表A.1互联网公共安全数据采集格式
序号名称含义数据类型长度描述
数据采集时间,采用时间戳
1GatherTime采集时间数值型14
形式,精确到秒级
2Site采集平台字符型2,10采集平台的名称
3URL采集页面链接字符型10,128原始页面链接
信息发布者的用户名、昵
4UserName发布者字符型1,50
称、ID
发布者创建时发布用户账号创建时间,采
5UserCreateTime数值型14
间用时间戳形式,精确到秒级
6FansNum粉丝数数值型1,10发布者的粉丝数
7ConcernNum关注数数值型1,10发布者的关注数
8PublishNum内容发布数数值型1,10发布者原创内容发布数
信息发布时间,采用时间戳
9PublishTime发布时间数值型14
形式,精确到秒级
10Title信息标题字符型1,50发布的标题信息
11ContentTable表格发布内容中的表格
12ContentText文本字符型发布内容中的文本
13ContentPicture图片发布内容中的图片
14ContentAudio音频发布内容中的音频
15ConteniVidio视频发布内容中的视频
16ReadNum阅读数数值型1,10发布内容的阅读/点击数
17CommentNum评论数数值型1,10发布内容的回复/评论数
18CopyNum转发数数值型1,10发布内容的转发数
19Gatherld采集器1D数值型当前采集器[【)
11
T/XXXXXXX—XXXX
附录B
(规范性附录)
互联网公共安全数据标注信息数据结构
事件基本信息数据结构表见表B.L
表B.1事件基本信息数据结构表
数据类字段
序号字段名称字段含义字段说明备注
型长度
突发事件
1EName字符型100描述突发事件的名称信息
名称
突发事件使用唯一ID对当前标绘的突发事件进行
2EID字符型32
标识码标识
3ECode符号编码字符型32突发事件对应标绘符号的代码
描述突发事件点状符号所处位置的空间经
4ExCoords经度数值型9,6
度信息
描述突发事件点状符号所处位置的空间纬
5EyCoords纬度数值型9.6
度信息
事件的
6EHeight高程数值型7,3单位为米(m)
信息
7EType事件类型字符型60描述突发事件的类型信息
描述突发事件的等级信息,一股分为特别
8EGrade事件等级字符型10
重大/重大/较大/一般
9ETime事发时间数值型12描述突发事件的时间信息
10EDesc事发地点字符型200描述突发事件发生地的基本信息
事件基本
11EBaseDesc备注型2000描述突发事件的基本信息
信息描述
事件标绘描述事件标绘单位的基本信息,应包括单
12EPUDesc字符型200
单位信息位名称,地址,联系人与联系电话
事件导致的损失/危害信息数据结构表见表B.2o
表B.2事件导致的损失/危害信息数据结构表
数据类字段
序号字段名称字段含义字段说明备注
型长度
1DeathNum死亡人数数值型10突发事件中的死亡人数。单位为人
突发事件影响范围的平径。单位为公
2EffcctRadius影响半径数值型11,3
里
事件导
突发事件对自然环境、公共基础设
致的损
3EffectDegre影响程度字符型1000施、居民生活、社会治安等的影响程
失/危
度
害信息
4EffcctDcsc影响范围字符型2000突发事件影响的范围描述
直接经济突发事件造成的直接经济损失。单位
5Ecol.oss数值型20,4
损失为万元
12
T/XXXXXXX—XXXX
表B.2(续)
数据类字段
序号字段名称字段含义字段说明备注
型长度
6LossDesc损失情况字符型1000突发事件已造成的各种损失的描述
事件处置信息数据结构表见表B.3。
表B.3事件处置信息数据结构表
数据类字段
序号字段名称字段含义字段说明备注
型长度
1Measures三采取措施字符型1000已经采取措施的描述
事件处
2RescueState救助情况字符型1000已经进行的灾民救助情况描述
置信息
3SupportRequest支援情况字符型1000向上级提出的支援信息请求
自然灾害数据扩充属性项数据结构表见表B.4.
表B.4自然灾害数据扩充属性项数据结构
字段类字段
序号字段名称字段含义字段说明
型长度
1DisasterNum受灾人口数值型10自然灾害中的受灾人数,单位为人
2DeathNum因灾死亡人口数值型10自然灾害中的死亡人数,单位为人
3MissingNum因灾失踪人口数值型10自然灾害中的失踪人数,单位为人
4WoundedNum因灾伤病人口数值型10自然灾害中的伤病人数,单位为人
紧急转移安置自然灾害中需紧急生活救助人口,单位
5TransferNum数值型10
人口为人
需紧急生活救自然灾害中需过渡性生活救助人口,单
6LifpAssist.Xum数值型10
助人口位为人
TransitLife/\ssisN需过渡性生活自然灾害中需过渡性生活救助人口,单
7数值型10
um救助人口位为人
因旱需生活救自然灾害中因旱需生活救助人口,单位
8DroughtTrbNum数值型10
助人口为人
因旱饮水困难
9WaterTrbNum数值型10自然灾害中饮水困难,单位为人
需救助人口
农作物受灾面自然灾害造成的农作物受灾面积,单位
10SmlCropDmgArca数值型12,3
积为公顷
农作物成灾面自然灾害造成的农作物成灾面积,单位
11CropDmgArea数值型12,3
积为公顷
农作物绝收面自然灾害造成的农作物绝收面枳,单位
12BigCropDmgArea数值型12,3
积为公顷
自然灾害造成的毁坏卓场面积,单位为
13DisastcFarmland草场受灾面积数值型12,3
公顷
14BuiIdCollps倒塌房屋数数值型10自然灾害造成的倒塌房屋数,鱼位为间
15BuildDmg损坏房屋数数值型10自然灾害造成的损坏房屋数,重位为间
13
T/XXXXXXX—XXXX
表B.4(续)
字段类字段
序号字段名称字段含义字段说明
型长度
因灾死亡大牲自然灾害造成的死亡大牲畜数,单位为
16LivestockDeadNum数值型10
畜头只
突发事件造成的农业经济损失,单位为
17AgricLoss农业损失数值型20,4
万元
突发事件造成的工矿企业经济顶失,单
18IndusLoss工矿企业损失数值型20,4
位为万元
突发事件造成的基础设施经济彳员失,单
19InfrastrLoss基础设施损失数值型20.4
位为万元
突发事件造成的公益设施经济壶失,单
20WclfFacilLoss公益设施损失数值型20,4
位为万元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中化地质矿山总局云南地质勘查院招聘备考题库及参考答案详解
- 修订完善单位内控制度
- 甘肃省内控制度
- 县科技局内控制度
- 经济领域内控制度
- 出纳内控控制制度
- 市人防办内控制度
- 疾控科内控制度
- 健全建设项目内控制度
- 公司税务方面内控制度
- (新版)特种设备安全管理取证考试题库(浓缩500题)
- 调解实操指南:成为金牌调解员-笔记
- GB/T 27604-2024移动应急位置服务规则
- 苏教译林版五年级上册英语第八单元Unit8《At Christmas》单元测试卷
- 《合同能源管理介绍》课件
- 电力系统继电保护教案
- 《社会调查研究与方法》课程复习题-课程ID-01304试卷号-22196
- GB/T 43316.3-2023塑料耐环境应力开裂(ESC)的测定第3部分:弯曲法
- 科研伦理与学术规范-课后作业答案
- 2021年高考语文浙江卷现代文阅读《麦子》试题及答案
- 顶管工程施工检查验收表
评论
0/150
提交评论