




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS01.040.03
CCSA12
DB52
贵州省地方标准
DB52/T1541.6—2021
政务数据平台第6部分:面向全网搜索
应用的数据处理规范
Governmentdataplatform—Part6:Datapreprocessingspecificationsfor
searchingapplicationbasedontheplatform
2021-05-17发布2021-09-01实施
贵州省市场监督管理局发布
DB52/T1541.6—2021
政务数据平台第6部分:面向全网搜索应用的数据处理规范
1范围
本文件规定了面向政务数据平台全网搜索应用的数据处理的总体框架、数据接入、数据处理、搜索
应用和数据安全相关要求。
本文件适用于政务数据平台全网搜索应用的数据处理活动。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T2260中华人民共和国行政区划代码
GB/T2261.1个人基本信息分类与代码第1部分:人的性别代码
GB/T7408数据元和交换格式信息交换日期和时间表示法
GB11643公民身份号码
GB32100法人和其他组织统一社会信用代码编码规则
GB/T37973-2019信息安全技术大数据安全管理指南
DB52/T1540.2政务数据第2部分:元数据管理规范
DB52/T1541.3政务数据平台第3部分:数据存储规范
3术语和定义
下列术语和定义适用于本文件。
3.1
政务数据平台governmentdataplatform
依托政务云计算平台搭建,承载政务数据并支撑数据统筹存储、统筹治理、统筹应用和统筹安全的
基础信息技术平台。
[来源:DB52/T1541.3-2020,3.1]
3.2
全网搜索datasearchingapplicationsbasedongovernmentdataplatform
基于政务数据平台围绕特定应用场景进行数据处理,通过搜索引擎和机器学习技术实现数据的组织
呈现、融合重构、关联分析和衍生应用。
1
DB52/T1541.6—2021
3.3
数据处理datapreprocessing
对拟进入搜索数据库的数据进行前期处理加工以达到特定的规范性要求,支撑后续搜索应用的实
现。
3.4
数据元dataelement
用一组属性描述其定义、标识、表示和允许值的数据单元。数据元由三部分组成:对象、特性、表
示。
[来源:GB/T18391.1-2009,3.3.8]
3.5
元数据metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T35295-2017,2.2.7]
3.6
统计指标statisticalindicators
说明总体数量特征的概念及其数值的综合。
3.7
基础数据库basicinformationdatabase
国家信息化和电子政务建设基础数据资源库,包括人口基础数据库、法人数据库、宏观经济数据库、
自然资源与空间地理数据库、电子证照库等。
3.8
主题数据库thematicinformationdatabase
针对特定应用主题将存在内在逻辑关联关系的各类数据有序汇聚形成的指定数据库。
3.9
搜索数据库searchingdatadatabase
基于政务数据平台数据,结合特定搜索应用业务需求进行管理规划并有序存放经数据前置处理后的
有效数据的专题数据库。
2
DB52/T1541.6—2021
3.10
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用
关系模型予以有效描述。
[来源:GB/T35295-2017,2.2.13]
3.11
非结构化数据unstructureddata
不具有预定模型或未以预定方式组织的数据。
[来源:GB/T35295-2017,2.1.25]
3.12
半结构化数据Semistructureddata
具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。
示例:XML文档内容,每项都被一对标记封起来,如<title></title>,表面上看是结构化数据,但<title></title>
之间的数据却是千变万化,这是典型的半结构化数据。
[来源:DA/T82-2019,2.8]
3.13
数据类型datatype
规定数据结构的数据对象的经定义的集合和一组许可的运算,在这些运算中任何一个执行时,其中
数据对象都当作运算数。
示例:整数型的结构非常简单,整数型的值是在某一规定范围内的整数的一个成员的表示,许可的运算包括对这些
整数的常见算术运算。
[来源:GB/T5271.17-2010,17.5.8]
3.14
全量更新fullupdate
使用新的数据对历史数据进行完全覆盖。
[来源:DB52/T1541.2—2020,3.14]
3.15
增量更新incrementalupdate
将两次更新间隔发生变更的数据同步到存储区域。
[来源:DB52/T1541.2—2020,3.15]
3
DB52/T1541.6—2021
3.16
数据脱敏datamask
从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信
息,并保留目标环境业务所需的数据特征或内容的数据处理过程。
[来源:DB52/T1126—2016,2.1]
3.17
数据加密dataencryption
对数据进行密码变换以产生密文的过程。一般包含一个变换集合,该变换使用一套算法和一套输入
参量。输入参量通常被称为密钥。
[来源:GB/T25069—2010,2.2.2.60]
3.18
数据完整性dataintegrity
数据没有遭受以未授权方式所作的更改或破坏的特性。
[来源:GB/T25069—2010,2.1.36]
3.19
数据模型datamodel
按照信息系统中的形式描述和所应用的数据库管理系统的要求构造的数据库中数据的一种原型。
[来源:GB/T5271.17-2010,17.1.7]
3.20
主键primarykey
一种用于标识一个记录的键。
[来源:GB/T5271.17-2010,17.3.11]
3.21
外键foreignkey
在某一关系中,与另一类关系中的主键对应的一个或一组属性。
[来源:GB/T5271.17-2010,17.4.15]
3.22
关系relation
具有相同属性的各实体值的集合以及这些属性。
注:在关系数据库中,一个关系能通过一个表来表示,表中各行对应于各实体值,各列对应于各属性。
[来源:GB/T5271.17-2010,17.4.1]
4
DB52/T1541.6—2021
3.23
数据描述datadescription
对某一数据元素与其中出现该元素的名称和字的数据结构的形式化描述。
[来源:GBT5271.17-2010,17.6.3]
3.24
总量指标totalquantityindex
用来反映特定对象或现象在一定条件下总规模、总水平或工作总量的统计指标。
3.25
相对指标relativeindices;
relativeindicators
用两个关联指标的比值来反映特定对象或现象的数量特征、数量关系的综合指标。
3.26
平均指标averageIndex
同一时间的同类型主题对象或现象的一般水平,或是不同时间的同类型主题对象或现象的一般水
平。
4缩略语
下列缩略语适用于本文件。
OSS:对象存储服务(ObjectStorageService)
ETL:加载、抽取、转换(Extract-Transform-Load)
API:应用程序编程接口(ApplicationProgrammingInterface)
URL:统一资源定位符(UniformResourceLocator)
5总体框架
政务数据平台的全网搜索应用的整体业务逻辑架构图见图1。其组成部分如下:
a)数据接入:将来源于政务数据平台各存储模块中各种类型的数据进行规范接入管理,并根据业
务需求从不同存储模块中接入数据元进行对应数据处理。存储模块包括数据采集区、基础库和
主题库;
b)数据处理:对接入的数据元按照数据治理规范,结合业务场景与搜索目标进行数据元梳理、数
据清洗融合和数据模型设计,并将结果存储到搜索数据库中。处理内容包括数据描述、数据指
标、数据标签和关联关系等;
c)搜索应用:通过元数据管理系统对搜索数据库中表结构与关联关系进行抽取,结合搜索应用业
务需求对元数据进行管理分类、知识构建,支撑搜索引擎和领导驾驶舱建设;
d)数据安全:包括数据机密性、完整性、数据备份。采用数据脱敏、数据加密、制定备份机制等
数据处理方法进行数据传输与存储,确保数据安全。
5
DB52/T1541.6—2021
图1全网搜索应用的整体业务逻辑架构图
6数据接入
6.1存储要求
6.1.1数据分类存储按DB52/T1541.3的规定进行。
6.1.2数据接入前应根据待处理数据的结构化程度将数据存储至以下区域:
a)结构化数据应存储到统一数据采集区;
b)非结构化数据应存储于云计算的开放存储区OSS,并建立对应数据描述表以支撑搜索应用;
c)半结构化数据按将文件基本属性、存储路径等描述信息以结构化数据文件入库存储至统一数据
采集区。
6.2接入规则
6.2.1结构化、非结构化数据,通过ETL工具进行分类接入;
6.2.2半结构化数据化解为结构化数据通过ETL工具进行接入;
6.2.3接入形式包括二维库表类型、文本类型、URL连接地址、API接口等。
6
DB52/T1541.6—2021
6.3更新机制
6.3.1全量更新
将数据源中的表或视图的数据全部从数据库中抽取出来,通过ETL工具迁移到搜索数据库中。
6.3.2增量更新
增量更新是指在进行更新操作时,只更新需要改变的地方,不需要更新或者已经更新过的地方则不
会重复更新,增量更新与全量更新相对。
6.3.3更新频率
数据更新频率包括以下方式:
a)数据更新频率应达到秒级响应,实现实时更新:
b)在设定时间的误差范围内,准实时批量接入;
c)数据按天、周、月进行定时调度,实现同步更新。
7数据处理
7.1数据描述规范化处理
7.1.1处理方法
数据描述的规范化处理方法包括但不限于:
a)数据格式处理:对错误的数据格式进行治理、修改;
b)关键信息缺失补全:对需要搜索的关键信息出现缺失的部分进行补全;
c)明显逻辑错误修正:核查数据元间业务逻辑关系,对明显错误逻辑进行修正。如对数据上下级、
归属关系进行修正;
d)数据类型错误修正:根据搜索目标对数据类型进行判断,对不满足数据类型的错误进行修正。
7.1.2通用型数据处理要求
时间、区划地点、对象等通用数据处理,应满足以下要求:
a)行政区划代码应符合GB/T2260规定;
b)性别代码应符合GB/T2261.1规定;
c)日期和时间应符合GB/T7408规定;
d)公民身份号码应符合GB11643规定;
e)法人和其他组织统一社会信用代码应符合GB32100规定。
7.1.3非通用型数据处理要求
非通用的描述类数据处理应满足以下要求:
a)可计算型数据元的计算类型,应满足当前系统可连接数据库类型的可计算数据类型的要求,计
算单位根据业务进行描述;
b)可分组维度的数据字段应按其特征进行分组;
c)可比较数据元应按照不同维度、不同规则进行比较;
d)主体数据元应对主体的核心内容进行描述。
7
DB52/T1541.6—2021
7.2数据指标处理
对数据元中涉及数值与统计数据的指标数据,应按同一指标内部相对差距不变、不同指标间的相对
差距不确定、标准化后极大值相等原则采用数据同趋化和无量纲化等方法进行处理。按照其反映的内容
或其数值表现形式分为总量指标、相对指标和平均指标三种。
指标统计处理应包括以下内容:
a)确定指标的含义和范围;
b)指标指向的对象或现象应具有同类性;
c)有统一的计量单位;
d)两个对比指标要有可比性。
7.3数据标签处理
7.3.1对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义,对数据属性进行归类。
7.3.2数据标签可分为以下两类:
a)基于统计类的标签:从政务平台基础数据中直接统计得出,为基础的标签类型,如性别、城市、
月均消费金额等字段构成用户画像的基础;
b)基于规则类的标签:基于行为及确定的规则产生,开发标签中的标签规则由涉及的双方共同协
商确定,如距今90天内交易次数>3是“交易活跃”标签的定义和口径。
7.4关联关系处理
7.4.1同一个业务源不同数据表之间,需要有对应的主外键关系,表与表之间依据主外键进行关联。
7.4.2针对不同业务与业务之间,需要设立统一规范的业务主键,利用业务主键进行关联。
8搜索应用
8.1经数据处理后的数据应按描述数据、业务数据、模型和标签等类型数据进行分类存放进搜索数据
库。
8.2按DB52/T1540.2(政务数据元数据管理规范)的规定对搜索数据库数据的元数据进行管理。
8.3计算机对数据标签、关联关系信息、数据指标进行学习理解并最终记忆,形成知识构建。
8.4经知识构建形成的可理解和处理的数据,与搜索内容进行语义对齐,理解搜索意图,最终查找出
结果。
8.5对于非结构化数据,搜索实现文本语言数据之间的比较,当核心内容相似性达到一定程度时,判
断为找到用户需求,并反馈结果。
8.6全网搜索主要应用方向包括数据查询、数据画像、数据调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 6147-2025精密电阻合金热电动势率测试方法
- GB/T 45634-2025进境出境经虫媒传播传染病防控技术规范
- GB/T 33555-2025洁净室及相关受控环境静电控制技术要求
- 材料力学与智能材料性能拓展重点基础知识点
- 风电场草原火灾应急预案(3篇)
- 疼痛科火灾应急预案演练(3篇)
- 酒店厨房发生火灾的应急预案(3篇)
- 商铺燃气火灾应急预案(3篇)
- 企业在战略变化中的风险分析与决策试题及答案
- 产科新生儿火灾应急预案(3篇)
- 2024年中国智慧港口行业市场全景评估及未来投资趋势预测报告(智研咨询)
- 围产期奶牛的饲养管理(内训)
- 警队训练管理制度
- 胸腔穿刺术评分表
- 15D503 利用建筑物金属体做防雷及接地装置安装
- (完整版)中国书法英文版
- XX医院远程医疗服务信息系统运行维护记录(B1)
- 川教版二年级《生命.生态.安全》下册第10课《面对学习困难》课件
- 端午节趣味谜语及答案
- 天府国际生物城C7-1实验室项目环境影响报告
- 家校携手决战中考-九年级家长会课件
评论
0/150
提交评论