版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.020
CCSL70
DB52
贵州省地方标准
DB52/T1540.4—2021
政务数据第4部分:数据质量评估规范
Governmentdata—part4:dataqualityassessmentspecification
2021-08-18发布2021-12-01实施
贵州省市场监督管理局发布
DB52/T1540.4—2021
目次
前言................................................................................II
1范围..............................................................................1
2规范性引用文件....................................................................1
3术语和定义........................................................................1
4评估指标..........................................................................2
5评估方法..........................................................................4
6评估流程..........................................................................5
7评估结果应用......................................................................6
附录A(资料性)评估指标分值........................................................7
参考文献.............................................................................8
I
DB52/T1540.4—2021
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
本文件是DB52/T1540的第4部分。DB52/T1540已经发布了以下部分:
第1部分:术语;
第2部分:元数据管理规范;
第3部分:数据清洗加工规范;
第4部分:数据质量评估规范;
第5部分:共享交换基本要求;
第6部分:安全技术规范。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由贵州省大数据发展管理局提出。
本文件由贵州省大数据标准化技术委员会(GZ/TC17)归口。
本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、贵
州省信息中心、贵州省量子信息和大数据应用技术研究院、云上贵州大数据产业发展有限公司、重庆昱
普生科技发展有限公司。
本文件主要起草人:韦超、刘彦嘉、韩朱旸、蒋开明、徐明春、田野、杨鹏、唐昶、张洋、姚茂峰、
关艳梅、杨建国、陈驰、雷伟、陆莹、郑如顺、黄明峰、刘军、韩朱旸、谭璐、王仕品、黄小梅、钟凯
馨、潘伟杰、邵建平、谭敏、王珂。
II
DB52/T1540.4—2021
政务数据第4部分:数据质量评估规范
1范围
本文件规定了政务数据质量评估的指标、方法、流程和结果应用等要求。
本文件适用于政务数据质量评估工作。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
数据data
对事实、概念或指令的一种形式化表示,适用于以人工或自动方式进行通信、解释或处理。
[来源:GB/T35295-2017,2.2.1]
3.2
政务部门governmentdepartment
各级地方党委、人大、政府、政协、法院、检察院及其直属各部门(单位),以及法律法规授权具
有行政职能的事业单位和社会组织。
3.3
政务数据governmentdata
政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。
[来源:GB/T38664.1—2020,3.1]
3.4
数据质量dataquality
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
[来源:GB/T25000.12—2017,4.3]
1
DB52/T1540.4—2021
4评估指标
4.1指标框架
数据质量评估指标框架见图1。评估指标包括以下内容:
a)内容质量:包括数据规范性、准确性、完整性和可用性;
b)过程质量:包括数据处理过程的处理效果、一致性;
c)效用质量:包括数据可访问性、时效性。
图1数据质量评估指标框架图
4.2指标说明
数据质量评估指标说明见表1。
2
DB52/T1540.4—2021
表1数据质量评估指标说明
一级指二级指
三级指标指标描述
标标
命名规范性数据库、数据集、数据元的命名方式符合相关命名规范的情况。
元数据规范性元数据描述符合相关规范的情况。
规范性
参考数据规范性参考数据符合既有格式及规范的情况。
数据权限规范性是否基于相关法律法规制定数据安全权限的规范性文件。
敏感字段脱敏占比已脱敏字段占全部字段的比例。
数据格式(数据类型、数据范围、数据长度、精度、编码等)
是否满足预期要求,如手机号、身份证号、性别、统一社会信
数据格式合规性
用代码等。具体体现为满足格式要求的数据集字段数占总数据
集的字段总数的比例。
准确性
内容数据重复率特定字段、记录、文件或数据集中存在重复数据的比例。
质量特定数据字段、记录、文件或数据集唯一标识的程度,具体体
数据唯一性
现为满足唯一性的数据集个数与总数据集个数的比例。
脏数据出现率脏数据出现率低于阈值的数据集的比例。
数据元素空值率数据元符合数据元管理要求,不存在值为空的现象。
完整性数据记录空值率数据记录内容中存在空值的情况。
数据记录缺失率(融合应用时)数据记录内容覆盖所有数据,不存在缺失现象。
数据字段可用性数据字段值有效、可用的比例。
依赖字段可用性存在依赖关系的字段同时非空的比例。
可用性数据集由多个字段组成,根据字段的可用率计算整个数据集的
数据集可用性
可用率。
数据接口可用性数据接口调用能够准确、正常的返回请求的比例。
处理效数据合格率校验后符合数据定义和规则的数据与总体数据的比例。
果清洗保留率清洗后的数据量占清洗前数据总量的比例。
过程
同一数据在不同位置存储或被不同应用或用户使用时,数据的
质量相同数据一致性
一致性一致情况。
关联数据一致性符合基础数据元组合的数据集的比例。
数据字段可访问率可访问的数据字段的数量与总数的比例。
可访问
数据集可访问率可访问的数据集的数量与数据集总数的比例。
性
效用数据接口有效性可访问接口正确性。
质量时段数据正确性日期范围的记录或者频率分布符合业务需求的情况。
时效性时点数据正确性特定时点的记录数、频率分布或延迟时间符合业务需求的情况。
数据时序正确性数据时序的正确性。
3
DB52/T1540.4—2021
5评估方法
5.1检核方法
数据质量评估按照评估指标对数据质量进行检核,检核方法包括:
a)系统检核:使用数据质量管理系统等数据质量工具实现自动检核,如自定义SQL语句检核;
b)人工检核:根据评估指标,结合个人专业判断进行数据检核,如资料对比、经验判断等。
5.2检核方式
5.2.1全量检核
对涉及的所有数据进行逐一检核数据质量。
5.2.2增量检核
对涉及的数据,在特定的范围和时间段内新增的数据进行逐一检核数据质量。
5.2.3抽样检核
按照抽样方案,对抽取的数据进行逐一检核数据质量。
5.3分值设计
评估指标分值设计用绝对权数表示,绝对权数等同于各指标满分分值。各层级评估指标分值设计见
附录A。
5.4结果计算
评估对象的最终评估总得分按公式(1)进行计算。一级指标得分按公式(2)计算,二级指标得分
按公式(3)进行计算。
3
PFi......................................(1)
i1
n
FSiij.......................................(2)
ja
m
STijijk.......................................(3)
kb
式中:
P——评估对象最终总得分;
i——第i个一级指标;
Fi——第i个一级指标实际得分;
j——第j个二级指标;
a——分解于第i个一级指标的起始二级指标序号;
n——分解于第i个一级指标的结尾二级指标序号;
Sij——第j个二级指标(分解于第i个一级指标)实际得分;
4
DB52/T1540.4—2021
k——第k个二级指标;
b——分解于第j个一级指标的起始二级指标序号;
m——分解于第j个一级指标的结尾二级指标序号;
Tijk——第k个三级指标(分解于第j个二级指标)实际得分。
6评估流程
6.1流程图
数据质量评估流程见图2,包括评估准备、指标选择、规则确定、评估实施、结果核验、报告编制。
图2数据质量评估流程图
6.2评估准备
评估前应了解具体业务对特定政务数据的需求,确定评估目的、对象及范围、评估方式,编制数据
质量评估方案。
6.3指标选择
根据明确的评估目的,按照第3章规定选择合适的评估指标,并确定评估指标分值。
6.4规则确定
根据选定的评估指标、评估对象确定数据质量检核规则。
6.5评估实施
6.5.1自评估
按照数据质量评估方案确定的评估指标对评估对象进行自评估。
6.5.2质量检核
按照数据质量检核规则对数据进行数据质量检核。
5
DB52/T1540.4—2021
6.6结果核验
结合自评估情况,对检核结果进行核验,根据不同数据使用场景和业务需求对数据质量评估得分进
行分级评价,确定数据质量好坏。
6.7报告编制
根据评估结果编制评估分析报告,内容宜包括但不限于:评估对象及范围、评估指标、计分规则、
评估检核方法、评估实施过程、质量问题。
7评估结果应用
7.1数据质量评估报告反映的数据质量问题,及时反馈数据提供方、数据处理方和数据使用方的相关
部门及人员进行处理。
7.2跟踪数据质量问题的处理,形成数据质量问题的闭环处置。
7.3通过数据质量问题及其相关处理经验的汇总、分析,逐步积累形成包含数据质量检核规则、质量
问题描述、针对性解决方案的数据质量知识库。
6
DB52/T1540.4—2021
AA
附录A
(资料性)
评估指标分值
评估指标分值见表A.1。
表A.1评估指标分值
一级指标一级指标分值二级指标二级指标分值三级指标三级指标分值
1.1.1命名规范性4
1.1.2元数据规范性4
1.1规范性201.1.3参考数据规范性4
1.1.4数据权限规范性4
1.1.5敏感字段脱敏占比4
1.2.1数据格式合规性4
1.2.2数据重复率4
1.2准确性15
1.2.3数据唯一性4
1内容质量56
1.2.4脏数据出现率3
1.3.1数据元素空值率3
1.3完整性91.3.2数据记录空值率3
1.3.3数据记录缺失率3
1.4.1数据字段可用性3
1.4.2依赖字段可用性3
1.4可用性12
1.4.3数据集可用性3
1.4.4数据接口可用性3
2.1.1数据合格率5
2.1处理效果10
2.1.2清洗保留率5
2过程质量20
2.2.1相同数据一致性5
2.2一致性10
2.2.2关联数据一致性5
3.1.1数据字段可访问率4
3.1可访问性123.1.2数据集可访问率4
3.1.3数据接口有效性4
3效用质量24
3.2.1时段数据正确性4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春季江苏盐城市东台农商银行校园招聘15人备考题库附参考答案详解(典型题)
- 2026青海海西州乌兰县人民法院临聘财务辅助岗招聘1人备考题库及参考答案详解一套
- 2026四川成都市社会科学院考核招聘高层次人才7人备考题库及1套参考答案详解
- 2026云南省机关事务管理局抗战胜利纪念堂管理处招聘编外人员3人备考题库含答案详解(a卷)
- 医院安检工作制度汇编
- 侨界人士联系工作制度
- 体育艺术21工作制度
- 综合执法管理科工作制度
- 美丽乡村村干部工作制度
- 老干部局宣传科工作制度
- 机械加工图纸基础知识培训课件
- 西方经济学下册课件
- 2025年文山市公安局警务辅助人员招聘考试笔试试题(附答案)
- 网格员考勤管理办法
- 中药煎服法课件
- 车载光通信技术发展及无源网络应用前景
- 省级政府和重点城市一体化政务服务能力调查评估报告
- 社区工作法讲解
- 《月夜》刘方平课件
- 高校科研成果转化操作指引
- 人事证明开具管理办法
评论
0/150
提交评论