DB3307∕T 137-2024 公共数据质量评价规范_第1页
DB3307∕T 137-2024 公共数据质量评价规范_第2页
DB3307∕T 137-2024 公共数据质量评价规范_第3页
DB3307∕T 137-2024 公共数据质量评价规范_第4页
DB3307∕T 137-2024 公共数据质量评价规范_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.01

CCSL70

3307

浙江省金华市地方标准

DB3307/T137—2024

公共数据质量评价规范

Qualityassessmentspecificationsforpublicdata

2024-1-23发布2024-2-23实施

金华市市场监督管理局  发布

DB3307/T137—2024

目次

前言..................................................................................II

1范围................................................................................1

2规范性引用文件......................................................................1

3术语和定义..........................................................................1

4指标体系框架........................................................................1

5评价指标............................................................................2

5.1评价指标设置原则................................................................2

5.2指标说明........................................................................2

5.3评价方法........................................................................6

6评价程序............................................................................7

6.1评价流程........................................................................8

6.2评价流程图......................................................................8

附录A(资料性)公共数据质量评价报告..................................................9

I

DB3307/T137—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别专利的责任。

本文件由金华市大数据发展管理局提出、归口并组织实施。

本文件起草单位:金华市大数据发展管理局、数字浙江技术运营有限公司、金华市计量质量科学研

究院。

本文件主要起草人:徐李锐、庄迁伟、徐挺、薛海霞、刘家豪、施林波、赵勇、马慕遥、盛尚军、

叶慧杰、冯骏、王秋娴。

II

DB3307/T137—2024

公共数据质量评价规范

1范围

本文件规定了公共数据质量评价的评价指标体系框架、评价指标、评价程序的要求。

本文件适用于公共数据平台上公共数据的质量评价。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

DB33/T2350—2022数字化改革术语定义

3术语和定义

DB33/T2350—2022界定的以及下列术语和定义适用于本文件。

3.1

公共数据publicdate

国家机关、法律法规规章授权的具有管理公共事务职能的组织以及供水、供电、供气、公共交通等

公共服务运营单位,在依法履行职责或者提供公共服务过程中收集、产生的数据。

3.2

数据质量publicdatequality

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

[来源:GB/T36344—2018,2.3]

4指标体系框架

公共数据质量评价指标体系框架,见图1。

1

DB3307/T137—2024

图1公共数据质量评价指标体系框架

5评价指标

5.1评价指标设置原则

数据质量评价指标设置应遵循以下原则:

——系统性:指标体系覆盖全面,综合考虑各要素对数据质量的影响,且各指标项之间尽可能相

互独立;

——科学性:需结合数据质量、数据生命周期管理的相关要求及实践情况,采用定性、定量的方

法,科学设计评价指标体系;

——通用性:根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重;

——可操作性:指标体系内容设置及评价方法符合公共数据共享的实际情况,选取数据可得、概

念明确及计算方法简单的指标,此外评价内容和指标可量化,评价步骤和方法可操作,评价

结果可使用。

5.2指标说明

5.2.1基础质量

基础质量评价指标说明,见表1。

2

DB3307/T137—2024

表1基础质量评价指标说明

一级二级三级指指标类型

序号指标描述计算方法示例

指标指标标(正向/反向)

数据记录实际归属时间与目

录所填报的数据时间覆盖范

围的比值。X=(1-b/(A-B))×

填报的数据时间覆盖

注:时间覆盖范围:目录编100%

范围为“2023年1月

制时依据业务发生情况式中:

-2023年12月”,而

时间覆(按年、月、周、日、A=填报的数据截止时

1正向实际数据记录中缺失

盖比例实时)进行时间覆盖范间;

2023年2月的数据,

围填报,包括数据起始B=填报的数据起始时

则比值为(1-1/12)

时间、数据截止时间,间;

×100%,即91.67%

可剔除因未实际开展相b=数据缺失时间。

关业务造成无数据记录

的时间段。

数据记录实际归属区域与目

X=A/B×100%

完整性录所填报的数据区域覆盖范

式中:填报的地区覆盖范围

围的比值。

A=实际业务覆盖且在为“全市10区县”,

注:区域覆盖范围:目录编

区域覆填报地区内的区域数而数据记录中只包含

2制时按照实际业务数据正向

盖比例量;8个区县的数据,则比

的地域来划分,进行区

B=填报上传区域覆盖值为(8/10)×100%,

基础域覆盖范围填报。剔除

范围内的区域总数即80%。

质量因未开展相关业务造成

量。

无数据记录的区域。

数据记录实际归属业务与目X=A/B×100%填报的业务覆盖范围

录所填报的数据业务覆盖范式中:为“业务A、业务B、

业务覆围的比值。A=实际覆盖业务数业务C”,而数据记录

3正向

盖比例注:业务覆盖范围:目录编量;中只包含A业务的数

制时按照业务发生情况B=填报上传全部业务据,则比值为(1/3)

填报的业务覆盖范围。总数量。×100%,即33.33%。

表中原有10000条数

X=A/B×100%据,根据清洗规则清

不准确数据记录中不符合准确性清

式中:洗后发现不准确数据

4记录比洗规则的数据记录条数占数反向

A=不准确记录条数;200条,则比值为

例据总条数的比值。

B=数据记录总条数。(200/10000)×

准确性100%,即2%。

X=A/B×100%数据记录总数为10

格式异数据记录中不符合数据字典式中:000条,存在格式异常

5常记录规范的异常记录数占数据记反向A=格式异常数据记录数据200条,则比值为

比例录总条数的比值。条数;(200/10000)×

B=数据记录总条数。100%,即为2%。

6基础准确性重复数数据记录中异常重复的数据反向X=A/B×100%数据记录总数为10

3

DB3307/T137—2024

一级二级三级指指标类型

序号指标描述计算方法示例

指标指标标(正向/反向)

质量据记录记录条数占数据总条数的比式中:000条,存在异常重复

比例值。A=异常重复数据记录数据200条,则比值为

条数;(200/10000)×

B=数据记录总条数。100%,即2%。

X=A/B×100%有10个字段元素有唯

式中:一性要求,其中符合

元素唯符合唯一性的字段元素个数

A=符合唯一性的字段唯一性要求的字段元

7一性比与有唯一性要求的数据字段正向

元素个数;素有7个,则比值为

例元素总数的比值。

B=有唯一性要求的字(7/10)×100%,即

段元素总数。70%。

数据记录总数为10

X=A/B×100%

数据记录中,通过数据问题工000条,其中通过工单

反馈问式中:

单等形式反馈问题的数据记反馈的问题数据条数

8题数据反向A=反馈问题数据条

录数与数据记录总条数的比为200条,则比值为

比例数;

值。(200/10000)×

B=数据记录总条数。

100%,即2%。

数据实际更新频率为

X=IF(A=a,"是","否

1次/天,数据目录要

数据的实际更新频率与目录")

求的更新频率为每天

编制时填报的更新频率(小式中:

归集及1次,此时数据实际更

9时、每天、每周、每月、每半正向A=数据实际更新频

时性新频率与数据目录更

年、每年)或业务发生频率的率;

新频率相同则判断返

一致性情况。a=数据目录要求更新

回是,则归集及时性

频率。

及时性为是,即为及时归集。

按要求数据记录更新

X=A-a

时间应为5月5日12

式中:

数据记录中最新的更新时间点,但数据记录中实

数据时A=数据最新更新时

10与要求的更新时间之间的差反向际的最新更新时间为

效性间;

值,以天数计算。当月5月5日0点,则该

a=数据要求更新时

数据时效性为-0.5

间。

(天)。

X=A/B×100%

式中:数据记录中共有20个

数据记录中符合国家、省级、A=满足标准化要求的数据字段元素,其中

数据标

行业等数据标准的数据字段数据元素字段数量;17个数据字段元素的

11规范性准化比正向

元素占有相关数据标准的数B=数据表中有国家、数据符合数据标准,

据字段元素总数的比值。省级、行业等数据标则比值为(17/20)×

准说明的总元素字段100%,即85%。

数量。

基础数据模判断数据生成模型是否清晰X=IF(a=“规范”,数据生成模型规范,

12规范性正向

质量型规范规范可理解,如有完整规范的“是”,“否”)且清晰可理解,则评

4

DB3307/T137—2024

一级二级三级指指标类型

序号指标描述计算方法示例

指标指标标(正向/反向)

性数据结构、数据操作和数据完式中:价结果为是。

整性约束条件。a=数据模型是否符合

清晰可理解规范。

5.2.2使用成熟度

使用成熟度指标说明见表2。

表2使用成熟度评价指标说明

一级指标类型

序号二级指标指标描述计算方法示例

指标(正向/反向)

X=IF

数据编目时是否有完整配套(A=“有”,“是”,数据目录中有数据说

1数据易用性的数据说明书,有则判定为易正向“否”)明书,则判断数据为易

用,无则判断为不易用。式中:用。

A=是否有数据说明书。

使用X=IF

成熟度在评价周期内,根据实际需要(A≤B,“是”,“否”)评价周期内,变更次数

设定数据表结构变更次数上式中:上限为1,表结构实际

表结构

2限,在上限之内则判定表结构正向A=评价周期内表结构变更2次,评价结果为

稳定性

为稳定,超过上限则判定表结实际变更次数;否(非真),表示表结

构为不稳定。B=评价周期内表结构构不稳定。

可变更次数上限。

5.2.3服务保障

服务保障评价指标说明,见表3。

表3服务保障评价指标说明

一级二级三级指标类型(正向/

序号指标描述计算方法示例

指标指标指标反向)

X=A/B×100%某个评价周期内,反

问题数在评价周期内,按时完成整改式中:馈的问题数据工单

问题数

据及时的数据问题工单数与所有反A=按时完成整改问总数为50个,已按时

1据整改正向

整改比馈的问题数据工单总数的比题数据工单数;整改49个,则问题数

情况

例值。B=反馈问题数据工据整改情况为49/50

服务

单总数。×100%,即98%。

保障

某个评价周期内,数

X=A/B×100%

数据审据申请工单总数为

数据审在评价周期内,数据申请通过式中:

2批通过正向50个,通过49个,则

批情况数与数据申请总数的比值。A=数据审批通过数;

比例数据审批情况为

B=数据申请总数。

49/50×100%,即

5

DB3307/T137—2024

一级二级三级指标类型(正向/

序号指标描述计算方法示例

指标指标指标反向)

98%。

某个评价周期内,数

X=A/B×100%

据申请按时审批数

数据审在评价周期内,数据申请按时式中:

服务为4个,数据申请总

3批及时审批的数量与数据申请总数正向A=数据申请在按时

保障数为5个,则比值为

性的比值。审批数;

4/5×100%,即为

B=数据申请总数。

80%。

5.2.4共享成效

共享成效评价指标说明,见表4。

表4共享成效评价指标说明

指标类型

序号一级指标二级指标指标描述计算方法示例

(正向/反向)

评价数大于等于10:X=A

评价数小于10:X=B某个评价周期内,该数

在评价周期内,数据使用方式中:据存在三个评分,分别

数据使用在使用数据后中对数据评A=数据使用方评分的平均为1、3、4,则满足条

1正向

评分分的平均值(去掉最大值和值(去掉最大值和最小件评价数小于10,选择

最小值)。值);数据中位数3作为该指

B=数据使用方评分的中位标结果。

数。

X=A/B×100%某个评价周期内,该数

数据以批量方式被申请共式中:据的批量共享申请通

共享成效

数据共享享,数据被共享申请通过次A=该数据批量共享申请通过次数为3次,总的批

2正向

次数比例数占总的批量共享申请通过数;量共享申请通过数为

过数的比值。B=数据批量共享申请通过10次,则该指标为3/10

总数。×100%,即30%。

X=A/B×100%

某个评价周期内,该数

数据以接口形式被申请共式中:

据接口申请通过次数

接口共享享,数据申请通过次数与所A=该数据接口共享申请通

3正向为3次,接口申请通过

次数比例有接口共享申请通过总数过次数;

总数为10次,则该指标

的比值。B=数据接口共享申请通过

为3/10×100%,即30%。

总数。

5.3评价方法

5.3.1重复值分析法

在非冗余的情况下,将每条数据记录中的部分数据或者所有数据的取值,与所有的数据记录进行逐

一比对,识别重复记录。可用于数据准确性相关指标评价。

6

DB3307/T137—2024

5.3.2缺失值分析法

对每条数据记录的所有数据项进行逐一检查,识别是否存在空值。可用于数据完整性、数据规范性

相关指标评价。

5.3.3值域分析法

将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。用于数据完整性、数据规范

性相关指标评价。

5.3.4逻辑关系分析法

对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。用于数据

准确性、数据及时性相关指标评价。

5.3.5经验分析法

对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。用于数据准确性、使

用成熟度、共享成效相关指标评价。

注:经验分析法常与逻辑关系分析法、词组比对分析法联合使用。

5.3.6描述统计法

通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之

间关系进行估计和描述的方法。用于数据完整性相关指标评价。

5.3.7对比分析法

将两个或两个以上的数据进行比较,分析其中的差异,从而揭示这些事物代表的发展变化情况以及

变化规律。用于数据准确性、数据及时性、评价周期内表结构稳定性、问题数据整改情况等相关指标评

价。

5.3.8平均分析法

利用平均数指标来反映某一特征数据总体的一般水平。用于数据准确性、数据规范性、数据审批情

况、用户对数据使用的评价等相关指标评价。

5.3.9交叉分析法

用于分析两个变量之间的相互关系的一种基本数据分析法。用于数据易用性、数据准确性相关指标

评价。

5.3.10关联性分析法

作为一种数据挖掘技术,根据数据之间的关联性强度对数据质量进行评价,可以确定数据的利用效

率。用于共享成效中应用接口共享使用次数比例、应用接口共享使用次数比例等相关指标评价。

5.3.11全量检测法

对整个数据集合进行检测,检测结果相对精准。用于整个评价体系各项指标评价。

6评价程序

7

DB3307/T137—2024

6.1评价流程

6.1.1申请

公共数据来源机构提出申请公共数据质量评价。

6.1.2对象确定

根据申请的数据目录确定对应的数据表作为评价对象。

6.1.3指标选择

根据实际需要从第5章评价指标中选定适当的评价指标。

6.1.4赋分规则

应对选中的评价指标设置分值和权重。

6.1.5数据获取

加载公共数据平台数据到数据评价系统。

6.1.6分值计算

应对评价对象的各项指标依据6.1.4条款的赋分规则计算分值。

6.1.7评价结果

根据分值计算,汇总形成评价结果。

6.1.8报告

应根据基础质量、使用成熟度、服务保障、共享成效四个维度的评价结果,自动生成评价报告,报

告模版应统一,示例参见附录A。

6.2评价流程图

评价流程图见图2。

图2公共数据质量评价流程图

8

DB3307/T137—2024

附录A

(资料性)

公共数据质量评价报告

A.1报告

报告内容包括不限于以下部分:

——报告总览图;

——评价结果示例;

——报告总结与意见建议。

A.1.1报告总览

报告总览示例见图A.1。

评价对象:XXXX(数据目录名称)评价对象归属单位:XXXX(部门名称)

评价总体得分:94分评价结论:通过(自定义通过阈值)

评价机构:金华市大数据发展管理局评价时间:2023年11月20日

图A.1报告总览图示例

A.1.2评价结果示例

A.1.2.1基础质量评价

赋分60分,评价结果示例见表A.1。

9

DB3307/T137—2024

表A.1基础质量评价结果示例

一级二级指标评定

序号三级指标参考结果实际结果存在问题/说明

指标指标结果分值

该评价指标赋分5分。

1时间覆盖比例5100%100%

无问题,不存在时间度的记录缺失情况。

该评价指标赋分5分。

2完整性区域覆盖比例4100%90%

存在问题,缺失兰溪市的数据记录。

该评价指标赋分5分。

3业务覆盖比例5100%100%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论