生殖健康科学数据质量控制规范_第1页
生殖健康科学数据质量控制规范_第2页
生殖健康科学数据质量控制规范_第3页
生殖健康科学数据质量控制规范_第4页
生殖健康科学数据质量控制规范_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICSxx.xxx

Yxx

T/CRHxxxx—2019

生殖健康科学数据质量控制规范

Reproductivehealthsciencedataqualitycontrolspecification

(草案)

xxxx-xx-xx发布xxxx-xx-xx实施

中国生殖健康产业协会发布

前言

本标准按照GB/T1.1-2009《标准化工作导则第1部分:标准的结构和编写》起草。

本标准由中国生殖健康产业协会提出并归口。

本标准起草单位:

本标准起草人:

本标准由中国生殖健康产业协会标准化技术委员会负责解释。

本标准为首次发布。

本标准知识产权归属中国生殖健康产业协会所有。

III

生殖健康科学数据质量控制规范

1.范围

本规范规定了生殖健康科学数据质量评价的指标、数据质量评价与控制方法和评价报告

说明。为各类生殖健康科学数据的收录、储存、管理提供依照。

本规范适用于生殖健康科学数据信息服务。建议管理和使用生殖健康数据的单位、机构

和个人参照本规范执行。

2.规范性引用文件

下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,

其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本

规范达成协议的各方,研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其

最新版本适用于本规范。

GB/T19000-2016质量管理体系基础和术语

GB/T19001—2016质量管理体系要求

TR-REC-063数据质量管理规范

3.术语和定义

下列术语和定义适用于本规范。

3.1

数据集dataset

具有同一特征属性的数据集合。

3.2

元数据metadata

描述数据的数据,主要是描述数据属性的信息。

3.3

精度precision

观测值与真值或允许值之间的接近程度。

1

3.4

数据质量元素dataqualityelement

描述数据集质量的成分,包括质量定量元素和质量非定量元素。

3.5

数据质量定量元素quantitativeelementofdataquality

描述数据集质量的定量成分。

3.6

数据质量非定量元素dataqualityoverviewelement

描述数据集质量的非定量成分。

3.7

数据质量子元素dataqualitysubelement

数据质量元素的组成部分,用于描述数据质量元素的某一方面。

3.8

质量控制qualitycontrol

质量管理的一部分,致力于满足质量要求。

3.9

源数据sourcedata

本规范特指生殖健康科学数据各上传单位未标准化整理的数据。

4.数据质量元素

4.1数据质量的描述

数据质量由数据质量元素来描述,数据质量元素分为两类,数据质量定量元素和数据质

量非定量元素。数据质量定量元素用于描述数据满足预先设定的质量标准要求及指标的程

度,提供定量的数据质量信息;数据质量非定量元素提供综述性的、非定量的数据质量信息。

4.2数据质量元素

4.2.1数据质量定量元素

由数据生产者确定的数据集质量,对任意数据质量可附加数据质量定量子元素。

描述数据质量信息主要内容:

2

a)完整性:特征、特征属性、特征关系存在或不存在。相应的数据质量定量子元素的

描述内容为:

1)冗余:数据集中有多余的数据;

2)缺少:数据集中缺少应有的数据;

b)逻辑一致性:数据结构(包括概念的、逻辑的或物理的数据结构)、属性和它们间

的相互关系符合逻辑规则的程度。相应的数据质量定量子元素的描述内容为:

1)概念一致性:符合统一概念模式规则;

2)值域一致性:同在界定的值域范围内;

3)格式一致性:数据存储与数据物理结构、规定格式的一致;

4)拓扑一致性:数据集拓扑关系的一致性;

c)时间精度:描述要素的时间属性和时间关系的精度。相应的数据质量定量子元素的

描述内容为:

1)时间测量精度:时间测量的正确性;

2)时间的一致性:时间序列的一致性;

3)时间的有效性:数据在时间上的有效性;

d)数据集精度:描述要素定量或非定量属性精度和要素属性分类正确性及它们间的相

互关系的正确性。相应的数据质量定量子元素的描述内容为:

1)分类正确性:要素或属性相对于分类标准的一致性程度;

2)非定量属性的正确性:非定量属性描述的正确性;

3)定量属性的正确性:定量属性的精度;

4.2.2数据质量非定量元素

质量描述信息三方面的内容:

——目的:描述生产数据集创建的原因和主要目的;

——用途:描述数据集对于生产者和用户等的应用范围、使用情况;

——数据志:描述数据集的历史,即数据集从收集、获取、汇编到现状完整生命周期的

有关描述;

数据志包括两个独立的部分:源数据信息与数据处理步骤或重要处理事件信息(连续性

或周期性的转换、维护等处理过程)。

3

5.数据质量评价内容

数据质量评价是对数据的数据定量元素和非定量元素各方面做出衡量的过程,评价内容

涉及定量元素及其子元素和非定量元素。

5.1完整性

5.1.1属性的完整性

冗余:多余的属性或属性的类型数

多余的属性或属性的类型百分率

缺少:缺少的属性或属性的类型数

缺少的属性或属性的类型百分率

5.1.2要素的完整性

冗余:多余的要素或要素的类型数

多余的要素或要素的类型百分率

缺少:缺少的要素或要素的类型数

缺少的要素或要素的类型百分率

5.2逻辑一致性

5.2.1属性一致性

不满足逻辑规则规定的属性或属性类型数

不满足逻辑规则规定的属性或属性类型百分率

5.2.2格式一致性

符合程度

a)数据集的不符合数

b)数据集的不符合程度

5.3时间精度

时间误差

a)与时间有关的属性或属性类型误差平均值

b)与时间有关的属性或属性类型误差方差或标准差

c)与时间有关的属性或属性类型误差超限百分率

d)与时间有关的属性或属性类型正确百分率

4

5.4属性精度

5.4.1连续值精度

a)属性精度

1)属性或属性类型误差矢量平均值(N维矢量)

2)属性或属性类型误差协方差矩阵(N*N矩阵)

3)属性或属性类型超限百分率

4)属性或属性类型百分率

b)归类错误率

属性或属性类型分类错误率矩阵

5.4.2有序值得精度

a)属性精度

属性或属性类型正确分类百分率

b)归类错误率

属性或属性类型分类错误率矩阵

5.4.3额定值精度

a)属性精度

属性或属性类型正确分类百分率

b)归类错误率

属性或属性类型分类错误率矩阵

6.数据质量评价指标

生殖健康科学数据质量评价包括数据集整体评价和单条数据记录评价。评价指标内容包

括定量结果、非定量结果、数据质量评价日期等。

6.1定量结果

依据对数据质量评价指标项的定量结果,分为三级:

a)合格:参与评价的各项指标均合格;

b)基本合格:参与评价的各项指标80%以上合格;

c)不合格:参与评价的各项指标20%以上不合格;

5

6.2非定量结果

非定量评价主要评价数据集或数据记录是否满足创建目的、用途是否可用等。

非定量结果分为,满足、基本满足、不满足。

6.3数据质量评价日期

每一个数据记录质量评价或数据集质量评价应当有一个质量评价日期。

6.4评价单位

每一个数据记录质量评价结果或数据集质量评价结果应当有一个评价单位(若存在)。

7.数据质量评价方法

7.1直接评价法

可分为自动检测或人工检测评价方法,还可分为完全检查或抽样检查法。

7.1.1计算机程序自动检测方法

计算机软件自动检测数据的错误及可能出现错误的内容,缩小人工检查范围。当采用计

算机程序自动检测时,用于检测的自动检测程序的名称、算法和其它参考信息应当在数据质

量报告中说明,以使评价结果可信。

7.1.2人工检测法

按照数据标准化整理方案,通过人工直接检查数据错误。

7.1.3完全检查法

完全检查测试数据质量范围内的所有数据项。

7.1.3抽样检查法

对数据的不同要素,在不同数据采集、录入、集成阶段采用不同比例进行抽样检查(建

议选用随机抽样方法)。取样时应分析数据结果可靠性,特别是使用小样本时。取测试数据

质量范围内足够的数据项来获得数据质量结果。取样方法类型、取样率及取样详细过程描述

要在数据质量报告中说明,以使评价结果可信。

7.2间接评价法

间接评价法即基于相关知识或信息进行演绎推理来确定数据质量等级或符合程度。用于

演绎推理的知识或信息包括用途、数据历史纪录、源数据的质量、数据采集录入方法和系统

的信息以及误差传递模型等。

6

用于演绎推理方法和知识或信息应当在质量评价报告中阐述,以提高演绎推理的可信

度。

注意:仅在直接评价法不能使用时,才可单独使用间接评价法。

7.3综合评价法

数据、要素或属性的总体质量可综合它们的各组成部分的质量评定结果来确定。在综合

过程中,应考虑这些组成部分的出错率。

综合评价方法应在数据质量评价报告中说明。

8.质量控制方法

生殖健康科学数据的共性数据包括标记信息、基础信息、数据特征信息、管理信息等,

信息量极大,在数据采集、预处理、上传、共享等过程都可能因为各种原因而产生数据质量

问题,因此质量控制应分环节实施,建立完整的、适宜的质量评价体系,进行识别、度量、

监控、预警等一系列管理活动,实施全面质量管理,以保证数据的完整、精准、有效、安全。

8.1建立数据质量管理体系

实现过程包括建立、形成文件、实施、保持和持续改进的过程。

正式的质量管理体系为策划、实施、监视和改进质量管理活动的绩效提供框架。

质量管理体系不是固定的,应随着组织的学习和环境的变化为逐渐完善。

8.2标准化要求

制定生殖健康科学数据的系列标准规范,并按照标准规范进行数据的采集、预处理、上

传、共享等。对标准规范以外的特殊情况应视情况特殊处理。

8.3制订数据准入制度

选择质量满足要求的源数据,对源数据进行评价和分级和资格认证:

a)合格和基本合格的源数据获取准入资格,但基本合格的源数据则应寻找问题并加以

改善数据质量。

b)不合格的源数据可经数据上传单位参考原始数据进行核实和完善后,进行再次质量

评价,如果质量符合要求,给予准入资格;如仍不符合要求,则不具有准入资格,拒绝进入,

经校验后,做出相应地标识。

数据准入制度是决定平台数据质量的首要关键因素。

7

8.4数据采集过程中数据质量的控制

8.4.1采集手段的选择

根据数据产品的应用、用户的要求、精度高低的不同,合理选择不同的数据采集手段,

满足质量及经济的双重需求。优先选择精度较高的测量仪器,应采用统一的数据录入软件。

8.4.2采集中的监控:进程跟踪

进程跟踪是实时质量控制中一种典型的预防性质量控制的管理方法。它利用计算机程序

在数据采集过程中,通过数据之间应当具有的各种关系(几何关系、数据取值范围、相联关

系等等)来限制约束数据可能出现的质量问题。

8.5不合格数据的控制

8.5.1控制要求

——确保数据准入制度的实现,防止不合格数据进入共享平台。

——对不合格的数据进行标识;

——改善数据,无法改善的不合格数据,予以剔除;

——纠正改善之后应对其进行再一次的质量评价,以证实符合要求;

——如准入制度未能实现或者准入制度的缺失,导致共享使用时发现数据不合格的,应

采取相适应的紧急措施,降低不合格数据的影响或潜在影响。完善准入制度、完善数据质量

控制体系;

——对上述的整个过程进行详细的记录;

8.5.2纠正措施

为消除已发现的不合格数据或其他(未预料)原因导致不合格数据所采取的措施,有以

下要求:

a)找到导致不合格数据出现的原因,消除不合格数据的原因,防止不合格数据再发生。

b)按照下述要求将纠正过程编制形成文件:

——质量评价不合格;

——确定不合格原因;

——评价不合格不再发生的措施的需求;

——确定和实施所需的措施;

——记录所采取措施的结果;

——评价所采取的措施;

8

8.5.3预防措施

为消除潜在不合格数据形成的原因所采取的措施。有以下要求:

a)采取措施,消除潜在不合格的原因,防止不合格的数据再发生。

b)按照下述要求将预防措施编制整理形成文件:

——确定潜在不合格原因;

——评价不合格不再发生的措施的需求;

——确定和实施所需的措施;

——记录所采取措施的结果;

——评价所采取的措施;

8.6改善数据质量

由源数据采集或上传单位参考原始数据记录进行改善和补充,禁止随意更改,更改的内

容应有记录。

依据逻辑判断,由计算机自动完成,无法改善的数据予以剔除。

由计算机统计出容易出问题的地方,进行各类检查方法相结合,即时改善。

数据质量改善按照统一的规范标准进行一致性规范化的修改。

8.7反馈机制的建立—运行维护到共享

生殖健康科学数据按照专题、分题、数据集、数据子集进行分类归属,使得用户可以较

方便获取感兴趣的数据。科学数据集应有专人负责管理,并有具体的联系方式,保证完整畅

通的信息反馈渠道。用户在使用过程中发现需求以及存在问题时,可直接与数据集管理者及

时沟通。生殖健康数据库管理者在管理过程中发现问题,可通过数据集管理者反馈至数据上

传单位相关管理者,予以及时改善,满足用户需求。

8.8全程记录控制

与数据有关的所有过程应建立并保持记录,以提供符合要求和质量控制体系的证据。记

录应保持清晰、易于识别和检索。记录文件的编制应规定记录的标识、保护、检索、保存期

限和处置所需的控制。

8.9对软、硬件配置的要求—数据管理全过程

数据管理包括数据采集、转换、预处理、上传等过程,用于数据管理的各种软、硬件,

其性能和技术指标应满足数据质量标准和技术方案的要求。数据管理各过程使用的软件应具

备检验校对的功能。

9

8.10双层质量评价体系,专家质量验收

数据质量控制按角色、阶段顺序可分为:

a)各数据采集保存单位和数据上传单位自查,进行初级质量评价,向生殖健康数据库

管理办公室提交初级质量评价报告,并提出入库申请。

b)生殖健康数据库管理办公室人员的对初级质量评价报告进行审核和抽查,符合条件

的初级质量评价报告和数据准许入库,并对数据质量进行复查,复查通过的数据进行整合转

换,对整合后的数据进行二级质量评价,并撰写二级质量评价报告。

c)专家对各数据集及数据进行验收。

注意:a)、b)两个阶段应依照本规范执行,c)阶段不在本规范的约束范围内。

各级数据质量评价实施步骤如表1:

10

表1数据质量评价实施表

质量评价评价实施步骤

类型直接评价法间接评价法综合评价法

1.确定质量评价方法,即抽样

检查或完全检查;

2.如运用随机抽样检查法,要

确定数据集各要素的重要性,

确定抽样比率。(如未选用抽

1.收集用于评价数

样检查法此步骤可省略)

1.收集用于评价数据据集的有关资料;

3.确定数据质量评价指标及

集的有关资料;2.用综合法分析质

数据质量检测方法;

2.分析评价质量定量量定量元素与定性元

评价4.检测程序的开发;

元素与非定量元素;素;

5.计算机检测、人工检测或二

3.完成评价报告。3.完成质量评价报

者相结合进行检测;

告。

6.数据质量评价;

7.填写评价报告;

*经过前5个步骤后,如果质量

不合格,应改善后重复上述检

查步骤。

9.数据质量报告

数据质量报告分为质量评价报告和综合质量评价报告两类。质量评价报告是数据集的组

成部分,也可作为源数据的一部分。综合质量报告用于对数据集的介绍性描述或元数据中。

9.1质量评价报告的项目

表2为质量评价报告内容。表2中表头及代码含义如下:

——编号:给表2中的每一个项目编号;

——报告项目:报告项目的名称;

——定义/内容:定义或描述报告项目的内容;

11

——条件*:描述该项目的必要性或项目需求为必选时该项目的具体条件内容。其编码

规范及含义如下:

a)必选:表示必有的报告项目;

b)条件:规定条件被满足时必须有该条款;

c)可选:该条款是可选的。

表2数据质量评价报告表

编号报告项目定义/内容条件

1质量报告报告章节必选

1.1报告标识报告名称必选

1.2报告范围质量报告中评价的数据集名称可选

质量评价方

2报告章节必选

法信息

质量评价方

2.1质量评价方法类型(直接、间接、综合)必选

法类型

质量评价方所用质量评价方法选用的具体策略信息说明

2.2必选

法策略说明(自动、人工、完全、抽样等)

评价方法应

2.3该评价方法为什么用于该数据质量评价可选

用原因

开发和应用该质量评价方法的隐含假定信息

2.4假定可选

即设想

评价方法的

2.5评价方法的理论依据信息必选

理论依据

2.6参数确定数据质量量测值是如何确定的必选

2.6.1参数信息评价方法中使用的所有参数信息可选

2.6.2参数定义所用参数定义必选

12

2.6.3参数值所有参数值必选

2.6.4参数单位参数单位必选

2.6.5参数值域参数值的计量单位和取值范围必选

抽样方法信使用抽样方

2.7抽样方法信息

息法时必选

抽样方法过使用抽样方

2.7.1抽样方法类型、过程描述

程法时必选

表2数据质量评价报告表(续)

编号报告项目定义/内容条件

使用抽样方法时必

2.7.2抽样内容如何确定抽样内容的信息

使用抽样方法时必

2.7.3抽样比率如何确定样本比率及分布的信息

间接评价方法使用间接评价方法

2.8报告章节

信息时必选

使用间接评价方法时,参照的原始资料使用间接评价方法

2.8.1间接参照信息

/数据信息时必选

间接参照信息使用间接评价方法

2.8.2原始资料/数据信息名称

名称时必选

质量综合评价

2.9报告章节必选

信息

2.9.1评价结果对定量质量评价结果的描述必选

2.9.2综合质量值量测或统计值必选

综合质量值单

2.9.3定量值的单位必选

2.10错误统计及描错误统计和统计计算方法描述必选

13

2.11时间评价数据质量关于时间方面的评价描述可选

2.12其他质量评价报告的附加信息可选

注:“必选”内容为必须填写,有条件内容在满足条件时也是必选,“可选”内容可根据可

选择填写也可选择不填写。

9.2综合质量报告主要项目

——报告名称;

——数据集内容综述或描述;

——数据集负责单位、负责人;

——数据质量综合评价;

——报告填写人;

——质量评价单位;

——报告填写时间。

9.3数据质量报告的更新

数据集更新或修改时,其质量报告项目及内容要随之更新。

14

目次

前言.................................................................III

1.范围...................................................................1

2.规范性引用文件..........................................................1

3.术语和定义..............................................................1

4.数据质量元素............................................................2

4.1数据质量的描述...................................................2

4.2数据质量元素.....................................................2

5.数据质量评价内容........................................................4

5.1完整性............................................................4

5.2逻辑一致性.......................................................4

5.3时间精度.........................................................4

5.4属性精度.........................................................5

6.数据质量评价指标........................................................5

6.1定量结果.........................................................5

6.2非定量结果.......................................................6

6.3数据质量评价日期..................................................6

6.4评价单位.........................................................6

7.数据质量评价方法........................................................6

7.1直接评价法.......................................................6

7.2间接评价法.......................................................6

7.3综合评价法.......................................................7

8.质量控制方法............................................................7

8.1建立数据质量管理体系.............................................7

8.2标准化要求.......................................................7

8.3制订数据准入制度.................................................7

8.4数据采集过程中数据质量的控制.....................................8

8.5不合格数据的控制..................................................8

8.6改善数据质量......................................................9

8.7反馈机制的建立—运行维护到共享....................................9

8.8全程记录控制......................................................9

8.9对软、硬件配置的要求—数据管理全过程..............................9

I

8.10双层质量评价体系,专家质量验收..................................10

9.数据质量报告...........................................................11

9.1质量评价报告的项目..............................................11

9.2综合质量报告主要项目............................................14

9.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论