T-CESA《智能医疗 跨队列数据处理平台 数据脱敏流程要求》_第1页
T-CESA《智能医疗 跨队列数据处理平台 数据脱敏流程要求》_第2页
T-CESA《智能医疗 跨队列数据处理平台 数据脱敏流程要求》_第3页
T-CESA《智能医疗 跨队列数据处理平台 数据脱敏流程要求》_第4页
T-CESA《智能医疗 跨队列数据处理平台 数据脱敏流程要求》_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240

L70

团体标准

T/CESAXXXX—2024

智能医疗跨队列数据处理平台数据脱敏流程

要求

IntelligentHealthcare-Cross-CohortDataProcessingPlatform-DataDesensitizationProcessRequirements

征求意见稿

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请

证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请

号和申请日期。

2024-XX-XX发布2024-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX-2024

目次

目次.............................................................................II

前言............................................................................III

引言.............................................................................IV

1范围................................................................................1

2规范性引用文件......................................................................1

3术语和定义..........................................................................1

4数据脱敏原则........................................................................2

4.1有效性............................................................................2

4.2真实性............................................................................2

4.3高效性............................................................................2

4.4稳定性............................................................................2

4.5可置配性..........................................................................2

4.6一致性............................................................................2

4.7安全性............................................................................2

5数据脱敏流程........................................................................2

5.1数据脱敏流程概述..................................................................2

5.2识别敏感数据......................................................................3

5.3标识敏感数据......................................................................3

5.4确定脱敏场景与方式................................................................3

5.5选择脱敏方法......................................................................4

5.6定义脱敏规则......................................................................5

5.7执行脱敏操作......................................................................5

5.8评估脱敏结果......................................................................5

附录A(规范性附录)数据脱敏方法.................................................1

II

T/CESAXXXX-2024

引言

《智能医疗跨队列数据处理平台》系列标准旨在确立适用于医疗领域跨队列数据处理平台所需的

各项基础要求,拟由七个部分构成。

——元模型表示要求,目的在于规定跨队列数据处理平台中元模型表示相关基本要求。

——元模型构建要求,目的在于规定跨队列数据处理平台中元模型构建相关基本要求。

——数据表示要求,目的在于规定跨队列数据处理平台中数据表示相关基本要求。

——队列数据共享接口模型,目的在于规定跨队列数据处理平台中对接队列信息系统的共享接口

及其描述要求。

——逻辑模型,目的在于规定跨队列数据处理平台中的统一逻辑模型。

——隐私数据共享与访问要求,目的在于规定跨队列数据处理平台中隐私数据共享与访问相关基

本要求。

——数据脱敏流程要求,目的在于规定跨队列数据处理平台中数据脱敏流程及各环节基本要求。

IV

T/CESAXXXX-2024

智能医疗跨队列数据处理平台数据脱敏流程要求

1范围

本标准规定了医疗队列数据脱敏的原则和流程要求。

本标准适用于指导医疗数据控制者对医疗数据进行隐私保护,也可供医疗机构、第三方数据处理机

构等组织展开医疗队列数据脱敏工作时参考。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T35273-2020信息安全技术个人信息安全规范

DB52/T1126-2016政府数据数据脱敏工作指南

DB3301/T0363-2022公共数据脱敏管理规范

T/GZBC36-2020广东省健康医疗数据脱敏技术规范

3术语和定义

GB/T35273-2020、DB52/T1126-2016界定的及下列术语适用于本文件。

3.1

队列研究cohortstudy

用于某一特定暴露或多种暴露于一种或多种疾病结局的关联性研究。

3.2

医疗队列数据medicalcohortdata

医疗队列研究所产生和收集的相关数据。

3.3

数据脱敏datadesensitization

从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信

息,并保留目标环境业务所需的数据特征或内容的数据处理过程。

[来源:DB52/T1126-2016,2.1]

3.4

个人信息personalinformation

以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然

人活动情况的各种信息。

[来源:GB/T35273-2020,3.1]

1

T/CESAXXXX-2024

3.5

个人敏感信息personalsensitiveinformation

一旦泄露、非法提供或滥用可能危害人身和财产安全、极易导致个人名誉、身心健康受到损害或歧

视性待遇等的个人信息。

[来源:GB/T35273-2020,3.2]

4数据脱敏原则

4.1有效性

数据脱敏的有效性应符合DB52/T1126-2016,3.1.1.1中数据脱敏有效性原则的规定,脱敏后的数据

不应包含用户的敏感信息,无法通过脱敏后的数据得到用户的原始敏感信息,并防止其被篡改或重建。

4.2真实性

数据脱敏的真实性应符合DB52/T1126-2016,3.1.1.2中数据脱敏真实性原则的规定,脱敏后的数据

应尽可能真实地体现原始数据的特征,保证数据真实可用。

4.3高效性

数据脱敏的高效性应符合DB52/T1126-2016,3.1.1.3中数据脱敏高效性原则的规定,数据脱敏过程

应高效完成,其时间和经济成本应控制在一定范围内。

4.4稳定性

数据脱敏的稳定性应符合DB52/T1126-2016,3.1.1.4中数据脱敏稳定性原则的规定,相同的原始数

据经过相同的数据脱敏方法处理后应得到相同的输出,无论操作多少次,都应得到一致的处理结果。

4.5可置配性

数据脱敏的可置配性应符合DB52/T1126-2016,3.1.1.5中数据脱敏可置配性原则的规定,根据不同

的数据和条件可以得到不同的数据脱敏处理结果。

4.6一致性

数据脱敏的一致性应符合DB3301/T0363-2022,4.3中数据脱敏一致性原则的规定,脱敏前后的数

据应保持一致的业务数据关联。

4.7安全性

数据脱敏的安全性应符合T/GZBC36-2020,4.1.6中数据脱敏安全性原则的规定,脱敏流程应具备安

全审计机制,可以在安全威胁事件发生时被溯源审查。

5数据脱敏流程

5.1数据脱敏流程概述

2

T/CESAXXXX-2024

医疗队列数据的脱敏流程如图1所示,具体可以分为识别敏感数据、标识敏感数据、确定脱敏场景

与方式、选择脱敏方法、定义脱敏规则、执行脱敏操作和评估脱敏结果,其中选择脱敏方式步骤中又可

以根据数据的类型选择不同的脱敏方法。

图1医疗队列数据的脱敏流程图

5.2识别敏感数据

应完整地梳理出医疗队列数据中所包含的信息,并明确其中的敏感信息,包括但不限于:

a)明确数据脱敏工作的数据范围;

b)对工作范围内的数据进行梳理和分类,例如按照表单或图像等数据类型分类、按照疾病类型分

类等;

c)明确敏感数据的字段内容、字段类型、字段长度、赋值规范等内容;

d)对于存放在数据库中的数据,明确敏感数据与数据库位置之间的关联关系并建立相关映射;

e)根据业务需求选择人工或自动等识别方式;

f)使用数据挖掘工具,并考虑其扩展性,可根据业务需求自定义敏感数据的发现逻辑;

g)利用反关联方法,查找可能由某些字段内容推断出的另一些敏感字段的内容,并对这些非敏感

字段进行识别,例如:由出生地址和出生日期可以推断出部分身份证号码的场景中,应对出生

地址和出生日期进行识别;

h)利用反差分攻击方法,查找可能由某些统计内容推断出部分人员的敏感信息,并对这些统计方

式进行识别,例如:当数据库中只有人员A的血型为Rh阴性时,分别获取所有人员信息和Rh阳

性人员信息后,通过对比可以获得人员A的其他信息;

5.3标识敏感数据

识别出敏感数据后,应对敏感数据的位置、格式、字段等信息进行标识,标识方法应考虑但不限于

以下因素:

a)敏感数据标识信息能够随敏感数据一起流动;

b)敏感数据标识信息不易被恶意攻击者篡改和删除;

c)敏感数据标识信息应该容易被查找或识别;

d)标识方法应充分考虑所涉及的数据类型,例如:临床诊断的文本类型数据、血液生化等的表单

数据、核磁共振和X光等的影像数据;

e)标识方法应考虑到和敏感数据有关联的非敏感数据,例如:皮肤病照片中可能包含的纹身与患

者姓名等。

5.4确定脱敏场景与方式

完成敏感数据的标识后,应确定数据脱敏的场景和方式,数据脱敏的方式主要包括:

3

T/CESAXXXX-2024

a)静态脱敏:针对敏感数据从生产环境脱敏完成之后,在非原生产环境使用,一般用于解决共享、

数据分析等场景下需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又

不能将敏感数据存储于非生产环境的问题。

b)动态脱敏:针对敏感数据进行数据抽取、数据漂白和动态掩码的数据脱敏技术,主要对查询生

产库返回的数据进行实时脱敏处理,以确保返回的数据可用和安全。

数据脱敏的场景与所选脱敏方式可参考但不限于以下内容:

a)对于需采用脱敏后可永久存储的数据,宜采用静态脱敏的方式,例如:去掉患者纹身信息后的

皮肤病照片等,由于原始数据本身涉及敏感信息不适合长期存储,因此对原始数据进行一次脱

敏,可存储脱敏后数据并允许多次使用;

b)对于针对不同用户需求产生实时查询响应的数据,宜采用动态脱敏的方式,例如:要求获得在

40至50岁患高血压患者的基本数据时,应查询上述数据后采用动态脱敏隐去患者的姓名、身份

证号码、住址、电话等敏感信息。

5.5选择脱敏方法

应依据数据脱敏的场景和方式,并参考数据脱敏后对数据本身可用性和安全性的要求,选择合适的

数据脱敏方法,数据脱敏方法参见附录A,医疗队列数据脱敏场景应用参考表1。

表1医疗队列数据脱敏场景应用表

医疗队列数据

典型数据代表脱敏方法示例

类型

患者基本信息表/数据库(通常包含:姓名、性别、

居住地、电话、出生日期等)此类表单类数据往往包含大量个人敏感信息,因

患者身份信息表/数据库(通常包含:身份证号、此宜采用加密、掩码或替代的脱敏方法。

护照信息、驾驶证信息、社保卡信息等)

此类表单类数据往往不仅包含大量的个人敏感

个人生物识别信息表/数据库(通常包含:血型代

表单类信息,还通常和个人的财产、设备密码等其他信

码、指纹、声纹、掌纹、虹膜、面部特征等)

息高度关联,因此宜采用加密的脱敏方法。

此类表单类数据一般仅包含少量个人身份的敏

与诊疗有关的记录表/数据库(通常包含:血液或感信息,因此为取得数据可用性与安全性之间的

生化检查表、疫苗接种记录表等)平衡,宜采用统计技术、抑制技术、限制技术、

假名化技术和掩码的脱敏方法。

病历诊疗记录(可能包括药物食物过敏信息、既

往病史、家族病史、传染病史等患者主诉)此类数据内容通常与疾病类型高度相关,而仅包

问卷(医疗队列数据中的调查问卷等)含少量个人敏感信息,因此为取得数据可用性与

文本类

手术及麻醉记录安全性之间的平衡,宜采用假名化技术、替代的

治疗记录(可能包括输液与用药记录、护理及观脱敏方法去除文本中的个人敏感信息。

察记录等)

镜腔检查图像(例如:肠镜、胃镜等)

X光片

由于图像信息可能包含未知的侧信道,因此应在

CT

影像类保证患部症状明显的情况下采用随机化技术、遮

核磁共振

挡或掩码的脱敏方法模糊非患部信息。

B超/彩超

造影

4

T/CESAXXXX-2024

常规拍摄所得(例如:皮肤科对患者外露的黑素此类数据可能包含纹身等敏感数据,宜采用随机

细胞痣的相机拍摄)化技术去除此类敏感数据。

由于患者声音可能暴露患者声纹信息,宜采用替

代的脱敏方法处理患者声音信息;由于影像可能

暴露患者面部特征、身高和体型等敏感信息,宜

远程会诊影像记录

采用遮挡或掩码的脱敏方法处理患者敏感信息;

音视频类

对于诊疗过程中涉及患者病史、年龄等个人敏感

信息的部分,宜采用加密的脱敏方法。

手术影像记录

宜采用加密的脱敏方式。

实时记录(例如:实时超声、远程手术等)

基因基因测序信息宜采用加密的脱敏方式。

其他其他信息(例如:患者联系人电话、定位信息等)宜采用适当的脱敏方法脱敏。

5.6定义脱敏规则

根据选择的数据脱敏方法,定义具体的脱敏规则以适应所需脱敏的数据。

5.7执行脱敏操作

脱敏操作需遵循个人隐私保护、数据安全保护等相关法规、行业监管规范或标准,个人敏感信息安

全应遵循GB/T35273中相关规定。根据已定义的数据脱敏规则,数据脱敏操作包括但不限于:

a)脱敏过程应可自动化运行;

b)脱敏过程应被监控且对监控内容进行定期分析;

c)应定期对脱敏过程进行安全审计和溯源。

5.8评估脱敏结果

在完成脱敏操作后,利用第三方测试工具评估脱敏结果对其所应用的系统功能、性能等方面的影响,

同时评估数据本身是否存在可被利用的可能泄露敏感信息的侧信道,并根据评估结果不断优化脱敏规

则与操作。

5

T/CESAXXXX-2024

附录A

(规范性附录)

数据脱敏方法

数据脱敏方参见表A.1。

表A.1数据脱敏方法

序号数据脱敏方法类别数据脱敏方法子类方法描述

针对大样本数据集进行抽样后进行去标识化预处理,增

1数据抽样加识别出特定个人信息主体的不确定性,提升去标识化

技术有效性。

统计技术

数据聚合作为一系列统计技术(如求和、计数、平均、

2数据聚合最大值与最小值)的集合,应用于微数据中的属性时,

产生的结果能够代表原始数据集中的所有记录。

确定性加密是一种非随机对称加密。在去标识化过程中

3确定性加密应用时,确定性加密用加密结果替代微数据中的标识符

值。

保序加密是一种非随机对称加密。用作去标识化技术

4保序加密

时,保序加密可用加密值替代微数据中的标识符值。

同态加密提供了一种对加密数据进行处理的功能,对经

过同态加密的数据处理得到一个输出,将这一输出进行

解密,其结果与同一方法处理未加密的原始数据得到的

5同态加密输出结果一致。同态加密是一种随机加密,当作为去标

密码学技术

识化技术的一部分加以采用时,对加密数据进行处理,

拥有密钥的用户对处理过的数据进行解密后,得到的正

好是处理后的结果。

保留格式加密要求密文与明文具有相同的格式,保留格

6保留格式加密

式加密可用加密值替代微数据中的标识符值。

同态秘密共享可将一个秘密拆分为“若干份额”,可利

用拆分后秘密信息的特定子集来重构原始的秘密,如果

7同态秘密共享

对用于重构秘密的所有份额执行相同的数学运算,则其

结果等价于在原始秘密上执行相应数学运算的结果。

屏蔽技术包括从数据集中删除所有直接标识符,尽可能

8屏蔽

剥离数据集中所有记录的部分或全部剩余标识符。

局部抑制技术是一种去标识化技术,即从所选记录中删

9抑制技术局部抑制除特定属性值,该特定属性值与其他标识符结合使用可

能识别出相关个人信息主体。

记录抑制是一种从数据集中删除整个记录或一些记录

10记录抑制

的去标识化技术。

1

T/CESAXXXX-2024

行限制是一种限制返回行数的技术,仅仅返回可用数据

11行限制

集中一定行数的数据。

限制技术

列限制是一种限制返回列数的技术,仅仅返回可用数据

12列限制

集中一定列数的数据。

独立于标识符的假名创建技术不依赖于被替代的属性

13独立于标识符的假名原始值,而是独立生成,典型方法为用随机值代替属性

原始值。

假名化技术

基于密码学技术的标识符派生假名创建技术通过对属

基于密码学技术的标识符

14性值采用加密或散列等密码学技术生成假名,这一过程

派生假名

也称为对数据集中的属性进行“密钥编码”。

取整涉及到为所选的属性选定一个取整基数,然后将每

15取整

个值向上或向下取整至最接近取整基数的倍数。

16泛化技术截取直接舍弃不需要的信息,仅保留部分关键信息。

顶层与底层编码技术使用表示顶层(或底层)的阈值替

17顶层与底层编码

换高于(或低于)该阈值的值。

通过添加随机值、“随机噪声”到所选的连续属性值中

噪声添加来修改数据集,同时尽可能保持该属性在数据集中的原

始统计特性。

18随机化技术在不修改属性值的情况下对数据集记录中所选属性的

置换/乱序

值进行重新排序的一种技术。

用某种算法方式计算出来的平均值代替连续属性所有

微聚集

值的去标识化技术。

指用伪装数据完全替换源数据中的敏感数据,一般替换

用的数据都有不可逆性,以保证安全。替代是最常用的

数据脱敏方法,具体操作上有常数替代(所有敏感数据

都替换为唯一的常数值)、查表替代(从中间表中随机

或按照特定算法选择数据进行替代)、参数化替代(以

19替代

敏感数据作为输入,通过特定函数形成新的替代数据)

等。具体选择的替代算法取决于效率、业务需求等因素

间的平衡。替代方法能够彻底地脱敏单类数据,但往往

也会使相关字段失去业务含义,对于查表替代而言,中

间表的设计非常关键。

指对数值和日期类型的源数据,通过随机函数进行可控

的调整(例如对于数值类型数据,随机增减20%;对于日

期数据,随机增减200天),以便在保持原始数据相关统

20数值变换

计特征的同时,完成对具体数值的伪装。数值变化通过

调整变动幅度可以有效控制目标数据的统计特征和真

实度,是常用的脱敏方法。

指对敏感数据的部分内容用掩饰符号(如“X、*”)进

21遮挡/掩码

行统一替换,从而使得敏感数据保持部分内容公开。

22空值插入将敏感数据设置为NULL值。

以人工方式产生微数据的方式,用以表示预定义的统计

23数据合成技术

数据模型。

2

T/CESAXXXX-2024

针对数值性的敏感数据,在保证脱敏后数据集总值或平

24均化均值与原数据集相同的情况下,改变数值的原始值的方

法。

对原始数据取散列值,使用散列值来替代原始数据的方

25散列

法。

K-匿名模型是在发布数据时保护个人信息安全的一种

26K-匿名模型

模型。

L-多样性模型是在发布数据时考虑敏感属性等价类的

27L-多样性模型

一种保护个人信息安全的模型。

T-接近度模型是在数据发布时考虑数据分布间距离的

28T-接近度模型

一种保护个人信息安全的模型。

差分隐私是对数据发布时数据集中的隐私损失进行量

29差分隐私模型

化的数学模型。

3

中国电子工业标准化技术协会

团体标准《智能医疗跨队列数据处理平台数据脱敏流程要

求》(征求意见稿)编制说明

一、工作简况

1、任务来源

根据中国电子工业标准化技术协会2024年第一批团体标准制修订通知(中电

标通〔2024〕001号),北京大学负责《智能医疗跨队列数据处理平台逻辑模

型》(团标计划号CESA-2024-014)的标准研制工作。

2、标准编制的主要成员单位

本项目由中国电子技术标准化研究院、北京大学、山东大学齐鲁医院、天津

大学、北京大学第六医院、东软集团股份有限公司等共同编制。

主要起草人包括:。

3、主要工作过程

预研阶段:2023年1月至6月,牵头起草单位一是展开了国家团体标准相

关政策制度研究;二是对团体标准中可能涉及的相关法律法规进行了梳理;三是

开展了国家及地方团体标准中有关医疗数据脱敏流程的调研;四是完成了对智能

医疗跨队列数据脱敏流程所涉及技术细节的研究。

起草阶段:2023年6月至10月,对我国团体标准中涉及医疗数据脱敏的内

容进行了资料收集、查阅、分析和整理等工作;对智能医疗跨队列数据的脱敏流

程规范进行了研讨,明确了脱敏流程的原则和要求的细节,对照现有标准体系编

写了标准草案。

2023年10月至2024年8月,标准编写参与单位共同组成标准工作组。为

提高标准的普适性和可操作性,标准工作组通过召开研讨会以及书面反馈意见等

多种形式,对标准文本进行修改完善,形成标准征求意见稿。

二、标准编制原则和确定主要内容的论据及解决的主要问题

1、编制原则

本文件为自主制定标准,在起草过程中依据了GB/T1.1-2020《标准化工作

导则第1部分:标准化文件的结构和起草规则》的规定。

中国电子工业标准化技术协会

本文件对跨队列数据处理平台中的数据脱敏流程要求进行了梳理,提出了智

能医疗跨队列数据处理平台数据脱敏的原则和流程要求,保证了本文件的通用

性;同时,编制组由跨队列数据处理相关单位构成,通过充分调研、分析与验证,

在充分考虑医疗领域应用合理性的前提下,编制技术条款,保证了其技术内容的

先进性和指导性;最后,本文件部分技术内容充分考虑并引用了部分已发布基础

通用类标准,进而保证了本文件的兼容性和可操作性。

2、确定主要内容的依据

标准制定的依据为:

a)标准格式按照GB/T1.1—2020标准要求编写。

b)本标准制定参考以下标准:

GB/T35273-2020信息安全技术个人信息安全规范

DB52/T1126-2016政府数据数据脱敏工作指南

DB3301/T0363-2022公共数据脱敏管理规范

T/GZBC36-2020广东省健康医疗数据脱敏技术规范

3、解决的主要问题

本标准针对跨队列数据处理平台中队列数据的脱敏流程原则不明和流程不

清晰等问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论