DB37-T3523.2-2025公共数据开放 第2部分:数据处理指南_第1页
DB37-T3523.2-2025公共数据开放 第2部分:数据处理指南_第2页
DB37-T3523.2-2025公共数据开放 第2部分:数据处理指南_第3页
DB37-T3523.2-2025公共数据开放 第2部分:数据处理指南_第4页
DB37-T3523.2-2025公共数据开放 第2部分:数据处理指南_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Q/LB.□XXXXX-XXXXDB37/T3523.2—2025目次TOC\o"1-1"\h\t"标准文件_一级条标题,2,标准文件_附录一级条标题,2,"前言 II引言 III1范围 12规范性引用文件 13术语和定义 14总则 15数据清洗比对 25.1处理流程 25.2处理规则 26数据脱敏 26.1处理流程 26.2处理规则 37数据水印 37.1处理流程 37.2处理规则 38隐私保护计算 48.1处理流程 48.2技术框架 49数据处理评价改进 4附录A(资料性)数据脱敏方法及示例 6参考文献 7前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件是DB37/T3523《公共数据开放》的第2部分。DB37/T3523已经发布了以下部分:第1部分:基本要求;第2部分:数据处理指南;第3部分:开放评价指标;第4部分:核心元数据;第5部分:数据使用规范。本文件代替DB37/T3523.2—2019《公共数据开放第2部分:数据脱敏指南》,与DB37/T3523.2—2019相比,除结构调整和编辑性改动外,主要技术变化如下:将“基本原则”更改为“总则”,补充了数据处理原则(见第4章,2019年版的第4章);增加了“数据清洗比对”一章(见第5章);将“脱敏规划”“脱敏流程”更改为“数据脱敏”(见第6章,2019年版的第5章、第6章),保留并概括原脱敏处理流程内容,细化脱敏规则内容;增加了“数据水印”一章(见第7章);增加了“隐私保护计算”一章(见第8章);增加了“数据处理评价改进”一章(见第9章)。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出并组织实施。本文件由山东省大数据标准化技术委员会归口。本文件起草单位:山东省大数据局、山东省大数据中心、浪潮云信息技术股份公司、山东新一代标准化研究院有限公司。本文件主要起草人:桓德铭、李晓彤、何敬明、石伟、石俊龙、孙亮、张昭、王坤、王溪、李晨、李杨。本文件及其所代替文件的历次版本发布情况为:2019年首次发布为DB37/T3523.2—2019;本次为第一次修订。引言为促进和规范公共数据开放,提高社会治理能力和公共服务水平,推动数字经济发展,山东省先后印发《山东省公共数据开放办法》(省政府令第344号)、《山东省公共数据开放工作细则》(鲁数发〔2025〕1号)、《关于加快推进数据要素市场化配置改革的实施意见》(鲁政办字〔2024〕124号)等一系列政策文件,对全省公共数据的开放和使用提出要求。为进一步规范和促进山东省公共数据开放工作,针对当前公共数据开放的平台建设、数据处理、开放评价指标、核心元数据、开放数据使用等工作中存在的问题,结合本省实际,制定DB37/T3523《公共数据开放》系列标准。DB37/T3523拟由以下五个部分构成。第1部分:基本要求。目的在于规范公共数据开放工作的基本原则和要求。第2部分:数据处理指南。目的在于提供公共数据开放工作中数据处理的指导和建议。第3部分:开放评价指标。目的在于规范公共数据开放的评价指标的方法和要求。第4部分:核心元数据。目的在于规范公共数据开放中核心元数据描述方法和描述内容。第5部分:数据使用规范。目的在于规范公共数据开放中公共数据使用的流程和要求。公共数据开放第2部分:数据处理指南范围本文件确立了公共数据开放中数据处理的总则,给出了数据清洗比对、数据脱敏、数据水印、隐私保护计算、评价改进等方面建议。本文件适用于指导公共数据开放主体对开放数据的处理。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344信息技术数据质量评价指标GB/T45574数据安全技术敏感个人信息处理安全要求DB37/T3523.1公共数据开放第1部分:基本要求DB37/T3523.3公共数据开放第3部分:开放评价指标DB37/T4646.2公共数据数据治理规范第2部分:数据清洗比对术语和定义DB37/T3523.1界定的以及下列术语和定义适用于本文件。

敏感数据sensitivedata由权威机构确定的受保护的信息数据。敏感信息数据的泄露、修改、破坏或丢失会对人或事产生可预知的损害。[来源:GB/T39477—2020,3.7]

数据脱敏datadesensitization通过一系列数据处理方法对原始数据进行处理以屏蔽敏感数据(3.1)的一种数据保护方法。[来源:GB/T37988—2019,3.12]

数据水印datawatermark从原始环境向目标环境进行敏感数据(3.1)交换时,通过一定的方法向数据中植入水印标记,同时保留目标环境业务所需的数据特性或内容的数据处理过程。

隐私保护计算privacy-preservingcomputation隐私保护计算的数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。总则宜确保数据处理后的安全可控性,经数据处理后,公共数据利用主体获取满足使用需求的原始数据信息,且原始数据中敏感信息已被移除,无法还原敏感数据的原始信息。保留原始数据中的有意义信息。在开展数据处理工作时,宜注意内容主要包括:保持原数据的格式;保持原数据的类型;保持原数据间的依存关系;保持引用完整性;保持数据的统计、聚合等特征;保持频率分布;保持唯一性。宜确保数据处理工作的高效经济性,通过程序自动化实现数据处理,并可重复执行。宜确保数据处理工作的可配置性和灵活性,按照输入条件不同生成不同的处理结果,按照数据使用场景选择数据处理方法,为公共数据利用主体提供不同的处理数据。数据清洗比对处理流程公共数据开放中数据清洗比对是对开放数据进行数据探查、数据质量检查、问题数据修正和转化,提升数据质量,宜按照如下流程开展数据清洗比对。数据探查:对开放数据的数据库表结构、数据字典等进行探查,形成数据探查清单。数据质量检查:按照GB/T36344中数据质量评价指标制定数据检查规则,并根据数据质量检查规则进行数据质量检查,生成数据质量检查报告。问题数据修正:对于存在数据质量问题的开放数据,根据数据质量检查报告选择合适的数据修正方法,包括缺失值修正、违规值修正、重复值修正、冲突值修正等。数据转换:对通过数据质量检查和问题数据修正的开放数据进行数据格式转换和代码转换等。处理规则公共数据开放中数据清洗比对的处理规则宜参考DB37/T4646.2内容。数据脱敏处理流程公共数据开放中数据脱敏是在开放数据中移除敏感数据,并且确保移除敏感数据后的开放数据无法还原敏感数据,宜按照如下流程开展数据脱敏。识别敏感数据:对公共数据开放平台内公共数据进行数据内容识别;根据识别出的数据内容,梳理并总结开放数据敏感数据特征,形成开放数据的敏感数据识别模板;识别开放数据在汇聚、关联分析等操作过程中可能产生的敏感数据。标识敏感数据:根据公共数据分类分级情况,标识开放数据中敏感数据所属类别和敏感程度;开放数据中敏感数据识别方法不宜删除和篡改。确定脱敏场景:在标识敏感数据基础上,确定开放数据脱敏场景为单一应用场景或复杂应用场景,根据脱敏场景确定处理规则(见6.2)。选择脱敏方法:依据开放数据脱敏场景和处理规则选择数据脱敏方法(见附录A)。定义脱敏规则:依据已选择的数据脱敏方法,结合开放数据的敏感数据实际情况,定义开放数据脱敏规则,并对常用开放数据脱敏规则进行固化,避免重复定义:开放数据脱敏规则覆盖所有敏感数据,且表述明确,具备可执行性和可转述性;脱敏规则制定降低对业务系统的影响,且不存储原始数据。执行脱敏操作:根据已定义的数据脱敏规则执行脱敏操作,遵循个人隐私保护、数据安全保护等相关法规、行业监管规范或标准,个人敏感信息安全符合GB/T45574。评估脱敏效果:在开放数据脱敏工作完成后,利用测试工具评估和人工评估相结合的方式,对开放数据脱敏情况,以及敏感数据对应用系统功能、性能等方面的影响,根据评估情况优化开放数据脱敏规划,评估内容主要包括:数据特征是否变化;已知敏感数据是否去除;逆向恢复敏感数据的执行难度;数据结构和统计特征是否存在敏感性;脱敏后的数据是否满足使用需求。处理规则公共数据开放中。静态脱敏:对原始开放数据进行一次脱敏后,脱敏后的结果数据可多次使用,宜适用于单一应用场景。动态脱敏:数据水印处理流程数据水印是在开放数据中植入水印标记,实现公共数据开放中数据泄露的溯源,宜按照如下流程添加数据水印。确定使用场景:确认公共数据开放中数据使用的场景。选择水印算法:根据确认的开放数据使用场景,确定开放数据水印处理规则(见7.2.1)。执行水印操作:根据已确定的开放数据水印规则执行添加水印操作。评估水印效果:在水印添加完成后,利用测试工具评估开放数据添加水印后对应用系统功能、性能等方面的影响,并根据验证情况优化数据水印处理流程。处理规则公共数据开放中开放数据水印主要包括以下处理规则。无痕:在开放数据中随机嵌入不可见字符,改变数据形态,不影响开放数据的展示。改行:对符合敏感类型的一行或多行进行数据更改,更改后的开放数据保持与原开放数据同样的类型和格式。伪行:在开放数据库表增加非真实数据元组,即增加的行数是伪造出来的,与原始开放数据类似的数据,并在增加的数据元组中嵌入可提取的水印规则信息。伪列:伪造新的属性列,包括数据属性列和类型属性列,生成的伪列宜和该关系表的其他属性相关,不易被察觉,然后将水印规则嵌入至伪造新列中。对于发生泄露的开放数据,宜通过导入泄漏的开放数据样本或者文件到水印系统,解析出水印信息并确定泄露源,进行溯源定责。隐私保护计算处理流程隐私保护计算。数据对接:公共数据开放主体对接开放数据需求,明确提供数据的开放属性,识别确认不予开放数据。节点分配:公共数据开放主体选择隐私保护计算数据技术框架(见8.2),按照确定的隐私保护计算节点软件部署方案部署隐私保护计算节点。数据接入:公共数据开放主管部门通过隐私保护计算平台接入开放数据资源,公共数据利用主体通过隐私保护计算平台接入内部数据资源。模型部署:公共数据利用主体在隐私保护计算节点创建部署开放数据隐私保护计算模型,并发布服务模型。计算实施:公共数据利用主体根据已发布服务模型实施计算并获取相应结果。效果评估:公共数据利用主体定期反馈数据利用中发现的各类数据安全风险和质量问题等情况、数据利用成果与效益产出情况至公共数据开放主管部门和公共数据开放主体,公共数据开放主体根据反馈情况持续优化开放数据隐私保护计算规划。技术框架利用隐私数据参与保密计算,在参与者在不泄露各自隐私数据情况下,共同完成某项计算任务,适用于实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练,通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护,数据处理评价改进宜定期开展开放数据处理评价,评价过程主要包括:组建开放数据评价团队,制定开放数据处理评价总体要求;明确评价范围,包括但不限于应用场景、技术应用、工具技术、执行人员等;制定评价指标,围绕数据处理流程、数据处理规则、数据处理效果等过程进行评价,按照DB37/T3523.3制定评价指标;选择评价方式,采用多种方式组织开展评价工作,包括资料查阅、人员访谈、功能演示、技术检测等;开展评价,收集并整理相关证明材料并开展评价,组织召开会议确认评价结果,输出评价报告。宜根据数据处理评价结果,对公共数据开放中数据处理的流程和规则等进行优化和改进。

(资料性)

数据脱敏方法及示例数据脱敏方法及示例见表A.1。数据脱敏方法及示例序号脱敏方法方法描述示例1掩码用通用字符替换原始数据中的部分信息,掩码后的数据长度与原始数据一样将手机号码经过掩码得到“135****0001”2规整将数据按照大小规整到预定义的多个档位将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替3替换以虚构的数据代替真实的数据将姓名“张三”替换为“王二”4乱序对敏感数据进行重新随机分布,混淆原有值和其他字段的联系将金额“13526”乱序为“65123”5均化针对数值型的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值将65、75、90、50均化为79、61、85、556散列对原始数据取散列值,使用散列值来代替原始数据将“1234567”取散列值为“0100110”7数据截断直接舍弃业务不需要的信息,仅保留部分关键信息将手机号码截断为“135”8日期偏移取整按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间将时间“2018010101:01:09”按照5 s粒度向下取整得到“2018010101:01:05”9限制返回行数仅返回可用数据集合中一定行数的数据商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据10限制返回列数仅返回可用数据集合中一定列数的数据查询人员基本信息时,对于某些敏感列,不包含在返回数据集中11数据分割

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论