版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
T/CFAS003-2024PAGE3PAGE3高质量数据集建设与流通规范范围本文件规定了高质量数据集在建设(含规划、采集、处理、评估、文档化)和流通(含准备、服务、追溯)过程中的技术要求与管理规范。本文件适用于数据集的提供方、使用方、流通平台运营方、第三方评估机构等相关组织,为其开展数据集的建设、管理、交易与服务提供标准化指引,也可为行业监管、合规审计与能力评价提供参考依据。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T35295—2017信息技术大数据术语GB/T35273—2020信息安全技术个人信息安全规范GB/T36073—2018数据管理能力成熟度评估模型GB/T37964—2019信息安全技术个人信息去标识化指南GB/T37988—2019信息安全技术数据安全能力成熟度模型GB/T43697—2024数据安全技术数据分类分级规则GB/T45577—2025数据安全技术数据安全风险评估方法术语和定义GB/T35295—2017界定的以及下列术语和定义适用于本文件。3.1数据集dataset为特定目标与应用场景,按照既定组织结构、质量要求与管理规则,对数据进行采集、处理、标注或整理,并配套必要文档与管理信息形成的可交付数据产品。3.2高质量数据集high-qualitydataset在合法合规前提下,静态质量(准确性、完整性、一致性、时效性、多样性、真实性等)可控,且经动态质量(基准测试、场景适配评估等)验证能有效支撑模型训练或业务应用的数据集。3.3数据集全生命周期datasetlifecycle数据集作为标准化产品从规划、设计、生产、评估、发布、流通、使用到退役的阶段集合。3.4元数据metadata用于描述数据集基础信息、内容特征、建设过程、管理信息等关键要素的结构化信息集合。3.5数据说明文件DataCard对数据集核心信息进行标准化描述的说明文件,包括基础信息、内容概述、采集与处理说明、质量状况、使用说明、安全与合规说明等。3.6数据标注annotation/labeling依据既定标注规程对样本赋予标签、属性或结构化信息的过程。3.7数据预处理datapreprocessing对原始数据进行验证、清洗、转换、聚合、抽样等处理,以提升数据一致性、可用性与可复现性的过程。3.8数据融合与集成datafusion&integration对多源异构数据进行语义对齐、字段映射、冲突解决与格式标准化处理,形成统一可用数据集的过程。3.9数据分类分级dataclassification&grading依据分类分级规则对数据集按安全敏感程度等进行分层划分(如核心数据、重要数据、一般数据),并实施差异化管理与保护的活动。3.10脱敏datamasking/desensitization通过技术手段降低敏感信息直接暴露与关联识别风险的处理方式。3.11去标识化de-identification对个人信息进行处理,使其在不借助额外信息的情况下难以识别到特定自然人的处理措施。3.12匿名化anonymization对数据进行不可逆处理,使个人无法被识别且无法再恢复识别的处理方式。3.13隐私计算privacycomputing在多方数据融合或联合建模等场景下,采用多方安全计算(MPC)、联邦学习或可信执行环境(TEE)等技术,实现“数据可用不可见”的技术体系。3.14可信数据空间trusteddataspace支持在受限、可控范围内开展数据发布、发现与交付等活动的可信环境。3.15数据交易所dataexchange提供数据产品挂牌展示、交易撮合与规范化交易服务的平台载体。3.16访问控制accesscontrol基于身份与授权策略,对数据集或其子集、特定操作(查询、下载、计算等)实施精细化权限管理的机制。3.17数据防泄漏DLP,datalossprevention用于识别、监测与控制敏感数据外发风险的一组技术与管理措施。3.18区块链存证blockchainnotarization利用区块链对权属凭证、交易合同、授权记录、访问日志等关键信息进行哈希上链存证,形成不可篡改、可审计的证据链。总则4.1目标数据集建设与流通的核心目标是激活数据要素潜能,支撑人工智能模型研发与产业数字化转型,实现数据“供得出、流得动、用得好、保安全”的良性循环。4.2原则数据集建设与流通宜遵循以下原则:a)合法合规原则:宜严格遵循《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规,确保数据采集、加工、流通、使用各环节合法。b)权责清晰原则:宜明确公共数据、企业数据、个人数据的权属边界与主体责任,形成权责匹配、全程可溯的责任传导机制。c)质量可控原则:宜以“静态质量+动态质量”双维度构建全流程质量管控体系,确保数据集能有效支撑模型训练与应用性能。d)安全可信原则:宜构建技术防护、管理防控、过程追溯三重安全屏障,防范数据泄露、篡改与滥用风险。e)价值导向原则:宜以赋能实体经济与科技创新为核心,推动数据集与应用需求深度耦合,促进数据要素价值最大化释放。高质量数据集建设要求5.1规划与设计5.1.1需求分析一般要求应基于数据集的目标应用场景(如基础认知层、场景理解层、行动规划层等),明确数据需求的核心要素。需梳理业务对数据规模、模态类型(文本、图像、音频、时序等)、标注精度、时效性的具体要求,评估需求的合理性与优先级。结合数据可用性调研,确认所需数据的获取路径(自有、合作、采购、生成等),构建包含准确性、完整性、一致性、多样性等维度的质量目标模型。5.1.2数据模型设计基本要求数据模型设计应符合下列要求:——业务适配性:数据模型应准确反映业务实体、属性及其关联关系,满足预设的应用场景需求;——结构规范性:应采用标准化的命名规则、数据类型定义及约束条件,确保模型的一致性和可理解性;——扩展灵活性:应考虑未来业务变化和数据新增的需求,预留必要的扩展能力;——互操作性:涉及跨系统、跨平台流通的数据集,宜采用通用或行业标准的数据模型格式。模型类型根据数据集建设阶段和用途,数据模型设计应包括表1所列类型。表SEQ表\*ARABIC1数据模型类型模型类型主要内容适用阶段概念模型定义业务实体、核心属性和实体间的业务关系,以业务视角为主需求分析与范围定义阶段逻辑模型明确实体、属性、主键、外键、约束规则及规范化结构元数据方案设计与详细设计阶段物理模型定义数据在具体存储系统中的表结构、索引、分区策略、存储格式等数据采集与处理实施阶段模型变更管理数据模型一经确定,应纳入配置管理,变更时应遵循以下流程:a)提出变更申请,说明变更原因、影响范围及评估结果;b)组织相关方对变更进行评审;c)经批准后实施变更,并同步更新元数据方案及相关文档;d)变更完成后进行验证,确保数据完整性和下游应用不受影响。5.1.3范围与边界定义基本要求范围与边界定义应符合下列要求:——明确性:范围定义应具体、无歧义,避免模糊表述;——可验证性:范围边界应可通过后续建设过程中的检查点进行验证;——一致性:范围应与需求分析结果、应用场景目标保持一致;——可控性:范围边界应纳入变更管理,防止范围蔓延。定义内容范围与边界定义应至少包括表2所列内容。表SEQ表\*ARABIC2范围与边界定义内容维度定义要素说明业务范围业务领域、业务流程、业务实体明确数据集所支撑的业务场景及涉及的核心业务对象数据范围数据类型、数据来源、数据粒度、数据属性集确定数据集包含的数据类别、来源系统、最小颗粒度及关键字段时间范围起始时间、结束时间、时间粒度、更新频率明确数据所覆盖的历史时间段、时间粒度及后续更新计划空间范围地理范围、组织范围、系统范围界定数据适用的地理区域、组织单元或系统边界输入边界上游依赖数据、外部数据源明确数据集建设所依赖的输入数据及其提供方输出边界预期输出形式、交付物、下游应用界定数据集最终产出的形态及其服务对象边界管理数据集范围与边界一经确定,应纳入项目基线管理。发生变更时应遵循以下要求:a)变更提出方应书面说明变更原因、变更内容及对质量、进度、成本的影响评估;b)组织项目相关方对变更进行评审,确认变更的必要性与可行性;c)经批准后,同步更新范围定义文档、需求规格说明及元数据方案;d)变更实施后,应验证调整后的数据集仍满足原定质量目标与应用需求。文档化要求范围与边界定义的结果应以正式文档形式记录,并在数据集全生命周期内保持可追溯性。文档应至少包含以下内容:——范围定义摘要(涵盖中各项要素);——范围边界图(如业务流程图、数据流图、E-R图等可视化表达);——范围变更记录(含变更申请、评审意见、批准信息、实施记录)。5.1.4元数据方案设计基本要求元数据方案设计应符合下列要求:——完整性:元数据应覆盖数据集的全生命周期,包括业务定义、技术属性、管理信息、质量信息及流通信息;——一致性:元数据的定义、命名、数据类型及约束规则应与数据模型保持一致;——可扩展性:元数据方案应预留扩展能力,以适应业务发展和技术演进的后续需求;——互操作性:宜采用国际、国家或行业通用的元数据标准。元数据构成元数据方案应至少包含表3所列内容。表SEQ表\*ARABIC3元数据构成元数据类别主要内容说明核心元数据数据集标识、名称、摘要、创建者、发布日期、语种、主题分类、关键词、使用限制用于数据集的基本识别与发现结构元数据数据模式、字段名称、数据类型、长度、约束条件、主键、外键、索引描述数据集的技术质量元数据质量评估结果、评估方法、评估时间、质量等级、质量报告链接记录数据集的质量状况管理元数据版本信息、变更记录、维护机构、更新频率、存储位置、访问权限支持数据集的全生命周期管理与追溯流通元数据权属信息、许可协议、定价方式、授权方式、流通记录存证标识用于数据集的合规流通与使用管理元数据管理元数据方案确定后,应纳入统一管理,具体要求包括:a)元数据注册:应建立元数据注册机制,对核心元数据进行集中登记和维护;b)版本控制:元数据变更应记录版本号、变更内容、变更时间及责任人,确保可追溯;c)
元数据同步:当数据模型、数据集内容或流通规则发生变化时,应同步更新相关元数据;d)
元数据发布:宜通过数据目录、数据门户或元数据服务接口等形式,向相关方提供元数据访问能力。与数据说明文件的关联元数据方案是编制“数据说明文件”(参见5.4.1)的基础。数据说明文件应至少包含核心元数据、质量元数据和管理元数据的主要内容,并以人机可读的形式呈现。5.2数据采集与处理5.2.1采集源与方式采集源分类数据采集源按来源性质可分为以下类型:——内部数据源:组织内部业务系统、生产流程、运营管理过程中产生的数据;——外部数据源:来源于组织外部的公开数据、合作数据或采购数据;——原生数据源:为特定数据集建设目的,通过专门采集活动直接获取的原始数据;——衍生数据源:通过对已有数据进行加工、计算、聚合后形成的二次数据。采集方式采集方式应包括但不限于以下类型:——批量采集:以周期性或一次性方式,抽取并导入数据源中的全部或增量数据;——实时采集:通过数据流处理技术,对数据源产生的数据进行即时捕获与传输;——接口调用采集:通过应用程序编程接口(API)或数据服务接口获取数据;——爬虫采集:通过自动化脚本或爬虫工具,从公开网站或系统中按照设定规则抓取数据;——人工采集:通过人工方式录入、标注、审核或整理数据。采集原则数据采集活动应遵循以下原则:——合法合规性:采集行为应符合相关法律法规要求,涉及个人信息的应获得合法授权;——代表性:采集的数据应在时间、空间、类别等维度上具有代表性;——可追溯性:应记录采集源信息、采集时间、采集方式、采集工具及操作人员等信息;——完整性保障:应根据采集目标,确保采集的数据内容完整、字段齐全;——一致性控制:对于多源采集的数据,应在采集阶段建立统一的数据格式、编码规则和时间基准。采集记录与文档采集活动应形成规范的记录与文档,至少包括以下内容:a)采集源清单及来源说明;b)采集方式及技术方案;c)采集时间范围及周期;d)采集数据量统计;e)采集过程中遇到的异常情况及处理记录;f)采集人员及审核人员信息。采集记录应纳入数据集文档体系,作为数据说明文件的重要组成部分。5.2.2数据预处理一般要求数据预处理应在数据采集完成后、数据融合与集成之前进行。预处理过程应遵循以下原则:——可追溯性:所有预处理操作应记录在案;——可逆性(必要时):对于可能影响原始数据完整性的操作,宜保留原始副本;——自动化与人工结合:宜采用自动化工具处理可规则化的操作,对需人工判断的环节设置复核机制;——质量目标导向:预处理操作应确保处理后的数据满足预设的质量阈值。预处理内容数据预处理应开展下列一项或多项活动:——数据清洗:检测并纠正数据中的错误、重复、不一致、格式错误等问题;——缺失值处理:识别并处理数据中的空值或缺失字段;——异常值检测与处理:识别偏离正常分布的极端值或噪声点;——数据标准化/归一化:将数据转换为统一的量纲或范围;——数据脱敏:对敏感信息进行去标识化或匿名化处理;——格式规范化:统一数据类型、编码格式、单位、日期时间格式等。预处理记录与报告预处理完成后,应形成预处理记录或报告,至少包括下列内容:a)数据源标识及采集批次;b)执行的预处理操作列表及对应参数;c)预处理前后数据量的对比统计(如总记录数、清洗掉的记录数、缺失值填充率等);d)对数据质量影响的评估(可引用5.3.3的评估方法);e)操作人员及复核人员签名,操作日期。预处理工具的选用与验证如使用自动化预处理工具或脚本,应满足下列要求:a)工具应经过功能验证,确保其操作符合预期规则;b)关键预处理逻辑应进行代码审查或测试验证;c)工具版本及运行环境应记录,确保可复现性。5.2.3数据融合与集成基本要求数据融合与集成应符合下列要求:——一致性:消除多源数据之间的语义冲突、命名冲突和单位冲突;——完整性:在融合过程中应识别并处理数据缺失、数据重叠等问题;——可追溯性:应记录数据来源、转换规则、映射关系等元数据;——时效性:应根据应用场景要求,合理设置数据同步与更新机制。冲突处理多源数据融合过程中,应识别并妥善处理以下类型的数据冲突:——命名冲突:同一业务含义在不同数据源中使用不同名称,应建立统一的数据元映射表;——编码冲突:同一属性在不同数据源中使用不同编码体系,应建立编码映射关系;——精度与单位冲突:同一属性的计量精度或单位不一致,应统一转换;——数据重复:同一实体在多源数据中重复出现,应依据实体识别规则进行去重或合并;——不一致性:不同数据源对同一实体的描述存在矛盾,应依据可信度规则确定最终取值。融合验证数据融合与集成完成后,应进行验证,确保融合结果符合预期要求:a)验证融合后数据的记录数量与预期范围是否一致;b)验证关键实体的关联关系是否准确;c)验证融合过程中应用的转换规则和映射关系是否正确执行;d)验证融合后数据在目标应用场景中的可用性;e)记录验证结果,形成融合验证报告。元数据记录数据融合与集成过程中,应记录以下元数据信息,并纳入元数据管理:a)参与融合的数据源信息(来源、版本、时间范围等);b)融合所采用的规则与算法;c)数据映射关系与转换逻辑;d)冲突处理记录;e)融合时间与版本信息;f)验证结果与问题记录。5.3质量保障与评估5.3.1质量维度数据集质量应覆盖基础质量与场景适配质量两大维度。基础质量维度包括:——准确性:数据与真实情况的契合程度;——完整性:核心字段与样本无缺失或缺失在合理范围;——一致性:数据格式、语义、逻辑的统一;——时效性:数据采集与更新符合使用要求;——干净性:无冗余、错误、污染数据。场景适配质量维度包括:——多样性:数据分布全面,覆盖不同场景、对象、条件;——代表性:样本能反映总体特征;——标注规范性:标注符合预设规程与标准;——模型适配性:能有效支撑目标模型训练与性能提升。5.3.2质量检查流程检查准备质量检查前应完成下列准备:a)明确检查对象:确定待检查的数据集范围、数据版本及数据量;b)确定检查依据:依据5.3.1确定的质量维度及对应的质量指标,选取适用的检查方法与工具;c)组建检查团队:指定检查负责人,明确参与人员及其职责;d)制定检查计划:明确检查时间节点、抽样策略、资源安排及交付物要求。检查执行a)自动化检查:利用数据质量工具对完整性、唯一性、格式规范性等可自动化验证的维度进行批量检查;b)人工复核:针对需要人工判断的维度,由检查人员按照抽样规则进行抽样复核;c)问题记录:对检查中发现的质量问题,按照统一格式进行记录;d)问题分级:根据问题对数据集可用性的影响程度,将问题划分为严重、一般、轻微三个等级。问题处置a)问题确认:由检查负责人组织相关方对记录的问题进行确认;b)原因分析:追溯问题在数据采集、处理、集成等环节的根本原因;c)制定整改措施:根据问题等级和原因分析结果,制定整改措施;d)整改实施:责任人对数据进行修正或重新处理;e)整改验证:对整改后的数据再次执行检查,确认问题已解决。检查报告每次质量检查完成后,应形成质量检查报告,报告内容应包括但不限于:a)检查基本信息(检查范围、时间、人员、方法等);b)质量指标统计结果(各维度合格率、问题数量与分布等);c)主要问题清单及整改情况;d)数据集整体质量结论;e)后续改进建议。持续改进a)将质量检查过程中发现的共性问题和改进经验,反馈至第5.1条规划与设计及第5.2条采集与处理环节,推动过程优化;b)定期回顾质量检查流程的有效性,更新检查方法与工具,提升检查效率与准确性。5.3.3质量评估方法与报告质量评估方法数据集质量评估应采用定量与定性相结合的方法。常用评估方法包括:a)统计分析法:通过计算准确性、完整性、一致性等质量指标的统计量进行量化评估;b)规则校验法:依据预定义的业务规则对数据集进行校验;c)抽样核验法:从数据集中抽取具有代表性的样本进行逐条核验;d)对比验证法:将待评估数据集与权威数据源或基准数据集进行比对;e)用户反馈法:收集数据集使用者反馈的质量问题作为评估补充;f)任务测试法:将数据集应用于典型业务场景,通过任务执行效果反向评估质量。质量评估报告质量评估完成后,应编制质量评估报告。报告应包括但不限于:a)基本信息:数据集名称、版本号、评估主体、评估时间;b)评估依据:引用的标准、质量维度及阈值;c)评估方法与过程:采用的评估方法、抽样方案、评估工具;d)评估结果:各质量维度的统计数据、质量问题清单;e)结论与建议:数据集质量等级、主要风险、改进建议。评估报告管理质量评估报告应纳入数据集文档管理体系,并遵循以下管理要求:a)评估报告应与数据集版本一一对应,随数据集一并发布或提供;b)评估报告应妥善保存,保存期限不低于数据集流通所涉协议约定的期限;c)当数据集发生重大变更(如数据源调整、处理流程变更)或再评估时,应及时更新评估报告,并注明版本变更历史。5.4文档与说明5.4.1数据说明文件数据说明文件(DataCard)应按照附录A的示例编制,包含数据集核心信息的标准化描述。文件应涵盖:——基础信息:名称、版本、发布日期、负责人等;——内容概述:数据规模、模态、样本结构、标签体系等;——采集与处理说明:采集源、采集方法、预处理流程、融合规则等;——质量状况:质量评估结果、主要质量指标、存在的局限性;——使用说明:适用场景、访问方式、授权要求、使用限制;——安全与合规说明:隐私保护措施、数据权属、合规声明等。5.4.2技术文档与日志数据集建设过程中,应建立完整的技术文档和运行日志。技术文档应至少包括设计文档、开发与测试文档、部署与运维文档、变更记录。日志应记录数据采集与处理、质量校验、数据访问、系统运行、安全审计等关键操作,并按照相关法律法规要求确定保存期限。高质量数据集流通要求6.1流通准备6.1.1权属与合规性确认基本要求数据集在进入流通环节前,应由提供方完成权属与合规性确认,确保数据来源合法、权利归属清晰、流通行为符合法律法规及监管要求。权属与合规性确认应遵循下列原则:——合法性原则:数据采集、处理、持有及流通的全过程均应符合相关法律法规的规定;——权属清晰原则:数据集的财产性权利应有明确的法律依据或合同依据,不存在权属争议;——可追溯原则:权属与合规性的确认过程应有完整的记录,形成可追溯的证明文件链。确认内容权属与合规性确认应至少包括表4所列内容。表SEQ表\*ARABIC4权属与合规性确认内容确认维度具体内容证明方式数据来源合规数据采集是否取得必要授权;是否涉及禁止采集的数据类型授权协议、同意记录、公共数据授权文件数据处理合规数据清洗、标注、融合等处理活动是否在授权范围内进行处理记录、安全评估报告、合规审查意见权利归属与授权链数据集本身的权利归属;涉及多方贡献时权利链条是否完整权利证明文件、贡献方协议、权利链条图主体资格合规数据集提供方是否具备从事数据流通的法定资质营业执照、行业许可证跨境流通合规如涉及跨境流通,是否完成数据出境安全评估等法定程序网信部门批准文件、备案证明确认流程权属与合规性确认应按下列流程执行:a)自我审查:数据集提供方依据所列内容,对数据集的来源、处理、权利归属及主体资格进行逐项自查,形成《数据权属与合规性自查报告》;b)第三方评估(必要时):对于法律、行政法规规定应当进行评估的数据流通活动,或涉及重要数据、核心数据、大量个人信息的,应委托具备资质的第三方机构出具合规评估报告;c)记录存证:所有确认过程中的文件、报告、协议等应以电子或纸质形式归档,并采用区块链、时间戳等技术手段进行存证;d)持续复核:在数据集的流通过程中,如发生权利变更、法律环境变化或出现新的合规风险,应重新进行权属与合规性确认。不符合情形的处理经确认存在下列情形之一的,不得进入流通环节:a)数据来源不合法,如通过非法侵入、窃取、欺诈等途径获取的;b)权利归属存在争议且未解决的;c)涉及个人信息的,未取得个人信息主体有效同意或不符合法定处理条件的;d)涉及重要数据的,未履行安全保护义务或未按规定进行风险评估的;e)法律法规禁止流通的其他情形。6.1.2流通协议与许可一般要求数据集在流通前,应由提供方与使用方(或通过流通平台)就数据集的使用条件、权利义务、责任划分等事项达成明确的流通协议或许可。协议内容应符合法律法规要求,并具备可执行性。具体要求如下:——合法性:协议条款不得违反数据安全、个人信息保护、反垄断等法律法规的强制性规定;——明确性:对数据集的使用范围、期限、方式、限制等关键要素应有清晰、无歧义的约定;——可追溯性:协议应以书面形式(含电子合同、智能合约等技术形式)留存;——风险可控:应明确数据安全责任、违约责任、争议解决机制。协议内容要素流通协议应至少包含以下核心要素:——数据集标识:数据集名称、版本号、唯一标识符;——权利主体:提供方、使用方及其权利义务;——适用范围:允许的使用场景、地域、行业、用途;——授权方式:独占许可、排他许可、普通许可等;——使用期限:授权起止时间、续期条件;——安全责任:数据安全保护义务、保密要求、违约责任;——费用与结算:计价方式、支付方式、结算周期;——争议解决:管辖法院或仲裁机构、适用法律。许可类型与授权方式根据流通场景,许可类型可分为但不限于以下形式:a)单一用途许可:仅限于特定项目、产品或研究用途,不得用于其他目的;b)多用途许可:允许在约定范围内(如企业内部多个部门、多个场景)使用;c)开放许可:在遵守特定条件(如署名、非商业)下,面向公众开放使用;d)分许可:允许使用方在获得提供方同意后,将数据集再授权给第三方;e)智能合约授权:基于区块链等技术,以代码形式自动执行授权条款。协议签署与存证协议签署与存证应符合以下要求:a)协议应采用可靠电子签名或传统书面签章形式,确保签署方身份真实有效;b)协议文本应完整存档,并采用防篡改技术(如区块链存证、时间戳)固化签署内容与时间;c)协议生效后,应向协议各方提供可验证的协议副本;d)协议变更时,应重新签署补充协议或新协议,并同步更新存证记录。6.1.3分级分类与定价策略分级分类原则数据集在流通前,应根据数据内容、敏感程度、应用场景及流通范围等因素进行分级分类管理。分级分类应符合下列原则:——合法合规原则:依据相关法律法规及行业规定,明确数据的安全等级和类别;——风险导向原则:根据数据泄露、滥用或不当使用可能造成的危害程度确定管控措施;——动态调整原则:分级分类结果应根据法律法规变化、数据应用场景变更及风险评估结果定期调整;——可操作性原则:分级分类标准应清晰明确,便于执行。定价策略数据集定价应综合考虑成本、价值、市场供需及合规要求。定价策略可包括但不限于以下模式:a)成本导向定价:以数据集建设过程中产生的成本为基础,加成合理利润;b)价值导向定价:以数据集在应用场景中能够为用户带来的预期收益为基础;c)市场导向定价:参考同类数据集的市场交易价格;d)差异化定价:根据数据集的分级分类结果、使用范围、使用主体等因素设置差异化价格;e)动态定价:根据市场供需变化、数据时效性衰减等因素建立价格动态调整机制。定价管理与披露a)定价依据记录:数据集提供方应保留定价依据的相关记录,包括成本核算表、价值评估报告、市场调研数据等,以备审计和争议处理。b)价格信息披露:在数据集发布或流通时,应清晰披露定价模式、价格构成及适用条件,保障交易双方的知情权。c)合规性审查:定价策略应符合反垄断、价格法等相关法律法规要求,不得实施价格垄断、价格欺诈等违法行为。6.2流通服务与管理6.2.1发布与发现机制发布准备数据集在发布前,应完成下列准备工作:a)完成数据集质量评估,并形成质量评估报告;b)完成数据说明文件的编制与审核;c)明确流通协议的内容;d)完成数据安全分级与合规性审查;e)确定发布渠道与访问权限设置。发布内容发布的数据集信息应至少包含以下内容:——基础元数据:数据集名称、标识符、版本号、创建日期、更新频率、语种等;——描述信息:数据说明文件(含背景、采集方法、处理流程、质量指标、适用场景等);——流通信息:流通协议、授权方式、计费标准、使用限制、联系人信息;——技术信息:数据格式、数据量、存储结构、访问方式、交付要求。发布渠道数据集提供方应通过以下一种或多种渠道进行发布:a)国家级或行业级数据流通平台;b)企业自建的数据交易门户或数据商城;c)可信数据空间或数据互操作平台;d)经认可的第三方数据交易机构。发现机制为便于使用方检索和发现数据集,发布渠道应提供以下功能:a)多维度目录导航(按行业、主题、格式、地域、时间等分类);b)关键词检索与高级筛选(如按质量等级、价格范围、授权类型等);c)数据集推荐与热度排行;d)数据预览或样本数据提供(在不违反安全与隐私的前提下)。发布后维护数据集发布后,提供方应持续维护以下内容:a)及时更新版本变更记录与数据说明文件;b)对已下架或过期数据集进行标识或撤回;c)跟踪数据集使用情况,收集用户反馈。6.2.2访问控制与授权授权模型数据集的访问控制应采用基于角色的访问控制(RBAC)、基于属性的访问控制(ABAC)或其组合模型。授权模型应满足:——支持用户身份认证;——支持对数据集、数据项、数据记录等不同粒度的授权;——支持静态授权与动态授权相结合。授权流程授权管理应遵循以下流程:a)使用方提交访问申请,说明使用目的、使用期限、数据用途等;b)提供方或平台运营方对申请进行审核,必要时进行合规性审查;c)审核通过后,根据流通协议授予相应权限;d)授权结果应以电子或书面形式反馈,并记录存档;e)授权到期前进行提醒,到期后自动收回权限。授权粒度授权粒度应根据数据安全级别和使用场景设定,包括但不限于:——数据集级:授予对整个数据集的访问权限;——文件级:授予对数据集中特定文件的访问权限;——记录级:授予对数据集中特定记录或行的访问权限;——字段级:授予对数据集中特定字段或列的访问权限。授权记录与审计所有授权操作(包括授权申请、审批、授予、变更、撤销)应进行日志记录,记录内容至少包括:操作时间、操作人、授权对象、授权内容、有效期、操作结果。授权日志应纳入安全审计范围,保存期限应符合相关法律法规要求。6.2.3交易与结算流程交易模式数据集交易可采用以下一种或多种模式:——一次性交易:支付固定费用,获取数据集全部或指定范围的一次性使用权;——订阅制:按周期支付费用,在订阅期内持续获取数据或服务;——按次计费:按数据调用次数、下载次数或查询次数计费;——按量计费:按数据量或使用时长计费;——收益分成:基于数据产品的衍生收益按约定比例分成。交易流程数据集交易应包含以下基本环节:a)询价与报价;b)意向确认;c)合同签订;d)支付与结算;e)交付确认。结算机制交易平台或提供方应建立明确的结算机制:a)支持多种支付方式(银行转账、第三方支付、数字人民币等);b)提供电子发票或合规收据;c)对于平台撮合的交易,应明确平台与提供方的分成比例及结算周期;d)对跨境数据交易,应符合国家外汇管理及数据出境相关规定。争议处理交易双方应约定争议解决方式,包括:a)协商解决;b)平台调解;c)仲裁或诉讼。交易平台应保留完整的交易记录作为争议处理的依据,保存期限应符合相关法律法规要求。6.2.4交付格式与标准交付方式数据集的交付可采用以下一种或多种方式:——文件下载:提供加密或非加密的数据文件,支持断点续传;——API接口:提供标准化的应用程序编程接口;——数据包邮寄:对于超大容量数据,通过物理介质交付;——云存储共享:通过授权访问云存储空间的方式交付。交付格式数据集交付格式应符合以下要求:——文件格式应公开、通用,如CSV、JSON、Parquet、Avro等;——若使用非通用格式,应提供解析工具或详细说明文档;——数据集宜支持多种导出格式,满足不同使用场景需求。交付标准数据集交付应满足以下技术标准:a)压缩与加密:对敏感数据应采用符合国家密码管理要求的加密措施;压缩格式宜采用ZIP、GZIP等通用标准;b)传输协议:通过网络交付时,应采用HTTPS、SFTP等安全传输协议;c)数据一致性:交付的数据应与发布描述一致,提供校验码(如MD5、SHA256)供使用方验证完整性;d)交付时效:应在约定时间内完成交付,并提供交付进度查询。交付物清单每次交付应包含以下交付物:a)数据集本身;b)数据说明文件(包含本次交付的版本信息);c)交付清单(列明文件名、数据量、校验码等);d)使用手册(若涉及API或专用工具)。交付验收使用方应在交付后约定时间内进行验收,验收内容包括:a)数据完整性:数据量与描述一致,无缺失;b)数据可用性:数据格式正确,可正常解析;c)数据质量:符合约定的质量指标;d)授权有效性:访问权限、使用期限等符合协议。验收合格后,双方确认交付完成;如不合格,提供方应在约定时限内修复或重交。6.3流通追溯与反馈6.3.1流通记录与存证基本要求数据集流通的全过程应建立完整的记录与存证机制。流通记录与存证应符合下列要求:——完整性:记录应包括流通主体、流通时间、数据集标识、流通方式、授权范围、使用限制、费用结算等关键要素;——不可篡改性:存证数据应采用电子签名、时间戳、区块链等技术手段;——可审计性:应支持授权方对流通记录进行审计;——长期保存:保存期限应符合法律法规要求。记录内容流通记录应至少包含以下信息:——流通标识:唯一标识本次流通行为的编号;——数据集标识:流通数据集的唯一识别信息;——提供方信息:数据集提供方的主体身份信息;——使用方信息:数据集使用方的主体身份信息;——流通方式:交易、授权使用、共享、开放等;——授权范围:使用场景、地域、期限、次数等;——计费与结算:定价方式、费用金额、支付状态;——流通时间:协议签署时间、交付时间、授权起止时间;——存证凭证:存证编号、存证机构、存证哈希值。存证管理a)存证方式:可采用第三方存证平台、区块链网络或经认可的电子数据存证系统进行存证;b)存证验证:相关方可凭存证凭证对流通记录的真实性和完整性进行验证;c)争议处理:发生争议时,存证记录应作为仲裁或司法认定的有效证据。6.3.2使用反馈与质量再评估反馈机制数据集流通后,应建立使用反馈机制。反馈机制应符合下列要求:——渠道畅通:提供便捷的反馈渠道,明确反馈受理时限;——信息规范:反馈内容应结构化,包括数据集标识、使用场景、质量评价、问题描述、改进建议等;——及时响应:反馈受理方应在约定时间内对反馈进行确认与回复;——匿名保护:反馈信息涉及使用方商业秘密或个人隐私的,应进行匿名化处理。质量再评估基于使用反馈及实际应用效果,数据集提供方应定期或按需对数据集质量进行再评估。再评估应包含以下内容:a)质量指标验证:对照5.3.1规定的质量维度,重新检测各项质量指标;b)场景适配性分析:评估数据集在目标场景下的实际表现;c)偏差治理:分析数据集中可能出现的概念漂移、分布变化或样本偏差,并提出修正措施;d)再评估报告:形成质量再评估报告,作为数据说明文件的补充或更新。改进与迭代a)根据再评估结果,数据集提供方应及时对数据集进行修正、补充或版本更新;b)版本更新后,应同步更新数据说明文件、元数据及流通协议中的相关描述;c)对于已流通的数据集,若因质量改进需通知使用方,应按照流通协议约定的方式履行告知义务。安全、隐私与伦理要求7.1数据安全保护7.1.1基本要求数据集建设与流通过程中,应建立覆盖数据全生命周期的安全保护机制,确保数据的保密性、完整性和可用性。数据安全保护应符合国家网络安全、数据安全相关法律法规及标准要求。7.1.2数据分类分级数据集提供方应根据数据的重要程度、敏感程度及影响范围,按照GB/T43697及相关行业要求,将数据分为核心数据、重要数据、一般数据三个级别,并依据分级结果采取相应的安全保护措施。7.1.3安全技术措施应根据数据安全等级,采取但不限于以下技术措施:——访问控制:建立最小权限原则的访问控制机制;——传输加密:采用符合国家密码管理要求的加密技术;——存储加密:对高敏感数据在存储介质中进行加密存储;——安全审计:记录数据访问、操作、流通等关键行为日志;——备份与恢复:建立数据备份和恢复机制。7.1.4安全管理措施数据集建设与流通相关组织应建立数据安全管理制度,包括但不限于:a)明确数据安全责任主体和岗位职责;b)制定数据安全事件应急响应预案,定期开展演练;c)对涉及数据操作的人员进行安全培训和考核;d)定期开展数据安全风险评估和合规性检查。7.2个人隐私与商业秘密保护7.2.1个人隐私保护数据集涉及个人信息的,应严格遵守《中华人民共和国个人信息保护法》及相关法规,并满足以下要求:——告知同意:在采集个人信息前,应向个人告知相关事项并取得明确同意;——最小必要:采集的个人信息应限于实现处理目的的最小范围;——目的限制:个人信息的使用应限于告知同意的目的;——去标识化与匿名化:在满足业务需求的前提下,宜采用去标识化或匿名化技术处理个人信息。7.2.2商业秘密保护数据集涉及商业秘密的,应采取有效措施防止商业秘密泄露,包括但不限于:——明确商业秘密的识别标准,对涉及商业秘密的数据进行特别标记和分类管理;——与接触商业秘密数据的人员签署保密协议;——在数据流通中,通过脱敏、匿名化或限制授权等方式确保商业秘密不被非法获取或使用;——建立商业秘密泄露应急响应机制。7.3伦理审查与偏见治理7.3.1伦理审查机制数据集建设与流通过程中,应建立伦理审查机制。伦理审查应包括以下内容:——伦理原则遵循:确保数据集建设与应用符合尊重人权、公平正义、透明可解释、有益无害等基本伦理原则;——审查主体:宜设立独立的伦理审查委员会或指定专门机构负责伦理审查工作;——审查范围:对涉及人类受试者、敏感个人信息、可能产生重大社会影响或存在算法歧视风险的数据集,应进行前置伦理审查。7.3.2偏见检测与治理数据集在建设与流通过程中,应采取有效措施识别、评估和消除可能存在的各类偏见。具体要求如下:——偏见识别:在数据采集、标注、处理等环节,检查数据来源、样本分布、标注规则等是否存在系统性偏差;——公平性评估:采用定量和定性相结合的方法评估数据集在不同群体间的表现差异;——偏见治理:对识别出的偏见,通过调整采样策略、重新标注、数据增强、算法校正等方式进行治理;——持续监测:数据集流通使用后,持续监测下游应用可能产生的偏见影响。7.3.3透明度与可追溯性数据集提供方应确保数据集的来源、构建过程、质量状况、伦理审查结论等信息对相关方透明可查,具体通过以下方式实现:——在数据说明文件中明确披露数据采集方式、标注规则、偏见治理措施、伦理审查结果等关键信息;——建立数据集版本管理和变更记录;——对可能影响公平性、安全性的决策,保留决策依据和过程记录。
附录A(资料性)数据说明文件(DataCard)示例A.1范围本附录规定了数据说明文件的编制框架、核心信息项及填写示例,为数据集提供方编制标准化数据说明文件提供参考。A.2数据说明文件模板表A.SEQ表A.\*ARABIC1基础信息序号信息项填写要求示例1数据集名称体现核心特征、应用领域及数据类型工业设备故障诊断高质量时序数据集2唯一标识符“机构代码-数据类型-年份-序号”编码规则CMIA-IND-TIME-2025-0033版本号“V+主版本号.次版本号”,修订版本需补充修订日期V1.0、V1.1-202509154发布机构机构全称,含统一社会信用代码中国机械工业自动化研究所有限公司(91110108101130348C)5责任联系人姓名、联系电话、电子邮箱张三,138XXXX1234,zhangsan@6发布日期YYYY-MM-DD2025-06-157更新周期数据维护频率,无更新计划标注“一次性发布”每月更新、实时更新、一次性发布8数据集类型按“模态类型+行业属性”分类,多模态需列明所有类型单模态-时序数据(工业领域)、多模态-图像+文本(医疗领域)9应用层级基础认知层/场景理解层/行动规划层场景理解层10摘要200字内概括数据集核心价值、规模、用途及质量水平本数据集包含15类工业核心设备的故障时序数据,共10万条有效样本,覆盖过载、短路等20类故障类型,数据准确性达99.7%,可支撑工业设备故障预警模型训练与算法优化,符合GB/TXXXX—XXXX质量要求表A.SEQ表A.\*ARABIC2内容特征序号信息项填写要求示例1数据规模样本数量、存储容量,单位规范(样本量:条/个;容量:GB/MB)样本量10万条,存储容量50GB2数据模态所有数据模态及占比时序数据(80%)、图像数据(20%)3样本分布按核心分类维度(如设备类型、故障类型、地域、时间)说明分布情况设备类型:电机4万条、水泵3万条、风机3万条;故障类型:过载2.5万条、短路2万条、磨损1.5万条;时间范围:2024-01—2025-054标签体系标签层级、数量、编码规则及标注规范版本二级标签体系:一级标签(15类设备类型)、二级标签(20类故障类型);编码规则:设备类型编码+故障类型编码(如DJ-GZ=电机-过载);标注规范版本:V2.15核心字段字段名称、数据类型、字段含义,关键字段注明单位1.设备ID(字符串):设备唯一标识;2.采集时间(日期时间型):YYYY-MM-DDHH:MM:SS;3.温度(数值型):设备运行温度(℃);4.压力(数值型):设备运行压力(MPa);5.故障类型(字符串):二级标签编码;6.图像路径(字符串):故障图像存储地址6数据格式各模态数据的存储格式,需符合相关国标要求时序数据:CSV/Parquet格式;图像数据:JPEG/OME-TIFF(GB/T46927-2025)7局限性说明如实披露数据未覆盖的场景、样本偏差、适用边界限制1.未覆盖极端环境(-40℃以下、80℃以上)设备数据;2.不含市场占有率低于1%的小众品牌设备样本;3.故障时序数据采样频率固定为1次/分钟,不支持高频场景应用表A.SEQ表A.\*ARABIC3建设过程序号信息项填写要求示例1数据来源说明数据来源类型(自有/合作/采购/合成),标注合规性说明自有业务系统(某工业互联网平台)、合作采集(3家大型制造企业,已签署数据授权协议)2采集方式按模态分别说明采集技术、工具及流程时序数据:传感器实时采集(采集工具:工业传感器(精度±0.1℃))+ETL批量抽取;图像数据:工业相机拍摄(分辨率1920×1080)+人工上传3预处理流程按“验证-清洗-转换-聚合-抽样”顺序说明关键步骤、规则及结果1.数据验证:核查字段格式与取值范围,剔除无效数据1200条;2.数据清洗:数值型字段缺失值均值填充,字符型字段众数填充,删除重复数据800条;3.数据转换:统一单位(压力MPa、温度℃)、编码(UTF-8);4.聚合:按“设备ID+日期”聚合日统计数据;5.抽样:分层抽样保留10万条样本,各设备类型样本占比均衡4融合集成规则说明标签层级、数量、编码规则及标注规范版本1.关联字段:设备ID+采集时间;2.冲突解决:优先采用工业互联网平台自有数据,次选合作企业权威数据源;3.格式统一:所有数据转换为标准化格式,支持主流工具调用5标注过程说明标注方式、工具、人员资质及一致性校验结果标注方式:半自动化标注(工具:LabelStudioV1.8.0)+人工复核;标注人员:5名具备3年以上工业设备维修经验的工程师;一致性校验:Kappa值0.96,标注一致性96.8%6版本变更记录按版本号依次说明更新时间、更新内容及变更原因1.V1.0(2025-06-15):首次发布,包含10万条样本;2.V1.1(2025-09-15):新增2类设备故障样本1.5万条,优化标签编码规则(因行业分类标准更新)表A.SEQ表A.\*ARABIC4质量状况序号信息项填写要求示例1质量评估报告编号关联本数据集对应的质量评估报告唯一标识QA-IND-TIME-2025-0032基础质量指标按准确性、完整性、一致性、时效性、干净性列明量化结果及计算依据1.准确性:错误率0.3%(人工复核3000条,发现错误9条);2.完整性:核心字段缺失率0.8%(仅“图像路径”字段缺失);3.一致性:格式一致率100%,语义一致性99.9%;4.时效性:实时采集数据更新滞后≤24小时;5.干净性:无冗余、污染数据,重复数据剔除率100%3场景适配质量指标按多样性、代表性、标注规范性、模型适配性列明量化结果1.多样性:设备类型覆盖度92
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心血管系统疾病护理
- 2026年大学英语b级测试题及答案
- 2026年沙坪小屋测试题及答案
- 2026年新概念时态测试题及答案
- 投资X可持续发展战略论文
- 工程进度款结算专项方案
- 医院隔离技术规范
- 切片资源预留策略论文
- 2026光纤布线系统在数据中心能效优化中的作用研究报告
- 装饰装修木地板安装施工方案
- 工程造价咨询服务投标方案(技术方案)
- 修建祠堂合同模板
- 《交通监控系统》课件
- 2024年04月国家艺术基金管理中心应届毕业生招考聘用笔试历年典型考题及考点研判与答案解析
- 2024河北出版传媒集团招聘91人公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 小升初英语词汇表(含1600个必备单词)+英语冲刺专项训练.情景对话+155个必考短语(必背)
- 等静压石墨行业分析
- 27.2.2相似三角形的性质教学设计人教版九年级数学下册
- 《商务馈赠礼仪》课件
- 生活中的趣味化学
- QC活动之降低投诉率
评论
0/150
提交评论