工业企业高质量数据集建设规范(征求意见稿)_第1页
工业企业高质量数据集建设规范(征求意见稿)_第2页
工业企业高质量数据集建设规范(征求意见稿)_第3页
工业企业高质量数据集建设规范(征求意见稿)_第4页
工业企业高质量数据集建设规范(征求意见稿)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CCSXXX(Specificationsfortheconstructionofhigh-qualitydatasetsinindustrial(征求意见稿)T/CITIFXXX—20XXI 2规范性引用文件 3术语和定义 4缩略语 5建设环节 6建设规范 6.1数据采集 6.2数据预处理 6.3数据标注 6.4数据增强 6.5数据产品化 T/CITIFXXX—20XX本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起请注意本标准的某些内容可能涉及专利,本标准的发布机构不承担识别专利的责任。本文件由国家工业信息安全发展研究中心提出。本文件由中国电子质量管理协会归口。本文件起草单位:本文件主要起草人:T/CITIFXXX—20XX1工业企业高质量数据集建设规范本文件规定了工业企业在高质量数据集建设过程中的术语和定义、建设环节、建设步骤、建设要求和质量要求。本文件适用于指导工业企业、科研院所、行业协会等相关机构进行高质量数据集建设活动的参考依据和规范指引。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344-2018信息技术数据质量评价指标T/SAIAS015-2024语料库建设导则3术语和定义GB/T36344-2018、T/SAIAS015-2024界定的以及下列术语和定义适用于本文件。3.1数据data任何以电子或者其他方式对信息的记录。3.2企业数据enterprisedata企业在生产经营过程中形成或合法获取、持有的数据。3.3原始数据rawdata初次产生或源头收集的、未经加工处理的数据。注:原始数据有多种存在形式,如文本数据,图像数据,音频数据或者几种数据混合存在。3.4元数据metadata定义和描述特定数据的数据,它提供了关于数据的结构、特征和关系的信息,有助于组织、查找、理解、管理数据。3.5数据元素dataelement数据元素是用一组属性描述定义、标识、表示和允许值的一个数据单元。3.6数据集datasets具有一定主题,可以标识并可以被计算机化处理的数据集合。3.7数据标注datalabelingT/CITIFXXX—20XX2数据标注是将原始数据进行加工,添加结构化的标签或注释,使其能够被人工智能模型理解和使用的过程。3.8数据模型datamodel对现实世界数据特征的概念化表达,通过定义数据结构、元素间关系、约束规则及允许操作,实现对数据的系统性描述与组织。4缩略语API:应用程序编程接口(ApplicationProgrammingInterface)工业AGV:工业自动导引车(AutomatedGuidedVehicle)5建设环节工业企业高质量数据集建设环节由数据采集、数据预处理、数据标注、数据增强、数据产品化五大部分构成,工业高质量数据集建设流程如图1所示。图1工业企业高质量数据集建设规范6建设规范6.1数据采集数据采集是根据预先确定的数据需求,从不同来源和渠道获取原始数据的过程。此步骤是数据集建设的起点,其质量直接决定了后续所有环节的上限。数据采集过程应重点关注数据元素质量与数据安全水平的相关要求,工业企业在高质量数据集建设过程中的数据采集步骤主要包括:a)自动化数据采集:指利用程序或自动化设备在无人干预或少量人工干预下系统性地获取数据。其作用在于高效、大规模地收集数据,尤其适用于数据源稳定且数据量大的场景。1)网络爬虫:宜通过爬虫程序从互联网抓取公开数据。此方法应在采集前验证数据来源的合法性,遵循网站robots协议,并确保抓取内容符合数据元素质量中对准确性和时效性的要求。T/CITIFXXX—20XX32)数字孪生:宜从数字孪生模型中获取仿真运行数据。此方法应确保仿真数据能真实反映物理实体的本质属性,满足数据元素质量中对内容准确性的要求,并记录元数据以保证其规范性。3)物联网传感器:宜通过工业现场的传感器收集实时数据。此方法应确保数据传输的稳定可靠,保障数据元素质量中的元素完整性和时效性,并对采集设备及数据进行安全管理。4)条形码扫描与无线射频识别:宜利用扫描或识别设备读取物品信息。此方法应确保识别的内容准确性和数据唯一性,避免误读或串读。5)API接口:宜通过调用内外部信息系统API获取结构化数据。此方法应在接口层面进行安全校验,保障数据安全水平,并遵循预设标准,确保数据元素权限敏感性符合要求,以及格式完整性符合需求。b)手动数据采集:指通过人工操作进行的数据收集活动。其作用在于获取自动化手段难以采集的、非结构化的或需要人类专家判断的数据。1)人工录入:宜由操作人员根据原始单据、设备表盘读数或纸质档案手动将数据输入到系统中。此方法适用于历史数据或物理记录的数字化,应建立校验机制,严格管控脏数据率,确保录入的内容准确性和元素完整性。2)问卷调查:宜通过设计并发放调查问卷的方式,收集关于产品使用反馈、员工操作经验等主观信息。此过程应确保数据来源的敏感性符合要求,以及规避公平性风险。3)实验观察:宜在受控的实验环境中,由研究人员观察并记录特定现象或过程数据。此方法主要用于获取特定因果关系验证所需的数据。此过程应重点保障记录的内容准确性。6.2数据预处理数据预处理是对采集到的原始数据进行清洗、集成、变换等一系列处理,是改善和保障数据元素质量的核心环节,使其适用于后续的分析和模型训练的过程,直接决定了数据集的可用性和最终模型的性能上限。工业企业在高质量数据集建设过程中的数据预处理步骤主要包括:a)缺失值处理:宜识别并处理数据中的缺失项,可根据缺失率和数据分布特点选择删除、均值/中位数/众数填充、或基于模型的预测填充等方法。该步骤旨在提升数据元素质量的完整性,确保元素完整性和记录完整性达到后续建设步骤要求。b)异常值处理:宜采用统计方法或聚类等算法识别和处理数据中的异常点。该步骤旨在提升数据元素质量的准确性,有效降低脏数据率,确保数据真实反映客观事实。c)重复值处理:宜对数据集中完全重复的记录进行识别和删除。该步骤是保障数据元素质量中数据重复性和数据唯一性的关键操作。d)一致性处理:宜对数据中存在的矛盾信息进行规范化,如统一量纲“kg”与“克”、统一术语表达“计算机”与“电脑”等。该步骤旨在提升数据集成质量中的相同数据一致性。e)数据离散化:宜将连续的数值型特征,如温度、压力、电流、时间等,划分为若干个离散的区间或类别,实现分箱处理,便于后续模型使用和分析,该步骤的处理规则应作为元数据的一部分被记录,以保证数据元素质量的规范性。f)数据平衡化:宜针对样本类别不均衡问题进行处理。此举旨在提升数据集成质量中的均衡性,特别是分类均衡性,为模型训练和使用提供更均衡的数据分布。4g)数据匿名化:应对数据中包含的个人或商业敏感信息进行脱敏处理。此举是提高数据集安全水平中隐私性和敏感性要求的重要技术手段,确保数据在全生命周期内的安全。h)数据预标注:宜利用弱监督、半监督或主动学习等方法,对部分数据进行自动化的初步标注。该步骤可提升后续正式标注的效率,并应重点关注数据标注质量中的标注准确性要求。6.3数据标注数据标注是对原始数据进行标记或加标签的过程,以创建可供机器学习模型学习的训练样本。此步骤为监督学习算法提供了行业知识、人类的认识和人类的偏好等信息,为监督学习算法提供训练样本,是决定模型学习方向和最终性能的核心环节,该环节的产出质量直接由数据标注质量的各项指标进行衡量。工业企业在高质量数据集建设过程中的数据标注步骤主要包括:a)图像数据标注:宜根据任务需求,采用边界框、多边形、语义分割、关键点等方式对图像中的目标对象进行标注。其作用是为图像分类、目标检测、实例分割等视觉任务提供训练数据,该步骤应重点关注像素级的空间匹配,满足数据标注质量中对准确性的要求。b)文本数据标注:宜对文本内容进行分类、实体识别、关系抽取、情感分析等标注。其作用是为自然语言处理任务提供训练数据,应重点关注标注边界的准确性和语义理解的一致性。c)视频数据标注:宜通过对视频帧进行连续的图像标注或对视频片段进行事件标注,实现对动态目标或行为的描述。其作用是为视频理解、行为识别等任务提供训练数据,应重点关注时间与空间维度的准确性、时序性和跨帧标注的事件一致性。d)语音数据标注:宜对语音信号进行文本转写、说话人分割、情绪或语种识别等标注。其作用是为语音识别、声纹识别等任务提供训练数据,应重点关注转写内容的准确性和非语音事件,并对说话人、情绪等标签的标注风格保持一致。e)点云数据标注:宜采用3D边界框、语义分割等方式对激光雷达或深度相机采集的三维点云数据进行标注。其作用是为工业AGV、自动驾驶、数字孪生等场景下的三维感知任务提供训练数据,应重点关注三维空间定位的准确性,以及对同一物体在不同视角下的主客体一致性。f)信号数据标注:宜对传感器振动信号、设备电信号等时间序列信号,进行事件或状态区间的标注。其作用是为设备故障诊断、健康监测等时序分析任务提供训练数据,应重点关注事件起止点的准确性和跨时间序列标注的事件一致性。g)多模态数据标注:宜对图像-文本对、视频-音频-文本对、多元物理信息融合数据表等包含多种数据类型的数据集进行联合标注,建立不同模态数据间的对应关系。其作用是为多模态融合感知任务提供训练数据,应重点关注跨模态标注的准确性与一致性。6.4数据增强数据增强是通过技术手段增加数据量或生成新数据的过程,用于扩充训练集,提升模型泛化能力和鲁棒性。此步骤在原始数据量不足或样本不均衡时尤为重要,能够有效缓解模型过拟合问题,并对工业长尾数据问题形成有效补充,对该环节的质量评价可参照数据元素质5量、数据标注质量和数据集成质量的相关要求。工业企业在高质量数据集建设过程中的数据增强步骤主要包括:a)数据增强:宜在保持标签不变的前提下,对原始数据进行几何变换、颜色变换、添加噪声等操作,生成新的、有效的训练样本。其作用是丰富数据的多样性,提高模型对不同场景变化的可靠性和鲁棒性。1)图像数据增强:宜通过平移、旋转、缩放,翻转、剪裁,亮度、对比度、饱和度调整、噪声注入、随机遮挡或抹去等方式提高图像数据多样性,在该过程应重点关注数据集的全面性和均衡性。2)文本数据增强:宜通过语用操作技术、随机插入、删除、交换单词、词序扰动、句子拼接、句子交换等方式提高文本数据多样性,在该过程应重点关注数据集的全面性和均衡性。3)时序数据增强:宜通过时间拉伸、压缩、噪声注入、滑动窗口分割等方式提高时序数据多样性,在该过程应重点关注数据集的全面性和均衡性。4)音频数据增强:宜通过声音变换、背景噪声混合、时域和频域扰动等方式提高音频数据多样性,在该过程应重点关注数据集的全面性和均衡性。b)数据合成:宜利用生成对抗网络、变分自编码器等深度学习模型,或基于物理仿真的方法生成与真实数据分布相似的全新数据。其作用是在数据获取受限或涉及隐私时创造训练数据,应重点关注生成数据与真实数据分布的一致性、关联性和全面性。1)基于数值模拟/仿真的数据合成:宜通过物理仿真技术,从几何、功能和性能等方面对实体进行精细化建模与跨领域多学科耦合仿真,连接不同时间尺度的物理过程构建模型,从而精确地表达物理实体的形状、行为和性能等,实现符合机理约束的数据样本。在该过程应2)基于规则生成的数据合成:以数学工具抽象现实世界,利用各种统计分析方法对批量数据建立模型,得到能够最大化体现数据分布特征的分布函数。3)基于人工智能生成的数据合成:基于深度学习算法构建数据生成代理模型,通过训练模型来学习并预测数据的概率分布,生成新的文本、图像视频等数据。6.5数据产品化数据产品化是将处理和标注好的数据集进行封装、管理和交付,使其成为可重用、易于访问和维护的数据资产的过程。此步骤是数据集建设的最终环节,旨在提升数据集的流通性和应用效率,实现数据价值的最大化。产品化是数据集建设的收尾环节,其质量全面由数据集成数据产品质量和数据安全水平进行衡量。工业企业在高质量数据集建设过程中的数据产品化步骤主要包括:a)数据集封装:宜将数据文件、标注信息、元数据及说明文档等进行统一组织和打包。其作用是确保交付内容完整,方便用户理解和使用。封装内容应满足数据集成质量中对完整性的要求,特别是说明书完整性,需包含技术规范、业务语义、标注规则等完备信息。b)数据集格式化:宜采用业界通用的或标准化的数据格式对数据集进行统一组织。其作用是提高数据集的互操作性,降低不同算法框架下的使用门槛,保障格式一致性。此举旨在提升数据集的可访性,特别是可用性,确保数据能被不同系统和流程便捷地集成。c)说明文档编制:应为数据集编写详尽的说明文档,内容包括数据来源、采集方法、预处理流程、标注规范、数据格式、字段含义及版本历史等。文档内容应完整记录数据的来源、加工过程和版本变更,实现路径完整性,确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论