版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能数据标注通用技术要求2026-06-29实施2026-06-29实施四川省市场监督管理局发布I 3术语和定义 2 2 2 2 25.1文本标注 2 3 3 3 36数据标注工具及平台 3 3 3 47.1人工标注 4 4 47.4混合式标注 47.5适用场景 4 5 5 5 8本文件起草单位:四川省大数据中心、成都市标准化研究院、四川省发展和改革委员会(四川省数据局)、成都市汇众天智科技有限责任公司、成都数之联科技股份有限公司、电子科技大学、成都索贝数码科技股份有限公司、成都数据集团股份有限公司、成都国信安信息产业基地有限公司、中国电信股份有限公司成都分公司、内江市大数据中心、成都市人力资源社会保障信息中心、成都市发展和改革委员会、遂宁市数据局、宜宾市数字经济产业服务中心、自贡市大数据中心、中国联合网络通信有限公司四川省分公司、四川省旅游学校、国网四川省电力公司成都供电公司、成渝(成都)信息通信研究院有本文件主要起草人:管庆旭、周学立、刘莎、李蒙科、白玲玉、段莹、王平、温蓓、周云宏、罗军、冯亮、李乐昆、骆靖元、曹霞、刘易飞、曾旭东、李南君、苏钰、王乐、傅彦、周俊临、杨俊宇、夏琦、陈尧森、邓建平、黄尉洪、秦之湄、赖宏应、李恺、尹浩、罗莉、黄珊、李欣海、赵书舒、王靖、王刚、马彪、李雪卉、张小姝、李茂春、陈娜娜、左汪敬、魏文婕、张艺帆、李享、周莹、蒋程西、熊姝涵、人工智能数据标注通用技术要求下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本信息技术人工智能术语给数据样本指定目标变量或类别,并对其进行分类、描述或赋值的过程,以满足机器学习和人工智能模型训练需求。注:标注结果需人工抽检或复核,以确保质量。综合运用人工、人机协同与机器标注方式,并根据任务需求进行灵活组合,以提升标注效率与质量的数据标注方法。工2——透明可信可解释:标注规则应清晰、具体,便于理解和执行。同时,规则的解释应具有可信度,能够被相关方接受和理解;——一致性与复用性:同类数据的标注应保持一致,确保不同标注人员或工具的结果可比、可复——质量优先与可改进性:标注规则应设置质量检测与反馈机制,保证标注的持续改进与迭代优45654的相关要求;——行业敏感数据:如医疗、金融、政务等领域,应符合相应相关行业法律法规、行业标准和伦理要求,标注人员宜具有相关领域专业知识要求;3语音标注包括语音转写、音素标注、说话人分离、语气识别、情感语音标注、语音质量标注、方言/口音标注、语音意图标注、韵律标注等类型,应使用时间戳等,根据应用要求可精确到秒级、毫秒级等。——数据安全与合规性:采用加密存储与安全传输协议,防止数据泄露,支持宜支持多类型数据(文本、语音、图像、视频等单模态数据及各类多模态数据)的标注,提供灵活4宜设立多级审核流程,包括操作人员自查、专人初审、交叉复审和定期抽检,平台需支持一致性检查与差异比对,及时发现并修正错误,提供统计分析功能,生成质量报告。支持根据任务需求设定标注权限与分工,应记录人员操作日志,确保责任可追溯,提供任务进度可视化和绩效统计。通过算法模型或工具进行初步标注,由人工进行校正、补充与确认。适用于大规模数据集,实现质量与效率的平衡,广泛用于语音识别、文本分类、图像分类等任务,应建立抽检和复核机制,确保数据标注质量。——规则驱动标注:通过人工预设明确的逻辑规则、判断条件或模式;如:关键词匹配、阈值判定、正则表达式等,由系统对数据进行标准化标注的方式;——数据驱动标注:以已标注的样本数据为基础,通过训练算法模型使其自主学习数据内在特征与规律,待模型达到预设性能标准后,再利用该模型对新的注,再通过人工进行重点抽查与修订,适用于要求高质量又需快速交付的场景,如:自5——跨领域或敏感数据:包括但不限于跨语种医疗文献标注、政务敏感数据处文档要素提取等,需兼顾跨领域知识适配与数据安全的场景,宜采——时效性要求高场景:包括但不限于实时舆情监测、即时内容审核、工业生在对数据进行标注前,应先进行数据清洗。通过去重、处理缺失值、检测与处理异常值、纠错和过滤等方法,剔除或修正数据中的无效数据,采用人工与机器自动化结合的方式,机器负责高效处理大批量、规则化的任务,人工负责处理规则模糊或需主观判断的异常数据。主要包括但不限于:——过滤:筛选出符合任务要求的有效数据,剔除无关数据。——数据切分与重组:对大尺寸图像、长文本或长时序数据进行合理切——几何与物理一致性变换:在不影响语义判定的前提下,进行尺度调整、轻——弱监督与伪标注:借助规则系统或预训练模型生成初始标签,由人工进行校正与确认。6——采集数据准备:对已授权的采集数据进行数据登记、核查、整理、预处理分级等,形成与标注任务要求匹配的待标注数据;数据标注方——小规模试标及验收:开展小规模样本试标,记录试标过程及结果,并根据——明确质量检查规则:应根据任务说明和GB/T42755的相关要求制定质量检查规则,包括但不限于指标名称、评估方法、阈值等,其中:·一致性:应声明标注一致性评估方法及指标,使用一致性检验评估标注人员间的一致性水平,如:Kappa系数、F1分数等一致性定量指标,人工审核和讨论对标注结果进行定性分析的指标,并可通过构建多模态标注模型提高评估准确性;7——标注管理方应对标注成果进行加密存储与版本化归档,支持标注需求方在在数据标注过程中,应针对网络中断、电力故障、系统异常、数据访问异常及其他可能影响标注连续性和数据安全性的突发情况建立应急处置机制,通过状态保护、访问控制、增量备份、安全隔离等措施,保障标注数据与系统安全,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年一本院校理科平行志愿投档分数线
- 年产10万吨沥青混凝土建设项目环境影响报告表
- 第4章 外汇市场
- 2025-2026学年追溯历史的教学设计
- 八年级下册自由平等的真谛教案
- Unit 2 Vacation Plans教学设计小学英语五年级下册广东版(开心英语)
- 2025年雪地徒步杖雪托设计
- 第13课 香港和澳门回归祖国八年级下册历史同步教学设计
- 多媒体作品的开发教学设计中职专业课-多媒体技术及应用-计算机类-电子与信息大类
- Lesson 75 SOS教学设计初中英语第二册新概念英语
- 初三道德与法治中考复习:开放性设问之倡议书、标语与活动方案专项突破教案
- 2025年合肥高新区社区工作者招聘考试试卷真题
- 2026年安徽省检察机关招聘书记员考试真题
- 2025年荣耀AI隐私安全白皮书
- 2026届山东省聊城市临清市重点达标名校中考押题生物预测卷含解析
- 2026年高考(湖南卷)化学试题及答案
- 2025 地中海气候的特点和成因课件
- 围手术期营养支持指南
- 2026年山东高考英语真题试卷(新课标卷)(+答案)
- DB4101∕T 145-2025 城市道路管线综合规划规范
- 麦凯66表格(完全版)
评论
0/150
提交评论