版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高质量数据集建设和标准化情况介绍数据驱动的人工智能发展高质量数据集建设现状和能力体系高质量数据集标准化进展实践探索2人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多样化的数据集,成为拉开模型能力差距的关键要素。Deepseek-R1等复杂推理模型的发布,以及“人工智能+”行动推进,极大提高了复杂推理数据集,多模态数据集、行业数据集、具身智能数据集的需求。浅层学习时期(~2012)深度学习时期(2012~2018)大模型时期(2019~)规模:万级别质量:单模态(结构化数据)、高精度人工标注、场景单一(人工设计场景)M
N
I
S
TI
m
a
g
e
N
e
t规模:千万级质量:单模态(图像、文本、语音)、大规模众包标注、真实场景覆盖规模:亿级质量:领域覆盖广(百科、网页、图书等)、安全合规要求性高人工智能持续演进对高质量数据集提出新要求T
H
E
P
I
L
E基础语言模型时期(
2019
~)数学推理数据集G
S
M
8
K
具身智能数据集A
g
i
B
o
t
W
o
r
l
d复杂推理、多模态、具身智能、行业模型时期(
2024
~)规模:不定质量:多样性要求极高(思维链数据、多模态数据、具身智
能数据、行业数据)。3我国人工智能产业链呈现倒三角特征我国人工智能产业链发展水平呈倒三角特征,底层基础较弱但应用空间和需求庞大,属于应用牵引型。聚焦尖端行业应用AI全面赋能经济社会发展行业转型需求旺盛数据总量高,但高质量中文数据缺乏数据量充足,垄断高质量数据集AI平台工具链尚不完善平台工具完善、技术领先,覆盖各个环节缺少原创算法,但二次开发能力强提出一系列基础原创算法理论,引领前沿方向底层芯片受制于人垄断先进芯片,对芯片产业链具有极强掌控力4数据:全球人工智能发展的关键战略要素数据规模与质量是模型性能提升的关键因素主体时间大模型数据量Llama
32024增长近万倍GPT-1PaLM2Gemini201820232023图像文本音视频多模态4.6GB3.6万亿tokens3.3万亿个单词约40000GB,13万亿tokens,超15万亿tokensGPT-42023图像、音视频等多模态数据进一步提供多维度复杂场景信息,成为迈向通用人工智能的必要条件56Prompt撰写任务管理辅助撰写高阶撰写随机抽检多人可视数据训练工程数据集贯穿于大模型全生命,输出高质量数据集数据获取Prompt工程数据标注标注平台数据质量评估数据清洗管理节点获取节点共享生态合作数据采购数据过滤低质过滤 有毒过滤公开获取规则过滤毒性评估分类器内容分类规则清洗模型清洗深度过滤内容分类数据毒性评估数据分布评估数据数量评估数据内容评估微调大模型通用大模型 行业大模型评测体系规则清洗模型清洗深度过滤内容分类数据合理分布和配、分批训练第1批:百科1+书籍1+行业1+...第2批:网页2+书籍2+期刊2+行业2+...第n批:百科n+书籍n+期刊n+行业n+...预训练微调激发Rank标注RLHF数据质量管理微调预训练数据集SFT数据集行业数据集Prompt数据集专家标注评测方法评测框架评测工具评测指标数据质量提升预训练大模型优化优化
优化大模型基准测试关键节点测试、发现问题、及时优化优化评测数据集高质量数据集成为人工智能能力提升的核心支撑协同出台人工智能和数据要素政策:《“数据要素×”三年行动计划》强调打造高质量人工智能大模型训练数据集。垂直领域建设:国资委并发布首批30项某著名企业高质量数据集。做大做强数据标注产业:《关于促进数据标注产业高质量发展的实施意见》发布。。政策集中出台奖补导向明确某省市某省市明确高质量数据集建设规划:开展数据质量评估评价,构建面向大模型的高质量语料库。到2025年,形成
1000个高质量数据集。打造典型案例示范:发布首批30个工业制造、交通运输、金融服务等高质量数据集。奖补激励数据集建设某省市某省市,以某省市某省市某省市、呼某省市11个地区出台补贴政策10个地区,凸显了高质量数据集建设的紧迫性。11个地区均奖补数据集的建设方,2个地区奖补数据集的使用方,凸显当前。国家部委和地方政府注重政策协同布局。7数据标注和高质量数据集互为补充数据采集与获取是标注流程中的首要步骤,数据采集应遵循合法合规的原则,使用正当方式进行获取,确保不侵犯个人隐私、肖像权等个人权益。在获取数据后,并非所有数据都可以直接使用。对于不完整、不一致以及含有噪声的脏数据,需要通过数据预处理来清洗,确保在使用之前去除这些脏数据。在数据标注的核心环节,标注工程师会根据之前沟通确认的要求进行数据标注工作。数据采集
数据清洗
数据标注
数据质检数据质检是最重要的一个步骤,配备了多名专职审核员,对数据进行严格把关。一旦发现不合格数据,会立即交由标注人员进行返工,直到最终审核通过为止。狭义的数据标注是指对处理的原始数据添加说明、解释、分类或编码的过程,广义的数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。.广义数据标注全流程高水平标注数据20~200美元一条“石油”勘采“石油”粗炼
“石油”精炼
“石油”质检端到端AI数据平台建设、全流程AI数据治理服务数据资源
高质量数据集数据来源:Scale
AI公开信息8高质量数据集成为人工智能能力提升的核心支撑规模可扩展性增强多任务适应性增强能力可塑性增强多模态数据集多模态数据集使模型更加全面和精准地理解和处理任务,更好地应对复杂应用场景需求。具身智能数据集增强机器人在多样化环境和任务中的适应性和决策智能,实现更高级别的自动化和智能化。促进模型推理能力大幅提升。用于自动化的内容审核、推荐和广告投放、智能监控等。推理思维链数据集长视频数据集(一)自动生成高质量数据集:减少传统数据标注需求自动化推理和数据生成技术,大幅提升自动化数据标注技术方式占比迫切需要强化四类数据集供给(二)数据蒸馏+人类协同技术:提升数据标注质量和效率数据蒸馏技术,从低质量数据中高效提炼生成高质量训练数据自动化筛选和人类专家标注反馈机制大幅提升数据标注质量和效率。(三)强化学习新范式:聚焦高质量推理型数据集收集了大约600k的推理相关训练样本和200k的非推理训练样本,推理训练监督微调数据占比大幅减少。DeepSeek开启大模型训练数据开发利用的新范式:。:大模型快速演进对数据集质量和工程路线提出更高要求。9高质量数据集成为人工智能应用升级的核心要素大模型应用落地采集更多数据资源高质量数据集建设大模型研发数据飞轮建成高质量数据集的企业将有能力研发出性能优异的行业大模型,进而在行业大模型应用、研发迭代过程中采集到更多高质量数据集资源,形成:算法趋同、算力普惠背景下,高质量、高价值密度的数据集将构建起企业差异化竞争力10人工智能进入大模型时代,大模型对训练/测试数据要求很高,新需求和新挑战主要包括海量的高质量训练数据集、高效的自动化数据工程和可信的全流程数据治理方法。多训练阶段需要准备多种数据类型需要大量的高质量人工标注数据需要过滤“隐私、偏见”等敏感信息面向模型的“数据治理”新体系需要实时的模型数据更新机制大模型的预训练一般包括自监督训练、
SFT、RLHF等步骤,针对每一步骤都要准备不同类型的训练数据,需统一管理大模型训练中的有监督微调和奖励模型训练都需要进行人工标注训练数据,人工标注成本高昂由于大模型通常作为生成模型使用,如果训练数据包含敏感信息,则模型的输出也会出现安全问题数据数量和质量要“双高”11目前主流大模型的训练token数量大(据推测GPT-4的训练文本数据量达到13万亿个Token),但数据质量参差不齐微调数据需”匹配“原始训练数据大模型的微调算法相对比较成熟,但如何衡量微调数据和原始训练数据的“匹配度”对提升最终模型的效果十分重要海量的高质量训练/评测数据集高效的自动化数据工程可信的全流程数据治理方法大模型对训练数据时间范围外的事情
“一概不知”,需要实时更新机制将新的训练数据快速迁移至大模型中由于训练数据量太大,导致测试数据集中的内容容在训练数据集中,从训练数据集中找到并删除这些数据并不容易大模型时代人工智能数据工程面临新需求数据驱动的人工智能发展高质量数据集建设现状和能力体系高质量数据集标准化进展实践探索12一、高质量数据集的现状和难点定义:用于训练、验证和优化大模型,经收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。领域:覆盖制造、金融、医疗、交通、公共安全、自然资源、地理信息、人力资源、社会治理、科学研究等重点行业的公域数据和私域数据,具备高技术含量、高知识密度、高价值应用的“三高”特征。基于数据应用维度分类通识类高质量数据集:具有广泛性和通用性,覆盖多个领域。行业通用类高质量数据集:针对特定行业或领域知识的数据集,专业性和针对性。行业专用类高质量数据集:根据行业企业自身业务场景和需求收集的数据集基于模型训练阶段分类预训练阶段:规模庞大且内容广泛。监督微调阶段:通过标注准确的输入输出对,引导模型优化特定任务处理能力。人类反馈的强化学习阶段:符合人类价值观和伦理规范的输出方式。行业领域适配阶段:使模型能够在专业领域发挥作用,满足行业特定需求。基于数据模态维度分类13文本数据集图片数据集音视频数据集全模态数据集其他类型数据集一、高质量数据集建设的现状和难点、
与三重挑战。人工智能高质量数据集建设常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,企业未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升。挑战1目标定位模糊14挑战2实施路径碎片化挑战3技术底座薄弱从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。现有数据处理技术难以应对复杂人工智能场景需求,多模态数据处理能力不足,制约模型迭代与应用规模化。同时,缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率受阻。面向大模型的数据工程核心旨在提升大模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,信通院牵头2024年立项《大模型数据集开发管理能力分级及评估方法》,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大能力域。二、面向人工智能的数据工程能力“五大核心要素”数据增强数据标注质量检查数据设计数据采集数据清洗数据运营“五大”核心要素人工智能数据工程项目管
理效率、团队协同能力以及技术应用标准化等问题。通过科学规划、精细执行与灵活调整,确保高质量数据集项目按时交付,成本可控。旨在围绕大模型数据技术、平台、应用、管理、安全等方面,制定数据服务标准和操作规范。人工智能数据集构建包括
数据设计、数据采集汇聚、数据预处理、数据标注、数据质检等共性关键技术和环节。一是共性人工智能数据工程技术工具,构建标准化底层能力。二是定制人工智能数据工程技术方案,面向应用的深度适配,涵盖预训练、指令微调、反馈对齐等,数据质量直接决定大模型
决策性能,需从评估准则、技术工具与流程管控三方面系统性突破。一是评估准则层面,需建立多维度的量化标准。
二是技术工具层面,需融合自动化与智能化手段。三是全流程监控层面,需贯穿数据生命。构建“资源管理、开放共享、流通交易”三位一体机制。一是资源管理层面,需建立覆盖数据全生命管理框架。二是开放共享层面,需考虑数据集和模型应用场景双重要素。三是流通交,符合现有交机制,鼓励模型数据生态合作。数据合规可信是大模型可信的基石,需从数据合规与数据可信双向发力,确保数据应用合法合规、清晰、质量可靠、效果可溯。一是数据合规以安全性、法律遵循和规范为核心,覆盖多重维度。二是数据可信围绕来源、治理、结果、效果构建质量闭环。体系建设开发维护质量控制资源运营合规可信15:企业构建人工智能高质量数据集体系,规划阶段需以资源知识索引、地图构建、标准体系搭建为核心,驱动数据集系统化规划和建设三、企业建设高质量数据集“三步走”战略1构建知识索引,围绕智能化需求构建知识索引框架结合行业特性,提炼核心知识节点,搭建层次化知识架构。知识索引匹配,可实现数据的知识化归类。知识索引为模型应用提供结构化路径,研发人
员可依托索引快速调用关联数据,加速模型训练迭代。2锚定智能场景,构建企业人工智能数据集资源地图深入拆解模型业务场景,明确场景对应的核心数据类型与质量要求,形成数据集设计方案。全面梳理数据资源,盘点数据目录清单,绘制资源地图,企业实现数据集的可视化呈现。316搭建标准体系,指导面向人工智能全质量数据集建设围绕标注服务、合成数据等生产活动,制定数据标注规范、合成数据质量标准,结合技术服务、流程管理要求。针对工具平台,统一数据清洗、标注、存储等技术工具开发标准,保障工具兼容性与。三、企业建设高质量数据集“三步走”战略:打造高质量数据集生产体系需从三大方向协同发力,数据工厂模式奠定规模化生产基础,前沿技术突破质量与场景限制,生态协作整合外部资源,共同构建起覆盖效率、质量、创新的高质量数据集生产体系。建立高效数据工厂模式,推动规模化生产模块化流程:为采集、清洗、标注、质检等模块化环节制定精细化规范自动化工具:重视自动化、智能化工具提升生产效能体系化标注平台:预设标签模板等,减少人工操作成本。1探索前沿技术路线,突破传统数据局限合成数据技术:模拟真实场景生成稀缺数据智能化标注技术:借助小样本学习、主动学习等AI算法,辅助人工标注COT标注:聚焦模型逻辑可解释性,采集记录数据推理过程的思维链信息构建生态协作机制,整合外部资源力量专业服务商:引入专业第三方数据标注服务商。评价和管理体系:构建科学的供应商评价和管理体系。生态创新:与高校、科研机构合作探索数据生产新技术。2
317三、企业建设高质量数据集“三步走”战略第三步:质量监测阶段:通过量化评估奠定技术基础,动态机制实现过程把控,持续优化闭环推动迭代升级,三者协同构建严密的数据质量保障体系。量化评估模型和工具,构建科学评估基准①针对数据生产各环节,设计精细化量化指标体系。②引入自动化评估工具,开发集成式质量检测平台。1动态评估机制,贯穿事前事中事后全流程2持续优化闭环,建立数据与模型的反馈联动318①事前规划,生产前明确质量标准与流程。②事中监控,实时监测系统,追踪标注进度、清洗效果。③事后复盘,对比质量目标与实际结果,分析偏差原因搭建反馈评价体系,将模型训练、应用结果反向传导至数据生产环节。形成“模型反馈—质量诊断—流程优化”的闭环。案例:面向智能交通场景的高质量数据集-中交建19案例:面向智能交通场景的高质量数据集-中交建20案例:面向智能交通场景的高质量数据集-中交建21数据驱动的人工智能发展高质量数据集建设现状和能力体系高质量数据集标准化进展实践探索22当前人工智能高质量数据集标准化工作主要面临定义界定模糊、格式规范不统一、建设路径不明确、质量评估方法不具针对性等核心问题。主要问题1:高质量数据集定义界定模糊核心概念界定不清,对“高质量”一词缺乏统一明确的定义标准;关联概念边界不明,与人工智能基础语料库的概念难以明确区分;行业属性界定困难,"行业数据"等专业术语因定义不一,致使各机构理解存在显著差异。主要问题2:高质量数据集格式规范不统一标注文件存储格式多样化,囊括了JSON、XML、CSV等结构化存储格式,以及TXT、TSV等非结构化存储格式;标注文件元数据格式多样化,元数据的命名方式缺乏统一、丰富程度参差不齐;数据集组织方式不一致,不同数据集在存储结构和目录组织存在显著区别。主要问题3:高质量数据集建设路径不明确建设路径不明确,高质量数据集建设路径不统一,导致建设质量不咱佳;数据工程和工具技术要求不明确,人工智能数据工程体系建设不完整,缺少全要素能力。主要问题4:质量评估方法规范不具针对性质量要求不清晰,人工智能数据集质量指标拆拆分不明确,缺乏科学、可落地的评价体系。质量评估不具针对性,质量指标聚焦传统大数据质量指标,缺少专属人工智能专属质量指标。23存在问题:人工智能高质量数据集标准化面临主要问题六大基本原则系统性原则人工智能数据集标准体系应是一个有机整体,各标准之间相互协调、相互补充,形成完整的标准链条。设计时需注重标准之间的逻辑关系,确保层次清晰、结构合理,避免重复和冲突。12
科学性原则体系编制需基于科学理论和实际需求,确保标准制定具有科学依据和合理性。设计时应研究人工智能高质量数据集的最新技术、发展某省市场需求,确保标准满足行业某省市场需求。3
实用性原则标准体系应具备可操作性和实用性,能够指导实际工作和应用。设计时需考虑实际应用场景和操作便利性,确保标准解和执行,并关注实施效果,持续优化和完善。前瞻性原则体系需具有前瞻性,能够预见和适应未来某省市场的发展变化。设计时应关注人工智能高质量数据集新兴技术、新产业和新业态的发展趋势,及时将相关内容纳入标准体系。4
开放性原则标准体系应保持开放性和包容性,吸纳和借鉴国内外先进经验和做法。设计时需积极与国内外相关组织、企业和专家交流合作,共同推动标准体系的完善和发展。5
兼容性原则体系需考虑与其他相关标准和规范的兼容性,确保互联互通和互操作性。设计时应关注国内外标准和规范的发展动态,确保标准体系与之协调衔接。624设计原则:人工智能数据集标准体系设计原则人工智能数据集标准体系设计需要遵循以下六大原则:系统性、科学性、实用性、开放性、兼容性、前瞻性等。25框架组成:人工智能高质量数据集标准体系框架设计面向人工智能模型全生命质量数据集标准体系核心目标:规范数据集全流程,形成优质高质量的数据产品和完备的AI数据集管理体系,更好服务于模型的开发与应用;框架设计:人工智能高质量数据集标准体系具体包括基础共性、关键技术、工具平台、质量控制、工程开发、产品服务、行业应用、安全伦理等八大部分;261234人工智能数据集标准体系的构建是推动产业规范化发展的核心环节,涵盖基础共性、关键技术、工具平台、质量控制、工程开发、产品服务、行业应用、合规可信等八大组成部分,为高质量数据集标准化提供系统性指导。基础共性标准规范人工智能数据集的通用术语、概念定义与体系架构,为后续标准制定提供统一基准和理论支撑,奠定标准化工作的基础框架。关键技术标准明确数据采集、处理、标注、质检及合成等核心技术环节的标准,确保数据集技术流程的规范性与有效性,提升数据质量与可用性。工具平台标准规范数据集构建、管理与共享的工具和平台的功能、性能及安全要求,推动相关工具平台的标准化发展,提升平台的兼容性与可靠性。质量控制标准制定关于数据集准确性、完整性、一致性与时效性的质量属性标准及控制方法,确保数据集满足实际应用场景的质量需求与应用标准。5工程开发标准规范数据集从需求分析、设计、开发到运维的全生命程化管理流程,提升开发效率、管理规范性与可持续运营能力。6产品服务标准规定基于数据集的产品功能、服务流程与质量保障机制,为数据集相关产品与服务的推广应用提供标准化某省市场认可基础。7场景应用标准制定数据集在不同重点领域的应用场景、技术要求与实施路径标准,满足各行业对数据集的个性化需求,推动跨行业深度融合应用。8合规可信标准规范数据集在收集、使用与共享过程中的合规向善性要求及可信保障机制,确保其应用符合法律法规、伦理规范,提升社会信任与数据安全水平。核心组成:人工智能高质量数据集标准体系八大组成部分27全国数标委:3项高质量数据集国家标准明确定义:已经过清洗、标注等数据处理,不涉及有关敏感信息,在格式、质量等方面符合相关要求,可直接用于开发和训练人工智能模型的数据集;明确边界:经过系统清洗和脱敏处理,符合预定的统一格式标准,针对各类AI应用领域;明确类型与质量要求:知识维度分为通识、行业通识、行业专识三类,根据知识类型制定差异化的质量要求。《高质量数据集分类分级要求》存储格式规范化:针对不同应用场景,设计通用的标注文件存储格式;元数据定义规范化:制定统一的元数据命名规则和必选项,对数据资源的基本属性进行规范化;文件结构规范化:研究制定数据集的目录结构、文件命名等标准规范,优化数据文件的组织方
式。《高质量数据集格式规范》明确分类要求:制定详细的类别确定规则,包括定量规则和定性规则,确保分类的客观性和可操作性,开发配套工具链;明确分级要求:基本要求指标和分级要求指标,为不同类型的数据集制定了差异化的指标权重;建立了分级评分体系,提供了详细的指标评分标准,确保评估的客观性和可操作性,开发配套工具链。《高质量数据集类型与质量要求》全国数标委高质量数据集国家标准情况28工业和信息化部成立人工智能标准化技术委员会为深入贯彻落实党中央、决策部署,工业和信息化部成立第一个标准化技术委员会—人工智能标准化技术委员会(MIIT/TC1),秘书处设在中国信息通信研究院,标志着人工智能行业标准化工作迈入新阶段。WG2数据组是工信部人工智能标准化技术委员会MIITTC1下设的8个工作组之一,主要负责人工智能高质量数据集相关标准研制,旨在规范人工智能系统研发、训练、测试、应用等过程中涉及的高质量数据集相关技术规范要求,具体涵盖数据标注、质量评估、开发管理、合成数据、数据工程、分级分类等核心方向。29重点标准:人工智能高质量数据集重点标准情况当前人工智能高质量数据集标准重点围绕数据标注、质量评估、合成数据、开发管理等数据工程全生命参编在研国家标准3项,在研行业标准7项(在研3项+已报批4项),新立项3项行业标准,新储备行业标准4项。人工智能高质量数据集系列标准评估体系序号状态标准名称标准组织1立项在研(3项)《高质量数据集分类分级要求》全国数标委(国家标准)2《高质量数据集格式规范》3《高质量数据集类型与质量要求》4已报批(4项)《面向人工智能的数据集质量通用评估方法总体要求》工信部AI标委会WG2数据组(行业标准)5《面向人工智能的数据生产和标注服务能力通用成熟度模型》6《人工智能合成数据生成和管理能力要求》7《大模型数据集开发管理能力分级及评估方法》8立项在研(3项)《人工智能关键基础技术数据工程技术和工具要求》9《人工智能关键基础技术数据质量与模型性能闭环反馈方法要求》10《人工智能关键基础技术全模态数据集分级分类方法》11储备标准(4项)《人工智能关键基础技术高质量数据集运营体系框架要求》12《人工智能关键基础技术高质量数据集价值评估成熟度模型》13《人工智能关键基础技术高质量数据集资产入表框架要求》14《人工智能关键基础技术人工智能数据融合智能体技术要求》301.数据驱动的人工智能发展高质量数据集建设现状和能力体系高质量数据集标准化进展实践探索中国信通院人工智能高质量数据集和数据标注总体布局全面支撑国家和地方顶层规划和工作部署研究和标准并行推动数据标注高质量发展支撑工信部、国家数据局、文旅部等部委研究高质量数据集建设路径和 政策制定。承接国家部委重点课题,国家数据局2项、文旅部1项。支撑国家数据局数据标注基地建设任务,承办首届数据标注产业大会暨 供需对接会(全国7个基地参加);支撑沈阳、保定、海口、呼和浩特、无锡等多个地方数据标注基地建设,落地保定人工智能数据处理和评测中心。首次发布《大模型数据资源地图》,梳理大模型训练数据来源和内容,打通数据要素和人工智能的链接;发布首个《人工智能数据标注产业图谱》,涵盖6大方向,560家企业;编制《数据标注产业发展研究报告2025》、《人工智能高质量数据集建设指南2025》;建立人工智能工程标准和评估体系,发布国内首个“人工智能数据集质量评估体系(ADAQ)”,已服务招商局、中国物流、中国建筑等头部某著名企业。31人工智能高质量数据集和数据标注支撑和规划部委支撑工作:国家数据局核心支撑单位,国家发展改革委、文旅部重要支撑单位研究支撑生态建设组建国家数据局人工智能数据专班,任组长单位。
推进行业高质量数据集建设路径研究(国家数据局局重点)、数据标注基地建设协同联动工作支撑(国家数据局局重点)、文旅行业高质量数据集建设研究(文旅部部重点)支撑承办国家级数据标注基地工作推进会(贵阳数博会)承办首届数据标注产业大会暨供需对接会
支撑沈阳、保定、海口、呼和浩特、无锡等多个地方数据标注基地建设,落地保定人工智能数据处理和评测中心。参会人员参会企业现场签约参会基地签约金额32中国信通院牵头发布系列高水平研究成果8月28日,在2025中国国际大数据产业博览会,在国家数据局指导下,《高质量数据集建设指引》和《数据标注产业发展研究报告(2025年)》和《数据标注产业人才岗位能力要求》等成果正式发布,中国信息通信研究院院长余晓辉和副院长魏亮分别做解读。同步,中国信息通信研究院(简称“中国信通院”)人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会发布和《人工智能高质量数据集建设指南》报告,对具体落地路径做出进一步阐述。33人工智能数据工程标准和评价体系开展人工智能数据集标准研究,搭建国内首个人工智能全据工程评估体系,并正式发布人工智能数据集质量评估体系ADAQ,形成优质高质量的数据产品和完备的AI数据集管理体系。人工智能数据工程评估体系(ADA)中国信通院“可信AI”人工智能高质量数据集评估项目(2025)评估方向评估项目数据集生产数据标注通用服务能力行业数据标注服务能力数据标注基地建设成熟度合成数据生成管理能力数据集质量文本/图像/音频/视频/多模态数据集通用数据集/行业数据集/场景数据集预训练数据集/微调数据集/评测数据集合成数据专项数据集工程大模型数据开发管理成熟度技术工具数据采集/数据清洗/数据增强/数据标注/数据质检等34人工智能数据集质量评估体系中国信通院建立了“可信AI”人工智能数据集质量评估体系(ADAQ,Artificial
intelligenceDatasets—Qualityevaluation),搭建“一套方法+一个平台+1套流程+N项服务”的质量评估能力,依托数据集质量评估标准体系、测试方法、指标体系、平台工具等方面开展标准化服务,构建数据质量评估生态。一套方法制定《面向人工智能的数据集质量通用评估方法总体要求》(行标)核心内容:为数据服务需求方提供数据集质量管理引导与选型支撑,为数据提供方提供衡量数据集质量管控能力水平的标准依据。包括数据集质量评估和质量管理两大组成部分。一个平台人工智能数据集质量评估工具平台平台组成:包括数据集质量标准管理、数据集存储与管理、数据集质量评估与分析、数据集质量可视化、大屏展示等核心功能模块。一套流程人工智能数据集质量测试标准化流程包括测试准备、测试执行和测试问题总结等三个核心环节,15个具体的测试流程。3536规范性形式准确性内容及时性生成—致性标签稠密性样本唯一性多样性特征均衡性类别相关性领域原创性来源可溯性来源完整性规模可访问性结构隐私安全领域采集概念内容信息量类型来源链路版本获取难易使用难易技术支持领域任务处理更新任务领域文化任务逻辑内容可用好用用于满足
用于加快
用于满模型功能性要求并且使得输出结果合规模型收敛,足模型用于保
用于确证模型
保模型逻辑推
应用效
的稳定理能力
果和准
性要求
确性模型泛化能力用于改善准确性用于提高模型预测确保模用于增强用于提高型生成结果不会偏向某一特定群体模型新颖模型信任过拟合风
问题诊断险
优化性和减少度,促进增强模型保证模型的泛化能力和行业专业业务能力训练效率和一级指标二级指标一套方法:建立评估指标和方法保障标准化实施标准编制进展情况《面向人工智能的数据集质量评估方法总体要求》行业标准已于2025年1月通过工信部科技司报批评审,预计
2025年上半年正式公示发布。国际标准:ISO
8000系列标准国家标准:《信息技术数据质量评价指标》(GB/T
36344-2018)研究编制《面向人工智能的数据集质量评估方法总体要求》行业标准,具体包括指标设计、指标定义、测试方法以及评估流程等核心内容。按照“可用+好用”的指标设计原则,具体包括12类一级指标和36类二级指标。人工智能数据集质量评估指标体系设计参考已有权威标准37一套方法:建立评估指标和方法保障标准化实施按照“规则检测+人工抽样+模型效果”的“三道关卡”融合方案展开人工智能高质量数据集评估平台的搭建工作,优化并实现评估指标的有效落地,破解当前评价体系实施难题,确保评估标准精准衔接实际工作。自动化检测
人工抽样模型效果几Ⓖ适用于所有指标数据集完整性客观指标自动化检测利用规则或分类器自动地检测数据质量,作为检测数据集质量的第一道关卡信息覆盖需要按照场景需求选择测试模型需要选择合适的模型性能评测指标模型验证主观指标人工抽样适用于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品技术研发守秘义务承诺书范文3篇
- 电力系统设备巡检与故障处理指南
- 心理调适自我成长指导手册
- 公共设施建设品质保证承诺书(7篇)
- 食品安全检测数据备份与恢复手册
- 智能办公设备维护保养七步操作指引手册
- 民族传统艺术保护承诺书(9篇)
- 网络运营管理与维护手册
- 客户服务流程优化手册客户体验提升版
- 质量稳步提升措施承诺书8篇范文
- 典必殊策划书0913-课件
- 京台济泰段高边坡专项施工方案京台高速公路济南至泰安段改扩建工程
- 皮肤性病学-第9版配套PPT 5 细菌性皮肤病和真菌性皮肤病
- 2021年5月四级江苏省人力资源管理师考试《理论知识》真题及答案
- 2023年上海药品审评核查中心招聘笔试模拟试题及答案解析
- YY/T 1293.4-2016接触性创面敷料第4部分:水胶体敷料
- 第9课《资产阶级革命与资本主义制度的确立》课件【知识精讲架构+备课精研精梳】 高中历史统编版(2019)必修中外历史纲要下册
- GB/T 32299-2015航天项目风险管理
- GB/T 28136-2011农药水不溶物测定方法
- GB/T 12770-2012机械结构用不锈钢焊接钢管
- 点集拓扑讲义
评论
0/150
提交评论