2025《高质量数据集建设指南》_第1页
2025《高质量数据集建设指南》_第2页
2025《高质量数据集建设指南》_第3页
2025《高质量数据集建设指南》_第4页
2025《高质量数据集建设指南》_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025《高质量数据集建设指南》第一章总则1.1制定目的为贯彻落实国家“数据要素×”三年行动计划(2024—2026年)要求,衔接《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》《可信数据空间发展行动计划(2024—2028年)》等政策部署,规范高质量数据集建设全流程,破解当前数据集建设中存在的质量参差不齐、标准不统一、应用适配性不足、数据孤岛等突出问题,明确建设原则、核心要求与实施路径,推动数据从“原始资源”向“高质量资产”转化,筑牢人工智能与数字经济发展的数据根基,赋能千行百业数字化转型与创新发展,特制定本指南。本指南由全国数据标准化技术委员会组织研制,立足2025年数据产业发展新形势,整合产学研用多方实践经验,为各类主体开展高质量数据集建设提供标准化、可操作的指引,助力构建“数据+模型”协同发展的良好生态,推动数据要素乘数效应充分释放。1.2适用范围本指南适用于各类数据集建设主体,包括政府部门、企事业单位、科研机构、社会组织等,覆盖数据采集、清洗、标注、整合、存储、质量管控、安全保障、应用适配、运营维护等全流程,适用于人工智能、低空经济、交通物流、金融信息、公共安全、医疗教育、工业制造、卫星遥感等各类重点领域的高质量数据集建设,涵盖结构化、半结构化、非结构化等各类数据形态的数据集开发与管理。本指南作为高质量数据集系列技术文件的核心组成部分,与《高质量数据集格式要求》《高质量数据集分类指南》等文件协同配套实施,共同构成高质量数据集建设标准体系。1.3核心定义高质量数据集:指经过规范采集、加工处理、质量校验,具备主题明确、质量达标、即用性强、安全合规等特征,可直接用于人工智能模型训练、科研创新、产业应用、政务服务等场景,能有效提升应用效能的数据集合,是原始数据经过“炼化”后的“高标号汽油”,为人工智能发展提供核心支撑,其建设需符合国家、行业相关标准规范。数据集建设:指围绕特定应用目标,开展数据采集、清洗、标注、整合、存储、质量评估、安全加固、应用适配及运营维护等一系列系统性工作,实现数据价值从“潜在”向“现实”转化的过程,涵盖从数据获取到价值释放的全生命周期。数据质量:指数据满足应用需求的程度,核心包括准确性、完整性、一致性、时效性、规范性、安全性六大维度,是衡量数据集“高质量”的核心标尺,各维度需符合明确的量化标准与评估规范。1.4建设原则合规性原则:严格遵循《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规,坚守数据安全底线,规范数据采集、使用、流转等环节,杜绝非法采集、滥用数据,保障数据主体合法权益,确保数据集建设全流程合规可控。质量优先原则:以数据质量为核心,将质量管控贯穿数据集建设全生命周期,建立全环节质量校验机制,采用智能化工具提升质量管控效能,确保数据准确、完整、一致、可用,避免“垃圾数据”产生,提升数据集应用价值。需求导向原则:围绕具体应用场景(如AI模型训练、政务服务、产业升级、科研创新等),紧扣“数据要素×”三年行动计划明确的12个重点行业领域需求,明确数据集建设目标与内容,确保数据集与应用需求精准适配,提升数据集的即用性与实用性,避免盲目建设。标准化原则:遵循国家、行业相关数据标准,统一数据格式、编码规范、标注规则、质量评估指标,衔接高质量数据集系列技术文件要求,推动数据集互联互通、共享复用,打破数据孤岛,构建标准化、规范化的建设体系。协同共建原则:鼓励政府、企业、科研机构、高校等多方协同,发挥各自资源优势,推动数据共享、技术共建、人才共育,形成“产学研用”一体化建设格局,借鉴典型实践经验,降低建设成本,提升建设效率与质量。可持续原则:兼顾数据集的短期应用与长期发展,建立常态化运营维护机制,定期更新数据内容、优化质量管控、适配应用场景变化,确保数据集持续满足应用需求,实现数据价值长效释放,推动数据集从“一次性建设”向“持续性运营”转变。第二章数据集建设全流程要求2.1需求分析与规划数据集建设前,需开展全面的需求分析,明确建设目标、应用场景、数据范围、质量要求、建设周期及资源投入,制定详细的建设方案,避免盲目建设,确保建设工作与政策要求、应用需求同频同步。需求调研:梳理应用场景的核心需求,明确数据集的用途(如AI模型训练、数据分析、政务决策、产业赋能等),结合“数据要素×”重点行业领域要求,确定数据类型、数据规模、精度要求、更新频率等关键指标,结合行业痛点制定针对性建设规划,例如工业领域需重点关注设备全生命周期数据的完整性,医疗领域需注重数据的专业性与隐私保护,能源领域需聚焦发电场景多元数据的整合与应用。方案制定:结合需求调研结果,制定数据集建设实施方案,明确各环节责任主体、工作流程、时间节点、质量标准及资源保障(人力、技术、资金),重点规划数据采集范围、加工处理流程、质量管控措施及安全保障方案,对于稀缺性强、专业性高的数据,需制定专项采集与处理计划,可借鉴国家能源集团等企业的全流程建设方法论。可行性论证:组织行业专家、技术人员对建设方案进行可行性论证,重点评估数据来源的合法性、技术方案的可行性、质量目标的可达性及应用价值,针对数据稀缺、专业度不足、泛化性不够等潜在问题,优化建设方案,确保建设工作有序推进,符合高质量数据集系列技术文件要求。2.2数据采集数据采集是数据集建设的基础,需遵循“合法、全面、精准、高效”的原则,确保采集的数据来源合规、内容完整、符合需求,同时兼顾采集效率与成本控制,为后续数据加工处理奠定坚实基础。采集范围:根据建设方案,明确采集数据的种类、来源、覆盖范围,涵盖核心业务数据、补充数据等,确保数据覆盖应用场景的全部需求,例如AI模型训练数据集需涵盖多样化场景样本,提升模型泛化能力;政务数据集需覆盖相关业务全流程数据,保障决策科学性;能源领域数据集需系统梳理多源异构数据,覆盖文本、图像、视频等多种类型。采集方式:结合数据类型选择合适的采集方式,包括接口采集、爬虫采集、人工录入、传感器采集、第三方数据采购等,优先采用自动化采集方式,提升采集效率,减少人工误差;对于焊缝缺陷、医疗影像、发电设备运行数据等专业性强、稀缺性高的数据,可采用“人工采集+AI辅助”的方式,融合文档解析、自动生成和数据增强等智能工具,提升采集质量与效率。合法性要求:采集数据前,需获得数据主体的授权同意(涉及个人信息、商业秘密的),明确数据采集的目的、范围及使用方式,严禁非法采集、窃取、泄露数据;从第三方采购数据的,需签订合法有效的采购合同,明确数据权利归属、使用范围及责任划分,确保数据来源可追溯,符合数据安全相关法律法规要求。采集记录:建立数据采集台账,详细记录采集时间、采集方式、数据来源、采集人员、数据数量及质量初步校验结果,确保采集过程可追溯,便于后续质量核查与问题追溯,为全流程质量管控提供基础依据。2.3数据加工处理数据加工处理是提升数据质量、增强数据可用性的核心环节,需对采集的原始数据进行清洗、标注、整合、转换等处理,形成标准化、规范化的数据集,满足应用场景需求,推动数据从“原始资源”向“可用资产”转化。数据清洗:针对原始数据中存在的缺失值、异常值、重复值、错误值等问题,采用删除、修正、补充、插值等方式进行处理,确保数据准确、完整;对于非结构化数据(如文本、图像、音频、视频),需进行格式标准化处理,去除无效信息,提升数据规范性,例如卫星遥感影像需进行去噪、校准处理,发电设备运行数据需进行异常值剔除,确保标注精度达标。数据标注:针对AI模型训练等场景,需对数据进行标注(如分类标注、边界框标注、语义标注、情感标注等),制定统一的标注规则,明确标注标准与流程,采用“AI辅助标注+人工精修”的方式,建立协同标注机制,提升标注效率与精度,确保标注结果一致、准确;标注完成后,需进行标注质量校验,不合格标注需重新处理,标注精度需满足应用场景要求(如部分场景标注精度需达到95%以上)。数据整合:将来自不同来源、不同格式的数据进行整合,统一数据格式、编码规范、命名规则,建立数据关联关系,消除数据冗余,形成结构化、一体化的数据集;对于跨部门、跨领域的数据整合,需打破数据孤岛,建立数据共享机制,确保数据协同可用,例如工业领域需整合生产、服务、研发等多部门数据,构建设备全生命周期数据集;能源领域需整合发电全流程数据,支撑大模型训练与设备智能诊断。数据转换:根据应用需求,将数据转换为合适的格式(如CSV、JSON、XML等),确保数据可被后续应用系统、AI模型正常读取与使用;对于超大容量数据集,可进行数据压缩处理,在不影响数据质量的前提下,提升数据存储与传输效率,适配分布式存储、云存储等不同存储场景需求。2.4数据存储数据存储需兼顾安全性、可靠性、可扩展性与访问效率,根据数据集的规模、类型、访问频率等,选择合适的存储方案,结合“东数西算”工程部署要求,优化存储资源配置,确保数据长期安全存储与高效访问。存储方案选择:根据数据规模与类型,选择分布式存储、云存储、本地存储等合适的存储方式;对于海量非结构化数据(如视频、图像),优先选择分布式存储或云存储,提升存储扩展性与访问效率;对于敏感数据(如个人信息、商业秘密、政务秘密),可采用本地存储与加密存储相结合的方式,增强数据安全性;同时需考虑存储成本,结合“东数西算”工程要求,优化存储资源布局,实现存储资源高效利用。存储管理:建立数据存储管理制度,明确存储权限、访问规则、备份策略,定期对存储设备进行维护与检查,确保数据存储安全、可靠;建立数据备份机制,采用本地备份与异地备份相结合的方式,定期进行数据备份,防止数据丢失、损坏,备份数据需定期校验,确保可恢复,保障数据集持续可用。数据归档:对于长期不使用但需保留的数据,进行归档处理,明确归档规则与存储期限,采用低成本、高可靠性的归档存储方式,确保数据可追溯、可查询,同时释放活跃存储资源,提升存储效率,实现数据生命周期精细化管理。2.5质量管控质量管控贯穿数据集建设全流程,需建立“事前预防、事中控制、事后校验”的全流程质量管控机制,明确质量评估指标,定期开展质量检测与优化,确保数据集质量达标,符合高质量数据集建设标准。质量评估指标:明确数据质量的核心评估指标,包括准确性(数据无错误、无偏差)、完整性(无缺失值、覆盖全面)、一致性(数据格式、编码、命名统一)、时效性(数据及时更新,满足应用需求)、规范性(符合国家、行业数据标准及本指南要求)、安全性(数据不泄露、不被篡改),各指标需制定明确的量化标准,确保可检测、可评估,例如数据准确性需达到99%以上,完整性需达到95%以上,具体量化标准可结合应用场景灵活调整。全流程质量控制:在数据采集环节,进行初步质量校验,剔除明显错误数据;在数据加工处理环节,每完成一个步骤,进行质量检查,及时发现并修正问题;在数据存储环节,定期检查数据完整性与安全性,防止数据损坏、篡改;在数据集交付前,进行全面质量检测,确保各项质量指标达标,形成质量检测报告,作为验收的重要依据。质量问题处理:建立质量问题台账,对检测发现的质量问题,明确整改责任主体、整改措施及整改期限,整改完成后进行复核,确保质量问题闭环处理;定期对质量问题进行分析总结,查找问题根源,优化建设流程,预防同类问题再次发生,例如针对数据缺失问题,优化采集流程,增加补充采集环节;针对标注误差问题,完善标注规则与校验机制。2.6安全保障安全保障是高质量数据集建设的重要前提,需建立全方位、多层次的安全保障体系,防范数据泄露、篡改、滥用等安全风险,确保数据安全与合规,坚守数据安全底线,保障数据主体合法权益。数据安全防护:采用加密技术(如数据传输加密、存储加密),对敏感数据进行加密处理,防止数据泄露;建立访问控制机制,明确不同角色的访问权限,实行最小权限原则,严禁未授权访问;部署安全防护设备(如防火墙、入侵检测系统),防范网络攻击、数据篡改等安全风险,构建全方位的安全防护屏障。个人信息保护:针对包含个人信息的数据集,严格遵循个人信息保护相关法律法规,采用数据脱敏、匿名化处理等方式,去除个人身份标识信息,确保个人信息不被泄露、滥用;明确个人信息处理规则,规范个人信息的采集、使用、存储、删除等环节,保障数据主体的知情权、决定权,确保个人信息处理合规。安全审计与应急处置:建立数据安全审计机制,定期对数据采集、使用、流转、存储等环节进行审计,记录安全日志,及时发现并防范安全风险;制定数据安全应急预案,针对数据泄露、篡改、丢失等突发事件,明确应急处置流程、责任分工及应对措施,确保快速响应、有效处置,降低安全损失,定期开展应急演练,提升应急处置能力。2.7应用适配与优化高质量数据集建设的核心目标是服务应用,需结合具体应用场景,紧扣“数据要素×”三年行动计划要求,对数据集进行适配优化,提升数据集的应用效能,推动数据价值转化,发挥数据要素乘数效应。应用适配:根据应用场景的需求,对数据集进行针对性优化,例如AI模型训练数据集,需根据模型类型、训练目标,调整数据规模、标注精度、数据分布,提升模型训练效果;政务服务数据集,需优化数据格式与关联关系,提升政务办理效率;产业应用数据集,需结合行业特点,补充行业特色数据,增强应用适配性,例如金融领域数据集需强化风险相关数据的完整性,提升风险预警能力;能源领域数据集需适配发电大模型训练,支撑设备智能诊断、电力交易优化等场景。效果评估:数据集交付应用后,定期开展应用效果评估,收集应用反馈,分析数据集在应用过程中存在的问题(如数据质量不达标、数据与应用需求不匹配等),形成评估报告,明确优化方向,为数据集迭代优化提供依据。迭代优化:根据应用效果评估结果,对数据集进行迭代优化,包括数据更新、质量提升、结构调整等,持续提升数据集的应用价值;同时跟踪应用场景变化,及时调整数据集建设方案,确保数据集始终满足应用需求,例如随着AI模型的升级,同步优化训练数据集的规模与质量;随着产业升级,补充行业新增数据,适配新的应用场景。2.8运营维护建立常态化运营维护机制,确保数据集持续稳定可用,实现数据价值长效释放,推动数据集从“一次性建设”向“持续性运营”转变,支撑数据要素长期赋能经济社会发展。数据更新:根据应用需求与数据变化,制定数据更新计划,明确更新频率、更新范围及更新流程,及时补充新数据、删除无效数据、修正错误数据,确保数据集的时效性,例如交通物流数据集需实时更新路况数据,医疗数据集需定期更新诊疗数据,能源数据集需同步更新发电设备运行数据;对于长期运营的数据集,需建立数据生命周期管理机制,优化数据更新策略,实现数据动态更新。日常维护:定期对数据集进行质量检查、安全检查、存储设备维护,及时发现并处理数据质量问题、安全风险及设备故障,确保数据集正常访问与使用;建立运营维护台账,详细记录维护情况、问题处理结果等,实现维护过程可追溯,借鉴国家能源集团全生命周期管理经验,提升运营维护规范化水平。版本管理:对数据集的迭代优化进行版本管理,明确各版本的更新内容、更新时间、适用场景,保留历史版本,便于数据追溯与回滚,确保数据集的稳定性与连续性;同时建立版本发布机制,规范版本更新流程,避免版本混乱,确保各应用场景使用适配的数据集版本。第三章重点领域数据集建设指引3.1人工智能领域聚焦AI模型训练与推理需求,建设高质量、多样化的训练数据集与测试数据集,重点关注数据的多样性、标注精度与泛化能力,覆盖多模态(文本、图像、音频、视频)数据,适配大模型、专用模型等各类AI模型的训练需求,推动AI模型性能提升。重点建设多语种大模型预训练数据集、计算机视觉训练数据集、语音识别数据集等,强化数据标注质量管控,采用AI辅助标注技术提升标注效率,建立协同标注机制,同时注重数据的安全性与合规性,避免侵权风险,助力国产AI模型跻身国际第一梯队,支撑人工智能产业高质量发展。3.2政务服务领域围绕政务决策、政务办理、公共服务等需求,整合各部门政务数据,建设标准化、一体化的政务数据集,重点覆盖人口、法人、自然资源、社会信用、政务服务等核心数据,打破部门数据孤岛,推动政务数据共享复用,提升政务服务效率与决策科学性。注重数据合规性与安全性,严格保护个人信息与政务秘密,建立政务数据共享机制,优化数据整合流程,例如整合12345热线数据,提升政务服务响应效率,为政务决策提供数据支撑;衔接全国一体化政务服务平台,推动政务数据集互联互通,助力“一网通办”提质增效,践行“有为政府”理念。3.3工业制造领域聚焦智能制造、设备运维、质量管控等需求,建设工业高质量数据集,重点覆盖生产设备数据、生产工艺数据、质量检测数据、供应链数据等,构建设备全生命周期数据集,助力工业企业实现数字化、智能化转型。注重数据的实时性与准确性,采用传感器等自动化采集方式,提升数据采集效率;针对焊缝缺陷、设备故障等稀缺数据,制定专项采集与处理计划,解决数据稀缺、泛化性不足等问题,推动工业互联网与人工智能深度融合,降低生产成本,提升产品质量,例如构建工程机械核心部件全生命周期数据集,实现设备健康预警与精准运维;借鉴工业领域典型实践,推动数据集与生产流程深度融合,发挥数据要素赋能作用。3.4医疗健康领域围绕临床诊疗、医学研究、健康管理等需求,建设医疗健康高质量数据集,重点覆盖电子病历、医学影像、检验检测、药物研发等数据,注重数据的专业性与隐私保护,采用数据脱敏、匿名化处理等方式,规范数据采集与使用流程。推动医疗数据共享,助力AI辅助诊断、医学研究等应用落地,提升医疗服务质量与效率,例如建设医疗影像标注数据集,为AI辅助诊断模型提供支撑,同时保障患者隐私安全;衔接“数据要素×”医疗健康领域部署要求,推动医疗健康数据集标准化建设,助力医疗健康产业数字化转型。3.5交通物流领域聚焦智慧交通、物流优化等需求,建设交通物流高质量数据集,重点覆盖路况数据、车辆数据、物流信息数据、港口数据等,整合交通监管、物流企业、港口码头等多方数据,提升交通物流效率,降低物流成本。注重数据的实时性与完整性,采用高清摄像头、传感器等设备实现数据实时采集,构建全出行工具覆盖的交通数据集,助力智慧交通管理与物流协同优化,例如建设交通监管数据集,实现交通违法行为精准识别与预警,为市民出行织密安全防护网;衔接“东数西算”工程与智慧交通建设要求,优化数据存储与应用适配,推动交通物流领域数据要素价值释放。3.6能源领域聚焦发电设备智能运维、电力交易优化、新能源开发等需求,建设能源高质量数据集,重点覆盖发电设备运行数据、气象数据、电力交易数据、新能源功率数据等,整合能源生产、传输、消费全流程数据,构建设备全生命周期与能源全链条数据集。采用“人工采集+AI辅助”的方式,补充稀缺故障数据,运用智能工具提升数据加工处理效率;注重数据实时性与准确性,支撑能源大模型训练,实现风速预测、防汛预警、燃煤采购方案优化等场景应用,提升能源利用效率与安全生产水平,借鉴国家能源集团实践经验,提炼可复制、可推广的建设方法论。第四章质量评估与验收4.1评估主体与流程数据集建设完成后,由建设主体组织开展质量评估,可邀请行业专家、第三方机构参与评估,确保评估结果客观、公正,评估过程需符合全国数据标准化技术委员会相关要求。评估流程包括评估准备(明确评估指标、制定评估方案)、数据检测(对数据集质量进行全面检测)、结果分析(对比评估指标,分析数据质量情况)、形成评估报告(总结评估结果、提出优化建议)四个环节,评估过程需全程记录,确保可追溯,评估报告作为验收的核心依据。4.2评估指标体系结合数据集类型与应用场景,建立差异化的质量评估指标体系,核心指标包括:准确性:数据无错误、无偏差,与实际情况一致,量化指标可根据场景设定(如≥99%);完整性:数据无缺失值、覆盖全面,核心数据无遗漏,量化指标可根据场景设定(如≥95%);一致性:数据格式、编码、命名统一,无矛盾数据,量化指标可根据场景设定(如≥98%);时效性:数据更新及时,满足应用场景的时间要求,根据应用需求设定更新频率;规范性:符合国家、行业数据标准及本指南要求,数据格式、标注规则等规范统一,衔接高质量数据集系列技术文件;安全性:数据无泄露、无篡改,安全防护措施到位,符合数据安全相关法律法规;可用性:数据可被应用系统、AI模型正常读取与使用,适配应用需求,应用效果良好,能够支撑数据要素价值释放。4.3验收标准与流程数据集质量评估合格后,开展验收工作,验收标准需结合建设方案、质量评估指标及应用需求制定,明确验收合格条件,符合高质量数据集建设相关标准。验收流程包括验收申请(建设主体提交验收申请及相关资料)、资料审核(审核建设资料、质量评估报告等)、现场核查(对数据集质量、存储安全、应用适配性等进行现场核查)、验收结论(形成验收合格或不合格结论)四个环节。验收合格的,方可交付应用;验收不合格的,建设主体需根据验收意见进行整改,整改完成后重新申请验收,直至验收合格,验收过程需全程留痕,确保可追溯。第五章保障措施5.1组织保障建设主体需成立数据集建设专项工作组,明确责任分工,配备专业的技术人员、管理人员,负责数据集建设全流程工作;鼓励成立产学研协同机制,联合高校、科研机构、企业等,开展技术研发、人才培养、实践应用等合作,提升数据集建设质量与水平;政府部门需加强统筹协调,推动跨部门、跨领域数据共享与协同建设,出台相关政策引导各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论