高质量数据集 东盟国家语料 建设规范编制说明_第1页
高质量数据集 东盟国家语料 建设规范编制说明_第2页
高质量数据集 东盟国家语料 建设规范编制说明_第3页
高质量数据集 东盟国家语料 建设规范编制说明_第4页
高质量数据集 东盟国家语料 建设规范编制说明_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

——团体标准《高质量数据集东盟国家语料质量评测规范》编制说明(征求意见稿)工作简介(一)任务来源本标准是由广西物品编码与标准化促进会《广西物品编码与标准化促进会关于下达2025年第二十四批(共2项)团体标准制修订项目计划的通知》(桂标促〔2025〕110号)下达的项目,项目编号:2025-82。(二)起草单位、主要起草人(姓名、单位、职务/职称、参与编制标准分工情况)等本文件由中国—东盟信息港有限公司提出,并与广西壮族自治区标准技术研究院、阿里云计算有限公司、北京邮电大学、广西民族大学、北京智源研究院、上海人工智能实验室、联通数据智能有限公司、中移九天人工智能科技公司、中兴通讯股份有限公司、浪潮云信息技术股份公司、北京面壁智能科技有限责任公司、北京海天瑞声科技股份有限公司、数据堂(北京)科技股份有限公司、北京晴数智慧科技有限公司、广西达译科技有限公司、科大讯飞股份有限公司、整数智能信息技术(杭州)有限责任公司、安徽飞数信息科技有限公司、央视国际网络有限公司、三六零科技集团有限公司、杭州君同未来科技有限公司、广西大学共同起草。主要起草人见表1。表1姓名单位职称/职务参与编制标准分工情况中国—东盟信息港股份有限公司施显俊广西壮族自治区标准技术研究院杨梦颖广西壮族自治区标准技术研究院孟凡胜阿里云计算有限公司陈扬阿里云计算有限公司喻鹏北京邮电大学曲昭伟北京邮电大学王晓茹北京邮电大学覃秀红广西民族大学北京智源研究院上海人工智能创新中心王宁联通数据智能有限公司中移九天人工智能科技公司中兴通讯股份有限公司浪潮云信息技术股份公司王斌峰北京面壁智能科技有限责任公司梁轶晓北京面壁智能科技有限责任公司杨明北京海天瑞声科技股份有限公司彭颖岚数据堂(北京)科技股份有限公司陈德毅数据堂(北京)科技股份有限公司北京晴数智慧科技有限公司温家凯广西达译科技有限公司邓姿娴广西达译科技有限公司李雨泓广西达译科技有限公司胡明婷科大讯飞股份有限公司张云畅科大讯飞股份有限公司潘剑宜整数智能信息技术(杭州)有限责任公司阮志伟安徽飞数信息科技有限公司林伟家三六零科技集团有限公司贾守盛三六零科技集团有限公司索佳慧杭州君同未来科技有限责任公司李成龙杭州君同未来科技有限责任公司李志学央视国际网络有限公司黄建杰央视国际网络有限公司广西大学标准编制过程(一)成立编制工作组本项目任务下达后,为确保标准编制工作的顺利开展,负责人及时制定标准编制工作方案、部署工作任务、确定标准起草工作时间、内容框架等,全面有序开展该标准的编制工作,并成立编制工作组,进行任务分工。(二)调查研究和试验论证本标准各项技术指标确定的依据,主要为高质量东盟语料库的建设提供统一、客观的“标尺”,并吸收了各起草单位在东盟国家语料库建设、人工智能开发与应用、大数据应用研究等方面的实践经验。同时,参考了近年来关于语料库建设、高质量数据集、语料质量测试等公开发表的学术成果,以及国内已有的高质量数据集、信息技术安全等相关技术标准与规范。(三)形成工作组讨论稿(2025年10月—2025年11月)在对所收集的资料进行全面梳理与深入研究的基础上,编制工作组围绕标准的整体架构展开了系统论证,并就标准的核心条款、关键技术指标及实施路径等关键内容组织了多轮初步研讨,形成了工作组讨论稿。(四)征求意见(2025年11月—2025年12月)项目组组织了多轮内部讨论会,以专家学者、业务骨干座谈会以及企业调研等形式进行深入调研和讨论,对标准文本进行修改完善,处理内部意见40余条,形成《高质量数据集东盟国家语料质量评测规范》团体标准征求意见稿及编制说明。标准编制原则(一)规范性原则标准的编写格式按GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规定进行编写。(二)一致性原则本标准符合法律、行政法规的要求,并具有先进性,各项指标不低于国家强制性标准、推荐性国家标准和行业标准。(三)可操作性原则深入调研,通过充分听取各起草单位意见,确保标准可以作为评测东盟国家语料质量的依据,在实际应用上有效、可行。主要内容(如技术指标、参数、公式、性能要求、试验方法、检验规则)的论据《高质量数据集东盟国家语料库质量评测规范》分为7个章节:范围、规范性引用文件、术语和定义、缩略语、评测框架、指标要求、评测细则。(一)范围本文件规范了东盟国家语料库的质量评测,明确了评测框架、评测指标和评测细则。本文件可为组织机构开展东盟国家语料库质量评测工作提供指导。(二)规范性引用文件本文件没有规范性引用文件。(三)术语和定义本文件界定了脏数据、采样率、位深、标签等术语和定义。(四)缩略语本章节给出了缩略语ASR、K12、RLHF、SFT、TTS。评测框架本章节明确了评测对象与评测指标。指标要求本章节明确了语料库质量评测指标体系的内容,包括:说明文档完整性、语料质量。并逐一说明各指标的具体要求。为语料库质量评测提供依据。(七)评测细则本章节明确了各项质量评测指标的评分细则,使各种指标可量化评分,为高质量东盟国家语料库的建设提供统一、客观的“标尺”。与原标准或其他标准的主要差异和水平对比无。解决的主要问题本项目将东盟国家语料库评测工作转变为一项可管理、可度量、可复现的标准化流程,旨在系统构建东盟多语种语料质量评测的统一技术框架,为高质量东盟国家语料库的建设提供统一、客观的“标尺”。一方面,它可以提高东盟国家语料库的质量,从而确保模型性能与可靠性并训练出更精准、可靠、泛化能力强的多语言大模型、翻译系统和对话AI;一方面实现高效模型迭代与诊断,当模型表现不佳时,规范的测评报告能精准定位数据缺陷(如“多样性不足,缺乏某领域语料”),避免研发资源浪费在错误的方向上,显著提升开发效率;另一方面可以保证技术应用的安全性与公平,通过规范识别并修正语料中的社会偏见、文化误读和敏感有害信息,从源头降低AI系统的歧视性输出和安全风险,构建可信人工智能。主要试验(或验证)情况分析无。标准中涉及的专利情况无。产业化情况无。采用国际标准和国外先进标准情况无。与相关国家标准、行业标准及其他标准,特别是强制性标准的协调性经查询,截至目前,国内外暂无直接与“东盟国家语料质量评测”相关的国家标准、行业标准、地方标准和团体标准。本文件制定的内容符合国家相关法律法规和政策的规定。符合市场需求和创新需求的情况说明《高质量数据集东盟国家语料质量评测规范》旨在解决东盟多语言语料质量评测“无标可依”的痛点,其技术内容与创新点紧密围绕东盟语言的多样性、复杂性和低资源特性展开,致力于建立一套科学、可操作、可扩展的质量保障体系。这套规范的建立,将为建设高质量的中国—东盟多语言语料库,并最终打造领先的跨语言AI能力,提供不可或缺的坚实支撑。重大分歧意见的处理经过和依据无。贯彻标准的要求和措施建议(包括组织措施、技术措施、过渡办法等)(一)成立贯宣工作组成立标准宣贯工作组负责本标准相关解读、培训资料、考核资料,完善标准内容,以及推行、评估、提炼和协助改善和提升标准的工作。(二)召开标准贯宣发布会通过线下、线上渠道召开标准贯宣发布会,提前通知与标准内容相关部门、企业人员参会,由标准贯宣工作组及专业人员解读标准内容,并通过示例对标准要求进行示范;邀请媒体对发布会进行线上线下宣传报道,扩大宣贯会影响力;会后将标准解读信息发布于中心门户网站,供标准实施的工作人员及时了解和学习。(三)开展标准宣贯培训邀请标准起草专家对标准各部分内容进行讲解,将理论阐述、方法与实际相结合,做到深入浅出,促进标准的理解与实施。(四)标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论