版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Q/LB.□XXXXX-XXXX目次TOC\o"1-1"\h\t"标准文件_一级条标题,2,标准文件_附录一级条标题,2,"前言 II1范围 12规范性引用文件 13术语和定义 14缩略语 15建设规划 15.1需求分析 15.2总体规划 25.3语料类型 25.4语料格式 36语料采集 36.1采集方式 36.2采集流程 37语料预处理 38语料标注 59语料质检 79.1质检方法 79.2流程 7前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件由中国—东盟信息港股份有限公司提出。本文件由广西物品编码与标准化促进会归口。本文件起草单位:本文件主要起草人:高质量数据集东盟国家语料建设规范范围本文件提供了高质量数据集东盟国家语料建设全生命周期的指导和建议,规定了建设规划、语料采集、语料预处理、语料标注和语料质检等内容。本文件适用于高质量数据集东盟国家语料的建设工作。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T3527—2020信息安全技术个人信息安全规范GB/T36344—2018信息技术数据质量评价指标GB/T42755人工智能面向机器学习的数据标注规程术语和定义GB/T42755界定的以及下列术语和定义适用于本文件。
语料corpus指在语言的实际使用中真实出现过的语言材料,用于训练人工智能模型的数据集。
数据标注datalabeling给数据样本指定目标变量和赋值的过程。[来源:GB/T42755-2023,3 .1]
监督微调supervisedfine-tuning监督微调是训练大语言模型的关键阶段。通过使用高质量的、人工标注的指令-回答对数据集对模型进行有监督的微调。
基于人类反馈的强化学习reinforcementlearningfromhumanfeedback通过人类对模型不同输出的偏好进行标注,训练一个奖励模型,或者建立奖励规则,然后利用强化学习算法根据这个奖励模型、奖励规则来训练SFT后的模型。缩略语下列缩略语适用于本文件。ASR:自动语音识别(AutomaticSpeechRecognition)K12:从幼儿园到十二年级的教育(Kindergartenthroughtwelfthgrade)RLHF:基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback)SFT:监督微调(SupervisedFine-Tuning)TTS:文本转语音(Text-To-Speech)建设规划需求分析需求分析是语料库建设的首要环节,根据人工智能训练的目标,明确语料的范围、内容、质量、格式等方面的要求。该阶段包括但不限于:明确人工智能训练的预期目标,结合应用场景与目标区域,确定需要语料的范围、内容和质量等;根据人工智能训练预期的需求,核对语料数据是否可获取且可使用;构建一个具有相关数据质量特性的数据质量模型,GB/T36344定义了数据质量特性。总体规划语料库的建设规划阶段主要确保语料资源满足需求分析所确立的目标与规格,并为实现人工智能应用提供数据支撑。该阶段包括但不限于:界定语料库的整体数据构成,包括但不限于:语料类型,定义了语料信息的形态;来源分布,定义了语料采集渠道和构成比例;领域覆盖,定义了语料涉及的专业范畴;语料规模,定义了语料的数据总量;元数据说明,定义了语料属性的数据。制定涵盖语料采集、清洗、预处理、标注与校验的详细工作计划,明确各阶段的任务目标;预计工作体量,预估完成制定计划的工作量,包括数据重组、传输或收集的时间。语料类型划分准则语料类型的划分准则包括但不限于:模态类型,;语言种类;标注和处理程度;时间维度。语言种类根据语料中包含的语言种类进行划分,语料类型如下:单语语料,语料中仅包含一种语言;平行语料,语料中包含两种或多种语言的文本,它们互为翻译关系;可比语料,语料中包含不同语言的文本,内容主题相似,但不互为翻译关系;跨语言语料,语料中包含不同语言的文本,它们不互为翻译关系。模态类型根据模态划分,语料类型如下:文本语料,语料中信息载体为文字符号的语料;音频语料,语料中信息载体为声音信号的语料,通常包括原始音频数据及其对应的文本转写稿;图像语料,语料中信息载体为静态像素的语料;视频语料,语料中信息载体为动态图像序列的语料;多模态语料,同时包含两种或两种以上模态的信息。标注和处理程度生语料生语料又称粗语料,未经任何加工处理的原始文本或音频数据。常用于无监督学习、语言统计、词频分析等。熟语料在生语料的基础上,增加了各种语言学或应用相关的标签信息。标注的内容包括但不限于:词性标注,标注文本中每个词语的词性;句法标注,标注文本中句子的结构;语义标注,标注文本中句子中的语义关系和专有名词;情感标注,标注文本中情感倾向;指代标注,标注文本中代词具体代指的实体。时间维度共时语料语料用于刻画与记录语言在某一特定历史断面的静态结构与使用规则。历时语料语料用于追踪与分析语言跨越一个较长历史时期的动态演变规律与发展趋势。语料格式文本语料格式文件编码应使用UTF-8编码和NFC规范化形式,结构化数据应采用CSV格式,半结构化的数据应使用JSONL格式。音频语料格式音频数据应采用WAV格式或FLAC格式。ASR语料采样率应不低于16kHz。TTS语料采样率应不低于44.1kHz,位深不低于16bit。语料采集语料采集阶段核心是从建设规划阶段所确定的数据源中,系统性地收集构建语料库的原始数据。语料采集过程应符合GB/T35273-2020要求。采集方式原始语料数据的采集应根据语料库的建设目标与资源条件,选择合适的采集方式,包括但不限于:识别并获取已存在的公开或授权数据集,评估其适用性,并可直接复用或经过转化后满足本次建设要求;通过向数据供应商采购,获取自身难以采集的特定领域或大规模数据;当现有数据无法满足需求时,应启动新数据采集工作,主要包括:网络爬虫采集,针对互联网公开的文本、图片等信息,使用网络爬虫技术进行定向、批量的数据抓取与解析;在特定场景下,通过传感器、摄像设备等硬件,采集现实世界产生的原始数据;对于特定的内容或高价值内容,可通过专家编写、用户产生内容等方式进行采集。采集流程语料采集流程如下:制定采集实施方案,明确各数据源的技术路径、参数配置、质量要求与进度安排;实施小规模采集测试,验证采集方法的可行性与数据质量。根据测试结果优化采集参数,调整技术方案;根据验证通过的方案开展规模化采集,实施全过程监控与日志记录,确保采集作业的稳定性。语料预处理数据清洗数据清洗过程应包括去噪、去重、编码转换、语言识别与过滤等步骤,以确保数据质量符合语料库的建设要求。其中具体处理方式包括:文本处理:清除广告、导航栏、HTML/XML标签、特殊乱码等信息;音频处理:去除首尾静音、背景噪音、非目标声音等;编码转化:检测并统一将编码转换为UTF-8采用NFC归一化形式,覆盖东盟各地区不同语言涉及的多种字符集,确保文本的正常显示;语言识别与过滤:使用语言识别工具,确保语料的语言纯净度,过滤主体语言为非目标语言的文档;去重:识别并删除完全重合与高度重复的数据。数据转换数据转换将经验证后的数据统一转化为标准化、便于处理的格式。其中具体的处理方式包括:文本归一化:将数字、日期、时间、货币、度量单位等转换为一致的书写格式;语言结构标准化:根据目标语言的语法规则,将连续的文本分割为独立的句子。对中文、泰文、高棉文等需要进行分词的语言进行分词,对英文、印尼文、马来文、德顿语等语言,进行规范的词形还原进行处理;格式标准化:将所有数据文件按对应的格式要求进行转换。数据脱敏数据脱敏过程应符合GB/T35273-2020要求。脱敏数据类型脱敏数据类型包括但不限于:个人身份信息:姓名、身份证号、电话号码、住址等信息;文化敏感信息:东盟国家各地区文化、宗教和王室等信息;公共安全信息:煽动暴力信息、极端主义言论等信息;金融财产信息:薪资信息、交易记录、税务信息等信息;政治敏感信息:国家主权信息、敏感政治信息、边境争端等信息。脱敏策略敏感信息处理方式见表1。敏感信息处理方式表敏感等级敏感信息处理方式低姓名、身份证号、电话号码、住址等个人信息替换假名、泛化数值、敏感字段加密中东盟国家各地区文化、宗教和王室等信息内容替换、删除、中性化改写中煽动暴力信息、极端主义言论等信息删除中薪资信息、交易记录、税务信息等信息替换假名、泛化数值、假数据替换高国家主权信息、敏感政治信息、边境争端等信息泛化数值、删除数据验证数据验证是确保语料库基础质量的基础,其目的是识别并剔除不符合要求的数据。其中具体处理方式包括:完整性验证:检查数据记录是否存在关键字段缺失。格式合规性验证:检查文本数据的文件编码是否采用UTF-8编码NFC归一化形式,检查音频数据格式、采样率、位深等是否符合要求;基础数据质量校验:对文本数据进行基础校验,如检查句子是否完整、是否存在大量无意义的字符重复。对音频文件进行质量校验,如是否存在信号失真、持续静音时间过长、背景噪音过大等问题。语料标注通用语料标注通用语料标注具体步骤包括但不限于:明确所需标注语料模态以及其覆盖的领域。针对东盟国家的语料,标注团队应包含熟悉目标语言文化的成员,负责审核与文化、宗教、习俗相关内容的标注恰当性;明确定义标注标签,标签应具有明确的定义和层次结构。确保不同人员、不同批次的标注结果具有一致性;标注过程中需记录标注的操作日志,对存疑或修改的标注数据应保留版本记录和修改的理由,便于问题追溯和标注优化。专项语料标注SFT语料核心要求构建高质量、多样化“指令-响应”对,指导模型遵循指令完成特定任务。标注原则SFT语料的标注原则包括但不限于:基于原始语料的核心内容与目标应用场景,设计覆盖多种类型的指令任务。任务设计应体现多样性,并充分考虑东盟地区的语言习惯、文化习俗、社会规范及常见应用场景,以全面培养模型在跨文化语境下的理解与执行能力;针对每一条指令,应生成与之精确匹配的高质量回答。回答的生成应确保其源于语料的客观事实或经过验证的领域知识,并严格遵循东盟地区的核心价值观,避免涉及种族、宗教、王室、地域等敏感话题,确保内容的得体性与安全性;将指令与回答组合成结构规范的对话单元,形成模型可直接学习的训练实例。RLHF语料核心要求构建高质量、安全的“指令-正负面对比回答”对,训练模型识别并生成符合人类价值观的安全、有益回复。标注原则RLHF语料标注的原则包括但不限于:设计具有挑战性的指令任务。任务设计应覆盖多种风险类型,如偏见、歧视、误导及东盟地区特有的文化、宗教、政治及社会敏感性风险点等,以全面培养模型的辨别与抵御能力;针对每一条指令,应同步生成高质量的正面对比回答与负面对比回答。正面回答的生成应确保其安全性、建设性并符合客观事实;负面回答应体现典型的有害模式,但需控制在合理范围内以供模型对比学习;将指令与正负面回答组合成结构规范的对比学习单元,并经过东盟地区文化专家评审意见的严格质量审核,形成用于强化学习训练的高质量偏好数据。价值观语料核心要求构建体现核心价值观的“指令-正负回答”对,设计体现核心价值观的指令任务,训练模型准确理解并传递符合社会文化规范的价值理念。标注原则价值观语料的标注原则包括但不限于:设计体现核心价值观的指令任务。任务设计应覆盖文化认同、社会和谐、法律意识、可持续发展等多个维度,全面培养模型的价值判断能力;针对每一条指令,应同步生成符合主流价值观的正面回答与偏离核心价值观的负面回答。正面回答应准确体现对象国的文化精髓和社会共识,负面回答应展现典型的价值观偏离现象,但需确保其作为对比样本的合理性;将指令与正负面回答组合成结构化的价值观学习单元,并通过文化专家的审核认证,形成用于价值观对齐训练的高质量语料库。平行语料核心要求构建高质量、精准对齐的双语或多语“源语言-目标语言”句对,为模型的跨语言理解与生成能力提供基础训练数据。标注原则平行语料的标注原则包括但不限于:基于源语言文本的核心语义与语言风格,标注在目标语言中意义完全对等、表达自然流畅的翻译,确保信息传递的准确性与语言的地道性;针对每一条源语言文本,应提供与之精确对应的目标语言文本。对应文本的生成应确保其语义一致性、语境适配性与文化适配性,避免直译与歧义;将源语言与目标语言文本组合成结构规范的对齐单元,并经过目标语言专家的严格校对与质量验证,形成用于监督学习的高质量翻译对。ASR语料核心要求构建高质量、高匹配度的"音频-文本"对齐数据对,为模型的语音识别与转写能力提供基础训练数据。标注原则ASR语料的标注原则包括但不限于:基于音频数据的实际内容,标注完全对应的文本转写;每一条音频数据,应提供与之精确匹配的文本内容。文本转写应严格遵循音频的语音内容,同时符合书面语的表达规范;将音频与文本数据组合成结构规范的训练单元,并经过严格的听检校对与质量验证,形成用于语音识别训练的高质量对齐数据。TTS语料核心要求构建高质量、高表现力的"文本-音频"对齐数据对,为模型的文本转语音能力提供基础训练数据,确保合成的语音自然流畅、富有表现力。标注原则TTS语料的标注原则包括但不限于:基于文本内容的语义,录制与之完全匹配的高质量音频数据。录音过程应确保发音准确、语调自然、情感表达恰当;针对每一条文本数据,应提供与之精确对应的音频内容。音频录制应严格遵循文本的语义和语法结构;将文本与音频数据组合成结构规范的训练单元,并经过严格的听检校对与质量验证,形成用于语音合成训练的高质量对齐数据。验证集K12试题核心要求构建覆盖基础教育各学科的标准化试题集,用于系统评估模型在基础教育阶段的知识掌握水平和问题解决能力。标注原则K12试题的标注原则包括但不限于:基于目标国家基础教育课程,设计涵盖数学、科学、语言、社会科学等核心学科的标准化试题;针对每道试题提供清晰的问题表述和四个平行选项,确保正确选项的唯一性和干扰项的合理性;按照学科体系、知识维度、能力要求等进行标注,形成准确有效的评估。本地知识运用试题核心要求构建基于文化背景和实际场景的应用型试题集,评估模型在本地化场景中的知识运用和文化理解能力。标注原则本地知识运用试题的标注原则包括但不限于:基于文化传统、社会规范、法律法规设计情境化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某著名企业双创项目介绍
- 某著名企业商务礼仪培训资料
- 《GB-Z 31477-2015航空电子过程管理 航空电子产品高加速试验定义和应用指南》专题研究报告
- 《GBT 16538-2008声学 声压法测定噪声源声功率级 现场比较法》专题研究报告
- 《GBT 21778-2008化学品 非啮齿类动物亚慢性(90天)经口毒性试验方法》专题研究报告
- 《GBT 15825.5-2008金属薄板成形性能与试验方法 第5部分:弯曲试验》专题研究报告
- 《GBT 2317.2-2008电力金具试验方法 第2部分:电晕和无线电干扰试验》专题研究报告
- 道路安全出行教育培训课件
- 道路交通安全法安全培训课件
- 2026年国际注册内部审计师考试试题题库(答案+解析)
- 2025年贸易经济专业题库- 贸易教育的现状和发展趋势
- 核子仪考试题及答案
- DB46-T 481-2019 海南省公共机构能耗定额标准
- 劳动合同【2026版-新规】
- 电子元器件入厂质量检验规范标准
- 中药炮制的目的及对药物的影响
- 688高考高频词拓展+默写检测- 高三英语
- 学生公寓物业管理服务服务方案投标文件(技术方案)
- 食品检验检测技术专业介绍
- 2025年事业单位笔试-贵州-贵州财务(医疗招聘)历年参考题库含答案解析(5卷套题【单项选择100题】)
- 二年级数学上册100道口算题大全(每日一练共12份)
评论
0/150
提交评论