2024连续语音识别测评指南_第1页
2024连续语音识别测评指南_第2页
2024连续语音识别测评指南_第3页
2024连续语音识别测评指南_第4页
2024连续语音识别测评指南_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

连续语音识别测评指南IIII目次目次 II前言 III范围 1规范性引用文件 1术语、定义和缩略语 1术语和定义 1缩略语 2概述 2测试集 2测试语料设计 2测试语音录制 3测评方法 3概述 3基于语音识别标准库 3基于现场口呼 3测评指标 4准确率指标 4实时率指标 4配置指标 4测评报告 4附录A(资料性附录)真实业务语音的采集与标注 6附录B(资料性附录)部分开源语料库 7PAGEPAGE1连续语音识别测评指南范围本文件提供了连续语音识别测试集、测评方法、测评指标和测评报告的指导建议。本文件适用于连续语音识别系统开发者、运营者及第三方测评机构对语音识别系统的连续语音识别能力进行测试和评估。(GB/T21023-2007 下列术语和定义适用于本文件。3.1.1语音识别speechrecognition利用功能单元进行的,从语音信号到语音内容的某一表示的转换。注1:拟识别的内容能由词或音素的适当序列表达。[来源:GB/T5271.29—2006,29.01.30,有修改:删除注2]语音识别系统speechrecognitionsystem一种用于语音识别的功能单元。注:语音识别器中有一个语音分析器部件,且通常使话音输入与语音模板的特征参数相匹配。[来源:GB/T5271.29—2006,29.02.05]连续语音识别continuousspeechrecognition对正常语音情景中的讲话的识别。注:按照识别实时性要求,连续语音识别又分为流式和非流式两种类型。[来源:GB/T5271.29—2006,29.02.08,有修改:添加注]3.1.2删除错误deletionerror用户所发语音在语音识别结果中没有出现的错误。3.1.3插入错误insertionerror用户没有发的语音在识别结果中出现的错误。3.1.4替换错误substitutionerror用户所发语音被识别成其他语音的错误。3.1.5测试语料testingcorpus用于测评被测系统语音识别功能的音频集合。缩略语下列缩略语适用于本文件。CER字错误率(CharacterErrorRate)CCR字正确率(CharacterCorrectRate)CSR连续语音识别(ContinuousSpeechRecognition)WER词错误率(WordErrorRate)WCR词正确率(WordCorrectRate)MER混合错误率(MixedErrorRate)概述测试集127(128~1023(1024)宜建立语音识别标准库。标准库建立宜参考GB/T21023-2007的要求开展,通过专业录音麦克风在消音室环境下组织录制人员录制,测试语音录制建议如下:说话人的选择宜在符合系统对说话人限制的条件下,尽可能选择具有代表性和统计分布规律30();概述连续语音识别的测评可采用基于语音识别标准库或基于现场口呼的方式进行。基于语音识别标准)被测系统识别结果导出高保真设备回放被测系统)被测系统识别结果导出高保真设备回放被测系统提取语音文件测评指标计算测评报告输出测评指标计算测评报告输出现场口呼现场口呼图1连续语音识别测评流程基于语音识别标准库测试指采用录制的语音数据对被测系统进行直接或间接的测试,被测系统至少满足其中一种测试方式。直接测试指利用被测系统带有的应用程序输入/现场口呼测试在参考5.1和5.2的基础上,还宜对现场操作进行记录和评估。(WordErrorRate:WER)ErrorRate:CER)DCICSC替代错误率:SER=(SC/M)×100%插入错误率:IER=(IC/M)×100%删除错误率:DER=(DC/M)×100%字错误率:CER=((SC+IC+DC)/M)×100%字正确率:CCR=100%-CERDWIW和SW替代错误率:SER=(SW/N)×100%插入错误率:IER=(IW/N)×100%删除错误率:DER=(DW/N)×100%词错误率:WER=((SW+IW+DW)/N)×100%词正确率:WCR=100%-WER(M,DCICSCDWIWSW混合错误率:MER=((SC+IC+DC+SW+IW+DW)/(M+N))×100%在线识别情况下,假设发音从Ts开始,发音结束时间为Te,识别结束时间为Tr,则实时率=(Tr-Te)-Ts情CPUA/D语音识别测评后提交标准测评报告。报告宜由以下几部分构成被测系统所能处理的词汇量等级,参考GB/T21023-2007A/D按照GB/T21023-20077附录A(资料性附录)真实业务语音的采集与标注当语音录制无法满足各领域测评需求时,可通过对真实业务语音数据进行采集和标注来建立测试集。测试集内容需要保证一定的词汇量覆盖和领域覆盖,常见领域示例如下:KTV/&ASRBT202320,附录B(资料性附录)部分开源语料库AISHELL1:178h,16khz,16bit,40011个领域;12THCHS-30:30h,16khz,3030ST-CMDS:500h,16khz,16bit,855FreeSTChineseMandarinCorpusPrimewordsChineseCorpusSet1:100h296iOSMagicdata655Magic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论