GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）

上传人：1*** IP属地：山西上传时间：2024-07-13 格式：DOCX 页数：16 大小：395.17KB 积分：9.6 举报 版权申诉

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）_第2页

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）_第3页

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）_第4页

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）_第5页

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ICS35.240.01GB/T41813.2—2022信息技术智能语音交互测试方法2022-10-12发布国家市场监督管理总局国家标准化管理委员会IGB/T41813.2—2022 Ⅲ 1 1 1 1 25.1测试数据集 2 35.3测试环境 35.4测试执行 35.5结果判定 3 36.1意图理解 36.2命名实体识别 36.3敏感信息辨别 46.4语义拒识 46.5信息检索 46.6文本相似度计算 46.7文本修改 46.8语义修正 4 56.10逻辑推理 56.11对话引导 56.12上下文相关的多轮会话 5 5 5 8 9附录A(规范性)主观体验测试 A.1概述 A.2测试项 A.3测试方法 ⅢGB/T41813.2—2022本文件按照GB/T1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件是GB/T41813《信息技术智能语音交互测试方法》的第2部分。GB/T41813已经发布了以下部分：——第1部分：语音识别；——第2部分：语义理解。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有网络软件产品质量监督检验中心(济南)、华南理工大学、山东省计算中心(国家超级计算济南中心)、神思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据(天津)有限公司、中国电器科学研究院有限公司、中汽研(天津)汽车工程研究院有限公司、中科极限元(杭州)智能科技股份有限公司、北京爱数智慧科技有限公司。GB/T41813.2—2022了支撑智能语音交互系统的基础性国家标准。在此基础上，也需要用统一的测试方法和评价标准来对智能语音交互系统的能力进行评测，为智能语音交互相关的产品和服务提供评测GB/T41813《信息技术智能语音交互测试方法》为GB/T36464(所有部分)《信息技术智能语由三个部分构成。——第1部分：语音识别。目的在于为智能语音交互应用中的语音识别环节提供通用测试项和通——第2部分：语义理解。目的在于为智能语音交互应用中的语义理解环节提供通用测试项和通——第3部分：语音合成。目的在于为智能语音交互应用中的语音合成环节提供通用测试项和通用测试方法。IN1信息技术智能语音交互测试方法第2部分：语义理解本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统测试的设计和实施。下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本(包括所有的修改单)适用于本文件。GB/T36464(所有部分)信息技术智能语音交互系统3术语和定义GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。命名实体namedentity具有特指或唯一含义的指称名字的实体。语音交互过程中需要系统执行的任务或达成目标。智能语音交互测试中的语义理解测试主要包括功能测试与性能测试，具体如下：——性能测试用于检查被测系统中语义理解相关的各项性能，包括：语义理解效果、语义理解效率和系统稳定性。测试过程中，应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法进行测试，主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对2GB/T41813.2—2022GB/T36464(所有部分)中语义理解相关的功能和性能要求进行测试。5测试准备和执行在测试开始前，应通过人工编写或采集的方式制作测试数据集。可根据不同测试项划分出多个测试数据集，在实际测试时可根据需要选择测试数据集。测试数据集类型和要求应符合表1和表2的要求。序号文本分类数量1常用文本具有意图表示的单字、词语文本每类不少于5条2短语文本3单句文本4对话文本5段落文本6文章文本7特殊文本敏感信息文本每类不少于1000条8命名实体文本，如：人名、地名等，覆盖已定义业务相关命名实体9特殊格式文本，如：数字、日期时间、英文大小写等每类不少于5条特定语种文本，如：中文、英文、韩文等特殊字符集编码文本特殊符号文本，如：逗号、句号、问号等异常文本乱码文本每类不少于5条不支持语种文本序号测试数据分类文本要求数量1已定义场景或业务文本数据已定义场景或业务的文本数据应在数据较多情况下，统计文本长度分布，根据此分布来控制文本长度数量分布；否则应根据常用文本长度平均值的正态分布，控制不同文本长度数量分布文本类型应符合表1的要求文本内容宜为语音识别的输出结果每个业务不少于200条人工编写数据，可直接使用已有真实数据2已定义场景或业务的常用文本数据每个业务至少覆盖3条已有真实数据，可持续收集3未定义场景或业务文本数据同领域，未定义场景或业务的一般文本数据每个业务至少覆盖3条真实数据，可持续收集4同领域，未定义场景或业务的常用文本数据每个业务至少覆盖3条真实数据，可持续收集5闲聊平均不少于5个字符不少于1000条人工编写数据6异常文本数据每一条均不少于5个字符不少于100条人工编写数据3GB/T41813.2—2022a)可编程测试工具要求如下：●应能调用被测系统开放接口；●应能接收文本数据并将其输入至被测系统；●应能进行功能测试及其相应的性能测试；●应能以文本形式获取被测系统运行结果。b)测试统计工具要求如下：●应能自动对系统运行结果和标准结果对比文件进行比对。c)资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源应使用可编程测试工具和测试统计工具将测试数据集输入到在线/离线状态的被测系统中并获取运行结果。6功能测试方法●关键词抽取，被测系统能自动对文本中表达意图的关键词进行抽取；测试方法：按照表2中的已定义场景或业务文本数据的要求制作和测试统计工具将测试数据集输入到被测系统并获取运行结果，4GB/T41813.2—2022测试方法：按照表1中的中命名实体文本的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果6.3敏感信息辨别测试内容：检查被测系统是否提供根据上下文对测试方法：按照表1中的敏感信息文本的要求制作测试数据集，使用可编程测试工具和测试统计工6.4语义拒识测试内容：检查被测系统是否提供对无法处理或不应当处理的无效文本输入内容进行分辨和拒识的功能。测试方法：按照表2中的未定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。6.5信息检索c)自定义知识库检索。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。的功能。语义信息一致性类型包括但不限于以下具体方面。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。6.7文本修改测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。6.8语义修正测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。5GB/T41813.2—2022a)简单答复文本；c)理解和符合说话人的意图的答复文本；d)说话人的意图不明确时给出的合理的引导或推荐的答复文本。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统6.10逻辑推理测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统6.11对话引导对其最终目的进行陈述的功能。引导提示用语包含但不限于以下具体内容：a)个性化词典；b)根据用户行为习惯挖掘归类的信息；c)已定义知识库内的知识；e)海量数据的检索得到的关联信息；f)拒识提示。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统6.12上下文相关的多轮会话a)对话状态跟踪；b)对话策略管理；d)历史信息继承。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输入到被测系统7性能测试方法6GB/T41813.2—2022折损累计增益等参数表征，具体参数描述和计算方法如下。a)精确率：检测被测系统的语义理解能力，即被测系统对有效文本实际响应正确的次数占所有文本响应正确的总次数的比率。参数值计算方法见公式(1): (1)式中：Pss——语义理解精确率；Nss——有效文本实际响应正确的次数；Ns——所有文本响应正确的总次数。b)召回率：检测被测系统的语义理解能力，即被测系统对有效文本实际响应正确的次数占应响应正确的总次数的比率。参数值计算方法见公式(2):式中：Rss——语义理解召回率；Nss——有效文本实际响应正确的次数；Nsc——有效文本应响应正确的总次数。c)拒识率：检测被测系统的语义拒识能力，即被测系统对无效文本实际响应正确的次数占无效文本输入的总次数的比率。其中，无效文本包括被测系统不支持的或业务无关的文本数据和完全无意义的噪音数据。参数值计算方法见公式(3):式中：SR——语义拒识率；NsR——无效文本实际响应正确的次数；NR——无效文本输入的总次数。d)准确率：检测被测系统的语义理解能力，即被测系统对所有文本实际响应正确次数占所有文本响应的总次数的比率。参数值计算方法见公式(4):式中：Ass——语义理解准确率；Nss———有效文本实际响应正确的次数；NsR——无效文本实际响应正确的次数；N——所有文本响应的总次数。e)F₁值：检测被测系统的语义理解能力，即被测系统的语义理解精确率和语义理解召回率的加权调和平均值。参数值计算方法见公式(5):式中：F₁——语义理解F₁值；Pss——语义理解精确率；Rss——语义理解召回率。…f)平均排序倒数：检测被测系统的信息检索能力，即正确结果在被测系统给出结果中的排序位置7GB/T41813.2—2022倒数的平均值。参数值计算方法见公式(6):…………(6)式中：MRR——平均排序倒数；Q——信息检索的总次数；i——第i次信息检索；rank;——在第i次信息检索中正确结果出现的排序位置。g)归一化折损累计增益：检测被测系统的信息检索能力，即被测系统给出结果的排序相关性评分与理想结果的排序相关性评分的比值。参数值计算方法见公式(7)、公式(8)和公式(9):DCG——-—折损累计增益；j——第j个检索结果；rel;———第j个检索结果的相关性评分。…………IDCG——理想结果折损累计增益；|RELkl——信息检索结果个数按照相关性评分从大到小排序；j——第j个检索结果；rel;——第j个检索结果的相关性评分。NDCG=DCG/IDCG…………(9)NDCG——归一化折损累计增益；DCG——折损累计增益；IDCG——理想结果折损累计增益。测试方法：语义理解效果测试可根据不同功能选择适用测试指标进行测试，不同功能及其适用的效果测试指标对应情况见表3。表3不同功能及其适用的效果测试指标功能精确率召回率拒识率准确率平均排序倒数归一化折损累计增益意图理解必选必选可选可选可选命名实体识别必选必选可选可选可选敏感信息辨别必选必选可选可选可选语义拒识必选信息检索可选可选可选可选必选文本修改可选必选可选可选可选语义修正必选必选可选可选可选8表3不同功能及其适用的效果测试指标(续)功能精确率召回率拒识率准确率F1值平均排序倒数归一化折损累计增益逻辑推理必选必选可选可选可选——上下文相关的多轮对话可选可选可选必选可选—只测语义抽取功能，语义信息抽取正确即为正确，不关注意图理解是否正确。只测命名实体识别功能，命名实体识别正确即为正确，不关注意图理解是否正确。c多轮对话测试中，应选择对话是否最终达成说话人的意图来判断是否正确。语义理解效果测试方法如下：——测试数据：按照表2的要求制作测试数据集，对各测试数据集所有的文本内容进行人工标注，并制作成标准结果对比文件；——测试工具：符合5.2的要求；——测试环境：符合5.3的要求；——测试执行：按照5.4的要求对被测系统进行测试；——结果判定：按照表3给出的适用关系和测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名称、测试数据集数量、指标项结果等。系统运行结果符合被测系统技术要求或相关标准规范则测试通过，否则不通过。7.2语义理解效率测试内容：语义理解效率测试项用语义理解平均响应时间、语义理解响应时间分布和语义理解吞吐率等参数，具体参数描述如下。a)语义理解平均响应时间：语义理解响应时间指的是在输入一条文本后，被测系统给出该条文本的语义理解结果的时间；语义理解平均响应时间是测试数据集上所有语义理解响应时间与输入测试文本总条数的比值。参数值计算方法见公式(10): (10)式中：T;——测试样本i对应的语义理解时长；N——输入测试文本总条数。b)语义理解响应时间分布：此参数显示测试数据集上所有语义理解响应时间分布及其占比情况。宜统计100ms以下占比，100ms～200ms占比和200ms以上占比情况，实际测试时可根据需要划分不同响应时间区间。c)语义理解吞吐率：此参数描述一次性输入包含大量(业务相关)的测试文本数据集并一次性给出语义理解结果的效率，即被测系统在单位响应时间内语义理解的文本大小。参数值计算方法见公式(11):式中：TP——语义理解吞吐率；9GB/T41813.2—2022W——测试集；S;——测试集上样本i对应文本的大小，单位为千字节；T,——测试样本i对应的语义理解时长。——测试数据：按照表2的要求制作测试数据集。-—测试执行：按照5.4的要求对被测系统进行测试。——结果判定：按照测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名统并发路数需满足被测系统正常运行的能力。b)资源使用：检测在给定的软硬件配置和系统并发路数的条件下，被测系统运行6.1～6.12描述稳的能力。给定的软硬件配置和系统并发路数需满足被测系统正常运行的能力。续不间断向被测系统循环输入测试文本，连续监测系统运行情况和物理内存、虚拟内存、GB/T41813.2—2022(规范性)

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）

文档简介

温馨提示

最新文档

评论

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分：语义理解（正式版）

文档简介

温馨提示

最新文档

评论

相关文档

GB/T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解（正式版）