GBZ 177.8-2026《人工智能终端智能化分级 第8部分:音箱》(纯净版)_第1页
GBZ 177.8-2026《人工智能终端智能化分级 第8部分:音箱》(纯净版)_第2页
GBZ 177.8-2026《人工智能终端智能化分级 第8部分:音箱》(纯净版)_第3页
GBZ 177.8-2026《人工智能终端智能化分级 第8部分:音箱》(纯净版)_第4页
GBZ 177.8-2026《人工智能终端智能化分级 第8部分:音箱》(纯净版)_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1人工智能终端智能化分级2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。语音唤醒speechwakeup;voicetrigger处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程。唤醒词wakeword用户唤醒设备并启动语音交互的特定词语或短语。语音识别speechrecognition语音合成speechsynthesis通过机械的、电子的方法合成人类语言的过程。注:该过程所产生的语音称为合成语音,和人的发音器官产生自然语音相区别,有时也叫人工语音(artificial2下列缩略语适用于本文件。根据音箱完成功能范围内各类任务的智能化水平及用户在任务执行过程中的参与程度,将音箱智能化水平划分为1级(L1)至3级(L3),等级越高,表明音箱的智能化水平越高。高等级能力涵盖全部低等级能力。本文件中所述能力均为端云协同能力。5.2L1响应级5.2.1.1用户信息感知用户信息感知能力包括以下内容。3)唤醒时间不高于1s。b)应能够识别用户语音中的词句,且在低噪环境下的字错误率不高于15%,在高噪环境下的字错误率不高于20%。5.2.1.2设备信息感知应能够监测基本软硬件状态信息,包括:a)音量设置和网络连接状态等硬件状态信息;b)系统运行状态和正在播放的内容等软件状态信息。5.2.1.3环境信息感知应能够通过互联网感知环境信息,包括天气、空气质量和自然灾害预警等。应能够理解用户的单个简单指令。无要求。3无要求。5.2.3.1工具调用应能够调用确定性工具完成单步骤任务。5.2.3.2内容生成5.2.3.3表达输出应能够将文字内容转换为语音进行输出。5.3.1.1用户信息感知用户信息感知能力包括以下内容。a)应能够采集用户输入的音频信息进行唤醒:3)唤醒时间不高于1s。b)应能够识别用户语音中的词句,且在低噪环境下的字错误率不高于15%,在高噪环境下的字错误率不高于20%。c)在特定场景中,应能够无需用户再次使用关键词唤醒就可连续进行对话。5.3.1.2设备信息感知应能够监测基本软硬件状态信息,包括:b)系统运行状态和正在播放的内容等软件状态信息;5.3.1.3环境信息感知环境信息感知能力包括:4a)应能够通过互联网感知环境信息,包括天气、空气质量和自然灾害预警等;5.3.2.1理解理解能力包括:a)应能够理解用户的单个简单指令;b)应能够理解用户的包含条件或多个步骤的复杂指令;c)应能够理解用户的简单意图。无要求。5.3.3.1工具调用工具调用能力包括:a)应能够调用确定性工具完成单步骤任务;b)应能够调用确定性组合工具完成预设且明确的多步骤任务。5.3.3.2内容生成互联协同能力包括:a)应能够控制智能家居等外部设备;b)在多设备环境中,当用户发出唤醒词时,应能够自动选择一个最合适的设备来响应用户的5.3.4记忆5.3.4.1短期记忆无要求。55.4L3辅助级5.4.1感知5.4.1.1用户信息感知用户信息感知能力包括以下内容。2)在高噪环境(声音强度在45dB~60dB)中的语音唤醒成功率不低于65%;3)唤醒时间不高于1s。b)应能够识别用户语音中的词句,且在低噪环境下的字错误率不高于15%,在高噪环境下的字错误率不高于20%。c)在特定场景中,应能够无需用户再次使用关键词唤醒就可连续进行对话。d)应能够通过声纹识别方式对用户身份进行识别。e)在设备播报过程中,应能够持续监听并识别用户的语音输入、中断当前播报并响应新指令的全双工交互。5.4.1.2设备信息感知c)外联设备的类型、能力和运行状态等外联设备信息。5.4.1.3环境信息感知环境信息感知能力包括:5.4.2认知理解能力包括:a)应能够理解用户的单个简单指令;b)应能够理解用户的包含条件或多个步骤的复杂指令;c)应能够理解用户的简单意图;d)应能够理解用户的复杂意图;f)应能够对多种感知信息进行融合理解。5.4.2.2推理推理能力包括:a)应能够基于当前的会话上下文进行简单推理,如逻辑路径单一、步骤较少的推理或短思维6b)应能够综合不同来源和类型的信息进行复杂推理,如多重约束条件、多步骤的推理或长思维链等。5.4.2.3规划规划能力包括:5.4.3.1工具调用工具调用能力包括:b)应能够调用确定性组合工具完成预设且明确的多步骤任务;5.4.3.2内容生成5.4.3.3表达输出5.4.3.4互联协同互联协同能力包括:a)应能够控制智能家居等外部设备;b)应能够在多设备环境中,当用户发出唤醒词时,自动选择一个最合适的设备来响应用户的指令;c)应能够跨设备进行内容迁移;d)应能够多个设备同步播放内容。5.4.4.1短期记忆应能够记忆单个会话上下文内容。5.4.4.2长期记忆6等级判定7(规范性)测试方法A.1测试环境测试环境条件如下:a)环境温度:15℃~35℃;b)相对湿度:20%~75%;d)声音环境包括以下类型:1)低噪环境:待测设备传声器处的环境噪声声压级不超过45dB(A);2)高噪环境:待测设备传声器处的环境噪声声压级为45dB(A)~60dB(A)。A.2L1响应级A.2.1感知A.2.1.1用户信息感知A.2.1.1.1音频唤醒A.2.1.1.1.1语音唤醒成功率测试方法如下:a)在低噪环境下,距离待测设备正前方3m处播放语料,在待测设备传声器处测得声压级为60dB(A),测试被唤醒情况,根据公式(A.1)得出在低噪环境下的语音唤醒成功率;式中:R—唤醒成功率;NC---—设备被唤醒次数;N—-—总测试次数。b)在高噪环境下,重复步骤a),得出在高噪环境下的语音唤醒成功率。A.2.1.1.1.2唤醒时间测试方法如下:a)在低噪环境下,距离待测设备正前方3m处播放唤醒测试语料,在待测设备传声器处测得声压级为60dB(A),测试被唤醒情况,根据公式(A.2)得出唤醒时间;T=t,一teT——唤醒时间;t,——首次响应时刻;te——语音输入结束时刻。b)重复测试,取平均值作为唤醒时间结果。A.2.1.1.2语音识别语音识别能力测试方法如下:8a)在低噪环境下,距离待测设备正前方3m处播放语料,在待测设备传声器处测得声压级为60dB(A),测试语音识别情况,根据公式(A.3)得出在低噪环境下的语音识别字错误率;式中:E——语音识别字错误率;S——替换(错误)的字数;D——删除(遗漏)的字数;I—插入(增加)的字数;N——测试语音总字数。b)在高噪环境下,重复步骤a),得出在高噪环境下的语音识别字错误率。A.2.1.2设备信息感知设备信息感知能力测试方法如下:a)通过语音指令或导出日志等手段,查询音箱的音量设置和网络连接状态等硬件状态信息,验证音箱是否正确反馈;b)通过语音指令或导出日志等手段,查询音箱的系统运行状态和正在播放的内容等软件状态信息,验证音箱是否正确反馈。A.2.1.3环境信息感知通过互联网的环境信息感知能力测试方法如下:a)输入天气、空气质量和自然灾害预警等环境信息的查询指令;b)验证音箱是否返回正确的环境信息。A.2.2.1理解单个指令理解能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:a)向音箱输入单个简单指令;b)通过日志或者验证音箱是否执行操作的方式,验证音箱是否能正确理解指令。不涉及。不涉及。A.2.3.1工具调用单步骤工具调用能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:a)向音箱输入确定性、单步骤任务的工具调用指令;9b)验证音箱是否执行了相应动作。A.2.3.2内容生成不涉及。A.2.3.3表达输出语音合成能力测试方法如下:a)使用音箱播放内容;A.2.3.4互联协同不涉及。不涉及。A.3L2工具级A.3.1感知A.3.1.1用户信息感知A.3.1.1.1音频唤醒测试方法同A.2.1.1.1。A.3.1.1.2语音识别测试方法同A.2.1.1.2。A.3.1.1.3连续对话连续对话能力测试方法如下:b)验证音箱是否能在3轮及以上对话中保持上下文连贯性,且无需重复唤醒。A.3.1.2设备信息感知设备信息感知能力测试方法如下:a)通过语音指令或导出日志等手段,查询音箱的音量设置和网络连接状态等硬件状态信息,验证音箱是否正确反馈;b)通过语音指令或导出日志等手段,查询音箱的系统运行状态和正在播放的内容等软件状态信息,验证音箱是否正确反馈;A.3.1.3.1通过互联网的环境信息感知测试方法同A.2.1.3。A.3.1.3.2通过外联设备的环境信息感知通过外联设备的环境信息感知能力测试方法如下:a)将外联设备(如温湿度计、空气净化器)连接到音箱;b)向音箱输入温度、湿度等环境信息的查询指令;c)验证音箱是否返回正确的环境信息。A.3.2.1理解A.3.2.1.1单个简单指令理解测试方法同A.2.2.1。A.3.2.1.2复杂指令理解复杂指令理解能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:a)向音箱输入复杂指令;b)通过日志或者验证音箱是否执行操作的方式,验证音箱是否能正确理解指令。A.3.2.1.3简单意图理解a)向音箱输入包含简单意图的指令;b)通过日志或者验证音箱是否执行操作的方式,验证音箱是否能正确理解用户意图。A.3.2.2推理a)向音箱输入需要单步推理/简单链式推理的指令;A.3.2.3规划不涉及。A.3.3.1工具调用A.3.3.1.1单步骤工具调用测试方法同A.2.3.1。A.3.3.1.2多步骤工具调用多步骤工具调用能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:a)向音箱输入多步骤工具调用任务指令;A.3.3.2内容生成语音合成能力测试方法如下:a)使用音箱播放内容;A.3.3.4互联协同A.3.3.4.1设备控制设备控制能力采用场景化测试方法,完成至少3种设备类型的控制场景,场景设计方法可参考附录C,执行步骤如下:b)验证设备响应状态与指令一致性。A.3.3.4.2协同唤醒协同唤醒能力测试方法如下:b)验证是否距离最近、信号最优或其他符合需求的条件的音箱做出响应。A.3.4.1短期记忆单会话上下文记忆能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:a)设计多轮对话场景,向音箱进行逐步输入;A.3.4.2长期记忆不涉及。A.4L3辅助级A.4.1.1用户信息感知A.4.1.1.1音频唤醒测试方法同A.2.1.1.1。A.4.1.1.2语音识别测试方法同A.2.1.1.2。A.4.1.1.3连续对话测试方法同A.3.1.1.3。A.4.1.1.4声纹识别声纹识别能力测试方法如下:A.4.1.1.5全双工交互全双工交互能力测试方法如下:a)在音箱进行播报时,插入新指令;b)验证是否中断响应并执行新任务。A.4.1.2设备信息感知测试方法同A.3.1.2。A.4.1.3环境信息感知A.4.1.3.1通过互联网的环境信息感知测试方法同A.2.1.3。A.4.1.3.2通过外联设备的环境信息感知测试方法同A.3.1.3.2。A.4.1.3.3通过内置传感器的环境信息感知通过内置传感器的环境信息感知能力测试方法如下:a)模拟需要音箱内置传感器进行感知的操作,如发出啼哭声、家用报警器、火警警报声、动物叫声等异响;A.4.2认知A.4.2.1.1单个简单指令理解测试方法同A.2.2.1。A.4.2.1.2复杂指令理解测试方法同A.3.2.1.2。A.4.2.1.3简单意图理解测试方法同A.3.2.1.3。A.4.2.1.4复杂意图理解a)向音箱输入包含复杂意图的指令;b)通过日志或者验证音箱是否执行操作的方式,验证音箱是否能正确理解用户意图。A.4.2.1.5意图澄清意图澄清能力采用场景化测试方法,完成至少3种应用类型的能够覆盖该能力的场景(可参考附录B),场景设计方法可参考附录C,执行步骤如下:b)验证音箱是否能通过进一步询问澄清意图的方式正确理解用户意图。A.4.2.1.6感知融合理解b)验证音箱是否能够融合多种感知信息执行任务。A.4.2.2.1单步或简单链式推理测试方法同A.3.2.2。A.4.2.2.2复杂链式推理a)向音箱输入需要复杂链式推理的指令;b)验证

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论