版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1人工智能终端智能化分级第3部分:移动终端本文件提供了人工智能移动终端(以下简称“移动终端”)智能化分级的能力指导,描述了相应的测试方法。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。3术语和定义通用型移动终端generalmobileterminal注:主要包含移动通信终端和平板式计算机。面向召回的摘要辅助评估增强指标enforceRecall-OrientedUnderstudyforGistingEvaluation;双语评估替补增强指标enforceBilingualEvaluationUnderstudy;enBLEU24缩略语下列缩略语适用于本文件。MB:兆字节(MegaByte)5关键能力根据移动终端完成功能范围内各类任务的智能化水平及用户在任务执行过程中的参与程度,将移动终端智能化水平划分为1级(L1)~3级(L3),等级越高,表明其智能化水平越高。高等级能力涵盖全部低等级能力,如L3级移动终端需同时涵盖L1级和L2级的所有关键能力。a)端侧能力是指移动终端依托自身的计算、存储和传感器等本地资源,在本地完成部分感知、认知、执行、记忆和学习的服务能力。b)端云协同能力是指移动终端在端侧能力的基础上,结合边缘侧或云侧计算资源,通过协同调度与信息交换,完成需强认知与复杂决策处理的复合任务的能力。5.2端侧能力5.2.1L1响应级5.2.1.1.2设备信息感知设备信息感知能力包括:a)应具备感知终端硬件状态能力,如处理器、存储器、外部通信接口等;b)应具备感知终端软件信息能力,如已安装软件的列表、权限配置、运行状态等。5.2.1.1.3环境信息感知无要求。5.2.1.2.1理解应具备理解用户简单指令的能力。5.2.1.2.2推理无要求。5.2.1.3执行5.2.1.3.1工具调用应具备调用确定性工具完成单步骤任务的能力。5.2.1.3.2内容生成无要求。5.2.1.3.4表达输出5.2.2L2工具级5.2.2.1.1用户信息感知用户信息感知能力包括:b)应具备感知用户生物特征或行为特征的能力,如人脸、指纹、情绪、状态等。5.2.2.1.2设备信息感知设备信息感知能力包括:b)应具备感知终端软件信息的能力,如已安装软件的列表、权限配置、运行状态等;c)应具备感知外联设备信息的能力,如外联设备的类型、运行状态等。5.2.2.1.3环境信息感知应具备感知环境信息的能力,如环境光、地理位置、声源方向等。5.2.2.2.1理解应具备理解用户简单指令的能力。4无要求。无要求。5.2.2.3执行5.2.2.3.1工具调用应具备调用确定性工具完成单步骤任务的能力。5.2.2.3.2内容生成应具备基于用户提示生成文本、图片或音频等至少1种模态的内容的能力。无要求。5.2.2.3.4表达输出应具备通过图像、音频、文字等输出方式向用户反馈任务执行状态与结果的能力。无要求。无要求。5.2.3L3辅助级5.2.3.1感知用户信息感知能力内容包括:5.2.3.1.2设备信息感知设备信息感知能力包括:b)应具备感知终端软件信息的能力,如已安装软件的列表、权限配置、运行状态等;5.2.3.1.3环境信息感知应具备感知环境信息的能力,如环境光、地理位置、声源方向等。5应具备理解用户简单指令的能力。5.2.3.2.3规划5.2.3.3执行5.2.3.3.1工具调用工具调用能力包括:a)应具备调用确定性工具完成单步骤任务的能力;b)应具备调用确定性组合工具完成预设且明确的多步骤任务的能力。小于0.40或翻译enBLEU不小于0.40。无要求。5.2.3.3.4表达输出应具备通过图像、音频、文字等输出方式向用户反馈任务执行状态与结果的能力。5.2.3.4记忆无要求。5.3端云协同能力5.3.1L1响应级5.3.1.1.1用户信息感知5.3.1.1.2设备信息感知设备信息感知能力包括:65.3.1.1.3环境信息感知无要求。应具备理解用户简单指令且支持用户使用简单指令发起工具调用任务的能力。无要求。无要求。5.3.1.3执行5.3.1.3.1工具调用应具备调用确定性工具完成单步骤任务的能力。5.3.1.3.2内容生成无要求。5.3.1.3.4表达输出5.3.1.4记忆无要求。无要求。5.3.2L2工具级5.3.2.1感知5.3.2.1.1用户信息感知用户信息感知能力包括:75.3.2.1.2设备信息感知设备信息感知能力包括:b)应具备感知终端软件信息的能力,如已安装软件的列表、权限配置、运行状态等;5.3.2.1.3环境信息感知应具备感知环境信息的能力,如环境光、地理位置、声源方向等。通用型移动终端理解能力包括:a)应具备理解用户简单指令且支持用户使用简单指令发起工具调用任务的能力;b)应具备理解用户复杂指令且支持用户使用复杂指令发起工具调用任务的能力;c)应具备理解用户简单意图且支持用户使用简单意图发起工具调用任务的能力;应具备基于当前的会话上下文进行简单的链式推理的能力。无要求。5.3.2.3.1工具调用工具调用能力包括:a)应具备调用确定性工具完成单步骤任务的能力;b)应具备调用工具执行明确的多步骤任务的能力。5.3.2.3.2内容生成应具备生成文本、图片或音频等不少于2种模态的内容。应具备对外部设备进行控制的能力。应具备通过图像、音频、文字等输出方式向用户反馈任务执行状态与结果的能力。85.3.2.4记忆5.3.2.4.1短期记忆应具备对单个会话上下文内容的记忆能力。5.3.2.4.2长期记忆无要求。5.3.2.5学习无要求。5.3.3L3辅助级5.3.3.1感知5.3.3.1.1用户信息感知用户信息感知能力包括:5.3.3.1.2设备信息感知设备信息感知能力包括:c)应具备感知外联设备信息的能力,如外联设备的类型、运行状态等。5.3.3.1.3环境信息感知应具备感知环境信息的能力,如环境光、地理位置、声源方向等。理解能力包括:a)应具备理解用户简单指令且支持用户使用简单指令发起工具调用任务的能力;c)应具备理解用户简单意图且支持用户使用简单意图发起工具调用任务的能力;d)应具备理解用户复杂意图且支持用户使用复杂意图发起工具调用任务的能力;e)应具备对多种感知信息进行融合理解的能力;f)当用户意图不明确时,应具备通过追问、提供选项、调用感知和记忆能力等方式进行意图澄清的能力。推理能力包括:9规划能力包括:5.3.3.3.1工具调用工具调用能力包括:应具备生成文本、图片或音频等不少于3种模态内容的能力。互联协同能力包括:a)应具备对外部设备进行控制的能力;b)应具备实现跨设备的内容迁移的能力。5.3.3.3.4表达输出5.3.3.4.1短期记忆应具备对单个会话上下文内容的记忆能力。5.3.3.4.2长期记忆应具备对用户基本信息、工具偏好、对话历史、常去地点、日程与待办任务、终端使用习惯等不少于3种信息内容的长期记忆能力。5.3.3.5.1情境适应学习5.3.3.5.2持续演进学习无要求。6等级判定移动终端的智能化等级判定按照GB/Z177.2—2026中符合性判定法开展。依据委托方申请的目标智能化等级与本文件中对该等级所规定的关键能力,选取不少于3项典型测试场景和不少于80%的对应级别难度工具调用任务进行场景化测试,并且覆盖所有关键能力要求。每个场景验证其关联的关键能力,若有些关键能力无法覆盖,则使用对应能力的测试方法进行测试,参考测试方法按照附录A。典型测试场景示例及该示例中对应覆盖的关键能力见附录B,通用型移动终端工具调用任务示例及难度对应关系见附录C。若委托方认为本文件中的场景与产品定位不匹配,可参考附录B自行制定测试场景,自行制定的测试场景应经过测试机构的评审,同时应覆盖对应等级的所有能力。(规范性)测试方法A.1.1测试方法结合附录B中的场景任务进行能力测试,测试人员依据GB/Z177.2—2026中9.1测试原则结合附录C设计测试用例,移动终端在规定时间(若场景未注明则默认规定时间为5min)内完成场景任务、达到预期结果,视为对应能力完成。每个测试用例最多3次测试机会,若3次测试失败则该用例不通过。其中,受客观原因(如终端低电量弹窗、验证码弹窗、定位获取弹窗、系统崩溃、网络中断等情况)导致任务中断不计入测试失败次数。A.1.3被测设备:端侧能力在终端不连接互联网状态下进行测试;端云协同能力在终端连接互联网状态下进行测试;测试前安装必要软件,开启送话器、摄像头、定位等并录入测试过程所需的用户基本信息。A.1.4测试环境包含如下内容:——环境温度:15℃~35℃;——相对湿度:20%~75%;—-—环境光照:室内:3001x~10001x;室外:50001x~100001x;A.2端侧能力测试方法A.2.1L1响应级A.2.1.1感知能力A.2.1.1.1用户信息感知采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项6)验证移动终端对用户输入信息的感知能力:b)通过验证移动终端能否正确执行操作的方式,验证每条输入信息是否正确感知。A.2.1.1.2设备信息感知采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项2)验证移动终端对设备信息的感知能力:b)查看移动终端能否展示完整的已安装软件的列表,是否支持软件的权限配置,能否查看软件运行状态。A.2.1.1.3环境信息感知不涉及。A.2.1.2认知能力A.2.1.2.1理解采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项6)验证移动终端对简单指令的理解能力:a)输入简单指令语句;A.2.1.2.2推理不涉及。A.2.1.2.3规划不涉及。A.2.1.3执行能力A.2.1.3.1工具调用采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项6)验证移动终端对单步骤任务的执行能力:a)输入任务指令;b)通过验证移动终端能否正确执行操作的方式,验证工具调用是否正确。A.2.1.3.2内容生成不涉及。不涉及。A.2.1.3.4表达输出采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项6)验证移动终端对执行结果的表达输出能力:a)输入任务指令或意图;A.2.1.4记忆能力不涉及。A.2.1.4.2长期记忆不涉及。A.2.1.5学习能力A.2.1.5.1情境适应学习不涉及。A.2.1.5.2持续演进学习不涉及。A.2.2L2工具级采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项1)验证移动终端对用户输入信息、用户生物特征信息的感知能力:a)采用文字、语音等方式向移动终端输入;b)通过验证移动终端执行操作的方式,验证每条指令的感知结果,例如查看移动终端能否通过用户指纹或人脸进行解锁、能否通过语音唤醒终端助手或能否根据用户不同行为做出对应调整。A.2.2.1.2设备信息感知采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项2)验证移动终端对设备软件、硬件信息以及互联设备的感知能力:a)查看移动终端存储器、电量等信息变化时,移动终端能否显示相应变化,在极端情况下是否会给出提示;b)查看移动终端能否展示完整的已安装软件的列表,是否支持软件的权限配置,能否查看软件运行状态;c)启动移动终端和外联设备的通信方式,连接其他移动终端、耳机等外设,查看移动终端能否感知互联设备,接收外设数据或设备状态。A.2.2.1.3环境信息感知采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.2的测试项3)验证移动终端对环境信息的感知能力:a)设置环境因素(如环境光、地理位置、声源位置)变化;b)查看移动终端能否做出相应变化。A.2.2.2.1理解测试方法同A.2.1.2.1。不涉及。A.2.2.3执行能力A.2.2.3.1工具调用测试方法同A.2.1.3.1。A.2.2.3.2内容生成采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.3的测试项1、表B.4的测试项1)验证移动终端内容生成能力:a)输入内容生成任务提示词;b)查看移动终端能否根据提示词生成对应内容。不涉及。A.2.2.3.4表达输出测试方法同A.2.1.3.4。A.2.2.4.1短期记忆不涉及。不涉及。A.2.2.5.1情境适应学习不涉及。A.2.2.5.2持续演进学习不涉及。A.2.3L3辅助级A.2.3.1感知能力A.2.3.1.1用户信息感知测试方法同A.2.2.1.1。A.2.3.1.2设备信息感知测试方法同A.2.2.1.2。A.2.3.1.3环境信息感知测试方法同A.2.2.1.3。A.2.3.2认知能力测试方法同A.2.1.2.1。不涉及。不涉及。A.2.3.3执行能力A.2.3.3.1工具调用采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.3的测试项3、表B.4的测试项3)验证移动终端单步骤任务和多步骤任务的执行能力:a)输入任务指令或意图;b)通过验证移动终端能否正确执行操作的方式,验证单步骤和多步骤任务工具调用是否正确。A.2.3.3.2内容生成采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.3的测试项2、表B.4的测试项2)验证移动终端内容生成能力:a)输入待摘要或翻译的内容,完善必要信息,查看移动终端能否根据用户需求完成中文摘要、英译中任务;b)对比生成内容与原文内容给出生成质量系数a(与原文内容有较大差异时系数为0,与原文内容意思基本一致时系数为1),根据公式(A.1)计算出词速度(v),根据公式(A.2)计算摘要enROUGE-L值,根据公式(A.4)计算翻译enBLEU值,计算结果保留4位小数。式中:N——终端生成的字数;T₁——终端反馈完整生成内容的时间;T₂——终端接收到完整内容的时间。式中:BLEUm——按照GB/T45288.2—2025中A.1.5计算第m个测试样本的BLEU值。测试方法同A.2.1.3.4。A.3端云协同能力测试方法A.3.1L1响应级A.3.1.1感知能力A.3.1.1.1用户信息感知a)采用文字、语音等方式向移动终端输入;b)通过验证移动终端能否正确执行操作的方式,验证每条输入信息是否正确感知。A.3.1.1.2设备信息感知测试方法同A.2.1.1.2。A.3.1.1.3环境信息感知不涉及。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项1)验证移动终端对简单指令的理解能力:a)输入L1级难度任务简单指令语句(L1级难度任务见附录C);b)通过验证移动终端执行操作的方式,结合工具调用执行结果判断每条指令和意图的理解结果,查看L1级难度工具调用任务能否闭环执行。不涉及。A.3.1.2.3规划不涉及。A.3.1.3执行能力A.3.1.3.1工具调用采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项1)验证移动终端对单步骤任务的执行能力:a)输入L1级难度任务简单指令语句(L1级难度任务见附录C);b)查看移动终端能否根据简单指令完成L1级难度工具调用任务。A.3.1.3.2内容生成采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.9的测试项1)验证移动终端内容生成能力:b)通过移动终端内容生成结果,查看移动终端能否根据指令或意图生成不少于1种对应模态的内容。不涉及。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项1)验证移动终端对执行结果的表达输出能力:a)输入任务指令;b)通过验证移动终端表达输出的方式,验证移动终端能否通过声音或画面显示任务执行结果,当任务无法执行时能否显示故障提示。A.3.1.4记忆能力不涉及。A.3.1.4.2长期记忆A.3.1.5学习能力不涉及。A.3.1.5.2持续演进学习不涉及。A.3.2L2工具级A.3.2.1.1用户信息感知测试方法同A.3.1.1.1。A.3.2.1.2设备信息感知测试方法同A.2.1.1.2。A.3.2.1.3环境信息感知测试方法同A.3.1.1.3。A.3.2.2.1理解采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项2、测试项4、测试项6、表B.7的测试项1、表B.9的测试项2)验证移动终端对指令、意图以及界面内容的理解能力:a)输入简单指令、复杂指令和简单意图语句,查看移动终端能否根据指令和意图输出生成内容;b)分别输入L2级难度工具调用任务简单指令和简单意图语句(L2级难度任务见附录C),通过验证移动终端执行操作的方式,结合工具调用执行结果判断每条指令和意图的理解结果,查看L2级难度工具调用任务能否闭环执行;c)输入L2级难度工具调用任务复杂指令语句(L2级难度任务见附录C),通过验证移动终端执行操作的方式,结合工具调用执行结果判断每条指令的理解结果,查看L2级难度复杂指令工具调用任务能否闭环执行;d)输入简单意图,当意图不明确时,查看移动终端能否通过追问、提供选项或融合感知、记忆信息等方式进行意图澄清,并结合工具调用执行结果判断简单意图理解是否正确。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.7的测试项1、表B.9的测试项2)验证移动终端的推理能力:a)输入需要进行简单逻辑推理的任务;b)通过验证执行结果,查看移动终端是否能基于上下文会话进行简单逻辑推理。A.3.2.2.3规划不涉及。A.3.2.3执行能力A.3.2.3.1工具调用采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项2、测试项4、测试项6)验证移动终端单步骤任务和多步骤任务的执行能力:a)分别输入L2级难度任务的简单指令语句和简单意图语句(L2级难度任务见附录C);b)通过验证移动终端执行操作的方式,验证单步骤和多步骤任务执行结果,能否根据指令或意图完成任务闭环执行。A.3.2.3.2内容生成采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.7的测试项1、表B.9的测试项2)验证移动终端内容生成能力:a)分别输入生成文本、图片或音频内容的指令或意图;b)通过移动终端内容生成结果,查看移动终端能否根据指令或意图生成不少于2种对应模态的内容。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项9、表B.9的测试项5)验证移动终端对外部设备的控制能力:a)连接外部设备,向移动终端输入需要外部设备配合执行任务的指令或意图;b)查看移动终端能否对外部设备进行控制从而完成任务。A.3.2.3.4表达输出测试方法同A.3.1.3.4。A.3.2.4记忆能力a)与移动终端进行会话,查看多轮会话内(不少于2轮)移动终端能否记住前序会话中指代、省略、上下文依赖等语言内容,查看是否能维持会话一致性、正确引用或理解先前轮次的信息;b)与移动终端进行会话,在会话过程中中断不超过2min,查看移动终端能否记前序会话中指A.3.2.4.2长期记忆不涉及。A.3.2.5学习能力A.3.2.5.1情境适应学习不涉及。A.3.2.5.2持续演进学习不涉及。A.3.3L3辅助级A.3.3.1感知能力A.3.3.1.1用户信息感知测试方法同A.3.1.1.1。A.3.3.1.2设备信息感知测试方法同A.2.1.1.2。A.3.3.1.3环境信息感知测试方法同A.3.1.1.3。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项3、测试项5、测试项7、测试项8、测试项9、测试项12、表B.7的测试项3、表B.9的测试项3)验证移动终端对指令、意图以及界面内容的理解能力:a)输入简单指令、复杂指令和简单意图、复杂意图语句,查看移动终端能否根据指令和意图输出生成内容;b)分别输入L3级难度工具调用任务简单指令和简单意图语句(L3级难度任务见附录C),通过验证移动终端执行操作的方式,结合工具调用执行结果判断每条指令和意图的理解结果,查看L3级难度工具调用任务能否闭环执行;c)输入L3级难度工具调用任务复杂指令和复杂意图语句(L3级难度任务见附录C),通过验证移动终端执行操作的方式,结合工具调用执行结果判断每条指令的理解结果,查看L3级难度复杂指令、复杂意图工具调用任务能否闭环执行;d)输入简单意图和复杂意图,当意图不明确时,查看移动终端能否通过追问、提供选项或融合感知、记忆信息等方式进行意图澄清,并结合工具调用执行结果判断简单意图和复杂意图理解是否正确;e)输入图像以及相关包含指代词的意图,查看移动终端能否理解意图并根据图像进行回答。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.7的测试项2、表B.9的测试项3)验证移动终端的推理能力:a)输入需要进行简单逻辑推理的任务;b)通过查看执行结果,验证移动终端是否能基于上下文会话进行简单逻辑推理;c)输入需要进行复杂逻辑推理的任务;d)通过查看执行结果,验证移动终端是否能基于设备信息感知、环境信息感知和互联网等信息来源,进行复杂逻辑推理。注:简单逻辑包含短思维链推理、快思考、简单数学逻辑推理等任务。复杂逻辑包含长思维链推理、慢思考、复杂数学逻辑推理等任务。采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项12)验证移动终端的规划能力:a)输入多步骤任务指令或意图;b)通过查看执行过程的方式,验证移动终端能否将多步骤任务分解为可执行子任务,能否对分解后的子任务编排合理的执行序列。A.3.3.3执行能力A.3.3.3.1工具调用采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.6的测试项3、测试项5、测试项7、测试项8、测试项9、测试项12)验证移动终端单步骤任务、多步骤任务的执行能力:a)分别输入L3级难度任务的简单指令语句和简单意图语句(L3级难度任务见附录C),通过验证移动终端执行操作的方式;采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.7的测试项2、表B.9的测试项3)验证移动终端内容生成能力:b)通过移动终端内容生成结果,查看移动终端能否根据指令或意图生成不少于3种对应模态的内容。a)连接外部设备,向移动终端输入需要外部设备配合执行任务的指令或意图;b)查看移动终端能否对外部设备进行控制从而完成任务;c)向移动终端输入需要外部设备接续执行任务的指令或意图;d)查看外部设备能否接续完成移动终端的执行任务。A.3.3.3.4表达输出测试方法同A.3.1.3.4。A.3.3.4记忆能力测试方法同A.3.2.4.1。A.3.3.4.2长期记忆采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.9的测试项4)验证移动终端长期记忆能力:a)向移动终端注入用户基本信息、工具偏好、对话历史、常去地点、日程与待办任务、终端使用习惯等需要长期记忆的信息;b)向移动终端输入涉及注入信息内容的任务指令或意图,验证移动终端能否基于长期记忆内容完成任务执行。A.3.3.5学习能力A.3.3.5.1情境适应学习采用场景化测试方法,在能覆盖该能力的测试场景中通过对应测试项(见表B.9的测试项5)验证移动终端情境适应学习能力:a)测试人员对终端生成内容进行反驳,并提供不少于1个正确生成内容示例;A.3.3.5.2持续演进学习不涉及。(资料性)典型测试场景示例B.1端侧场景B.1.1系统功能操控B.1.1.1简单指令简单指令参照表B.1设计。表B.1简单指令示意表说明指令覆盖应用场景示例包含带有操作行为的指令或用于本地功能检索的如“设置明天上午10点闹钟”“打开相机”;B.1.1.2场景中对应能力及测试内容系统功能操控场景测试项与能力对应关系见表B.2。表B.2系统功能操控场景测试项和能力对应表1助手能通过人脸、指纹解锁,或支2部分文件可显示设备信息3启用自动调节屏幕亮度,调整环境光照(如由强光调至弱光),观察屏幕亮度是否自适屏幕亮度随光照变化平滑调4示附近可连接设备(如测试用耳机)5列表,支持应用检索表B.2系统功能操控场景测试项和能力对应表(续)6能采集用户输入内容,并根据指令能完成相应任务(例如显等),并通过屏幕进行显示B.1.2摘要任务B.1.2.1测试数据集准备新闻、对话等测试数据集,进行摘要任务测试:—新闻、科普、说明书等文本或语音测试样本,平均每个测试样本文本字数为1500字;——两人对话文本或语音测试样本,对话使用正常语速录制,平均每个样本录音为5min。B.1.2.2场景中对应能力及测试内容摘要任务测试项与能力对应关系见表B.3。表B.3摘要场景测试项和能力对应表1要请求,查看终端能否执行摘要2要请求,查看终端能否执行摘要能完成摘要生成,摘要生成内容符合用户需求,enROUGE-L不小于0.40,出词速度大于20字/s3音输入待摘要内容并启动通话摘能在规定时间内完成通话或录音摘要B.1.3翻译任务B.1.3.1测试数据集准备英译中文本、语音或图像测试数据集,进行翻译任务测试:B.1.3.2场景中对应能力及测试内容翻译任务测试项与能力对应关系见表B.4。表B.4翻译场景测试项和能力对应表12能完成翻译生成,翻译生成内容符合用户需3进行录音转为待翻译内容),查看终端能否翻译正确能在规定时间内完成图片或录音翻译B.2端云协同场景B.2.1工具调用B.2.1.1任务指令和意图表B.5指令和意图示意表说明单个任务,包含带有操作行为的指令和用于(省略操作动词类)两类,明确操控行为和工具名称:如“设置明天上午10点闹钟”“打开相机”;并行或串行的多个任务,可为多个简单指令叠加表B.5指令和意图示意表(续)说明简单意图息进行解析复杂意图单意图叠加互联协同任务意图(简单指令/简单意图/复杂指令/复杂意图)B.2.1.2场景中对应能力及测试内容工具调用测试项与能力对应关系见表B.6。表B.6工具调用场景测试项和能力对应表1字、语音等形式发送简单指令,终端调明确的多步骤任务在规定时间内,根据简单指令完成附录C中L₁级难度任务234字、语音等形式发送复杂指令,终端调用确定性组合工具,完成预设且明确的多步骤任务在规定时间内,根据复杂指令完成附录C中5在规定时间内,根据复杂指令完成附录C中6端调用确定工具完成意图中的任务在规定时间内,根据简单意图完成附录C中L2级难度中系统工具单项核心功能任务和7在规定时间内,根据简单意图完成附录C中表B.6工具调用场景测试项和能力对应表(续)8端调用确定工具完成意图中的任务在规定时间内,根据复杂意图完成附录C中L3级难度中有条件的执行系统工具核心功9图任务令或意图,终端对指令或意图理解用相关工具和应用完成任务图,完成附录C中L3级难度场景领域工具B.2.2文档处理B.2.2.1输入文档B.2.2.2场景中对应能力及测试内容文档处理测试项与能力对应关系见表B.7。表B.7文档处理场景测试项和能力对应表1如公司规章制度流程在规定时间内,完成用户23学习示例内容对生成内容进行优式并给出示例的格式(例如将对比的文字用表格展开对比等)在规定时间内,完成用户B.2.3多模态知识问答B.2.3.1任务指令和意图测试人员参考表B.8准备复合模态输入数据集以及包含用户反驳和回答示例的样例。表B.8复合模态输入数据集及对应任务类型语音+图像输入,通过语音描述问题,同时使用摄像头实互联设备采集数据+语音,终端通过互联设备进行数据采集,问答在终端A上进行多模态知识问答,当任务迁移至终端B上后B.2.3.2场景中对应能力及测试内容多模态知识问答测试项与能力对应关系见表B.9。表B.9多模态知识问答场景测试项和能力对应表1提问,发送简单指令问题,查看终端能否根据问题生成回答能够对用户简单指令问题进行回答,支持不少于1种模态输出表B.9多模态知识问答场景测试项和能力对应表(续)2品的来源及相关历能对用户提问进行回答,支持不少于2种模态输出,多轮问答被打断2min内主题不会改变,能3能对用户提出的复杂问题给出3种模态输出,多轮问答被打断2min内主题不会改变,能根据上文推断相应代词4进行回答或执行相关任务向终端提供用户忌口信息,根据菜单照建议5问、反驳并给出生成内容示例,查看终端能否学习能根据用户示例调整输出内容6问题,问题解答中需要包问家居设备获取运7问答迁移到其他终的数据进行问题回答(资料性)通用型移动终端工具调用任务示例及难度对应关系表C.1列举了通用型移动终端工具调用任务示例及难度对应关系。表C.1通用型移动终端工具调用任务示例及难度对应关系理解能力执行能力规划能力适用产品调整字体大小打开应用打开××应用一简单意图多步骤可补充L₁难度级别工具调用任务,补充任务为执行步骤1步的工具调用任务,经专家论证确认后可作为补充任务并计入L1难度级别任务完成比例表C.1通用型移动终端工具调用任务示例及难度对应关系(续)理解能力执行能力规划能力适用产品简单意图多步骤日程提醒明天下午3点提醒我去××(地点)开会移动通信终端查找相册中带有汽车
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年浦发银行(哈尔滨分行)人员招聘笔试参考试题及答案详解
- 2026年华夏银行(桂林分行)人员招聘笔试备考试题及答案详解
- 2026年华夏银行(鞍山分行)人员招聘笔试参考题库及答案详解
- 2026人教版四年级数学下册期末模拟测试卷(4套含答案可打印)
- 2026年中国银行(山西省分行)人员招聘笔试备考试题及答案详解
- 2026年沧州银行人员招聘笔试参考试题及答案详解
- 2026年成都医学院第一附属医院医护人员招聘考试备考题库及答案详解
- 2025年无锡市中医医院医护人员招聘考试试题附答案详解
- 生产车间设备管理标准化流程
- 2026年东部战区空军医院医护人员招聘考试备考题库及答案详解
- JBT 14437-2023 二氧化碳致裂管 (正式版)
- 精装房行业分析研究报告
- 水利水电工程培养方案
- 了解红旗渠学习红旗渠精神课件
- 2022年北京市大兴区瀛海镇社区工作者招聘考试真题及答案
- 山地光伏施工组织设计
- 儿科主治医师资格考试题库(含答案)
- 藏乐阁点歌机使用说明书
- YS/T 583-2016热锻水暖管件用黄铜棒
- GB/T 39894-2021船舶内装质量评定项目及要求
- GB/T 24919-2010工业阀门安装使用维护一般要求
评论
0/150
提交评论