《儿童语音(识别)测试集技术规范》编制说明安徽_第1页
《儿童语音(识别)测试集技术规范》编制说明安徽_第2页
《儿童语音(识别)测试集技术规范》编制说明安徽_第3页
《儿童语音(识别)测试集技术规范》编制说明安徽_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、安徽省地方标准编制说明标准名称儿童语音测试集技术规范安徽省市场监督管理局任务来源(项目计划关于下达 2018年第三批安徽省地方标准制修订计划的函(皖市监函2019号) 10号)文件,计划编号为 2018-3-139 项。负责起草单位安徽淘云科技有限公司单位地址安徽省合肥市高新区潜水东路66号天源迪科科技园1号楼 9层参与起草单位科大讯飞股份有限公司、安徽省科普产品工程研究中心有限责任公司、安徽省质量和标准化研究院标准起草人(全部起草人,应与标准文本前言中起草人排序一致)序号姓名单位职务职称电话编制情况1、编制过程简介2018 年 10 月,根据安徽省市场监督管理局关于下达2018 年第三批安徽

2、省地方标准制修订计划的函(皖市监函2019 10 号文件,儿童语音测试集技术规范成为2018 年地方标准制修订项目之一。该标准的编写是建立在安徽淘云科技有限公司、科大讯飞股份有限公司等语音识别、语音合成、自然语言理解、声纹识别技术长期研发的基础上,并将政策要求、市场需求应用到标准制定中,为标准的编制工作奠定了坚实的基础,并成立的标准编制小组。2018 年 12 月,标准编制小组以自身丰富的行业经验为前提进行了调研,结合专家意见,国内目前尚无真正重视儿童语音测试集的技术规范,儿童内容库分类分级国家标准和行业标准也相对滞后, 国内对声纹识别、语音合成通用规范有相应标准,但尚无针对儿童的语音测试集技

3、术规范。为解决监管依据缺乏、儿童智能产品语音技术参差不齐等问题,拟儿童语音测试集技术规范为标准进行起草。 于 2019年 6 月完成了初稿。7 月,结合最新的市场调研,标准编制小组对初稿进行讨论,并完成了修改。2、制定标准的必要性和意义本标准的制定的目的是针对目前儿童智能产品语音技术参差不齐,部分产品体验效果差强人意的问题制定了技术规范, 即规范儿童智能语音交互系统的术语、 系统框架、 能力要求、 评价指标和测试规程。这一标准填补了儿童智能设备技术标准的空白,为该类语音交互产品及评价其语音交互的效果提供指导,也可降低应用门槛、提升儿童陪伴机器人用户体验效果,从而可进一步提高国内儿童智能设备的技

4、术等级,在促进语音交互在儿童陪伴机器人领域的推广应用具有重要作用。随着语音技术的不断发展,目前语音交互在儿童智能产品上已经成为不可或缺的标配功能,利用语音识别、语音合成、语义理解等核心技术,用户可以跟儿童陪伴机器人之间以语音交互的方式实现讲故事、唱儿歌、背古诗;也可以实现问算术、问天气、学成语、问百科等功能,通过这种自然的人机交互方式极大的降低了儿童人机交互的门槛,并提升了儿童陪伴机器人的产品价值。但儿童正是形成独立个性与世界观的年纪,需要正确的引导,智能设备唤醒效果慢,可能会让儿童形成急躁、不耐烦的情绪,识别错误率高甚至有错误引导儿童知识体系、世界观的风险。然而目前,儿童智能设备上的语音交互

5、技术的应用涉及到产业链上的各类技术服务机构:语音技术服务提供厂商、终端系统平台厂商,芯片提供厂商、内容服务商、应用方案开发厂商等,由于智能交互能达到的程度、相应的测试方法等的研究及应用标准存在空白,因此具体的技术参数和指标等,每个厂商各有一套指标和评价方法,各自为战自成一体,导致语音系统识别率参差不齐,不同产品智能语音体验效果难以统一,最终的技术效果难以控制。为了解决这样的问题,就需要建立规范的科学的测试进行验证。国家针对智能语音交互系统提出了技术规范,针对智能家居、智能客服、移动终端、车载终端提供语音交互系统的要求,但是对于儿童发音不够标准、需要更准确的交互效果的情况,并无相关的标准发布,本

6、标准的发布将填补了儿童智能设备技术标准的空白,为市场技术的规范提供全面、系统的标准化管理指导和要求,为儿童的健康成长迈出了建设性的一步。3、制定标准的原则和依据,与现行法律法规、标准的关系。制定标准的原则:在制定标准过程中,我们始终秉持符合国家有关法律法规和政策和行业发展需求的原则,从儿童语音的自身特点出发规定了儿童陪伴机器人领域语音交互系统的术语、系统框架、能力要求、评价指标要求和测试规程。制定标准的依据:本标准在总结国内外智能语音技术水平的基础上,针对儿童智能设备的特点,形成了统一的、规范的、适用性广的语音测试集技术规范,有助于提高国内儿童智能设备的技术等级,相应国家发展高新技术的号召。与

7、现行法律法规、标准的关系:SJ/T 11380自动声纹识别(说话人识别)技术规范规定了声纹识别(系统)的术语与定义、数据交换格式与应用编程接口;GB/T 36464信息技术智能语音交互系统规定了智能家居、智能客服、车载终端、移动终端语音交互系统的术语和定义、系统框架、要求和测试方法实施;GB/T 21024中文语音合成系统通用规范;GB/T 21023-2007中文语音合成系统通用规范。本标准与上述标准相辅相成,是针对儿童测试集的进一步补充。4、主要条款的说明,主要技术指标、参数、试验验证的论述(详细说明)儿童语音测试集技术规范引用了如下技术规范:GB/T 36464.2-2018信息技术智能

8、语音交互系统第 2部分:智能家居GB/T 36464.4-2018信息技术智能语音交互系统第 2部分:移动终端GB/T 21023-2007中文语音识别系统通用技术规范GB/T 21024中文语音合成系统通用技术规范SJ/T 11380自动声纹识别(说话人识别)技术规范语音交互是指人类和功能单元之间通过语音进行的信息传递和交流活动;语音识别是指将人类的声音信号转化为文字或者指令的过程;语音合成是指通过机械、电子的方法合成人类语言的过程;命令词识别是指一种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输入,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识

9、别结果;声纹是指对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称;语音唤醒是指处于音频流监听状态的语音交互系统,在检测特定的特征或事件出现后,切换到命令字识别、连续语音是被等其他处理状态的过程;误唤醒是指语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象;语音打断是指播放声音过程中,当语音采集设备检测到有效语音输入时,中断播放声音,转到语音识别等其他处理过程;近场是指拾音设备与声源距离 1m(含)之内。测试集语料应覆盖音频、视频点播;闲聊;百科问答;打开设备的应用等常规的交互场景。句识别率测试应至少男

10、女各20 名发音人进行录制,语音唤醒功能测试应至少由50 名发音人进行录制,声纹识别测试应至少由50 名发音人进行录制,具体要求参照GB/T 21023-2007 中 7.3 执行;环境噪音集录制以家居环境实际噪声为主(包括客厅、卧室等环境噪声)测试环境条件包括设备要求(音频采样设备、传声器、 回放设备的有关参数)以及测试环境要求 (被测语音交互系统、被测系统网络环境、远场拾音距离要求、语音测试集、测试场景要求)。测试指标包括语音识别、语音合成、语义理解、交互成功率、响应时间、语音唤醒、声纹识别、语音打断等方面的指标,针对上述测试指标,分别对应了测试方法。5、标准中如果涉及专利,应有明确的知识产权说明本标准不涉及任何已有的专利内容,与国家及行业其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论