CN111247582A 使用神经网络模型进行选择性唤醒词检测的系统和方法 (搜诺思公司)_第1页
CN111247582A 使用神经网络模型进行选择性唤醒词检测的系统和方法 (搜诺思公司)_第2页
CN111247582A 使用神经网络模型进行选择性唤醒词检测的系统和方法 (搜诺思公司)_第3页
CN111247582A 使用神经网络模型进行选择性唤醒词检测的系统和方法 (搜诺思公司)_第4页
CN111247582A 使用神经网络模型进行选择性唤醒词检测的系统和方法 (搜诺思公司)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PCT/US2019/052841201WO2020/068909EN2020.04.使用神经网络模型进行选择性唤醒词检测用于通过媒体回放系统进行媒体回放的系2通过所述网络麦克风设备,使用关键词发现算法(576)来识别所述声音数据中的候选语音助手服务相关联的远程计算设备发送所所述候选唤醒词在所述声音数据中是否以比所述关键词发现算法(576)识别与多个相应语音助手服务和相应唤醒词引擎8.根据权利要求7所述的方法,其中,所述神经网9.根据权利要求7或8所述的方法,其中,所述神经网络模型(15.根据前述权利要求中任一项所述的方法,其中,选择所述第一唤醒词引擎(570a、3所述网络麦克风设备接收与所述附加声音数据18.根据前述权利要求中任一项所述的方法,还包括:当所述第一唤醒词引擎(570a、19.根据前述权利要求中任一项所述的方法,还包括:在选择所述第一唤醒词引擎4[0004]访问和收听外放设置中的数字音频的选项是有限的,直到2003年SONOS公司申请了其首批专利申请中的一件题为“MethodforSynchronizingAudioPlaybackbetween上的软件控制应用,人们能够在具有联网回放设备的任何房间中播放他或她期望的内容。[0019]图9是示出了根据本公开的方面的在压缩之前和压缩之后经由软权重共享的神经5定元件的讨论,任何参考数字中的一个或多个最高有效位指的是首次引入该元件的附图。[0025]NMD通常采用唤醒词引擎(通常在NMD上搭载)来识别该NMD检测到的声音是否包含包括特定唤醒词的语音输入。唤醒词引擎可以被配置为使用一种或多种识别算法来识别[0026]当唤醒词引擎在检测到的声音中发现唤醒词时,NMD可以确定发生了唤醒词事件定格式读出并封装检测到的声音的流,并向适当的语音助手服务(VAS)发送该封装的声音6[0029]在一些实施方式中,被配置为网络媒体回放系统的一部分的回放设备可以包括本身或附近的另一回放设备正在输出的音频或其他环境噪声),还可以包括用于缓冲检测[0032]在为NMD配置两个或多个语音服务的情况下,可以通过说出与特定语音服务相对型的命令相关联的特定语音服务(例如,具有语音命令功能的流音乐服务)发送该语音输问题的一种方法是采用被设计为计算效率高和/或需要较少存储空间的关键词发现算法。滤器来处理捕获的声音数据,使得在比较捕获的声音数据和关键词模型时减少处理操作,7可以使用压缩稀疏行(CSR)表示或用于实现压缩神经网络模型的其他合适技术来存储权且该NMD使用第一算法来确定捕获的音频内容是否包括多个唤醒词中的特定候选唤醒词,8其在未插入墙壁插座时被运输到环境101内以及环络设备可以通过点对点连接和/或通过其他连接彼此耦合,该其他连接可以通过包括网络程计算设备106可以被配置为在家居环境101中促进流传输和/或控制媒体内容(例如,音程计算设备106c为一个或多个SONOS无线HiFi9[0049]MPS100的各种回放和网络麦克风设备102和103可以各自与唯一名称相关102c可以命名为便携式设备,因为它是电池供电的和/或易于运输到环境101的不同区域。方式中,MPS100的各种本地网络设备102-105(图1A)和/或远程计算设备106c可以与远程远程计算设备和媒体回放系统100可以通过如本文所述的通信路径和/或使用如在2017年2月21日提交的美国申请No.15/438,749中所述的元数据交换信道来交换数据,该美国[0053]在某些实施方式中,当在由彼此相邻的两个或多个NMD检测到的语音中识别出语音输入时,NMD可以促进彼此之间的仲裁。例如,环境101(图1A)中配备有NMD的回放设备102d与配备有NMD的客厅回放设备102m相对接近,并且设备102d和102m都可以至少有时检[0054]在某些实施方式中,NMD可以被分配给可能不包含NMD的指定的或默认的回放设美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设[0055]可以在以下部分中找到与示例MPS100的不同组件以及不同组件可以如何交互以备102-104中的任何一个。例如,本文的技术可以在具有单个回放设备102和/或单个NMD102和/或单个NMD103可以直接与远程计算设备106a-d通信。在一些实施例中,电信网络(例如,LTE网络、5G网络等)可以与独立于LAN的各种回放、网络麦克风和/或控制器设备[0057]图2A是示出了图1A和图1B的MPS100的回放设备102之一的某些方面的功能框计算组件,该计算组件被配置为根据存储在存储器213中的指令来处理输入数据。存储器[0060]如刚刚提到的,某些功能可以涉及回放设备102与一个或多个其他回放设备同步时间延迟差异。通过引用整体并入本文的2004年4月4日提交的题为“Systemandmethodforsynchronizingoperationsamongapluralityofindependentlyclockeddigitaldataprocessingdevices(用于同步多个独立时钟控制的数字数据处理设备之间操作的系统和方法)”的美国专利No.8,234,395更详细地提供了回放设备合到放大器217的一个或多个扬声器218进行放大和回放。音频放大器217可以包括被配置为将音频信号放大到用于驱动一个或多个扬为处理要通过网络接口224向一个或多个其他回放设备发送以进行回放的音频。在示例场频线路输入连接)(未示出)或通过网络接口224从外部源接收要由回放设备102处理和/或[0065]如图所示,至少一个网络接口224可以采取一个或多个无线接口225和/或一个或通信。有线接口可以为回放设备102提供网络接口功能,以根据通信协议(例如,IEEE802.3)通过有线连接与其他设备进行通信。尽管图2A中所示的网络接口22和无线接口,但是在一些实施方式中,回放设备102可以仅包括无线接口或仅包括有线接备102发送和接收的音频内容和其他信号可以以数字分组数据的形式来发送,该数字分组224可以被配置为解析数字分组数据,使得去往回放设备102的数据被回放设备102正确地示检测到的声音的数字或模拟信号,然后这可以使语音处理组件220基于检测到的声音执麦克风或十二个麦克风)或少于六个麦克风(例如,四个麦克风、两个麦克风或单个麦克190(图1B))来处理在检测到的声音数据中识别的语音输入。语音处理组件220可以包括一个语音处理组件(例如,被配置为识别与家庭相关联的特定用户或特定用户组的语音的组有特定参数(例如,增益和/或频谱参数),该特定参数可以被修改或被调谐以实现特定功电源接口228,该外部电源接口228可以通过将回放设备102物理地连接至电源插座或某个[0072]回放设备102还包括用户接口240,该用户接口240可以独立于或与一个或多个控[0073]作为说明性示例,图2B示出了回放设备102的示例性外壳230,在外壳230的顶部[0074]如图2B进一步所示,控制区域232至少部分地由形成在外壳230的顶部234中的孔[0075]举例来说,SONOS公司目前提供(或已经提供)可以实现本文公开的某些实施例的组,或者采取有线或无线耳机组的形式,该耳机组可以通过网络接口等作为媒体回放系统明器材或在室内或室外使用的一些其他设备。以采用客厅设备102m的名称(如图所示)。在另一示例中,C区可以采用书架设备102d的名[0081]另外,被配置为被绑定的回放设备可以具有附加的和/或不同的各自的扬声器驱放设备102a和左回放设备102j进一步绑定的前设备102b和SUB设备102k。在一些实施方式[0084]单个、绑定和/或合并的设备的区可以被布置为形成一组同步回放音频的回放设器设备104提供的输入,可以动态地对回放设备进行分组和取消分组以形成同步回放音频厅相关联的标识符可以指示该客厅没有与其他区分在一组,而是包括绑定的回放设备共享。用于实现区域的技术的其他示例可以在例如2017年8月21日提交的题为“Room9月11日提交的题为“Controllingandmanipulatinggroupingsinamulti-zone102n正在播放与阳台区的回放设备102c正在播放的嘻哈音乐相同的音乐。在这种情况下,缝地(或者至少基本上无缝地)欣赏被外放的音频内容。如先前参考的美国专利No.8,234,在可以包括回放设备102c和102n。在一些情况下,用户可以使用例如控制器设备104之一和/或语音输入来将移动的回放设备102c与书房区配对或分在一组和/或重命名书房区中[0094]图4A是示出了图1A的MPS100的所选控制器设备104中的一个的某些方面的功能控制器设备可以是用于MPS100的专用控制器。在另一示例中,控制器设备可以是网络设TM[0095]控制器设备104的存储器413可以被配置为存储控制器应用软件和与MPS100和/[0096]在一个示例中,系统信息(例如,状态变量)可以通过网络接口424在控制器设备[0097]控制器设备104还可以通过网络接口424向回放设备传送回放设备控制命令,例促进用户对MPS100的访问和控制。用[0102]回放状态区域444(图4B)可以包括在所选择的回放区或区组中当前正在播放、先[0103]回放队列区域446可以包括与所选择的回放区或区组相关联的回放队列中的音频符可以由回放区或区组中的回放设备用于从本地音频内容源或网络音频内容源查找和/或放队列的第二回放区被分在一组,则所建立的区组可以具有相关联的回放队列(其最初是[0106]仍然参考图4B和4C,音频内容在回放队列区域446(图4B)中的图形表示可以包括区组中的回放设备上的和/或一些其他指定设备上的存储器中。这种播放队列的播放可以涉及一个或多个播放设备可能按顺序或随机顺序[0107]源区域448可以包括与对应的VAS相关联的可选择音频内容源和/或可选择语音助[0109]源区域448中的音频源可以是音频内容源,可以通过所选择的回放区或区组从该[0113]图5是示出了根据本公开的实施例配置的NMD503的功能框图。NMD503包括语音[0114]NMD503的麦克风222被配置为从NMD503的环境向VCC560提供检测到的声音SD。的声音SD可以由与馈送到VCC560的各个通道5[0116]如图5进一步所示,VCC560包括AEC564、空间处理器566和一个或多个缓冲器声音SD的组成通道562中的相似性和差异,帮助从潜在的用户语音中过滤或抑制检测到的提交的题为“LinearFilteringforNoise-SuppressedSpeechDetection(用于噪声抑[0118]在操作中,一个或多个缓冲器568(其中一个或多个可以是存储器213(图2A)的一部分或与之分离)捕获与检测到的声音SD相对应的数据。更具体地说,一个或多个缓冲器568捕获由上游AEC564和空间处理器56由帧组成,每个帧可以包括一个或多个声音样本。可以从一个或多个缓冲器568流式传输[0120]在一些实施方式中,至少一个缓冲器568利用滑动窗口方法来捕获检测到的声音1B))发送或流式传输可能包含实时或接[0124]该VAS被配置为处理从NMD503发送的消息MV中包含的声音数据流SDS。更具体地醒词部分680a和发声部分680b。唤醒词部分680a对应于导致唤醒词事件的检测到的声音。该声音可以被称为前滚动部分(在时间t0和t1之间);(ii)在说出唤醒词时在回放设备102i的环境中检测到的声音,该声音可以被称为唤醒计部分(在时间t1和t2之间)和/或(iii)在说出唤醒词之后在回放设备102i的环境中检测到的声音,该声音可以被称为后滚动部分NMD503停止提取声音数据,这可能导致语音提取器572停止检测到的声音数据向VAS的进[0127]在任何情况下,VAS处理发声部分680b以识别在检测到的声音数据中任何单词的[0128]为了确定单词的意图,VAS通常与VAS(未示出)所关联的一个或多个数据库和/或[0131]返回参考图5,在多VAS实施方式中,NMD503可以包括VAS选择器574(以虚线示个唤醒词引擎可以被配置为从一个或多个缓冲器568接收声音数据流SDS作为输入,并且应示例,第二唤醒词引擎570b可以被配置为识别唤醒词“Ok,Google”,并且当发现“Ok,[0132]在附加的或替代的实施方式中,NMD503可以包括其他语音输入识别引擎571(以音乐”时,NMD503可以直接或间接地通过MPS100的一个或多个其他设备向书房回放设备[0134]如图5所示,NMD503的识别引擎569包括在第一唤醒词引擎570a和第二唤醒词引擎570b以及以上讨论的另一其他语音输入识别引擎571上游的关键词发现器576。在操作中,声音数据流SDS从VCC560向关键词发现器576传递。关键词发现器576分析声音数据流关键词或候选关键词,关键词发现器576还选择适当的输出以提供声音数据流SDS进行附加音数据流SDS中的关键词发现器576发现的关音输入中的初步或候选唤醒词。与第一唤醒词引擎570a和/或第二唤醒词引擎570b所使用例中,第一算法用于确定语音输入是否包括多个可能的唤醒词中的一个唤醒词,例如[0136]在一些实施例中,关键词发现器576被配置为向声音数据流S配概率分数或范围。例如,第一种算法可以表示在声音数据流SDS中检测到唤醒词“OK,[0137]关键词发现器576采用的第一算法可以包括现在已知或以后开发的各种关键词发以实现神经网络的计算复杂度和/或存储空间需求的显著降低。这使神经网络可以本地存[0138]基于通过关键词发现器576对唤醒词的初步检测,可以向适当的唤醒词引擎(例唤醒词引擎570b可以与不同的语音助手服务相关联。例如,第一唤醒词引擎570a可以与AMAZON语音助手服务相关联,并且第二唤醒词引擎570b可以与GOOGLE语音助手服务相关词引擎等。这些唤醒词引擎中的每一个可以响应于关键词发现器576的确定被启用(例如,[0139]唤醒词引擎570a和570b中的每一个被配置为分析从关键词发现器576接收的声音的唤醒词。在一些实施例中,第一唤醒词引擎570a或第二唤醒词引擎570b(取决于选择哪键词和非关键词构造隐藏马尔可夫模型(HMM),以便使用非关键词模型来帮助从关键词语(例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN))对关键词进行建引擎570b传递声音数据流SDS之外,关键词检测器576可以向另一引擎571传递声音数据流何其他本地设备功能。在一些实施例中,另一引擎571限于在接收到声音数据流SDS的特定管顺序地示出了这些方框,但是这些方框也可以并行执行和/或以与本文公开和描述的顺[0145]方法700开始于方框702,其涉及NMD通过一个或多个麦克风捕获检测到的声音数词检测过程涉及NMD使用第一算法来确定捕获的声音数据是否包括多个唤醒词,例如,时确定捕获的声音数据是否包括多个唤醒词。[0148]在一些实施例中,识别候选唤醒词包括用一个或多个唤醒词分配概率分数或范[0149]如上所述,在方框704中用来识别候选唤醒词的第一算法可以包括现在已知或以网络已经被压缩以实现神经网络的计算复杂度和/或存储空间需求的显著降低。这使神经则方法700返回到方框702,并且NMD继续捕获附加的声音数据并使用第一算法来处理该附捕获的声音数据。[0152]可以基于方框704中在声音数据中检测到的特定候选唤醒词来进行第一唤醒词引响应性地激活第一唤醒词引擎,并在方框710中确认或否定声音数据中存在候选唤醒词在一些实施例中,方法700涉及使用附加的唤醒词检置为检测所述每个唤醒词。然后,在方框710中,GOOGLE唤醒词引擎分析声音数据以确认或否定该声音数据中“Ok[0155]以上所述结合初步唤醒词检测和下游唤醒词引擎的算法可以包括现在已知或以型来帮助从关键词语音中区分非关键词语音;(iii)使用大词汇量连续语音识别(LVCSR),练数据,使用神经网络(例如,深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN))对关键词进行建模。关于神经网络的使用的附加细节在下文参考图8-10进行了描[0157]在方框714处,方法700涉及NMD通过其网络接口使对应于特定唤醒词的相应语音用网络接口远程调用语音服务的相应API。响应于对相应语音服务的唤醒词检测算法的查据以检测特定的唤醒词涉及:NMD进一步处理捕获的声音数据以确定该捕获的声音数据是可以使用一个或多个算法来确定捕获的声音数据是否包捕获附加声音数据并在该附加的捕获的声音数据上执行第一和第二唤醒词检测过程)来监[0167]图8是系统800的功能框图,该系统800用于生成用于关键词发现和选择的压缩神络802可以是例如基于大量特定于关键词的训练数据对一个或多个所选关键词建模的神经[0168]如下文更详细描述的,关键词选择和压缩模块804可以通过将预训练神经网络的的分量与预训练神经网络的权重拟合在一起,权重倾向于紧密集中在许多集群分量周围,定数量的非固定分量的平均值可以在预训练神经网络802的权重范围内均匀分布。可以初和T是神经网络的声学特征输入和分类目标。损耗分解为神经网络项p(T|X,w)和GMM项的输出,可以例如利用与特定VAS或一组特定唤醒词相关联的唤醒词引擎来执行第二唤醒详细信息和示例可以参见:Ulrich等人的“SoftWeight-SharingforNeuralNetworkCompression(用于神经网络压缩的软加权共享)”,其可在/abs/1702.04008v2上获得;Han等人的“DeepCompression:CompressingDeepNeural剪、训练量化和霍夫曼编码压缩深层神经网络)”,其可在/abs/1510.00149v5上获得;以及Han等人的“LearningbothWeightsandConnectionsforEfficientNeuralNetworks(学习高效的神经网络的权重和连接)”,其可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论