版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利号14层1608室(56)对比文件务所(普通合伙)11201G1OL15/02(2006.01)权利要求书2页说明书8页附图4页器和介质(57)摘要本发明公开了一种语音识别中端到端语音的置信度计算方法、装置、服务器和介质。识别方法,包括:提取输入音频各帧数据的声学特征;将所述声学特征输入语音识别解码器并得到对应上述语音识别中端到端语音的置信度计算方法,直接由声学特征和识别结果计算各个字和句子音识别解码器的具体实现,具有独立优化、高效、21.一种语音识别中端到端语音的置信度计算方法,其特征在于,包括:提取输入音频各帧数据的声学特征;将所述声学特征输入语音识别解码器并得到对应的识别结果;根据所述声学特征、所述识别结果和预设特征抽象模型,提取所述识别结果中每个字的置信度特征;将所述识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出所述识别结果中每个字的置信度和句子的置信度;根据所述声学特征、所述识别结果和预设特征抽象模型,提取所述识别结果中每个字预先设置采用编码器-解码器的模型结构的特征抽象模型;对该特征抽象模型进行训练;将所述声学特征输入训练好的特征抽象模型的编码器中抽象出原始特征;将所述原始特征输入训练好的特征抽象模型的解码器中抽象出编码器特征;将所述原始特征和所述识别结果输入训练好的特征抽象模型的解码器中抽象出解码器特征,所述置信度特征包括所述编码器特征和所述解码器特征。2.根据权利要求1所述的语音识别中端到端语音的置信度计算方法,其特征在于,将所述原始特征输入训练好的特征抽象模型的解码器中抽象出所述编码器特征,包括:通过多头注意力机制使所述原始特征在训练好的特征抽象模型的解码器中抽象出所述编码器特征。3.根据权利要求1所述的语音识别中端到端语音的置信度计算方法,其特征在于,将所述识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出所述识别结果中每以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码后,送入多层TransformerBlock模块,之后其中一头通过Sigmoid产生字的置信度,另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子的置信度。4.根据权利要求3所述的语音识别中端到端语音的置信度计算方法,其特征在于,所述置信度计算方法包括置信度计算模型的训练阶段,所述训练阶段包括:以所述识别结果、所述置信度特征作为输入,通过反向传播算法训练整个置信度计算模型。5.根据权利要求4所述的语音识别中端到端语音的置信度计算方法,其特征在于,以所述识别结果、所述置信度特征作为输入,通过反向传播算法训练整个置信度计算模型,包以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型输入,通过最后的Sigmoid层输出字正确概率和句子正确概率;通过正确转录和所述识别结果计算最小编辑距离得到模型的字标签和句子标签;regression损失建模,通过反向传播算法训练整个置信度计算模型。6.根据权利要求4所述的语音识别中端到端语音的置信度计算方法,其特征在于,所述3置信度计算方法包括置信度计算模型的预测阶段,所述预测阶段包括:以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型的输入,送入训练好的置信度计算模型,通过一头输出识别结果字的正确概率,通过另一个头输出句子的正确概率,以供下游任务使用。7.一种语音识别中端到端语音的置信度计算装置,其特征在于,包括:声学特征提取模块,用于提取输入音频各帧数据的声学特征;识别模块,用于将所述声学特征输入语音识别解码器并得到对应的识别结果;置信度特征抽取模块,用于根据所述声学特征、所述识别结果和预设特征抽象模型,提取所述识别结果中每个字的置信度特征;和置信度计算模块,用于将所述识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出所述识别结果中每个字的置信度和句子的置信度;所述置信度特征抽取模块还用于:预先设置采用编码器-解码器的模型结构的特征抽象模型;对该特征抽象模型进行训练;将所述声学特征输入训练好的特征抽象模型的编码器中抽象出原始特征;将所述原始特征输入训练好的特征抽象模型的解码器中抽象出编码器特征;将所述原始特征和所述识别结果输入训练好的特征抽象模型的解码器中抽象出解码器特征,所述置信度特征包括所述编码器特征和所述解码器特征。8.一种服务器,其特征在于,包括权利要求7所述的语音识别中端到端语音的置信度计算装置。9.一种计算机可执行指令的非易失性计算机可读存储介质,其特征在于,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行权利要求1-6中任一项所述的语音识别中端到端语音的置信度计算方法。4端到端语音的置信度计算方法、装置、服务器和介质技术领域[0001]本发明涉及语音处理技术领域,特别涉及一种语音识别中端到端语音的置信度计背景技术[0002]在相关技术中,置信度模块是对语音识别解码器输出的识别结果给出可信程度的模块。结合置信度分数的识别结果被应用到如对话系统、自然语言理解、关键字检索等下游任务中。置信度对提高人机交互准确性有重要意义。[0003]传统语音识别系统的置信度模块实现一般是基于解码lattice图计算得到,无需额外的模型和参数训练。近年来基于端到端语音识别系统的置信度算法也发展起来,主要是用解码器产生的识别序列和端到端声学模型中的抽象特征训练一个后接的基于模型的置信度模块,这种方案具有比传统lattice图更好的准召效果。然而上述两方案存在以下两个问题:[0004]1)置信度模块强依赖于语音识别解码器,具有很强的耦合性。尤其对于基于模型的置信度方案,替换不同的语音识别解码器,则需要重新训练不同的置信度模块以适配。[0005]2)在传统语音识别系统之后训练置信度模型,则需要保存大量的解码结果和声学特征,需消耗大量的存储资源,实用性较差,大规模数据训练场景下消发明内容[0006]本发明提供了一种语音识别中端到端语音的置信度计算方法、装置、服务器和介[0007]本发明的一种语音识别中端到端语音的置信度计算方法,包括:[0008]提取输入音频各帧数据的声学特征;[0009]将所述声学特征输入语音识别解码器并得到对应的识别结果;[0010]根据所述声学特征、所述识别结果和预设特征抽象模型,提取所述识别结果中每个字的置信度特征;[0011]将所述识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出所述识别结果中每个字的置信度和句子的置信度。[0012]上述语音识别中端到端语音的置信度计算方法,直接由声学特征和识别结果计算各个字和句子的置信度,此置信度计算方案无需适配与依赖语音识别解码器的具体实现,具有独立优化、高效、减少错误累加的优点,在实际业务场景中具有较高[0013]根据所述声学特征、所述识别结果和预设特征抽象模型,提取所述识别结果中每[0014]预先设置采用编码器-解码器的模型结构的特征抽取模型;[0015]对该特征抽取模型进行训练;[0016]将所述声学特征输入训练好的特征抽取模型的编码器中抽象出原始特征;5[0017]将所述原始特征输入训练好的特征抽取模型的解码器中抽象出所述编码器特征;[0018]将所述原始特征和所述识别结果输入训练好的特征抽取模型的解码器中抽象出所述解码器特征。[0020]将所述原始特征输入训练好的特征抽取模型的解码器中抽象出所述编码器特征,[0021]通过多头注意力机制使所述原始特征在训练好的特征抽取模型的解码器中抽象出所述编码器特征。[0022]如此,可以实现使编码器输出的原始特征在训练好的特征抽取模型的解码器中抽象出编码器特征。[0023]将所述识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出所述识别结果中每个字的置信度和句子的置信度,包括:[0024]以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码后,送入多层TransformerBlock模块,之后其中一头通过Sigmoid产生字的置信度,另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子的置信度。[0025]如此,可以实现字的置信度和句子的置[0026]所述置信度计算方法包括置信度计算模型的训练阶段,[0028]以所述识别结果、所述置信度特征作为输入,通过反向传播算法训练整个置信度计算模型。[0029]如此,可以对置信度计算模型进行训练。[0030]以所述识别结果、所述置信度特征作为输入,通过反向传播算法训练整个置信度[0031]以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型输入,通过最后的Sigmoid层输出字正确概率和句子正确概率;[0032]通过正确转录和所述识别结果计算最小编辑距离得到模型的字标签和句子标签;[0033]通过所述字正确概率和句子正确概率、所述字标签和句子标签进行logisticregression损失建模,通过反向传播算法训练整个置信度计算模型。[0035]所述置信度计算方法包括置信度计算模型的预测阶段,[0037]以所述识别结果、所述置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型的输入,送入训练好的置信度计算模型,通过一头输出识别结果字的正确概率,通过另一个头输出句子的正确概率,以供下游任务使用。[0038]如此,可以实现字和句子的正确概率(置信度)计算。[0039]本发明的一种语音识别中端到端语音的置信度计算装置,包括:[0040]声学特征提取模块,用于提取输入音频各帧数据的声学特征;[0041]识别模块,用于将所述声学特征输入语音识别解码器并得到对应的识别结果;[0042]置信度特征抽取模块,用于根据所述声学特征、所述识别结果和预设特征抽象模6[0043]置信度计算模块,用于将所述识别结果和所提取的置信度特征作为所述置信度计算模型的输入,预测出所述识别结果中每个字的置信度和句子的置信度。[0044]本发明的一种服务器,包括上述的语音识别中端到端语音的置信度计算装置。[0045]本发明提供一种计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行上述的语音识别中端到端语音的置信度计算方法。[0046]上述语音识别中端到端语音的置信度计算装置、服务器和存储介质,直接由声学特征和识别结果计算各个字和句子的置信度,此置信度计算方案无需适配与依赖语音识别解码器的具体实现,具有独立优化、高效、减少错误累加的优点,在实际业务场景中具有较高的实用价值。[0047]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明[0048]本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变[0049]图1是本发明实施方式的语音识别中端到端语音的置信度计算方法的流程示意[0050]图2是本发明实施方式的语音识别中端到端语音的置信度计算装置的模块示意[0051]图3是本发明实施方式的置信度特征抽取模块的构架示意图;[0052]图4是本发明实施方式的置信度计算模块的构架示意图。具体实施方式[0053]下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。[0054]下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。本发明的实施方式可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。[0055]请一并参阅图1,本发明实施方式提供的一种语音识别中端到端语音的置信度计[0056]步骤01,提取输入音频各帧数据的声学特征;[0057]步骤03,将声学特征输入语音识别解码器并得到对应的识别结果;[0058]步骤05,根据声学特征、识别结果和预设特征抽象模型,提取识别结果中每个字的7置信度特征;[0059]步骤07,将识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出识别结果中每个字的置信度和句子的置信度。[0060]请参图2,上述实施方式的语音识别中端到端语音的置信度计算方法可以由本发明实施方式的语音识别中端到端语音的置信度计算装置100实现。具体地,本发明实施方式的一种语音识别中端到端语音的置信度计算装置100,包括声学特征提取模块11、识别模块13、置信度特征抽取模块15和置信度计算模块17.声学特征提取模块11,用于提取输入音频各帧数据的声学特征。识别模块13,用于将声学特征输入语音识别解码器并得到对应的识别结果。置信度特征抽取模块15,用于根据声学特征、识别结果和预设特征抽象模型,提取识别结果中每个字的置信度特征。置信度计算模块17,用于将识别结果和所提取的置信度特征作为置信度计算模型的输入,预测出识别结果中每个字的置信度和句子的置信度。[0061]上述语音识别中端到端语音的置信度计算方法和语音识别中端到端语音的置信度计算装置100,直接由声学特征和识别结果计算各个字和句子的置信度,此置信度计算方案无需适配与依赖语音识别解码器的具体实现,具有独立优化、高效、减少错误累加的优点,在实际业务场景中具有较高的实用价值。[0062]具体地,本发明实施方式分析相关技术中,置信度计算方案和识别解码器强耦合以及深度学习置信度难以与传统解码器适配的问题,提出了上述独立于语音识别解码器的端到端语音置信度识别策略。上述每个字的置信度和句子的置信度可被应用到如对话系[0063]输入音频可以由计算方法所应用的第一终端获取,也可以由与第一终端通信的第二终端获取后,再传输至第一终端。用户可以通过第一终端或第二终端输入语音以产生输[0064]提取输入音频各帧数据的声学特征,可以产生声学特征帧序列。具体地,提取输入音频各帧数据的声学特征可参相关技术中语音处理领域的方法,在此不作详细展开。在本实施方式中,声学特征一方面输入给语音识别解码器以获得识别结果,另一方面可作为置信度抽取的输入以独立于语音识别解码器抽取置信度特征和计算正确概率。[0065]在某些实施方式中,语音识别解码器包括基于HMM语音识别系统的解码器和基于端到端的语音识别系统的解码器。如此,可以灵活使用相关的语音识别系统来获取识别结[0067]在一个实施方式中,端到端语音识别系统可包括Conformer-LSTMRNNT模型等。本实施方式所置信的识别结果由声学特征送入解码器获得。[0068]可以理解,在其它实施方式中,也可以采用其它类型的语音识别解码器来获取识别结果,而不限于基于HMM语音识别系统的解码器和基于端到端的语音识别系统的解码器。[0070]预先设置采用编码器-解码器的模型结构的特征抽取模型;[0071]对该特征抽取模型进行训练;[0072]将声学特征输入训练好的特征抽取模型的编码器中抽象出原始特征;8[0074]将原始特征和识别结果输入训练好的特征抽取模型的解码器中抽象出解码器特[0075]请参图2,上述实施方式的语音识别中端到端语音的置信度计算方法可以由本发的模型结构。声学特征送入训练好的特征抽取模型的编码器中抽象出原始特征(如高维特[0082]也可以采用语音恢复预训练任务的以掩码征抽取模型的解码器对训练好的特征抽取模型的编码器输出的原始特征进行多头注意力[0084]在某些实施方式中,预设特征抽象模型的编码器由卷积层和多层ConformerBlock构成;[0088]通过多头注意力机制使原始特征在训练好的特征抽取模型的解码器中抽象出编[0089]请参图2,上述实施方式的语音识别中端到端语音的置信度计算方法可以由本发9明实施方式的语音识别中端到端语音的置信度计算装置100实现。具体地,置信度特征抽取模块15用于通过多头注意力机制使原始特征在训练好的特征抽取模型的解码器中抽象出编码器特征。[0090]如此,可以实现使编码器输出的原始特征在训练好的特征抽取模型的解码器中抽象出编码器特征。[0091]具体地,请结合图3,训练好的特征抽取模型的解码器的TransformerDecoderBlock具有多头注意力层,训练好的特征抽取模型的编码器输出的原始特征送入多头注意[0093]以识别结果、置信度特征作为输入,通过特征拼接和位置编码后,送入多层TransformerBlock模块,之后其中一头通过Sigmoid产生字的置信度,另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子的置信度。[0094]请参图2,上述实施方式的语音识别中端到端语音的置信度计算方法可以由本发明实施方式的语音识别中端到端语音的置信度计算装置100实现。具体地,置信度计算模块17用于以识别结果、置信度特征作为输入,通过特征拼接和位置编码后,送入多层TransformerBlock模块,之后其中一头通过Sigmoid产生字的置信度,另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子的置信度。[0095]如此,可以实现字的置信度和句子的置信度的计算。[0096]具体地,在通过上述获得的识别结果的每个字的置信度特征作为置信度计算模块17的输入,计算出每个字和句子的置信度(正确概率)。[0097]在本实施方式中,请结合图4,置信度计算模块17可采用Transformer编码器的结构。以语音识别解码器识别结果、置信度特征提取模块抽取的编码器特征、解码器特征作为输入,通过特征拼接(concatenate链接)和位置编码后,送入多层TransformerBlock模块。之后其中一头过Sigmoid产生字置信度正确概率,另一头过层级注意力进行句子级别抽象后再送入Sigmoid产生句子置信度正确概率。[0098]在某些实施方式中,置信度计算方法包括置信度计算模型的训练阶段,[0100]以识别结果、置信度特征作为输入,通过反向传播算法训练整个置信度计算模型。[0101]请参图2,上述实施方式的语音识别中端到端语音的置信度计算方法可以由本发明实施方式的语音识别中端到端语音的置信度计算装置100实现。具体地,置信度计算模块17可具有训练阶段。[0103]具体地,在一个实施方式中,以识别结果、置信度特征作为输入,通过反向传播算[0104]以识别结果、置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型输入,通过最后的Sigmoid层输出字正确概率和句子正确概率;[0105]通过正确转录和识别结果计算最小编辑距离得到模型的字标签和句子标签;[0106]通过字正确概率和句子正确概率、字标签和句子标签进行logisticregression损失建模,通过反向传播算法训练整个置信度计算模型。如此,可以实现训练的具体过程。[0107]具体地,模型的字标签和句子标签的得到方法,展开如下:[0108]对于字正确性判别,可以通过将正确转录进行最小编辑距离对齐到识别结果的每个字上,从而得到每个字的0-1标签,然后通过logisticregression训练。在一个例子中,该对齐方式可由下表表示:识别结果倾销百分之五+正确转录取消百分之+0-1标签0(替换)0(替换)1110(插入)1时,标签为1(1表示句子正确),否则为0(0表示句子错误),然后通过logisticregression训练。[0111]可以理解的是,标签可以还用其它数字或符号来表示,而不限于0和1。[0112]在某些实施方式中,置信度计算方法包括置信度计算模型的预测阶段,[0113]预测阶段包括:[0114]以识别结果、置信度特征作为输入,通过特征拼接和位置编码作为置信度计算模型的输入,送入训练好的置信度计算模型,通过一头输出识别结果字的正确概率,通过另一个头输出句子的正确概率,以供下游任务使用。如此,可以实现字和句子的正确概率(置信度)计算。[0115]具体地,下游任务包括但不限于对话系统、自然语言理解、关键字检索等。[0116]本发明实施方式的一种服务器,包括上述实施方式的语音识别中端到端语音的置信度计算装置100。[0117]上述服务器,直接由声学特征和识别结果计算各个字和句子的置信度,此置信度计算方案无需适配与依赖语音识别解码器的具体实现,具有独立优化、高效、减少错误累加的优点,在实际业务场景中具有较高的实用价值。[0118]具体地,输入音频可以由与服务器通信的车辆的麦克风采集,由车辆上传至服务器,也可以由服务器本身采集,或由用户直接输入音频文件,在此不作具体限定。车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。[0119]本发明实施方式还提供一种计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行上述任一实施方式的语音识别中端到端语音的置信度计算方法。[0120]具体地,在一个实施方式,计算机可执行指令被处理器执行时,实现的语音识别中端
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西社工考试题及答案
- 广东乡镇公务员考试真题试题及答案
- 2025天津渤海轻工投资集团有限公司公开选聘合规管理部副部长备考题库附答案
- 广东南雄市公务员考试试题及答案
- 广东德庆县公务员考试试题及答案
- 2026年福建农业职业技术学院单招职业技能测试题库附答案
- 2025年杭州富阳区新桐乡网格队伍招聘1人(公共基础知识)测试题附答案
- 2026年低压电工操作证理论全国考试题库及参考答案【预热题】
- 复工考试题及答案
- 2025 年大学园林(园林规划设计学)试题及答案
- AQ 1096-2014 煤矿建设项目安全验收评价实施细则(正式版)
- 四川省广安市武胜县+2023-2024学年九年级上学期期末考试道德与法治试题
- 电大 工程数学试卷及答案汇总(完整版)
- GB/T 43383-2023船舶和海上技术船用人孔盖
- 钢筋焊接施工安全技术交底
- 智能化燃机电厂建设方案
- 外科急腹症的诊断与临床思维
- 销售授权书模板
- 2021年10月全国自学考试00265西方法律思想史试题答案
- 2023年关于宁波市鄞州粮食收储有限公司公开招聘工作人员笔试的通知笔试备考题库及答案解析
- JJF(纺织)080-2018纺织检针机校准规范
评论
0/150
提交评论