CN113823265B 一种语音识别方法、装置和计算机设备 (腾讯科技(深圳)有限公司)_第1页
CN113823265B 一种语音识别方法、装置和计算机设备 (腾讯科技(深圳)有限公司)_第2页
CN113823265B 一种语音识别方法、装置和计算机设备 (腾讯科技(深圳)有限公司)_第3页
CN113823265B 一种语音识别方法、装置和计算机设备 (腾讯科技(深圳)有限公司)_第4页
CN113823265B 一种语音识别方法、装置和计算机设备 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

JP2004302175A,2004.10.282利用所述待训练语音识别模型对所述特征信息对所述目标音素、所述目标词单元和所述语音识别文本进行联合运根据所述联合损失信息对所述待训练语音识别模型进行模型参在预设音素搜索空间中将每个语音特征帧进行路径搜索,得到至少一个音素搜索路所述在预设音素搜索空间中将每个语音特征帧进行路径搜索,得到至少一个音素搜索路根据所述音素特征,在所述目标音素集合中进行音素搜索,3在预设词典搜索空间中将每个语音特征帧进行路径搜索,得到对所述语音特征帧在多个注意力维度上进行注意力特征提取,得到所述语对所述各个注意力维度上的注意力特征进行解码,得到所述语音音素对齐单元,用于利用预设语音识别模型,对所述至少一个语词单元对齐单元,用于利用所述预设语音识别模型,对文本映射单元,用于利用所述预设语音识别模型,对所述调整单元,用于利用所述预设语音识别模型,根据所述目标4获取多个音素标识帧和待训练语音识别模型;在所述音素标识11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指5[0010]根据所述目标音素集合和所述目标词集合,对所述初始6[0018]路径搜索子单元,用于在预设音素搜索空间中将每个语[0030]路径搜索子单元,用于在预设词典搜索空间中将每个语7被处理器执行时实现本申请实施例任一提供的8[0070]例如,当利用梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)对语音数据进行特征提取时,语音特征帧可以是MFCC。又例如,当利用滤波器带法语音特征帧可以是LPC。后,可以对得到的梅尔滤波器对数能量向量做离散余弦变换(DiscreteCosine[0073]在一实施例中,本申请实施例提出的语音识别装置可以集成于各种计算机设备9NeuralNetworks,DNN)、深度卷积逆向图网络(DeepConvolutionalInverseGraphics基于区域的快速卷积网络(FasterRegion-basedConvolutionalNetworks,FasterRCNN)和双向编解码(BidirectionalEncoderRepresentationsfromTransformers,[0084]其中,音素对齐层可以具有时序分类算法(ConnectionistTemporal[0087]在一实施例中,本申请实施例提出的预设语言识别模型通过将CTC和注意力层结合形成端到端语音识别混合模型,可以预设语音识别模型可以学习到更多粒度的对齐信[0091]利用掩蔽后音素标识帧对待训练语音识别模型进行训练,得到预设语音识别模[0103]因此,在生成音素标识帧时,可以首先利用HMM-GMM生成训练数据的音素标识信既可以先执行步骤“利用待训练语音识别模型对特征信息分别进行音素对齐和词单元对可以利用CTC函数计算目标词单元和预设词单元之[0137]例如,可以将对齐损失信息表示为Loss_CTC,将音素损失信息表示为Loss_设音素搜索空间中定义了目标语言下每个音素具有什么特征,以及各个音素之间的关系,有一些音素总是放在一起使用,则这些音素在预设音素搜索空间之间的距离便会比较近。空间中将每个音素特征帧进行路径搜索时,可以根据音素集合对音素特征进行路径搜索。音素搜索路径005上每个目标音素和音素特征之间的匹配概率进行累积运算,从而得到累[0187]例如,本申请实施例提出的预设语音识别模型中的词单元对齐层中便可以具有索空间中将每个语音特征帧进行路径搜索的步骤可以参考对语音特征帧进行音素对齐的元特征,在目标词单元集合中进行词搜索,并根据搜索结果生成至少一个词单元搜索路合和目标词集合。然后可以利用目标词集合和目标音素集合对初始语音识别文本进行调利用更多周围的信息去预测被掩蔽的部分,从而提高了预设语音识别模型的鲁棒性。此[0230]205、计算机设备根据目标音素集合和目标词集合,对初始语音识别文本进行调[0240]路径搜索子单元,用于在预设音素搜索空间中将每个语[0252]路径搜索子单元,用于在预设词典搜索空间中将每个语[0265]该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以[0266]处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设[0267]存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程[0275]根据所述目标音素集合和所述目标词集合,对所述初始得该计算机设备执行上述实施例中各种可选实现方式中[0284]根据所述目标音素集合和所述目标词集合,对所述初始

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论