CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-29 格式：DOCX 页数：41 大小：1.29MB 积分：9.6 举报 版权申诉

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第2页

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第3页

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第4页

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本公开提供了一种声纹特征提取方法、装向量为初始特征向量根据高斯分布的后验均值2获取关于说话人的初始声纹特征数据，所述初始声纹特征数基于所述初始声纹特征数据生成所述说话人的初始特征向量，其生成对应于所述初始特征向量的协方差矩阵，其中包括：将对所述协方差矩阵应用归一化指数函数以获得关于所述协方差矩阵的归一化指数值；将所述归一化指数值与所述初始特征向量相乘以获得所述更3.根据权利要求1或2所述的方法，其中提供关于预定说话人的样本初始声纹特征数据，所述样本初始声纹特征数基于所述样本初始声纹特征数据生成所述预定说话人的样本初始特征向量，其中包生成对应于所述样本初始特征向量的样本协方差矩阵，其征向量输入至第二神经网络以获取对应于所述样本初始特征向量的所述样本协方差矩阵，基于所述样本初始特征向量和所述样本协方差矩阵，生成所述预基于所述声纹特征获取用于更新声纹特征提取模型的网络参数3获取单元，被配置为获取关于说话人的初始声纹特征数据，所述初第一生成单元，被配置为基于所述初始声纹特征数据生成所述说话人的初始特征向第一子单元，被配置为将所述初始声纹特征数据输入至第第二生成单元，被配置为生成对应于所述初始特征向量的协方第二子单元，被配置为将所述初始特征向量输入至第二神第三生成单元，被配置为基于所述初始特征向量和所述协方第三子单元，被配置为对所述协方差矩阵应用归一化指数函数第四子单元，被配置为将所述归一化指数值与所述初始特征映射单元，被配置为通过嵌入操作对所述更新的特征向量进行映提供单元，被配置为提供关于预定说话人的样本初始声纹特征数据，所述第一样本生成单元，被配置为基于所述样本初始声纹特第二样本生成单元，被配置为生成对应于所述样本初始特征向量的样本协方差矩阵，4第三样本生成单元，被配置为基于所述样本初始特征向量和样本提取单元，被配置为基于所述更新的样本特征向量提取所述所述存储器存储有能够被所述至少一个处理器执行的指令，所述指5[0002]人工智能是研究使计算机模拟人的某些思维过程和智能行为(如学习、推理、思[0005]在此部分中描述的方法不一定是之前已经设想到或采用6置为基于样本初始声纹特征数据生成预定说话人的样本初始特征向量；第二样本生成单[0015]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0017]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的7[0027]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目法所能带来的声纹特征提取效果相对较为有限，对于提升声纹特征提取的准确率存在瓶[0030]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的[0031]在本公开的实施例中，服务器120可以运行使得能够执行本公开的声纹特征提取[0032]在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他[0033]在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或8可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFTWindows、APPLE[0036]网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协[0037]服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一[0038]服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序用服务器(VPS，VirtualPrivateServer)服务中存在的管理难度大、业务扩展性弱的缺9[0042]在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用相应特征维度等)之间的相关性的协方差矩阵，可以获得初始特征向量根据高斯分布的后[0057]在获取到音频数据之后，还可以进行各种预处理操作，包括去除噪声(如环境噪[0058]从音频数据提取初始声纹特征数据可以通过已知的各种[0061]第一神经网络可以是已知的各种类型的神经网络，例如TDNN(时间延迟神经网[0062]第一神经网络例如可以包括多层TDNN(带有ReLU(修正线性单元)激活函数)以及[0063]相应地，从初始声纹特征数据提取出的初始特征向量可以包括对应于T个子特征第二元素可以表征初始特征向量中的相应第一元素在口腔上的发音特征与声带上的发音Softmax值与初始特征向量相乘也即进行加权平均，因此可以获得初始特征向量根据高斯背景相关的相应特征维度等)之间的相关性的协方差矩阵，可以获得初始特征向量根据高[0087]可以注意到的是，用于训练声纹特征提取模型的方法300中的步骤S304至S310的[0089]此外，用于训练声纹特征提取模型的方法300还包括在步骤S312中更新声纹特征来进一步说明根据本公开的声纹特征提取方法及用于训练声纹特征提[0093]TDNN层411和全连接层412一起可以对应于结合图2所述的第一神经网络，且辅助可以包括具有时间上的上下文关系的多个子特征数据x1,x2,…xT，该多个子特征数据x1,此初始声纹特征数据X为对应于特定说话人的样本初始声纹特征数据。而在声纹提取模型[0095]如图4所示，初始声纹特征数据X＝{x1,x2,…,xT}经过TDNN层411和全连接层412zT}经过辅助全连接层413之后获得了对应于初始特征向量{z1,z2[0097]高斯后验推理模块420的操作可以对应于如上结合图2、图3所述的生成说话人的更新的特征向量，如图4所示的φs。在高斯后验推理模块420中，将协方差矩阵log{L1,进行了加权平均的操作，因此所获得的更新的特征向量φs也即初始特征向量根据高斯分始特征向量{z1,z2,…,zT}中的具有时间上的上下文关系的方差矩阵log{L1,L2,…,LT}和更新的特征向量φs也分别为针对该特定说话人的样本初始层433。可以将在嵌入层431提取的声纹特征输入到全连接层432并进而输入到输出层433[0103]以上结合图2至图4描述了本公开的声纹特征提取方法及用于训练声纹特征提取tt都服从高斯分布。若干特征维度)的平均值。残差变量∈t可以反映在这些特征属性之中的某些特征属性上[0110]由于基础向量h服从高斯分布，可以针对特定人群(例如1000个亚洲人)计算基础[0116]这里，可以通过神经网络获得zr=fonc(xx")以及logLr=gac(xlx"),enc[0123]上述模块502至510所执行的操作与参考图2所描述的步骤S202至S210相对应，因[0124]图6示出了根据本公开另一个实施例的声纹特征提取装置600的框图。图6所示的差矩阵应用归一化指数函数以获得关于协方差矩阵的归一化指数值；以及第四子单元所述计算机程序在被处理器执行时实现如上[0134]参考图8，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执单元808以及通信单元809。输入单元806可以是能向设备800输入信息的任何类型的设备，部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器[0139]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器[0142]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计险最小化的方式来管理和处理个人信息数据。通过限制数据收集并

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113889120B 声纹特征提取方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）