CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-23 格式：DOCX 页数：52 大小：911.19KB 积分：10.8 举报 版权申诉

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）_第2页

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）_第3页

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）_第4页

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请实施例提供了一种语音信号的处理的第一频域表达和回声预测信号的第二频域表先训练好的神经网络模型得到近端语音信号的2获取所述近端语音信号的第一频域表达和所述回声预测信号基于所述第一频域表达和所述第二频域表达，通过预先训练好的根据所述频带增益，对所述近端语音信号进行干扰信号的消除所述根据所述频带增益，对所述近端语音信号进行干扰信号的消除，得获取所述残差信号中所包含的各帧信号的第三频谱，并将每帧信基于每个子带对应的频带增益，对所述残差信号中对应帧的第基于所述第一频域表达和所述第二频域表达，确定所述近端语音基于所述频域信息差异，通过训练好的神经网络模型得到所述近基于所述拼接后的频域信息，通过训练好的神经网络模型得到4.根据权利要求1至3中任一项所述的处理方法，其特征在获取所述近端语音信号所包含的各帧第一信号的第一频谱，以基于所述第一频域表达和所述第二频域表达，通过预先训练好的对于每帧所述第一信号，基于该帧第一信号的第一频域表达和所述3基于该帧信号的频谱包含的每个频点的幅度值，得到该帧信号的每所述根据所述频带增益，对所述近端语音信号进行干扰信号的消除，得对于每帧所述第一信号，基于该帧第一信号所对应的各频点的频带增益所述根据所述频带增益，对所述近端语音信号进行干扰信号的消除，得对于每帧所述第一信号的每个子带，基于每个子带对应的频带增益对获取多个训练样本，每个所述训练样本包括远端样本语音信号、确定每个所述训练样本的近端样本语音信号的第三频域表达和样本回声预测信号的基于各所述训练样本对应的第三频域表达和第四频域表达，利用4基于所述第三频域表达和第四频域表达，确定所述近端样本语音信频域表达获取模块，用于获取所述近端语音信号的第一频域表达和所频带增益确定模块，用于基于所述第一频域表达和所述第干扰信号消除模块，用于根据所述频带增益，对所述近端语音所述干扰信号消除模块在用于根据所述频带增益，对所述近端语音信获取所述残差信号中所包含的各帧信号的第三频谱，并将每帧信基于每个子带对应的频带增益，对所述残差信号中对应帧的第基于所述第一频域表达和所述第二频域表达，确定所述近端语音基于所述频域信息差异，通过训练好的神经网络模型得到所述近基于所述拼接后的频域信息，通过训练好的神经网络模型得到5块在用于获取所述近端语音信号的第一频域表达和所述回声预测信号的第二频域表达时，获取所述近端语音信号所包含的各帧第一信号的第一频谱，以所述频带增益确定模块在用于基于所述第一频域表达和所述第二频域对于每帧所述第一信号，基于该帧第一信号的第一频域表达和所述基于该帧信号的频谱包含的每个频点的幅度值，得到该帧信号的每所述干扰信号消除模块在用于根据所述频带增益，对所述近端语音信对于每帧所述第一信号，基于该帧第一信号所对应的各频点的频带增益所述干扰信号消除模块在用于根据所述频带增益，对所述近端语音信对于每帧所述第一信号的每个子带，基于每个子带对应的频带增益对6获取多个训练样本，每个所述训练样本包括远端样本语音信号、确定每个所述训练样本的近端样本语音信号的第三频域表达和样本回声预测信号的基于各所述训练样本对应的第三频域表达和第四频域表达，利用基于所述第三频域表达和第四频域表达，确定所述近端样本语音信所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以20.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机程78[0031]干扰信号消除模块在用于根据频带增益，对近端语音信9第一信号对应的频带增益包括该帧第一信号的第一频谱所包含的各子[0039]干扰信号消除模块在用于根据频带增益，对近端语音信对数功率谱或对数幅度谱中的至少一项。[0048]确定每个训练样本的近端样本语音信号的第三频域表达和样本回声预测信号的个或更多个相关联的列出项的全部或任一单元[0075]对于双人或者多人通话过程，传统的PSTN(PublicSwitchedTelephone施例中确定近端语音信号的频带增益的步骤可以通过神经网络模型实现。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸[0079]其中，语音技术(SpeechTechnology)的关键技术有自动语音识别技术和语音合区块链方案的应用服务给业务参与方进行使用。[0083]本申请实施例提供的语音信号的处理方法可应用在双人或者多人语音交互场景[0084]作为示例地，本申请实施例提供的语音信号的处理方法可以应用于如图1所示的再执行步骤S202，或者先执行步骤S202再执行步骤S201，或者同时执行步骤S201和步骤[0094]对于本申请实施例中第一频域表达和第二频域表达可以均包括但不限于功率谱、一频域表达和第二频域表达得到的特征更好地输出近端语音系统不稳定造成的回声泄露，本申请实施例所采用的神经网络所需的输入特征数量较少，[0107]本申请实施例中，为了使得神经网络模型输出的频带增益不仅能够抑制回声信值与第一频域表达拼接作为神经网络模型的输入。该实施例在神经网络模型的训练阶段，[0122]由于近端语音信号所包含的各帧第一信号的处理方式相同，下面以第l帧为例进续以第l帧为例，基于第l帧第一信号的第一频谱D(k,l)得到第l帧第一信号的第一频域表达。例如对第l帧第一信号的第一频谱D(k,l)计算第l帧第一信号的对数功率谱Pd(k,l)=在采集近端语音信号时产生的，因此回声预测信号与近端语音信号的帧数是一一对应的。第二频谱Y(k,l)得到第l帧第二信号的第二频域表达。例如对第l帧第二信号的第二频谱Y第二频谱Y(k,l)计算第l帧第二信号的幅度功率谱Ay(k,l)＝log(|Y得到近端语音信号中第l帧第一信号的频带增益g(k,l)。或者与可以基于Ad(k,l)和Ay(k,l)得到的特征输入神经网络模型来得到近端语音信号中第l帧第一信号的频带增益g(k,共有257个特征值输入到神经网络模型，神经网络模型会输出第l帧时刻的频谱增益g(k,[0134]或者频域表达也可以为对数幅度谱，计算(k,l)-Ay(k,l)作为特征输入神经网路，神经网络模型也可以输出第l第l帧第一信号的第一频谱D(k,l)计算第l帧第一信号的每个子带的对数功率谱Pd(m,l)=号的第二频谱Y(k,l)计算第l帧第二信号的每个子带的对数功率谱Py(m,l)＝log(|Y(m,l)|2)。或基于第l帧第二信号的第二频谱Y(k,l)计算第l帧第二信号的每个子带的幅度功率(m,l)和Ay(m,l)得到的特征输入神经网络模型来得到近端语音信号中第l帧第一信号的每[0146]继续以第l帧以及频域表达为对数功率谱为例，可以计算第l帧的M个子带的对数则第l帧的时刻共有M个特征值输入到神经网络模型，神经网络模型在第l帧时刻的输出也[0147]或者频域表达也可以为对数幅度谱，计算第l帧的M个子带的对数幅度谱的差值Q与第l帧第一信号的M个子带的对数功率谱拼接在一起作为特征输入神经网络，即[出第l帧时刻的频谱增益，本领域技术人员可以根据实际情况来设置输出的特征数量并进(k,l)]，因此第l帧输入的特征值总共有M+K个，神经网络模型会输出第l帧时刻的频谱增一信号划分的M个子带的对数功率谱拼接在一起作为特征输入神经网络，即[Q(k,l)Pd(m，差信号在频域乘以g(k,l)或g(m,l)再变换回时域得到处理都划分为了M个子带，即若每帧第一信号对应的频带增益包括该帧第一信号的第一频谱所[0172]若每帧第一信号对应的频带增益包括该帧第一信号的第一频谱所包含的各子带[0175]对各帧对应的第四频谱分别进行频时变换，将频域的第四频谱变换到时域的信据实际需求进行设置，本申请实施例在此不做限定。隐藏层的类型也可以是全连接层、波器滤波之后得到回声预测信号y，然后将d与y相减得到线性回声消除之后的残差信号e，同时通过e来动态调整线性滤波器参数，以便确定回声路径的变化，基于调整后的滤波参[0191]确定每个训练样本的近端样本语音信号的第三频域表达和样本回声预测信号的[0202]频域表达获取模块703用于获取近端语音信号的第一频域表达和回声预测信号的[0203]频带增益确定模块704用于基于第一频域表达和第二频域表达，通过预先训练好[0205]在一种可选的实现方式中，频带增益确定模块704在用于基于第一频域表达和第[0211]在一种可选的实现方式中，频域表达获取模块703在用于获取近端语音信号的第[0215]频带增益确定模块704在用于基于第一频域表达和第二频域表达，通过预先训练[0219]干扰信号消除模块705在用于根据频带增益，对近端语音信号进行干扰信号的消[0227]干扰信号消除模块705在用于根据频带增益，对近端语音信号进行干扰信号的消对数功率谱或对数幅度谱中的至少一项。[0236]确定每个训练样本的近端样本语音信号的第三频域表达和样本回声预测信号的[0241]本领域的技术人员可以清楚地了解到，本申请实施例提供的语音信号的处理装译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecificIntegratedCircuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic(DigitalSignalProcessor，数据信号处理器)，ASIC(ApplicationSpecific(PeripheralComponentInterconnect，外设部件互连标准)总线或EISA(Extended息和指令的其他类型的动态存储设备，也可以是EEPROM(ElectricallyErasableProgrammableReadOnlyMemory，电可擦可编程只读存储器)、CD-ROM(CompactDisc[0251]存储器803用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指[0255]可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113823304B 语音信号的处理方法、装置、电子设备及可读存储介质（腾讯科技（深圳）有限公司）