CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-19 格式：DOCX 页数：116 大小：4.99MB 积分：9.6 举报 版权申诉

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）_第2页

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）_第3页

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）_第4页

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩111页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于神经网络的第一子模型中的实部处理网络频域信号后获得的实部序列与虚部序列进行特意力与虚部注意力获得样本音频信号对应的频信号对应的频域变换序列所确定的第一损失对将频域处理子模型与时域处理子模型连接后共2通过训练好的频域处理子模型中的实部处理网络与虚部处理网络，基于所述实部序列与所述虚部序列、所述实部注意力与所述虚部将所述频域编码特征变换为时域信号，并通过训练好的时域处在所述频域处理子模型中，对所述原始音频信号进行频域通过所述频域处理子模型中的实部处理网络，分别对所述实部序列与通过所述频域处理子模型中的虚部处理网络，分别对所述实部序列与根据所述实部第一编码特征与所述虚部第二编码特征，获得所所述通过训练好的频域处理子模型中的实部处理网络与虚部处理通过所述频域处理子模型中首层的实部处理网络，分别对所述实部序通过所述频域处理子模型中首层的虚部处理网络，分别对所述实部序根据所述实部第一编码特征与所述虚部第二编码特征，获得所述迭代地通过当前层的实部处理网络与虚部处理网络对上一层对应的实部注意力与虚3将所述实部序列与所述实部注意力相乘，获得所述原始音频信将所述虚部序列与所述虚部注意力相乘，获得所述原始音频信将所述实部序列与所述实部注意力相乘得到第一结果，将所述虚部将所述实部序列与所述虚部注意力相乘得到第三结果，将所述虚部基于所述实部序列与所述虚部序列，获得所述原始音频信号的原始幅值根据所述原始幅值信息与所述预测幅值信息之积，获得所述原始音频根据所述原始相位信息与所述预测相位信息之和，获得所述原始音频通过所述时域处理子模型中的时序特征提取网络，对所述时域编码向量进行特征提通过所述时域处理子模型中的解码器，基于所述时域编码向量和所述通过训练好的噪声分类子模型对所述时域信号进行分类处理，获得所4通过所述噪声分类子模型中的时序特征提取网络，对所述时域编码向量进行特征提通过所述噪声分类子模型中的输出层，基于所述隐藏特征预测所述确定与所述输入的降噪等级对应的信号权重，所述信号权重始音频信号与所述降噪信号之间的比例的第按照所述第一权重与所述第二权重，将所述原始音频信通过基于神经网络的第一子模型中的实部处理网络与虚部处理网络于反映对所述样本音频信号中的虚部频域特征中属于根据基于所述频域编码特征与所述干净音频信号对应的频域变换序列所确定的第一将所述频域处理子模型与待训练的时域处理子模型连接后共同训时域处理子模型连接后共同训练，得到用于对音频信号进行降噪处理的所述音频降噪模将所述样本音频信号对应的频域编码特征变换为基于所述第二子模型对所述时域信号进行降噪处理获得的降噪信号与所述干净音频根据所述多任务目标函数对所述频域处理子模型、所述第二子模型将所述更新的频域处理子模型与所述训练好的时域处理子模型连获取所述第二子模型对多个样本音频信号对应的时域信号进行降噪处理获得的多个5获取所述第三子模型对多个样本音频信号对应的时域信号进行噪声分类获得的多个时域处理子模型连接后共同训练，得到用于对音频信号进行降噪处理的所述音频降噪模将所述样本音频信号对应的频域编码特征变换为基于所述第二子模型对所述时域信号进行降噪处理获得的降噪信号与所述干净音频将所述样本音频信号输入所述更新的频域处理子模型获得对应的频述频域编码特征变换为时域信号后分别输入所述训练好的时域处理子模型与所述第三子基于所述训练好的时域处理子模型对所述时域信号进行降噪处理获得的降噪信号与根据所述多任务目标函数对所述频域处理子模型、所述训练好的时将所述更新的频域处理子模型与所述更新的时域处理子模型连根据所述音频降噪模型获得用于对音频信号进行降噪处理的教师将样本音频信号输入所述教师模型，通过所述教师模型中的所述将样本音频信号输入所述学生模型，通过所述学生模型中的所述络中的编码器对所述时域信号进行编码，获得所述样本音频信号对应的第二时域编码向基于所述第一时域编码向量与所述第二时域编码向量噪信号与所述第二降噪信号之间的均方差损失以及所述第一降噪信号与所述第二降噪信6频域编码模块，用于通过训练好的频域处理子模型中的实部处理网络与虚部处理网时域降噪模块，用于将所述频域编码特征变换为时域所述频域编码模块，还用于通过所述频域处理子模型中首层的实部处所述实部序列与所述虚部序列进行特征编码，获得实部第一编码特征与虚部第一编码特7噪声分类模块，用于通过训练好的噪声分类子模型对所降噪档位调整模块，用于获取输入的降噪等级；确定与频域编码训练模块，用于通过基于神经网络的第一子模型中的实部所述样本音频信号中的虚部频域特征中属于干净信号集成训练模块，用于将所述频域处理子模型与待训练的时域8器执行所述计算机程序时实现权利要求1至15中任一项所述行时实现权利要求1至15中任一项所述的方9机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指子模型中的实部处理网络与虚部处理网络分别对原始音频信号的实部序列与虚部序列进[0029]根据基于所述频域编码特征与所述干净音频信号对应的频域变换序列所确定的换序列包括实部序列与虚部序列；[0049]根据所述干净音频信号对应的实部序列与所述样本音频信号对应的频域编码特[0054]将所述样本音频信号对应的降噪信号向所述干净音频信号的垂直方向与水平方述样本音频信号的噪声场景类别；[0058]根据所述噪声场景类别与用于生成所述样本音频信号的噪声信号的噪声标签类[0066]根据基于所述频域编码特征与所述干净音频信号对应的频域变换序列所确定的[0071]根据基于所述频域编码特征与所述干净音频信号对应的频域变换序列所确定的机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指学习到原始音频信号的频域信息，即通过实部序列与虚部序列表征的幅值信息与相位信[0078]图4为一个实施例中将频域处理子模型与时域处理子模型级联获得音频降噪模型[0079]图5为一个实施例中获得样本音频信号对应的实部注意力与虚部注意力的流程示[0080]图6为一个实施例中实部处理网络与虚部处理网络对实部序列与虚部序列进行特[0082]图8为一个实施例中将频域处理子模型与待训练的时域处理子模型连接后共同训[0086]图11为一个实施例中对时域降噪任务与噪声场景分类任务进行多任务学习的模[0087]图12为另一个实施例中将频域处理子模型与待训练的时域处理子模型连接后共[0092]图17为一个实施例中获得原始音频信号对应的实部注意力与虚部注意力的流程[0093]图18为一个实施例中通过训练好的频域处理子模型中的实部处理网络与虚部处理网络获得原始音频信号对应的实部注意力与虚部注意力的流程示声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能请实施例提供的音频降噪方法对该语音通话信号进行语音降噪处理，获得对应的降噪信[0107]本申请实施例提供的音频降噪模型的处理方法，也可以应用于如图1所示的应用[0119]在一些实施例中，计算机设备还可以获取其他计算机设例如上述图1中服务器104获取终端102传递的图像，计算机设备还可以获取本机上生成的音频信号的幅值信息而设计的，虚部序列网络是为利用样本音频信号的相位信息而设计[0125]由于第一子模型在训练时定义的目标是使实部处理网络与虚部处理网络的输出注意力机制(Attention)的结构使得实部处理网络与虚部处理网络的输出结果能够对样本也就是窗口的位移步长为128时，可以根据样本音频信号获得1872个长度为512的离散序度为257的虚部序列。[0130]步骤206，根据基于频域编码特征与干净音频信号对应的频域变换序列所确定的以按照以下公式分别针对实部序列yr和虚部序列y实部注意力与虚部注意力从实部序列与虚部序列中挖掘出干净音频信号的频域编码特征。该频域编码特征经过傅里叶反变换可以获得时域理子模型这部分的损失函数可以采用评估音频降噪效果好坏的指标计算得到，例如SNR(SignalNoiseRatio，信噪比)或SI-SDR(ScaleInvariantSignal-to-Distortion[0143]如图4所示，为一个实施例中将频域处理子模型与时域处理子模型级联获得音频部序列与虚部序列、实部注意力与虚部注意力所获得样本音频信号对应的频域编码特征，根据该频域编码特征与生成该样本音频信号的干净音频信号对应的频域变换序列所确定应的实部序列与虚部序列。2＝[0158]本发明实施例定义了实部处理网络与虚部处理网络对实部序列与虚部序列进行[0164]如图6所示，为一个实施例中实部处理网络与虚部处理网络对实部序列与虚部序[0167]计算机设备可以将实部处理网络输出的实部第一编码特征Lrr与虚部处理网络输出的实部第二编码特征Lri与实部处理网络输出的虚部第一编码特征Lir之和，作为样本音[0169]在一个实施例中，第一子模型中的实部处理网络与虚部码后获得各编码特征，并将各编码特征按上述公式进行运算获得当前层输出的复数结果，将其拆分为实部与虚部后分别作为实部注意力与虚[0171]需要说明的是，频域处理子网络中包括至少两层实部处在在通过当前层s利用上一层s-1的输出结果进行特征编码获得当前层s的输出结果后，将[0174]计算机设备通过频域处理子模型中基于实部虚部运算的实部处理网络与虚部处进行频域变换后获得实部序列，Xi表示对输入的样本音频信号X进行频域变换后获得的虚进行频域变换后获得实部序列，Xi表示对输入的样本音频信号X进行频域变换后获得的虚部序列Xr与虚部序列Xi获得的原始幅值信息，Xphase表示基于样本音频信号的实部序列Xr与虚部序列Xi获得的原始相位信息，表示基于实部注意力与虚部注意力获得的样本输出的注意力在与原始信号相乘时可以得到干净信[0192]噪声场景分类具有一定的应用意义，处于不同场景的用户对噪声的敏感程度不型将频域编码特征变换为时域信号。计算机设备可以将频域编码特征分别输入第二子模[0200]步骤806，基于第二子模型对时域信号进行降噪处理获得的降噪信号与干净音频例中的多任务目标函数融合了时域降噪任务的第二损失与噪声场景分类任务对应的第三据第二子模型对应的时域降噪任务的损失和第三子模型对应的噪声场景分类任务的损失，类概率，根据分类概率确定最终的分类结果，即分类任务的概率模型为：p(y|fw(x))=第三子模型输出的多个样本音频信号对应的噪声场景类别的标准通过频域处理子模型输出对应的频域编码特征后，对该频域编码特征进行傅里叶反变换，模型的编码器将输入的时域信号转化成时域编码向量，再经过中间的时序特征提取网络，[0237]参照图9(b)所示，为一个实施例中第二损失与投影向量的关系示意图。参照图9模型的编码器将输入的时域信号转化成时域编码向量，再经过中间的时序特征提取网络，收特征提取网络提取的隐藏特征，对其与该全连接层对应的模型参数进行矩阵相乘处理，将隐藏特征映射到样本空间，最后再经过激活层引入非线性特性后，通过归一化层(softmax函数)输出样本音频信号对应的噪声场景类[0242]在一个实施例中，噪声场景分类任务对应的第三损失可模型1102中傅里叶正变换模型将其变换为频域信号，频域信号包括实部序列与虚部序列，通过频域处理子模型中基于complex-LSTM的实部处理网络与虚部处理网络分别对实部序频域处理子模型中变换为时域信号，分别输入时域处理子模型1104与噪声分类子模型来训练第二子模型获得预训练好的时域处理子模型，同时更新频域处理子模型的模型参[0256]步骤1208，将样本音频信号输入更新的频域处理子模型获得对应的频域编码特[0259]计算机设备根据预训练好的时域处理子模型对应的时域降噪任务的第二损失和根据频域处理子模型与轻量时域降噪网络，构建用于对音频信号进行降噪处理的学生模降噪信号与第二降噪信号之间的均方差损失以及第一降噪信号与第二降噪信号之间的数出的编码向量，第一降噪信号与第二降噪信号是解码层输出的结果。使用均方差损失时域处理子模型中解码器根据样本音频信号xi输出的降噪信号，si表示学生模型中轻量时域降噪网络中解码器根据样本音频信号xi输出的降噪信号，表示教师模型的时域处理子模型中编码器根据样本音频信号xi输出的第一时域编码向量，表示学生模型中轻量时域降噪网络的编码器根据样本音频信号xi输出的第二时域编码向量；Lmse表示教师模型编码模型和学生模型各自的输出结果在距离损失与教师模型输出结果与学生模型输出结果在数据角度上D+λAA；的神经元不参与运算。卷积层通道数是时域处理子网络与噪声分类子网络中卷积层的深[0304]本申请实施例提供的上述音频降噪模型的处理方法，采用端到端的深度学习模噪声与音频；模型的前半部分是将普通的LSTM结构改进为基于复数的complex-LSTM结构，[0311]在一些实施例中，计算机设备可以通过本地的音频采集号的频域特征的模型。频域处理子模型可采用基于神经网络的深度学习模型，例如LSTM域信号的LSTM整体结构包括了处理实部序列的LSTM和处理虚部序列的LSTM，可以称之为信号的虚部，基于这样一种相当于注意力(Attention)的结构使得实部处理网络与虚部处理网络的输出结果能够对原始音频信号中的干净音频信号表达出更多、更准确的注意力，[0317]具体地，计算机设备可以将获取的原始音频信号输入训练好的频域处理子模型[0330]上述音频降噪方法，训练好的频域处理子模型包括实部处理网络与虚部处理网序列与虚部序列。2＝[0344]本申请实施例定义了实部处理网络与虚部处理网络对实部序列与虚部序列进行[0352]计算机设备可以将实部处理网络输出的实部第一编码特征Lrr与虚部处理网络输出的实部第二编码特征Lri与实部处理网络输出的虚部第一编码特征Lir之和，作为原始音1的特征编码，分别获得包括首层对应的实部注意力与首层的虚部注意力的输出的复数结部注意力与虚部注意力分别进行特征编码以获得当前层对应的实部注意力与虚部注意力，直至获得末尾层对应的实部注意力与虚部注意为最终的原始音频信号对应的实部注意力与虚注意力作为最终的原始音频信号对应的实部注意力与[0372]计算机设备通过频域处理子模型中基于实部虚部运算的实部处理网络与虚部处进行频域变换后获得实部序列，Xi表示对输入的原始音频信号X进行频域变换后获得的虚进行频域变换后获得实部序列，Xi表示对输入的原始音频信号X进行频域变换后获得的虚部序列Xr与虚部序列Xi获得的原始幅值信息，Xphase表示基于原始音频信号的实部序列Xr与虚部序列Xi获得的原始相位信息，表示基于实部注意力与输出的注意力在与原始信号相乘时可以得到干净信声分类子模型输出原始音频信号中噪声信号的噪声场特征输出原始音频信号的噪声场景类别。噪声分类子模型的时序特征提取网络可以采用理，将隐藏特征映射到样本空间，最后再经过激活层引入非线性特性后，通过归一化层(softmax函数)输出原始音频信号对应的噪声场景类别。[0407]8、将实部序列与实部注意力相乘，获得原始音频信号对应的频域编码特征的实[0408]9、将虚部序列与虚部注意力相乘，获得原始音频信号对应的频域编码特征的虚而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交特征与干净音频信号对应的频域变换序列所确定的第一损失对第一子模型进行模型训练，[0429]在一个实施例中，频域编码训练模块1904具体用于将实部序列与实部注意力相得样本音频信号对应的频域编码特征的幅值信息；根据原始相位信息与预测相位信息之于第二子模型对时域信号进行降噪处理获得的降噪信号与干净音频信号所确定的第二损干净音频信号的垂直方向与水平方向分别进行投影，获得垂直投影向量与水平投影向量；于第二子模型对时域信号进行降噪处理获得的降噪信号与干净音频信号所确定的第二损特征，将频域编码特征变换为时域信号后分别输入训练好的时域处理子模型与第三子模征变换为时域信号后，通过教师模型中的时域处理子模型中的编码器对时域信号进行编一时域编码向量获得样本音频信号对应的第一降噪信号；将样本音频信号输入学生模型，号之间的数据结构损失确定的模型蒸馏损失，根据模型蒸馏损失对学生模型进行模型训实部注意力与虚部注意力能够对样本音频信号中干净音频信号赋予更多、更准确的注意，[0441]关于音频降噪模型的处理装置1900的具体限定可以参见上文中对于音频降噪模

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113763979B 音频降噪、音频降噪模型的处理方法、装置、设备和介质（腾讯科技（深圳）有限公司）