CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）

上传人：1*** IP属地：山西上传时间：2026-03-27 格式：DOCX 页数：25 大小：723.72KB 积分：10.2 举报 版权申诉

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）_第2页

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）_第3页

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）_第4页

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）_第5页

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于掩蔽效应的复卷积循环神经网络单通本发明公开了一种基于掩蔽效应的复卷积Bark带的频率划分方法将傅里叶变换后的初始向量的频率维划分成最接近临界频带的相邻子2步骤1、将分帧和加窗后的单通道原始待增强语音进行点数为1024的离散傅里叶变换的22个子向量中的重叠点定义为容错点，每个子向量的实部和虚部作为两个独立的通道，步骤2、采用步骤1中的复理想比率掩码cIRM作为训练目标，2.根据权利要求1所述的基于掩蔽效应的复卷积循环神经网络单通道语音增强方法，分帧和加窗后的原始待增强语音中的帧长为400，帧移动为1Y(t,f)＝S(t,f)+N(t,f)个子频带的划分，具体划分为：最接近临界频带的22个子频带范围分别是：(0_93.75)，(1265.625_1484.375)，(1484.375_1718.75)，(1718.75_2000)，(2000_2328.125)，3其中，和分别代表第k个容错点分别在第i和第j个复卷积循环网络子带模型中的k代表该点的实际输出值，a:和a:分别代表该容错点的实际输出值在第i和第j个子频带的所占权重，且afe[0,1],afe[0,1],这些权重被视为复卷积循环网络子带模型参数络子带模型的输入模型的编号。3.根据权利要求1所述的基于掩蔽效应的复卷积循环神经网络单通道语音增强方法，4.根据权利要求3所述的基于掩蔽效应的复卷积循环神经网络单通道语音增强方法，其中，LSTM和Linear分别代表传统的LSTM和Linear神经网实部和虚部是两个输入通道，反卷积和卷积层的输卷积循环网络子带模型由三部分组成：第一部分是复反卷积层+复归一化+复Relu激活函45.根据权利要求1所述的基于掩蔽效应的复卷积循环神经网络单通道语音增强方法，i-arc5神经网络和循环神经网络是两种被广泛用于语音增强的方法。2019年，[1]提出了一种编码_解码网络架构用于语音降噪，用于对从输入混合到干净语音的复杂STFT频谱图的实部和虚部进行建模。采用多层卷积加上长短时记忆网络(LSTM)的组合来构建编码解码结构，6[0005][1]K.Tan,D.L.Wang,Complexspectralmappingwithaconvolutionalrecurrentnetworkformonauralspeechenhancement,in:IEEEInternationalConferenceonAcoustics,SpeechandSignalProces[0006][2]Y.Hu,Y.Liu,S.Lv,M.Xing,L.Xie,Dccrn:Deepcomplexconvolutionrecurrentnetworkforp[0009]步骤1、将分帧和加窗后的单通道原始待增强语音进行点数为1024的离散傅里叶实部和虚部模拟复数运算，达到对语音的幅度和相位都进行增强的目的,提高语音质量和7[0016]其中，Y(t,f)表示经过STFT变换后的(1480_1720)，(1720_2000)，(2000_2320)，(2320_2700)，(2700_3150)，(3150_3700)，1078.125)，(1078.125_1265.625)，(1265.625_1484.375)，(1484.375_1718.75)，yk代表该点的实际输出值，a:和a:分别代表该容错点的实际输出值在第i和第j个子频带的所占权重，且afe[0,1],afe[0,1],这些权重被视为复结构子模型参数在训练中通过梯模型的输入8乘法进行模拟以达到对幅度和相位之间的相关性9发明采用子频带和全频带结合的网络结构，人耳的听觉掩蔽效应这一规律，在增强效果和计算速度上比一般的神经网络具有明显优[0053]如图2所示，本发明的一种基于掩蔽效应的并行子带复卷积循环神经网络单通道[0054]纯净人声和噪声分别来自公共数据集WSJ0和musan噪声集，包含了16万条混合语[0056]步骤1、将分帧和加窗后的单通道原始待增强语音进行点数为1024的离散傅里叶[0061]其中，Y(t,f)表示经过STFT变换后的的可优化的权重来计算他们的实际输出，每组有两个权重系数且它们的和为1，如下式所该点的实际输出值，和af分别代表该容错点的实际输出值在第i和第j个子频带的所占权重，且a;e[0,1],afe[0,]。这些权重被视为模型参数在训练中通过梯度下降自动求取[0082]i.-arctan(i,+i,)[0084]其中，和分别代表被估计值cIRM的实部和虚部.和分别代表了

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）

文档简介

温馨提示

最新文档

评论

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法 （中国科学技术大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN114999510B 基于掩蔽效应的复卷积循环神经网络单通道语音增强方法（中国科学技术大学）