CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学)_第1页
CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学)_第2页
CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学)_第3页
CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学)_第4页
CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明公开了一种基于DCT_DDPM的音乐音处理得到带有Mask的梅尔频谱图;4)训练DCT_2步骤4:在无条件修复的情况下,将带有Mask的梅尔频谱使用拼接函数在通道维度上拼接后送入DCT_DDPM进行训练,在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT_对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图反转fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为1pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后接指的是编码器第i个残差模块的输出会和解码器的第4_i个残差模块的输入在通道维度3在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接则化函数、激活函数和1x3卷积构成;而接受timeembe接的接收timeembedding输入的激活函数、Linear和输入的特征图和timeembedding分别经过对应的卷积模块后相加,并依次输将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将处理模块:使用短时傅里叶变换和梅尔滤波器将音频转换为梅尔频Mask模块:将梅尔频谱图的随机范围替换为高斯噪声作为Mask,得到带有M图使用拼接函数在通道维度上拼接后送入DCT_DDPM进行训练,在条件修复的情况下,将4Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度上状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT_对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼接音频波形处理模块:使用神经网络声码器或者PGHI相位重建算所述处理模块中,短时傅里叶变换的参数为:win_size=50ms,fft_size=50范围,hop_size、fft_size和win_size的取值得到梅尔频谱图一帧所对应的音频长度为pianoroll格式的乐谱与梅尔频谱图的切分方式相同,切分后连接指的是编码器第i个残差模块的输出会和解码器的第4_i个残差模块的输入在通道维编码器中的每个残差模块由依次相连接的一个残差在编码器的第一层和解码器的最后一层都有一个单独的卷积,即输入卷积和输出卷梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把输码器中,得到乐谱特征,然后编码器第一层的卷积将乐谱编码器输出的乐谱特征和带有Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷5每个残差卷积模块包括两个并列的卷积模块,两个卷积模块分别接则化函数、激活函数和1x3卷积构成;而接受timeembe接的接收timeembedding输入的激活函数、Linear和输入的特征图和timeembedding分别经过对应的卷积模块后相加,并依次输将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将用PGHI相位重建算法将得到的完整的梅6率非负矩阵分解或基于神经网络的模型。然而,对于几百甚至几千毫秒的长间隙(大于[0007]2.传统的机器学习方法只能修复1007谱图使用拼接函数在通道维度上拼接后送入DCT_DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数在通道维度所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维度拼[0018]步骤6:使用神经网络声码器或者PGHI相位重建算法将得到的完整的梅尔频谱图模块相连接,编码器的第i个残差模块的输出和解码器的第4_i个残差模块的输入跳跃连差模块的输入在通道维度拼接后再送入解码器的残[0025]编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组8的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将梅尔频谱图和pianoroll格式的乐谱频谱图使用拼接函数(torch.cat)在通道维度上拼接后送入DCT_DDPM进行训练,或在条件修复的情况下,将Pianoroll格式的乐谱特征提取后再与带有Mask的梅尔频谱图使用拼接函数(torch.cat)在通道维度上拼接后送入DCT_DDPM进行训练,最后得到对应的训练后的9图形状相同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入音频所对应的Pianoroll格式的乐谱的乐谱特征后,再与带有Mask的梅尔频谱图在通道维[0044]所述Mask模块中,随机范围的取值区间为[0,128],对应的音频长度为0ms到差模块的输入在通道维度拼接后再送入解码[0046]编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将[0073]得到带有Mask的梅尔频谱图将梅尔频谱图的随机范围替换为剪间隙并用高斯噪声填充间隙,间隙的范围区间为[0,128],对应的音频长度为0ms到[0075]将带有Mask的梅尔频谱图和音频转换得到梅尔频谱图使用拼接函数在通道维度[0076]DCT_DDPM的结构为Unet结构,其Encoder(编码器)和Decode编码器依次由输入卷积和3个残差模块组成,解码器依次由3个残差模块和输出卷积组成,编码器的最后一个残差模块和解码器的第一个残差模块之间通过另一个残差卷积模块相3≥i≥1,跳跃连接指的是编码器第i个残差模块的输出会和解码器的第4_i个残差模块的[0077]编码器中的每个残差模块由依次相连接的一个残差卷积模块和一个重采样层组的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷积把Mask的梅尔频谱图在通道维度拼接后得到的特征的通道从2变为64,解码器的最后一层卷卷积将pianoroll格式的乐谱的通道维度从1变换为128,为输入卷积,第二个卷积则将同的高斯噪声,然后将待修复的梅尔频谱图和高斯噪声在通道维度拼接后送入DCT_DDPM,[0086]在步骤5中获得了修复后的梅尔频谱图之后,使用神经网络声码器或者PGHI相位受到图像领域关注的生成式模型,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论