CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-07-04 格式：DOCX 页数：51 大小：1.43MB 积分：9.6 举报 版权申诉

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）_第2页

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）_第3页

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）_第4页

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）_第5页

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

司本申请公开一种生成音乐视频的方法，包括：利用第一网络模型对所述目标音频进行分音频帧的音频特征向量生成每一音频帧的音频2基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频特征基于所述每一音频帧的音频特征向量生成所述每一音频帧的音获取N个训练音频片段，分别从每个所述训练音频片段中选取两段部分重叠或不重叠选取任意一个训练音频片段的样本xi和样本xj做数据增强处理，获取增将各个分离音轨对应的初始谐波和初始冲击波进行逆短时傅里短时傅里叶变换后的初始谐波和初始冲击波的时间序列长度与各个分离音轨的时间序列若分离音轨包括伴奏音轨，利用伴奏音轨的冲击波生成脉冲将所述脉冲特征向量、所述动作特征向量及所述人声音高特征向3基于梅尔频谱特征矩阵中的最大梅尔频率，对所述梅尔频谱特征矩阵进行归一化处将归一化后的梅尔频谱特征矩阵降维到各个音频帧下的向量作为所述对所述谐波梅尔频谱特征矩阵做倒谱分析得到梅尔频率倒普系数特征将归一化后的梅尔频率倒普系数特征矩阵降维到各个音频帧下的向量作为所述动作将归一化后的色谱CQT变换特征矩阵降维到各个音频帧下的向量作为所述人声音高特运用滤波器对所述脉冲特征向量、动作特征向量和人声音高特征向将所述目标音频的首个音频帧到当前音频帧之间的每一音频帧的动作特征向量增量将当前音频帧的基础噪声向量、当前音频帧的脉冲特征向量增量、循环执行上述步骤，获取每一音频帧的复合音频特征向4基于标准正态分布生成按照音频帧顺序的正态分布向量，根将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音将所述动作特征向量的基向量、每一音频帧的动作特征向量、将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音从所述复合音频特征向量增量矩阵中选择对应每一音频帧的复合音频特征向量增量将音频帧的复合音频特征向量增量输入到所述映射网络部分，将所述复合音频特征向量增量映射向量输入到所述综合网络部分的将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每一音将所述动作特征向量的基向量、每一音频帧的动作特征向量、将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音5其中，所述脉冲特征向量增量、动作特征向量增量及人所述将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每在首个音频帧，将脉冲特征向量的基向量与首个音频帧的脉冲与第m音频帧的脉冲特征向量做乘积生成第m音频帧的脉冲特征所述将所述动作特征向量的基向量、每一音频帧的动作特征向随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增量，包动作随机因子和首个音频帧的动作方向因子做乘积生成首个音频帧的动作特征向量增量；在第m音频帧，基于第m音频帧的脉冲特征向量初始增量和第m-1音频帧脉冲特征向量增量m音频帧的动作特征向量初始增量；基于第m音频帧的动作特征向量初始增量和第m-1音频所述将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每在首个音频帧，将人声音高特征向量的基向量和首个音频于第m音频帧的人声音高特征向量初始增量和第m-1音频帧的人声音高特征向量增量做加向量增量的绝对值加上或者减去动作特征向量反应系数生成的值大于两倍预设的截断值，获取不同音频类别对应的视频素材，对视频素材进行抽帧处理，20.根据权利要求1所述的方法，其特征在于，所综合网络部分；所述利用与所述音频类别对应的第三网络模型处理所述音频特征向量增将脉冲特征向量增量、动作特征向量增量和人声音高特征向量增量6将所述多个音频特征向量增量映射向量中，与所述动作特征向量增器被配置为在运行计算机程序时执行权利要求1-27[0005]利用第一网络模型对所述目标音频进行分类，获取所述目标音频对应的音频类[0008]基于各个所述分离音轨的谐波和冲击波生成所述目标音频的每一音频帧的音频[0010]利用与所述音频类别对应的第三网络模型处理每一音频[0013]获取不同音乐类别的N个训练音频片段，分别从每个所述训练音频片段中选取两[0016]在本发明一些实施例中，所述第二网络模型为具有语义分割(U-Net)网络与双向8个逆短时傅里叶变换后的初始谐波和初始冲击波的时间序列长度与各个分离音轨的时间[0029]将归一化后的梅尔频谱特征矩阵降维到各个音频帧下的向量作为所述脉冲特征[0035]将归一化后的梅尔频率倒普系数特征矩阵降维到各个音频帧下的向量作为所述[0041]利用每个音频帧对应的加权平均色谱值，对所述色谱CQT变换特征矩阵归一化处[0042]将归一化后的色谱CQT变换特征矩阵降维到各个音频帧下的向量作为所述人声音9特征向量增量、人声音高特征向量增量和复合音频特征向量增量latentz中的一个或多[0048]将所述目标音频的首个音频帧到当前音频帧之间的每一音频帧的动作特征向量[0054]将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每[0056]将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每按照音频帧顺序的正态分布向量作为所述基础[0060]基于标准正态分布生成[512,音频帧数]上下限为[-2,2]的截断正态分布向量作[0061]在本发明一些实施例中，所述音频特征向量增量包括复合音频特征向量增量[0063]从所述复合音频特征向量增量矩阵中选择对应每一音频帧的复合音频特征向量[0064]在本发明一些实施例中，所述第三网络模型包括映射网络部从所述音频特征向量增量矩阵中选中对应每一音频帧的复合音频特征向量增量输入到与[0068]根据每一音频帧对应的脉冲特征向量的强度，对所述视频帧添加对应的同步特[0073]将所述脉冲特征向量的基向量和每一音频帧的所述脉冲特征向量做乘积生成每随机因子和每一音频帧的动作方向因子做乘积生成每一音频[0075]将人声音高特征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每向量与第m音频帧的脉冲特征向量做乘积生成第m音频帧的帧的动作随机因子和首个音频帧的动作方向因子做乘积生成首个音频帧的动作特征向量成第m音频帧的动作特征向量初始增量；基于第m音频帧的动作特征向量初始增量和第m-1向量和第m音频帧的人声音高特征向量做乘积生成第m音频帧的人声音高特征向量初始增[0086]在本发明一些实施例中，与所述音频类别对应的第三网络模型通过如下步骤生[0090]在本发明一些实施例中，所述第三网络模型包括映射网络部音高特征向量增量对应的音频特征向量增量映射向量，输入到综合网络部分的前部网络[0101]图2示出了本发明实施例生成音乐视频方法中的训练第一网络模型的一流程示意[0102]图3示出了本发明实施例生成音乐视频方法中的训练第一网络模型的另一流程示[0104]图5a示出了本发明实施例生成音乐视频方法中的生成复合音频特征向量增量的[0105]图5b示出了本发明实施例生成音乐视频方法中的生成复合音频特征向量增量的计算机可以由本文所记载的计算机或其他可实现相应功能的电子一网络模型包括编码神经网络(genc())和与编码神经网络(gproj())的输出层连接的投影j,0经过上述数据增强后作为正样本对。另外对随机片段x随机抽样2(N-1)如SampleCNN作为编码器，音频输入为59049个样本，采样率为22050Hz。该卷积神经网络或xi,2N网络模型为具有语义分割(U-Net)网络结构与双向长短期记忆(LSTM)模块的波形到波形型进行音轨分离的过程如下：所述目标音频(如图4左上角所示的目标音频波形)通过编码谐波和初始冲击波；将各个分离音轨对应的初始谐波和初始冲击波进行逆短时傅里叶(iSTFT)转换，并调整各个逆短时傅里叶变换后的初始谐波和初始冲击波的时间序列长度[0137]在本发明实施例中，可以通过按照预定的时间长度将所述目标音频分为多个片[0146]在本发明的一些实施例中，利用伴奏音轨的冲击波生成脉冲特征向量的步骤包音轨的谐波转换为声谱图；将声谱图与若干个梅尔滤波器点乘得到谐波梅尔频谱特征矩数特征矩阵降维到各个音频帧下的向量作为所述征向量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的所述人声音的动作随机因子和每一音频帧的动作方向因子做乘积生成每一音频帧的动作特征向量增Motion增量设置512维度，各维度大小在(1-motion_randomness,1)之间的随机因子(例如现视觉效果变形的速度，会将增量累加到基础噪声中。具体过程可以通过公示表达为：latentz(i)＝noisebase(i)+motionsum[1:i+1]+pulseadd+vocaladd，i代表第i音频帧，每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量，包括：量的基向量与第m音频帧的脉冲特征向量做乘积生成第m音频帧的脉冲特征向量初始增量；基于第m音频帧的脉冲特征向量初始增量和第m-1音频帧脉冲特征向量增量做加权平均处动作特征向量、第m音频帧的动作随机因子和第m音频帧的动作方向因子做乘积生成第m音量的基向量和每一音频帧的人声音高特征向量做乘积生成每一音频帧的人声音高特征向量增量latentz合成后得到复合音频特征增量矩阵la用ffmpeg对视频素材进行抽帧处理，使用openCV对视频素材进行缩放例如缩放到1024*[0187]结合图6对本发明的一些实施例中的生成视频帧的方法进行介绍。针对计算得到前帧的复合音频特征向量latentz，将复合音频特征向量输入到特定类型styleGAN2网络latentw后，将复合音频特征向量增量映射向量直接输入到styleGAN2的综合网络增量矩阵选中对应每一音频帧的复合音频特征向量增量输入到与音频类别对应的第三网步骤S110确定的音频类别使用对应的第三[0189]在一种具体实现方式中，第三网络模型包括映射网络MappingNetwork部分和综映射得到复合音频特征增量映射向量；将复合音频特征增量映射向量输入到Synthesis高特征向量增量分别输入到映射网络MappingNetwork部分，映射得到多个音频特征增量映射向量；将与动作特征向量增量和人声音高特征向量增量对应的音频特征增量映射向增量映射向量输入到SynthesisNetwork部分的后部网络层，最后生成与音频帧对应的视[0192]另一种方法是针对提取出来的音乐特征向量增量分别通过styleGAN2的映射网络MappingNetwork映射得到多个音频特征向量增量映射向量，用将与所述动作特征向量增量和所述人声音高特征向量增量对应的音频特征向量增量映射向量输入到styleGAN2的综量增量对应的音频特征向量增量映射向量输入到styleGAN2的综合网络Synthesis[0194]为了提升视频分辨率，基于超分辨率算法对视频分辨率进行优化。例如，使用标音频对应的音频类别；[0201]音频特征向量生成模块140，用于基于各个所述分离音轨的谐波和冲击波生成所[0202]音频特征向量增量生成模块150，用于基于所述每一音频帧的所述音频特征向量[0203]视频帧生成模块160，用于利用与所述音频类别对应的第三网络模型处理每一音[0208]图8示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备器(ROM)802中的程序和/或数据或者从存储部分808加载到随机访问存储器(RAM)803中的由任何方法或技术来实现信息存储的

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN114067840B 生成音乐视频的方法、存储介质和电子设备 （腾讯音乐娱乐科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN114067840B 生成音乐视频的方法、存储介质和电子设备（腾讯音乐娱乐科技（深圳）有限公司）