CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-07-01 格式：DOCX 页数：48 大小：2.01MB 积分：9.6 举报 版权申诉

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第2页

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第3页

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第4页

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本公开提供了一种语音风格迁移方法、装取待迁移的目标音频的声谱特征和音素时长特2获取待迁移的目标音频以及待合成音素序列；其中，所述目标音对所述待迁移的目标音频进行声谱特征提取以及音素时长特征提取，对所述待合成音素序列进行内容特征提取以及音素时长预测，得到所基于所述目标音频的音素时长特征，对所述每个待合成音素的预测基本时长进行调基于所述目标音频的声谱特征、待合成音素序列的内容特将所述目标声谱转化为音频，得到所述待合成音素序列对应的具对所述待迁移的目标音频中包含的各个音素进行时长计算所述基于所述目标音频的音素时长特征，对所述每个待合成音素的根据所述目标音频的音素时长的均值和方差，对所述每个待合成音所述基于所述目标音频的声谱特征、待合成音素序列的内容基于所述待合成音素序列中每个待合成音素的目标时长，对所述待基于所述待合成音素序列的目标内容特征及所述目标音所述对所述待迁移的目标音频进行声谱特征提取的步骤，包括：将所述对所述待合成音素序列进行内容特征提取以及音素时长预测的步3所述基于所述待合成音素序列的目标内容特征及所述目标音频的风格特音素序列进行解码，获取所述待合成音素序列对应的具有目标音频风格的目标声谱的步所述将所述目标音频的声谱特征输入预设的风格编码模型，得到所述目将所述目标音频的声谱特征输入所述第一U型网络模型，进行内容特所述将所述待合成音素序列的目标内容特征及所述目标音频的风格特征输入预设的将所述待合成音素序列的目标内容特征及所述目标音频的风格特征输入所述第二U型网络模型，得到所述第二U型网络模型输出的所述待合成音素序列对应的具有目标音频风将第一样本音频输入至预先训练完成的说话人识别模型，得将第一样本音频的第一音素序列输入待训练的内容编码模型，得到第一样本音基于第一样本音素序列中每个音素的时长，对各个音素的第一样本内将所述说话人特征及各个第一样本目标内容特征输入至待训练的声谱解码基于第一样本声谱特征与第一样本音频的真实声谱特征的误差，对基于所述第二样本音频的音素时长的均值和方差，对所述第二样基于各个样本目标时长，对所述第二样本音素序列中每个音4将所述第二样本音频的真实声谱特征输入至待训练的风格编码模型基于所述样本音频内容特征与所述真实内容特征的误差，对待将所述真实内容特征和待定风格编码模型输出的样本风格特征输入至待训练的声谱基于样本声谱特征与真实声谱特征的误差，对待训练的声谱解码模待合成音素序列特征提取模块，用于对所述待合成音素序列进行内音素时长调整模块，用于基于所述目标音频的音素时长合成音频获取模块，用于将所述目标声谱转化为音频，得到所述待所述音素时长调整模块，用于根据所述目标音频的音素时长的均值和方风格特征提取模块，用于基于所述目标音频的声谱特征，提取所述所述目标声谱获取模块，用于基于所述待合成音素序列中每个待合成音素的目标时基于所述待合成音素序列的目标内容特征及所述目标音5所述目标音频特征获取模块，用于将所述待迁移的目标音频输入预设所述待合成音素序列特征提取模块，用于将所述待合成音素序列输入所述风格特征提取模块，用于将所述目标音频的声谱特征输入预设的风格编码模型，所述目标声谱获取模块，用于将所述待合成音素序列的目标内容特所述目标声谱获取模块，用于将所述待合成音素序列的目标内容特所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被67机程序在被处理器执行时实现上述任一所述的语音风[0025]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特8[0042]步骤S120，对所述待迁移的目标音频进行声谱特征提取[0043]本公开实施例中，上述待迁移的目标音频的声谱特征可以反映说话人的声音特述待合成音素序列的内容特征以及每个待合成音素的预测音识别模型。预测结果可以用单位时长的数量来表征。例如：可以设置一个单位时长为9容特征进行组合得到整个待合成音素序列的[0069]步骤S152，基于所述待合成音素序列的目标内容特征及所述目标音频的风格特[0073]本公开实施例中，上述声谱特征可以是MFCC(Mel-FrequencyCepstral的一种具体实施方式，上述说话人识别模型可以由多层TDNN(timedelayneural[0078]本公开实施例中，上述内容编码模型可以由多层{Conv1D+ReLU(激活函数)层+IN的音频的音素标注以及时长标注预先训练的语音识别模型，该语音识别模型可以是LSTM-[0100]上述时长预测模型还可以基于上述待迁移目标音频的时长均值与方差对预测基[0105]将所述待合成音素序列的目标内容特征及所述目标音频的风格特征输入预设的[0111]⑤、将步骤③中得到的待合成音素序列的目标内容特征向量输入至声谱解码模[0117]所述将所述待合成音素序列的目标内容特征及所述目标音频的风格特征输入预设的声谱解码模型，得到所述待合成音素序列对应的具有目标音频风格的目标声谱的步[0118]将所述待合成音素序列的目标内容特征及所述目标音频的风格特征输入所述第[0119]通过使用上述U型网络进行语音风格迁移，可以将音频中的说话特点(speaking[0122]作为一种具体实施方式，本公开实施例中，上述风格编码模型可以由多个[0128]如上所述，上述风格编码模型和声谱解码模型共同构成U型网络，本公开实施例第二样本内容特征进行复制和组合，得到所述第二样本音素序列的第二样本目标内容特[0136]步骤S650，将所述第二样本音频的真实声谱特征输入至[0148]然后通过样本音频的说话人特征和该样本音频的音素序列训练内容编码到待训练的内容编码模型输出的各样本音素的内容特征(图7中，样本音素序列包含3个样可计算得到样本音频的各样本音素时长的均值(Mean)和方差(Std)，而通过样本音频可以[0153]将样本音频的真实声谱特征输入到风格编码模型(由多个{ResCNN1D层+IN层}构[0154]将上述真实的内容特征向量再输入到声谱解码模型(由多个{ResCNN1D层+AdaIN[0157]目标音频提取的声谱特征通过风格编码模型计算风格特征信息(包括声谱的均[0158]可见，与现有技术中通过内容方面的特征提取(phoneme)，说话人特性的提取(speaker)，音频声谱特征的预测(mel-spectrogram)，最后将声谱通过现有的声码器(Vocoder)转换为音频进行语音风格迁移造成的缺乏说话人动态或随机细粒度的特征相[0161]目标音频特征获取模块820，用于对所述待迁移的目标音频进行声谱特征提取以[0162]待合成音素序列特征提取模块830，用于对所述待合成音素序列进行内容特征提[0169]在本公开的一种实施例中，上述装置还可以包括风格特征提取模块(图中未示[0170]所述目标声谱获取模块850，用于基于所述待合成音素序列中每个待合成音素的[0173]所述待合成音素序列特征提取模块830，用于将所述待合成音素序列输入预设的[0175]所述目标声谱获取模块850，用于将所述待合成音素序列的目标内容特征及所述[0177]所述风格特征提取模块，用于将所述目标音频的声谱特征输入所述第一U型网络[0179]所述目标声谱获取模块850，用于将所述待合成音素序列的目标内容特征及所述的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执因特网的计算机网络和/或各种电信网络与其他设备交换信部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器[0187]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器[0190]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113963679B 一种语音风格迁移方法、装置、电子设备及存储介质（北京百度网讯科技有限公司）