CN114242033B 语音合成方法、装置、设备、存储介质及程序产品 (广州酷狗计算机科技有限公司)_第1页
CN114242033B 语音合成方法、装置、设备、存储介质及程序产品 (广州酷狗计算机科技有限公司)_第2页
CN114242033B 语音合成方法、装置、设备、存储介质及程序产品 (广州酷狗计算机科技有限公司)_第3页
CN114242033B 语音合成方法、装置、设备、存储介质及程序产品 (广州酷狗计算机科技有限公司)_第4页
CN114242033B 语音合成方法、装置、设备、存储介质及程序产品 (广州酷狗计算机科技有限公司)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN114242033B(65)同一申请的已公布的文献号(73)专利权人广州酷狗计算机科技有限公司地址510660广东省广州市天河区黄埔大道中315号自编1-17(72)发明人黄杰雄轩晓光关迪聆陈传艺孙洪文审查员陈跃燕(74)专利代理机构北京三高永信知识产权代理有限责任公司11138专利代理师李芳本申请公开了一种语音合成方法、装置、设方法包括:获取目标文本的目标音素、目标情感以及目标音色;对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合,得到音素融合特征;基于音素融合特征与目标音色对应的目标音色特征进行发音预测,得到目标音素对应的语音发音特征;对语音发音特征进行特征解码,得到目标声学特征;基于目标声学特征合成目标语音,目标语音与目标文本相对应,目标语音是具有目标情感与目标音色的音频。本申请实施例提供的方法,可得到不同情感以及不获取目标文本的目标音素、目标情感以及目标音色获取目标文本的目标音素、目标情感以及目标音色对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合,得到音素融合特征基于音素融合特征与目标音色对应的目标音色特征进行发音预测,得到目标音素对应的语音发音特征对语音发音特征进行特征解码,得到目标声学特征相对应,目标语音是具有目标情感与目标音色的音频2获取目标文本的目标音素、目标情感以及目标音色;对所述目标音素进行特征编码,得到目标音素序列;对所述目标情感进行特征编码,得到初始情感序列;对所述初始情感序列进行扩展处理,得到目标情感序列,所述目标情感序列与所述目标音素序列的序列长度相同;对所述目标音素序列和所述目标情感序列进行融对所述目标音色进行特征编码,得到初始音色序列;对所述初始音色序列进行扩展处理,得到目标音色序列,所述目标音色序列与所述音素融合序列的序列长度相同;将所述目标音色序列与所述音素融合序列输入语音预测网络进行发音预测,得到所述目标音素对应的语音发音序列,所述语音发音序列用于表征目标语音对应的发音时长、音调以及能量中的至少一种;对所述语音发音序列进行特征解码,得到目标声学特征;基于所述目标声学特征合成所述目标语音,所述目标语音与所述目标文本相对应,所述目标语音是具有所述目标情感与所述目标音色的音频。2.根据权利要求1所述的方法,其特征在于,所述音素融合序列由情感融合网络对所述目标音素序列与所述目标情感序列融合得到;所述目标声学特征由解码网络对所述语音发音序列解码得到。3.根据权利要求2所述的方法,其特征在于,所述方法还包将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理,得到所述音素融合序列。4.根据权利要求3所述的方法,其特征在于,所述将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理,得到所述音素融合序列,包括:将所述目标音素序列与所述目标情感序列进行序列融合,得到第一音素融合序列;将所述第一音素融合序列输入长短期记忆LSTM网络进行序列处理,得到第二音素融合将所述第一音素融合序列与所述第二音素融合序列进行所述序列融合,得到所述音素融合序列。5.根据权利要求4所述的方法,其特征在于,所述LSTM网络的网络层数根据融合需求或计算量需求中至少一种确定,所述网络层数与融合能力呈正相关关系,所述网络层数与计算量呈负相关关系。6.根据权利要求3所述的方法,其特征在于,所述对所述语音发音序列进行特征解码,将所述语音发音序列输入所述解码网络进行序列解码,得到所述目标声学特征,所述解码网络为流Flow结构。7.根据权利要求1至6任一所述的方法,其特征在于,所述对所述语音发音序列进行特对所述语音发音序列与所述目标音色序列进行特征融合,得到发音融合特征;对所述发音融合特征进行特征解码,得到所述目标声学特征。8.根据权利要求2至6任一所述的方法,其特征在于,所述情感融合网络、所述语音预测3网络与所述解码网络基于样本文本、样本语音、样本情感以及样本音色训练得到,所述样本语音是具有所述样本情感以及样本音色特征的音频,所述样本语音与所述样本文本相对应。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:确定所述样本文本对应的样本音素,所述样本音素包含所述样本文本对应的拼音信息以及各个拼音对应的时长信息;将所述样本音素对应的样本音素特征与所述样本情感对应的样本情感特征输入所述情感融合网络进行特征融合,得到样本音素融合特征;将所述样本音素融合特征与所述样本音色对应的样本音色特征输入所述语音预测网络进行所述发音预测,得到所述样本音素对应的预测语音发音特征;将所述预测语音发音特征输入所述解码网络进行所述特征解码,得到预测声学特征;基于所述预测声学特征与所述样本语音对应的样本声学特征,对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练。10.根据权利要求9所述的方法,其特征在于,声学特征为梅尔频谱特征;所述基于所述预测声学特征与所述样本语音对应的样本声学特征,对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练,包括:确定所述预测声学特征对应的预测梅尔频谱以及所述样本声学特征对应的样本梅尔频谱之间的误差损失;基于所述误差损失,通过反向传播更新所述情感融合网络、所述语音预测网络以及所述解码网络的网络参数。获取模块,用于获取目标文本的目标音素、目标情感以及目标音色;第一融合模块,用于对所述目标音素进行特征编码,得到目标音素序列;对所述目标情感进行特征编码,得到初始情感序列;对所述初始情感序列进行扩展处理,得到目标情感序列,所述目标情感序列与所述目标音素序列的序列长度相同;对所述目标音素序列和所述目标情感序列进行融合处理,得到音素融合序列;第一预测模块,用于对所述目标音色进行特征编码,得到初始音色序列;对所述初始音色序列进行扩展处理,得到目标音色序列,所述目标音色序列与所述音素融合序列的序列长度相同;将所述目标音色序列与所述音素融合序列输入语音预测网络进行发音预测,得到所述目标音素对应的语音发音序列,所述语音发音序列用于表征目标语音对应的发音时第一解码模块,用于对所述语音发音序列进行特征解码,得到目标声学特征;语音合成模块,用于基于所述目标声学特征合成所述目标语音,所述目标语音与所述目标文本相对应,所述目标语音是具有所述目标情感与所述目标音色的音频。12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的语音合成方法。13.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指4指令集由处理器加载并执行以实现如权利要求1至10任一所述的语音合成方法。14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令以实现如权利要求1至10任一所述的语音合成方法。5语音合成方法、装置、设备、存储介质及程序产品技术领域[0001]本申请实施例涉及人工智能领域,特别涉及一种语音合成方法、装置、设备、存储介质及程序产品。背景技术[0002]语音合成是指将文本转化为音频的过程,该过程中,通常利用声学模型进行语音[0003]相关技术中,利用样本文本的音素与样本文本对应的音频训练声学模型,从而利用训练完成的声学模型将待合成文本对应的音素,转化为音频对应的声学特征,实现语音合成。其中,音素是根据语音的自然属性划分出最小语音单位,以中文普通话为例,音素可发明内容[0004]本申请实施例提供了一种语音合成方法、装置、设备、存储介质及程序产品。所述技术方案如下:[0005]一方面,本申请实施例提供了一种语[0006]获取目标文本的目标音素、目标情感以及目标[0007]对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行[0008]基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测,得到所述目标音素对应的语音发音特征;[0009]对所述语音发音特征进行特征解码,得到目标声学特征;[0010]基于所述目标声学特征合成目标语音,所述目标语音与所述目标文本相对应,所述目标语音是具有所述目标情感与所述目标音色的音频。[0013]第一融合模块,用于对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合,得到音素融合特征;[0014]第一预测模块,用于基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测,得到所述目标音素对应的语音发音特征;[0015]第一解码模块,用于对所述语音发音特征进行特[0016]语音合成模块,用于基于所述目标声学特征合成目标语音,所述目标语音与所述目标文本相对应,所述目标语音是具有所述目标情感与所述目标音色的音频。[0017]另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一6条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的语音合成方法。[0018]另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一集或指令集由处理器加载并执行以实现如上述方面所述的语音合成方法。[0019]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的语音合成方法。[0020]本申请实施例提供的技术方案带来的有益效果至少包括:[0021]本申请实施例中,在合成文本对应的语音时,获取情感特征,将情感特征与文本对应的音素特征进行融合,得到融合情感后的音素融合特征,且同时还获取音色特征,利用融合情感后的音素融合特征与音色特征进行发音预测,得到音素对应的发音特征,并利用发音特征进行解码得到合成语音的声学特征。由于在语音合成过程中,将音素与情感特征融合,使合成语音可具有特定情感,且同时还利用音色特征进行发音预测,使合成语音具有特定音色,从而可得到不同情感以及不同音色的语音,丰富合成语音的语音效果,且有助于提高合成语音的自然性与真实性。附图说明[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0023]图1示出了本申请一个示例性实施例提供的实施环境的示意图;[0024]图2示出了本申请一个示例性实施例提供的语音合成方法的流程图;[0025]图3示出了本申请另一个示例性实施例提供的语音合成方法的流程图;[0026]图4示出了本申请一个示例性实施例提供的声学模型的结构示意图;[0027]图5示出了本申请一个示例性实施例提供的声学模型训练方法的流程图;[0028]图6是本申请一个示例性实施例提供的语音合成装置的结构框图;[0029]图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体实施方式[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。[0031]请参考图1,其示出了本申请示例性实施例提供的实施环境的示意图。该实施环境中可以包括:终端101与服务器102。[0032]终端101是提供有语音合成功能的电子设备。终端101可以为智能手机、平板电脑、智能电视、数码播放器、膝上型便携计算机或台式计算机等等。终端101中可运行有提供语音合成功能的客户端,该客户端可为即时通信类应用程序、音乐播放类应用程序、阅读类应7用程序等,本申请实施例对终端101的具体类型不做限定。[0033]服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集云计算服务的云服务器。本申请实施例中,服务器是终端101中提供语音合成功能客户端的[0034]终端101和服务器102间能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。[0035]在一种可能的实施方式中,如图1所示,终端101将需转化的目标文本以及合成语音对应的情感类型与音色类型发送至服务器102,服务器102接收到目标文本、情感类型以及音色类型后,基于目标文本、情感类型以及音色类型对应的特征进行语音合成,得到音频的声学特征,实现将文本转化为具有特定情感以及特定音色类型的语音。[0036]在另一种可能的实施方式中,上述语音合成过程也可由终端101执行。服务器102对用于进行语音合成的声学模型进行训练,从而将训练完成的声学模型发送至终端101,由终端101在本地实现语音合成,无需借助服务器102。或者,用于进行语音合成的声学模型也可在终端101侧进行训练,并由终端101执行语音合成过程。本申请实施例对此不做限定。[0037]为了方便表述,下述各个实施例以语音合成方法由计算机设备执行为例进行说[0038]本申请实施例提供的方法可应用于配音场景,如文章配音、小说配音、杂志配音等,采用本实施例提供的方法,在配音过程中,可根据书籍中的文本内容生成指定情感以及指定音色的语音,丰富配音效果。[0039]且还可应用于智能教育场景,将所需学习的文本内容转化为具有特定情感以及特定音色特征的语音,从而模拟真人教育场景,有助于对文本内容更好的理解与学习。[0040]上述仅对应用场景为例进行示意性说明,本申请实施例提供的方法还可以应用于其他需要进行语音合成的场景,本申请实施例并不对实际应用场景构成限定。[0041]请参考图2,其示出了本申请一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。[0042]步骤201,获取目标文本的目标音素、目标情感以及目标音色。[0043]可选的,目标文本指需转化为语音的文本。音素是根据语音的自然属性划分出最小语音单位,不同语种对应音素可能不同,比如,文本对应的中文普通话的音素与方言的音标文本所需合成语种的音素。目标音素可为对目标文本进行前端处理得到。[0045]目标情感与目标音色是指合成语音后语音所具有的表现效果。其中,目标情感与目标音色可以为针对目标文本的单一情感与单一音色。比如,目标情感可为高兴,目标音色[0046]步骤202,对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行8[0047]其中,目标音素特征是对目标音素的向量化表示,目标音素特征中包含目标音素中的各个音素信息。目标情感特征是对目标情感的向量化表示,用于指示目标情感对应的情感类型。[0048]在获取目标音素以及目标情感后,对目标音素以及目标情感进行处理,得到对应的目标音素特征以及目标情感特征,从而对目标音素特征与目标情感特征进行融合,将情感融入音素中,得到融合后的音素融合特征,从而基于音素预测发音时使发音具有目标情[0049]步骤203,基于音素融合特征与目标音色对应的目标音色特征进行发音预测,得到目标音素对应的语音发音特征。[0051]由于不同音色对应的发音方式不同,比如,不同人说话对应的音调不同。因此,在一种可能的实施方式中,计算机设备在基于音素融合特征进行发音预测的过程中,同时引入目标音色对应的音色特征,从而得到具有特定音色以及特定情感的发音方式。[0052]步骤204,对语音发音特征进行特征解码,得到目标声学特征,目标语音与目标文本相对应,目标语音是具有目标情感与目标音色的音频。[0053]可选的,在预测得到语音发音特征后,需进行特征解码,当计算机设备将其解码为音频对应的声学特征,后续才可基于目标声学特征进行语音合成。[0054]其中,声学特征用于表示语音的频谱特征,目标声学特征即为合成目标语音对应的频谱特征,其可为梅尔频谱(mel-spectrogram)、梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)、线性预测倒谱系数(LinearPredictionCepstralCoefficients,LPCC)、感知线性预测系数(PerceptualLinearPredictive,PLP)等。[0055]步骤205,基于目标声学特征合成目标语音,目标语音与目标文本相对应,目标语音是具有目标情感与目标音色的音频。[0056]计算机设备可利用声码器对声学特征进行转换,得到目标语音。目标语音即为目标文本对应的读音,且读音具有特定的情感以及特定的音色。[0057]其中,声码器用于将声学特征转化为可播放的语音波形,即将声学特征还原为音码器,本实施例对声码器的具体结构不做限定。[0058]综上所述,本申请实施例中,在合成文本对应的语音时,获取情感特征,将情感特征与文本对应的音素特征进行融合,得到融合情感后的音素融合特征,且同时还获取音色特征,利用融合情感后的音素融合特征与音色特征进行发音预测,得到音素对应的发音特征,并利用发音特征进行解码得到合成语音的声学特征。由于在语音合成过程中,将音素与情感特征融合,使合成语音可具有特定情感,且同时还利用音色特征进行发音预测,使合成语音具有特定音色,从而可得到不同情感以及不同音色的语音,丰富合成语音的语音效果,且有助于提高合成语音的自然性与真实性。[0059]可选的,音素融合特征由情感融合网络对目标音素特征与目标情感特征融合得到;语音发音特征由语音预测网络对音素融合特征与目标音色特征预测得到;目标声学特征由解码网络对语音发音特征解码得到。下面将对基于情感融合网络、语音预测网络以及解码网络进行语音合成的过程进行示例性说明。9[0060]请参考图3,其示出了本申请另一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。[0061]步骤301,获取目标文本的目标音素、目标情感以及目标音色。[0062]本步骤实施方式可参考上述步骤201,本实施例不再赘述。[0063]步骤302,对目标音素进行特征编码,得到目标音素序列。[0064]在一种可能的实施方式中,将目标音素输入音素嵌入层进行嵌入embedding处理,得到目标音素对应的初始音素序列,在得到初始音素序列后,将初始音素序列输入编码网络进行编码,得到对应的目标音素序列,其中,目标音素序列即为对目标音素进行特征编码后得到的目标音素序列。环神经网络(RecurrentNeuralNetwork,RNN)、Transformer模型等,本实施例对编码网络的具体结构不做限定。[0066]步骤303,对目标情感进行特征编码,得到初始情感序列。[0067]在一种可能的实施方式中,将目标情感输入情感嵌入层进行embedding处理,得到[0068]其中,本步骤与步骤302的实施时序可为顺序执行,也可为同步执行,本实施例进对实施方式进行说明,但对实施时序不做限定。[0069]步骤304,对初始情感序列进行扩展处理,得到目标情感序列,目标情感序列与目标音素序列的序列长度相同。[0070]由于需对目标音素特征与目标情感特征进行融合,因此,需使情感序列与音素序列的序列长度相同,即对初始情感序列进行序列扩展,使目标情感序列的序列长度与目标音素序列的序列长度相同。[0071]示意性的,当目标音素序列的序列长度为30,而初始情感序列的序列长度为1时,可将初始情感序列进行复制,得到目标情感序列,使目标情感序列的序列长度为30。[0072]步骤305,将目标音素序列与目标情感序列输入情感融合网络进行融合处理,得到音素融合序列。[0073]在一种可能的实施方式中,可将目标音素序列与目标情感序列直接进行序列融合,得到融合后的音素融合序列。然而,直接进行序列融合后得到的音素融合序列融合效果较差,合成语音后音频情感表达较为生硬。因此,在另一种可能的实施方式中,利用情感融合网络对目标音素序列与目标情感序列进行融合。可选的,情感融合网络中包含长短期记忆(LongShort-TermMemory,LSTM)结构以及残差shortcut结构。该步骤可替换为如下步[0074]步骤305a,将目标音素序列与目标情感序列进行序列融合,得到第一音素融合序[0075]在一种可能的实施方式中,计算机设备首先将目标音素序列与目标情感序列进行[0076]步骤305b,将第一音素融合序列输入长短期记忆LSTM网络进行序列处理,得到第二音素融合序列,LSTM网络用于将情感信息嵌入音素上下文信息中。[0077]由于LSTM网络可对特征在时序上前后信息相关性的学习能力较好,因此,引入LSTM网络对第一音素融合序列进行处理,从而基于音素帧与帧之间相关性进行情感特征的融合,即将情感信息嵌入音素的上下文信息中,从而使融合得到的特征融合效果较好,从而使合成音频情感表达更为细腻。的网络层数根据融合需求或计算量需求中至少一种确定,网络层数与融合能力呈正相关关[0079]当需使文本与情感信息的融合效果更好时,可基于较多LSTM层对第一音素融合序列进行处理;而当需加快语音合成,减少语音合成过程中的计算量时,可基于较少的LSTM层对第一融合序列进行处理。或者,可综合融合效果与计算量,确定LSTM层层数,在确保融合[0080]计算机设备利用LSTM网络对第一音素融合序列进行处理后,得到第二音素融合序[0081]步骤305c,将第一音素融合序列与第二音素融合序列进行序列融合,得到音素融合序列。素中各个音素均与情感特征融合。在一种可能的实施方式中,计算机设备将目标音素序列与目标情感序列直接进行序列融合后的第一音素融合序列与第二音素融合序列进行序列从而使合成语音情感表达更为细腻。[0083]步骤306,对目标音色进行特征编码,得到初始音色序列。[0084]在得到音素融合序列后,可基于音素融合序列进行发音特征的预测。而由于不同语音的音色特征与目标音色一致性。[0085]在一种可能的实施方式中,首先对目标音色进行特征编码,得到初始音色序列。即对目标音色进行embedding处理,得到初始音色序列。[0086]步骤307,对初始音色序列进行扩展处理,得到目标音色序列,目标音色序列与音素融合序列的序列长度相同。[0087]由于需对音素融合序列与目标音色对应的目标音色特征进行融合,因此,需使音色序列与音素融合序列的序列长度相同,即对初始音色序列进行序列扩展,使目标音色序列的序列长度与音色融合序列的序列长度相同。[0088]结合上述示例,当目标音素序列与目标情感序列的序列长度为30时,融合后的音色融合序列的序列长度仍为30,因此,对初始音色序列进行复制,得到序列长度为30的目标音色序列。[0089]步骤308,将目标音色序列与音素融合序列输入语音预测网络进行发音预测,得到目标音素对应的语音发音序列,语音发音序列用于表征目标语音对应的发音时长、音调以及能量中的至少一种。[0090]在一种可能的实施方式中,将目标音色序列与音素融合序列进行序列融合,得到融合后的特征序列,并将融合后的特征序列输入语音预测网络中进行发音预测,得到目标语音对应的发音时长、发音音调以及发音能量大小。11[0091]可选的,语音预测网络为可变信息适配器(VarianceAdaptor),其中,可包含时长预测器、音调预测器以及能量预测器。当将融合后的特征序列输入语音预测网络后,可通过时长预测器预测得到音素的时长序列,通过音调预测器得到音调序列,以及通过能量预测器得到能量序列。[0092]步骤309,将语音发音序列输入解码网络进行序列解码,得到目标声学特征,解码网络为流Flow结构。[0093]计算机设备得到语音发音特征后,对语音发音特征进行解码,得到最终的目标声[0094]可选的,解码网络可为CNN、RNN、Transformer等结构。而在一种可能的实施方式[0095]且在进行长文本即字数较多的文本进行音频合成时,Flow结构计算量较小。比如,当目标文本的文本长度为T时,Flow结构的计算复杂度为0(T),而Transformer结构的计算复杂度为0(T*T)。[0096]步骤310,基于目标声学特征合成目标语音。[0097]本步骤实施方式可参考上述步骤205的实施方式,本实施例不再赘述。[0098]本实施例中,利用LSTM结构以及shortcut结构进行目标音素特征与目标情感特征的融合,从而提高音素与情感的融合效果,使合成语音在情感表达上更为细腻,提高语音拟人真实性以及流畅性。[0099]本实施例中,在预测发音特征过程中,引入目标音色特征,使最终得到的目标声学特征更具目标音色对应的音色特点,从而提高语音拟人真实性以及流畅性。[0100]本实施例中,在对语音发音特征进行解码时,采用Flow结构进行解码,可降低合成长文本对应的目标声学特征时的计算复杂度。[0101]在一种可能的实施方式中,除在语音发音预测过程中引入目标音色特征外,为加强目标音色的发音特征,在解码过程中,同时基于语音发音特征与目标音色特征进行解码,得到目标语音的目标声学特征,从而使目标语音更具表现力。[0103]步骤一、对语音发音特征与目标音色特征进行特征融合,得到发音融合特征。[0104]为使语音对应的音色与目标音色对应的发音特征更为符合,将语音发音特征与目标音色特征进行特征融合,从而基于融合后的发音融合特征进行特征解码,即利用语音发音序列与目标音色序列共同进行序列解码。在一种可能的实施方式中,将语音发音序列与目标音色序列进行序列融合,得到发音融合序列。其中,融合后的发音融合序列与语音发音序列的序列长度保持相同。[0105]步骤二、对发音融合特征进行特征解码,得到目[0106]得到发音融合序列后,计算机设备将发音融合序列输入解码网络进行特征解码。即利用Flow结构对发音融合序列进行特征解码。[0107]在利用Flow结构进行解码的过程中,包含多次特征输入,在每次特征输入过程中,均将语音发音序列与目标音色序列进行融合输入,即每次均输入发音融合序列,从而使不同音色以及不同情感的音频声学特征拟合效果更好。[0108]本实施例中,在解码过程中,引入目标音色特征,且利用Flow结构对音色特征与发音特征进行解码,提供拟合音色特征与发音特征的能力,从而进一步加强解码得到的目标声学特征对应的音色特点,提高与目标音色的相似性。[0109]在一种可能的实施方式中,语音合成的声学模型的模型结构可如图4所示,基于该声学模型合成目标声学特征过程可为:[0110]将目标文本的目标音素输入音素嵌入层(PhonemeEmbedding)401中进行嵌入处理,得到初始音素序列,并将初始音素序列输入编码器(Encoder)402进行编码处理得到目标音素序列。且将目标情感输入情感嵌入层(EmotionEmbedding)403进行嵌入处理,得到目标情感序列。之后,计算机设备将目标音素序列与目标情感序列进行序列融合,并将融合后的第一音素融合序列输入情感融合网络(EmotionNet)404中,得到第二音素融合序列,且将第一音素融合序列与第二音素融合序列进行序列融合,得到音素融合序列。[0111]同时,计算机设备将目标音色输入音色嵌入层(SpeakerEmbedding)405中进行嵌入处理,得到目标音色序列。计算机设备将音素融合序列与目标音色序列进行融合,并将融合后的发音融合序列输入到语音预测网络VarianceAdaptor406中,得到语音发音序列,且将语音发音序列与目标音色序列进行序列融合,并将融合得到的发音融合序列输入解码器(mel-spectrogramFlowDecoder)407中进行解码处理,得到目标声学特征,即梅尔频谱特征。[0112]在一种可能的实施方式中,进行语音合成的声学模型由训练集中训练样本训练得及样本音色训练得到,样本语音是具有样本情感以及样本音色特征的音频,样本语音与样本文本相对应。[0113]即一组训练样本中包含样本文本、样本语音、样本情感以及样本音色。可选的,相同的样本文本可能对应不同的样本语音,比如,相同的样本文本对应不同情感或不同音色色可为不同人说话对应的音色。由于相同的样本文本可能对应不同的样本语音,因此,每组训练样本均需进行标注,从而区别训练样本中样本语音对应的情感以及音色。比如,对于不[0114]在一种可能的实施方式中,计算机设备基于多组训练样本对声学模型进行训练,其中,声学模型中包含情感融合网络、语音预测网络与解码网络。下面对声学模型的训练方法进行示意性说明。[0115]请参考图5,其示出了本申请一个示例性实施例提供的声学模型训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。[0116]步骤501,确定样本文本对应的样本音素,样本音素包含样本文本对应的拼音信息以及各个拼音对应的时长信息。[0117]当获取样本文本后,可将样本文本转化为样本音素。可选的,利用前端处理模块将文本转化为音素。[0118]在一种可能的实施方式中,在训练过程中,除需获取样本文本对应的音素外,还需获取样本音素中各个拼音对应的时长信息,即样本音素的时间戳信息,其为每个拼音的声韵母在样本语音中对应的起始位置与结束位置。从而根据真实音频中各个音素的时长信息对模型进行训练,提高模型预测发音时长的准确性。[0119]可选的,样本音素的时间戳信息可通过对齐模型输出得到。在一种可能的实施方式中,使用forcealignment对齐工具得到样本音素的时间戳信息。示意性的,当样本文本的时间戳信息为(时间单位为秒):“j(0.0,0.2)in1(0.2,0.5)t(0.5,0.6)ian1(0.6,0.8)d(0.8,0.9)e1(0.9,1.2)t(1.2,1.3)ian1(1.3,1.6)q(1.6,1.8)i4(1.8,2en1(2.2,2.5)h(2.5,2.6)ao3[0120]步骤502,将样本音素对应的样本音素特征与样本情感对应的样本情感特征输入情感融合网络进行特征融合,得到样本音素融合特征。[0121]可选的,样本音素特征中包含样本音素的时间戳信息。当获取样本音素后,对样本音素进行Embedding以及Encoder处理,得到样本音素序列,且对样本情感进行Embedding处理,得到样本情感序列。同样的,样本音素序列与样本情感序列的序列长度需保持相同。[0122]在一种可能的实施方式中,将样本音素序列与样本情感序列输入情感融合网络进[0123]可选的,情感融合网络包含LSTM结构与shortcut结构,其对样本音素序列与样本情感序列的融合过程可参考上述步骤305中情感融合网络对目标音素序列与目标情感序列[0124]步骤503,将样本音素融合特征与样本音色对应的样本音色特征输入语音预测网络进行发音预测,得到样本音素对应的预测语音发音特征。[0125]在融合得到样本音素融合特征之后,利用样本音素融合特征与样本音色特征进行[0126]其中,样本音色特征为对样本音色进行Embedding处理之后得到的样本音色序列。可选的,样本音色序列的序列长度需与样本音素融合序列的序列长度保持相同。[0127]可选的,预测语音发音特征包括预测发音时长、预测发音音调以及预测发音能量[0128]可选的,语音预测网络对样本音素融合序列以及样本音色序列进行发音预测的过程可参考上述步骤308中语音预测网络对音素融合序列与目标音色序列进行发音预测的过程,本实施例不再赘述。计算机设备通过语音预测网络进行发音预测,得到预测语音发音序[0129]步骤504,将预测语音发音特征输入解码网络进行特征解码,得到预测声学特征。[0130]可选的,计算机设备将预测语音发音特征即预测语音发音序列输入解码网络进行特征解码,解码网络为Flow结构,基于解码网络进行特征解码,得到预测的梅尔频谱特征。[0131]而在另一种可能的实施方式中,在进行特征解码过程中还可基于音色特征进行解码,因此,在训练过程中,计算机设备还可将预测语音发音特征与样本音色特征输入解码网络进行特征解码,得到预测声学特征,从而提高训练后的解码网络对音色特征的拟合能力。[0132]当将预测语音发音特征与样本音色特征输入解码网络进行特征解码时,即将预测语音发音序列与样本音色序列进行序列融合得到预测发音融合序列,从而将预测发音融合序列输入解码网络,得到预测的梅尔频谱特征。[0133]其中,基于解码网络对预测语音发音序列与样本音色序列进行特征解码的过程可参考上述实施例利用解码网络对语音发音序列与目标音色序列进行特征解码的过程,本实施例不再赘述。[0134]步骤505,基于预测声学特征与样本语音对应的样本声学特征,对情感融合网络、语音预测网络以及解码网络进行训练。[0135]当计算机设备通过声学模型预测得到样本文本对应的预测声学特征后,利用预测声学特征与样本声学特征对情感融合网络、语音预测网络以及解码网络进行训练,得到训练后的声学模型,从而可利用训练后的声学模型实现语音合成。在一种可能的实施方式中,训练过程可包括如下步骤:[0136]步骤505a,确定预测声学特征对应的预测梅尔频谱以及样本声学特征对应的样本梅尔频谱之间的误差损失。[0137]在一种可能的实施方式中,计算机设备预先对样本语音进行处理,得到样本语音对应的样本梅尔频谱,从而在基于声学模型得到样本文本的预测梅尔频谱后,利用样本梅尔频谱与预测梅尔频谱之间的误差训练声学模型。[0138]可选的,计算机设备可利用L1损失函数确定样本梅尔频谱与预测梅尔频谱之间的误差损失值,基于误差损失值对声学模型进行训练。或者,还可采用L2损失函数、均方误差(Mean-SquareError,MSE)损失函数等进行误差损失值的计算,本实施例对误差损失值的计算方式不做限定。[0139]步骤505b,基于误差损失值,通过反向传播更新情感融合网络、语音预测网络以及解码网络的网络参数。[0140]在一种可能的实施方式中,确定误差损失后,可基于误差损失反向传播更新声学模型中各网络的网络参数,包括情感融合网络、语音预测网络以及解码网络的网络参数,直至网络参数满足训练条件为止,即误差损失达到收敛条件为止。[0141]比如,可采用Adam优化算法对声学模型梯度进行反向传播,更新声学模型中各网络的网络参数,得到训练后的声学模型。[0142]得到训练完成后的声学模型后,计算机设备可利用训练完成的声学模型对不同文本进行语音转化,且可得到具有不同情感、不同音色的声学特征,丰富合成语音的语音效[0143]图6是本申请一个示例性实施例提供的语音合成装置的结构框图,如图6所示,该装置包括:[0144]获取模块601,用于获取目标文本的目标音素、目标情感以及目标音色;[0145]第一融合模块602,用于对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合,得到音素融合特征;[0146]第一预测模块603,用于基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测,得到所述目标音素对应的语音发音特征;[0147]第一解码模块604,用于对所述语音发音特征进行特征解码,得到目标声学特征;[0148]语音合成模块605,用于基于所述目标声学特征合成目标语音,所述目标语音与所述目标文本相对应,所述目标语音是具有所述目标情感与所述目标音色的音频。[0149]可选的,所述音素融合特征由情感融合网络对所述目标音素特征与所述目标情感特征融合得到;[0150]所述语音发音特征由语音预测网络对所述音素融合特征与所述目标音色特征预测得到;[0151]所述目标声学特征由解码网络对所述语音发音特征解码得到。[0154]第二编码单元,用于对所述目标情感进行所述特[0155]第一扩展单元,用于对所述初始情感序列进行扩展处理,得到目标情感序列,所述目标情感序列与所述目标音素序列的序列长度相同;[0156]第一融合单元,用于将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理,得到音素融合序列。[0158]将所述目标音素序列与所述目标情感序列进行序列融合,得到第一音素融合序[0159]将所述第一音素融合序列输入长短期记忆LSTM网络进行序列处理,得到第二音素[0160]将所述第一音素融合序列与所述第二音素融合序列进行所述序列融合,得到所述音素融合序列。[0161]可选的,所述LSTM网络的网络层数根据融合需求或计算量需求中至少一种确定,所述网络层数与融合能力呈正相关关系,所述网络层数与计算量呈负相关关系。[0163]第三编码单元,用于对所述目标音色进行所述特[0164]第二扩展单元,用于对所述初始音色序列进行所述扩展处理,得到目标音色序列,所述目标音色序列与所述音素融合序列的序列长度相同;[0165]预测单元,用于将所述目标音色序列与所述音素融合序列输入所述语音预测网络进行所述发音预测,得到所述目标音素对应的语音发音序列,所述语音发音序列用于表征所述目标语音对应的发音时长、音调以及能量中的至少一种。[0167]将所述语音发音序列与所述目标音色序列输入所述解码网络进行序列解码,得到所述目标声学特征,所述解码网络为流Flow结构。[0169]第二融合单元,用于对所述语音发音特征与所述目标音色特征进行特征融合,得到发音融合特征;[0170]解码单元,用于对所述发音融合特征进行特征解码,得到所述目标声学特征。[0171]可选的,所述情感融合网络、所述语音预测网络与所述解码网络基于样本文本、样本语音、样本情感以及样本音色训练得到,所述样本语音是具有所述样本情感以及样本音色特征的音频,所述样本语音与所述样本文本相对应。[0173]确定模块,用于确定所述样本文本对应的样本音素,所述样本音素包含所述样本文本对应的拼音信息以及各个拼音对应的时长信息;[0174]第二融合模块,用于将所述样本音素对应的样本音素特征与所述样本情感对应的样本情感特征输入所述情感融合网络进行所述特征融合,得到样本音素融合特征;[0175]第二预测模块,用于将所述样本音素融合特征与所述样本音色对应的样本音色特征输入所述语音预测网络进行所述发音预测,得到所述样本音素对应的预测语音发音特[0176]第二解码模块,用于将所述预测语音发音特征输入所述解码网络进行所述特征解[0177]训练模块,用于基于所述预测声学特征与所述样本语音对应的样本声学特征,对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练。[0178]可选的,所述声学特征为梅尔频谱特征。[0180]损失确定单元,用于确定所述预测声学特征对应的预测梅尔频谱以及所述样本声学特征对应的样本梅尔频谱之间的误差损失;[0181]训练单元,用于基于所述误差损失,通过反向传播更新所述情感融合网络、所述语音预测网络以及所述解码网络的网络参数。[0182]综上所述,本申请实施例中,在合成文本对应的语音时,获取情感特征,将情感特征与文本对应的音素特征进行融合,得到融合情感后的音素融合特征,且同时还获取音色特征,利用融合情感后的音素融合特征与音色特征进行发音预测,得到音素对应的发音特征,并利用发音特征进行解码得到合成语音的声学特征。由于在语音合成过程中,将音素与情感特征融合,使合成语音可具有特定情感,且同时还利用音色特征进行发音预测,使合成语音具有特定音色,从而可得到不同情感以及不同音色的语音,丰富合成语音的语音效果,且有助于提高合成语音的自然性与真实性。[0183]需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其实现过程详见方法实施例,这里不再赘述。[0184]请参考图7,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲:所述计算机设备700包括中央处理单元(括随机存取存储器702和只读存储器703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/0系统)706,和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。[0185]所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输[0186]所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,所述大容量存储设备707可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。[0187]不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括存或其他固态存储其技术,只读光盘(CompactDiscRead-Only用光盘(DigitalVersatileDisc,DVD)或其他光学存储、磁带盒、磁带性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论