CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-29 格式：DOCX 页数：35 大小：869.79KB 积分：9.6 举报 版权申诉

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）_第2页

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）_第3页

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）_第4页

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）_第5页

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

道福安社区益田路5033号平安金融中US2021090551A1,2021.03.25domainspeechemotionrecognition.2021,arXiv:2010.13350.信息以及训练语音信息；通过GST模型对第一训成损失值对语音合成模型中的TTS模型的参数和GST模型的参数进行调整，以对语音合成模型进使用TTS模型将文字转为情感化语音，提高语音2获取训练样本，所述训练样本包括第一训练文本信息以及所述通过语音合成模型中的全局风格标签GST模型对所述第一训练文本信息进行情感识别通过所述TTS模型对所述第一训练文本信息进行语言学习，得到所述第一训练文本信通过所述TTS模型对所述第一训练文本信息的底层结构特征和所述第一训练文本信息包括注意力机制模块，所述注意力机制模块包括压缩和激励网络SENet或者基于卷积块的将所述第一训练文本信息对应的预测语音信息和所述训练语音基于所述语音合成损失值对所述TTS模型的参数和GST模型的在第二电子设备运行有即时通讯客户端，且在用户驾车或者在智能诊疗或者远程会诊过程中，若检测到病人无法挪动身体，且2.如权利要求1所述的方法，其特征在于，所通过跨域语音情绪识别SER模型对所述第一训练文本信息进行情感分类处理，得到所通过所述GST模型对所述第一训练文本信息进行情感分类处理，得到所述第一训练文3所述通过语音合成模型中的GST模型对所述第一训练文本信息进行情感分类处理，得通过所述调整后的GST模型对所述第一训练文本信息进行情感识别处理，得到所述第3.如权利要求2所述的方法，其特征在于，基于最大均值差异MMD算法选择和所述第一训练文本信息之间的相似度大于预设比例通过所述跨域SER模型对所述第二训练文本信息进行情感分类处理，得到所述第一情成模型中的TTS模型的参数和GST模型的参数进行调整，以对所述语音合成模型进行训练，通过所述训练后的GST模型对所述目标文本信息进行情感预测，得到所述目标文本信通过所述训练后的TTS模型对所述目标文本信息和所述目标文本信息的情感向量进行所述通过所述训练后的TTS模型对所述目标文本信息和所述目标文本信息的情感向量获取单元，用于获取训练样本，所述训练样本包括第一训练文处理单元，用于通过语音合成模型中的GST模型对所述第一训练文本信息进行情感识所述处理单元，还用于通过所述语音合成模型中的TTS模型对所述第一训练文本信息机制模块包括压缩和激励网络SENet或者基于卷积块的注意机制CBAM，且所述注意力机制模块基于当前任务需求确定；所述SENet基于各特征通道的重要程度增强对当前任务有用4的特征并抑制对当前任务用处不大的特征，所述CBAM包含通道注意力模块CAM和空间注意所述处理单元，还用于将所述预测语音信息和所述训练语音信息进行所述处理单元，还用于基于所述语音合成损失值对所述语音合成模型中的TTS模型的所述处理单元，还用于在第二电子设备运行有即时通讯客户端，且8.一种计算机可读存储介质，其特征在于，所5如何在不对数据集进行情感标注的前提下，仍然可以使用TTS模型将文字转为情感化语音[0006]通过语音合成模型中的全局风格标签(GlobalStyleToken，GST)模型对第一训[0007]通过TTS模型对第一训练文本信息和第一训练文本信息的情感向量进行语音合成[0010]在一个实施例中，通过语音合成模型中的GST模型对第一训练文本信息进行情感[0012]通过GST模型对第一训练文本信息进行情感分类处理，得到第一训练文本信息的6[0015]通过语音合成模型中的GST模型对第一训练文本信息进行情感分类处理，得到第[0016]通过调整后的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文[0018]基于最大均值差异(MaximumMeanDiscrepancy，MMD)算法选择和第一训练文本[0020]在一个实施例中，通过语音合成模型中的GST模型对第一训练文本信息进行情感[0024]在一个实施例中，通过语音合成模型中的TTS模型对第一训练文本信息和第一训[0025]通过TTS模型对第一训练文本信息进行语言学习，得到第一训练文本信息的底层[0026]通过TTS模型对第一训练文本信息的底层结构特征和第一训练文本信息的情感向[0029]通过训练后的GST模型对目标文本信息进行情感预测，得到目标文本信息的情感[0030]通过训练后的TTS模型对目标文本信息和目标文本信息的情感向量进行语音合成[0034]所述通过训练后的TTS模型对目标文本信息和目标文本信息的情感向量进行语音7[0038]处理单元，用于通过语音合成模型中的GST模型对第一训练文本信息进行情感识[0039]处理单元，还用于通过语音合成模型中的TTS模型对第一训练文本信息和第一训语音合成模型包括训练后的GST模型和训练后的T过语音合成模型中的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文本TTS模型对第一训练文本信息和第一训练文本信息的情感向量进行语音合成处理，得到第合成模型包括训练后的GST模型和训练后的TT[0044]本申请实施例中，通过语音合成模型中的GST模型对第一训练文本信息进行情感8[0051]本申请实施例提供了一种语音合成模型的训练方法，通过语音合成模型中的GST[0052]本申请实施例中的语音合成模型的训练方法可以应用在存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络通过麦克风采集训练语音信息，并通过第一电子设备的输入装置(例如触控面板或者键盘9[0060]本申请实施例中的GST模型相对传统的GST模型添加了一个基于风格标签(style感向量包括该第一训练文本信息中不同情感的字符串对通过调整后的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文本信息的[0062]作为一种可行的实施方式，第一电子设备可以通过跨域SER模型对第一训练文本设备基于MMD算法选择和第一训练文本信息之间的相似度大于预设比例阈值的第二训练文[0064]具体的，MMD算法是一种用于检验两个分布是否相似的方法，被验证适用于跨域个和TTS数据集(即第一训练样本)较为相似的数据集作为Dt，通过减少以下公式计算的MMDloss值(MMD损失值)来减少两个数据集之间择和第一训练文本信息较为相似的第二训练文本信息，使用跨域SER模型中的卷积神经网络(ConvolutionalNeuralNetworks,CNN)-循环神经网络(RecurrentNeuralNetwork,[0070]作为一种可行的实施方式，第一电子设备通过语音合成模型中的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文本信息的情感向量的实施过程可以为：用参考编码器将第一训练文本信息进行编码，得到参考向量，接着将参考向量传入style[0072]本申请实施例相较于传统的GST模型，在styletoken层将styletoken层获得的token权重输入辅助情感预测器，使用DNN将第一训练文本信息分类至不同的情感类别，再将此时获得的情感类别和原本通过跨域SER模型获得的第一情感token的加权和(即情感向量)嵌入TT[0073]S103，通过TTS模型对第一训练文本信息和第一训练文本信息的情感向量进行语照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。CBAM包含2个独立的子模块，通道注意力模块(ChannelAttentionModule，CAM)和空间注意力模块TTS模型可以为端到端对抗式TTS模型(End-to-endAdversarialText-to-Speech，EATS)或者ClariNet模型等，ClariNet模型指的是基于WaveNet的并行音频波形(rawaudio施例通过上述训练过程可实现在不对训练样本进行情感标注的前提下，仍然可以使用TTS[0082]本申请实施例中，通过语音合成模型中的GST模型对第一训练文本信息进行情感第一训练文本信息及其对应的训练语音信息。然后第一电子设备可以通过跨域SER模型对感标签用于指示第一训练文本信息的情感类别。第一电子设备可以通过GST模型对第一训器得到该目标文本信息对应的预测语音信息。TTS模型将处理得到的预测语音信息和训练用户通过第二电子设备向智能客服客户端提交交互信息(交互信息的类型可以是文本或者于身体等原因导致无法浏览设备(例如病人无法挪动身体，且第二电子设备与病人之间存[0092]具体实现中，训练后的语音合成模型包括训练后的GST模型训练后的GST模型相对传统的GST模型添加了一个基于styletoken权重的辅助监督情感预[0093]S303，通过训练后的TTS模型对目标文本信息和目标文本信息的情感向量进行语显示该预测语音信息，在用户对该预测语音信息进行播放操作(例如单击或者长按该预测训练文本信息的情感向量进行语音合成处理，得到第一训练文本信息对应的预测语音信后的语音合成模型包括训练后的GST模型和训练后的跨域SER模型对第一训练文本信息进行情感分类处理，得到第一训练文本信息的第一情感[0107]处理单元402，还用于将第一情感标签和第二情感标签进行比较，得到情感损失[0108]处理单元402，还用于基于情感损失值调整GST模型的参数，得到调整后的GST模[0109]处理单元402通过语音合成模型中的GST模型对第一训练文本信息进行情感分类[0110]通过调整后的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文[0112]基于MMD算法选择和第一训练文本信息之间的相似度大于预设比例阈值的第二训[0119]通过TTS模型对第一训练文本信息进行语言学习，得到第一训练文本信息的底层[0120]通过TTS模型对第一训练文本信息的底层结构特征和第一训练文本信息的情感向音合成模型中的TTS模型的参数和GST模型的参数进行调整，以对语音合成模型进行训练，[0128]输出单元403，用于在处理单元402通过训练后的TTS模型对目标文本信息和目标[0129]本申请实施例中，通过语音合成模型中的GST模型对第一训练文本信息进行情感理方案。[0131]存储器502可以包括易失性存储器(volatilememory)，例如随机存取存储器(random-accessmemory，RAM)；存储器502也可以包括非易失性存储器(non-volatile[0135]通过语音合成模型中的GST模型对第一训练文本信息进行情感识别处理，得到第[0136]通过语音合成模型中的TTS模型对第一训练文本信息和第一训练文本信息的情感[0138]基于语音合成损失值对语音合成模型中的TTS模型的参数和GST模型的参数进行[0140]通过跨域SER模型对第一训练文本信息进行情感分类处理，得到第一训练文本信[0141]通过GST模型对第一训练文本信息进行情感分类处理，得到第一训练文本信息的[0144]处理器501通过语音合成模型中的GST模型对第一训练文本信息进行情感分类处[0145]通过调整后的GST模型对第一训练文本信息进行情感识别处理，得到第一训练文[0147]基于MMD算法选择和第一训练文本信息之间的相似度大于预设比例阈值的第二训[0154]通过TTS模型对第一训练文本信息进行语言学习，得到第一训练文本信息的底层[0155]通过TTS模型对第一训练文本信息的底层结构特征和第一训练文本信息的情感向[0158]通过训练后的GST模型对目标文本信息进行情感预测，得到目标文本信息的情感[0159]通过训练后的TTS模型对目标文本信息和目标文本信息的情感向量进行语音合成[0

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质 （平安科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113889072B 一种语音合成模型的训练方法、装置、设备及介质（平安科技（深圳）有限公司）