CN113823258B 一种语音处理方法及装置 (腾讯科技(深圳)有限公司)_第1页
CN113823258B 一种语音处理方法及装置 (腾讯科技(深圳)有限公司)_第2页
CN113823258B 一种语音处理方法及装置 (腾讯科技(深圳)有限公司)_第3页
CN113823258B 一种语音处理方法及装置 (腾讯科技(深圳)有限公司)_第4页
CN113823258B 一种语音处理方法及装置 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2021134269A1,2021.WO2020049687A1,2020.03.本申请实施例提供了一种语音处理方法及所述语音数据的文本特征信息和所述用户的身合成时用户的操作,并保证良好的语音合成效2调用用户对应的语音合成模型对所述目标文本进行处接收所述用户终端发送的语音数据,所述语音数据包括所述用户根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息;获取所述每个语音片段的文本序列与对应的参考文本之间的匹目标语音片段的文本序列;提取所述语音数据的频谱特征,并利用所述用户的身份特征信息设置根据所述降噪后的语音数据确定所述用户的身份特征信息,所调用语音识别模型对所述声学特征信息进行解码处理,得到所述语音数据的文本序调用所述声学模型确定所述声学特征信息与对根据所述匹配概率和所述发生概率确定所述语音数据的文本序列。3利用第一身份判别模型和第二身份判别模型分别对所述声学特征信息进行打分处理,从所述第一身份判别模型和所述第二身份判别模型中确定所述最高分数对应的目标根据所述目标身份判别模型对应的性别类型确定所述用户利用所述训练样本集中每个用户的语音数据利用所述训练样本集中第一性别类型用户的语音数据的声学特征信息对所述通用背利用所述训练样本集中第二性别类型用户的语音数据的声学特征信息对所述通用背获取所述目标频谱的幅度谱,并对所述幅度谱和所述语音数获取所述用户通过所述语音录入界面输入的语音数据,所述语音文本特征信息和所述用户的身份特征信息训练得到所述用户对根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息;获取所述每个语音片段的文本序列与对应的参考文本之间的匹目标语音片段的文本序列;提取所述语音数据的频谱特征,并利用所述用户的身份特征信息设置4在所述参考文本展示区域中按照预设的录制顺序依次展根据所述用户针对展示的每个参考文本输入的语音片段,确定所述在接收到所述服务器发送的所述用户对应的语音合成模型训练完成的通知消息之后,接收所述服务器发送的所述目标文本对应的合成语音数据,并播处理模块,用于调用用户对应的语音合成模型对所述目标文本接收所述用户终端发送的语音数据,所述语音数据包括所述用户根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息;获取所述每个语音片段的文本序列与对应的参考文本之间的匹目标语音片段的文本序列;提取所述语音数据的频谱特征,并利用所述用户的身份特征信息设置5获取模块,用于获取所述用户通过所述语音录入界面输入的语述语音数据的文本特征信息和所述用户的身份特征信息训练得到所述用户对应的语音合根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征信息;获取所述每个语音片段的文本序列与对应的参考文本之间的匹目标语音片段的文本序列;提取所述语音数据的频谱特征,并利用所述用户的身份特征信息设置算机程序被处理器执行时实现如权利要求1-8中任一项所述的语音处理方法,或者如权利6[0004]本申请实施例提供一种语音处理方法及装置,可以简化据的文本特征信息和所述用户的身份特征信息训练7数据包括所述用户基于至少一个参考文本输入的至8[0043]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0045]语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合9[0065]302、根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本频谱Y(w)和噪声谱D(w)确定目标频谱,例如将频谱Y(w)和噪声谱D(w)做减法得到目标频段对应的匹配度小于或等于预设匹配度阈值,预设匹配度阈值例如可以为90则从语音对应的性别类型(即男性或女性)确定用户的训练得到通用背景模型(即UBM模型),然后再利用不同性别类型的数据对通用背景模型进男性用户)的语音数据的声学特征信息对通用背景模型进行训练,得到第一身份判别模型样本集中第二性别类型用户(如女性用户)的语音数据的声学特征信息对通用背景模型进[0077]303、利用所述文本特征信息和所述身份特征信息训练得到所述用户对应的语音特征信息、语音数据的频谱特征对预训练得到的基础合成模型进行微调训练(finetune),[0083]其中,步骤304~306的具体实现可以参见前述实施例中步骤201~203的相关描述用户基于至少一个参考文本输入的至少一音数据的文本特征信息和所述用户的身份特征信息训练得到数据包括用户基于至少一个参考文本输入的至[0104]所述处理模块702,还用于根据所述语音数据获取所述用户的身份特征信息以及[0105]所述处理模块702,还用于利用所述文本特征信息和所述身份特征信息训练得到[0108]对所述降噪后的语音数据进行语音识别处理,得到所述语音数据的文本特征信文本特征信息中删除所述目标语音片段的文[0123]利用第一身份判别模型和第二身份判别模型分别对所述声学特征信息进行打分[0127]从所述第一身份判别模型和所述第二身份判别模型中确定所述最高分数对应的[0131]所述处理模块702,还用于利用所述训练样本集中每个用户的语音数据的声学特[0132]所述处理模块702,还用于利用所述训练样本集中第一性别类型用户的语音数据[0133]所述处理模块702,还用于利用所述训练样本集中第二性别类型用户的语音数据[0139]请参见图8,是本申请实施例的另一种语音处理装置的结构示意图。所述装置包音数据包括所述用户基于至少一个参考文本输入的至少[0144]通过所述显示模块801在所述参考文本展示区域中按照预设的录制顺序依次展示[0148]所述显示模块801,还用于在接收到所述服务器发送的所述语音合成模型训练完[0151]所述接收模块804,用于接收所述服务器发送的所述目标文本对应的合成语音数储装置902还可以包括上述种类的存储器[0162]根据所述语音数据获取所述用户的身份特征信息以及所述语音数据的文本特征[0163]利用所述文本特征信息和所述身份特征信息训练得到所述用户对应的语音合成[0166]对所述降噪后的语音数据进行语音识别处理,得到所述语音数据的文本特征信文本特征信息中删除所述目标语音片段的文[0181]利用第一身份判别模型和第二身份判别模型分别对所述声学特征信息进行打分[0185]从所述第一身份判别模型和所述第二身份判别模型中确定所述最高分数对应的[0189]利用所述训练样本集中每个用户的语音数据的声学特征信息训练得到通用背景[0190]利用所述训练样本集中第一性别类型用户的语音数据的声学特征信息对所述通[0191]利用所述训练样本集中第二性别类型用户的语音数据的声学特征信息对所述通可执行本申请实施例图7提供的语音处理装置的相关实施例中所描述的实现方式,在此不[0198]所述存储装置1002可以包括易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,RAM);存储装置1002也可以包括非易失性存储器(non-个实施例中,所述处理器1001还可以是图形处理器1001(GraphicsProcessingUnit,据的文本特征信息和所述用户的身份特征信息训练以及通信装置1004可执行本发明实施例图5提供的语音处理方法的相关实施例中所描述的实现方式,也可执行本申请实施例图8提供的语音处理装置的相关实施例中所描述的实现[0214]本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,而前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论