CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-30 格式：DOCX 页数：53 大小：1.39MB 积分：9.6 举报 版权申诉

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第2页

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第3页

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第4页

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

US2004010407A1,2004.US6408267B1,2002.06.18本申请实施例提供一种语音处理方法、装申请实施例能够弥补传统信号分析处理技术的2调用网络模型对所述历史语音帧的频域特征进行预测其中，所述网络模型包括第一神经网络及至少两个第调用所述第一神经网络对所述历史语音帧的频域特将所述目标语音帧的虚拟频域特征分别输入至所述至少两个第二神经网络中进行预从所述历史语音帧对应的频域系数中提取幅度谱作为所述历史语音帧的根据所述历史语音帧的激励信号估计所述目标语音帧采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理，将所述第n-1帧语音帧的激励信号确定为所述目标语音帧的对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算，得到所述目标语对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和，得到所述目标语音3所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音所述目标语音帧包括m个子帧，所述目标语音帧的长时相关性参数包括所述目标语音调用所述第三神经网络对所述历史语音帧的能量参音帧的能量参数，所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参当所述语音信号中的目标语音帧丢失时，采用如权利要求1-8任一项所述的方法重建处理单元，用于调用网络模型对所述历史语音帧的频域特征进行其中，所述网络模型包括第一神经网络及至少两个第调用所述第一神经网络对所述历史语音帧的频域特将所述目标语音帧的虚拟频域特征分别输入至所述至少两个第二神经网络中进行预4计算机可读存储介质，存储有一条或多条指令，所述一条条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-9任一项所述的语音5[0007]调用网络模型对历史语音帧的频域特征进行预测处理，得到目标语音帧的参数6模型对目标语音帧对应的历史语音帧的频域特征进行预测处理得到目标语音帧的参数集，了语音处理能力；并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集，[0034]图8示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构7比特率、音频带宽和帧大小；⑤具备良好的鲁棒性丢失率和PLC(PacketLoss常采用OPUS编码。编码过程中的采样率Fs可根据实际需要设定，Fs可以为8000Hz(赫兹)、8空闲字节来存储冗余信息。所述带外FEC是指在一帧语音帧的结构之外通过数字包封装技[0052]本申请实施例提出一种语音处理方案，该方案针对上述经典的PLC技术作出了如于语音信号的数据进行建模，通过对历史语音帧进行深度学习预测出目标语音帧的参数时性要求较高的通信场景；③用于重建目标语音帧的参数集中包含两个或两个以上的参[0054]图2示出了本申请一个示例性实施例提供的一种语音处理系统的结构示意图；如空口到接收端的通信链路是最容易出现质量问题的节点，在此节点处设置PLC机制能够获[0055]图3示出了本申请一个示例性实施例提供的一种语音处理方法的流程图；由于改[0057]语音信号是由发送端经网络发送至接收端的，如前述VoIP系统中的处理流程可9本申请实施例提出的改进的PLC技术重建目标[0066]下面将结合附图，对本申请实施例提出的改进的PLC技术涉及的语音处理方法进[0067]图4示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图；该方用深度学习的方法对网络模型进行训练，得到优化的网络模型再利用优化的网络模型[0075]参数集Pa(n)中包含的是预测得到的目标语音帧的时域参数，时域参数是用来表模型对目标语音帧对应的历史语音帧的频域特征进行预测处理得到目标语音帧的参数集，了语音处理能力；并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集，说明的是，引用上述示例场景只是为了更清楚地描述本申请实施例的语音处理方法的流申请实施例的示例场景中的语音处理流程进行类[0078]图5示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图；该方列并作为历史语音帧的频域特征S_prev(n)。STFT系数具备对称特性时对应的实施方式为例测的短时相关性有关的参数，所以目标语音帧的短时相关性参数可以认为是与LPC滤波器指采用LPC对目标语音帧进行滤波处理时，第n个语音帧的滤波结果是由该第n个语音帧之-1)-1)[0097]P(z)和Q(z)两个多项式分解形成的根(root)在复平面交替出现，因此被命名为语音帧的线谱频率LSF(n)被分解为k个分帧的线谱频率LSFk(n)；如本实施例所示示例中，目标语音帧被分成前10ms和后10ms共两个分帧；第n帧语音帧的LSF(n)被分解为其第一个[0102]由于LTP滤波器负责处理与基音延迟的长时相关性有关的参数，所以目标语音帧的长时相关性参数可以认为是与LTP滤波器相关的参数。LTP滤波反映的是语音帧(特别是语音帧中的样本点的基音延迟进行固定，再基本类周期性对固定的基音延迟进行LTP滤波语音帧的长时相关性参数包括目标语音帧的各个子帧的基音延迟和LTP系数，m为正整数。[0105]参见步骤S504，本申请实施例通过调用网络模型来预测第n帧语音帧的参数集Pa经网络702均与第一神经网络701相连接；第二神经网络702的数量与所述参数集中的一个一神经网络701包括一层LSTM(LongShort-TermMemory，长短期记忆网络)和三层FC(n)是预测得到的第n帧语音帧的虚拟的322维的STFT系数的幅度系数序列。本实施例所示该322个处理单元用于输出目标语音帧的虚拟的322维的STFT系数的幅度系数序神经网络701输出的目标语音帧的虚拟频域特征S(n)，输出是用于重建目标语音帧的各个20个处理单元用于输出参数四包含的20个[0107]基于图7所示的网络模型，在一种实施方式中，步骤S504可细化为如下步骤s11-[0113]步骤s13-s14中，可以使用历史语音帧中的部分或全部语音帧的能量参数来预测量参数gain(n-2)包括该第n-2帧语音帧的4个5ms子帧的增益值，具体包括gain(n-2,0)、法对网络模型进行训练，得到优化的网络模型再利用优化的网络模型对历史语音帧波器和LPC滤波器，LTP滤波器可以采用目标语音帧的长时相关性参数(包括参数三和参数上式1.6表示目标语音帧的第一个分帧的线谱频率LSF1(n)是通过第n-1帧语音帧的第二个分帧的线谱频率LSF2(n-1)与目标语音帧的第二个分帧的线谱频率LSF2(n)之间[0124]图8示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构[0129]在另一种实施方式中，步骤S506可以通过平均值方式估计目标语音帧的激励信[0132]在另一种实施方式中，步骤S506可通过加权求和方式估计目标语音帧的激励信[0133]ex(n)=⃞1sr-ex(n-i)0.4020.3030.1540.1050.05[0141]在上述LPC滤波过程中，对第n帧语音帧的LPC滤波使用了第n-1帧语音帧的LSF系数，也就是说，对第n帧语音帧的LPC滤波需要使用与第n帧语音帧相邻的历史语音帧来实LTP滤波的步骤。②如果子帧的基音延迟不低于预置阈值，那么取该子帧对应的历史样本该子帧对应的历史样本点，实际上是使用了该子帧之前的历史子帧(如上一个5ms子帧)所将第3个子帧的LTP滤波结果和第4个子帧的LTP滤波结果进行合成，得到目标语音帧的后[0147]参考上述实施方式中LPC滤波阶段的处理过程，首先基于参数一和参数二获得目同理，使用LTP滤波阶段得到的目标语音帧的后10ms的第二个分帧的LTP合成信号与LPC2模型对目标语音帧对应的历史语音帧的频域特征进行预测处理得到目标语音帧的参数集，了语音处理能力；并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集，[0151]图9示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图；该理装置可以是终端中的应用程序(如提供VoIP通话功能的App)；该运行了语音处理装置的[0158]将目标语音帧的虚拟频域特征分别输入至至少两个第二神经网络中进行预测处[0174]目标语音帧包括m个子帧，目标语音帧的长时相关性参数包括目标语音帧的各个模型对目标语音帧对应的历史语音帧的频域特征进行预测处理得到目标语音帧的参数集，了语音处理能力；并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集，[0180]图10示出了本申请另一个示例性实施例提供的一种语音处理处理装置可以是终端中的应用程序(如提供VoIP通话功能的App)；该运行了语音处理装置的终端可以作为图1或图2所示的接收端；该语音处理装置可以用于执行图3所示的方法实[0186]当语音信号中的目标语音帧丢失时，根据目标语音帧的冗余信息重建目标语音参见图11，该语音处理设备可以是图1或图2所示的接收端，该语音处理设备包括处理器于存储计算机程序，计算机程序包括程序指令，处理器111用于执行计算机可读存储介质行一条或多条指令从而实现相应方法流程或[0191]在一个实施例中，该计算机可读存储介质中存储有一条或多条指令；由处理器[0194]调用网络模型对历史语音帧的频域特征进行预测处理，得到目标语音帧的参数算机可读存储介质中的一条或多条指令由处理器1101加载并执行调用网络模型对历史语[0201]将目标语音帧的虚拟频域特征分别输入至至少两个第二神经网络中进行预测处[0210]历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音可读存储介质中的一条或多条指令由处理器1101加载并执行根据历史语音帧的激励信号[0218]目标语音帧包括m个子帧，目标语音帧的长时相关性参数包括目标语音帧的各个模型对目标语音帧对应的历史语音帧的频域特征进行预测处理得到目标语音帧的参数集，了语音处理能力；并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集，读存储介质中的一条或多条指令由处理器1101加载并执行[0226]当语音信号中的目标语音帧丢失时，采用如图4或图5所示的方法重建目标语音[0230]当语音信号中的目标语音帧丢失时，根据目标语音帧的冗余信息重建目标语音碟

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN111554322B 一种语音处理方法、装置、设备及存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN111554322B 一种语音处理方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）