CN111627455B 一种音频数据降噪方法、装置以及计算机可读存储介质 (腾讯科技(深圳)有限公司)_第1页
CN111627455B 一种音频数据降噪方法、装置以及计算机可读存储介质 (腾讯科技(深圳)有限公司)_第2页
CN111627455B 一种音频数据降噪方法、装置以及计算机可读存储介质 (腾讯科技(深圳)有限公司)_第3页
CN111627455B 一种音频数据降噪方法、装置以及计算机可读存储介质 (腾讯科技(深圳)有限公司)_第4页
CN111627455B 一种音频数据降噪方法、装置以及计算机可读存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2002093442A1,2002.07.18于第二降噪模型对通信音频数据的语音损伤程2获取通信音频数据,所述通信音频数据包括目标用户的语音和根据第一降噪模型获取针对所述通信音频数据的第一降噪增益,根据一降噪模型的降噪强度,所述第二代价函数用于降低所述第二降噪模型的语音损伤程度;根据所述噪音加权增益和所述语音加权增益,确定针对所述通信根据所述合并降噪增益对所述通信音频数据进行降噪处理,得音频数据的第一降噪增益,根据第二降噪模型获取针对所述通信音频数据的第二降噪增获取所述通信音频数据的音频时域信号,根据所述音频时域将所述音频频域信号输入所述第一降噪模型,得到所述第一降噪一降噪增益所包含的所述至少两个频点分别对应的降噪增益与所述至少两个频点分别对根据所述噪音加权系数中的所述至少两个频点分别对应的加权系数,二降噪增益所包含的所述至少两个频点分别对应的降噪增益与所述至少两个频点分别对根据所述语音估计概率中的所述至少两个频点分别对应的加权系数,3所述根据所述合并降噪增益对所述通信音频数据进行降噪处理,根据所述合并降噪增益中的所述至少两个频点分别对应的降噪根据所述每个频点分别对应的加权能量值,确定所述通信音频对所述加权音频频域信号进行时域变换,得到所述通信音频数据的所述降噪音频数获取纯语音样本音频数据和纯噪音样本音频数据;所述纯语音根据所述样本语音能量值和所述样本噪音能量值,得到所述纯语音将所述样本实际降噪增益、所述纯语音样本音频数据和所述纯噪音数据和所述纯噪音样本音频数据对应的第一样本预基于所述样本实际降噪增益、所述第一样本预测降噪增益和获取纯语音样本音频数据和纯噪音样本音频数据;所述纯语音根据所述样本语音能量值和所述样本噪音能量值,得到所述纯语音将样本实际降噪增益、所述纯语音样本音频数据和所述纯噪音样所述纯噪音样本音频数据对应的第二样本预测基于所述样本实际降噪增益、所述第二样本预测降噪增益和二初始降噪模型所预测得到的所述第二样本预测降噪增益,趋近于所述样本实际降噪增4将所述通信音频数据的所述降噪音频数据同步至已连接的音频获取模块,用于获取通信音频数据,所述通信音频数据增益获取模块,用于根据第一降噪模型获取针对所述通信音频数据的第一降噪增益,增益合并模块,用于根据所述第一降噪增益和所述第二降噪模块,用于根据所述合并降噪增益对所述通信音频噪声估计单元,用于对所述通信音频数据进行噪声估计第一加权子单元,用于根据所述噪音加权系数对所述第一第二加权子单元,用于根据所述语音估计概率对所述第增益确定子单元,用于根据所述噪音加权增益和频域信号获取单元,用于获取所述通信音频数据的音频时域信号,根据增益获取单元,用于将所述音频频域信号输入所述第一降噪567分别对应的降噪增益与至少两个频点分别对应的能量值8[0048]增益获取模块,用于根据第一降噪模型获取针对通信音9分别对应的降噪增益与至少两个频点分别对应的能量值[0072]能量值加权单元,用于根据合并降噪增益中的至少两个频点分别对应的降噪增音样本音频数据和纯噪音样本音频数据对应的样本本音频数据和纯噪音样本音频数据对应的第一样本预测一初始降噪模型所预测得到的第一样本预测降噪增益,趋近于样本实际降噪增益的平方音样本音频数据和纯噪音样本音频数据对应的样本音频数据和纯噪音样本音频数据对应的第二样本[0103]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0105]本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(Machine可以使用终端设备200a与用户B进行语音通话,用户B可以使用终端设备200b与用户A进行[0110]若是直接将终端设备200a所获取到的用户A的语音音频发送给用户B所持有的终端设备200b,会导致用户B很难通过终端设备200b所获取到的用户A的语音音频听清用户A用户B所持有的终端设备200b,使得用户B可以通过终端设备200b所获取到的用户A的降噪的降噪后的语音音频发送给用户A所持有的终端设备200a,使得用户A可以通过终端设备音频进行降噪处理,进而服务器100可以将用户A的降噪后的语音音频发送给用户B所持有[0113]如图2所示,假设终端设备200a获取到的用户A的语音音频为含噪通信音频102[0114]接着,服务器100可以将含噪通信音频102a的音频频域信号输入到强降噪模型[0115]服务器100还可以通过对含噪通信音频102a的音频频域信号进行噪声估计,得到音频102a为用户的语音而非噪音的概率。服务器100在得到了针对含噪通信音频102a的语噪通信音频102a的降噪增益以及通过上述语音保护降噪模型104a得到的针对含噪通信音到针对含噪通信音频102a最终的降噪增益的过程可以参见下述步骤S102和步骤S103所描频点5对应的降噪增益3。含噪通信音频102a的音频频域信号107a中也包括上述5个频点分以计算增益序列106a中以及音频频域信号107a中对应于相同频点的降噪增益以及能量值之间的乘积,通过该乘积得到加权频域信号108a。具体为:服务器100可以计算增益序列106a中对应于频点1的降噪增益5与音频频域信号107a中对应于频点1的能量值1之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点1的能量值号108a中对应于频点2的能量值14。服务器100可以计算增益序列106a中对应于频点3的降益序列106a中对应于频点4的降噪增益10与音频频域信号107a中对应于频点4的能量值2之能量值20。服务器100可以计算增益序列106a中对应于频点5的降噪增益3与音频频域信号[0118]在得到音频频域信号107a对应的加权频域信号108a之后,服务器100可以对该加以将该降噪通信音频109a发送给用户B所持有的终端设备200b,终端设备200b可以播放该[0119]采用本申请所提供的方法,通过将降噪能力较强的模型(例如上述强降噪模型103a)以及对音频中的语音保护能力较强的模型(例如上述语音保护模型104a)进行结合,设备作为本实施例中的执行主体为例进行说明,该目标终端设备可以是任意一个终端设[0123]目标终端设备获取通信音频数据的来源可以是:假设目标用户持有目标终端设[0129]上述第一降噪模型(可以是上述图2中的强降噪模型)以及第二降噪模型(可以是样本音频数据可以是车辆鸣笛的声音、炒菜的声音或者敲击键盘的声音等各种类型的噪[0132]可以理解为,一个纯语音样本音频数据和一个纯噪音样本音频数据构成一个样样本样本音频数据的频域信号和纯噪音样本音频数据的频域信号称之为样本音频频域信[0134]可以计算纯语音样本音频数据的频域信号和纯噪音样本音频数据的频域信号中多个样本以及每个样本对应的样本实际降噪增益(可以为一个增益序列,包括每个频点分型的模型结构可以是DNN(深度神经网络)网络结构。可以将第一初始降噪模型的代价函数以将第一初始降噪模型预测出来的每个频点对应的预测降噪增益称之为第一样本预测降n为第n个频点对应的样本实际降噪增益。E1n为纯语音样本音频数据的频点n对应以使得第一初始降噪模型所预测得到的第一样本预测降噪增益无线趋近于样本实际降噪以使得第二初始降噪模型所预测得到的第二样本预测降噪增益无线趋近于样本实际降噪102f构成的每个样本以及每个样本对应的样本实际降噪增益输入到第一初始降噪模型步输入到第一初始降噪模型108f的。训练过程中第一初始降噪模型是通过第一代价函数102f构成的每个样本以及每个样本对应的样本实际降噪增益输入到第二初始降噪模型步输入到第二初始降噪109f模型的。训练过程中第二初始降噪模型是通过第二代价函数理范围可以自行设定),也可以是训练的样本数据的数量达到一定值(该值可以自行设定)以对通信音频数据的时域信号进行频域变换(例如加窗FFT(快速傅里叶变换)变换),得到能量值2以及频点3对应的能量值3,那么第一降噪增益中可以包括频点1对应的降噪增益、过语音估计概率对第二降噪增益进行加权后的结果p*gain2称之为语音加权增益,可以将上述通过噪音加权系数对第一降噪增益进行加权后的结果(1-p)*gain1称之为噪音加权增加权系数中和第一降噪增益中对应于相同频点的加权系数和降噪增益之间的加权(即相[0166]可以使用上述噪音加权系数对每个第一降噪模型所得到的第一降噪增益进行加一降噪模型m1得到的第一降噪增益为(1,2),第一降噪模型m2得到的第一降噪增益为(3,中包括第一降噪模型101d、第一降噪模型102d以及第一降噪模型103d等多个第一降噪模型。模型集合100d中的每个第一降噪模型均可以得到针对通信音频数据的第一降噪增益(包括第一降噪模型101d得到的第一降噪增益101e、第一降噪模型102d得到益102e以及第一降噪模型103d得到的第一降噪增益103e)。可以使用噪音加权系数104e对音频数据的第二降噪增益(包括第二降噪模型105d得到的第二降噪增益106e、第二降噪模型106d得到的第二降噪增益107e以及第二降噪模型107d得到的第二降噪增益108e)。可以标终端设备已连接的会话终端可以指在上述步骤S101中与目标用户进行语音通话的用户降噪音频数据发送给已连接的会话终端,而不需要等到整个通信音频数据降噪完成之后,的会话终端可以实时(极小延时)获取到目标用户所录入的通话音频数据的降噪音通信音频数据100b的降噪音频数据112的通信音频数据发送给服务器105c。同样,终端设备104c可以在会议进行期间获取到用户发送给服务器105c。第一降噪模型以及对语音保护能力比较好的第二降噪模型一起得到针对通信音频数据的[0188]增益获取模块102,用于根据第一降噪模型获取针对通信音频数据的第一降噪增[0199]其中,噪声估计单元1031和增益合并单元1032的具体功能实现方式请参见图3对分别对应的降噪增益与至少两个频点分别对应的能量值语音样本音频数据和纯噪音样本音频数据对应的样本样本音频数据和纯噪音样本音频数据对应的第一样本预测语音样本音频数据和纯噪音样本音频数据对应的样本本音频数据和纯噪音样本音频数据对应的第二样本预测111和第二参数调整模块112的具体功能实现方式请参见图3对应的实施例中的步骤S101,第一降噪模型以及对语音保护能力比较好的第二降噪模型一起得到针对通信音频数据的设备控制应用程序,以实现前文图3中对应实施例中对音频数据降噪方法的描述。应当理读存储介质中存储有前文提及的音频数据降噪装置1所执行的计算机程序,且计算机程序碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccess

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论