基于改进非负矩阵分解的语音增强算法_第1页
基于改进非负矩阵分解的语音增强算法_第2页
基于改进非负矩阵分解的语音增强算法_第3页
基于改进非负矩阵分解的语音增强算法_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于改进非负矩阵分解的语音增强算法

1语音增强算法语音放大是指从被污染的语音中提取相对简单的原始语音。自上世纪70年代至今,研究人员提出了多种语音增强算法及其各种改进(详见综述[3])。按是否需要先验信息,语音增强算法可分为无监督与有监督两大类。典型的无监督算法主要有:谱减法非负矩阵分解针对上述问题,本文在前期工作的基础上,提出了进一步改进的非负矩阵分解(ImprovedNMF,INMF)语音增强算法。第一,为降低训练复杂性、提高实用性,在纯净语音未知的情况下,采用卷积非负矩阵分解只提取噪声字典作为先验信息。第二,考虑语音与噪声信号稀疏性强弱的差异,通过稀疏非负矩阵分解2非负矩阵分解及其稀疏表示2.1噪声估计算法如(1)式,NMF能将m×n非负矩阵V分解成m×r非负矩阵W与r×n非负矩阵H。在基于NMF的语音增强算法中,V、W与H分别表示带噪语音的频谱,噪声的字典矩阵,时变增益矩阵,r满足(m+n)r<mn,ε为噪声矩阵。算法的目标就是寻找W和H,使其乘积结果V^尽可能地逼近原始矩阵V,也就是对误差矩阵ε进行最小估计:上式中,d其中,βue22cR\{0,1}。特别的,当β=2时,dd其中,1≤i≤m,1≤j≤n,‖·‖对应为Lee等人提出的基于广义散度(KullbackLeibler,KL)目标函数,详细请参考[10]。2.2不同噪声下的吸音系统图1为语音与部分噪声经过短时傅立叶变换(Short-TimeFourierTransform,STFT)后得到的语谱图。可以看出,纯净语音在STFT中各个频带的稀疏结构较为明显,White噪声的随机性强但稀疏性差,F16噪声结构化特征较明显,能量主要密集在低频带,稀疏性较弱。一般情况下,考虑语音信号稀疏性比大多数噪声信号稀疏性强,本文通过SNMF重构出干净的语音,基于ED目标函数的稀疏非负矩阵分解如下所示:其中,参数λ决定增益矩阵H的稀疏度3基于卷积非负矩阵算法的噪声学习在假设语音信号和噪声信号互不相关的情况下,式(1)可以表示如下:式中,V是带噪语音的频谱,V如图2所示,本文的增强框架主要采用[12]中提出的方法。在训练阶段中,首先通过STFT得到纯净噪声的幅度谱与相位,为降低训练字典的复杂性,利用卷积非负矩阵算法只训练出噪声字典W在重构出语音和噪声的幅度谱之后,采用有监督增强算法与无监督算法融合的思想,充分利用无监督算法的简单易实现的优点,将重构语音的幅度谱与SS、Logmmse的幅度谱求平均,提高算法的降噪能力与适应性。最后,结合带噪语音的相位,用逆STFT得到增强后的幅度谱,转换为时域上的增强语音。3.1非负矩阵分解cnmf在训练过程中,上式(8)中的VCNMF将矩阵V选取ED作为目标函数,可表示为:3.2admm序列解图2中采用SNMF得到语音字典W其中,λ‖H(13)式中,Ω其中,15行中的Sλ(·)表示软门限算子,S3.3不同的环境语音增强技术研究至今,虽已提出大量算法,但很少算法能在各类噪声环境下都能取得较好增强效果。不同增强算法依据语音与噪声的不同特性,使用特定的处理方法,一般只能在特定环境下或少数噪声环境中提高算法性能。针对该问题,Mask等其中,k为帧标记,Y(k)4带噪声语音,nmf,ss,logmmse本文将提出的算法在MATLAB环境下进行仿真实验,实验中采用10种背景噪声:F16,M109,Babble,White,Factory1,Factory2,Buccaneer2,Hf-channel,Thunder,Casino噪声,这些原始噪声包含了语音类噪声、瞬时类噪声和非平稳类噪声。实验中所用的纯净语音来自TIMIT语音库,增强的干净语音长度约为40s,由三个男生与三个女生每人两句话拼接而成。将噪声与纯净语音的采样率均下采样至8kHz,用16bit量化。通过MATLAB对噪声和干净语音混和,信噪比分别为-5dB,0dB,5dB和10dB。增强算法所采用STFT时使用的帧长为512点,帧移为128点。训练算法均经过200次迭代得到大小为257×40的噪声字典。增强时W为证明所提改进算法的性能,本文与经典的NMF,SS与Logmmse语音增强算法进行对比。为客观评估算法性能,本文采用客观质量评估(PerceptualEvaluationofSpeechQuality,PESQ)法、对数谱距离(LogSpectralDistance,LSD)与增强后的语音信噪比(SpeechSNR,SSNR)分别对NMF、SS,Logmmse与本文所提INMF算法的性能进行全面衡量。图3~4、图5~6与图7~8分别为PESQ、LSD、SSNR评价法对带噪声语音,NMF,SS,Logmmse与INMF算法测量的结果。总体上看,INMF算法的三项评价指标在各种噪声环境下均比NMF,SS与Logmmse算法性能好。4.1nmf算法与ss-logmmse算法的比较PESQ是评估语音主观试听感受的客观计算方法,也是目前应用于语音增强算法性能评估的最常用手段,其定义及原理请参考[20]。PESQ打分位于区间[-0.54.5],值越高说明增强效果越好,其语音质量越高;反之,值越低说明增强效果越差,其语音质量越低。如图3所示,在所有背景噪声环境下,INMF算法对语音增强效果最好,增强后的语音具有最好的感知质量,也证实了Logmmse算法具有显著的增强效果。图4为各个信噪比条件下,各算法在所有噪声环境下的平均PESQ打分结果。可见,在低信噪比(-5dB)条件下,NMF算法增强效果比SS与Logmmse算法好。但随着信噪比提高(0dB、5dB、10dB),其优势逐渐下降,而INMF算法在低信噪比与高信噪比条件下效果均取得较好效果。4.2平均lsdLSD用于测量增强语音与纯净语音之间的对数谱距离,其定义式如(16)所示。LSD值越小表示对数谱距离越小,增强语音失真越小,越接近原始语音,增强的效果越好;反之,值越大说明增强语音失真越严重,增强效果越差。其中,^S(i,j)和S(i,j)分别为增强后语音^s和纯净语音s通过短时傅立叶变换后的第i帧的第j个频谱分量,N表示语音信号的帧数。图5为在所有噪声环境下,各算法在各信噪比条件下的LSD均值。其中,SS算法的语音失真最为严重,说明在增强的同时去除了较多语音部分;INMF算法既利用了语音信号的稀疏性提取语音,又对语音帧与噪声帧进行判别,有效提取出语音部分并保留下来,最终降低了语音的失真度。图6为各信噪比条件下,各算法在所有噪声环境下的平均LSD打分结果。可见,在低信噪比条件下(-5dB),Logmmse增强算法造成语音失真较小,NMF增强算法造成语音失真较大,INMF算法在中高信噪比(0dB、5dB、10dB)条件下效果最好。4.3噪声去除效果信噪比是衡量增强所得到语音中所含噪声能量的常规的方法,SSNR值越大说明语音部分与残留噪声的比重越大,噪声去除的越好;反之,SSNR值越小说明语音部分与残留噪声的比重越小,残余的噪声较多,其定义式如(17)所示。5提高语音质量本文针对经典非负矩阵分解语音增强算法存在的一些问题,提出改进的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论