含噪语音信号频谱增强技术的统计方法研究与展望_第1页
含噪语音信号频谱增强技术的统计方法研究与展望_第2页
含噪语音信号频谱增强技术的统计方法研究与展望_第3页
含噪语音信号频谱增强技术的统计方法研究与展望_第4页
含噪语音信号频谱增强技术的统计方法研究与展望_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、含噪语音信号频谱增强技术的统计方法研究与展望含噪语音信号频谱增强技术的统计方法研究与展望1、引言基于单个麦克风的含噪语音信号频谱增强技术,作为语音识别、助听系统和免提终端通信中的一个重要应用研究领域,一直受到有关学术和工业界的高度重视并引起极大的研究热诚1-3,迄今已出现了大量技术方法。最为著名的技术应该算谱相减spetralsubtratin方法4-5,该方法首先基于含噪语音信号的短时功率谱密度来估计出背景噪声短时功率谱密度,然后将含噪语音信号的短时功率谱密度减去已估背景噪声短时功率谱密度,用该差值的平方根作为频谱幅度,并与原含噪语音信号频谱的相位一起来估计原非含噪语音信号,从而到达语音增强

2、结果。这一技术通常使增强语音信号中存在着影响听觉效果的随机起伏窄带残留噪声,即音乐噪声usialtne。为减小和降低这一音乐噪声,Bll4、Beruti6、Gh7、Si8和Gustafssn9等相继地提出了一些行之有效的方法,以便改进谱相减技术的性能。而Tsukalas10和Virag11那么分别从人类听觉系统的特性出发,提出了基于听觉遮隐特性askingprperty的谱相减技术。谱相减类型的语音增强技术均对语音和噪声作出了最少的先验假设,在应用和实际实现时,合理地选择有关参数,对某些应用场合可得到符合要求的增强结果。与之相反,语音增强另一类称之为统计方法的技术那么需要估计出语音增强信号,使

3、其与原非退化语音信号间的失真度最小化12-16。这类方法均需要对语音和噪声的可靠统计模型做出先验假定,并且还需要事先规定或定义听觉意义上的失真测度。鉴于语音信号的统计模型和听觉意义上的失真测度至今尚未完全确定,那么现有的不同语音增强统计方法之差异主要在于它们所基于的语音统计模型12-15和失真测度17-19之不同以及谱增强算法的特殊实现方式2。基于隐马尔可夫过程HiddenarkvPress,HP的谱增强技术试图避开对语音和噪声过程的特定统计分布作事先假设20-23,它首先根据噪声和非退化语音样本的长训练集序列来估计语音和噪声过程的概率分布,然后将已估两过程之概率分布同时应用于一个给定的失真测

4、度以便导出一个语音信号估计器。通常假设一给定状态序列所产生的矢量是统计独立的。通过利用每个子源非对角协方差矩阵并假设由一给定状态序列所产生的矢量为一个非零阶自回归AR过程,那么HP可扩展到可以处理语音信号时频相关性情况21,24。基于HP语音增强技术非常依赖于训练数据集的类型25,在训练集涵盖的噪声类型条件下,其工作性能较好,而在其它类型的噪声条件下,其工作性能较差;并且性能的改善一般地需要更为复杂的模型和更大的计算量。尽管HP模型已成功地应用于非退化语音信号自论文联盟.Ll.动识别领域26-27,但对语音增强应用而言,该模型的精度尚未能满足这一特定应用的要求3。子空间法28-31试图将含噪信

5、号的矢量空间分解成一个信号加噪声子空间和一个噪声子空间。通过移去噪声子空间并在相应余下的子空间中来估计语音信号,从而实现语音谱增强技术。信号空间的分解现有二种方法:基于含噪矢量Teplitz协方差估计之特征值分解的Karhunen-Lve变换KLT28,30和数据矩阵的奇异值分解SVD32-33。在信号加噪声子空间中,应用线性估计技术来到达信号失真最小化、并由信号来遮荫残留噪声的目的。为此,Jablun34和Hu35那么从人的听觉系统遮蔽特性和降低残留噪声感知效应的角度出发,分别提出了用于含噪语音增强的感知信号子空间法。本文意在讨论和描绘含噪语音信号频谱增强系统设计的根本模块元素及其相应的统计

6、技术方法。文中首先描绘了谱增强技术的关联问题,其次讨论了语音和噪声信号谱系数的时-频相关特性并给出与该特性一致的相应统计模型。接着,本文讨论和描绘了在语音信号出现不确定性下根据不同保真度准那么而导出的相应语音论文联盟.Ll.谱系数估计器,并讨论了语音信号出现概率的估计问题。文中还讨论了分别基于决策引导deisin-direted技术和递归估计(reursiveestiatin)技术的先验SNR估计器,以及噪声功率谱估计的最小统计量技术、最小值控制递归平均RA技术及其改进型IRA、连续谱最小值跟踪技术和加权平均技术。最后,本文讨论了含噪语音信号频谱增强算法的选择问题,并展望了其今后可能的研究与开

7、展方向。2、含噪语音信号谱增强技术问题的数学表征设x(n)为非退化语音信号,d(n)为不相关的加性噪声,y(n)=x(n)+d(n)为可观测的退化语音信号。应用短时Furier变换STFT将y(n)变换至时-频域,可得:本文以下就语音谱增强系统中诸如统计模型、保真度、先验SNR估计器和噪声谱估计器的选择问题进展假设干讨论。8.1统计模型和保真度的选择目前,高斯语音统计模型构成了许多语音增强算法的设计根底12,17,18,42,64-66。这一模型的建立根源于概率论中的中心极限定理,因为语音信号每个Furier展开系数均可表式为来自随机序列的随机变量之加权和12。当信号内相关性跨度与其帧长度相比

8、充分小时,谱系数的概率分布函数随帧长度的增加而渐进地逼近高斯分布。这种高斯近似仅在均值附近的高斯曲线中心区域有效,而在远离均值的曲线尾部区域,那么其近似进度很差67。Prter和Bll46指出,先验语音谱具有伽玛概率分布函数而不是高斯概率分布函数,他们提出从语音信号数据直接来计算最正确估计器,以取代基于语音统计量参数模型的最正确估计器。artin40考虑了一种伽玛语音模型,其中非退化语音谱分量的实部和虚部模型化为独立同分布的伽玛随机变量。在假设不同频谱分量是统计独立的条件下,artin给出了高斯和拉普拉斯噪声模型下复语音谱系数的SE估计器,并指出:在高斯噪声模型下,伽玛语音模型在分段信噪比Se

9、gentalSNR方面比高斯语音模型可获得极大的改善;而在拉普拉斯噪声模型下,伽玛语音模型比高斯语音模型具有更低的残留音乐噪声。artin和BrEithaupt45研究说明:当用拉普拉斯随机变量来模型化语音谱系数分量的实部和虚部时,复语音谱系数的SE估计器与在伽玛语音模型下导出的SE估计器具有相似的特性,但却易于计算和实现。Breithaupt和artin68用一样的统计模型导出了谱系数幅度平方的SE估计器,并与高斯语音模型下的相应估计器在性能上作比较,结果发现其分段SNR的进步是以增加残留音乐噪声电平为代价的。基于高斯噪声模型和超高斯Super-Gauss语音模型,Ltter和Vary69导

10、出了语音谱幅度最大后验AP估计器,他们提出了语音谱幅度的一种参数化的概率密度函数pdf,通过适中选择参数,该pdf可近似为伽玛和拉普拉斯密度函数;通过与Ephrai-alah的SE谱幅度估计器12比较,拉普拉斯语音模型的AP估计器在噪声抑制方面有明显改善。语音高斯、伽玛和拉普拉斯统计模型均考虑了连续的语音谱分量间的时域相关性。在STFT变换域中,由于分析帧的有限长度和连续帧间的重叠存在,人们通常假设谱分量同时具有时域间和频域间的统计相关性15。语音增强性能试验说明16,43:高斯、伽玛和拉普拉斯语音统计模型的实用性在很大程度上取决于选择何种先验SNR估计器;当应用决策引导技术的先验SNR估计器

11、时,伽玛语音模型比高斯语音模型具有更多的优点;当应用非因果递归技术的先验SNR估计器论文联盟.Ll.时,与其它模型相比,拉普拉斯语音模型那么获得更高的分段SNR和更低的对数谱失真LSD而高斯语音模型那么获得最小的残留音乐噪声电平;此外,与应用决策引导技术的先验SNR估计器相比,当应用非因果递归技术的先验SNR估计器时,高斯、伽玛和拉普拉斯语音模型间的差异将变校应该指出的是,与SE估计器相比,谱幅度或对数谱幅度SE失真最小化的估计器更适宜于语音增强应用;而且,SE-LSA估计器的解析表达式仅在高斯语音模型下存在,而对伽玛和拉普拉斯语音模型,其推导异常困难乃至不可能、甚至不存在。因此在高斯语音模型

12、下的SE-LSA估计器常常最为选用2。8.2先验SNR估计器的选择Ephrai和alah12,70提出了三种不同的先验SNR估计器:最大似然L估计器、决策引导DD技术估计器和最大后验AP估计器。先验SNR的L估计器假设语音谱方差是慢时便参数,这便大致了音乐残留噪声,它不利于增强后的语音信号之听觉效果。DD先验SNR估计器特别适宜与SE-SA或SE-LSA结合使用,其结果使得增强后的语音信号中残留噪声在听觉上无色化pereptuallylrless,但DD估计器是启发式产生的,由于其高度的非线性,目前在理论上尚不知其性能。AP先验SNR估计器依赖于产生语音谱方差序列的一阶arkv模型,它涉及到一

13、组非线性方程,该方程可由Viterbi算法递归地求解。AP估计器的计算复杂度相对于DD估计器而言要大,但并未使增强后的语音质量获得有效的改善70。近二十多年来,DD技术广泛地应用于语音谱系数方差的估计,但DD中有关参数通常是由对每个语音增强算法和时频变换的特定设置而进展的模拟实验和主观听觉测试来加以确定。注意到,DD技术并不需语音统计模型任何信息,因此其参数不必自适应于语音谱系数分量,可以实现设定。hen53,78提出了另两种不同的先验SNR估计器:因果递归估计器ausalReursiveEstiatin,RE和非因果递归估计器Nn-ausalReursiveEstiatin,NRE。先验SN

14、R之RE包含称之为传播步骤prpagatinstep和更新步骤(updatestep)的两部处理,它遵循着Kalan滤波的原理,在新数据到来时递归地预测和更新语音谱方差的估计。RE与DD估计器有着严密的联络,一个带有时变频率相关平滑因子的DD估计器实际上是RE的一个特例。注意到这一平滑因子是瞬时SNR的单调减函数,那么该平滑因子在语音不出现期间具有较大的取值而在语音出现期间具有较小的取值,这便改善了残留音乐噪声和增强语音信号失真问题。然而,与DD估计器相比,RE的这一改善并不可观。先验SNR之NRE利用将来的谱测量来更好地预测非退化语音的谱方差。实验比较说明:RE和NRE的主要差异在于语音信号

15、的开始端speehnset。RE和DD估计器在瞬时SNR突发增大时均不能很快地相应,否那么将意味着增大残留音乐噪声的电平。与其相反,NRE由于利用了可资的一些将来的含噪谱观测因此可以辨识出瞬时SNR突发增大是由语音信号开始端引发的还是由噪声的不规那么性引起的,从而可快速地响应于瞬时SNR的突发增大。因此,在增强信号和含噪观测信号间的时延需最小化时,建议选用DD估计器。然而,在诸如数字语音记录、监控和语音识别等应用场合,增强信号和含噪观测信号间的时延可为几帧,这时建议选用NRE。8.3噪声估计器的选择传统的噪声估计方法通常都是在无语音信号期间进展递归平均处理来估计噪声而在有语音信号期间保持其估计

16、不变。然而,这些方法通常需应用VAD技术,而噪声估计的更新须限定在无语音信号期间进展。众所周知,对假设语音信号分量和低输入SNR,VAD的可靠性将严重地退化65,71,72。这便致使传统噪声论文联盟.Ll.估计器的性能急剧恶化。噪声估计另一类技术那么基于功率谱域的直方图55,73,74,尽管它们防止了使用VAD,但其计算复杂度高、所需的存储资源多,在低SNR的条件下,工作性能差。此外,用来建立直方图的信号段通常需几百毫秒长,因此噪声估计的更新率本质上只能算中等而不算快。artin提出了一个称之为最小统计量的有效噪声估计技术59,它通过跟踪含噪信号功率谱平滑后的最小值并将其乘以一个偏置补偿因子来

17、获得噪声的无偏估计。然而该方法的估计方差近似为传统方法方差的二倍59,而且它或许会偶尔衰减低能量音素,特别在最小值搜索窗的长度较短时75。为抑制这些缺陷,平滑因子参数和偏置补偿因子需在时频域中作自适应变化56。Dublinger提出了一种计算有效的最小值跟踪方法57,但该方法缺点是:(1)在噪声能量电平突发增大时,噪声估计的更新率较慢;(2)有抵消信号的趋向。另一类相关的技术那么是低能量包络跟踪55和基于分位数(quantile-based)的估计方法76。与选择平化周期图的最小值不同,该类方法那么基于含噪信号非平滑周期图的一个时域分位数来估计噪声,其缺点是高的计算复杂度和用于保存过去谱功率值

18、的额外存储量。hen提出的IRA噪声估计器54结合了递归平均的简易性和最小值跟踪的稳健性,其平滑因子参数在时频域内根据语音出现概率作自适应地变化,噪声估计由此可连续地更新,即便在假设语音信号出现期间;该估计器由含噪测量平滑周期图的最小值来控制,它结合利用了瞬时和局部测量功率的条件来提供一个语音出现和不出现之间的软转换sfttransitin,这便阻止了在语音活动期间噪声估计量的偶尔增大;而且,在二个迭代中分别进展的平滑处理和最小值跟踪,可让人们使用较大长度的平滑窗和较小长度的最小值跟踪搜索窗,即使在强语音活动期间,也能可靠地跟踪最小值。这便见底了最小值的方差和速短了响应于噪声功率增加的延迟。在

19、非平稳噪声环境和低SNR的条件下,IRA技术特别有用54。9、结语本文系统地讨论和描绘了语音和噪声信号在STFT变换域中的统计模型,并导出了在语音信号出现不确定性条件下的语音谱系数估计器。统计模型充分考虑了语音信号连续谱分量间的时间相关性,而语音信号谱估计器涉及了噪声功率谱估计、语音信号出现概率的计算、在语音信号出现不确定情况下先验SNR估计。文中我们讨论了SE、SE-SA和SE-LSA谱增益函数的行为特征以及SE-LSA抗音乐噪声的优点机理。事实上,纯噪声帧期间后验SNR的局部野值可被拉回到平均噪声电平,从而防止了超出平均特性的噪声局部积累。先验语音信号出现概率估计器充分利用了连续帧邻近频段

20、中语音出现具有强相关性这一特性,从而能进一步降低噪声分量同时防止语音开始端的钳制和弱语音信号尾部的误检。文中我们还给出并讨论了在语音信号出现不确定情况下的假设干先验SNR估计器,指出了因果递归估计器在特定的情况下可蜕变成一个具有时变频率相关平滑因子的决策引导估计器;而且,在容许增强语音和含噪观测间的延迟限于几帧的应用场合,非因果递归估计器论文联盟.Ll.能获得比因果递归估计器较低的信号失真和较少的音乐残留噪声。另外,本文详细讨论了噪声功率谱估计的假设干方法,并重点介绍了S、RA和IRA估计器。最后,文中还就语音增强算法中统计模型和保真度的选择、先验SNR估计器的选择和噪声功率谱估计器的选择问题,提出了作者的看法。语音增强技术至今仍是一个活泼的研究领域。随着人们对语音信号统计特性和人类听觉系统的深化理解和利用,语音增强系统的性能将得到进一步地进步和改善。作者认为今后语音增强技术的研究将可能围绕着以下几个方向展开:(1)有意义的语音增强最优化准那么是什么?如何在数学上来描绘和表达它们?(2)信号变换的哪类分析技术例如短时Furier变换、子带变换和子波变换等最适宜于语音增强领域?(3)在不损害智能性intelligibility的条件下,如何进步和改善增强信号的听觉质量perEivedquality?在不损害听觉质量的条件下,如何进步和改善增强信号的智能性?(4)在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论