信号子空间语音增强算法

上传人：1*** IP属地：广东上传时间：2023-08-13 格式：DOCX 页数：7 大小：41.42KB 积分：12 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信号子空间语音增强算法

拉格朗日乘子估计方法真实生活中的语音通常受到环境中噪声的影响，噪声的存在会降低语音的质量。对于很多语音应用系统如:语音通讯系统,语音识别系统和声纹识别系统等而言,噪声的存在使得其性能大幅地下降。语音增强作为一种有效的消除噪声,改进语音质量的方法,近些年来受到了广泛的关注。其中,信号子空间语音增强算法更是由于其出色的降噪性能近年来得到了广泛的使用传统的信号子空间选择的算法是,设定一个阈值,信号子空间的维度就是大于该阈值的特征值的个数。由于阈值的设定具有较大的人为性,显然,这种方法不一定是最优的,导致了算法性能的下降。针对这一情况,本文利用高斯、拉普拉斯和伽玛模型来描述语音的分布,通过极大化语音概率,提出了一种更合理的子空间维度选择方法。传统的噪声估计方法常常具有较大的估计误差,本文利用条件概率给出了一种在噪声子空间上估计噪声功率谱的方法,更为准确地估计了噪声。拉格朗日乘子的作用是折中增强语音中的残余噪声和语音畸变,本文利用人耳的听觉掩蔽效应,提出了一种拉格朗日乘子估计方法,合理地折中了增强语音中的残余噪声和语音畸变,改进了增强语音的质量。实验证明,本文所提的信号子空间语音增强算法比传统的信号子空间算法更好地消除了噪声,并使得增强后的语音具有更小的失真,在多项语音评价指标上,都取得了更好的实验结果。1噪声功率谱矩阵假设具有L个阵元的传声器阵列上接收到的带噪语音信号向量为X,其功率谱矩阵是RX;目标语音信号向量为S,其功率谱矩阵是RS;噪声向量为N,其功率谱矩阵是RN。在目标语音信号与噪声无关的假设下,下式成立:一般而言,绝大多数纯净语音的功率谱矩阵都具有一部分零特征值,所以Rs的特征值可分解表述如下其中,As=diag(λS1,…,λS对于传声器阵列数据而言,可假设各个阵元上的噪声功率谱相等为σN2,而阵元间的噪声不相关,则有RN=σN2I。带噪信号功率谱矩阵可写为:的特征值可表述如下:从式(4)中可看出,信号子空间的维度是Q,其中包含目标语音和噪声信息,而噪声子空间的维度是L-Q,其中只包含噪声信息。设H为线性滤波器,则增强后的语音为:Ephraim给出了H在最小均方误差意义下的最优解如下其中,G对角矩阵G的表达式如下其中,ΛG的第i个对角线元素可表述如下:从式(8)中可以看到,噪声功率谱σN2和拉格朗日乘子μi的估计对于线性滤波器的估计非常重要。σN2反映了带噪语音中的噪声强度,而μi则表示的是增强语音中残余噪声和语音畸变之间的折中。2本研究中提出的算法本文的目标在于合理地进行子空间选择,估计式(8)中的噪声功率谱σN2和拉格朗日乘子μi,进而得到合理的线性滤波器估计。2.1实验结果与分析从式(8)中可以看出,要估计出线性滤波器,首先需要估计出噪声功率谱。通常使用的噪声估计方法是VAD算法首先,需要确定信号子空间的维度Q和噪声子空间的维度L-Q。本文采用的方法是通过极大化带噪语音帧中目标语音的概率来确定Q,取最合适的Q值使得目标语音概率最大。绝大多数的语音增强算法都假设带噪语音帧可分为两种情况:H0:只存在噪声,不存在目标语音;H其中,X(t),N(t)和S(t)分别是在第t帧上的带噪语音信号、噪声信号和目标语音信号。大多数的语音增强算法都假设语音信号的谱系数服从零均值的高斯分布。然而,通过一些实验,人们发现在某些情况下,拉普拉斯模型和伽玛模型更适合描述语音信号的谱系数高斯模型:拉普拉斯模型:其中,S(k,t)和v基于以上三个模型,本文提出了一种选取子空间维度的方法,对于HP(S(k,t)|H1),噪声子空间维度为L-Q。其中,P(·)是目标语音谱的分布函数,从上面的三个模型中选择。对于带噪信号每一帧中的每个频率点,计算步骤如下(为使表达简洁,省略标记(k,t)):接下来,需要对噪声功率谱进行估计。对于每一帧信号而言,它以概率P(H0|X)属于假设H其中,σ02和σ12分别是在Ho和H根据条件概率公式,噪声功率谱可估计如下:其中,P(H在表2中,给出了计算P(H为了验证本文所提的噪声估计方法的效果,本文进行了如下实验。本文将实验室中录制的计算机风扇噪声数据与纯净语音“j-o-h”混合后形成带噪语音。16kHz采样。将估计出的噪声功率谱与真实的噪声功率谱相比较,以评定算法效果。本文定义噪声估计误差(NoiseEstimationError,NEE)如下:其中,图2比较了高斯模型、拉普拉斯模型和伽玛模型对带噪语音“j-o-h”(噪声为计算机风扇噪声)在4000Hz频率上的噪声功率谱估计误差。从图2中可看到这三个模型给出了三种不同的估计结果。从实验中,我们发现根据噪声功率谱的形状的不同,最优的估计模型也有所不同。这一发现表明我们可以根据谱的形状进行模型选择来提高噪声估计的准确性。但同时需要注意到的是由于实际环境中的噪声种类很多,噪声特性也往往各不相同,所以模型选择需要针对具体的噪声特性来进行。在本文中,仅针对计算机风扇噪声数据提出了一种模型选择方法。针对计算机风扇噪声数据,我们发现,最优模型的选择主要依赖于谱的平稳性。为了能够较好地描述谱的平稳性,定义判别函数如下其中,Ω的值在0到1之间。谱越平稳,Ω的值越接近1。为了更清楚地描述最优模型与Ω之间的关系,本文对带噪语音“j-o-h”整个频带上的最优模型进行统计,给出在Ω取不同的值时,各个模型为最优模型的比率,如图3所示。从图3中,我们可看到当Ω的值较小时,高斯模型是最优的。随着Ω值的增加,拉普拉斯模型逐渐成为最优模型。在进一步对30句实验数据进行统计后,我们发现高斯模型在Ω取较小值时为最优模型。在Ω值较大时,伽玛模型为最优模型,而在Ω的值处于中间段时,拉普拉斯模型最优。所以,本文进行模型选择如下:其中,Ω为了验证本文模型选择的效果,本文用联合模型对带噪语句“j-o-h”进行了噪声功率谱估计,实验结果如下:从图4中可看出,相对于高斯模型、拉普拉斯模型和伽玛模型的估计结果而言,联合模型减少了对带噪语音“j-o-h”在4000Hz频率上的噪声功率谱估计误差。在图5(a)中,给出了高斯模型、拉普拉斯模型和伽玛模型对带噪语音“j-o-h”在所有频率上的平均噪声估计误差。从图5(b)中的联合模型估计结果可以看到相对于三个模型中的最好模型,本文所提的联合模型将噪声估计误差减少了0.08。为了评估所提噪声估计方法的效果,本文用8阵元(全向传声器)的传声器阵列录制了3种噪声数据:计算机风扇噪声、人群欢呼噪声和机器蜂鸣噪声。阵列放置在安静环境下的实验室的中间,阵元间隔为4cm,噪声源摆放在阵列正前方1m的地方。采样率为16kHz。从CMU数据库中选择了15句纯净语句,对于每种噪声,各用5句纯净语句与其在5种信噪比(-10dB,-5dB,0dB,5dB,10dB)下进行混合(用计算机进行混合),总共得到75句带噪语句。图6给出了在这75句数据上进行实验的结果。从图6(a)和图6(c)中可看出,对于计算机风扇噪声和机器蜂鸣噪声,所提的联合模型比高斯模型、拉普拉斯模型和伽玛模型要好。从图6(b)可看出,对于人群欢呼噪声,所提的联合模型比高斯模型和伽玛模型稍差,比拉普拉斯模型要好。原因是机器蜂鸣噪声与计算机风扇噪声的能量分布都是以1200Hz为界,不同的是,机器蜂鸣噪声是低频能量较弱。所以根据计算机风扇噪声进行的模型选择对于机器蜂鸣噪声也是有效的。而人群欢呼噪声与计算机风扇噪声差异较大,能量分布主要集中在500～2500Hz这一频段,且这一频段的能量比明显强于其它频段能量。所以根据计算机风扇噪声进行的模型选择用在人群欢呼噪声上效果较差。这说明模型选择虽然能够进一步提高噪声估计的准确率,但需要针对噪声的特性来进行才能达到较好的效果。为了评估所提的噪声估计方法的效果,本文进一步将所提方法与基于VAD的噪声估计方法从图7中可看出,对于3种不同的噪声数据,本文所提的噪声估计方法相对于比较方法而言,在不同的信噪比下都更加准确地估计了噪声功率谱。基于VAD的噪声估计方法效果较差的原因在于语音帧上的噪声与纯噪声帧上的噪声总是存在着不同的。本文所提的方法根据噪声谱分布,在噪声子空间上估计噪声,极大地减少了噪声估计误差。2.2基于信号基特征值的残余噪声在估计出噪声功率谱后,接下来,就需要估计式(8)中的拉格朗日乘子。拉格朗日乘子反映的是增强语音中残余噪声与语音畸变之间的折中。本文利用人耳的听觉掩蔽效应,提出了一种拉格朗日乘子的估计方法。人耳的听觉掩蔽效应是指,在通常情况下,目标语音信号是强信号,而背景噪声相对较弱,这样人耳听觉系统会根据具体的目标语音信号确定频域上的听觉掩蔽阈值,如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下,那么该噪声就不会被人耳感知,从而实现对带噪语音信号的增强。人耳听觉频率范围是0Hz到15500Hz,覆盖了24个关键子频带首先,需要计算出表征人耳基膜上能量的激励能量值C(j,k):其中,E(j,k)表示的是第j个子频带内第k个频点上的能量,SF(j)是传播函数,j=1,…,24。传播函数SF(j)计算如下:频点能量E(j,k)则可根据信号子空间特征值和特征向量计算出来其中,λS听觉掩蔽阈值Cth其中,为了在特征值域使用听觉掩蔽效应,需要将听觉掩蔽阈值映射到特征值域上,Jabloun给出了一种映射方法如下其中,K为傅里叶变换的点数,θ=[θ如果使增强语音中的残余噪声小于听觉掩蔽能量,就可以消除其影响。残余噪声其中,H是线性滤波器,N是带噪信号中的噪声。残余噪声的功率谱矩阵可计算如下:其中,为对角矩阵,其第i个对角线元素λ为了掩蔽噪声,本文使残余噪声小于或等于“听觉掩蔽能量”θ考虑到μi≥0,本文取:将式(30)代入式(8),可得:将式(31)代入到式(6),即可得到线性滤波器H的估计,再由式(5)可得到增强后的语音。3基于统计模型和人耳听蔽效应的信号子空间语音增强算法在本节中,给出了本文所提的基于统计模型和人耳听觉掩蔽效应的信号子空间语音增强算法的实现步骤。图9给出了本文所提基于统计模型和人耳听觉掩蔽效应的信号子空间语音增强算法的实现流程。具体的计算步骤如表3。4本文算法的比较为了验证本文所提的基于统计模型和人耳听觉掩蔽效应的信号子空间语音增强算法的效果,本文将所提算法(噪声估计使用联合模型)与Ephraim的信号子空间算法从图10中可看到,对于所用的3种噪声数据,相对于比较算法中最好的算法而言,本文所提的算法使得增强语音的信噪比得到大幅的提高,在5种信噪比下平均提高为:计算机风扇噪声数据:7.84dB,人群欢呼噪声数据:5.04dB,机器蜂鸣噪声数据:5.35dB。LAR指标考察的是增强语音的线性预测系数(LPC)与目标语音的线性预测系数之间的接近程度。从图11中可以看到,相对于比较算法而言,本文所提的算法使得增强后语音的线性预测系数与目标语音的线性预测系数最为接近。相对于比较算法中的最好算法,本文算法在5种输入信噪比下的平均改进分别为:计算机风扇噪声数据:9.8%,人群欢呼噪声数据:14.2%,机器蜂鸣噪声数据:13.6%。需要注意的是,在图11(a)中,可以发现带噪输入具有比增强语音更小的LAR值,这说明,对于某些噪声而言,语音增强算法在进行语音增强消除噪声的同时,也会增加一定的目标语音畸变。LSD指标考察的是增强语音谱与目标语音谱之间的接近程度。从图12中可以看到,相对于比较算法而言,本文所提的算法使得增强后语音的谱与目标语音的谱最为接近。相对于比较算法中的最好算法,本文算法在5种输入信噪比下的平均改进分别为:计算机风扇噪声数据:4.1%,人群欢呼噪声数据:23.1%,机器蜂鸣噪声数据:31.5%。前面采用的三种评测指标都是客观的,而语音的主观听觉感知质量用客观指标无法评价。为了评估所提算法增强后语音的感知质量,本文又增加了以下主观听觉实验。有10个人参加了该听觉实验。实验用了3句纯净语音分别与3种噪声在-5dB,0dB和5dB下混合形成带噪语音。再经过所提算法和比较算法增强后得到增强的语音。让要比较的算法增强的语音形成一对。让参加测试者先听带噪语音,再听增强语音。每对听3次,每次都选择他们认为效果好的算法。选择的根据是语音畸变小和残余噪声小。实验结果如下。从表4—表6中,可以看到,相对于比较算法而言,所提的算法使得增强语音具有更好的语音感知质量。在图13中,本文给出了语句“pittsburgh”的语谱图。噪声为机器蜂鸣噪声。从图13中可以看到,Ephraim算法和YH算法对于噪声的消除效果都较差,相比之下,本文所提的算法更好的消除了噪声。需要注意的是,从图13(e)中可以看到,目标语音基频附近的残余噪声较多,这一现象的产生可能是因为所提噪声估计算法对于基频附近的噪声估计不准,而导致了所提增强算法对于基频附近噪声消除能力较差。最后,本文对所提算法的时间复杂度进行简单的分析。由于子空间算法需要进行矩

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信号子空间语音增强算法

文档简介

温馨提示

最新文档

评论

信号子空间语音增强算法

文档简介

温馨提示

最新文档

评论

相关文档