改进的基于人耳掩蔽效应谱减语音增强算法_图文_第1页
改进的基于人耳掩蔽效应谱减语音增强算法_图文_第2页
改进的基于人耳掩蔽效应谱减语音增强算法_图文_第3页
改进的基于人耳掩蔽效应谱减语音增强算法_图文_第4页
改进的基于人耳掩蔽效应谱减语音增强算法_图文_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、赵晓群 , 黄小珊(同济大学 电子与信息工程学院,上海 200092摘 要 :提出一种谱估计中的平滑系数自适应变化的新算法,该算法利用人耳掩蔽特性改进语音最小均方误差的 对数谱估计增益和无语音概率 (SAP参数,并且利用改进后的 SAP 参数自适应地调节平滑系数,以求随着不同噪 声环境的变化在去噪度、残留音乐噪声和语音畸变度之间自适应地折中。实验表明新算法相对于其他谱减法在相 同的去噪度下,语音畸变度最小且几乎察觉不到音乐噪声。特别是在低信噪比的环境下,相对其他谱减法的优势 更显著。关键词 :无语音概率;平滑系数;人耳掩蔽效应;语音畸变中图分类号 :TN912 文献标识码 :B 文章编号 :1

2、000-436X(200809-0073-08Improved speech enhancement based on spectralsubtraction and auditory masking effectZHAO Xiao-qun, HUANG Xiao-shan(College of Electronics & Information Engineering, Tongji University, Shanghai 200092, ChinaAbstract: Taking into account the masking properties of human audit

3、ory system and the uncertainty of the speech pres-ence, the novel algorithm modifies the log-spectral amplitude estimation and the speech absence probability (SAP pa-rameter. Then, the smoothing parameters in noise estimation and prior SNR estimation are adaptively adjusted to modi-fied SAP paramete

4、r which reflects the degree of stationary of the measured signal. The change of smoothing parameters allows for automatic adaptation with various noisy environments and obtains the best trade-off. Experimental results demonstrate that the proposed algorithm has better performance of speech articulat

5、ion without any perceptional musical-ity, compared to another modified spectral subtraction algorithms under the same level of noise reduction, and this supe-riority is more significant at very low SNR.Key words: speech absence probability; smoothing parameters; auditory masking effects; speech dist

6、ortion1 引言谱减法以其算法简单和普适性强在语音增强中 得到广泛应用。近年来,为进一步提高谱减法的性 能, 提出了一系列改进算法 110, 且取得了很好的去 噪效果。目前的研究工作主要集中在如何更准确且 实时地估计噪声谱、先验信噪比以及灵活使用无语 音概率的“模糊思想” 。语音和噪声的非平稳性会造 成谱估计的不完全准确,所产生的音乐噪声严重影 响了语音的可懂度。大多语音增强算法在追求减小 噪声的同时,也导致较严重的语音畸变度,尽管噪 声去除的效果很有效,但语音畸变度很大。所谓语音畸变度也就是引起语音的失真度,实 验表明,由于人耳对语音的感知是通过语音信号中收稿日期 :2006-10-11

7、; 修回日期 :2008-06-11基金项目 :上海市自然科学基金资助项目(04ZR14138Foundation Item: The Natural Science Foundation of Shanghai(04ZR14138·74·通 信 学 报 第 29卷各频谱分量的幅度获取的,语音的失真比对一般的 宽带噪声更敏感。对各分量的相位则不敏感,所以 语音的失真主要研究的是幅度失真。因此,为达到 满意的去噪效果,增强算法在去噪度、语音畸变度 和残留音乐噪声之间的均衡,一直是谱减法的关键 问题。各种改进的谱减算法 110对减少音乐噪声起 到了一定的作用,但如何同时减小语音

8、的畸变度, 还没系统讨论过。在各种改进算法中, 平滑系数的选取和 /或修正 的方法对残留噪声、残留的音乐噪声及语音畸变度 都有很大的影响。 无论是噪声谱估计 6,7,11还是语音 谱估计 4,5,810,12,13,其平滑系数均是根据实验取自 固定的经验值。然而,实验表明先验信噪比估计中 平滑系数 和噪声谱估计中平滑系数D较小时, 语音畸变和噪声残留都较少,但残留的音乐噪声显著;反之, 和D大时,语音畸变和噪声残留较 多,但残留的音乐噪声较少。所以,对于纯噪声帧 和带噪语音帧的平滑系数取值应该是不一样的,较 好的解决办法是随语音出现的状态而时变,带噪语 音帧中平滑系数取较小值,纯噪声帧中平滑系

9、数取 较大值。至于平滑系数时变的依据,可根据每帧功 率变化的大小来确定 14。但该方法突变性大,平滑 系数取值不够平滑,会残留大量原始噪声;也可基 于人耳掩蔽阈值来确定 15, 该算法直接采用掩蔽阈 值作平滑系数,但掩蔽阈值与平滑系数相关性不 大,不能较准确地跟踪带噪语音状态的时变。 本文的新算法采用经人耳掩蔽特性改进后的 SAP 参数来自适应地调节平滑系数。 人耳掩蔽效应 最初应用于低速率语音编码,近年来也应用于语音 增强 15,16。根据人耳掩蔽效应将带噪语音状态继续 分化为噪声被掩蔽的状态和噪声未被掩蔽的状态。 根据新划分的不同状态来改进 SAP 参数估计, 再利 用改进的 SAP 参数

10、自适应地调节语音平滑系数, 使 得在噪声能量小于语音掩蔽阈值的被掩蔽状态, 保 留原带噪语音, 尽量减小语音畸变; 而在噪声能量 大于语音掩蔽阈值的未被掩蔽的状态, 采用谱减法 进行去噪处理。 同时根据 I.Cohen 新提出的语音和 噪声统计模型 10,利用人耳掩蔽特性对卜凡亮等 人 17提出的在噪声被掩蔽概率下的语音谱估计增 益进行修正,这样更符合语音和噪声的特性,可以 在去噪度、残留“音乐噪声”和语音畸变度之间取 得很好的均衡。实验表明,该算法与其他谱减法相 比,能取得更小的语音畸变,而且能将残留噪声和 音乐噪声控制在人耳掩蔽阈值下,使人的主观感 觉得到了很大的改善。 由于能在去噪度、

11、残留 “音 乐噪声” 和语音畸变度之间自适应地折中, 因此, 在低信噪比环境下,比其他谱减算法 10,14,15优 势更明显。2 噪声被语音掩蔽的概率下的谱估计及改进 设 (nx 表示纯净语音信号。 当 (nx 受到加性噪 声 (nd 干 扰 后 产 生 带 噪 语 音 (ny , 则 有 (ndnxny +=。 由于语音信号是短时平稳的, 因 此,可用短时傅立叶变换进行分析。设, (klX 、, (klD 、, (klY 分别表示 (x n 、 (d n 、 ( y n的第 l 帧第 k 个频谱分量,且 , (j , (, (e k l klklAX =, ,(j, (, (e k lklk

12、lRY =; 再 设(, 2(, E| l kX l kX=和 (, 2(, E|l kD l kD=分别表示 (nx 和 (nd 的第 l 帧第 k 个频谱分量的方差。本 文 使 用 的 语 音 和 噪 声 的 统 计 模 型 是 由 I.Cohen 提出的改进模型 9:1 噪声 (nd 的任一帧、任一频谱分量, (k lD 是 统计独立的零均值复高斯随机变量,其实部和虚部 相互独立,且服从同一分布;2 在 , 范围内,语音 (nx 的任一帧、任一频谱分量, (k lX 的相位服从同一均匀分布;3 语音的第 k 个的幅度谱序列 " , , 2(, 1(kkA A是一个随机过程,且不

13、同谱分量的随机过程相互独 立, 即 ", 2(, 1(kkAA 与 ", 2(, 1(kkAA(' kk 是相互 独立的;4 计算, (klX时, 假定, (klX 是一个零均值的复 高斯随机变量,且它的实部和虚部服从同一分布 的;5 方差序列 ", 2(, 1(kkXX是一个随机过程, 对 特 定 的 l 和 k , (klX与 语 音 谱 幅 度 序 列 ", 2(, 1(kkAA 密切相关, 而在求, (klX时, 假定 , (k l X 与,(klX, (' ll 相互独立。无语音概率 (SAP的“模糊思想”是把语音的 第 l 帧

14、第 k 个频 谱分量的 状 态分为无 语 音状态 , (klH 和有语音状态 , (1klH 2种。在上面的语音模型基础上, 将有语音状态 , (1klH 继续分为噪声未被语音掩蔽的状态 , (0, 1klH 和噪声被语音掩蔽的状态 , ( 1, 1klH 。 各状态下带噪语音分别为第 9期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 ·75·(, 0(, (, (, 1,0, , , , , (, 1(, 1,1, , , , , :, :, l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l

15、k H Y D H Y X D D T H H Y X D D T =+>=+ (1 其中,设 , (k l T 是纯净语音第 l 帧第 k 个频谱分量的掩蔽阈值。由于复高斯变量的幅度服从 Rayleigh 分布, 则, (k l D 的概率密度函数可表示为= , ( , (2, ( , ( , (exp 2 (k l k l D k l D k l k l D D D f (2 噪声的功率谱 , (, k l P D 概率密度函数可表示为= , (, ( , (, , (, exp 1 (k l k l D k l P D k l P D D f (3 本文采用 Johnston 提出

16、的算法计算掩蔽阈值, (k l T 16,该算法的计算量小于基于线性频率的估计方法,故得到了广泛的应用。应当指出,由于目前对人耳听觉了解有限,所以对于掩蔽阈值 , (k l T 的计算仍有改进的余地。在语音出现的条件下,且 ,(, (, P l k l k D T ,即噪声被语音掩蔽的状态 , (1, 1k l H 的概率 , (, th k l p 为(, (, (, (, th,(, 1,11(, ,(, ,(, (|1( d 1exp l k l k l k l k l k l k P l k P l k T D p P H H T f D D =(4 在语音出现的条件下,且 , ( ,

17、 (, k l k l P T D >,即噪 声未被语音掩蔽的状态 , (0, 1k l H 的概率 , (, th 1k l p 为= , (, ( , (1 , (0, 1, (, th exp |(1k l Dk l k l k l k l T H H P p (5 2.2 基于语音信号统计模型和人耳掩蔽特性的谱估计最小均方误差的对数谱估计 (MMSE-LS更符合人耳的主观听觉特性。因此,相对于维纳滤波法 和最小均方误差的短时幅度谱估计法, MMSE-LS 的性能最好 12,13,18。 MMSE-LS 算法简称 LS-SAP 法, 其谱增益为 LS MMSE G ,如 13(,

18、(, MMSE LS,(, (, 1exp d 12l k t l k l k l k e G t t =+ (6 其中, 1/( , ( , ( , ( , (k l k l k l k l +=。 , (k l 和 , (k l 分别 为带噪语音的先验信噪比和后验信噪比 =, ( , ( , (/2 , (, ( , (k l k l k l D k l k l D X k l R (7 在模型中,已假设语音和噪声信号是统计不相 关的复高斯随机过程,各帧的频谱分量是复高斯随 机变量。因此,在不同状态下的条件概率密度函数 为 (, (, 2(, (, (, 0|1(| exp l k l k

19、 l k l k l k D D Y P Y H =(8 (, (, (, (, 2(, (, (, 1|1(| exp ( l k l k l k l k l k l k l k X D X D Y P Y H =+ (9根据有语音 , (1k l H 和无语音 , (0k l H 2种状态, SAP 法 5,6,12将谱估计的增益分为 LS MMSE G 和 min G ,将后验概率分为有语音概率 , (k l p 和无语音概率 , (1k l p 。然而,在状态 , (1k l H 条件下,子状态 , (0, 1k l H 和 , (1, 1k l H 的带噪语音幅度谱概率密度函数 ,

20、|( , (0, 1 , (1 , (k l k l k l H H Y P 和 , |( , (1, 1 , (1 , (k l k l k l H H Y P 是不同的,本文将对此进行 改 进 。 结 合 前 面 噪 声 被 语 音 掩 蔽 的 概 率 和MMSE-LS 谱估计,新算法在 SAP 参数和谱增益估 计时将语音出现状态 , (1k l H 按照人耳掩蔽特性继续分化为噪声被掩蔽的状态 , (1, 1k l H 和噪声未被掩蔽的 状态 , (0, 1k l H ,使谱估计更符合实际语音和噪声模型,能够在去噪度和语音畸变度之间更好地均衡。1 有语音且噪声被掩蔽的状态 , (1, 1k

21、 l H在 , (1, 1k l H 状态下, 噪声被语音掩蔽。 人耳感觉不 到噪声的存在,无须对带噪语音进行处理,因此, 没有语音畸变度。此状态的后验谱增益为 1,即(1,0,(, (, exp Eln1l k l k A R = (10其中, , (, 0, 1k l A 是在 , , , (1, 1 , (1, (k l k l k l H H Y 状态下对语音 的幅度谱的估计。设后验语音出现, 且被掩蔽的概率为 p 1,(l,k , 无语音状态的先验概率为 (, 0(, ( l k l k P H q =。根据贝叶 斯定理,并结合式 (4,有·76·通 信 学 报

22、第 29卷(, (, 1,(, 11,1(, (, (, (, (, (, (, 11,11,111(, (, (, (, 11,1th,(, (, (, (, (, (, 00(, 11, |(|, (| (|, (1 (| ( (| (l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k p P H H Y p YH H P H H P H P Y p Y H H p q p Y H P H p Y H P H =+, l k (11 其中(, (, (, (, (, (, 1

23、1,12(, (, 1(|, |exp , min, l k l k l k l k l k l k X D l k D D l k X DP Y H H Y T =+=+(122 有语音且噪声未被掩蔽的状态 , (0, 1k l H人耳能感觉到噪声的存在,采用谱减法去除噪声。此状态的后验谱增益为(, 1,1,(, MMSE LS,(, (, (, (, expEln1exp d 12l k l k l k l k t l k l k A G R e t t =+ (13其中, , (, 1, 1k l A 是在 , , , (0, 1 , (1, (k l k l k l H H Y 状态下

24、对语音 的幅度谱的估计。设后验语音出现 , 且未被掩蔽的概率为 , (, 0k l p ,此时,语音状态的先验概率为 , ( , (11 (k l k l q H P =, 且 , (, 0k l p 为(, (, 0,(, 11,0(, (, (, (, (, (, (, 11,01,011(, (, (, (, 11,0th,(, (, (, (, (, (, 00(, 1(, |(|, (| (|, (1(1(| ( (| l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k

25、 p P H H Y p Y H H P H H P H P Y p Y H H p q p Y H P Hp Y H P =+(, 1(l k H(14 其中(, (, (, (, (, (, 11,02(, (, 1(|, ( |exp , max, l k l k l k l k l k l k X Dl k DD l k X DP Y H H Y T =+=+(15由式 (11式 (15可得,语音出现的后验概率 |( , ( , (1k l k l Y H P 为, (, 1 , (, 0 , ( , ( , (1 |(k l k l k l k l k l p p p Y H P +

26、= (16 3 无语音状态 , (0k l H在语音增强过程中,人耳对完全的无声状态并不感觉舒适。经验表明,在处理纯噪声部分,此状 态的后验谱增益取一个固定经验值为0,(, min (, expElnl k l k A G R = (17 其中, , (, 0k l A 是在 , , (0, (k l k l H Y 状态下对语音的幅度 谱的估计。此状态下的后验无语音概率为, (, 1 , (, 0 , ( , (1 , (, (01 |(1 |(k l k l k l k l k l k l p p Y H P Y H P = (18通过上述 3个状态的分析,本文提出新的改进的谱估计,其增益

27、 , (, AD LS k l G 定义为(, LS AD,(, (, expElnl k l k l k A G R =(19根据概率论, (, Elnl k A 可表示为 (, Elnl k A (, (, 1,0,(, 11,0(, Eln, |l k l k l k l k A P H H Y =+ (, (, 1,1,(, 11,1(, (, 0,(, 0(, Eln, | Eln|l k l k l k l k l k l k l k A P H H Y A P H Y +(20考虑到式 (11、式 (14和式 (18,式 (20可写为 (, Elnl k A =1,0,(, 0,

28、(, Elnl k l k A p +1,1,(, 1,(, 0,(, 0,(, 1,(, ElnEln(1 l k l k l k l k l k A p A p p + (21将式(21代入式 (19,注意到式 (10、式 (11和式 (17,经整理得, ,(0, ,(1, ,(0, (LS, MMSE 1min , (, AD LS k l k l k l pk l p pk l G G G = (22 3 基于人耳掩蔽效应改进的 SAP 参数的平滑系数自适应变化去噪度和语音畸变度、残留“音乐噪声”度不 可能同时优化, 因此, 先验信噪比 和噪声谱 , (k l D 的估计分别使用了平滑

29、系数 , (k l 和 (, l k D 。平滑系 数的取值对去噪度和语音畸变度影响很大。例如, 在估计 时平滑系数 是在跟踪语音变化的准确 度和 的平滑度之间权衡,即在语音畸变度和残留 音乐噪声度之间折中; 的标准方差(的平滑度影响音乐噪声的大小 随 1增大而增大, 即随着 第 9期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 ·77· 的增大, 越不平滑。又如,在 MMSE 谱估计中, 当语音出现时,增益从 min G 迅速增大为 , ,(LS MMSE k l G , 变化的延迟也随 的增大而增大,而且延迟越大, 过渡段的语音畸变越大。上述结论可参见图 1。图

30、1 同一段带噪语音在不同平滑系数下的 , 的对比带噪语音的变化程度称为“平稳度” ,平滑系数依据“平稳度”自适应变化。因此,选取一个可靠的平稳度参数是至关重要的。Casual 和 Noncasual 法 97之所以比 LS-SAP 法 13好, 主要就是它们考虑相邻 帧的信息,更符合语音信号的慢时变特性;另外, LS-SAP 法 中 平 滑 系 数 是 固 定 值 , Casual 和 Noncasual 法中平滑系数 22141 (11+=l D l l A A l , 相当于平滑系数时变的 LS-SAP 法,它与各帧的先 验信噪比成反比,这正符合了平滑系数的时变思 想,即用先验信噪比作为平

31、稳度参数。但该算法只 对谱增益中的平滑系数进行了时变,并未对噪声谱估计中平滑系数进行处理。T.F.Quatieri 、 R.A.Baxter (简称 TR 法采用各帧之间的频谱差作为平稳度 来反应语音的变化 14。 实验表明, 用于平滑系数的 自适应变化相对于固定的参数算法所得到的去噪 语音的畸变度和“音乐噪声”都要小;尽管去噪度 稍微弱些,但总体来说,人耳的主观感觉要好,特 别是在语音开始和结尾处的过渡段保留较好,提高 了可懂度。但由于带噪语音具有突变的特性,采用 TR 法进行平滑系数的自适应变化会有一些突变的 部分,使得平滑系数的变化不够平滑。此外, Virag 直接利用人耳的掩蔽阈值针对

32、一般谱减法的系数 进行了时变 15,取得较好的效果 (后面简称 NV 法 , 但是 NV 法的平滑系数的变化不是很符合带噪语音 的状态变化,只是简单地将平滑系数与人耳的掩蔽 阈值结合考虑。下面本文依据 2.2节提出的 3个状 态,对带噪语音在各种状态中的平滑系数变化进行 分析。1 无语音状态 , (0k l H 后验语音出现的概率 , (k l p 小, 则后验语音出现 噪声被掩蔽的概率 , (, 1k l p 和未被掩蔽的概率 , (, 0k l p 也都很小。此时,需要很好地跟踪噪声的变化,而 无需跟踪语音,即减少语音谱估计中先验信噪比的 方差,减少听觉感知的“音乐噪声” , , (k l

33、 D 需取较 小值, , (k l 取最大值 1。 , (k l D 和 , (k l 的更新为=+=min , 1(, (2, ( 1( , ( , ( , ( , (k l k l k l D D D D R k l k l k l k l (23 2 有语音且噪声未被掩蔽的状态 , (0, 1k l H后验语音出现概率 , (k l p 大, 则后验语音出现噪声未被掩蔽的概率 , (, 0k l p 较大,后验语音出现噪声 被掩蔽的概率 , (, 1k l p 很小。既需要很好地跟踪噪声 的变化,同时也需要跟踪语音,噪声估计和先验信 噪比都需要实时更新。在该状态需要在进行谱减法 的同时,

34、尽量减小语音畸变度,将残留噪声和“音 乐噪声”抑制在掩蔽阈值之下。 , (k l 和 , (k l D 需要 根据具体情况在 , , max , min , max min D D 范围内 自适应变化。 , (k l D 和 , (k l 的更新表示为+=+=0, 1max 1( 1( , ( , ( , 1( , (, (2, ( , ( , ( , ( , (k l k l k l k l k l k l D D D D R k l k l k l k l (24 3 有语音且噪声被掩蔽的状态 , (1, 1k l H后验语音出现概率 , (k l p 大, 则后验语音出现噪 声未被掩蔽的

35、概率 , (, 0k l p 很小,后验语音出现噪声 被掩蔽概率 , (, 1k l p 较大。由于噪声被语音掩蔽时人 耳感知不到,故无须跟踪噪声谱和进行谱减处理, 因此没有语音畸变。此时,仅需要跟踪语音,实时更新先验信噪比估计, (k l 需取较小值, , (k l D 取 1。 , (k l 和 , (k l D 的更新表示为+=0, 1max 1( , ( , ( , 1( , (, (, 1( , (k l k l k l k l k l D D k l k l (25 可见, 噪声估计平滑系数 , (k l D 随着语音出现,·78· 通 信 学 报 第 29 卷

36、 且噪声被语音掩蔽的概率增大(即掩蔽阈值的增加 而增大;先验信噪比平滑系数 ( l ,k 随着语音出现而 减小。可见平滑系数的变化规律与语音出现概率及 噪声被语音掩蔽的概率有密切联系。而且改进后的 SAP 参数是根据人耳掩蔽特性、信号模型,并利用 IMCRA 法 7 的最小二次迭代法求出的,结合了相邻 帧信息, 能准确地反映出语音各个状态的变化。 因此, ( l ,k 采用后验语音出现概率 P( H 1 | Y( l ,k = p( l ,k ,作为 采用 先验信噪比估计中平滑系数 (l , k 的平稳度, 后验语音出现且噪声被语音掩蔽概率 p1, (l , k 为噪 声谱估计中平滑系数 D(

37、 l , k 的平稳度。根据各类 信噪比的环境下的实验得出, 平滑系数上阈值取 max = 0.98 ,下阈值取 min = 0.25 。将各概率值归 整到范围 min , max 内,采用下面归整公式 D = f (lmin D,max , max D,min , sin 2N k p1,(l,k i Bark i (26 ( l ,k (l,k = f (lmin max , max min , cos p(l,k 2Ni kBark i (27 其中, f (l 是为了使平滑系数不产生剧烈突变所 加的因果平滑滤波器; N i 是频带 Bark i 里总的频谱 分量数。LS-AD 算法的流

38、程图如图 2 所示。 图 2 LS-AD 算法流程 4 实验结果及评价 SNRseg 纯净语音取自标准语音库的一段男声 (male : “从经济型轿车到越野型轿车,车市主题一年一 变” 。噪声取自 Noisex 92 的白(white噪声、坦克噪 声(M109、飞机驾驶仓噪声 (F16。将它们合成信 噪比为 10 5dB 的带噪语音( 16kHz 采样, 512 点分帧, 点重叠) 将 I.Cohen 的 Casual 法 256 。 (因 为 Noncasual 法与 Casual 法的区别仅在某些突变 、 处,所以这里就只对比 Casual 法) T.F.Quatieri 的 TR 法、E

39、phraim 的 LS-SAP 法以及本文提出的 LS-AD 法进行比较,并从主观和客观评价分别进 行讨论。 客 观 评 价 常 用 分 段 信 噪 比 ( SNRseg 和 Itakura-Saito 距离( d IS 。公式如下 M x(i M + n 2 1 n=0 = 10 log M (28 L i =0 2 x(i M + n x(i M + n n=0 L 1 d IS = 1 L 1 L l =1 N 2 log 2 N /2 k =1 X (l , k × 2 X (l , k (29 (l , k k =1 (l , k X N N /2 X 其中,x(n 和 x

40、(n 分别是纯净语音和去噪后语音的 时域信号, X 和 X 分别是 x (n 和 x(n 分帧并 ( l ,k ( l ,k 经短时傅立叶变换后的第 l 帧第 k 个频谱分量。 由于 LS-AD 算法保留低于语音掩蔽阈值的噪 声,这样尽管在主观感觉效果很好,但 SNRseg 上未 能见有任何优势。因此,客观评价上只讨论 d IS 。 图 3 比较了各种噪声环境下的 4 种算法,可见 第9期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 ·79· Casual 法、 TR 法、 LS-AD 法明显优于最原始的 LS-SAP 法。 仔细观察发现 LS-AD 法去噪后的语音在

41、 保留了许多低于掩蔽噪声阈值的噪声情况下,其 d IS 仍能与 Casual 法、TR 法的 d IS 值很相近;且随着信 噪比的降低,其值越相近,即效果越好。这充分说明 LS-AD 处理后的语音最为逼近原始语音, 即语音失真 度最小。通过图 4 的语谱图更能充分说明这点。 时间/s (a M109 0dB LS-AD 法增强后 时间/s (b M109 0 dB Casual 法增强后 (a 坦克 M109 环境下 时间/s (c M109 -5 dB LS-AD 法增强后 时间/s (d M109 -5 dB Casual 法增强后 (b 白噪声环境下 时间/s (e 白噪声 0 dB L

42、S-AD 法增强后 时间/s (f 白噪声 0 dB TR 法增强后 (c F16 环境下 图 3 带噪语音处理后的 IS 距离比较 从图 4 看出, 在语音集中的 01 000Hz 频段内, LS-AD 法的语音保留最多, 特别语音的起始和结尾 处,这一部分较多为清音,对语音的可懂度影响较 大。虽然可以看出 LS-AD 残留了很多的噪声,但 是这些噪声是基于人耳掩蔽阈值保留下来的,因 此,对语音可懂度的影响较小,而且几乎没有孤立 的频点存在于掩蔽阈值外,即感觉不到“音乐噪 声” 这些通过主观听觉感受都能证明。 , 所以 LS-AD 法相对于 Casual 法、TR 法、LS-SAP 法语音畸

43、变度 时间/s (g 白噪声 -5 dB LS-AD 法增强后 时间/s (h 白噪声 -5 dB TR 法增强后 图4 带噪语音经各算法增强后的语谱 ·80· 通 信 学 报 6 第 29 卷 COHEN I, BERDUGO B. Noise estimation by minima controlled recursive averaging for robust speech enhancementJ. IEEE Signal Processing Letters, 2002, 9(1: 12-15. 最小,而且通过主观感觉不到残留“音乐噪声”和 噪声, 在这三者之

44、间能找到很好的折中。 运算量上, LS-AD 法相对于 LS-SAP 法就多一个掩蔽阈值计 算,而且 LS-AD 的先验信噪比估计不用 Casual 和 Noncasual 法中的迭代运算, 运算量和 NV 法、 Casual 法相当。 LS-AD 法与 NV 法之间的比较通过主观听 原因有 2 觉能明显地察觉出 LS-AD 法优于 NV 法, 个:LS-AD 法采用的是 Ephraim 提出的 MMSE-LS 谱估计; LS-AD 中平滑系数的自适应变化不仅仅只 基于人耳掩蔽阈值,同时也考虑了无语音概率参数 ,更符合带噪语音信号的模型。 (SAP) 7 COHEN I. Noise spec

45、trum estimation in adverse environments: improved minima controlled recursive averagingJ. IEEE Transactions on Speech and Audio Processing, 2003, 11(5:466-475. 8 9 COHEN I. On the decision-directed approach of ephraim and malahA. IEEE International Conference on ICASSPC. 2004.293-296. COHEN I. Speec

46、h enhancement using a noncasual a priori SNR estimatorJ. IEEE Signal Processing Letters, 2004, 11(9: 725-728. 10 COHEN I. Relaxed statistical model for speech enhancement and a priori SNR estimationJ. IEEE Transactions on Speech and Audio Processing, 2005,13(5: 870-881. 11 MARTIN R. Spectral subtrac

47、tion based on minimum statisticsA. Proc Eur Signal Processing ConfC. 1994. 1182-1185. 12 EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error short-time spectral amplitude estimatorJ. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1984, 32(6: 1109-1121. 13 EPHRAIM

48、 Y, MALAH D. Speech enhancement using a minimum mean square error log-spectral amplitude estimatorJ. Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2.443-445. 14 QUATIERI T F, BAXTER R A. Noise reduction based on spectral changeA. IEEE ASSP Workshop on Applications of Signal Proc

49、essing to Audio and AcousticsC. 1997.19-22. 15 VIRAG N. Signal channel speech enhancement based on masking properties of the human auditory systemJ. IEEE Transactions on Speech and Audio Processing, 1999, 7(2: 126-137. 16 JOHNSTOM J D. Transform coding of audio signals using perceptual noise criteriaJ. IEEE J Selected Areas Communication, 1988,6(2:314-323. 17 卜凡亮,王为民,戴启军等. 基于噪声被掩蔽概率的优化语音增强 方法J. 电子与信息学报, 2005, 27(5: 753-756. PU F L, WANG W M, DAI Q J, et al. Optimizing speech

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论