(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf_第1页
(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf_第2页
(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf_第3页
(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf_第4页
(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(信号与信息处理专业论文)非平稳噪声环境下的语音增强研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕七学位论文 摘要 语音常常受到背景噪声的干扰而使语音质量下降。在这种情况下,我们可以 使用语音增强技术抑制背景噪声,提高语音质量。 语音增强的方法有很多,其中谱减法由于原理简单、运算量小,得到广泛应 用,但是它在抑制背景噪声的同时会产生“音乐噪声”。因此本文主要围绕如何 抑制“音乐噪声”展开研究,并完成以下工作: 本文分析了d o b l i n g e r 和c o h e n 噪声谱估计方法的优点和不足,并在他 们的基础上提出了一种快速自适应的噪声谱估计方法。实验证明,该噪 声谱估计方法解决了背景噪声突变情况下,c o h e n 噪声谱估计方法中估 计噪声谱的延时问题,并且还提高了估计噪声谱的准确性。 本文分析了平滑的先验信噪比曲线能够抑制“音乐噪声”的原理,然后 从先验信噪比的定义出发,提出了一种有效的先验信噪比平滑方法。实 验证明,本文方法解决了直接判决法在语音开始端能量较大情况下,先 验信噪比的延时问题;同时结合该方法实现的基于小波阈值多窗口功率 谱估计的语音增强方法能够有效抑制“音乐噪声”,但它是以增大语音 失真为代价的,其中辅音和能量较小的元音共振峰损失较大。 本文提出了基于先验信噪比和人耳听觉掩蔽效应的语音增强方法。基于 先验信噪比和人耳听觉掩蔽效应的语音增强方法是在v i r a g 方法的基础 上,使用先验信噪比进一步细化调节频谱衰减因子中的噪声谱权重系 数。实验证明,相比v i r a g 方法,该语音增强方法在不增大语音失真的 前提下,进一步抑制了“音乐噪声”;相比基于小波阈值多窗口功率谱 估计的语音增强方法,该语音增强方法在抑制“音乐噪声”的前提下, 进一步减小了语音失真,尤其是辅音和能量较小的元音共振峰损失明显 减小。 关键词:语音增强,噪声谱估计,功率谱估计,入耳听觉掩蔽效应 v i i i 上海大学硕士学位论文 a b s t r a c t s p e e c hi so f t e nc o r r u p t e da c o u s t i c a l l yb yb a c k g r o u n dn o i s e i tr e s u l t si np o o r s p e e c hq u a l i t y i nt h i sc o n d i t i o n ,w ec a l l u s es p e e c he n h a n c e m e n tt e c h n i q u et o s u p p r e s sb a c k g r o u n dn o i s ea n di m p r o v es p e e c hq u a l i t y t h e r ea r em a n ys p e e c he n h a n c e m e n tm e t h o d s a m o n gt h e m ,t h es p e c t r u m s u b t r a c t i o nm e t h o di sw i d e l yu s e db e c a u s eo fi t ss i m p l ep r i n c i p l ea n dl o wc a l c u l a t i o n s p e c t r u ms u b t r a c t i o nm e t h o ds u p p r e s s e sb a c k g r o u n dn o i s ew e l l ,b u ti ta l s op r o d u c e s “m u s i c a ln o i s e ”s ot h et h e m eo ft h i sp a p e ri sh o wt o s u p p r e s s “m u s i c a ln o i s e e f f e c t i v e l ya n dw eh a v ea c c o m p l i s h e dw o r ka sf o l l o w : t h i sp a p e ri n t r o d u c e st h em e t h o d so fn o i s es p e c t r u me s t i m a t i o np r o p o s e db y d o b l i n g e ra n dc o h e na n da n a l y s e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so f t h e m b a s e do nt h i s ,w ep r o p o s ean e wm e t h o do fn o i s es p e c t r u me s t i m a t i o n w i t hr a p i ds e l f - a d a p t a t i o n c o m p a r e dw i t ht h em e t h o do fn o i s es p e c t r u m e s t i m a t i o np r o p o s e db yc o h e n ,t h em e t h o do fn o i s es p e c t r u me s t i m a t i o n p r o p o s e dh e r ec a ns o l v et h ep r o b l e mo fn o i s es p e c t r u md e l a yw h e n b a c k g r o u n dn o i s ee n e r g ya b r u p tr a i s e sa n da l s oi m p r o v et h ee s t i m a t i o n a c c u r a c yo fn o i s es p e c t r u m t h i sp a p e ra n a l y s e st h er e a s o nw h ys m o o t h e dp r i o rs n rc u r v ec a ns u p p r e s s m u s i c a ln o i s e e f f e c t i v e l y , a n dt h e np r o p o s e san e wm e t h o dt os m o o t hp r i o r s n rc u r v eb a s e do nt h ed e f i n i t i o no fp r i o rs n r c o m p a r e dw i t hd i r e c t d e c i s i o nm e t h o d ,t h em e t h o dp r o p o s e dh e r ec a ns o l v et h ep r o b l e mt h a tt h e p r i o rs n rc u r v ew i l ld e l a yw h e nt h ee n e r g yl e v e la tb e g i n n i n go fs p e e c hi s h i g h c o m b i n e dw i t ht h i sm e t h o d ,w ea l s op r o p o s eas p e e c he n h a n c e m e n t m e t h o db a s e do nw a v e l e t t h r e s h o l d i n gt h em u l t i t a p e re s t i m a t o r s t h er e s u l t s h o w st h a tt h i s s p e e c he n h a n c e m e n tm e t h o ds u p p r e s s e s m u s i c a ln o i s e e v i d e n t l ya t t h ec o s to fs p e e c hd i s t o r t i o n ,e s p e c i a l l yc o n s o n a n ta n dt h e f o r m a n tw h i c he n e r g yi sl o wl o s tm u c h t h i sp a p e rp r o p o s ean e ws p e e c he n h a n c e m e n tm e t h o dt h a tu t i l i z e sp r i o r s n rt o g e tb e t t e rp a r a m e t e r so ft h es p e c t r u ma t t e n u a t i o ng a i nb a s e do n i x 上海大学硕士学位论文 v i r a g ss p e e c h e n h a n c e m e n tm e t h o d c o m p a r e dw i t h v i r a g ss p e e c h e n h a n c e m e n tm e t h o d ,t h es p e e c he n h a n c e m e n tp r o p o s e dh e r ec a ns u p p r e s s m u s i c a ln o i s e m o r ew h i l et h e s p e e c hd i s t o r t i o n i sn o ti n c r e s c e n t ; c o m p a r e d w i t ht h e s p e e c he n h a n c e m e n t m e t h o db a s e do nw a v e l e t t h r e s h o l d i n gt h em u l t i - t a p e re s t i m a t o r s ,t h es p e e c he n h a n c e m e n tp r o p o s e d h e r ec a nr e d u c e s p e e c hd i s t o r t i o nw h i l e m u s i c a l n o i s e i ss u p p r e s s e d e f f e c t i v e l y , e s p e c i a l l yc o n s o n a n ta n df o r m a n tw h i c he n e r g yi sl o wl o s tl i r l e k e y w o r d s :s p e e c he n h a n c e m e n t ,n o i s es p e c t r u me s t i m a t i o n ,p o w e rs p e c t r u me s t i m a t i o n , m a s k i n gp r o p e r t yo fh u m a na u d i t o r ys y s t e m x 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 期:加”j 一 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i i 。口7 ) 7 上海大学硕士学位论文 第一章绪论 语音增强是语音信号处理中的一个重要分支,它广泛用于带噪语音中背景噪 声的抑制、语音压缩编码和语音识别领域。语音增强在解决噪声污染、改善语音 质量和提高语音可懂度方面发挥着越来越重要的作用。 1 1 语音增强的概念 语音增强是对带噪语音进行处理,提高语音的清晰度:可懂度和舒适度,使 听者易于接受或者提高语音处理系统的性能。带噪语音中的背景噪声往往是随机 的,因此要从带噪语音中完全提取出语音几乎不可能。在这种情况下,语音增强 的目的主要就是两个:一是改善语音质量,抑制背景噪声,使听者乐于接受,不 感觉疲劳,这是一种主观度量;二是提高语音的可懂度,这是一种客观度量,这 两种度量不能兼得。 1 2 语音增强的应用背景 随着通信技术的发展,语音通信已经成为人们日常生活中不可缺少的一部 分。近年来,虽然数据通信迅猛发展,但根据国家信息部的统计显示,语音通信 仍是现阶段的主流,占据通信行业的主导地位。但是在语音通信过程中,不可避 免的受到来自周围环境的噪声、传输媒介引入的噪声、通信设备内部的电噪声和 其他说话者的干扰。这些干扰使得接收者收到的语音不再是纯净的原始语音,而 是被噪声污染的带噪语音,例如安装在街道边的公用电话,常常受到背景噪声的 干扰,严重影响通话质量。语音增强能从带噪语音中,尽可能提取出纯净的原始 语音,改善语音质量,使听者不感觉疲劳,而且能够提高语音的可懂度【。 语音增强在语音识别方面也有重要的应用。近年来,语音识别技术获得突破 性的进展,它作为人机交互最自然和便捷的方式,越来越受到人们的关注,国内 的清华大学、中国科学院声学所、自动化所,国外的微软、i b m 和m o t o r o l a 公司都在从事这方面的研究,特别是随着北京申奥的成功,移动式语音识别和翻 译系统将有一个很大的市场。但是语音识别系统大多数都工作在安静的环境下, 背景噪声的引入会严重影响语音识别系统的性能【2 1 。正是由于实际环境中不可避 免的出现噪声,大大限制了语音识别技术的实际应用,这也是目前语音识别暂时 上海大学硕士学位论文 走入低谷的直接原因。 除了语音通信和语音识别外,语音增强也用于语音编码,例如在低速率语音 编码中,特别是参数编码,背景噪声的存在会严重影响语音模型参数的提取,使 得重建语音的质量急剧恶化,严重时变得完全不可懂。因此在语音编码之前,我 们需要对带噪语音进行语音增强处理。 1 3 语音增强的国内外研究状况 语音增强最早源于2 0 世纪5 0 年代关于语音可懂度的研究,近几十年来,语 音增强的主要进步来自于数字信号处理技术的发展。 随着数字信号处理技术的成熟,语音增强在2 0 世纪7 0 年代至8 0 年代中期 取得了一些基础性成果,并使其发展成为语音信号处理中一个重要分支。1 9 7 5 年w i n d r o w 等人提出了使用自适应噪声对消的语音增强方法【3 】1 9 7 9 年l i m 和 o p p e n h e i m 提出了维纳滤波的语音增强方法【4 】;同年,b o l l 提出了谱减法来抑制 带噪语音中的背景噪声【5 】;1 9 8 0 年m c a u l a y 和m a l p a s s 提出了软判决噪声抑制方 法【6 】;2 0 世纪8 0 年代中期,e p h r a i m 和m a l a h 提出了最小均方误差短时谱估计 的语音增强方法【7 】:1 9 8 7 年,p a l i w a l 把卡尔曼滤波引入到语音增强领域【8 1 。这段 时期的语音增强虽然取得了成功,但增强效果不太令人满意。 2 0 世纪8 0 年代中后期以来,研究人员开始从更广泛的领域出发研究语音增 强,先后提出了基于语音生成模型的语音增强方法【9 】、基于隐马尔科夫模型的语 音增强方法 1 们、根据感知模型的语音增强方法【l l 】和基于信号子空间的语音增强 方法【1 2 】,并取得了一定的成效。近3 0 年的研究中,各种语音增强方法不断被提 出,它奠定了语音增强的理论基础并使之逐渐走向成熟。近几年,随着v l s i 技 术的发展和高速d s p 芯片的出现,语音增强逐步走向实用。同时新的语音增强 方法又相继涌现,如基于小波变换的语音增强方法【1 3 】【1 4 】,基于人耳听觉掩蔽效 应的语音增强方法【1 5 1 和基于神经网络的语音增强方法【1 6 】等等。 国内对于语音增强的研究起步较晚。2 0 世纪8 0 年代,南京大学和大连理工 大学进行过基于双话筒自适应噪声对消技术的语音增强研究,但是由于难度较 大,取得的效果不是很理想;2 0 世纪9 0 年代,清华大学对基于短时谱估计的单 信道语音增强做了一定研究。近些年,越来越多的高校进行了语音增强的研究, 如苏州大学进行过基于人耳听觉掩蔽效应的语音增强研究、河北工业大学将分形 2 上海大学硕士学位论文 理论和数学形态应用于语音增强领域、大连理工大学在d s p 上实时实现了短时 谱估计的语音增强等等。 语音增强是一个交叉性的研究领域,它涉及语音信号处理、心理学和语音学 等多门学科,其理论还有待进一步发展。同时背景噪声来源众多,它们的统计特 性也大相径庭,即使在实验室仿真条件下,也很难找到一种通用的语音增强方法。 目前低输入信噪比、非平稳背景噪声下的语音增强为当前语音增强的研究热点。 1 4 语音质量的评价方法 1 4 1 语音质量的主观评价 平均主观得分( m e a no p i n i o ns c o r e ) 是常用的语音质量主观评价方法,它是经 过许多听者听音后对语音质量主观评价的平均结果。平均主观得分使用5 级评分 标准,具体见表1 1 。 m o s 得分语音质量失真程度 5 优很难觉察 4 良仔细听,能够觉察 3中 比较容易觉察,感觉语音不自然 2 差明显失真,语音听起来讨厌,但能接受 l不能接受非常讨厌,不能接受 表1 1m o s 得分5 级标准及相应描述 m o s 得分中质量“优”表示增强语音和原始语音只有很少的细节差异,若 不对照听就察觉不出;质量“良”表示增强语音的失真不明显,不注意听察觉不 到;质量“中”表示增强语音的失真能够明显感知,但增强语音的自然度和清晰 度良好,听起来没有疲劳感:质量“差”表示增强语音的质量差,但还能够接受; “不能接受 表示增强语音质量极差,听觉上无法忍受。 1 4 2 语音质量的客观评价 语音质量的主观评价方法不仅需要大量的人力和时间,而且不同听者的评价 上海大学硕士学位论文 标准不同。为了对增强语音进行统一标准的评价,我们转而求助于语音质量的客 观评价方法。语音质量的客观评价方法提供了可量化、可重复和准确的结果,来 比较不同语音增强方法之间的性能。语音质量的客观评价方法是对原始语音的波 形和增强语音的波形作直接比较,以两者之间的误差大小来判别语音质量的好 坏,它是一种误差度量。本文使用的语音质量客观评价方法为输出信噪比和语谱 图。 1 ) 输出信噪比 输出信噪比是衡量增强语音中残留噪声强度大小的一个重要标准,它的计算 公式如下 圳g 意衔 m 。 其中s ( 以) 为原始语音,s ( 玎) 为增强语音。 研究表明,输出信噪比仅仅表征残留噪声的多少,它与增强语音的主观听觉 没有直接的联系。 2 ) 语谱图 语谱图是语音频谱最直观的表达方式,它清楚的显示语音频谱随时间变化的 动态过程。通过比较语音增强前后的语谱图,可以定性的评价语音增强效果。 1 5 本文研究内容 本文进行了非平稳噪声环境下的语音增强研究,并完成以下工作: 1 ) 提出了一种快速自适应的噪声谱估计方法,保证了语音增强方法在平稳 和非平稳噪声环境下的有效使用。 2 ) 针对谱减法产生“音乐噪声”的现象,提出了两种语音增强方法:基于 小波阈值多窗口功率谱估计的语音增强方法与基于先验信噪比和人耳 听觉掩蔽效应的语音增强方法。 3 ) 对本文提出的两种语音增强方法进行比较和分析,得出这两种语音增强 方法的优缺点。 本文内容安排如下: 第一章:介绍语音增强的概念、应用背景、国内外研究状况和语音质量的评 价方法。 4 上海大学硕士学位论文 第二章:在介绍语音和噪声特性的基础上,回顾了一些常用的语音增强方法, 分析了这些语音增强方法的优点与不足,为论文的后续展开做好理论铺垫。 第三章:介绍c o h e n 和d o b l i n g e r 的噪声谱估计方法;在这两种噪声谱估计 方法的基础上,提出了一种快速自适应的噪声谱估计方法;最后对这三种噪声谱 估计方法进行测试,讨论分析实验结果。 第四章:介绍最小均方误差短时谱估计语音增强方法中先验信噪比的平滑方 法直接判决法,分析平滑的先验信噪比对于抑制“音乐噪声”的原理;结合 小波阈值多窗口功率谱估计方法,提出一种有效的先验信噪比平滑方法,并在此 基础上实现了基于小波阈值多窗口功率谱估计的语音增强方法;最后对该语音增 强方法进行测试,分析实验结果。 第五章:介绍人耳听觉掩蔽效应和听觉掩蔽门限的计算方法j o h n s t o n 方 法;回顾了基于人耳听觉掩蔽效应的短时谱估计语音增强方法,并在其中的v i r a g 方法基础上,提出了基于先验信噪比和人耳听觉掩蔽效应的语音增强方法;最后 对v i r a g 方法与基于先验信噪比和人耳听觉掩蔽效应的语音增强方法进行测试, 比较实验结果,并分析讨论。 第六章:对本文提出的两种语音增强方法进行比较,分析实验结果得出结论。 第七章:对本文的内容进行总结,展望了今后的研究方向。 5 上海大学硕士学位论文 第二章语音增强原理 从2 0 世纪7 0 年代至今,人们提出了许多语音增强的方法,涉及的领域也从 最初的频域到现在的分形理论和数学形态等新兴学科。本章从参数方法、非参数 方法和其他方法三个方面,选取各自具有代表性的语音增强方法进行介绍,为论 文的后续章节做好理论铺垫。 2 1 语音特性和噪声特性 语音增强的基础是对语音特性和噪声特性的分析和了解,因此在介绍各种语 音增强方法之前,先简单介绍一下语音和噪声的主要特性,这将会有助于进一步 了解语音增强。 2 1 1 语音特性 下面对语音的主要特性【1 7 】进行简单归纳。 1 ) 语音是时变的、非平稳的随机过程 语音是非平稳的,语音的模型参数是时刻变化的,只是有时候变化快,有时 候变化慢而已,例如语音的升始端和结束端是模型参数变化较快的时候。当然人 类发音系统的生理结构的变化速度是有一定限度的,在短时内,约l o m s 3 0 m s 左右,人的声带和声道形状相对稳定,可以认为其特征是不变或者缓变的,因此 语音具有短时稳定性。在语音信号处理中,经常要用到语音的短时平稳性。 2 ) 语音大体上分为清音和浊音两大类 从语音产生的机理上看,两者有明显的差异,因此在特性上也有明显的区别。 浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集 中在较低频段内。清音没有明显的时域和频域特征,类似于白噪声。在语音增强 中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量,但是清音难以 与宽带噪声区分,是语音增强中的一个难点。 3 ) 语音可以用统计特性进行描述 语音是非平稳的随机过程,所以长时间的时域统计在语音增强中的意义不 大。语音的短时功率谱幅度的统计特性是时变的,只有当语音帧的长度趋向于无 6 上海大学硕士学位论文 穷大时,才能近似认为它具有高斯分布。在高斯模型假设下,傅立叶系数被认为 是独立的高斯随机变量,均值为零而方差是时变的。这种高斯模型应用于有限长 度的语音帧时,只是一种近似的描述,在对被宽带噪声污染的语音进行语音增强 处理时,可将这种假设作为分析的前提 1 8 】。 2 1 2 噪声特性 噪声破坏了语音原有的声学特征和模型参数,模糊了不同语音之间的差别, 导致语音质量下降,可懂度降低,同时强噪声也会使听者产生疲劳。噪声来源于 实际环境,它们的特性变化无穷,根据噪声的不同特性大致可以如下分类: 1 ) 按照统计特性,噪声可以分为平稳噪声和非平稳噪声。如果不去严格追 究数学定义的话,这两种噪声可以理解为,频谱特性不随时间变化的噪 声为平稳噪声,频谱特性随时间变化的噪声为非平稳噪声。 2 ) 按照噪声幅度分布定义,例如噪声幅度按高斯分布的就称为高斯噪声, 噪声幅度按瑞利分布的就称为瑞利噪声。 3 ) 按照噪声频谱形状定义,频谱均匀分布的噪声称为白噪声,频谱不均匀 分布的噪声称为有色噪声。有色噪声还可以细分,如频谱与频率成反比 1 的之噪声,频谱与频率平方成正比的三角噪声。 j 4 ) 按照噪声和语音之间的关系可以分为加性噪声和非加性噪声。假定语音 为s ( 咒) 、噪声为d ( 托) ,如果带噪语音为y ( n ) = s ( ,z ) + d ( 疗) 的形式,则 称为加性噪声,反之则称为非加性噪声。对于有些非加性噪声,可以通 过变换转化为加性噪声,例如乘性噪声或者卷积噪声可以通过同态变换 转为加性噪声。 以上噪声分类之间还存在重叠,如加性噪声包含平稳噪声和非平稳噪声。考 虑到加性噪声更具普遍性且易于分析,这里对加性噪声展开进一步讨论。加性噪 声大致可以分为周期性噪声、冲击噪声、宽带噪声和同声道语音干扰。 1 ) 周期性噪声 周期性噪声主要来源于发动机、风扇等周期性运转的机械,其特点是频谱上 有许多离散的线谱。在实际环境中,周期性噪声受多种因素的影响,其线谱分量 7 e 海大学硕学位论史 通常转变为窄带谱结构,一般这些窄带谱都是时变的,位置也不固定。周期性噪 声可以用固定滤波器和自适应滤波器滤除。周期性噪声平稳的时候可以采用固定 滤波器,周期性噪声缓变的时候可以采用自适应滤波器,当周期性噪声没有得到 精确估计,但却能得到它的参考信号时也可以采用自适应抵消技术滤除周期性 噪声。图2 1 为飞机引擎噪声的波形圈和语谱图。 a ) 波形幽 酬2 lt 机0 l 早喙声 2 ) 冲击噪声 冲击噪声柬源于爆炸、撞击、放电等突发性的干扰,其特点为时域上突然出 现很窄的脉冲。消除冲击噪声可以在时域上进行,其过程为根据带噪语音幅度的 平均值确定阈值,当带噪语音幅度超过阈值时判为冲击噪声,然后对其进行适当 的衰减就可以完全滤除。如果时域上脉冲之间不相近,还可以根据信号相邻的样 本值通过内捶法将其在时域上进行平滑图22 为机枪噪声的波形圈和语谱图。 。 i i , i 渺带一 薹 ”_ 严: 图2l 2 c a ) 波形图 i 硼 j ? ki k | i i | i k - l _ k 0: 一 81 01 : 4 5 酗2 f b l 语谱图 目2 2 机枪噪卢 海大学硕学位论文 3 ) 宽带噪声 宽带噪声的来源众多,热噪声、气流噪声、各种随机噪声源和量化噪声都可 以认为是宽带噪声。宽带噪声的特点是噪声与语音在时域和频域上完全重叠,只 有在语音间歇期噪声才单独存在,因此宽带噪声的滤除晟为困难。对于平稳的宽 带噪声通常可以认为是白色高斯噪声,不具有白色频谱的有色噪声可以先进行白 化处理。对于非平稳的宽带噪声,情况就更为复杂。滤除宽带噪声最常用的方法 是谱减法,即从带噪语音频谱中减去噪声谱的估计值。图2 3 和图2 4 为平稳的 白噪声和非平稳的工厂噪声的波形图和语谱图。 n 4 o 7 _ 五”吲甄。r 自_ 图23 ( a ) 波形图 “7 孺r _ 面“_ 。“ 削24 fa 1 波形蝌 甜2 4 【峨声 4 1 同声道语音干扰 干扰语音信号和传输信号同时在一个信道中传输所造成的干扰称为同声道 语音干扰,图25 为同声道语音干扰示意图。人耳可以在两个人的说话环境中分 辨出所需要的声音,这种分辨能力是人体内部语音理解机理具有的一种感知能 m: 上海大学硕士学位论文 力,称为“鸡尾酒会效应”,但在单信道传输且多个语音叠加在一起时,双耳信 号因合并而消失。区分有用信号和干扰信号的基本方法是利用它们基音的差别, 考虑到一般情况下两种语音的基音不成整数倍关系,可以采用梳状滤波器提取基 音和各次谐波,再恢复出有用的语音信号。 2 1 3 带噪语音模型 图2 5 同声道语音干扰示意图 本文中所提到的带噪语音模型如图2 6 所示,数学表达式为 y ( n ) = s ( ,z ) + d ( 以) ( 2 1 ) 其中y ( n ) 、s ( 甩) 和d ( n ) 表示带噪语音、语音和噪声。 图2 6 中的带噪语音模型还符合以下三个假设条件: 1 ) 噪声为宽带噪声 2 ) 噪声和语音统计独立或不相关 3 ) 只能得到带噪语音,没有其他参考信号 图2 6 带噪语音模型 2 2 参数方法的语音增强 参数方法的语音增强依赖于所使用的语音模型,需要提取语音模型参数。多 1 0 上海大学硕士学位论文 数情况下使用全极点a r 模型表示语音,也有的研究使用其他较复杂的模型,如 【9 】中的零极点模型。 2 2 1 谐波增强法 语音的浊音具有明显的周期性,根据这个特性,可以采用梳状滤波器来提取 语音分量,抑制噪声。 梳状滤波器可以在时域实现,表达式为 m s ( ,1 ) = c r y ( n - k t ) ( 2 2 ) 其中s ( 以) 为语音,j ,( 甩) 为带噪语音,t 为语音基音周期,m 为常数,c k 为是随基 音周期变化的滤波系数。输出信号是输入信号的延时加权之和,当延时与基音周 期一致时,这个平均过程将使周期性分量得到加强,而其他非周期性分量或与信 号周期不同的周期性分量受到抑制或消除。 显然,谐波增强法的关键是要精确估计出语音的基音周期,这在强背景噪声 情况下是件困难的事情,只有当输入信噪比较高时才能使用。 , 2 2 2 卡尔曼滤波 卡尔曼滤波是一种基于语音全极点模型的语音增强方法,由语音的全极点模 型生成卡尔曼滤波中的状态转移矩阵。 首先将p 阶a r 语音模型写成时域形式为 s ( 甩) :芝即( 万一f ) + “( n ) f = i 其中为第七个a r 模型参数,“( 玎) 为均值为0 、方差为吒2 的高斯白噪声。 ( 2 3 ) 为了使用卡尔曼滤波,将公式( 2 1 ) 和( 2 3 ) 写成规范的状态空间矩阵方程 s o ) = 胚( 刀一1 ) + u ( ,z ) y ( ,z ) = h s ( n ) + d ( n ) ( 2 4 ) ( 2 5 ) 其中s ( n ) = s ( 万一p + 1 ) ,s ( 以一p + 2 ) ,( n ) r 和c 厂( n ) = o ,0 ,“( n ) r 为p l 阶 上海大学硕士学位论文 矢量,h = 【o ,0 ,1 】为i * p 阶矢量,f 为p 叩阶矩阵,其表达式为 f = o1 o0 o o a pa p 一1 o o 1 0 ol 口2口l ( 2 6 ) 根据公式( 2 4 ) n ( 2 5 ) 以及卡尔曼滤波理论【19 1 ,就可以得到语音的递推估计 式。当噪声不是白噪声而是有色噪声时,可将噪声用一个g 阶l p c 模型表示, 对其状态方程进行推广后也能得到相应的递推公式【2 0 】。卡尔曼滤波的语音增强 过程如图2 7 所示。 图2 7 卡尔曼滤波语音增强 卡尔曼滤波在己知状态方程和噪声统计特性的条件下,能实现波形意义上的 最小均方误差滤波。卡尔曼滤波的优点是不需要假定噪声的平稳性,非平稳噪声 也能使用。但是它存在以下问题: 1 ) 语音与非语音的判别问题,当输入信噪比较低时,语音与非语音的判别, 特别是语头的判别变得十分困难。 2 1 用有限阶数的a r 模型来表示语音和噪声,本身就是一个近似估计。 3 1 用非语音段的噪声参数来代替语音段的噪声参数,这是有限的近似,特 别是当噪声非平稳时。 4 ) 噪声必然会对语音参数的估计产生影响,特别是当输入信噪比较低时, 语音参数估计就难以保证有足够的准确度。 1 2 上海大学硕士学位论文 5 ) 整个过程的计算复杂性较大,难以实时实现。 2 2 3 基于隐马尔科夫模型的语音增强方法 语音可以分为不同类型,如塞音和轻擦音。不同的语音类型可以认为是不同 的语音状态,因此一段语音就可以理解为一个在不同状态间转移的隐马尔科夫过 程,这就是语音的隐马尔科夫模型思想,同样对于噪声也有隐马尔科夫模型。因 此在语音增强过程中可以分别针对语音和噪声的隐马尔科夫模型选择不同的滤 波器,这样就得到了基于隐马尔科夫模型的语音增强方法【1 0 】,只要噪声不是很 强,就能得到很好的语音增强效果。 基于隐马尔科夫模型的语音增强方法需要正确建立语音和噪声的隐马尔科 夫模型,但是实际中只能获得带噪语音,不能获得语音和噪声的训练数据,并且 训练语音和噪声模型需要较长的时间,实时性不强。 2 3 非参数方法的语音增强 非参数方法的语音增强不需要从带噪语音中估计语音模型的参数,非参数方 法的语音增强应用范围较广。 2 3 1 最小均方误差短时谱估计语音增强方法 最小均方误差短时谱估计语音增强方法( m m s e ) 【7 1 是一种对特定的失真准则 和后验概率不敏感的语音增强方法。 设y ( 七) = 尺( 尼) e x p 乡( 尼) 、s ( 尼) = 彳( 尼) e x p 口( 尼) 和d ( 后) 分别表示带噪 语音y ( 甩) 、语音s ( ,1 ) 和噪声d ( 刀) 第k 个频谱分量。现在要寻找爿( 尼) 的最小均 方误差估计,即 j ( 尼) = 彳( 七) iy ( o ) ,y ( 1 ) ,y ( 七) ( 2 7 ) 进一步假设各个频谱分量之间彼此独立,虽然与事实有些不符,但可以大大 减少计算量,此时公式( 2 7 ) 简化为 彳( 后) = 2 石 ,p ( 尼) p y ( 七) i 口( 尼) ,口( 尼) p 口( 七) ,口( 尼) 如( 后) d 口( 七) o0 ji p r ( k ) l 口( 七) ,口( 七) m 口( 露) ,a ( k ) d a ( k ) d c t ( k ) 0o ( 2 8 ) 上海大学硕士学位论文 根据噪声的高斯分布假设,则有 出巩m ) - 南唧 险掣 亿9 , 小州明= 器e x p f 籍 亿m 其中以( 尼) = e 1 s ( 七) | 2 ,乃( 七) = e 1 d ( 尼) 1 2 ,它们分别表示语音和噪声第七个 频谱分量的方差。 将公式( 2 9 ) 和( 2 1 0 ) 代7 k ( 2 8 ) ,则公式( 2 8 ) 简化为 址r ( 1 5 ) 锊唧( 掣) ( 1 + 哪肌坝砒删m ) ( 2 m , 其中r ( 木) 为伽玛函数,厶( 木) 、i i ( 木) 分别为零阶和一阶修正的贝塞尔函数,矿( 七) 定义如下 y ( 七) = 7 ( 尼) 木善( 尼) ( 1 + 孝( 尼) ) ( 2 1 2 ) 其中 f ( 七) = 乃( 尼) 乃( k ) ( 2 1 3 ) 7 ( 七) = 尺( 七) 2 乃( 七) ( 2 1 4 ) 这里善( 七) 和y ( 七) 分别为先验信噪比和后验信噪比。 人耳对声音强度的感受是与功率谱幅度的对数成正比的,而且实验也证明, 采用对数失真准则更为合理。因此在最小均方误差短时谱估计语音增强方法的基 础上,推广得到最小均方误差短时对数谱估计语音增强方法【2 l 】。 最小均方误差短时谱估计语音增强方法能在语音可懂度和抑制噪声中取得 较好的折衷,而且适用的输入信噪比范围较广,但是由于需要统计各种参数,运 算量大,实时性不好。 2 3 2 自适应噪声抵消法 图2 8 为自适应噪声抵消法的基本原理框图。 1 4 上海大学硕士学位论文 图2 8 自适应噪声抵消法原理框图 自适应滤波器的输入为d l ( n ) ,它与带噪语音中的噪声d ( ,z ) 相关、与语音 s ( ,z ) 无关。自适应滤波器的输出z ( ,z ) 是4 ( 甩) 的估计,输出语音;( ,z ) 用于调节 自适应滤波器。如果语音s ( 甩) 与噪声d ( ,z ) 无关,并且调节自适应滤波器使输出 语音s ( ,z ) 的能量达到最小,那么s ( n ) 就是s ( ,z ) 在最小均方误差下的估计。 下面简单证明这一特性。 e ;2 ( 刀) = e l - s 2 ( ,z ) + 2 j ( 门) d ( 甩) 一z ( ,z ) + e ( d ( ,z ) 一z ( ,z ) ) 2 ( 2 5 ) 因为s ( 咒) 与而( ,z ) 、z ( 刀) 不相关,所以公式( 2 1 5 ) 简化为 e ;2 ( 甩) = e j 2 ( 刀) + e ( d ( 珂) 一五( 以) ) 2 ( 2 6 ) 观察公式( 2 1 6 ) ,当调节自适应滤波器使e ;2 ( 聆) 的值为最小时, e ( d ( 甩) 一互( 甩) ) 2 也为最小,这时自适应滤波器的输出互( 门) 就是d ( ,z ) 在最小 均方误差下的最佳估计,同时s ( 刀) 也为s ( n ) 在最小均方误差下的最佳估计。 自适应滤波器通常采用f i r 滤波器,其系数采用最小均方误差进行计算,使 误差p ( ,z ) 的能量最小。 p ( 甩) :s ( 以) + d ( 甩) 一z ( 甩) :s ( 胛) + j ( 以) 一n 西( 甩一七) ( 2 1 7 ) 其中为f i r 滤波器系数,为f i r 滤波器抽头数。 上海大学硕士学位论文 自适应噪声抵消法的关键是要获得参考噪声盔( n ) 。如果有两个话筒,一个 用来采集带噪语音,一个用来采集噪声,这个问题比较容易解决,但是在大多数 场合,只允许使用一个话筒采集带噪语音。在这种情况下,我们必须在语音间歇 期间利用采集到的带噪语音对噪声进行估值。如果噪声是非平稳的,则会严重影 响语音增强的效果,所以在只有一个话筒的应用场合,我们很难得到所需的参考 噪声吐( ) 。 2 4 谱减法 谱减法由u t a h 大学的b o l l 5 1 提出,b o l l 的研究源于为了改进噪声中的线性 预测分析 2 2 】,随后发展成噪声谱估计并进行滤除的经典语音增强方法。谱减法 凭借其简单有效而倍受关注,实验证明它是当时众多语音增强方法中最有效的语 音增强方法【2 3 。 2 4 1 基本原理 如果噪声加性且与语音统计不相关,则带噪语音的功率谱为 l y ( 力,尼) 1 2 = l s ( 兄,尼) 1 2 + l d ( 五,k ) 1 2 ( 2 1 8 ) 其中l y ( 旯,k ) 1 2 、l s ( 五,k ) 1 2 和j d ( 旯,k ) 1 2 为带噪语音、语音和噪声的功率谱,兄为帧 号,k 为频带号。 观察公式( 2 1 8 ) 发现,带噪语音功率谱等于语音功率谱与噪声谱之和,因此 从带噪语音功率谱中减去噪声谱,就可以得到语音功率谱,达到了语音增强的目 的,具体公式描述如下 i ( 旯,后) 1 2 = f y ( 力,尼) 1 2 一1 6 ( 见,后) 1 2 ( 2 1 9 ) 其中l ( a ,七) 1 2 、1 6 ( 五,七) 1 2 分别为增强语音的功率谱和估计的噪声谱。因为涉及 到噪声谱估计,它必定与真实的噪声谱之间存在误差,会造成增强语音功率谱中 部分分量为负值。因为功率谱不能为负值,一般出现这种情况时有两种处理方法, 一种是半波整流,另一种是全波整流。 人耳对语音频谱的幅度比较敏感,而对语音频谱的相位不敏感2 4 1 。因此在 谱减法中,可以用带噪语音频谱的相位代替增强语音频谱的相位,即 1 6 上海大学硕士学位论文 ( 力,后) = l ( 彳,, ) f o x p j p h e y ( 2 ,后) ( 2 2 0 ) 其中砌 y ( 旯,尼) 为带噪语音频谱的相位。随后对公式( 2 2 0 ) 中增强语音的频谱进 行傅- o r 叶逆变换,得到增强语音。谱减法的原理框图如图2 9 所示; 带噪 语音 增强 语音 2 4 2 音乐噪声 图2 9 谱减法原理框图 谱减法处理带噪语音有明显的效果,但也对语音造成了容易察觉的损伤和失 真,其中最重要的听觉失真是产生了被称为“音乐噪声”t 2 5 1 ( m u s i c a ln o i s e ) 的类 似金属机械撞击摩擦的残留噪声。 “音乐噪声”产生的根本原因是噪声谱的随机变化。估计的噪声谱相对于真 实的噪声谱的随机偏离会造成带噪语音经过谱减法处理后,增强语音的部分频谱 分量为负值,经过半波全波整流后,会在增强语音的频谱上形成小的离散的谱 区。这些谱区随时间变化很快,在这一帧中存在而在下一帧中可能就不存在,同 时它出现的频率也是随机变化的,难以预测,所以是非平稳的快变噪声。“音乐 噪声”不能通过再次谱减法来消除,图2 1 0 示意了形成“音乐噪声”的离散谱 区。 1 7 上海大学硕士学位论文 图2 1 0 谱减法造成“音乐噪声”的示意图 噪声的随机性使得“音乐噪声”是谱减法的必然结果,为此许多学者提出了 谱减法的改进形式来改善谱减法的性能,减轻“音乐噪声”对于听者听觉造成的 不舒适感。 2 4 3 谱减法的改进形式 陬舭圹= p 涮1 2 裟搿亿2 , 上海大学硕士学位论文 比大于6 d b 时,这种失真会被人耳忽略,但是当输入信噪比过低时,在 增强语音中会听到刺耳的噪声【2 6 1 。 2 ) 由于估计的噪声谱与真实的噪声谱之间存在误差,造成增强语音中产生 “音乐噪声 。 2 5 小波变换法 语音短时分析中,一般使用固定窗长的傅立叶变换,时间和频率的分辨率不 变。然而对于某些严格非平稳的语音段,短时分析就模糊了语音的细节特征,而 小波变换正好解决了这个问题。 小波变换在语音增强中的应用主要有以下两个方面: 1 ) m a l l a t 和h w a n g 提出的模极大值、法【1 3 】 2 ) d o n o h o 提出的小波阈值法【1 4 】 这里介绍d o n o h o 提出的小波阈值语音增强方法。假设带噪语音为 y ( n ) = s ( n ) + t r e ( n ) 1 甩n ( 2 2 2 ) 其中e ( n 1 为均值为0 、方差为1 的正态分布,仃为噪声方差,为语音长度。 d o n o h o 提出的小波阈值语音增强方法的原理是,首先选择合适的分解尺度 将带噪语音进行小波分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论