已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)宽带噪声环境下的语音增强算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 宽带噪声下的语音增强算法研究 硕士研究生:章明导师:邹采荣教授 东南大学无线电工程系 现实生活中语音经常受到各种噪声的污染,最普遍的是宽带噪声单通道宽 带语音增强在改善语音质量方面有着广泛的应用,由于没有参考噪声通道,是一 个难度大而富有挑战的信号处理课题对于语音增强算法,去除噪声和减少语音 失真是两个相互矛盾的对立面,去除更多噪声的同时也加剧了语音失真,导致主 观听觉效果交差。传统的基于短时谱的技术虽然去噪明显,但在听觉上留下了不 舒适的“音乐噪声”,尤其是在低信噪比的环境下。为了改善语音失真,本文引 入了人耳的听觉掩蔽特性和子空间技术。这篇论文在回顾了传统的降噪算法的基 础上,着重考察了基于标准j o h n s t o n 掩蔽模型的增强算法,提出了两种改进算法 的实现,并研究了掩蔽特性如何与子空间时域约束估计相结合,来获得更好的降 噪性能仿真结果显示,经由本文所修改和优化的掩蔽算法以及掩蔽子空间结合 算法增强后的语音有更好的清晰度和可懂度,在主客观得到了较好的折衷。此外, 在掩蔽算法的实现过程中,本文也对常用的端点检测技术进行了效果测试和比 较,提出了一种计算量小的端点检测方法 关键词:听觉属性,掩蔽模型,子空问,语音增强,端点检测 a b s t r a c t s t u d y o ns p e e c he n h a n c e m e n t a l g o r i t h mu n d e r b r o a d b a n dn o i s e b yz h a n gm i n g s i n g l ec h a n n e lb r o a d b a n ds p e e c he n h a n c e m e n ti sw i d e t yu s e di ne v e r y d a yl 娩a n di s a l s oa d i f f i c u l tb u tc h a l l e n g i n gt o p i co f s i g n a lp r o c e s s i n g a l t h o u g hc l a s s i c a ls u b u a c t i v e - t y p ea l g o r i t h m s p e r f o r mw e l li nr e d u c i n gt h eb a c k g r o u n dn o i s e , t h e ya l s ol e a v eu n c o m f o f t a b l e m u s i c a ln o i s , b e h i n d , e s p e c i a l l yi nt h ec mo fl o ws n re n v i r o n m e n t i no r d e rt oa c h i e v eab e t t e rw a d e - o f f 。 t h em a s k i n gp r o p e r t i e so ft h eh u m a nh e a r i n gs y s t e ma n ds u b - s p a c et e c h n i q u ea r et a k e ni n t o c o n s i d e r a t i o n t h i st h e s i se x a m i n e sb o t hl r a d i t i o n a ln o i s es u p p r e s s i o na l g o r i t h m sa n dt w om e t h o d s b a s e do ns t a n d a r dj o h n s t o nm a s k i n gm o d e l , w h a t sm o r e ,h o wt oc o m b i n et i m ed o m a i n c o n s t r a i n t s - b a s e ds u b - s p a c et e c h n i q u ea n dm a s k i n gp r o p e r t i e si sa l s os t u d i e d i ti ss h o w ni nt h e t e s t st h a tm e t h o d sb a s e do nm a s k i n gp r o p e r t i e sa sw e l la si t sc o m b i n a t i o nw i t hs u b s p a c et e c h n i q u e , w h i c ha l em o d i f i e da n di m p r o v e di n t h i sp a p e r , p r o v i d es p e e c ho fb e t t e rc l e a r n e s sa n d i n t e l l i g i b i l i 母t h a nc o n v e n t i o n a lm e t h o d sd o i na d d i t i o n , s e v e r a le n d 出删m e t h o d s _ na l s o e x a m i n e da n dt e s t e d k e y w o r c h :a u d i t o r yp m p e n i ,m a s k i n gm o d e l , s u b - s p a c e , s p e e c he n h a n c e m e n t , e n d d e t e c t i o n 独创性声明 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名: 叠豳日期:兰盟:! :! ! 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:至固导师签名: 第1 章绪论 1 1 引言 第1 章绪论 语音是人类交流最自然、最有效、最方便的手段。在信息化时代,语音信 号处理技术一直以来都是国内外学者研究的热点,它跨声学、信号处理、仿生 学等多个学科,应用前景广阔。 大多数语音处理( 如识别、编码) 方案当由实验室走向实际应用时,由于 环境噪声的存在而出现了很多问题,比如,线性预测作为语音处理技术中的最 有效的手段,却最容易受噪声影响;而在噪声环境下,语音识别成功率也会急 剧恶化。 所以,语音增强的研究是当今语音处理的一个非常重要的领域,已广泛应 用在降低听觉噪声、识别系统的预处理和线性预测编码的预处理上。 1 2 国内外语音增强算法研究综述 语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。 在实际需求推动下,早在6 0 年代语音增强技术研究的课题就已引起人们的注意, 此后3 0 多年间人们一直锲而不舍地进行这一方面的研究。3 0 多年来,人们针对 加性宽带噪声研究了各种语音增强算法。尽管目前语音增强在理论上并未完全解 决,还有待发展,但某些增强算法已证明是有效果的。 目i ; 国内外的研究成果从增强思想上主要分为以下三类: 1 ) 采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高 输入信号的信噪比。( 与后端应用无关) 2 ) 第二类方法是寻找稳健的耐噪声的语音特征参数。如采用短时修正的相 干系数( s h o r t - t i m em o d i f i e dc o h e r e n c ec o e f f i c i e n t ,简称为s m c ) 作为语 音特征参数。 3 ) 第三类方法是基于模型参数适应化的噪声补偿算法,如针对加法性噪声 的h 删合成法,和针对乘法性噪声的s t o c h a s t i cm a t c h i n g 法等。通常只考虑到 噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并不理想。 对于宽带噪声的降噪,具体方法大体上分为4 类:噪声对消法、基于语音的 周期性的增强方法、基于语音生成模型的增强算法和基于短时谱幅度估计的增 强算法。 单声道语音增强方法中目前常用的是一类基于短时谱幅度( s t s a ) 估计的语 音增强方法,该类方法认为语音信号的s t s a 对语音的感知起主导作用,从而在语 音增强中需要精确估计,而相位对语音的感知并不重要,没有必要精确估计。文 5 通过实验为此提供了一定的依据。e p h r a i my 和m a l a hd 证明“1 在一定条件 下语音相位的最小均方误差( 删s e ) 估计值就是带噪语音相位本身,因此,基于 s t s a 估计的语音增强方法”1 一般都直接采用带噪语音的相位作为增强语音的相 位。 第l 章绪论 s b o l l 假设噪声是平稳的或变化缓慢的加性噪声,并且语音信号与噪声信 号不相关的情况下,提出了谱减法( s s :s p e c t r a ls u b t r a c t i o n ) ”。1 ,该方法 能够抑制背景噪声的影响,但由于其局部平稳性的假设与实际情况并不相符,因 此效果不理想,残留的音乐噪声较大;后来,e p h r a i m 等人提出了s t s a 的删s e 估 计法“1 ,部分解决了“音乐噪声”问题,但在带噪语音信噪比( s n r ) 较低时其剩 余噪声还是很大,尤其是当信噪比小于5 d b 时。b e r o u t i o o 在传统谱减法的基础 上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制,提高了谱 减法的性能,但其修正系数和最小值是根据经验确定的,适应性较差。 p l o c k w o o d j b o u d y 1 在谱减法的基础上提出了非线性谱减法( n s s : n o n l i n e a rs p e c t r a ls u b t r a c t i o n ) ,它根据语音信号的信噪比自适应调整语音 增强的增益函数,提高了语音的信噪比,众所周知,信噪比不能正确反映语音的 听觉质量,因此,以信噪比作为调整估计参数的依据并不能提高信号的听觉质量; b o hl i ms i m 等人【”1 也提出了与此相似的改进算法,虽然提高了信号的信噪比, 但残留的音乐噪声较大 也有很多研究人员试图从语音生成模型寻找增强语音的途径,其中有基于 l p c 全极点模型、最大后验概率估计法等。由于w i e n e r 滤波只在平稳条件下才 能保证最小均方误差下的最优估计,而且没有考虑到语音的生成模型。因而又出 现了k a l m a n 滤波法,它既考虑语音的生成模型,又在非平稳条件下保证最小均 方误差下的最优估计。 然而上述滤波法需要知道噪声的特征和统计特性,在没有噪声先验知识的 情况下,从唯一带噪信号中分离出语音,对于传统的自适应滤波显得有点困难 s m a ll e t 1 等学者考虑将信号从多个尺度进行子波分解,各尺度分解所得的子波 变换系数代表原信号在不同分辨率上的信息。根据信号和噪声分解后所表现的不 同的传递特性和特征表现,可以进行语音增强处理。 目前,对非平稳环境下的语音增强算法研究还较少。i c o h e n “”等人首先 估计语音信号概率密度分布函数,然后在此基础上改进了对数谱估计算法,使得 改进的算法对非平稳的噪声具有良好的抑制作用,该算法的缺点是语音信号的概 率密度函数较难估计。 近年来。人们针对听觉外周提出了一些计算模型,并在语音编码、音频压缩 和音质的客观度量等方面获得了应用,同时,基于人类听觉特性的语音增强研 究也取得了一定的进展。目前,在语音增强中用得比较成功的是听觉掩蔽效应, 它指出语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号, 而使得这部分噪声不为人所感知到。因此从掩蔽效应的角度看,语音增强应该通 过改变带噪语音的s t s a 使得所有噪声成分都能被语音信号掩盖掉p e t e r s e n 和 b o l l ( 1 9 8 1 ) “”就成功地把减谱法用到人感知声音的范畴,他们用一组带通滤波器 模拟人耳的感知,在处理过程中,含噪语音被分解并加于各关键频带中,并在每 个关键频带内模仿大脑的掩蔽功能,然后将在各关键频带内处理过的输出重新组 合,以便获得输出语音信号。 除了上面提及的语音增强算法外,基于子空间的语音增强算法近年来也有了 很大发展,在提高带噪语音的语音质量和可懂度方面表现出很大的优越性。予空 间语音增强算法极大地避免了人为附加噪声的产生,比如在短时谱估计算法中不 可避免的。音乐噪声子空问增强算法是将语音信号看成k 维向量空间,并将 带噪信号分解为不相关的信号空间和噪声空间,以此消除噪声。这种方法主要利 用基于特征值分解的k l 交换对语音信号进行分解,通过对信号失真误差和残留噪 第1 章绪论 声两种判别函数的控制以平衡语音质量和可懂度 1 3 语音增强的应用与本文的结构 语音增强已被应用于诸多领域,这些领域包括: 1 语音编码。语音数字化需要进行语音的编码,目前主要应用于数字语音 通信和数字语音存储两个领域这些都要求在无噪条件下进行,即需要对输入语 音进行语音增强后再编码。 2 语音识别。语音识别通过对所接收到的语音信号,建立响应的模型或者 提取相应的特征,然后据此作出识别处理噪声的存在对识别性能的影响非常大, 因此识别前需进行语音增强处理。 3 通信、网络领域许多基于计算机网络的应用正朝简单、自然、友善的 方向发展,而语音是一种理想的人机信息交流手段,比如已在可视电话、网络聊 天等方面得到了广泛应用在用计算机进行交流时需要从带噪语音中提取尽可能 纯净的语音信号 4 医疗、军事领域。如用于医疗手段的助听设备,需要语音增强技术来获 得清晰无噪的声音。军事上监听时,由于噪声可能会大于所采集到的有用信息, 也同样需要进行语音增强处理 本文的结构与主要内容如下: 第一章综述了学术界对语音增强技术的研究状况及本文的主要研究内容 第二章介绍语音增强的相关概念,特别涉及入耳的结构和感知特性,以及相关 的关键带、掩蔽阈值等概念,还概述了语音和噪声特性 第三章介绍了谱减法语音增强技术及其改进、衍生技术谱减法是语音增强技 术中较为传统和有效的方法,基本思想很简单,就是假定短时语音和加 性噪声相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从 而得到较为纯净的语音频谱 第四章研究了基于入耳掩蔽特性的语音增强技术。首先探讨了学术界的经典的 j o h n s t o n 掩蔽模型,以及t s o u k a l a s 的增强算法。然后介绍了两种基于 此掩蔽模型的改进算法。同时对掩蔽增强算法中需要用到的端点检测技 术作了进一步研究。 第五章基于子空问分解的理论,研究了基于子空间的语音增强技术,针对时域 估计器,提出了利用人耳掩蔽特性加以结合的一种实现 第六章对本文的语音增强算法进行测试与评价,并与传统的算法作比较。 第七章结论和今后研究方向 第2 章听觉感知 2 1 人类听觉系统 第2 章听觉感知 人的听觉系统是一个十分巧妙的音频信号处理器,听觉系统对声音信号的处 理能力来自于它巧妙的生理结构。人的听觉系统包括耳、听觉神经纤维和大脑的 部分。它把声波转化成能被皮层接收的感觉信息。 人耳是把听觉能量( 声波) 转化成被听觉神经接收的电脉冲的外部器官,由 内耳、中耳、外耳三部分组成,结果如图2 - i 所示 - 辩0 0 l ee a ri n n 目 r o s s i c l e s 2 。1 1 外耳 图2 - 1 人耳结构 外耳由耳翼、外耳道和鼓膜构成。外耳道长约2 7 c m ,直径约0 7 c m ( 均指 成年人) 。外耳道封闭时最低共振频率约为3 0 6 0 h z ,处于语音的频率范围内。由 于外耳道的共振效应,会使声音得到l o d b 左右的放大。鼓膜在声压的作用下会 产生位移,日常谈话中,鼓膜位移约为l 旷蚀 第2 章听觉蓐知 2 1 2 中耳 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组 成。其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触中耳的作用是进行 声阻抗的变换,即将中耳两端的声阻抗匹配起来。同时,在一定声强范围内,听 小骨对声音进行线性传递,而在特强声时,听小骨进行非线性传递,这样对内耳 起着保护的作用 2 1 3 内耳 内耳的主要构成器官是耳蜗( c o c h l e a ) 它是听觉的受纳器,把声音通过机 械变换产生神经发放信号。耳蜗长约3 5 c m ,里螺旋状盘旋2 5 2 7 5 圈。它是 一根密闭的管予,内部充满淋巴液。耳蜗由三个分隔的部分组成:鼓阶、中阶和 前庭阶,如图2 一1 2 所示。其中中阶的底膜称为基底膜( b a s i l a rm e m b r a n e ) ,基 底膜之上是柯蒂氏器官( o r g a n o f c o r t i ) ,它由耳蜗覆膜、外毛细胞( o u t e r h a i r c e l l s ,共三列,约2 万个) 以及内毛细胞( i n n e rh a i rc e l i s ,共一列,约3 5 0 0 个) 构成。毛细胞上部的微绒毛受到耳蜗内流体速度变化的影响,从而引起毛细 胞膜两边电位的变化,在一定条件下造成听觉神经的发放( f i r i n g ) 或抑制。因此, 柯蒂氏器官是一个传感装置。毛细胞通过听觉神经与神经系统耦合,其中传入听 觉神经由耳蜗中的螺旋神经节( s p i r a lg a n g l i o n ) 发出 2 2 听觉感受性 人耳对声音的感受有很大的动态范围,一般人可以感觉到2 0 h z 2 0 k h z 、强 度为- 5 d b 1 3 0 d b 的声音信号。因此在这个范围以外的音频分量就是听不到的音 频分量,在语音信号处理中就可以忽略掉,以节省处理成本但是下面可以看到, 入耳的这种感觉不是绝对的,将随着信号特性的不同而不同。 人耳对于声波频率高低的感觉与实际频率的高低不呈线形关系,而近似为对 数关系。人耳对频率的分辨能力也是非均匀的,在1 0 0 “5 0 0 h z 范围中,可分辨得 两个纯音的频率之差f = 1 8 h z ,而在5 0 0 1 6 0 0 0 h z 范围中,相对频率分辨率几 乎恒定,即f f = o 3 5 ,因此,2 0 一2 0 0 0 0 h z 的频率范围总共约有6 2 0 个频率间 隔。当然,人耳对于频率的分辨能力是受声强的影响的,过强或者太弱的声音的 频率分辨率都会导致对频率的分辨力降低。 人耳对时间的分辨可以短至2 m s ,这是用两个紧连着的高低不同的音进行测听, 看能否说出是两个音而测得的结果。 人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复 很有帮助。共振峰对语音感知很重要,特别是前三个共振峰更为重要。 人类听觉器官对声波的音高、音强、声波的动态频率具有分析感知能力。音色、 音高、响度和时长是人类能够感受到的语音的四大要素。 第2 章听觉蓐知 2 3 关键带 人类的听觉系统有一种适应噪声的特殊能力。这个系统主要基于对声音的时 频分析。人耳接收到的信息可以很方便地描述为对频率选择性和已知响度的听觉 响应频率选择性的一般属性与关键带有关。关键带对应于耳蜗内的物理度量 f l e t c h e r 的带宽1 实验建立了关键带的涵义,即基于如下假设:输入声音通过 一组带通滤波器被外部听觉系统预处理。每个这样的听觉滤波器都相当于一频率 加权函数,近似对应于入耳关键带之间的频率选择性。 关键带结构可以用来描述听觉系统的许多方面的行为关键带的基本定义是 。主观响应变化非常剧烈处的带宽” i s o 另一观点是它代表了入耳区分不同频率 能力的第一近似实验显示人类听觉频率范围( 2 0 - 2 0 0 0 0 h z ) 内存在2 5 个关键 带,如表2 1 所示从表2 1 可以明显的看到,带宽随着中心频率的提高而增加 由于基底膜的位置在低频范围成近似线性的关系,在高频范围成对数关系,线性 频率特性来描述听觉系统是不合适的n “。关键带分析是几乎所有听觉系统的模 型。一个关键带对应予沿着基膜1 5 m m 的步进,里面包含着1 2 0 0 根基本神经纤 维。关键带分析是内耳执行分析的第一阶段。前面已提到,这个分析是频域的变 化,可以看作滤波带。 线性频率转化到b a r k 频率的函数“”; z ( f ) = 1 3a r c t a n ( 0 0 0 0 7 6 0 + 3 5a r c t a n ( f 7 5 0 0 ) 2 】 ( 2 1 ) 任何频率点处的每个关键带的带宽: b w c ( f ) = 2 5 + 7 5 1 1 + 1 4 ( f l o o o ) 2 ” 表2 - 1 关键带 ( 2 2 ) 关键带频率( h z )关键带频率( h z ) 号 低端高端宽度 号 低端高端宽度 o0 1 0 01 0 01 32 0 0 02 3 2 03 2 0 l1 0 02 0 01 0 01 42 3 2 02 7 0 03 8 0 2 2 0 03 0 01 0 01 52 7 0 03 1 5 04 5 0 33 0 04 0 01 0 01 63 1 5 03 7 0 05 5 0 4 4 0 05 1 01 1 01 73 7 0 04 4 0 07 0 0 55 l o6 3 01 2 01 84 4 0 05 3 0 09 0 0 66 3 07 7 01 4 01 95 3 0 06 4 0 01 i o o 77 7 09 2 0 1 5 02 06 4 0 07 7 0 0 1 3 0 0 89 2 01 0 8 01 6 02 17 7 0 09 5 0 01 8 0 0 91 0 8 0 1 2 7 01 9 02 29 5 0 01 2 0 0 02 5 0 0 l o1 2 7 01 4 8 02 1 02 3 1 2 0 0 01 5 5 0 03 5 0 0 1 1 1 4 8 01 7 2 02 4 02 41 5 5 0 02 2 0 5 06 5 5 0 1 21 7 2 02 0 0 02 8 0 第2 章听觉癌知 2 4 听觉阈值和掩蔽 2 4 1 掩蔽和掩蔽掩蔽阈值 7 0 6 0 4 0 2 0 0 1o 5l5l o 2 0 频率( k h z ) 田2 - 2 个1 k h z 的掩麓声的掩麓曲线 心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻, 被掩蔽掉了。例如,工厂机器噪音会淹没人的谈话声音此时,被掩蔽掉的不可 闻信号的最大声压级称为掩蔽门限或掩蔽阈值( m a s k i n g t h r e s h o l d ) ,在这个掩 蔽阈值以下的声音将被掩蔽掉图2 - 2 给出了一个具体的掩蔽曲线。图中最底端 的曲线表示最小可听阈曲线,即在安静环境下,人耳对各种频率声音可以听到的 最低声压,可见人耳对低频率和高频率是不敏感的,而在l z 附近最敏感上 面的曲线表示由于在l k h z 频率的掩蔽声的存在,使得听阚曲线发生了变化。本 来可以听到的3 个被掩蔽声,变得听不到了即由于掩蔽声( m a s k e r ) 的存在, 在其附近产生了掩蔽效应,低于掩蔽曲线的声音即使阈值高于安静听阈也将变得 不可闻。 掩蔽效应分为同时掩蔽和短时掩蔽。同时掩蔽是指同时存在的一个弱信号和 一个强信号频率接近时,强信号会提高弱信号的听阀,当弱信号的听阀被升高到 一定程度时就会导致这个弱信号变得不可闻。当彳声和b 声不同时出现时也存在 掩蔽作用,称为短时掩蔽。短时掩蔽又分为后向掩蔽和前向掩蔽,这在研究音联 现象时很重要。这里我们主要讲同时掩蔽。 一般来说,对于同时掩蔽,掩蔽声愈强,掩蔽作用愈大:掩蔽声与被掩蔽声 的频率靠得愈近,掩蔽效果愈显著。两者频率相同时掩蔽效果最大 2 4 2 关键带宽 用一中心频率为f ,带宽为af 的白噪声来掩蔽频率为f 的纯音,先将这 第2 章听觉癌知 个白噪声的强度调节到使被掩蔽纯音恰好听不见为止然后将af 由大到小逐渐 减少,而保持单位频率的噪声强度( 即噪声谱密度) 不变,起初这个纯音一直是 听不见的,但当a f 小到某个临界值时,这个唇音就突然可以听见了。如果再进 一步减少f ,被掩蔽音f 就会越来越清晰。这个刚刚开始能听到被掩蔽声时的 af 宽的频带,叫做频率f 处的关键带。当掩蔽噪声的带宽窄于关键带的带宽时, 能掩蔽住纯音f 的强度是随噪声的带宽的增加而增加的,但当掩蔽噪声的带宽达 到关键带后,继续增加噪声带宽就不再引起掩蔽量的提高了。 当一声被占声掩蔽时,若a 声的频率处在以b 声为中心的关键带的频率范围 内时,掩蔽效应最为明显,当a 声处在口声的关键带以外时,仍然会产生掩蔽效 应,这种掩蔽效应应取决于一声和口声的频率间隔相当于几个关键带,这一间隔 越宽,掩蔽效应越弱。 2 5 语音特性 短时平稳性 语音信号是一种非平稳的随机信号。语音的生成过程与发音器官的运动过程 密切相关,考虑到人类发声器官在发声过程中的交化速度具有一定的限度而且远 小于语音信号的变化速度,因此可以假定语音信号是短时平稳的,即在1 0 m s 3 0 m s 的时间段内其某些物理特性和频谱特性可以近似的看作是不变的,从而可 以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时 频谱时的平稳特性。 周期特性 任何语言的语音都有元音和辅音两种音素。根据发声的机理不同,辅音又分 为清辅音和浊辅音。从时域波形上可以看出浊音( 包括元音) 具有明显的准周期 性和较强的振幅,它们的周期所对应的频率就是基音频率;清辅音的波形类似于 白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来 区别和抑制非语音噪声,而清辅音的特性则使其和宽带噪声区分困难 统计特性 语音信号做为非平稳,非遍历随机过程的样本函数,其短时谱的统计特性在 语音增强中有着举足轻重的作用。根据中心极限定理,语音的短时谱的统计特性 服从g a u s s 分布,当然实际应用时只能将其看作是在有限帧长下的近似描述。 2 6 噪声特性 2 6 1 噪声的形成 现实生活中的语音不可避免的要受到周围环境的影响,很强的背景噪声例如 机械噪声、其它说话者的话音等均会严重的影响语音信号的质量;此外传输系统 本身也会产生各种噪声,因此在接收端的信号为带噪语音信号。除此之外,噪声 环境下说话人的发音变化也是实环境下语音信号处理研究的重要课题。因为在噪 声环境下,话者的情绪会发生变化,从而引起声带的变化,这就是所谓的l o m b a r d 现象但一般认为,l o m b a r d 现象对语音处理系统的影响相对较小 第2 章听觉盛知 2 6 2 噪声的性质 扰 噪声可分为: ( 1 ) 平稳和非平稳噪声 ( 2 ) 加法性噪声:环境噪声,分为冲激噪声、周期噪声、宽带噪声、语音干 乘法性噪声:残响与电器线路干扰; 非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声 2 6 3 常见噪声及特性 ( 1 ) 冲激噪声:例如放电,打火,爆炸都会引起冲激噪声,它的时域波形是 类似于冲激函数的窄脉冲。消除冲激噪声影响的方法通常有两种:对带噪语音信 号的幅度求均值,将该均值做为判断阈,凡是超过该阈值的均判为冲激噪声,在 时域中将其滤除:当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或 者平滑掉冲激点,从而能在重建语音信号去掉冲激噪声。 ( 2 ) 周期噪声:最常见的有电动机,风扇之类周期运转的机械所发出的周期 噪声,5 0 h z 交流电源哼哼声也是周期噪声在频谱图上它们表现为离散的窄谱, 通常可以采用陷波器方法予以滤除。 ( 3 ) 宽带噪声:说话时同时伴随着呼吸引起的噪声,随机噪声源产生的噪声, 以及量化噪声等都可以视为宽带噪声,应用中常近似为g a u s s 噪声或白噪声。其 显著特点是噪声频谱遍布于语音信号频谱之中,导致消除噪声较为困难一般需 要采取非线性处理方法。 ( 4 ) 语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成 语音干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音 差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状 滤波器提取基音和各次谐波,再恢复出有用语音信号。 ( 5 ) 传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里 是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变 换为加性噪声来处理。 通过语音增强技术来改善语音质量的过程如图2 3 所示 图2 3语音增强框图 第3 章减谱法 第3 章基于短时谱幅度估计的增强算法 单声道语音增强方法中目前常用的是一类基于短时谱幅度( s t s ) 估计的语 音增强方法。该类方法认为语音信号的s t s a 对语音的感知起主导作用,从而在 语音增强中需要精确估计。而相位对语音的感知并不重要,没有必要精确估计 减谱法是处理单通道宽带噪声较为传统和有效的方法。其基本思想是在假定 加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去 噪声功率谱,从而得到较为纯净的语音频谱图3 - l 为基本谱减系统的简化结构 图3 - 1 基本谱减系统 b o l l 隗删第一次提出了减谱法,后来的论文4 2 ”把b o l l 的方法扩展到功率谱 相减、w i e n e r 滤波和最大可能包络估计 3 1 基本减谱法 如果设j ( f ) 为纯净语音信号,砷) 为噪声信号,y ( f ) 为带噪语音信号,则有; ) ,( f ) = s ( f ) + ,以) ( 3 1 ) 用】,如) 、s ) 、 ) 分别表示) ,( f ) 、j o ) 、n ( t ) 的傅里叶变换,则可得下式: 】,( m ) = s ( ) + ( 国) 由于假定语音信号与加性噪声是相互独立的,因此有; l 】,佃) r 爿s ) 1 2 + i ) r ( 3 2 ) ( 3 3 ) 因此t 如果用弓佃) 、 ) 、只扣) 分别表示y ( f ) 、j ( ,) 和疗( f ) 的功率谱, 则有: 仞) = c p ) + 佃) ( 3 4 ) 而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变化,这样可以 第3 章减谱法 通过发声前的所谓。寂静段”( 认为在这一段里没有语音只有噪声) 来估计噪声 的功率谱只( 奶,从而有: ( ) = 0 ( ) 一只( ) ( 3 5 ) 这样减出来的功率谱即可认为是较为纯净的语音功率谱,然后,从这个功率谱可 以恢复降噪后的语音时域信号 在具体运算时,为防止出现负功率谱的情况,减谱时当只 ) 1 ) 这样可以更好的 突出语音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中保留少量的宽带 噪声,在听觉上可以起到一定的掩蔽纯音噪声的作用。考虑这两个方面,改进后 的减谱法公式如下: 荆= 础f 蚋籍篇 组, ( 其中口 l , b 1 ) 实验表明口在辅音帧中取为3 ,在元音帧中取4 5 ,b 取0 0 1 0 5 可以取得较好 的降噪及抑制纯音噪声的效果同时对于应用改进后的方法,需要粗略的辨别语 音帧是辅音帧还是元音帧,以确定口的取值 3 2 2 功率谱修正处理 将图3 2 中的功率谱计算| i2 和( ) ”改进为| i 和( ) “( k o ) 可以得 到新的更具一般性的减谱法形式。这种方法称为功率谱修正处理,它可以增加灵 活性,修正后的功率谱为: i 】,( p = i 联缈x + l ( ) | ( 3 8 ) 令只 ) = j ,伽) i i c ( o j ) = s c o , ) r 、只 ) = ) r 代入式( 3 6 ) 或式( 3 7 ) 即得 减谱法的改进形式。适当调节式( 3 7 ) 中的a 、b 、k 取值可以取得更佳的增强效 果,其灵活性也是不言而喻的 3 - 2 3 具有输入幅值谱自适应的减谱法 由于传统的减谱法考虑噪声为平稳噪声,所以对于整个语音段,噪声功率以 第3 章减谮法 及权系数a 一般取相同的值( 虽然可以通过粗略的辨别语音帧是辅音帧还是元音 帧,以确定4 的取值,但不一定准确) 。而实际环境下的噪声。例如展览会中的 展示隔间内的噪声是非平稳噪声,所以用相同的噪声功率值是不确切的。同样, 采用相同的权值口,有可能发生减除过度或过少的问题,使得有的区段要么噪声 消除不够,要么减除过多产生丘细) 失真为此,应该对传统的减谱法进行了如 下修改首先,对于噪声功率估计,采用如下式( 3 9 ) ,在整个区域用语音以外 的当前输入帧功率i 置 ) r ,对噪声功率进行逐帧逐次更新: m ) f ;( 1 一历i 札 ) 1 2 + 阮 汗 ( 3 g ) ( o 卢 1 ) 其次,让权值口和输入语音功率相适应,即按如下式( 3 :1 0 ) 随输入语音功率 谱值改变以避免产生减除过多或过少的问题式中岛和岛为门限阈值,c l 和c 2 为常数,它们可由实验确定 ,qi r a m ) 2 岛 町) = 丽c 2 - c ! n c l 酬】: ) 1 2 岛 d(,):擎i j v ( 3 1 1 ) 专善霹 岛( 0 ( 帧长是) 是第,帧处理后的值,只为处理前的值对于寂静段,处理 前后平均能量变化较大,故d 时) 较大;同理,语音段d l p ) 较小若为寂静段, 则处理前的值可以做为下一帧的噪声参加运算。但由于语音段与寂静段在低信噪 比情况下有时也不易区分,而且时变的影响有时也会造成较大的误差。 以上是减谱法语音增强以及它的几种改进形式。在减谱法语音增强的实际应 用中还需要注意:减谱法假定语音信号是短时平稳。因此需要对输入语音信号加 窗后再予以处理。这样式( 3 3 ) 就应写成i 佃) 1 2 爿s ( ) 1 2 + i ,( ) f ,其下标f 表 示加窗分帧后的第t 帧 第3 章减谱法 3 3 其它延伸方法 在最小均方准则下用w e i n e r 滤波器实现对语音信号估计,即对于带噪语音 信号y ( t ) f f i s ( o + n ( o ( 其中j ( ,) 为纯净语音信号,砸) 为噪声信号) ,确定滤波器 的冲激响应砸) ,使得带噪语音信号经过该滤波器的输出即) 能够满足 研( f ) 一j ( f ) f 】最小( j ,( ,) 为滤波器输出) 山“1 假定m ) 和砷) 都是短时平稳随机过程,则由w i n e r - - h o p f 积分方程为: 两边取傅里叶变换有: 从而得到: 再由于: 岛( f ) = ) ( f 一口肌r ( 3 1 2 ) 弓) = 日( ) 巳 ) 日) :曼丝 一巳) 匕 ) = 只 ) 并且考虑到由于j ( ,) 和柙) 相互独立,所以有: ( 3 1 3 ) ( 3 1 4 ) ( 3 1 5 ) 易 ) = j : ) + c 和) ( 3 1 6 ) 将式( 3 1 5 ) 和式( 3 1 6 ) 代入式( 3 1 4 ) ,则有下式成立: 日”揣 ( 3 1 7 ) 注意到以上的推导过程是在短时平稳的前提条件下进行的,所以语音信号必 须是加窗后的短时帧信号只仞) 可由类似于减谱法中讨论过的方法得到;c ) ( e 扣 m 2 j ) 可以用带噪语音功率谱减去噪声功率谱得到,具体方法有先对数 帧带噪语音y ( 功做平均( e p 细h 2 j ) 再减去噪声功率谱,也可以用数帧平滑 i r r ( t o “2 3 ) i 西( 七,0 s a ( k ,0疋( 七,力r ( k ,j ) 删仁窑:住孔, 由于上述结果包含
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 颅内支架护理
- 密闭空间作业安全知识
- 学前儿童语言学习与教育
- 中秋烘焙课程介绍
- 企业合同的法律风险防范
- 简单手工课程故事
- 金属焊接基本知识
- 踝骨骨折的预防及护理
- 老年大学课程故事
- 店铺租赁合同-标准版
- 注册测绘师资格考试历年真题详解及模拟试卷
- 疾控中心检验科新上岗人员上岗考试试题
- 外科肺癌手术后肺功能锻炼指南
- 2025年农村商业银行竞聘上岗面试题及答案
- 2025光大控股校园招聘笔试历年常考点试题专练附带答案详解试卷3套
- 2025年黄山产投集团招聘36人考试笔试模拟试题及答案解析
- 中复神鹰碳纤维招聘试题及答案
- 秸秆手工商业计划书
- MOOC 航天、人文与艺术-南京航空航天大学 中国大学慕课答案
- 一级注册计量师《计量专业案例分析》历年试题
- 寿阳经济技术开发区规划(2021-2035年)环境影响评价报告书
评论
0/150
提交评论