(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf_第1页
(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf_第2页
(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf_第3页
(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf_第4页
(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)基于人耳听觉掩蔽效应的语音增强的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于入耳听觉掩蔽效应的语音增强的研究 中文提要 提要 语音增强目前己发展成为语音信号数字处理的一个重要分支。它的主 要应用是降低听觉噪声、作为识别系统的预处理和线性预测编码的预处理。 处理宽带噪声最通用的技术是减谱法,但在听觉上形成残留“音乐噪声”。 本文以最大限度减少残留噪声和背景噪声为目的,采用b a r k 子波分析的方 法模拟人耳基底膜的频率分析特性来进行语音增强,重点进行模拟人耳听 觉掩蔽效应来确定除噪阈值的研究。取得了较好的实验结果,增强后的语 音信号信噪比比频谱减法有更高的清晰度和可懂度。本文的主要工作集中 表现在两个方面: 1 提出了听觉掩蔽效应的语音增强。在阈值法除噪中阈值确定是极为 重要的环节,本文模拟人耳听觉掩蔽效应来确定阈值大小,以有效的掩蔽 残留的音乐噪声和最大限度的保留语音。 2 在语音增强中使用了b a r k 子波。本文利用b a r k 子波对增强后的 语音进行分解和重构。由于b a r k 子波在感知特性上与人耳的听觉系统是 吻合的,使增强后的语音更加符合人耳的听觉感知。 关键词:听觉模型,掩蔽闺值,语音增强,b a r k 子波 作者:陶智 指导教师:赵鹤鸣 s p e e c h e n h a n c e m e n t b a s e d o nm a s k i n gp r o p e r t i e so f t h eh u m a na u d i t o r ys y s t e m a b s t r a c t a b s t r a c t s p e e c he n h a n c e m e n t i sb e c o m i n ga ni m p o r t a n tb r a n c ho fs p e e c hs i g n a l p r o c e s s ,w h i c hm a i n l yu s e d i nt h en o i s er e d u c t i o n ,t h ep r e p r o c e s so f t h es p e e c h r e c 0 2 n i t i o ns y s t e ma n dl p c s i n g l ec h a n n e ls u b t r a c t i v e t y p e a l g o r i t h m s 1 8 o f t e nu s e di nt h es p e e c he n h a n c e m e n t ,b u tm u s i c a lr e s i d u a ln o i s ew i l la p p e a r 1 no r d e rt or e d u c et h em u s i c a lr e s i d u a l n o i s ea n dt h eb a c k g r o u n dn o i s e ,a s d e e c he n h a n c e m e mm e t h o db a s e d o nm a s k i n gp r o p e r t i e s o ft h eh u m a n a u d i t o r ys y s t e m i sd e s c r i b e d t h i s m e t h o du s e sb a r kw a v e l e tp a c k e t t r l n s f o mt os i m u l a t et h ef r e q u e n c yf e a t u r eo f h u m a na u d i t o r ym o d e lt og e t t h et h r e s h o l d ,e x p e r i m e n t a lr e s u l t s h a v es h o w nt h a tt h i s m e t h o dp r o v i d e s s d e e c ho fb e t t e rc l e a m e s sa n di n t e l l i g i b i l i t y t h a nc o n v e n t i o n a lm e t h o d sd o t w om a i na c h i e v e m e n t sa r eg o t i nt h i sp a p e r 1 s p e e c h e n h a n c e m e n tm e t h o db a s e d o nm a s k i n gp r o p e r t i e s o ft h e h u m a na u d i t o r ys y s t e mi sd e s c r i b e d i nt h i sp a p e r ,at h r e s h o l di sg o tt h r o u g h s i m u l a t i n gt h ef r e q u e n c yo f h u m a na u d i t o r yi no r d e rt o r e d u c et h em u 8 1 c a l r e s i d u a ln o i s ea n dt h eb a c k g r o u n d n o i s e 2 b a r kw a v e l e ti su s e di nt h es p e e c he n h a n c e m e n t - t od e c o m p o s e a n d r e c o n s t r u c tt h e s p e e c h b e c a u s e b a r kw a v e l e ti s c o i n c i d ew i t hh u m a n a u d i t o r ys y s t e m ,t h es p e e c h w e g o t i sm o r en a t u r e k e y w o r d s :a u d i t o r ym o d e l ,m a s k i n gp r o p e r t i e s ,s p e e c he n h a n c e m e n t ,b a r k w a v e l e tt r a n s ;f o r m w r i t t e nb yt a oz h i s u p e r v i s e db y z h a o h e m i n g 基于人耳听觉掩蔽效应的语音增强的研究第一章绪论 第一章绪论 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手 段,也是人类进行思维的一种依托。人类开始进入了信息化时代,用现代手 段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信 息,这对于促进社会的发展具有十分重要的意义。 语音信号处理技术一直以来都是国内外学者研究的热点,它跨声学、 信号处理、仿生学等多个学科,应用前景广阔。近年来,由于计算机和因 特网正以惊人的速度和规模渗透到社会的各个领域,许多应用要求简单、 自然、友善的人机界面,而语音就成为一种理想的人机信息交流手段,因 此也就对语音信号处理的发展提出了更迫切的要求。 语音通信过程中不可避免地要受到来自周围环境、传播媒介引入的噪 声,通信设备内部电噪声以及其它噪声的影响。在多数实际情况下,语音 信号总是含有噪声成分。语音增强是解决噪声污染的一种有效方法。 语音增强是语音信号处理与识别系统的重要组成部分。由于干扰通常 都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。因此语 音增强的目的主要是改进语音质量,消除背景噪声,提高语音的自然度, 使人乐于接受,这是一种客观度量;二是提高语音可懂度,这是一种主观 基于入耳听觉掩蔽效应的语音增强的研究 度量。 1 2 国内外语音增强研究概况 增强被加性噪声污染的语音信号,这一问题自七十年代中期后已引起 极大的注意。文献 1 中,奥本海姆等人综述了七十年代中提出的各种各样 的噪声语音信号增强方法。典型的方法有:频谱相减法;自适应噪声对消 法:及基于语音信号模型的语音增强法。近些年来,语音增强的研究工作 有了一定的进展。下面对国内外语音增强研究的常用方法作介绍。 一、频谱相减法: 单声道语音增强方法中目前常用的是一类基于短时谱幅度( s t s a ) 估 计的语音增强方法,该方法认为语音信号的s t s a 对语音感知起主导作用, 从而在语音增强中需要精确估计,而相位对语音的感知并不重要,没有必要 精确计算。文 2 通过实验为此提供了一定的依据,文 3 则证明在一定条 件下语音相位的最小均方误差( 姗s e ) 估计值就是带噪语音相位本身,因 此,基于s t s a 估计的语音增强方法一般都直接采用带噪语音的相位作为增 强语音的相位。基于s t s a 估计的语音增强法包括减谱法及其各种变形 4 ,m m s e 估计法 3 ,5 ,6 等。减谱法通过从带噪语音的s t s a 中直接减去 噪声的平均谱幅度来得到增强语音的s t s a ,实现起来简单,但是剩余噪声 大,并且产生不舒服的“音乐噪声”。后来,e p h r a i m 3 ,5 ,6 等人提出 了s t s a 的m m s e 估计法,部分解决了“音乐噪声”问题,但在带噪语音信 噪( s n r ) 较低时其剩余噪声还是很大,尤其是当信噪比小于5 d b 时。 基于人耳听觉掩蔽效应的语音增强的研究筇一章绪论 二、自适应噪声对消法: 适用于在带噪语音信号采集过程中同时能获得参考噪声源的自适应噪 声对消技术,已日趋成熟 7 。据专家报告:运用此技术增强带噪语音,在 实验室环境中,信噪比s n r 有4 0 d b 左右的改善,在实际应用中也有2 0 d b 左右的提高。建立在隐含i a r k o v 模型理论( h 删) 上的语音增强研究 8 ,9 也获得了一定的成功,基于卡尔曼滤波理论的语音增强研究方法也有人尝 试过 1 0 。但这些方法对低信噪比( 小于o d b ) 情况下的语音增强,困难很 大。一种根据时间序列最佳估计的自适应滤波器方法 7 ,可用于低信噪比 语音信号的增强,能较好地恢复被平稳噪声污染的语音信号,对被有色噪 声污染的语音信号进行增强,也能较大地抑制其背景噪声。但是在极低信 噪比的情况下,对语音有一定的损伤。 三、小波变换法: 频谱相减法是在短时平稳假定的基础上,采用固定窗傅里叶变换,时 一频分辩率均是固定不变的。然而对某些“严格非平稳”的语音段( 如爆 破音和塞擦音等) ,这种分析模糊了语音的细节特征,小波变换正是满足 这一需要的有力工具。m a l l a t 最早建立了多分辨率分析框架与小波分析的 关系 1 1 。小波变换能将信号在多个尺度上进行子波分解,各尺度上分解 所得的子波变换系数代表原信号在不同分辨率上的信息。由于信号和随机 噪声在不同尺度的特性关系,许多研究学者 1 1 ,1 2 已利用这种特性进行 信号的去噪处理,并取得较好的效果。但是,由于用子波系数去噪时,需 要选择和确定一个用于取舍信号和噪声模极大值的阈值,而在实际应用中 一j 基于人耳听觉掩蔽效应的语音增强的研究 筇章绪沦 该阈值是较难选择确定的。另外,也有学者采用二进子波、子波包还是m 带子波进行语音增强 1 2 ,但这些方法的频率划分是一种倍频程关系,与 人耳所固有的对语音的频域感知特性不完全吻合。 四、听觉模拟法: 近年来,人们针对听觉外周提出了一些计算模型,并在语音编码、音 频压缩和音质的客观度量等方面获得了应用,同时,基于人类听觉特性的 语音增强也取得了一定的进展 1 4 ,1 5 ,1 6 ,1 7 。目前,在语音增强中用 得比较成功的是听觉掩蔽效应,它指出语音信号能够掩蔽与其同时进入听 觉系统的一部分能量较小的噪声信号,而使得这部分噪声不为人所感知到。 因此,从掩蔽效应的角度看,语音增强通过改变带噪语音的s t s a 使得所有 噪声成分都能被语音信号掩盖掉。这部分工作国内外学者正在研究之中。 1 3 语音增强研究的主要内容和发展方向 综上所述,语音增强已成为语音信号处理研究的不可忽视的重要问 题。虽然从1 9 7 0 年至今,人们已提出了各种各样的语音增强方法,并应 用于语音识别等信号处理领域,但是出于语音增强研究是一复杂交叉学科 的研究领域,其增强算法和听觉模型还不完善。因此,语音增强研究的主 要内容和发展方向应包括以下几个内容: 语音信号是一种非平稳的随机信号。在语音增强中可以利用浊音具 有明显的准周期性来区别和抑制非语音噪声,而清辅音和宽带噪声区分就 很困难。好的语音增强算法应考虑和解决这个问题。 基十人耳听觉掩蔽效应的语音增强的研究 第章绪论 目前语音增强算法一般分这样两种情况:一类方法运算量较小,容 易实时实现,但增强后的语音会含有类似音乐的残留噪声;另一类是增强 语音效果虽较好,但运算量大,不容易实时实现。国内外学者进行语音增 强的目的之一:寻找一种运算量小,容易实时实现,增强效果好的方法。 人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增 强技术的发展。人类的听觉系统能从非平稳噪声中提取有用信息,模拟人 耳听觉系统的语音增强也是今后语音增强的发展方向。 许多环境下的干扰噪声是非平稳的,因而难以找到一种通用的语音 增强算法适用于各种噪声环境。因此研究非平稳随机噪声下的语音增强具 有重要的意义,这方面的工作有待进一步展开。 1 4 研究意义、课题背景和本文的主要研究内容 可以预见,语音增强自身将在以下领域得到广泛应用: 1 ,语音识别前端上的应用。语音识别是通过对所接受到的语音信号 进行处理,提取相应的特征或建立相应的模型,然后据此作出判别。通常 在实验室环境下工作良好的识别器在含噪的环境下性能会明显下降,所以 必须采取语音增强技术。 2 ,语音编码上的应用。语音编码技术是伴随着语音的数字化而产生 的,目前主要应用在数字语音通信和数字语音存储两个领域。但这两种情 况都需要在无噪情况下进行,所以也需要对语音进行预处理,即:对输入 语音进行语音增强后再进行语音编码。 一 基于人耳听觉掩蔽效应的语音增强的研究第一章绪论 3 ,语音增强在军事、医疗等领域的应用。例如助听器里不但需要放 大电路,同样,也要求放大后的声音清晰、无噪。但放大后的声音不仅有 环境噪声,而且有由于放大电路产生的噪声,所以需要在助昕器里采用语 音增强技术;军事上需要对敌方的情况进行监听时,由于噪声可能会大于 所采集到的有用信息,同样需要进行语音增强。 4 ,语音增强在通信、网络等领域的应用。由于计算机和因特网正以惊 人的速度和规模渗透到社会的各个领域,许多应用要求简单、自然、友善 的人机界面,而语音就成为一种理想的人机信息交流手段,但用计算机进 行交流时需要从带噪语音中提取尽可能纯净的语音信号。 正是因为语音增强有这么多的应用价值,同时我们国家也很重视语音 信号处理这方面的工作,本课题就是导师赵鹤鸣教授所承担的国家自然科 学资金“基于计算声场景分析的混叠语音分离研究”课题的子项目。 本文的主要内容概述如下: 第一章综述了国内外语音增强的研究概述以及主要内容和发展方 向,介绍了本文的选题背景,主要研究内容和研究意义。 第二章介绍了与语音增强有关的概念。语音增强不仅涉及信号检测、 波形估计等传统信号处理理论,而且与语音特性、人耳感知特性密切相关; 再则,实际应用中噪声的来源及种类各不相同,从而造成处理方法的多样 性。因此,要结合语音特性、人耳感知特性及噪声特性,根据实际情况选 用合适的语音增强方法。 第三章介绍了减谱法语音增强及其改进形式。减谱法是处理宽带噪 基于人耳听觉掩蔽效应的语旨增强的研究第一章绪论 声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语 音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而 得到较为纯净的语音频谱。 第四章研究了b a r k 子波的分解与重构。把线性频率转换成b a r k 域, 从而构造b a r k 子波函数,然后对语音进行b a r k 子波变换。通过分析和实 验,证明它是一种良好的适合语音信号的非平稳分析方法。 第五章研究了听觉掩蔽阈值的计算。在阈值法除噪中阈值确定是极 为重要的环节,阈值的大小直接决定噪声的去除量和语音的损害程度,通 过计算语音能量,来确定在某一时刻某一频带人耳可感受到的最低噪音能 量。借此来确定阈值大小,以有效的掩蔽残留的音乐噪声和最大限度的保 留语音。 第六章研究了基于人耳听觉掩蔽效应的b a r k 子波变换的语音增强。 本文在减谱法的研究基础上得到了增强语音,然后通过增强语音计算噪声 掩蔽阈值t ( ) ,从而得到自适应的时频减参数口,口;最后用构造好的b a r k 子波函数进行b a r k 子波变换,从而得到纯净的语音。 第七章对本文所提出的算法进行性能评价。将本课题的方法和其他 减谱算法进行比较,通过信噪比的改进情况可以得到:本文提出的算法提 高了对低输入信噪比的改进。主观听觉测试也说明本方法残留噪声对语音 的干扰比频谱减法要小得多。 结论部分总结了本课题所做的主要工作及所取得的研究成果,并指出 了今后需进一步研究的工作。 一1 一 基于人耳听觉掩蔽效应的语音增强的研究第二章 语音感知及噪声特性 第二章语音感知及噪声特性 语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽 可能从带噪语音中提取纯净的语音信号,改善其质量。语音增强不仅涉及 信号检测、波形估计等传统信号处理理论,而且与语音特性,人耳感知特 性密切相关;再则,实际应用中噪声的来源及种类各不相同,从而造成处 理方法的多样性。因此,要结合语音特性、人耳感知特性及噪声特性,根 据实际情况选用合适的语音增强方法。 2 1 语音特性 1 8 语音是一时变的、非平稳的随机过程,但由于一段时间内( 1 0 3 0 m s ) 的 声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱 具有相对稳定性。在语音分析中可利用短时谱的这种平稳性。 语音可分为清音和浊音两大类。浊音在时域上呈现出明显的周期;在 频域上有共振峰结构,而且能量大部分集中在较低频段内。而清音段没有明 显的时域和频域特征,类似于白噪声。在语音增强中,可以利用浊音的周期 特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与 宽带噪声区分。 语音信号可以用统计分析特性来描述。由于语音是非平稳、非遍历的 随机过程,所以长时间的时域统计特性在语音增强中意义不大。语音的短时 基f 人耳听觉掩蔽效应的语音增强鹩研究絷_ 二章 语普堪知及噪声特性 谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为 其具有高斯分布。高斯分布模型是根据中心极限定理得到的。将高斯模型 应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将 这种假设作为分析的前提。 2 2 人耳感知特性 1 8 ,1 9 2 2 1 人耳的构造 入耳由外耳、中耳和内耳构成,外耳包括耳廓,耳道和鼓膜,中耳是鼓 膜后面的一个小小的骨腔,里面有锤骨、砧骨和镫骨等三块小骨,由它们共 同作用使内耳与鼓膜建立机械链,参见图2 - 1 。内耳深埋在 图2 1人耳的纵剖面 头骨中,由半规管、前庭窗和耳蜗三部分组成。声波引起外耳腔空气 基子人耳听觉掩蔽效应的语音增强的研究第一章语音感知及噪声特性 振动,由鼓膜经三块小骨传到内耳的前庭窗。由于鼓膜的面积比前庭窗大 2 5 倍左右,因此传到内耳的振动强度可放大2 5 倍。耳蜗是一条盘 图2 - 2 耳蜗的结构 起来的像蜗牛形状的管子,里面充满淋巴液。耳蜗中间包着前庭膜基底膜, 参见图2 2 。基底膜上有数以万计的纤毛细胞,纤毛细胞把接收到的机械 振动转化为神经冲动,由听神经传到大脑。基底膜具有与频谱分析器相似 的作用。 2 2 2 听觉感受性 人耳对声强的感受有很大的动态范围,前面已说过其范围为 1 0 - w :1 0 t w c m2 ,人耳能感受的频率范围约为2 0 h z 2 0 0 0 0 h z 。人耳 对频率的分辨能力也是非均匀的,在1 0 0 5 0 0 t z 范围中,可分辨得两个纯 音的频率之差为,t 18 l - 1 - ,而在5 0 0 i6 0 0 0 h z 范围中,相对频率分辨率几 乎恒定,即a f ,= 0 3 5 ,因此,2 0 i f z 2 f ) 0 0 0 h z 的频率范围总共约有6 2 0 基于人耳听觉掩蔽效应的语音增强的研究 第二章语音感知及噪声特性 个频率间隔。当然,人耳对于频率的分辨能力是受声强的影响的,对于过 强或者太弱的声音的频率分辨率都会降低。 人耳对时间的分辨可以短至2 m s ,这是用两个紧连着的高低不同的音 进行测听,看能否说出是两个音而测得的结果。 人类听觉器官对声波的音高、音强、声波的动态频谱具有分析感知能 力。音色、音高、响度和时长是人类能够感受到的语音的四大要素,人们 对这种感受特性已经有了比较深入的认识,提出了各种各样的听觉模型, 并应用于语音增强,语音识别与语音编码中,获得了一定的效果。但是, 大脑是如何存储语言信息的,对语音的相似度是如何进行估算的,如何利 用区别特征进行模式分类,如何增强、识别语音、理解语意,目前的认识 还比较肤浅。因此,目前的语音增强系统还无法与人类听觉系统相比拟。 2 2 3 掩蔽效应 掩蔽效应是使一个声音a 能感知的阈值因另一个声音b 的出现而提高 的现象,这时b 叫掩蔽声,a 叫被掩蔽声。被掩蔽音刚能听到时的掩蔽音 的强度称为掩蔽阈限。研究掩蔽效应,有助于我们对音色,响度和音高的 理解和估计。在语音编码中,利用掩蔽效应改善输出语音质量已经取得了 很大的效益。掩蔽现象有同时性掩蔽和非同时性掩蔽,非同时性掩蔽在研 究音联现象时很重要,这里我们主要讲同时性掩蔽。 一、纯音对纯音的掩蔽 例如一个频率为3 5 0 0 h z 的纯音,如果它与另一个频率为2 5 0 0 h z 基于人耳听觉掩蔽效应的语音增强的研究第章语音感知及噪声特性 的、强度比他高4 0 d b 的纯音同时发出,这个3 5 0 0 h z 的纯音就会被掩蔽而 听不见了。探索某一频率的纯音对各种不同频率纯音的掩蔽现象,可 听目的变化d b 4 0 0 h z l o o 8 0 j 。、 弋 0 jj 、 j劳 幻嫩 v 、 得到如图2 - 3 所示的一组曲线,其中掩蔽音的频率为4 0 0 h z ,是固定不变 的。图中给出了掩蔽音的声强级分别为2 0 d b 、4 0 d b 、6 0 d b 、8 0 d b 和1 0 0 d b 时,测得的被掩蔽音的听闽随其频率而变得五条掩蔽曲线。从这些掩蔽曲 线可以总结出三条规律: 最强的掩蔽作用出现在掩蔽音频率的附近,即这五条掩蔽曲线的峰 值都在4 0 0 h z 左右; ? | | 1 n_ 基于人耳听觉掩蔽效应的语音增强的研究 掩蔽音的掩蔽量随被掩蔽音的声强的增加而增加; 用一固定声强和频率的掩蔽音进行掩蔽时,被掩蔽音的闻域随二者 频率差的增大而逐渐降低,但是在掩蔽音频率比被掩蔽音频率高的那一侧, 闻域的下降速度要快得多。换句话说,低唇音对高纯音的掩蔽作用比高纯 音对低纯音的掩蔽作用要强一些。简单得说,就是低音容易压住高音,这 一概念与我们的主观想象似乎不大一致。 二、噪声对纯音的掩蔽 1 临界带宽的概念 用一中心频率为f ,带宽为厂的自噪声来掩蔽一频率为f 的纯音,先 将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将厂由大 到小逐渐减小,而保持单位频率的噪声强度( 即噪声谱密度) 不变,起初 这个纯音一直是听不见的,但当厂小到某个临界值时,这个纯音就突然可 以听见了。如果再进一步减小矽,被掩蔽音,就会越来越清晰。这里刚 刚开始能听到被掩蔽声时的厂宽的频带,叫做频率厂处的临界带。当掩蔽 噪声的带宽窄于临界带的带宽时,能掩蔽住纯音厂的强度是随噪声的带宽 的增加而增加的,但当掩蔽噪声的带宽达到临界带后,继续增加噪声带宽 就不再引起掩蔽量的提高了。临界带宽是随中心频率而变的,被掩蔽纯音 的频率( 即临界带的中心频率) 越高,临界带宽也越宽。不过二者的变化 关系不是一种线性关系,图2 4 给出了临界带宽随频率而变化的规律。 基于人耳听觉掩蔽效应的语音增强的研究 第= 章语音感知及噪声特性 , , 广 , 、l 图2 - 4 掩蔽噪声的临界带宽与被掩蔽声频率之间的关系曲线 2 频率群的概念 掩蔽效应具有临界带的现象可以从听觉生理上找到依据。人耳基底膜 具有与频谱分析器相似的作用。在2 0 1 6 0 0 0 h z 范围内的频率可分成2 4 个 频率群,表2 - 1 就是这样的频率群表。频率群的划分相应于基底膜分成许 多很小的部分,每一部分对应一个频率群。掩蔽效应就在这些部分内发生, 对应于同一基底膜部分的那些频率的声音,在大脑中似乎是叠加在一起进 行评价的,如果他们同时发生,可以互相掩蔽。因此,频率群与临界带之 间存在密切的联系。 基于入耳听觉掩蔽效应的语音增强钓研究 表2 1 临界频带 频率( h z )频率( h z ) l 临界频带临界频带 低端高端宽度低端高端宽度 00i 0 01 0 01 32 0 0 02 3 2 03 2 0 l1 0 02 0 01 0 01 42 3 2 02 7 0 03 8 0 22 0 03 0 0l o o1 52 7 0 03 1 5 04 5 0 33 0 04 0 01 0 01 63 1 5 03 7 0 05 5 0 44 0 05 l o1 1 01 73 7 0 04 4 0 07 0 0 55 1 06 3 01 2 01 84 4 0 05 3 0 09 0 0 66 3 07 7 01 4 01 95 3 0 06 4 0 01 i 0 0 77 7 09 2 01 5 02 06 4 0 07 7 0 01 3 0 0 89 2 01 0 8 01 6 02 17 7 0 09 5 0 01 8 0 0 91 0 8 01 2 7 01 9 02 29 5 0 01 2 0 0 02 5 0 0 1 01 2 7 01 4 8 02 1 02 3i 2 0 0 01 5 5 0 03 5 0 0 1 l1 4 8 0i 7 2 02 4 02 4i 5 5 0 02 2 0 5 06 5 5 0 1 2i 7 2 02 0 0 02 8 0 2 2 4 响度 响度是一种主观心理量,是人类主观感觉到的声音强弱的程度。一般 来说,当声音频率一定时,声音越强则响度也就越大。但是,响度是与频 率有关的,相同的声强,频率不同时响度也不可能相同。图2 5 就是通过 实验测得的等响度曲线,称为弗莱彻一蒙森曲线。响度也可以象声强那样用 基于人耳听觉掩蔽效应的语音增强的研究第二章 语音感知及噪声特性 12 0 1 0 0 8 0 强 度 级6 0 - i d b 4 0 2 0 0 一癌鲴 - l1 2 0 il i i 、 i赢卜 、一 一一 、 i9 0、 一, 一 一。 藤响日o 、 厂 蕊蕊专、 、 度7 0r一,? 吣r:s o 、 缀6 0。 , 。吣0 ;o 、 i i 5 0 , 一, 、 o 弋 一一4 0 弋、c 、一3 0 、 o j2 0 j】0 , , 、i 、 , 0 、一 l c 2 95 0 1 0 05 0 01 0 0 0 jh i 图2 - 5 等响度曲线与声强级的关系 相对值来表示,这就是响度级,响度级的单位为“方”( p h o n ) 。根据国际 协议规定,o d b 声级的1 0 0 0 h z 纯音的响度定义为0 方,n d b 声级的1 0 0 0 h z 纯音的响度级就是n 方,其他频率声音的声级与响度级的对应关系,要从 等响度曲线才能查出。图2 - 5 中最下面那根等响度曲线是闻阈曲线,最上 面就是痛阈。从图可以看出,人耳对于3 0 0 0 4 0 0 0 h z 的声音的音强的感 觉是最灵敏的。 2 2 5 音高 音高也是一种主观心理量,是人类听觉系统对于声音频率高低的感觉。 音高的单位是美尔( m e l ) 。响度级为4 0 p h o n 、频率为1 0 0 0 h z 的声音 基于人耳听觉掩蔽效应的语音增强的研究 第二幸语音感知及噪声特性 | , | | i 7 。 h z 图2 - 6m e l 刻度与实际频率的关系曲线 的音高定义为1 0 0 0 m e l ,那么1 6 0 0 0 h z 的声音的音高为3 4 0 0 m e l 。图2 - 6 就是主观音高与实际频率的关系曲线,它与k o e n i n g 频率刻度的趋势是很 接近的。 2 3 噪声特性 1 9 ,2 0 噪声来源于实际的应用环境,因而其特性变化很大。噪声可以是加性 的,也可以是非加性的( t = ) j h 性噪声往往可以通过某种变换,如同态滤波, 转为加性噪声) 。加性噪声通常分为冲激噪声、周期性噪声、宽带噪声、语 音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等。 基于入耳听觉掩蔽效应的语音增强的研究第二章语音感知及噪声特性 冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。 消除这种噪声可以在时域内进行,即根据带噪语音信号幅度的平均值确定 阈值。当信号幅度超出这一闰值时,判别为冲激噪声,再对其进行衰减甚 至完全消除。如果干扰脉冲之间不太靠近,还可以根据信号相邻样本数值 简单地通过内插法将其从时间函数中去掉。 周期性噪声:最常见的有发动机、风扇之类周期运转的机械所发出的 周期性噪声,5 0 或6 0 h z 交流声也是周期噪声。在频谱图上它们表现为离 散的窄谱,通常可以采用陷波器方法予以滤除。 宽带噪声通常可以假定为高斯噪声和白噪声。它的来源很多,包括风、 呼吸噪声和一般随机噪声源。量化噪声通常作为白噪声来处理,也可以视 为宽带噪声。 语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造 成的干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用他们 的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这 样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。 传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域 里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加 性噪声变换为加性噪声来处理。 由于宽带噪声与语音在时域和频域上完全重叠,因而消除它最为困难。 本文的算法就是着力消除宽带噪声而进行的。 基于人耳听觉掩蔽效应的语音增强的研究 第三皋减谱法语音增强 第三章减谱法语音增强 3 1 减谱法基本原理 1 8 处理宽带噪声的最通用的技术是减谱法,即从带噪语音估值中减去噪 声频谱估值,而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不 敏感,因而这种方法主要针对短时幅度谱。 假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关。此时 带噪语音信号可表示为 ( ,) = n ( ,) + ”( ,)( 3 1 ) 式中,一( ,) 为纯净语音信号,”( ,) 为噪声信号。而用】,( 。) 、s ( n ,) 和( m ) 表示 ,( ,) 、s ( ,) 和”( ,) 的傅里叶变换,则有下列关系 y ( c o ) = s ( c o ) + ,( m )( 3 2 ) 对功率谱则有 i y ( ) | ! = l s ( m ) | ! 十 ( 脚) | 二 ( 3 3 ) 因为假定噪声为不相关的,所以不会出现有信号与噪声的乘积项。只 要从! 】( m ) ! 中减去f ( m ) i2 便可恢复l s ( 珊) 卜之所以能这样做是基于人耳对语 音相位不敏感( 相聋) 这一特点。因为噪声是局部平稳的,故可以认为发 语音前的噪声与发语音期间的噪声功率谱相同,因而可以利用发语音前的 ( 或后) “寂静帧”( 认为这一段里没有语音只有噪声) 来估计噪声。 基于人耳听觉掩蔽效应的语音增强的研究 第二章减谱法语音增强 然而语音是不平稳的,而且实际上只能用一小段加窗信号。此时式 ( 3 3 ) 应写为 k ( 珊) l ! = l s 。( ) i2 + i n 。( 山) l ! + s 。( 珊) j ( ) + 譬i ( 础) a f 。【m ) ( 3 4 ) 式中,下标w 表示加窗信号,木表示复共轭。可以根据观测数据估计阢( m ) j 2 , 其余各项必须近似为统计均值。由于”( ,) 和s ( ,) 独立,则互谱的统计均值为 0 ,所以原始语音的估值为 f ( 国) l2 = i 一,( 珊) l2 一 1 ) ,这 样可以更好地突出语音谱,抑制纯音噪声,改善降噪性能;其次,在语音谱中 保留少量的宽带噪声,在听觉上可以起到一定的掩蔽纯音噪声的作用。考虑 这两个方面,改进后的减谱法公式如下: 悖卜慨“川。黜篙精l 揣, ( 其中口 1 1 ) 实验表明d 在辅音帧中取为3 ,在元音帧中取4 5 ,取0 o 卜0 5 可以取 得较好的降噪及抑制纯音噪声的效果。同时对于应用改进后的方法,需要 基于入耳听觉掩蔽效应的语音增强的研究第= 章减谱法语音增强 粗略地辨别语音帧是辅音帧还是元音帧,以确定口的取值。 3 2 2 功率谱修正处理 将图3 - 1 中的功率谱计算2 及川j :改为和。计算( 这里不一定为 整数) ,可以得到新的更具一般性的减谱法形式。这种方法称之为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论