




已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)空域处理语音增强方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士研究生学位论文 摘要 语音信号处理在现代信息社会中占有重要的地位。但语音信号常常会受到如冲激噪 声、周期噪声、宽带噪声和传输噪声等的干扰和房间混响的影响,使得各种语音信号处 理方法的有效性下降,适用范围缩小。因此,语音增强是语音信号处理中一个必不可少 的环节。但由于语音信号的非平稳性,噪声于扰的多样性和房间混响的复杂性,使得语 音增强技术成为一个极具困难但又非常吸引人的研究课题。基于单麦克风的语音增强方 法由于受到麦克风数量及特性的限制,往往不能获得令人满意的增强效果。在上个世纪 七十年代,基于麦克风阵列的语音增强方法的研究开始兴起。现代信号处理技术的发展, 特别是阵列信号处理、非平稳分析等理论的长足进步,为基于麦克风阵列的语音增强技 术提供了众多的方法。因此,本文主要的研究目标是寻找合适的基于麦克风阵列的空域 处理语音增强方法,以便获得更好的语音增强效果。 本文完成了以下几个方面的研究工作: 首先,概述了语音信号的基本特点及语音信号处理的基本理论,并介绍了基于麦克 风阵列语音增强方法的研究历史和现状。 其次,研究了传统的广义旁瓣抵消算法,针对该算法的缺点,本文从结构和算法两 个方面对它进行了改进,使得改进后的广义旁瓣抵消算法的语音增强效果更好,适用范 围更广。 再次,结合盲源分离技术,本文给出了不需要利用声源先验知识的语音增强方法, 并且取得了较好的语音增强效果。 最后,针对本文给出的多种语音增强方法进行了计算机仿真。实验结果表明,对实 际采集到的语音数据和计算机模拟的语音数据均可以取得比较理想的语音增强效果。 关键词:语音增强;麦克风阵列:旁瓣抵消;独立分量分析 王瑜:空域处理语音增强方法的研究 s t u d yo ns p a t i a lp r o c e s s i n gt e c h n i q u e so fs p e e c he n h a n c e m e n t a b s t r a e t s p e e c hs i g n a lp r o c e s s i n gp l a y sa ni m p o r t a n tr o l ei nm o d e mi n f o r m a t i o ns o c i e t y b u t s p e e c hs i g n a l sa r eo f t e nd i s t u r b e db yv a r i o u si n t e r f e r e n c e s ,s u c ha sb a c k g r o u n dn o i s ea n d s p e e c hf r o mo t h e rs p e a k e r s b e s i d e s ,t h er o o mr e f l e c t i o na n de n v i r o n m e n tr e v e r b e r a t i o na r e o t h e rf a c t o r st h a ta f f e c tt h es p e e c hq u a l i t y a l lo ft h e s en o to n l yd e s c e n dt h ev a l i d i t yo fa l l k i n d s o fs p e e c hs i g n a l sp r o c e s s i n gm e t h o d s ,b u ta l s od e f l a t et h e i ra p p l i c a b l ea r e a s a sa r e s u l t , s p e e c h e n h a n c e m e n ti s i n d i s p e n s a b l e i n s p e e c hs i g n a lp r o c e s s i n g b e c a u s eo ft h e n o n - s t a t i o n a r yo fs p e e c hs i g n a l ,v a r i e t y o ft h en o i s ei n t e r f e r e n c ea n dc o m p l e x i t yo f e n v i r o n m e n tr e v e r b e r a t i o n ,s p e e c he n h a n c e m e n ti sac h a l l e n g e a b l ea n da t t r a c t i v er e s e a r c h a r e a d u et ot h el i m i t a t i o no ft h eq u a n t i t ya n dp r o p e r t yo fs i n g l em i c r o p h o n e ,w ea l w a y sc a n n o to b t a i ns a t i s f i e de n h a n c e ds p e e c hs i g n a lb ys i n g l em i c r o p h o n e t h e ns p e e c he n h a n c e m e n t b a s e do nm i c r o p h o n ea r r a yb e c a m eah o tr e s e a r c hf i e l ds i n c e19 7 0 s w i t lt h ed e v e l o p m e n to f a d v a n c e ds i g n a lp r o c e s s i n gt h e o r y ,e s p e c i a lt h eg r e a tp r o g r e s so fa r m ys i g n a lp r o c e s s i n ga n d n o n s t a t i o n a r ys i g n a lp r o c e s s i n gt e c h n o l o g y ,s p e e c hs i g n a l sc a nb ee n h a n c e du s i n gm o r ea n d m o r en e w a l g o r i t h m sw i t hm i c r o p h o n ea r r a y s ot h ep u r p o s eo ft h et h e s i si st oe x p l o r em o r e e f f e c t i v es p e e c he n h a n c e m e n ta l g o r i t h m sw i t hm i c r o p h o n ea r r a yb a s e do ns p a t i a lp r o c e s s i n g t e c h n i q u e sf o rb e t t e rp e r f o r m a n c ea n dm o r ec o m p r e h e n s i v ea p p l i c a b l ea r e a s t h ec o n t e n t so f t l l i st h e s i sa r ea sf o l l o w s : f i r s t ,t h ec h a r a c t e r i s t i c so fs p e e c hs i g n a la n dt h eb a s i ct h e o r yo ns p e e c hs i g n a l p r o c e s s i n ga r es u m m a r i z e d b e s i d e s ,t h eh i s t o r ya n dd e v e l o p m e n to fs p e e c he n h a n c e m e n t w i t hm i c r o p h o n ea r r a ya r eb r i e f l yr e v i e w e d s e c o n d ,t h eg e n e r a l i z e ds i d e l o b ec a n c e l ( g s c ) a l g o r i t h mi sc a r e f u l l ys t u d i e d f o rt h e d i s a d v a n t a g eo ft r a d i t i o n a lg s c ,t h et r a d i t i o n a lg s ca l g o r i t h mw a si m p r o v e dw i t hav i e wt o i t ss t r u c t u r ea n di t sa l g o r i t h m a sar e s u l t ,t h eg s c l i k ea l g o r i t h mh a sab e t t e rp e r f o r m a n c e a n dw i d e ra p p l i c a b l ea r e a s t h i r d ,b ye x p l o r i n gb l i n ds i g n a ls e p a r a t i o n ( b s s ) ,s o m en e ws p e e c he n h a n c e m e n t a l g o r i t h m sw h i c hd on o tn e e dp r i o rk n o w l e d g ea b o u ts p e e c hs o u r c ea r ep r o p o s e di n t h i s t h e s i s f i n a l l y ,s o m ec o m p u t e rs i m u l a t i o n ss h o wu st h a tt h ei m p r o v e da l g o r i t h m sp r o p o s e db y t h et h e s i sw o r k e do u ts a t i s f a c t o r i l y k e yw o r d s :s p e e c he n h a n c e m e n t ;m i c r o p h o n ea r r a y ;g e n e r a ls i d e l o b ec a n c e l ; i n d e p e n d e n tc o m p o n e n ta n a l y s i s 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名: 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名 1 了锄 导师虢三也沁 导师签名:。二色! 鱼! : 逸! 辨兰月生日 大连理工大学硕士研究生学位论文 1 绪论 1 1 课题的理论意义和应用价值 麦克风阵列技术源于雷达、声纳系统中采用的阵列信号处理技术,是伴随着数字信 号处理技术的进步而发展起来的。麦克风阵列在语音信号处理领域的应用已日益流行, 并很快影响到传统的台式机和耳机麦克风等设备。 在无噪声、无混响的情况下,距离声源很近的高性能、高方向性的单麦克风可以获 得高质量的声源信号。但是,这要求声源和麦克风之间的位置相对固定。如果声源位置 改变,就必须人为地移动麦克风。若麦克风距离声源很远或在麦克风的选择方向之外, 则会引入大量的噪声,导致拾取信号的质量下降。为了解决单麦克风的这些局限性,人 们提出了用麦克风阵列迸行语音处理的方法。 与定向单麦克风不同,麦克风阵列具有电子可控性,使它在捕获特定方向的高质量 信号的同时又减少了噪声或其它干扰。首先,麦克风阵列具有空间选择特性,可以用“电 子瞄准”的方式从所需的声源位置提供高品质的信号,同时抑制其他说话人的声音和环 境噪声。第二,麦克风阵歹d 不要求在声源本地放置传感器,也不会限制说话人的运动, 并且不需要移动它以改变其接收方向。这些特性有利于它获取多个或移动声源。第三, 它可以自动检测、定位、并且在其接收区域内追踪正在说话的人,还可以实现高速的实 时跟踪定位。由于可控性由软件实现,而不是靠物理上连接的麦克风组,所以在麦克风 阵列的可接收范围内任何地方都可跟踪移动目标。同步跟踪目标的个数仅由当前的处理 能力决定。 基于麦克风阵列的语音增强算法继承了天线阵列的有关算法,同时也吸收了一些单 麦克风语音增强方法,如常用的语音参数模型方法、谱相减方法和维纳滤波方法等,两 者结合大大提高了麦克风阵列语音增强系统的消噪效果。但目前国内外在既降低语音信 号的信噪比,又提高语音信号的可懂度,以及语音增强算法的适用性方面都还有很大的 研究空间。本论文的研究方向主要是利用阵列信号处理算法,结合语音信号的特点,找 到能适用于多种类型噪声,同时对房间混晌有一定鲁棒性,有较好增强效果的语音增强 算法。 1 2 国内外研究概况及存在的问题 在国际上,基于麦克风阵列语音增强方法的研究始于上世纪七十年代,进入九十年 代以来,基于麦克风阵列的语音处理算法更成为一个新的热点。经过二十多年的研究, 这部分理论发展已经相对成熟,形成了以波束形成和后置滤波为基础的基本算法。波束 王瑜:空域处理语音增强方法的研究 形成是将阵列信号的波束形成方法应用于语音增强而得到的语音增强算法。它以f r o s t 在1 9 7 2 年提出的线性拘束自适应波束形成为基础,g r i f f i t h s 和j i m 在f r o s t 算法的基础 上提出了广义旁瓣抵消( g e n e r a l i z e ds i d e l o b ec a n c e l ,a s c ) 算法,成为波束形成的经典算 法,此后,不少学者都在其基础上提出了各种改进。如c o x 等人( 1 提出归化自适应抵 消器系数以解决g s c 中的超方向性问题,h o s h u y a m a 等人【2 】提出种类似于g s c 的结 构,使用带泄漏的最小均方( l e a s tm e a ns q u a r e ,l m s ) 算法来减小期望信号能量的泄漏。 w i d r o w 和s t e a m s 3 】提出了双波束形成器结构。现在,国内外都有众多的基于波束形成 的语音增强算法,除了波束形成,也有很多学者采用后置滤波技术来进行语音增强。如 z e l i n s k i l 4 1 提出在增强算法后接维纳滤波器进行进一步的噪声消除。由于麦克风阵列接收 到的语音信号在低频段具有高度的相关性,m e y e r 和s i m m e r 5 】提出了对语音信号在低频 段进行谱相减,在高频段使用维纳滤波器的增强算法。但是维纳滤波器只能保证在平稳 条件下最小均方误差意义的最优估计同时采用维纳滤波并没有完全利用语音的生成模 型,卡尔曼滤波器可以弥补这些缺陷。 近年来,随着信息论,子带滤波,神经网络等理论的发展,更是出现了基于盲源分 离,子带分解,多分辨率分析等新的语音增强算法。美国、德国、法国、意大利、日本、 香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的 麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记 录会议和助听装置等。但这些应用系统仅限于空间里存在单声源情况。对于混响环境中 的多声源情况下的语音增强和跟踪,目前还没有什么成熟的技术,理论上的发展也比较 缓慢。我国在这方面的研究工作起步较晚,近几年有一些学者在研究,但未见有突破性 成果。目前在国内期干i 上尚未见到有相应的论文发表,也没有看到实际应用的例子,这 可能与当前算法的通用性差有很大关系。尽管许多的专家学者都致力于语音增强算法的 研究,但到目前为止,还没有取得突破性的进展,即还没有出现一种适用范围言广,增 强效果明显的通用语音增强算法出现。困难主要集中在以下几点: l 】语音信号是非平稳信号,对于非平稳信号的研究,理论上一直进展缓慢,因此 不容易找到合适的信号处理工具。 2 ) 语音信号极易受到各种噪声的干扰,而且语音发生的环境也非常复杂,影响语 音增强算法的通用性。 3 ) 评价语音增强算法的效果时,人的主观听音测试是一个重要的判别手段,但这 种测试往往带来主观性强的不利因素。 大连理工大学硕士研究生学位论文 1 3 本文所做的工作 由于语音信号的非平稳性,噪声干扰的多样性和房间混响的复杂性,使语音增强成 为一个极具困难但又非常吸引人的研究课题。本论文一方面研究了传统的广义旁瓣抵消 算法及其有代表性的改进算法。另一方面,结合最近的盲源分离技术和子带滤波技术, 将其应用于语音增强算法中。具体如下: 1 ) 深入研究广义旁瓣抵消算法的实现和理论,充分认识传统的广义旁瓣抵消算法 和各种改进算法的优缺点。 2 ) 结合盲源分离方法,利用时域盲源分离算法,来解决麦克风阵列拾取语音信号 的瞬时混合的问题;利用频域盲源分离算法,来解决麦克风阵列拾取语音信号的卷积混 合的问题;利用不完全独立分量分析算法,进行了语音源多于麦克风数目时语音增强算 法的研究。 3 ) 结合子带滤波、滤波器组设计和小波包等理论,进行了子带语音增强算法的研 究。对各种语音增强算法进行计算机模拟实验,实验数据包括实际采集的语音信号和计 算机模拟语音信号,在对实验的结果进行客观评价的同时,通过听音测试,对增强后的 语音进行主观的评价。 王瑜:空域处理语音增强方法的研究 2 语音信号处理基础 语音信号是携带语音信息的语音声波。语音声波如果经过声电转换就得到语音的电 信号,如果经过声光转换就得到语音的光信号。在研究学习语音增强算法之前,首先应 该了解语音信号的一些基本特性,知道语音是如何由一些最基本的单位所组成的,入类 的发音器官是如何产生声音的等等。在此基础上可以建立一个语音产生模型,以便于进 一步地学习和研究语音信号处理的基本方法。同时,也有必要了解人类听觉的生理结构 与特征。本章介绍语音信号处理的一些基础知识。 2 1 语音信号产生模型 2 1 ,1 语音产生机理 语音由一连串的音组成,这些音以及它们之间的相互过渡就是代表信息的符号。这 些音的排列是由语音的规则和发声器官决定的。人类的发声器官分为三部分:肺、喉和 声道。在发声机制中,声道的作用相当于一个动力源,将气流送入喉部。喉部将来自肺 部的气流调制成为周期脉冲或者类似随机噪声的激励声源,并送入声道。声道包括口腔、 鼻腔和咽腔,它们对声源的频谱进行整形而产生不同音色的声音。声源还可能由声道的 收缩和内壁产生,这一作用发生在声道内部,它产生一个冲激性声源。从语音产生机理 的解剖学和生理学意义上来说,不会产生出完美的周期性、冲激性和噪声般声源。声源 经声道润色频谱后,通过嘴唇处的气压变化形成了可传播的声波,被人感知为语音。 可区分的语音不仅取决于声源,而且还与不同的声道形态以及它们如何与周期性、 冲激性和噪声般声源相互作用有关。更确切地描述这些语音类型的单位被称为音素,该 领域的研究被称为音位学( p h o n e m i c s ) 。某个特定类的音素在词中会表示某个特定的意 思,但是同一类音素可能存在着多种声音变体而含义保持不变,研究这种声音变化的学 科称为语音学( p h o n e t i c s ) 。音素是构成语言的基本单元,这些离散的单元依照定的音 素和方法规则或多或少地连缀成词语。 了解语音产生的机理,对于了解语音的分类、时域特性( 如基音) 和频域特性( 如语谱 图) 等都有重要的意义。 2 1 2 语音信号产生的数字模型 为了便于理论分析,根据人类发声系统的生理机理,人们构造出既符合实际又便于 离散处理的时域离散语音生成模型f 6 】。个完整的离散时间语音生成模型如图2 1 所示。 大连理工大学硕士研究生学位论文 图2 1 完整的离散时间语音生成模型 f i g 2 1f u l lm o d e lo f d i s c r e t et i m es p e e c hg e n e r a t e 语音 图2 1 示出的这种模型被称为“激励源滤波器”模型,它包括三部分:激励源、声 道模型和辐射模型。激励源包括三种:周期脉冲发生器,随机噪声发生器和声门脉冲发 生器。4 、以和4 分别为对应的增益。语音按照激励源的不同,可以分为三种:当激 励源为周期性脉冲的时候,其产生的是浊音;当激励源为随机噪声时,其产生的是清音 或磨擦音;当激励源为爆破脉冲时,其产生的是爆破音。这三种声源可以同时出现在发 音中。因此,语音是由这三种激励源的线性或非线性组合通过声道模型和辐射模型产生 的。 2 2 语音信号的主要特性 通过分析语音的生成模型,可以发现语音具有以下特性【7 j 。 1 ) 语音信号的频谱分量比较集中 通过对语音信号发声过程的研究以及观察记录的语音波形,可以发现语音信号的频 谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。这是因为人类声道的变化不可能太快。这一 点给语音的研究和计算带来了很大的便利。进行研究时,只需把注意力集中在这一区域 即可。 2 ) 语音是个时变的、非平稳的随机过程 人类发声系统生理结构的变化速度是有一定的限度的。在一段短时间内( 5 5 0 m s ) 人 的声带和声道形状具有相对稳定性,可近似认为其特征不变,因而语音的短时谱分析也 有相对的稳定性,短时谱的这种稳定性是很多语音处理算法和技术的基础。 3 ) 语音大体上可以分为清音和浊音两大类 一般而言,人类的语音信号往往在短时段表现出周期性( 如浊音) ,这种语段在频域 上有共振峰结构,其能量大部分集中在较低频段内;而在另一些时段表现出完全的随机 性f 如清音) ,这种语段在频域上没有共振峰结构,其频谱类似于白噪声;其余时段由两 王瑜:空域处理语音增强方法的研究 者混合而成。这一点反映在图2 1 中就是:激励源或者是由脉冲发生器发出,或者是由 随机噪声发生器产生,或者是它们的组合。 4 ) 作为一个随机过程,语音信号可以用统计分析特性来描述 8 l 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自 相关函数来描述。表示语音信号统计特性的概率密度的估算方法是根据长时间范围内一 段语音信号大量取样数据的幅度绝对值计算出其幅度直方图,然后根据统计的振幅直方 图,寻找近似的概率密度函数表达式。通过对语音信号统计特性的研究表明,语音信号 振幅分布的概率密度有三种常用的逼近方法,一种是修正伽玛分布概率密度函数 雌,= 焉 , 2 石、露硝 式中,k 是一个常数,与标准差盯有下列关系 k = 岩 ( 2 ,2 ) 另一种是拉普拉斯分布概率函数 p ( x ) = 0 5 a t e l m( 2 3 ) 式中,口是一个由标准差盯决定的常数 口= 兰 ( 2 4 ) 吒 也可以用高斯分布来近似,在高斯模型假设下,其概率密度函数是均值为零,方差 时变的高斯随机变量。对于长期统计来说,在这三个分布函数中,伽玛函数逼近的效果 最好,其次是拉普拉斯函数,而高斯分布逼近效果最差。应当注意,语音信号的振幅通 常都趋向于集中在低电平的范围内,振幅的概率分布不仅反映从一个瞬时到另一个瞬时 的采样值的分布,还反映出语音强度总的变化。 2 3 麦克风阵列信号模型 麦克风阵列利用多个麦克风拾取信号以实现语音信号的处理,如图2 2 所示。 大连理工大学硕士研究生学位论文 阵列 图2 2 麦克风阵列拾取的信号包括直接到达的信号、反射信号和干扰噪声 f i g 2 2s i g n a l sr e c e i v e db ym l e r o p h o n ea r r a y 2 3 1 理想声学模型 x 舯)i 釜n ) b :( n l 图2 3 理想声学模型 f i g 2 3i d e a la c o u s t i cm o d e l 如图2 _ 3 所示,在不考虑混响的情况下,麦克风阵列接收到的信号可以用理想模型 来描述,其矢量形式表达如下 x ( n ) = s ( ,z f ) + b ( n ) ( 2 5 ) 式中,x ( 月) 是麦克风阵列拾取信号列向量,伍是反映每一个通道传输衰减的列向量, b ( 月) 是加性噪声列向量。矢量信号s ( n ) 具有延迟矢量f 的时移,该矢量f 与阵列系统几 何尺寸所确定的传输延迟相关。算子“”表示元素与元素之间的乘积a 王瑜i 空域处理语音增强方法的研究 2 3 2 实际的声学模型 图2 4 实际声学模型 f i g 2 4r e a la c o u s t i cm o d e l 如图2 4 所示,实际环境中,考虑混响的存在,麦克风阵列接收的信号可以用实际 模型来接述,其矢量形式表达如下 x ( h ) = h ( 以) 5 ( n ) + b ( 玎)( 2 6 ) 这里,h ( 力) 是与麦克风集合相关的房间传递函数列向量,算子“+ ”表示卷积操作。 式( 2 6 ) 在频率域的对应形式是x ( f ) = h ( ,) s ( 力+ b ( ,) 。 2 。4 语音短时分析技术 语音信号是一种非平稳的时变信号,其产生过程与发声器官的运动紧密相关。发声 器官的状态变化速度较声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳 的。在5 - 5 0 m s 的范围内,语音频谱特性和一些物理特征参数基本保持不变。这样,就 可以将平稳过程的处理方法和理论引入到语音信号的短时处理中【9 1 ,每个短时的语音段 称为一个分析帧。对分析帧进行处理就相当于对固定特性的持续语音进行处理。分析梭 可以是连续的,也可以采用交叠分帧的方法,帧的长度一般取1 0 3 0 m s 。 在进行短时处理时,通常采用个长度有限的窗函数来截取语音信号形成分析帧, 窗函数将需处理区域之外的样点置零以获得当前语音帧。理想窗函数的频率响应要求主 瓣无限狭窄且没有旁瓣,但这种窗函数在实际工程中无法实现,常用的窗函数有矩形窗、 汉明( h a m m i n g ) 窗、汉宁( h a r m i n g ) 窗和b l a c k m a n 窗。 在确定了窗函数以后,就可以对语音信号进行分帧处理,常用的短时处理方法有: 大连理工大学硕士研究生学位论文 ( 1 ) 短时能量 语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音的能量小得 多,语音信号的短时能量分析给出了反映这些幅度交化的一个合适的描述方法。对于语 音信号x ( n ) ,短时能量的定义如下 e = 芝【x ( 研) w ( n 一所) 】2 = 艺【x ( m ) w ( n m ) 】2 ( 2 7 ) m = mm = n - n + l 式中,e 表示在语音信号的第n 个点开始加窗函数时的短时能量。w ( 九) 表示所加的 窗函数。 ( 2 ) 短时平均过零率 短时平均过零率是语音信号时域分析中最简单的一种特征。它是指每帧内信号通过 零的次数。短时平均过零率可以在一定程度上反映其频谱的性质,可以通过短时平均过 零率获得谱特性的一种粗略估计。短时平均过零率的公式为 互= s g n 【x ( 聊) 卜s g l l 【x 一1 ) 】1 w ( n 一川) ( 2 8 ) 式中,s g n 是符号函数。 ( 3 ) 短时自相关函数 语音信号是非平稳信号,但在短时内,可以使用平稳过程的处理方法,因此,语音 信号的自相关函数指的是其短时自相关函数,其定义如下 & ( 动= x ( m ) w ( n m ) x ( m + k ) w ( n l , n 一妨 ( 2 。9 ) = 2 5 噪声与噪声场 语音增强的主要目的之一就是去除噪声。噪声场不同,噪声的类型就不同,对语音 信号的影响也就不同。下面介绍常见的噪声和噪声场。 2 5 1 噪声 噪声来源于实际的应用环境,因而噪声特性可以说是变化无穷的。噪声可以是加性 的,也可以是非加性的。对于非加性噪声,可以通过一些相应的变换( 如同态变换和伪 随机扰动) 将其转化为加性噪声,所以这里主要讨论加性噪声。 加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和其他说话人语音干扰 四种。 王瑜:空域处理语音增强方法的研究 ( 1 ) 周期性噪声 其频谱的特点是具有许多离散的线谱。周期性噪声主要来源于发动机等周期性运转 的机械、电器干扰以及电源交流电声等。这种噪声可以通过梳状滤波器予以抑制。实际 环境中的周期性噪声并非简单的只含线谱分量,而是由许多窄谱带组成,而且往往是时 变的。 f 2 ) 脉冲噪声 脉冲噪声表现为时域波形中突然出现窄脉冲。它来源于爆炸、撞击和放电等。对这 类噪声可以通过在时域上设置阈值来加以抑制,也可以通过内插法进行平滑处理。 ( 3 ) 宽带噪声 宽带噪声来源很多,热噪声、气流噪声及各种随机噪声源等,归一化噪声也可视为 宽带噪声。由于宽带噪声在时域和频域上均与语音信号完全重叠,因而消除它最困难。 这种噪声只有在语音间歇期才独立存在。对于平稳的宽带噪声,通常可以认为是白色高 斯噪声,而对于非平稳的宽带噪声,情况就更为复杂。 ( 4 ) 话音干扰 在有多人同时说话的情况下,不需要的语音就形成了同声道干扰,人耳可以根据需 要分辨出其中某个入的声音,这种能力称为“鸡尾酒会效应” 各种噪声使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳。不仅如此, 强噪声环境还对说话人产生影响,即使发相同的语音,其语音的特征参数也会与在安静 环境或低噪声环境中的不同,这称为l o m b a r d 效应。 2 5 2 噪声场 在麦克风阵列语音增强中,噪声场也是一个很重要的概念。不同的方法可能适用于 不同类型的噪声场。所以,对不同类型噪声场的适用性,也是衡量语音增强算法消噪性 能的一个重要标准。通常主要考虑三种类型的噪声场:相干噪声场,非相干噪声场和散 射噪声场 1 0 。 图2 5 表示的是麦克风阵列中各个麦克风所接收到的噪声。其中l 和r ,表示麦克风 阵列中第f 个和第,个麦克风的位置向量,m ( h ) 和,( ,z ) 为每个麦克风所接收到的噪声。 定义噪声的空间时间互相关为 r ( o g , f ) = 可m 0 ) ,+ r ) 】 ( 2 1 0 ) 其中,p 。= r j i 表示两麦克风问的距离向量a 大连理工大学硕士研究生学位论文 为 图2 5 麦克风阵列接收到的噪声 f i g 2 5n o i s e sr e c e i v e db ym i c r o p h o n ea r r a y 由相关函数r ( 凡,f ) 的傅立叶变换为中( p f ,c o ) ,可以得到在空间- 频率上的相干函数 啄咖意 其中o ( r ,t o ) 和o ( 0 ,) 分别为噪声i ( m ) 和( h ) 的自功率谱。 绝对平方相干函数定义为 c 。c ,= 1 r ,c ,1 2 = i 端 c z t 2 , 由相干函数或绝对平方相干函数,可以对麦克风阵列中的噪声场进行分类。相干噪 声场中假定只有一个噪声源,而且此噪声源离麦克风很远,麦克风接收到的噪声信号是 相关的,这时e ( c o ) = 1 ,称之为相干噪声场;当各个麦克风上的噪声彼此间不相关时, c 。( :0 ,这时称之为非相干噪声场。在实际环境中,这两种噪声场会同时存在,而散 射场正是最接近于实际噪声场的模型。在散射场中,平面波在所有方向上随机传播,噪 声是无限多个平面的叠加。其绝对平方相干函数为c f ,( c o ) = s i n e 2 ( c o p 。c ) 。可看出其噪声 在低频段强相干,在高频段弱相干。 王瑜:空域处理语音增强方法的研究 2 6 人耳语音感知特性 人耳听觉的主观感知主要是响度、音调和掩蔽效应等。 2 6 1 晌度 测量声音强弱的物理量为声强。心理上,主观感觉声音强弱的单位是方( p h o n e ) 或者 宋( s o n e ) ,方是响度级的单位,而宋是响度的单位。当声音的强度小到人耳刚能够听见 时,称为昕闽。昕阂值随频率变化而变化。当声音的强度大到使人耳感到疼痛,这个闽 值称为痛阈。听阈和痛阈之间就是人耳的听觉范围,从声强上看,人耳的听觉范围为 0 - 1 2 0 d b 的声强级。 2 6 2 音调 音调是听觉分辨声音高低时用于描述这种感受的一种特性。对于频率低的声音,听 起来感觉它的音调低,而频率高的声音,听起来感觉它的音调高。但是音调与声音的频 率并不成正比关系,它同时还与声音的强度及波形有关。 2 6 3 掩蔽效应 当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度 较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。一般来说,低音 容易掩蔽高音,而高音掩蔽低音则较难。掩蔽效应会造成因一个声音的存在,而使另一 个声音的听阈上升。噪声的存在也会影响人耳对纯音的感知,即对纯音产生掩蔽。为了 描写这种掩蔽效果,引入了临界带宽的概念。一个纯音可以被以它为中心频率,并且具 有一定的频率宽度的连续噪声所掩蔽,这时该纯音处于刚刚能听到状态,称这一带宽为 l 临界带宽。 言语听觉是一个十分复杂的感知过程,它包括数据驱动和知识驱动两方面的处理过 程。前者是基于语音信号中所包含的信息,后者是指一些先验知识。下面说明一些影响 语音信号听辨能力的因素: ( 1 ) 语音强度清晰度的影响 可正确辨别的单音节词与所有试听单音节词的比值是语音强度的函数,而且这一函 数因语音性质的不同而不同。研究表明,平均语音强度为2 5 2 7 d b 时,语音信号约有5 0 可以听清楚,如果要想使这一比值达到8 0 ,则语音强度要达到6 0 r i b 以上。辅音相对 于元音听起来更困难一些。 大连理工大学硕士研究生学位论文 ( 2 ) 对语音的掩蔽作用 对于纯音掩蔽而言,低频纯音对语音的掩蔽要太于高频纯音。在纯音强度较大时, 3 0 0 h z 的纯音产生最大的掩蔽效应,在纯音强度较低时,5 0 0 h z 的纯音产生最大的掩蔽 效应。如果用白噪声来掩蔽语音信号,则语音的觉察阈值以及清晰度阈值均随噪声强度 的增大而提高。 ( 3 ) 频率选择性 利用高通或低通滤波器有选择地滤除语音信号中的某些频率成分,会影响到它的清 晰度。实验表明,虽然语音信号的大部分功率集中在低频分量当中,但它们对清晰度的 贡献并不是很大。高频成分对于辅音清晰度的影响要比对元音的影响更严重一些,而去 掉低频成分对于元音清晰度的影晌则要比对辅音的影响更大一些。 ( 4 ) 限幅的影响 在峰值无限削波的情况下( 即几乎只保留语音信号的过零率信息) ,仍然能相当好地 保留语音的清晰度,但中心削波对语音清晰度的影响很大,削去声波幅度的一半,清晰 度几乎变为零,从这两种削波对语音清晰度的影响可知,语音信号中的大部分信息都保 存在其低幅度部分。 2 7 语音增强效果评价方法 判断一个语音增强系统性能的好坏,主要看语音增强的效果如何。语音增强的效果 可以由主观和客观两方面来评价。主观评估是最基本的评估方法。但对语音质量进行主 观评估往往需要大量的人,大量次数的测听实验,才能得到普遍接受的评估结果。它耗 费大,经历时间长。因此,常采用一些可靠的客观评价算法来对语音质量进行评估。除 了可以用主观和客观两方面来评价语音增强的效果外,还可以用消噪能力从理论上来计 算、分析语音增强算法的性能。 2 7 1 语音质量的主观评价方法 语音质量的主观评价方法有多种,常用的方法有判断韵字测试( d i a g n o s t i cr h y m e t e s t ,d r t ) ,平均意见得分( m e a no p i n i o ns c o r e ,m o s ) 。 ( 1 ) 判断韵字测试法 判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使用若干 对同韵母进行测试,测试中,让受试者每次听到一对韵字中的某个音,然后让他判断所 听到是音是哪一个字,全体实验者判断正确的百分比就是d r t 得分。通常认为d r t 为 9 5 以上时清晰度为优,8 5 - - 9 4 为良,7 5 - - 8 4 为中,6 5 - - 7 4 为差,而6 5 以 下为不可接受。在实际通话中,清晰度为5 0 时,整句的可懂度大约为8 0 。 王瑜:空域处理语音增强方法的研究 ( 2 ) 平均意见得分 m o s 得分方法是由c c i t t 推荐的主观评价,现已广泛作为不同系统之间的比较标 准。它采用五级评分标准,如表2 1 所示。 m o s 得分的测试方法为:参加测试的实验者在听完测试语音后,从这一个等级中 选择某一级作为他对所测语音质量的评定。全体实验者的平均分就是所测语音质量的 m o s 分。为使m o s 得分更加准确客观,就必须保证有足够的人数参加测试,所测语音 材料也要足够丰富,测试环境也要尽量保持相同。 表2 1m o s 判分五级标准及相应的用语描述 t a b 2 1m o ss t a n d a r da n dd e t a i l s 2 7 ,2 语音质量的客观评价方法 通过以上对主观评价方法的原理与实现的简单介绍可以看出,主观评价方法虽然是 评价语音质量的最基本的方法,但它的缺点也是明显的:费时费钱,重复性差,灵活性 不足,不利于现场实验和生产过程中的应用。为了克服主观评价方法的缺点,人们提出 了符合主观评价结果( 或与其基本一致) 的语音质量的客观评价方法。 语音质量的客观评价方法是采用某个特定的参数去表征语音通过系统后的失真程 度,并以此来评估处理系统的性能优劣。由于表示语音的特征具体可以分为时域参数和 频域参数两大类,相应的语音客观质量评价方法也可以分为时域法和频域法。 ( 1 ) 时域法 客观评价方法的时域法考察输出语音相对于输入语音的波形失真程度。一般有信噪 比法,分段信噪比法及其改进形式感觉加权分段信噪比法。信噪比法的计算公式如下 大连理工大学硕士研究生学位论文 其中,为所分析带噪语音的帧数,g ( i ) 为第i 帧的语音信号功率,只( f ) 为第i 帧 的噪声信号功率。 ( 2 ) 频域法 语音质量客观评价方法的频域法主要度量语音系统输出语音相对于输入语音的频 谱失真程度。由于可采用完整的频谱特性和频谱包络两种方法来表征频谱特性,因此, 语音质量客观评价方法的频域法可以分为频谱失真法和频谱包络失真法。 频谱失真法的定义为 = 豚丽面而 ( 2 1 4 ) 其中,最( 厂,t ) ,s ,( ,t ) 分别表示输入输出语音的对数频谱。- 反映了输入输出 语音对数频谱之间的距离。 频谱包络失真法利用输入输出语音频谱包络失真程度来衡量语音的失真程度从。频 谱包络一般用倒谱或者l p c 倒谱来表示,它们的低时域部分包含了信号的傅里叶谱的包 络信息。对这些频谱包络参数采用不同的距离定义时,就有了不同形式的倒谱距离测试 方法。 f 3 ) 听觉域法 为了更好的对低速语音编码算法做出客观评价,还可以采用基于人耳听觉感知机理 的巴克谱距离( b a r ks p e c t r u md i s t a n c e ,b s d ) 这一客观评价方法。 巴克谱距离评价方法就是模仿已知人耳对声音处理的几个过程,建立语音质量客观 方法的评价模型。它的主要内容包括如下几个方面:( 1 ) 声音的巴克域表示,即主观听觉 表示。( 2 ) 声音信息的提取,这是声音在主观听觉感知上最初的信息表示。( 3 ) 声音信息 的客观度量,这是声强到响度级的变换。( 4 ) 声音信息的主观度量,这是响度级和响度级 之间的变换。语音处理算法的质量就可以用原始语音和合成语音的主观听觉空间上的距 离来表示。这就是巴克谱距离法的实现原理。 。脚。一,脚。 册 王瑜:空域处理语音增强方法的研究 2 7 3 消噪性能 消噪性能( n o i s er e d u c t i o n , 5 r e ) a 幔( 珊) 代表一种语音增强算法对信噪比的改进能 力,也叫做噪声衰减因子。其定义为 蝴= 1 0 l o g t 。芒 ( 2 粥) 其中,巾。和o 。分别代表算法前后的噪声功率谱。 定义噪声场中所有麦克风的平均复相关函数为 - ( 5 矿荟三鼬 吖 ( 2 16 ) 其中,i ,代表麦克风的数目,r 。,( 回) 为式( 2 1 1 ) 中所定义的相干函数。不同的 噪声场具有不同的复相关函数r ( 曲) ,使得语音增强算法对不同噪声场的消噪性能不同。 ( 1 ) 相干噪声场 恐 一s ( 竺鼍譬) ,f m f x ,x 2 ) = - s i n ( 鼍譬 其中,d 表示麦克风间距,0 是信号到达角度,c 是声音速度。 ( 2 ) 非相干噪声场 因为各麦克风的噪声彼此之间不相关,所以复相关函数r ( 田) 实部和虚部均为0 。 ( 3 ) 散射噪声场 r ( 1 为实数,此时 r e r _ 置( 国) =,m r 舳( ) = o ( 2 1 8 ) 大连理工大学硕士研究生学位论文 3 广义旁瓣抵消算法及其改进形式 3 1 基本的广义旁瓣抵消算法 广义旁瓣抵消算法( g e n e r a l i z e ds i d e l o b ec a n o e l ,g s c ) 是自适应波束形成器的一种通 用模型,它以线性自适应波束形成【1 l 】为基础,最早由g r i f f i t h s 和c w j i m 在1 9 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025合同样本:停车场租赁协议示范文本
- 2025保修劳动合同
- 2025义龙新区鲁屯镇初级中学公租房租赁合同
- 2025公寓房买卖合同(现房)
- 2025年共同股权合作合同
- 人教版历史与社会八年级上册第一单元第三课第二框《罗马帝国的兴衰》说课稿
- 扬州市检察院招聘考试真题2024
- 绿色环保住宅小区施工监理合同
- 商务楼宇承包经营招租管理合同
- 抵押担保委托合同
- 2025年质量月知识竞赛题库(附答案)
- 酒店电气使用安全培训课件
- 生猪订购合同书范本3篇
- 2025年妇产科学科宫颈癌筛查常见问题考试答案及解析
- 排球规则课件
- 软件人员外包合同
- 上海区域出租车考试题目及答案
- 2025部编版三年级道德与法治上册全册教案
- 三国趣味考试题库及答案
- 2024年房地产经纪协理考试题库及完整答案1套
- 2025年初级电工接线技能模拟题及答案详解
评论
0/150
提交评论