




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于mmselsa的语音增强研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 语音增强是语音信号处理的一个重要分支。语音增强技术无论在日常生 活中,还是军事领域,或者对语音信号处理技术都很有应用价值。语音增强 技术不但与语音信号处理理论有关,而且还涉及到人的听觉感知和语音学等 方面的知识。 本文主要对基于m m s e l s a 的语音增强技术进行了研究,首先介绍了 各种语音增强算法的基本理论,然后对基于m m s e l s a 的语音增强算法进 行改进,提高语音增强的效果,并且增强后的语音更符合人的听觉。 m m s e l s a 语音增强方法利用先验信嗓比和后验信噪比来控制增益函数。对 于先验和后验信噪比,需要作出噪声的估计。给出利用平滑参数在语音帧和 无语音帧分别进行连续估计的方法,这种方法可以很好地适应非平稳的环境。 为了在减少语音失真机会的同时有效地抑制残留噪声,利用噪声掩蔽效应与 语音增强算法相结合。实验表明,这种方法具有良好的语音增强性能。 论文对含噪语音的预处理进行了初步的研究,将线性预测与数学形态学 滤波应用到含噪语音的前期处理中,而后对处理后的语音利用上述改进后的 语音增强算法进行增强。由于m m s e l s a 语音增强算法具有良好的语音增 强效果,对白噪声更加明显。对于受其它噪声污染的语音可以先对含噪语音 进行预处理,来保证m m s e l s a 语音增强算法的效果。 关键字:语音增强;听觉掩蔽效应;m m s e - l s a a b s t r a c t s p e e c he n h a n c e m e n ti sa ni m p o r t a n tb r a n c ho fs p e e c hs i g n a lp r o c e s s i n g i ti s o fg r e a tv a l u en o to n l yi n d a i l yl i f eb u ta l s oi nm i l i t a r ya n ds p e e c hs i g i l a l p r o c e s s i n gt e c h n o l o g y s p e e c he n h a n c e m e n ti sr e l e v a n tt o s p e e c hp r o c e s s i n g t h e o r y , h u m a nb e i n g s a u d i t o r yp r o p e r t i e s ,p h o n e t i c sa n do t h e rf i e l d s f i r s t l y , s p e e c he n h a n c e m e n tb a s e do nm m s e l s ai sr e s e a t c h e d s o m e s p e e c he n h a n c e m e n ta l g o r i t h m sa r ei n t r o d u c e da n dt h es p e e c he n h a n c e m e n tb a s e d o nm m s e - l s ai s i m p r o v e d ,t h en o i s e sa r ee f f e c t i v e l ys u p p r e s s e da n db e t t e r s u b j e c t i v ea u d i t o r yq u a l i t yi sg a i n e d t h eg a i nf u n c t i o no fm m s e l s ar e l i e so n t h ep r i o rs n ra n dp o s t e r i o rs n r t o c o m p u t ep r i o rs n ra n dp o s t e r i o rs n r ,t h e e s t i m a t i o no fn o i s ei sn e e d e d t h em e t h o dt h a tu p d a t e st h en o i s e e s t i m a t i o n c o n t i n u o u s l yu s i n gs m o o t h i n gp a r a m e t e r si sp r o p o s e da n di tc a nb e t t e ra d a p tt o t h en o n s t a t i o n a r ye n v i r o n m e n t i no r d e rt os u p p r e s st h er e s i d u a ln o i s ee f f e c t i v e l y w h i l er e d u c et h ec h a n c eo fd i s t o r t i o no fs p e e c h ,t h en o i s em a s k i n gp r o p e r t vi s c o m b i n e dw i t ht h es p e e c he n h a n c e m e n ta n dt h e r e s u l t ss h o wt h a ti tc a ng a i n b e t t e rp e r f o r m a n c e s e c o n d l y , t h ep r e - p r o c e s s i n go fn o i s ys p e e c hi sp r i m a r i l ys t u d i e d t h em e t h o d t h a tn o t s ys p e e c hc a l lb ep r e - p r o c e s s e db yl i n e a rp r e d i c t i o na n dm a t h e m a t i c a l m o r p h o l o g yb e f o r eb e i n ge n h a n c e d t h em m s e l s ah a s b e t t e ro u t c o m e s e s p e c i a l l yf o rw h i t en o i s e ,f o rt h en o i s ys p e e c hc o r r u p t e db yo t h e rn o i s e s t h e p r e 。p r o c e s s i n gp r o c e d u r ec a nb ea d o p t e dt oe n s u r et h ep e r f o r m a n c eo ft h es p e e c h e n h a n c e m e n t k e y w o r d s :s p e e c he n h a n c e m e n t ,a u d i t o r ym a s k i n gp r o p e r t y , m m s e l s a 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引 用己在文中指出,并与参考文献相对应。除了文中已注明引 用的内容外,本论文不包换任何其它个人或者集体已经公开 发表的作品成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确的方式注明。本人完全意识到本声明的法 律结果由本人承担。 作者( 签字) : 叠蔓 日期:加p 罗年1 月,乒日 哈尔滨t 程大学硕十学位论文 1 1 语音增强概述 第1 章绪论 1 1 1 语音增强的目的 语音是人类进行交流的主要工具之一,是人与人、人与机器之间进行沟 通的重要桥梁。但人们在语音通信过程中不可避免的会受到来自周围环境和 传输媒介引人的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干 扰最终将使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染 的带噪语音信号。为了从带噪信号中获得尽可能纯净的语音信号,减少噪音 的干扰,就需要进行语音增强。语音增强或者作为一种预处理,或者为抑制 背景噪声,提高语音质量,是解决噪声污染的一种有效手段。语音增强的主 要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通 常都是随机的,从带噪语音中提取完全纯净的语音是不现实的。在此情况下, 语音增强的目标对收听人而言主要是减少疲劳感,改善语音质量,提高语音 可懂度。对语音处理系统( 识别器、声码器、手机) 而言是提高系统的识别率 和抗干扰能力。这些目的往往不能兼得,通常要根据语音处理系统的具体需 要而定【l 】。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著 地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下 降。对语音增强的研究是很有挑战性的。 1 1 2 语音增强的应用 实际的语音常常是带噪声的信号,在一般情况下干扰信号是随机信号, 要完全排除噪音是不现实的,所以语音增强的目标对收听人而言主要是减少 疲劳感,改善语音质量,提高语音可懂度,对语音处理系统而言是提高系统 的识别率和抗干扰能力。这些目的往往不可兼得。语音增强因应用环境的不 同,其目的的侧重点是不同的。 语音增强在语音信号处理系统、通信等许多方面有着广泛的应用【l 】: 哈尔滨t 程大学硕士学位论文 在国家和社会安全方面,侦听信号常常含有较大的噪声,语音增强有助 于提高侦听系统的效果,可以帮助侦察破案或获取情报。 飞机驾驶人员与地面指挥的语音通讯常常因飞机螺旋桨、发动机等强噪 声而受到干扰,需要进行语音增强以保证语音信息的可靠传达。 深水潜水员在充氦气的面罩内说话产生的语音信号会因特殊的气体环 境而产生畸变,语音共振峰移动,通过语音增强能够进行校正。 在街道、机场等嘈杂环境中使用的公共电话会因严重的干扰而影响通话 质量;在高速行使的汽车中使用移动电话也有类似的问题。有效的语音增强 系统能够大大提高语音通讯的抗干扰能力,能有效地扩展移动通讯的适应能 力和应用范围。 室内回声在比较严重的情况下会和原语音信号一起通过广播等语音系 统进行传播,影响收听效果。语音信号增强在这方面也能有所贡献。 录音中的频率响应不平坦造成的失真,或有历史价值的旧唱片和旧录音 带中的噪声,可以通过语音增强加以改善。 有语言障碍的残疾人发出的失真语音在经过合理的语音增强补偿后能 够被正常人听懂,提高了残疾人的社会交往能力。 语音数字信号处理的不断发展使机器语音识别成为可能,在消声室中的 语音识别系统已经达到了非常高的识别率( 小词汇量识别正确率大于9 9 ) ,但 在有噪声环境中使用时机器的识别率会急剧下降,信噪l 匕0 d b 时识别率就降 到了1 0 t z l 。 声码器能够将语音进行参数编码,以较低的码率传输语音信号,对节省 传输带宽有重要意义。在噪音较大的环境中使用声码器,会造成参数编码的 错误,解码后的语音难以听懂。用经过语音增强的信号输入声码器能提高其 抗噪音能力。 1 1 3 语音增强的研究现状 语音增强无论是在人们的日常生活中,还是在军事领域,通信领域,语 音信号处理系统,语音数字处理技术等方面都具有很广泛的应用前景,语音 增强技术的研究吸引了一大批的学者对其进行探索,并且在相关领域取得很 好的效果。 哈尔滨工程大学硕士学位论文 语音增强方法的研究始于2 0 世纪7 0 年代中期。随着数字信号处理理论 的成熟,语音增强发展成为语音信号处理领域的一个重要分支。1 9 7 8 年,l i m 和o p p e n h i m 提出了语音增强的维纳滤波方法【3 训。1 9 7 9 年,b o l l 提出了谱相 减方法来抑制噪声5 1 。1 9 8 0 年,m a u l c y 和m a l p a s s 提出了软判决噪声抑制 方法【6 】。1 9 8 4 年,e p h r a i m 和m a l a l l 提出基于m m s e 短时谱幅度估计的语音 增强方法【_ 7 1 。1 9 8 7 年,p a l i w a l 把卡尔曼滤波引入到语音增强领域【8 1 。近几年, 神经网络0 1 、小波变换】也被应用到这一领域。 在近3 0 年的研究中,各种语音增强方法不断被提出,它奠定了语音增强 理论的基础并使之逐渐走向成熟。近些年来,随着v l s i 技术的发展和高速 d s p 芯片的出现,语音增强方法逐步走向实用,同时新的语音增强方法又相 继涌现。语音增强不但与语音信号处理理论有关,而且涉及到人的听觉感知 和语音学。噪声来源众多,随应用场合而异,它们的特性也各不相同。即使 在实验室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种 噪声环境。所以必须针对不同的噪声,采取不同的语音增强对策。 语音增强方法种类繁多:基于参数法有梳状滤波器【l 】,维纳滤波,卡尔 曼滤波等;非参数方法有谱减法,自适应滤波的方法;统计的方法:最小均 方误差的方法【7 1 2 l ,h m m 13 1 。还有其它一些算法如小波变换,卡亨南络维 变换( k l t ) 1 1 4 - 1 6 】,离散余弦变换( d c t ) 1 1 5 - 1 6 】,人工神经网络现在不算成 熟。对于参数方法,当实噪音或语音条件与模型有较大差距时,或提取的模 型参数有困难,此类方法容易失效。对于非参数方法不需要从噪声中估计模 型参数,非参数应用广,限n d , ,没有利用可能的统计信息,结果一般都不 是最优的。对于统计方法,较充分的利用了语音和噪声的特征,一般要建立 模型库,需要训练过程获得初始统计过程,与语音识别系统联系很密切。 1 2 语音增强效果评价 语音质量的评价是一个极其复杂的问题,不但与语音学、信号处理等学 科有关,而且还与心理学、生理学等有着密切的联系。从评价主体上讲语音 质量评价可分两大类:主观评价和客观评价。 哈尔滨工程大学硕士学位论文 1 2 1 主观评价方法 主观评价基于一组人对于发音质量的印象,根据测试侧重点的不同,主 要可以分为语音质量测试和语音可懂测试。有关语音质量得到广泛使用的是 平均意见得分( m e a no p i n i o ns c o r e ,m o s ) ,语音可懂度测试标准主要是判断 韵字测试( d i a g n o s t i cr h y m et e s t ,d r t ) 。 ( 1 ) 平均意见得分( m o s ) 平均意见得分m o s 的评定方法是由一定数量的试听者对语音的听觉效 果分别打分,取其平均值作为最终得分。m o s 评分一般分为5 级标准。这种 方法的优点是被测者可以自由地对听到的语音进行打分,缺点是被测者的打 分体系有可能差别非常大,对试听人数、试听者的试听经验、以及试听环境 都有很高的要求,因而必须特别注意保持一个一致的测试环境。 表2 1m o s 评分五级标准 分值语音质量失真级别 5 优没觉察 4 良刚有觉察 3 中有觉察且稍觉可厌 2 差明显觉察且町厌但可忍受 1 劣不可忍受 ( 2 ) 乒l j 断韵字测试( d r t ) 在判断韵字测试中,提供了相当数量的一对对的样本字,每一对样本字 只有开头的辅音是不同的,它们分别用来测试发音的一系列不同特征,如浊 音清音鼻音齿擦音连读等等。被测试者需要指出在测试字对中,它们听到 的是哪一个单词。总的判断韵字得分是由以下公式得出: d r t =翌型墅垩堕二型型堑堕堡x1 0 0 n 测试字数量 质量称得上“好”的语音应该有8 5 - - 9 0 的d r t 得分。 1 2 2 客观评价方法 客观评价方法需要大量的时间和人力资源,并且随着语音编码和增强算 法复杂度的不断增加,性能的提高越来越细微,这时主观评价方法就无能为 4 哈尔滨t 程大学硕十学位论文 力了,因为它要求语音质量的差异对人而言必须是可辨别的。我们转而求助 于客观评价方法,它易于实现。 客观评价的方法提供了比较不同算法性能量化的、可重复的和准确的结 果,所有的客观评价方法都是对原来的语音波形和处理过的语音波形作为一 个直接比较,以二者之间的误差大小来判别语音质量的好坏,是一种误差度 量。客观评价的方法很多,本文采用的主要是信噪l 匕( s i g n a l t o n o i s er a t i o , s n r ) 。 信噪比一直是衡量针对宽带噪声失真的语音增强算法的常规方法,值得 注意的是,基于信噪比的衡量方法只对试图复制原来的输入波形的编码或者 增强算法有效。假设y ( n ) 表示带噪信号,s ( n ) 表示其中的纯净语音信号,s ( n ) 表示相对应的增强信号,所有这些信号都假设是能量信号,则时域误差信号 可以写作: e ( n ) = s ( ) 一s ( 刀)( 1 2 ) 误差能量是: t = 0 0 2 ( ,2 ) = p ( 刀) 一;( 甩) 】2 ( 1 - 3 ) 经典形式的信噪比定义为: fs 2 ( ,z ) 一1 0 1 0 蜀。若。1 010910丽n=-oo 0 4 从上式可以看出,需要知道纯净语音信号才有可能决定信噪比的值,这 在实际环境下是不可能的。因此,上述方法主要用于纯净语音信号和噪声信 号都是己知的算法的仿真中。 i 3 研究内容及结构安排 本课题的研究内容: 本课题主要对基于m m s e l s a 的语音增强技术进行了研究,首先介绍了 语音增强的基本理论知识和各种语音增强算法,然后对基于m m s e l s a 语 哈尔滨工程大学硕士学位论文 音增强算法进行改进。增加语音增强的效果,并使得增强后的语音更符合人 的听觉感知。 然后论文对含噪语音的预处理进行了初步的研究,提出了将线性预测与 数学形态学滤波应用到含噪语音的前期处理中,而后对处理后的语音进行前 面改进后的语音增强算法进行增强。对于受其它噪声污染的语音可以先对含 噪语音进行预处理,来保证m m s e l s a 语音增强算法的效果。 本论文的结构安排如下: 第一章简要介绍了语音增强的目的,应用及其研究现状,语音增强评价 方法以及本文的研究内容。 第二章详细讨论了语音增强技术包括语音,噪声,及人耳的特性等方面 的知识及各种语音增强方法。 第三章分析了基于m m s e l s a 语音增强算法的基本原理,讨论了先验 信噪比与后验信噪比的估计,最后提出可以较快适应环境变化的噪声估计。 第四章中首先介绍了噪声掩蔽效应的基本原理,接下来介绍噪声掩蔽阈 值的计算步骤,最后将噪声掩蔽效应与m m s e l s a 语音增强算法相结合。 第五章主要是含噪语音信号的预处理。首先介绍了线性预测分析,数学 形态学的原理,然后利用线性预测,数学形态学对含噪语音信号进行预处理。 最后,对做的工作做了总结,并对今后工作作了展望。 6 哈尔滨工程大学硕+ 学位论文 第2 章语音增强技术 2 1 语音、噪声以及人耳的特性 2 1 1 语音的特征 ( 1 ) 语音的声学特征 语音既然是人体的发音器官发出来的一种声波,它就和其它各种声音一 样,也具有声音的物理特征。这就是说,每一种声音都具有一定的音色,音 调,音强和音长各种要素。 音色也叫音质,是一种声音区别于其它声音的基本特征。音调是指声音 的高低,音调取决于声波的频率,而声波频率又与发音体长短、厚薄以及松 紧有关。声音的强弱叫做音强,它是由声波振动幅度决定的。声音的长短叫 做音长,它取决于发音持续时间的长短。 说话的时候,很自然地一次发出来的、,有一个响亮的中心的、听的时候 也很自然地感到是一个小的语音片段,叫做音节,它是语言的最小使用单位。 一个音节可以由一个音素构成,也可以由几个音素构成。音素是语音的最小 单位。语音除了上述的声音的物理属性外,它还具有另一个重要性质,这就 是语音总是和一定的意义相联系,一定的语音要表达一定的思想和意义。因 此,语音中所包含的信息是十分丰富和多种多样的。 ( 2 ) 语音的时间波形特性 语音可以直接用它的时间波形来表现。根据时间波形可以看出语音信号 的一些重要特征。清音和浊音这两类音的波形有很大的不同。一般来说,清 音的波形类似于白噪声,且具有很弱的振幅;而浊音具有明显的准周期性, 并具有较强的振幅。它们的周期对应的频率就是基音频率,即使同是浊音, 其基音频率也是不同的。 就其本性而言,语音波形是时间的连续函数。因此,从一个音到另个音 逐渐过渡时,语音信号的特性是随时间而变化的。例如,浊音和清音的激励 哈尔滨工程大学硕士学位论文 不同,从浊音过渡到清音,相应地要改变激励,语音信号的幅值随时间有很 明显的变化的。语音信号的这些时变特性在波形图中都能够很明显的观察出 来。但是,语音信号的特性随时间的变化是比较缓慢的,大致可以认为在每 1 0 3 0 m s 短时时间间隔内语音信号的特性基本上固定不变的,或者说变化是 很缓慢的。这一特点是语音数字信号处理的一个重要的出发点。 ( 3 ) 语音的频谱特征 不同语音是由声道的不同形状和尺寸决定的,这就决定了它们具有不同 的频谱特征。语音随时间的变化,决定了其频谱也随时间而变化。但由于语 音频率随时间变化缓慢的,因而在一短时间内( 所谓的一帧) 来观察语音的频 谱,可以近似认为是固定不变的,从中可以找到相应的频谱信息,这就是所 谓的短时谱。 如前所述,声道可以看成是一根具有非均匀截面的声管,在发音时起着 共鸣器的作用。当声音象上边讨论的那样产生后就顺着声道传播,声音的频 谱形状必定会被声道的选择性所改变。声道具有一组共振频率,称为共振峰。 不同的语音对应于一组不同的共振峰参数。为了得到高质量的语音,或者说 为了精确地描述语音,必须采用尽可能多的共振峰。但在实际应用中,只有 头三个共振峰才是重要的。 由于浊音( 包括所有的元音和浊辅音发浊音情况) 是声带振动产生的准周 期空气脉冲激励形状固定的声道时形成的,不同的发音,振动频率也不同。 从频谱图上能够很清楚地看到浊音的基音及其谐波频率,一般来说男子低, 女子高;老人低,小孩高,并在超过4 1 d h z 以后迅速下降。具体地说,在 0 1 5 0 0 h z 之间差不多有1 2 个峰,因此基音频率大约为1 2 5 h z 。 而清音的谱峰分布是没有明显规律的,也看不出信号的周期性,这些正 是清音的特点。一般来说,清音的频谱能量主要集中在高频区域。 2 1 2 噪声特征及其分类 实际应用环境的噪声其特性可以说是变化无穷的。噪声破坏了语音信号 原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降, 可懂度降低,使人产生听觉疲劳。不仅如此,强噪声环境可能使讲话人改变 了在安静环境或低噪声环境中的发音方式,从而改了语音的特征参数。 8 哈尔滨ji :程大学硕士学位论文 i 宣i 宣;i i i 宣暑i ;i i ;宣;i ;i ;i 宣;_ - a l i 宣;i i ;i i 噪声可以是加性的,也可以是非加性的。加性噪卢易于分析且更普遍, 对于非加性噪声可以通过变换变为加性噪声。例如,乘积性噪声或卷积噪声 可以通过同念变换而成为加性噪声,某些与信号相关的量化噪声可以通过伪 随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大致可以分为 周期性噪声、冲激噪声、宽带噪声和同声道语音干扰。非加性噪声主要是传 输噪声。 ( 1 ) 周期性噪声 周期性噪声的特点是有许多离散的线谱。其主要来源于发动机等周期运 转的机械。5 0 或6 0 h z 电源交流声也会引起周期性噪声。周期性噪声引起的 问题可以通过功率谱发现,并通过滤波或变换技术将其去掉。 ( 2 ) 脉冲噪声 冲激噪声表现为时域波形中突然出现的的窄脉冲,它通常来源于爆炸、 撞击和放电等。可以根据带噪语音信号幅度的平均值确定阈值来消除此噪声。 当信号幅度超过这一阈值时,判为冲激噪声,对它进行适当衰减,甚至完全 消除。 ( 3 ) 宽带噪声 宽带噪卢的来源很多,热噪声、气流( 如风、呼吸) 噪声及各种随机噪 声源,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域 上完全重叠,因而消除它最为重要困难。这种噪声只有在语音间歇期才会单 独存在。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。不具有白色 频谱的噪声,可以先进行白化处理。对于非平稳的宽带噪声,情况就更为复 杂一些。 ( 4 ) 同声道语音干扰 干扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰称为 语音干扰。通常人耳可以在两个以上讲话环境中分辩出所需要声音,这种分 辨能力是人体内部语音理解机理具有的一种感知能力,称为“鸡尾酒会效应”。 但当多个语音信号叠加在一起时,在单通信道传输时,双耳信号因合并而消 失。区别有用信号和干扰信号的基本方法是利用它们的基音差别。考虑到一 般情况下两种语音的基音不同,不成整倍关系,这样可以用梳状滤波器提取 基音和各次谐波,再恢复出有用语音信号。 9 哈尔滨t 程火学硕十学位论文 ( 5 ) 传输噪声 传输噪声是传输系统的电路噪声。与背景噪声不同,它在时域罩是语音 和噪声的卷积,处理这种噪声可以采用同态处理的方法,把非加性噪声变换 为加性噪声来处理。 2 1 3 人耳语音感知的特性 语音增强效果的最终量度是人的主观感受,了解人耳的机理将大大有助 于语音增强技术的发展。 人耳语音感知问题相当复杂,涉及到生理学、心理学、声学和语音学等 到诸多领域,有待于进一步研究。人耳语音感知特性可以简单归纳于下: ( 1 ) 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分 量的相位则不敏感。 ( 2 ) 人耳对频谱分量的强度的感受是频率与能谱的二元函数,响度与频谱 幅度的对数成_ i f 比。 ( 3 ) 人耳对频率高低的感受近似与该频率的对数值成正比。 ( 4 ) 人耳有掩蔽效应,即强信号对弱信号有掩蔽的抑制作用。掩蔽的程度 是声音强度与频率的二元函数,对频率临近分量的掩蔽要比频差大的分量有 效得多。 ( 5 ) 短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一 共振峰更为重要,冈此对语音信号进行一定程度的高通滤波不会对可懂度造 成影响。 ( 6 ) 人耳在两人以上的讲话中有能力分辩出需要聆听的声音。 1 0 哈尔滨: 挥人学硕十学位论文 2 2 语音增强的基本方法 2 2 1 基于谱减法的语音增强 1 9 7 9 年,s f b o l l 提出谱减法,为语音增强提供了一种强有力的方法【5 】。 谱减法从带噪语音的s t s a ( 带噪语音能量谱) 中直接减去噪声的平均幅度 ( 噪声能量谱) 来得到增强语音的s t s a ( 图2 1 ) ,实现起来简单,其最大的 的优点是只要对噪声谱进行估计,不需要对语音信号作其他的假设,缺点是 会生不舒服的“音乐噪声”。谱减法的发展十分迅速,是一种比较成熟的技术, 其改进方法,比如分频段谱减法、多窗平均谱减法、非固定帧长谱减法等, 可以进一步克服语音失真,降低“音乐噪声”,但也增加了计算量i l7 - 2 3 1 0 增 图2 1 谱减法的基本原理 2 2 2 基于维纳滤波的语音增强 维纳滤波是对应着时域上的最小均方误差准则估计,即选取s ( n ) 的估计 i i 直s ( n ) ,使均方误差占= e s ( ,z ) 一;( 船) 2 ) 最小。即要设计一个数字滤波器 h ( n ) ,当输入y ( n ) 时,滤波器的输出是 ;( ,z ) = 少( 门) 木办( ,z ) = y ( n 一七) 办( 七) ( 2 1 ) = 满足使g = e p ( 刀) 一;( ,2 ) 】2 最小。根据正交性原理,最佳h ( n ) 必须满足对 所有的m 有下式成立: e 【s ( 玎) 一;( 厅) 】j ,( 一,行) = o( 孑- 2 ) 哈尔溟r 丁程大学硕十学位论文 将( 2 1 ) 式代到( 2 2 ) 式,并对式子两边取傅立叶变换,得 踯) = 篇( 2 - 3 )踯) 。蒜 式中,s ,( 露) 为y ( n ) 的功率谱密度,& ( 后) 为s ( n ) 与y ( n ) 的互功率谱密度。 由于s ( n ) 与d ( n ) 不相关,即如( m ) = 0 ,即可得 瓯( 尼) = 鼠( 尼)( 2 4 ) s ,( 后) = s ( 尼) + s d ( 七) ( 2 5 ) 这样,式( 2 3 ) 变为 聊) = 揣 ( 2 6 ) 式( 2 6 ) 即维纳滤波器【4 1 。 由于在最开始的时候语音信号是不可获得的,需要使用迭代的方法反复改善 ( 同上) 。这罩就直接用带噪语音作为语音信号的估计,设计滤波噪。经过一 次维纳滤波器滤波以后的语音信号从理论上来说应该是更加纯净的,输出的 语音应该更接近语音信号,用其再作为语音信号的估计,再来滤波。重复上 述过程就是对语音信号的滤波过程。这样的系统框图见图2 2 。 图2 2 全极点模型的迭代维纳滤波法框图 如果在频率采样点上对信号进行处理,可得如下估计器 s ( k ) = h ( 尼) y ( k )( 2 - 7 ) 其中 哈尔滨t 程大学硕士学位论文 删= 面再s s ( k 丽) ( 2 - 8 ) 式中s ( 七) 和s d ( 后) 分别为第k 个频率点上的信号和噪声功率谱,s ( k ) 为 第k 个频率点上语音频谱的估计值,y ( k ) 为带噪语音在相应频率点的频谱值。 实际上语音是短时平稳的,而且语音功率谱也无法得到,因此式( 2 8 ) 可 以改写为: h ( 后) :一到墅幽 ( 2 - 9 ) 一硎s ( 七) 1 2 1 + s d ( j | ) 、7 采用维纳滤波最大的好处是增强后的残留噪声类似于白色噪声,而不是 有节奏起伏的音乐噪声。但是维纳滤波只是在平稳条件下才能保证在最小均 方误差意义下的最优估计。而语音是非平稳的,旨在短时间内近似平稳,实 际环境中的噪声也是非平稳的。这是维纳滤波的缺陷所在。 2 2 3 基于小波变换的语音增强 小波变换具有多分辨分析特性,它可以将信号分解成一系列相邻子带上 的信号,在高频子带中可以获得信号快速变化的细节信号;在低频子带可以 跟踪信号的时变趋势【2 4 1 。小波变换在时域和频域都具有表征信号局部特征的 能力,在信号的高频部分,可以取得较好的时间分辨率;在信号的低频部分 可以取得较好的频率分辨率。对于语音信号来说,在高频部分需要较好的时 间分辨率来检测信号快速变化的瞬态部分,而在低频部分则需要较高的频率 分辨率来精确跟踪缓慢时变的共振峰。因此小波变换能够很好地满足语音信 号处理的要求。 小波分解的实质是把信号在不同的频段分解。小波阈值估计语音增强算 法是s t a n f o r d 大学d d o n o h 和l j o h n s t o n e 于19 9 5 年提出的f 2 5 】,主要对通过 选择适当的小波分解尺度,在相应的频段内,信号的能量将大于噪声的能量, 用合适的阈值来处理小波系数,认为小于此阈值的小波系数主要由噪声控制, 把其去掉,用剩下的小波系数重建信号,在不同的尺度下用不同的阈值处理 小波系数,这样就可以实现信噪比的提高。 常用的阈值函数有软阈值函数和硬阈值函数,表达式如下: 哈尔滨t 挥人雩:硕十掌何论文 硬阈值法: 珊刃= 镒i i 焉 ( 2 - l o ) 软阈值法: t h r s = d 引。y 宝; 亿 其中t 为阈值,其计算也有多种方案,如果假设噪声为高斯白噪声的话, 一般取t = o 4 2 1 0 9 ( n ) ,仃= m a d o 6 7 4 5 ,m a d 为第一层小波系数中值的 绝对值。 硬阈值法主要保留信号的低频成分,衰减了大部分高频成分,使得主要 表现为高频信号的噪声部分能被有效去除,但语音中的大量高频部分( 如清音) 也被去掉,产生失真。 软阈值方法有:( 1 ) 采用s t e i n 的无偏似然估计原理( s u r e ) 进行阂值选择; ( 2 ) 用极大极小原理( m i n i m a x i ) 选择阈值;( 3 ) 启发式阈值选择:( 4 ) 固定闽值形 式。在这4 种方法中,前两种阈值选取规则比较保守( 它只将部分系数置0 ) , 当信号的高频信息有一部分在噪声范围内时,采用这两种阈值,可以将弱小 信号提取出来;后两种阈值在去除噪声时,显得更为有效,但有可能把有用 的高频特征当作噪声去除【2 6 1 。 小波去噪的方法有很多种,其基本思路可以如图2 3 所示。归结起来说 肯模极大值检测法、阈值去噪法和屏蔽去噪法等,其中最常用的就是上述的 阈值去噪法。 图2 3 小波变换去噪框图 小波变换可以很好的和其它增强算法结合一起。小波变换可以结合人耳 感知性质2 7 - 2 9 1 ,小波利用t e a g e r 能量算子,不但能去除噪声,还能增强信号 3 0 1 ,在小波变换前先进行清浊音判别,对不同信号采取不同的阈值处理【3 , 在信号进过小波变换后,再作维纳滤波处理,均取得了不错的增强效果【3 2 - 3 3 1 。 小波的良好性质,使得基于小波变换的语音增强方法成为国内外研究的 1 4 哈尔滨工程人学硕士学位论文 一个热点。但小波变换也有三个明显的缺点,这几个缺点限制了小波的应用: 首先,小波变换从本质上看,是一种窗口可调的傅立叶变换,因此它就不能 摆脱测不准原理的限制,不可能同时获得任意高的时频分辨率,已经证明, 高斯小波的时频窗是最小的;其次,小波基的选择是凭经验选择的,一旦选 择,在整个信号分析过程中就只能使用这一个小波基,那么这种基的性质就 完全决定了分析的效果,不能根据信号的变化而调整小波基,其自适应性有 限;还有由于小波去噪时,需要选择和确定一个取舍信号和噪声模极大值的 阈值,而在实际应用中该阈值是较难选择的。 2 2 4 其它语音增强方法 为了更好地描述信号的非平稳性,可以采用基于状态空间的变换方法【3 训, 对不同类别的语音和噪声建立不同的模型。目前有两种转换方法,一种是构 造分类器,利用分类器对当前信号进行最佳逼近;另一种就是隐马尔科夫模 犁( h m m ) 。h m m 的各个状态可以对语音、噪声信号所不同的区域进行充分 建模,另外,由于要准确地将噪声估计出来,必须保证在只有噪声的情况下 h m m 也可以f 确进行分类。此时,利用h m m 可以对状态转移概率进行建 模,将可能为噪声的信号部分滤除就可以做到语音增强了。 卡亨南络维变换( k l t ) 1 4 - 1 6 j 用于语音增强,这种算法是把带噪语音沿 着经过k l t 变换的纯净语音向量空问进行分解,得到特征向量,修j 下每一个 向量使得剩余噪声功率被限制在一特定值,然后经k l t 反变换合成输出增强 的语音信号。同样,阈值的选择是这类方法的关键,也是不断研究改进的重 要内容。 离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ) 1 5 - 1 6 1 的语音消噪方法与小波 变换类似,通过对噪声信号进行离散余弦变换后用阈值函数处理,再进行离 散余弦反变换就可以得到增强的语音信号。同样,阈值的选择是这类方法的 关键,也是不断研究改进的重要内容。 语音增强方法可以看作是从语音中区分出背景噪声的一种说话人区分 方法。所以可以利用人工神经网络( 例如反向传播b p 网络) 1 9 - 1 0 】,用纯净语 音信号作为网络训练信号形成一个语音数据库,带噪语音时间样值与纯净语 音时间样值相比较并计算误差,然后基于误差最小准则利用b p 算法调整网 哈尔滨工程大学硕士学位论文 i i 一 i ;i i ;i ;i i 宣i j ;i ;i ;声 络权值,从而就可以提取增强的语音信号。这种方法最适合语音识别领域。 2 3 本章小结 本章主要对语音增强技术进行了阐述。语音增强研究的基础是对语音和 噪声特性的了解和分析。先对语音、噪声的主要特性以及人耳对语音感知的 特性进行了叙述。接下来对常用的各种语音增强算法如谱减法,维纳滤波法, 小波变换方法做了原理性的介绍。 而且由于噪声来源众多,随着应用场合而异,特性各不相同,增加了语 音增强的复杂性。而且语音增强涉及到很多方面的问题。实现一个通用的解 决所有噪声的算法是不现实的。研究各种语音增强技术是很必要的。而且可 以吸收其它领域的思想来拓宽语音增强的研究思路。 哈尔滨丁程大学硕十学位论文 第3 章基于m m s e l s a 的语音增强方法 3 1m m s e l s a 语音增强基本原理 e p h r a i m 和m a l a h 提出了m m s e l s a ( 最小均方误差对数谱幅度) 估计, 此方法通过假定原始纯净语音信号和噪声的傅立叶展开系数可以被模型为独 立,零均值的高斯信号来最小化均方误差对数谱幅度【1 2 】。 含噪语音信号y ( n ) - - x ( n ) + d ( n ) ,其中x ( n ) 是纯净语音信号,假设其与噪 声d ( n ) 是相互独立的。k = re x p j o k 】,五= 4e x p j a k 】,其中k 表示通过 计算重叠窗的f f t 后的频率分辨单元( f r e q u e n c yb i ni n d e x ) 。语音增强的任 务是从y ( n ) 估计出x ( n ) ,也就是从 y o ,i ,) 估计出五。在文 7 0 0 ,e p h r a i m 和m a l a h 得出语音信号相位的最优估计就是含噪语音相位本身。估值问题可 以简化为估计4 ,即求式( 3 1 ) 为最小: a = e ( 1 n 4 一i n a k ) 2 )( 3 一1 ) 其中彳t 是4 的估计值,a k 可以写成: a k = e x p e 1 n 4l y ( ,) 】) ,0 ,t( 3 2 ) 式( 3 - 2 ) 可以写成 a k = e x p e 1 n 4i 匕】) ( 3 - 3 ) 基于高斯模型的假设,式( 3 3 ) 中e i na klk 】即是由k 推导l i l4 。设 乙= i n4 ,则有 乙( ) = e e x p c u z k ) lk = e 群fk ) ( 3 - 4 ) 稚她 1 n 4 = 丢渺) k 。 ( 3 - 5 ) 利用式( 3 4 ) 计算乙阢 ) ,并由此得到e l n 4l 砭) ,由于 一 哈尔滨丁程火学硕十学位论文 吒陬”以掣i 圪 2 丽fj o 瓦a , p ( a 而k t r k ) p 而( y * la蕊katk)daflzk ( 3 - 6 ) 此处基于高斯模型假设,p ( ) 概率密度函数, 肥咖丽1e x p 一止铲) ( 3 7 ) 烈a k ) 2 赢唧 一蔫) ( 3 - 8 ) 乃( 七) :a 以i 么l z ) ;以( 后) 兰e l 五i :) 分别为语音和噪声的第k 个频谱分量的 方差,把式( 3 7 ) 和式( 3 - 8 ) 代入式( 3 - 6 ) ,应用零阶修正贝赛尔函数厶( ) ,得 渺) :毕垫擘型堕堡丝 ( 3 - 9 ) kn k e x p ( 一a i & ) i o ( 2 a k 0 u k k 、) d a k 五满足下式的关系: 石2 丽+ 丽( 3 - 1 0 ) 以五( 后) 乃( 七) 7 的定y 女n - l r : 屹三禹眦兰器;以三焉 ( 3 - 1 1 ) 这里磊是先验s n r ,儿是后验s n r ,计算式( 3 9 ) 的积分可得: o 乙i 圪( ) = 硝7 2 r ( 2 + 1 ) f ( 一2 ;1 ;一)( 3 1 2 ) 1 1 ( ) 是伽码函数,f ( a ;c ;x ) 为合流超几何函数。 c ;加艺,。( l a 叫) ,rx 厂r :。 ( 3 1 3 ) 这里( 口) ,三1 口( 口+ 1 ) ( 口+ ,一1 ) ,( 日) 。三1 。式( 3 1 2 ) 中出现的,( 叫2 ;1 ;一) 在 i l q ) ,8 ( k ) 是依赖于频率的阈值: 础,= ;:茎罢勰忉 p 3 4 , 其中f s 是取样频率。 通过公式( 3 - 3 1 ) 和公式( 3 3 3 ) ,我们可以看出噪声语音功率一增加噪声估 计值就增加的问题可以避免。 3 4 实验结果及分析 3 4 1 纯净语音受噪声数据库噪声的污染 在实验中,因为语音处理时一般认为噪声长度在l o o m s 时是平稳的,而 语音长度在2 0 3 0 m s 时为平稳的,本文中取帧长为2 5 m s ,数据窗为海宁窗。 纯净语音样本l 为英语发音“a b b r e v i a t i o n ”,采样率为11 0 2 5 h z ,样本2 选取 的是长约4 秒的中文女声发音,采样率为1 6 0 0 0 h z 。在完成噪声估计时,我 们采用如下参数: r = o 7 ,盯= 1 3 ,s = 0 8 ,a = 0 9 5 ,a 2 = l 。噪声分别为 白噪声,工厂噪声,v o l v o 噪声等。 一、白噪声 对于受白噪声的污染,表3 1 给出了样本2 在各种信噪比下s n r 的提高 情况,并与e p h r a i m 和m a l a h 提出的m m s e 算法进行比较,此处用e m 来 表示,从表3 1 我们可以看出,本文的方法有较大的改进,在低信噪比下, 去噪效果更加显著。 s n r 的计算如下,其中x ( n ) 为纯净语音,x 。( ,? ) 为去噪后的语音: 哈尔滨工程大学硕士学位论文 - 1 x ( ”) 2 s n r = 1 0 1 0 9 1 0 而。一 ( 3 3 5 ) ( x ( ”) 一x 1 ( ”) ) 2 ;0 表3 i 白噪声下信噪比改善比较 输入信噪比 输出信噪【= t ( d b ) ( d b )e m本文算法 一1 0 50 332 7 - 5 00 352 7 0 34 l7 2 5 56 3 7 8 1 0 图3 1 ,图3 2 中项图为纯净语音波形,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 岚山保安考试题及答案
- 课件显示不全的原因
- 四川省广元市川师大万达中学2025-2026学年高二上学期第一次月考(8月)物理试题
- 酒店工程考试题及答案
- 后勤管理员三级安全教育(班组级)考核试卷及答案
- 精准扶贫考试题及答案
- 进阶物理考试题及答案
- 铸管精整操作工技能巩固考核试卷及答案
- 幻灯机与投影机维修工应急处置考核试卷及答案
- 清罐操作工晋升考核试卷及答案
- 第一单元-第2课-《国色之韵》课件人教版初中美术八年级上册
- 地坪承包合同范本3篇
- 中学校长在2025年秋季学期开学典礼上致辞:六个“成长关键词”耕耘当下遇见未来
- (2025年标准)猪场租赁协议书
- 交通规划中智能交通信号控制技术应用2025年研究报告
- 公共空间设计培训课件
- 2025年公安部交管局三力测试题库及答案
- 2025年邮政集团招聘考试复习资料与预测题
- 2025年第十届全国中小学“学宪法、讲宪法”知识竞赛题库及答案
- 地下管网管道施工现场管理方案
- 2025年秋期部编版四年级上册小学语文教学计划+教学进度表
评论
0/150
提交评论