(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf_第1页
(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf_第2页
(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf_第3页
(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf_第4页
(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(通信与信息系统专业论文)基于卡尔曼滤波的语音增强算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于卡尔曼滤波的语音增强算法研究 摘要 语音信号是人类语音与声学结合的产物,是传递信息的手段和工具, 在日常生活中具有举足轻重的作用。然而,在实际中语音信号经常会受到 环境中各种噪声的干扰,导致语音信号质量的下降,甚至引起信息的丢失。 因此,如何消除噪声,提高语音质量成为语音信号处理的关键。而语音增 强技术是语音信号处理的一个重要的分支。 本文以卡尔曼滤波语音增强为基础,分别研究了时域、短时频域、子 空间域下的卡尔曼滤波语音增强算法。本文的主要工作和创新点如下: ( 1 ) 首先介绍几种较成熟的经典语音增强算法,对其优缺点进行对比 分析,重点研究了基于卡尔曼滤波的语音增强算法,并进行实验仿真,结 果表明,与其他的增强算法相比,卡尔曼滤波提高了语音的s n r ( s i g n a l n o i s er a t i o ) 军1 p e s q 值( p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y ) 。 ( 2 ) 传统时域内卡尔曼滤波算法未充分利用语音频域特性,导致增强 语音仍有较多的残留噪声,针对该不足提出新思路,将传统的卡尔曼滤波 算法引入到短时频域内,利用基于对数谱最小均方误差估计法对带噪语音 幅度进行初步修正,达到了更好的去噪效果。 ( 3 ) 针对时域内卡尔曼滤波算法未利用噪声信息计算线性预测系数存 在较大误差导致递推估计误差积累的缺陷,利用子空间分解理论,对带噪 语音的特征值进行卡尔曼滤波,本文首先在k l 域内提取带噪语音和噪声特 征值,对语音信号进行预处理,从而得到较为纯净的特征值,再对该值进 行卡尔曼滤波,实验结果表明改进的卡尔曼算法能够有效的滤除噪声,得 到更为纯净的语音信号。 太原理工大学硕上研究生学位论文 ( 4 ) 算法移植。用c + + 编写卡尔曼滤波语音增强算法并在v c + + 6 0 环境下仿真实现该算法,然后以o m a p 5 9 1 2 为硬件平台,以l i n u x 为操作 系统,对卡尔曼滤波算法进行移植,然后将得到数据通过软件转换成去噪 后的语音并进行试听,实验结果表明,试听效果较为理想,验证了卡尔曼 滤波算法的易操作性和可实现性。 关键词:语音增强,卡尔曼滤波,短时傅里叶变换,k l 变换,o m a p 5 9 1 2 太原理工大学硕士研究生学位论文 t h er e s e a r c h0 f s p e e c he n h a n c e m e n t a l g o r i t h mb as e d0 nk a l l a nf i i j e r a b s t r a c t s p e e c hs i g n a li st h ec o m b i n a t i o no fh u m a nl a n g u a g ea n da c o u s t i c i t i sa c o m m o n l yu s e dt o o l a n de n g a g e di n t r a n s f e r i n gi n f o r m a t i o n ,p l a y i n g a n i m p o r t a n tr o l ei nd a i l yl i f e h o w e v e r ,s p e e c hs i g n a li so f t e np o l l u t e db y v a r a i t i e s o fn o i s e si nt h ea c t u a le n v i r o n m e n t ,l e a d i n gt oad r o pi nt h eq u a l i t yo fs p e e c h s i g n a la n de v e nt h el o s so fi n f o r m a t i o n t h e r e f o r e ,h o wt oe l i m i n a t et h en o i s e a n di m p r o v et h eq u a l i t yi st h ek e yt ot h es p e e c hs i g n a lp r o s e s s i n g ,a m o n gw h i c h s p e e c he n h a n c e m e n ti sa ni m p o r t a n t b r a n c h o nt h eb a s i so fk a l m a nf i l t e r i n gs p e e c he n h a n c e m e n t ,t h ep a p e rm a d ea r e s e a r c ha b o u ts p e e c he n h a n c e m e n ta l g o r i t h mi nd i f f e r e n td o m a i n s ,i n c l u d i n g t i m ed o m a i n ,s h o r tt i m ef r e q u e n c yd o m a i na n dk ld o m a i n t h er e s u l t ss h o w t h a te a c ha p p r o a c ha c h i e v e sb e t t e rr e s u l t s t h em a i nc o n t e n t sa n di n n o v a t i o n s a r ed e s c r i b e da sf o l l o w s : ( 1 ) f i r s t l y ,s o m ec l a s s i c a ls p e e c he n h a n c e m e n tm e t h o d sa r ei n t r o d u c e da n dw e m a k ea na n a l y s i sa b o u tt h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s w ef o r c u so n r e s e a r c h i n gk a l m a nf i l t e r i n gs p e e c he n h a n c e m e n tm e t h o d sa n ds i m u l a t et h e e x p e r i m e n t e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ek a l m a nf i l t e r i n gm e t h o d i n c r e a s e st h es n r ( s i g n a ln o i s er a t i o ) a n dp e s q ( p e r c e p t u a le v a l u a t i o no f s p e e c hq u a l i t y ) v a l u e so f t h ee n h a n c e ds p e e c h ( 2 ) s e c o n d l y ,t h et r o d i t i o n a lk a l m a nf i l t e r i n gm e t h o di nt h et i m ed o m a i nd o e s n o tm a k ef u l lu s eo ft h ef r e q u e n c yc h a r a c t e r i s t i c so fs p e e c ha n dt h i sl e a d st o 太原理工大学硕士研究生学位论文 t h e r ei ss t i l lal o to fr e s i d u a ln o i s e s w ep r o p o s ean e wm e t h o dw h i c h t r a n s f e r st h et r o d i t i o n a lk a l m a nm e t h o di n t os h o r tt i m ef r e q u e n c yd o m a i n a n da p p l yt h el o g m m s em e t h o d st om o d i f yt h em a g n i t u d eo ft h e c u r r u p t e ds p e e c ht oa c h i e v eb e t t e rr e s u l t s ( 3 ) t h i r d l y ,o w i n gt ot h et r a d i t i o n a lk a l m a nf i l t e r i n gm e t h o di nt h et i m ed o m a i n d o e sn o tm a k eu s eo ft h en o i s ei n f i r m a t i o nt oe v a l u a t el p cc o e f f i c i e n t s w h i c hl e a d st ot h ee r r o ra c c o m u l a t i o n ,w ep r o p o s ean e wm e t h o da p p l y i n g s u b s p a c ed e v i s i o nt h e o r yt om o d i f y t h ee i g e n v a l u e so ft h en o i s ys p e e c h t h e p a p e rf i r s t l ye v a l u a t et h ee i g e n v a l u e so ft h en o i s ys p e e c ha n dn o i s et og e t m o r ec l e a ns p e e c he i g e nv a l u e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e p r o p o s e da l g o r i t h mc a ng e tm o r ep u r ec l e a ns p e e c hs i g n a l ( 4 ) a l g o r i t h mt r a n s p l a n t a t i o n w ef i r s ta p p l yc + + t oc o m p l e t et h ea l g o r i t h mo f k a l m a nf i l t e ra n ds i m u l a t ei nt h ee n v i r o n m e n to fv c + + 6 0 t h e nw e t r a n s p l a n t et h ea l g o r i t h mo n t ot h eo m a p 5 9 12w h o s eo p e r a t i o ns y s t e mi s l i n u xt oc o m p l e t et h ei m p l e m e n t a t i o no fk a l m a nf i l t e ra l g o r i t h m l a s tw e u s eas o f t w a r et ot r a n s f e rt h ed a t at o g e n e r a t e t h es p e e c ha n dm a k ea s u b j e c t i v eh e a r i n g t e s t t h er e s u l t s p r o v e t h e o p e r a t i o n a n dt h e i m p l e m e n t a t i o no f t h ea l g o r i t h m k e y w o r d s :s p e e c he n h a n c e m e n t ,k a l m a nf i l t e r ,s h o r t t i m ef o u r i e rt r a n s f o r m , k lt r a n s f o r r n ,o m a p 5 912 太原理工大学硕士研究生学位论文 1 1 研究背景与意义 第一章绪论 语音是人与人之间进行交流的重要工具之一,是一种有效、方便、自然的交流手段, 对人类社会的进步起到至关重要的作用。由于语音信号具有信息量大、高智能的特点, 使其在办公、商业、交通、金融等众多领域都有广阔的应用前景。人们迫切的需要利用 语音信号进行人机交互,从而实现更为便捷的生活、工作方式。语音信号处理技术不断 的融入到人们日常生活中并不断地发展。然而,在实际的生活中,语音信号不可避免的 都要受到外界环境的干扰,例如机械噪声、传输过程中电器线路产生的干扰噪声、通信 所用设备内部的噪声、他人说话的声音等,使得语音信号质量下降,严重的影响了语音 信号的传输和应用。因此,如何有效的减少噪声的干扰是在实际的环境下应用语音信号 的关键。噪声的消减对语音信号的实用化是十分必要的。 语音增强能够有效的解决噪声污染问题,提高语音系统的识别率与抗噪能力。所谓 语音增强处理指的是,从被噪声污染的语音中最大限度地提取出较为接近未被污染的原 始语音信号,从而达到消除噪声提高语音信号质量的目的。因此,在一些远距离的通信 中,经常需要对带噪的语音信号进行增强处理,从而消除一些背景噪声、提高语音的质 量,使听者能够易于接受语音,具有较好的舒适度。 语音增强的应用领域十分广泛,例如,在飞机、火车、轮船等交通工具上,由于飞 机螺旋桨,火车轨道的碰撞以及轮船的发动机等强噪声的干扰,影响驾驶人员与指挥人 员的语音通讯质量,为了确保语音信号正确的传达需要对其进行语音增强;增强语音可 以提高侦听信号的质量,有助于获取情报、侦破案件,有助于提高国家和社会的安全与 稳定,在一些比较嘈杂的公共场所内使用公共电话,会被外界的干扰严重影响语音质量, 因此需对其进行语音增强从而达到较好的通信质量。 1 2 语音增强国内外发展概况 从2 0 世纪初开始,如何消除噪声的污染就已经受到人们广泛的关注。由于当时的 环境与技术的限制,语音增强主要围绕着语音可懂度进行研究。在第二次世界大战中各 国大规模的使用飞机、坦克等武器装备,然而战时通信受到较强的噪声影响,例如装备 太原理工大学硕士研究生学位论文 的机械噪声、战地的环境噪声和传输过程的干扰噪声等。因此,如何提高语音信号的可 懂度引起人们广泛的重视并获得了一定成果。美国哈佛心理学声学实验室围绕着影响可 懂度的因素进行了众多的实验【l 】【2 】,研究证明语音信号的峰值限幅对语音的可懂度影响 较小,因此在传输语音信号时可以选用变化较小的电信号,尽管会造成语音信号一定程 度的失真,但基本上语言信号传递的信息仍可被获取。美国的一些学者针对各种波形对 语音的掩蔽效应进行了一系列的研究,证明了不规则的脉冲比正弦波、方波等语音信号 的掩蔽效应更加明显i j j 。在这个时期,众多语音可懂度的研究成果中较为重要的是提出 了计算可懂度清晰指数的方法,其方法不需要进行清晰度实验仅依靠语音和噪声的长期 平均强度即可1 4 j 。到2 0 世纪中期,学者围绕着语音声学、建筑声学等领域进行了大量的 研究,取得了许多研究成果。1 9 6 7 年,实验发现”】若控制信号为3 5 0 h z 8 0 0 h z 滤波后 的语音信号,与控制信号中强能量段相对应的原始语音信号被保留,其它部分替换为白 噪声,这时,若白噪声的幅度从零增加至某一阈值时,原始语音的可懂度几乎能够恢复 如初。这些具有启发性的实验与结论使得语音增强理论快速的发展。 2 0 世纪6 0 年代开始,语音增强的研究从语音可懂度方面转向语音信号处理方面。 到了2 0 世纪7 0 年代,随着信号理论的发展语音增强技术也不断的成熟,取得了重大的 成果,形成了一个高潮。1 9 4 9 年维纳提出了维纳滤波理论,该方法适用于处理平稳语音 信号【6 】。在此基础上,1 9 7 8 年l i m 和o p p e n h e i m 将维纳滤波应用于语音增强领域【,j 中, 获得了很好的滤波效果。1 9 7 9 年,b o l l 提出了谱减法用来抑制噪声提高语音质量哺j ,引 起了语音增强理论的快速发展。由于语音信号浊音的周期性,学者们利用梳状滤波器增 强周期语音而抑制非周期噪声【9 】。然而,受到当时计算水平和算法计算量的影响,导致 这些算法在实际运用受到很大限制。进入8 0 年代后,借助计算机强大的计算能力新的 算法不断的涌现,使得语音增强理论迅猛发展。m a u l a y 和m a l p s s 利用软判决的方法抑 制噪声【10 1 ,改善语音信号的质量。e p h a i m 等人提出了短时谱幅度的最小均方差估计的 方法用来减少语音信号的噪声i l 。9 0 年代初,统计方法被引入到语音增强的研究中, 最典型的是基于隐马尔科夫模型框架下的语音增强算法【1 引。同时,移动通信的飞速发展 也为语音增强技术提供了助力,在语音增强中使用小波变换、神经网络等理论获得良好 的效果【1 3 】【1 4 】 15 】【1 6 】。子空间方法和人耳听觉掩蔽效应等方法也相继的出现 1 7 【1 8 。这些算 法无法完全解决语音信号的噪声问题,即使在实验仿真下,也无法找到一种适用于所有 噪声环境下的语音增强算法。在实际的应用中,需要针对不同的环境噪声与应用场合, 通过互补将不同的增强算法结合使用从而获得更好的增强效果。 2 太原理工大学硕士研究生学位论文 1 3 语音质量的评估方法 在通信、识别、存储等多方面语音增强技术能够帮助人们有效且准确地传递信息, 获取的信息质量直接取决于系统性能的好坏。因此,一套准确、可靠的语音质量评价标 准是语音增强算法得以实施的重要保障。语音质量主要包括多个方面内容【1 9 】,一是指对 讲话人的辨识水平,即理解度;二则是指衡量语音中音节以上的语音单元如字、词、句 等的可懂程度,即可懂度;三是指衡量语音中音节以下的语音单元如声母、韵母等的清 晰程度,即清晰度。语音质量评估是一个极为复杂的课题,它与众多学科都有着密切的 联系,例如,语音学、语言学、心理学、生理学等。多年来,通过许多学者不断地研究, 提出了多种语音质量评价的标准与方法,总体来说可以分为两类:主观评价和客观评价。 1 3 1 语音质量的主观评价 主观评价【2 0 3 是指以人为主体来评价语音的质量,它是通过一组评测人员根据某种事 先约定的尺度,在对原始语音以及失真语音进行对比测听的基础上,对待评测语音进行 质量等级的划分,它充分的反映了评测人员对语音信号质量好坏程度的一种较为直观的 主观印象。目前这些方法得到了广泛的应用,国内外常用的主观评价方法【2 1 】有:平均意 见分( m e a no p i n i o ns c o r e s ,m o s ) 方法、失真平均意见分( d e g r a d a t i o nm e a no p i n i o n s c o r e ,d m o s ) 方法、韵母可懂度测量( d i a g n o s t i cr h y m et e s t s ,d r t ) 方法、汉语清晰度测 试方法和满意度测量( d i a g n o s t i ca c e p t a b l i t i t ym e a s u r e ,d a m ) 方法等。 1 、m o s 法 在实际的语音信号系统中,平均意见分是最为常见的评价方法。它普遍的应用于语 音编码、语音增强、语音识别系统中。该方法主要是通过组织若干评测人员,在相同的 测试环境下,评听所测试的语音材料,根据判分标准选取其中某一级作为语音质量好坏 的评分,求出所有评测人员的平均值作为被测语音的质量评价。由于该方法存在许多主 观及客观的因素,每次被测语音的质量评价波动都很大。为了m o s 法的准确性,要尽 可能的满足:评测环境尽可能的相同,评测人员人数要足够多,被测语音的材料要尽可 能的丰富。m o s 法的评分标准如表1 1 所示。 m o s 法的评分标准共分为五个等级:优( 5 分) 表示被测语音与原始语音的差异较 细微,如果不进行对比无法辨识出该差异;良( 4 分) 表示被测语音存在失真或者畸变 但十分不明显,如不仔细则意识不到该失真或畸变;中( 3 分) 表示被测语音存在较为 明显的失真或畸变,但是语音信号的清晰度依旧很好,有较高可懂度与理解度;差( 2 太原理工大学硕士研究生学位论文 分) 表示被测语音存在较为强烈的失真或畸变,让人产生听觉疲劳;坏( 1 分) 表示被 测语音的失真或畸变严重,语音质量极差,让人无法忍受。 表1 - 1m o s 评分标准 m o s 判分质量级别失真程度 5 优不察觉 4 良刚有察觉 3 由 有察觉且稍感厌恶 2 差明显察觉厌恶且可忍受 1 坏不可忍受 一般来说,若被测语音的m o s 在3 o 以下表示该语音为合成语音质量,仅达到一些 声码器合成语音的质量水平,虽具有足够的可懂度,其自然度与理解度等方面均较差, 若m o s 在3 5 左右表示该语言达到通信质量,尽管语音质量下降,但满足语音系统的 质量要求不影响正常的通话质量,若m o s 在4 0 4 5 表示该语音为高质量数字化语音, 能够达到长途电话网或网络的质量要求。 2 、判断韵字测试 d r t 得分反映语音信号的可懂程度与清晰程度,该测试方法对语音信号中具有相同 韵母的若干对样本字进行测试,在测试样本对时,测听人员需根据测试发音的不同特性, 分辨出哪一个字是所测听到的,计算全部测听人员的正确率即为d r t 得分,该得分的 计算公式如下: 伽丁:监争鳖x 10 0 ( 1 1 ) 测试字数量 、117 一般来说,d r t 在9 5 以上则认为测试语音清晰度为优,8 5 9 4 为良,7 5 一8 4 为中,6 5 一7 5 为差,6 5 以下则为不可接受。 主观评价主要是以人为主体。因此,主观评价的方法能够直观的反映出人对语音信 号的听觉感知,但其灵活性及稳定性较差,评测时需大量的测听人员进行多次的实验, 消耗较多的时间与金钱、成本高且受到测试人员主观因素的制约。 1 3 2 语音质量的客观评价 与上述的主观评价相反,客观评价是一种方便、快捷的语音质量评测方法。但是, 客观评价方法不能反映人对语音信号的全部感觉只能从量纲上反映出语音增强算法的 4 太原理工大学硕士研究生学位论文 增强效果,因此其不能取代主观评价。在本文中,主要采用基于输入输出的客观评价标 准。目前,常用的方法【2 2 】【2 3 1 有:信噪比( s n r ) 、分段信噪比( s e g m e n t a ls n r ,s e g s n r ) 、 对数谱测度( l o gl i k e l i h o o dr a t i o ) 、语音感知质量评价算法( p e r c e p t u a le v a l u a t i o no f s p e e c hq u a l i t y , p e s q ) 等。 1 、信噪比( s n r ) s n r 的计算公式如下: m j 2n ) 一1 0 1 0 9 1 。in = 0 而 ( d b )( 1 2 ) 其中,s ( 刀) 是原始的纯净语音信号,s ( ,z ) 是带噪语音信号。 在实际的语音系统中,可以分别计算出原始带噪语音与增强后的带噪语音的信噪比 并进行对比,用以评价该语音增强算法的优劣。通过上式我们可以清晰的看到,信噪比 的计算不可缺少纯净语音信号,然而在实际的应用中纯净语音并不存在。因此,这里的 语音都是已知的仿真语音信号。 由于该信噪比是一个整体的大致的信噪比,因此不能准确的反映出时变的语音信号 的语音质量。因此,还可以采用分段信噪比来评价语音信号的质量水平。 2 、分段信噪比 由于语音是短时平稳信号且噪声均匀分布,不同的时间段其信噪比也不同。先计算 语音信号每一帧的信噪比,取其均值即为分段信噪比的值,公式如下: 舾一甜1 0 m - i f 一 其中,m 为语音的帧数,l 为语音信号每一帧的帧长,m 表示语音信号每一帧的采 样点数。 3 、感知语音质量评价( p e s q ) p e s q 评价【2 4 】被选为i t u t 标准。它通过数学模型表示出语音信号的物理特征,例 如话音的频率、响度等,与人们心理的感知特性之间的相对应关系,采用频率弯折、时 频映射等方法,希望将语音信号的感知特性在数学模型上充分的呈现。在p e s q 评价中, 输入语音信号和输出语音信号之间不被人感知的差别都不会影响语音信号的质量评价。 太原理工大学硕士研究生学位论文 所以,p e s q 评价与人的主观感觉直接相关。 p e s q 评价的具体方法是:p e s q 模型是一个生理声学模型,分别对参考信号以及经 过被测系统的信号进行电平调整,再对通过输入滤波器滤波后的两路信号进行时间对 准,然后进行听觉交换,并计算听觉变换之后的两路信号的差值( 即扰动) ,通过认知 模型,提取出两个失真的参数,在时间和频率上进行叠加,最后映射到m o s 分域的预 测值。其中,听觉交换指的是计算两路信号的距离p e s q 得分,并将此分经过单调函数 映射到m o s 分域,包括了对系统中线性滤波以及增益变化的补偿与均衡。p e s q 分值 范围为一0 5 4 5 ,分值越大表明语音的质量越好,分值越小则质量越差。在实际的应用 中,若p e s q 评价的分值在2 分以下( 包含2 分) 表明语音信号的质量较差,难以接受。 下面给出了p e s q 评价流程结构图,如图1 1 所示。 重新对准坏段 图1 - 1p e s q 结构图 f i g u r el 一1p e s q s t r u c t u r ed i a g r a m p e s q 评价能够计算出十分准确的预测值,适用于g s m 、c d m a 、3 g 等目前所知 的所有移动通信技术和编码器的质量评估。 1 4 各种语音增强算法及优缺点 由于语音信号的背景噪声和应用场合各不相同,因此针对不同的语音信号和噪声特 点应采用不同的语音增强算法。语音增强算法大致可以分为以下几类: 1 、统计方法 统计方法能够充分的利用语音信号与噪声信号的统计特点,假定有限的语音处理对 象并建立模型库,通过训练过程获得初始统计参数信息,从而达到语音增强的效果。例 6 太原理工大学硕士研究生学位论文 如:最小均方误差估计【25 1 、听觉掩蔽效应【26 1 ,基于隐马尔科夫模型的语音增强算法【2 7 】 等 ( 1 ) 最小均方误差估计算法 最小均方误差估计算法是一种针对特定的语音失真和一些后验概率不甚敏感 的语音信号的增强方法。该方法利用己知的噪声功率谱,从被噪声污染语音的频谱 中估计出较为干净语音的频谱得到增强的语音信号。由于人耳对声音强度的感受与 频谱幅度成正比,因此最小均方误差估计算法被推广到频域中。该算法将会在第三 章中详细的介绍,这里就不再详述。 ( 2 ) 听觉掩蔽效应 人耳在很大的动态频率范围内都可以感知声音信号,一般在低频段内,人耳的 分辨能力高,而高频段内分辨能力低。同时,过强或者过弱的声强都会影响人耳对 声音的分辨能力。而听觉掩蔽效果正是在此基础上形成的,指的是语音信号能够遮 蔽一些与其同时产生的能量较小的噪声信号。而掩蔽效应是指一个声音a 被另一声 音b 所影响的现象,a 为被掩蔽音,b 被称为掩蔽音。其中,语音a 被感知时b 的强度称为掩蔽门限或者掩蔽阈值,在这个声压级以下的语音都将被掩蔽。 利用掩蔽效应能够在对带噪语音进行增强时,不需把噪声信号全部滤除掉,能 够存在一些不被人耳所感知的残余噪声信号,这样可以既保证噪声的有效抑制,又 可以减小不必要的语音失真。但是语音噪声掩蔽的门限值直接影响噪声抑制的效 果,而该门限值需要通过纯净的语音信号进行计算,然而实际中不存在纯净语音信 号,因此该掩蔽门限值的估计误差很大,也严重影响了语音信号的增强效果。 2 、参数方法 该方法主要依赖于语音所使用的模型,例如若采用a r 模型代表语音信号,则需要 提出语音模型的参数例如l p c 系数、基因周期等,使用迭代方法对语音信号进行增强 处理。具有代表性模型滤波器的方法有:维纳滤波器、梳状滤波器以及本文重点研究的 卡尔曼滤波器等。 ( 1 ) 梳状滤波器 梳状滤波器【2 】利用语音浊音的周期性进行梳状滤波。在频域中,保留基频及其 整数倍数的各谐波分量,抑制非谐波分量,对应的时域公式为引用: m 5 g ) = g g 一地) ( 1 4 ) k = = m 7 太原理工大学硕士研究生学位论文 其中,为基频的周期;m 为整数;g 为滤波系统,该值随基频周期的变化 而变化。此方法最重要的是找出正确的语音基音周期参数,适用于高信噪比的语音 信号增强。 ( 2 ) 维纳滤波器 2 0 世纪4 0 年代,由w i n e r e 创立了经典维纳滤波理论【6 1 ,维纳滤波是统计意义 上的一种最优线性估计滤波器。对于加噪语音信号模型y ( ,z ) = x 0 ) + v g ) ,按照最小 均方误差的准则,设计滤波器j l z g ) 估计出最优语音信号值曼g ) ,该滤波器使得均方 误差最小,即占( 玎) = e 壮( n - - x o 汗 最小。 图1 - 2 维纳滤波原理图 f i g u r el 一2p r i n c i p l ed i a g r a mo fw i e n e r 若假设语音信号x o ) 和噪声信号v o ) 不相关,且为平稳信号,则维纳滤波器可 以表示为: 州= 揣 ( 1 5 ) 其中,s x ( w ) 为语音信号x o ) 的功率谱密度,s v ( w ) 为噪声信号v ( n ) 的功率谱密 度。该滤波器的原理图如图1 2 所示: 然而,维纳滤波对平稳语音信号进行最优估计,语音是一种非平稳的时变信号, 因此,在实际中,维纳滤波具有局限性。 ( 3 ) 卡尔曼滤波器 卡尔曼滤波在非平稳条件下的最优估计,弥补了维纳滤波器的缺陷。卡尔曼滤 波是本文研究的重点,将在后文中详细介绍,这里不再详述。 3 、非参数方法: 太原理工大学硕士研究生学位论文 与上述的参数方法相反,非参数方法不需要依赖于带噪语音信号提取的模型参数。 但是该类方法不能充分利用语音信号的统计信息,因此滤波的效果并不是最优的。典型 的算法包括:谱减法【2 8 】、自适应噪声抵消澍29 1 、自适应滤波等。 ( 1 ) 谱减法 人耳对语音信号的相位不敏感,其对语音的感知主要针对语音信号频谱的幅 度。谱减法正是根据这一特性对语音信号进行增强处理。其基本的思想为:从带噪 语音信号的频谱中减去估计的噪声频谱,即相当于在频域对带噪语音进行均衡化处 理,从而得到纯净语音信号功率谱的估值,并结合带噪语音信号的相位信息,最后 对其进行傅里叶反变换从而得到增强的语音信号。其原理如图1 3 所示: 图1 3 谱减法原理图 f i g u r e1 - 3p r i n c i p l ed i a g r a mo fs p e c t r u ms u b s t r a c t 谱减法的降噪效果明显且方便。但其缺点也较为明显,在频谱相减过程中会有 一些较大功率的谱分量剩余,产生了一种具有节奏性起伏的残留噪声,即“音乐噪 声”。通过谱减法的增强语音的信噪比有了很大的提高,但“音乐噪声”较刺耳,因 此,增强语音质量并没有得到实质的改善。 ( 2 ) 自适应噪声抵消法 自适应滤波器的关键是能够在未知环境下,使得输出信号随时变的输入信号而 改变以达到最优状态。通常采用双话筒采集系统分别采集带噪语音和噪声信号,在 时域或者频域内,将带噪语音与经过自适应滤波器后的噪声相减,得到增强的语音 信号。该方法可适用于抑制平稳噪声和非平稳噪声。系统采集语音信号时,两个话 筒需要相隔一定的距离以避免语音信号混入噪声通道。实验证明,利用该滤波器可 以提高语音信号2 0 d b 左右的信噪比,其基本原理框图如图1 4 所示: 9 太原理工大学硕士研究生学位论文 图1 - 4 自适应噪声抵消法原理图 f i g u r e1 - 4p r i n c i p l ed i a g r a mo fa d a p t i v en o i s ec o n s e l 自适应滤波器通常采用l m s 滤波器,在强噪声时,该算法能够达到较好的降 噪效果。本方法的关键是需采集噪声信号作为参考信号,而噪声消减的效果取决于 采集的噪声信号是否准确。然而,在实际中要想采集到纯净的噪声是不可能的,严 重影响语音增强的效果。 4 、其他方法 由于数学方法的发展与成熟,新的数学工具不断的被引入到语音增强的研究中,如 小波变换、人工神经网络、离散余弦变换等。这些方法仍然在不断的探索研究,因此被 称为非主流方法。 小波变换是一种利用信号不同尺度的自相似性所进行的多尺度时频变换。由于声音 信号的的自相似性不明显,因此,本文未使用小波变换进行语音增强。 应用人工神经网络高速并行运算能力,使语音增强过程更为接近人类的思维活动 并实时地实现最优的语音增强结果。但神经网络模型的输出需要训练过程,因此没有考 虑神经网络的方法。 1 5 本论文结构安排 本文的核心是研究基于卡尔曼滤波的语音增强算法,从而滤除语音的噪声,提高语 音信号的质量。本文总结了语音增强算法的发展历程,介绍了卡尔曼滤波算法并将其仿 真实现,同时将算法应用到嵌入式系统中,完成算法的硬件实现。本文的组织结构如下 所示: 第一章:绪论部分主要介绍了本课题的研究背景与意义、语音增强算法的国内外发 展现状,并根据不同的划分依据,对语音增强算法进行分类,最后介绍了本论文的研究 1 0 太原理工大学硕士研究生学位论文 内容和安排 第二章:本文以语音信号处理的基本理论为基础,详细介绍语音信号和噪声的特点, 并根据语音信号短时平稳的特性,在对语言信号滤波之前进行加窗分帧处理,然后从卡 尔曼滤波问题的提出作为出发点,重点分析了基于卡尔曼滤波的语音增强算法,并通过 仿真实验,对卡尔曼滤波的增强效果进行分析。 第三章:结合短时傅里叶变换的最小均值估计算法,将时域的卡尔曼滤波算法引入 到频域内使用,提出了一种基于频域的卡尔曼滤波算法,实验仿真证明,改进的卡尔曼 滤波算法能够降低语音信号的噪声,明显的提高语音信号的信噪比,从而获得较好的语 音增强效果。 第四章:利用卡尔曼滤波算法对语音信号的特征值进行处理,将卡尔曼滤波引入到 子空间内,提出了一种基于子空间的卡尔曼滤波算法。仿真实验结果表明,改进的卡尔 曼滤波算法在语音增强邻域中的可行性。 第五章:本文在o m a p 硬件上构建一个以l i n u x 操作系统为基础的嵌入式操作平台, 并在搭建的o m a p 5 9 1 2 的嵌入式平台上实现卡尔曼滤波的语音增强算法。通过卡尔曼 滤波算法在嵌入式开发平台上的移植,完成语音增强算法的硬件实现,进一步证明了卡 尔曼滤波算法的有效性和实用化,满足实时的要求。 第六章:对本文的主要工作进行总结,指出本文的创新点和不足之处,为今后的研 究的重点提供了方向。 太原理工大学硕士研究生学位论文 1 2 太原理工大学硕士研究生学位论文 第二章卡尔曼滤波算法在语音增强领域内的应用和发展 2 1 卡尔曼滤波算法国内外发展概况 2 0 世纪6 0 年代,随着电子计算机的出现以及电子技术的快速发展,要求处理复杂 的非平稳过程,故而需要实时、快速的滤波器。匈牙利数学家r u d o l f e m i lk a l m a n 首次 提出最优化自回归数据处理算法卡尔曼滤波理论并将其应用在控制领域【3 1 1 。它是一种线 性最小方差估计,突破了维纳滤波的局限性,最初只适用于线性系统。这种方法是一种 递推式的滤波方法,通过观测数据、前一时刻的状态估计值以及系统本身按照一定的方 法计算出新的估计值。 自卡尔曼滤波提出的几十年来,众多学者采用各种方法对其进行深入的研究。1 9 8 7 年,k k p a i l w a l 首次将卡尔曼滤波应用于语音增强领域,在加性白噪声环境下利用卡尔 曼滤波对语音信号进行降噪处理【3 2 1 。1 9 8 9 年,美国科学家j d g i b s o n 等在有色噪声环 境下进行卡尔曼滤波的语音增强处理【3 3 】。1 9 9 9 年,z e n t o ng o h 等人利用了语音请浊音 模型改进了卡尔曼滤波语音增强算法【3 4 】。2 0 0 1 年,加拿大的m g a b r e a 提出了自适应的 卡尔曼滤波语音增强算法【35 1 。2 0 0 3 年,n m a 等人将人耳听觉特性的感知滤波器引入到 卡尔曼滤波语音增强中【3 6 】。近些年来,学者们提出了更多关于卡尔曼滤波语音增强算法 1 3 7 3 8 】【3 9 】【4 0 。以卡尔曼滤波技术为核心的语音增强理论已被广泛的应用于各个领域,例 如通信、航海、航天、航空、工业控制等领域。 2 2 卡尔曼滤波的基本理论 2 2 1 卡尔曼滤波器问题的提出 在实际的控制过程中,经常受到随机噪声的干扰。在此情况下,线性控制过程可表 示为: x ,= f 工+ b ,u + 彬( 2 - 1 ) 其中:一是控制过程的”为状态向量;是厂维控制向量;彬为n x l 维的均值为0 的高斯白噪声向量;f 为,z n 维矩阵,曰,为甩,维矩阵,两者均为系数矩阵。 在许多实际问题中,如飞机或者导弹的速度、位置等状态变量均无法直接得到。这 太原理工大学硕士研究生学位论文 就需要雷达等测量装备观测信号确定飞机或导弹的状态变量。然而,在观测过程中这些 状态变量经常受到随机噪声的干扰。如何从包含着噪声的观测信号中精确的计算出导弹 或飞机的状态变量正是卡尔曼滤波待解决的问题。而卡尔曼滤波的关键正是根据估计或 预测的状态变量形成最优控制规律。 一般来说,观测系统可用观测方程来表示: z ,= h ,z + 杉 ( 2 - 2 ) 其中,z ,为肌维的观测值,只为川n 观测矩阵,杉为均值为o 的白噪声。 若已知状态变量一的初始状态为x 。状态估计指的是通过x 。的统计特性,如x 。 的期望或者方差,可以从观测信号z ,中估计出状态变量x ,的最优值。而最优估计指的 是在某种准则或条件下达到最优。 若估计的准则不同,相应的估计方法也会不同。在这里采用的是线性最小方差估计, 该方法的主要思想为:若线性控制过程如公式( 2 1 ) ,观测方程如公式( 2 - 2 ) 所示,从 t = 0 时刻开始观测,获取观测值为z o ) 。若已知f 。妒t ,在该时刻内的观测值为z ) 。 通过这些特征值,获取x g ) 的最优线性估计j o ,l f ) 。其中,名o 。i f ) 表示通过f 时刻以前 的观测值z ) 估计出t 。时刻的x ( t 。) 。 通过该方法的最优估计,我们可以知道: ( 1 ) 估计值是无偏的,因此e 防( f ,i ) j = e x ( t 。) ( 2 ) 估计值j o 。| f ) 是z ) 的线性函数 ( 3 ) 若估计误差为岩( f 。 o - - x o 。) 一j o ,l f ) ,这里要求舅o ,l f ) 的方差最小,即 m i n e 防谚) 】 2 2 2 卡尔曼滤波器 卡尔曼滤波方程4 1 】【4 2 】【4 3 1 正是基于上述的理论而形成的。卡尔曼滤波是一种针对离散 线性系统状态的线性最小均方估计。一个受到外部干扰的动态系统的状态包含两个部 分:随机分量部分和由已知运动方程正确预测的部分。 设n 维状态方程和m 维的测量方程如下所示: x k = a x k l + b “ 一l + 一1 ( 2 3 ) z = h x 女+ y ( 2 4 ) 其中,t 是n 维状态变量,z 。是m 维观测变量,即输出变量,u 。是,维控制变量, 1 4 太原理工大学硕士研究生学位论文 观i 9 1 9 变量z 。和控制变量甜。均是司观i 9 1 9 到的,状态变量以都是隐藏在系统中,卡尔曼滤 波的主要任务是从系统中估计出这些隐藏的状态变量;随机信号w k 和v k 分别为过程激 励噪声和观测噪声,矩阵彳。,或。,h 。为已知的和时不变的,矩阵统。,代表控制变 量的增益,矩阵日。,。代表状态变量以对观测变量z 。的增量。 由于系统受到噪声的污染,使得观测系统的输出无法精确的估计出状态矢量。但是, 状态矢量可以在一定的统计特征下做出最优估计。 这里随机信号和k 符合相互独立,正态分布的高斯白噪声,其均值为0 ,方差分 别为瓮和配,它满足的对称协方差阵如下所示: 州龇) ) _ 恬暑 协5 , e v ( 七 ( ,) ) = 髻套三; c 2 6 , c 。v 蚓= e 蚓 黝r h 苫三 沼7 , 同时,初始状态和、u 不相关,因此,e ( ) = 。,e 【( 一。) k 一) 7 j _ 异 以 - - 为第k 步的先验状态估计,其第k 步以前状态情况是已知的,靠为根据已知的先 验数据对孔的最佳估计;毫为第k 步的后验状态估计,其观测变量z 。为已知的,毫为 在先验估计的基础上,通过观察变量z 。得到的最佳估计。则先验估计误差和后验 估计误差邑的分布如下所示: = 以一妄 ( 2 8 ) 2 以一 l z 一子j e “k = 一毫 ( 2 一一9 一) 2 x k x k 一) 则可以知道两者的协方差为: 牟:e k 叫 ( 2 1 0 ) 应:e k 色丁j ( 2 1 1 ) 由于毫的更新主要通过先验估计的概率分布,即e k :五且戽:e p 。色7 1j 。后 验估计毫反映了状态变量分布的均值,后验估计误差协方差丘反映了状态变量分布的 方差,同时,由于和y k 服从高斯正态分布。因此,在观测变量乙已知的情况下,状 太原理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论