![(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/1a2f18d4-3bb2-49dd-9c6f-57894186e077/1a2f18d4-3bb2-49dd-9c6f-57894186e0771.gif)
![(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/1a2f18d4-3bb2-49dd-9c6f-57894186e077/1a2f18d4-3bb2-49dd-9c6f-57894186e0772.gif)
![(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/1a2f18d4-3bb2-49dd-9c6f-57894186e077/1a2f18d4-3bb2-49dd-9c6f-57894186e0773.gif)
![(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/1a2f18d4-3bb2-49dd-9c6f-57894186e077/1a2f18d4-3bb2-49dd-9c6f-57894186e0774.gif)
![(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/1a2f18d4-3bb2-49dd-9c6f-57894186e077/1a2f18d4-3bb2-49dd-9c6f-57894186e0775.gif)
已阅读5页,还剩57页未读, 继续免费阅读
(电路与系统专业论文)基于卡尔曼滤波的语音增强算法研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在噪声环境下,许多语音处理系统的性能急剧下降,语音增强作为解决噪声 污染的一种有效处理技术,一直是语音信号处理领域中的研究热点。语音增强的 目的就是从带噪语音信号中尽可能提取出干净语音信号,提高信噪比,改善语音 质量。 卡尔曼滤波器是均方误差最小意义下的最优线性估计器,在非平稳条件下也 可以保证最小均方误差滤波。基于卡尔曼滤波的语音增强算法结合了语音的生成 模型,并且适合于非平稳噪声干扰。卜的语音增强。本文对基于卡尔曼滤波的语音 增强方法进行了深入研究,主要做了以下工作: 1 研究了卡尔曼滤波理论中的预测器,滤波器和平滑器。研究了其在语音增强 中的应用,实现了基于卡尔曼滤波的语音增强系统。 2 针对传统的卡尔曼滤波语音增强后语音存在较多残留噪声问题,给出了一种 基于语音谱似然比的噪声功率谱整形方法。最小统计值跟踪方法是常见的噪 声功率谱估计方法之一,其估计值往往偏低,因此本文通过基于语音谱似然 比的加权系数来修正其估计的噪声功率谱,在语音谱成分较弱的地方,增加 噪声功率谱的估计,使得卡尔曼滤波后的语音中残留噪声减少,并且听觉上 更加清晰自然。 3 结合子带分解技术,本文研究了。种基于子带卡尔曼滤波的语音增强方法。 实验结果表明,在提高语音质量的同时,子带分解降低了卡尔曼滤波的模型 阶数,大大地减少了语音增强系统的计算量,更容易实时实现。 关键词:语音增强卡尔曼滤波子带分解噪声功率谱整形 a b s t r a c t a b s t r a c t i nt h en o i s ee n v i r o m e n t ,t h ep e r f o n n a n c eo fm o s ts p e e c hp r o c e s s i n gs y s t e m s d e t e r i o r a t e ss h a 巾l y a sas o l u t i o nt on o i s ep o l l u t i o n ,s p e e c he n h a n c e m e n ti sa n e f i e c t i v et e c l m o l o g y ,a n dh a sb e e nb e i n gt h er e s e a r c hf b c u so ft h es p e e c hs i g n a l p r o c e s s i n ga l lt h et i m e t h ep u 巾o s eo fs p e e c he n h a n c e m e n ti st oe x t r a c tc l e a ns p e e c h s i g n a lf r o mt h en o i s ys p e e c ha sf 打a sp o s s i b l e ,t oi m p r o v es i g n a lt on o i s er a t i o ( s n r ) a n ds p e e c hq u a l i t y k a l m a nn l t e ri sa u lo p t i m a l l i n e a re s t i m a t o ri nt h em i n i m u mm e a ns q u a r ee 玎o r c r i t e r i o n ,w i t hn o n s t a t i o n a 巧s i g n a lp r o c e s s i n gc a p a c i t y s p e e c he n h a n c e m e n tb a s e d 0 nk a l m a nf i l t e r i n g ,i n t e g r a t i n gw i t hs p e e c hg e n e r a t i o nm o d e l ,c a nb ea p p l i e di n n o n s t a t i o n a r yn o i s ee n v i r o n n l e n t i nt h i st h e s i s , s p e e c he n h a n c e m e mb a s e do n k a l m a nf i l t e r i n gi si n - d e p t hs t u d i e da n dt h ef o u o w i n gw o r kh a sb e e nd o n e : 1 p r e d i c t o r ,f i l t e ra n ds m o o t h e ri nk a l a m nf i l t e r i n gt h e o r ya n dt h e i ra p p l i c a t i o ni n s p e e c he n h a n c e m e n tt e c h n o l o g yi ss t u d i e d as p e e c he n h a n c e m e n ts y s t e mb a s e d o nk a l m a nf i l t e r i n gi sr e a l i s e d 2 t h e r ei sm u c hm u c hr e s i d u a ln o i s ei nt h ee n h a n c e ds p e e c hb a s e do nk a l m a n f i l t e r i n g ,t h et h e s i si n t r o d u c e sam e t h o dt or e s h a p en o i s ep o w e rs p e c t m mt h r o u g h s p e e c hs p e c t r a l l i k e l i h o o dr a t i o m i n i m u ms t a t i s t i c a l t r a c k i n gi sac o m m o nn o i s e p o w e rs p e c t m me s t i m a t i o nm e t h o d ,b u tt h ee s t i m a t e dv a l u ei so r e nl o w s ot h e t h e s i si m r o d u c e sam e t l l o dt or e s h a p en o i s ep o w e rs p e c t r u mt h o u g hs p e e c h s p e c t r a ll i k e l i h o o dr a t i o i ti n c r e a s e st h ee s t i m a t i o no fn o i s ep o w e rs p e c t m mi n t h ef - r e q u e n c yc o m p o n e n t sw h e r es p e e c hi sw e a l ( c o m b i n e dw i t ht h i sm e t h o d ,t h e s p e e c he n h a n c e m e n tb a s e do nk a l m a n6 l t e r i n g c a nr e d u c er e s i d u a ln o i s e s i g n i f i c a i l t l y ,a n dm a k ee n h a n c e ds p e e c hc l e a r e i a n dm o r en a t u r a l 3 b yu s i n gt h es u b b a n dd e c o m p o s i t i o nt e c h n i q u e s ,w ep r o p o s eas u b b a n ds p e e c h e n h a n c e m e n tm e t h o db a s e do nk a l m a n 行l t e r e x p e r i m e n t sr e s u l t ss h o wt h a tt h i s m e t h o di m p r o v e st h eq u a l i t yo ft h ee n h a n c e ds p e e c ha n da l s ol a r g e l yr e d u c e st h e c o m p u t a t i o nc o n l p l e x i t yd u et ot h el o wo r d e r so fm o d e l si ns u b b a n d s ,a n dt h u si t c a nb ee a s i l yr e a l i z e dr e a i t i m e k e yw o r d s :s p e e c he n h a n c e m e n t ,k a l m a j ln l t e r i n g ,s u b b a n dd e c o m p o s i o n ,r e s h a p i n g o fn o i s es d e c t r a l 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作 了明确的说明。 名:缸丑 磐嗍:产 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和l u 子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名: 签字日期: 扯 班 导师签名: 签字日期: 第一章绪论 第一章绪论 1 1 研究背景 随着信息技术的快速发展,语音已成为信息时代最重要的信息交流工具之 一,但在实际环境中,语音总会不同程度地受到噪声干扰,这些噪声包括从周 围环境、传输媒质中引入的噪声、电气设备的噪声以及其他说话人的干扰等 等。在严重情况下,语音将会完全淹没到噪声中,无法辨别原始语义。语音质量 的下降会使许多语音处理系统的性能急剧恶化。比如,安装在汽车、飞机、坦 克和舰船上的电话,街道、机场上的公用电话,战场上的电台等常常受到很强 的背景噪声干扰,严重影响了通话质量;语音识别系统在实验室环境中可取得 相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别 率将受到严重的影响;低速语音编码同样也会受到噪声的影响,由于语音生成 模型是低速率语音编码的基础,当语音受到严重干扰时,提取的模型参数将很 不准确,重建的语音质量急剧恶化。此时采用适当的语音增强技术进行预处 理,将能有效地改善系统性能。因此,语音增强技术在高速发展的信息时代有 重要价值。多年以来,它一直是国内外许多大学和研究机构的一个研究热点。 目前,语音增强已在语音处理系统、广播通信、多媒体技术、智能家电,安全 监听等领域内得到了越来越广泛的应用。 一般情况下,语音信号和外界环境噪声信号都是随机信号,要完全消除噪 声是不现实的,那么语音增强目的就是从含有背景噪声的语音中尽可能地提取 出干净语音。 1 2 语音增强基础知识 语音增强是语音信号处理的重要方向之一,它涉及到很多学科,不仅与语音 信号数字处理理论有关,而且还可能涉及到数理统计、神经生理学和语音学等学 科。此外,语音增强所要面临的噪声来源众多,常见的如汽车、街道、机场、工 厂车间、人声嘈杂的公共场合等。因此要有效地增强语音,必须对语音的产生, 语音信号的特征,噪声的特性、人耳的感知特性以及语音信号处理的一些基本方 法有所了解。 1 2 1 语音信号的数字模型 只有建立了语音信号的数字模型,才能有效地利用计算机定量地对语音信号 进行模拟和分析处理。所以语音信号的数字模型是语音信号处理的基础。所谓建 第一章绪论 立数字模型就是要寻求一种可以表达一定物理状态下量与量之间的数学表示。它 的基础是人的发音器官的特点和语音产生的机理。 语音产生的机理如图1 1 所示,发声器官分为三部分:肺、喉和声道。在发 声机制中,肺的作用相当于一个动力源,将气流输送至喉部。喉将来自肺部的 气流调制为周期脉冲或类似随机噪声的激励声源,并送入声道。声道包括口 腔、鼻腔和咽腔,它们对声源的频谱进行整形而产生不同音色的声音。声源还 可能由声道的收缩和内壁产生,这一作用发生在声道内部,在图1 1 中没有表 示,这样,除随机噪声和周期性声源之外还产生一个冲击声源。我们在此对激 励源做了理想化处理,从语音产生机理的解剖学和生理学意义上来说,不会产 生出完美的周期性、冲击性或噪声般的声源。声源经声道润色频谱后,在嘴唇 处的气压变化就形成了可传播的声波,被人感知为语剖。 图1 1 语音产生机理的简化图解 声迮 喉 肺 人们在深入研究人发音器官的特点和语音产生机理的基础上,建立了一种离 散时域的语音信号生成模型【2 】( 图1 2 ) 。在这种模型中,语音信号被看成是线性时 变系统在随机噪声或准周期脉冲序列激励下的输出。在图1 2 中,完整的语音信 号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 激励模型:激励模型可分为清音激励和浊音激励,按照浊音清音开关所处 的位置来决定产生的语音是浊音还是清音。在浊音情况下,激励信号由一个周期 脉冲发生器产生。在清音情况下,激励信号由一个随机噪声发生器产生。这种简 单的把激励分为浊音和清音两种情况是不全面的。但该方法由于其简单并且性能 优越而被广泛地采用。 声道模型:目前经常用到的声道模型是共振峰模型。一般人的声道长度约为 1 7 c m ,可以计算出在5 0 0 h z 、1 5 0 0 h z 、2 5 0 0 h z 、3 5 0 0 h z 、4 5 0 0 h z 附近有5 个共 振峰2 1 。每个共振峰对于系统函数的一个极点,其系统函数矿( z ) 可用下面的表达: 1 y ( z ) = i 万一 ( 1 1 ) l 一乙矧嚷z “ 2 近怫畦 第一章绪论 辐射模型:声道的终端为口和唇,从声道输出的是速度波,而语音信号是 声压波,二者的比称为辐射阻抗。即:尺( z ) = r ( 1 一l 儿) 。 在这个模型中,激励源参数和声道模型参数都是随时间变化的。由于发声器 官的惯性使这些参数的变化速度受到限制。对于声道参数,在1 0 3 0 m s 的时间 间隔内,可以认为它们近似保持不变。对于激励源参数,大部分情况下这一结论 也是f 确的。这种离散时问模型有时也称为“激励源滤波器”模型。即在短时 时阳j 内,语音信号是由激励信号和传输函数h ( z ) 线性系统而产生输出的。( z ) 是由激励模型、 基音 频率 图1 2 语音信号产生的离散时域模型 语音波形 信号纠n 1 2 2 语音和噪声特性 这里简单地介绍一下在语音增强处理时涉及到的一些语音和噪声的特性: 1 语音特性 上述的发声系统在发不同声音时的生理机构不同,决定了语音信号的非平稳 性,并且是一种随机信号。但由于其生理器官变化的缓慢性,在一段很短的时白j 内( 1 0 3 0 m s ) 内,可以假设其声道及其输入是平稳的。这意味着在这段时间内语 音信号的短时谱的相对稳定性。利用这种特性,应用平稳的随机过程来分析和处 理语音信号,构成了语音信号分析处理的基础。 在上述数学模型中,根据激励源可以简单地把语音分为浊音和清音两类。这 两类在激励上的明显差异,导致在语音信号特性上也有明显区别。浊音在时域上 呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段 内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。在语音增 强中,可以利用浊音的周期性特性,提取语音分量或者抑制非语音信号。 同时,作为一个随机过程,语音信号也可以利用许多统计分析特征进行分析。 但由于语音信号非平稳、非遍历,因此长时间时域统计特性对语音增强算法的意 义不大。语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时, 第一章绪论 才近似具有高斯分布。在高斯模型的假设中,认为傅旱叶展丌系数是独立的高斯 随机变量,均值为零,而方差是时变的。在有限帧长时这种高斯模型只是一种近 似的描述,可以在宽带噪声污染的语音增强中应用【3 】。 2 噪声特性 噪声通常可以定义为通信、测量以及其他信号处理过程中的无用信号成分。 由于环境的复杂性,噪声可以分为加性噪声和非加性噪声( 如传输系统的电路噪 声) 。考虑到加性噪声更普遍且易于分析问题,并且对于某些非加性噪声,可以 通过变换转变为加性噪声。因此,为简化讨论,本文主要分析加性噪声的干扰。 由于噪声来源众多,随应用场合而异,特性也各不相同,根据噪声的时域或频域 特性,可以将噪声大致归为如下几类i 列: ( 1 ) 周期性噪声 其特点是频谱上有许多离散的线谱,主要来源于发动机等周期运转的机械设 备。显然这种噪声可以用梳状滤波器予以抑制,但实际信号受多种因素的影响, 线谱分量通常转变为窄带谱结构,且这些窄带谱往往是时变的,位置也不固定。 必须采用自适应滤波的方法才有可能区分这些噪声分量。 ( 2 ) 脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲,主要来源于爆炸、撞击、放 电及突发性干扰。消除脉冲噪声通常在时域内进行,其过程如下:根据带噪语音 信号幅度的平均值确定阈值,当信号幅度超过这一阈值时判为脉冲噪声,然后对 信号进行适当的衰减,就可消除噪声分量。 ( 3 ) 宽带噪声 宽带噪声的来源很多,热噪声、气流噪声及各种随机噪声源,量化噪声都可 视为宽带噪声。宽带噪声与语音信号在时域和频域上完全重叠,只有在无声期间, 噪声分量才单独存在。因而消除这种噪声比较困难。对于平稳的高斯噪声,通常 可以认为是高斯白噪声。而不具有白色频谱的噪声,可以进行白化处理或者采取 特殊的处理方法,如本文后面介绍的建模的方法。 ( 4 ) 同声道语音干扰 在实际生活中经常会遇到多人同时说话的情况,此时不需要的语音就形成了 同声道干扰。区别干扰噪声和有用语音的基本方法是利用它们的基音差别。考虑 到一般情况下两种语音的基音不同也不成整数倍,这样可以用梳状滤波器提取基 音的各次谐波,再恢复出有用信号。 1 2 3 人耳的听觉感知特性 语音感知对语音增强研究有重要作用。这是因为语音增强效果的最终度量是 人的主观感受。语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域, 4 第一章绪论 这是一个复杂的问题,有待进一步研究。尽管如此,目前已有一些有用的结论可 以应用于语音增强: ( 1 ) 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量的相 位则不敏感。 ( 2 ) 入耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的 对数成证比。 ( 3 ) 人耳对频率高低的感受近似与该频率的对数值成j 下比。 ( 4 ) 人耳有掩蔽效应即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音强 度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得多。 ( 5 ) 短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰 更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影 响。 ( 6 ) 人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。这种分辨能力 来源于人的双耳输入效应,称为“鸡尾酒会效应”。 1 。3 语音增强的历史和发展现状 在实际需求的推动下,早在2 0 世纪6 0 年代,语音增强这个课题就己经引起了 人们的注意。到了2 0 世纪7 0 年代,随着数字信号处理理论的不断发展,人们对语 音增强技术的研究形成了一个高潮,取得了一些基础性成果,这使语音增强发展 成为语音信号数字处理的一个重要分支。经典的谱相减法和维纳滤波方法就是在 这一时期提出来的。但由于各种算法计算量问题,导致它们的实用性受到影响。 进入8 0 年代后,v l s l 技术的发展为语音增强的实时处理提供了可能,同时也涌 现了大量新的算法,在语音识别中使用的概念和方法又被借鉴到语音增强算法 中。9 0 年代后,移动通信的飞速发展为语音增强研究提供了现实的动力,由于对 之d 订的增强效果仍然不够满意,又进行了新的尝试。比如将小波变换用于语音增 强中,利用神经网络( a n n a ri f i c i a ln e u r a ln e t 、v o r k s ) 进行语音增强,基于麦克风 阵列的语音增强等。一直以来,针对不同的背景噪声或者某个特殊的应用要求, 人们提出了各种新的语音增强算法。尽管这些算法在理论上还没有完全解决语音 增强问题,但有些方法已经证明是有效的,并在实际的应用中被采用。 语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通 道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。 这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个 信号中得出。一般这种语音系统要求噪声比较平稳,以便在非语音段对噪声进行 估计,再依据估计出来的噪声对带噪的语音段进行处理。如果系统是一个多通道 第一章绪论 的语音系统,各个通道之阳j 存在着某些相关的特性,这些相关特性对语音增强的 处理十分有利。 单通道语音增强是语音增强的基础,本文将重点研究和实现基于卡尔曼滤波 的单通道语音增强方法。 早在上个世纪6 0 年代,匈牙利数学家r u d o l f e m i lk a l m a n 就提出了卡尔曼滤 波器1 4 i ,并用于控制领域。而到1 9 8 7 年,首次由k k p a l i w a l 将卡尔曼滤波应用 到语音增强【5 j ,但是仅限于加性白噪声环境下语音增强。1 9 8 9 年,美国的 j d g i b s o n 等又将卡尔曼滤波的语音增强扩展到处理有色噪声环境【6 1 。1 9 9 9 年, 新加坡z e n t o ng o h 等人提出了改进的卡尔曼滤波语音增强算法【。7 1 ,利用了语音的 清浊音模型。2 0 0 1 年加拿大的m g a b r e a 提出了自适应的卡尔曼滤波语音增强算 法1 8 j 。2 0 0 3 年加拿大的n m a 等人将人耳听觉特性的感知滤波器结合到卡尔曼滤 波语音增强【9 1 。近年来,更是提出了很多有关卡尔曼滤波语音增强算法【1 0 钔】。相 比于维纳滤波方法i l4 1 ,卡尔曼滤波具有处理非平稳信号的能力,更符合语音的特 性,并且结合了语音的生成模型,利用语音的线性预测系数构成状态转移矩阵, 增强后语音中残留的音乐噪声较少,语音自然度更高。 1 4 语音增强的质量评价 语音增强算法的主要目的就是尽可能地消除噪声,因此信噪比s n r ( s i g n a l n o i s er a t i o ) 的提高自然而然地成为筏量语音增强性能的重要准则。但是,语音最 终接受者是人,是人的听觉系统最后来处理语音信号,因此信噪比不是唯一的最 合适的准则。 语音质量的衡量包括两方面内容:清晰度和可懂度。前者是衡量语音中字、 单词和句子的清晰程度。而后者则是对讲话人的辨识水平。语音质量评价不但与 语音学、语言学和信号处理等学科有关,而且还与心理学、生理学等有着密切的 联系,因此语音质量评价是一个极其复杂的问题。对此多年来人们不断地努力, 提出了许多语音质量评价的方法,总体上看可以将语音质量评价可分为两大类: 主观评价和客观评价。 1 4 1 主观评价 主观评价以人为主体来评价语音的质量,它是在一组评听者对原始语音和失 真语音进行对比测听的基础上,根据某种事先约定的尺度对失真语音来划分质量 等级,它反映了测听者对语音质量好坏程度的一种主观印象。主观评定方法符合 人类听话时对语音质量的感觉,目前得到了广泛的应用。常用的方法有平均意见 得分( m e a no p i n i o ns c o r e ,简称m o s 得分) ,判断韵字测试( d i a g n o s t i cr h y m e 6 第一章绪论 t e s t ,简称d r t 得分) ,判断满意度测量( d i a g n o s t i ca c c e p t a b i l i t ym e a s u r e ,简称 d a m 得分) 等。主观评价的优点是符合人对语音质量的感觉,缺点是费时费力费 钱,且灵活性不够,重复性和稳定性较差,受人的主观影响较大等。 ( 1 ) m o s 得分法【1 5 j m o s 得分法从绝对等级评价法a c r ( a b s o l u t ec a t e g o r yr a t i n g ) 发展而来,用 于对语音整体满意度或语音通信系统质量的评价。a c r 是用于针对电话通信的 总体质量评价,m o s 和a c r 都采用5 级评分标准,评听者在听完受测语音后, 从5 个等级中选择其中一级作为他对受测语音质量的评价。全体评听者的加权平 均分就是受测语音质量的m o s 分,即对各种投票意见按规定数值进行加权,之 后再平均得到意见分。加权平均统计得分公式如下: m :二y 形m ( 1 2 ) 其中是总票数,是得某种分的票数,彬即将重建语音质量分为优( 5 分) 、良( 4 分) 、中( 3 分) 、差( 2 分) 及坏( 1 分) 共5 个等级测验,如表1 1 所示。 在数字语音通信中,m o s 得分在4 o 4 5 分为高质量数字化语音,达到长途电话 网的质量要求,接近于透明信道编码,也称之为网络质量或长途质量,这时重建 语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差 异。m o s 分在3 5 分左右称作通信质量,这时感到重建语音质量下降,但语音自 然度和清晰度仍很好,且听起来没有疲劳感,但不妨碍正常通话。m o s 分在3 0 分以下称为合成语音质量,一般指低比特率声码器合成的语音所能达到的质量。 m o s 分在2 0 分以下重建语音有较强的畸变或失真,听起来已有疲劳感,甚至听 觉上无法忍受。 表1 1m o s 评分等级表 m o s 判分 质量级别( 肜) 失真级别 5 优不察觉 4 良 刚有察觉 3 由 有察觉稍觉可厌 2 差明显察觉,町厌仍r 日,忍受 l坏 不口j 忍受 ( 2 ) 判断韵字测试 判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法提 供了相当数量的一对对的样本字,每一对的样本字只有丌头的辅音是不同的,它 们分别用来侧试发音的一系列不同特性,如浊音清音鼻音齿擦音连读等等。 7 第一章绪论 被测者需要指出在测试字对中,他们听到的是哪一个单词。总的判断韵字测试得 分是由以下公式得出: d r t :旦坐业凸鱼业1 0 0 ( 1 3 ) n 测试宁数量 通常认为d r t 为9 5 以上时清晰度为优,8 5 9 4 为良,7 5 8 4 为中, 6 5 7 5 为差而6 5 以下为不可接受。 1 ,4 2 客观评价 语音质量客观评价是以语音系统的输入信号和输出信号之间的误差大小来 判别语音质量的好坏。是一种误差度量。目前,常用的客观评价方法有时域失真 测度:信噪比( s n r ) 、分段信噪比( s e g m e n t a ls n r ,s e g s n r ) 【1 6 】; 频域失真测度: 如对数谱测度( l o g s p e c t r a ld i s t o r t i o n ,l s d ) 、对数似然比测度( l o gl i k e l i h o o d r a t i o ,l l r ) 等:感知域失真测度:如语音感知质量评价算法( p e r c e p t u a l e v a l u a t i o no fs p e e c hq u a l i t yp e s q ) 【17 】等。 ( 1 ) 信噪比s n r 和分段信噪比s e g s n r s n r 是衡量针对宽带噪声失真的语音增强算的常规方法。假设y ( 门) 表示带 噪信号,x ( 刀) 表示其中的纯净语音信号,至( 疗) 表示相对应的增强信号,经典形式 的信噪比定义为: x 2 ( ,? ) 洲。1 0 1 0 9 1 0 瓦茅丽 在上式中可以看出,要计算信噪比必需知道纯净语音信号,但在实际应用中 这是不可能的。因此,上述方法主要用于纯净语音信号和噪声信号都是己知的算 法的仿真中。 经典信噪比只能给出一个大致的信噪比。由于语音信号是一种缓慢变化的短 时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题, 可以采用分段信噪比。它的定义如下: 一= 罟。 f ,一i x 2 ( 朋上+ ,) ,= 0 一l 【x ( ,竹三+ f ) 一圣( ,力三+ ,) 】2 拈】 ( 1 5 ) 其中,肘表示语音帧数,是语音帧长度,所表示语音帧的开始点。为了 克服计算出来的信噪比过高或者过低,对于每帧计算出来的信噪比设定高低门 8 第一章绪论 限,分别为3 5 d b 和0 d b 。分段信噪比s e g s n r 是时域测度方法中最常用的评价 方法,与主观评价的相关度有所提高。 ( 2 ) 对数谱测度l s d 频域失真测度也叫谱失真测度,这些测度与时域测度相比性能更可靠,对信 号时间同步要求也不高。若测度计算的结果值越小,则说明失真语音和原始语音 越接近,即语音质量越好。其中最常用的方法为对数谱失真测度l s d 。 l s d 计算如下: 三肋= 击篓 丽嘉笔 g ,i x ( 列卅0 o 钆ij ( 纠) i 2 2 n6 , 其中x ( 七,) 和j ( 七,) 分别为干净语音和增强语音的短时傅立叶变换,为帧长, m 为帧数。一般l s d 值越小,其对数谱的失真度越小。 ( 3 ) 语音感知质量评价p e s q 语音感知质量评价p e s q 是国际电信联盟i t u t 的p 8 6 2 建议的算法,它是 最新评价主观语音质量的客观工具。该算法将话音的频率、响度等物理特性与人 类心理上的感知特性的对应关系用数学模型来表示,即用客观数学模型的评价来 模拟主观的评价。该算法( 图1 3 ) 采用时频映射、频率弯折和响度弯折等方法,尽 可能将语音中可以感知的特性在数学上完美的表达。 在p e s q 模型中,提取出的语音特征都是与主观感觉直接相关的,输入语音 和通过设备、网络或系统后的输出语音的任何“非感觉”的差别都不会对语音质 量评价产生影响。所以p e s q 是一种主客观相关性较高的音质客观评价方法。 p e s q 采用线性评分制度,以_ o 5 4 5 之间的数值表示被测语音与参考语音相比 语音质量的高低。输出语音质量越接近输入语音,则分数越接近4 5 ,否则评分 越低。基于该模型的评分结果与m o s 主观评分的相关度高达o 9 3 5 ,而且两者近 似成线性关系,误差方向一致,可比性非常强。通常认为,4 o 分的m o s 分数与 3 7 3 9 的p e s q 分数的语音质量相当。 一- 圈一 0 驽辅 ,圈 ;僻编出 d 竺! 兰兰i 时间 园蛩恒 调整 蕊 和 经准 处理 一l 1 重衔调整失真闻隅 图1 3p e s q 结构框图 语罾 m c 6 9 第一章绪论 1 5 论文的研究内容与结构安排 本文主要研究基于卡尔曼滤波的语音增强算法。立足于跟踪国内外的新技 术,设计实时实用的增强方法。增强过程不以单纯提高信噪比为目标,同时提高 语音的可懂度、舒适度,保证语音失真小和无“音乐噪声”。主要研究工作如下: ( 1 ) 广泛地参阅了国内外相关文献,了解语音增强技术背景与常用方法。 ( 2 ) 研究了卡尔曼滤波理论中的预测器,滤波器和平滑器。研究了其在语音 增强中的应用,实现了基于卡尔曼滤波的语音增强系统。 ( 3 ) 针对语音增强系统中必不可少的噪声估计问题,分析了基于语音活动检 测( v a d ) 和最小值统计跟踪两种噪声谱估计方法。针对卡尔曼滤波的 语音增强,研究了一种基于语音谱似然比的噪声功率谱整形方法,并通 过实验仿真比较。 ( 4 ) 考虑到卡尔曼滤波算法的计算量问题,研究了一种基于子带卡尔曼滤波 的语音增强方法,通过对带噪信号的子带分解,降低了语音及噪声的模 型阶数,在减少其计算量的同时,语音质量也有所提高。 本文的组织如下:第一章绪论介绍语音增强的课题背景及其相关概念。第二 章介绍卡尔曼滤波理论,第三章介绍基于卡尔曼滤波的语音增强及模型参数估计 方法。第四章介绍了噪声谱的估计方法及一种噪声谱的整形方法,并结合卡尔曼 滤波,比较了语音增强的效果。第血章介绍了基于子带卡尔曼滤波的语音增强, 第六章为总结与展望 1 6 小结 本章简单地阐述了语音增强的研究意义和应用、发展现状以及基本原理,然 后提出本论文的主要工作和结构安排。 l o 第二章 尔曼滤波的基本理论 第二章卡尔曼滤波的基本理论 维纳滤波和卡尔曼滤波都是最小均方误差意义下的最优估计。维纳滤波虽然 是最小均方误差意义下的最优估计,但只能在平稳条件的约束下。卡尔曼滤波突 破了经典维纳滤波方法的局限性,在非平稳状态下也可以保证最小均方误差估 计。在卡尔曼滤波中,引入了系统状态变量和状态空间概念。从状态空间的观点 看,状态比信号更广泛、更灵活,非常适合处理信号估值问题,信号可视为状态 或状态分量,因而非常适合处理多变量系统。卡尔曼滤波器给出了一套在计算机 上容易实时实现的最优递推滤波算法,适合处理多变量系统、时变系统和非平稳 随机过程,获得了广泛的实际应用,其应用领域包括机器人导航,控制,传感器 数据融合甚至包括军事方面的雷达系统以及导弹追踪等等。 2 1 维纳滤波 2 0 世纪4 0 年代,w i n e r e 和k o l m o g o r o v 彼此独立地创立了经典维纳滤波理论 【8 ,1 9 】,维纳滤波是对随机系统的一种最优滤波或最优估计。对离散随机系统模型 y ( 门) = x ( 门) + v ( 门) ,其中v ( 门) 表示加性噪声,工( 胛) 表示系统真实值。维纳滤波方 法就是按最小均方误差准则对x ( 刀) 进行估计,即设计一个线性滤波器办( 刀) 来估计 目标信号值曼( 胛) = 办( 丹) ,cy ( 门) ,使均方误差s ( 疗) = e 曼( 甩) 一x ( 刀) 】2 ) 最小。 在x ( 力) 及v ( ,7 ) 不相关且均为平稳信号的假设6 仃提下,对于随机优化问题的频 域解可用滤波器表示: 日( w ) :2 业 ( 2 1 ) 、7 s ,( w ) + & ( w ) s 。( w ) ,s ,( w ) 分别表示x ( 刀) ,( 玎) 的功率谱密度。这就是维纳滤波器。 维纳滤波只有在平稳条件下才能保证最小均方误差意义下的最优估计。而语 音是非平稳的,只是在短时间内( 1 0 3 0 m s 内) 近似平稳,实际环境中,噪声也常 常是非平稳的。这是维纳滤波的缺陷所在。 2 2 卡尔曼滤波器 2 0 世纪6 0 年代,随空间技术和电子技术的发展及高速电子计算机的出现,要 求处理复杂的多变量系统、时变系统等非平稳随机过程,因此需要实时、快速计 算的最优滤波器。在这种应用背景下,k a l m a n 突破了经典w i e n e r 滤波理论和方 法的局限性,提出了时域上状态空间滤波方法【引。 第二章 尔曼滤波的基本理论 一个动态系统的状态由于受到外部的干扰时,可以分为两个组成部分:一部 分是由己知的运动方程正确地预测出来,另一部分可以看作是随机分量。对于线 性离散时l 、日j 系统也可以分为两个部分,即使用行维状态方程和研维测量方程描 述: x ( ,) = 爿z ( ,一1 ) + b 蹦( ,一1 ) + w ( ,一1 ) ( 2 2 ) 少( ,) = c x ( ,) + v ( f ) ( 2 3 ) 其中x ( f ) 尺”是雅维状念矢量,y ( f ) 舻是聊维输出矢量,”( f ) 只维控制 矢量,w ( f ) 和v ( f ) 分别是过程噪声( p r o c e s sn o i s e ) 和观测噪声( m e a s u r e m e n t n o i s e ) ,矩阵以。,b 。,g 。,在这旱被假定为己知的和时不变的。且控制矢 量甜( ,) ,输出矢量y ( f ) 是可观测的。由于受到噪声的干扰,无法从观测的输出矢 量获得状态矢量的精确估计,而只能在一定统计意义下对状态矢量做出最优估 计,卡尔曼滤波就是在最小均方误差统计下,对状态矢量x ( ,) 的最优估计。 为了推导卡尔曼滤波算法,先对( 2 2 ) 、( 2 3 ) 描述的线性离散时间系统做如 下一些假设【8 l : 假设1 过程噪声w ( ,) 和观测噪声v ( ,) 是零均值、方差分别为髭和配,且互 不相关的白噪声,即它们满足如下的对称f 定协方差阵: c 。v 翟 - e 翟 嚣丌= 瞄三 w ) = 悸葛 e v ( 七) v ( ) = 髻主二 假设2 初始状态x ( 0 ) 不相关于w ( ,) 和v ( ,) ,且: ( o ) = ,e i ( x ( o ) 一心) ( 工( o ) 一岛) 7 i = 尸( o ) 假设3 “( f ) 是已知确定性( 非随机) 控制量。 在已知的观测值序列d 7 = “( 1 ) ,材( 2 ) “( f ) y ( 1 ) ,夕( 2 ) 夕( f ) 下, 豆( if ) ,卡尔曼滤波就是在最小化均方误差阵: e i ( z ( ) 一j ( i ,) ) ( 石( ) 一j ( l ,) ) 7i 的意义下,对状念矢量的估计。按照l 和j 的不同关系,分别把: ,= ,时,称为卡尔曼滤波器 , ,时,称为卡尔曼预测器 首先,定义两种误差协方差矩阵: 定义:先验估计舅( ,lf 1 ) 是用f 时刻以前的所有数据得到的x ( ,) 的最佳估计 值, 即d 卜1 = “( 1 ) ,“( 2 ) ,“o 1 ) ,y ( 1 ) ,y ( 2 ) ,y ( 卜一1 ) 。先验估计误差 p 一( ,) = x ( ,) 一曼( ,if 1 ) ,先验误差协方差阵记p 一( ,) 或者尸一( ,if 一1 ) 或尸( fl ,一1 ) : p 一( ,) = e p ( f ) p 卅( ,) ( 2 6 ) 定义: 后验估计王( f1f ) 是在先验估计的基础之上,再利用当前f 时刻的观测 数据束得到状态矢量的最佳估计。后验估计误差p + ( f ) = x ( f ) 一舅( flf ) 。后验误差协 方差阵记p + ( ,) 或者尸+ ( ,l ,) 或p ( flf ) : p + ( f ) = p ( f ) p + ”( ,) ( 2 7 ) 下面进行卡尔曼滤波递推公式的直观推导: 设如果在时刻f 时,在f 一1 时刻的后验误差协方差阵尸+ 0 1 l 卜1 ) 和 i ( f ll f 一1 ) 是已知的。那么根据状态方程( 2 2 ) 来预测时刻,的状态值,一个简单 而直观的想法是,因为w ( f ) 的零均值,时刻f 时的合理预测值为: 曼olf 1 ) = 4 贾o 一1 l f 一1 ) + b “( f ) ( 2 8 ) 而考虑到v ( r ) 也是零均值,因而量测的期望值为c 勇( ,i ,一1 ) 也是合理的。考 虑到上述两点后,估计得到时刻,时状态矢量的后验估计为预测值,即先验估计 和测量值与预测值之差的线性加权: 曼( ,if ) = j ( fi ,一1 ) + k o ) ( y ( ,) 一c 舅( ,if 1 ) ) ( 2 9 ) 这罩k ( f ) 是待定的卡尔曼增益,确定卡尔曼增益的准则是使后验误差协方 差阵极小。将式( 2 9 ) 式代入到( 2 7 ) 中,并考虑到假设l 的条件: p + ( f ) = ( ,一k ( ,) c ) 尸一( f ) ( ,一k o ) c ) 7 + k ( f ) 兄k 0 ) 7 ( 2 1 0 ) 求得后验误差协方差阵的递推公式后,使用配方法,即将( 2 1 0 ) 右端展丌后, 加减同一项,p 一( ,) c ( c p 一( ,) c + 尺) 。1 c 。尸一( ,) ,再把有关k ( f ) 的项归并在平方 项罩,即: 尸+ ( f ) = 尸一( f ) 一p 一( f ) c7 ( c p o ) c 7 + 尺) 1c p o ) + 【k o ) 一尸( f ) c r ( c 尸一o ) c 7 + r ) 一1 】( c 尸一( f ) c ( 2 ,1 1 ) + 天) 【k ( f ) 一尸一( f ) c7 ( c p 一( f ) c 7 + 尺) - i 】 在式( 2 1 1 ) 中,前两项不包含k ( f ) 因子,故要使尸+ ( r ) 极小,只要选择 尺( r ) = 尸一( f ) c 7 ( c 尸一( f ) c 7 ,+ 尺) ( 2 1 2 ) 而这时估计误差协方差阵为: 1 3 第二章 尔曼滤波的基本理论 而这时估计误差协方差阵为: p + ( f ) = ( ,一k ( f ) c ) p 一( f ) 尸一( r ) = 彳p + ( ,一1 ) 彳7 + q ( 2 1 3 ) ( 2 1 4 ) 式( 2 8 ) 利用了,时刻以前的观测值来估计状念值,称为卡尔曼预测器,而式 ( 2 9 ) 利用了当前时刻的观测值,称为卡尔曼滤波器。在式( 2 9 ) 右侧,可分为两个 部分:曼( ,i ,一1 ) 和e ( ,) = y ( f ) 一既( flf 一1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 等离子显示模组创新创业项目商业计划书
- 汽车零部件轻量化材料与工艺研究创新创业项目商业计划书
- 电脑芯片创新创业项目商业计划书
- 2025年教师招聘之《小学教师招聘》试卷及参考答案详解【完整版】
- 2025年教师招聘之《幼儿教师招聘》题库检测试卷附参考答案详解【培优】
- 教师招聘之《小学教师招聘》综合检测提分及完整答案详解(必刷)
- 2025年教师招聘之《小学教师招聘》能力检测试卷完整答案详解
- 教师招聘之《幼儿教师招聘》模拟卷包附参考答案详解(精练)
- 教师招聘之《小学教师招聘》考前冲刺练习附答案详解【综合卷】
- 2025年四川仪陇县事业单位引进人才52人笔试备考题库及答案详解1套
- 宁夏水洞沟导游词
- 组合结构设计原理 第2版 课件 第1章-绪论
- 中学物理校本课程
- 针刺伤处理流程课件
- 桥梁基本知识-桥梁养护课件
- 华为供应链管理(6版)
- 幼儿园秋季传染病预防知识课件
- 化工原理-传热课件
- 劳务派遣劳务外包服务方案(技术方案)
- 第09章资本市场有效性理论及其实证分析
- 《商务分析方法与工具》课程教学大纲
评论
0/150
提交评论