




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)语音增强技术在声反馈系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 实际的语音信号一般都不是纯净的,而带有各种各样的随机噪声。为了改善 语音处理的质量,语音增强就成为语音信号处理中很重要的组成部分。 语音增强技术就是对带噪语音进行处理,用来改善语音信号的质量,提高语 音的清晰度、可懂度、舒适度。大多数实用的语音增强系统,都是由精确的噪声 估计器和良好的滤波器对带噪语音去噪。 实用的语音增强系统包括预处理、噪声估计、语音增强三部分。其中,噪声 估计和语音增强各有很多种方法。噪声估计分为v a d ( v o i c ea c t i v i t yd e t e c t i o n ) 和 连续更新噪声谱两种,前者实现简单,后者针对实际非平稳噪声和即时更新噪声。 如何适当使用这两种方法是语音增强算法的关键。在计算复杂度容许的情况下, 将这两种方法有机结合起来,是噪声估计发展的方向,而本论文正是采用这种方 法。 语音增强算法,包括滤波法语音增强、利用相关特性的语音增强、非线性处 理语音增强、谱减法语音增强、利用w i e n e r 滤波法的语音增强、自适应噪声抵消 法语音增强等,我们采用的是目前使用最为广泛的基于短时谱的语音增强算法。 本论文研究语音增强技术在声反馈抑制器中的应用,论文的主要工作包括: 1 对基于v a d ( v o i c ea c t i v i t yd e t e c t i o n ) 的噪声估计方法和连续更新噪声谱的 方法进行研究和比较,针对仿真结果分析两种噪声估计的性能,并将两者结 合起来,做出改进,用于实际的语音增强系统中。 2 系统研究了几种语音增强方法,包括基于短时谱分析的语音增强算法及其改 进形式,并作仿真比较。 3 在对噪声估计和语音增强算法研究的基础上,针对实际的啸叫抑制器的应用 环境,结合连续更新噪声谱的噪声估计方法和基于短时谱分析的语音增强算 法设计一种语音增强系统,在t m s 3 2 0 v c 5 5 1 0 d s k 上仿真,并做出结果分析。 关键词:噪声估计,语音增强算法,t m s 3 2 0 v c 5 5 1 0 a b s t r a c i a b s ;t r a c t s p e e c hs i g n a li sn o tp u r e ,b u to f t e nc o r r u p t e db yd i f f e r e n tk i n d so fr a n d o mn o i s e w h i c hd i s t u r b st h ep r o c e s s i n gq u a l i t yo fs p e e c hs i g n a l ,t h e r e f o r e ,s p e e c he n h a n c e m e n t t e c h n i q u ep l a y s a ni m p o r t a n tr o l li ns p e e c hs i g n a lp r o c e s s i n g s p e e c he n h a n c e m e n tt e c h n i q u ei s t om a k et h es p e e c hs i g n a lc o r r u p t e db yn o i s e , m o r ec l e a r , u n d e r s t a n d a b l ea n dc o m f o r t a b l e m o s tp r a c t i c a ls p e e c he n h a n c e m e n t s y s t e mc o m p o s e do fa na c c u r a c yn o i s ee s t i m a t o ra n d ag o o df i l t e rt or e d u c et h en o i s e t h en o i s ee s t i m a t i o ni n c l u d e sv a da n du p d a t i n gn o i s es p e c t r u mc o n t i n u o u s l y t h ef i r s to n ei sc o m p l e m e n t e de a s i l y , t h el a t e ra i m sa ta c t u a lu n s t a b l en o i s ea n d u p d a t e st h en o i s es p e c t r u mc o n t i n u o u s l y h o wt ou s et h e s et w om e t h o d si st h ek e yo f s p e e c he n h a n c e m e n ta l g o r i t h m i ft h ec o m p u t a t i o nc o m p l e x i t yi sp e r m i t t e d ,w ec a n c o m b i n et w om e t h o d st o g e t h e r , w h i c hi st h ei m p r o v e m e n tt r e n do fn o i s ee s t i m a t i o n t h e r ea r em a n ys p e e c he n h a n c e m e n tt e c h n i q u e s ,s u c ha sf i l t e r i n g ,c o r r e l a t i o no f s p e e c h ,n o n l i n e a rp r o c e s s i n g , s p e c t r u ms u b t r a c t i o n ,a n dt h ea d a p t i v ew i e n e r f i l t e r t h er e s e a r c hc o n t e n to ft h et h e s i si st h es p e e c he n h a n c e m e n tt e c h n i q u et h a ti s u s e di nt h ea c o u s t i cf e e d b a c ks u p p r e s s e n f i r s t l y , w es e a r c h e da n dc o m p a r e dt h em e t h o d s o fn o i s ee s t i m a t i o nb a s e do nv a d a n du p d a t i n gt h en o i s es p e c t r u mc o n t i n u o u s l y , c o m b i n e dt h e mt o g e t h e rt om a k es o m e i m p r o v e m e n t s e c o n d l y ,w er e s e a r c ho ns o m es p e e c he n h a n c et e c h n i q u e si n c l u d i n gs h o r tt i m e s p e c t r u ma n a l y s i ss p e e c he n h a n c et e c h n i q u ea n di t si m p r o v e m e n tf o r m ,s i m u l a t e dt h e a l g o r i t h m sa n dc o m p a r e dt h e me a c ho t h e r t h i r d l y , b a s e d o n s e a r c h i n g t h en o i s ee s t i m a t i o nm e t h o d sa n d s p e e c h e n h a n c e m e n tt e c h n i q u e s ,w ed e s i g n e das p e e c he n h a n c e m e n ts y s t e ma n ds i m u l a t e dt h e a l g o r i t h m so nt m s 3 2 0 v c 5 5 1 0 d s k k e y w o r d s :n o i s ee s t i m a t i o n ,s p e e c he n h a n c e m e n ta l g o r i l h m ,t m s 3 2 0 v c 5 5 1 0 i l 图目录 图目录 图2 - i 带噪语音信号模型7 图3 - i 通用数字音频信号处理平台1 2 图3 2t m s 3 2 0 v c 5 5 1 0d s k 板的功能框图1 3 图3 3 本系统所使用的硬件模块框图1 3 图3 4d s p 模块框图1 4 图3 5m c b s p 和外部设备连接图1 6 图3 6t m s 3 2 0 v c 5 5 1 0 的d m a 控制器概念框图1 8 图3 7t l v 3 2 0 a i c 2 3 接口示意图2 l 图3 8t l v 3 2 0 a i c 2 3 的功能框图2 2 图3 - 9t l v 3 2 0 a i c 2 3 控制接口s p i 模式时序图2 2 图3 一i 0t l v 3 2 0 a i c 2 3 数字音频接口的i ) s p 模式时序图2 4 图4 1 实用语音增强系统框图2 5 图4 2 本系统的噪声估计流程图3 5 图4 - 3 原始语音信号v a d 检测结果3 6 图4 4s n r = l o d b 时v a d 检测结果3 6 图4 5s n r = o d b 时v a d 检测结果。,3 6 图4 6 原始语音信号背景噪声时域波形图3 7 图4 7 原始语音信号的频谱图3 7 图4 8 带噪语音信号平滑之前和之后的图形3 8 图4 - 9 经搜索之后得到噪声功率谱的最小值仿真图3 8 图4 一l o 带噪语音信号及其v a d 检测结果3 9 图4 一l l 两种噪声估计的结果3 9 图4 1 2 语音增强后的语音信号及其频谱幅度响应4 3 图4 一1 3 基于改进的功率谱相减语音增强算法增益s e g s n r 4 4 图4 1 4 声反馈抑制器主程序框图4 5 图4 1 5 语音增强系统的算法流程图4 6 图4 1 6d m a 接收通道i s r 流程图4 7 表目录 表目录 表3 一lm a b s p 配置寄存器列表 表3 2t m s 3 2 0 v c 5 5 1 0 的d m a 通道控制寄存器列表 表3 3t l v 3 2 0 a i c 2 3 的控制寄存器列表 表4 - i 窗的比较 表5 1 不同信噪比下语音增强后s e g s n r v 1 l 1 6 1 9 2 3 2 6 4 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名日期:椰f 年z 月e 壶日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名导师签名: 日期。如即 第一章引言 1 1 语音增强技术 第一章引言 啸叫抑制器应用于多媒体教室、大型会议、综艺晚会等。这些语音通信 过程中,总会受到各种噪声的干扰,从而严重影响语音通信的质量。为了消 除这些噪声对语音处理系统性能的影响,语音增强技术的研究及应用是非常 有必要的。 实用的语音增强系统包括预处理、噪声估计、语音增强三部分。其中, 噪声估计和语音增强各自有很多种方法。噪声估计分为v a d ( v o i c ea c t i v i t y d e t e c t i o n ) 和连续更新噪声谱两种,前者实现简单,后者针对非平稳噪声和即 时更新噪声。如何适当使用这两种方法,是语音增强算法的关键。在计算复 杂度容许的情况下,将这两种方法有机地结合起来,是噪声估计发展的方向, 也是本论文所采用的方法【”。 语音增强算法,主要有滤波法语音增强、利用相关特性的语音增强、非 线性处理语音增强、谱减法语音增强、利用w i e n e r 滤波法的语音增强、自适 应噪声抵消法语音增强算法等,我们采用的是目前使用最为广泛的基于短时 谱的语音增强算法【2 】。 基于对噪声估计算法和语音增强算法的研究,我们将v a d ( v o i c ea c t i v i t y d e t e c t i o n ) 署l 连续更新噪声谱相结合,并采用基于短时谱的语音增强算法,来 实现啸叫抑制器中的语音增强。 1 2 项目背景 1 通用语音降噪项目:项目的主要内容为带噪语音的通用增强算法,尽量消 除背景噪声对语音信号的影响,提高信噪比,提高语音的可懂度和清晰度。 2 网络多媒体会议回声抑制项目:抑制扩声系统和麦克风之间产生的回声。 即啸叫。 3 网络多媒体会议语音处理项目:包括语音的采集、增强、抑制回声、回放。 屯子科技大学硕士学位论文 1 3 论文的内容和结构 本论文研究加性干扰下单声道语音的增强技术。主要工作是,针对实用 语音增强系统,研究各种噪声估计算法,主要是v a d ( 活动语音检测) 噪声 估计和基于连续更新噪声谱的噪声估计。本文提出了基于这两种方法相结合 的噪声估计新方法,并将仿真结果和以前的噪声估计作对比。本论文还研究 了基于短时能量谱抵消及其改进形式的语音增强算法,设计和采用基于v a d ( 活动语音检测) 噪声估计和连续更新噪声谱相结合的噪声估计算法,以及 短时能量谱抵消改进形式的语音增强算法的实用语音增强系统。 本论文的结构: 第一章引言,介绍语音增强的应用场合和现实意义。 第二章语音增强的基本原理及其性能评估标准。 第三章本系统的硬件模块。 第四章语音增强系统的算法和实现。 第五章评估结果及分析,以后的工作展望。 2 第二章语音增强的基本原理 第二章语音增强的基本原理 2 1 语音增强的基本原理 人们在多媒体教学、大型会议、综艺晚会等不同的通信环境中,不可避 免的受到各种各样噪声的干扰。这些很强的背景噪声会严重影响语音通信质 量【3 1 。例如,由于噪声的干扰,导致了基于语音生成模型低码率参数编码中 l p c 系数的精确求解非常困难,从而降低了语音重建的质量。一个用纯净语 音训练的语音识别系统识别错误率不到百分之一,而在自助餐厅的识别错误 率将高于百分之五十。就是因为这样各种各样噪声的影响,使很多语音系统 在噪声干扰下的性能得不到保障,使得很多语音处理系统的商业应用受到了 很大的局限。因此,如何从带噪语音中去噪,就成了一个热门话题。自然地, 语音增强技术也就成为了语音信号处理中一个很重要的分支”j 。 有关抗噪技术的研究以及在实际环境下语音信号处理系统的开发,国内 外已经有了丰富的研究成果。目前,国内外研究成果主要分为三类:一是采 用语音增强算法,提高语音系统前端预处理的抗噪能力,从而提高了输入信 噪比。二是寻找稳健的耐噪声的语音特征参数。比如,m a n s o u r 和j u a n g 提出 了短时修正的相干系数( s h o r tt i m em o d i f i e dc o h e r e n c ec o e f f i c i e n t 简称s m c ) 作为语音特征参数,该参数基于自相关函数序列的线性预测技术。实验证明 该参数对宽带噪声具有较好的抗噪性。第三类是基于模型参数适应化的噪声 补偿算法,例如针对加性噪声的h m m 合成法,p a r a l l e lm o d e lc o m b i n a t i o n 法 和针对乘性噪声的s t o c h a s t i cm a t c h i n g 法以及两方面都考虑的方法。 语音通信过程中的噪声都是随机的,要从带噪语音信号中提出完全纯净 的语音信号是不可能的。所以,应用啸叫抑制器的语音增强系统,对语音信 号增强的目的主要有:第一,主观上,尽量消除背景噪声,为后续语音处理 打好基础,使听众乐于接受,不感觉疲劳;第二,客观上,以提高语音可懂 度为目的。在大多数情况下,这两种目的不能兼顾,需要使用者在实际应用 中作折衷。比如在语音识别系统中,强调语音识别的错误率要尽量低,也就 是强调客观度量方面。而在语音增强系统中,最重要的是使听众听起来舒适, 声音的保真度要好,失真要小,即主要注意语音的主观度量。 电子科技大学硕士学位论文 语音增强算法的基础是对语音和噪声特性的了解和分析。接下来我们就 对语音和噪声的主要特性,人耳对语音感知的特性,语音增强信号的模型进 行分析【”。 2 1 1 语音信号的主要特性 1 语音信号是一个时变的、非平稳的随机过程 人类的发声系统的生理机构的变化速度,有一定限度,在一段时间内 ( 1 0 m s 一3 0 m s ) ,人的声带声道形状具有一定的稳定性,因而语音的短时谱也 有相对的稳定性。在语音处理中,可以利用语音短时谱的这种平稳性,这也 是语音信号处理中选择帧长的依据1 2 j 。 2 语音大体可以分为清音和浊音两大类 从语音产生的机理看,清音和浊音有明显的差别。浊音在时域上呈现明 显的周期性,在频域里有共振峰结构,所以能量大多集中在较低频段内。而 清音明显不同,它没有明显的时域频域特征,类似于高斯白噪声。在语音增 强中,可以利用浊音的这种周期特性,用梳状滤波器提取语音分量或者抑制 非语音信号。但是,清音难以与宽带噪声相区分i 。 3 作为一个随机过程,语音信号可以用统计特性来分析 语音是非平稳的,非遍历的随机过程,在时域内长时间的统计特性在语 音增强中的意义不大。它的短时谱幅度的统计特性是时变的,只有当分析帧 长趋近于无穷长时,才能认为其分布是高斯的。在高斯模型的假设前提下, 傅立叶系数被认为是独立的高斯随机变量,其均值为零,均方差为时变的。 这样的高斯模型应用于有限l 帧长,仅仅是一种近似的描述,在宽带噪声污染 下的带噪语音的语音增强中,可以以这样的假设作为前提【5 】。 2 1 2 噪声的特性及其分类 噪声来自实际的应用环境,变化多样,有加性噪声,还有非加性噪声。 非加性噪声,我们可以转换成加性噪声。比如卷积噪声( 或者乘性噪声) 可 以同态变换成加性噪声。与信号相关的量化噪声,可以通过伪随机噪声扰动 的方法,转换为与信号不相关的加性噪声。加性噪声可以分为有周期噪声、 脉冲噪声、宽带噪声以及同声道干扰等【“。 1 周期噪声 4 第二章语音增强的基本原理 周期噪声最主要的特点是,它在频域内是一根根离散的谱线,主要来自 于发动机等周期性运动的机械装置,电气干扰等。电源的交流声也会引起周 期的噪声。幸运的是这样的周期噪声的处理技术已经很成熟,我们可以用梳 状滤波器来滤除,用数字信号处理方法解决。但是,在实际应用环境中,周 期噪声在频域不仅仅是单一的离散谱线,还有一些窄带的谱。而且,这些窄 带谱往往是时变的,还和语音信号产生混叠,必须采用自适应的方法,才可 能自动识别和区分1 4 l 。 2 脉冲噪声 脉冲噪声在时域内是很窄的脉冲,一般来自爆炸、撞击、放电。 消除脉冲噪声一般可以在时域进行:对带噪语音信号的幅度值作平均, 确定阀值。当信号的幅度大于这一阀值,就判定它为脉冲噪声,然后对它作 进行一定的衰减,甚至完全消除。也可以根据相邻信号样值通过内插的方法, 对脉冲噪声在时域进行平滑,直接消除【4 】。 3 宽带噪声 宽带噪声主要来自于热噪声、气流噪声和各种随机噪声源,量化噪声也 可以是宽带噪声。由于宽带噪声在时域和频域与语音信号都是重叠的,消除 它最为困难。这种噪声只有在语音间歇的时候才+ 单独存在。对于平稳的宽带 噪声,通常可以认为是白色高斯噪声。有色高斯噪声,可以通过预白化处理。 对于非平稳的宽带噪声,情况就要复杂得多1 4 j 。 4 同声道语音干扰 人耳可以在两人以上通话环境区别自己所需要的语音,这种分辨能力是 人体内部语音理解机理所具有的一种特有的感知能力,称为“鸡尾酒效应”, 这种能力来自于人耳的双耳输入效应。但是,在多个语音重叠在单信道内传 输时,双耳信号因合并而消失。如同人的指纹一样,每个人因为发声生理系 统的差异,发出的声音信号也不同f 4 j 。 5 噪声对发声背景的影响 噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音的差 别,造成了语音质量下降,使可懂度降低。强噪声可以使人感觉疲劳。强噪 声还对语音产生影响,使讲话人改变在安静环境或者低噪声环境下的讲话方 式,从而改变语音信号的参数,称为l o m b a r d 效应,也会造成语音识别系统 的性能下降。 5 电子科技大学硕士学位论文 2 1 3 人耳感知语音信号的主要特性 语音增强的效果,最终需要人耳听觉的主观判断来确定。人耳对环境噪 声有惊人的抑制作用,所以了解入耳的机能对语音增强有很积极的作用。 人耳对语音感知的主要特点: 1 人耳对语音的感知是通过各个语音信号频谱分量的幅度来获得,对相 位不敏感。 2 人耳对频谱分量强度的感受,是频率和能量的二元函数,强度与频谱 幅度的对数成正比。 3 人耳对频率高低感受近似于与该频率的对数值成正比。 4 人耳具有掩蔽效应,即强信号对弱信号有掩盖的压制效果,掩蔽的效 果是语音信号频率和幅度的二元函数,对频率临近的分量的掩蔽要比频差大 的分量有效得多。 5 短时谱的共振峰对语音的感知非常重要,且第二共振峰比第一共振峰 更为重要。因此,对语音信号进行一定程度的高通滤波不会造成可懂度的下 降。 6 人耳具有在两人或多人通话环境中,获得所需语音信号的能力1 3 】。 2 1 4 语音增强语音信号模型 带噪语音的信号模型( 见图2 - 1 ) y ( n ) = s ( n ) + n ( n )( 2 1 ) 其中,y ( n ) 代表带噪语音信号,s ( n ) 代表纯净语音信号,n ( n ) 代表噪声信号。 这里,假设噪声是加性的,除此之外,还对噪声作以下假设: 1 噪声是局部平稳的。局部平稳是指,一段带噪语音中的噪声,与语音 段开始前那段噪声,具有相同的统计特性,而且在整个语音信号处理段内保 持不变。也就是说,可以根据语音开始前那段噪声,来估计语音中所叠加噪 声的特性。 2 噪声和语音信号独立,或者统计不相关。 3 只有带噪语音可以利用,没有其他参考信号【1 1 。 6 笙三重堕童塑塑塑垩奎堕里 一 _ _ _ 一一 图2 1 带噪语音信号模型 2 2 语音增强技术的现状和发展趋势 语音增强,以从带噪语音中提取尽可能的纯净语音为主要目标。7 0 年代 以来,提出了各种各样的语音算法,由于计算量比较大,所以其实用性受到 了很大的局限。8 0 年代后,大规模集成电路的问世,尤其是d s p 技术的飞跃 发展,使这些计算量大的语音增强算法的应用成为可能。单声道和双声道有 不同的语音增强算法。针对于我们使用的单声道的情况,介绍一下几种比较 通用的单声道语音增强算法1 1 : 1 噪声对消法 无论在时域或者频域,如果能直接把噪声分量从带噪语音中去除,来增 强语音信号,无疑是最为直接有效又简单的办法。噪声对消就是以此为出发 点的。它用背景噪声作为抵消的参考信号。因此,参考背景噪声的准确与否 就直接影响到噪声抵消的性能。在采集背景噪声时,往往用自适应滤波技术, 尽可能使参考信号接近带噪语音中的噪声。 2 谐波增强法 语音中的浊音具有明显的周期性,反映在频域就是一系列对语音基波和 谐波的一个个峰值。这些谐波分量占了大部分语音信号能量,可以用自适应 梳状滤波器来提取语音信号的基频及谐波分量,抑制其他周期噪声和非周期 的宽带噪声。由于语音信号是时变的,语音基音的周期也不断变化,能否正 确地估计基音周期以及直接跟踪基音变化,是谐波增强法的关键所在。 3 基于语音生成模型的增强算法 7 电子科技大学硕士学位论文 语音的发生过程可以建模为一个线性时变滤波器。对于不同的语音,采 用不同的激励源。应用最广泛的语音生成模型是全极点模型。基于语音生成 模型,可以得到一系列语音增强算法,比如时变参数w i e n e r 滤波和k a l m a n 滤波方法。w i e n e r 滤的背景噪声白化效果好,k a l m a n 滤波能有效消除有色噪 声。但基于语音生成模型的增强算法运算量比较大,系统性能还有待提高。 4 基于短时谱估计的增强算法 基于短时谱估计的增强算法很多,比如谱相减法、w i e n e r 滤波法、最小 均方误差法等。这些算法适应信噪比范围大、方法简单、易于实时处理,所 以成为应用最为广泛的语音增强算法。 5 基于小波分解的语音增强算法 这是随着小波变换这发展起来的一种新的语音增强算法,又结合了谱相 减的一些基本原理。 6 基于听觉屏蔽的增强算法。 听觉屏蔽法是利用人耳的听觉屏蔽特性的一种增强算法。人耳在强噪声 干扰下分辨出需要聆听的信号,也可以在多个说话者同时发声时,分别把它 们提取出来。正是因为这样的原因,人们对听觉屏蔽法寄予了厚望。随着技 术的发展,这一方法应该还有很大的发展空间。 噪声对消法、谐波增强法、基于语音生成模型的增强算法和基于短时谱 估计的增强算法都有一段发展历史了。在这些语音增强算法里,基于短时谱 估计的增强算法中的谱相减法,以及其改进形式最为常用。这是因为,它的 运算量小,容易实时实现,而且增强效果较好。就发展趋势而言,小波分解 法和基于听觉屏蔽法是人们研究的热点。小波分解是一门新兴的学科,人们 的研究还不够,随着小波分解的发展,必然导致对小波分解增强算法研究的 深入。基于听觉屏蔽法,是随着对人耳听觉系统的认识而发展起来的,目前 还处于发展阶段。对于要实际应用于声反馈系统的语音增强算法,肯定要选 用易于实现,并且比较成熟的技术。所以,我们在下面对几种语音增强算法 进行仿真之后,选用了基于短时谱估计的谱相减的改进形式,作为实际使用 的语音增强算法【6 j 。 2 3 语音增强方法的性能评估标准 消除噪声是语音增强算法的主要目的,信噪比的提高是衡量一种语音增 8 第二章语音增强的基本原理 强算法和语音增强系统性能的重要指标。从另外一个角度来看,语音处理的 最终评判是靠人的听觉来接受的,因此信嗓比不一定是最合适的指标。经过 多年语音信号处理的发展,已经有多种对语音质量和可懂度进行评价的手段, 大致可以分为主观评价和客观评价两种1 1 i 。 2 3 1 主观评价 主观评价是以人为主体来评价语音质量。有以下几种主观评价方法:平 均意见分、可懂度测试、音韵字清晰度测量和满意度测量。主观评价符合人 对语音质量的感觉,但缺点是费力费钱,灵活性差,重复性和稳定性不够, 受测试主体不同而主观影响大。下面简单介绍一些主观评价标准。 1 平均意见分( m e a no p i n i o ns c o r e m o s ) m o s 采用五级评分标准,将重建的语音质量分为优( 5 分) 、良( 4 分) , 中( 3 分) 、差( 2 分) 、坏( 1 分) 五等级。优表示重建语音和原始语音只有 很少的细节差异,如果不进行对照比较,就觉察不到有这样的差异:良表示 语音重建的畸变和失真不明显,不注意听就意识不到;中表示重建语音有比 较明显的畸变和失真,但是语音自然度和清晰度仍然很好,听起来没有疲劳 感;差表示语音重建有比较大的失真和畸变,昕起来略有疲劳感;坏表示重 建语音的质量极差,让听众无法忍受。 这种方法的优点在于,被测试者可以自由地对听到的语音打分,缺点是 因为被测试者的差异,可能使测试结果差别很大。 2 判断韵字测试( d i a g n o s t i cr h y m e t e s td r t ) 提供相当数量的样本字,每一对的样本字只有开头的辅音不同,用来测 试发音的一系列不同特性,比如浊音清音鼻音齿擦音连读等等。被测试者 需要指出在测试字对中,他们听到的是哪一个单词。总的判断韵字测试得分 由以下公式得出: d r t 2 箐恭茜囊莲产姐o o q 1 , 2 3 2 客观评价 语音质量的客观评价,以语音系统的输入信号和输出信号之间的误差, 来判别语音质量的好坏,是一种误差度量。目前流行的客观评价标准有信噪 9 电子科技大学硕士学位论文 比、分段信噪比、噪声掩蔽比等。 1 信噪比( s n r ) 信噪比,一直是衡量针对宽带噪声失真的语音增强算法性能的常规标准, 其变化形式有分段信噪比,频域加强型信噪比等等。需要注意的是信噪比只 是对试图复制输入声音的编码或者增强算法有效。假设l ,( n ) 表示带噪语音信 号,n 0 ) 代表噪声信号,j 0 ) 表示相应的语音增强信号。所有这些信号假设是 能量信号,则时域误差可以表示为 e ( n ) = s ( n ) 一j ( n )( 2 3 ) 经典形式的信噪比可以表示为下面的式子: l s 2 0 ) 一1 0 1 0 酣。也。 = 1 0 1 0 9 1 0 瓦萧可一 在上面经典信噪比公式中,要预先知道语音信号,才可以决定信噪比的 值,这是不大实用的,一般只应用于算法的仿真中,因为增强算法的仿真一 般都预先知道纯净的语音信号。 经典的信噪比方法对语音质量的评估,并不让人满意,主要有以下两个 原因: 第一,经典形式的信噪比与语音质量的主观属性没有很好的联系。 第二,它同等对待语音信号的所有误差。语音信号的能量是时变的,而 噪声能量是均匀分布的,所以帧与帧之间的信噪比是不同的。如果某一帧的 的浊音有很多能量聚集,就可能有很高的信噪比。因为清音部分具有很少的 能量,容易受到噪声的干扰,从而对它进行分离就比较困难。 从而,我们引出分段信噪比概念。 2 分段信噪比( s e g m e n ts i g n a ln o i s er a t i o ns e g s n r ) 分段信噪比用来衡量时域波形失真度,定义为: s e g s n r m 0 9 1 。 台 。 砉+ ,南 ( 2 5 ) 其中,m 表示语音的帧数,n 表示语音帧长度,m ,表示语音帧的结束点。 分段信噪比是对每帧的信噪比进行计算,然后对处理的帧数取平均。这里需 1 0 第二章语音增强的基本原理 _一 一 要注意两个问题。一是怎么处理没有语音的噪声帧,噪声帧的存在会降低信 噪比;二是如何处理信噪比比较高的帧,一旦信噪比超过了3 5 d b ,人耳就无 法识别他们的差异,其存在会提高信噪比。以上两个问题可以用设置高低门 限来解决。在计算分段信嗓比时,对于噪声帧,可以采用前面已经得到的噪 声帧的判定( v a d 噪声估计) 来去除这一帧。对于高于3 5 d b 的语音帧,就可 以按门限来扣除【”。 电子科技大学硕士学位论文 3 1 系统硬件 第三章系统硬件介绍 3 1 1 硬件系统的概述 图3 - 1 是通用数字音频信号处理平台。麦克风采集模拟音频信号,经过 a d c 转换成数字音频信号,输入到数字信号处理器中进行处理。处理后的数 字音频信号,再经过d a c 转换成模拟音频信号,输出到功放或者扬声器【6 】【1 0 】。 图3 1 通用数字音频信号处理平台 由于本系统实现的功能除了本文提到的语音增强算法外,还有自动声反 馈抑制器的设计,需要使用较复杂的数字信号分析和处理算法,系统运算量 较大。为了满足实时性的要求,应当选择运算能力较强的d s p 。另外,为了 使产品具有较强的市场竞争力,系统成本应严格控制。再者,系统硬件资源 应留有一定的余量,以便功能的升级和扩充。基于上述三点考虑,我们选择 了t i 公司的t m s 3 2 0 v c 5 5 1 0 这款高性能、低功耗的定点d s p ,作为硬件平台 的核心。为了对算法效率和资源使用情况有一个准确的评估,在系统硬件平 台设计之前,使用s d 公司的t m s 3 2 0 v c 5 5 1 0d s k 板对算法进行调试和优化。 第三章系统硬件介绍 图3 2t m $ 3 2 0 v c 5 5 1 0d s k 板的功能框幽 t m s 3 2 0 v c 5 5 1 0d s k 板的硬件框架如图3 2 所示,板上带有相当丰富的 资源以及各种扩展接口。本系统仅使用音频编解码( c o d e c ) 模块、d s p 模 块、j t a g 调试模块和电源模块等,如图3 3 所示。音频c o d e c 模块完成d s p 处理前后的a d 和d a 转换,采用t l 公司的音频编解码芯片t l v 3 2 0 a 1 c 2 3 。 d s p 模块负责语音信号的增强,声反馈信号的检测、判定和抑制等处理。j t a g 模块用于系统的在线仿真和测试。电源模块向系统各个模块提供直流电源。 系统采用+ 5 v 的直流供电,并通过两个三端稳压器变换成+ 1 6 v 和+ 3 3 v , + 1 6 v 给d s p 核供电,+ 3 3 v 给d s p 外设以及其他数字逻辑电路供电【1 6 ,。下 面主要介绍音频c o d e c 模块和d s p 模块。 麦克风输入 输出到功放 3 1 2d s p 模块 音频c o d e c 模块 t l v 3 2 0 a l c 2 3 d s p 模块 t m $ 3 2 0 v c 5 5 1 0 j t a g 模块 图3 3 本系统所使用的硬件模块框图 t m s 3 2 0 v c 5 5 1 0 是一款1 6 b j t 定点数字信号处理器,具有较高的操作灵 活性和运行速度。它具有以下主要特点: 指令周期时间5 n s ,时钟频率2 0 0 m h z ,每周期执行1 或2 条指令; 双乘法器结构支持最高每秒4 0 0 兆次乘加运算( 4 0 0m m a c s ) ; 2 个算术逻辑单元( a u j :4 0 _ b i t 与1 6 _ b “各一个) ,4 个4 0 _ b i t 累加器: 1 条内部程序总线,3 条内部数据操作数读总线和2 条内部数据操作数 写总线; 可变长度指令集( v a r i a b l e l e n g t hi n s t r u c t i o ns e t ) ,具有指令集规定的并 行指令和用户自定义的并行指令; 1 6 0 k 1 6 一b i t 片内r a m : 8 块4 k 1 6 b i t ( 6 4 k 字节) d a r a m ; 3 2 块4 k 1 6 b i t ( 2 5 6 k 字节) s a r a m : 1 3 电子科技大学硕士学位论文 1 6 k 1 6 一b i t ( 3 2 k 字节) 零等待片内r o m ; 8 m 1 6 一b i t 最大可寻址扩展存储器空间; 3 2 - b i t 外部存储器接口( e m i f :e x t e r n a lm e m o r yi n t e r f a c e ) 与下列存储 器无缝接口: 异步s r a m ; 异步e p r o m ; 同步d r a m ; 同步突发s r a m ; 丰富的片上外设包括: 6 通道d m a ( d i r e c tm e m o r y a c c e s s ) 控制器; 3 个多通道缓冲串口( m c b s p :m u l t i c h a n n e lb u f f e r e ds e r i a lp o r t ) : 1 6 一b i t 并行增强主机接口( e h p i :e n h a n c e dh o s tp o r ti n t e r f a c e ) : u s b 全速( 1 2 m b p s ) 从端口; 可编程数字锁相环( d p l l ) 时钟发生器。 d s p 模块的硬件接口如图3 - 4 所示。系统采用频率为1 2 m h z 的晶振为d s p 提供时钟。d s p 内部工作时钟采用p l l 方式设置为1 6 倍频,使系统主时钟达 到1 2 m h z 1 6 :1 9 2 m h z 【1 0 1 。 3 1 3m c b s p d 1 2 m h z 晶振 t m s 3 2 0 v c 5 5 1 0 : jj t a g 仿真接口 图3 - 4d s p 模块框图 t m s 3 2 0 v c 5 5 1 0 片内带有3 个m c b s p 接口,具有以下功能: 全双工同步和异步通信; 双缓冲发送和三缓冲接收,实现数据流的连续发送和接收; 可向c p u 发送中断和向d m a 控制器发送d m a 事件; 与工业标准编解码器、模拟接口芯片( a i c s ) 以及其他串行a d 和d a 器件直接接口; 1 4 第三章系统硬件介绍 外部时钟输入或内部可编程时钟两种时钟控制方式; 接收和发送使用独立的帧信号和时钟信号,且极性可编程; 字宽可选:8 、1 2 、1 6 、2 0 、2 4 、3 2 - b j l o m c b s p 与外部设备的连接概念框图如图3 5 所示,其外部引脚包括数据 发送d x 、数据接收d r 、发送时钟c l k x 、接收时钟c l k r 、发送帧同步f s x 和接收帧同步f s r 。m c b s p 内部由数据收发通路,数据、时钟与帧同步控制, 多通道控制和c p u 中断及d m a 同步事件控制器构成。 m c b s p 的数据接收通路包含3 组缓冲寄存器:接收移位寄存器r s r 1 ,2 】、 接收缓冲寄存器r b r 1 ,2 】和数据接收寄存器d r r 1 ,2 】。到达d r 引脚的数据 移存到r s r 1 ,2 1 ,接收到一个完整的字( 可以是8 、1 2 、1 6 、2 0 、2 4 或3 2 位) 后,检查r b r 1 ,2 】是否为空,若为空则将r s r 1 ,2 】中的数据复制到r b r 1 ,2 1 , 在c p u 或d m a 控制器没有对d r r 1 ,2 】进行操作时,可以将r b r 1 ,2 】中的数 据复制到d r r 1 ,2 】,c p u 或者d m a 控制器通过读取d r r 1 ,2 中的数据来接 收串口数据。 m c b s p 的数据发送通路只有2 组缓冲寄存器:数据发送寄存器d x r 1 ,2 】 和发送转移寄存器x s r 1 ,2 1 。m c b s p 发送数据时,c p u 或d m a 控制器将数 据写入d x r 1 ,2 】。若x s r 1 ,2 中没有数据,则d x r 1 ,2 】中的值移入x s r 1 ,2 】, 再由x s r 1 ,2 ”哿数据移到d x 上发送;若x s r 1 ,2 不为空,则等待x s r 1 ,2 】 中的数据全部移到d x 脚发送之后,才将d x r 1 ,2 中的值复制到x s r 1 ,2 , 然后移出到d x i “】。 】5 电子科技大学硕士学位论文 引脚 图3 5m c b s p 和外部设备连接图 m c b s p 通过一系列存储器映射控制寄存器进行配置和操作。表3 - 1 是 m c b s p 的配置寄存器列表。 表3 1m c b s p 配置寄存器列表 寄存器名寄存器描述 s p c r 1 ,2 】 串口控制寄存器1 , 2 r c r 1 ,2 接收控制寄存器1 , 2 x c r 1 ,2 发送控制寄存器1 , 2 s r g r 1 ,2 】 采样率发生器寄存器1 , 2 m c r 1 ,2 】多通道控制寄存器1 , 2 p c r引脚控制寄存器 r c e r a :h 】 接收通道使能寄存器a h x c e r a :h 】 发送通道使能寄存器a h 在本系统中,使用m c b s p i 对c o d e c 进行配置,使用m c b s p 2 与c o d e c 1 6 jf、;,、 第三章系统硬件介绍 的数字音频接口无缝连接,完成音频数据的接收和发送。配置m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人在线养生课程课件
- 外研版八年级英语上册Unit 4 Digital life学情评估卷(含答案)
- 上海市徐汇区某中学2024-2025学年六年级(五四制)下学期数学期末考试试卷(含解析)
- CN120197997A 一种融合多源数据的矿区碳排放智能评估方法及系统
- CN120197411A 一种医疗器械使用寿命监测方法及系统
- 人教版八年级英语下册复习专练:完形填空专练(含答案)
- 期末核心考点突破提升培优卷-三年级数学下学期(西师大版)含答案解析
- 2025叉车工职业发展规划与劳动合同
- 2025年度城市综合体项目房屋代销合作协议书
- 2025版摊铺机租赁及运输服务合同
- 2025年六年级数学培优辅潜工作计划及措施
- 2025年北京市高考语文真题之名著阅读《红楼梦》
- 医务人员职业暴露处理流程考核试题与答案
- 2025年八年级生物秋季开学第一课课件(人教版)
- 宠物行业宠物服务连锁经营与管理方案
- 辽宁省抚顺县2025年上半年公开招聘辅警试题含答案分析
- 养老院安全培训课件
- LYTZW-GW-001《公司文件编号管理规定》
- 企业内训师考核与激励制度
- (标准)供电 供水协议书
- 诺帝菲尔FCI-2000消防主机操作
评论
0/150
提交评论