(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf_第1页
(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf_第2页
(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf_第3页
(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf_第4页
(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(电力电子与电力传动专业论文)基于fpga的语音增强算法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士学位论文和应用情况。最后在m a t l a b 仿真的基础上,利用a l t e r a 公司的c y c l o n e 2 系列f p g a 芯片和多种e d a 工具,完成了lms 自适应滤波器的f p g a 设计。关键词:语音增强,背景噪音,自适应滤波器,l m s ,r l s ,f p g a西华大学硕士学位论文r e s e a r c ha n di m p l e m e n t a t i o no fs p e e c he n h a n c e m e n to nf p g ap o w e re l e c t r o n i c sa n de l e c t r i c a ld d v eg r a d u a t e :q ix i n l is u p e r v i s o r :w a n gh a i b i nt h ep r i m a r yp u r p o s eo fs p e e c he n h a n c e m e n ti st op 证匆i tf r o mn o i s e b e c a u s ei ti sv e r yc o m p l i c a t e dt og r a s pt h er a n d o mn o i s e sc a u s eo rc h a r a c t e r s ,i ti si m p o s s i b l et oe l i m i n a t et h er a n d o mn o i s ec o m p l e t e l y a c t u a l l y , g o a l so fs p e e c he n h a n c e m e n ta r et oi m p r o v et h eq u a l 时o fs p e e c h ,t oe l i m i n a t et h eb a c k g r o u n dn o i s es ot h a te v e r yh e a r e ri sw i l l i n gt oh e a ra n dw o u l d n tf e e lw e a r y , a n dt ou p g r a d et h eq 诚i t yo fs p e e c ha n du n d e r s t a n d a b l el e v e l i nt h i sp a p e r , f i r s t l y , s e v e r a ls p e e c he n h a n c e m e n ta l g o r i t h m sw i l lb ei n 仃o d u c e d ,s u c ha st h el e a s t - m e a n s q u a r e ( l m s ) ,n o r m a l i z e d l m s ,s i g n e r r o r - l m sa n dr e c u r s i v el e a s ts q u a r e ( r l s ) a d a p t i v ef i l t e ra l g o r i t h m s t h e s ef i l t e r sm i n i m i z et h ed i f f e r e n c eb e t w e e nt h eo u t p u ts i g n a la n dt h ed e s i r e ds i g n a lb ya l t e r i n gt h e i rf i l t e rc o e f f i c i e n t s o v e rt i m e ,t h ea d a p t i v ef i l t e r so u t p u ts i g n a lm o r ec l o s e l ya p p r o x i m a t e st h es i 孕1 a 1y o uw a n tt or e p r o d u c en o to n l yt h ef u n d a m e n t a l so ft h e s em e t h o d sw e r es t a t e d ,b u ta l s ot h ew a y st h e yc a l lb ep u ti n t op r a c t i c e ,s o m ei m p r o v e m e n tw a sm a d e ,e x p e r i m e n tr e s u l t sw e r ec o m p a r e d ,a n dt h ec o n n e c t i o n sa n dd i f f e r e n c e sw e r ea l s or e v e a l e di nt h i se s s a y o nt h eb a s i so fr e s e a r c ho fa d a p t i v ef i l t e rt h e o r y , l m sa d a p t i v ef i l t e ra l g o r i t h m i se s p e c i a l l ys t u d i e d f o rt h ed i f f e r e n tn o i s e ,t h ea s t r i n g e n c y 、c o n v e r g e n c es p e e d a n ds t a b i l i t yo ft h es p e e c he n h a n c e m e n ta l g o r i t h m sw e i g h tc o e f f i c i e n ti se s p e c i a l l ya n a l y z e d f r o mt h es i m u l a t i o nr e s u l t ,r l sa d a p t i v ef i l t e ra l g o r i t h mh a v eag o o dp e r f o r m a n c et od e a l 、析也t h es t a t i o n a r yn o i s ea n dt h en o n s t a t i o n a r yn o i s e b u tt ot h el m sa d a p t i v ef i l t e rs u c ha st h es a m es p e e c hn o i s e ,s p e e c he n h a n c e m e n te f f e c ti s n tp e r f e c ti nt h en o n s t a t i o n a r yn o i s e t h ep r i n c i p l eo ff p g aa r ei n t r o d u c e d ,e s p e c i a l l ya b o u ta l t e r ac y c l o n e 2 t h ea u t h o rd e s i g n e das p e e c he n h a n c e m e n ts y s t e mw h i c hi ss u c c e s s f u lb o t hi nh a r d w a r ea n ds o f t w a r ed e s i g na n dt h i ss y s t e mc a l lr e s t r a i nn o i s ef r o mn o i s yh i西华大学硕士学位论文s p e e c he f f e c t i v e l y k e y w o r d s :s p e e c he n h a n c e m e n t ,b a c k g r o u n dn o i s e ,a d a p t i v ef a l t e r , l m s ,r l s ,f p g ai v西华大学硕士学位论文声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得西华大学或其它教育机构的学位或证书而使用过的材料。本学位论文成果是本人在西华大学读书期间在导师的指导下取得的,论文成果归西华大学所有,特此声明。7 4年月日年月日西华大学硕士学位论文西华大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1 、保密口,在年解密后适用本授权书;2 、不保密町适用本授权书。( 请在以上口内划4 )学位论文作者签名薪墨碰指导教日期:砂尹一日期:西华大学硕士学位论文1 绪论1 1 问题的提出当今世界正处于信息时代,计算机、电子和信息技术的高速发展,推动着人类社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以像人一样听懂人的话语,看懂人的动作,执行人们所希望的任何任务,而语音数字信号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及很广的交叉学科,其研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学和语言学等许多学科,其中数字话音通信、。声控打印机、自动语音翻译和多媒体信息处理等许多方面都有常重要的应用。语音数字信号处理包含的内容十分广泛:如包括语音编码、语音识别、语音合成、说话人识别和语音增强等。在语音数字信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段的重要环节。人们在语音通信过程中会受到来自周围环境、传输媒介引入的、通信设备内部噪声,乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语声已是非纯净的原始语音信号,而是噪声污染的带噪语音信号。如安装在汽车、飞机或船舰上的电话,会受到发动机产生的噪声的干扰;在街道、机场或其他公共场合使用电话,经常受到很强的背景噪声的干扰,严重影响通话质量;又如,室内会议电话的回声随同语音广播到每个会议地点,影响收听效果;战场上存在着严重的噪声,使得战地电话或电台无法进行正常的语音通信,这些都需要一种语音增强系统,使人们可以在强背景噪声下可以正常通信。噪声污染也使许多语音处理系统的性能急剧恶化。语音增强作为预处理,可以改善这些系统的性能,例如语音识别正在步入实用阶段,但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响,这就需要语音增强技术进行预处理。数字电话中需要进行语音编码,在语音编码时,特别是参数编码,由于语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中的背景噪声严重干西华大学硕士学位论文扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而由于干扰往往都是随机的,提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高可懂度,这是一种客观度量。这两个目的往往不能兼得。目前,一些对低信噪比带噪语音进行语音增强的方法可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降。语音增强不但与语音数字信号处理理论有关,还涉及到人的听觉感知和语音学。再则,噪声来源众多,随场合而异,它们的特性也不同,很难找到一种通用的语音增强算法,能适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。系统中的语音增强和噪声抑制算法,除了消除噪声和保证可懂度外,还有一个重要的评价指标,即算法的复杂度。语音增强算法必须满足系统的实时性要求,并且易于实现。通常,噪声和语音在同一通道中( 单通道系统) 是最普遍的也是最难处理的一种情形,在许多实际应用中,如移动电话、车载免提电话、助听器等都是单通道系统。双通道系统能达到良好的效果,特别适用于强背景噪音的情形,不管处于动态还是静止环境,都可以提供高达3 0分贝的噪音抑制。不管噪音来自何方,双通道自适应滤波都能抑制多种类型的声音,包括:周围说话声,马路上的噪音,背景音乐和嘈杂的声音。1 2 国内外研究现状有关抗噪声技术的研究以及实环境下的语音信号处理系统的开发,在国内外作为语音信号处理的非常重要的研究课题,已经作了大量的研究工作,取得了丰富的研究成果。目前国内外的研究成果大体分为三类解决方法。一类是采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。第二类方法是寻找稳健的耐噪声的语音特征参数并提出了短时修正的相干系数,作为语音特征参数,该参数是基于自相关函数序列的线性预测技术,实验证明,该参数对宽带语音具有较好效果。但是,目前的补偿算法通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声环境中的效果并2西华大学硕士学位论文不理想。解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们很早就有这种愿望,但由于技术的难度,这方面的研究进展很小。近年来,随着声场景分析技术和盲分离技术的研究发展,利用在这些领域的研究成果进行语音和噪声分离的研究取得了一些进展。作为实用技术的发展,免持语音控制与人机界面是通信系统、移动设备、计算机等未来必然的发展趋势,因此语音交流技术成为目前各国争相研究的焦点。s p i r f f 公司提供高级噪音消除技术对任何背景噪音都具有很强的抑制作用并能输出清晰的语音。s p i r i t 的噪音消除技术能够广泛的应用于无线电话系统、机顶盒、视频会议、v o i p ( v o i c eo v e r n t e m e tp r o t o c 0 1 ) 方案、语音识别的前处理器与其它相关的语音产品。图1 1 是s p i r i t 提供了一种双麦克风n c( n o i s e c a n c e l l a t i o n 噪声消除) 噪音解决方案:f i g u r ei1s p i r i t ,d o u b l e m i c r o p h o n e s t e c h n o l o g y图1 1s p i r i t 公司艰麦克风技术原理n m s 国际通讯有限公司( n a s d a 0 :n m s s ) 是为无线应用及基础设施提供技术及解决方案的领先厂商。最早的s t u d i os o u n d 系列语音增强设备是回声抑制器,出现在1 9 9 7 年。s t u d i os o u n d 由三个部分组成:噪声补偿( nc )噪声衰减( n r )自动增益控制( a g c )西华大学硕士学位论文f i g u r e l 2 c n 雌o f s o t m de e h o - c o t m ) x m e l e dd e v i c e图l2 一十有s , a d i os o u n d 的n m s 回声抑制器的结构每个功能的最终目的是要改善话路两端的信噪比,从而提高通话清晰度。所有这些功能紧密地在一起发挥作用,不管外面噪音( 比如交通噪音) 有多大,都能为无线电话通话双方创造一个最理想的收听环境。美国a l i p h 公司生产的能够抑制外部噪音,只向对方传送通话者声音的芯片组“j a w b o n e ”。其基本原理如下,首先,使用封装在芯片组中骨传导传感器,辨别通话者讲话和未讲话的时间段。其次,将通话者未讲话时进入麦克风里的环境音作为噪音进行建模,然后把噪音部分从进入麦克风中的声音中去除掉。和过去只消除无声时的噪音的方法不同,该芯片组的特点是能够抑制通话时噪音,尤其是通话者以外的其他人的声音。卓联半导体( z a r l i n k ) 宣布扩展其语音处理产品阵营,推出一款高度集成、灵活且可编程的免提通信系统解决方案。z l 3 8 0 0 4 语音处理平台及嵌入式固件可在高噪声环境中提供可测量的声音质量改善。该集成解决方案可满足缩短开按时i 剞和减少电路板空间的要求。西华大学硕士学位论文田13 卓靶l 3 g 月镕誊增哥辕& 4 目f i g u r e l3 z a r l i n k ,z l 3 8 0 0 4c h i p ,t h e o r y f i g u r eo f s p e e c he n h a n c e m e n tz l 3 8 0 0 4 语音处理平台作为一个完整的解决方案,它集成了双通道编解码器、卓联面向声学回声消除和噪声降低应用的语音处理器引擎、以及针对免提车载套件( z l s 3 8 5 0 0 ) 和扬声器( z l s 3 8 5 0 1 ) 的完全固件支持。新平台可帮助设计者应对复杂噪声情况,如回声、背景噪声和含混语音等一直困扰免提通信系统的问题。f o r t e - m e a i a 公司发布了一个多功能单芯片u s b 回声消除器和噪音抑制器解决方案a m b i nf m l 0 8 3 。a m b i nf m l 0 8 3 是一种理想的单芯片回声消除器和噪音抑制器,适用于电脑v o l p 或电话的免提应用。它还具有应用于手提产品的小麦克风阵列( s a m ) 技术。f i g u r e l4f o r t e m e d i a s a mh a n d h o l d l e m i n a lb a s e do n b e a m f o r m i n g国】4f o t t e m e d i as a m 波束形成的手持终端美国一家民营讯号处理技术公司q u e n a n 近期宣布将其创新的宽频带噪音消除技术应用到移动手持设各和消费设备当中。用于数据中心以改善互联的串音、速度和覆盖范围,这些体积较小的低功耗消费设备可减少无线手持设备、便携式电脑和游戏机的噪音。与以往滤器不同的是,这些设备可消除接收器的输入频谱中的宽频带噪音。竺嚣酲西华大学硕士学位论文t l g 【n l3 啦u sc h i p圈1 5 q u e l l a n 茜片软件无线电技术初创公司t e e l m o c o n c e p t s 于2 0 0 7 年宣布它在美国专利局申请了两项新专利,这种专利软件能够有效的消除手机和其它通信设各的背景噪音,显著的提高声音的清晰度。公司预计这种技术将于2 0 0 7 年直接应用在手机之上,或者作为一个独立的a s i c ( 特定用途集成电路) 芯片,或者和通信设备的数字信号处理芯片结合。与此同时多家公司也宣称他们拥有了手机背景噪音抑制技术的软件方案或硬件方案,像日本的n c t 公司、德国的c o r t o l o g i c 公司、美国的a d a p t i v e d i g i t a l t e c h n o l o g i e s 等。背景噪音抑制产品在短短的几年内从无到有,从技术的探索到技术的成熟都给我们以启示。一是要踏踏实实的做基础性的研究工作,二是对当前的背景噪音抑制技术进行总结,从而确定我们的研究方向。耳机技术可以说是手机背景噪音抑制技术的最初解决方案,语音压扩技术现在广泛的应用在通信系统中,麦克风阵列技术有良好的抗噪性能,但是其目前的成本过高,期待着材料技术的突破。随着d s p ( 数字信号处理) 技术的发展和在各种应用中的深入,数字信号处理算法的研究是当前的一个热点。其中自适应滤波算法以其卓越的自学习和自跟踪性能在以上的产品中得到广泛的应用,也是本文要研究的方向。自适应滤波的基本理论通过几十年的发展已日趋成熟,近十几年来自适应滤波器的研究主要针对算法与硬件实现。算法研究主要是对算法速度和精度的西华大学硕士学位论文改进,其方法大都采用软件c 、m a t l a b 等仿真软件对算法的建模和修正。但是随着信息化的进程加快和计算机科学与技术、信号处理理论与方法等的迅速发展,需要处理的数据量越来越大,对实时性和精度的要求越来越高。百兆比特每秒的数据传输速率对自适应接收技术是个极大的挑战。d s p 处理器虽然具有良好的通用性和灵活性,虽然其在硬件结构上得到了很大的改进,比如增加了多个硬件乘法器和使用多乘法器的并行指令等,但并没有摆脱传统的c p u 工作模式,而且d s p 处理器是通过软件指令完成d s p 算法,其顺序的工作方式制约了其数据处理速率,因此d s p 处理器对于几十甚至上百兆比特每秒的数据处理速率显得无能为力。现代大容量、高速度的f p g a 在可重配置的数字信号处理应用领域,特别是对于任务单一、算法复杂的前端数字信号处理运算,有独特的优势。例如对于需要经常更新滤波器权系数的自适应滤波器,由于特定d s p 处理器的位数是固定的,采用f p g a 处理器相比d s p 处理器就具有总线可调整的优势。另外,f p g a 所具有的大规模并行处理能力和可编程的灵活性使得设计的系统能获得极高的处理性能,并且能够适应日益变化的标准、协议和性能需求。用f p g a 实现自适应滤波器,国外起步比较早,发展也非常迅速。h e s e n e ra 于1 9 9 6 年提出了用f p g a 实现自适应滤波器的设想,并在f p g a 上实现了l m s 的8 阶8 位f i r 滤波器。w o o lf r i e sn 等人用f p g a 实现了自适应滤波器,并应用于图象处理。d a w o o d a 等人用f p g a 开发了自适应f i r 滤波器并与d s p 处理器方案进行了比较研究。1 3 本文主要研究内容论文对背景噪音技术先进行了回顾,总结了背景噪音抑制技术的理论基础与发展状况。对各种噪音抑制技术在应用上的优点和缺点进行了分析和对比。在此基础上,对现在广泛研究的自适应噪声消除技术构建了基于m a t l a b 的s i m u l i n k 仿真模型。首先用不同噪音对l m s 算法进行仿真测试,总结出了不同噪音的特点。对l m s 算法、n l m s ( 归一化l m s ) 算法、s i g n e r r o r - l m s( 符号误差l m s ) 算法、r l s ( 最小二乘法自适应) 算法的收敛性能、收敛速度、稳定性进行了比较。并对l m s 算法进行了硬件仿真和实现。经过年的7西华大学硕士学位论文努力,论文主要完成了如下内容:第一章绪论第二章语音信号和噪音的特征第三章自适应滤波的基本理论第四章l m s 滤波器对不同噪音滤波性能分析第五章不同滤波算法性能比较第六章f p g a 开发环境第七章f p g a 语音增强系统设计8西华大学硕士学位论文2 语音信号和噪音特征2 1 语音信号及特点由于语音的生成过程与发音器宫的运动过程密切相关,而且人类发音系统在产生不同语音时的生理结构并不相同,因此使得产生的语音信号是一种非平稳的随机过程( 信号) 。但由于人类发声器官变化速度具有一定的限度而且远小于语音信号的变化速度,可以认为人的声带、声道等特征在一定的时间内f 1 0 3 0 m s ) 基本不变,因此假定语音信号是短时平稳的,即语音信号的某些物理特性和频谱特性在1 0 3 0 m s 的时间段内近似是不变的,具有相对的稳定性,这样可以运用分析平稳随机过程的方法来分析和处理语音信号。在语音增强中就是利用了语音信号短时谱平稳性。语音信号基本上可以分为清音和浊音两大类。清音和浊音在特性上有明显的区别,清音没有明显的时域和频域特性,看上去类似于白噪声,并具有较弱的振幅;而浊音在时域上有明显的周期性和较强的振幅,其能量大部分集中在低频段内,而且在频谱上表现出共振峰结构。在语音增强中可以利用浊音所具有的明显的周期性来区别和抑制非语音噪声,而清音由于类似于白噪声的特性,使其与宽带平稳噪声很难区分。由于语音信号是一种非平稳、非遍历的随机过程,因此长时间时域统特性对语音信号没有多大的意义,而短时谱统计特性对语音信号和语音增强有着十分重要的作用。语音信号短时谱幅度统计特性的时变性,使得语音信号的分析帧在趋于无穷大时,根据中心极限定理,其短时谱的统计特性服从高斯( g a u s s )分布,而在实际应用时只能在有限帧长下进行处理,因此,在有限帧时这种高斯分布的统计特性是一种近似的描述,这样就可以作为分析宽带噪声污染带噪语音信号增强应用时的前提和假设。9西华大学硕士学位论文语音的时域分析和频域分析是语音析的两种重要方法。但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域特性中又没有语音信号随时间的变化关系。因此人们致力于研究语音的时间依赖于傅里叶分析的方法,这种时间依赖于傅里叶分析的显示图形称为语谱图。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显地显示出语音频谱随时问的变化情况。实际上这种谱图是一种三维频谱,即同时在时间和频率上显示出语音的特性,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。语谱图表示语音频谱随时间的变化的图形,其纵轴为频率,横轴舟时间。任一给定频率成分在给定时刻的强弱用相应点的色彩度即色调的浓淡来表示。图21 和图2 2 给出了一段噪音滤除前后的语谱图。从图中可以看出,低频噪音在图2 2 中已经明显减弱( 频率较低的白色部分是噪音) 。f i g u r e21s p e c t r o g r a mb e f o r ef r e q u e n c yd o m a i n f i l t e r i n g图2 1 频域滤波前语谱图f i g u r e2 2s p e c t r o g r a ma f t e r f r e q u e n c yd o m a i nf i l t e r i n g图2 2 频域滤波后语谱图语音信号的特点:( 1 ) 音频信号是时间依赖的连续媒体,因此音频处理的时序性要求很高。如果在时间上有2 5 m s 的延迟,人就会感到断续。( 2 ) 语音信号的频率成分主要分布在3 0 0 3 4 0 0 h z 之间,根据采样定理一般选择信号的采样率为8k h z 。( 3 ) 由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其它信息因此可能会涉及到语言学、社会学、声学等。西华大学硕士学位论文( 4 ) 语音信号是一种时变的非平稳信号。语音的生成过程与发音器官的运动过程密切相关,考虑到人类的发音器官在发声的过程中变化的速度有一定程度的限制,而且远小于语音信号的变化速度,因此可以假设语音信号是短时平稳的,在1 0 、3 0 m s 的时间内,其频率特性和某些物理特性参数可近似看作是不变的,即具有短时平稳性;另外语音信号有时在一个短时段呈现随机噪声的特性,而另一段表现周期信号的特性,或二者兼而有之,即语音信号具有准周期性。从而可以用平稳随机过程的分析方法来处理语音信号。2 2 噪音信号及分类从物理学的角度来看:噪声定义为发声体做无规则振动时发出的声音噪声。生理学的角度来看,凡是妨碍到人们正常休息、学习和工作的声音,以及对人们要听的声音产生干扰的声音,都属于噪声。在语音增强系统中,噪音通常定义为信号中的无用信号成分。在信号处理过程中,要么对噪声进行利用,如仿真时产生干扰噪声等;要么对噪声进行消除,如消除通信过程中的干扰。因此,对噪声进行定义和讨论就非常必要,这不仅有利于系统的分析,而且对噪声的合成与控制也很重要。噪声的种类很多,根据噪声功率谱密度函数的形状不同,可以把噪声分为白噪声和有色噪声。白噪声是指功率谱密度在整个频域内均匀分布的噪声。当然严格地说,白噪声只是一种理想化模型。有色噪声的功率谱密度函数则不为常数。常见的如粉红噪声、紫噪声、蓝噪声和橙色噪声等。根据与输入语音信号的关系,噪声又可分为加性噪声和非加性噪声两类。对某些非加性噪声而言,可以通过一定的变换为加性噪声。因此这里主要分析加性噪声的干扰。语音信号处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道语音的干扰等。( 1 ) 周期性噪声周期性噪声主要来源于发动机等周期性运转的机械,电气干扰也会引起周期性的噪声。其特点是频谱上有许多离散的线谱。实际信号受多种因素的影响,线谱分量通常转变为窄带谱结构,而且这些窄带谱都是时变的,位置也不固定。必须采用自适应滤波的方法才能有效地区分这些噪声分量。( 2 ) 脉冲噪声西华大学硕士学位论文脉冲噪声来源于爆炸、撞击、放电及突发性干扰等。其特征是时间上的宽度很窄。消除脉冲噪声通常可以在时域内进行,其过程如下:根据噪语音信号幅度的平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声。然后对信号进行适当的衰减,就可完全消除噪声分量,也可以使用内插方法将脉冲噪声在时域上进行平滑。( 3 ) 宽带噪声宽带噪声的来源很多,热噪声、气流噪声及各种随机噪声源、量化噪声都可以视为宽带噪声。宽带噪声与语音信号在时域和频域上基本上重叠,只有在无话期间,噪声分量才独立存在。因此消除这种噪声比较困难。相对平稳的宽带噪声,。通常可以认为是白色高斯噪声。( 4 ) 同声道语音干扰在实际生活中遇到多人同时说话的情况,此时不需要的语音就形成了同声道干扰。人耳可以根据需要分辨出其中某个人的声音,这种能力称为鸡尾酒会效应。2 3 背景噪声特点我们生活在声的世界当中,这些在某一区域中来自各个方向的各种各样的声音的总噪声,称为“环境噪声 。在环境噪声中除去所需要的信号声以外的总噪声,称为背景噪声,也称本底噪声。背景噪声存在多种不同的形式,如果我们在实验室与朋友通话,那么如“敲击键盘的声音”、“别人说话的声音”和“街道上车来车往的声音”等等,都是背景噪声。背景噪声最基本和最直观的特性是响度,即信号能量级别。其次的一个显著特性是信号频率分布。例如,一辆正在行驶的汽车与一台真空吸尘器的嘈杂声具有相同能量级别,但它们发出的声音却不同,因为它们具有完全不同的频谱。第三个重要特性是前两个特性随时间变化。如果背景噪声的能量级别和频谱不随时间变化,则称为平稳噪声。某些环境很容易包含非平稳的背景噪声,最好的例子就是车来车往的街道噪声。实际通讯环境中会遇到各种不同类型、不同强度的噪声。它们各自在时域或频域中有互不相同的特点,没有一致的统计参数。语音信号本身也是一个时变的复杂信号。不同的语言,其音位( 语音中的最小发声单位) 各不相同,即使同1 2西华大学硕士学位论文一个人在不同的时间、不同的心情其语音也不尽相同。总之,实际中的噪声和语音信号都是复杂的时变信号。如果不是面向特定背景噪声的应用,通过寻找背景噪声的共同特征以构建一个噪声信号与语音信号的区分函数是不现实的。2 4 人的听觉系统人的听觉系统即入耳,由外耳、中耳和内耳三部分组成。其作用是将传入人耳的声波转换为机械能,而后再将机械能转换为电脉冲以便人脑接受和处理。外耳由最外面的耳廓、耳道和鼓膜所组成外耳用于收集空气中的声波和声源定位;耳道形成一端封闭的管子,具有声音放大作用,对语音灵敏度有一定的增强作用;鼓膜是为弹性灰白色半透明薄膜,在声压的作用下振动,因而实现声波到机械能的转换。中耳内含有由三块听小骨( 锤骨、砧骨和镫骨) 构成的杠杆链,主要用来完成外耳的空气介质到内耳的液体介质之间的阻抗变换。此外中耳还有一些其它功能,如对过强声音具有衰减作用,因而可保护内耳免受过强声音的伤害;对低频声音具有滤除作用。因而降低了说话人对自身语音的灵敏度:中耳中还有一个通向咽腔的耳咽管,它可以平衡中耳中的压强。内耳主要指的是听觉系统的耳蜗,是听觉系统中最复杂的部分。耳蜗是听觉接受器,它将来自中耳的机械振动转换为电脉冲信号。虽然人们已经对耳蜗进行了多年研究,但其对频率的选择机理以及一些非线性特性的认识人们至今仍不是十分清楚。耳蜗是一根密封的管子,内部充满了淋巴液。耳蜗通过其底端的卵形窗和中耳中的橙骨相结合实现机械能从中耳到耳蜗的传递。在耳蜗内部有一称为基底膜的隔膜将耳蜗分为前庭阶和鼓阶两部分。1 3西华大学硕士学位论文昕神经f i g u r e2 3a u d i t o r ys y s t e mo fh u m a n图2 3 人的听觉系统耳蜗对声波频率的分析是由基底膜的机械运动完成的,其机理可以用广为接受的行波理论加以说明行波的最大幅值随声音频率的不同而落在基底膜的不同部位上。高频信号引起的最大振幅在基底膜靠近卵形窗处,低频信号引起的最大振幅位于靠近基底膜的顶端处。最后,耳蜗还要将基底膜上的振动自动转换为电脉冲信号,这一转换是由位于基底膜上的柯蒂氏器官完成的,电脉冲信号通过听觉神经纤维送往人脑,它载有声波的频率、强度和音色等信号。2 4 1 人耳感知特性因为语音增强效果最终取决于人的主观感受,所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用,了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学和语音学诸多领域,其中很多问题有待进一步研究。目前已有一些结论可用于语音增强:( 1 ) 人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱则不敏感。( 2 ) 人耳对频率高低的感受近似与该频率的对数值成正比。( 3 ) 人耳有掩蔽效应,即强信号对弱信号有抑制作用,能够将其掩盖。共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要对语音信号进行一定程度的高通滤波不会对可懂度产生影响。人耳在两个人以上的说话环境中能够分辨出他所需要的声音。一个较弱的声音( 被掩蔽音) 的听觉感受被另一个较强的声音( 掩蔽音) 影响的现象称为人耳的“掩蔽效应”。被掩1 4西华大学硕士学位论文蔽音单独存在时的听阈分贝值,或者说在安静环境中能被入耳听到的纯音的最小值称为绝对闻阈。实验表明,3 k h z 一5 k h z 绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在8 0 0 h z - 1 5 0 0 h z范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈( 或称掩蔽门限) ,被掩蔽弱音必须提高的分贝值称为掩蔽量( 或称阈移) 。掩蔽效应可分为两中类型:( 1 ) 频域掩蔽所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远的弱音不容易被掩蔽。例如,一个1 0 0 0 h z的音比另一个9 0 0 h z 的音高1 8 d b ,则9 0 0 h z 的音将被1 0 0 0 h z 的音掩蔽。而若1 0 0 0 h z 的音比离它较远的另一个1 8 0 0 h z 的音高1 8 d b ,则这两个音将同时被人耳听到。若要让1 8 0 0 h z 的音听不到,则1 0 0 0 h z 的音要比1 8 0 0 h z 的音高4 5 d b 。一般来说,低频的音容易掩蔽高频的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。( 2 ) 时域掩蔽所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有3 m s 一2 0 m s ,而滞后掩蔽却可以持续5 0 m s - - 1 0 0 m s 。2 5 语音增强的常见方法背景噪音的抑制有很多种方法,抗噪音话筒技术,抗噪音耳机技术,语音1 5西华大学硕士学位论文压扩技术,数字信号处理技术。背景噪音的抑制其本质就是滤波,而滤波则是数字信号处理的主要内容之一。那么对背景噪音的抑制采用数字信号处理技术是顺理成章的。随着数字信号处理理论的成熟和数字信号处理器的速度更快、使用更简单、价格更便宜、可用性更强,数字信号处理技术已经成为背景噪音抑制技术的主要技术和研究热点。2 5 1 单通道消噪技术单通道技术包括维纳滤波、卡尔曼滤波和减谱法。维纳滤波和卡尔曼滤波由于要知道输入信号的数学模型,而对背景噪音的建模十分困难甚至是不可能的,所以常用的是减谱法。单通道的减谱法是根据语音短时谱和噪声谱的区别,采用短时谱估计的方法从带噪语音信号中估计原始语音。其原理框图2 3 。f i g u r e2 3s p e c t r a ls u b t r a c t i o ns c h e m a t i cd i a g r a m图2 3 减谱发原理图减谱法及其变形方法总体上运算量较小,容易实时实现,增强效果也较好,是目前最常用的一种方法。谱减法的缺点是处理后的语音信号带有明显的音乐噪声。2 5 2 双通道消噪技术在双通道背景噪音抑制系统中,采用了一个主传感器和一个或者多个的参考传感器的结构。如图2 4 ,主传感器接近信号源拾取期望的信号和噪声参考传感器接近噪声源只拾取噪声。利用自适应滤波技术从中减去噪声从而达到语音增强的目的。这种方法主要是利用了主传感器拾取的噪声和参考传感器拾取的1 6西华大学硕士学位论文噪声的相关性以及噪声与期望信号的不相关性。这种算法由于不涉及噪声本身的性质,因此既可以用于平稳噪声消除,也可用于准平稳噪声消除。大量的实验结果证明,在强背景噪音下,这种方法可以得到很好的消噪效果。2 6 小结 ,一l 掣二卜盟了寡4 -( 芝要,:l 二_ _ = z 。f 2 。7 7 f 。 一芦翌型压丑七一_ 露爵一f i g u r e2 4b a s i cp r i n c i p l eo f a d a p t i v ef i l t e r图2 4 自适应噪音消除基本原理本章在总结了语音、嗓音和背景噪音的特点之后,介绍了当前应用的背景噪音消除技术,包括抗噪耳机技术、抗噪麦克风技术、语音压扩技术和数字信号处理技术。说明了各种技术的简单原理和技术特点。从当前的技术发展趋势来看,数字滤波消噪已成为这一领域特别是手机背景噪音抑制的主要技术。回顾数字滤波消噪技术的历史,自适应滤波的理论和应用又是背景噪音消除的研究热点和主要解决方案。对于自适应消噪技术的2 种技术方案,单通道、双通道,由于双通道技术采用的算法具有灵活性,对于平稳噪声和非平稳噪声都有很强的抑制作用,非常适合背景噪音的应用。本文中将以这种噪音抑制技术作为主要的研究对象,来研究自适应滤波的各种丰要算法和仿真。西华大学硕士学位论文3 自适应滤波的基本理论3 1 自适应滤波器简介传统的经典滤波器只能处理语音信号和噪声信号频谱不重叠的情况,如果语音信号和噪声频谱相互重叠,那么经典滤波器将无能为力。对于现代滤波器来说,它们研究的对象是随机信号,然而维纳滤波器的参数是固定的,适合用于平稳随机信号。卡尔曼滤波器参数是时变的,适合于非平稳随机信号,但是只有在对信号和噪声的统计特性先验已知的情况下,这种滤波器才能获得最优滤波效果。遗憾的是在实际应用中,常常无法得到这些统计特性的先验知识,或者说统计特性是随时间变化的,这种情况下,自适应滤波器就能够提供卓越的滤波性能。自适应滤波器是这样的处理器,它在输入过程的统计特性未知时,或是输入过程的统计特性变化时,能够调整自己的参数,以满足某种最佳准则的要求。当输入过程的统计特性未知时,自适应滤波器调整自己参数的过程成为“学习过程 ,而当输入过程的统计特性变化时,自适应滤波器调整自己参数的过程称为“足艮踪过程”。如图3 1 ,自适应滤波器由三个主要的功能单元组成:具有时变系数的数字滤波器,用于执行所期望的滤波;调整滤波器系数的自适应算法,以提高其性能;性能判据( c o p ) ,c o p 模块用自适应滤波器的输入和期望的响应去评价其质量是否与特定应用的要求相符合。其中,n 代表迭代次数,x ( n ) 表示输入信号,y ( n ) 为自适应滤波器输出信号,d ( n ) 定义了期望响应信号( 简称期望信号) 。自适应滤波的基本思想,就是通过自适应算法,用x ( n ) ,y ( n ) 和d ( n ) 构造一个目标函数( 或称代价函数) ,并以这个目标函数最小为优化目标,通过某种方式调整可编程滤波器的参数或结构,最终实现自适应滤波器的输出信号与期望信号的匹配。1 8西华大学硕士学位论文f i g u r e3 1s c h e m a t i cd i a g r a mo fa d a p t i v ef i l t e r图3 1 自适应滤波器的一般框图经过数十年的研究,自适应滤波理论得到了极大的发展,成为信号处理理论研究的热点之一,先后发展出以下几个重要分支:( 1 ) 基于维纳( w i e n e r ) 滤波器理论的方法维纳滤波器解决的是最小均方误差( m i n i m u mm e a ns q u a r ee r r o r , m m s e )准则下的线性滤波问题。这种滤波方法是在已知信号与噪声的相关函数或功率谱的情况下,通过求解维纳一霍夫( w i e n e r - h o p f ) 方程,对平稳随机信号进行最优预测和滤波。基于维纳滤波得到的最典型的自适应算法就是最小均方( l e a s tm e a n s q u a r e ,l m s ) 算法。( 2 ) 基于卡尔曼( k a l m a n ) 滤波器理论的方法卡尔曼滤波器也是基于最小均方误差推导得到的,是维纳滤波器的发展。卡尔曼滤波器首先建立应用系统的状态矢量模型,然后通过递推处理寻求对状态矢量在最小均方误差意义的最佳估计。它的估计性能是最优的,而递推形势又能适应实时处理需要。将卡尔曼滤波中状态的概念引入自适应滤波器,可以使后者在非平稳环境中也取得很好的性能。( 3 ) 基于最小二乘( l e a s ts q u a r e ,l s ) 估计的方法由维纳滤波器和卡尔曼滤波器所推导出的自适应滤波算法的理论是基于最小均方误差准则的,而最d x - - 乘估计算法是以误差平方加权和最小为最优化目标。这种准则下的代表算法是递归最小二乘( r e c u r s i v el e a s ts q u a r e ,r l s ) 算法。一( 4 ) 基于神经网络的方法1 9西华大学硕士学位论文人工神经网络是一种模拟生物神经模型信号处理能力的计算结构。它由大量神经元相互联结而成的网络系统,实质上是一个高度非线性的动力学网络系统,这个系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论