




已阅读5页,还剩62页未读, 继续免费阅读
(信号与信息处理专业论文)语音增强技术研究及其dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页 摘要 语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪 声信号都是随机产生的,而且产生的原因和特性相当的复杂。因此,完全消 除噪声几乎不可能。实际语音增强的目标主要有:改进语音质量,消除背景 噪声,使听者乐于接受,不感到疲倦;提高语音质量和可懂度这两个指标。 绝大多数语音处理系统需要按实时方式工作,而随着语音处理技术的不 断提高,处理算法日益复杂,实时系统对运算速度提出了更高的要求。随着 可编程d s p ( d i g i t a ls i g n a lp r o c e s s o r ) 芯片的诞生,数字语音处理技术 开始大量地应用于实际系统中。近年来,d s p 芯片的发展非常迅速,极大地 推动了语音处理技术的发展,许多优质的实时语音处理算法由于高性能d s p 芯片的出现而得以实时实现 论文首先介绍了各种语音增强方法,并对目前常用的几种方法如谱相减 法、噪声对消法、卡尔曼滤波法等进行了介绍,说明各自的优点和各自存在 的缺点。基于处理效果和处理速度的考虑,论文提出了自己改进一种变步长 的基于最小均方( l m s ) 的语音增强方法。这种方法算法简单,复杂度不高易 于实现,通过仿真验证具有良好的语音增强效果。 论文介绍了d s p 芯片的工作原理和主要特性,重点以笔者所使用的 t m s 3 2 0 v c 5 4 0 2 芯片为主进行介绍。论文根据语音增强方法的特点设计和制作 了一个使用l m s ( l e a s tm e a ns q u a r e ) 算法的语音增强系统平台,完成了其 硬件设计工作,根据系统工作要求,围绕d s p 进行了相关片外设备芯片的选 型工作,并对论文中的设计相应制作了硬件系统,又对论文的语音增强算法 进行了软件设计,并在硬件平台上成功的运行了语音增强算法的程序。 关键词:d s p ;l m s ;语音增强;短时平稳;实时处理 西南交通大学硕士研究生学位论文第页 a b s t r a c t t h ep r i m a r yp u r p o s eo fs p e e c he n h a n c e m e n ti st op u r i f yi tf r o mn o i s e b e c a u s e i ti s v e r yc o m p l i c a t e dt og r a s pt l l e r a n d o m o i s e sc a u s eo rc h a r a c t e r s ,i ti s i m p o s s i b l et oe l i m i n a t et h er a n d o mn o i s ec o m p l e t e ly a c t u a l l y ,g o a l so fs p e e c h e n h a n c e m e n ta r et oi m p r o v et h eq u a l i t yo fs p e e c h ,t oe l i m i n a t et h eb a c k g r o u n d n o i s es ot h a te v e r yh e a r e ri sw i l l i n gt oh e a ra n dw o u l d n tf e e lw e a r y a n dt o u p g r a d et h eq u a l i t yo fs p e e c ha n du n d e r s t a n d a b l el e v e l m o s ts p e e c hs i g n a lp r o c e s s i n gs y s t e m sa r er e a l - t i m eo p e r a t e d a tt h es a m e t i m e ,a l o n gw i t ht h ed e v e l o p m e n to fs p e e c hp r o c e s s i n gt e c h n o l o g y ,a n dt h e c o m p l i c a t e da l g o r i t h m s ,t h er e a l t i m es y s t e m sn e e dh i g h e rs p e e dt 0a c c o m p l i s h e x p e c t e dg o a l s a n di nr e c e n ty e a r s ,t h ed s p ( d i g i t a ls i g n a lp r o c e s s o r ) h a sb e e n w e l ld e v e l o p e dw h i c hm a k e s s p e e c hp r o c e s s i n gt e c h n o l o g ya l s od e v e l o p ef a s t a s ar e s u i t ,m a n ye x c e l l e n tr c a l - t i m ep r o c e s s i n ga l g o r i t h m sa r cr e a l i z e db yh i 曲 q u a l i t yd i g i t a ls i g n a lp r o c e s s o r s i nt h i sp a p e r ,f i r s t ly a uk i n d so fs p e e c he n h a n c e m e n t sw i l lb ei n t r o d u c e d , a n ds e v e r a lp r e v a l e n tm e t h o d sa r ec o m p a r e da n da n a l y z e d s e c o n d l y ,as p e e c h e n h a n c e m e n ta r i t h m e t i cb a s e do na na d j u s t a b l es t e ps i z el m si sp u tf o r w a r d w h i c h w i l lb ec a r r i e do u tb y d sp a n dt h e p r i c i p l e s o fd s pa r e i t r o d u c e d , e s p e c i a l l y a b o u t t m s 3 2 0 v c 5 4 0 2 t h ea u t h o rd e s i g n e das p e e c he n h a n c e m e n ts y s t e mw h i c hi ss u c c e s s f u lb o t h i nh a r d w a r ea n ds o f t l a r ed e s i g n m e n t a n dt h i ss y s t e mc a nr e s t r a i nn o i s ef r o m n o i s ys p e e c he f f c c t i v e l y k e yw or d s :d s p ;l m s ;s p e e c he n h a n c e m e n t ;s h o r t t i m es t a t i o n a r i t y ;r c a l - t i m e p r o c e s s i n g ; 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 论文研究背景及其意义 语音信号是人类传播信息和感情交流的重要媒体,是听觉器官对声音传 媒介质的机械振动的感知。但人们在语音通信过程中不可避免地会受到来自 周围环境、传输媒介引入的噪声、通信设备内部电噪声、乃至其它讲话者的 干扰,这些干扰最终将使接收到的语音信号并非纯净的原始语音信号,而是 受噪声污染的带噪语音信号。这里的“噪音”定义为所需语音信号以外的所 有干扰信号。干扰信号可以是窄带或宽带的白噪声或有色噪声、声学的或电 学的、加性的或乘性的,甚至可以是其它无关的语音。为了从带噪语音信号 中获得尽可能纯净的语音信号,减少噪音的干扰,就需要进行语音增强。因 此,语音增强技术 1 】是提高语音处理系统性能的关键技术之一。 d s p ( d i g i t a ls i g n a lp r o c e s s o r ) 作为可编程数字信号处理专用芯片是微型 计算机发展的一个重要分支,也是数字信号处理理论实用化过程的重要技术 工具。随着微电子技术和数字信号处理技术的飞速发展。d s p 正以其高速的 数据处理能力,灵活的应用方式,低量的电量消耗,方便的编程环境在计算 机控制系统设计成为首选器件1 2 】。 绝大多数语音处理系统需要按实时方式工作,而随着语音处理技术的不 断提高,处理算法日益复杂,实时系统对运算速度提出了更高的要求。2 0 世 纪8 0 年代初,随着可编程d s p 芯片的诞生,数字语音处理技术开始大量地 应用于实际系统中。近2 0 年来,d s p 芯片的发展非常迅速,极大地摊动了 语音处理技术的发展,许多优质的实时语音处理算法由于高性能d s p 芯片的 出现而得以实时实现。软件和开发工具也得到相应的发展,价格大幅度地下 降,从而得到越来越广泛的应用。 近年来,d s p 技术在我国也得到了很好的发展。在科学技术研究和产品 开发中,d s p 技术都得到了的应用,并取得了丰硕的成果。特别是在实时处 西南交通大学硕士研究生学位论文第2 页 理领域,更是产生了巨大的促进作用。而d s p 芯片本身也在迅速的发展,运 算速度越来越快、体积越来越小、功耗和价格越来越低。 1 1 1 语音增强技术 语音增强技术指当语音信号被各种各样的噪声( 包括语音) 干扰,甚至淹 没后,从噪声背景中提取出尽可能纯净的语音信号,增强有用的语音信号, 抑制、降低噪声干扰的技术。这些干扰将使接收者接收到受噪声污染的带噪 语音信号。例如,安装在汽车,飞机或舰船上的电话,街道、机场的公用电 话,常受到很强背景噪声的干扰,严重影响通话质量。又如,室内会议电话 的交混回响随同语音广播到每个会议地点,影响收听效果等,都是带噪语音 信号的例子。 语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪 声信号都是随机产生的,完全消除噪声几乎不可能。因此实际语音增强的目 标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦; 提高语音质量和可懂度这两个指标 3 】。 当前,语音增强己发展成为语音信号数字处理的一个重要分支。它的主 要应用范围是降低听觉噪声,识别系统的预处理和线性预测编码的预处理。 语音增强是一门跨学科的技术,不但与语音信号数字处理理论有关,而且涉 及到人的听觉感知和语音学。再则,噪声来源众多,随应用场合而异,它们 的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音 增强算法适应于各种噪声环境。必须针对不同噪声,采取不同的语音增强对 策。 1 1 2 语音和噪声的特性 语音增强算法的基础是对语音和噪声特性的了解和分析。下面分别叙述 语音和噪声的主要特性【4 】。 1 1 2 1 语音和人耳感知特性 ( 1 ) 语音是一个时变的,非平稳的随机过程:人类发声系统的生理结构的 西南交通大学硕士研究生学位论文笫3 页 变化速度是有一定限度的,在一段短时间内( 1 0 一3 0 m s ) ,人的声带和声道形 状有相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定 性,在语音分析中可以把语音信号分为若干分析帧,每一帧的语音可以认为 是准稳定的,在语音增强中可以利用短时谱的这种平稳性: ( 2 ) 语音大体上可以分为清音和浊音两大类:从语音产生的机理上看,两 者有明显的差异,因而在特性上也有明显区别。浊音在时域上呈现出明显的 周期性:在频域上有共振峰结构,而且能量大部分集中在较低频段内。清音则 完全不同,它没有明显的时域和频域特征,类似于白噪声: ( 3 ) 作为一个随机过程,语音信号可以用统计分析特性描述:语音信号的 统计特性是非平稳,时变随机过程,长时间时域统计特性在语音增强中意义 不大。其短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时, 才能近似地认为它具有高斯分布。因此,这种高斯统计模型应用于有限帧长 时只是一种近似的描述; ( 4 ) 语音感知对语音增强研究有重要作用:因为语音增强效果的最终度量 是人的主观感受,人耳对背景噪声有惊人的抑制作用,了解其中机理将大大 有助于语音增强技术发展。目前,有一些重要的结论可应用于语音增强; 人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分 量的相位则不敏感; 人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅 度的对数成正比: 人耳对频率高低的感受近似与该频率的对数值成正比; 人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度 是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有 效得多: 短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一 共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造 成影响: 人耳在两人以上的讲话中有能力分辩出需要聆听的声音。这种特性被 称作“鸡尾酒会效应”,“鸡尾酒会效应”是指人可以在嘈杂环境中识别自己 感兴趣声音的能力,即人具有语音分离的能力,是稳健( r o b u s t ) 语音信号处 西南交通大学硕士研究生学位论文第4 页 理中的一个重要研究方向。 1 1 2 2 噪声特性 噪声来源取决于实际的应用环境,噪声可以是加性的,也可以是非加性 的。 噪声大致上有: ( 1 ) 周期性噪声:其特点是具有许多离散的线谱。主要来源于发动机等周 期性运转的机械,电气干扰,特别是电源交流声,也会引起周期性噪声; ( 2 ) 脉冲噪声:脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于 爆炸、障击和放电等; ( 3 ) 宽带噪声:宽带噪声来源众多,热噪声,气流( 如风、呼吸) 噪声及各 种随机噪声源,量化噪声也可视为宽带噪声。平稳的宽带噪声,通常也可认 为是白色高斯噪声; ( 4 ) 同声道语音干扰:人耳可以在两人以上讲话环境中分辩出所需要的声 音,这种分辩能力是人体内部语音理解机理具有的一种感知能力。但当多个 语音叠加在一起时,在单信道中传输时,双耳信号因合并而消失; ( 5 ) 背景噪声对发音的影响:噪声破坏了语音信号原有的声学特征和模型 参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强噪声 会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话 人改变在安静环境或低噪声环境中的发音方式,从而改变了语音的特征参数。 1 2 本论文的主要工作 本文的主要工作包括: 1 对于现今的几种比较流行的语音增强方法进行了分析,进行算法的 m a t l a b 仿真,进行其增强效果比较,分析各自的优缺点及其产生原因; 2 分析了t m s 3 2 0 v c 5 4 xd s p 的体系结构,简单的比较了它和通用处理器 的异同,总结出了d s p 区别于通用处理器的主要性能特点,并着重介 绍了t m s 3 2 0 v c 5 4 0 2 芯片的片上、片外资源等情况; 3 提出了一种语音增强算法改进算法的设计方案,经m a t l a b 仿真验证 了其有效性和可行性,并实现了其硬件平台的搭建和在此硬件平台上 西南交通大学硕士研究生学位论文第5 烈 运行所实现的语音增强设计算法; 4 。分析了这个语音增强系统的几个主要硬件模块,包括存储器模块、 e p 模块、信号采集a d 、d a 模块、电源模块等各部分的选择原 因,介绍了各个部件的工作特性特点,着踅于互棚之间的连接方式以 及褐互协溺工作模式; 5 d s p 系统的硬件制作、调试; 6 。蕊绪了在t m s 3 2 0 c 5 4 xd s p 硬彳牟平台上使用c 语言进行软件并发的 流程,着重于研究语音信号采集、a d 转换、数据发送,数据接收、 d s p 豹率日移矗固帮d 屈模块熟寄存器配鬣请况分析、冀法静0 s p 实 时实现。 论文豹维梅安摊麓下; 第一章绪论;介绍了论文的研究背景及其意义,谮音信母的特点和语 音信号增强鹣臻毛跫与发震憨势。噪声静将眭程处溪方法; 第= 章语街增强算法综述:对语音增强方面的国内外发麟情况进行了 罄逡,重点分耩了警蔫澎较典型熬忍嚣语蠢缮强方法,谎秘其我竣杰, 进行性能对比,并对当前比较新的发展方向进行了简要介绍; 第三搴系统疆终设诗与实现:设诗了一耱语音增强系统瓣硬终方案, 分析了在方案设计中各个芯片的选用依据,分析了其中的几个关键模 块,篷摄f l 矗s 珏模块、c p 臻模块、s 默醛模决、壤号采黛矗内、您 模块以及电源模块的工作性能特点: 第毅章系统软件设诗与实现:总绫了在零艇s 3 2 0 c 5 4 x 蹒p 硬锋警台上 使用c 语富进行软件开发的流程,根据本系统方案的具体应用情况, 对a d 和d 熙鲍控制寄存器、d s p 控制寄存器和鼹令串秘载工俘情凝 配鬣,编写程序,接收自外界采集的语音信号,避行语鬻增强算法处 理,并把处理后的语音信号由音籍或耳枧搔放出去: 论文的最君对本文的主要工作进行了总结,根据本人在毕业论文期间 成功鄹失败的体会进行概援,指出了有待改进的地方。 西南交通大学硕士研究生学位论文第6 页 第2 章语音增强算法概述 目前应用的语音增强算法主要有基于噪声特性的白适应噪声抵消法,频 谱减法,基于语音产生模型的线性滤波法、梳状滤波法、自相关法;还有基于 语音模型和噪声模型的 尔曼滤波法。下面简要介绍一下这些方法。 根据语音和噪声的特点,出现了很多种语音增强算法。其中比较常用 的有噪声对消法【3 】、谱相减法、维纳滤波法【3 】、卡尔曼滤波法【”、还有f 1 r 自适应滤波法州等。此外,随着科学技术物发展,又出现了一些新的增强技 术,如基于神经网络的语音增强 7 】、有基于h m m 的语音增强、基于听觉感 知的语音增强基于多分辨率分析的语音增强基于语音产生模型的线性滤波 法、基于小波变换的增强方法、梳状滤波法、自相关法、还有基于语音模型 3 】等。以下就对几种常见的语音增强算法进行讨论: 2 1 噪声对消法 噪声对消法是最基本的减谱算法,它的基本原理是从带噪语音中直接减 去噪声。由于噪声和语音信号是混合在一起的,囡此关键是耍得到噪声的准 确复制。采用双声道系统可以很方便的解决这个问题。一个话筒采集带噪语 音,另一个话筒采集噪声。带噪语音序列y ( n ) 和噪声序列d ( n ) 经傅里叶变换 得到频谱分量k o ) 和d 。( ) ,然后用k ( 曲一珥 ) ,再加上带噪语音的相 位( 人耳听觉对语音信号相位不敏感) ,经傅立叶反变换恢复为时域信号。 斟2 1 双声道采集系统的噪声对消法 图2 1 双声道采集系统的噪声对消法 西南交通大学硕士研究生学位论文第7 页 但此算法的不足之处:在实际应用中,使用多个话筒来采集语音并不现 实,而且要保证噪声采集不能采集到语音信号。可以利用单声道采集系统, 利用无话期间采集到的噪声进行估计。但使用这种方法时,必须保证噪声是 平稳的,否则会严重影响噪声对消法的语音增强效果。噪声对消法的一个主 要的缺点是增强后的语音会有“音乐噪声”,这种噪声是频谱相减的残留产物, 由于具有一定的节奏起伏,听上去类似音乐声。 2 2 谱相减法 y ( n ) 的功翠谱为 陬1 2 ;l s 。1 2 + i 。| 2 + & :+ s :。 ( 2 - 1 ) 其中4 表示复共轭。 考虑到s ( n ) 和d ( n ) 是相互独立的,以满足高斯公布且均值为零,所以 e 岐1 2 j | 跏最限e k l 2j ( 2 _ 2 ) 在一帧的短时平稳过程,有e 恢1 2j ;e 0 & 2j + 九 ) ,其中九 ) 是无话时 i 帆1 2 的统计平均。此时原始语音估计值为: 圳。k 1 2 一e 6 m i z 砟;眩1 2 一九 ) ( 2 s ) 这就是谱相减法的基本原理。如下图: 图2 2 谱相减法的原理框图 西南交通大学硕士研究生学位论文第8 页 谱相减法的优点是:总体上运算量较小,容易实时实现,增强效果也 较好,是目前最常用的一种方法。 它的缺点是:谱相减法利用在无声期间统计得到的噪声方差来代替当 前帧的噪声频谱时,若该帧某频点上的噪声分量较大,则相减后会有较大 的噪声残留,频谱上有相应的随机尖峰出现。增强后的语音会夹杂着有节 奏的音乐残留噪声。因此在实际应用时,更多地使用谱相减的改进形式, 其估计式为 卧n 雕忙汗, 改进形式增加了参数a 和卢。引入系数 卢可以对噪声估计值进行调整,在语音能量较高的区域,令芦) 1 ,这样可 以降低语音能量,更好地突出语音频谱。调节参数口也可以获得类似的效 果。当口= 2 、卢一1 时,改进的估计算法就退化为普通的谱相减法。 2 3f l r 自适应滤波法 对于语音信号s ) ;o ,1 ,2 ,) 。当前时刻的样本值与邻近l 个过去时 刻的样本值相关,即s ) 可由5 一f ) o = 1 ,2 ,工) 的线性组合近似表示: ; ) = 口卢一f ) = 鬈足一l ( 2 - 4 ) 口 其中s 。一b 一1 ) s 一2 ) ,s 一_ l ) r ,4 一,口:,吼】r , j ) 为语音信号s ) 的线性预测值。 通常情况下,语音信号被加性的环境宽带噪声污染,实际采样得到的 信号可以表示为纯净语音与噪声之和。虽然语音信号受到宽带噪声的影 响,但在一定程度上,实际信号仍然保存着语音信号所存在的相关性,只 是由于噪声干扰,使得相关性有所减弱。因此,采用s ) ;群五。l f 乍为的 线性预测近似值。 因为墨一l ;一l + 也一, 所以i = 五一。= 一。+ 也, 式中 ( 2 5 ) ( 2 6 ) 西南交通大学硕士研究生学位论文第9 页 囊:譬篓:芸:篡:舅i :篓:三并 c 2 - 7 , ! 1 = b ( t 一1 ) ,n ( 七一2 ) ,l ( 七一上) , 通过自适应方法选取合适的系数权向量,是其进行自适应滤波的关 键。系数采用最小均方误差准则进行估计。 常用的线性自适应滤波器如图所示: 图2 3 自适应横向滤波器结构框图 传统的l m s 滤波算法【2 1 ,对于一个横向滤波器,滤波器的阶数为m ,滤波 器的期望输出为d 坼j 。其抽头输入向量为: x 0 ) 一k o l z b l x ,x 一m + 1 ) r ( 2 8 ) 对应的抽头权向量为: 亩b ) 一( n l 谛。0 l ,一,g 牙 ( 2 9 ) 公式( 1 ) ( 2 ) 中“t ”表示转置。通过l m s 算法计算这个向量所得的值表示 一个估计,当迭代次数趋于无穷时,该估计的期望值可能接近维纳解。l m s 算法的梯度估计值v j 协j 2 p + 2 r w 协) ,由相关矩阵r 和抽头输入与期望相应 之间的互相关向量p 得到。估计器的最简单选择是使用基于抽头输入向量和 期望响应的r 和p 的瞬态估计,分别定义为: 盘仁) 皇x g ) x 日0 ) ( 2 1 0 ) 西南交通大学硕士研究生学位论文第1 0 页 自0 ) 一x 0 0 ) ( 2 1 1 ) 公式( 3 ) ( 4 ) 中“h ”表示共轭转置,“牢”表示复数共轭,因此梯度的瞬 态估计为: 钉仁) 一一2 x o k + 0 ) + 2 x g k 8 0 h 0 ) ( 2 一1 2 ) 因此,l m s 算法的递归关系式为: y 仁) 一卉”仁k 0 ) e 0 ) i d 0 ) 一卉日0 k 0 ) 谛0 + 1 ) 一龠0 ) + 2 脬0 k + 0 ) ( 2 1 3 y 坼j 是滤波器的输出值,。坼j 为自适应滤波器的输出误差调节信号( 简称 失调信号) ;肛是控制自适应速度与稳定性的增益常数,又叫收敛因子或步长 因子。该算法中步长因子对算法的性能有决定性的影响。弘较小时算法 收敛慢,但稳态失调误差小。弘( 假设其取值在收敛范围之oc 肛t 】九一,a 一 是相关矩阵r 的最大特征值) 3 】较大时,算法收敛速度快,但稳态失调误差 大。 该算法在收敛速度与稳态失调误差之间存在着矛盾,因此需要改进口。 因此可以在暂态即过渡阶段使用大的学习速率,而在稳态使用小的学习速率。 这种参数的选取方式称为“换档变速方法”( g e a r s h i f t i n ga p p r o a c h ) 【2 1 。 采用“先固定,后指数衰减” 4 】的法则。 p 。) 。 :一机c 。一虬,:二麓 ( 2 1 4 ) 公式( 9 ) 中和州一分别为正的常数,o 为正整数。盹为初始步长参数 值,选取的原则也要满足o 芦o 1 九一 3 】, 。表示相关矩阵r 的最大的特 征值,必须要保证所选择的舶能使语音信号在整个的语音增强过程中均能保 证其收敛,因此可以把整个语音段以为滤波器长度m 为进行分段,分别计算 各小段相关矩阵的最大特征值a 。,从中找出最大的一个值作为整段语音的 九。 在语音处理中,一般语音的输入序列都会很长,甚至长度未知,而且由 西南交通大学硕士研究生学位论文第1 1 页 于其非平稳特性,川。则可根据l m s 算法在实际问题当中收敛到稳态解时的迭 代次数来确定。 “。可根据输入数据的长度来确定。参数的具体关系将在仿真实验中讨 论。 综上可知,本文所采用的l m s 改进算法原理就是:当迭代次数n s 。时, 步长因子以初始步长参数卢。进行自适应滤波;当迭代次数捍,“时,步长因 子p ( n ) 则为p 一一心引,此时e 一虬“叱) 单调减小,使步长因子卢 ) 变小,达 到缩小稳态误差,提高收敛性能的目的。 2 4 卡尔曼滤波法 卡尔曼滤波法通过引入卡尔曼新息,并将要解决的滤波与预测的混合问 题转化为纯滤波和纯预测两个独立的问题,适合于非平稳条件下的最小均方 误差意义下的最优估计。 卡尔曼滤波是在最小均方误差意义下的最优估计,对于带噪的观测数据 y ) 一5 ( n ) + d ) ,其中纯净语音信号s ) 和环境背景噪声行 ) 分别可用a r 模型表示为: s ) 。; 冷 一1 ) + ) ( 2 1 5 ) 面 咒 ) 一玩 ) n 一1 ) + v ) ( 2 1 6 ) 面 其中n 。 ) ,f = 1 p 和岛一1 ,口是模型的未知参数,( 七) 和v 体) 分别是未 知方差为盯:和d j 的零均值白噪声过程,p 和口是模型的阶次,这里假定它们 己知,上述模型还可以写为状态空间表达形式: s ) = 爿。 一1 ) s 一1 ) + g 。 ) ( 2 1 7 ) ) - 爿。 一1 ) 辑一1 ) + g 。v ) ( 2 1 8 ) 其中 s ) = 霹s ) 胛 ) = 醒 ) ( 2 1 9 ) ( 2 2 0 ) 西南交通大学硕士研究生学位论文第1 2 页 其中 爿。 ) ; 4 ) = 0 : 0 4 。 ) o j o 6 。 ) 1 0 o 1 4 ) 4 l 1 01 ; ii o 1i 6 。一。) 6 。 ) | s ) = b 一p 一1 ) ,s ) r ) = b 一目一1 ) ,n 0 ) r ,g 。l ,l 。_ ,g 。一九- 0 o 1 ( 2 2 1 ) ( 2 2 2 ) ( 2 2 3 ) ( 2 2 4 ) 式中上标t 为矩阵的转置,由此可以构造增广状态空间表达形式 y ) - 爿 一1 ) x 一1 ) + 占卵 ) ,z ) = 7 z ) ( 2 - 2 5 ) o 以( 七) k 咖( 。) 一 台 删塌l 咖, 叫地。m 对于增厂糸统式,当系统参数已知时,由卡尔曼滤波理论可得系统的状 态估计 量 ) = 爿忙一1 ) 置 一1 ) + k ) 卜 ) 一厅7 爿 一1 弦竹一1 ) 】 ( 2 - 2 6 ) k ) = p l 七一啪p 7 p l 七一1 ) 】- 1 ( 2 - 2 7 ) p ( j | l 七一1 ) = 彳 一1 ) p ( 七一1 ) 4 7 ( 七一1 ) + g m v ( 七) 9 7 ( 2 2 8 ) 尸体) 2 ,一足 ) 7 】p l 尼一1 ) ( 2 _ 2 9 ) 西南交通大学硕士研究生学位论文第1 3 页 其中! ;:) 是卡尔曼增益矩阵, p l 尼一1 ) 一e 并 ) 一爿 一1 ) 主 一1 ) z ) 一4 传一螗 一1 ) r 】是预测误差 协方差矩阵,p ) - e 卜 ) 一孟 ) z ) 一叠 ) r ) 是估计误差协方差矩阵,叩( 女) 的方差矩阵定义为 ) i 矾昭 配 ) 司 ) 】。因此,经卡尔曼滤波后的语 音增强信号为i ) ;蟹,o 章僻) 由于纯净语音和噪声的a r 模型参数未知,因此在进行卡尔曼滤波之前 首先要做参数估计。参数估计的精度直接影响语音的增强效果。对于这类模 型的参数估计有多种方法,如自相关法、极大似然法等它们都是围绕如何求 解y u l e - w i l k e r 方程问题而得到的不同结果。值得特别注意的是语音信号是 一非平稳随机过程,只有在短时( 一般取2 0 m s ) 内可将该信号视为平稳随机过 程而应用上述参数估计方法即语音信号处理是在短时帧间进行的。另外如果 采用语音活动性检测技术,在纯净语音静默期间对噪声进行建模和参数估计, 都需要所采用的参数估计方法是递推的、具有快速收敛性和较高的估计精度。 如何减少计算复杂度以利于语音增强算法的实时实现也是应该考虑的问题。 卡尔曼滤波法是基于语音生成模型的,用线性预测( l p c ) 分析参数实 现波形最小均方误差意义下的最佳估计。在非平稳条件下也可以保证最小均 方误差意义下的最优,故适合于非平稳噪声干扰下的语音增强。它的优点是 不需要假定噪声的平稳性,对非平稳噪声也能运用。 其缺点是 ( a ) 需要叠代估计模型参数,在噪声强时误差大; ( b ) 语音生成模型中假定激励是白噪声源,这仅对清音成立而对浊音是不 成立的; , f c ) 计算量较大; ( d ) 优化标准是时域的波形误差最小,对语音信号而言此标准不够合理。 西南交通大学硕士研究生学位论文第1 4 页 2 5 基于听学掩蔽效应的语音增强 近年来,人们针对听觉外周提出了一些计算模型,并在语音编码、音频压 缩和音质的客观度量等方面获得了应用,同时,基于人类听觉特性的语音增强 研究也取得了一定的进展。目前,在语音增强中用得比较成功的是听觉掩蔽效 应,它指出语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪 声信号,而使得这部分噪声不为人所感知到。因此从掩蔽效应的角度看,语音 增强应该通过改变带噪语音的短时谱幅度( s t s a ) 使得所有噪声成分都能被 语音信号掩盖掉。 一个较弱的声音( 被掩蔽音) 的听觉感受被另一个较强的声音( 掩蔽音) 影 响的现象称为人耳的“掩蔽效应札8 ”。被掩蔽音单独存在时的听阈分贝值,或 者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阂。实验表明, 3 k h z _ 5 k h z 绝对闻闽值最小,即人耳对它的微弱声音最敏感;而在低频和 高频区绝对闻阈值要大得多。在8 0 0 h z 一1 5 0 0 h z 范围内闻阈随频率变化最不 显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的 强度,使人耳能够听见时的闻闽称为掩蔽闻阈( 或称掩蔽门限) ,被掩蔽弱音 必须提高的分贝值称为掩蔽量( 或称闽移) 。 2 5 1 纯音对纯音、噪音对纯音的掩蔽效应 2 5 1 1 纯音间的掩蔽 对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。 低频的纯音可以有效地掩蔽高频的纯音,而反过来则作用很小。 2 5 1 2 纯音和噪音间的掩蔽 噪音对纯音的掩蔽噪音是由多种纯音组成,具有无限宽的频谱。若掩蔽 声为宽带噪声,被掩蔽声为纯音,则它产生的掩蔽门限在低频段一般高于噪 声功率谱密度1 7 d b ,且较平坦:超过5 0 0 h z 时大约每十倍频程增大10 d b 。 若掩蔽声为窄带噪声,被掩蔽声为纯音,则情况较复杂。其中位于被掩蔽音 附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。所谓临界 频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽 西南交通大学硕士研究生学位论文第1 5 页 时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这 一带宽称为临界频带宽度。 2 5 2 掩蔽类型 2 5 2 1 频域掩蔽 所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同 时掩蔽。这时,掩蔽声在掩蔽效应发生期问一直起作用,是一种较强的掩蔽 效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离 强音越近,一般越容易被掩蔽:反之,离强音较远的弱音不容易被掩蔽。例 如,一个1 0 0 0 h z 的音比另一个9 0 0 h z 的音高1 8 d b ,则9 0 0 h z 的音将被 1 0 0 0 h z 的音掩蔽。而若1 0 0 0 h z 的音比离它较远的另一个1 8 0 0 h z 的音高 侣d b ,则这两个音将同时被人耳听到。若要让1 8 0 0 h z 的音昕不到,则 1 0 0 0 h z 的音要比1 8 0 0 h z 的音高4 5 d b 。一般来说,低频的音容易掩蔽高频 的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高。 2 5 2 2 时域掩蔽 所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又 称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的 一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域 掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着 时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有 3 m s 一2 0 m s ,而滞后掩蔽却可以持续5 0 m s 一1 0 0 m 。 利用了耳听觉掩蔽进行语音增强,其优点是:在进行语音增强时,不需 要把噪声完全抑制掉,只要使残留的噪声信号不被人感知即可,所以这样在 消噪的同时可以减少不必要的语音失真。其缺点是:噪声掩蔽门限的计算是 在纯净语音基础上得到的,在实际中一般只能用带噪语音来估计掩蔽门限, 这样估计的结果误差很大。 西南交通大学硕士研究生学位论文第1 6 页 2 6 本章小结 综上所述,以上各种方法各有优缺点,分别适用于不同情况。参数方法 对语音的模型参数依赖性强,但在低信噪比条件下不容易得到正确的模型参 数:非参数方法由于频谱相减会产生一咱具有一定节奏的残余噪声。统计方 法需要大量数据进行训练以得到统计信息;小波变换以及离散余弦变换的闽 值先取困难,运算量大。因此实际使用中常常根据具体的环境噪声和语音特 性将不同方法结合起来应用,通过方法互补取得更好的语音增强效果。 西南交通大学硕士研究生学位论文第1 7 页 第3 章系统硬件设计与实现 目前,开发语音信号采集与处理系统通常有三种方案。一种的利用通用 计算机加a d 卡构成硬件平台,语音处理算法由软件实现。其特点是价格便宜, 但速度很慢。第二种方案是采用专用芯片进行语音信号采集和处理,如采用 专用的m p 3 编解码芯片、语音合成芯片、语音识别芯片等,其特点是价格较 便宜,处理速度快,缺点是不够灵活,产品不能升级。第三种方案是采用可 编程的芯片( 一般是d s p 芯片) 作为处理中心,配合高精度、高速的a d 、 d a 模块,实现语音处理算法。采用这种方案的成本较高,但是由于d s p 的 高性能,可编程,此方案是一种性价比较高的方案。本文选用了t l 公司的 t m s 3 2 0 v c 5 4 0 2 作为c p u ,t i 公司的t l v 3 2 0 a i c 2 3 作为a d 、d a 模块,实 现了一种基于d s p 的语音增强系统。 3 1t m s 3 2 0 c 5 4 xd s p 芯片的特点 t m s 3 2 0 c 5 4 x 1 1 ,1 2 ,】是t i 公司1 9 9 6 年推出的第七代定点数字信号处理 器。它的微处理器采用修正的增强型哈佛结构,片内有c p u ,8 条总线、r a m , r o m 及片内外设等硬件配置,以及高度专业化的指令系统,使t m s 3 2 0 c 5 4 x 具 有如下特点: ( 1 ) 集成度高。片上集成了最大1 9 2 k b 存储空间( 6 4 k br a m ,6 4 k br o m , 6 4 k bi 0 ) ,全双工串行口,支持8 位或1 6 位数据传送,具有时分多路串口 t d m 、缓冲串口b s p ,8 位并行主机接口h p i 、可编程等待状态发生器、可编 程分区转换逻辑电路、内部振荡器或外部时钟源的片上锁相环p l l 时钟发生 器、1 6 位可编程定时器、外部总线关断及保持控制器。在许多应用场合只用 一片d s p 便可满足数据处理及控制要求; ( 2 ) 智能外设。除了标准的串行口和时分复用( t d m ) 串行口外, t m s 3 2 0 c 5 4 x 还提供了自动缓冲串行口b s p ( a u t o b u f f e r e ds e r i a lp o r t ) 和 与外部处理器通信的h p i( h o s tp o r ti n t e r f a c e ) 接口。b s p 可提供2 k 字数 西南交通大学硕士研究生学位论文第1 8 页 据缓冲的读写能力,从而降低处理器的额外开销,指令周期为2 0 n s 时,b s p 的最大数据吞吐量为5 0 mb i t s ,即使在i d l e 方式下,b s p 也可以全速工作。 h p i 可以与外部标准的微处理器直接接口; ( 3 ) 结构简单。芯片内部为模块式结构,增加或更换一个片上外设模块电 路便可以得到指令系统和引脚全兼容的新产品; ( 4 ) 扩展方便。c 5 4 x 系列具有外扩最大1 m 字的r o m ,6 4 k 字r a m ,6 4 k 字 i o 的能力。当片内存储空间和i o 口不够用时,可方便地进行系统扩展。 许多公司生产的i o 接口芯片和各大公司生产的通用存储器芯片可以直接与 c 5 4 x 系列的d s p 相连: ( 5 ) 可靠性高。c 5 4 x 的总线大多在片内不易受干扰,其应用系统体积小, 容易采取屏蔽措施。适应范围宽,在各种恶劣环境下都能可靠工作; ( 6 ) 处理功能强。高速、先进的多总线结构,可以完成并行指令操作。4 0 位算术逻辑运算。 3 2c 5 4 x 的体系结构 c 5 4 x 的体系结构包括中央处理单元、片上存储器和片上外设。所有c 5 4 x 的中央处理单元都是一样的,它们的不同之处在于片上存储器存储容量的大 小、片上外设配置、供电电压、运行速度及芯片的封装等方面。 c 5 4 x 器件的c p u 主要包括以下部件 ( 1 ) 1 个4 0 位算数逻辑单元( a l u ) c 5 4 x 通过算数逻辑单元,可进行算数逻辑运算,并且大多数运算都是在 单周期内完成。a l u 的运算结果常常送往累加器( 累加器a 或b ) 。 ( 2 ) 2 个独立的4 0 位累加器 c 5 4 x 器件有两个独立的4 0 位累加器:累加器a 和累加器b 。每个累加 器可分为3 个部分:保护位( g u a r d b i t s ) 、高位字( 眦g h o r d e r b i t s ) 和 低位字( l o w o r d e rb i t s ) ,保护位( a g 和b g ) 作为运算时的头区,用于防 止运算产生的溢出。 ( 3 ) 1 个桶形移位寄存器( b a r r e ls h i f t e r ) 4 0 位的桶形移位寄存器对一些操作进行标定和标准化,可以进行o 3 1 西南交通大学硕士研究生学位论文第1 9 页 位的左移和0 1 6 位的右移。 ( 4 ) 乘累加单元 c 5 4 x 的c p u 有一个1 7 位1 7 位的硬件乘法器,它与一个4 0 位专用加法 器相连。乘法器加法器单元可以在一个流水线状态周期完成一次乘法和累加 ( m a c ) 运算。 ( 6 ) 比较、选择和存储单元( c s s u ) 比较、选择和存储( c s s u ) 单元是为了v i t e r b i 蝶形运算中的加比较 选择( a c s ) 操作而设计的专用硬件电路,它常常与a l u 一起来完成a c s 操作。 这个电路支持均衡器和通道解码中的各种v i t e r b i 蝶形算法。 ( 7 ) 指数编码器 指数编码器是用于支持单周期e x p 指令的专用硬件电路。 3 3 系统硬件设计 首先,根据要设计的系统所要完成的工作,制作一个硬件平台的搭建工 作。本设计中要完成一个自适应语音增强的过程,要求是能够采到语音,并 把语音信号进行刖d 转换模块,传给d s p ,由d s p 在内部进行增强算法的 运算过程,运算完成后再由d s p 传给d a 转换模块,把处理后的语音信号 放出来。要完成这样的工作,硬件部分要满足以下要求: ( 1 ) d 、d a 模块可以外接话筒用于采集语音,可以设定采样频率和 语音信号的增益,d 转换后把信号传给d s p ,在放音时能够实现与采集同 时进行,真正做到实时处理; ( 2 ) d s p 芯片的运算速度必须足够在两个采样点间隔时间内完成所要 进行的运算,并且运算时间包括从采到数据、d 转换、传送、算法运算,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电荷的秘密:摩擦起电现象及其两种基本电荷课件
- 化学兴趣测试题及答案
- 探讨设计理念与实践试题及答案
- 狼人杀测试题及答案
- 《印象派大师:莫奈》课件
- 广告设计师考试知识点及答案分享
- 助理广告师职业角色与价值分析试题及答案
- 福祉经济学试题及答案
- 下定义的试题及答案
- 手绘与电脑设计在纺织品中的对比试题及答案
- 2025年湖北行测试题及答案
- 闽教版四年级英语下册全册单元知识点
- 新高考背景下2025年高考物理命题趋势分析与复习备考策略讲座
- 管道焊接施工方案
- 2025年四川成都农业科技职业学院招聘工作人员16人高频重点模拟试卷提升(共500题附带答案详解)
- 2024年全国高考甲卷历史试题含答案解析
- 八年级数学下册 第4章 单元综合测试卷(北师版 2025年春)
- 酒店智能化系统工程的施工方法与流程
- 《射线检测》课件
- 2025年大模型应用落地白皮书:企业AI转型行动指南
- 2025年春新人教版语文一年级下册教学课件 15 一分钟
评论
0/150
提交评论