(电路与系统专业论文)麦克风阵列语音增强技术的研究与实现[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)麦克风阵列语音增强技术的研究与实现[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)麦克风阵列语音增强技术的研究与实现[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)麦克风阵列语音增强技术的研究与实现[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)麦克风阵列语音增强技术的研究与实现[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理 :大学硕十学位论文 摘要 语音增强技术就是抑制带噪语音信号中的噪声信号,以达到突出语音信号,使之变 得更加清晰易懂。在车载电话、视频会议系统等应用场合中,不仅存在环境噪声,而且 还有回声和混响问题,这时使用单通道语音增强方法就显得无能为力。为了解决上述场 合下的语音增强问题,人们提出了多通道语音增强方法,即使用麦克风阵列进行语音增 强。麦克风阵列是由天线阵列发展、衍变而来。出于麦克风阵列具有空闯选择性,因此 它能有效抑制除所需语音信号方向外的干扰噪声,进而可以取得明显的消噪效果。语音 激活检测是麦克风阵列语音增强系统的一个重要组成部分,其准确性直接影响了语音增 强的效果。 本文研究了两种语音激活检测算法,基于m e l 亥1 度短时能量差的语音激活检测和基 于子带短时能量和过零率的语音激活检测。在m a t l a b 上对两种算法进行仿真,并对其性 能进行深入分析。另外,结合语音增强的基础知识,包括房间混响,声场模型,时延估 计,本文还研究了固定波束形成,广义旁瓣消除器,自适应后置滤波波束形成算法。对 不同算法消噪性能从不同角度进行详细分析,同时给出实验仿真结果。 本文在a d s p b f 5 3 3 平台上实现了使用上述算法的麦克风阵列语音增强系统,并取得了 较为理想的语音增强效果。 关键词:语音增强;麦克风阵列;语音激活检测;a d s p b f 5 3 3 ;仿真实现 大连理1 :人学硕十学位论文 t h er e s e a r c ha n di m p l e m e n t a t i o no f m i c r o p h o n ea r r a y s p e e c he n h a n c e m e n tt e c h n i q u e a b s t r a c t t or e d u c et h en o i s ei n t e r f e r e n c ei n v o l v e di nt h er e c e i v e ds p e e c hs i g n a l sa se f f i c i e n t l ya s p o s s i b l e ,s p e e c he n h a n c e m e n t i sp u tf o r w a r da n dw e l ld e v e l o p e d d i f f e r e n tn o i s ee n v i r o n m e n t s h o u l da d o p tc o r r e s p o n d i n ge n h a n c e m e n tm e t h o d t h e r ee x i s tn o to n l yn o i s eb u ta l s oe c h o a n dr e v e r b e r a t i o ni ns o m eo c c a s i o n sl i k ec a i t e l e p h o n ea n dv i d e oc o n f e r e n c e s om u l t i c h a n n e l s p e e c he n h a n c e m e n tm e t h o dh a sb e e np u tf o r w a r dt os o l v et h i sp r o b l e mi nw h i c hs i n g l e m i c r o p h o n ec a l l ta c h i e v ei d e a lr e s u l t s p e e c he n h a n c e m e n ta l g o r i t h m sb a s e do nm i c r o p h o n e a r r a yd e v e l o pf r o ma n t e n n aa r r a y , b u ta l s ot a k ea d v a n t a g eo fs o m es p e e c he n h a n c e m e n t a l g o r i t h m sb a s e do ns i n g l ec h a n n e l m i c r o p h o n ea r r a yc a nm d u c e t h en o i s em o r ee f f e c t i v e l y t h a nt h es i n g l em i c r o p h o n eb e c a u s ei tc a np r o v i d et i m e , f r e q u c e e yb u ta l s os p a c ei n f o r m a t i o n v o i c ea c t i v i t yd e t e c t i o n ( v a d ) i sak e yp a r ti nm o s tk i n d so fs p e e c he n h a n c e m e n tm e t h o d s w i t hm i c r o p h o n e a r r a ya n dt h e i rp e r f o r m a n c ed i r e c t l y a f f e c t st h er e s u l t so f s p e e c h e n h a n c e m e n t i nt h i st h e s i s ,w ep r e s e n tt w ov a d a l g o r i t h m sw h i c ha r ev a d b a s e do nm e ls c a l e s h o r t t i m ea v e r a g ee n e r g yd i f l b r e n c ea n dv a db a s e do ns u b b a n ds h o a t i m ea v e r a g ee n e r g y a n da v e r a g ez e r o - c r o s s i n gr a t e t h ea l g o r i t h m sp e r f o r m a n c eh a v eb e e ns h o w e da c c o r d i n gt o t h es i m u l a t i o ne x p e r i m e n to nm a t l a b w i t ht h eb a c k g r o u n dk n o w l e d g eo nt h es p e e c he n h a n c e m e n tw h i c hi n c l u d e sr o o m r e v e r b e r a t i o n ,a c o u s t i cf i e l dm o d e l ,t i m ed e l a ye s t i m a t i o na n da r r a ym o d e l ,t h i st h e s i ss t u d i e d t h ed e l a y a n d s u mb e a m f o r m i n g , g e n e r a l i z e ds i d e l o b e sc a n c e l l e ra n dp o s t f i l t e r i n gm e t h o d t h ep e r f o r m a n c eo fd i f f e r e n ta l g o r i t h m sa r ea n a l y z e di nd e t a i l sa n dt h er e s u l t so fs i m u l a t i o n t e s t sa r eg i v e n i nt h i sp a p e r ,t h es t u d yo fb a s i cp r i n c i p l e so ns p e e c he n h a n c e m e n tw i t hm i c r o p h o n e s a r r a yp r o v i d e sap o s i t i v ee f f e c to nt h ef o l l o w i n gf u r t h e rr e s e a r c ha n dc o m p a r i s o na m o n g k i n d so fs p e e c he n h a n c e m e n ta n dt d em e t h o d s i na d d i t i o n , as o f t w a r ea p p l i c a t i o ns c h e m e f o r t h es y s t e mo fs p e e c he n h a n c e m e n tw i t hm i c r o p h o n e sa r r a yu s i n gg s ca l g o r i t h mb a s e do n a d s p b f 5 3 3i sp r o v i d e d ,d e v e l o p e da n ds i m u l a t e d k e yw o r d s :s p e e c he n h a n c e m e n t :m i c r o p h o n ea r r a y ;v a d ;a d s p b f 5 3 3 ts i m u l a t i o n 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:超1 锡啦日期:塑玺! 1 9 兰1 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本入授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名 导师签名: 塑 鱼堕 蹲簿划 i 刎年由五 大连理f :大学硕十学位论文 第一章绪论 1 1语音增强的应用背景及意义 语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等 新兴领域应用的核心技术之一,它主要包括语音通信、合成、识别和语音增强等方面。 然而语音信号通常不可避免地会受到来自传输媒介引入的噪声、通信设备内部电噪声、 房间混响乃至其他说话人的话音干扰。这些干扰不仅会使接收者得到的语音被噪声污 染,同时也会导致许多语音处理系统的性能急剧恶化。 语音增强作为前置处理方案是抑制干扰的一种有效途径。随着语音增强研究的深 入,人们越来越认识到由于噪声通常是随机的,要想从带噪语音信号中提取完全纯净的 原始语音信号几乎是不可能的。在这种情况下,语音增强的目的主要有两个:一是改进 语音质量,消除背景噪声,使听者乐于接受,听觉上不会感觉疲劳,这是一种主观度量; 二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。由此可见,语音 增强是项很复杂的技术,不仅仅是信号数字处理的问题,还涉及到人的听觉感知特性 和语音学。同时,噪声的多样性,即噪声来源众多,随着应用场合不同而特性各不相同, 也增加了语音增强的难度。因此,要想一劳永逸的设计出一种算法是不可能的,只能是 针对不周的噪声情况,采取不同的语音增强算法。 1 2 麦克风阵列语音增强的研究现状 几十年来人们在语音增强方面做了很多不懈的探索,总结出适应不同情况的各种增 强方法。在车载电话、视频会议等场合中,不仅存在环境噪声,而且还有回声和混响问 题,这时单通道语音增强方法就显得无能为力。为解决该问题,人们提出了多通道语音 增强方法。麦克风阵列是由天线阵列发展、衍变而来。天线阵列主要是在雷达、声纳等 系统中用于目标定位、信号增强等。基于麦克风阵列的语音增强算法继承了天线阵列的 有关算法,同时,它也吸收了一些单通道语音增强算法。由于麦克风阵列具有空间选择 性,因此它能有效抑制除所需语音信号方向外的干扰噪声,进而可以取得明显的消噪效 果。多通道语音增强方法主要有:噪声抵消法、延迟一相加波束形成方法、自适应波束 形成方法、后置滤波器的波束形成方法和结合语音参数生成模型的波束形成方法等。 ( 1 ) 噪声抵消法 这个算法利用一个多通道麦克风采集系统来构建一个自适应抵消器,主通道用来采 集带噪语音,其余用来采集噪声。主通道采集到的信号包括原始的纯净语音和加性噪声, 其他通道采集到的信号则作为参考噪声,并认为参考噪声和主通道的原始语音不相关, 麦克风阵列语音增强技术的研究与实现 但和主通道中的加性噪声相关。把参考噪声通过自适应滤波器,作为对主通道的加性噪 声的逼近,用带噪语音减去估计噪声,可以得到对原始语音的最佳估计。如果采集到的 噪声和主通道噪声足够“逼真”,甚至可以不需要通过滤波器,在时域上直接与带噪语 音相减。如果噪声有多个噪声通道,则称为多旁瓣消除器。 该算法的关键是要求参考噪声中没有包含语音成分。因此主通道麦克风要尽可能离 声源近一些,以提高其信噪比,而其余通道麦克风要离声源尽可能远,使其只包含背景 噪声部分。在实际应用环境中,这一限制往往无法满足,从而导致参考噪声中会或多或 少地含有和原始语音相关的成分,这将不可避免的损害滤波结果中输出的原始语音。这 也是该算法的最大缺点。 ( 2 ) 延迟一相加波束形成方法( d e l a y a n ds u mb e a m f o r m e r ) 这类方法也被称为传统波束形成方法,它首先对阵列中各个麦克风上接收到的信号 进行时间补偿,以使各通道语音信号同步;然后再对各通道信号进行相加和平均。这类 方法算法简单,原理明了,但是通常需要大数量的麦克风才能达到较好的消噪效果。它 适合于消除非相干噪声或散射噪声,而对相干噪声则没有消除能力,因此对于方向性噪 声和房间混响等相干性噪声不能有效消除。 ( 3 ) 自适应波束形成方法 自适应波束形成方法适合消除相干噪声,当噪声源的数目少于阵列所用麦克风数目 的时候能达到较好的消噪效果。o l f r o s t 于1 9 7 2 年提出线性约束自适应波束形成算法 ( 1 i n e a r l yc o n s t r a i n e dm i n i m u mv a r i a n c e ) 【o l f r o s t ,1 9 7 2 】,其原理是根据需要预先设定滤 波系数,也就是说对语音信号的处理是固定的,在此约束条件下,使输出信号能量达到 最小。这种优化问题的目标就是使噪声干扰的输出能量最小,由此实现语音增强。该算 法可以得到较高的信噪比改善,但是随着干扰声源数目增加和混响的加强,信嗓比会迅 速恶化。这类方法在弱相干噪声场或在散射噪声场中,性能甚至不如传统波束形成方法。 l j g r i f f i t h 和c w j i m 于1 9 8 2 年在此基础上提出广义旁瓣消除算法( g e n e r a l i z e d s i d e l o b ec a n c e l e r ) 【1 1 ,在广义旁瓣消除算法( g s c ) 中,阻塞矩阵( b l o c km a t r i x ) 的输出往 往含有有效语音成分,这样在滤波结果中会对原始语音造成损害。而且在自适应波束形 成方法中,对于注视方向上信号的频率响应是固定的,或者只允许有一个小的偏离,也 就是说,约束条件只是针对所求语音信号的处理,但没有消噪能力。 为了解决该问题,s f i s c h e r 和k u s i m m e r 提出了一种具有自适应约束值的多通道 语音增强方法s f i s c h e ra n dk u s i m m e r , 1 9 9 6 ,它是一种改进的线性约束波束形成方 大连理j 大学硕士学t i ) = 论文 法。这种方法对于注视方向上信号的约束条件是自适应的,它能随着接收信号特性的变 化而变化。因此,它在一定程度上既能消除相干噪声,也能消除非相干噪声。 ( 4 ) 具有后置滤波器的波束形成方法( p o s t - f i l t e r i n g b e a m f o r m e r ) 这类方法是在延迟一相加波束形成模块的后端加一个自适应维纳滤波器,由此可对 噪声作进一步消除。该算法实际是利用多通道的信息和噪声的弱相关性解决了维纳滤波 中原始语音信号的自相关估计的问题。常用的后置滤波算法是z e l i n s k i 后置滤波 2 1 , s i m m e r 和w a s i l j e f f 提出的后置滤波算法【3 】。在弱相干噪声场,这种方法具有相当好的 消噪能力。 1 3 本论文的主要工作 本文共包含五章。 第一章介绍了麦克风阵列语音增强的应用背景及研究现状。 第二章介绍了麦克风阵列的语音增强的基础理论,研究了房间的混响和时延估计问 题。 第三章介绍了两种语音激活检测算法,并进行算法复杂度和性能分析,从中选取一 种作为麦克风阵列语音增强系统的前端检测模块。 第四章研究了延迟求和波束形成方法,g s c 方法和后置滤波的波束形成方法,给出 计算机仿真实验结果,通过对各个算法消噪性能和复杂度的比较,从中选取一种算法作 为麦克风阵列语音增强的核心算法。 第五章介绍了麦克风阵列语音增强系统的整体设计和实现方案。 第六章介绍了b l a c k f i na d s p - - b f 5 3 3 的硬件平台和开发环境,及将代码从v c 平 台移植到d s p 平台i j 对代码的定点化和汇编优化的实施方案。 最后对本文研究成果以及不足之处做了详细总结,并对今后的研究工作给出了几点 建议。 大连理= | = 人学硕十学位论文 第二章麦克风阵列语音增强的基础知识 2 1 噪声与混响 传感器在拾取语音信号的同时也将声波的反射信号以及环境噪声信号一并采集进 来并作为外界干扰将其叠加在人们所感兴趣的语音信号上,造成了语音信号效果的恶 化。语音增强的主要目的就是要在最大程度上去掉这种外界干扰从而重现原始的语音。 影响语音增强最主要的两个因素就是噪声与混响,下面将分别介绍这两个概念。 2 1 1 声场及其分类 简单的说,噪声是混入到人们所感兴趣的信号上的不携带信息的无规则的随机信 号,它的存在影响了信号的正常接收。而通常在麦克风阵列语音增强的研究中,可以按 照不同的特征对噪声进行分类。 ( 1 ) 噪声场的分类 常用的噪声场可以根据不同麦克风噪声的相干程度对其进行分类。 假设两个信号分别为 ( ”) 和恐( 盯) ,其互功率谱为g i :( ) ,功率谱分别为 g l 。( ) ,g 2 :( 甜) ,则两个信号的相干函数定义为 r 1 2 ( 纠2 器 ( 2 1 ) 显然,o e :( m ) 25 1 。e :( ) 1 2 的不同取值范围反映了噪声场的相干程度的不同, 在此基础之上,噪声场可分分类如下: ( d 相干噪声场:r l :( m ) 1 2a1 ,不同麦克风的噪声相干程度最强,此时噪声信号是 直达各个麦克风的,没有因为环境所引起的反射、散射等。 非相干噪声场;i r l 2 ( 珊) 1 2 * o ,不同麦克风的噪声基本不相干。一般各个麦克风 的电子噪声通常可以认为是不相干的,除此之外,非相干噪声在实际的环境中遇到的比 较少。 散射噪声场:0 e :( 缈) 1 2 2 r 丸。时称声场为远场, 当r 2 r 矗h 时称声场为近场。 幽2 1 远场模型 f i g 2 ,1 f a rf i e l dm o d e l 当声源距离麦克风阵列比较远的时候,球面声波可以近似为平面波。因此,远场模 型( 如图2 1 ) 中的声波为平面波,图中来波方向与阵列的夹角为秽。,相邻两个麦克之间 的间距为d ,则以阵列中心的麦克风为参考的第m 路麦克的时延为: f 。= 一m d c o s ( o , ) cm 卜n ,n 】 ( 2 2 ) 其中c = 3 4 0 m s 表示声速。 在远场中,声波作为一种近似的平面波传播到各个麦克时的幅度近似相同。因此, 声源到麦克风阵列的传播矢量可以表示为: d ( ,见) = 【e 一卢。1 p 一归“】 ( 2 3 ) 大连理 :大学硕十学位论文 o n “( 耋i ,7 。 x 图2 2 近场模型 f i g ,2 ,2 n e a rf i e l dm o d e l 当声源距离麦克风阵列比较近的时候,则由声源到麦克风阵列的球面波不能再近似 为平面波。如图2 2 ,设此时声源的位置坐标为: fc o s ( a , ) s i n ( , ) f b = 儿z ,】7 = ls i n ( 只) s i n ( 丸) l ( 2 4 ) l c o s ( 丸) j 麦克风的位置矢量为只卜, r 】) ,则声源到第m 路麦克的欧氏距离可以表示为 d 。= l i p , 一只l | : ( 2 5 ) 由此,第m 路麦克相对于阵列中心麦克风的时延可以表示为: f 。:盟 ( 2 6 ) c 由于近场中的声波为球面波,因此声源到不同麦克风的声波的传播距离是不同的, 因此不同的麦克接收到的声音信号的幅度差异是不能够被忽略的。 定义声波到达第m 个麦克的衰减因子为 = 挚 ( 2 7 ) a ” 就得到近场情况下,声源到麦克风阵列的传播矢量为 d ( c o , r ,统妒) = 口一p 一扣l ”1 口e 一如知r ( 2 8 ) 由远场近场两种情况下声源到麦克风阵列的传播矢量可以看出:无论在近场还是在 远场情况下,麦克风阵列的响应不仅对不同的频率的信号是不同的,而且对不同方向的 蒸一 z制, 一、f 霪 麦克风阵列语音增强技术的研究与实现 信号也是不同的。也就是说麦克风阵列具有空间选择性,在它注视的方向上,麦克风阵 列具有对信号的最大增益,而在其它方向上则对信号进行不同程度的衰减。 2 1 2 混响 声波在房间内传播,有些从声源直接到达传感器,还有一些经过一次或者多次反射 才被传感器接收。如果将房间模型化为一个长方体,则根据i m a g e 模型从声源到传感 器之间房间的冲击响应如图2 3 所示: 图2 3 房间模型的单位冲击响应 f i g 2 3i m p u l s er e s p o n s e so f t h el o o m 按照声波到达传感器的时间以及所起作用的不同可以将声波分为不同的部分:直达 波:从声源不经反射直接到达传感器的信号,也是人们所关注的信号;前期反射波:直 达波之后并且比直达波延迟5 0 m s 以内的声波,它对声音信号起到增强作用,主要是由 于反射距离较远而产生的回声,能使人产生空间感;混响:与直达波之间的延迟长于 5 0 m s 的声波,主要是经室内界面多次反射因而迟于i i i 期反射波到达传感器的声波。如 果混响时间比较长,就会使声音的清晰度下降。衡量混响的主要指标是混响时间,即在 声源停止振动后声压级从初始值降低6 0 d b 所需的时间,这里记为。设房间的反射系 数为口,体积为玎总面积为s ,根据塞宾公式,房间的混响时间可以表示如下: 一8 大连理i :人学硕十学位论文 = 器 ( 2 9 ) 2 2 时延估计 在麦克风阵列语音增强的算法中,时延估计对语音增强的效果起着很关键的作用。 在研究过程中通常建立声场模型来实现对声波的时延估计。一种模型只考虑环境噪声而 忽略声波的多径反射,称为理想自由声场模型;一种既考虑环境噪声又考虑多径反射, 称为实际混响模型。 2 2 1 理想自由声场模型 u ( 声源 昌 图2 4 理想自由声场模型 f i g 2 ,4 i d e a lf r e e - f i e l dm o d e l ( f ) 理想自由声场模型不考虑混响,如图2 4 ,两个麦克m 和m 2 间距为d ,v 1 ( f ) 和v 2 ( t ) 为两个麦克各自接收到的噪声信号,设声源信号为s ( f ) ,声源到两个麦克的衰减因子分 别为啊和,延迟时间分别为和r :,则两麦克接收到的信号t ( f ) ( f = 1 , 2 ) 可以表示为: x i ( t ) = 口,s ( t t ) + u ( f ) ( 2 1 0 ) 通常情况下,可以假设声源信号和环境噪声是不相关的,并且各路麦克所接收的噪 声彼此之间也是不相关的。 实际中,由于混响是无法避免的,而且对语音增强的效果影响比较显著,因此,理 想自由声场只能作为一种理论上的分析模型,但是由于它比较简单,需要确定的参数比 较少,因此一定程度上比较常用。 9 一 麦克风阵列语音增强技术的研究与实现 2 2 2 实际混晌模型 v i (辫 图2 5 实际混响模型 f i g 2 5 r e a lr e v e r b e r a n tm o d e l ( f ) 在实际声场环境下,混响是不可避免的,必须考虑。实际混响模型如图2 5 ,两个 麦克风接收到的信号x ,( f ) ( f = 1 , 2 ) 可以表示为: x i ( t ) = 嚏( f ) s ( t t f ) + v a t ) ( 2 1 1 ) 其中 ,( f ) 为声源到两个麦克m 。和m :的单位冲击响应。 除了要考虑混晌之外,在实际声场模型中还要考虑噪声的相关性。因为实际中,两 个麦克拾取的噪声信号可能会有一定程度的相关性。 2 2 3 时延估计的一般方法 时延估计的方法有很多,常用的有广义互相关算法( g c c ) 【5 1 、自适应特征值分解算 法( a e d ) 1 6 , 7 以及最小均方自适应滤波算法等。其中较常用的是广义互相关函数法。 广义互相关法是通过求两个信号间的互功率谱,并在频域内对其给予一定的加权来 抑制噪声和反射的影响。频域加权后再反变换回到时域,从而得到两个信号间的互相关。 由互相关的最大值即可得到两信号的相对时延。 理想自由声场模型下,设两麦克风接收到的信号分别为: 而( 厅) = s ( n t 1 ) + v l ( ) x a n ) = s ( n 一吒) + v 2 ( 聆) ( 2 1 2 ) 其中s ( n ) 是声源信号,v ( n ) 是噪声,并i js ( n ) 和v ( n ) 不相关,v d n ) 和v 2 ( ,1 ) 也不相 关。 记毛( 厅) 和x 2 ( n ) 的傅立叶变换分别为x i ( m ) 和x 2 ( ) ,两麦克t n 。和m 2 的相对时延为 f = l - - t 2 。则x l ( n ) 和t ( n ) 的广义互相关为: 大连理 大学硕+ 学位论文 r i 2 ( f ) = f 2 ( ) 墨( 国) 墨( 脚) e - 扣7 d o ( 2 1 3 ) 其中:( ) 为广义互相关加权函数。根据不同的情况可以选择不同的加权函数,以 使得r l :( f ) 的峰值比较尖锐,从而更易于估计峰值处两麦克风之问的时延。 然而在实际应用中,经常会遇到信号的信噪比较低的情况,并且广义互相关算法是 基于理想自由声场模型,前提是假设没有混响,而实际中采集的信号往往又或多或少地 存在着混响,因此,广义互相关算法地分析结果不是很稳定,加之实际数字信号处理中 的窗长度往往是有限的,这进一步对算法结果的稳定性造成影响。因此,如何选择加权 函数。:) 通常是一个比较关键的问题。 常用的加权函数有互功率谱相位( c s p ) 加权、最大似然( m l ) 加权掣9 】。两个信号 x l ( n ) 和t ( ) 的互功率谱为 瓯。( ) = 五( m ) 墨( 国) = s ( ) s ( 珊) p 州矿f 2 + s ( o ) e - j o , q 巧( 缈) + s ( 缈弦一扣f 2 k ( ) + 巧( ) 巧( ) ( 2 1 4 ) = 6 0 ( 彩弦归h 吨+ ( k ( 缈弦一扣1 + ( 0 ( o ) e - j 。勺+ g v l 也( 国) 由于s ( n ) 和v ( 栉) 不相关,v | ( n ) y o v a n ) 也不相关,因此, ( 缈) e 吖” + g 0 ( 甜) p 1 。+ g q k ( m ) = 0 ( 2 1 5 ) 于是: g j 。( 印) = 五( ) ;( 国) = s ( o ) s ( 珊) e 一归7 ( 2 1 6 ) 归一化后得至l j x , ( n ) 和x 2 ( n ) 的相干函数的模的平方: 啪= 撼 ( 2 1 7 ) 定义互功率谱相位加权函数如下: y t :奶2 网1 2 1 8 由此可以得到其最大似然加权的加权函数为: 蚶班_ _ 士娑! l ( 2 1 9 ) 卜际茄毒f 币2 2 1 9 i g 。( 彩) ( 卜1w 1 ) 2 3 阵列模型 常用的也是最简单的阵列一般为直线阵列,如图2 6 所示。 麦克风阵列语音增强技术的研究与实现 刺 。4 一句一t 一书一0 一书 n 国r ,黾h 9 9 毋十 图2 6 直线阵列 f i g 2 6 l i n e a ra r r a y 阵列中的麦克风的相对位置必须满足空间采样定理。对于一个均匀的线性阵列,如 果来波方向与阵列的夹角为日,麦克风间距为d ,则空间采样定理为1 o 】: 趴南 如果不满足空间采样定理,就会出现空间混叠。 例如:在口= 4 5 。,= 3 4 0 0 h z 的条件下,由采样定理得到d 5 8 c m ( 混叠) d = 5 c m a c ct h r 2 时,确定语音的出现。双门限 法的使用,可以将语音段从背景噪声中较为准确地标定出来。 3 ,2 4 算法检测结果 在0 d b 带噪语音下该算法的检测结果如图3 4 所示。 焉o s 0 01234567 0 5 0 01 0 0 0 1 5 0 0 2 0 0 02 卯0 卜 l l | 卜 专一卅鄱 ll 。r 1 05 0 01 0 0 01 5 0 0 图3 4 基于m e l 能鬣羞的v a d 检测结果 f i g 3 4 t h ed e t e c t i o nr e s u l to f v a db a s e d0 1 1m e le n e r g yd i f f e r e n c e 该方法对非平稳的缓变噪声以及平稳噪声环境有着很好的效果,但是当噪声发生特 性突变时将会出现误检测,这是该方法的局限。 3 3 基于子带短时能量,频带方差和短时平均过零率的语音激活检测 3 3 1短时平均能量,频带方差和短时平均过零率的语音激活检测原理 ( 1 ) 短时平均能量 基于短时能量的检测方法认为叠加了噪声的语音段的能量比噪声段大。如果环境噪 1 8 , 0 加 0 , c u c | u u 大连理工丈学硕士学何论文 声和系统输入噪声比较小,能够保证系统的信噪比相当高,那么只要计算输入信号的短 时能量e ,检测其是否大于一定的门限值v t ,就能够把语音段和噪声背景区分开。e 的计 算公式如下: n - i e = y s 2 ( 玎) ( 3 4 ) e - i 阈值v 。是通过对无声期间噪声信号的估计得到的。正常情况下语音信号的前1 0 0 m s 是无声段,可以用来提取噪声的相关特征。 但是,基于能量的方法随信噪比的降低,性能迅速下降;而实际环境很难达到高信 噪比的要求。在不同环境和不同强度的背景噪声干扰时,由于语音的非平稳时变特性, 以及有声无声期间噪声的变化,阈值很难选取,因此只根据短时能量判决语音段误判率 很高。为了准确区分语音段和噪声段,还需要研究两者的其他特征。 ( 2 ) 频带方差 由于语音和噪声的频谱特性差异是很大的,在噪声的频谱中各频带之间变化很平 缓,而语音则是有色的,各频带之间变化较剧烈,根据这一特征,可以很明显地区分语 音和噪声。可以定义一个参数来定量地描述这种特征,并把这个参数称为“频带方差”。 输入信号分为帧长为 r 的数帧,对每帧信号做d c t 变换到频域,用矢量x 表示: x 2 x ( 6 0 0 ) ,x ( q ) ,x ( c o - i ) ) ( 3 5 ) 则信号的频带方差d 可以定义为: n i 2 d = x ( c o ,) - e 】 ( 3 6 ) i = 0 其中e 为均值, - i 层= 吉z ( 哆) ( 3 7 ) 频带方差相当于“交流能量”,它包含两个信息:各频带问的起伏程度和这一帧信 号的短时能量。能量越大,起伏越激烈,d 值就越大,这正是语音的特点:反之对于噪 声,能量越小起伏越平缓,d 值就越小。通常清况下,语音段的短时频带方差比噪声段 的至少大4 5 倍以上,因此两者的区别是相当明显的。通过频带方差检测法可以较准确 的检测语音段起止端点。 ( 3 ) 短时平均过零率 短时平均过零率表示一语音信号波形穿过横轴( 零电平) 的次数。对于连续语音信 号,过零即意味着时域波形通过时白j 轴,而对于离散信号,如果相邻的取样值具有不同 的代数符号就称为发生了过零,一段长时间内的过零率称作平均过零率。 麦克风阵列语音增强技术的研究与实现 窄带信号的过零率反映了该信号的频率。其中,当信号为单一正弦波时,过零率为 信号频率的两倍。 对于宽带信号,为了反映过零率随时间的变化不能采用长时平均过零率,而必须采 用短时平均过零率,定义如下: 乙= l s g n x ( n ) 一s g n x ( n - 1 ) 1 i ( 3 8 ) 式中,s g n 为符号函数,即: s 础】= 裂三; ( 3 9 ) 对语音信号产生模型进行分析发现,发浊音时尽管声道有若干个共振峰,但由于声 门波引起了谱的高频跌落,所以,浊音语音能量约集中在3 k h z 以下,但对于清音,多 数能量都出现在较高频率上,所以,高频就意味着高的过零率,语音信号就是清音,低 频意味着浊音。利用过零率可以从背景噪声中找出清音,判断寂静无声段和有声段的起 点和终点的位置。 3 3 2 子带短时能量,频带方差和短时平均过零率联合检测 本算法将信号分为四个子带,计算出四个子带能量和频带方差,通过和相应闽值的 比较,检测出四个子带和频带方差的初步判决结果,最终结合过零率进行联合判决,在 低信噪比的情况下,相对单一短时能量检测方法其判决结果更加准确。该方法的基本步 骤如下: ( 1 ) 对输入语音进行加窗处理,每帧语音信号取为1 2 8 点,重叠半帧加窗,窗型选 择汉明窗。 ( 2 ) 对加窗后的语音信号进行d c t 变换,将变换后的频域分为四个子带,分别计算 四个子带的能量和频带方差。 ( 3 ) 门限的确定,由于采集的声音信号中最初的短时段多为无音或背景噪声,这样 就可以利用已知为“静态”的最初几帧( 本算法取为5 帧) 信号计算其各个子带短时能量 的阈值。 本算法取前五帧信号各子带短时能量和频带方差的平均值作对应的闽值。将各帧各 子带能量和阈值进行比较,得到初步判决结果分别为f l a g _ l o w _ e n ,f l a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论