(信号与信息处理专业论文)基于麦克风阵列的声源定位算法研究.pdf_第1页
(信号与信息处理专业论文)基于麦克风阵列的声源定位算法研究.pdf_第2页
(信号与信息处理专业论文)基于麦克风阵列的声源定位算法研究.pdf_第3页
(信号与信息处理专业论文)基于麦克风阵列的声源定位算法研究.pdf_第4页
(信号与信息处理专业论文)基于麦克风阵列的声源定位算法研究.pdf_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 麦克风阵列已广泛应用于音视频会议、语音识别及增强等领域。声源定位是 阵列信号处理的主要任务之一,是实现空间滤波的基础。基于阵列的定位算法分 为超分辨算法和非超分辨算法。非超分辨类算法的定位精度受到阵列孔径的限制, 只能用于定位精度要求较低的情况。超分辨类算法定位精度可以突破瑞利限,在 一定条件下可以实现任意定位精度,具有极大的应用价值。传统的超分辨算法假 设信源为窄带远场平稳信号,而麦克风阵列处理主要针对宽带短时平稳的语音信 号,且声源可能位于阵列的近场,这导致d o a ( d i r e c t i o no f a r r i v e ) 估计算法不能通 用。基于麦克风阵列的声源多维定位与传统的信源定位相比,主要存在如下问题: 1 ) 宽带信号:在窄带条件下,阵元之间的相位差可以近似认为是信号源位置 的函数,频率为一常量;而语音信号为宽带非调制信号,阵元之间的相位 差为频率和信号源位置的复合函数。 2 ) 近场源信号:在麦克风阵列处理中,因为应用环境不同,声源可能位于阵 列的近场或远场,而传统的阵列信号处理均假设信源位于阵列的远场。 3 ) 空间干扰源:在室内环境中,空间干扰源和语音信号同时辐射到阵列上, 严重影响定位性能。 4 ) 多维定位:麦克风阵列应用一般需要二维z 维定位,传统的阵列处理算 法主要针对一维d o a 估计。 本文围绕这些问题,提出了几种声源定位算法,实现了声源多维定位,主要 工作如下: 1 1 提出了基于麦克风阵列的近场信号模型:根据语音的传播特性和阵列处理 的要求,提出了基于球面波前的近场信号模型,该模型综合考虑了阵元之 间的幅度衰减和时延两个因素。当信源与阵列的距离较远时,阵元接收信 号之间的幅度差异减小,该模型可以退化为远场信号模型。针对多维定位 问题,提出了麦克风阵列的一般设计原则,并设计三种麦克风阵列:二维 均匀圆环麦克风阵列、三维均匀直线麦克风阵列和三维均匀球面麦克风阵 黄i 页 电子科技大学博士论文 列。 2 1 提出了声源多维定位m u s i c 算法:把接收信号分成若干个窄带信号,根 据子空间分解原理,把这些窄带信号划分为信号子空间和噪声子空间,推 导出了声源多维定位m u s i c 算法。 3 ) 提出了声源多维定位聚焦算法:根据聚焦理论,以每个频率点的相关矩阵 和参考频率点的相关矩阵的均方误差最小为最优聚焦准则,提出了一种不 需要预估计和迭代的声源多维定位聚焦算法,减少了运算量,提高了定位 性能。 4 ) 提出了色噪声下的声源多维定位子阵算法和预白化算法:根据室内环境噪 声分布特点,把阵列分成两个位置不同的子阵,调节子阵的位置,使阵列 接收相同的语音信号和不相关的方向噪声,利用两个子阵的互相关矩阵, 实现声源定位,抑制方向噪声的影响。由于通道不一致以及回声等因素的 影响,使得阵列接收的噪声信号不满足空间白,本文提出了一种预白化算 法,来抑制色噪声对声源定位的影响。 采用= 维均匀圆环麦克风阵列、三维均匀直线麦克风阵列和三维均匀球面麦 克风阵列,通过m a t l a b 仿真,验证了本文提出的几种声源多维定位算法。 关键词:麦克风阵列信号处理,声源多维定位,子空间算法,语音信号处理。 第1 i 页 a b s t r a c t m i c r o p h o n ea r r a y s ( m a ) a r ew i d e l yu s e di n a u d i o v i d e oc o n f e r e n c e s ,s p e e c h r e c o g n i t i o n s ,a n ds p e e c he n h a n c e m e n t se t c t h el o c a l i z a t i o no f t h es p e e c hs o u r c ei st h e p r i m a r yt a s ko ft h ea r r a ys i g n a lp r o c e s s i n g ,a n dt h eb a s i so fs p a t i a lf i l t e rd e s i g n i n g t h e s o u r c el o c a l i z a t i o ns t r a t e g i e si n c l u d et h eh i l g h ( s u p e r ) 一r e s o l u t i o na l g o r i t h m sa n dt h e g e n e r a lr e s o l u t i o no n e s t ot h eg e n e r a lr e s o l u t i o nm e t h o d ,t h ep r e c i s i o no fl o c a l i z a t i o n i sl i m i t e db yt h ea r r a ya p e r t u r e ,a n dh a so n l yb e e nu s e di nl o wp r e c i s i o nc a s e u s e dt h e h i g hr e s o l u t i o na l g o r i t h m ,t h ep r e c i s i o no fl o c a l i z a t i o nc a l lg e tb e y o n dt h er a y l e i g h r e s o l u t i o nl i m i td e c i d e db yt h ea r r a ya p e r t u r e ,a n dc a r le v e ng a i na r b i t r a r yr e s o l u t i o na t s o m ec a s e t h e r e f o r e ,t h i st y p eo fm e t h o d si so fg r e a tv a l u e t h ec l a s s i c a l h i g h - r e s o l u t i o nm e t h o d ss u p p o s et h a tt h es i g n a ls o u r c e sa r en a r r o w - b a n da n ds t a t i o n a r y i nt h ef a rf i e l d h o w e v e r , t h es p e e c hs i g n a li sw i d e b a n da n ds h o r t t i m es t a t i o n a r yi nt h e n e a rf i e l d a n dt h e n ,t h ec l a s s i c a ld o a ( d i r e c t i o no fa r r i v a l ) e s t i m a t i o nm e t h o d sc a n t s o l v et h e s p e e c h s o u r c el o c a l i z a t i o np r o b l e m s s p e e c hs o u r c em u l t i d i m e n s i o n l o c a l i z a t i o n ( m d l ) m e t h o d sb a s e dm a ,v s c l a s s i c a ld o am e t h o d s ,h a v es o m e p r o b l e m sa sf o l l o w s : 1 ) w i d e b a n ds i g n a l :i nt h ec a s eo fn a r r o w - b a n ds i g n a l ,t h ep h a s e d i f f e r e n c e b e t w e e nt w oa d j a c e n te l e m e n t so fa r r a yi ss u p p o s e dt ob eaf u n c t i o no fs o u r c e s l o c a t i o n ,a n dt h e 行e q u e n c yo ft h es i g n a li sac o n s t a n t w h i l e ,s p e e c hs i g n a li s w i d e b a n da n dn o n m o d u l a t e d w h o s ep h a s e d i f f e r e n c ei sac o m p o u n df u n c t i o no f t h ef r e q u e n c ya n dt h el o c a t i o no f s o u r c e s 2 ) n e a r f i e l ds o u r c e :i nt h em a p r o c e s s i n g ,s p e e c hs o u r c ei su s u a l l yt h en e a r f i e l do ft h ea r r a y 、h i l e t h es o u r c el i e si nt h ef a rf i e l do ft h ea i r a yi nt h ec l a s s i c a l a r r a yp r o c e s s i n g 3 1s p a t i a li n t e r f e r e n c es i g n a l :劝es p a t i a li n t e r f e r e n c ea n ds p e e c hs i g n a la r c c a p t u r e ds i m u l t a n e o u s l yb yt h em a i nt h er o o me n v i r o n m e n t ,r e s u l t i n gi nt h eb a d p e r f o f i n a n c eo f t h es p e e c hs o u r c e1 0 c a l i z a t i o n 4 、m u l t i d i m e n s i o nl o c a l i z a t i o n :i t r e q u i r e s t w o o rt h r e e d i m e n s i o n j o c a l i z a t i o ni nm aa p p l i c a t i o n b u to n l yo n e d i m e n s i o nl o c a l i z a t i o ni nt h ec l a s s i c a l a r r a yp r o c e s s i n g f o c u s i n go nt h e s ep r o b l e m s ,s e v e r a la l g o r i t h m so fs p e e c hs o u r c el o c a l i z a t i o na r e p r e s e n t e da sf o l l o w s : 1 ) t h en e a rf i e l ds i g n a lm o d e lb a s e do nm a :t om e e tt h ea r r a ys i g n a l 第1 i i 页 电子科技大学博士论文 p r o c e s s i n gr e q u i r e m e n t ,t h en e a r - f i e l ds i g n a lm o d e lb a s e do ns p h e r i c a lw a v ei s p r e s e n t e da c c o r d i n gt o t h es p e e c hp r o p a g a t i o nt h e o r y t h i sm o d e lc o m b i n e st h e a m p l i t u d ea t t e n u a t i o na n dt i m ed e l a yf a c t o rb e t w e e nt h ea d j a c e n te l e m e n t so fa r r a y w h i l et h es p e e c hs o u r c ei sf a rf r o mt h ea r r a y , t h i sa m p l i t u d ea t t e n u a t i o nf a c t o ri s s m a l l n l i sm o d e lc a r lb es i m p l i f i e dt ot h ef a r - f i e l ds i g n a lm o d e l t om d l p r o b l e m s t h r e et y p e so fm aa r ed e s i g n e d :2 dp l a l i a - u n i f o r mc i r c l ea r r a y , 3 du n i f o r ml i n e a r r a ya n d3 du n i f o r ms p h e r i c a ls u r f a c ea r r a y 2 1s p e e c hs o u r c em d lm u s i ca l g o r i t h m :t h es i g n a lc a p t u r e db yt h ea r r a yi s t r a n s f o r m e di n t os e v e r a ln a r r o w - b a n ds i g n a l sf s u b b a n d ) b yf f to rd f t t h e c o v a r i a n c em a t r i x e so ft h e s es u b b a n d sa r ed i v i d e di n t os i g n a ls u b s p a c ea n dn o i s e s u b s p a c ea c c o r d i n gt ot h es u b s p a c et h e o r y a n dt h e n ,t h es p e e c hs o u r c em d l m u s i cm e 也o di sd e v e l o p e db a s e do nt h em u s i ct h e o r y 3 ) s p e e c hs o u r c em d lf o c u s i n ga l g o r i t h m :b a s e do n 、i d e b a n df o c u s i n g ,a s p e e c hs o u r c em d lf o c u s i n ga l g o r i t h mi sp r e s e n t e di nt h i sp a p e r , a n di td o e s n t r e q u i r ei n i t i a le s t i m a t e sa n di t e r a t i o n s t h eo p t i m a lc r i t e r i o no f t h i sa l g o r i t h mi st h e m m s e i e t h em i n i m i z e dm e a ns q u a r ee r r o ro ft h ec o r r e l a t i o nm a t r i xo ff o c a s e d 矗e q u e n c y a n dt h eo t h e r s t l l i s a l g o r i t h mh a s t h e a d v a n t a g e o ft h el o w c o m p u t a t i o n a lc o m p l e x i t yf o rt h er e a l - t i m ea p p l i c a t i o n s 4 ) s p e e c hs o u r c em d la l g o r i t h mi nt h ec o l o r e dn o i s e :t h ea r r a yi sd i v i d e d i n t ot w os u b a r r a y sb yt h en o i s e sl o c a t i o n t h es u b a r r a y sl o c a t i o nc a nb ea d j u s t e d s ot h a tt h es p e e c hs i g n a l sc a p t u r e db yt h ea r r a y sa r et h es a m e ,a n dt h ed i r e c t i o n a l n o i s e sa r en o n c o r r e l a t i v e 1 1 1 ec r o s sc o r r e l a t i o nm a t r i xa b o u tt h et w os u b a r r a y s c a nb ec a l c u l a t e d t h es p e e c hs o u r c el o c a t i o ni ss o l v e da c c o r d i n gt om u s i co r f o c u s i n gm e t h o d sa n dt h ed i r e c t i o n a ln o i s e sc a i l b es u p p r e s s e d d u et ot h e c h a n n e l sn o nc o n s i s t e n c ya n dt h ee x i s t e n c eo fr e v e r b e r a t i o n si nr o o m t h en o i s e r e c e i v e db yt h ea r r a yi s n ts p a t i a lw h i t eg a u s so n e t h ep r e w h i t e n i n gm e t h o di s p r e s e n t e dt os u p p r e s sc o l o r e dg a u s sn o i s e s i m u l a t i o nb a s e do nm a t l a bs h o w st h eh i g hp e r f o r m a n c eo ft h es e v e r a lp r o p o s e d a l g o r i t h m si np l a n a ru n i f o r mc i r c l ea r r a y ,3 du n i f o r ml i n ea r r a ya n d3 du n i f o r m s p h e r i c a ls u r f a c ea r r a y k e y w o r d :m i c r o p h o n ea r r a ys i g n a lp r o c e s s i n g ;s p e e c hs o u r c em u l t i d i m e n s i o n l o c a l i z a t i o n ;s u b s p a t i a lm e t h o d ;s p e e c hs i g n a lp r o c e s s i n g 第1 v 页 插图目录 图1 1 基于麦克风阵列的语音通信系统结构示意图 图1 2l i s e s i z a 公司的麦克风阵列产品 图1 3 声源1 的时域波形,采样频率1 6 k h z ,采样精度1 6 b i t 一 图1 4 声源2 的时域波形,采样频率1 6 k h z ,采样精度1 6 b i t 图1 5 声源1 的语谱图,采样频率1 6 k h z ,5 1 2 点f f t 变换,5 0 重叠, 图1 6 声源2 的语谱图,采样频率1 6 k h z ,5 1 2 点f f t 变换,5 0 重叠, 图1 8 宽带波束形成器 图1 。9 不同频率的m v d r 波束图,1 个信号,2 个干扰源 4 4 汉明窗5 汉明窗6 2 0 2 0 图2 1 脉动球源示意图2 6 图2 2 麦克风阵列接收信号模型2 8 图2 3 近场模型演化成远场模型3 2 图2 41 2 元均匀直线阵波束图,间距为8 厘米3 8 图2 51 2 元均匀圆阵波束图,半径为2 5 厘米3 9 图2 61 8 元均匀球面阵波束图,半径为2 5 厘米4 0 图2 。71 3 元三维均匀直线阵波束图,间距8 厘米4 1 图3 1 均匀直线阵列平均空间谱 图3 2 空间搜索点最大值( 均匀直线阵列) 图3 3 均匀圆环阵列平均空间谱 图3 4 空间搜索点最大值( 均匀圆环阵列) 图3 5 空间搜索点最大值( 均匀球面阵列) 图3 6 空间搜索点最大值( 三维均匀直线阵列) 图3 7 空间搜索点最大值( 圆阵,2 2 个频率点) 。 图3 8 空间搜索点最大值( 圆阵,1 1 个频率点) 图3 9 空间搜索点最大值( 圆阵,6 个频率点) 图3 1 0 估计误差与信噪比的关系曲线( 圆环阵、球面阵,三维直线阵) 图3 1 1 空间方向噪声时搜索点最大值 第1 x 页 ” 卯 鼹 鲫 们 配 甜 :合 图3 1 2 均匀圆环阵平均谱峰( m u s i c 算法) 图3 1 3 三维均匀直线阵平均谱峰( m u s i c 算法) 图3 1 4 三维均匀球面阵平均谱峰( m u s i c 算法) 图3 1 5 均匀圆环阵定位误差与s n r 的关系曲线图 图3 一1 6 声源距离阵列1 0 米的平均谱峰( 均匀圆环阵,s n r - 一2 0 d b ) 图3 1 7 声源距离阵列5 米的平均谱峰( 均匀圆环阵,s n r = 2 0 d b ) 图3 1 8 声源距离阵列3 米的平均谱峰( 均匀圆环阵,s n r = 2 0 d b ) 图3 1 9 声源距离阵列1 米的平均谱峰( 均匀圆环阵,s n r = 2 0 d b ) 图3 2 0 声源距离阵列3 米的平均谱峰( 均匀圆环阵,s n r = 1 0 d b ) 图3 2 1 声源距离阵列l 米的平均谱峰( 均匀圆环阵,s n r = 1 0 d b ) 6 6 6 7 6 7 6 8 6 8 6 9 6 9 7 0 7 0 7 1 图4 1 距离搜索点的平均空间谱( 聚焦算法,均匀圆环阵) 8 3 图4 2 空间搜索点最大值( 聚焦算法,均匀圆环阵) 。8 4 图4 3 空间搜索点最大值( 聚焦算法,均匀球面阵) 。8 5 图4 4 估计误差与信噪比的关系曲线。8 6 图4 5 子带数与估计误差的关系曲线8 6 图4 6 二维聚焦算法平均谱峰( 均匀圆环阵,s n r = 1 0 d b ,1 0 个子带) 8 7 图4 7 二维聚焦算法平均谱峰( 均匀球面阵,s n r = 1 0 d b ,1 0 个子带) 8 7 图4 8 不同信噪比的仿真结果,信噪比分别为1 0 d b ,5 d b ,0 d b ,一5 d b ,子带数为1 0 8 8 图4 - 9 不同子带数仿真结果,( a ) ( b ) ( c ) 和( d ) 子带数分别为1 ,5 ,8 ,2 0 ,信噪比:1 0 d b 1 9 图4 1 02 d m u s i c 算法和t c t 算法的仿真结果,信噪比:1 0 d b ,均匀圆阵9 0 图5 1 搜索点的最大值( 子阵算法) 1 0 1 图5 2 子阵结构示意图1 0 2 图5 3 搜索点的最大值( 子阵算法) 1 0 3 图5 4 搜索点的最大值( 子阵算法) 1 0 4 图5 5 子阵算法和预白化算法的性能对比1 0 5 第x 页 主要符号表 1 1 | i 向量的范数 f ) “ 转置共轭运算 f 1 。 转置运算 f 1 共轭运算 ( r求逆运算 a 奇异值构成的对角阵 见矩阵的特征值 舅第i 个信源的俯仰角 痧第i 个信源水平角 。:( 国) 广义互相关加权函数 p ( f ) 信号的相位 f 。相对时延因子 织信号的中心角频率 a 阵列流形 a 阵列方向矢量 a 幅度衰减系数 口。相对幅度衰减因子 c 波速( 声波取3 4 3 米秒) d 信号源个数 d阵元间距 d i a g ,对焦矩阵 e f 统计平均 f ( t )阵列接收信号矢量 f ( t ) 第i 个阵元接收信号 厶 信号中心频率 g i ( ) 第i 个阵元接收到的干扰信号 i单位矩阵 m 阵列阵元个数 m a x ( 1 取最大值 m i n ( o 、取最小值 n阵列采集的噪声矢量 n 。 f f t 点数 m 子带数 n i ( r ) 第i 通道采集的噪声 p ( )空间谱矩阵 q 。 第k 子带噪声相关矩阵 t第i 个信号源与阵列的距离 r 阵列接收信号相关矩阵 r 。 信号源信号相关矩阵 s信号源信号矢量 j ,( ,) 第j 个信号源 第i 个声源的坐标 t ( c o k ) 聚焦变换矩阵 t r a c e ( ) 矩阵的迹 u 特征向量组成的矩阵 u 。噪声子空间 u 。信号子空间 。d 个大特征值组成的对角阵 。m d 个小特征值组成的对角阵 c r 2 自噪声能量 u ,第,个信号源的单位方向矢量 m第i 个阵元的权 第x i 页 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名 姐 日期:力繇年月日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导师签名: 日期:出嘁 第章引言 1 1 研究背景 第一章 引言 语音是人类社会交流信息最古老、最自然、最有效、最方便的手段之一。语 音通信过程不可避免地受到周围环境和传输媒介引入的干扰,环境噪声的污染使 得许多语音处理系统的性能急剧恶化。例如,在演讲厅、多媒体教室或会议室中, 发言人要配备麦克风,并控制麦克风的位置,才能够得到比较好的语音质量【l 】。在 战场和工业环境下,这个问题就更加严重。又如,在安静环境下,现有的语音识 别技术已经能够达到很高的识别率。但如果受到干扰或说话人与麦克风的相对位 置发生了变化,识别率就会大大下降【2 j p j 。 由于这些干扰和噪声的空间分布特性,说话人的走动导致信号源空间位置的 变化,会导致语音拾取质量的下降,从而给语音信号处理提出了新的要求。基于 麦克风阵列的语音处理技术,在时域和频域的基础上增加空域处理,可以有效地 滤除空间噪声,并可以采用数字波束形成技术对准目标声源,大大提高语音拾取 质量【8 】- 【1 5 】。 声源定位( 声源位置参数估计) 技术,是实现基于阵列的空域滤波、声源位 置跟踪以及语音增强最核心的技术之一,本论文详细论述了基于麦克风阵列的声 源定位技术及相应的波束形成技术。 1 2 麦克风阵列的典型应用 阵列信号处理已经广泛用于雷达、声纳、医学、通讯、航空航天技术等诸多 领域中。将阵列技术用于语音信号处理的研究,源于二十世纪八十年代。近年来, 基于麦克风阵列的语音处理算法已经成为新的研究热点1 6 】。目前,麦克风阵列系 统已经广泛应用于音视频免提( h a n d s f r e e ) j l 髓信,会议系统【1 7 】 1 9 】、语音识别系统口m 、 第1 页 电子科技大学博士论文 语音控制系统、车载电话以及助听器等领域口”。本小节就麦克风阵列的典型应用 作一个简要介绍。 传统的音视频通信会议系统中,每位与会者在讲话时必须配备一个麦克风, 并且要保证麦克风与讲话者的相对位置基本不改变;一个视频采集设备对准讲话 者,音视频信息采集后通过通信网络传播。当改变讲话者时,必须进行手动音频 采集通道切换,手动调节视频设备,对准新的讲话者。如果讲话者需要在一定区 域内自由走动,必须采用手持式或头戴式麦克风。采用麦克风阵列作为语音采集 设备,可以实现讲话者自由切换,且讲话者可以在一定范围内自由走动,并利用 阵列输出的讲话者的位置信息自动调节视频采集设备,还可以消除背景噪声的干 扰,其典型结构如图1 1 所示。 近年来,音视频通信会议系统发展很快,p o l y c o m 、l i f e s i z e 等公司推出了基 于麦克风阵列的音视频会议产品。其中l i f e s i z e 公司的l i f e s i z ep h o n e 采用1 6 个 麦克风组成均匀圆环麦克风阵列【2 2 l ,1 6 k h z 采样,集成v o i p 、p s t n 等通信模块, 图1 2 所示。 针对个人计算机之间的语音通信系统,m i c r o s o f t 公司在新一代操作系统 w i n d o w sv i s t a 中集成了对麦克风阵列的支持【矧,采用恒定束宽波束形成技术 【2 4 】- 【”1 ,实现高质量的语音采集。i n t e l 公司提出h d a u d i o 规范,在个人p c 机上可 以实现1 6 通道,3 2 k h z 的语音采集【2 6 1 ,配合相应的软件,可以获得高质量的语音 信号。通过麦克风阵列采集到的高质量语音信号,结合语音识别系统,可以实现 语音同步自动记录,语音命令解释,构建智能化设备。 随着语音识别技术的快速发展,语音控制系统已经进入日常生活,实现了灯、 窗帘、中央空调系统、h i f i 系统的控制等。通过有限的语音控制命令,实现界面 友好的控制系统。要实现稳定可靠的语音控制,首先要有在各种环境下稳定可靠 的语音识别技术。现有的语音识别技术,在低信噪比以及回声环境下,识别性能 较差。这主要是因为需要事先在干净的语音环境下通过训练,为说话者建立语音 模型,然后进行语音识别。基于麦克风阵列的语音拾取技术,可以提高语音采集 质量,当环境发生变化时,采集到语音信号质量变化很小,从而可以达到稳定可 第2 页 靠的语音控制口7 1 。 图1 1 基于麦克风阵列的语音通信系统结构示意图 第3 页 图1 2l i s e s i z a 公司的麦克风阵列产品 1 3 语音信号和麦克风阵列处理信号环境的特点 语音信号的特性,主要指语音的声学特性、时域波形和频谱特性,以及语音 信号的统计特性等2 8 1 。本小节只讨论语音的时域波形、频谱特性和统计特性。 在时间域里,语音信号用它的时间波形来表示。语音信号属于短时平稳信号, 一般认为,在1 0 4 0 m s 内,语音信号的特性基本上不改变,或缓慢变化【2 8 1 。从而 可以截取一小段进行频谱分析。在本论文的仿真中采用了两个语音信号源,信号 源1 为中文标准普通话( 新闻) 男声,信号源2 为中文标准普通话( 新闻) 女声, 其时域波形分别如图1 3 和图1 4 所示。 s p e e c hs o u r c e l :m a t ev o i c e 024681 01 2 1 4 1 6 t i m e s 图1 3 声源1 的时域波形,采样频率1 6 k h z ,采样精度1 6 b i t 第4 页 1 5 0 5 1 0 0 s p e e c hs o u r c e 2 :f e m a l ev o i c e “扎 i t血i皿i“l j |诅盅虹皿 哪l i , f l q x n 1 i鄹, , f i r 阿啊”丌啊既 孵 佴 024 681 0 t i m e s 图1 4 声源2 的时域波形,采样频率1 6 k h z ,采样精度1 6 b i t 由于语音信号是短时平稳的,为了得到语音信号的频率特性,一般对语音信 号进行短时分析,求出其语谱图( s p e c t r o g r a m ) 。对两个语音信号进行短时傅立叶 变换( s t f t ,s h o r t t i m e f o u r i e r t r a n s f o r m ) ,5 1 2 点( 3 2 m s ) 数据输入,5 0 重叠, 加汉明窗( h a m m i n g ) ,得到两个信号源的语谱图,如图1 5 和图1 6 所示。 s p e e c hs o u r c e l :m a l ev o i c e 24 681 01 21 4 t m e l s 图1 5 声源1 的语谱图,采样频率1 6 k h z ,5 1 2 点f f t 变换,5 0 重叠,汉明窗 第5 页 8 6 4 2 0 2 4 6 0 0 o 0 0 0 0 0 d 0 0 0 0 d 0 0 咖 硼 咖 蜘 蜘 | 寻 如啪 ( z e 言岳寻a j l s p e e c hs o u r c e 2 :f e m a l ev o i c e 24681 01 21 41 6 t i m e s 图1 6 声源2 的语谱图,采样频率1 6 k h z ,5 1 2 点f f t 变换,5 0 重叠,汉明窗 采用麦克风阵列系统的主要目的是,声源参数估计以及语音去噪增强,提高 语音采集的质量。因此,噪声的特点决定了相应的处理方法,选择有针对性的算 法来处理相应的噪声【2 9 1 。语音通信时,常见的噪声主要有以下几种【3 0 1 【3 3 】: ( 1 ) 背景噪声:主要出现在会场,多媒体教室,高速行驶的汽车内部等场合。这 种噪声一般来说能量不是特别大,不会掩盖正常的语音,只是影响语音的清 晰度和可懂度。同时,背景噪声通常不具有空间方向性,或者说它是一个全 向噪声。在实际处理中,这种噪声通常看作空间白噪声来抑制。 ( 2 ) 方向性干扰 3 4 1 :具有明确到达方向的干扰源,通常是点干扰源。它可能是固 定的,如风扇、键盘敲击、空调等;也可能是移动的,如电锯、吸尘器等。 方向性干扰的另一个特点是:它的能量有可能非常大,足以掩盖正常的语音 信号,如电锯。处理这种方向性干扰,需要用到波束形成( b f ,b e a m f o r m i n g ) 技术,在干扰源的到达方向上,形成一个很深的零点( n u l l i n g ) ,抑制强干扰, 并且能自动跟踪干扰源位置的变化。 ( 3 ) 模型噪声:严格来讲,模型噪声并不是语音通信环境中固有的噪声,而是人 们使用各种算法进行噪声处理过程中,人为引入的噪声。例如,使用麦克风 阵列处理噪声时,各个麦克风的实际位置与理论值之间存在误差:另外,各 个麦克风以及相应的处理通道的幅度相位响应也不可能完全相同;还有,在 计算各个统计量时,由于样本数有限,得到的估计值与真实值也有偏差等等。 所有这些,都使得真实的数据模型和算法设定的数据模型之间存在差异,因 第6 页 咖 咖 咖 咖 咖 咖 咖 啪 。 鲫 砌 劬 卯 加 加 们 一nh)。岳善竺l 第一章引言 而称为模型噪声。模型噪声的随机性很大,随着时间、地点的改变而改变 处理起来较为困难。模型噪声是影响算法处理性能的一个重要原因。 1 4 基于麦克风阵列的声源定位算法概述 基于麦克风阵列的定位问题,就是利用一组按一定几何位置摆放的麦克风, 定出声源的空间位置。基于麦克风阵列的声源定位方法,按照定位原理大体上可 分为三大类3 5 】: 基于最大输出功率的可控波束形成技术; 基于到达时间差( ( t d o a ) 技术; 一 基于高分辨率谱估计的定位技术; 1 4 1 基于最大输出功率的可控波束的声源定位算法 基于可控波束的定位算法,是早期的一种定位方法。该算法的基本思想是, 采用波束形成技术,调节麦克风阵列的接收方向,在整个接收空间内扫描,能量 最大的方位为声源的方位。采用不同的波束形成器可得到不同的算法。该方法在 满足最大似然准则的前提下,以搜索的方式,使麦克风阵列所形成的波束对准信 号源,从而获得最大输出功率。即,对麦克风所接收到的声源信号滤波,并加权 求和来形成波束,进而通过搜索声源可能的位置来引导该波束,波束输出功率最 大的点就是声源的位置。基于可控波束形成的定位算法,主要分为延迟累加波束 算法和自适应波束算法。前者运算量较小,信号失真小,但抗噪性能差,需要较 多的阵元才有比较好的效果。后者因为加了自适应滤波,所以运算量比较大,而 且输出信号有一定程度的失真,但需要的麦克风数目相对较少,在没有混响时有 比较好的效果。 文献【3 6 】- 【3 7 】最早提出该方法的理论基础,文献【3 8 进一步得出可控定位的理 论和实际上的方差,文献 3 9 将该方法应用于多声源的定位。波束形成技术已经广 泛应用于基于麦克风阵列的语音拾取领域,但要达到稳健有效的声源定位还十分 困难。这主要是由于该方法需要进行全局搜索,运算量极大,很难实时实现。虽 第7 页 电子科技大学博士论文 然可以采用一些迭代方法来减少运算量,但常常没有有效的全局峰值,收敛于几 个局部最大值,且对初始搜索值极度敏感。并且,可控波束定位技术依赖于声源 信号的频谱特性,其最优化准则绝大多数都基于背景噪声和声源信号的频谱特性 的先验知识。因此,该类方法在实际系统中性能差异很大,再加之计算复杂度高, 限制了该类算法的应用范围【4 0 】 4 2 1 。 1 4 2 基于时延估计的声源定位算法 基于时延估计的声源定位算法,在导航、声纳等领域有广泛的应用。该算法 首先估计各麦克风之间的相对时延,然后利用估计出的时延,确定声源的位置【4 3 】。 在现有的麦克阵列声源定位方法中,该方法运算量相对较小,实时性较好,硬件 成本较低,因而倍受关注。但是,该算法适合于单个声源的定位系统,如果用于 多声源定位,性能将会严重下降。基于时延估计的定位方法,主要由时延估计和 声源定位两部分组成m j 。 时延估计算法的方法很多,广义互相关函数法( g c c ,g e n e r a l i z e dc r o s s c o r r e l a t i o n ) 运用最为广泛。广义互相关法通过求两信号之间的互功率谱,并在频域 内给予一定的加权,来抑制噪声和反射的影响,再反变换到时域,得到两信号之 间的互相关函数。其峰值位置,即两信号之间的相对时延【4 5 】- 【4 6 1 ,时延估计过程如 图1 7 所示。 设 ,( n ) ,h 2 ( 门) 分别为声源信号s ( n ) 到两麦克风的冲激响应,则麦克风接收到 的信号为: ( n ) = h i ( n ) o s ( n ) + q ( n ) x 2 ( n ) = 壳2 ( n ) o s ( n ) + 伤( n ) 第8 页 ( 1 1 ) ( 1 2 ) 第一章引言 五( 肝) 心( n ) 一m ( n ) 一竺塑卜 ,、泪翱骨禁 囹_ 图1 7 广义互相关时延估计的流程 在( 1 1 ) 式和( 1 2 ) 式中,啊( n ) , :( n ) 为系统采集到的噪声。 对两路信号滤波。设葺( n ) 和x :( n ) 的傅立叶变换为五( 珊) 和x :( 甜) ,每路的滤 波器分别为q ( 0 9 ) 和h 2 ( ) ,则滤波后的信号为: k ( 国) = h 1 ( 国) 五( c o ) 艺( )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论