(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf_第1页
(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf_第2页
(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf_第3页
(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf_第4页
(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(通信与信息系统专业论文)麦克风阵列的语音定位和跟踪方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 摘要 根据语音信息实现对当前说话人跟踪的语音定位技术在视频电话会议、大 型会议场所记录、语音识别预处理装置、助听设备等场合具有广泛的应用前景 和潜在的经济效益。由多个麦克风组成的阵列在时域和频域的基础上增加了空 间域,使得麦克风阵列的语音定位和跟踪方法逐渐成为了一个研究热点。然而, 由于实际环境的复杂性和语音信号的特殊性,现有的方法在定位精度、跟踪实 时性、可行性等方面都存在不足。本文从实际应用背景出发,研究麦克风阵列 的语音定位和跟踪方法,旨在实现一种能够应用于实际环境的语音跟踪系统。 本论文首先设计了一种基于实时信号采集的多通道语音采集系统,搭建了 语音信号处理系统的硬件平台,为语音处理算法的分析研究提供了良好的硬件 环境;其次,对语音信号时延估计方法进行了较深入的研究,提出了一种去混 响的预滤波处理方法提高了广义互相关时延估计法在强混响环境下的时延估计 性能,提出了一种接收信号正负延迟的判决准则,提高了自适应时延估计法在 正负延迟情况下的时延估计精度,扩大了其时延估计范围,期间设计了一种基 于l a b v i e w 的l m s 自适应滤波器,实现了两路语音信号之间时延的实时估计, 能应用于实际环境中语音信号的实时分析和处理;同时,深入研究了基于时延 的几何定位方法,对线性阵列、三角阵列和平面四方阵列作了详细的理论推导 和精度分析,分析比较了各阵列的优缺点,提出了相应的改进方案;最后提出 了一种应用于小型室内会议场合的语音实时跟踪系统,详细阐述了其应用方案 和实现步骤,通过在实际环境中的测试,分析了误差产生因素中采样频率、阵 元间距和信噪比之间的关系并给出了理论证明,从而优化了系统参数,使其具 有较好的定位精度。 本论文中实验结果都是结合硬件平台对实际语音信号研究分析得到的,所 以无论是改进方案还是设计的应用系统,在实际环境应用中都取得了良好的效 果,具有一定的实际意义。 关键词:麦克风阵列,时延估计,几何定位,语音跟踪 v 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 a b s t r a c t d e p e n d i n go np a r t i c u l a rs p e e c hi n f o r m a t i o nt ol o c a t ea na c t i v et a l k e r , s p e e c hs o u r c e l o c a l i z a t i o na n dt r a c k i n g t e c h n i q u e sh a v e b e e nw i d e l yu s e di na p p l i c a t i o n ss u c h 弱 t e l e c o n f e r e n c eo rc a m e r as t e e r i n gi nv i d e o c o n f e r e n c e ,h a n d s - f l e ec o m m u n i c a t i o na n ds p e e c h p r o c e s s i n gs y s t e m s i n c es p e e c hs i g n a l sa 他i n e v i t a b l yi n t e r f e r e db yb a c k g r o u n dn o i s ea n dr o o m r e v e r b e r a t i o n si na c t u a le n v i r o n m e n ta n du s i n gs i n g l em i c r o p h o n ec a n tr e s t r a i nt h e s ei n f l u e n c e s , t h i st h e s i sf o c u so ns p e e c hs o u r c el o c a l i z a t i o na n dt r a c k i n gm e t h o dw i t hm i c r o p h o n ea r r a y s b e c a u s em i c r o p h o n ea r r a ys y s t e m sm a k ef u l lu s eo fi n f o r m a t i o ni nt i m e f r e q u e n c yd o m a i na n d s p 撕a ld o m a i n h o w e v e r , t h ec u r r e n tm e t h o d ss t i l lh a v ed e f e c ta n dd e f i c i e n c yi nl o c a t i o n a c c u r a c y , r e a l - t i m eq u a l i t y , f e a s i b i l i t ya n de t c t h e r e f o r e ,i ti sm e a n i n g f u lt od e s i g na n d i m p l e m e n tas p e e c hp r o c e s s i n gs y s t e mw h i c hc a nl o c a t ea n dt r a c kt h ea c t i v et a l k e ra u t o m a t i c a l l y t h em a i na c h i e v e m e n t so ft h i sd i s s e r t a t i o na r ep u tf o r w a r d :f i r s t ar e a l t i m em u l t i c h a n n e l s p e e c ha c q u i s i t i o ns y s t e mi sd e s i g n e da n dah a r d w a r ep l a t f o r mi sa l s oe s t a b l i s h e df o rt h ea n a l y s i s a n dr e s e a r c ho fs p e e c hp r o c e s s i n ga l g o r i t h m s e c o n d ,w i t hd e e p l ys t u d yo ft i m ed e l a ye s t i m a t i o n o fs p e e c hs i g n a l s ,t h e r ea r et w om e t h o d sa r ep u tf o r w a r d o n ei ss p e e c hd e - r e v e r b e r a t i o nm e t h o d b a s e do nf i l t e r i n ga l g o r i t h mi no r d e rt oi m p r o v et h ep e r f o r m a n c eo fg c ci ns t r o n gr e v e r b e r a t i o n e n v i r o n m e n t t h eo t h e ri su s i n gak i n d o fd e t e r m i n i n gr u l eb a s e do nt i m ed e l a yo fa r r i v a li no r d e r t oi m p r o v et h ea c c u r a c ya n dr a n g eo fa d a p t i v et i m ed e l a ye s t i m a t ea l g o r i t h m d u r i n gt h ep e r i o d , a na d a p t i v ef i l t e rb a s e do nl m sa l g o r i t h mt h a tu s i n gl a b v i e wi sd e v e l o p e d e x p e r i m e n ts h o w t h a tt h eo b t a i n e df i l t e ri sv a l i da n dh a sg o o dp e r f o r m a n c ei ns p e e c hp r o c e s s i n g t h i r d ,d e d u c i n g t h ef o r m u l ao fg e o m e t r i cl o c a l i z a t i o nb a s e do nt i m ed e l a ye s t i m a t i o n ,t h e i rd i r e c t i o na n dd i s t a n t a c c u r a c ya r ea n a l y z e da n di m p r o v e di nd e t a i l f o u r t h ,w i t hd e e p l ys t u d yo fc a u s e sa n df a c t o r so f s y s t e me t 0 1 s ,t h er e l a t i o n s h i pa m o n gt h es a m p l er a t e ,a r r a yd i s t a n c ea n ds n ra r ef o u n da n d t h e o r yp r o v e d a n dad e s i g nt h a ta p p l i e dt os m a l l s i z ec o n f e r e n c ei sp r o v i d e df i n a l l y m o r e o v e r , a l lt h ee x p e r i m e n t si nt h i sp a p e ra l eb a s e do nh a r d w a r ep l a t f o r m ,s ot h ed e s i g n a n di m p l e m e n t a t i o no fs y s t e m sa r ef e a s i b l ei na c t u a le n v i r o n m e n t k e y w o r d s :m i c r o p h o n ea r r a y , t i m ed e l a ye s t i m a t i o n ,g e o m e t r i cl o c a l i z a t i o n ,s p e e c hs o u r c e t r a c k i n g v l 上海大学硕士学位论文麦克风阵列的语音定劂艇踪方法研究 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:圭垫笠日期:2 1 1 墨:丝z 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i i 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 第一章绪论 1 1 研究背景及其意义 目前,在诸如视频会议这样的场合中,与会者需要人为的控制摄像机镜头 以便可以给予说话人一个合适的特写。通常,这种视频会议系统对使用者的限 制较多,往往需要使用者对系统时刻保持关注方可正常使用。在许多情况下, 当与会者不愿意去频繁的关注系统或者不熟悉系统操作时,系统一般只能提供 会议现场的一个远距离的全景视频,这样大大降低了这种“可视交流亲密性 和互动性的效果。如果我们能采用跟踪技术使得系统在空间范围内自动对当前 说话人进行跟踪定位,那么不仅可以减少对用户的约束,提高视频会议的效果, 而且这种技术在许多场合,如舞台、新闻现场,大型会议室等,也有着重要的 应用价值。 对于说话人的跟踪定位技术有许多,主要有图像识别跟踪技术、红外线 跟踪技术心3 、语音跟踪技术等,它们都是各自依靠特殊的信息,即图像信息、 红外线信息、语音信息等实现跟踪的目的。图像识别跟踪技术在近几十年的发 展中已经趋于成熟,它是利用视频的图像信号自动进行目标的检测、识别、定 位,自动控制摄像机和麦克风的运动来跟踪和锁定目标。但是这种方法跟踪范 围较小,需要用户处于识别范围内和较高的视频分辨率,而且摄像头和用户之 间不能存在遮挡物,此外其跟踪算法复杂,运算时间长,不易应用到实时的视 频对象跟踪的场合中。红外线跟踪技术是一种新颖的跟踪技术,它是利用红外 线收发装置来检测用户和摄像机在会议室中的位置,一旦系统搭建好,即可迅 速定位和进行位置校正,摄像机可自由运动,不受任何限制。但是它需要在用 户身上安装特殊的发射装置,而且覆盖范围小,容易受到红外反射面( 如橡胶 运动鞋、金属反射面等) 的影响,对室内高度及可支持的机位数有一定的限制, 而且红外摄像机与接收器之间也不能有遮挡,所以对室内物品放置的要求比较 苛刻。鉴于以上两种方法的不足,语音跟踪技术在定位过程中要自然得多,它 是通过声学传感装置接收声波,再利用电子装置将声信号进行转化处理,以此 实现对声源位置进行探测、识别并对目标进行定位及跟踪的目的,对于用户和 室内摆设的限制极少。而且语音跟踪系统可以全方位的接收说话人的语音信息, 可以在黑暗的环境下工作,即使说话人和语音接收装置之间有遮挡物时仍然可 以正常工作,因此语音跟踪技术非常适合应用于视频会议这样的场合之中。 作为传统的语音拾取工具,麦克风正广泛地应用于各种语音通信场合。目 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 前麦克风的使用方式仍然是以单个、孤立的麦克风为主,在实际环境中,单个 麦克风的拾音范围很有限,在拾音范围内的任何声音,包括不希望的噪声都会 被接收,因而无法准确对准并跟踪感兴趣的说话人。在语音通信中,可以使用 阵列麦克风来弥补单个、孤立麦克风的上述缺陷。所谓阵列麦克风,就是使用 多个麦克风构成一个麦克风阵列,在时域和频域的基础上增加一个空间域,对 接收到的来自空间不同方向的信号进行空时处理,使麦克风阵列具有去噪、声 源定位和跟踪、语音提取和分离等功能,从而提高嘈杂背景下的语音通信质量。 在国际上,将麦克风阵列技术用于语音信号处理的研究源于二十世纪八十 年代。随后,许多国家( 如美国、德国、法国、意大利、日本、香港等国家和地 区) 相继开展了这方面的研究工作。进入九十年代以来,麦克风阵列的语音处理 算法正逐渐成为一个新的研究热点,现有的阵列系统已经有了许多的应用,这 些应用包括视频会议、语音识别、车载系统环境、大型场所的记录会议和助听 装置等。尽管如此,由于噪声和混响的存在,使得现有的语音定位算法精度很 难提高,此外,已有的声源定位方法运算量较大,难以实时处理。随着麦克风 阵列技术和信号处理技术的迅速发展,高性能的语音信号处理系统将越来越受 到人们的关注,因此,研究更好的麦克风阵列技术和语音定位跟踪方法具有十 分重要的意义。 1 2 研究现状和前景 进入9 0 年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的 研究热点。而麦克风阵列的声源定位同时又涉及到阵列信号处理、数字信号处 理、模式识别和数据融合等多方面的理论知识,因而成为语音信号处理中难度 大且具有挑战性的研究课题。 基于麦克风阵列的声源定位技术具有广泛的应用前景,它可用于电话会议 系统、视频会议系统、可视电话等系统中控制摄像头和麦克风阵列波束方向对 准正在说话的人;也可用于语音及说话人识别软件的前端预处理,以提供高质 量的声音信号,提高语音及说话人识别软件的识别率;亦可用于强噪声环境下 的声音获取、大型场所的会议记录,以提高声音拾取的质量;还可用于助听装 置中,更好地为耳障碍患者服务。近年来,很多国际著名的公司和研究机构, 如i b m 、b e l l 、n i 等,正致力于麦克风阵列的研究和产品开发( 图1 1 所展示 的是由n i 公司开发的噪声源定位分析系统) 。可以说麦克风阵列正成为越来越 流行的高质量语音拾取的工具,预计在不久的将来将取代传统的桌面或头戴式 麦克风。目前麦克风阵列系统已有许多应用,其中包括视频会议、语音识别、 2 t 海大学碰学位论文 麦克凡阵列的语音定位和跟踪方法研究 车载环境系统、大型场所的会议记录系统以及助听装置等。这些产品己经广泛 的应用到社会生活的各个场合并体现出了极大的优越性。遗憾的是,在国内, 到目前为止我们还没有看到具有自主知识产权的麦克风阵列产品,这与国内巨 大的市场需求不协调。尤其是在2 0 0 8 年,中国人将第一次举办奥运会,到时候 无论是现场解说还是现场采访都需要大量的这种设备。我国一些企业、研究所 和高校也作了大量的跟踪和相关工作,但都在起步阶段。由于国外企业对其麦 克风阵列信号处理核心算法是保密的,因此,自主研制我国的基于阵列麦克风 的语音处理算法和技术有着重要的意义。 圈 1 3 理论研究基础 图1 l 噪声源分析系统 根据目前的研究现状,要实现麦克风阵列语音定位系统,必须对系统在定 位过程中所涉及的各种因素产生的基本原理和原因作一个全面的了解,主要包 括:声波传播规律“、声源定位方法、语音信号的特点以及技术难点等。 1 3 1 声波传播规律 1 3 1 1 关于声波的物理量 ( 1 ) 声功率 声源在单位时间内辐射的总声能称为声功率。常用矿表示单位为瓦w 。 声功率是表示声源特性的一个物理量。卢功率越大,表示声源单位时间内发射 的声能量越大,引起的噪声越强。声功率的大小,只与声源本身有关。 ( 2 ) 声强 声强是衡量声音强弱的一个物理量。声场中在垂直于声波传播方向上, 单位时间内通过单位面积的声能称作声强。声强常以,表示,单位为w l m 2 。声 强实质是声场中某点声波能量大小的度量,声场中某点声强的大小与声源的声 功率r 该点距声源的距离、波阵面的形状及声场的具体情况有关。通常距离声 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 源愈远的点声强愈小,若不考虑介质对声能的吸收,点声源在自由声场中向四 周均匀辐射声能时,距声源,处的声强为: ,:二 ( 卜1 ) 4 万, ( 3 ) 声压 目前,在声学测量中,直接测量声强较为困难,故常用声压来衡量声音的 强弱。声波在大气中传播时,引起空气质点的振动,从而使空气密度发生变化。 在声波所达到的各点上,某一瞬间介质中的压强相对于无声波时压强的改变量 称为声压,记为p ( f ) ,单位是砌。声音在振动过程中,声压是随时间迅速起伏 变化的,人耳感受到的实际只是一个平均效应,因为瞬时声压有正负值之分, 所以有效声压取瞬时声压的均方根值: p r2 ( 卜2 ) 通常所说的声压,若未加说明,即指有效声压,若a 、见分别表示两列声 波在某一点所引起的有效声压,该点迭加后的有效声压可由波动方程导出,为 = 、衍+ 厉(1-3pr ) = 0 阢七菇 ) ( 4 ) 声速 声波在传播过程中的速度会受到传播介质和温度的影响,通常我们只考虑 声波在空气中传播的情况,那么在空气中温度对声速的影响可用经验公式表示 为: c = 3 3 1 41 4 t 而3 3 1 4 + 。6 r ( 1 4 ) 式中t 为摄氏温度,对应声波频率为l o h z 到2 0 k h z 的声音,波长为3 4 3 m 到3 4 3 m m 。 1 3 1 2 声波传播模型 我们把声波的传播方向称为波线( 或射线) ,把某一时刻振动所传播到的各 点所连结成的曲面称为波前( 或波阵面) ,而把传播过程中振动相位相同的各点 所连结成的曲面,称为波面( 或同相面) 。一般按声源的大小和形状可以将声波 划分为点声源、线声源与面声源h 1 。 ( 1 ) 点声源 4 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 点声源是理想化的声源模型。若声源的大小和形状与声波的传播距离相比 较,可以忽略不计,则我们可以把它当作点声源。在各向同性的介质中,振动 在各个方向上的传播速度大小是相同的,因此,振动从点声源出发,在各向同 性介质中向各个方向传播出去,其波前和波面都是以点声源为中心的球面,声 音强度随着传播距离的增加而迅速减弱。若点声源在无穷远处,则在一定范围 的局部区域内,波面和波前的形状都近乎是平面。一般当只有一个人在说话时 可以近似把他看作点声源。 ( 2 ) 线声源 线声源波阵面为柱面,无限长的圆柱体,实际上只要长度比声波的波长大 许多倍,而圆柱半径却比波长小许多倍,则这时所辐射的声波就是轴对称柱面 波,其波阵面便是轴对称的同心柱面。它的声音强度随着传播距离的增加而逐 渐减弱,如很多节车厢的火车。 ( 3 ) 面声源 面声源波阵面为平面,在各向同性的介质中波线恒与波面垂直。因此在平 面波的情况下,波线是与波面垂直的无数条平行直线。平面波在均匀的理想介 质中传播时,声压幅值是不随距离改变的常数,也就是说声波在传播过程中幅 度不会有任何衰减,海啸就属于此种声源。 1 3 2 麦克风阵列的声源定位方法 通过分析在不同位置上的麦克风所接收到的信号来确定声源的空间位置, 这就是基于麦克风阵列的声源定位。现有的声源定位方法大致可以分为三类: ( a ) 基于最大输出功率的可控波束形成技术。该方法对麦克风阵列接收到的语音 信号进行滤波、加权求和,然后直接控制麦克风指向使波束有最大输出功率的 方向;( b ) 基于高分辨率谱估计的定向技术。该方法利用求解麦克风信号间的相 关矩阵来定出方向角,从而进一步定出声源位置;( c ) 基于到达时间差( t d o a ) 技术。该方法首先求出声音到达不同位置麦克风的时间差,再利用该时间差求 得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置。 ( 1 ) 基于最大输出功率的可控波束形成技术 该方法对麦克风所接收到的声源信号滤波并求加权和来形成波束,进而通 过搜索声源可能的位置来引导该波束,最终使波束输出功率最大的点就是声源 的位置。波束形成技术是重要的阵列处理技术,它可以修正阵列的方向使得信 号在某一特殊方向得到增强。因此,通过搜索使波束输出功率最大就可以估计 相对于麦克风阵列的声源传播方向,用两个麦克风阵列可以近似估计出声源的 5 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 位置。该方法最早用于单声源的定位,之后又发展成多声源的定位璐1 。 可控波束形成技术本质上是一种最大似然估计,它的估计结果需要从一系 列离散的波束中确定出来,通常是不准确的,这个问题在声源的远场模型中更 为严重。此外,为了能跟踪主要信号和确定最优方向,需要声源和环境噪声的 先验知识,而在实际使用中,这种先验知识往往很难获得。而且最大似然估计 是一个非线性优化问题,这类目标函数往往有多个极点,该方法对初始点的选 取也很敏感,因此使用传统的梯度下降算法往往容易陷于局部极小点从而不能 找到全局最优点。如果采用别的搜索方法,若要力求找到全局最优点,就会极 大地增加计算复杂度,从而不可能被用于实时处理系统。 ( 2 ) 基于高分辨率谱估计技术的定向方法 该方法来源于一些现代高分辨率谱估计技术( 如自回归( a r ) 模型,最小方 差( m v ) 谱估计,多信号分类( m u s i c ) 算法,特征值分解等) 。虽然该方法成功地 应用于一些阵列信号处理的应用,但在语音定位中的效果不佳。原因有以下四 点: ( 1 ) 该方法需要通过时间平均来估计各麦克风信号之间的相关矩阵,这就 需要信号是平稳的,且估计的参数是固定不变的。而语音信号是一个 短时平稳过程,它往往不能满足这个条件,因此该方法效果和稳定性 不如可控波束形成法。此外,该方法往往假设理想的信号源、相同特 性的麦克风等这些在实际中不可行的条件。虽然可以通过某些方法减 弱这些因素的影响,但这往往需要成倍的增加运算量哺】。 ( 2 ) 由于房间的混响作用,使信号和噪声有一定的相关性,这也会降低该 方法的有效性。 ( 3 ) 该方法还需假定声源离麦克风的距离比较远,且麦克风是一个线性阵 列,这样声波可以近似看成平面波。而这对需近距离定位的系统是不 可行的。 ( 4 ) 高精度谱估计技术往往针对窄带信号,而语音信号是宽带信号,这也 需要以增加运算量为代价来提高定位精度。 ( 3 ) 基于时延的定位方法 基于时延的定位方法在导航系统、声纳系统等领域都有广泛的应用。该方 法主要是估计各麦克风间的相对时延,适合于单个声源的定位,由于每对麦克 风时延仅对应一个双曲面,因此多个麦克风对就可以确定多个双曲面。双曲面 : 之间的交集从某种意义上就是声源的次最优估计。 6 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 基于此原理,首先计算出不同麦克风对之间的到达时间差( t d o a ) ,然后根 据麦克风阵列的几何形状等先验知识,利用计算所得的信息就可以确定声源的 位置。 基于时延的定位方法在运算量上远远小于可控波束形成和谱估计法,可以 在实际系统中实时实现。但是该方法也有不足之处,其一是估计时延和定位分 成两阶段来完成,因此在定位阶段用的参数已经是对过去时间的估计,这在某 种意义上只是对声源位置的次最优估计:其二是时延定位的方法比较适合于单 声源的定位,而对多声源的定位效果就不好;其三是在房间有较强混响和噪声 的情况下,往往很难获得精确的时延,从而导致第二步的定位产生很大的误差。 虽然如此,由于时延估计定位方法的运算量比较低,而且在适当改进后,在一 定的噪声和混响下有比较好的定位精度,适合于在实际中实时应用。因此,在 过去二十多年的研究发展中,声源的时延定位方法已逐渐成为首选技术口1 ,尤 其是在目前数字系统中。本文也将重点研究基于时延估计的定位方法,通过对 其改进在实际的系统中实时实现。 1 3 3 麦克风阵列的语音信号处理特点 基于麦克风阵列的声源定位方法可广泛应用于具有嘈杂背景的语音通信环 境,以提高语音通信质量。麦克风阵列的语音处理与传统阵列信号处理主要有 以下几方面的不同: ( 1 ) 传统的阵列信号处理的信号一般是有一个调制载波的窄带信号,如通信 信号和雷达信号等,而阵列麦克风处理的语音信号没有载波,其频率分 布大部分集中在3 0 0 3 0 0 0 h z 之间,是一个多频宽带信号。 ( 2 ) 传统的阵列处理技术一般处理的信号为平稳或准平稳信号,而麦克风阵 列处理的信号通常为非平稳语音信号。 ( 3 ) 传统的阵列处理一般采用远场模型,而麦克风阵列处理要根据不同的情 况选择远场模型还是使用近场模型。 ( 4 ) 在传统的阵列处理中,噪声一般为高斯噪声( 包括白、有色噪声) ,与 信源无关。在麦克风阵列处理中噪声既有高斯噪声,也有非高斯噪声( 如 室内的空调的工作噪声,电脑机箱发出的干扰噪声,饮水机的声音,突 然出现的电话铃声等) ,这些噪声可能和信源无关,也有可能相关。 基于上述阵列处理不同和区别,因此给麦克风阵列信号处理带来了极大的 挑战,实际中的声源多位于麦克风阵列的近场范围内珊1 ,因此用于远场定位的 算法和模型必须进行改进后才能使用。 7 上海大学硕士学位论文麦克凤阵列的语音定位和跟踪方法研究 1 3 4 技术难点 本文研究用麦克风阵列确定说话人位置,从而控制摄像机或麦克风自动地 对准说话人,主要是针对室内应用场合。图1 2 详细描绘了一个麦克阵列定位 系统的实际情况。假定声音传播满足线性波动方程,且房间内的环境在一段时 间内不变,则从声源到麦克之间可看成线性时不变系统。从图中可知,麦克阵 列系统定位声源的精度受多方面因素的影响。第一是噪声和反射的噪声;第二 是声源的多重反射;第三是说话人与麦克风之间的相对位置。因此,一个高精 度声源定位系统所面临的难点主要有: ( 1 ) 定位系统不仅受到各种噪声的干扰,而且由于房间的反射作用,会产 生相关噪声。这样各麦克风间噪声的互相关函数就不为零,从而增大 了定位的难度。 ( 2 ) 由于房间的反射作用,麦克风不仅收到声源的直接到达部分,还收到 反射的部分。而声音的反射会导致互相关函数或者波束的尖峰扩展, 使得难以确定最大值,从而增大了定位的误差。 ( 3 ) 对于单面摆放的线性麦克风,当声源在方向角比较小的位置时,会影 响几何近似的精度,从而给麦克风与声源间距离的确定引入了比较大 的误差。因此,声源与麦克风的相对位置也会极大地影响定位的精度。 ( 4 ) 麦克风的摆放。对于一个定位系统而言,理论上麦克风的数量越多, 麦克风的相对位置越多样化,提供的空间信息量越大,从而具有较高 的定位精度。而在实际系统中,麦克风的摆放位置比较固定,数量也 比较少,而且麦克风数量越多,引入的噪声也越多。因此难点就是在 尽量少的麦克风和固定摆放位置条件下,提供高的定位精度。 ;7 7,、7、 一= 丘再:;:i 叠z l ;爹:三磊i 二:= :7 ? 8 i 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 1 4 本论文的主要研究内容 针对现有的语音定位跟踪方法在定位精度、实时性、可行性等方面的不足, 本文从实际应用背景出发,设计并实现了基于实时语音采集的跟踪定位系统, 该系统通过对实时采集的语音信号进行分析和处理,从而给出说话人的位置信 息。本论文的主要研究工作如下l ( 1 ) 设计了一种基于实时信号采集的多通道语音采集系统,搭建了语音信 号处理系统的硬件平台,为语音处理算法的分析研究提供了良好的硬 件环境 ( 2 ) 通过对语音信号时延估计方法进行了较深入地研究,提出了一种去混 响的预滤波处理方法提高了广义互相关时延估计法在强混响环境下的 时延估计性能,提出了一种接收信号正负延迟的判决准则,提高了自 适应时延估计法在正负延迟情况下的时延估计精度,扩大了其时延估 计范围,期间设计了一种基于l a b v i e w 的l m s 自适应滤波器,实现了 两路语音信号之间时延的实时估计,能应用于实际环境中语音信号的 实时分析和处理 ( 3 ) 深入研究了基于时延的几何定位方法,对线性阵列、三角阵列和平面 四方阵列作了详细的理论推导和精度分析,分析比较了各阵列的优缺 点,提出了相应的改进方案 ( 4 ) 提出了一种应用于小型室内会议场合的语音实时跟踪系统,详细阐述 了其应用方案和实现步骤,通过在实际环境中的测试,分析了误差产 生因素中采样频率、阵元间距和信噪比之间的关系并给出了理论证明, 从而优化了系统参数,使其具有较好的定位精度。 本文结构如下:第一章介绍了课题的研究背景、意义、发展现状、理论基 础以及本文的主要研究内容;第二章介绍了多通道语音采集系统的设计,构建 了一种比较通用的语音处理硬件平台;第三章介绍了时延估计的原理和算法, 针对各算法的缺陷作了响应的改进,期间还在l a b v i e w 环境下设计了一种l m s 自适应滤波器;第四章介绍了基于时延的定位原理和算法,对每种几何结构作 了详细的理论推导和精度分析,提出了响应的改进方案;第五章介绍了基于时 延定位系统的一种应用方案及其实现步骤,给出了实际环境中的系统测试结果, 详细分析误差产生因素及其原因,并给出理论证明;第六章对本论文的工作进 行了小结,并对今后的工作进行了展望。 9 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 第二章系统硬件平台设计 本文研究的语音定位系统主要针对于实际的应用场合,所以本文所有实验都 是基于实际的语音信号来分析处理的,这就需要搭建一套合适的硬件平台用于语 音信号采集和算法实现。由于在测试系统性能时,需要同时采集多路语音信号, 而普通计算机上的声卡只能采集一路语音信号,因此,本章还设计了一种可调节 多通道的语音采集系统作为语音定位系统中的前端采集部分,根据不同算法的要 求和系统实际需要,提供相应通道的采集信号。 2 1 硬件系统的搭建 通过对采集的语音信号进行一系列分析和处理,从而获得说话人的位置信 息,再利用该结果驱动麦克风或者摄像头对准说话人,最终达到定位跟踪的目的。 按照这样的要求,系统硬件框图的设计如图2 1 所示,其工作流程如下: ( 1 ) 首先,采集卡p x l 4 4 7 2 曲3 将麦克风接收到的语音信号按一定的采样率和采 样方式进行采集,其同时采集的通道数最大可达到8 个通道。 ( 2 ) 然后l a b v i e w 通过控制信号接收p x l 4 4 7 2 的采集数据并对其进行分析处 理,将处理好的语音数据保存在计算机( p c ) 中,p c 再将语音数据的处 理结果通过串口发送给$ 3 c 4 4 8 0 。 ( 3 ) s 3 c 4 4 b o 通过控制信号将接收到的结果转化为电信号对步进电机进行上 电。 ( 4 ) 最后由步进电机驱动麦克风或摄像头旋转来对准说话人。 p x l 4 4 7 2llp c l a b v l e w 1f 篓 、1 爵 、心、 、0 :二 蛊教鬃审日教 图2 1 硬件系统框图 1 0 乡瞻上锨 步瞧上 翻 显一 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 2 2 硬件开发环境 ( 1 ) p x l 4 4 7 2 采集卡 n ip x i - 4 4 7 2 是一款高性能、高精度的p x i 总线模拟输入模块,是n i 动态信号 采集分析产品系列中专门用来进行动态信号采集应用而设计的。可用于语音信 号处理、声纳、音频频域测试与测量等需要高保真的信号采集领域。它有8 个模 拟输入通道可以同时进行采样,输入带宽为从直流至l j 4 5 k h z ,可同时以最大 1 0 2 4 k s 的速率、2 4 - b i t 分辨率进行采样,并有包括外部数字触发的多种触发模 式。每个输入通道都有独立的软开关和麦克风前置放大器。 ( 2 ) l a b v i e w l a b v i e w 呻1 是n i 推出的一种基于“图形 方式的集成化程序开发环境,在测 量测试、数据采集、仪器控制、数字信号分析、工厂自动化等领域获得了广泛的 应用。他作为一个优秀的图形化编程平台,在数据采集、虚拟仪器软件框架、通 用接口总线及串口仪器控制、图像处理、运动控制、数据分析和图表显示方面都 具有强大的优势,特别是对于一些基于实时数据的采集和分析的应用系统或虚拟 仪器的设计,l a b v i e w 更是无可替代,因为它提供了大量与此相关的特殊功能, 是所有传统高级语言所不具备的。 ( 3 ) $ 3 c 4 4 8 0 $ 3 c 4 4 8 0 n 们是s a m s u n g 公司推出的1 6 3 2 位r i s c 处理器,为手持设备和一般类 型应用提供了高性价比和高性能的微控制器解决方案。为了降低成本,$ 3 c 4 4 8 0 提供了丰富的内置部件,包括:8 k bc a c h e ,内部s r a m ,l c d 控制器,带自动握手 的2 通道u a r t ,4 通道d m a ,系统管理器( 片选逻辑,f p e d o s d r a m 控制器) ,代用 p 删功能的5 通道定制器,i o 端口,r t c ,8 通道1 0 位a d c ,i i c b u s 接口,i i s b u s 接口,同步s i o 接口和p l l 倍频器。s 3 c 4 4 8 0 采用了a r m 7 t d m i 内核,0 2 5 u m 工艺的 c m o s 标准宏单元和存储编译器。它的低功耗精简和出色的全静态设计特别适用于 对成本和功耗敏感的应用。同样$ 3 c 4 4 8 0 还采用了一种新的总线结构,即s a m b a i i ( 三星a r mc p u 嵌入式微处理器总线结构) 。s 3 c 4 4 b o x 的杰出特性是它的c p u 核, 是由a r m 公司设计的1 6 3 2 位a r m 7 t d m ir i s c 处理器( 6 6 m h z ) 。a r m 7 t d m i 体系结 构的特点是它集成了t h u m b 代码压缩器,片上的i c e 断点调试支持,和一个3 2 位的 硬件乘法器。$ 3 c 4 4 8 0 通过提供全面的、通用的片上外设,大大减少了系统电路 中除处理器以外的元器件配置,从而最小化系统的成本。 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 2 3 多通道语音信号采集 在实际环境中,单个麦克风的拾音范围很有限,在拾音范围内的任何声音, 包括不希望的噪音都会被接收,因而无法准确对准并跟踪感兴趣的说话人。采用 多个麦克风构成的麦克风阵列可以弥补单个、孤立麦克风的上述缺陷,具有去噪、 定位和跟踪等功能,同时对于算法的实现也提供了方便。因此,本课题需要设计 一个多通道的语音采集系统,利用n ip x i - 4 4 7 2 进行高速数据吞吐和同步数据处 理的特点,最大设计能力可以同时采集8 路语音信号,并可对采集声道数目、位 速、音频采样级别、设备号、通道选择和采集时间等进行调节,从而满足语音定 位算法的要求。 2 3 1语音采集驱动配置 首先安装n i - - d a q 驱动程序,此驱动可在安装l a b v l e w 时自动提示安装, 用于驱动底层数据采集卡工作,其次安装采集卡硬件,最后进行配置:运行 m e a s u r e m e n t a u t o m a t i o ne x p l o r e r ( m a x ) ,在d e v i c ea n di n t e r f a c e s 中选 择所使用的n ip x i - 4 4 7 2 器件,对设备编号、模拟信号极性范围和模式、设备 附件及过程控制各选项进行配置。n i d a q 中引入了物理通道、虚拟通道和任务 的概念。物理通道是一个可测量的终端或引脚,或者是生成的模拟或者数字信 号,每一个支持d a q - m x 的d a q 设备上的物理通道应该有一个唯一的名字;虚拟 通道是包括名称、物理通道、输入连接、测量或生成的信号类型、幅度信息等 属性的集合;任务在d a q - m x 中是一个或多个虚拟通道的集合,包含通道时序、 触发特性和其他属性,实质就是一个要执行的测量或产生信号的操作。具体设 备配置步骤包括:创建虚拟通道或任务、测试通道、复制和删除通道、浏览和 改变通道属性等。 l a b v i e w 中的数据采集实际上包含了模拟输入、模拟输出、数字输入输出 和计数器4 种信号输入输出方式。在本文的语音采集系统中用到的是模拟输入 方式,需要用到l a b v i e w 中d a t aa c q u i s i t i o n 子模板的a n a l o gi n p u t 子模板 中的若干个数据采集v i 。采集过程可以用图2 2 表示。其中数据采集卡即 p x i - 4 4 7 2 ,通过多路开关、a d 转换芯片和数据缓存( b u f f e r ) 几个部件将多通 道的模拟语音信号转换成数字信号并存储在其缓存中,而计算机通过l a b v i e w 中的数据采集v i 对p x i - 4 4 7 2 中的几个部件的运作进行控制,p x i 一4 4 7 2 和计算 机之间通过计算机总线通信、交换数据和控制信息。 1 2 上海大学硕士学位论文 麦克风阵列的语音定位和跟踪方法研究 声l 氍 l 电压 转羧器 避避l 逢莲2 最璐3 绣趱4 屉礁5 曛透6 强惩i 煎避 多矩歼美 鬏褒 数掰 控制 络号 甜算机 图2 2p x i 一4 4 7 2 模拟信号采集过程 一个多点多通道波形数据采集的过程一般需经过以下几个步骤,本文所描 述的可调节多通道语音采集也采取了同样的步骤: ( 1 ) 数据采集v i 通知数据采集卡( p x i - 4 4 7 2 ) 以及相关的采集参数: ( a ) 采样频率:即多路开关进行一次扫描的频率; ( b ) 采样次数:即多路开关扫描的次数; ( c ) 采样通道:即多路开关对哪些通道进行扫描; ( d ) 数据缓存大小:确定每次将多少次扫描的数据存储到数据缓存中。 ( 2 ) 多路开关对采样通道进行一次依次扫描,每个通道采样一个点; ( 3 ) 采样的模拟信号送到a d 转换器转换成数字信号; ( 4 ) 数字信号存储到数据缓存; ( 5 ) 重复( 2 ) 一( 4 ) 的操作,直到采集到了所需的采样点数,全部数据顺序存储到 缓存中; ( 6 ) 从数据采集卡的缓存中读取数据到计算机的内存中; 单点、单通道或不经过缓存的采样过程将上述过程作相应的简化即可。 2 3 2 主要v i ( v i r t u a li n s t r u m e n t ) 及其功能 表2 1 中列出了语音采集系统中涉及到的主要v i n 妇图表、端口及其主要功 能。将这些模块以流程图的方式有机的联系起来,就可以构成一个多通道语音 采集系统,它不仅结构简单,而且还有较好的人机交互界面,为用户操作提供 了方便。 1 3 一一一舭一舢一一一 上海大学硕士学位论文麦克风阵列的语音定位和跟踪方法研究 表2 1 采集部分主要v i 及其功能 v i 图标主要功能描述 冈碉 医崮 模拟输入初始化,并给其分配一个任务i d 网 匾到 模拟输入任务开始( 将数据暂存在数据采集卡缓存中) 园 模拟输入数据记录( 将采集卡缓存中的数据读入计算机中) 因 模拟输入任务结束 图 指定文件保存路径对话框 目 条件分支结构 囫 程序出错提示 f 嘲 将采集的波形数据保存成w a v 文件 匿崮 划墼璺i 数据采集通道 卜p 圭岩n 叫 按名称将元素解除捆绑 国 设备号 国 保存路径 国 输入信号幅值上下限 圄 采样时间设定 匦回 波形示波器 2 3 3前面板设计 利用l a b v i e w 的人机交互界面来实现传统仪器操作面板的功能,用户能很方 便的看到各通道在同一时刻所采集的语音波形,并且可以通过调节系统的初始参 数来获得自己想要的采样结果。图2 3 给出了系统各通道的示波器图形曲线、初 始参数的控制单元以及结果显示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论