(模式识别与智能系统专业论文)声源定位算法及实现.pdf_第1页
(模式识别与智能系统专业论文)声源定位算法及实现.pdf_第2页
(模式识别与智能系统专业论文)声源定位算法及实现.pdf_第3页
(模式识别与智能系统专业论文)声源定位算法及实现.pdf_第4页
(模式识别与智能系统专业论文)声源定位算法及实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(模式识别与智能系统专业论文)声源定位算法及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于麦克风阵列的声源定位是近年来语音信号处理领域的一大研究热点 随 着研究的不断深入 目前该项技术已经在视频电话会议 智能机器人 语音增强 等场合中得到了广泛的应用 尽管如此 如何在真实的声场环境中定位三维空间 的点声源 并进一步提高定位的精度和鲁棒性 仍然是一项有挑战性的课题 也 因此受到了研究者越来越多的关注 本文致力于真实声场环境下的三维空间声源定位的研究 在过去研究的基础 之上 提出了声源定位的改进算法 并且在同步语音采集平台上建立起了实际定 位系统 通过真实办公室环境的定位实验对算法进行了验证 首先 端点检测是语音预处理中关键的一环 避免对无声的信号段的处理 不仅大大降低了运算量 而且提高了有声信号的利用率 最终提高后续定位的精 度 利用噪声近似服从高斯分布以及语音和噪声相互统计独立的假设 引入了四 阶累积量对语音端点进行检测 抑制了背景噪声的影响 其次 基于到达时间差 的声源定位算法是当前最为流行的算法 它由时延估计和定位估计两部分组成 对于时延估计 本文在前人提出的互功率谱相位算法 c s p 算法的基础上提出了 一种改进算法 通过滤除语音范围之外无贡献的互功率谱 达到增加语音主要频 段内的幅度权重的目的 抑制了非期望峰值 提高了估计精度 对于定位估计 本文以已有的球形插值算法 s o 得到的定位估计作为初值 利用l m s 算法进行迭 代搜索得到最小方差意义下的空间最优解 克服了原s i 算法中存在的误差度量 函数非最优和迭代更新定位收敛不确定的问题 定位实验结果表明 本文所提出 的算法使定位精度得到了较大提高 是一种行之有效的算法 关键词 声源定位互功率谱相位球形插值随机梯度下降 a b i 竹 c i a b s t r a c t s o u n ds o t u l o c a l i z a t i o nb a s e do nm i c r o p h o n ea r r a yh a sr e c e n t l yb e e na na c t i v e a r e ai ns i g n a lp r o c e s s i n g a st h er e s e a r c hi sd e v e l o p e d t h et e c h n i q u eh a sb e e n 丽d e l y a p p l i e di nt h ef i e l d ss u c ha st e l e c o n f e r e n c e i n t e l l i g e n tr o b o t s p e e c he n h a n c e m e n t e t o h o w e v e r h o wt ol o c a t eat h r e e d i m e n s i o n a lp o i n ts o t l l i nar e a la c o u s t i c e n v i r o n m e n ta n df m r t h e l i n c r e a s et h ea c c u r a c ya n dr o b u s t n e s si ss t i l lac h a l l e n g i n g t a s k a n di th a sb e e nr e c e i v e dm o r ea n dm o r ei n t e r e s t t h i sp a p e rm a i n l yf o c 璐e s0 1 1t h et h r e e d i m e n s i o n a ls o u i l ds o u r c el o c a l i z a t i o ni n t h er e a la c o u s t i ce n v i r o n m e n t o nt h eb a s i so ft h e p a s tr e s e a r c h am o d i f i e d l o c a l i z a t i o na l g o r i t h mi sp r o p o s e d a n dap h y s i c a ls o u n ds o u l c 圮l o c a l i z a t i o ns y s t e mi s e s t a b l i s h e do i lt h ep l a t f o r mw i t has i m u l t a n e o u ss p e e c hs a m p l i n gd e v i c e e x t e n s i v e e x p e r i m e n t sh a v eb e e nc o n d u c t e di na a l r o o mt ov a l i d a t et h ea l g o r i t h m s f i r s to fa l l e n d p o i n td e t e c t i o ni sac r u c i a ls t e pi ns p e e c hp r e p r o c e s s i n g w h i c h g e t sr i do ft h ep r o c e s so fs p e e c h l e s ss i g n a l s r e d u c e st h ec o m p u m t i o n a lc o s t a n d i m p r o v 船t h ea c c u r a c yo f t h es u b s e q u e n tl o c a l i z a t i o n u n d e rt h ea s u l n p t i o nt h a tn o i s e i sr o u g h l yo a 惦s i a na n d u r c es i g n a l sa r es t a t i s t i c a l l yi n d e p e n d e n to fn o i s es i g n a l s f o u r t h o r d e rc u m l d a n ti si n t r o d u c c dt od e t e c tt h ee n d p o i n t w h i c hg r e a t l ys u p p r e s s e s t h ee f f e c to fn o i s e s e c o n d l y t i m ed e l a yo fa r r i v a l t d o a b a s e dm e t h o di st h em o s t p m v a l e mm e t h o di ns o u n d o u r t l o c a l i z a t i o nw h i c hc o n s i s t so ft w os t e p s t h a ti s t i m ed e l a ye s t i m a t i o na n dl o c a l i z a t i o ne s t i m a t i o n f o rt i m ed e l a ye s t i m a t i o n a m o d i f i e dc r o s s p o w e rs p e c t r a lp h a s e c s p m e t h o di sp r o p o s e d w h i c hf i l t e r so u tt h e c r o s s p o w c rs p e c t r a lo u t s i d et h eh u m a n v o i c ef r e q u e n c i e st h a tm a k e sl i t t l ec o n t r i b u t i o n t ot h er e s u l t s i n c r e a s e st h ew e i g h to i lt h em a g n i t u d eo ft h o s ef r e q u e n c i e s s u p p r e s s e s t h eu n e x p e c t e df a l s ep e a k si nt h ec r o s sc o r r e l a t i o na n di n c r e a s e st h ea c c u r a c yo f e s t i m a t i o n f o rl o c a l i z a t i o ne s t i m a t i o n t h ec l o s e d f o r me s t i m a t i o no fs p h e r i c a l i n t e r p o l a t i o n s om e t h o di sr e g a r d e da st h ei n i t i a lv a l u e a n dt h e nl s ma l g o r i t h mi s e m p l o y e d t oo b t a i no p t i m a lr e s o l u t i o ni nt h el e a s t s q u a r e ss e n s et h r o u g hi t e r a t i o n t h e p r o p o s e dm e t h o ds o l v e ss o m ep r o b l e m si ns im e t h o d i tg u a r a n t e e s t h a tt h e m e a s u r e m e n tf i m c t i o nu s e di so p t i m a la n dt h ei t e r a t i o ni sc o n v e r g e n t f i n a l l y t h e e x p e r i m e n t a lr e s u l t sd e m o n s l r a t et h ee f f e c t i v e n e s sa n dh i g ha c c u r a c yo f t h ep r o p o s e d a l g o r i t h m k e y w o r d s o u n d s o u r c e l o c a l i z a t i o n c r o s s p o w e rs p e c t r a lp h a s e s p h e r i c a l i n t e r p o l a t i o n l m s i l l 第一章绪论 1 1 研究背景 第一章绪论 阵列信号处理是数字信号处理领域的一大热点 它克服了单个传感器信息量 少的缺点 利用各阵元信号之间存在的相关性对输入数据进行融合处理以实现对 待测参数的估计 所述的融合处理可以在时域 频域或空域进行 在统计学的意 义上 由阵列信号处理所得到的估计结果具有更高的精度 该技术已经在无线通 信 雷达 声纳 医学成像 工业自动监控和故障诊断 a r i m 1 9 9 6 n l 等场合得 到了广泛的应用 随着计算机技术的发展和人机交互需求的不断增加 其中如何 在真实的房间场景中定位声源这个课题日益凸现其重要性 基于麦克风阵列的声 源定位研究从上世纪八十年代开始就在国际上受到研究者越来越多的关注 而我 国则起步较晚 阵列的使用在我们现实生活中其实非常普遍 听声辨位 人的双耳就是一 个很好的例子 听觉是一种重要的感觉手段 尤其是在光线昏暗 视物不明和有 障碍物阻挡的情况下更是视觉的有益补充 由于耳朵具有特殊的生理结构 能够 捕获声源到达双耳的相位差和声压差信息 通过复杂的信息处理 使得我们能够 准确地进行辨位 并估计出声源的距离 这是一个心理和生理感知的过程 仿生 学在移动机器人领域得到了较多的应用 2 1 调 这些机器人模仿人的双耳 通过在 相应位置放置一对麦克风 实现对声源的初步定位 由于模型和算法的准确度均 不能与入耳相比 对于复杂声场下的定位效果并不理想 所以 现在更多的目光 投向了多麦克风阵列 通过利用冗余麦克风提供的有效信息 从信号处理的角度 解决定位问题 麦克风阵列较之单个麦克风有许多优点 其优越性表现在 1 麦克风阵列系统具有空间选择性 可以用 电子 瞄准的方式从声源位 置处获取目标信号 并且抑制其它方向的干扰信号 其效果明显优于良 好瞄准的 高方向性的单麦克风 2 麦克风阵列系统能够应用于自动跟踪识别声源 当声源移动时 麦克风 阵列并不需要发生物理上的调整 只需系统改变其电子波束指向即可 第一章绪论 减少了手工操作 3 麦克风阵列系统能够识别监控同时发生的多个声源 在一些多人会话等 场合有重要应用 4 麦克风阵列系统可以用于近场测距 这是单麦克风无法实现的 基于上述的优点 麦克风阵列定位技术目前已经在多种场合得到广泛的应 用 如视频电话会议 f l 雒a g a n 1 9 8 5 嘲中话者定向 控制摄像头指向说话者 并 自动根据距离调焦 利用定位信息在混响环境中获取特定语音 f l a n a g a n 1 9 9 3 t 7 l 实现自动监控系统 0 i n o l o g o 1 9 9 3 8 室内防盗监控 交通监控 车载系统 g r e n i e r 1 9 9 2 t 9 1 语音助听器装置 g 即b e r 岛1 9 9 2 1 0 l 等 1 2 研究历史及现状 基于麦克风阵列的声源定位 就是基于一组已知几何位置的阵列并利用阵元 接收信号的相关性来确定声源方向或者空间位置 根据声源 麦克风阵列 背景环境的不同情况 目前的声源定位研究主要可 分为以下几类 1 二维空间定位与三维空间定位 2 近场定位与远场定位 3 方向定位与距离定位 4 理想环境下的声源定位与低信噪比 强混响环境下的声源定位 随着声源定位应用背景的不断拓展 定位技术的理论研究也取得了长足的进 步 由于工程应用的需求 在二维空间及理想环境下的理论研究已经不能满足要 求 更多的研究致力于真实声场下的三维空间 在无线通信 雷达 声纳领域中 室外远距离的声源方向测定是焦点 在远场情况下 声源与参考传声器之间的 距离大于材2 五 五 是声源的最小波长 d 是阵列孔径 即相邻传声器之间的 距离 此时认为声源信号为平面波 到达各个阵列的方向是近乎相同的 均匀线 性阵列在这种环境中得到了广泛应用 然而在室内环境中 近场声源的研究则是 热点 信号波前认为是球面 不仅可以定向 估计声源到阵列的距离也成为可能 在真实的声场中 声音除了通过空气媒介直接到达传声器以外 还通过各种障碍 物 如墙壁 地板 天花板 室内物品 反射 衍射到达 这样传声器接收到的是 2 第一章绪论 原始直达声和经过延迟和衰减的声音的混合信号 这种导致音质变差的现象叫做 多径效应 o m o l o g o 1 9 9 8 t z l l 多径效应将使麦克风获取的语音质量下降 声源定 位的精度降低 从理论上讲 可用反滤波或反卷积的方法来消除混响 但这要求 已知精确的混响冲击函数 而实际上环境的声学特性一般是很难获得的 因此这 种方法不容易实现 抗混响的其他方法有子带 s u b b a n d 处理法 自适应滤波 a d a p t i v ep o s t f i l t e r i n g 法和基于倒谱 c c p s m n b a s c d 处理的方法等 b r a n d s t e i n 1 9 9 5 埘 声源定位主要有以下三种算法 b 姗以s t e i n 1 9 9 7 t 1 3 1 1 基于可控波束形成的声源定位 1 4 l 1 9 1 波束形成的基本思想是将各个阵元采集来的信号进行加权求和 通过调控权 值使传感器阵列的输出信号功率最大 在传统的波束形成器 c o n v e n t i o n a l b c a m f o r m c r c b f 中 权值取决于各阵元上信号的相位延迟 而相位延迟又与时 延和到达方向有关 故又称之为延时求和波束形成器 d e l a y a n d s u m b e x m f o r m c r 在现代波束形成器 a d v a n c e x lb e a m f o r m e r a b f 中 权值可以突破 上述限制 根据某种调整权值的判据获得对应的最佳波束形成器 常用的判据有 m m s e 最小均方误差 l s 最小二乘 m a x s n r 最大信噪比 和l c m v 线性约 束最小方差 等 从广义上讲 信号的加权求和过程可以看作是滤波过程 故也 称这类波束形成器为滤波求和波束形成器 f i l t c t a n d s u mb e a m f o r m c r 利用c b f 可以获得d o a 信息 因而可用于源定位 某些a b f 也可用于源 定位 如基于l c m v 判据的a b f 也即最小方差无畸变响应c m h 1 j n l u m v a r i a n c 2 d i s t o r t i o n l c s sr e s p o n s e m v d r 波束形成器 但并非所有a b f 都能用于源定位 如基于m m s e 判据的a b f 其算法本身就无需d o a 信息 但需要训练序列 基于可控波束形成器的定位方法较多地用于雷达 声纳以及移动通信的信号 处理中 在这些应用中信源往往是远场 f a r f i e l d 的窄带信号 这时的阵列入射 波可视为平面波 p l a n a rw a v e 当信源为宽带信号时 可使用频域的波束形成器 来进行信源定位 注 如果仅为了提高阵列输出信号的质量 对于宽带信号可使 用基于像m m s e 或l s 等判据的时域a b f 但这时并不能获得d o a 信息 采用c b f 的源定位方法计算量不大 但精度不高且不宜用于多个信源情况 采用a b f 源定 位方法的计算量一般较大 精度要比前者高得多且可用于多个信源的情况 对于 第一章绪论 c b f 和某些a b f 如m v d r 波束形成器 由于计算时要使用相关矩阵 而相关矩阵一般 是从阵列信号的采集数据中估计得来的 故要求在这一段数据时间内的信源及输 入噪声是广义平稳的 可控波束形成技术本质上是一种最大似然估计 它需要声 源和环境噪声的先验知识 且对初值敏感 而实际使用中 这种先验知识往往很 难获得 2 基于高分辨率谱估计的声源定位伽 高分辨率谱估计主要有自回归 1 c t h r e s h o l d 则认为当前帧前m 2 帧为语音信号起 始帧 设状态为寻找结束端点 否则 i 1 转步骤3 5 逐帧对取o 进行搜索 如果鼠o 一e c t h r e s h o l d 则继续向前在m 帧内搜 第二章预处理及端点检测 索 6 若若连续埘帧均有顾o l 蟊l i 毛l 时 s i 方法和最大似然方法是相同的 由上面的讨论我们很自然的得到加权矩阵 矿 d i a g 口 d i a g d 1 1 4 2 7 第四章基于判达时问差的定位算法 这里 d i a g l x l 表示由向量x 转换成的对角矩阵 如为麦克风对传输距离延迟的相 关矩阵 鹿是上一迭代的估值或者先验知识 式降1 9 可以通过迭代实现 在s i 方法给出了解析解初值之后 通过式 4 1 7 更新每步加权矩阵 再通过式 4 1 5 得到更新的定位估计 该迭代过程如果收敛的话 可以使式 4 2 2 的第一项去除 只保留最大似然估计误差项 不过需要注意的是 该迭代过程不一定保证收敛 需要预先判断 4 3改进的s i l m s 算法及其分析 综上所述 8 i 算法提供了加权最小二乘意义下的解析解 运算量相比搜索 算法大大减小 但是 它仍然存在两个问题 一是该迭代不能保证一定是收敛的 收敛条件需要提前判断 这无疑影响了算法的适用性 二是s i 的误差度量函数 不是最优的 导致估计结果也是次优的 所以本文提出了基于s i 的l m s 算法 以 下简称为s i l m s 算法 下面具体分析s i l m s 算法是如何解决这两个问题的 正如式 4 1 3 和 4 1 7 所示 s i 算法的误差度量函数都是经过投影矩阵加权 的 它们在投影空间中消去一些维度 把非线性的问题线性化 这样得出的解析 解是一种次优的选择 根据式 4 1 9 我们提出了优化的误差度量函数 如z s 7 s 4 2 8 其中矿仍然按照 4 2 7 取值 计算优化误差度量函数关于而的梯度 已 一l e t 2 v p 矿g 4 s t 熹d 7 z e 8 2 1 1 tl i d 一2 s x 4 乏9 0 h 其中我们利用了 l 1 1 x 1 1 5 南 4 3 0 显然 无法从v 似7 矿s o 直接求解而 为解决此问题 这里我们引入了最小均 方 l m s 算法 l m s 算法又叫做随机梯度法 它用梯度估计代替梯度 是最速下降法的一 种近似 因为在有些场合中 我们无法获取数据的统计信息 在梯度计算中 用 第四章基于到达时间差的定位算法 瞬时输出误差功率的梯度作为均方误差梯度的估计值 用随机量代替统计值进行 自适应滤波 实现起来非常简单 l m s 算法是一种自适应滤波器 输入经过滤波器加权滤波之后与期望值的 误差在均方意义下达到最小 l m s 算法的加权矢量的平均值的变化规律和最速 下降法的加权矢量完全一样 从而有关最速下降法的加权矢量的结果完全可以用 l m s 算法的加权矢量的平均值来代替 同时 两者的收敛性能在均方意义下是 一致的 我们已经提出了要最小化的误差函数 声源位置的三维坐标可视为l m s 算 法的加权矢量 迭代公式如下 0 1 b uv 8 7 w 6 一4 u 2 s 7 孵扣2 d r w d d lr w s 1 溉 帅p 4 3 1 l i 其中 j 为单位矩阵 甜为迭代步长 用于控制收敛的速度 p 为与而无关的项 下面分析该算法的收敛性 为此 定义 脚姗 i 警d 4 3 2 这里 a 为实对称矩阵 可经过正交旋转变换实现对角化 将其代入式 4 3 0 得 厅 1 一4 地d 挖 p 4 3 3 为保证迭代收敛 必须满足 i l 一锄 i lvi 4 34 五为a 的特征值 故迭代收敛条件为 l 了一 4 3 5 2 r 由于矩阵的迹等于所有特征值之和 为方便迭代计算 我们把步长进一步限制为 甜 面1 两 4 3 6 t r l a l 为矩阵a 的迹 为加快收敛速度 可以给步长乘以一个指数因子 在迭代 初期步长适当放大 迭代中后期趋于收敛条件 s i l m s 算法流程描述如下 第四章基于到达时问差的定位算法 1 初始化权矩阵矿为单位矩阵 利用s i 算法得到声源的初始估计局 2 利用得到的 姒n 更新权矩阵 和步长 1 3 按下式进行迭代计算 墨 拧 1 栉 一u n v e 阡 行 占 完成后 转步骤2 利用所定义的优化误差度量函数 可保证s i l m s 算法是收敛的 即通过有 限次的迭代运算趋于全局极小值点 定位精度相比s i 算法有较大提高 4 4本章小结 基于到达时间差的声源定位方法因其精度高 计算量小等优点受到了研究者 的关注 在各种实际场合得到了广泛的应用 本章首先分析了时延估计误差 麦 克风阵列的空间位置和定位模型对定位精度的影响 接着着重介绍了球形插值定 位算法 s i 利用空间投影矩阵将最小化误差度量函数非线性问题线性化 给出 了加权二乘意义下的解析解 计算量比基于搜索算法来得小 s i 给出的加权矩 阵可以通过迭代更新得到优化的定位解 最终趋于最大似然估计 然而这种迭代 不能保证收敛 需要预先判断 同时 s i 算法所采用的度量函数经过投影矩阵 投影变换后 已经不是最优的度量函数 这也是为得到解析解付出的代价 此时 的解无疑是次优的 我们提出了一种改进的方法 引入了l m s 算法 对优化的 误差度量进行最小化 迭代过程是保证可以收敛的 得到的定位精度比s i 算法 高 第五章实验 第五章实验 5 1 声源定位系统介绍 为了验证算法的有效性 我们实际构建了一个三维声源定位系统 实物如图 5 1 所示 图5 16 麦克风阵列声源定位系统 我们的实际声源定位系统基于六通道语音同步采集设备 由6 个按一定位置 放置的传声器 一块6 通道同步数据采集卡和一台p c 机组成 硬件结构图如下 6 个 前置 传 放大 声 器 器 图5 2 声源定位系统硬件结构框图 声音信号经传声器转换为电信号 由前置放大器放大到采集卡的输入电压信 号范围 再经过采集卡进行模数转换 采集卡的数据传到主机后经过主机程序的 处理 成为6 个独立的声音文件 采集卡使用u s b 2 0 控制器芯片c y 7 c 6 8 0 1 3 与6 路同步模数转换芯片 a d s 8 3 6 4 采样精度1 6 比特 最大同步采样率2 5 0 k s p s 采集卡在w i n d o w s 第五章实验 系统下实现了采集数据的实时传输 由硬件系统同步采集得到6 路声音信号后 经过滤波去噪 端点检测等预处 理 计算出每个传声器对的到达时间差值 最后得到声源位置 定位实验流程如 下 5 2 端点检测 图5 3 声源定位实验流程 首先我们来验证高阶累积量对高斯信号是盲的 取一段纯净的语音信号 计算四阶累积量 然后在原始语音信号加上不同能 量的高斯白噪声 计算相应的高阶累积量 曩始纯净语音 l 一 一 二 二0 孵彤甲一哪 键高新自唆声污染的语音 图5 4 纯净语音和带高斯噪声语音波形比较 第五章实验 原始语音能量 带噪语音能量 图5 5 纯诤语音和带高斯噪声语音能量比较 原始语音四阶累积量 带嚷语音四阶累积t 图5 6 纯净语音和带高斯噪声语音累积量比较 原始的纯净语音是经过归一化的 所加的高斯白噪声均值为o 5 从信号波 形和能量图可以看出 语音已经被噪声淹没 丽累积量图则没有发生明显变化 可见 高斯噪声对信号的高阶累积量值影响很小 第五章实验 接下来 我们验证实际采集信号中的噪声也近似服从高斯分布 取一段实际 采集的语音信号 先计算有声段信号的四阶累积量 然后将无声部分的噪声叠加 到有声段中 再计算高阶累积量 原始采集语音 叠加无声段嚏声的语音 图5 7 原始采集语音和叠加无声段噪声的语音波形比较 氟始采集语音四骱 积量 叠加无声袅哇声的语音四阶曩鞭量 图5 8 原始采集语音和叠加无声段噪声的语音累积量比较 实验中原始采集语音叠加3 倍大小的无声段噪声 从图5 8 可以看出 叠加 前后累积量的变化不是很大 而叠加后时域波形已被严重污染 可见实际语音中 第五章实验 噪声累积量很小 近似服从高斯分布的假设成立 下面分别进行了语音起始点检测和多端点检测实验 原始采集语音起始点检嚣 量加尚斯嚷声詹赶始点捡舅 dr k 山 k i j 山 j m 哪n f w 1o t n j m 一 图5 9 原始采集语音和带高斯噪声语音起始点检测 争墙点检蔫 0 正 上韭m 血 k 呵 v f t 唧 图5 1 0 原始采集语音多端点检测 在叠加了高斯白噪声之后 起始点 利用第二章提出的四阶累积量和短时 端点检测 检测同原始语音的检测结果基本相同 能量相结合的算法 能够很好的实现多 第五章实验 5 3 时延估计 首先比较一般的互相关函数 n c c 方法和互功率谱 c s p 方法 圈5 1 1 a 随机信号s n 和s n 5 0 互相关函数 c s p 方法能够抑制旁瓣的纹波 n c c 方法对互功率谱没有滤波 直接求逆变换 得到一般的互相关函数 c s p 方法对互功率谱进行白化 图5 1 l a 为m a f l a b 仿真的随机信号和延迟5 0 个 单位的相干信号的互相关比较 图5 1 l c o 为实际采集的两路同步语音信号时间差 图5 1 l b 两路同步语音信号比较 n c c 方法主峰附近有很多周期性的旁瓣 c s p 方法能够锐化主峰 抑制旁瓣 第五章实验 比较 均表明c s p 的峰值更加尖锐 抗噪声能力更强 c s p 能够抑制中低混响 为了进一步抑制噪声的影响 尤其是有时候同步噪声的引入 在零时延处会 出现虚假的峰值 我们对互功率谱进行滤波 抑制低频和高频区的相位信息 如 图5 1 2 所示 这样在语音频段内的幅值贡献就更大 估计的鲁棒性提高 图5 1 2 改进的c s p 方法消除了零时延处错误的峰值 实验中语音采集频率为4 8 k 假定空气传播速度恒定为3 4 0 m s 则每一个采 样时延对应的距离为0 7 c m 我们可以提高精度达到亚采样点 取峰值附近的数 据点 实际中选择7 利用下面的公式平滑得到更好的估计 n a n 如l a y 2 丽 5 d 其中 以为时延 乃1 为对应时延的互相关值 5 4 定位实验 麦克风阵列的布局如图5 1 3 所示 前排4 个麦克风水平等间距排列 后排 2 个垂直排列 在办公室环境中进行了相关的定位实验 采集1 2 组同步数据 用于验证系统对不同位置声源的定位性能 声源位置相对阵列中心分为近场和 中远场 方位为正前方 左前方 右前方 正下方 左下方 右下方 每段语 第五章实验 图5 1 3 麦克风阵列的具体参数及坐标系定义 音长度为3 s 左右 采样率为4 8 k 精度为1 6 比特 表5 一l 给出了基于s i 算法和s i l m s 算法的定位结果和相应的各项误差指 标 为使定位结果的误差具有可比性 这里统一使用式 2 1 的误差度量函数 同时 如下定义方位角和方位角误差度量 q 垒素喃 只一最叁粤c o s i 商p 一 表中 l 一3 组为近场声源 与阵列中心的距离在l m 以内 4 9 组为中场声 源 距阵列中心2 3 m 1 0 1 2 为远场声源 距阵列中心4 m 以上 测量结果表 明 在近场 s i 和s i l m s 算法都有较好的定位精度 尤其是s i l m s 算法的 定位误差均在5 c m 以内 在中场 s i l m s 算法也有较好的表现 定位误差基 本在在1 0 c m 以内 而s i 算法的定位精度则有较明显的波动 在远场 两种算 法的定位误差均较大 且呈现随距离增大而增大的趋势 但是 s i l m s 算法的 误差表现明显比s i 算法要好很多 而两者的方位误差与中近场相比没有太大变 化 都较准确 这说明两种算法在声源定向方面具有优良表现 从所得到的结 果来看 s i l m s 算法误差度量函数的值明显比s i 算法要小 角度和位移偏差 的幅度也比s i 算法小 说明s i l m s 算法具有在最小二乘意义下的鲁棒特性 第五章实验 表 ls i 算法和s i l g s 算法声源定位结果比较 长度单位 厘米 角度单位 度 分组声谭定位 t ty 一y i 一 冠一r只一只j 第1 组s i 1 6 0 4 2 7 0 1 2 2 0 4 60 0 9 3 0 o8 2 6 s i l m si 5o 5 1 7o 61 5 4 6 50 0 0 5 6 第2 组s it 0 o5 32 5 1 1 12 5 4 2 40 0 3 3 4 6 05 2 6 s i l m s1 43 2 o 41 12 3 7 7 8o 0 4 4 8 第3 组 s i4 8 o 1 5 34 14 0 7 9 50 1 8 7 2 6 05 2 6 s i l l v 略4 i2 o 4 04 72 6 0 7 6 0 0 1 4 2 第4 组 s l2 21 2 9 1 0 2 1 3 5 3 0 8 4 9o 9 1 l l 0 1 7 2 嘞 s i l m s2 o8 4 28 40 8 3 4 to 0 8 2 4 第5 组s i8 72 10 4 3 02 3 l o 0 0 0 s 1 2 01 7 2 6 s 1 l m s1 0 8 1 12 2 6 92 3 9 2 2o 0 0 2 1 第6 组 s i2 0 48 2 2 1 32 0 25 9 8 8 62 2 8 6 5 1 2 01 7 2 6 s i l m s8 47 5 5 51 1 11 5 0 3 60 2 4 2 5 第7 组戳 o 4 n 81 6 5 o 2 8 0 8 6 90 5 3 0 7 01 1 2 9 0 s i u so 48 51 0 9o 55 4 7 9 20 0 3 3 4 第8 组 s i 5 61 8 9 9 72 1 31 7 6 9 80 2 7 1 6 6 01 1 2 9 国 s i i m s3 82 1 7 2 41 8 54 1 0 4 30 0 8 0 3 第9 组 s i5 6 i 6 4 96 21 5 8 1 51 0 8 7 1 6 01 1 2 9 1 s 1 l m s3 3 7 73 7 4 82 8 1 1 0o 0 5 8 4 第1 0 组 s i4 61 8 79 o 1 8 71 4 4 6 60 4 9 2 0 0 4 1 2 6 s i l m s4 91 5 7 1 o 1 5 60 7 3 0 20 0 6 8 0 第1 1 组 s i8 9 5 1 3 21 4 4 1 5 9 04 2 1 2 7o 3 2 7 2 1 8 0 2 9 2 6 s i u s5 11 1 44 97 11 8 7 8 60 0 9 7 3 第1 2 组吼4 7 6 31 2 1 3 43 3 9 1 3 0 2 3 9 7 1 4 0 5 1 6 6 2 4 04 7 2 6 s i u s4 8 1 4 0 10 9 5 6 92 9 9 5 80 1 5 2 9 第六章工作总结和展望 第六章工作总结和展望 6 1工作总结 声源定位算法经过近几十年的研究 已经取得很大的突破 并在各种场合 得到了应用 但是 基于真实声场环境下的点声源定位仍然是一个颇具挑战性 的课题 本文致力于这一方面的研究 并在六通道同步语音采集平台上实际建 立了声源定位系统 本文的工作主要体现在以下三个方面 1 多端点检测 端点检测是提取语音信息的重要手段 是后续的信号处理 不可缺少的一个环节 在语流中存在不少的停顿 这些间歇段主要为设备噪声 和背景噪声 它们的存在往往会影响后面检测的精度 本文引入了高阶累积量 它有两条重要性质 高阶累积量对高斯信号是盲的 并且相互统计独立的信号 和的累积量等于各自累积量的和 在背景噪声近似服从高斯分布和语音信号与 噪声信号统计独立的合理假设下 利用四阶累积量和短时能量相结合的方法 实现了采集信号的多端点检测 2 到达时间差估计 基于到达时间差估计的算法因其精度高 计算量小而 受到研究这得青睐 时延估计是该算法的第一步 它的估计精度将会累积到后 边的处理中 所以时间差估计将直接影响定位的精度 本文采用了互功率谱相 位算法检测时延 它能够使互相关函数的主峰锐化 抑制旁瓣 对中低混响有 较好的抑制作用 但在实际平台中引入的同步噪声在零时延处常常产生虚假峰 值无法消除 本文从时间域和频域两个方面有效利用信号的信息 多端点检测 剔除了对无效的噪声段的处理 在频域上对互功率谱进行滤波 使语音主要频 段的幅值权重加大 相应的相位信息贡献也更大 3 基于到达时间差的定位估计 球形插值算法通过投影变换将非线性问题 线性化 直接得到解析解 运算量比基于搜索的算法低很多 还根据最大似然 准则得到加权矩阵 通过迭代可使定位估计趋于最大似然解 但是经过投影的 误差度量不是最优的 而且利用加权矩阵迭代不能保证收敛 需要预先进行判 断 本文引入了最小均方算法 为最小化优化的误差度量 求取关于声源坐标 第六章工作总结和展望 交量的瞬时梯度 并以球形插值的解析解作为初值 迭代更新加权矩阵和定位 估计 显然该方法是可以收敛的 提出的改进算法解决了球形插值算法的两个 问题 定位精度也相应提高 6 2工作展望 对于声源定位算法 定位精度和运算量是我们考虑的两个方面 对于基于到达时间差的定位算法而言 在给定时延估计后 建立一个有效 的定位模型和提出优化的准则十分关键 除了定位模型固有的误差外 麦克风 阵列几何位置和采集声源位置标定的误差以及时延估计误差的引入 都会对定 位结果产生影响 可见 如何建模真实声场 提取空间声源信号的声学特征 也是提高精度的关键 本文以球形插值算法给出的解析解作为初值 进行迭代更新 运算量比前 者大 目前无法满足实时要求 同时 采集设备还不能实现采集 实时分析 如果将系统改造成实时的定位系统将是非常具有挑战性的课题 在软硬件接口 上 采集的同步语音要直接传输到上位机及时处理 在算法上 需要有计算量 更小又保证足够精度的定位方法 这些都是我们今后需要研究和改进的地方 4 0 参考文献 参考文献 p r o c e s s i n g m a g 1 3 4 1 9 9 6 6 7 9 4 o fa r r a ys i n a ip r o c e s s i n gr e s e a r c h i e e es i g n a l 2 i t b r o o k s t b s e n i o r a n drl e u s i o n g h i t h ec o gp r o j e c t b u i l d i n ga h u m a n o i dr o b o t mc ln e h a n i v e d i t o r c o m p u t a t i o n sf o rm e t a p h o r s a n a l o g y a n da g e n t s s p r i n g e r v e r t a g 1 9 9 9 3 r e 1 r i e m u l t i m o d a ls e n s o r yi n t e g r a t i o nf o rl o c a l i z a t i o ni nah u m a n o i dr o b o t h i2 r i d j c a w o r k s h o p o n c o m p u t a t i o n a l a u d i t o r y s c e n e a n a l y s i s 1 9 9 7 4 y m a t s u s a k a t t o j o s k u h o t a kf u r u k a w a d t a m i y a k i l a y a t a y n a k a n o a n dt k o b a y a s h i m u l t i p e r s o n c o n v e r s a t i o nv i am u l t i m o d a li n t e r f a c e ar o b o tw h o c o m m u n i c a t ew i t hm u l t i u r i np r o c e e d i n g se u r o s p e e c h 1 9 9 9 1 7 2 3 1 7 2 6 5 1 k n a k a i h go k u n oa n dh k i t a n o r e a l t i m es o t m ds o u i v a l o c a l i z a t i o na n ds e p a r a t i o n f o rr o b o ta u d i t i o n i np r o c e e d i n g si e e ei n t e r m l f i o r m lc o n f e r e n c eo ns p o k e nl a n g u a g e p r o c e s s i n g 2 0 0 2 1 9 3 1 9 6 6 1j f i a 加a g a l lb c a m w i d t hd e s i g nf o rs p e e c h s e e k i n gm i c r o p h o n ea r r a y s 加p r o c e e d i n g so f i c a 艇p 8 3 t a m p a f l 1 9 8 5 7 3 2 7 3 5 7 1 j r a o n a g a n a s u r a n d r a na n de j a n s p a t i a l l ys e l e c t i v es o u n dc a p t u r ef o rs p e e c ha n d a u d i op r o c e s s i n g s p e e c hc o m m u n i c a t i o n 1 3 1 2 1 9 9 3 2 0 7 2 2 2 8 乩o m o l o g o p s v a i z e r u s eo fn l ee r o s s p o w e r s p e c t r u mp h a s e i l la c o u s t i ce v e n t l o c a l i z a t i o n t e c h n i c a lr e p o r tn o 9 3 0 3 1 3 m s p o v od it r e 呲o i t a l y 9 yg r e n i e r am i c r o p h o n ea r r a yf o rc 缸e n v i r o n m e n t s 加p r o c e e d i n g so f i c a s s p 8 5 s a n f r a n c i s c o c a 1 9 9 2 3 0 5 3 0 9 1 0 1j e g i n b e 嘻a n dp m z u r e k e v a l u a t i o no fa l la d a p t i v eb e a m f o r m i n gm e t h o df o r h e r i ga i 出 j a c o u s t o c 爿研d 1 9 9 1 1 6 6 2 1 6 7 6 ii m o m o l o g o rs v a i z c r m m 嘲豁0 i l i e n v i r o n m e n t a l c o n d i t i o n sa n da c o u s t i c t r a n s d u c t i o ni nh a n d s f r e es p e e c hr e c o g n i t i o n 舡砌c o m m 勰 2 5 8 1 9 9 8 7 5 8 5 1 2 1 m s b r a n d s t e i n af

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论