(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf_第1页
(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf_第2页
(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf_第3页
(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf_第4页
(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(通信与信息系统专业论文)基于空域滤波的语音分离研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 现实生活中 人类能够在复杂的环境下将注意力集中于感兴趣目标的说话内容 语 音分离的目的就是为了让计算机也具备这种能力 即在众多说话人背景下提取出感兴趣 的一个或多个说话人的语音 麦克风阵列在时域和频域的基础上增加了空间域 为语音 分离算法提供了一个新的思路 就是根据声源空间位置的不同对不同声源进行分离 本 文就是按这个思路进行语音分离算法的研究 主要工作概括如下 第一 分析了语音信号的特性和声波传播特性 在传统阵列信号处理的基础上 研 究了麦克风均匀线性阵列的近场 远场信号模型 第二 针对基于麦克风阵列的高分辨率参数估计 如m u s i c 和波束形成参数估计 如m r 方法在抗噪性方面的不足 利用阵列信号的稀疏性将信号稀疏分解算法应 用于声源定位 通过实验仿真验证了该算法在低信噪比情况下有较好的鲁棒性 而且能 够对相干信源进行定位估计 基于稀疏分解的声源定位算法是通过不同的方位参数建立 原子库 并通过全局搜索寻找最佳原子 这样导致了该算法复杂度较高 计算量大 针 对这一问题 使用基于近场扇区划分的匹配追踪算法 大大的减少了m p 分解算法的计 算量 为 分解算法应用于实时系统提供了可能 第三 研究了近场自适应波束形成算法 使用麦克风阵列近场模型将传统m v d r 波束形成算法应用于近场环境 针对m v d r 波束形成算法稳健性方面的不足 研究了 近场稳健m v d r 波束形成 r c b 算法 使得m v d r 波束形成算法具有对导向矢量误 差和有限样本效应的双重鲁棒性 第四 结合声源定位算法和波束形成算法通过使用m a t l a b 仿真演示语音分离效 果 关键词 语音分离 麦克风阵列 稀疏分解 波束形成 稳健性 西南交通大学硕士研究生学位论文第l i 页 a b s t r a c t i nr e a ll i f e h u m a nb e i n g sc a nf o c u so ns o m ei n t e r e s t e ds p e e c hi nac o m p l e xe n v i r o n m e n t t h ec o m p u t e ra l s oc a nh a v et h i sa b i l i t yw h i c hi st oe x t r a c to n eo rm o r ei n t e r e s t e ds p e a k e r s s p e e c hf r o mn u m b e r so fs p e a k e r s s p e e c hb ys p e e c hs e p a r a t i o n b a s e do nt i m ed o m a i na n d f r e q u e n c yd o m a i n s p a t i a ld o m a i ni s a d d e dt o p r o v i d ean e ww a yo ft h i n k i n gf o rs p e e c h s e p a r a t i o na l g o r i t h m t h en e ww a yo ft h i n k i n gi st h a ts p e a k e r s s p e e c ha r es e p a r a t e da c c o r d i n g t ot h ed i f f e r e n tp o s i t i o n so ft h es p e e c h i nt h i sp a p e r w er e s e a r c ho ns p e e c hs e p a r a t i o n f o l l o w i n gt h en e wi d e a t h em a i nc o n t e n to ft h i s d i s s e r t a t i o nc a l lb es u m m a r i z e da s f o l l o w i n g s f i r s t c h a r a c t e r i s t i c so fs p e e c hs i g n a la n da c o u s t i cw a v ep r o p a g a t i o na r ea n a l y z e d a n d n e a ra n df a rf i e l ds i g n a lm o d e l so ft h em i c r o p h o n eu n i f o r ml i n e a ra r r a ya r er e s e a r c h e db a s e d o nt r a d i t i o n a la r r a ys i g n a lp r o c e s s i n g s e c o n d h i g h r e s o l u t i o ns p e c t r a le s t i m a t i o n s u c ha sm u s i c a n ds t e e r e db e a m f o r m e r s u c h a sm v d r h a v ep o o rn o i s ep r o o d u et o t h e s p a r s i t y o f a r r a ys i g n a l s p a r s e d e c o m p o s i t i o nm e t h o di sa p p l i e dt os o u n ds o u r c el o c a t i o nt os o l v et h i sp r o b l e m c o h e r e n t s o u r c e sa l s oc a l lb el o c a t e db yt h i sm e t h o d t h i ss o u n ds o u r c el o c a t i o nm e t h o dw a sp r o v e dt o b ee f f e c t i v ev i ac o m p u t e rs i m u l a t i o n m pm e t h o di st of i n dt h eb e s ta t o mi na t o ml i b r a r yw h i c h i se s t a b l i s h e dv i ad i f f e r e n to r i e n t a t i o np a r a m e t e r sb yg l o b a ls e a r c h s ot h ea l g o r i t h mi s e x t r a o r d i n a r yc o m p l e x i t y t os o l v et h i sp r o b l e mm pm e t h o db a s e do nn e a r f i e l ds e c t o rd i v i s i o n i su s e d t h e c o m p u t e rs i m u l a t i o np r o v e d t h a tt h i s a l g o r i t h mg r e a t l y r e d u c e st h e c o m p u t a t i o n a l s om pm e t h o di sp o s s i b l ea p p l i e dt or e a l t i m es y s t e m t h i r d n e a r f i e l da d a p t i v eb e a m f o r m i n ga l g o r i t h mi sr e s e a r c h e do n a c c o r d i n gt ot h e m i c r o p h o n ea r r a yn e a r f i e l dm o d e lt r a d i t i o n a lc a p o nb e a m f o r m i n ga l g o r i t h mi sa p p l i e dt o n e a r f i e l de n v i r o n m e n t h o w e v e rt h i s a l g o r i t h mi s l a c ko fr o b u s t n e s s s ow er e s e a r c ho n n e a r f i e l dr o b u s tc a p o nb e a m f o r m i n g r c b a l g o r i t h mt os o l v et h i sp r o b l e m n e a r f i e l dr o b u s t c a p o nb e a m f o r m i n ga l g o r i t h mh a sr o b u s t n e s sa g a i n s tb o t hs t e e r i n gv e c t o rm i s m a c t c h e sa n d f i n i t e s a m p l ee f f e c t s l a s t c o m b i n a t i o no fs o u n ds o u r c el o c a l i z a t i o na l g o r i t h ma n db e a m f o r m i n ga l g o r i t h m w es i m u l a t e dt h es p e e c hs e p a r a t i o nu s i n gm a t l a b k e yw o r d s s p e e c hs e p a r a t i o n m i c r o p h o n ea r r a y s p a r s ed e c o m p o s i t i o n b e a m f o r m i n g r o b u s t n e s s 西南交通大学硕士研究生学位论文第1 页 1 1 本文的研究背景及意义 第1 章绪论 语音传递是人类获取和传达信息的一个重要途径 语音信号处理在信号处理的发展 领域里始终占有重要的一席之地 经过众多声学研究者的多年努力 语音处理技术得到 了迅速的发展 并逐步投入了使用 而语音分离是语音信号处理中很重要的一部分 在 现实世界的声学环境中 常常存在许多声源和感兴趣的语音信号混合在一起的情况 语 音分离的目的就是在有多个说话者语音同时存在的情况下 提取感兴趣说话者的语音 语音分离问题来源于著名的 鸡尾酒会问题 f l 这个问题可以被描述成在复杂的背景 噪声和多个人交谈的情况下 能够将注意力集中于某个人说话内容的能力 众多计算机 智能研究者的一个梦想就是使计算机具有人类的这种分辨能力 实现人机对话 语音识 别技术是实现这个梦想的一个有效途径 目前语音识别系统已经具有了较高的识别率 但是当语音识别环境中存在噪声时 语音识别系统的识别率会大大降低 在实际环境中 不可避免的含有各种噪声 并且还混合了多个语音 在语音识别系统的前端进行语音分 离 可以极大地提高识别系统在实际环境中的分辨能力 2 1 在电话会议系统中 在会议 房间许多人说话的声音被麦克风记录下来 被记录下来的语音传送到另一个地方进行播 放 由于麦克风同时记录下了其他许多人的语音使得感兴趣的说话人的语音质量大大的 了降低了 语音分离技术可以用来提高所感兴趣的人的语音质量 从而改善电话会议的 效果p 另外基于空域滤波的语音分离算法可以实现声源定位 4 确定说话人的个数 5 1 这方面研究对于智能机器人的智能化研究具有十分重要的作用 麦克风阵列在时域和频域的基础上增加了空域 为语音分离问题的解决提供了新的 思路 麦克风阵列 6 1 就是将多个麦克风 组成具有一定的几何拓扑结构的阵列 对比单 个麦克风 麦克风阵列主要具有如下特性 1 定位跟踪特性 麦克风阵列接收单个声源 由于每个麦克风的位置不同 各 路麦克风采集到的语音信号必然存在差异 利用这些差异 就能提取出需要的信息 估 计出声源方位实现对说话人的定位跟踪 同样麦克风阵列也能实现多声源的定位跟踪 2 空域滤波特性 麦克风阵列可以在空间上对准感兴趣的声源形成波束 而在 其他说话人 干扰 的方向形成零点 这样能够对干扰和背景噪声进行抑制 达到空域 滤波的目的 西南交通大学硕士研究生学位论文第2 页 1 2 相关技术研究现状 单通道语音分离算法是当前国际上正在兴起的一个研究方向 主要方法是计算听觉 场景分析 c o m p u t e r a u d i t o r ys c e n e a n a l y s i s c a s a 由b r e g m a n 提出的1 7 之后很多人 提出一些有效的c a s a 算法 8 1 1 j 不过由于这些算法最近几年才提出来 理论和算法还 不太成熟 1 2 根据声源位置不同的语音分离算法研究主要内容包括声源定位估计和波束形成两 个部分 现有的声源定位估计方法主要有 l3 基于到达时延差 t i m ed i f f e r e n c eo f a r r i v a l t d o a 的声源定位 l4 1 基于子空间的定位方法1 1 5 和基于可控波束形成的定位估 计 1 6 1 7 1 基于时延差的声源定位方法一般分为二步 1 8 先估计声音达到时延差 然后根 据估计的时延差进行声源定位估计 现有的时延估计方法主要有广义互相关 g e n e r a l i z e d c r o s sc 0 玎e l a t i o n g c c 法 1 9 1 互功率谱相位 c r o s s p o w e rs p e c t r u mp h a s e c s p 法 2 0 1 特征 值分解法 e i g e n v a l u ed e c o m p o s i t i o n e v d 1 2 1 1 最大似然 m a x i m u ml i k e l i h o o d m l 2 d 权法瞄 等方法 获得时延估计后 根据几何关系可以求得声源方位 基于可控波束形成的定位 方法是早期的一种定位方法 2 3 该方法是通过波束形成技术 对空间各方位形成波束 得到各方位波束输出功率 输出功率出现峰值的方位就是所在方位 2 4 1 2 5 1 基于子空问的 定位算法源于一些现代高分辨率谱估计技术 它们通过特征分解将数据协方差矩阵分解 成信号子空间和噪声子空间 通过找出与噪声子空间正交的方位矢量来确定声源方位 2 6 j 这类方法最常见的多重信号分类 m u l t i p l es i g n a lc l a s s i f i c a t i o n m u s i c 国内居太 亮等对m u s i c 算法应用于麦克风阵列声源定位进行了深入的研究 4 1 5 1 2 3 1 2 7 1 以上三类算法各有优缺点郾 而且这三类算法在低信噪比情况下都无法实现声源定 位 针对这一问题 本文将稀疏分解算法应用于的声源定位估计 根据阵列数据在方位 上的稀疏性 数据能量主要集中于声源所在方位上 取出能量最大的几个方位就是声源 所在方位 基于麦克风阵列波束形成算法方面 研究开始于8 0 年代 到9 0 年后期逐渐成为研 究热点 最早将波束形成算法应用到语音上的是f l a n a g a n 在8 5 年提出的常规波束方法 吲j 该方法就是对各路语音进行时延补偿 使得在期望方向实现语音对齐 达到波束形 成的目的 这属于固定波束形成 而语音信号是非平稳信号 因此需要采用自适应波束 形成算法来进行处理 自适应波束形成算法能够自适应地调整加权系数 对感兴趣的信 源形成一个波束 并对干扰进行抑制 目前最常用的自适应波束形成算法 3 0 是最小方差 无失真响应 m r 波束形成算法 是c a p o n 于1 9 6 9 年提出的 在保证目标信号无 失真的通过的前提下 使阵列输出功率最小 3 1 1 虽然m v d r 波束形成理论已经比较成 熟 不过m v d r 只有在期望信号方向精确已知和数据样本足够长时才能达到最大的输 出信干噪比 当期望信号导向矢量存在误差和数据样本较少时 该算法的性能急剧下降 近年来为了解决这些问题 另外为了使m v d r 算法适用于麦克风阵列 研究人员进行 西南交通大学硕士研究生学位论文第3 页 了大量了的研究 3 2 硎 除此之外 旁瓣对消器 g s c 也能实现自适应波束形成 进行语 音分离 本文主要研究基于麦克风阵列的m v d r 波束形成算法及其稳健算法 由于这 两种算法原理相近 3 0 l 本文研究的方法可以推广到g s c 上 1 3 本文的主要工作和内容安排 本论文的主要研究内容是研究声源定位估计算法和近场宽带自适应波束形成算法 重点在于提高声源定位算法在抗噪性 以及提高近场波束形成算法的稳健性 本文的主 要工作及内容安排如下 第一章 绪论 简要介绍了研究背景及意义 对基于麦克风阵列信号处理的国内外 研究现状进行总结概括 并给出了本文的主要工作和内容安排 第二章 麦克风阵列模型分析 分析了语音信号的特性与声波传播模型 并结合窄 带阵列信号处理模型 研究了麦克风阵列近 远场数学模型 第三章 基于稀疏分解的声源定位算法研究 本章首先介绍了信号稀疏分解基础知 识以及稀疏分解常用算法匹配追踪算法 再根据麦克风阵列近场模型 建立适合于麦克 风阵列近场的原子库 使用匹配追踪算法完成声源位置估计 由于稀疏分解算法要进行 全局搜索建立原子 计算复杂度较高 基于这种情况 对声源方位区域进行扇区划分 实现了基于扇区划分的近场稀疏分解定位算法 通过实验验证了该算法的有效性 并减 少了定位算法的计算时间 第四章 近场自适应波束形成算法 本章首先介绍了常用波束形成器在近场假设里 的应用 针对近场m v d r 波束形成算法对导向矢量和数据协方差矩阵存在的误差比较 敏感 研究了近场对角加载法和近场稳健c a p o n 波束形成算法 使m v d r 波束形成算 法具有较好的稳健性 西南交通大学硕士研究生学位论文第4 页 第2 章麦克风阵列模型分析 2 1 语音信号特性与声波传播模型分析 2 1 1 语音信号特性 人们讲话时发出的话语叫语音 语音信号是携带语言信息的语音声波 图2 1 所示 图形为一段语音信号时域波形图 语音信号时域波形 创 善 0 3 一 o 2 一 0 4 0 时间 s 图2 1 语音信号时域波形 图2 2 所示图形为该段语音信号的语谱图 语谱图表示语音信号的频谱随时间变化 的图形 其横轴表示时间 纵轴表示频率 图中各点的灰度浓淡表示该时刻该频点的强 图2 2 语音信号语谱图 西南交通大学硕士研究生学位论文第5 页 弱 从语谱图中可以看出 语音是宽带非平稳信号 在同一时刻有多个频率成分 虽然语音信号是非平稳过程 是时变的 但是语音信号可以认为是局部平稳的 即短时平稳 因此 语音信号分析常进行分段或分帧来处理 3 8 1 一般一帧约为 l0 3 0 m s 2 1 2 声波传播模型分析 声音是由振动产生的 均匀振动的球面声源是现实中最简单的声源 设半径为r o 的 球体 其表面作均匀的微小振动 球面的振动具有各向同性 因此向周围媒质辐射声波 时产生的声波波面是球面波 根据参考文献 2 3 第2 6 页中 2 1 1 式 可知球源辐射声 压为 p 巡p 似舢们 2 1 其中 i a i 和口分别为 怍而 p o c o 丽k t 0 2 u a 协2 秒 a r c 伽 吉 c 2 勘 p o 为媒质密度 本文讨论的情况下媒质为空气 在标准状态下 风 1 2 1 k g m 3 c o 为声波速度 在标准状态下 c 0 3 4 4 m s 蚝为球面源表面振动速度的幅值 i o o 为球面源表面振动的初始相位角 k 2 x 允 五为声波波长 满足 1 条件的脉动球源可称为点声源 此时由式 2 3 可知 0 7 1 2 则式 2 1 为 p i k p o c o 缘 p 脚一 2 4 其中9 0 4 x r 0 2 u 为小脉动球的体积速度幅度值 称为点源强度 对 2 4 式整理可 得 p 义等 c 移q e j 耐 t r 如叫 亿5 其中 a p o c o 4 万 s t f k j q o e 懈卉 f k r 西o r c o 即当声源s r 为点源 在 密度为p o 声波波速为c o 的媒质中 声场的分布如 2 5 式所示 从式 2 5 中可以 看出 在媒质 空气 中传播时 声压与传播距离成反比 2 2 窄带阵列信号处理模型 假设n 个远场窄带信号入射到某个空间阵列上 其中阵列由m 个阵元组成 因为 信号源是窄带信号 则入射信号可以表示为如下复包络形式 2 6 2 6 式中 q f 是第f 个接收信号的幅度 缈 f 是第f 个接收信号的相位 是第f 个接收信 号的频率 因为信源为窄带远场信号源 则有 f u t r 珥 f 1 缈 一f 缈o 2 7 根据式 2 6 和式 2 7 可得 t o f t o 弦1 鳓 i 1 2 n 2 8 则第 个阵元的接收信号为 而 f 繇墨o 一靠 巧 l 2 m 2 9 式中 g l 为第 个阵元对第f 个信号的增益 f 表示第 个信号到达第 个阵元时相对于 参考阵元的时延 一 表示第 个阵元在f 时刻的噪声 将m 个阵元在 时刻接收的信号写成列矢量 可得 酸 f至 二912e 一j二 q29me j吣m 2e j 一 篆三1慝 隆 c 2 j l既 z 如p 一腧嘶j f jl j 在理想情况下 即阵列天线中各阵元是各向同性的并且不存在通道不一致等因素的 影响 则式 2 1 0 中的增益可以省略 可将式 2 1 0 简化为 巴 巨 二三 j j 三三二1 慝 慝n 1 t l7 c 2 叶 烈 嘶 删 吲 一 矽吣 甜 卜吖 o p n 矢量口 不再是线性无关的 所以式 3 2 有多个解 即有多个不同原子组合所张成的子空间 为了满足式 3 3 我们从稀疏逼近的角度出 发 从各种可能的组合中选出优取值最小的一个 即分解最为稀疏的一个 由于以上给 西南交通大学硕士研究生学位论文第1 1 页 出的原子库是过完备原子库 因此 在该原子库上分解的结果一定是稀疏的 3 2 2 匹配追踪算法 m a t c h i n gp u r s u i t 信号的稀疏分解的众多算法中 如基本跟踪 b p 算法 4 3 1 匹配跟踪算法 m p 4 2 1 框架方法 m o f 4 4 和最佳正交基方法 b o b 4 5 等 匹配跟踪算法 m p 的 原理简单 计算复杂度最低 是最为常用的稀疏分解算法 m p 是一种迭代的贪婪算法 它是在每一次迭代过程中 从原子库里选择最能匹 配信号结构的一个原子而构建的一种逼近过程 其分解过程如下 根据上节的定义的原子库d 口 y f 口 r 1 待分解信号为f r 从原子 库中选出满足式 3 4 的原子 即最为匹配的原子 最佳原子 a if a r o f s 婴 口捌 3 4 式中 i 厂 a y o i 是信号 与原子a r o 的内积 则信号可以分解为在最佳原子a r o 上的投影 和残余分量两部分 即 厂 厂 口 a 膏f 3 5 式中 口 口 是信号 在原子口 上的投影 r f 是最佳匹配后的残余 由投影定 理可知 r 1 f 与口 是正交的 即 i i f 2 i a r o 2 i i 足w 式中f i l 表示信号范数 由于 是单位矢量 因此上式可简化为 i l f l l 2 训2 一f l l 2 3 6 3 7 t 使 f a r o 口 是 的一个很好的逼近 则要求残余量足1 f 的能量j 陋1 f l l 2 最小 化 从而就必须使i j 极大化 即要求式 3 4 成立 从信号空间的角度出发 投 影值l 口 i 极大化指的是在信号所在h i l b e r t 空间中 口 是所有原子中与信号 空间 距离最小的原子 即在h i l b e r t 空间中口仰是与信号 最为匹配的原子 对最佳匹配后的残余r 1 f 继续进行上面的分解过程 得到 西南交通大学硕士研究生学位论文第12 页 r l f r l a v l 口 r 2 厂 3 8 同样满足 i i2 翠l 1 3 9 就这样不停的将信号残余矽投影到原子库中最佳原子上 经过七 1 投影可以得 到 足 厂 皿 口舛 口 七 足 1 f 3 l o 式中原子同样满足 i i 霉l l 3 1 1 同样由投影定理可得 0 j 1 1 2 i j k 口 1 2 l l r 1 1 1 2 3 1 2 当信号的残余能量忙 f l l 2 足够小 停止迭代过程 结合式 3 5 3 8 3 9 3 1 2 经过m 步分解后 信号被分解为 2 萋 1 2 f 露研 3 1 4 欠m f 为信号经过m 次分解后所产生的误差 在信号满足长度有限的条件下忙 0 随 k 的增大而指数衰减为0 4 1 图3 一l 为一段长度为2 5 6 点的语音信号进行稀疏分解的效果图 使用的原子库为 g a b o r 原子库 对信号进行了3 0 次迭代 得到3 0 个最佳原子 并由3 0 个原子重构原始 信号 g a b o r 原子是由 个经过余弦调制的高斯窗函数构成 4 1 a y f g f 坐1 c o s v t w 3 1 5 s s 式中 g t p 吲2 是高斯窗函数 y s u v 叻是时频参数 其中s 为尺度因子 为相 位因子 v 为频率因子 w 为相位因子 3 j m 尼 肚 l 尸 坩 口 r 脚 且 西南交通大学硕士研究生学位论文第13 页 原始语音信号 图3 1 基于m p 算法的语音信号重构 3 3 基于m p 分解的近场声源定位估计 3 3 1 原子库 由本论文第二章 2 3 3 节 分析的麦克风阵列近场模型 如图2 5 所示 假设n 个 声源从不同方向入射到麦克风阵列上 麦克风个数为m 阵列接收到数据可表示为 f s t t m m l 2 m 3 1 6 t l 式中一为第f 个声源 为第m 个麦克风接收到的数据 一 f 为第m 个麦克风在r 时刻 的噪声 o 为第f 个声源到达第m 个麦克风的时间延迟 g 为第f 个声源到达第m 个 麦克风的幅度衰减 和式 3 1 6 相比上式多了一个参数g 即声源的幅度衰减 阵列 的输出写成如下矢量形式 x t a s t 2 v t 3 1 7 将上式转换到频域得 x 国 a w s w n c o 3 1 8 由第二章 2 3 2 节 可知 频点国处的导向矢量矩阵为 西南交通大学硕士研究生学位论文第14 页 a c o a l q i 口2 岛 吩 a 氏 工p 一 掣皇p 一 竺掣 丘p 一 啦掣 吒1眨l 1 上e 一 鼍型垒e 一 坐掣 互e 一 掣 l lc 生 i 2吃2 r n 2 土e 一 掣立e 一 业c 型 且e j 纽掣 lc 土 g g 口 谚 霉 毋 i 1 2 o y i 2 r 3 2 0 式中g 为声源频点国处频域数学模型 口 9 为频点国处的各方位阵列导向矢量 信号模型和阵列流形构建成的 在这个原子库中我们必然能够找到一个原子口 口 毋 去 口 谚 霉 跏s 口 谚 毋 s 3 2 1 式中k 为数据快拍数 s 为声源在频点国处的频域数据 此时只 即为声源方位估 下面介绍如何选取最佳原子 首先假设毋已知 为书写方便 用g 代替第七次快拍 数据g r 七 工代替x c o 第一次匹配后 h 如l 2 2 卜枷谚 以磅斗谚 以慨剧x 乞川 文 吉 口 谚 霉 g r x 峨川毋 3 2 3 m i n 厂 谚 霉 m i n ir 1 x j 2 m i n k 史1 1 2 3 2 4 西南交通大学硕士研究生学位论文第15 页 其中阳 厂 每 霉 l l x 交0 2 x 曼 x j 工 x 曼 一 曼 x 量 3 2 5 x x 一 曼 x 一 x 文 爻 曼 x hx 一受hx x h 曼 曼h 受 皂对 畚 口 弧 冯 习口 屯磅砷 畚反唬磅 习胃 碗 镰习 3 瑙 剖 反嘁磅 刊2 墨动 击 x 反屯 以磅砷硒 0 磅 击 撕 屯冯砷 墨口 巨 o 磅 剖 晦 冯 对1 2 3 2 7 曼 叠 矿1 口 谚 声 g v x 口 矿 加 口 矿 g r x 口 矿 t g 击 口 矿 g r x 日 口 矿 e 跏x 口 矿 口 矿 g 3 2 8 古j 口 矿 g r x 1 2 由式 3 2 5 司得 厕 o 州 一击l 口 谚 g r x 1 2 3 2 9 要让上式取最小值 则k 口 谚 霉 毋 x 1 2 要取最大值 所以根据下式选取最佳原子 j 口 鼠 x l 辈i 口 谚 g y x 1 2 3 3 0 或 吃 即为所要估计声源方位参数 在m a t l a b 中通过下式实现式 3 3 0 f 口夙x 片g 口 吃 托 吃 托 k s u p 驴 口夙x 毋口 谚 t k 3 3 1 于洋在文献 4 6 中分析了远场窄带m p 分解算法在阵列测向中的内部结构 这里同 样也适用 不过这里稍微有些不同 基于m p 分解算法的近场声源定位的内部结构为 1 噪声与原子的相似度小 内积较小 2 某个原子 特定的信号频域值幅角和声源方位 与对应的信源相似度最大 内积最大 3 该原子与其他信源的相似度不高 以匕分析都是在假设声源频率数据模型已知的情况下进行的 然而一般情况下这些 西南交通大学硕士研究生学位论文第16 页 信息是未知的 不过g 的数据形式是已知的 g 是由一帧语音信号s 经过f f t 变换得 到的频点他处的数据 数据形式为 g r q s n e 4 p 吖吼 3 3 2 式中 r 为时域一帧语音信号的长度 由于在定位过程起作用的是毋的幅角信息 所以可 以令4 1 纯的取值范围为 一7 石 这里增加了幅角信息 因此原子库将增大 假设 距离的个数为2 0 0 角度的个数为1 8 0 幅角的个数为3 6 0 数据快拍数为2 0 0 对于单 个频点可以求得原子库中原子的个数为2 0 0 x 1 0 0 x 3 6 0 x 2 0 0 2 5 9 2 x 1 0 9 而语音是宽带 信号 所要构建的原子库将更大 这是一个非常大的数据 需要在这些原子中搜索出各 声源对应的最佳原子 其计算量是相当巨大的 实际中无法适用 另一个思路为在低信 噪比情况下 对一路数据进行信号检测 检测出声源各频点的幅角信息或者直接对一路 语音信号进行降噪处理得到比较纯净的语音信号 对其做f f t 变换得到各频点的幅角信 息 然而由于作者能力有限 目前还没有找到有效的方法得到声源各频点的幅角信息 由文献 4 7 可知 远场窄带信号可以只通过到达角信息就能实现定位功能 因此可以将岛 设为常数 这样m a t l a b 中实现搜索最佳原子的方式改为 k s l a 研q m a x h 咖忆毒 以 卅k 3 3 由于不考虑声源频域数据模型 这样原子就少了信号幅角信息与阵列数据进行匹 配 使得定位方法的稳健性有所下降 3 3 2 算法描述 上节研究了如何构建基于n i p 分解声源定位算法的原子库 以及如何选取最佳原子 假设有n 个声源 将麦克风阵列接收到的数据做快速傅里叶变换 对各频点分别使用式 3 3 3 进行匹配 然后将各频点匹配结果相加 选取整个频带内匹配结果最大的原子 第一次匹配后得到最佳原子 最佳原子里的参数反彬名 托即声源方位的估计值 由式 3 5 可以求得第一次匹配后的残余分量为 e l x x x a h 晓 甓 鼠 口h f i o 磊 托 3 3 4 对残余分量尺1 x 继续进行m p 分解 按上述方法选取最佳原子 经过n 次分解后可 得 z 灭k x a h 反 n 丘 n 鼠 反 反以 g r k r z 3 3 5 假如声源个数已知 为n 个 那么进行了n 次分解之后停止分解 这样就得到了n 个最佳原子 即得到了n 个声源的方位估计 如果声源个数未知 则信号残余足够小的 西南交通大学硕士研究生学位论文第17 页 时候 停止分解 可以看出 基于m p 分解的声源定位算法对声源个数没有限制 即使 声源个数大于麦克风个数 也能估计出各声源方位值 综上所述 基于m p 分解的近场声源定位估计算法步骤如下 1 对阵列接收信号进行快速傅里叶变换 在语音信号频率范围内选择多个频点分别进 行匹配计算 图3 2 基于m p 分解算法的声源定位流程图 2 根据阵列方向矢量分别建立各频点形如式 3 2 0 的原子库 3 根据式 3 3 3 选择最佳原子 即将各频点数据在对应各频点的原子库上进行投影 求得所选频点在原子库上投影的平均值 选择空间距离最小的原子为最佳原子 最佳原 子里的参数即为声源方位估计 4 重复 2 3 两步 直到信号残余足够小的时候 停止分解 得到各个声源的方 位估计 算法的具体实现流程如图3 2 所示 西南交通大学硕士研究生学位论文第18 页 3 3 3 仿真实验 本次仿真同样使用是的麦克风均匀线阵 阵列间距 孔径 为6 c m 麦克风的个数 为1 0 个 噪声为加性高斯白噪声 实验一 麦克风阵列接收来自 6 0 4 0 c m 和 1 2 0 2 0 c m 两个方位的语音信号 信噪 比为l o d b 采用m p 分解算法对两个声源位置参数 角度 距离 进行估计 实验结果 如图 3 3 3 4 和 3 5 所示 实验中 距离参数 在 0 l o o c m 范围内按步长l c m 进行搜索 角度参数口在 0 1 8 0 范围按步长1 进行搜索 图 3 3 为第一次进行二维搜索匹配后的空间谱图 空间谱图中的最大值所对应的坐标即为最佳原子中的角度和距离值 也就是所要估计的 其中一个语音信号的位置参数 得到第一个信号的位置参数估计值后 将阵列信号在最 佳原子上进行投影 因为投影分量中主要包含第一个信号 所以 原阵列信号减去投影 值后剩下的残余量主要包含第二个语音信号和噪声 对残余量进行第二次二维搜索匹配 空间谱图如图 3 4 所示 图中最大值对应的坐标同样为第二次搜索中最佳原子的角度 和距离值 这样就得到了第二个语音信号的位置参数估计 如果己知信号个数 则停止 分解 否则继续进行分解 进行第三次二维搜索匹配 空间谱图如图 3 5 所示 从图 中可以显明看出 残余分量在各个原子上的投影值已经很小 舰 胄 甬口5 0 角度 度 距离 厘米 1 0 0 图3 3 第一次匹配的空间谱图 从图3 3 中可以看出 距离在4 0 c m 处匹配的峰值没有2 0 c m 处的尖锐 由式 2 1 7 2 1 8 可知第k 个声源到达第m 个麦克风的时延为 i n 西南交通大学硕士研窒q 生兰篁笙塞 幽 一 量 量置置 e 詈置詈置 置 詈 詈量e 暑量 昌 l l 厄面耵i 丽而一 c 孵五瓦面万弦一乓 c 3 3 6 文 式中 是第露个声源距离麦克风阵列参考点的距离 丸是第肌个麦克风与麦克风阵列参 考点的间距 幺是第七声源入射方向 c 为声速 毋 曰 固0 5 爿甲 胄 雨05 州l 口 角度 度 距离 厘米 图3 4 第二次匹配的空间谱图 角度 度 距离 厘米 图3 5 第三次匹配的空间谱图 用菲涅尔 f r e s n e l 近似表示 4 8 上式可近似表示为 1 0 口 1 口口 西南交通大学硕士研究生学位论文第2 0 页 垒l cl r d 2 a c o s s k 1 咒九 3 3 7 三f 以c o s 皖 譬s i n 2 岛1 c z 由上式可以看出 当声源距离麦克风较远时 式 3 3 7 中分母的基数较大 同等 距离间隔的变化所导致的时延变化会变小 因为m p 算法使用的原子的形式跟阵列的导 向矢量一致 当距离较远时 跟近距离相比 等距离的变化导致的原子相位差变化变小 所以接收到的数据跟远距离参数形成的原子进行匹配时 内积的变化也就变小 从而远 距离声源匹配的峰值比较平坦 由式 3 3 7 还可以看出 当 一0 0 时 式 3 3 7 可 表示为 f 嘶 d m c o s 8 k c 3 3 8 很明显 上式是均匀线阵远场模型 由此可以看出远场模型是近场模型的一个特例 实验二 分别使用近场m p 分解算法 通用近场m p 分解算法 即所建原子不考虑 信号模型 g e n e r i cm pa l g o r i t h m 近场二维m u s i c 算法和近场二维m v d r 算法对多 声源进行方位估计 阵列接收来自 6 0 4 0 c m 和 1 2 0 4 0 c m 两个方位的语音信号 信噪 比从一1 5 拈到2 0 d b 每隔5 抛分别使用近场m p 分解算法 通用近场m p 分解算法 近场二维m u s i c 算法和近场二维m v d r 算法进行1 0 0 次m o n t ec a r l o 实验 取1 0 0 次 实验参数估计的均方根误差值 结果如图3 5 和图3 6 所示 瑙 制 蝼 罂 投 霹 g 醚 援 太 妲 a 角度估计均方根误差随信噪比变化 信噪比s n r d b b 距离估计均方根误差随信噪比变化 图3 5 声源l 方位估计均方根误差随信噪比变化 从实验结果可以看出 m p 分解算法有较强的抗噪能力 实验中两种m p 分解算法 所采用的在原子库不同 第一种方法原子库中的原子形式考虑到信号模型 第二种方法 原子库中的原子形式没有考信号模型 从实验结果可以看出考虑信号模型的m p 分解算 法具有更好的鲁棒性 抗噪能力明显优于通用m p 分解算法 结果符合3 3 1 节的分析 而通用m p 分解算法通用性较强 由于其原子形式不考虑信号模型 因此适用于各种信 一乏 一喇曾 罂恹露g褪醋拳与 西南交通大学硕士研究生学位论文第2 1 页 越 榭 悉 晕 恹 霹 s 趔 援 走 坦 信噪比s n r d b 至 椭 悉 晕 授 露 g 键 l c u 融 七 坦 信噪比s n r d b a 角度估计均方根误差随信噪比变化b 距离估计均方根误差随信噪比变化 图3 击声源2 方位估计均方根误差随信噪比变化 号 从图中还可以看出近场m u s i c 算法要优于近场m v d r 算法 这两种算法抗噪性较 差 低信噪比情况下基本失去了估计能力 实验三 测试近场m p 分解算法 通用近场m p 分解算法 近场二维m u s i c 算法 和近场二维m v d r 算法在不同信噪比情况下的识别概率 在不同信噪比情况下做1 0 0 次m o n t ec a r l o 实验 角度误差在3 以内 距离误差在4 c m 以内判定为识别正确 结果 如图3 7 所示 静 娶 垂r 奎 信噪比 s n r d b 槲 囊 凸鬻 悉 信噪比s n r d b a 声源1 方位识别概率b 声源2 方位识别概率 图3 7 两个声源方位识别概率 实验四 测试相干信号对各算法的影响 阵列接收来自 6 0 4 0 c m 和 1 2 0 4 0 c m 两 个方位的相干语音信号 信噪比从一1 5 r i b 到2 0 d b 每隔5 r i b 分别使用近场m p 分解算 法 通用近场m p 分解算法和近场二维m u s i c 算法进行1 0 0 次m o n t ec a r l o 实验 取 1 0 0 次实验参数估计的均方根误差值和各声源的识别概率 结果如图3 8 图3 9 和图3 1 0 所示 从结果中可以看出 相干信源对m p 分解算法的影响不大 因为m p 分解算法是通 西南交通大学硕士研究生学位论文第2 2 页 过各原子上能量上的大小来实现定位估计的 信源的相关性对定位估计影响不大 而近 场m u s i c 算法估计相干信源时 算法失效 因为当信源相干时 特征分解得到的信号 子空间的秩为1 小于信源个数 因此近场m u s i c 算法无法估计相干信源 需要经过解 相干才能实现定位 型 耥 瑙 晕 祆 彝 蛊 魁 嫒 走 坦 型 删 悉 晕 收 露 g 型 嫒 七 坦 褂 肇 凸r 悉 信噪比s n r d b a 角度估计均方根误差随信噪比变化 距离估计均方根误差随信噪比变化 图3 8 声源l 方位估计均方根误差随信噪比变化 信噪比s n r d b 乏 o j l l j 憨 校 露 g 褪 l 亡u 矬 七 坦 信噪比s n r d b a 角度估计均方根误差随信噪比变化b 距离估计均方根误差随信噪比变化 图3 9 声源2 方位估计均方根误差随信噪比变化 信噪比s n r d b 料 肇 凸r 悉 信噪s n r d b a 声源1 方位识别概率b 声源2 方位识别概率 图3 1 0 两个声源方位识别概率 西南交通大学硕士研究生学位论文第2 3 页 3 4 扇区匹配算法 3 4 1 扇区匹配算法设计 由3 3 1 节的分析可知 对于单个频点所要构建的原子库的大小 计算的复杂度 主 要取决于方位参数的搜索范围和精度 即角度和距离的搜索范围及精度 吕雪在文献 4 9 中提出了基于角度扇区划分m p 分解算法来减少m p 分解算法的复杂度 基于角度扇区 划分m p 分解算法是将空间所有角度的分成6 个扇区 扇区的个数可自行选择 如图3 1 l 所示 分别取每个扇区的中心角度和边界角度建立原子进行匹配 找到最佳原子 由最 佳原子中的角度信息确定扇区甲 将扇区甲 再分成6 个子扇区 同样由这些扇区的中 心角和边界角建立原子进行匹配 得到最佳原子确定扇区 就这样不断的细化直到精度 达到所需要的精度为止 最后匹配得到的最佳原子中的参数即为信号的d o a 估计 基于这个思想 我们可以将扇区匹配算法应用于近场环境 在角度和距离上进行扇 气 一 7 刀i 图3 1 1 角度的扇区划分图 区的划分 角度上在 o 1 8 0 内等角度地划分6 个扇区 每个扇区夹角为3 0 距离上 在 o l m 内等间距的划分5 个间隔 将按角度划分的大扇区分割成由角度和距离作为边 界的小扇区 如图3 1 2 所示 分别取每个扇区的中心角 边界角和距离边界值建立原子 按进行匹配 按式 3 3 2 选择最佳原子 由最佳原子的角度和距离参数确定扇区甲 将扇区甲 按角度划分6 个大扇区 每个大扇区再按距离间隔被分割成8 个小扇区 同 样分别取每个扇区的中心角 边界角和距离边界值建立原子按进行匹配 选择最佳原子 确定扇区 就这样不断细化扇区 直到方位估计值达到所需精度值 经过扇区划分后 总共需要搜索的原子将大幅减少 具体的减少量要看划分扇区的大小 综上所述 基于扇区划分的m p 分解声源定位算法的步骤为 1 将阵列接收数据转换到频域 选择各频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论