语音信号处理第4版课件第12章：声源定位

上传人：h*** IP属地：山东上传时间：2024-10-18 格式：PPTX 页数：23 大小：433.45KB 积分：15 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学

通信与信息工程学院

第12章声源定位双耳听觉定位原理及方法传声器阵列模型基于传声器阵列的声源定位12.1双耳听觉定位原理及方法—人耳听觉定位原理原理：主要是依靠头部结构所引起的“双耳效应”和耳朵结构的“耳郭效应”及复杂的神经系统实现人耳对于声音信号的方位判断。构造：由外耳、中耳和内耳组成。外耳包括耳翼和外耳道，负责在中频段产生共鸣；中耳由鼓膜和听小骨组成，起到阻抗变换器的作用，将声波从低阻抗的空气传递到高阻抗的淋巴液；内耳包括耳蜗，是听觉系统的核心部分，其中基底膜上的毛状神经末梢负责将声音振动转化为神经信号。特性：（1）耳蜗分频特性：耳蜗能够将不同频率的声音在基底膜上进行分频处理，类似于频谱分析仪，将声音划分为多个临界频带。（2）人耳听觉掩蔽效应：当两个声音同时存在时，一个声音可能会因为另一个声音的干扰而变得难以听见。掩蔽效应分为频域掩蔽和时域掩蔽。12.1双耳听觉定位原理及方法—人耳声源定位线索（1）双耳定位线索：人类利用双耳感知声音的强度、音调和音色，并判断声源的距离和方向；声源定位主要依赖于声音到达双耳的时间差（ITD）、强度差（ILD）、双耳相位差和双耳音色差；在低中频（f<1.5kHz）情况下，双耳时间差是主要因素；在1.5～4.0kHz范围内，声级差和时间差共同作用；高频（f>5.0kHz）时，双耳声级差成为主要因素。（2）“耳郭效应”定位线索：耳郭的形状和结构对声音的频谱特性产生影响，类似于梳状滤波器；不同方向的声音在耳郭上产生不同的反射和直达声，导致在鼓膜处形成与声源方向有关的频谱特性；耳郭效应主要影响高频声音，因为高频波长短，容易产生干涉现象。12.1双耳听觉定位原理及方法—人耳声源定位线索（3）头相关传输函数：HRTF描述了声波从声源到双耳的传输过程，包括ITD、ILD和频谱结构特性；HRTF是个体差异的，因为每个人的头部和耳郭形状不同；HRTF可以通过测量或计算得到，其中麻省理工学院的CIPIC数据库提供了适合中国人生理构造的HRTF数据。12.1双耳听觉定位原理及方法—声源估计方法声源定位指标：水平方位角不同频率下的定位作用：在中低频（小于1.5kHz，最佳信号频率为270～500Hz）时，ITD起主要作用；在中频（1.6～4kHz）时，ITD和ILD共同作用；在中高频（4～5kHz）时，ILD起主要作用；在高频（5～6kHz以上）时，耳郭对声波的散射起到梳状滤波的作用，对定位垂面上的声源方位有重要作用。水平极坐标模型：描述了声音信号到达头部坐标的示意图，其中线路方向、左右耳传感器和中心坐标点在同一平面。声源到左右耳的距离差（Δd）：参数化ITD模型：

模型反转：当方位评估时信号的频率与建模时不一致，可以使用参数模型反转来得到水平角度θ，即双耳听觉定位原理及方法传声器阵列模型基于传声器阵列的声源定位12.2传声器阵列模型—概述传声器阵列定义：传声器阵列是由多个传声器按照一定空间结构排列组成的，其中各个阵元的间距和具体位置对声源定位起着决定性作用。传声器阵列的观察空间由其拓扑结构决定，导向向量携带声源位置的参数信息。传声器阵列模型：根据声源与传声器阵列的距离，传声器阵列模型可分为近场和远场，判断公式为

。传声器阵列处理的信号考虑了近场和远场模型下不同的拓扑结构，这些结构影响空间导向向量和携带的信息。近场模型携带距离、时延和声源空间位置信息，而远场模型仅携带声源空间位置信息。此外，阵元间距也直接影响着声源定位的结果，而阵元个数可以适当地提高定位精度。由此可见，传声器的拓扑结构对后续声源定位起着至关重要的作用。12.2传声器阵列模型—均匀线阵定义：均匀线阵是一种简单的阵列形式，由M个阵元等距离排列成一直线，阵元间距为d。时延和方向向量：以第一个阵元为参考，各阵元相对参考阵元的时延由公式

给出。方向向量由阵元的时延决定，并且与空间角θ有关，如下

阵列流形矩阵：若有D个信号源，其波达方向分别为θi（i=1,2,...,D），则阵列流形矩阵为

12.2传声器阵列模型—均匀线阵方向向量的唯一性：阵列结构要求方向向量a(θ)与空间角θ一一对应，以避免模糊现象。阵元间距的选择：阵元间距d不能任意选定，需要精确校准。为了避免相位模糊，阵元间距应不大于半波长

，以保证阵列流形矩阵的列向量线性独立。传声器阵列的输出：12.2传声器阵列模型—均匀圆阵定义：均匀圆阵是一种平面阵列，能够同时确定信号的方位角和仰角，由M个相同的各向同性阵元均匀分布在x-y平面的一个半径为R的圆周上。采用球面坐标系表示入射平面波的波达方向，坐标系原点O位于阵列中心，即圆心。信源俯角θ是原点到信源的连线与z轴的夹角，方向角ϕ是原点到信源的连线在x-y平面上的投影与x轴之间的夹角。阵元位置向量：第m个阵元与x轴之间的夹角为γｍ＝２πｍ／Ｍ，该处的位置向量为

。信号的复包络相位差：原点和第m个阵元接收到信号的复包络间相位差为

。信号方向向量：UCA相对于波达方向为θ的信号方向向量为

。双耳听觉定位原理及方法传声器阵列模型基于传声器阵列的声源定位12.3基于传声器阵列的声源定位—概述基于传声器阵列的声源定位算法大致可以分为以下三类：（1）基于最大输出功率的可控波束形成算法，该方法对传声器阵列接收到的语音信号进行滤波、加权求和，然后直接控制传声器指向使波束有最大输出功率的方向。（2）基于到达时间差的定位算法，该方法首先求出声音到达不同位置传声器的时间差，再利用该时间差求得声音到达不同位置传声器的距离差，最后用搜索或几何知识确定声源位置。（3）基于高分辨率谱估计的定向算法，该方法利用求解传声器信号间的相关矩阵来确定方向角，从而进一步确定声源位置。12.3基于传声器阵列的声源定位—基于最大输出功率的可控波束形成算法基本原理：可控波束形成是一种早期的声源定位算法，通过调节传声器阵列的接收方向来定位声源。利用波束形成技术，在整个接收空间内扫描，寻找能量最大的方向作为声源方位。通过滤波和加权求和处理接收到的声源信号，形成波束，然后搜索声源可能的方位。波束形成器分类：（1）延迟累加波束算法：运算量小，信号失真小，但抗噪性能较差，需要较多阵元；（2）自适应波束算法：添加自适应滤波环节，运算量较大，可能产生失真，但适用于阵元数较少的情况。延迟－求和波束形成法：通过校正传声器信号并求和，以期望从不同空间位置得到源信号，同时削弱噪声和混响影响，该方法定义为

。12.3基于传声器阵列的声源定位—基于最大输出功率的可控波束形成算法滤波-累加方法：在时间校正之前进行滤波，以产生滤波-累加方法。该方法频域表达式为

。波束输出功率：定义为

，通过搜索使波束输出功率最大的点来确定声源方位。

12.3基于传声器阵列的声源定位—基于到达时间差的定位算法概述：基于到达时间差的定位算法是语音增强和声源定位领域的关键技术，用于估计传感器阵列中不同位置传感器接收到的同源信号的时间差。步骤：第一步，进行时延估计，确定传声器阵列中不同传声器对同源语音信号的到达时间差（TDOA）；第二步，根据TDOA和传声器的几何位置，通过双曲线方程确定声源的方位和距离。二维和三维定位：在二维平面中，通过两个传声器测定的时延和方位角可以确定声源位置；在三维空间中，需要多个传声器来测定多个时延和方位角，以准确确定声源位置。12.3基于传声器阵列的声源定位—基于到达时间差的定位算法广义互相关（GCC）法：最广泛应用的时延估计方法，通过在频域内对信号进行加权来抑制噪声和反射的影响。自适应滤波法：可以处理时变信号，根据信号统计特性的变化自动调节滤波器系数，具有更好的鲁棒性。实际模型：通过多个时延估计值对应的双曲线或双曲面在空间上的交点确定声源位置，可采用最小二乘拟合方法求出最优解。12.3基于传声器阵列的声源定位—基于到达时间差的定位算法实际应用中的挑战：（1）时延估计和定位分为两个阶段，导致定位结果可能不是最优；（2）TDE技术主要适用于单声源定位，多声源定位效果较差；（3）在噪声和混响较强的环境中，时延估计的误差较大，影响定位精度。12.3基于传声器阵列的声源定位—基于高分辨率谱估计的定位算法概述：由现代高分辨谱估计技术发展而来的声源定位算法，称为子空间技术。子空间技术是一种在阵列信号处理领域广泛应用且基础重要的技术，它通过将接收数据分解为信号子空间和噪声子空间，并利用这两个子空间的正交性来提高声源定位的分辨力。该技术已成功应用于通信、雷达等领域，衍生出了如MUSIC和ESPRIT等算法，其中MUSIC算法通过噪声子空间来估计信号的方向，而ESPRIT算法则利用信号子空间的旋转不变特性来估计信号参数，两者都旨在提高定位精度并减少计算复杂度。MUSIC算法：利用信号子空间和噪声子空间的正交性，通过构造空间谱函数并搜索谱峰来检测信号的DOA，其步骤如下：

12.3基于传声器阵列的声源定位—基于高分辨率谱估计的定位算法（1）收集信号样本(n)，n=0,1,...,K-1，其中P为采样点数，估计协方差函数为

；（2）对进行特征值分解，得

。式中为特征值对角阵，且从大到小顺序排列

是对应的特征向量；（3）利用最小特征值的重数Ｋ，估计信号数

，并构造噪声子空间

；（4）搜索MUSIC空间谱，找出

个峰值，得到DOA估计值。

其局限性有：在低信噪比环境下，MUSIC算法可能无法分辨接近的信号源；阵列流形误差对MUSIC算法的性能有显著影响。12.3基于传声器阵列的声源定位—基于高分辨率谱估计的定位算法ESPRIT算法：利用传感器阵列的旋转不变特性，通过分解成两个子阵列并利用它们的平移不变性来估计信号参数。与MUSIC算法不同，ESPRIT算法不需要知道阵列的几何结构，因此对阵列的校准要求较低。传声器阵列配置：一个由m个对偶极子组成的传声器阵列，分为两个子阵列，对应元素具有相同的敏感度模式和位移偏移量d。信号模型：D个独立的窄带信号源入射到阵列，每个信号源具有中心频率ω0，并且每个信号源的入射方向由θk表示，两个子阵列第ｉ组对应阵元的接收信号可以表示为12.3基于传声器阵列的声源定位—基于高分辨率谱估计的定位算法向量表示：接收信号被表示为向量形式x(t)和u(t)，其中包括阵列流形矩阵A(θ)，旋转因子矩阵Φ，以及噪声向量nx(t)和nu(t)。阵列接收向量：定义了整个阵列的接收向量z(t)，它是两个子阵列接收向量的组合,并表示为自相关矩阵：计算了接收向量z(t)的自相关矩阵Rzz，可以表示为特征值分解：对自相关矩阵进行特征值分解，其中最小的2m-D个广义特征值对应于噪声，而最大的D个特征值对应于信号。12.3基于传声器阵列的声源定位—基于高分辨率谱估计的定位算法旋转不变结构特性：利用阵列的旋转

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第4版课件第12章：声源定位

文档简介

温馨提示

最新文档

评论

语音信号处理 第4版 课件 第12章：声源定位

文档简介

温馨提示

最新文档

评论

相关文档

语音信号处理第4版课件第12章：声源定位