




已阅读5页,还剩66页未读, 继续免费阅读
(信号与信息处理专业论文)卷积混合语音信号频域盲分离研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 i 摘摘 要要 近年来,语音信号的盲分离成为了盲信号处理领域的一个热点问题,它在语 音识别、小型移动通信设备以及远程会议方面有着广泛的应用前景。针对语音信 号盲分离的方法主要有独立分量分析(ica)方法和基于时频分析的时频掩蔽(tf masking)方法。目前,针对瞬时混合信号的盲分离已经获得了很好的效果,而对 于在实际环境中由房间的回响和各种反射造成的卷积混合语音信号, 要实现分离 相当困难。目前越来越多的研究采用频域上的方法来进行卷积语音信号的盲分 离,该方法可以将时域上的卷积问题变换为频域上的乘积问题,这样就可以采用 相对成熟的解瞬时混合的 ica 方法对混合信号进行分离。与 tf masking 方法相 比,频域独立分量分析(fdica)方法优点在于使分离信号的音乐噪声与谱失真较 小,但收敛速度不够理想,且存在固有的幅度和次序的不确定性问题。本文将传 统的 fdica 方法与 tf masking 方法相结合,提出了一种新的基于 fdica 的卷 积语音信号盲分离方法,利用 tf masking 的聚类结果对 fdica 做初始化,并进 一步进行 ica 迭代频带挑选,该方法着眼于追求良好分离性能并极大提升运算 效率,同时也解决了次序不确定性问题。在此基础上,又通过搭建的多通道数据 采集平台,进行了分块在线的盲分离尝试,并针对性的加入了对 ica 分离的后 处理优化方法,在付出极小运算代价的情况下进一步提升了语音信号分离性能, 这也为后续的盲分离系统的研究奠定了基础。具体研究工作包括以下几个方面: 第一,为了加深对盲分离的理解与认知,第二章首先介绍了盲信号分离的信 号混合模型和麦克风阵列模型,接着采用 mls(maximum length sequence)方法 进行了房间声学脉冲响应测量。第三章对 ica 的基本概念、数学知识和基本算 法做了较为全面的介绍, 并且给出了频域卷积混合语音盲分离的概念以及基于信 息最大化的 fdica 基本算法。 第二,在第四章中首先回顾了基于语音时频分析的盲分离算法,为了提升传 统 fdica 收敛和分离性能, 结合 tf masking 方法, 提出了一种新的基于 fdica 的盲分离方法,加快了 ica 的收敛速度,并在追求良好分离性能的同时极大提 升了运算效率。 第三,在第五章中首先利用 asio 驱动实现了多通道同步语音采集平台,该 平台将有利于进一步的盲分离研究和盲分离系统的搭建; 然后对分块在线盲分离 可能存在的问题进行了分析,在第四章的算法基础上提出了针对 fdica 的时频 掩模后处理方法,从分块在线的实验结果来看,在消耗极小运算量的情况下,后 处理方法对于语音信号的分离性能有较明显的提升; 经过改进后的整套算法在分 摘 要 ii 离性能和运算效率方面也表现出了很好的性能。 这也为后续针对实际应用的盲分 离系统的搭建奠定了坚实的基础。 关键词:关键词: 盲信号分离 独立分量分析 卷积语音信号 时频分析 频带挑选 后处理 abstract iii abstract in recent years, blind source separation (bss) of speech signals has become a hot topic in the field of blind signal processing, and it has widely potential application in speech recognition, mobile communication and remote meetings. there are two main methods to achieve bss: independent component analysis (ica) and time-frequency masking (tf masking). bss for instantaneously mixed signals has already achieved good performance. but in real environment, speech signals are mixed convolutively due to the reverberation and various reflection, which has made bss quite difficult. presently, more and more researches implement blind separation of convolutively mixed speech signals in frequency domain, in which the convolutively mixed sources in the time domain are transformed into the instantaneously mixed sources. therefore, the well-developed methods based on ica of instantaneous mixtures can be applied to separate signals in frequency domain. compared with tf masking, frequency-domain independent component analysis(fdica) leads to small musical noise and spectrum distortion, however it converges slowly and will lead to permutation and scaling ambiguity. in this thesis, we present a novel method that introduces tf masking method into fdica to separate the convolutive mixtures. it aims to achieve better separation performance and significantly reduce computational costs, whilst the ambiguity problem of the frequency domain can be solved. furthermore, by setting up the multi-channel audio recording platform,we conducted the experiment of block-online blind separation with a new post-processing method that optimized the ica results, to improve separation performance with little additional computation. the set-up platform acts as the basis of our bss system. this thesis is organized as follows: firstly,chapter 2 introduces the signal mixing models and microphone array models of bss for deeper understanding. then room acoustic impulse response with mls(maximum length sequence) method is discussed. chapter 3 gives comprehensive introduction of ica and frequency-domain bss of convolutively mixed speech signals, and then the fdica algorithm based on infomax theory is given. secondly, at the beginning of chapter 4, there is a review of the separating methods based on time-frequency analysis of speech. then, a novel method, which is abstract 1 iv based on fdica, is proposed by combing time-frequency analysis of speech signals, it contributes to fast convergence, and significantly improves computational efficiency with good separation performance. at last, in chapter 5 we discuss how to set up the multi-channel audio recording platform by using asio driver, which will benefit our further research and construction of bss system. after analyzing the existed problems of block-online blind source separation, a post-processing method using time-frequency masking is proposed. experimental results indicate that the post-processing method improves separation performance and the whole separation algorithm shows good performance in separation and computational efficiency. the work in this chapter lays a solid foundation for the blind source separation system in real application. key words:blind source separation(bss), independent component analysis(ica), convolutive speech signal, time-frequency analysis, band selection, post-processing 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。 与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:_ 签字日期:_ 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一, 学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中国学 位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、 汇编学位论文。 本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 公开 保密(_年) 作者签名:_ 导师签名:_ 签字日期:_ 签字日期:_ 第 1 章 绪论 1 第第 1 章章 绪论绪论 1.1 研究背景与意义研究背景与意义 1.1.1 盲信号分离的研究背景与意义 1.1.1 盲信号分离的研究背景与意义 近年来,通信与雷达等技术取得了飞速的发展,这也促使人们对数字信号处 理的一些关键领域进行广泛和深入的研究。 因为数字信号处理技术不仅能有效的 改善通信的质量,还能提取出语音、图像等多种有用信息来满足针对性的应用需 求。传感器检测和信号处理是获取有用信号的主要途径,然而传感器检测到的往 往是包括噪声或无用信号等多个成分混合在一起的信号, 又由于信号传输的信道 特性复杂甚至未知,为了得到真实可用的源信号,就必须发掘出一种仅仅由接收 信号就能恢复出真实的原始信号的方法, 盲信号分离这种新的研究方法就应运而 生了。 盲 信 号 分 离 (blind source separation)(jutten c et al,1991; sorouchyari e,1991;comon p,1991; comon p,1994; hyv a ? rinen a et al,2001; 杨行峻 等,2003;杨 福生 等,2006)指的是仅利用接收到的混合信号来估计或恢复出源信号的过程。 它是一种新的信号处理方法,与传统的 fir 滤波、iir 滤波、小波分析等完全不 同, “盲”指的是源信号和传输信道未知,在这种“盲”的条件下,根据源信号 的统计特性,来实现对源信号的分离。 近二十年来,盲信号分离作为数字信号处理领域的新兴研究方法,它所涉及 的知识牵涉到概率论与统计学理论、信息论、神经网络等多个方向。随着国内外 研究人员与机构的广泛重视,盲信号分离的理论与应用都得到了极大的发展。无 论是在科学研究还是工程应用中, 很多接收信号都可能是由不可知的源信号组成 的混合信号,诸如在雷达、声呐、通信、语音、图像、生物医学等众多领域都需 要进行盲信号分离,以实现对目标源信号进行深入的研究与处理,并从中获取有 用的信息。 在关于语音信号盲分离的研究历史中,最经典的例子就是“鸡尾酒会” (cherry e c et al,1954; haykin s et al,2005)问题。 在一个人数众多热闹非凡的鸡尾 酒会上,人们都在于朋友热情的交谈,进入你耳朵的声音应该是由朋友的语音、 其他语音、背景音乐以及玻璃杯撞击声等的混合。人的这种通过集中注意力来对 声音进行选听的能力被称为“鸡尾酒会效应”(handel s,1989)。人们能够在众多 谈话声和噪声中集中听力于某个人的声音, 但却不一定完全理解这种过程的全部 第 1 章 绪论 2 机理。 这种特殊的辨别能力是由人类自身的听觉系统或者更高级的感知系统和对 语言的处理特性决定的。在“鸡尾酒会”问题中,我们的目的就是设计智能自适 应系统及相应的学习算法,这种学习算法能够具备与人相似的能力,能在假定的 众多谈话声中识别出某个人的声音。 盲分离的目标就是在这样的嘈杂环境中把每 个人说话的声音从混合声音中分出来, 这样能够根据需要不受干扰的获取每个人 的语音信息。 进入 21 世纪以来,语音信号处理已经成为一个非常热门的领域,其中语音 合成、语音识别、说话人识别等领域经历了多年的理论研究和实践尝试,但众所 周知今天的语音处理技术仍然没能够达到预期, 因为许多实用系统都面临着前端 鲁棒性不高的问题。人们需要通过麦克风接收含有重要信息的语音信号,并利用 端点检测、特征提取以及语音相关模型的建立等多项技术对语音进行分析,这些 技术都要求麦克风接收到的是尽量干净的单一源信号, 然而实际上往往是多人混 合语音甚至是语音中夹杂着噪声,这将严重影响到后端各项处理技术的有效应 用。又由于信号传输的信道特性未知,因此将盲信号分离引入到语音信号处理中 是必然的趋势,它在语音信号处理方面展示了强大的应用前景。例如:干扰声音 的去除,在嘈杂的环境中提取出所关心的目标声音等。 现有的盲信号分离研究中已经涌现出了一些比较成熟的方法, 但这些方法多 数仍然只能对线性瞬时混合或无回声混合的语音信号实现较好的分离, 而在实际 环境中,这些理想的混合模型是不存在的,信号的传输时延与衰减、各种反射造 成的卷积等因素使得麦克风的接收信号是源信号经过复杂的卷积混合得到的, 再 加上语音信号本身的时间相关性与不平稳性, 使得盲信号分离的实现变得比较困 难。所以,针对卷积混合语音信号的盲分离研究,具有极其重要的实际意义,它 将对语音盲分离的实用化奠定坚实的基础。根据作用域的不同,针对语音信号的 盲分离方法主要有时域和频域两大类方法。 源信号与接收信号的原始表示形式都 是时域信号,采用时域方法分离之前不需要对它们做额外的变换,通常采用分离 滤波器来对混合语音解卷以实现盲分离, 但是在解卷前需要根据混合环境设定分 离滤波器的阶数,由于我们缺少混合信道的先验知识,滤波器阶数过小无法达到 良好分离效果,阶数过大又导致算法难以收敛,计算量很大;而频域的方法是通 过短时傅里叶变换(short time fourier transform, stft)将时域上的卷积混合问题 变为频域上的瞬时混合问题, 这样就可以在每个频带上利用现有的相对成熟的瞬 时混合盲分离方法来进行分离,算法较为简单,计算量相对较小。但是,在频域 盲分离算法中,需要注意每个频带上的分离信号的次序和幅度不确定性的问题, 同时纯离线的分离模式并不符合实用化的要求, 而现在的频域算法在保证分离性 能的同时对块在线或在线的尝试并不多,这些都值得我们进一步的研究。综上所 第 1 章 绪论 3 述,本文选取了基于频域的卷积语音信号盲分离作为研究方向。 1.1.2 盲信号处理的分类 1.1.2 盲信号处理的分类 盲信号分离其实只是盲信号处理的基本类型之一。根据不同的应用情况,盲 信 号 处 理 可 大 致 分 为 盲 辨 识 (blind identification, bi) 、 盲 解 卷 积 (blind deconvolution, bd)、盲均衡(blind equalization, be)、盲信号分离(blind source separation, bss)、盲抽取(blind extraction, be)、盲波束形成(blind beam shape, bbs)、盲多用户检测(blind multiple user detection, bmud)等。其中盲辨识、盲 信号分离和盲解卷积是盲信号处理的基本类型。 盲信号处理的大部分方法都是以相关的理论为依据来构造目标函数进行无 监督学习。目标函数的挑选要遵循一定的准则,比如负熵(当非高斯性最大时就 实现了独立分量的分离)、高阶统计量(这是非高斯性度量参数,常用的是四阶累 积量)、互信息量(输出信号间互信息最小则实现了独立源的分离)等。在确定了目 标函数以后,就需要选择适当的算法进行寻优求解,采用的算法主要是一些自适 应优化算法。 盲辨识是仅仅利用系统的带噪输出来辨识系统数学模型的盲信号处理方法, 如图 1.1 所示,通常我们假定输入信号( )u t为独立、同分布、不可测量的非高斯 序列,在系统模型不可知的情况下,通过测量到的系统输出( )y t进行求解。传统 的系统辨识通常是假定输入( )u t和输出( )y t均可进行测量,而针对这一类问题, 已经有了不少的经典算法。对于盲辨识问题,必须探索新的信号处理方法来从系 统输出中得到额外信息,以弥补系统输入未知这一缺陷。 图图 1.1 盲辨识系统模型 盲解卷积是指在系统的参数未知的情况下, 仅利用系统的带噪输出对系统的 输入进行重构,如图1.2所示,一般仍然假定系统输入( )u t为独立、同分布、零 均值序列,系统模型未知,系统的输出( )y t可以进行测量。 图图 1.2 盲解卷积系统模型 盲信号分离是随着计算机和通信技术的发展, 在信号处理领域新兴的一个研 究方向。概括的说,它的主要任务就是在系统未知以及输入源信号未知(或只有 未知系统模型 输入 ( ) u t 系统带噪输出 y(t) 滤波器 ( ) u t 未知系统模型 不可测的输入 u(t) 系统带噪输出 y(t) 第 1 章 绪论 4 极少先验知识)的情况下,仅仅根据接收信号来重构出源信号或辨识出系统。对 于盲信号分离的研究,源自于阵列信号处理技术,其基本数学模型如下: ( )( )tt=xas (1.1) 式中( ) ts为源信号向量,a为混合矩阵,( ) tx为观测信号。对信号进行盲分离其 实就是仅利用观测信号( ) tx来求取一个分离矩阵w,并通过该矩阵与观测信号 来恢复源信号。设( ) ty为输出的对源信号的估计,则分离系统可按如下表示 ( )( )tt=ywx (1.2) 图1.3表示了盲信号分离的系统模型,盲分离是在没有关于混合矩阵a的任 何先验知识的情况下,来辨识出a或者估计出源信号。由于没有a的结构信息, 因此通常情况下盲分离对于源信号有如下几点附加的假设:(1)mn维的混合矩 阵a满秩,且nm(nm的欠定情形下的盲分离有其它解法);(2)( )ts中的每 个源信号分量都是零均值的平稳过程;(3)源信号( )ts的各个分量相互统计独立。 图图 1.3 盲信号分离系统模型 盲信号分离按照源信号经过传输信道的混合方式而言,可分为线性瞬时混 合、线性卷积混合和非线性混合三类;按照分离算法处理的领域不同,可分为时 域方法和频域方法;按照源信号和混合信号是单路或多路,可分为单输入多输出 系统(simo)的盲分离和多输入多输出系统(mimo)的盲分离;针对处理的信号的 不同,有通信信号的盲分离、语音信号的盲分离、脑电信号的盲分离等。本文主 要研究经线性卷积混合(mimo类型)的语音信号的频域盲分离算法。 1.2 盲信号分离的发展和国内外研究现状盲信号分离的发展和国内外研究现状 盲信号分离的研究始于20世纪80年代, 第一阶段是盲分离理论逐步形成并 取得一定发展的时期,这一阶段内的主要研究都是以平稳信号的盲分离为主。随 着研究的深入与进展,到了20世纪90年代中期以后的第二阶段,人们开始逐渐 研究对于非平稳信号的盲分离,从那时开始,学者们也开始了语音信号的盲分离 研究。 1986年4月法国学者jeanny herault和christian jutten在neural network for computing会议上的一篇题为space or time adaptive signal processing by neural network models的研究报告提出了一种递归神经网络模型与基于hebb学习律的 a 观测信号( )tx b ( )ty( )ts 混合矩阵 分离矩阵 第 1 章 绪论 5 学习算法,该模型目的在于对两个独立源信号的混合信号进行分离,该算法被简 称为“h-j算法” ,也标志着信号处理领域中的盲信号分离研究的开端。在随后 的1991年,j.herault 1998a; 1998b; 1999) 提出了自然梯度的概念并将其应用到了神经网络盲分离算法中。在欧氏空间中, 用梯度法作自适应处理时,梯度是按直角坐标系下的最陡下降方向确定的。但是 ica方法中的目标函数实际上是个曲面, 理论上梯度的调节应该沿曲面上的最陡 下降方向进行,而不能再用欧氏空间中的常规梯度来处理。amari利用微分几何 与黎曼几何的知识,证明了在黎曼空间中,目标函数的自然梯度是按真正的最陡 下降方向确定的。amari和cardoso指出,在盲分离问题上,自然梯度与相对梯 度是等价的,两者都是利用类似的迭代准则对分离模块的参数进行更新,都有良 好的等变化性。 2000年,lee(2000)等人在继承bell的基本算法体系的基础上,结合amari 等人提出的“自然梯度”概念和最大似然估计方法,将原来的infomax算法进行 改进,从而能有效分离具有超高斯和亚高斯分布的混合信号,hyv a ? rinen和oja 等人根据四阶累积量和信息论中的负熵,提出了基于ica的快速分离算法,由 于这一算法比批处理甚至自适应处理具有更快的收敛速度,因此又被称为“快速 ica算法”(fastica)(hyv a ? rinen a and oja e,1997)。 以上所介绍的盲信号分离的发展是其研究历史上的第一、 二阶段中针对平稳 信号或者仿真的瞬时混合非平稳信号的分离,算法相对成熟且以时域方法居多, 并且能获得不错的分离效果。 但是在研究过程中人们发现这些算法在实际环境中 的分离效果很差。因为在实际的语音混合环境中,声音在传播过程中会存在传输 时延和衰减,更重要的是由于各种反射、回响因素的存在,使得接收器接收到的 信号是由每个源信号各自的卷积形式相叠加混合的, 卷积混合下的信号特性相比 瞬时混合下的信号特性已经发生了变化,针对这些问题,学者们开始关注卷积混 合信号的盲分离算法。对于卷积混合信号的盲分离,也分为时域和频域两种研究 方法。时域方法出现较早,1991年platt和faggin(1991)就将h-j算法推广到了 卷积混合情形中。1994年,yellin和weinstein提出了基于高阶累积量和高阶谱 的多通道盲解卷积算法,该算法需要的运算量很大。1995年,jutten等人利用四 阶累积量或四阶矩函数, 推导出了新的自适应训练方法并用来进行卷积混合信号 的盲分离。1996年,tokkola将反馈网络结构,加入到infomax算法中使其能对 具有时延的源的混合信号进行盲分离。另外在1997年,amari等人又把互信息 最小和infomax等方法推广到卷积混合的情况。总的说来,时域方法在耗费巨大 的计算量同时,也没获得较好的收敛效果。因此学者们开始关注卷积混合信号的 第 1 章 绪论 7 频域盲分离。1998年,smaragdis(1998)发表了一篇经典文章,他利用短时傅里 叶变换将卷积信号变换到频域, 也即将原来的时域上卷积混合信号的盲分离转化 为了频域上每个频带的瞬时混合复数信号的盲分离, 各个频带上的盲分离由扩展 的infomax算法实现, 最后将全频带的分离结果反变换回时域以恢复出完整的时 域信号, 他提出的的频域分离模型具有开创性的意义, 也获得了一定的分离效果, 但是针对频域盲分离中出现的幅度不确定性(scaling)和次序不确定性 (permutation)问题,他并没能给出很好的解决办法。由于频域盲分离是在每个频 带上单独进行,所以每个频带的分离结果之间必然存在着这两个问题,由于须要 重构出每个估计信号的全频带频谱信息并将其反变换回时域才能获得完整无误 的时域信号,所以这两个不确定性问题在频域盲分离中显得极其重要。 于是在卷积混合盲分离的频域算法中,人们不仅要关注信号分离的部分,还 需要着重关注对两个不确定性的研究。在smaragdis提出了频域ica算法之后, 后续研究一直在缓慢的进展, 幅度和次序的不确定性问题始终给分离性能带来巨 大的影响。 其实对于幅度不确定性问题, 只要能够控制每个频带的信号能量大小, 一方面使得算法不会因为信号大小不受控制而无法收敛, 另一方面也使得各个频 带的分离矩阵的数值大小差异较小。这种情况下,信号的分离性能也不会受到明 显的影响。现已有一些方法能够达到上述要求,相比之下对分离性能影响更大的 次序不确定性问题得到了学者们越来越多的关注。2000年,anem u ? ller等人想到 了利用分离信号的相关系数来判断并调整信号间的次序, 类似的后面就出现了利 用kullback-leibler散度(2003)或互累积量(2000)的方法,属于同一信号的具有较 强相关性,则kl散度小、互累积量不为零。这一类方法主要是利用同一个信号 的相邻频带间的包络相关性,鲁棒性不好,且某一个频带的次序调整错误会连带 引发后面的很多频带调整错误。另一类是采用波达方向方法(direction of arrival, doa)(ikram m et al,2002 sawada h et al,2004; makino s et al, 2005; saruwatari h et al, 2003), 该方法利用麦克风阵列的排布坐标建立方向模型, 并利 用各个频带的分离矩阵在方向模型的各个角度上的指向值来判断每个频带的次 序,该方法的优点是每个频带单独进行调整,不会像求相关性方法那样存在连带 效应。但缺点是对麦克风阵列的坐标位置要求很高,而且仍然存在鲁棒性和准确 度的问题,同时运算量也不小。自从yilmaz和rickard提出duet(2004)算法之 后,它不仅系统化了zibulesky(2002)利用语音稀疏性解决混合信号分离的思想, 并且正式确定了利用语音时频特性进行语音盲分离的思想,俗称时频掩蔽(tf masking)方法。该方法与频域ica成为了频域盲分离的两条主线。与ica相比, 该方法的优点在于通过对时频点的聚类等操作就能实现频域信号分离并能解决 次序不确定性问题,不过该方法不包含迭代寻优的过程,虽然一定程度上减小了 第 1 章 绪论 8 运算量,但分离出的语音存在频谱失真且音乐噪声较重。所以本文将结合频域 ica与语音信号的时频分析法来进行卷积语音信号的盲分离研究。 1.3 论文结构论文结构 本文主要讨论基于频域的语音信号盲分离问题并初步搭建系统对一定环境 下的语音信号盲分离进行实用性尝试。各个章节的内容安排如下: 第一章绪论简单介绍了盲信号分离的概念、 研究背景与意义以及国内外的研 究现状。 第二章首先介绍了三种盲信号分离模型, 并对应用于盲信号分离的麦克风阵 列模型进行了讨论;接着采用mls方法测量了实验环境的声学脉冲响应,对本 文的盲分离实验环境有了更深入的了解。 第三章简单介绍了独立分量分析(ica)的基本概念、 以及一些数学基础知识, 详细介绍了ica的基本算法,并对卷积信号频域盲分离的概念和问题进行了简 单的讨论,同时引入了后续章节的研究主线中使用的基于信息最大化(infomax) 的频域ica方法。 第四章首先回顾了语音信号的稀疏性以及以此为基础进行时频分析的频域 盲分离算法。 然后将语音信号的稀疏分析思想与传统的基于infomax的频域ica 方法相结合,提出了一种新的三步式fdica盲分离算法,仿真与实际环境下的 语音盲分离实验结果表明, 该方法在追求良好分离性能的同时也极大提升了运算 效率。 第五章首先介绍了asio驱动的概念和工作原理,并结合多输入多输出的音 频设备搭建了多通道同步语音采集平台。分析了第四章的创新三步式fdica算 法应用到分块在线盲分离时可能存在的问题,提出了针对fdica的时频掩模后 处理方法,并结合数据采集平台进行了分块在线的盲分离实验,相比不进行后处 理的实验结果,后处理方法在消耗极小运算量的情况下,明显提升了分离性能; 同时,加入后处理优化的三步式fdica算法在获得了良好的分离性能的同时也 体现了极高的运算效率。 第六章对本文进行了总结,对今后的工作方向进行了展望与讨论。 第 2 章 盲分离模型及声学脉冲响应测量 9 第第 2 章章 盲分离模型及声学脉冲响应测量盲分离模型及声学脉冲响应测量 2.1 盲信号分离问题模型描述盲信号分离问题模型描述 盲信号分离问题按照接收信号数目分类,可分为单输入和多输入 (mimo) 的盲分离。单输入盲信号分离一般在频域进行,先经过频域分捡,然后将频域分 捡后的信号恢复到时域,由于分捡会导致信号的某些部分残缺难以恢复,并且很 难准确的分辨出接收信号中不同源的分量, 所以恢复的信号往往存在频谱失真和 音质较差的缺点。本文的所要研究的是多输入的盲信号分离。对于多输入的盲信 号分离,人们往往采用2个或者更多个麦克风来接收多个源语音信号,由于同一 源信号传播到不同麦克风存在时延差异并且还可能有强度差异, 我们可以利用统 计信号学的方法来降低接收信号间的相关性以分离出源信号。 盲信号分离的系统模型(见第一章图1.3)可以分解为源信号的混合与接收信 号的分离两个过程,笼统的说就是系统求逆的问题,如果我们估计出的信号分离 系统正好是混合系统的逆系统, 那么就能实现信号的完美分离。 在不同的情况下, 信号混合的通道可以是一个线性函数,也可以是具有时延参数的加权函数,最复 杂的情况就是fir形式的滤波器组甚至非线性函数。 换个说法, 根据传递函数的 复杂程度的不同,盲信号分离模型可以分为三类:瞬时混合模型、无回声混合模 型和卷积混合模型。瞬时混合模型只考虑了信号的幅度衰减;无回声混合模型在 瞬时混合模型的基础上考虑了信号到达不同麦克风的不同时延因子; 卷积模型则 考虑了信号传播过程中的各种效应,最接近实际环境的模型。 2.1.1 瞬时混合模型 2.1.1 瞬时混合模型 瞬时混合形式比较简单,是盲信号分离中的最基本的一类问题。不过在实际 的语音信号的盲分离中,语音混合的环境基本不可能是瞬时混合模型。 假设有n个信号源 12 ( ) ( ),( ),.,( )t n ts t s tst=s和m个信号接收器接收到的信 号 12 ( )( ),( ),.,( )t m tx tx txt=x,混合矩阵为a,则语音信号的混合模型为 ( )( )tt=xas (2.1) 其中a为mn维的实数矩阵,其中的元素 ij a表示第 j 个源传递到第i个接收器 的幅度衰减。 第 2 章 盲分离模型及声学脉冲响应测量 10 2.1.2 无回声混合模型 2.1.2 无回声混合模型 如果我们在瞬时混合模型的基础上再考虑源信号到达不同麦克风的传播时 延,那么第i个接收器接收到的信号( )(1) i x tim 表示为 1 ( )() n iijjij j x ta s t = = (2.2) ij a 表示第 j 个源传递到第i个麦克风的幅度衰减, ij 表示第 j 个源传递到第i个 麦克风的时延。该模型考虑了信号传递到不同麦克风存在时延的因素,但是仍然 没有考虑回声的影响,所以在回响很严重的环境下,利用这种模型去近似会很不 准确,不过在某些普通环境下,基于无回声模型的一些假设和近似还是有很大的 用处。 2.1.3 卷积混合模型 2.1.3 卷积混合模型 虽然瞬时混合模型和无回声混合模型与真实环境有较大的差异, 在实际应用 中存在局限性,但是对于盲分离的许多基础研究却是必不可少的。过去20年里 基于这两种模型的研究,为解决盲分离问题奠定了坚实的基础。在实际环境中除 了直达声之外, 经不同障碍物多次反射而形成的回声会与直达声混叠在一起传递 到麦克风,在这种卷积模型下,接收信号( ) i x t 的表达式为 10 ( )( )() np iijj j x tas t = = (2.3) 其中为时延参数,( ) ij a为第 j 个源传递到第i个麦克风的信号中时延为的信 号分量的幅度衰减,p 为反射路径个数。 2.1.4 麦克风阵列模型与语音盲分离 2.1.4 麦克风阵列模型与语音盲分离 由于语音信号需要通过麦克风进行数据采集, 且多数情况下麦克风数量不少 于两个,所以语音信号盲分离与麦克风阵列信号处理也有不可忽视的关联。但是 语音盲分离对于麦克风阵列的排布并没有太多要求, 所以一般情况下人们多采用 如下图2.1所示的线性阵列: 第 2 章 盲分离模型及声学脉冲响应测量 11 microphone k (d=dk) microphone 1 (d=d1) 0 source 1 source 1 d source 2 2 l 1 图 2.1图 2.1 线性麦克风阵列模型 关于麦克风之间的间距要求, 只要相邻麦克风之间的间距不大于最小波长的 一半就不会发生空间混淆(spatial aliasing)(johnson and dudgeon,1993),甚至现 在有不少盲分离研究都更愿意采用间距较大的麦克风阵列, 虽然间距大会导致语 音信号的高频发生spatial aliasing,不过也突出了中低频部分的相位信息,能够 提升中低频的分离性能,从语音信号的能量分布来看,相比于高频,集中了大部 分能量的中低频才是决定盲分离性能好坏的关键。 关于麦克风的指向性, 目前绝大多数的盲分离研究都是使用全向麦克风来进 行数据采集。全向麦克风的拾音特性不随着声源的入射角度而改变,换句话说只 要声源与麦克风之间的距离不变, 声源传输到麦克风的信号能量不会随着声源的 入射角度改变而改变。对于由全向麦克风组成的线性阵列,同一个源传输到不同 麦克风的接收信号之间的差异全部体现在声源到达不同麦克风的不同传输时延 上,从频域角度来看,反映在源传输到不同麦克风的接收信号的相位信息上。 下面我们将把语音信号的可分离性与语音信号的混合模型结合起来分析。 不 妨假定源数目与麦克风数目均为2。对于2.1式的瞬时混合模型,信号可分离的 条件为混合矩阵 a可逆,即矩阵 a的行列式不为0。由于瞬时混合模型下的混合 矩阵元素全是正实数, 混合矩阵根本不能体现出源传输到不同麦克风的接收信号 间的传输时延,所以瞬时混合模型是不真实的,但是这种模型下混合矩阵的元素 的幅度信息却决定了信号的可分离性。我们可以得出结论,麦克风阵列的幅度信 息对于语音信号的盲分离也具有很大的作用。 当指向性麦克风组成接收混合信号的阵列时, 不仅同一个源到达不同麦克风 的延迟不同,他们到达不同麦克风的幅度衰减也存在差异。引入指向性麦克风的 另一好处是,我们可以根据对目标源的分离或增强的需要,来灵活调整麦克风的 指向,这在手机通信、多人会议等方面具有很大的应用价值。目前已有研究人员 与机构利用指向性麦克风组成的阵列来进行盲分离的研究(hiekata t et al, 2008), 相信随着技术的积累与应用需求的日增, 指向性麦克风阵列会越来越多的应用于 第 2 章 盲分离模型及声学脉冲响应测量 12 盲信号分离中。 2.2 房间声学脉冲响应测量房间声学脉冲响应测量 图 2.2图 2.2 声音传播的线性系统模型 房间声学脉冲响应(room acoustic impulse response)是指在房间中接收位置收 到的由脉冲声源辐射的信号序列。当将输入信号设定为单位脉冲信号时,输出信 号就是单位脉冲响应。也就是说当发射位置的声源为单位脉冲声源时,接收位置 收到的信号就是发射位置至接收位置的声场脉冲响应。 这就是获取声场脉冲响应 的基本原理。如图2.2所示,图中( )h t 为声场脉冲响应,( )x t 为输入信号,( )y t 为 输出信号。 我们这里需要测量的房间声学脉冲响应将点与点之间的声学环境抽象 为一个系统。在我们的语音信号盲分离的研究中,测量房间声学脉冲响应主要有 几个目的:1、更加了解房间的声学环境;2、通过测量的脉冲响应能够得到单个 源传播到麦克风上的信号;3、更方便于进行仿真实验以及性能评测。下面我们 将 对 所 使 用 的 房 间 声 学 脉 冲 响 应 测 量 方 法 mls(maximum length sequence)(borish j and angell j b,1982; chu w t,1990; macwilliams f j and sloane n j a,1976)法进行介绍。 2.2.1 2.2.1 m 序列及其基本特性 序列及其基本特性 m序列是一种周期性的伪随机信号,如果取双极类型则信号由 1 和-1 构成, n阶m序列的周期为:21 n p = 。如果将生成的m序列作为被测房间声学系统 的激励信号,我们将接收到的m序列的响应与源m序列进行互相关运算,就能 得到该未知系统的声学脉冲响应。 m序列的全称为最大长度线性移位寄存器序列, 是通过将n个移位寄存器串 联起来,在时钟控制下,寄存器的存储信号逐阶传递
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年合肥市医疗器械检验检测中心有限公司社会招聘11人笔试参考题库附带答案详解
- 2025宁夏六盘山旅游集团招聘工作人员笔试参考题库附带答案详解
- 2025四川雅安市名山区茗投产业集团有限公司招聘合同制员工38人笔试参考题库附带答案详解
- 2025四川九州电子科技股份有限公司招聘调度等岗位5人笔试参考题库附带答案详解
- 2025中国电气装备集团数字科技有限公司招聘28人笔试参考题库附带答案详解
- 地铁施工安全培训体会课件
- 危险品安全培训学历课件
- 地铁安全事件培训小结课件
- 地铁基坑监测安全培训课件
- 危险化学安全阀培训课件
- 砼回弹强度自动计算表
- 国开2023春《言语交际》形考任务1-6参考答案
- 抽油机井示功图分析判断1
- 机电一体化说专业比赛
- GB/T 39141.3-2022无机和蓝宝石手表玻璃第3部分:定性标准和试验方法
- GB/T 1142-2004套式扩孔钻
- 2022年天津市河东区生态环境系统事业单位招聘笔试试题及答案
- 研究生学术道德与学术规范课件
- 浦发银行个人信用报告异议申请表
- 电镀行业环境执法现场检查要点
- 趣味成语 完整版PPT
评论
0/150
提交评论