盲信号语音分离技术的研究与实现——毕业论文_第1页
盲信号语音分离技术的研究与实现——毕业论文_第2页
盲信号语音分离技术的研究与实现——毕业论文_第3页
盲信号语音分离技术的研究与实现——毕业论文_第4页
盲信号语音分离技术的研究与实现——毕业论文_第5页
免费预览已结束,剩余34页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科毕业设计(论文) 论文题目 盲信号语音分离技术的研究与实现 Research and Implementation of the Voice Separation Technology for Blind Signal 浙江传媒学院本科毕业论文 盲信号语音分离技术的研究与实现盲信号语音分离技术的研究与实现摘要:近年来语音信号的分离越来越受到大家的关注,它在助听器及便携设备、电话会议、各种语音识别方面有很多的应用和影响,且语音分离的处理方法经常在语音识别中得到实践。其中“盲”是指不知道源语音信号的分布和传输信道的参数。盲信号语音分离的理论基础是ICA独立分量分析,ICA可以广泛的应用于图像、通信、生物医学、声纳、地震等多种类型信号的处理中。文章首先阐述了语音信号的特征,介绍了独立分量分析的理论算法。在此基础上,对传统的自适应语音信号盲分离EASI算法进行了详细的研究,由于EASI算法采用的是固定步长,其收敛速度和分离性能不能达到最佳结合。所以,本文提出了一种基于EASI算法的改进的变步长自适应的语音信号盲分离算法,可以很好的解决收敛速度和分离性能之间的矛盾,并对其进行了算法性能仿真实验。最终通过实验结果表明,改进的自适应盲分离算法优于传统的EASI算法。关键词:盲信号处理;独立分量分析;EASI算法;变步长自适应盲分离算法RESEARCH AND IMPLEMENTATION OF THE VOICE SEPARATION TECHNOLOGY FOR BLIND SIGNALAbstract: Speech separation has been a hot topic in voice signal processing society recently years, which has many applications and influences in telephone conference, hearing aid, portable devices, speech recognition. The process of blind signal is a useful method in speech separation, in which the term “blind” means that the source itself and the transmission channel is unknown. Independent component analysis is the theoretical basis of blind signal separation, which can be used in various signal fields including communications, image, speech, biology, radar, seismic, sonar and etc. At first, the paper analyzes the theory and algorithm of Independent Component Analysis. On this basis, EASI algorithm was focused detail. As EASI algorithm used in a fixed step, so it does not achieve the best combination of the convergence rate and the separated performance. Therefore, an improved Variable step adaptive blind source separation based ICA algorithm was proposed. So it can improve convergence speed and reduce the maladjustment error in the steady state simultaneously. Eventually, we can find that the improved algorithm performance is superior to EASI algorithm.Keyword: Blind Signal Processing;Independent Component Analysis;EASI Algorithm;Variable Step Adaptive Blind Source Separation Based ICA Algorithm目 录1 绪论11.1 研究背景11.2 国内外研究现状21.3 研究的目的和意义41.4 本文的主要内容及工作安排52 盲信号语音分离的概要研究52.1语音信号的概述52.1.1语音的特性52.1.2语音信号的特征62.2 语音分离的数学模型62.3 语音分离的研究内容72.4 语音分离的研究方法82.4.1 独立分量分析82.4.2 对源语音信号的概率密度函数进行估计102.4.3 目标函数的选取和优化算法112.4.4 语音分离的评价指标132.4.5 ICA数据的预处理142.5盲信号语音分离的主要流程162.6本章小结173 盲信号语音分离的详细设计183.1 传统的EASI算法分析183.1.1 EASI算法183.1.2 算法的流程193.1.3 串音误差ECT213.1.4 算法中的步长因子u213.2 改进的自适应盲分离算法213.2.1 改进算法的分析223.2.2 改进的自适应盲分离算法的流程223.2.3 改进算法的串音误差ECT233.3 本章小结244 盲信号语音分离算法的仿真实验244.1 语音分离算法的实现244.1.1 实现平台244.1.2 运行环境254.2 盲信号语音分离的算法仿真实验254.2.1 EASI算法仿真实验254.2.2 改进的自适应盲分离算法仿真实验264.3 两种算法分离结果的对比分析284.3.1串音误差ECT的比较284.3.2 信噪比SNR的比较294.4 本章小结295 总结与展望305.1 总结305.2 展望31致谢32参考文献331 绪论1.1研究背景由于计算机技术的快速发展,社会逐步进入了数字化的时代。数字信号处理技术作为“后起之秀”很快在通信以及地震探测等多个领域得到了广泛的应用,而盲信号语音分离作为数字信号处理中的一种新兴技术是最近二十年才发展起来的。20世纪末21世纪初,人类生活水平明显提高,因此对于新技术的要求也显著提高。而盲信号的分离问题对于我们显得尤为重要。同时在语音通信1、生物医学、数据挖掘模式识别和声纳探测等各个领域中,盲源分离2的研究都具有非常重要的理论价值和实际意义。 “鸡尾酒会”问题就是一个典型的盲信号语音分离的例子,它可以表述为在众多的谈话和背景噪声中,集中人们的听力于某个谈话者声音上的能力。在酒会上,我们通过多个麦克风采集到同时讲话的人的语音信号和许多噪声信号,这些信号可以称之为源信号;进而获得多路混合的语音信号,为观测信号;因为是由在不断运动的人们发出的这些语音信号,所以混合信号的信道是无法确定的,这种仅利用源信号的统计特性和观测信号恢复出每个人的语音的过程就是盲信号的语音分离1。如图1-1所示。源信号s(t)观测信号x(t)分离信号y(t)图1-1 语音信号的盲分离示意图在一大堆不同的信号中,我们可以忽略其他的干扰噪声,仅仅根据自己的喜好选择出我们感兴趣的信号来接受,这是一个有趣的问题。这种特殊的辨别能力也许是由人类发声系统、听觉系统或者更为高级的知觉和语言处理的特性所决定的,然而这些知识假设,这种机制到底是由什么决定的,还需要我们去进一步的探索。盲源分离(Blind Source Spearation,BSS)所指的是在源信号和传输通道参数未知的情况下,根据源信号的统计特性,仅由观测信号恢复出源信号各个独立成分的过程3。我们可以从盲源分离的概念中看出这里的术语“盲”有两重含义,不知道源信号是如何混合的且传输通道的参数也是未知的4。1.2 国内外研究现状从语音分离1的角度看,语音信号盲分离算法的研究主要经过了三个阶段。第一个阶段是盲信号语音分离理论的形成时期,这个时期的学者们致力于研究平稳的语音信号的瞬时盲分离问题。第二个阶段是上世纪九十年代中后期,大家的目光开始转移到非平稳信号的瞬时语音分离5。第三个阶段是从本世纪初至今,学者们渐渐关注研究卷积混合模型的语音信号分离。总的来说,盲信号语音分离问题的研究内容大体上可以划分为四部分:卷积混叠语音分离、瞬时线性混叠语音分离、语音分离的应用和非线性混叠语音分离 6。到目前为止,在大多数的研究中,讨论得最多的是瞬时线性混叠语音分离和卷积混叠语音分离。瞬时线性混叠语音分离代表性的算法主要有:Bell-Sejnowski的最大信息量(Infomax)方法、Amari的自然梯度(Natural Gradient)方法、Cardoso的等变化自适应方法(EASI)、Hyvarinen的快速独立元分析算法(FastICA)、矩阵特征值分解方法等。其它的语音发呢里算法大都是在以上算法的基础上推广或者补充而发展起来的,当然语音分离并不仅仅局限于这些算法。优化算法经常在语音分离中被使用,就优化手法而言2,Infomax算法、自然梯度算法、和EASI算法属于梯度下降(上升)寻优算法,收敛速度是线性的,速度略慢一些,但属于自适应方法、具有实时在线处理能力;FastICA算法是一种快速而数值稳定的方法,采用拟牛顿算法实现寻优,没有迭代寻优过程,因此运行速度最快。相比卷积混叠语音分离和瞬时线性混叠语音分离, 非线性混叠语音分离难度比较大, 目前为止,只有少数学者研究非线性混叠语音分离。Taleb和Jutten研究了非线性混叠的独立源语音信号是可分离的, 他们指出普通情况下的非线性混叠语音分离7不具备唯一解, 其中后非线性(PNL,Post- nonlinear) 混叠具有较好的可分离性,并且针对后非线性混叠盲分离模型提出了盲分离算法。其中独立分量分析8 (Independent Component Analysis, 简称ICA) 是研究盲源分离问题过程中出现的一种新方法。所谓ICA, 就是要寻求一种线性变换, 使信号各个分量之间高阶统计独立性最大。典型的ICA 算法有Amari 等的自然梯度算法9 , Cardoso 等的EASI 算法等, 离线算法有Lee T. W. 等人提出的扩展Infomax 算法10 和Hy varinen 的Fast ICA 算法10等。本文将研究用EASI算法解决盲信号语音分离问题。例如,2000年,Parra提出了基于频域去输出信号相关性的算法,不仅得到了好的分离效果,而且算法的收敛速度也非常快。总体上,这类文章可以分为两部分:卷积后混合语音信号的盲分离和瞬时混合语音信号的盲分离。盲信号语音分离用于解决瞬时线性混合问题目前已经有很成熟的算法而且也得到了很好的应用。近些年来,我国有也有很多关于盲信号语音分离技术的文章相继发表。我国也有许多的专家学者都致力于盲源分离的研究,已提出了许多的算法,这些算法大致分为几种:2002年,苏野平等人提出一种改进的基于高阶累积量的盲信号分离算法11并且被用来进行双路语音增强,并提出了最速下降法滤波器抽头系数更新算法。模型和实际录音的实验表明所提出方法的有效性。2004年,桂国华,蔡青,贾鹏证明了当源信号是非平稳信号是,使用二阶统计计量12就足以成功地对混合信号进行盲分离,从而,大大简化了计算的复杂度。据此,我们提出一种基于二阶统计计量的盲分离算法,并在实验中用此算法成功地分离了语音和音乐的混合信号。2005年,李立峰提出一种快速定点算法,该算法的特点是逐个分离出每一个源信号,并且收敛快,另外盲分离算法不仅能够在主信号方向形成主波速,并且还可以在干扰信号方向形成零点,可以大大提高信噪比。2005年,张雪峰等13提出对真实环境中的混叠语音信号进行盲分离是一个非常困难的任务。许多在仿真信号环境下工作很有效的算法常常不能成功地分离真实环境中录取的混叠语音信号。2005年,金辉,陈晓署提出一种实用的语音分离算法-COBliss,它是一种基于二阶统计量的多通道盲反卷积算法。但是源信号自相关函数的序列长度必须足够大,而大多数语音信号不满足这一要求。2005年,肖俊等人在Torkkola提出的分析反馈分离算法13的基础上,提出了一种在频域上用前馈结构的信息最大化算法,该算法对应于非因果FIR滤波器,为非最小相位系统的盲分离问题提出了一个解决方案。最后,我们将演示用这种方法分离实际环境下的两个自然信号。2005年,何文雪等利用模糊函数的时频分布特征选取时频点,提出一种新的时频域语音信号分离算法,与传统的维纳时频分布相比,不但显著缩小了时频点的选择范围,而且不需要设定阈值。算法利用一种非正交联合对角化方法求取分离矩阵,在原始信号既有相互相关的情况下也能达到良好的分离性能。仿真实验表明,该算法难度小,分离精度高,可实现高斯源或相关源信号的盲分离。2007年,李雪霞等5提出了一种线性混合的混沌信号的瞬时盲信号分离方法,它利用了各个混沌信号源之间的互不相关性,在未知混合矩阵和混沌方程的情况下,通过求解特征向量的方法从观测中直接估计出解混合矩阵,以重构出混沌信号。仿真结果表明,即使在低信噪比情况下,该方法仍可以有效地从噪声背景中分离出多个混合的混沌信号。2007年,马明等采用同伦分线性模型对语音信号进行建模,将非线性可预测性作为盲源分离的准则,推到了基于同伦模型的盲源算法,成功的实现了语音信号的分离。2007年,李大辉等给出了语音信号分离的数学模型,并确定了可分离的假设条件和分离准则,通过分析2种学习规则长变化对分离效果的影响,提出改进的学习规则,应用改进的学习规则实现自适应算法对语音信号的盲分离,消除步长递减过早或过晚的现象,分离效果好。1.3 研究的目的和意义在工程应用和科学研究中,许多观测信号能假设为源信号未知的混合,如:语音图像信号、通信信号、雷达信号、生物医学信号、地震信号等等2。比如,大部分生物医学信号4都是比较微弱的非平稳信号,且容易受到噪声干扰,所以通常都是相互层叠的。提取胎儿的ECG信号1,4就是从观测信号中去除母亲的心电信号和噪声信号,然后从肺信号中分离出心脏信号。在通信系统中,对于接收端来说,从发射端发出的信号是未知的,且由于“移动”的原因,信道也在不断变化3,所以也是未知的,我们必须仅由接收信号去恢复原是信号本身。又比如在地震勘探中,震源信号和传播信道都是未知的,我们只有通过接收信号去确定地层信息。再如众所周知的经典的“鸡尾酒会”的问题5,在一个都是客人的房间里,每一个人都能听到来自各个方向的不同种类的声音,如音乐,歌声以及人们的说话声等等。而盲信号语音分离与传统信号分离的方法最大的不同之处就在于用它可以用最少的信息得到理想的结果。总的来说,盲信号语音分离是一种仅仅利用观测到的混合信号来估计源信号的方法,它是以独立分量分析(Independent Component Analysis,ICA)3为理论基础的。随着数字信号处理理论和技术的发展以及相关学科的不断深入,许多盲信号分离算法被不断提出,使盲信号分离问题逐渐成为当今信息处理领域中最热门的研究课题之一。而我们所要研究的盲信号语音分离技术虽然不可能让计算机变得具有和人类一样的听觉,但是此项技术却能使相互混叠的语音信号变成相互剥离的语音信号,这样可以作为语音识别技术的预处理技术,从而使得在吵闹的环境中混有很多的说话声音的情形下,不同人的说话声音可提取出来,即语音分离技术成为了可能。这样就增大了识别算法的鲁棒性14和适应能力。但是意义不仅限于此,因此,近年来由于实际应用的需求使得混合语音信号分离成了信号处理、移动通信和神经网络、无线通信、图像处理、地震信号处理、阵列信号处理15和生物医学信号处理等领域得到了广泛的应用。1.4 本文的主要内容及工作安排本文在论述安排上主要分为以下几个部分:第一章 简要介绍盲信号语音分离的研究背景和国内外现状以及本课题的主要研究目的和意义。第二章 概要介绍了语音信号的主要特征和盲信号语音分离的模型,阐述了语音分离的研究内容和研究方法,包括独立分量分析的方法,独立分量的发展史,独立分量的约束条件,独立分量的理论基础和独立分量分析的不同的优化算法。第三章 详细介绍了盲信号语音分离中基于独立分量分析的传统的EASI算法,分析了传统EASI算法的串音误差ECT,并说明了步长因子对稳态性的影响。进而提出了一种新的算法,改进的自适应盲分离算法,并对其串音误差、步长因子和稳态性进行了分析,介绍了新算法的流程,以及新算法的优点。第四章 用matlab进行仿真实验,对数据进行分析。第五章 总结全文,指出自己所做工作以及设计和论文需要进一步改进的地方。2 盲信号语音分离的概要研究对于ICA研究最初是鸡尾酒会的问题,也是盲信号语音分离的起点。ICA是从多维统计数据中找出分量和隐含因子 15的方法。从线性变换角度来看,源语音信号是非高斯信号且相互独立,可以当作线性空间16的基础信号,那么观测信号即混合后的语音信号就是源信号的线性组合,ICA就是在传输信道和源语音信号均未知的情况下,从观测号中估计出源语音信号的过程。因为盲信号分离是语音分离的主要方法,所以我们可以把盲源分离问题转化为语音分离的问题。2.1语音信号的概述2.1.1语音的特性(1)短时平稳性根据学者们对语音信号的研究,发现语音是一种时变的、非平稳的随机过程,另一方面,我们认为在很短的时间内语音的特征是不会改变的,因为人类的发声系统的生理结构和其变化速度是有一定限度的,所以语音的短时性特点是对语音信号进行处理和分析的基础。(2)清音和浊音语音可分为清音和浊音。二者从语音产生的机理上有明显的差异,前者为周期性脉冲产生的,后者由随机噪声产生的,因此在特征方面的区别也很明显。且清音类似于白噪声。2.1.2语音信号的特征(1)时域特征由前面的分析可知,语音信号是时变的,且具有短时平稳性。因此可知,语音信号在时域上存在有音段和无音段。因此,通过对有音段和无音段的特性检测,可以去除噪声语音中的平稳噪声。(2)频域特征众所周知,语音信号的频谱能量大多集中在300-3400Hz。其中大部分能量是浊音信号,其频谱注意集中在低频段和各次谐波上,具有明显的周期性;而清音是随机的,在频谱上类似白噪声。(3)统计特征语音信号可以看作为一个随机过程的样本函数,它的统计特性可以用概率密度函数来描述。由于语音信号具有以上特征,因此我们可以把语音信号的频谱图当作源信号,所以,可以把盲源分离的模型转换为语音分离模型。2.2 语音分离的数学模型由上可知,盲信号分离是语音分离的主要方法。盲信号分离(BSS)是指源信号、传输通道特性未知的情况下,仅由观测信号和源信号的一些先验知识(如概率密度)估计出源信号各个分量的过程。所谓“盲”包含两个方面,源信号不可观测和混合系统的特性事先未知。本文讨论的盲信号语音分离算法是基于线性瞬时混合的,其基本数学模型如图2-1所示。图2-1 语音分离示意图 那么语音分离问题可以用下面的公式来表示: (2-1)其中是由个未知语音信号,构成的列向量,是由个观测向量即混合语音信号构成的列向量,为一个阶的混合矩阵,是由个白色,高斯,统计独立的噪声信号构成的列向量。式(2-1)也可以写成矩阵形式,即:在混合矩阵和源语音信号均未知的情况下,若想尽可能真实的分离出源语音信号,则可构建一个分离矩阵,那么经过分离矩阵变换后,即,其中,为输出列向量,是源语音信号的估计。2.3语音分离的研究内容对于语音信号的分离来说,一般是选择一个目标函数,根据特定的判断依据,调整某些参数如分离矩阵或者步长因子,使我们选择的目标函数最接近或者达到极值。而这个调整参数的过程,我们是可以通过迭代的方法来实现的,整个过程的细节都会直接影响语音分离结果的精确程度和稳定性能。所以语音信号盲分离要研究的内容包括对源语音信号的概率密度函数的估计,优化算法准则,选取合适的目标函数,和分离算法的评价指标等。(1)优化算法准则目前,在语音信号分离的算法中,一般都需要使得输出的语音信号的各分量间的独立性最大,所以我们研究的优化算法准则要达到这个目的。信息散度,负熵,互信息量等都可以用来衡量语音信号的独立性。(2)对源语音信号的概率密度函数进行估计语音分离的很多算法中都需要知道源语音信号的概率密度函数,但这是不可能的。因为盲信号语音分离中“盲”就是源语音信号不可观测的。所以我们只能对混合的语音信号即观测语音信号进行分析,估计出源语音信号的概率密度函数。(3)目标函数语音分离的目标就是使分离后的语音信号彼此尽量相互独立。所以,不同的语音分离效果主要体现在对目标函数的选取上面。目标函数的选择决定了算法的统计特性。一般的目标函数主要有基于极大似然估计的目标函数,基于互信息量最小化的目标函数等。 (4)语音分离的评价指标一般情况下,如果要考察一个语音分离算法的性能,可以从语音分离所需的时间、分离出语音的效果、算法的稳定性能和对资源的占用情况进行分析。2.4语音分离的研究方法2.4.1 独立分量分析盲信号语音分离的最主要的分析方法是独立分量分析(independent component analysis, ICA)方法,顾名思义,就是把信号分解成若干个相互独立的成分。ICA是属于语音分离的一种方法16。它是利用高阶统计工具和信息论的知识分析信号的统计独立性以实现语音信号的盲分离。 一、ICA的发展史ICA的发展是这样一个过程117:80年代早期,该方法由J.Herault,C.Jutter与B.Ans提出来。该问题首次出现在1982年的神经生理学框架中。在80年代中期,国际性的神经网络会议上很少有ICA呈文。但在1991年C.Jutten和J.Herault首创将人工神经网络算法用于BSS问题15,开启了一个新领域。虽然他们的学习算法没有明确指出需利用观察信号的高阶(高于二阶)统计信息16,但是其迭代计算公式已具备后来算法的雏形;1994年,P.Comon首先界定了解决BSS问题的ICA方法的基本假设条件(ICA这个名称就是由他提出的)17。他明确指出,我们应该通过让某个称为对比函数(contrast function)的目标函数达到极大值18来消除观察信号中高阶统计的关联问题,从而实现盲源分离BSS。1995年,A.J.Bell和T.J.Sejnowski发表的有关文献是ICA分析研究的热潮的起点。并且证明了ICA是一种解决BSS问题的简单、高效的算法,因而带起了一大批后续的研究工作;1996年,B.A.Pearlmutter在ICA中引入了目标函数:最大似然函数。同年,J-F.Cardoso和B.H.Laheld提出了ICA学习算法中的“等价变化”、“相对梯度”和有关稳定性17和分离精度等重要的思路和方法;1997年,D.T.Pham和P.Garat在最大似然的基础上对ICA的稳定性、学习算法、分离精度和源pdf的确定有了更深入的讨论;同年,A. Hyvrinen提出了定点算法(即FastICA算法)20;1998年,PIEEE的10号的论文集为BSS专题,其中有一篇文献对BSS领域的成果进行详细的阐述,并明确指出了进一步的发展方向;1999年第一届关于ICA的国际会议在法国举行,并成立了第一个国际性的ICA专题研究小组,获得了许多研究成果,例如关于如何确定源语音信号pdf的问题; 2000年,第二届关于ICA的国际会议在芬兰首都赫尔辛基召开,并成立了第二个专题研究小组;2001年第四界ICA的国际会议18在美国加利福尼亚州圣地亚哥市举行;2003年第四界ICA的国际会议在日本奈良举行;2004年第五界ICA的国际会议19在西班牙举行。2006年在美国南卡罗来纳州查尔斯顿市举行了第六界ICA21的国际会议。每年都有应用方面的论文和新的关于ICA的理论发表。二、ICA的约束条件(1)各个源语音信号之间是相互统计独立的。若的概率密度函数为,则源语音信号的联合概率密度函数(即矢量的pdf)为: (2-2)信号源独立的假设是比较合理的,因为只要发出信号的源语音在物理上是相互分离的13,彼此间不交换信息,那么我们就认为它们产生的源语音信号是相互独立的。(2)观测信号即混合语音的个数必须大于等于源信号的个数,即。此假设条件是为了保证混合矩阵是满秩的且逆矩阵存在。因为当MN时,为欠定混合(underdetermined mixture)情况,此时的盲语音分离的问题就变为不好解决的问题,这种情况下必须对源语音信号做出更多的假设才能分离出部分或全部源语音信号,本文不讨论这种情况。(3)最多只能允许一个源语音信号是高斯分布的。这是因为两个统计独立的高斯信号混合以后还是高斯信号15,而高斯信号分布的统计特性用均值和方差就可以确定,不涉及到高阶的统计参数,那么它们的独立性等于互不相关。由Darmois-Skitovich定理可知,任意变换(为分离矩阵,即)分离后得到的结果都不会改变高斯向量的二阶不相关,也就是说,分离后的结果总是符合统计独立性的要求的。显然,这种结果与源语音信号不可能总是一致的。因此,若服从高斯分布的源语音信号超过一个,则各源语音信号不可分。(4)各传感器引入的噪声很小,可以忽略不计。这时盲信号语音分离的模型可用式来描述。对于噪声比较大的情况,可将噪声本身也可以看做一个源信号,对它与其他“真正的”源语音的混合信号进行盲分离处理,从而使算法具有更广泛的适用范围和更强的稳健性。(5)求解ICA问题,需对各个源语音信号的pdf有一些先验知识8。例如,自然界的语音和某些音乐信号具有超高斯特性,如拉普拉斯分布,这种分布函数中心部分又窄又高,而尾部拖得很长,如图2-2中曲线所示;图像信号大多具有亚高斯特性,如均匀分布,这种分布函数中心部分较宽,尾部很短,如图中曲线所示;许多噪声则具有高斯特性,当为多个随机变量之和且变量数很多时,也趋近于高斯分布,如途中曲线所示。图2-2高斯、超高斯、亚高斯pdf2.4.2 对源语音信号的概率密度函数进行估计(1)相对熵6假设对同一个随机矢量,有两种可能的概率分布和。为了衡量这两个分布之间的差别,则我们需要定义相对熵(或称作“Kullback-Leibler距离”)。连续的相对熵定义为: (2-3)虽然和当且仅当时成立,但是相对熵并非一个真正的度量,因为在把互相交换时,我们会发现并不具有对称性。(2)负熵9在概率论中,我们知道,在中心极限定理中:一定条件下,多个独立分布的和趋于高斯分布。将这个理论应用到ICA的问题中可以得出这样的结论:若观测信号即混合语音信号是多个独立源语音信号的线性组合,那么观测信号即混合语音信号的高斯性比源语音信号的高斯性强。这就启示我们可以将非高斯性作为ICA的一个判断依据。在定义负熵之前先介绍一个定理,熵极大定理:在所有的具有相同协方差矩阵的分布中,高斯分布的熵最大。这个定理说明:在一定的条件下,我们可以找到一个分布具有最大的信息熵。而这个分布就为是高斯分布。所以我们会产生这样一个想法,如果以高斯分布作为参考标准,我们就可以用信息熵来衡量一个分布与高斯分布之间的偏离程度,即非高斯性。所以,负熵可定义为: (2-4)其中是一个与具有相同的协方差的高斯联合概率密度。由上述定理我们可以得出负熵具有这样的性质:若,当且仅当也是高斯分布时等号成立。负熵有一个重要的性质,就是对于可逆的线性变换保持不变。在ICA中,因为有了该性质,我们可以将边缘负熵作为一个代价函数,然后寻找线性变换使其最大化。因此可得出ICA算法中负熵判据的有效性。(3)互传信息量7互信息(Mutual Information,简称MI)是用来度量随机变量之间独立性的基本准则。多个随机变量之间的互信息定义为其联合概率密度函数与各边缘密度函数乘积之间的K-L散度,即: (2-5)由K-L散度的非负性可知: (2-6)由(2-4)式,我们容易看出,当中的各个语音分量相互独立时,互信息。再结合(2-6)式,我们得出了一个重要结论:当且仅当各个语音分量相互独立时等号成立。互信息可以描述为由于各个语音分量之间的相互依赖关系带来的信息的冗余。所以互信息也可以用来度量独立性。2.4.3 目标函数的选取和优化算法ICA的处理过程实际上是为了使分离出的独立分量4最大程度地逐步逼近各个源信号,即ICA的目标就是通过变换,由观测信号向量求得源信号向量。为此,我们需要设立一个目标函数,如果能使之达到极大(小)值,则即为所需解,使得与相对应。在这部分将给出相关的数学知识和从不同视角出发得到的目标函数。从以上的介绍中可以知道使整个系统的输出信号相互独立是ICA的主要目标。因此,不同的ICA算法的不同主要体现为目标函数的优化算法和独立准则的衡量。故而ICA算法可以用下式表述: ICA算法=目标函数+优化算法其中,不同的目标函数就有不同的优化算法。所以目标函数的选取很重要。而优化算法会影响ICA的收敛速度等,常见的优化算法主要有牛顿迭代法、梯度下降法等。因此,ICA算法的性能是目标函数的选择同优化算法的选择之间的结合。下面给出按照不同的目标函数所相应的分离准则给出不同的ICA算法。(1)非高斯性极大113ICA方法必须的前提条件是非高斯性的存在,如果随机变量都是高斯分布,那么ICA方法也就没有研究的必要。其实基于非高斯性极大的ICA思想来自于中心极限定理。因此,如果观测信号是多个独立源的线性组合,那么观测信号比源信号更接近高斯分布,或者说源信号的非高斯性比观测信号的非高斯性要强。我们可以根据上述对分离结果的非高斯性进行度量,当其非高斯性达到最大时,可以认为实现最佳分离。对于零均值,单位方差的随机变量,可表示为: (2-7)在现实世界中,亚高斯和超高斯信号都是普遍存在的。比如:自然景物图象大多为亚高斯信号,语音信号大都是超高斯信号,生物医学信号既有超高斯分布又有亚高斯分布。(2) 互信息最小113我们知道随机变量独立性的准则是用互信息度量的。互信息通常是非负的,但当变量相互独立时,互信息就是0。所以可以用和之间的散度来度量各分量的统计独立性。这一量也称为各分量间的互信息,并表示为,即有: (2-8)可以看到,的各分量统计独立,这三种表述是等价的。所以互信息也可以用来度量独立性。(3) 非线性不相关113由上述统计知识可知,对于统计独立的源信号,具有可分的联合概率密度函数,则若随机变量是相互独立的,则其任意阶联合矩也是可分的。假设有两个相互独立的源信号,则有: (2-9)式中和是两个非线性函数。由上式可知,若随机变量是非线性不相关的,则表示它们相互独立。因此在ICA的输出端引入非线性环节来表示输出结果的独立程度,如图2-3,分离结果的独立性可由非线性输出的协方差矩阵来表示。显然,若输出向量的各分量是相互独立的,则其协方差矩阵和输出的都是对角矩阵,它的也是对角矩阵。图2-3 带有非线性环节的分离模型分离结果独立性的可用非线性不相关度量。差别在于选择的非线性函数的不同,但本质上都是利用了随机变量的高阶统计特性来进行盲信号语音分离,以实现最佳的分离结果。2.4.4 语音分离的评价指标 (1)串音误差为了以后查看实验结果21,本文在此处引入一个分离算法分离效果的检验方法。定义了一个混合-分离矩阵C,使混合-分离矩阵是一个广义排列矩阵即可。然而时间上盲分离算法只能使混合-分离矩阵尽量接近一个广义排列矩阵。所以,可以利用混合-分离矩阵和广义排列矩阵之间的差别作为分离效果的评价指标是一个好办法。所以定义串音误差ECT: (2-10)其中,为矩阵的第行第列的元素。的下界为0。如果越小,则分离的效果越根据公式2-10,计算出混合-分离矩阵与广义排列矩阵的差别输出串音误差ECT定义一个混合-分离矩阵C,使其满足C=WQA好。下图2-4为ECT的流程图。图2-4 ECT的流程图(2)信噪比(Signal Noise Ratio , SNR)最直观的一种评价语音分离性能的方法就是计算分离后的语音信号的信噪比,即分离后的语音信号和源语音信号的差别。一般来说,分离后的信噪比越高说明算法的分离性能越好,否则相反。其计算公式如下: (2-11)式中是源语音信号,是对源语音信号的估计信号。2.4.5 ICA数据的预处理 通常为了让混合后的语音信号,即观测信号更好的符合ICA的基本假设条件,我们要对观测信号即混合语音信号进行适当的预处理。预处理方法通常有中心化、白化和滤波器处理等等,中心化和白化也统称标准化。(1)中心化(centering) 中心化是对混合后的语音信号即观测信号去均值。设观测矢量为,而的均值为:,中心化则为:。中心化后的源语音信号也是零均值向量。(2)白化处理(whitening)白化处理是ICA算法中一个经常用到的预处理方法,对于某些ICA算法,白化还是一个必须的预处理过程。众所周知,不相关是独立的必要条件,而不是充分条件。相互独立的源信号肯定是不相关的,若使独立源的能量进行归一化处理, 相当于源信号的自协方差矩阵是单位矩阵: (2-12)当源语音信号均值为零时,独立源语音信号的自协方差矩阵等于自相关函数矩阵。将满足式(2-12)的源语音信号称为空域白化信号(或简称白化信号)。可以看出,白化信号既要求能量归一化又要求不相关,即归一化的不相关。对任意多维混合语音信号加一个线性变换,使其变为白化信号的处理过程叫做归一化解相关或白化处理,则相应的变换矩阵为白化矩阵。若为混合语音信号即观测信号的白化矩阵,则: (2-13)是经过白化后的混合语音信号,于是有。再将代入式(2-13)并令(为全局混合矩阵),得: (2-14)由于线性变换所连接的和是两个随机向量,则矩阵一定是正交矩阵,如果把看作新的观测信号即混合语音信号,那么白化就是使原来的混合矩阵转化成一个新的正交矩阵 ,类似地,若分离矩阵针对的是白化后的混合语音信号,分离输出满足时,有: (2-15)式(2-15)表明,数据经过白化后的盲信号语音分离,其分离矩阵必然为正交矩阵。 对于多维信号来说,白化后的混合矩阵是阶正交矩阵,其自由度降为,因此白化使得ICA问题的工作量几乎减少了一半。白化处理这种常规方法作为ICA盲信号语音分离的预处理可以有效的降低问题的复杂程度,但值得注意的是,某些ICA算法不需要白化预处理,因为白化过程已经包含在语音分离算法自身当中,可以直接经过迭代估计出分离矩阵。进行白化处理的另一种方法就是迭代,因为白化的目的是寻找一个白化矩阵使得变换以后的矢量相关矩阵是单位阵,因此令 ,通过下式的迭代,不断调整矩阵的各个元素值,逐步缩小的相关矩阵和单位矩阵之间的“距离”。迭代方法如下: (2-16)其中是学习系数,可以是适当的常数,也可以是随时间变化的参数。对独立源信号做能量归一化处理独立源信号各分量间不相关使全局混合矩阵为正交矩阵根据公式2-16,对观测信号进行白化处理可以看出,当式(2-16)的迭代算法收敛以后,将有:,即,则实现了对于混合信号的预白化。白化的流程如下图2-5所示:图2-5 白化处理的流程图2.5盲信号语音分离的主要流程从上几节的内容可知,盲信号语音分离的主要流程主要可分为一下几部:(1)输入一个混合后的语音信号并对其进行预处理;(2)确定一个优化算法准则来衡量语音信号的独立性;(3)根据上面的准则和混合后的语音信号,对源语音信号的概率密度函数进行估计;(4)选择一个目标函数;(5)结合目标函数和对源语音信号概率密度函数的估计,对混合后的语音信号进行分离;(6)把分离后的语音信号和源语音信号进行对比,看分离效果是否合理。具体流程如2-6图所示:输入一个混合后的语音信号并对其进行预处理确定一个优化算法准则来衡量语音信号的独立性根据上面的准则和混合后的语音信号,对源语音信号的概率密度函数进行估计选择一个目标函数结合目标函数和对源语音信号概率密度函数的估计,对混合后的语音信号进行分离把分离后的语音信号和源语音信号进行对比,看分离效果是否合理图2-6 盲信号语音分离的流程图2.6 本章小结在这一章中我们首先介绍了语音信号的特征,然后介绍了语音信号的分离模型即盲信号分离的模型。然后详细讲述了盲信号语音分离的研究内容和研究方法。包括最基础的独立分量分析方法,优化算法的准则,对源语音信号的概率密度函数的估计,目标函数的选取和优化算法、分离性能指标和对混合语音信号的预处理。明确的说明了要进行语音信号分离的流程。3 盲信号语音分离的详细设计3.1 传统的EASI算法分析ICA算法是在没有任何约束条件下得到的,它只能保证是收敛的,并不能保证是正交的。但是我们希望最后得到的分离矩阵是正交的,因此,在1996年,cardoso和Laheld提出了著名的基于独立分量分析思想的自适应20盲分离算法EASI。如下图3-1所示,为EASI算法模型。图3-1 EASI算法模型3.1.1 EASI算法 假设信号源和观测信号的均值已经进行了中心化处理,且观测信号也经过了白化处理,因为,所以只要考虑正交矩阵就好,此时,则: (3-1)因为假设数据经过了白化处理,那么分离矩阵的自然梯度算法为: (3-2)因为在每一步迭代中,分离矩阵近似正交,所以有,则上面的算法简化为下列形式: (3-3)实际上由于是倾斜对称的,白化处理可以与信号的分离同时进行。如此,这样的算法就成为EASI(Equivariant Adaptive Separation based ICA)算法。其公式为: (3-4)在实际语音信号盲分离中,还有批处理的方法,这时就不用瞬时值而是通过时间的平均值来实现分离。3.1.2 算法的流程通过前面的分析,我们得到了EASI算法,而下面我们从另一个角度来分析EASI算法。 假设所有源信号都是零均值,方差为1的随机变量,即源信号的自相关矩阵是单位矩阵:设Q为白化矩阵,则有: (3-5) 其中,。当观测信号被白化以后,有,所以对下面的代价函数进行优化就可以实现混合信号的白化: (3-6)显然,当且仅当时有。再由前面信息论知识以及输出信号互信息最小化可知,因为为正交矩阵,所以可知: (3-7)一般初始化,有: (3-8)同时要保证观测信号是白化的,则要加一个约束条件,根据之前介绍的白化方法,有下式: (3-9)上式两端同乘,则也可得式(3-4)。EASI算法可以简化成下图3-2的流程:使源语音信号经过混合后得到观测信号,即为混合语音信号读取源语音信号对混合语音信号进行白化处理提取固定步长因子建立系统矩阵(混合-白化-分离矩阵)C,并对其进行初始化根据系统矩阵C与分离矩阵W的关系,估计出分离矩阵W根据串音误差公式计算出ECT最终得到分离后的语音信号,即最后使得混合的源信号分离出来图3-2 EASI算法流程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论