(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf_第1页
(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf_第2页
(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf_第3页
(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf_第4页
(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(信号与信息处理专业论文)基于盲源分离的单通道语音增强算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于盲源分离的单通道语音增强算法研究 由。 摘要 实际的通信过程中,语音常常会受到周围环境噪声的干扰,进而影响 语音信号的传输质量,而语音信号质量的降低会进一步影响后续信号处理 系统的性能,甚至造成更严重的后果。因此,就需要对接收到的含躁语音 信号进行增强,有效地抑制环境噪声,提高语音信号的质量。盲源分离作 为现代信号处理的一个热点研究课题,在语音增强领域具有牢固的理论基 础与广阔的应用前景。本文针对盲源分离算法中观测信号数目不少于独立 源信号数目的前提假设,在前人的工作基础上,对盲源分离在单通道语音 增强中的应用方法进行了研究,从而可以由单路含噪语音信号恢复出尽可 能纯净的原始语音信号。 为了解决传统盲源分离算法难以直接应用于单通道语音增强的问题, 提出了一种利用奇异谱分析获得另外一路虚拟观测信号的方法,然后利用 基于时域预测和小波变换相结合的盲源分离改进算法进行分离,得到增强 的语音信号,有效地提高了含噪语音信号的信噪比和听觉感知度。 由于在原含噪信号基础上构造虚拟观测信号会对两路观测信号相互之 间的独立性产生一定影响,于是通过对含噪语音信号进行b a r k 尺度小波包 分解来提供i c a 变换所需要的二维输入,然后选取合适的阈值函数,采用 阈值化方法对原有算法进行改进,大大降低了算法的复杂度,取得良好的 语音增强效果。 另外,还研究了在噪声估计基础上采用盲源分离算法实现单通道语音 增强的原理,提出一种基于短时谱更新的噪声动态估计算法,根据噪声在 含噪语音信号中所占的比重,动态地调整噪声短时谱的估计系数,从而更 好地估计出含噪语音信号中所包含的噪声,并将其作为信息最大化语音盲 。奎曼里三奎堂堡主堡窒生兰垡垒垄 一 源分离改进算法的另外一路观测信号输入,实现纯净语音与噪声信号的盲 源分离。实验证明,该算法能够有效地消除高斯白噪声和有色噪声,实现 语音增强。 关键词:盲源分离,语音增强,独立分量分析,奇异谱分析,噪声估计 太原理工大学硕士研究生学位论文 s l n g l ec h a n n e ls p e e c he n h a n c e m e n ta l g o r i t h mb a s e do n b u n ds o u r c es e p a r a t l 0 n a b s t r a c t i nt h ea c t u a lp r o c e s so fc o m m u n i c a t i o n ,v o i c ei so f t e nd i s t u r b e db ya m b i e n t n o i s e ,t h e r e b ya f f e c t i n gt h et r a n s m i s s i o nq u a l i t yo fv o i c es i g n a l r 、e d u c t i o no f t h ev o i c es i g n a lq u a l i t yw i l lf u r t h e ra f f e c tt h ep e r f o r m a n c eo ft h es u b s e q u e n t s i g n a lp r o c e s s i n gs y s t e m ,o r e v e nr e s u l ti nm o r e s e r i o u s c o n s e q u e n c e s t h e r e f o r e ,t h er e c e i v e dn o i s ys p e e c hs i g n a ln e e d st ob ee n h a n c e dt oe f f e c t i v e l y s u p p r e s sa m b i e n tn o i s e ,i m p r o v et h eq u a l i t yo fv o i c es i g n a l b l i n ds o u r c e s e p a r a t i o n ,a sah o tr e s e a r c ht o p i co fm o d e ms i g n a lp r o c e s s i n g jh a sas o l i d t h e o r e t i c a lf o u n d a t i o na n db r o a da p p l i c a t i o np r o s p e c t si nt h ef i e l do fs p e e c h e n h a n c e m e n t d u et ot h ea s s u m p t i o nt h a tt h e :n u m b e ro f o b s e r v e ds i g n a l si sn o t l e s st h a nt h a to fi n d e p e n d e n ts o u r c es i g n a l si nb l i n ds o u r c es e p a r a t i o na l g o r i t h m , t h ea p p l i c a t i o no fb l i n ds o u r c es e p a r a t i o ni ns i n g l e - c h a n n e ls p e e c he n h a n c e m e n t i ss t u d i e do nt h eb a s i so fp r e v i o u sw o r ki nt h i s p a p e r , t h u sc a nr e s t o r et h ep u r e o r i g i n a ls p e e c h a sf a ra sp o s s i b l ef r o mt h en o i s ys p e e c h i no r d e rt os o l v et h ep r o b l e mt h a tt h et r a d i t i o n a lb l i n ds o u r c es e p a r a t i o n a l g o r i t h mc a nn o tb ed i r e c t l ya p p l i e dt os i n g l ec h a n n e ts p e e c he n h a n c e m e n t , p r o p o s ea m e t h o dt oo b t a i na n o t h e rw a yo fv i r t u a lo b s e r v e ds i g n a lu s i n gs i n g u l a r s p e c t r u ma n a l y s i s t h e nu s ei m p r o v e da l g o r i t h mw i t hc o m b i n a t i o no ft e m p o r a l p r e d i c t a b i l i t ya n dw a v e l e tt r a n s f o r mf o rs e p a r a t i o n ,e f f e c t i v e l yi m p r o v i n gt h e s i g n a lt on o i s er a t i oa n da u d i t o r yp e r c e p t i o no ft h ee n h a n c e dv o i c es i g n a l 、 t h ec o n s t r u c t e dv i r t u a lo b s e r v e ds i g n a lo nt h eb a s i so ft h eo r i g i n a ln o i s y s i g n a lw i l la f f e c tt h ei n d e p e n d e n c eb e t w e e nt h et w oo b s e r v e ds i g n a l s s o p r o v i d e t h et w o d i m e n s i o n a li n p u to fi c at r a n s f o r mb yb a r k s c a l ew a v e l e t p a c k e td e c o m p o s i t i o no fn o i s ys p e e c h ,t h e ns e l e c tt h ea p p r o p r i a t et h r e s h o l d 太原理工大学硕士研究生学位论文 f u n c t i o n ,a n di m p r o v et h eo l da l g o r i t h mu s i n gt h et h r e s h o l dm e t h o d ,g r e a t l y r e d u c i n gt h ec o m p l e x i t yo f t h ea l g o r i t h m ,a n da c h i e v i n gg o o de f f e c to fe n h a n c e d v o i c e i na d d i t i o n ,t h i sp a p e rs t u d i e st h ep r i n c i p l eo fs i n g l ec h a n n e ls p e e c h e n h a n c e m e n tb a s e do nn o i s ee s t i m a t i o na n db l i n ds o u r c e s e p a r a t i o n ,t h e n p r o p o s e ad y n a m i ce s t i m a t i o n a l g o r i t h mo fn o i s eb a s e do nt h eu p d a t eo f s h o r t - t e r mn o i s es p e c m u n a c c o r d i n gt ot h ep r o p o r t i o no fn o i s ei nt h en o i s y s p e e c hs i g n a lt od y n a m i c a l l ya d j u s tt h ee s t i m a t e dc o e f f i c i e n to ft h es h o r t - t e r m n o i s es p e c t r u m ,i no r d e rt ob e t t e re s t i m a t et h en o i s ei nt h en o i s ys p e e c h t a k e t h ee s t i m a t e dn o i s es i g n a la sa n o t h e rw a yo b s e r v e ds i g n a li n p u to ft h ei m p r o v e d a l g o r i t h mb a s e do ni n f o r m a t i o nm a x i m u m ,t oa c h i e v et h eb l i n ds e p a r a t i o no f p u r ev o i c ea n dn o i s es i g n a l s e x p e r i m e n t ss h o w t h a tt h ep r o p o s e da l g o r i t h mc a i l e f f e c t i v e l ye l i m i n a t et h ew h i t eg a u s s i a nn o i s ea n dc o l o r e dn o i s e ,a n do b t a i n e n h a n c e ds p e e c hs i g n a l k e yw o r d s :b l i n ds o u r c es e p a r a t i o n ,s p e e c he n h a n c e m e n t ,i n d e p e n d e n t c o m p o n e n ta n a l y s i s ,s i n g u l a rs p e c t r u ma n a l y s i s ,n o i s ee s t i m a t e i v 太原理工大学硕士研究生学位论文 1 i 研究背景及意义 第一章绪论 语音信号是人类相互之间进行信息交换和情感交流的重要媒介,是信息的载体,也 是人类社会最基本、最高效、最便捷的通信手段。随着科技的飞速进步,为了使语音这 种表达方法在人类生活的各个领域得到更广泛的应用,语音信号处理技术便应运而生。 , 语音信号处理作为现代通信系统、人工智能、多媒体技术等新兴领域的一种核心应 用技术,其组成部分主要包括:语音编码、语音增强、语音识别以及语音合成等。人们 在采用语音信号作为通信方式进行交流的实际过程中,常常会受到周围环境噪声的干 扰,这些干扰是无法避免的,主要有背景噪声、设备自身的噪声、传输媒介中的噪声及 周围讲话人的干扰等。诸如上述等噪声的干扰将会影响语音信号的传输质量,导致接收 端获得的最终信号并不是原始的纯净语音信号,而是被各种噪声污染后的含噪语音信 号,甚至更严重时干扰噪声会将有用语音信号全部淹没,几乎无法分辨。而语音信号质 量的降低会进一步影响后续信号处理系统的性能,从而造成更严重的后果。此时,就需 要对接收到的含噪语音信号进行预处理,有效地提高语音信号的质量,减少噪声的恶性 影响,改善处理系统的性能,于是,语音增强技术便发挥着举足轻重的作用。语音增强 就是一种将含噪语音信号中所包含的干扰噪声去除,最终提取出尽可能纯净的原始语音 , 信号的技术。对接收者来说,语音增强的主要目的是提高语音的质量,增加信号的可懂 度,减少听觉疲劳感;对语音信号处理系统( 如:手机、识别器等) 来说,主要目的是 提高系统识别率,增强其抗干扰能力【1 1 。 盲源分离( b l i n ds o u r c es e p a r a t i o n ,b s s ) 2 1 1 3 网技术作为信号处理领域的新理论, 是目前较为流行的一种对多通道信源进行分离的方法【5 】,由于其算法不需要任何已知的 关于被测信号的先验知识,因此在诸多领域都具有十分广阔的应用前景,包括语音增强 系统同。采用盲源分离技术对含噪语音信号进行增强的基本思想如下:含噪语音信号可 以看成是将彼此相互独立的纯净语音信号和噪声信号进行线性叠加而产生,然后通过盲 源分离算法对混合信号进行分离,达到将纯净语音和噪声分离开来的目的,进而实现语 音增强。独立分量分析( i n d e p e n d e n tc o m p o n e n t a n a l y s i s ,i c a ) 是目前盲源分离技术中 最常用的一种重要方法,但是由于其只适用于对完备或者超定信号进行分离,所以,无 太原理工大学硕士研究生学位论文 法采用i c a 方法直接实现单路混合信号的分离。而实际中,通常获取的观测信号只有一 路,因此,对于单通道的含噪语音信号来说,要采用盲源分离技术实现语音信号增强便 具有重要的实际应用意义。 1 2 语音增强研究综述 目前,大多数语音信号处理系统在性能上都亟待优化和提高,以满足实际应用中语 音信号处理技术需求的增多,而语音增强技术作为改善系统性能的关键技术之一,由于 其广阔的应用前景,使得寻求一种抗噪效果良好的有效算法具有深刻的意义。而现实环 境中的噪声通常具有随机性,因此想要将含噪语音信号中的噪声完全去除,提取出完全 纯净的原始语音几乎是不可能的。基于此,语音增强的主要目的有两个:一是改善语音 信号的质量,去除环境噪声,从而降低接收者的听觉疲劳感,属于主观度量范畴;二是 增加语音信号的可懂度,使接收者便于理解,属于客观度量范畴。而此二者往往不可兼 得,有时候甚至会为了追求其中之一而牺牲另外一个。由此可见,语音增强技术不单是 数字信号处理领域的问题,还涉及到人类的语音学和心理学等领域,是一种非常复杂的 应用技术。 、 对于语音增强技术的研究早在2 0 世纪6 0 年代就已经引起各学界学者的广泛关注, 至今已有几十年的发展历史,至2 0 世纪7 0 年代,许多基础研究成果的取得将其发展推 向高潮,语音增强技术由此成了语音信号处理领域里一个极其重要的组成部分。 1 9 7 8 年,l i m 提出了维纳滤波法来抑制噪声; 1 9 7 9 年,b o l l 提出谱减法来实现语音增强; 1 9 8 0 年,m 砌a y 提出了语音增强的软判决方法; 1 9 8 4 年,e p h r a i m 提出了m m s e 短时谱幅度估计的方法来消除噪声; 1 9 8 7 年,p a l i w a l 应用卡尔曼滤波实现语音增强; 1 9 9 5 年,e p h r a i m 提出了语音增强的子空间算法。 近年来,随着数字信号处理( d i g i t a ls i g n a lp r o c e s s i n g ,d s p ) 和超大规模集成电路 ( v e r yl a r g es c a l ei n t e g r a t i o n ,v l s i ) 技术的高速发展,使得语音增强技术的实时实现 变成可能【7 】。相继涌现的各种语音增强新方法,将语音增强技术逐渐推向实用。例如: 基于小波变换【8 】【9 】、人耳掩蔽效应【1 0 1 以及麦克风阵列的语音增强方法等,这些方法已经 成为目前语音增强方法研究的主流,受到人们的广泛重视。近年来,盲源分离技术作为 数字信号处理领域的新兴热点研究课题之一,以其坚实的理论基础和广阔的应用前景, 2 太原理工大学硕士研究生学位论文 在语音增强方面得到了重要的应用和广泛的关注。 1 3 盲源分离技术的应用现状 盲源分离技术作为2 0 世纪末在统计学和神经网络理论基础上快速发展起来的一种 新型技术,目前已经成为神经网络和信号处理领域共同关注的热点研究课题之一,在语 音信号处理、现代通信系统、远程传感、生物医学工程等领域都有着非常重要的理论价 值以及诱人的应用前景【1 l 】。 在信号处理研究领域,大家常常会遇见这样的问题,采集到的观测信号只是来自传 , , 感器的输出结果,而对于最初的输入信号和传输系统并不了解,因此就要求从一组由未 知输入信号随机混合而得到的观测信号里面将各个独立源信号分离开来,进而恢复出原 始的信号,并且在整个分离的过程中不需要任何关于独立源信号以及混合系统模型的先 一 一 验知识,那么这个过程就归结为信号的“盲源分离”【1 2 1 。因为盲源分离技术的处理过程 不需要关于信源和信道的先验信息,使得其在语音增强中具有很大的应用价值。 近年来发表的许多解决信号盲源分离问题的文章,大致可以分为两部分:一是对实 时混合信号实现盲源分离;二是对卷积混合信号实现盲源分离。其中,对于瞬时混合信 号的盲源分离问题理论研究比较深入,发展也较为完善;富于挑战的是关于卷积混合的 情况。但是,目前所有的盲源分离算法关于原始输入信号和信道传输模型都进行了特定 , 的条件假设,而这些假设和现实的应用环境里信号的实际特点以及信道的具体特征是有 很大区别的,从而在一定程度上影响到算法的实用性。因此,需要在信号模型的限定条 件尽可能宽松的情况下来发展新的算法。目前,关于观测信号数目少于独立源信号数目 的盲源分离问题的解决已经成为研究的热点课题之一,这也正是解决单通道语音增强问 题的关键所在。 2 0 0 1 年,t o m a s z 等提出了一种将计算听觉场景分析( c o m p u t a t i o n a l a u d i t o r ys c e n e _ a n a l y s i s ,c a s a ) 和b s s - 技术通过带通预处理相结合的方法,能在鸡尾酒会场景下分 离出最重要说话者的内容,从而实现语音增强【1 3 ; 2 0 0 2 年,彭煊等提出先对含噪语音信号进行f2 插值,再进行42 抽取,人为获得 两路观测信号,再通过i c a 方法有效抑制噪芦1 4 】; 2 0 0 4 年,焦卫东等通过引入虚拟噪声分量,将一路含噪观测信号转换成多路虚拟观 测信号,然后利用高阶累积量对其进行盲源分离,恢复源信号,有效地消除噪声【1 5 】; 2 0 0 4 年,l i a n gh o n g 等利用语音信号的稀疏性提出一种独立分量分析领域的基于 3 太原理工大学硕士研究生学位论文 贝叶斯准则的单通道语音增强算法,在i c a 域对语音信号系数进行最大后验估计,进一 步得到时域增强的语音信号; 2 0 0 5 年,周成等利用类似频谱减法,通过改变混合系数巧妙地构造出另一路观测信 号,从而对其采用独立分量分析,达到增强的目的【1 7 】; 2 0 0 6 年,马建芬等由单路混合观测语音信号中的含噪声部分构建出一个假想的噪声 源,与原始含噪语音信号一起作为输入信号进行盲源分离,从而得到增强的信号; 2 0 0 7 年,李鸿燕等对单路语音信号采用短时综合叠接相加法进行处理,获得一路虚 拟噪声信号,将其作为独立分量分析算法的另外一路观测信号输入,实现语音增强【1 9 】; 一 2 0 0 8 年,李蕴华采用谱减法将含噪语音信号部分去噪,得到i c a 的一路观测信号 和噪声的估计值,然后将原始含噪语音和此噪声估计值重新加权组合,作为第二路虚拟 的观测信号,最终实现语音信号和噪声的分离口o 】; 2 0 1 0 年,高留洋等根据语音信号经过i c a 变换后服从拉普拉斯分布的特性,运用 最大后验概率方法估计,得到时域的纯净语音信号【2 l 】。 由于盲源分离算法只适用于分离完备信号,因此在单通道语音增强的应用中,首先 需要解决的便是观测信号的数目问题。以上算法的研究着重于由已知的单路混合观测信 号生成另外一路虚拟的观测信号,这样就会导致两路观测信号之间的相互独立性大打折 扣,进而影响最终的增强效果。另外,现有算法大都在白噪声条件假设下进行研究和实 验,针对有色噪声的增强算法也有待进一步研究与实现。 1 4 论文研究内容与结构安排 本文基于国内外研究现状,在对前人工作进行回顾总结的基础上,主要研究了采用 盲源分离算法对单通道含噪语音信号实现语音增强的问题,对现有的算法进行了改进, 继而提出了新的算法,并且通过相应的仿真实验,证明了这些算法的有效性。 本文研究工作的主要创新点归纳如下: 1 提出了采用奇异谱分析分解方法构造出另外一路虚拟观测信号,利用改进的时 域预测盲源分离算法进行分离,得到增强后的语音信号,有效地提高了含噪语音信号的 信噪比和听觉感知度; 2 对独立分量域的基于贝叶斯准则的单通道语音增强算法进行了改进,通过选取 合适的阈值函数代替最大后验概率估计过程,大大降低了算法的复杂度,并且增强后的 语音信号具有较小的失真; 4 太原理工大学硕士研究生学位论文 3 提出了一种噪声估计的新算法,根据噪声在含噪语音信号中所占的比重,动态 地调整噪声短时谱的估计系数,提高估计噪声的准确性,采用改进的信息最大化盲源分 离算法,有效地消除高斯白噪声以及有色噪声,实现语音增强。 全文的内容结构安排如下: 第一章首先阐述了选题的背景及意义,简要概括了语音增强的发展历史和研究热 点,综述了国内外关于盲源分离技术在语音增强领域的应用背景和研究现状,总结了本 论文的内容创新点并列出了文章的结构安排; 第二章简要介绍了本文后续章节中所需要的一些基本理论。主要包括系统模型、 语音和噪声信号特性、语音增强质量评价方法以及语音增强中常用的几种分析方法; 第三章介绍了奇异谱分析的基本理论,提出了奇异谱分析与盲源分离相结合的单 通道语音增强算法,最后通过完整的实验仿真对该算法的性能进行了分析; 第四章研究了独立分量域语音增强方法的基本原理,介绍了阈值函数的选取准则, 采用阈值化方法对原有算法进行改进,实现语音增强,并且通过相应的仿真实验对算法 效果进行评价和对比: 第五章介绍了两种经典的噪声估计算法,提出一种新的基于短时谱更新的噪声动 态估计算法,采用改进的信息最大化盲源分离算法,有效地实现了高斯白噪声以及有色 噪声背景下的语音信号增强,最后给出实验结果分析及对比; 第六章总结了本论文的研究工作以及取得的结论成果,并对该课题以后的研究方 向进行了讨论和展望。 太原理工大学硕士研究生学位论文 二- - 二= = 6 太原理工大学硕士研究生学位论文 第二章语音增强的基本理论 2 1 语音增强基础知识 2 1 1 语音信号数字模型 语音信号数字模型的建立就是为了使计算机能够更好地模拟和处理语音信号而寻 找一种能够描述量与量之间在特定物理状态下的数学表示的过程。语音信号的数字模型 作为对语音信号进行处理的基础,其建立以人类发声器官特征和语音产生机理为理论基 础。 图2 1 描述了人类的发声机理。人的发声系统包括三个部分:肺、喉和声道。在语 音的产生过程中,肺将气流输送到喉部,起一个动力源的作用;喉再将送来的气流调制 为声源激励信号送入声道中;声源信号频谱经声道中口腔、鼻腔以及咽腔整形,形成不 同的音色;最后由嘴唇产生气压变化而形成声波,语音便由此产生了。 图2 - 1 语音产生机理图解 f i g 2 1d i a g r a mo f s p e e c hg e n e r a t i o nm e c h a n i s m 基于上述理论建立语音信号在离散时域下的生成模型如图2 2 所示,在此模型中, 将语音信号看作在随机噪声或者周期脉冲序列的激励下线性时变系统的输出。 道声 喉 肺 、,lrj、lr-、,-、 盛献 丑黼 太原理工大学硕士研究生学位论文 基音 频率 声道 参数 清、浊音 开关 图2 - 2 语音信号产生模型 f i g 2 - 2s p e e c hs i g n a lg e n e r a t i o nm o d e l 由上图,语音信号数字模型主要包括如下三个基本组成部分: 1 激励模型 包括清音激励与浊音激励。清音和浊音的判断取决于清音浊音开关的具体位置。 清音激励源信号通常产生于随机噪声发生器,其激励模型可表示为 叭z ) = a( 2 - 1 ) 浊音激励源信号则产生于周期性脉冲发生器,其激励模型可表示为 一= a v g 酢) = 啬瓦旨 ( 2 _ 2 ) 虽然以上的激励模型分类情况不够全面,但由于其方法简单且性能优越,因而仍然 得到广泛的采用。 2 声道模型 共振峰模型是目前最常用的声道模型。通常人的声道长度大概是1 7 c m ,于是可计算 出5 个共振峰分别在5 0 0 h z 、1 5 0 0 h z 、2 5 0 0 h z 、3 5 0 0 h z 、4 5 0 0 h z 附近【1 】o 每一个共振峰 对应着声道模型所描述的系统传输函数的一个极值点,则声道模型可用下式来表示: v ( z ) = 可l( 2 3 ) 1 一e a k z 一。 3 辐射模型 辐射阻抗就是嘴唇产生的速度波与人们所感知的语音的声压波之比。其数学表达式 描述如下: 太原理工大学硕士研究生学位论文 r ( z ) = g o ( 1 - z q ) ( 2 - 4 ) 在此语音信号生成模型中,激励源和声道模型的参数均是随着时间变化的,而这些 参数的变化速率因为发声器官自身的惯性而受到限制。通常在1 0 3 0 m s 的短时间间隔里, 声道参数可以近似地看作是保持不变的。上述的离散时域模型也可以叫做“激励源滤 波器”模型,也就是说在较短时间间隔里,语音信号可看作由激励源信号和系统传输函 数h ( z ) 组成的线性系统产生的输出。而h ( z ) 即为上述三个模型的串联。 2 1 2 语音增强系统 用以改善语音信号质量的语音增强系统的原理框图如图2 3 所示。 背景语音传输噪声 图2 - 3 语音增强系统实现原理框图 f i g 2 - 3p r i n c i p l ed i a g r a mo fs p e e c he n h a n c e m e n ts y s t e m 通常获取的含噪语音信号的数学模型可表示为 + 。 。 x ( n ) = s ( 刀) + d ( 拧)( 2 - 5 ) 其中,s ( n ) 表示纯净的语音信号,d ( ,z ) 表示语音中的干扰噪声信号。 在一般的研究工作中,还需要进行如下假设: 1 干扰噪声信号具有局部平稳性,可通过语音开始之前的纯噪声部分对含噪语音 信号中包含的噪声信号的特性进行估计; 2 语音信号与噪声是统计独立或者互不相关的; 3 在整个过程中可以利用的只有含噪语音信号,没有其它任何参考信号。 2 1 3 语音和噪声特性 语音增强方法的研究不仅与信号处理技术密切相关,并且还涉及到人类语音学、心 理学以及语音信号的相关特性。除此之外,由于干扰噪声的来源众多,各种噪声信号的 9 太原理工大学硕士研究生学位论文 特性也随应用场合的不同存在很大差异,因此很难找到一种语音增强算法能够适合于所 有的噪声情况。 1 语音特性圈 ( 1 ) 语音是一个具有时变性和非平稳性的随机过程。 人类发声时,其声带及声道的形状在短时间间隔里是保持相对稳定的,因此其特征 在此时间间隔里也可看作是基本不变的,这就是语音增强中常常利用到的语音信号的短 时平稳性。 ( 2 ) 语音信号主要有清音与浊音两部分组成。 清音信号和浊音信号不论在时域还是频域都有着明显的区别。清音类似于白噪声, 在时域或频域里均没有明显特征。而浊音的时域特征表现为显著的周期特性;其频域能 量多集中于低频区域,且呈现出共振峰结构。 ( 3 ) 语音可通过其统计特性进行描述。 语音信号作为一种时变的随机过程,具有非平稳性和非遍历性,长时间的时域统计 分析特性对于语音增强算法的研究没有太大意义。 2 噪声特性】 实际环境中,噪声每时每处都在,其特性也变化万千。语音信号中所包含的噪声通 常包括加性噪声和非加性噪声两大类。而大多数非加性噪声通常能够通过各种变换( 如: 同态变换) 转化成加性噪声的情况再进行处理,因此本文的研究工作主要针对加性噪声 的情况。加性噪声一般可以分为:宽带噪声、周期性噪声、冲激性噪声以及同二声道内 其他语音信号的干扰等。 ( 1 ) 宽带噪声 宽带噪声来源众多,诸如呼吸噪声、风声以及其他随机噪声源发出的噪声等,实际 应用中通常假定为高斯噪声或者白噪声。由于宽带噪声的频谱存在于整个语音信号的频 谱之中,因而大大增加了其消除的难度。尤其是宽带噪声为非平稳的情况下,处理起来 更为复杂。目前一般采用特定的非线性处理方法对其进行消除。 ( 2 ) 周期性噪声 周期性噪声通常是指周期运转的设备( 如:风扇、发动机等) 所发出的噪声以及其 它电气干扰,主要特点呈现为频谱图里一系列离散的窄谱峰。由于周期性噪声可以通过 其功率谱发现并采用陷波器的方法来去除,因此引起的问题最少。 ( 3 ) 冲激性噪声 1 0 太原理工大学硕士研究生学位论文 冲激性噪声通常是由放电引起的,在时域波形中表现为突然出现的窄脉冲。冲激性 噪声通常可以通过阈值化方法进行滤除,若干扰脉冲之间不是特别紧密,也可采用内插 法来消除。 ( 4 ) 语音干扰 干扰语音与有用语音同时在一个信道里进行传输而产生的对有用语音信号的干扰 称之为语音干扰,可根据有用语音与干扰语音之间的基音差别来对它们进行区分,然后 通过梳状滤波器对其基音以及各次谐波进行提取,进而得到有用语音的恢复信号。 2 2 语音增强质量评价 对于语音信号质量进行评价主要包括以下两方面内容:清晰度和可懂度。前者用来 对组成语音的各个字、词的清晰程度进行衡量;后者则是对说话人的辨别水平。多年来, 经过人们的不懈努力,已经研究出多种评价方法用来有效地衡量各种语音增强方法抑制 噪声的能力。总体上可将这些方法分为两大类:一类是主观评价方法;另一类是客观评 价方法。 2 2 1 主观评价方法 主观评价方法是以人作为主体对语音增强质量进行评价的_ 个重要标准。这类方法 由于符合人类对语音的听觉感知而得到广泛的应用。而其缺点有:既浪费时间又浪费精 力,稳定性和可重复性均易受到人类主观影响而大大降低等。常用的测试方法包括t 平 均意见得分( m e a no p i n i o ns c o r e ,简称m o s 分) 、判断韵字测试( d i a g n o s t i cr h y m et e s t , 简称d r t 分) 等。 一 1 平均意见得分( m o s 分) 此方法的具体操作过程为:召集实验者对语音进行主观测听,并对语音质量的等级 进行评分,然后计算出全部实验者的得分平均值即为该语音质量评价的m o s 分。m o s 分将增强后语音信号的质量分成5 ( 优) 、4 ( 良) 、3 ( 中) 、2 ( 差) 、以及1 ( 坏) 五个 级别。 由于各种主观及客观原因,m o s 分的测试结果会有一些波动,除了要求参加测试 的实验者和被测语音材料要足够以外,还需要保持测试环境的一致性。 表2 1 给出了m o s 分的具体判断标准。 太原理工大学硕士研究生学位论文 表2 1m o s 判分标准 t l b l e2 1s e o r es t a n d a r do f m o s m o s 分 质量级别失真级别 5 优觉察不到 4 良稍有觉察但无不适 3 中有觉察且有不适感 2 差明显觉察尚可忍受 1 坏 无法忍受 其中,“优”表示增强后的语音和原始语音只存在极少量的细节差异,且这种差异 不易被人所察觉;“良”表示增强后的语音有不明显的畸变或者失真,倘若不注意听则 意识不到;“中”表示增强后的语音存在比较明显的畸变或者失真,能感知到,但不会 对语音的清晰度和可懂度造成太大影响;“差”表示增强后的语音信号存在比较大的失 真,已经使人耳产生听觉疲劳感但尚可以忍受;“坏”表示增强后的语音质量特别差, 人耳听觉已经不能忍受。 2 判断韵字测试( d r t 分) 在这种测试方法中,提供了若干对( 通常为9 6 对) 具有相同韵母的样本字来进行测 试。首先给实验者播放一对样本字里的某一个音,然后要求实验者根据听到的音来选择 出相对应的字。最终的d r t 得分用所有被测者均做出正确选择所占的百分比来表示。一 般情况下,d r t 分高于9 5 表示增强后语音信号的清晰度是优,8 5 0 旷9 4 表示良, 7 5 8 4 表示中,6 5 7 5 表示差,低于6 5 则表示该语音令人无法忍受。 2 2 2 客观评价方法 客观评价方法对语音信号质量优劣的判断是通过分析输入信号与系统输出信号间 存在的差别多少来进行的。该方法无需太多的人力资源,易于实现,具备较强的可重复 性与稳定性,且不受人类主观影响。目前客观评价方法主要有: 1 信噪比( s n r ) 信噪比的定义为 太原理工大学硕士研究生学位论文 s 2 ( 玎) 帆。1 0 1 0 8 1 0 豇毓 ( 2 - 6 ) 其中,s ( ”) 为纯净语音,s ( 刀) 为增强后的语音。 2 分段信噪比( s e g s n r ) 2 4 1 分段信噪比是对每一帧语音的信噪比在整个语音段内求平均,因而对语音质量的测 量更为精确。其定义式为 。 b 曙= f 1 芝l 瑶一( z ) ( 2 - 7 ) 式中,厶为语音的帧数,e 孟e ( j ) 为每一帧语音的信噪比,表示为 e丘am。c,=t。,。g。cj主_面10=可麦毛;兰;兰三;崭c2-8, z 一 = l u 、一5 - , - 、一f ,j 其中,s 为纯净语音,s 为增强后的语音,m 。为每一帧语音的采样点数。 3 坂仓距离度量 坂仓距离度量利用线性预测分析对增强后语音信号的质量进行评价。其计算公式 为: 。 耕心( i t n 备1 2 嚣x 譬篓到) ? , 式中,x ( 以) 和】c ( 刀) 分别为纯净语音和增强后的语音,五城) 和x ( 址) 则分别表示x ( 玎) 和 x 协) 经过短时傅立叶变换后所得的第,帧和第k 帧频率分量。 4 p i i s q 评价【2 5 】 p e s q ( p e r c e p t u a le v a l u a t i o no fs p e e c hq u a l i t y ) 的全称是感知语音质量评价。该方 法就是通过建立相应的数学模型来实现语音的物理特征和人类的心理感知特征之间关 系的对应,是一种利用客观模型对主观感觉进行模拟的评价方法,具有十分广泛的适用 性。 p e s q 的输出结果区间为0 5 4 5 。所得分数与4 5 分越靠近,就说明增强后语音信 号的质量越好;反之,语音质量就越差。一般p e s q 的输出结果位于1 o 4 5 范围之内。 当结果分值低于2 分时,则说明增强后语音信号的质量较差,人耳难以听懂。 太原理工大学硕士研究生学位论文 2 3 语音增强常用分析方法 2 3 1 短时傅立叶变换 用x ( t ,缈) 来表示信号x o ) 的短时傅立叶变换,则其定义式可表示为 f 皇l ,2 x ( t ,) = x ( r ) w ( r - t ) e - j * d r ( 2 1o ) r = - l 2 可见,其基本思想是把经典谱分析理论里的直接法应用到非平稳信号的处理中。具 体实现方法为:先将信号x 0 ) 乘以一个以r 为中点的窗函数w ( f f ) ,再进行傅立叶变换。 对信号进行加窗操作是为了提取出所需要的时间间隔里的信息加以分析处理。短时傅立 叶变换应用了信号的短时平稳性假设,为了得到较好的时频分析效果,需对窗函数精心 选择,通常要求具有低通性质,且其宽度应与信号的短时平稳长度相适应。 2 3 2 小波变换 假设信号x p ) r ( 灭) ,也就是说x o ) 是平方可积的,令暇( 口,6 ) 表示x ( f ) 的小波变 换,定义为 w t x ( 口,6 ) :下1 卜。沙( t - b ) d t 口。 a ( 2 - 1 1 ) 。= 卜。眈,。( f ) 击= 其中,变量口,b ,f 均为连续的,并且日和6 都是常数,a o 。函数p ) 叫做小波基 函数。 由于对信号进行小波变换可以将其大部分能量集中在小部分小波系数上,然后将其 余系数赋予较小权值或者设置为o ,也就是对其旄加相应的闽值,就能够对信号中所包 含的噪声起到一定的抑制作用【2 6 1 。 2 3 3 盲源分离 简言之,盲源分离是一种根据获取的混合观测数据来确定某一变换,从而恢复出原 始信号的技术。其中,术语“盲”包括两层含义 2 7 】:一是源信号是不能被观测的;二是 系统对源信号的混合方式是不可知的。分离( 或解混) 矩阵的学习算法是盲源分离的核 心问题,属于无监督学习。当混合系统为非线性时,若没有任何关于源信号和混合系统 的先验知识可利用,一般无法从混合信号中恢复出原始信号。因此在本课题的研究中, 1 4 太原理工大学硕士研究生学位论文 只考虑源信号为线性混合的情况。 线性瞬时盲源分离问题的统计模型可以描述如下: x ( f ) = a s ( t )( 2 - 1 2 ) 式中,s ( r ) = 【墨( f ) ,j 2 0 ) ,如( f ) r 为维源信号向量,x ( f ) = 而( f ) ,x 2 ( t ) ,嘞o ) r 为m 维混合观测信号向量,彳为m x n 维混合矩阵。盲源分离的研究目标就是找到一个 m 维的分离矩阵形,然后通过y o ) = w x ( t ) = 【咒p ) ,y :( f ) ,巩( f ) 】r 恢复出源信号 s ( f ) 。 对于线性混合情况的解混模型,通常进行如下的基本假设: 1 源信号s ( f ) 各元素相互之间是统计独立的; 2 源信号里至多有一个信号可以服从高斯分布; 3 获取的混合观测信号的数目要求不少于独立源信号的数目; 4 混合矩阵4 要求必须为列满秩的。 对信号进行盲源分离后的输出结果通常具有不确定性,具体表现为以下两个方面: 1 分离信号与原始信号的排列顺序可能不相同; 2 分离信号与原始信号的幅度和初始相位可能不相同。由于大部分有用信息都包 含在源信号的波形上,而受其排列顺序或幅度影响不大,因此不会影响到对源信号的识 别。 2 4 小结 本章主要介绍了该课题研究工作所需要的一些基本理论知识。主要包括语音信号及 语音增强系统模型的建立、语音和噪声信号特性、语音增强质量评价方法以及语音增强 中常用的几种信号分析方法,为本文后续章节内容的展开奠定了理论基础。 太原理工大学硕士研究生学位论文 1 6 太原理工大学硕士研究生学位论文 第三章奇异谱分析与盲源分离结合的单通道语音增强算法 3 1 奇异谱分析基本理论 奇异谱分析( s s a ,s i n g u l a rs p e c t r u ma n a l y s i s ) 2 8 】方法是由b r o o m h e a d 和k i n g 在 1 9 8 6 年首次提出的。该方法是一种主成分分析方法,以矩阵的奇异值分解为其建立基础。 主成分分析( p c a , p r i n c i p a lc o m p o n e n ta n a l y s i s ) 2 9 1 x 称经验正交函数( e o f , e m p i r i c a lo r t h o g o n a lf u n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论