(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf_第1页
(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf_第2页
(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf_第3页
(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf_第4页
(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(信号与信息处理专业论文)基于计算听觉场景分析的混合语音分离研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

? i 、 - - 二 一 、弋 一 c l a s s i f i e di n d e x : u d c : ad is s e r t a ti o nf o rt h ed e g r e eo fm e n g s p e e c hs e p a r a t i o nb a s e d o nc o m p u t a t i o n a l a u d i t o r ys c e n ea n a l y s is c a n d i d a t e :l i uj i f a n g s u p e r v i s o r :a s s o c p r o f z h a n gl e i a c a d e m i cd e g r e ea p p ll e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g d a t eo fs u b m is s i o n :d e c e m b e r ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :圳钰荔 日期:m 年户月日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 耐在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 、。z 作者( 签字) :刍j 铅芳导师( 签字) : 易 ( 2 6 ) 彳( c ,聊,f p ( c ,所) ) 1、”7 型ae(c怒mz p 岛 ( 2 - 7 ) , ( c ,肌) ) 1“叫7 通过谐波特性处理语音分离虽然能够得到较好的分离效果,但是从上面 的计算公式可以看出,无论是特征的提取还是最后线索的组织都是一个非常 复杂的过程。同时,利用谐波特性的一个问题就是只能处理含有周期特性的 浊音,而对于清音则是没有办法完成分离的,因此谐波特性完成的计算听觉 场景分析系统并不能够完全的分离所有的声音。 2 4 基于o n s e t o f f s e t 线索的c a s a 系统 在单通道混合语音分离的研究中,针对谐波特性的不足,本文提出了利 用o n s e t o f f s e t 线索完成混合语音分离的思想,根据上面对声音分离线索的介 绍,可以知道o n s e t o f f s e t 线索指的是一个声音元素的起始和结束时间,与语 音的清浊音没有关系,不受谐波特性的影响,能够同时完成浊音和清音的分 离,并且最后的实验证明使用o n s e t o f f s e t 线索在计算上也相对比较简单。 根据b r e g m a n 的理论,o n s e t o f f s e t 线索是利用信号强度的突然变化来描述 听觉元素,在声音环境中,不同的声源一般都不可能存在相同的起始( o n s e t ) 1 9 哈尔滨工程大学硕士学位论文 和结束时刻( o f f s e t ) 。所以根据h u w a n g 对o n s e t o f f s e t 作为分离线索可行性 的进一步研究洲和o n s e t o f f s e t 线索在人耳听觉感知中的优势,本文将尝试仅使 用o n s e t o f f s e t 线索来完成整个语音分离系统,分析得到基于o n s e t o f f s e t 线索的 计算听觉场景分析系统分离性能。 由于之前对于o n s e t o f f s e t 线索的使用不是很多,而且大都集中在使用它 来辅助处理清音的分离,所以根据o n s e t o f f s e t 线索的特点,本文的计算听觉 场景分析系统分为听觉外围处理、分解和片段组织三个阶段。 听觉外围处理主要用来模拟人耳的外围听觉系统的特性,将声音信号分 配到不同的频带中,从而得到适合进一步处理的时频数据。由于o n s e t o f f s e t 线索对应着信号的突然变化,所以在提取时可以根据信号包络的极值点来确 定o n s e t o f f s e t 时间点,但是信号中有很多小的波动会影响线索提取的准确性, 所以本文对经过滤波器处理后的信号还要进行平滑处理,用于去除信号中的 一些小的波动。 在分解阶段,经过外围听觉处理的混合声音将被分解成基本的声音分离 线索o n s e t o f f s e t ,前面已经介绍过提取时将通过对信号求导提取适合的极大 值和极小值点来确定合适的o n s e t o f f s e t 。 组织是将声音线索按照声源的不同进行分组,形成只含有目标声源的时 频片段,这里的片段是指只含有同一声源时频数据的集合,是计算听觉场景 分析中介于时频数据和语音之间的一个单位。根据对听觉场景分析中组织方 式的介绍,本文组织阶段将利用时间和频率的连续性来完成。 语音重构并不是计算听觉场景分析系统所必须的,但是为了更直观的分 析分离后的效果,本系统将对最后得到的片段利用波形拼接技术进行重构处 理。 题碗) 2 0 哈尔滨工程大学硕士学位论文 图2 4 给出了本文提出的基于o n s e t o f f s e t 线索的计算听觉场景分析系统 模型,后面将通过外围听觉处理和o n s e t o f f s e t 算法来分别对各个模块的实现 进行详细的介绍。 2 5 本章小结 计算听觉场景分析经过多年的研究,得到了很大的进展,但是目前常用 的声音线索研究仍集中在谐波特性上。本章通过对计算听觉场景分析理论依 据和现有分类模型的概述,着重分析了目前常用的各类分离线索,介绍了 o n s e t o f f s e t 线索的理论基础,通过介绍常见的谐波线索分离算法和其优缺点, 给出了基于o n s e t o f f s e t 线索的计算听觉场景分析模型,下面本文将具体介绍 模型中各个模块的实现算法。 2 l 哈尔滨工程大学硕士学位论文 第3 章外围听觉处理 人耳对不同频带的语音信号的敏感度是不同的,听觉系统是一个非线性 处理过程,一般来讲对于低频的分辨率较高,而对于高频的分辨率则相对较 弱。计算听觉场景分析的目的就是让机器模拟人的听觉感知系统,外围处理 模型主要用来模拟人耳的外围听觉系统的特性,将声音信号分配到不同的频 带中,从而得到适合进一步处理的时频数据。 3 1 人耳听觉系统 听觉心理学和听觉生理学是较新的学科,因为语言的传递从大脑开始, 又到大脑结束,所以听觉心理学和听觉生理学要以大脑为研究对象。而声音 首先到达的是人耳,因此首先就要知道人耳的构造,以及人耳是如何传递与 分析声波的。 由于人耳听觉系统非常复杂,迄今为止人类对它的生理结构和听觉特性 还不能从生理解剖角度完全解释清楚。所以,对入耳听觉特性的研究目前仅 限于在心理声学和语言声学。具体来说,通过现有的研究可知,人耳对语音 的感知有以下几个特点,首先人耳的感知主要是通过语音的幅度来获得的, 而对于语音的相位信息则不太敏感;其次,人耳对频率高低的感受近似与该 频率的对数成正比;第三,人耳的听觉掩蔽效应能够使强信号对弱信号有抑 制作用;第四,共振峰对语音的感知有着重要的作用,往往第二共振峰比第 一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度 产生影响【,s 】。想要模拟人耳听觉处理的机制,得到适合的外围处理模型,首 先就要掌握人类听觉器官的生理结构。 图3 1 给出了生理上人耳的构造 3 0 l 。从图中可以看到,人的听觉器官包 括外耳( o u t e re a r ) 、中耳( m i d d l ee a r ) 和内耳( i n n e re a r ) 三个部分,声音是从外耳 哈尔滨t 程大学硕士学位论文 经过中耳而传递到内耳中的。外耳包括耳翼( p i n n a ) 、外耳道( e x t e r n a la u d i t o r y m e a t u s ) 和鼓膜( e a rd r u m ) ,一般认为外耳在声音感知中有两个作用,一个是对 声源的定位,另一个是对声音的放大,它可以将声音能量集中于鼓膜上,在 一定的频率范围内,外耳可使外耳道入口出的声压放大。当然在生理上,外 耳还起着保护鼓膜的作用l 。 图3 1 人耳的构造 中耳包括三块听小骨,即锤骨( m a l l e u s ) 、砧骨( a n v i l ) 和镫骨( s t a p e s ) 。中耳 有两个主要的用途,一个是放大声压,其中三块听小骨起着机械杠杆的放大 作用,而更重要的放大作用是骨传导产生的。中耳的第二个作用是保护内耳 不受特强声音的损害,中耳中有两块小肌肉在很响的声音进入时起反射作用, 使听小骨的传导减弱。另外,还有一块肌肉可以改变镫骨的轴向,也能达到 减弱音响从而保护内耳的作用p q 。 内耳由半规管( s e m i c i r c u l a rc a n a l ) 、前庭窗( o v a lw i n d o w ) 和耳蜗( c o c h l e a ) 三个部分组成。内耳是整个听觉系统的感知部分,其中对听觉起主要贡献的 是充满液体的耳蜗,声波振动到神经冲动的转化就是在耳蜗中完成的。而前 庭窗和半规管则属于本体感受器,与身体的平衡机制有关,半规管内的感受 器能感受旋转变速运动的刺激,而前庭窗则能感受静止的位置和直线的变速 2 3 哈尔滨工程大学硕士学位论文 运动 3 6 1 。 耳蜗是听觉系统中最重要的部分,从功能上讲,可以分为三个主要部分: 基底膜( b a s i l a rm e m b r a n e ) 的声音频率分解功能,毛细胞的能量转换作用,以 及听神经的发放作用。耳蜗通过三个部分的功能顺序实现,完成从声音刺激 到神经编码信号的转换,形成听觉系统的内部表示 3 7 1 。听觉系统再通过听觉 神经的传导作用,将这种内部表示传送至听觉系统的高层,根据听觉感知机 理,完成包括听觉认知的各种处理任务。 基底膜的频率选择性是根据人耳对不同频率的敏感度在分解时是非线性 的,在耳蜗的根部,基底膜窄而劲度强,毛细胞及其上面覆盖的绒毛短而有 劲度,而靠近耳蜗孔处,基底膜宽而柔和,毛细胞及绒毛也较长而柔和,所 以导致了声音频率沿基底膜是呈对数分布的。同时每个频率附近的响度也呈 现出与刺激强度相关的非线性,一般来说,声音的频率高,声音就高,而声 音频率低,声音就低,而响度则与声音的振幅有关,对于不同频率范围内的 强度的感知,可以通过等响度曲线来进行计算【,副。基底膜的声音频率分解功 能可以用一组带通滤波器来完成,本文中的g a m m a t o n e 滤波器组就可以用来 完成听觉外围的处理。 3 2 听觉外围模型 声音的感知细胞在内耳的耳蜗部分,因此外来的声波必须传到内耳才能 引起听觉。通过对人耳构造的介绍,可以知道声音通过振动鼓膜,经过中耳 的听小骨传到内耳,引起耳蜗的基底膜的振动,使毛细胞兴奋,从而将声音 的刺激转化为神经冲动,通过听神经传递到大脑皮层的听觉中枢,形成听觉。 因此,在整个听觉系统中最重要的部分就是基底膜的频率分解【,6 1 。 目前,研究人员开发出了很多听觉滤波器来模拟耳蜗基底膜的作用,包 括由p a t t e r s o n 和m o o r e 在1 9 8 6 年提出的r o e x 函数滤波器1 3 s l ,1 9 9 7 年i r i n o 提出的g a m m a c h i r p 滤波器【扣l 和近年来使用较多的g a m m t o n e 滤波器。 2 4 哈尔滨工程大学硕士学位论文 g a m m a t o n e 滤波器是由d eb o e r 以及d ej o n g h 在二十世纪7 0 年代开发的【舳1 , g a m m a t o n e 滤波器具有参数简单、阶数低等特点,并且能够很好的模拟基底 膜滤波器的形状,因此本文使用g a m m a t o n e 滤波器来模拟人耳基底膜的作用 实现听觉外围处理功能。 根据语音信号处理的知识可知,语音数据可以表示成幅度、频率及相位 缓慢变化的正弦信号的叠加,各正弦波的频率可以认为是一个缓慢变化着的 基频的倍数。因此可以将混合语音数据利用多个通道的g a m m a t o n e 滤波器组 分解到不同的频率范围,该过程也就是模拟人耳基底膜对不同频率声音的分 解。本文采用4 阶1 2 8 通道g a m m a t o n e 滤波器来完成语音信号的分解功能, g a m m a t o n e 滤波器的时域形式为: 舻唧( _ 2 0 8 ( 2 硼:巍 , 10,头他 其中,滤波器的带宽取决于与中心频率相关的矩形带宽,每一个耳蜗滤波器 的带宽由当量矩形带宽( e q u i v a l e n tr e c t a n g u l a rb a n d w i d t h ,e r b ) 来确定。 e r b 由g l a s b e r g 和m o o r e 提出,用来模拟单一听觉神经细胞上的信号,是对 应耳蜗每一点上的听觉滤波器在心理听觉意义上的带宽测度,e r b 与中心频 率厂之间的关系为【4 1 1 : e ( 厂) = 2 4 7 0 3 7 f 1 0 0 0 + 1 ) ( 3 - 2 ) 对于g a m m t o n e 滤波器而言,每一个滤波器将对应于一个e r b 带宽,但 是两个通道之间的频率范围却并不是固定的。耳蜗中有数以千计的听觉毛细 胞,而计算机所能模拟的通道数却是有限的,如何将这些有限的通道合理的 分配到不同的频段中,是听觉滤波器组所要解决的问题之一。一个简单的解 决方法就是让滤波器之间中心频率的距离由前一个滤波器的e r b 再乘以一 个固定的分数因子来决定,当分数因子接近于零也就意味着滤波器组将接近 于完全重叠,当分数因子为0 5 也就是说输入信号的每一个频率将会被两个 滤波器通道处理,因子为l 时则表明所有的滤波器将完全没有重合d 2 1 。 哈尔滨工程大学硕士学位论文 在确定了滤波器的个数,最高频率和最低频率后,就可以求出每个滤波 器的中心频率,本文中使用1 2 8 个滤波器,频率范围为5 0 h z 至8 k h z ,分数 因子为0 2 5 ,也就是说滤波器组内各相邻滤波器的中心频率相距约0 2 5 e r b 。 信号经过g a m m a t o n e 滤波器组处理后,外围听觉系统还要对输出的结果 进行内耳毛细胞发放特性的模拟,这里将采用m e d d i s 模型来表示。所谓毛细 胞发放也就是指位于毛细胞和听觉神经突触之间的传送物质的产生、运动和 散发的过程 3 3 1 ,根据m e d d i s 的理论,毛细胞的发放过程可以用下面的三个差 分方程给出【4 3 l 。 d ,q 。= j ,【朋一g ( f ) 】+ x w ( t ) 一七( r ) g ( ,) ( 3 3 ) 口l d _ c = 后( ,) g ( f ) 一l c ( r ) 一r c ( f ) ( 3 - 4 ) i d w :r c ( f ) 一x w ( t ) 魂 ( 3 5 ) 另外,由于外耳、中耳对语音信号在不同频率范围内有不同的放大作用, 使得到达耳蜗的信号与原始信号相比发生了变化,信号在基底膜上引起不同 大小激励,基底膜上每一位置处的激励大小由m o o r e t 4 4 1 给出的一套计算过程 确定,每个滤波器的增益按中心频率位置和激励大小,计算得到对应的特性 响度。 为了提取o n s e t o f f s e t 线索,还需要对经过g a m m a t o n e 滤波器处理的信号 进行包络提取,包络提取算法很多,包括可以用t e a g e r 算子和低通滤波器来 完成,本文将通过半波整流和低通滤波来完成这一过程。 通过外围听觉模型处理之后,输入的语音信号将会得到一组时频数据, 时间上将利用窗函数将输入语料划分为不同的时间帧,其中每个时间帧的帧 长为2 0 m s ,帧移是1 0 m s ,而频率则利用g a m m a t o n e 滤波器组按照不同的带 宽分成1 2 8 组,这里得到每一个时频数据都可以看作是一个基本的声音元素, 以后的处理都将在这些声音元素的基础上完成。为观察各个通道信号的能量, 哈尔滨工程大学硕士学位论文 每隔5 个通道画出一个包络,得到图3 2 的时频分析图。 3 3 平滑算法 0 1 02 03 04 05 0 时间( 帧) 图3 2 时频分析图 人类听觉系统对声音的音高、音强、动态频谱等都有分析感知能力,而 人耳对于声音的强度和频率的主观感觉还是从响度及音调来体现的。但是人 耳并不是万能的,对于频率相近或者间隔太短的声音无法区别,同时还存在 着听觉掩蔽效应,即两个音同时存在时,一个声音被另外一个声音掩盖的现 象1 3 5 1 。因此在处理计算听觉场景分析系统时,要求在混合声音中所要分离的 目标声音的能量要大于其他背景声音的能量。 本系统通过分析信号的o n s e t s o f f s e t s 来估计听觉事件的理想片段, o n s e t s o f f s e t s 利用声音能量的突然变化来描述听觉事件。所谓的听觉事件是 指在o n s e t o f f s e t 之间的一个时频片段。声音在频率上表现出平稳的特性,这 种平滑的变化取决于一定的语音事件,例如阻塞音和擦塞音在一定频率范围 内都表现出平滑的o n s e t o f f s e t 边界。当然,相邻频率通道的通带有一定的重 叠,也是促使声音在频率上平滑的原因之一,甚至当有很强的噪声的时候, 大多数片段的边界在频率上仍然是很平滑的,因此连续性将是组织相邻频率 通道的重要线索。 2 7 哈尔滨工程大学硕七学位论文 o n s e t o f f s e t 对应于信号能量的时间导数所求的极大值和极小值,由于在 每一个事件的能量变化中,求导所得的极大值和极小值有很多小的波动并不 是真正的o n s e t o f f s e ! t 。因此,在平滑阶段能量将在时间上进行平滑处理来去 除一些小的波动。然后系统将进一步在频率上进行平滑来增强o n s e t o f f s e t 的 连续性。通过对平滑尺度的选择,来得到所需要的平滑效果,对于尺度的选 择也将是本算法的一个重点。 本系统的平滑处理采用时间平滑和频率平滑两部分来完成,系统首先在 时间上用一个低通滤波器先进行平滑处理,然后用一个零均值的高斯函数在 频率上进行平滑。定义“c 谚为信号在通道c 时间止的初始响应波形,则有 下面的平滑公式: v ( c ,o , t i m e s c a l e ) = v ( c ,t ,0 ,o ) + h ( t i m e s c a l e ) ( 3 - 6 ) v ( c ,t ,t i m e s c a l e , f r e q s c a l e ) = v ( c ,0 ,t i m e s c a l e ) g ( o ,f r e q s c a l e ) ( 3 7 ) 其中,参数对( t i m e s c a l e , f r e q s c a l e ) 是一个二维尺度,分别表示时间平滑参数 和频率平滑参数。下面将分别介绍时间平滑和频率平滑的实现方案和不同参 数下的平滑效果。 3 3 1 时间平滑 时间平滑是针对1 2 8 个频率的每个通道的信号能量进行的平滑,即中心频 率不变时对信号进行平滑处理。时间平滑的低通滤波器选用k a i s e r 窗函数来 设计,参数t i m e s c a l e 用来设置低通的通带频率,t i m e s c a l e 的值越大,通带则 越窄。 对于每个经过听觉外围模型处理后得到的通道的能量,都要再通过低通 滤波器进行时间平滑,根据不同的平滑参数可以得到不同的平滑结果,经过 实验得出,参数t i m e s c a l e 值的变化所引起的平滑度的变化与理论上的变化是 致,即t i m e s c a l e 越小,得到的平滑度越大。 哈尔滨工程大学硕士学位论文 图3 3 为第5 0 个通道的信号能量经过时间平滑后的结果,其中( a ) 图 为平滑前的能量,( b ) 图和( c ) 图为参数t i m e s c a l e 分别取1 0 和6 时,信 号平滑后的能量。通过平滑前后信号能量的对比我们可以看到,有很多小的 极值点被去除掉了,从而对于o n s e t o f f s e t 提取来说减轻了计算量,也使得对 o n s e t o f f s e t 的检测更准确了。并且从图中可以看到当平滑参数为6 时,得到 的能量相对于平滑参数为l o 时更为平滑,也因此可以推断在特征提取时得到 的o n s e t o f f s e t 点会稍微减少。 ( a ) 平滑前能量 ( b ) t i m e s c a l e = l o 平滑后能量 ( c ) t i m e s c a l e = 6 平滑后能量 图3 3 时间平滑效果图 2 9 哈尔滨工程大学硕士学位论文 3 3 2 频率平滑 频率平滑是指当时间不变时,对于每个频率上的信号进行平滑处理,跟 图像处理中的利用高斯滤波器进行平滑有些相似。高斯滤波器是一类根据高 斯函数的形状来选择权值的线性平滑滤波器,它对于抑制服从正态分布的噪 声非常有效,一维零均值高斯函数为: r 2 g ( x ) = 口e x p ( 一= 二t ) ( 3 8 ) z 仃一 其中,高斯分布参数仃决定了高斯函数的宽度。本文采用常用的二维零均值 离散高斯函数作平滑滤波器,公式如( 3 - 9 ) 所示: r 21 ,2 烈矗力铷“一荔一轰1 ( 3 - 9 ) 高斯函数具有五个重要的性质,这些性质使得它广泛的应用在信号的平 滑处理中。通过这些性质可以知道,高斯平滑滤波器无论在时间域还是在频 率域上都是十分有效的低通滤波器。 首先,二维高斯函数具有旋转对称性,也就是说滤波器在各个方向上的 平滑程度是相同的,因此可以将它使用在二维空间的平滑处理中。其次,高 斯函数是单值函数,这表明,高斯滤波器的平滑效果会随着与中心的距离大 小而逐渐减弱,这样就保证了平滑数据的可信度。第三,根据高斯函数傅立 叶变换等于高斯函数本身可以得出,高斯函数的傅立叶变换频谱是单瓣的。 这一性质也就意味着高斯滤波器可以滤除高频信号,使得数据不会被不需要 的高频信号所污染,并同时能够保留大部分所需信号。第四,由于高斯函数 的可分离性,二维高斯滤波的计算量并不大,因此即使较大尺寸的高斯滤波 器也可以得以有效地实现。最后,高斯滤波器的平滑程度是由滤波器的宽度 决定,也就是由参数仃表征,而且盯和平滑程度的关系是非常简单的。仃越 大,高斯滤波器的频带就越宽,平滑程度就越好。因此可以通过调节平滑参 3 0 哈尔滨工程大学硕士学位论文 数仃,取得想要的平滑效果【5 l 。本文中为了增加整个系统的可读性,将采用 参数f r e q s c a l e 来代替方差盯表示平滑参数。 由高斯滤波器的性质可以知道f r e q s c a l e 越大,高斯滤波器的频带就越宽, 而平滑程度就会越好。通过调节平滑参数f r e q s c a l e ,可以获得想要达到的平 滑效果。图3 4 给出了在第5 0 个时间点上,所有通道的信号经过频率平滑后的 结果,其中图3 4 ( a ) 是平滑之前的信号,( b ) 和( c ) 分别为平滑参数f r e q s c a l e = 6 和f r e q s c a l e = l o 时信号平滑的效果。可以看出,随着f r e q s c a l e 的增大,滤波 器的平滑效果也越好。 ,、 饕 、_ , 厘 莒 厘 茁 ,_ 、 茸 、- , j 匡 莒 ( a ) 平滑前波形 ( b ) f r e q s c a l e = 6 平滑后波形 ( c ) f r e q s c a l e = l0 平滑后波形 图3 4 频率平滑效果图 经过时间平滑和频率平滑后,在时频图去掉了上的一些不必要信息。由 于语料的不同,在平滑中所使用的平滑参数( t i m e s c a l e , f r e q s c a l e ) 也会随着改 哈尔滨工程大学硕士学位论文 变,具体数值可以通过实验来选定。平滑算法对于整个分离系统的影响,将 在第五章实验中给出具体的分析结果。 3 4 本章小结 外围听觉处理是计算听觉场景分析的基础,这部分主要是用来模拟人耳 对声音的前端处理过程,将声音信号分配到不同的频段中,得到适合特征提 取的时频信号。本文采用g a m m a t o n e 滤波器来完成信号的频率分解,并在传 统的外围听觉处理模型中加入了平滑处理模块,这主要与本课题的所使用的 声音分离线索有关,目的是为了准确的提取o n s e t o f f s e t 分离线索。第四章将 给出如何利用外围听觉处理得到的数据提取o n s e t o f f s e t 线索,完成混合语音 分离任务。 3 2 哈尔滨t 程大学硕士学位论文 第4 章o n s e t o f f s e t 算法与语音重构 目前的计算听觉场景分析系统,由于浊音在整个语音中占绝大部分,所 以在分离线索的选择上,很多都只是针对浊音来选取线索,而忽略了清音部 分的分离。d e l i a n gw a n g 和g u o n i n gh u 在最新的c a s a 模型中 4 6 1 ,采用 o n s e t o f f s e t 线索来处理清音的分离,得到了较好的分离效果。 根据b r e g m a n 的研究,o n s e t o f f s e t 是指一个声音元素的起始和结束时刻, 对应于声音能量的突然变化,由于不同声源的声音一般都不存在相同起始和 结束时间,而且这一特点跟声音的类型和成分无关,因此对于不论浊音还是 清音o n s e t o f f s e t 是都可以使用的声音线索。所以本课题尝试仅使用 o n s e t o f f s e t 线索来完成计算听觉场景分析系统。 本章是基于计算听觉场景分析的混合语音分离研究算法的核心部分,也 就是计算听觉场景分析模型中的分解、组织和最后声音的合成阶段。本文采 用的声音分离线索是o n s e t o f f s e t ,所以本章将介绍基于o n s e t o f f s e t 线索的计 算听觉场景分析系统的设计思想,并着重介绍o n s e t o f f s e t 线索的提取算法和 组织方式,并利用二值掩蔽的理论将时频数据划分为目标片段和背景片段两 部分,同时对于最后得到的目标片段将介绍语音重构算法。 在系统的设计中,将根据第三章介绍的外围听觉处理模块得到的信号能 量,在1 2 8 个频率通道内分别提取o n s e t o f f s e t 线索,得到每个通道声音元素 的所有起始和结束时间,然后将相邻通道中的o n s e t o f f s e t 进行扩展,在频域 上连成o n s e t 面o f f s e t 面,再把含有相同o n s e t o f f s e t 线索的时频单元组织在 一起,利用二值掩蔽信息在时频图上进行标记,得到分离的目标片段和背景 片段,最后通过语音重构模型将目标片段重新合成为语音波形,整个 o n s e t o f f s e t 算法的流程图如图4 1 所示。 哈尔滨工程大学硕士学位论文 图4 i 算法流程图 哈尔滨工程大学硕七学位论文 4 1 线索提取 准确的提取所需要的分离线索是计算听觉场景分析的研究重点之一,在 之前的利用谐波特性作为分离线索的模型中,是通过计算每个通道中时频单 元的相关性完成的,对于o n s e t o f f s e t 线索仍然需要对每个通道进行处理,在 o n s e t o f f s e t 线索提取时,如图4 1 所示首先在每个频率通道上检测o n s e t 、o f f s e t 点,并为每个o n s e t 找到匹配的o f f s e t ,然后再进行频域处理,在频率上进行 o n s e t s 、o f f s e t s 检测,最后用得到o n s e t s 、o f f s e t s 匹配得到片段,本节将分为 时域检测和频域扩展两个部分来进行介绍o n s e t o f f s e t 线索的提取算法。 4 1 1 时域检测 o n s e t o f f s e t 是指声音的起始和结束时间,在人耳听觉系统中,声音的开 始和结束都会引起听觉毛细胞的神经冲动,从而引发声音能量的突然波动, 根据对听觉感知的分析,可以将o n s e t o f f s e t 对应于能量的波峰和波谷,所以 在提取线索时需要对听觉外围处理得到的每个通道的声音能量计算其极值 点,然后通过阈值得到符合条件的o n s e t o f f s e t 。 首先对每个通道的信号能量进行求导得到极大值和极小值点,计算公式 如( 4 1 ) 所示。由于从听觉滤波器组处理得到的声音能量有很多小的极值点并 不是真正的o n s e t o f f s e t ,所以在外围听觉处理中加入了平滑处理模块,利用 时间平滑来去除一些能量中的小波动,同时通过频率平滑来增强线索的连续 性。 二d 蔓tv 婶,t ,t i m e s c n l e ,扣e q s c a l 幻 :知,o ,旷砸砌舭m ( o 加枷蚓 。1 通过对每个通道的能量进行求导,可以得到很多的o n s e t o f f s e t 候选点, 根据听觉生理学的研究,听觉神经元对声音起始时刻的能量刺激能够在几毫 哈尔滨工程大学硕士学位论文 秒的时间内恢复,所以为了精确的选择出听觉元素的起始和结束时刻,需要 对极值点进一步筛选,对于o n s e t 点,本文认为它所对应的声音能量应该在每 个通道中o n s e t 点能量的均值以上,所以设定o n s e t 阈值= u + d r ,其中和 d r 分别为此通道中信号能量的均值和方差,最后将保留大于阈值的极大 值为o n s e t 。 在o n s e t o f f s e t 提取时,在确定了每个通道的o n s e t s 点以后会发现,一个 通道中两个o n s e t s 之间可能会得到多个o f f s e t s 点,根据两个极大值之间有且 仅有一个极小值的原理,需要去掉多余的o f f s e t 。在对o f f s e t 的选择上,选择 能量下降最快的一个,也就是导数最小的一个o f f s e t 作为和前面o n s e t 匹配的 结束点,使得每个o n s e t 只有一个对应的o f f s e t 。从而完成了一个通道中的 o n s e t o f f s e t 线索检测。 l l 籁 测 圈 槲 骚 01 0 2 03 04 05 0 时间( 帧) 图4 2o n s e t o f f s e t 提取示意图 为了更好的理解o n s e t o f f s e t 线索的提取算法,图4 2 给出了时频图上线 索提取的示意图,其中圆形标记的是o n s e t 线索,菱形标记的是o f f s e t 线索。 通过对每个通道进行线索提取,最后将会在时频图上得到很多在时间上匹配 的o n s e t o f f s e t 对,但是这些o n s e t o f f s e t 对各自之间仍是离散的,所以需要在 频率上对这些o n s e t o f f s e t 对进行扩展,得到在频域上连续的o n s e t 面和o f f s e t 面。 哈尔滨工程大学硕士学位论文 4 1 2 频域扩展 在频域处理之前,首先对相邻通道的信号进行相关性计算,判断它们之 间的相似度,从而判断两个通道的信号是否有可能来自同一个声源,由于同 一声源的信号在相邻频带中有很高的相似性,所以系统选择0 9 9 5 为门限阈 值,认为大于此阈值的信号可能来自于同一声源,可以进行o n s e t o f f s e t 频域 扩展,否则不对两个通道的o n s e t o f f s e t 进行扩展。 同一个声音在相邻通道上可能有一定的时间偏移,并且每一个滤波器响 应在频率上都有一个小的延时,所以o n s e t 面o f f s e t 面扩展时,允许相邻通道 的o n s e t 或o f f s e t 之间有一定的时间偏差。由听觉心理学可知,当两个声音的 起始时间差在2 0 3 0 m s 时,人类听觉系统可以把两个声音分离出来,因此选 择2 0 m s 为偏差阈值,将时频图中满足偏差阈值的o n s e t 连在一起,形成一个 个o n s e t 面。得到o n s e t 面后,需要判断每个o n s e t 面所占的频率通道数,若 o n s e t 面所占的通道小于3 个,则认为它是不重要的线索,将此o n s e t 面去除。 对于o f f s e t 面的扩展将采用同样的方法来处理。 4 2o n s e t o f f s e t 组织 经过o n s e t o f f s e t 频域扩展后,可以在时频图上得到连成面的o n s e t s 、 o f f s e t s ,需要对这些o n s e t 面、o f f s e t 面进行匹配处理,将同一个声音元素的 起始和结束时刻对应起来。 首先在时间上按照邻近原则为每一个o n s e t 面找到一个匹配的o f f s e t 面, 若两个o n s e t 面之间存在多个o f f s e t 面,则选择含有频率通道数最多的o f f s e t 面作为与o n s e t 面匹配的。其次为匹配的o n s e t 面o 舔e t 面选择合适的通道长 度,由于o n s e t 面、o f f s e t 面各自包含的频率通道的个数不一定相同,所以选 择o n s e t 面o f f s e t 面公共占有的频率通道作为匹配后的通道。这样每个匹配的 o n s e t 面o f f s e t 面就在时频图上围成了一个类似矩形的区域,这个区域就是一 3 7 哈尔滨工程大学硕十学位论文 个时频片段,每个片段都只包含同一个声源的时频数据,也就是我们所要求 的目标片段。 经过组织处理后,在时频图上得到多个匹配的o n s e t 面o f f s e t 面,将每个 匹配的o n s e t 面o f f s e t 面之间的时频数据按照二值掩蔽的知识,用大于0 的数 字进行标记,而在o n s e t 面o f f s e t 面所围区域之外的其余时频数据用0 进行标 记,最后会得到如图4 3 所示的目标片段掩蔽图。 2 0 鬓 圈 v 即 将 聚加 2 0 印1 1 4 0 1 印 2 2 0 时间( 帧) 图4 3 目标片段掩蔽图 如图4 3 所示,其中每一个类似的矩形框都是一个声音片段。因为在进 行频率扩展时允许相邻通道的o n s e t o f f s e t 有一定的时间偏差,所以从图中可 以看到片段的起始和结束时间在相邻通道上并不是完全整齐的。而片段的频 率范围是选择匹配的o n s e t 面o f f s e t 面的公共通道,所以片段频率上的边界是 一条直线。通过最后得到的片段掩蔽图可以看到,系统在时频图中去掉了一 些背景信息,只留下了属于同一个声源的片段,从而完成了利用计算听觉场 景分析进行混合语音分离的目的。 由于o n s e t o f f s e t 算法采用了类似于图像分割的方法,所以最后在时频图 上得到的各个声音片段并不一定是完整的片段,相对于理想的片段会出现过 分割或者欠分割的现象,文献【3 4 】中给出了过分割和欠分割的具体讨论,并 提出了利用多尺度合并的方法来得到尽可能准确的目标片段。但是对于本文 3 8 哈尔滨工程大学硕士学位论文 来说,通过实验得出采用多尺度合并会加重背景片段混入目标的可能性,所 以我们仅选择一组平滑尺度来处理。 4 3 语音重构 语音重构的目的就是希望能够将通过计算听觉场景分析系统得到的时频 片段重新转化成语音信号,让人能够简单直观的获得语音分离后的效果。语 音重构是从时频域重建语音波形的过程,它并不是计算听觉场景分析的必要 模块,为了更好的评估o n s e t o f f s e t 算法的性能,本文利用时频掩蔽的结果对 分离后语音进行重构。 近年来,语音合成技术有了迅猛的发展,根据合成元素的选择方式和存 储方式的不同,可以将合成方式分为波形合成方法和参数合成方法。波形合 成是指把人的发音波形直接存储或进行简单的波形编码后存储,组成一个合 成语音库;合成时,根据待合成的信息,在语音库中选择相应的单元的波形 数据,拼接或编辑在一起,经过解码还原成语音,波形合成是一种相对较为 简单的合成技术。参数合成和可以称为分析合成,它是先对语音信号进行各 种分析,用有限个参数表示语音信号,减少存储容量,合成时,再利用一定 的规则重新还原语音信号。也因此导致参数合成的系统结构比较复杂,而且 在利用参数进行合成时,由于在抽取参数或者编码过程中,难免存在逼近误 差,用有限个参数很难适应语音的细微变化,所以合成的语音质量和清晰度 相对就要比波形合成方法要差一些1 3 6 1 。根据波形合成和参数合成各自的特点, 本文将利用波形拼接合成技术完成语音的重构任务。 为了增加合成语音的自然可懂,需要对重构的信号进行韵律调整,其中 包括调整语音的幅度、时长和基音。幅度调整可以直接利用乘以某个权重来 实现,权重计算公式为: g ( ( t - 1 ) x r + n ) = i 1 ( 1 + c o s ( 等+ 万) ) ( 4 2 ) 3 9 哈尔滨工程大学硕士学位论文 其中,t 为信号的帧长,f 为帧移。由于在进行外围听觉处理时,在对信号分 解时所用的窗函数都有一定的重叠部分,而对于波形拼接来说,信号的 起始时间很重要,因此首先就需要进行时间调整,建立重构波形和原始波形 的映射关系,再通过二值掩蔽的片段信息将目标片段内的时频数据重新合成 波形。最后根据原始波形与合成波形误差最小的原则,可以得到下面的语音 波形重构公式1 3 6 】: g z j ( , o h j ( t j 一刀) 烈功2 弘盯 ( 4 - 3 ) j 其中,z ( 甩) 代表最后的重构波形,t ,为合成语音的同步标志,h j ( n ) 为外围 听觉处理中使用的窗函数,譬,( 疗) 为语音的短时信号。而重构语音信号的幅值 则可以有掩蔽权重g 来实现。 本文采用的波形拼接技术的原理如图4 4 所示,首先将g a m m a t o n e 滤波 器输出的每个时频数据v ( c , o 按照掩蔽的结果,去除掉标为背景的时频单元, 将同一通道上的所有目标时频数据按照时间反转后的结果,乘以对应的掩蔽 权重g 进行幅度调节,然后将加权后的信号在频域上进行叠加,最后在时域 上拼接,即可得到分离后的语音信号波形。 图4 4 语音重构图 由于波形拼接技术是直接将时频图中分离出的前景片段级联起来,保持 k 哈尔滨工程大学硕+ 学位论文 了拼接单元的语音特征,所以合成的语音清晰自然,能够很好的从主观上得 出语音分离后的效果。 4 4 本章小结 本章根据听觉感知的知识,介绍了o n s e t o f f s e t 线索的提取和组织算法, 完成了基于o n s e t o f f s e t 的线索的计算听觉场景分析的分解和组织阶段,同时 利用二值掩蔽的理论,在时频图上分别标记目标片段和背景片段得到了片段 掩蔽图。为了进一步观测系统的分离效果,本章还提出了利用波形拼接技术 和二值掩蔽信息将分离出的目标片段进行波形重构的算法。 4 1 哈尔滨工程大学硕士学位论文 第5 章实验与结果分析 本课题实验都是运行在w i n d o w s x p 操作平台上,p c 机的主频为p 4 2 9 3 g h z ,内存为1 g b ,编程仿真环境主要使用v c + + 6 0 。实验数据采用三 类不同的语料来测试系统的性能,语料的混合方式包括歌声和音乐、声音和 声音、语音和噪声,其中语音和噪声、声音和声音选用的是c o o k e 在2 0 0 6 年国际口语处理学术大会上提出的语音分离挑战集( s p e e c hs e p a r a t i o n c h a l l e n g ec o r p u s ) 里的语料 4 7 1 ,该数据集里所有的语料采样率为2 5 k h z ,每个 句子由6 个单词组成,单词的选择是按照表5 1 来随机选取的。音乐语料选 取两首美国乡村音乐的片段来进行分离实验。 表5 1c o o k e 语料单词选择表 动词颜色介词 字母数字副词 b i n ( b )b l u e ( b )a t ( a ) a z( 其 a g a i n ( a ) l a y ( 1 )g r e e n ( g )b y ( b ) ( 不包中0 读 n o w ( n ) p l a c e ( p )r e d ( r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论