(通信与信息系统专业论文)基于计算声场景分析的混叠语音分离研究.pdf_第1页
(通信与信息系统专业论文)基于计算声场景分析的混叠语音分离研究.pdf_第2页
(通信与信息系统专业论文)基于计算声场景分析的混叠语音分离研究.pdf_第3页
(通信与信息系统专业论文)基于计算声场景分析的混叠语音分离研究.pdf_第4页
(通信与信息系统专业论文)基于计算声场景分析的混叠语音分离研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于计算声场景分析的混叠语音分离摘要 摘要 p 五5 9 i2 声场景分析主要研究如何在嘈杂的声音中感知环境事件。当各 种声源同时存在时,人们将来自不同声源的声音信号区分开被称之声 源分离问题,这是计算声场景分析的基础技术。 本文描述了一种能够有效分离混叠语音信号的系统。我们知道影 响声源分离的因素有多种,想要实现混叠语音分离,必须知道人类听 觉系统是如何从复杂的混叠语音流中得到属于各个源信号的信息的。 本文的主要工作可分为如下三个方面: l 、建立一个能反映人类听觉心理特征的新的听觉模型,混叠语 音信号经过该模型后转换成为一系列频率分量。 2 、将变换后的信息转换成可以按照不同声源分组的感观要素。 在此基础上,对上述过程所得到的感观要素按不同声源加以 分组。 3 、最后,利用来自同一声源的感观要素重新合成或重建感兴趣 的语音源信号。 经实验证明本文所提出的混叠语音分离方法是有效的。 关键字:声场景分析听觉模型混叠语音分离 , 、if 勤授雪教陈呜:鹤者赵 作 :师老导 厂 憾j、 s e p a r a t i o no f o v e r l a p p i n gs p e e c h b a s e d o n c o m p u t a t i o n a l a u d i t o r y s c e n e a n a l y s i s 。a 。b s t r a c t s e p a r a t i o no fo v e r l a p p i n gs p e e c hb a s e do n c o m p u t a t i o n a l a u d i t o r ys c e n ea n a l y s i s a b s t r a c t a u d i t o r y s c e n e a n a l y s i s i st h e s t u d y o nh o wt o r e c o g n i z e e n v i r o n m e n t a le v e n t sw i t hs o u n d s a r i s i n gf r o mv a r i o u sa c o u s t i cs o u r c e s w h e nv a r i o u sa c o u s t i cs o u r c e se x i s ts i m u l t a n e o u s l y , t h e p r o b l e m t h a to n e s e p a r a t e s a c o u s t i ci n f o r m a t i o nd e r i v e df r o me a c ha c o u s t i c s o u r c ei s c a l l e da c o u s t i cs o u r c e s e p a r a t i o np r o b l e m i t i st h ef u n d a m e n t a l t e c h n o l o g y t or e a l i z ea u d i t o r ys c e n ea n a l y s i so n c o m p u t e r s i nt h i st h e s i s ,a ne f f e c t i v es y s t e mi s d e s c r i b e d ,w h i c hi ss u c c e s s f u li n s e p a r a t i n go v e r l a p p i n ga c o u s t i cs i g n a l s i t i sk n o w nt h e r ea r eal o tf 、f f a c t o r st h a ti n f l u e n c e s e g r e g a t i o np e r c e p t i o n o rf u s i o n p e r c e p t i o n o t f r e q u e n c yc o m p o n e n t s t op e r f o r m a c o u s t i cs o u r c e s e p a r a t i o n ,i t i s n e c e s s a r y t oi n v e s t i g a t et h ep r i n c i p l e su n d e rw h i c hh u m a n b e i n ge x t r a c t s a c o u s t i ci n f o r m a t i o nb e l o n g i n gt o r e s p e c t i v ep e r c e p t u a ls o u n d sf r o ma ,s e q u e n c eo fs p e c t r a t h em a i n a s p e c t so f t h i st h e s i sa r eg i v e na sf o l l o w i n g ( i ) an e wm o d e ls i m u l a t i n ga u d i t o r ys y s t e mo fh u m a n b e i n g i s p r e s e n t e d ,b yw h i c h t h ei n c o m i n ga r r a yo fs o u n da r e a n a l y z e d i n t oa l a r g en u m b e r o f f r e q u e n c yc o m p o n e n t s 皇! ! ! ! ! 坐 ! 1 2 些! ! ! ! ! ! q :! ! ! 翌! 坚! 旦! ! ! ! 呈竺塑! 呈兰! 里竺! 苎! ! ! 型垒! 璺坚! 型! 竖竖墅! 堕! 堡 t h ed a t ac o m i n gf r o m ( 1 ) i so r g a n i z e di n t od i s c r e t ee l e m e n t a l u n i t s t h e nw ec o l l e c t t o g e t h e rt h ea p p r o p r i a t e s u b s e t so ft h e e l e m e n t st h a ta p p e a rt oc o m ef r o ms i n g l es o u r c e t h eo u t p u to f t h i ss t a g ei so n eo rm o r e g r o u p so f t h ee l e m e n t s w ec a n r e s y n t h e s i z eo r r e c o n s t r u c tt h es o u r c e s i g n a lu s i n g e a c h g r o u p o fe l e m e n tf r o m s t a g e ( 2 ) t h ee x p e r i m e n tr e s u l t si n d i c a t et h a tt h ea p p r o a c hd e s c r i b e dh e r ei s e f f i c i e n t c h e n x u e q i n d i r e c t e db y z h a o h e m i n g k e yw o r d s :a u d i t o r y s c e n e a n a l y s i s , a u d i t o r ym o d e l , s e p a r a t i o n o f o v e r l a p p i n gs p e e c h i i i - 、- 基于计算声场景分析的混叠语音分离研究第一章引言 第一章引言 在语音和听觉信号处理中,一个重要的问题就是如何从混叠语音 信号中分离出人们感兴趣的语音。这方面的研究具有重要的实际意 义,例如:能够使语音识别技术更为实用。虽然目前的语音识别系统 已经有了较高的识别率,但他们都有局限:即当系统的输入含有噪声 时其性能就会大大降低。而在现实环境中,一个识别系统的输入往往 含有噪声,或输入本身是一个多种声音的混叠。如果把混叠语音分离 作为语音识别系统的前端,就可将待识别语音从其他噪声中分离出 来,从而能够大大提高系统在实际环境中使用的识别率。再如:混叠 语音分离可实现声源数目的检测和声源方位的确定,并能够判断和分 析新出现的声学目标。这方面的研究对智能机器人技术十分有用。另 外,这一领域的研究在通信、公安、军事等部门也有重要的应用。 混叠语音分离研究是一个复杂的课题,由于混叠语音中干扰语音 和感兴趣的目标语音占据相同的频率范围,它们的频谱是完全重叠 的,因而很难将干扰语音从目标语音中分离出来。目前在信号处理领 域引人注目的盲信号处理( 包括盲源分离等) 技术可用于混叠语音分 离,但这种基于统计信号分析的方法在用于混叠语音分离时有一系列 的前提条件,例如:源信号统计独立且个数不变、混叠信号个数大于 等于源信号个数、混叠信号在时域中严格对齐等等,这些条件在实际 情况下往往很难满足。另外,盲源分离算法完全是一种统计信号分析 第一章引言 基于计算声场景分析的混叠语音分离研究 使声场景分析应用到机器智能中,让机器具有智能的听觉,这就是计 算声场景分析( c o m p u t a t i o n a la s a ) 。用计算声场景分析方法进行混 叠语音分离的研究,不仅符合人的感知特性,而且不受盲源分离方法 的那些限制。 第一节声场景分析简介 声场景分析( a s a ) 是用来研究分析和模拟人类听觉系统如何对 外界刺激进行组织与加工的。其任务有两个:一是找出那些能够使声 谱成份组合到一起或使它们分离成独立的听觉流的声学特征;二是研 究听觉分组的方法。声场景分析包含两个阶段,一是初级分析,它把 不同感觉元素分配到相应组中;另一阶段是图式加工,它可以对知觉 组织进行验证和修复。这两个阶段分别对应于自下而上和自上而下两 个加工过程。 i i i 初级分析 初级分析过程是由人的听觉系统的生理结构决定的。其策略是: 先把听觉信号分割成许多独立的单元,这些单元与声谱中特定时域和 频域相对应。然后,对这些单元进行分组或分离。分组是指听觉系统 把某些具有相似特征或时间接近的音知觉为一个流,使之从复杂的环 境声中突出出来。分离则是从复杂环境声中辨别出声音的不同来源或 区分不同声音。分离和分组是一对统一的概念,如果出现了分组,也 就意味着流与流之间产生了分离。初级分析包括序列整合和同时性整 合。前者把在不同时间内顺序出现的谱成份纳入一个知觉流,以便计 算环境中声音的序列特性。而后者则把同时出现的成份分开,将它们 放入不同的流中。 基于计算声场景分析的混叠语音分离研究 第一章引言 序列整合 序列分组中的流形成遵循接近性和相似性原则,时间或频率接近 的音将被分成一组。序列整合有两种形式,一是对由两个音高不同的 简单音交替出现构成的序列的整合,听者会把这个序列听成两个来源 不同、分别由低音和高音构成的流。另一种形式是对由频率关系较为 复杂的音所构成的序列进行整合。把两组频率关系变化的音,按一定 顺序排列,构成一个序列,该序列能否产生曲调取决于音之间的频率 关系。当两组音的频域相同时,曲调将消失;但如果它们分别在两个 没有重叠的频率范围内,则曲调便被听成一个独立的流。 序列分组的影响因素还有基频、时间接近性、谱形状、强度和空 间位置等。这些因素在分组中有竞争也有合作。如果所有因素对分组 都有促进作用,则分组将被加强。例如,空间差异与其它因素联合起 来时,其作用最强;又如,仅响度不同的两个音可能不会产生分离, 但如果加入其它差异,则响度就可能起重要作用。 同时性整合 声音中的谐波在频域中呈线性分布,而在基底膜上激活的相应位 置则呈对数分布。在对数频率单元中,低次谐波之间相距较远,而高 次谐波则相距较近。因此,谐波捕获有如下规律: ( 1 ) 复合音中低次谐波比高次谐波更容易被捕获; ( 2 ) 包含奇次谐波的谱成份比包含连续谐波的谱成份更容易被捕 获; ( 3 )相邻谐波被剔除的谐波易被捕获。因此谐波之间的频率相差越 大,这些谐波越容易从复合音中被捕获。 对频率和幅度的调节同样影响同时性整合。如果把原来的每个谐 波都加上相同的频率,它们之间的谐波关系消失,从而使音的不同成 份产生分离。或将每个谐波被乘以相同的整数,这种处理之后,其谐 波关系没有改变,但谐波之间的间距被扩大了。振幅的同步变化可以 第一章引言 基于计算声场景分析的混叠语音分离研究 使谱产生分离,这与神经活动特征相一致。对应于不同谱位置的神经 元的同步活动,保持时间很短。在频谱图上的每一段内,相对应的神 经元同步活动,而段与段之间则不同步。音的识别就是通过对这些段 中同步性变化的觉察而实现的。 空间位置信息和频率信息的加工可能是独立的。生理学研究发 现,猫的主要听觉皮层受损时,它对某个频率声音的空间位置判断能 力将丧失,但仍能够判其它频率声音的空间位置。在人脑中也存在类 似现象。另外,人可以同时听到不同位置上频率不同的两个纯音,两 者不会融合。例如,在2 5 0 4 0 0 0 h z 内,最大频率差超过7 时,便不 会产生融合。虽然听者把左右耳声音听成两个独立的音,但当双耳听 到的音在频率上接近时,便出现双耳整合。 序列整合与同时性整合的差别是显而易见的。然而,两者都涉及 到声音的最基本特征:时域和频域,所以,它们不是孤立的。在复杂 的声音知觉中,两者共同参与,相互影响。 1 1 2 以图式为基础的知觉组织 这是由人的认知能力决定的。听者把环境中特定的声音信号,如 言语、音乐以及其它熟悉的声音等存入记忆中,形成认知单元,这些 认知单元就是认知图式。当听觉系统获得的信息模式与图式相同时, 图式将被激活,并且通过图式对模式的其余部分进行推测。图式还可 以被与其相关联的其它图式激活。图式加工是一个自上而下的加工过 程,知识和注意在这一加工过程中起着重要作用。 对言语声的组织同样有两种形式:序列整合和同时性整合。序列 整合过程把按顺序出现的词( 或元音) 的各部分整合到一起,这是词 识别的基础。产生这种整合的前提条件是相邻部分的声学特性( 如: 音高、共振峰以及基频等) 具有连续性,或相差不大。语音的流分离 与非语音的流分离一样,也受到序列速度的影响,速度越快分离程度 也越大。另一种形式的组织是同时性整合,一般情况下,我们所面对 基于计算声场景分析的混叠语音分离研究 的往往不是一个孤立的声音,而我们所能够意识到的可能只是其中的 一个声音。这是因为听觉系统能够对众多的声音进行同时性整合,从 而形成一个知觉流。同时性整合过程中,基频( 或音高) 是一个重要 线索,差异越大,越容易分离。共振峰也表现出相同的作用规律。此 外,声音的空间位置在同时性整合中也起一定的作用,不同位置的声 音很容易被区分。 第二节研究现状及存在的难点 计算声场景分析是跨声学、信号与信息处理、听觉心理学等领域 的交叉学科,其研究在国外尚处于起步阶段,国内更是如此。文献 1 给出了一种基于听觉模型的基频提取模型,但仅限于单语音的基频提 取,文献 7 在多元音混叠的基音提取方面做了进一步探索。国外 学者近期在这方面的研究趋势主要集中于听觉感知模型的建立、听觉 低层处理、听觉中层表达、反映听觉一t l , 理准则等,相关文献的报道多 为基频提取、语音识别以及噪声下的语音增强。而基于计算声场景分 析的混叠语音分离研究在国内外都属起步探索阶段,并且仅限于两元 音混叠的情况。 目前存在的难点包括:( 1 ) 如何在听觉模型中恰当地反映听觉心 理特征和规律? 而不是仅从听觉系统的生理结构上( 例:外、中耳模 型、耳蜗模型、内毛细胞模型等) 反映听觉特征。( 2 ) 如何从一路观 测信号( 实际情况很多如此) 分离出感兴趣的源信号? 这是计算声场 景分析方法分离混叠语音信号优势所在,而在盲源分离方法中,混合 信号的路数要求大于等于源信号路数。 第章引言 基于计算声场景分析的混叠语音分离研究 第三节本课题研究内容与目标 本文旨在通过模拟人的听觉系统对声音信号的处理或感知过程, 期望计算机像人一样具有能够在混叠语音环境中提取和跟踪感兴趣 的语音信号的能力。 研究内容包括以下两大部分:( 1 ) 能反映声场景分析若干准则的 听觉系统数学模型的建立,即计算声场景分析基本内容的研究。听觉 心理学的最新研究和实验表明,人的听觉系统对声音的感知虽然是一 个极为复杂的过程,但可将重要的听觉心理现象归纳为声场景分析中 的系列准则。因此,在建立听觉系统模型时,除了反映人听觉系统 的生理结构( 如耳蜗滤波等) 外,还应反映听觉的心理特征,并用计 算方法加以实现。( 2 ) 用计算声场景分析方法从混叠语音信号中跟踪 并分离感兴趣的目标语音。这方面的研究概括为三个步骤:首先是分 解,即把混叠语音信号分解为一系列的感观要素;其次为分组,把前 面得到的感观要素按照声源的不同进行分组,形成可以对某路信号进 行感知的“听觉流”;最后为合成,即利用来自同一声源的感观要素 重新合成或重建语音源信号,从而实现从混叠语音中分离出感兴趣的 目标语音。 基于计算声场景分析的混叠语音分离研究 第二章预处理 第二章语音信号预处理 真实环境中的噪声多种多样,其中一种干扰称为“鸡尾酒会噪 声”,意指当目标话者在发声的同时,还存在其他竞争话者的语音干 扰。由于干扰语音是有色非平稳的、而且具有与目标语音相似的谱分 布和相当的声压级,因此这种干扰的去除即混叠语音分离一直是一项 困难的课题。 竞争话者是未知数,在实现语音分离之前首先要确定声源数目。 也有一些论点提出可以在基音提取的同时确定声源数目,但这是很冒 险的,非常容易出现误判。在条件允许,即可以有两路话筒同时接收 时,最好先确定声源数目。 一般语音信号中开始和结束都有很长一段无声区,且语音是由清 音与浊音组成,为了避免浪费时间,可在系统工作之处进行端点切分, 判决了清浊音以后,再对浊音部分进行分析。 第一节相位相关技术用于判断话者数目 单个空间声源发出的声信号经两路话筒的采样后,形成两路信号 s ,( r ) 和s :( f ) 。在满足球面波的情况下两路信号中时间延时通常可以通 过某种一致性测量( c o h e r e n c em e a s u r e ,c m ) 获得,c m 函数在位置如 处存在一个明显的峰,这个峰所处的位置乃就是延时估计。白反映点 源发出的声信号到达话筒的先后关系,与点源的空间位置有关。c m 测量方法有很多,如互相关函数、广义互相关函数、归一化互相关函 数、l m s 白适应滤波器等。本文所选的方案为:首先用一个零相位的 白化滤波器将两路信号的互功率谱白化,然后作逆傅立叶变换则得到 两路信号的相位相关函数: 基于计算声场景分析的混叠语音分离研究 肿去! 簖如 ( 2 1 ) 其中g ( ) 表示s ( f ) 和s :( ,) 的互功率谱。相位相关函数由于作了预 白化,可以抑制信号周期干扰带来的延时估计模糊,并且使时延对应 的峰更加尖锐。 这种方案同样适用于多话者的情况。当n 个话者同时说话时,两 路话筒接收到的信号分别为x i ( ,) 和x :( r ) : x l o ) = s l ( ,) + 52 ( r ) + + j 。( f ) ( 2 2 ) x 2 ( ) = s 1 ( f l 1 ) + s2 ( t 一乃2 ) + + s 。( f z _ ) ( 2 3 ) 其中s ,( ,) 和兀分别代表第个话者的语音信号以及对应的时间延时。 假设各个话者的信号之间是线性不相关的,则_ ( r ) 和x :( r ) 的互相关函 数和互功率谱为: r v :( r ) = r ”。( r 一乃1 ) + r v :( r 一乃2 ) + + r ( r 一瓦) ( 2 4 ) g x l x 2 x ( ) = g 匀x ( ) p 一。乃1 + g :也工( ) p 一。巧2 + + g 晶x ( ) p 一。k ( 2 5 ) 则多话者条件下的相位函数为: w 归去! 黹d e ) 弘( r ) ( 2 6 ) 其中: g ( ) p ”7 。 砉h ( 刮 ( 2 7 ) 因为在短时分帧处理的情况下,每次计算都是取出x i ( r ) 和x ,( r ) 的一帧 用于计算延时。语音信号的能量主要体现与浊音。因此在一帧信号中 g 、( 。) 覆盖的频率范围比较窄,体现的周期性较为明显,对应有较清 晰的谱峰。由于不同话者之间的语音是不相关的,且在短时内都为窄 带信号,所以在同一时间,其它n 1 个话者的信号与第i 个话者的信 号具有相同的功率谱分布范围的概率很小,因此可以认为: r 。,( r ) :兰趟。( f ) = 兰r 。( f ) ( 2 8 ) 。,( r ) = 趟( f ) = ,。( f ) 8 j t 5 1f = i 上式表明,在短时处理的情况下,两路混合语音信号的相位相关函数 基于计算声场景分析的混叠语音分离研究第二章预处理 近似的等于各个话者单独存在时的相位相关函数之和。由于各路信号 之间的差别仅在于相位不同,因此在做相关的过程中,当其中一个源 信号遇到它自身的另一路信号时,会出现峰值,其它源信号也有相同 情况,下图即为两话者混叠情况下的相位相关函数图。 图2 - 1 混叠源信号的相位相关函数 ( x :帧数y :采样点z :幅度) 由于两话者处于不同的位置,它们各自传到两耳间的时长 不同,因此存在相位差。图中对应于3 0 和8 0 采样点处,有两 道明显的峰,这是由于各帧在此处都有峰值而形成的。中间偶 尔会有几帧的峰点不明显,但从整体来看,峰线非常清晰。峰 线的个数就是声源的数目。 第二章预处理 基于计算声场景分析的混叠语音分离研究 第二节清浊音端点切分 语音信号一般可分为无声段、清音段和浊音段。无声段的平均能 量最低,浊音段的平均能量最高,清音段的平均能量居于两者之间。 在噪声较低的环境下,清音段的平均能量一般比无声段的平均能量高 出几倍至几十倍,而浊音段的平均能量则能高出几十倍至上百倍,应 用平均能量基本上能粗略的将它们分开。 对于语音信号的这三部分来说,另一个同等重要的特征参数是它 们的过零率。清音段的过零率大多数情况下最高;无声段的过零率变 化范围较大,一般情况下比浊音段低一点,但有时会比浊音段稍高一 些或者差不多。 由于录音和发声的间隔,正常情况下语音信号的前l o o m s 是无 声段,所以可以提取这段语音的平均能量、平均过零率、它们的乘积 和它们之比作为进行粗略判断的特征参数。又由于某些声母发声短 促,用振幅的平方表示能量时数值过大,因此在切分和端点检测过程 中,采用振幅的绝对值表示能量并且是短时处理。这里采用矩形窗, 窗长为2 0 m s ,即为n 点,设采样后的信号为s ( n ) ,加窗后的信号为s 。, 具体实现过程如下: 。( 女) = 兰帆( 刮e n ( 女) 表示第( k + 1 ) 帧语音信号的能量; z ,( 女) = 吉( 委 s g n ( x ( f ) ) 一s s n ( x ( ,一,) ) i ) ,s g n ( x ) = :,: z ,( 女) 表示第( k + 1 ) 帧语音信号的过零率; a ,:。( 女) + z ,( t )一,表示一帧语音信号能量与其过零率的乘积, 即短时能频积: b ,:。( k ) z ,( t )b ,表示一帧语音信号能量与其过零率的比值,即短时 能频比; 苎主生簦要垫墨竺堑箜! 垦垦堕茎坌墨竺垄 笙三! 堡塾些 段。 i 一一 1 1 f1 。1 5 05 01 口口 1 5 02 0 02 5 03 0 03 5 04 0 0 4 5 0 图2 - 2 汉语“提出”的波形及其能耸、过零率、能频积、能频比对照幽 针对以上参数,设定合理的闽值,就可以进行端点检测和切分判 1 0 1 1 口 一1 05 0 ,05 oo5115225335445 【i 山: 【 1 呷 00e115225335445 l 。- o + 。山。 1_ 一 - 0口5 1 i5225335 幽2 - 3 汉语“提出”的端点切分及清浊音分割 445 x1 0 4 , o o 5 o俩 o 伽 瑚 o 4 2 o 基于计算声场景分析的混叠语音分离研究 上图是一段男声“提出”的语音波形及其起止点、清浊音判决。 从图2 - 2 中可以清晰的看出语音的清浊部分及无声段的各参数特征 明显。采用合理的阈值可以分清起止点和清浊音分界点。这种采用相 对特征值进行端点检测和清浊音切分处理的方法对于单音节、说话速 度比较稳定的多音节的头尾和清浊音节的判别效果相当好,这方面的 技术已比较成熟。 在预处理结束之后,即可以对浊音部分进行基音检测。 i 箩! 垡宴堑墨坌堑塑塑垦曼童分离研究第三章基于听觉模型的基音提取 第三章基于听觉模型的基音提取 第一节听觉生理结构3 7 i 听觉通路的基本结构人类的听觉系统由外耳、中耳、内耳和中 枢听觉神经系统组成。 井 r 蚪茸中茸r 雨耳1 图3 1 人耳模式图 3 1 1 外耳 外耳由耳廓和外耳道组成。主要作用是集音,将声音的能量集 中于鼓膜上。由于外耳具有特殊的解剖结构,某些频率的声音能被 选择性的放大。对人耳来讲,外耳道的特殊特性使3 k h z 左右的声音 能被选择性地放大3 0 1 0 0 倍。这是人耳对这一频率范围的声音最 为敏感的主要原因,同时它也解释了为何在这一频率范围内人耳最 易受到声音损伤和造成听力缺损。事实上,人类的语言频率也主要 分布在3 k h z 左右。耳廓的作用之是对不同频率的声音进行滤波, 从而提供有关声源高度的信息。由于耳廓具有独特的形状,因此对 高频声音来讲,声源位置高于耳朵位置的声音比和耳朵等高的声音 更易进入外耳道。 第三章基于听觉模型的基音提取 基于计算声场景分析的混叠语音分离研究 3 1 2 中耳 中耳由鼓膜、鼓室、听骨链、中耳肌肉及咽鼓管等组成。鼓膜 是外耳和中耳的分隔面,是一层薄膜;鼓室又称中耳腔,腔内充满 空气;听骨链由三块听小骨组成,分别称为锤骨、砧骨和镫骨,其 中锤骨柄与鼓膜相连,镫骨底版与耳蜗的卵圆窗相连,砧骨连接着 锤骨和镫骨的另外两端,听骨链的结构使声波导致的鼓膜振动得以 传导至内耳;咽鼓管的功能使维持鼓室内的空气压力与大气压的平 衡。 中耳的主要功能是匹配阻抗。达到鼓膜的声音是通过空气传导 的,声音通过卵圆窗传入耳蜗后在液体中传导。通常情况下,声音 通过阻抗较小的空气介质向阻抗较大的液体传导时,绝大部分的能 量被反射,因而传导的效率极低。中耳结构却巧妙地解决了这一问 题:一方面,它以其听骨链分别连接鼓膜和卵圆窗,听骨链作为杠 杆使声音通过机械作用得到了增益;另一方面,鼓膜面积比卵圆窗 面积大得多,这一面积上的差异也导致声压得到了很大的增益。这 两种效应共同作用,有效地补偿了上述的能量反射。 3 1 3 内耳 内耳包括前庭和耳蜗两个部分,前者与平衡感觉有关,而后者与 听觉有关。耳蜗对听觉系统的重要性在于由它实现了声波向神经冲 动的换能过程。耳蜗还起着机械性频率分析器的作用,它将复杂的 声波分解成一系列频率组分。声音感觉的很多方面都起源于耳蜗的 机械特性。 从形状上看,耳蜗是一个外壳包裹的管状结构,它围绕着蜗轴盘 绕,整个管道在底部较粗而顶部较细,形似蜗牛。耳蜗的底部由两 个膜性的窗口,分别称为卵圆窗和圆窗,前者与中耳听骨链中镫骨 的底板相连接。骨质的耳蜗管状结构内部由软组织分隔成为的、三 基于计算声场景分析的混叠语音分离研究 第三章基于听觉模型的基音提取 个沿耳蜗卷曲方向平行排列的管道,它们分别称为前庭阶、鼓阶和 中阶或称蜗管。卵圆窗即为前庭阶在蜗底的窗口,而圆窗即为鼓阶 在蜗底的窗口。前庭阶和鼓阶内充满淋巴液,这两部分结构在蜗顶 处经一个称为蜗孔的小孔连通。前庭阶还通过前庭器官与外淋巴系 统相连通。中阶是位于前庭阶和鼓阶之间的一根盲管。中阶内也充 满淋巴液,然而其化学组成与前庭阶和鼓阶中的不同,称为内淋巴 液。分隔中阶和鼓阶的膜状结构称为基底膜,由毛细胞、神经末梢 及其它结构组成的声音感受器就排列其上。分隔前庭阶和中阶的膜 状结构称为前庭膜。 图3 - 2 耳朵切曲 蜗轴为中空的骨质结构,耳蜗神经纤维从中通过。蜗轴有薄骨 板伸入耳蜗的管道内,称为骨螺旋板。该板的外缘连接基底膜。基 底膜具有带状结构,它围绕蜗轴沿耳蜗管道方向有蜗底向蜗顶盘旋。 基底膜在耳蜗底部较窄,而在耳蜗顶部较宽。耳蜗中真正的声音感 受器是位于基底膜上的螺旋器或称柯蒂氏器。螺旋器上的毛细胞是 声音的感受器细胞。毛细胞分外毛细胞和内毛细胞两类,分列螺旋 器隧道两侧。外毛细胞共约2 00 0 0 个,沿基底膜纵向分三行排列。 内毛细胞共约35 0 0 个,沿基底膜纵向排列成一行。内外毛细胞都是 长柱状细胞,在毛细胞的上部表面,有卵圆形或三角形小皮板,板 上排列着听毛突出。在毛细胞的上方有一层盖膜( t e c t o r i a l m e m b r a n e ) ,它悬浮于内淋巴液内。支配毛细胞的神经纤维,穿过基 第三章基于听觉模型的基音提取 基于计算声场景分析的混叠语音分离研究 底膜并通过细胞间隙到达细胞底部,神经纤维终末在细胞附近变粗 并紧贴细胞,形成突触结构。神经纤维既包含传入纤维,也包含传 出纤维。其中,与35 0 0 个内毛细胞形成突触连接的有2 00 0 0 根传 入神经纤维,而与2 00 0 0 个外毛细胞形成突触连接的传入神经纤维 仅约10 0 0 根。大量的传入神经纤维与内毛细胞形成突触联系,说明 内毛细胞在听觉信息传导的过程中起主要作用。 来自耳蜗听觉感受器的信号经听神经纤维向听觉中枢传导。听 觉中枢由多个核团组成,在每个核团中存在着具有不同形态和功能 的神经元,各核团之间还存在着非常复杂的相互连接,使听觉中枢 可以进行非常复杂的信息处理。 3 1 4 基底膜的行波振动 图3 - 3 耳蜗中行波在基底膜上传播的模式图 声音到达内耳后引起了基底膜的振动。了解基底膜的振动形式是 理解耳蜗生理功能的前提。有关基底膜振动形式的研究始于v o n b e k e s y 对动物和人体耳蜗的观察。他在光学显微镜下观察到,声音 基于计算声场景分析的混叠语音分离研究第三章基于听觉模型的基音提取 引起的基底膜振动从耳蜗基部开始,逐渐向蜗顶传播,此即行波 ( t r a v e l l i n gw a v e ) 在行波的传播过程中,振幅逐渐增大,到达某一 部位后便迅速衰减。行波在基底膜上传播的距离以及振幅最大点的 位置均与刺激声的频率有关:刺激声频率越高,行波传播距离越短, 振幅最大点位置越靠近蜗底。这种声音频率和基底膜部位之间的对 应关系称为频率组织结构。 第二节听觉模型 根据人耳结构,以及它感受声音的工作原理,我们结合有关参 考文献n3 建立如下图所示的听觉模型,由六部分组成: 芒 l 差 g 输入信号 s ( n ) 审震一 s a c f 龟高舀舀 : : 图3 4 听觉模型的结构框图 ( 1 ) 外耳、中耳滤波器 声音进入外耳道之后,导致鼓膜产生振动,处于2 k h z 5 k h z 频率范围内的声音将会被选择性的放大。而中耳对于由外耳传入的 音 第兰章基于听觉模型的基音提取 基于计算声场景分析的混叠语音分离研究 声音通过机械作用进行放大,尤其是在i k h z 左右的信号得到很大的 增益。根据外耳、中耳对语音信号在l k h z 5 k h z 频率的范围内有约 1 0 2 0 d b 的提升,在此采用传统谱分析中的预加重方法来模拟外耳 和中耳的中、高频提升特性。 何( z ) = 1 0 9 5 2 1 ( 2 ) 基底膜带通滤波器 ( 3 - 1 ) 根据基底膜的频率响应特性,可用一组带通滤波器进行模拟。 假设选用n 个4 阶的g a m m a t o n e ,每一个g a n m l a t o n e 滤波器可表示为: g 。0 ) = 口+ 1 - i e 一2 面一c o s ( 2 7 死f + 中。)( 3 2 ) 其中n = 4 ,为滤波器的阶数,b 。是中心频率厶在等效矩形带宽( e r b ) 域上的变换频率,它在该域是等间距分布的。根据语音信号的频率 分布特征,我们令厶的取值范围为2 0 h z - 4 k h z ,它与b 。的关系式为: b 。= 1 0 1 9 e r b ( f , ) ( 3 - 3 ) 这一组滤波器将语音分成不同的频率段,相邻频段之间有部分重叠。 下图为一组g a m m a t o n e 滤波器组的幅频特性图: 图3 - 5 一组g a m m a t o n e 滤波器组的幅频特性图 ( 横坐标为采样点数,纵坐标为幅度) 语音信号经过该滤波器组以后成为一组不同频段的信号。滤波 器组的数量可根据需要选择,数目越大,单个频带越窄,有利于观 基于计算声场景分析的混叠语音分离研究 第三章基于听觉模型的基音提取 察语音信号在各频段的特性。但是数量大带来的弊端是计算量大增, 因此在选择数目时可权衡技术指标和速度作出合理选择。 ( 3 ) 毛细胞能量转换 基底膜的振动刺激了毛细胞,再由毛细胞将声波振动的机械能 转换成电能。关于毛细胞的模型有多种,这里采用m e d d i s 提出的内 耳毛细胞函数模型h 1 。 p e l - m e a b l em e m b r a n ek ( t ) 图3 - 6 毛细胞模型图 毛细胞低部含有大量神经递质,行波在基底膜上的振动造成递 质通过可渗透膜向突触间隙释放,而毛细胞的运动引起听神经的发 放。渗透膜的渗透率五f ,砂是可变的,由输入信号的幅度决定,它相 当于是对基底膜似的输出的信号进行半波整流( h w r ) 。 :j 础) + 爿m ( ) + 爿+ 明 i x ( 卅爿 o ( 3 4 ) 1 0i x ( t ) + 爿j o 该模型假设毛细胞具有制造递质的功能,它内部所含的可自由 释放的递质量以q ( 幻表示,而且有y 1 一q ( f ) 的补充率。突触间隙 内包含的递质量以c ( 幻表示,它持续的向毛细胞返回的量为y c ( f ) , 并且还会有c ( f ) 的递质量不断丢失。 ,、, i ! 三兰墨主! 燮型竺墨童堡墼 苎王生竺主堑墨坌堑盟堡垦堕童坌塞堑塞 这样,我们可以用下列方程描述毛细胞的运作过程: 鲁= _ y 1 - q ( f ) 】+ r c ( f ) _ 如) g ( f ) ( 3 5 ) 豢叫啪一t o ( r ) - r c ( ,) ( 3 6 ) 则神经发放的概率可表示为: p ( r ) = h c ( t ) d t( 3 - 7 ) 以上四个方程组成了整个毛细胞模型,其中g ,y ,r ,l ,h ,a ,b 是 常数,d t 为采样间隔。 ( 4 ) 同通道内发放率时间分布特性 各个通道的神经脉冲发放率包含了语音信号的时间和相位信 息。为了获得语音的基音信息,对各个通道作自相关运算,可 得到各通道的基音信息。 r e ( i ,r ) :圭p ( r ) p ( f + r ) ,l 为自相关延时长度( 3 8 ) r = l ( 5 ) 所有通道时间特性和图 将各个通道的自相关函数累加,则语音信号的基音信息将会 得到增强。 ,。,r e ( t ) :壹r 。( f ,) ,n 为通道数( 3 9 ) 拉i ( 6 ) 基音检测 在神经发放率的自相关和图上将会很清晰的找到目标语音的基音 周期。 2 0 基于计算声场景分析的混叠语音分离研究第三章 基于听觉模型的基音提取 第三节单个及含噪语音的基音提取 本文所有使用到的语音信号均采用以下指标:采样率 f s = 2 2 0 5 0 h z ,帧时长2 0 m s 左右,即l e n = 4 4 0 点。g a m m a t o n e 滤波 器数量n = 6 4 ,m e d d i s 模型中使用到的参数设定为g = 1 6 6 0 ,r = 1 2 5 0 0 , l = 5 0 0 ,y = 1 6 6 ,h = 1 0 0 0 0 ,a = 1 0 ,b = 1 6 0 。 当输入语音信号经过预加重之后,经基底膜滤波器组分解成6 4 个子带信号,分别占据不同频带,根据g a m m a t o n e 滤波器组的频率 特性,其带宽由低频段到高频段逐渐由窄变宽,也就是说对低频段 的信号处理要比高频段信号更加细密。一般来讲,基音信息主要隐 藏在低频带中,因此可以不必对所有通道作下一步处理,选择前3 0 个通道就足够了。这些子带信号被传送到下一级毛细胞模拟器中, 得到毛细胞的神经脉冲发放概率p ( i , o ,i e ( 1 , l e n ) ,l e n 为帧长。将 05 01 0 01 5 02 0 02 5 03 0 03 5 8 4 0 0艄o d 5 口1 d di5 口2 q q2 轴3 叩3 5 d叩 5 d 图3 7 ( a ) 每个通道的自相关图a c f ( b ) 所有通道的自相关和图s a c f 蟪妓嚣通遒教 柏 加 仲 a 第三章基于听觉模型的基音提取基于计算声场景分析的混叠语音分离研究 每一通道的发放率作自相关运算,可看出每一通道的神经发放概率 中蕴含着基音信息,为了获得更加突出的结果,将各通道的自相关 作累加求和。从这个和图中可以清晰的得到基音信息。 由上图( a ) 可以看出对应1 6 0 点处,每个通道都有峰值,随着通 道数的上升,各通道的频率不断上升,在倍频处也出现了峰值。而 图( b ) 是自相关和图,将所有通道的自相关逐点相加,强化峰值, 可见,在1 6 0 点处出现了明显的峰,该点即为这一帧语音基音频率。 采样率f s = 2 2 0 5 0 h z ,则基频p = 2 2 0 5 0 1 6 0 = 1 3 7 8 h z ,在3 2 0 点处出现 了第二峰值,这是该基频的两倍频。 象一些其它的基音提取方法一样,在单个语音的基音提取方面, 该方法非常有效。 现实环境中,语音信号常常会受到周围噪声的干扰。干扰噪声 有多种,有城市中汽车的呼啸声,办公室的电话铃声,其他人的讲 话声等等。竞争话者是属于最复杂的噪声,将在下一节中详细介绍。 ( c ) fm 卅脚叫1 ( d ) o 1 0 0 0 ( e ) 0 05 01 0 01 5 02 0 0 2 5 03 0 03 5 04 0 04 5 0 1 0 01 5 02 0 0 2 5 03 0 03 6 04 0 0 “暑鼹喜熊 ( d ) 用本文所述的方毡 得剁的相关捌圈 “名籍爹号 01 0 01 5 02 0 0 笛03 0 004 0 0 4 5 0 图3 8 含噪语音_ e j 传统自相关法和本模型的比较( s x r = 1 5 3 5 8 1 d b ) 基于计算声场景分析的混叠语音分离研究第三章基于听觉模型的基音提取 05 01 0 01 5 02 0 02 6 03 0 03 5 04 0 04 5 0 05 01 0 01 5 02 0 02 5 03 0 03 5 04 0 04 5 0 5 01 0 01 5 02 0 02 5 03 0 03 5 04 0 04 5 0 图3 - 9 含噪语音用传统自相关法和本模型的比较( s n r = 一1 5 4 3 9 d b ) ( c ) 与白峰声坦叠 茸的语音信号 c 用奉文所畦的卉珐 得到的相共和喇 在有噪环境下,提取语音的基音周期有了一定的难度。为了检 验本模型的有效性,我们选择了传统的自相关方法作为比较,经实 验证明,本文所述的声场景方法对于含噪语音的基音提取有较好的 效果,与自相关法相比较有明显的改进。 如图3 - 8 、3 - 9 所示,在带噪情况下,本模型显示出它的优越性, 尤其是在强噪声下,它依然保持着良好的特性。 第三章基于听觉模型的基音提取 基于计算声场景分析的混叠语音分离研究 第四节双话者语音的基音跟踪 单个语音信号的基音提取方法已经比较成熟,基于声场景分析 的方法只是其中一种。但是对于单个语音的基音提取,声场景分析 的方法除了在原理上更加接近于人耳的机能之外,没有太多优势, 相反,耗费了大量的计算时间。 前面我们所提到的噪声都被假定为加性平稳的,与语音信号不 相关的。但如果噪声为竞争话者的语音干扰,问题就变得非常复杂 了。由于干扰语音是有色非平稳的,而且具有与目标语音相似的谱 分布和相当的声压级,因此双话者甚至多话者的基音分离一直是一 项难题。 我们试图采用前面所述的方法来实现混叠语音的基音分离。经 多次实验证明,当混叠语音的基频相距较远时,该方法可以有效的图 ( t 0 舅声。”甚颧,i :l5 9 1 - z ( b i ) - 9 声- “。基细f 扛2 t 2 h z “2 ) 舅声- 一,基颧f 2 = l3 ,h z ( b 2 ) 直声“u 。基搬f 4 :2 e o h z “3 ) 混叠语音 ( b 3 ) 漫叠再音 ( t 4 ) 相关和圈 ( b 4 ) 帽美和目 3 1 0 混替语音的相关和幽 ( 横坐标每一点代表一个采样点,采样频率为2 2 0 5 0 h z ) 基于计算声场景分析的混叠语音分离研究第三章基于听觉模型的基音提取 实现基音分离,但是对于基频非常接近的混叠语音来讲,它就不那 么实用了。 上图是两种混叠的语音情况,左边一列两路源信号基频相差较 远,af = 1 5 9 1 3 9 = 2 0 h z ,子图( a 4 ) 相关和图中在1 3 8 点和1 5 8 点处 有两个明显的峰值,分别对应1 5 9 h z 和1 3 9 h z ,后面峰点对应的是倍 频。而右边一列的两路源信号基频差f = 2 8 0 2 7 2 = 8 h z ,在这种基频 比较接近的情况下,很难提取基频,子图( b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论