(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf_第1页
(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf_第2页
(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf_第3页
(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf_第4页
(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(通信与信息系统专业论文)bark尺度子波变换及其在混叠语音分离中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

b a r k 尺度子波变换及其在混叠语音分离中的应用 p 互5 9 t 1 9 摘要 摘要 本文简述了声场景分析( a s a ) 的概念及其在语音处理中的作 用,并以基于听觉特性的b a r k 子波和信号频域变换为工具,提出了 一种混叠语音信号分离的方法,该方法分为混叠语音信号分析和波形 合成两个部分。在混叠语音信号分析阶段,通过b a r k 子波变换方法 来提取源信号的基音频率轨迹,这一阶段充分利用了声门激励和声道 特性参数在频率和幅度两个方向上的缓变规律。在波形合成阶段,以 基音频率轨迹为依据,将混叠语音信号分割为独立的短时周期信号, 利用数字多谐振荡器的选频特性,获取相应的各次谐波的频率、幅度 以及相位信息,利用这些参数在频域叠加来合成分离的语音信号。实 验结果表明,本文提出的混叠语音分离方法是有效的。 r 、 l 作 者:朱祺 指导老师:赵鹤鸣教授l 关键词: b a r k 子波,基音检测,语音合成,声场景分析。 a b s t r a c t b a r k w a v e l e t t r a n s f o r ma n d | t sa p p b c a t i o nf o ro v e r l a p p i n gs p e e c hs e p a l d o n b a r kw a v e l e t t r a n s f o r ma n d i t sa p p l i c a t i o n f o r o v e r l a p p i n gs p e e c h s e p a r a t i o n a b s t r a c t t h i s d a p e re x p l a i n s t h ec o n c e p t i o no fa u d i t o r ys c e n ea n a l y s i s ( a s a ) a n di t se f l e e ti n s p e e c hs i g n a l s p r o c e s s i n g w i t h b a r kw a v e l e ta l l d f r e q u e n c y d o m a i nt r a n s f o r m ,t h i sp a p e r d e s c r i b e s a n a p p r o a c h t o o v e r l a p p i n gs p e e c hs i g n a l ss e p a r a t i o n i t i s c o m p r i s e do i 。o v 。l 印p l n g s d e e c ha n a l y s i ss t a g ea n dw a v e f o r ms y n t h e s i ss t a g e i nt h ef o r m e r s 诅j g e , b a s e d o nt h e c o n c e p t t h a tb o t h g l o t t a l e x c i t a t i o n a n dv o c a lt r a c t d a r a m e t e r sa r et i m ev a r y i n gi na m p l i t u d ea n df r e q u e n c y ,w ed e t e c tp i t t h w i t hf k q u e n c yd o m a i nt r a n s f o r m , b a r k w a v e l e tt r a n s f o r ma n d ( e n h a n c e d ) a n t o c o r r e l a t i o na l g o r i t h m i nt h el a t e rs t a g e ,as e r i e so f s h o r t t i m ep e r i o d s i g n a l s a r ep a r t i t i o n e d f r o m o v e r l a p p i n gs p e e c h s i g n a l s w i t h t h e 矗e a u e n c y - s e l e c t i o n - c h a r a c t e r i s t i c o f d i g i t a l m u l t i v i b r a t o r , as e to f a m d l i t u d e s ,f r e q u e n c i e s a n dp h a s e so fh a r m o n i c sb a s e do np i t c h f l o w g e t t i n gf r o ma n a l y s i ss t a g ea c t a st h ep a r a m e t e r so fs y n t h e s i sm o d e l - a n d 2 e n e r a t e 妣s y n t h e t i cs p e e c hw a v e f o r m t h er e s u l t s o b t a i n e di n d i c a t e t h a tt h ea p p r o a c hd e s c r i b e dh e r ei se f f i c i e n t z h u q i d i r e c t e db yz h a oh e m i n g k e yw o r d s :b a r kw a v e l e t ,p i t c h t r a c k i n g ,s p e e c h s y n t h e s i s ,a u d i t o r y s c e n ea n a l y s i s ( a s a ) 1 i ! 坐鉴壁王丝奎堡墨茎垄望量堕童坌妻竺生旦苎二里生茎一 第一章引言 1 1 混叠语音分离概述 语音信号处理技术一直以来都是国内外学者研究的热点,它跨声 学,信号处理,仿生学等多个学科,应用前景广阔。近年来,由于计 算机和因特网正以惊人的速度和规模渗透到社会的各个领域,许多应 用要求简单、自然、友善的人机界面,而语音就成为一种理想的人机 信息交流手段,因此也就对语音处理的发展提出了更迫切的要求。语 音处理包括混叠语音的分离,语音编解码,语音识别等许多领域,本 文主要着眼于混叠语音分离( 噪声背景下目标语音的提取) 的讨论。 研究混叠语音信号的分离在语音识别、声学目标检测、声音信号 增强等多方面都有其积极意义i i ,。目前,这方面的研究工作大体上集 中在盲信号处理及声场景分析两方面。就盲信号分离来说,国内外许 多学者做了大量的工作,这种方法主要利用了信号的统计特性,例如 东南大学的何振豫教授等已成功地利用多变量密度估计、独立分量分 析等方法从混合信号中分离出多个清晰语音。但事实上,盲信号处理 只是在部分盲的情况下进行信号处理,计算中需要对信号的统计特性 和混叠方式进行一些假设,例如:源信号统计独立、平稳;混叠信号 个数大于源信号个数等。而实际的声学环境中,这些条件往往难以满 足。所以此方法在实用性方面有一定的局限性。 相对于盲信号分离来说,声场景分析尚处于起步阶段。所谓声场 景分析,是指利用听觉感知的研究成果建立模型,并用计算机来实现 它,使听觉场景分析应用到机器智能中,让机器具有智能的听觉。它 的思路和盲源分离完全不同,有着较深的生物学背景,它没有象盲源 分离那样严格的前提条件。在实际情况中计算声场景方法只需有一 路或两路输入信号就能实现混叠信号的分离。这一特点,使得声场景 分析在处理混合语音分离时应用前景比盲信号处理更为实用。已有一 b a r k 尺度子波变换及其在混叠语音分离中的应用 些学者在此领域有所突破,例如h o u t s m a 和s m u r z y n s k i 提出了基于神 经脉冲发放自相关函数的音调感知技术模型,将时域感知模型和变 换域感知模型融为一体,并获得了较为满意的音调提取效果。可以预 见,声场景分析方法在语音信号处理方面的发展是值得探讨的。 基于上述考虑,本课题的主旨是基于声场景分析的方法。目前, 国外学者运用声场景分析方法进行混叠语音的分离也仅限于两个音素 混叠的情况】,而国内鲜有这方面的报导。 1 2 声场景分析及应用简述 基于声场景分析实现混叠语音分离的基本思想是:首先模拟人耳 生理特征,从混叠语音信号中提取一系列感知要素;然后将这些感知 要素按照一定的特征进行分组,形成可以对某路信号进行感知的“听 觉流”;最后利用来自同一声源的感知要素重新合成或重建语音信号, 从而实现从混叠语音中分离出感兴趣的目标语音1 6 1 。 为完成上述步骤,需要对观测的混合信号进行各种各样的“变 换”。需要注意的是,这里的混合信号是由占据相同频带的信号在时域 中的混合,很难通过经典的频域滤波等方法实现。因此声场景分析往 往通过某种“变换”提取出可按照不同声源进行分组的感官要素。再 在变换域中对这些分组后的感官要素“反变换”,从而实现混合语音的 分离处理。 目前已经提出的变换方法可分为两大类:采用听觉滤波器组 或进行相关计算;根据人耳和大脑的生理特性采用人工神经网络算 法。本文采用前一种方法。 计算声场景分析对语音信号混合过程没有特殊的要求,不受反射 声、折射声及源信号因路程差所引起的畸变的影响,同时对进入系统 处理的混合后信号的个数也没有特别的要求。 图1 1 给出了声场景分析的框图。待处理的混叠语音信号进入模 b a r k 尺度予波变换及其在混叠语音分离中的应用 拟人耳耳蜗的各个通道,相应地在每个通道都进行感知要素的提取, 并进行组合,以此为依据,再从新合成。 冈叵 图1 - 1声场景分析框图 图1 2 给出一种具体的基于声场景分析的混叠语音分离框图( 以 基音为主要感知要素) 。这个框图主要分为四个部分:语音输入、语音 分离、语音合成以及语音输出。 语音输入是指对待处理的语音信号进行采样,转换为计算机可处 理的数字信号。 语音分离是处理的关键,包括预处理、基音跟踪、基音提取和频 谱分离。预处理主要对连续混合语音信号进行归一化,并加窗分帧; 基音跟踪和基音提取指模拟人的听觉系统,对信号进行子波和变换域 处理,在短时频谱中提取含有谐波信息的峰值点;这里得到的峰值点 是混合语音信号的峰值点,在下面的频谱分离等步骤中,将利用频率 变化和幅度变化的缓变性从这些峰值点中得到各个声源的基音和谐波 分量。 合成部分利用分离部分得到的基音周期轨迹曲线,求取与之对应 的谐波信息,运用适当的算法使之与原信号的频率、幅度和相位相匹 配,并对合成语音信号进行平滑和优化。 语音输出是指将处理好的语音分别通过媒体设备输出。 笙二翌! ! 壹 ! 竺! 垦堕王垫壅堡墨茎垄堡墨堕童坌塑! 盟壁里一 语音输入部 语音分离部 语音合成部 语音输出部 图1 - 2一种基于基音流的混合语音分离框图 4 ! ! ! ! 鉴堕王垫壅堡丝堑垒;堡垦曼童坌曼! 堕生旦蔓三主型塑墨坌堑垄堂! 羔! 竺一 第二章声场景分析及数学模型 2 1 听觉生理 近年来,由于在听觉生理和心理学方面采用了新的实验手段而取得 了突破性的进展,为我们提供了较充分的听觉系统的生理知识和大量 的观察数据。实验发现,人的听觉系统是一个十分巧妙的音频信号处 理器,听觉系统对声音信号的处理能力就来自于它巧妙的生理结构。 2 1 1 听觉系统 如图2 1 所示是人的听觉系统示意图。一般人们肉眼能看见的耳 朵,实际上是听觉器官外表的部分,也是比较不重要的一小部分。就 听觉的完整意义来讲,人们感知外界各种声音,必须具备完整的听觉 系统,这个系统包含两个部分,即外周部分和中枢部分。 图2 - 1人的听觉系统示意图 听觉系统的外周部分是听觉器官最为重要的部分,或叫听觉末梢 感受器、听分析器。主要由外耳( 耳廓、外耳道和鼓膜) 、中耳和内耳 第二章声场景分析及数学模型 b a r k 尺度了波变换及其在混叠语音分离中的应用 迷路构成。 外耳由位于头颅两侧呈贝壳状的耻廓和向内呈“s ”状弯曲的外耳 道组成,它的主要作用是收集声音、辨别声源,并对某些频率的声音 有扩大作用。 中耳是鼓室、鼓窦、乳突和咽鼓管四个部分的总称,其中与声音 传导关系最为密切的是鼓室和咽鼓管。鼓室又称中耳腔,外起自鼓膜, 内达鼓岬。整个鼓室的容积很小,在成人仅为2 m l ,但其中有锤骨、 砧骨和镫骨组成的听骨链,有起保护内耳作用的鼓膜张肌和镫骨肌, 有悬挂和固定听骨链的运动再传到内耳外壁上的前庭窗。由于鼓膜的 面积比前庭窗大出许多倍( 5 5 :3 2 ) ,听骨链又有类似于杠杆的作用, 所以人声音从鼓膜到达内耳时,能量扩大了2 0 多倍,从而补充了声音 传播过程中的能量消耗。咽鼓管是沟通中耳和鼻咽部的管道,它的规 律性开启,调节着中耳腔和外界大气之间的压力平衡,从而保证中耳 功能的正常发挥。从上述内容可以看出,中耳的主要功能是改变增益, 提高声音传导过程中的能量。 图2 - 2耳蜗示意图 内耳的主要构成器官是耳蜗,如图2 2 所示。它是听觉的受纳器, 形似蜗牛壳,为螺旋样骨管。蜗底面向内耳道,耳蜗神经穿过此处许 多小孔进入耳蜗。耳蜗中央有呈圆锥形骨质的蜗轴,从蜗轴有肌螺旋 b 甜k t 度于波变换肢i 4 - 混叠语音分离中的应用 第一二章声场景分析及数学模型 板伸入骨蜗管内,由耳蜗底盘旋上升,直达蜗顶。从骨螺旋板外缘有 二薄膜连接骨蜗管外壁,与螺旋板平行延伸的薄膜叫基底膜,又称 r e i s s n e r 氏膜,因此,骨蜗管便被基底膜和前庭膜分隔成前庭阶,鼓 阶和蜗牛管三个管道。蜗管内储内淋巴,为一封闭的盲管。前庭阶和 鼓阶内储外淋巴,并在蜗顶借蜗孔相交通。 2 1 2 耳蜗的生理学作用 当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变 化,从而引起行波沿基底膜的传播。不同的频率的声音产生不同的行 波,而峰值出现在基底膜的不同的位置上。频率较低时,基底膜振动 的幅度峰值出现在基底膜的顶部附近;相反,频率较高时,基底膜振 动的幅度峰值出现在基底膜的基部附近( 靠近镫骨) 。如果信号是一个 多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大的幅 度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解 成各种频率分量。 基底膜的振动引起毛细胞的运动,使得毛细胞上的绒毛发生弯 曲。绒毛的弯曲使毛细胞产生去极化或超极化,从而引起神经的发放 或抑制。在基底膜的不同部位的毛细胞具有不同的物理学特征。在耳 蜗的基部,基底膜窄而劲度强,外毛细胞及其绒毛短而有劲度;在耳 蜗的顶部,基底膜宽而柔和,毛细胞及其绒毛也较长而柔和。正是由 于这种结构上的差异,因此它们具有不同的机械谐振特性和电谐振特 性,也就有了不同的频率选择性。 刚能引起人耳听觉反应的最小声音刺激量,称为听阂。将各频率 的听阈以线段连接,形成听阈曲线。若继续增加声音刺激强度,刚能 引起入耳不适或疼痛的最小刺激量,称为痛阈。将各频率的痛阂以线 段连接,形成痛阈曲线。听阈曲线和痛阈曲线之间的范围,称为听觉 第一章 声场景分析及数学模型b a r k 尺度了波变换及其在混叠语音分离中的麻用 区域。人耳对不同频率声音的敏感程度不同,以中频声音( 1 0 0 0 h z ) 最敏感,高频声音次之,对低频声音的敏感性最差。 2 2 听觉心理( 感知) 9 0 年代初,加拿大科学家a s b r e g m a n 在其著作( ( a u d i t o r ys c e n e a n a l y s i s ) ) 中提出了声场景分析的一系列理论1 1 8 i 。他认为人对声音的 感知过程也就是对声音分量的组合过程,而正是这一种组合过程使得 人可以将混合声音中同一人所发出的声音分量组合到同一个声音流 中。大致说来,有这么两种组合的原则: ( 1 ) 同时组合。这种组合是将同时存在的不同频率范围的声音 分量组合在一起,如图2 3 所示。 图2 3声音流的频谱分解与合成示意图 由单音a 、b 和c 组成的复音所构成的循环声音流。c 的频率最 高,a 其次,b 最低。a ,b 同时开始,同时结束。在每次循环中a , b 在时间上先于c 。当听者听这一段循环语音时,他既可以认为存在 一个a b 组成的复音和单独的c ,也可以认为是一个由a c 组成的声 音流与另一个单音b 。实际上,这两种情况都有可能发生,主要取决 b a r k 尺度予波变换及_ l = 疆+ 混叠语音分离中的应用第二章声场景分析及数学模型 于以下几个因素:第一是谐波之间的调和度,人的听觉系统倾向于将 具有相同基音的谐波组成一组,这被称为谐波原则。在现实中,同一 声源所发声音的各个谱分量都大约是一个基音的整数倍。因此很自然 地就会想到把基音作为分组的一个原则。当人的听觉系统在一个复合 声中找到了多个基音,人脑就认为基音的个数就是组成这个复合声的 个数。第二个是音调a 、b 之间的同步性。如果a 、b 的开始和结束 都是同步的,那么人的听觉系统就趋向于把a 、b 认为是一个单独的 复音。不同的谐波分量间即使是很小的时间差异( 几十毫秒) 也会导 致人对这些谐波声音分量的主观分离。第三是音调a 、c 之间的接近 程度。它们之间在频率上越接近,听者越容易把a 、c 听成是一个与 b 相独立的声音流。第四是声音的强度。来自不同声源的声音往往具 有不同的声音强度。第五是声音的空间相位。人的听觉系统倾向于将 来自相同空间方位的声音组合在一起。 ( 2 ) 序列组合。这种组合是将一串声音分量按时间先后组合到 一个或多个声音流中。 每个声音流中的声音分量都被认为是来自同一声源。声音流的 时序分割与组合是人的一种听觉心理现象,主要是两个因素影响着人 对声音流的时序分割和组合:第一是频率差。在声音流的循环速度一 定时,高、低音调间的频率差越大,声音流分离的现象越明显。第二 是高低音间变化的速度。在高、低音调间的频率差一定时,高低音间 的速度变化越快,声音流分离的现象越明显。 b r e g m a n 认为,人对声音的序列组合是一种后天性的,通过对周 围环境的学习和适应所具有的能力,而对同时组合则是人的一种先天 性的能力。 经过大量对人的听觉系统的实验,b r e g m a n 在听觉心理特征的基 础上总结了听觉声场景中的一些准则。在后来的许多听觉系统的数学 模型中,都体现着这些规律。例如: 独占分配准则。在听觉心理特性中,独占分配原则是指人的饿听 第二章声场景分析及数学模型b a r k 尺度子波变换及其在混叠语音分离中的应用 觉系统认为任何一个感官要素( 如音调) 只能分配给一个声音流,而 不能同时分配给两个或多个声音流。 连续准则。在现实生活中事物或现象多是连续的,但进入人的感 觉器官的信息却往往被其他的信息所阻断,从而人接收到的信息是非 连续的。然而,人脑能够将这些离散的信息合理地组合起来,得到对 事物或现象的整体认识,这就是连续准则。 虽然b r e g m a n 的研究只是对人的听觉心理的一些定性准则,但很 多有效的声场景分析方法都是以此为基础的。 2 3 语音模型 从人的发音生理来看,声带振动是产生语音的最重要的激励源。 勺状软骨能使声带闭合和张开。当气体被迫通过声带时,就会象号手 的嘴唇一样产生振动1 3 3 】。这样的振动由声带的质量和张力决定,此外 还与气体通过时的伯奴利效应有关( 参见f l a n a g a n l 9 7 2 年所写的论 文) 。声带的张开和闭合使气流形成一系列脉冲,如图2 - 4 ( a ) 所示。这 些脉冲的重复率称为基音。基音主要受声带张力控制,并受进入耳和 脑的反馈语音调节。振动方式有不同的种类,s i n g e r s 将这些方式称为 “换音区”( 胸腔音、头腔音、假音) 。当气压较低时( 例如语言的非 重音区或句子的结尾处) ,振动可能没有规律,偶尔音调下降八音度, 好象重复率降低一半,或者脉冲成对出现,如图2 - 4 ( b ) 所示。这些不 规则的现象称为“语音激励”。 几u 八八_ l 八八八八八八八八 ( 。,冉型的声门髀神串 皓) 戚对出现的声门脉冲 图2 - 4声门脉冲对 ! 竺! 鉴壁王丝壅堡丝基堑望垦堕童坌查生鳖生旦 苎三皇苎塑墨坌堑丝垫兰! ! 兰l 语音信号完整的数字模型如图2 5 所示:由冲激序列发生器输出 的单位冲激序列,其冲激之间的间隔即为所要求的基音周期,这一冲 激串去激励一声门脉冲模型,经过a v 幅度控制后的输出即为所要求 的浊音激励,在清音情况下,由随机噪声发生器产生的随机噪声经a n 幅度控制后产生所要求的清音激励。这些激励在一个浊音清音开关控 制下,通过声道模型、辐射模型组成的线性时变系统产生语音信号。 图2 - 5语音产生的数字模型 任何语言的语音都有清音、爆破音、浊音的区分,针对各类音产 生机理的不同处理的方法也有所不同。浊音具有明显的准周期性,具 有较强的幅度、较高的短时能量,其周期对应的频率就是基音频率。 为了提取出浊音的基音频率,可以从时域、频域、子波域变换或同态 卷积等角度出发解决问题。而清音和爆破音在时域波形上表现为一段 近似白噪声的波形,有明显的非周期性,频谱能量集中在高频区,清 音合成的过程可利用随机白噪声通过声道函数来模拟口2 1 。 针对数字语音信号,处理的方法常常分为时域方法、频域方法、 同态方法、线性预测编码方法以及子波变换等。处理的目的是通过对 语音信号进行分析,求出其特征参数,通过获取的特征参数对语音信 号进行加工,例如去掉背景噪声、进行信号平滑、从合成信号中提取 有用信号、语音压缩及合成、语音识别等。 本文则是以声场景分析的方法,通过b a r k 子波的引入和信号的频 塑三至兰堑墨坌堑垄墼兰堡型! 坐垦壁至垫壅垫丝苎垄望墨堡童坌重蔓塑坠! 旦一 域变换来解决低信噪比和混叠语音情况下目标语音的提取。 1 2 b 。r k 尺度子波变换及其在混叠语音分离中的应用笙三童王堕塑堕! 王坠! 婆堕三坠 第三章子波概述与b a r k 子波的引入 3 1 傅立叶变换及子波变换 为了求取浊音信号的基音频率,短时傅立叶变换是常用的,经典 的手段之一。而子波变换在近年来较流行使用,因为其求取奇值点的 准确性和有效性使它在基频求取上的使用日趋普遍。因此,比较一下 这两种分析手段十分必要。 3 1 1 短时傅立叶变换 信号的傅立叶变换能很方便地确定线性系统的正弦或复指数和 的响应,因而能深入地说明信号的某些物理特性。语音信号是随着时 间变化的,通常认为,语音是受准周期脉冲或随机噪声激励并通过声 道系统的输出【7 】。激励和声道信息随时间发生缓慢变化,在l o 2 0 m s 内可以认为是不变的。出于这样的认知,将语音信号分成一些短段( 分 析帧) 来进行处理,并在帧与帧间有一定的重叠。相应的,将傅立叶 变换修正为短时傅立叶变换,用时窗函数g ( f ) 对时变信号m ) 进行加窗 处理,以实现时域的局部化,具体的公式推导可参见参考文献【3 4 】。如 果在窗口足够窄的情况下认为信号是平稳的,则可定义短时傅立叶变 换为: x ,( 聊,c o ) = f x ( t ) g ( t - m ) e - j 。d t ( 3 1 ) 其中,0 9 是局部化频率,棚是有限窗函数的窗口位置。 图3 - 1 是短时傅立叶变换计算过程的示意图。 实验证明,这种方法对语音处理,特别是无噪声背景的单人语音, 具有准确性高,计算速度快的特点,但它也有很明显的局限性。根据 笙三皇王垫塑垄皇! 坐王鎏塑! ! 垒 ! 坐垦堕王垫壅垫垦茎垄塑墨堕童坌曼! 塑丝旦 h e i s e n b e r g 的测不准原理,在频域上精确度的提高就意味着时域上的 精确度下降,反之亦然。也就是说,要检测出细微的频率变化,理论 上就要求无限长的分析窗,这在实际应用中不可能实现。 3 1 2 子波变换 图3 - 1滑动时窗与短时傅立叶变换 为了克服短时傅立叶变换固定分辨率的缺陷,希望用于分解信号 的基函数是持续时间很短的高频函数和持续时间较长的低频函数。严 格的说,就是要求其有足够的光滑性,函数本身及其倒数在无穷远处 速降,具有紧支撑集和高阶消失矩,其傅立叶变换函数集中在原点附 近。 从数学角度分析,子波是满足这种要求的一类函数。子波,这个 特定的名字来源于它的积分应为零,且沿着x 轴上下波动的要求,即: 妒( f ) 出= o ( 3 2 ) 用子波变换来处理信号时,不同尺度的子波变换后所获得的子波 变换系数上可以看出,随着尺度的增加,其变换在频域上的分辨率不 断增加,而在时间上的分辨率不断递减。用子波变化的多尺度分析的 方法来考虑问题的话,能在时、频域两者间取得较好的平衡。 b a r k 尺度于波变换及其在混叠语音分离中的应用塑三童王塑塑堕皇呈塑望幽全 子波的类型有很多种,例如:光滑子波,紧支撑子波,简单数学 表达式的子波等。图3 - 2 给出了一些不同阶数的紧支撑双正交子波函 数的例子。 圈3 - 2紧支撑双正交子波函数( 4 阶、8 阶、1 2 阶、1 6 阶) 与傅立叶变换中的s i n 函数和c o s 函数样,子波是作为基函数来 再现其他函数的。一旦子波函数( 有时也称为母波) y ( x ) 定下来后, 通过母波移( 孚) ,( 口,6 ) e r + r 的伸缩和平移来形成一组子波基。在定义 子波基时,可以很方便地对a 和b 取一些特殊值:d = 2 一,和b = k 2 ,其 中k ,为整数。 如果函数y ( x ) e 2 ( 只) 满足允许性条件 c 。=挚 。 或 y ( ,) 斫= o ( 3 3 ) 称_ l f ,是一个“基子波”,对于每一个基子波,函数,在2 ( 月) 上的 积分子波变换定义为 w f ( 口,6 ) = 少:,。( x ) ,o ) a x ( 3 4 ) 笙三主王然丝垄兰曼竺! 王鎏堕! ! 垒 璺! 尘垦壁至鎏壅堡丝苎垄堡垒堕笪坌堕主塑堡旦 积分子波反变换为: 厂( 石) = 专“谚( 啪) 融) 鲁幽 ( 3 5 ) 子波的分解结果可以看成是信号通过组滤波器的结果,其轮廓 信号为通过低通滤波器的结果,其细节信号为通过高通滤波器的结果。 图3 3 所示是用图像方式绘制时间一尺度域的子波变换系数( 3 2 阶) 。 图3 - 3子波变换系数 浊音发声时,在声门闭合的瞬间,声道受到较强的激励,在语音 信号中产生一个锐变,显然可以使用合适的比例因子,利用子波变换 检测其锐变信息,得到基音周期。但当信噪比低时,子波变换同样会 产生误判。针对这一问题,我们引入子波变换( 基于人耳听觉特性的 b a r k 子波) 和自相关相结合的方法来解决问题9 1 ,这在下一章会详细 阐述。 b a r k 尺度子波变换及其在混叠语音分离中的应用 第三章子波概述与b a r k 子波的引入 3 2b a r k 子波 b a r k 子波是一种基于人耳听觉生理而构造的子波变换,它具有 可逆且自反演、非正交但确超完备的特性,十分适用于语音信号处理 的研究i 。 3 。2 1 b a r k 子波的引入 子波变换采用多辨率分析的思想,非均匀地划分时频空间,频率 较低的信号成份的持续周期较长,可用较高的时间分辨率进行分析; 频率较高的信号成份则相反。对于一般的语音信号,能量主要集中在 4 k h z 以下的区域中,利用子波变换可使本来不易察觉的信号特征在不 同分辨率的若干予空间中显露出来,因此可被运用于基频信号的提取。 问题在于一般的子波变换的频域划分都是一种倍频关系,与人耳的固 有感知频率并不吻合。 人耳的感知频率见表3 - 1 : 第三章子波概述与b a r k 子波的引入b a r k 尺度子波变换及其在混叠语音分离中的应用 表3 - 1 临界频带 临界频频率( h z )临界频频率( h z ) 带低端高端 宽度 带低端 高端宽度 0ol o o1 0 01 32 0 0 02 3 2 03 2 0 1 1 0 02 0 01 0 01 42 3 2 02 7 0 03 8 0 2 2 0 03 0 01 0 01 52 7 0 03 1 5 04 5 0 33 0 04 0 01 0 01 6 3 1 5 03 7 0 05 5 0 44 0 05 1 01 1 01 73 7 0 0 4 4 0 07 0 0 55 1 06 3 01 2 01 84 4 0 05 3 0 09 0 0 6 6 3 07 7 01 4 01 95 3 0 06 4 0 01 1 0 0 7 7 7 09 2 01 5 02 06 4 0 07 7 0 01 3 0 0 89 2 01 0 8 01 6 02 17 7 0 0 9 5 0 01 8 0 0 91 0 8 01 2 7 01 9 02 29 5 0 0 1 2 0 0 02 5 0 0 l o1 2 7 01 4 8 02 1 02 31 2 0 0 0 1 5 5 0 03 5 0 0 1 11 4 8 01 7 2 02 4 02 41 5 5 0 02 2 0 5 0 6 5 5 0 1 21 7 2 02 0 0 02 8 0 已有的研究和实验表明,耳蜗的基底膜对外来声音信号有频率选 择和调谐作用,对不同的中心频率,在相应的临界频带内的信号会引 起基底膜上不同位置的振动f 4 】。在1 0 0 h z 至2 2 k h z 的听阈内,组成2 4 个临界频带,这种临界频带在b a r k 标度上的带宽是恒定的,它与诸如 掩蔽效应等感知效应相关。用b 表示以b a r k 为尺度的临界频带( 即 c r i t i c a lb a n dr a t e ) ,它与频率厂的关系为i s : b ( b a r k ) = 1 3 + a r c m n o 7 6 f ( k h z ) + 3 5 + a r c t a n f ( k h z ) 7 5 】2( 3 6 ) 构造b a r k 尺度子波变换所需的子波母函数选择形式为( 6 ) = e - q b 2 的高斯函数1 2 “,且母子波在b a r k 域的带宽均为单位宽度,即1 b a r k , q 为待定常数。假定待分析语音信号在b a r k 域上的频带宽度为 岛,如】, ! ! ! ! 墨壁至婆壅垫垄苎垄堡墨堕童坌塑生塑窒旦笙兰里王丝塑堡兰里型生型塞堕型尘二一 则定义子波函数b a r k 域的形式为 陟( 6 ) = w ( b b 一k a b ) k = 0 , 1 ,一,k 一1( 3 7 ) 式中a b 为w a b ) 的平均步长,由b a r k 域等带宽特性,有 a b :限一b , ) k l ,k 为尺度参数。 由( 1 ) 式可将w a b ) 转换到线性频率下的b a r k 子波函数表示形式 睨( 厂) 。并由此进一步可在线性频率域下定义b a r k 子波变换: 巴 b ( f ) = i s ( 厂) ( ,弦口硝d f ( 3 8 ) 式中s ( 厂) 为待分析语音信号的频谱。图( 3 4 ) 给出了线性频率域 b a r k 子波簇示意图。 图3 4线性频率域下b a r k 子波簇示意图 3 2 2b a r k 子波的性质 从感知域滤波器组角度讨论到出了b a r k 子波函数的定义及其变 换式,容易验证 蝌 ( 3 9 ) 而又由于b 的定义是单调函数,所以b a r k 到线性频率的转换并不 影响上式的成立,故此b a r k 子波是满足“可容许性条件”的,也就是 说b a r k 子波变换是可完全重构的。实际上如果从工程近似的角度出 发,可以简单地验证这一点。首先,由w k ( b ) 定义,有: 第三章子波概述与b a r k 子波的引入b a r k 尺度子波变换及其在混叠语音分离中的应用 f 2 w 女( b ) - - 1 ,0 占i 6 6 2 ( 3 】o ) 其中c ,为常数。 并注意到线性频率与b a r k 频率之间并不影响上式的成立,于是就 有 k ik loo k l s 。( ,) = 孵( 厂) s ( ,) e j 2 研a f = ( n s ( 厂) e j 2 面a f = p ( 厂) p 脚a f = 5 ( 厂) ( 3 11 ) 式中s k ( t ) 为k 通道b a r k 子波语音信号。 于是可以把上式称之为b a r k 子波在工程意义上的完全重构条件。 总之,b a r k 子波是可逆的且是自反演的、非正交的确是超完备的,也 即b a r k 子波簇构成了紧框架。这一性质对b a r k 子波变换在语音编码 和合成等领域的应用尤其是有益的。 图3 5 是利用b a r k 子波对男声语音“苏大”进行分解和重构,从 中可清楚的看到,重构的波形基本保留了原始信号的细节信息。 ! ! ! ! 鉴壁王丝壅堡墨基鱼望垒堕宣坌塞箜! 兰旦一笙兰皇塑型塑墨旦垦喳立型型坐i 垒二一 ( a ) ( b ) 1 ( c ) o 1 1 ( d ) o 1 o1 0 0 2 0 03 0 0 帕0 5 0 06 0 0 01 0 口 2 0 0 图3 5 3 0 04 0 0 5 0 06 0 0 b a r k 子波重构 图( a ) 为原始语音,图( b ) 为b a r k 子波重构后的波形; 图( c ) 和图( d ) 为其中一帧信号的原始波形和重构波形的对比 2 l 第叫章基于b a r k 予波的混叠语音基音提取 b a r k 尺度子波变换及其在混叠语音分离中的应用 第四章基于b a r k 子波混叠语音基音提取 4 1 基于归并的清浊音和音节切分 对一段语音信号进行处理,首先要进行有无声,清浊音的判别 和音节的切分。这里,我们给出了一种基于相似语音帧合并的判别方 法,实验证明,这种方法是行之有效的。 4 1 1 语音帧的参数及性质分析 在说话的时候经常会有短暂的停顿,即使是一个单词有时中间也 有不太明显的过渡区间,这些都是由声道特征决定的。在从一个单字 过渡到另一个单字的过程中声道、口腔形状、嘴唇形状都在发生变化, 而这一变化的发生需要一段极短的时间。象这些句子或单词中的停顿 都造成了语音后续处理过程中的冗余,而这种冗余即使在混叠语音中 也有相当的比例。为此,在整个系统的最初阶段所需做的工作就是进 行有声、无声的判别。将判别为有声的语音段再送入后续过程。 语音是由空气流激励声道产生的。通过声卡采样录入的三类音: 浊音、清音和爆破音各有其自身的特点。首先浊音:它具有很明显的 周期规律性,能量集中在5 0 3 5 0 0 h z 这一频域内,过零率在三类音中 属于居中的情况,而短时能量最大;而清音和爆破音:它无明显的周 期规律性,类似白噪声,能量集中在高频区( 3 5 0 0 h z 以上) ,过零率 在三者中最高,而短时能量较低。 如果按音节细分,可划分为以下几类:静音、噪声、类声母、 二类声母、伪静音、韵母和韵尾,它们分别有如下含义。 静音( s i l ) 和噪声( n o i ) :静音是指能量和过零率都很低的信 号,它不包含语音信息。而当环境噪音比较强时,静音转变为噪声。 b a r k 尺度了波变换及j e 在混叠语音分离中的应用第心章基于b a r k 子波的混叠语音基音堡壁 一类声母( s m l ) 和二类声母( s m 2 ) :对声学特征的研究和统计 表明,l , m ,n ,r 具有类似于韵母的特点,我们把它归入二类声母的状态, 即可把它归入浊音类;剩下的声母特征和韵母有较明显的区分,我们 把它归入一类声母的状态,即可把它归入清音和爆破音类。 伪静音( p s u d o s i l ) :有些音节在发音时,声母和韵母中间有 一个能量的“低谷”。比如“k a i ”,声母“k ”和韵母“a i ”的能量都 比较高,但它们之间的过渡段的能量却很低,类似于静音。如果把它 归到静音状态,显然会发生错误。为了对这种情况加以区分,我们在 这里引入了伪静音的状态。 韵母( y m ) 和韵尾( y w ) :韵母的一个很明显的特点是,它具 有准周期,较高的能量和适中的过零率。当发音从一个音节转变到下 一个音节时,韵母部分能量和过零率都有比较明显的下降,这就是韵 尾状态,它们均可归于浊音处理。 其状态转换图如下图4 - 1 : 图4 。1 音节状态转换 笙型! 苎主! 竺! 王丝堕堡垒堕童苎童塑壁 ! 坐墨壁王丝壅堡丝些鱼望垦堕童坌曼主堕生旦 通过大量的实验,我们得到了各个状态和特征参数之间的大致规 律如表4 - 1 1 2 7 1 : 表4 1 语音状态和帧参数的关系 静音噪声一类声母二类声母伪静音韵母韵尾 规整能量 i 0 0 5 0 0i 0 0 1 0 0 0 过零率 5030 1 05-8030 基音周期无无 无有无有无 规整能量: 语音信号的短时规整能量为: e 。= x ( 聊) 脚( n 一) 2 ( 4 1 ) 脚( ) 为截取语音信号的长度有限的窗序列。 令厅( ”) = 0 32 ( ) ,则有 e = x ( 棚) 2 h ( n 一脚) ( 4 2 ) ) 是低通滤波器的单位响应。 过零率: 语音信号的短时平均过零率定义为: z 。= s g n 【x ( ”) 】一s g n x ( n 一1 ) 甜一m ) ( 4 3 ) 一般取 ( 肝) : 素 o ”s 一1 ( 4 4 ) o其它 信号的过零率是其频率量的一种简单的量度,窄带信号尤其如 此。特别地,当信号为单一正弦波时,过零率为信号频率的二倍。对 b a r k 尺度了:波变换及j e 柱混叠语音分离中的应用第叫章苎堡! ! 王丝竺堡叁堕童苎堂堂里 于过零率为f 、频率为r o 的正弦波数字信号,平均每个样本过零率为 。 从上述定义出发计算过零率容易受低频干扰,为此我们此定义做 一点修改,设一个门限r ,将过零的含义修改为跨过正负门限。于是 有定义: z 。= ( s g n x ( n ) - t 一s g n x ( n 一1 ) 卜t i + s g n x ( n ) 一7 1 一s g n x ( n 1 ) 一丁f ) c o ( n 一所) ( 4 5 ) 这样计算的过零率就有一定的抗干扰能力了。即使存在小的随机 噪声,只要它不使信号越过正负门限所构成的带,就不会产生虚假的 过零率,可改善检测效果。 4 1 2 相近语音帧的归并 在同一个音素的发音过程中,声道会在一定的时间间隔内保持稳 定;而当从一个音素过渡到下一个音素时,声道会发生变化。因此, 如果连续几帧语音特征没有发生比较大的变化,我们有理由认为它们 是属于同一个音素的。基于此,我们引入了对这种特征相近的帧进行 “归并”的概念。 在进行归并之前,我们首先检察语音特征是否发生“转折”。这 又分为两种情况,分别描述如下: i 类转折:特征发生突然变化,即当前帧的能量( 或过零率) 大 于前一帧能量( 或过零率) 的口倍;或当前帧的能量( 或过零率) 的甜 倍小于前一帧能量( 或过零率) ( 这里取甜= 2 ) 。 i i 类转折:特征发生缓慢变化,即当前帧的前丁帧语音能量( 或 过零率) 的均值与后r 帧语音能量( 或过零率) 的均值之间存在着类 似于i 类转折中的变化关系( 这里取t :3 ) 。 塑婴至苎! = 呈竺! _ 王丝塑堡壅里童茔童丝壁 旦竺! 墨鏖王鎏壅垫丝茎垄堡窒堕童坌盥士盟些旦 如果当前的语音帧发生了上述的i 类转折或i i 类转折,则给该语 音作上“转折标记( t t ) ”。 连续的一帧或几帧没有t t 标记的语音被归并到同一个归并类似 段( m s s ) 中,它反映了这段语音中各个音素中最稳定的部分。 4 1 。3 实验分析 图4 - 2 表现的是一段男声语音信号“苏大”的波形,其中图( a ) 是原始波形,横坐标对应时间上的各采样点,纵坐标表现的是波形的 幅度;图( b ) 说明的是语音信号在各个短时帧所获得的短时规整能量, 横坐标表示各短时帧的帧数( 每1 0 0 个采样点作为一帧信号进行处 理) ,纵坐标表示短时能量;图( c ) 表现了与信号对应的短时过零率 的波形。 2 0 0 d4 0 0 06 0 0 08 0 0 d1 d d d 0 1 2 0 0 口 2 04 d6 08 01 0 01 2 0 2 04 06 0e 01 0 01 2 d 图4 2语音“苏大”的能量和过零率 ( a ) 原始语音“苏大”( b ) 短时规整能量( c ) 短时过零率 图4 3 展示了通过上述方法实现的对语音信号“苏大”的清浊 音切分。其中图( a ) 是原始波形,横坐标对应时间上的各采样点,纵 j 加 佃 o b a r k 尺度了波变换发j e n :混叠语音分离中的戍用趔! 茸苎璺竺! 王塑堕望垦堡童苎塑丝里 坐标表现的是波形的幅度;图( b ) 是切分出的浊音信号;图( c ) 是 切分出的清音和无音信号。实验证明,此方法能较好的实现音节的判 断和清浊音的分割。 图4 - 3语音“苏大”的清浊音切分 ( a )原始语音“苏大”( b ) 切分出的浊音( c ) 切分出的清音 4 1 4 混叠语音切分的讨论 以上语音的切分都是基于单语音的,当语音混叠时,情况就复杂 多了,不失一般性,我们讨论一下最常见的两个语音混叠的情况。为 简化问题,我们把每一信号划分为三种状态:无声、清音、浊音。 1 当至少一个信号为无声,相当于未混叠,混叠信号可按单语音 处理: 2 当一个信号为清音,另一个信号为浊音,则浊音信息几乎将清 音信息“淹没”,混叠信号只能检测到浊音信息,即清音被处 理为噪声; 3 当两个信号均为清音,则混叠信号被判为清音,两者很难分离; 丝婴兰苎! = ! 坐王垫竺望量堡童兰童堡墼 ! 坐垦鏖三鎏壅堡丝墨鱼望! 堕童坌至塑尘塑! ! l 4 当两个信号均为浊音,则混叠信号被判为浊音,其分离方法可 参见下文4 3 节。 4 2 基于b a r k 子波的含噪语音基音提取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论