(信号与信息处理专业论文)语音带宽扩展算法研究.pdf_第1页
(信号与信息处理专业论文)语音带宽扩展算法研究.pdf_第2页
(信号与信息处理专业论文)语音带宽扩展算法研究.pdf_第3页
(信号与信息处理专业论文)语音带宽扩展算法研究.pdf_第4页
(信号与信息处理专业论文)语音带宽扩展算法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)语音带宽扩展算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 目前数字语音信号主要分为两种,即窄带语音信号和宽带语音信号。当前的电话网 络中,传输的语音信号一般都是窄带的,其可懂性和自然度较差。在不改变现有网络和 设备的情况下,可以通过语音带宽扩展重建高频信号,得到宽带语音信号,从而改善语 音质量。 本文主要研究现有的带宽扩展算法,包括激励信号扩展和频谱包络扩展方法。给出 基于g m m 模型的带宽扩展系统的设计和仿真,提出一种新的激励产生方法。同时首次 将小波变换应用于带宽扩展,给出基于小波变换重构宽带信号的方法。 本文的主要工作如下: ( 1 ) 研究语音信号产生过程及其数字模型,主要介绍语音的源滤波器模型,给出带 宽扩展基本方法。 ( 2 ) 介绍语音信号的一些分析技术,主要阐述了语音信号的线性预测分析原理,同 时给出语音信号小波分析的基础知识。 ( 3 ) 根据语音信号产生的源滤波器模型,研究现有的带宽扩展算法,包括激励信号 和包络扩展的各种算法。 ( 4 ) 基于g m m 模型设计了一种带宽扩展系统,并提出一种新的激励扩展算法。另 外,提出一种基于小波变换的带宽扩展算法。 ( 5 ) 通过实验比较了原始算法和改进算法的性能,对这两种算法进行客观和主观测 试评价,并给出分析结果。 关键词:宽带信号;窄带信号;带宽扩展;线性预测;小波变换模极大值 语音带宽扩展算法研究 s t u d yo nb a n d w i d t h e x t e n s i o no fs p e e c hs i g n a l a b s t r a c t n o w a d a y s ,t h e r ea r et w ok i n d so fs p e e c hs i g n a l s ,n a r r o w b a n ds p e e c ha n dw i d e b a n d s p e e c h i nt h ec u r r e n tp u b l i cs e r v i c et e l e p h o n en e t w o r k ,t h es p e e c hs i g n a l i sn a r r o w b a n d , w h o s ei n t e l l i g i b i l i t ya n dn a t u r a l n e s sa r ep o o r w i t h o u ta n yc h a n g eo fc u r r e n tn e t w o r ka n d d e v i c e s ,h i g h e rb a n ds i g n a lc a n b eb u i l tu pf r o mn a r r o w b a n ds p e e c hv i ab a n d w i d t he x t e n s i o n t h ew i d e b a n ds p e e c h ,w h i c hc o n s i s t so ft h er e b u i l th i g h e rb a n ds p e e c ha n dt h eo r i g i n a l n a r r o w b a n ds p e e c h ,g i v e sb e t t e rq u a l i t y i nt h i st h e s i s s e v e r a lm e t h o d sf o rb a n d w i d t he x t e n s i o na r ed e s c r i b e d ,i n c l u d i n g g e n e r a t i o no fe x c i t a t i o ns i g n a la n de x t e n s i o no fs p e c t r a le n v e l o p e ab a n d w i d t he x t e n s i o n s y s t e mb a s e do ng m m m o d e li si n t r o d u c e d ,a n dan e wm e t h o do ng e n e r a t i o no fe x c i t a t i o ni s p r e s e n t e d u n p r e c e d e n t e d l y ,w a v e l e tt r a n s f o r m i sa p p l i e dt ob a n d w i d t he x t e n s i o ni nt h i s t h e s i s am e t h o db a s e do i lw a v e l e tt r a n s f o r l nm a x i m u mt or e c o n s t r u c tw i d e b a n ds p e e c hi s p r o p o s e d t h em a i nt a s k si nt h i st h e s i sa r ea sf o l l o w s : ( 1 ) t h ep r o c e s s i n ga n dm o d e lo fs p e e c hs i g n a l sp r o d u c t i o na r es t u d i e db r i e f l y t h e s o u r c e f i l t e rm o d e la n dl i n e a rp r e d i c t i o no fs p e e c ha r ea l s oi n t r o d u c e d a n da l g o r i t h m so f b a n d w i d t he x t e n s i o na r ed e s c r i b e d , ( 2 ) t h ef e a t u r ec o e f f i c i e n t so fs p e e c hs i g n a l a r ei n t r o d u c e d t h el i n e a rp r e d i c t i o ni s d e s c r i b e di nd e t a i l a n da na p p l i c a t i o no fw a v e l e tt r a n s f o r mf o rs p e e c hs i g n a li sd i s c u s s e d ( 3 ) b a s e do nt h es o u r c e f i l t e rm o d e l ,t h ep r e s e n t e dm e t h o d sf o rb a n d w i d t he x t e n s i o na r e b r i e f l yd i s c u s s e d s e v e r a lm e t h o d sf o rg e n e r a t i o no ft h ee x c i t a t i o ns i g n a la sw e l la se x t e n s i o n o fs p e c t r a le n v e l o p ea r ed i s c u s s e d ( 4 ) ab a n d w i d t he x t e n s i o ns y s t e mb a s e do ng m mm o d e l i si n t r o d u c e d ,a n dan e w m e t h o do ng e n e r a t i o no fe x c i t a t i o ni sg i v e n i na d d i t i o n ,an e wb a n d w i d t he x t e n s i o n a l g o r i t h mb a s e do nw a v e l e tt r a n s f o r mm a x i m u m i sp r o p o s e d ( 5 ) t h ep e r f o r m a n c e so ft h ep r o p o s e da l g o r i t h m sa r ee v a l u a t e db ye x p e r i m e n t sa n dt h e r e s u l t so fo b j e c t i v ea n ds u b j e c t i v et e s t sa r eg i v e n k e yw o r d s :w i d e b a n ds p e e c h ;n a r r o w b a n ds p e e c h ;b a n d w i d t he x t e n s i o n ;l i n e a r p r e d i c t i o n ;w a v e l e tt r a n s f o r mm a x i m u m i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 盈盘整宣一荭匿垒医銎盈亟 作者签名: 殳船j 缓一 日期:趁聋年垃月j 红日 大连理l 大学硕十学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目:j 胜盘孽焦立睡经眩途壹 作g - 签名: 圣逝缢一 日期:趁掣年j 互月上竺日 导师签名: 钕萎蜀鸶b日期:j 芝扯年三月j l 日 大连理t 大学硕士学位论文 1概述 1 1研究背景 语音是自然的,是声音和意义的结合体,是交流的首要形态【l 】。在当今的通信系统 中,最常见的数据形式就是语音,语音通信已经成为人类通信最基本、最重要的方式之 一。随着通信技术、互联网技术和多媒体技术的日渐成熟,语音通信技术也在不断的更 新并与之融合,这也是语音服务和语音媒介在当今时代取得具大成功的主要原因。 语音通信中应用最为广泛的是电话网络。自从1 9 世纪发明电话以来,电话网络经 历了几次较大的发展,但是随着电话用户的日益增加和人们对通话质量要求的日益提 高,对电话网络的容量和实时性也提出了更高的要求【2 j 。目前,大部分电话网络还属于 早期的窄带电话网络,传输的语音信号带宽只有3 1 k h z u j ,频率在3 0 0 3 4 0 0 h z 之间。 这种窄带语音信号虽然节省了通信带宽,但是降低了语音的可懂度和自然性。人们对更 高质量语音的需求推动了语音编码技术的进步,特别是宽带语音编码技术,在近几十年 里取得了很大的发展。宽带编码的信号带宽一般可以达到7 k h z ,甚至8 k h z ,相比于带 宽在4 k h z 以下的窄带信号来说,宽带信号极大程度上提高了语音信号的可懂度和自然 度。 现在许多终端有处理宽带语音的能力,为了在接收时使用这种宽带能力,必须有新 的编码和更好的电话以及对网络传输结点进行全面修改【4 j 。由于经济原因,旧的电话网 络不可能在短时间内实现真正的宽带传输。一个解决方案是在具有宽带能力的终端中作 一些处理,在接收信号中人- r ;0 口入一些丢失频谱成分,以得到宽带语音信号,这个过程 称之为带宽扩展( b a n d w i d t be x t e n s i o n ,b w e ) 。这就意味着可以使用接收到的窄带信号 扩展得到宽带信号,使用原来的窄带电话网络实现宽带语音通信的效果,以改善语音信 号的质量。其最大优点是不需要改变现有的电话网络系统。 图1 1 接收端的带宽扩展系统 f i g 1 1 b a n d w i d t he x t e n s i o ni nt h er e c e i v e r 图1 1 为典型的带宽扩展系统示意图,只需要在电话网络接收端加个能够实现带 语音带宽扩展算法研究 宽扩展( b a n d w i d t he x t e n s i o n ,b w e ) 的设备即可。在发送端使用传统的窄带发送设备, 例如8 k h z 采样和a d 转换,使用窄带编码器编码传输。在宽带接收端,首先使用传统 的窄带解码器解码得到8 k h z 采样的窄带信号,在解码之后,使用带宽扩展系统,将窄 带信号扩展为采样率为1 6 k h z 的宽带信号。最后,将扩展之后的宽带数字信号进行d a 转换即可得到宽带语音信号,这不但改善了语音信号质量,而且提高了语音信号的可懂 度和自然度。 1 2 语音带宽扩展的发展概况 人们在带宽扩展领域的最初尝试是在1 9 3 3 年,当时试图通过非线性运算的方法实 现扩展带宽。1 9 7 2 年b b c ( 英国广播公司) 提出了一种恢复宽带语音信号的方法【5 】,但是 由于相关技术和知识的缺乏,这种方法并没有得到推广。人们早期研究的带宽扩展的方 法都是基于简单的数字信号处理技术,很少考虑语音信号本身的特征以及人的听觉感知 效应。直到1 9 7 0 年代,由于语音线性预测模型的提出,带宽扩展技术取得了很大的突 破,涌现出一些带宽扩展的新方法。其中大多数算法基于语音产生过程的源滤波器模 型实现 6 - 8 】,还有些如频谱混叠和非线性处理技术等其他非模型算法【9 1 。 在源一滤波器模型中,滤波器参数其实代表语音信号的频谱包络信息,语音产生可 以分解为激励信号合成和频谱包络扩展两个过程,推广到带宽扩展中,就是扩展激励信 号和频谱包络,得到宽带的激励和包络,最终合成宽带语音。在实际应用中一般将这两 部分独立设计,分别对两部分进行算法优化可以使整个系统达到最优l l 川。 频谱包络扩展算法比较成熟,其中典型算法主要有三种: 1 ) 码本映射 该算法基于矢量量化实现。在实现过程中,会建立两个码本,一个码本存储窄带语 音信号特征矢量信息,另一个码本存储宽带语音信号特征矢量信息。两个码本使用宽带 语音序列一起进行训练。其中,第二个码本是隐码本,存储着两个码本之间的对应关系 以及宽带语音信号特征矢量【i t , t 2 1 。 2 ) 线性或分段线性映射 线性映射也是基于矢量量化的方法,但只需要一个描述窄带特征参数的码本。另外 需要一个变换矩阵,实现窄带参数和宽带参数之间的线性变换。根据变换矩阵的个数又 分为线性映射和分段线性映射,分段线性映射有多个变换矩阵,比较符合实际情况,应 用比较广泛。 3 ) 基于贝叶斯概率估计的方法 这类方法使用概率分布来描述窄带和宽带参数之间的关系,典型方法主要有两种: 火连理工大学硕士学位论文 高斯混台模型( g a u s s i a nm i x t u r em o d e l s ,g m m ) 和隐马尔可夫( h i d d e nm a r k o vm o d e l s , h m m s ) 模型。g m m 模型方法由p a r k 和k i m 提出【。7 1 ,通过建立窄带特征参数和宽带特 征参数的g m m 概率分布,使用条件概率匹配得到宽带特征参数。但码本映射和g m m 方法的一个缺点是没有考虑时间相关性。综合语音帧与帧之间的相关性,有人提出隐马 尔可夫方法【8 , 1 3 , 1 4 】。j a x 乃1 发现使用h m m 方法估计丢失频带可以减少带宽扩展信号中不 必要的人造音,明显改善窄带语音质量。 激励信号主要影响合成语音信号频谱的精细结构,如谐波分量等。常用的激励信号 扩展算法主要有以下三种: 1 ) 直接信号产生 这种算法模仿二元激励直接产生激励信号,一般不使用单一种类,而是使用两者的 混合信号,或者是对不同的语音分类使用不同激励。通常用周期脉冲模拟高频谐波分量, 用噪声信号模拟非谐波分量,具体实现时需要估计当前信号的基音周期,以及由此产生 的高频谐波分量信息,对基音周期估计算法要求比较高。 2 ) 非线性失真 对窄带激励信号进行非线性变换得到宽带激励信号,扩展激励信号特性主要取决于 所使用的非线性变换算法。 3 ) 谱折叠和谱平移 将窄带激励信号在频域直接平移或者折叠到高频,相当于直接将低频的谐波结构复 制到高频。对于高频谐波分量较多的信号来说,扩展效果不错。但是,如果高低频谐波 结构相差较大,容易产生较多的“人造谐波”,使扩展语音听起来很不自然。 1 3 本文主要工作及组织结构 实际的电话语音信号在传播、编解码中会引入噪声,这些噪声会影响到接收端的信 号。网络不同,采用的编解码方式不同,引入的干扰也不同。本文主要研究电话网络中 带宽扩展算法,因此忽略这些外部因素的影响。 目前窄带电话网络中传输信号的频率范围是3 0 0 3 4 0 0 h z ,如果要将带宽扩展系统 实际应用在电话语音中,必须考虑0 - 3 0 0 h z 的低频信息。在本文的研究过程中,假设 0 - - - 3 0 0 h z 的低频信号没有丢失,主要研究如何从0 - 4 0 0 0 h z 的窄带信号扩展到0 - 8 0 0 0 h z 的宽带信号。 必须注意的是,语音带宽扩展技术是从人的听觉感知特性出发,改善窄带语音信号 的可懂度和自然性,其扩展语音的质量并不能和真正的宽带信号相提并论【l 。 本文组织结构如下: 语音带宽扩展算法研究 第一章对语音带宽扩展进行概述。 第二章研究人类语音产生的过程,并在此基础上得到语音产生模型,提出带宽扩 展的基本算法。 第三章介绍相关的语音分析技术,给出语音信号小波分析的基础知识。 第四章研究已有的带宽扩展算法,并对每种算法做详细分析。 第五章详细介绍了本文基于g m m 模型和小波变换模极大值的带宽扩展系统的设 计与实现。 第六章介绍了带宽扩展系统的测试方法,通过仿真实验得到两个系统的测试结果, 并对客观和主观结果进行分析。 大连理工大学硕士学位论文 2 语音产生过程及其模型 下面粗略地描述一下人类语音产生过程,给出人类语音产生过程的数字模型,并引 入带宽扩展的基本方法。 2 1人类语音产生过程 图2 1 所示是人类语音产生过程的机械示意图。通过呼吸,空气流过喉管内部开 启的声带( 也就是声门) ,引起声带的张弛振动。声带周期性的开启和闭合会产生周期脉 冲,发出 a 】( e 】 i 】 o 】 u 这类浊音,其脉冲周期时间的倒数称为基波频率或基音频率,范 围大约为8 0 h z ( 男性) 到3 0 0 h z ( 女性或小孩) 。如果声带完全舒展开来,肺部呼出的空 气流将不受影响地通过声门。松弛的声带引起类似噪声的湍流气流,产生听起来像摩擦 音的清音【1 6 , 1 7 】。如果声道( 咽腔、口腔和鼻腔) 的某个部位完全闭合,空气流到达时会产 生空气压力,一旦闭合点突然丌启,气压快速释放,经过声道后便形成“爆破音”。 肌力 图2 1 人类语音产生机理 f i g 2 1 s c h e m ef o rt h eh u m a ns p e e c hg e n e r a t i o np r o c e s s i n g 由此可见,语音是由空气流激励声道而产生的,并且浊音、清音和爆破音三种语音 的激励源不同。浊音的激励源相当于声门处的准周期脉冲序列,清音的激励源相当于声 道的某个收缩区的空气湍流( 类似于噪声) ,而爆破音的激励源相当于声道某个闭合点处 心圳心 语音带宽扩展算法研究 建立的气压及其突然释放【i j 。人的卢道犹如一个具有某种谐振特性的腔体,空气流受到 声道谐振特性的影响,产生最终的声音。区分人类语音的特征由基音频率和声道特性确 定( t 6 , 1 7 】。 2 2 语音产生模型 本节介绍著名的源滤波器模型( f 8 】。源滤波器把语音产生过程分为两个独立的过程: 第一个过程是激励信号g ( 刀) 的产生;第二个过程是最终语音信号s ( ,z ) 的产生,即声道对 激励信号的影响。 图2 2 所示为源滤滤器模型。虚线左边是模型的激励源部分,右边是滤波器部分。 下一节会详细介绍参数f o ( n ) ,g ( 疗) ,万( 刀) 和( z ,阿) 的含义。 l g ( 胛) 图2 2 人类语音产生过程模型 f i g 2 2 m o d e lf o rt h eh u m a ns p e e c hp r o d u c t i o np r o c e s s 2 2 1 激励信号 对于激励信号,源滤波器模型中的激励分为两部分: 1 ) 浊音激励信号由脉冲产生器模拟; 2 ) 清音激励信号由噪声产生器模拟。 根据基音频率f o ( n ) 来调整脉冲产生器的周期。仃( 甩) 代表模型增益。浊音能量或幅 度由参数g ( 船) 控制,且0 g ( ,z ) l 。脉冲产生器的波形理想化为声门脉冲的波形。最后 的激励信号标记为p ( 门) 。一般情况下,浊音激励的短时频谱包络很平,有明显的周期性, 而清音激励信号的短时频谱基本没有周期性,类似于噪声。 2 2 2 声道滤波器 声道对激励信号的影响可以由一个离散时变滤波器h ( z ,疗) 来模拟【1 7 】。滤波器的结构 大连理工大学硕士学位论文 完全递归,是个全极点滤波器: ( 训) = 而1 = 标号为0 的系数标准化为1 ,即口o = 1 ,得 l 一唧( 以) z 叶 k = l ( 2 1 ) 磊1 面嘉而孢= 去e h ( e j f ll q ) 孢= -( 2 2 ) 因此,这个滤波器转移函数的个特性是独立于语音信号短时能量【1 3 】,只代表语音 信号的频谱包络。 a ( z ,趁) 是一个最小相位滤波器,保证了它的逆系统日( z ,露) 是一个稳定滤波器。通过 转移函数,可以用前面的语音采样值和激励信号g ( 玎) 来表示语音信号: j ( ,? ) = :a k ( n ) s ( n k ) + 仃( 厅) p ( 胛) ( 2 3 ) :! ,源部分 一、,j 对于语音产生过程来说,还有些无损声管模型和共振峰模型等其它模型,但是在 带宽扩展中很少用到,其详细说明可以参阅文献 1 7 1 。 2 3 带宽扩展的基本算法 基于语音产生的源滤波器模型,得到带宽扩展的基本算法 5 , t 9 , 2 0 1 ,如图2 3 所示。 首先由窄带宽语音信号j 。( 门) 输入到分析滤波器,得到窄带激励信号p 曲( n ) ,然后通过窄 带激励信号产生宽带激励信号占们( 门) 。下一步就是用估计的宽带谱包络来对宽带激励信 号进行频谱整形。 a 。 ( 以) = 彭6 ( 胛) ,( 疗) ,a 甏一( 胆) 】7 1 ( 2 4 ) 其中,。代表宽带全极点滤波器的阶数。a 。( ,z ) 由滤波器支路估计,由窄带语音信号 ( 疗) 估计得到窄带频谱包络: ( ,2 ) = 菇6 ( 疗) ,盘严( 露) ,口跫一( ”) r ( 2 5 ) 其中,m 。代表窄带全极点滤波器的阶数。日柚( 肝) 用来估计5 拍( n j ,并最终用来估计宽带 频谱包络舀。( n ) 。通过估计的宽带谱包络对估计的宽带激励信号( 门) 整形,得到完整的 合成语音信号。原始信号是窄带语音信号,因此需要一个高通滤波器来除掉冗余的频率 语音带宽扩展算法研究 分量。最后,估计得到的高频成分结合原始窄带信号中的低频成分得到宽带语音信号, 实现了带宽扩展。 o 柚( 刀) a 。 ( 胛) 图2 3 基本的带宽扩展算法 f i g 2 3 b a s i ca l g o r i t h mf o rb w e 源滤波器模型在语音编解码中的广泛应用,推动了它在语音带宽扩展中的使用, 并且取得了很好的效果。非基于模型的方法最初使用的也很多f 2 k 引,它们的优点是简单。 但它们最大的问题是其效果在很大程度上依赖于转换的类型和相应的转移函数,而要找 到合适的转换类型和转移函数却很困难。基于模型的带宽扩展有计算复杂的缺点,随着 芯片和处理器容量与速度的加快,这个缺点已经克服。目前大多数的带宽扩展算法都基 于源滤波器模型提出。 大连理工大学硕士学位论文 3 语音分析技术 本章介绍两种重要的语音信号分析方法。由于大部分带宽扩展方法都采用源滤波 器模型,而与该模型相对应的分析方法是线性预测分析,因此本章对这类方法进行详细 介绍。另外,本章还介绍了语音信号的小波分析,为使用模极大值重构宽带信号提供理 论基础。 3 1 线性预测分析 3 1 1 基本原理 线性预测分析( l i n e a rp r e d i c t i v ea n a l y s i s ,l p a ) 是进行语音信号分析最有效、最流行 的技术之一。其基本思想是语音信号的每个取样值都能够用过去若干个取样值的线性组 合( 预测值) 来逼近,通过最小化实际语音信号取样值和线性预测值之间的均方误差,来 决定一组预测器的系数17 1 。 图3 。l 给出语音产生过程的线性预测模型。线性预测分析的基本思想是用过去若干 个取样值的线性组合来逼近当前语音采样值s ( 月) : s ( 以) 口i ( 甩) s ( ,2 一1 ) + 口2 ( 珂) s ( 甩一2 ) + + a p ( 门) j ( 门一p ) ( 3 1 ) 其中,系数“,( ,2 ) 构成了尸阶标准自回归滤波器的系数。通过包括激励信号盯( ,7 ) p ( 竹) , 把这个近似式转化为实际语音值: p s ( ,z ) = 口f ( 甩) s ( n f ) + 盯( 甩) p ( 门) ( 3 2 ) f 了i 图3 1 语音产生过程的线性预测模型 f i g 3 1 l i n e a rm o d e lf o rt h es p e e c hp r o d u c t i o np r o c e s s s 对语音信号进行线性预测分析求解可以得到线性预测系数。语音线性预测分析常用 的解法有自相关法和协方差法,详细过程可以参阅文献 2 7 2 9 。 语音带宽扩展算法研究 3 1 2l s f 系数 通过线性预测分析得到线性预测系数,通常称l p a 系数。但l p a 系数动态范围较 大,不适于量化和内插。实际应用中,一般使用线谱频率( l i n es p e c t r u mf r e q u e n c y ,l s f ) 参数来代替。 线谱频率参数是线性预测参数的另一种表示形式,可以由l p a 系数得到。线谱频 率具有良好的量化特性和内插特性,广泛应用在语音编解码和带宽扩展系 中 3 0 - 3 4 j 。首 先给出p 阶预测误差滤波器: , 彳( z ) = l 一口,z “ ( 3 3 ) 1 3 l 这个多项式可以分为两个户+ 1 阶多项式: j p ( z ) = 爿( z ) 一a ( z 一1 ) z 一川 ( 3 4 ) q ( z ) = 4 ( z ) + a ( z 一1 ) z 一川 ( 3 5 ) 其中,尸( z ) 是一个反对称实系数尸+ 1 阶多项式;q ( z ) 是一个对称实系数p + i 阶多项式。 由上面两式可直接推出: 彳( z ) = 去 p ( z 1 + q ( z ) 】 ( 3 6 ) l 虚嗣 尸( :) 的零点 a 2 ,尸 厂 、0 :,q 袋矗 t 久 单位圆 实轴 图3 2 在p = 8 时l s f 多项式p ( z ) 氰iq ( z ) 的零点a f i g 3 2e x a m p l ef o l - t h ez e r o s a o ft h el s fp o l y n o m i a l sp ( z ) a n dq ( z ) f o rp = 8 大连理 大学硕士学位论文 它和合成滤波器( z ) 之间满足关系日( z ) = _ 。能够证明,如果尸( a ,p ) = 0 和 以l z j q ( 丑,p ) = 0 的根都在单位圆上交替出现,且单调递增,那么a ( z ) 就是一个最小相位滤波 器。如图3 2 所示是p = 8 阶时全极点滤波器h ( z ) ,z = l 为p ( z ) 的零点,z = 一1 为q ( z ) 零 点。由于( z ) 是一个全极点滤波器,故满足上面的限制条件。因此,如果知道单位圆上 的所有零点,就可以设计一个稳定的滤波器。 实际中,一般不直接用l s f 参数去构成声道模型参数。主要原因有两个:一是用 l p a 系数去构成声道模型参数比较容易,而l s f 参数与声道模型的z 域表示是隐性关 系,很难构成滤波器:二是从线性预测系数到l s f 参数的转换是可逆的,即能从l s f 参数准确地计算出l p a 系数,其详细过程可以参阅文献 1 】。 由于l s f 参数是频域参数,所以它和语音谱包络的峰值有更紧密的联系。并且相对 于其它频谱包络参数,它有更好的量化鲁棒性。在带宽扩展中,这种良好的量化特性在 通过量化建立码本的过程中显得尤为重要,对于带宽扩展的鲁棒性和合成语音质量起着 很重要的作用。使用l s f 系数的缺点是运算量大。 3 2 语音信号小波分析 小波分析方法是处理非平稳信号的一个有效方法。传统的信号分析方法一般是纯时 域或者纯频域,有很大弊端:在纯时域分析中,一般认为频域分辨率是常数,分析时很 难顾及到信号频域变化特征;在纯频域分析中,一般认为时域分辨率是常数,分析时很 难顾及到信号时域变化特征。小波分析法很好的解决了传统分析法的缺陷,是一种时频 联合分析方法,具有很好的时域和频域局部性质。时间窗高频时自动变窄,低频时自动 变宽,这种“自动变焦”特性被誉为“数学上的显微镜”,可以获得良好的分析效果【3 5 ,蚓。 3 2 1 语音信号小波分析 语音信号是一种特殊的非平稳信号,具有短时平稳性。语音信号主要信息由信号的 奇异点决定,因此通过分析语音信号奇异点,可以得到语音信号的大部分信息。本节将 探索信号的奇异性和小波变换之l 刚的关系,进而对语音信号进行分析,并介绍其在信号 重建中的应用 3 7 1 。 数学中,李氏指数( l i p s c h i t z 指数) 用来定量地描述函数的规则性和奇异性【3 8 】,通常 使用李氏指数定理描述信号奇异性。 设信号工( f ) r ( 尺) ,并且x ( r ) 在t o 处具有李氏指数口 ( 胛z + 是小波g ( t ) 的消失矩 的阶次) ,则存在常数爿,使得【) 列 语音带宽扩展算法研究 iw l ( a , 6 ) f a a a + 0 5 ( 1 + 上鱼hv a 足+ ,r ( 3 7 ) 式( 3 7 ) 给出了信号x ( f ) 在t 。处规则性度量的必要条件。其充分条件可以描述为:如 果口i l 为非整数,且存在常数么和岔,使得 w t x ( a , b ) l - a a a + o 5 ( 1 + f 譬hv a er + , tar ( 3 8 ) 如果信号x ( f ) 在处有一个奇异点,则x ( f ) 在处的奇异性不会影响到整个尺度- 时 间平面上的小波变换,只会影响围绕的一个小区域,该区域被称为岛的影响锥。假定 所使用的小波( f ) 具有紧支撑,支撑范围是卜c ,c 】,则6 ( f ) 的支撑范围是i t c a ,f + c 口】。 影响锥就是指尺度时间平面上使得包含在少( ,) 范围内所有点的集合,则的影响锥 为 i f f ol c a ( 3 9 ) 图3 3 f o 的影响锥 f i g 3 3 c o n eo fi n f l u e n c ef o rt o 图3 3 所示即为的影响锥。在t 。的影响锥内,信号x q ) 的小波变换最大程度上反映 了该点的奇异性,且满足 l 暇( q b ) l - a a 乱5 ( 3 1 0 ) 式( 3 1 0 ) 是一个重要结论,给出了小波变换的模与尺度口及李氏指数口之间的关系。 式中的lw t x ( a , t ) l ( 这里b 用,代替) 称为信号工( f ) 的小波变换的模。如果 o w t , ( a o , t o ) :o( 3 11 ) 大连理工大学硕士学位论文 则点( g 0 ,t 。) 应该是暇( 口,f ) 的局部极值点;如果t 位于f o 的左邻域或者右邻域时,且满足 i 暇( ,t ) n 呢( 口0 ,岛) f ,则称( 口。,) 为暇( 口,f ) 的模极大值点,对应的模极大值为 i 呢( 口o ,t o ) i 在二进制小波变换中,令口= 2 j ,对式( 3 1 0 ) 两边取以2 为底的对数,则有 ,6l 阿,7 l ( 口,6 ) i l b a + j ( a + o 5 ) ( 3 1 2 ) 从式( 3 1 2 ) 中,能够得到以下重要结论: 信号在某一点的模极大值的取值上限随尺度按照一定规律变化,在对数域满足 线性关系; 如果信号在某点的李氏指数大于0 ,则小波变换的模极大值随尺度增大而增大; 如果信号在某点的李氏指数小于0 ,贝l j d x 波变换的模极大值随尺度增大而减小; 如果信号在某点的李氏指数等于0 ,则小波变换的模极大值不随尺度变化。 从上面的结论可知,通过已知尺度上的模极大值可以实现某一未知尺度上模极大值 的重构。如果信号能够通过模极大值重构的话,则通过重构模极大值,就可以实现信号 重构。也就是说,如果按照模极大值的变化规律扩展出高频尺度上的模极大值,就可以 实现信号的扩展。 3 。2 2 小波变换模极大值重构 ( 1 ) 小波变换的模极大值及信号重建 信号的信息主要包含在信号奇异点中,因此通过信号奇异点可以重建信号的原始信 息。信号奇异点在小波变换中表现为小波变换模极大值,所以由小波变换模极大值可以 实现信号重建【3 9 , 4 0 】。 设定原始信号为x ( f ) r ( r ) ,小波变换的尺度a = 2 ,j z ,工( f ) 的二进小波变换为 w t x ( ,r ) 。对于实际信号来说,其时域和频域的分辨率总是有限的,所以,使用有限尺 度的小波变换即可得到信号的基本所有信息。在二进制小波变换中,的最小值为l 。 假定分解的最大尺度为,如果足够大,则所有尺度大于,的信息都集中在低频函数 a j ( f ) 上,a j ( f ) 是第j 级的概貌。设( r m ) 。z 为w t , ( j ,f ) 取模极大值时的横坐标,则iw t a j ,f ) i 即为变换的模极大值。由前面的分析可知,信号的基本信息都包含在a ,( f ) 、( f 伽) 。z 和 i 暇( ,f ) i 中,信号重建的过程就是使用这三个信息来实现。 假定有一个基本的信号集合向( ,) ,且集合中信号的小波变换和x ( f ) 的小波变换有相 同的模极大值,目标是在厅( f ) 中选取一个信号来最佳的近似x ( r ) 。即向( f ) 的小波变换为 w t h ( _ ,t ) ,则有 语音带宽扩展算法研究 对应每一个尺度j ,在所有的模极大值横坐标( r m ) 脚处,都有 w t h ( j t 。) l = 1 ( ,t j 一) i w t 。( j ,) 的局部极值都应位于模极大值横坐标( ,m ) 嘲处。 对于任一点t 。 w t x ( ,t o ) = ( 3 1 3 ) 由条件可得 = ( 3 1 4 ) 根据条件,需要使w t j , ( j ,f ) 的局部极值都位于模极大值横坐标( t j , n ) 脚处,这很困 难,因此只能做近似处理:根据条件,已确定w t h ( j ,f ) 在( t j , n ) 眦处取模极大值,但不 强求( ,f ) 在( r m ) 脚以外的横坐标处没有模极大值,代之要求i w t h ( j ,圳2 在其它点上的 平均值尽可能最小。瞩( ,f ) 模极大值点数的多少取决于信号的变动情况,为使其在其 它点上有尽可能少的模极大值点,需要瞩( ,f ) 导数的能量也最小。为此引入s o b o l e v 范数,即 帅幅: iw t h ( j ,濉+ 2 2 ,l d w t h ( j t ) (315)d 信号重建就是求解使l i 幡最小的瞩( ,f ) ,比较经典的, 方法1 1 是; h 交替投影算法,详细 过程可参阅文献 4 2 。小波变换模极大值点重构在数据压缩、信号滤波、边缘检测及模 式识别等信号处理领域内应用广泛【4 3 , 4 4 】。 ( 2 ) 语音信号模极大值分析 如图3 4 所示,图3 4 ( a ) 是段语音信号时域波形,对这段语音信号做尺度为1 3 2 的小波变换,图3 4 ( b ) 是小波变换尺度一时间平面图。从图3 4 ( b ) 中可以清晰地看到信 号奇异点的影响锥,时域波形中的每个奇异点都对应小波变换模极大值汇聚点,且每一 个模极大值都处于一个尺度一时删平面的锥形区域内。 对只包含一个奇异点的一段语音信号进行分析,如图3 5 所示。图3 5 ( a ) 描述影响 锥内模极大值随尺度的变化情况,其中虚线是影响锥负边缘模极大值的变换趋势,实线 是影响锥正边缘模极大值的变换趋势。模极大值取对数后,与尺度( 取对数) 成线性关系, 直线斜率为该段信号的李氏指数。 人连理:1 大学硕士学位论文 5 01 0 015 02 0 0 2 5 03 0 03 5 04 0 04 5 05 0 0 ( a ) ( b ) 倒34 语音信号的小波变换 f i g 34 t h ew a v e l e ttr a n s f o r mo f s p e e c hs i g n a l s 【g35 语音清号的小波变换模撤夫值 f i g35 t h e w a v e l e t t r a n s f o l i n m a x m & o fs p e e c hs i g n a l s 图3 5 ( b ) 是影响锥内模极大值的位置搜索结果。很明显,模极大值的位置沿着影响 语音带宽扩展算法研究 锥边缘变化,两条直线是极大值位置的拟合结果,交汇点是信号奇异点位置。实际运算 中,如果两条直线不交汇于一点,一般取两者与最小尺度线交点的中点。 由图3 5 可以看出,语音信号的模极大值幅度和位置信息都符合一定规律,随尺度 变化呈线性变化,由此可以实现语音信号某一尺度模极大值的重建,即通过其它尺度模 极大值幅值和位置拟合出所需尺度的相关信息。在带宽扩展过程中,通过低频部分模极 大值扩展出高频信号模极大值,进而重构宽带语音信号。 大连理工大学硕士学位论文 4 语音带宽扩展算法研究 本章主要介绍和分析现有带宽扩展算法。其中,大多数比较成熟的算法,都基于源 滤波器模型。在这类带宽扩展算法的研究中,一般将其分为两部分:激励信号扩展和 频谱包络扩展。本章将分别对这两部分的相关算法进行详细介绍和分析,为本文算法提 供理论基础。 4 1带宽扩展算法 基于语音产生的源一滤波器模型的算法框架中,丢失高带信号扩展可以分为两个相 对独立的过程:第一个过程是宽带信号激励源估计;第二个过程是宽带合成滤波器参数 估计,由于滤波器主要反映信号频谱包络信息,所以一般称之为频谱包络估计。宽带激 励信号通过估计出的频谱包络整形,即可得到扩展之后的宽带语音信号。假设两部分独 立,分别进行改善,就能达到整体最优效果。该类算法的基本框图如图4 1 所示。 特征 厂= l6 k h z 图4 1语音信号带宽扩展流程图 f i g 4 1s i g n a lf l o wo fa na l g o r i t h mf o rt h eb a n d w i d t he x t e n s i o no fs p e e c hs i g n a l s 其中最主要的两个模块是激励估计和频谱包络估计。两部分重要性不同,在实际研 究中频谱包络估计更为重要,它包含更多的信号概貌信息。但是,激励信号包含信号频 谱精细结构信息,在估计过程中也很重要。因此,在带宽扩展算法中,需要考虑两部分 内容,两者最优结合才能达到好的带宽扩展效果。 下面对图4 1 中的每个模块做简要概述。 ( 1 ) 插值 带宽扩展之后信号频带范围变宽,所以需要更高的采样率。如果输入窄带信号采样 率不能满足扩展之后宽带信号采样率要求,就需要对窄带信号进行升采样,一般通过插 语音带宽扩展算法研究 值的方法实现【4 5 1 。如图4 1 所示,窄带输入信号的采样率为f ,= 8 k h z ,为满足宽带采样 率要求,必须把采样率提高到六= 1 6 k h z 。在这个过程中信号成分并没有改变,插值之 后的信号s 舶( 七) 和原始信号s 础( 七) 同样是窄带信号。插值过程及后面的处理过程一般按帧 处理,每帧大约2 0 m s 。 ( 2 ) a r 系数估计 真f 的带宽扩展处理开始于代表宽带信号频谱包络系数组万的估计。在这个过程 中,必须充分利用已知窄带信号的相关信息。提取每帧信号的特征向量x ,做为估计 基础,使用训练好的统计模型做为先验知识。 ( 3 ) 分析滤波器 估计得到宽带滤波器系数组万用来设计f i r 分析滤波器j ( z ) 。插值后的窄带信号经 过分析滤波器,输出玩。( 七) 看做窄带语音的激励信号。 其中, j ( z ) = z 一 ( 4 1 ) 巯( 后) = a j s n b ( 七- i ) ( 4 2 ) ( 4 ) 激励信号估计 下步在激励信号中加入丢失的频率成分。考虑到扩展激励信号的质量和复杂度, 这个过程需要加入一些参数,例如基音周期、浊音度等。实际中,考虑到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论