(信号与信息处理专业论文)带噪语音编码的若干问题研究.pdf_第1页
(信号与信息处理专业论文)带噪语音编码的若干问题研究.pdf_第2页
(信号与信息处理专业论文)带噪语音编码的若干问题研究.pdf_第3页
(信号与信息处理专业论文)带噪语音编码的若干问题研究.pdf_第4页
(信号与信息处理专业论文)带噪语音编码的若干问题研究.pdf_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博士论文 摘要 摘要 随着移动通信技术的迅速发展和语音通信范围的不断扩大,在噪声环境下 进行语音通信已经成为经常要遇到的情况,语音信号不可避免的要受到周围背 景噪声的影响。对于参数编码方式,语音参数提取的准确与否以及对参数的量 化编码方式都会对语音通信质量产生很大影响,因此研究从带噪语音中提取基 音周期、提取描述声道的线性预测系数、有效的参数量化编码方法以及语音编 码的抑制噪声方法具有非常重要的研究价值和实际应用前景。 基音周期是语音编码中的一个重要激励源的参数,从实用化角度出发,提 出了一种基于a m d f 和a c f 的计算复杂度低的快速基音周期参数的估计方 法,通过对语音信号的a m d f 值进行自相关运算,能够提高基音周期估计的准 确率,经过对这一帧语音信号的a m d f 值进行了变换,使次自相关中的乘法 运算变为只有一次加法的运算,由于只包含加减法和取绝对值运算,计算复杂 度低,所以该算法可以广泛应用于需要实时基音周期估计的场合。还给出了一 种适合于硬件电路实现的快速基音周期估计方法,并在一个f p g a ( 芯片型号 为s p a r t a ni ix c 2 s 3 0 v q l 0 0 6 ) 芯片上实现了语音信号的基音周期实时估计系统。 目前还很少有适合采用硬件电路直接实现的基音周期估计算法,当需要实时提 取语音信号的基音周期时,最好能够使用硬件电路实现实时的基音周期估计。 针对语音信号的信噪比s n r 比较低时,带嗓语音信号的基音周期难以估计 准确的问题,提出了一种基于g c i 和小波变换的基音周期检测方法。采用小波 交换直接从语音信号中检测出声门闭合时刻g c i 的信号锐变点来提取基音周 期,并且通过前雹低通滤波器降低了噪声和共振峰的影响,用一级小波变换便 可以获得了比较高的检测精度和噪声鲁棒性,同时降低了基音周期估计的计算 复杂度。 针对直接从带噪语音中难以准确提取线性预测系数的问题,给出了一种基 于谱减的带噪语音的线性预测系数提取方法。由于背景噪声的能量和频率成分 都是随时间发生变化的,采用了具有动态跟踪性能的最小值统计跟踪方法进行 噪声功率谱估计,通过谱减方法得到干净语音信号的功率谱估计,然后再提取 线性预测系数。实验结果表明,使用谱减的方法提高了提取线性预测系数的准 中国科学技术大学博士论文 摘要 确率。 量化编码是参数编码中的重要技术,论文对几种常用的线谱频率参数矢量 量化编码的方法进行了比较深入的探讨和研究,给出了一种基于高斯混合模型 g m m 新的量化编码方法。该方法的特点是其计算量和存储大小不随量化比特数 的多少而改变。由于g 删量化器可以描述出参数空间分布的多种信息,因此可 以采用非线性量化的设计方式,既提高了量化精度又减少了计算量和存储量。 对于噪声污染比较严重的情况,通常采用在信号前端进行语音增强,论文 提出了一种基于声道慢变特性的基于k a l m a n 滤波的语音增强算法。该算法根 据人们在发声时,声道的形状变化比较缓慢,声道系数也具有缓慢变化的特点, 先将线性预测系数转化为线谱频率参数,然后对相邻帧的线谱频率参数做一阶 平滑,修正了状态转移矩阵,抑制了增强语音中的孤立残留噪声。与传统的卡 尔曼滤波语音增强算法和维纳滤波语音增强算法相比,基于声道慢变特性的 k a l m a n 滤波的语音增强算法,增强后的语音在分段信噪比和p e s q 的评测结果 上,都得到了进一步的提高。当语音信号的信噪比比较低时,采用论文提出了 一种基于声道慢变特性的k a l m a n 滤波的语音增强算法,作为语音编码的前端 处理部分,提高了语音编码质量。 论文的研究工作得到了国家自然科学基金项目( n o 6 0 2 7 2 0 3 9 ) 、教育部一 微软重点实验室开放基金项目( n o 0 61 2 0 8 0 6 ) 的支持。 中国科学技术大学博士论文 a b s t r a c t a b s t r a c t t h em o b i l ec o m m u n i c a t i o nt e c h n o l o g yd e v e l o p sr a p i d l ya n dt h er a n g eo ft h e s p e e c hc o m m u n i c a t i o ni se x p e n d e d t h es p e e c hc o m m u n i c a t i o ni so f t e ni nt h en o i s e b a c k g r o u n da n dt h es p e e c hs i g n a lw i l lb ec o r r u p t e d a st ot h ep a r a m e t e rc o d i n g m e t h o d , t h es p e e c hp a r a m e t e r sw i l lg r e a t l ya f f e c tt h eq u a l i t yo ft h es p e e c hc o d i n g t h es t u d yo ne x t r a c t i n gt h ep i t c ha n dt h el i n e a rp r e d i c t i o nc o e f f i c i e n t si nt h en o i s y s p e e c ha n dt h ee f f e c t i v eq u a n t i z a t i o nc o d i n gm e t h o d sa n dt h e n o i s er e d u c t i o n m e t h o d si sv e r yi m p o r t a n tf o rt h er e s e a r c ha n da p p l i c a t i o n s t h ep i t c hi st h ev e r yi m p o r t a n tp a r a m e t e ro f e x c i t i n gs o u r c ei nt h es p e e c hc o d i n g a p i t c hd e t e c t i o na l g o r i t h mb a s e do na m d fa n d a c fi sp r o p o s e df o rt h er e a l t i m e a p p l i c a t i o n s 1 1 圮c o m p u t a t i o n a le x p e n s eo ft h ea l g o r i t h mi sd e c r e a s e d a tf i r s t a m d fv a l u e sa r ec o m p u t e db ya m d fa l g o r i t h mf o raf r a m eo fs p e e c hs i g n a l a n d t h e na c fv a l u e sa r ec o m p u t e db ya c fa l g o r i t h mf o rt h ea m d fv a l u e s i no r d e rt o d e c r e a s e sc o m p u t a t i o n a le x p e n s ea n dc o m p l e x i t y , t h ea m d fv a l u e so ft h ef r a m eo f s p e e c hs i g n a la r et h e nt r a n s f o r m e di n t oo n eb i ts i g n a l s t h em e t h o dc a n a l s od e c r e a s e t h ee f f e c t so f a m p l i t u d ea n df o r m a n t st h es p e e c hs i g n a lf o rp i t c hd e t e c t i o n t h ep i t c h p e r i o di sc a l c u l a t e db ya c fa l g o r i t h mf o rt h eo n eb i ts i g n a l s t h em u l t i p l i c a t i o n o p e r a t i o nf o rs h o r t - t i m ea u t o c o r r e l a f i o nf u n c t i o no f t h e0 1 1 0b i ts i g n a l si sr e p l a c e db y s i m p l e a d d i t i o n o p e r a t i o n a r e a l - t i m e p i t c h d e t e c t o rb a s e do nt h ef i e l d p r o g r a m m a b l el o g i ca r r a y st om e e tt h en e e d so ft h er e a l - t i m ep i t c hd e t e c t i o ni s p r o p o s e d t h em e m o r i e sa n dg a t e sa n ds e q u e n t i a lc i r c u i t so fs p a r t a ni ix c 2 s 3 0c h i p a r eu s e dt oi m p l e m e n tt h e s ea l g o r i t h m s ,w h i c hm e e t st h en e e d so fr e a l t i m ep i t c h d e t e c t o r t h ep i t c ho ft h en o i s ys p e e c hc a nn o tc o r r e c t l yb ee s t i m a t e dw h e nt h es n ro f t h es p e e c hs i g n a li sl o w ap i t c hd e t e c t i o nm e t h o do fn o i s ys p e e c hs i g n a l sb a s e do n g c ia n dt h ed i s c r e t ew a v e l e tt r a n s f o r mi sp r o p o s e d t h eg c ip o s i t i o no ft h es p e e c h c a nb ee s t i m a t e db yu s i n gt h ew a v e l e tt r a n s f o m aa n dt h e nt h ep i t c hi sc a l c u l a t e d 1 1 1 e e f f e c t so ft h en o i s ys i g n a la n ds p e e c hf o r m a n t sf o rp i t c hd e t e c t i o na 圮d e c r e a s e db y t h e3 - o r d e rl o w p a s se l l i p t i cf i l t e r 1 1 他p r e c i s i o no fp i t c hd e t e c t i o ni si n c r e a s e da n d t h ea l g o r i t h md e c r e a s e sc o m p u t a t i o n a le x p e n s ea n dc o m p l e x i t yc o m p a r e dw i t ht h e m u l t i - s c a l e sw a v e l e tt r a n s f o r m sa l g o r i t h m 中国科学技术大学博士论文 a b s t r a c t i ti sd i f f i c u l tt oe x t r a c tt h el i n e a rp r e d i c t i o nt o e f f i c i e m sf r o mt h en o i s ys p e e c h s i g n a l am e t h o do fe x t r a c t i n gt h el i n e a rp r e d i c t i o nc o e f f i c i e n t sf r o mt h en o i s y s p e e c hs i g n a lb a s e do nt h es p e c t r a ls u b t r a c t i o ni sp r o p o s e d t h em i n i m u ms t a t i s t i c s t r a c k i n gm e t h o di su s e dt oe v a l u a t et h en o i s ep o w e rs p e c t r u mb e c a u s et h ee n e r g y a n dt h ef r e q u e n c yt h en o i s ea r r ec h a n g e dw i t l lt h et i m e t h es p e e c hs i g n a lp o w e r s p e c t r u mi s e x t r a c t e db yu s i n gt h es p e c t r u ms u b t r a c t i o na n dt h e nt h el i n e a r p r e d i c t i o nc o e f f i c i e n t sa r ee x t r a c t e d t h ee x p e r i m e n t sr e s u l t ss h o wt h em e t h o d i n c r e a s e st h ec o r r e c t i v er a t i oo f e x t r a c t i n gt h el i n e a rp r e d i c t i v ec o e f f i c i e n t s q u a n t i z a t i o nc o d i n gi sv e r yi m p o r t a n tf o rt h ep a r a m e t e rc o d i n g t h ep a p e r d e e p l ys t u d i e st h es e v e r a ln o r m a lm e t h o d so ft h ev e c t o rq u a n t i z a t i o no ft h el i n e s p e c t r u mf r e q u e n c yp a r a m e t e r s t h em e t h o do ft h ev e c t o rq u a n t i z a t i o nb a s e do n g a u s s i a nm i x t u r em o d e l sh a sc o m p u t a t i o n a l l ye f f i c i e n c y , l o wm e m o r yr e q u i r e m e n t s , w i t hi t sc o m p l e x i t yi n d e p e n d e n to nt h er a t eo ft h es y s t e m t h em u c hi n f o r m a t i o no f t h ep a r a m e t e r ss p a c e sd i s t r i b u t i o nc a nb ed e s c r i b e db yt h eg m m q u a n t i z e r t h e c o m p u t a t i o n a le x p e n s ea n dm e m o r yr e q u i r e m e n t sa r ed e c r e a s e da n dt h eq u a n f i z a t i o n p r e c i s ei si n c r e a s e db yt h en o n l i n e a rq u a n t i z a t i o nm e t h o d t h es p e e c he n h a n c e m e n tt e c h n o l o g yi su s e di nt h ep r e - p r o e e s s i n gs e c t i o nw h e n t h es p e e c hs i g n a li ss e r i o u s l yc o r r u p t e d as p e e c he n h a n c e m e n ta l g o r i t h mb a s e d0 n t h e s p e c t r a le n v e l o p ea n dk a l m a ns m o o t h i n gi sp r o p o s e d a c c o r d i n gt o t h e c h a r a c t e r i s t i c so f t h es l o wc h a n g e so f t h ev o c a lt r a c tp a r a m e t e r s ,t h el i n e a rp r e d i c t i o n c o e f f i c i e n t sa r ec o n v e r t e di n t ot h el i n es p e c t r u mf r e q u e n c yp a r a m e t e r sa n dt h e nt h e s e p a r a m e t e r so ft h ec u r r e n tf r a m ea n dp r e v i o u sf l a m ea l es m o o t h e d t h er e s i d u a l i s o l a t e dn o i s ei sr e d u c e d t h eq u a l i t yo ft h ee n h a n c e ds p e e c hi se v a l u a t e db ym e a n s o fs e g m e n t a ls n ra n di t u p e s qs c o r e s e x p e r i m e n t a lr e s u r si n d i c a t et h a tt h e p r o p o s e da l g o r i t h ma c h i e v e so b v i o u si m p r o v e m e n t sc o m p a r e d 谢t 1 1c o n v e n t i o n a l k a l m a ns m o o t h e ra n dw i e n e rf i l t e ra l g o r i t h m t h et h e s i sw a ss u p p o r t e db yt h en a t i o n a lf o u n d a t i o no fn a t u r a ls c i e n c e ( n o 6 0 2 7 2 0 3 9 ) a n dt h es c i e n c er e s e a r c hf u n do fm o e m i c r o s o f tk e yl a b o r a t o r yo f m u l t i m e d i ac o m p u t i n ga n dc o m e c a t i o n ( n o 0 61 2 0 8 0 6 ) 中国科学技术大学博士论文第一章绪论 第一章绪论 1 1语音编码 语音是人们日常交流的重要手段,同时也是最主要的信息载体之一。无论 从语音信号的存储还是语音数字通信领域的角度来看,对语音编码方法的研究 都具有非常重要的意义。 语音编码技术是伴随着语音的数字化而产生的,目前主要应用在数字语音 通信和数字语音存储两个领域。在数字语音通信系统中,语音被压缩成低码率 的数字流,通过有线或无线信道传输,最后在接收端解压缩并重建语音信号。 例如移动通信系统、网络电话、保密语音通信、卫星通信、音视频会议系统等。 同时,语音编码器也被大量用于数字应答机、多媒体查询系统等语音存储系统 中。 随着计算机网络技术的迅速发展,在有线和无线通信系统传输带宽有限以 及减少语音存储系统中存储空间等方面需求的推动下,语音编码技术取得了迅 速的发展,在国际标准化工作中堪称为最活跃的研究领域。 语音编码的编码速率也称为比特率或码率,是指一个语音编码器的信息传 输速率,即每秒传送的比特数。通常情况下,按码率分类,可分为高码率( 3 2 k b s 以上) 、高中码率0 6 3 2 k b s ) 、中码率( 8 1 6 k b s ) 、低码率( 2 4 - 8 k b s ) 、极低码 率( 低于2 4 kb s ) 。 根据目前的语音编码技术发展现状,1 6 k b s 以上和8 k b s 的语音编码技术己 经标准化和产品化;4 8 k b s 已有区域性标准,但这一速率区间的语音编码仍然 是国际标准化制定和实用产品竞争的热点,尤其是4 k b s 国际标准的制定,其 主要技术为基于分析合成( a n a l y s i sa n ds y n t h e s i s ) 法的码激励线性预测c e l p ( c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 技术。其中与矢量量化称v q ( v e c t o r q u a n t i z a t i o n ) 有关的各种算法在语音压缩中起到了重要作用。 目前语音编码方法按传统分类方法可以分成三大类1 2 1 :波形编码、参数编 码、混合编码。 波形编码是在编码端,以尽可能重构语音信号的时域波形为原则进行数据 压缩编码,在解码端根据这些编码恢复出语音信号的波形。波形编码的算法简 单,码率较高,在6 4 k b p s 至3 2 k b p s 之间,音质优良。 参数编码又称为声码器( v o i c ec o d e r ) ,是根据一种语音生成模型,利用分 析合成技术,在编码端分析该模型的参数并用适当的方式对这些参数进行高效 中国科学技术大学博士论文第一章 绪论 率的编码和传送,在解码端解码恢复模型参数,重建语音产生模型,利用重建 的模型进行语音合成恢复原始语音。参数编码注重重建语音听觉感知基本一样, 不关心时域波形是否相同。参数编码的码率可以做得很低,如1 2 k b p s 、2 4 k b p s 。 其缺点是合成语音质量较差,计算复杂度比较高。 近几年来,结合波形编码和参数编码的长处,产生了混合编码。和参数编 码一样是根据种语音生成模型,采用分析与合成技术,同时也利用了语音信 号的时域波形信息,增强了语音的自然度,与声码器相比,使得语音质量有明 显提高。其代价是码率相应上升,一般在4 k b p s 至1 6 k b p s 之闻。 不同语音编码方法的性能如图1 1 所示。 5 ( e x c 卅l e n t ) l 4 ( g o o d ) 芒 子3 ( f a i l ) : 2 p o o r c 1 彗9 9 0 f 加t 0 蓼8 4 m 节? 9 9 4 o 笋 徽渤 。c e l p 1 9 9 1 l p c i o o1 9 8 4 6 2 i c4 k 8 1 ( 1 6 k 3 2 k 0 4 k 1 2 8 k b 躲p e rs e c o n d 图1 1 语音编码方法的性能比较 图1 1 中的横纵坐标是编码码率,纵坐标是对语音质量的主观评价,平均 意见得分m o s ( m e a no p i n i o ns c o r e ) 。m o s 评分是应用最广泛的评测方法采 用5 级评分标准,评分越高语音质量越好。当语音质量的m o s 评分大于4 0 时, 认为是高质量语音;m o s 评分在3 5 左右时,认为语音质量达到了通信质量的 要求,不妨碍正常通话。 图1 1 说明,语音信号的波形编码的适应能力强,话音质量好,需要编码 的码率商。脉冲编码调制( p c m ) 、自适应增量调制( a d m ) 等都属于这一类。这 类方式的语音编码一般能在i g k b p s 到6 4 k b p s 的速率上能给出较高的语音编码 质量;当需要在语音通信带宽受到限制的条件下,为了满足语音质量的要求, 采用参数编码和混合编码方法。其中码激励线性预测c e l p 、线性预测编码 l p c i 0 、混合激励线性预测m e l p ( m i x e de x c i t e dl i n e a rp r e d i c t i o n ) 编码1 1 1 都 属于参数编码。 在语音编码的研究和应用领域中,基于全极点声道模型的线性预测编码 中国科学技术大学博士论文第一章绪论 l p c ( l i n e a rp r e d i c t i v ec o d i n g ) 的声码器是应用的最成功的低速率语音编码器。 它根据语音生成模型,采用线性预测l p ( l i n e a rp r e d i c t i o n ) 分析合成原理,对 模型参数和激励参数进行编码传输,因而可以以很低的码率( 2 4 k b p s 和2 4 k b p s 以下) 传输可懂的语音。l p c 声码器的声道模型为全极点声道模型,当激励源为 浊音时是单一的准周期性脉冲,为清音时为高斯白噪声。该声码器中最具代表 性的是美国联邦政府标准的线性预测编码l p c 1 0 ( f s 1 0 1 5 ) 。在信噪比较高的 条件下,它可以在码率为2 4 k b p s 下得到具有一定可懂度的语音。 参数编码是近几年来语音编码研究的热点之一,参数编码是基于语音生成 模型的编码方法,线性预测声码器是应用的最成功的语音编码器。目前常用 g 7 2 9 、g 7 2 3 、k l e l p 等语音编码都是在线性预测编码的基础上加以改进和发展。 基于线性预测编码器的参数编码如图1 2 所示: 缩丑垃 网悝 删r 一向佩惭 l 魏戮倒一 比特流 图1 2 线性预测编码器的语音编解码原理框图 在语音编码端需要提取线性预测系数和基音周期等语音特征参数,然后为 了降低语音编码码率,将线性预测系数转换成线谱频率参数,通过矢量量化v q 减小语音信号的冗余度。因此,研究从语音信号中提取基音周期、线性预测系 数和矢量量化的方法对语音编码有重要的意义。 1 2 语音信号模型 语音信号的产生依赖于人的发声器官,人的声道包含了咽喉、口腔和鼻腔三 部分,图1 - 2 是人的发声器官示意图。当人发声时,肺部中的气流经过气管,通 中国科学技术大学博士论文第一章绪论 过喉部声门时使声带产生震动,而声门的打开和闭合馒得气流成为准周期的激 励脉冲,形成激励源。这样准周期脉冲通过咽喉、口腔或者鼻腔之后其频谱被 声道的频率响应所改变,当人的下颚、舌头、嘴唇等器官的位置发生变化时, 声道的频率响应同时发生变化,因此多种语音信号就产生了。 图1 2 入的发声器官示意图 鼻腔 鼻孔 唇 牙齿 口腔 下巴 气管 肺 横隔膜 语音信号是时变的、非平稳的随机信号。由于不同的语音是由人的口腔肌 肉运动构成声道某种形状而产生的响应,而这种肌肉运动相对于语音频率来说 是缓慢的,因此一般认为在2 0 - 4 0 m s 的短时间内语音信号是平稳的,所以完全可 以用短时平稳的分析方法。 语音信号的生成模型是用数字信号处理方法实现人的发声系统的模拟,由 此可估计出语音信号的参数。将语音发生系统分成三个部分,并分别建立数学 模型。声带部分,是声门子系统,它负责产生激励振动,可以建立激励模型; 从声带到嘴唇的呼气通道是声道,建立声道模型;语音从嘴唇辐射出去,可以 建立辐射模型。在激励模型中,可以根据激励方式不同,将发出的话音分成两 4 中国科学技术大学博士论文第一章绪论 种类型浊音( v o i c e d ) 和清音( u n v o i c e d ) 。 ( 1 ) 浊音是种称为准周期脉冲激励所发出的。准周期脉冲是在声门到关 闭的速率是现为基音周期( p i t c h ) 的大小,表现出在音节上的周期性,其值在2 - - 2 0m s 之间,这个周期性称为长期周期性( 1 0 n g t e r mp e r i o d i c i t y ) 。 ( 2 ) 清音激励模拟成随机高斯白噪声。 应该指出,简单的将激励分为浊音和清音两种情况是不全面的。实际上还 有些音不能归属到上述两种音中的一种。例如爆破音是在声道关闭之后产生的 压缩空气然后突然打开声道所发出的音,还有在声门振动和声道收缩同时出现 的情况下产生的摩擦音,这种音称为混合音。可以将浊音和清音这两种激励源 经过适当的网络后,可以更好模拟激励信号。 综上所述,可以得到语音信号模型如图1 3 所示。 t o 山 陌磊磊苏甬h 清浊音转鼍益线性预掣系数 一上换开关l ,_ 、声蜷器卜输出语音 日( 力j 一 图1 3 语音信号模型 与人的发声器官一样,语音信号模型包括激励源和声道模型两个部分,激励 源分浊音和清音。在浊音情况下,激励信号是一个周期r o = i s o 的冲激序列,五 是语音信号的基音频率。激励信号通过一个声道滤波器麒力后,重构语音信号。 线性预测分析能够提供一个非常好的声道模型和参数估计方法。线性预测 分析假定当前语音信号可以由前面若干个语音样点值的线性组合加上预测误差 来表示,从而再生语音可以由该误差信号激励一个全极点合成滤波器得到。通 常用周期信号或者白噪声去激励一个全极点的合成滤波器。通过线性预测分析 得到线性预测系数,由线性预测系数构成描述声道的全极点滤波器肌功。 1 3几个重要的语音编码特征参数 葛 中国科学技术大学博士论文第一章绪论 由图1 3 所示的语音信号模型可知,对于采用基于参数编码来说,激励源 和声道模型模型参数的提取和编码对语音编码性能有重要的影响。研究从语音 信号中提取基音周期、线性预测系数,特别是研究从带噪语音信号中提取基音 周期、线性预测系数和矢量量化的方法对提高语音编码的质量有重要的意义。 1 基音周期 语音信号的基音周期描述了语音激励源的一个重要特征。对任何一种低码 率语音声码器来说,基音周期估计的是否准确,会直接影响到合成语音质量的 好坏。 语音信号一般分为浊音和清音两种基本类型,浊音( 又称“有声语音”, v o i c e ds o u n d ) ,清音信号( 又称“无声语音”,u n v o i c e ds o u n d ) 。浊音信号具 有一定的周期性。而清音信号则没有周期性。 入在发浊音时,声门会周期性地打开和闭合,佳来自肺部的空气流形成一 串周期性的脉冲气流进入声道,这一串周期性的脉冲的周期称为基音周期。一 段语音信号波形如图1 4 所示,其中t o 为基音周期。 图i 4 语音信号波形 浊音信号具有准周期性,在一个短时间范围内( 一般认为l o m s 一3 0 m s 内) , 语音信号短时相对平稳,因此,在语音信号分析和处理时,一般都对语音信号 进行分帧处理,帧长一般取l o m s - 3 0 r a s 。因此,对浊音信号来说,认为一帧内 语音信号的基音周期是准平稳的,可以用一个基音周期参数代表整个一帧语音 信号的基音周期。但是对于一段较长时间的语音的浊音信号来说,其基音周期 则是随时间变化而变化。特别是汉语是一种有调语音,汉语发一个字的语音时, 其基音周期都会发生比较大的变化,汉语的4 种声调曲线如图1 5 所示。 6 中国科学技术大学博士论文第一章绪论 图1 5 汉语中4 种声调曲线 基音周期提取的主要困难反映在以下几个方面: 1 ) 语音信号中包含了十分丰富的谐波分量,有时语音信号中的基音分量 往往不是最强的分量,各次谐波成分常常比基波分量还要强,丰富的 谐波成分使语音信号的波形变得非常复杂。在浊音的开头和结尾并不 具有声带振动那样的周期性,很难准确的判断是周期性还是非周期性 的。 2 ) 声道的共振峰有时会严重影响激励信号的谐波结构,共振峰频率是声 道的谐振频率,一般的浊音可以辨别共振峰频率有5 个,如图1 - 6 所示, 所以,从语音信号中直接提取出仅和声带振动有关的激励信号的信息 并不容易。 图1 - 6 浊音信号的共振峰 3 ) 不同人的发音的基音周期也不一定相同,基音频率主要取决于声带的 大小、厚薄、松紧程度以及声门上下之间的气压差的效应等因素,随 7 中国科学技术大学博士论文 第一章绪论 着说话人的性别、年龄及讲话时的情绪等因素的不同而不同。男声的 基音频率通常比女声低。因此,基音周期的变化范围比较大,从老年 男性的5 0 h z 到儿童女性的4 5 0 h z l 2 1 ,接近三个倍频范围。 语音信号的产生是一个复杂的非平稳过程,尽管基音估计有许多困难,基 音周期的估计直是语音信息处理中的一个重要研究课题,到现在为止要找到 一个完善的适用于不同的话者、不同要求和环境,准确地检测基音周期的算法 还是极其困难的【”。而汉语是一种有调语音,它携带了非常重要的具有区别意 义的功能,所以,基音周期的提取和估计对汉语来说是一个十分重要的问题, 所以,基音周期的提取和估计对汉语来说是一个十分重要的闯题,为此提出了 各种各样的基音周期估计方法。 在基音周期的估计方法中,短时平均幅度差函数a m d f 和自相关函数a c f 方法是最常用的两种检测基音周期的方法。 2 线性预测系数 语音信号的线性预测系数描述了说话人声道的重要特征。语音信号会受到 周围环境噪声的影响,带噪语音信号中同时含有语音信号和噪声信号,直接从 带噪语音中很难提取比较准确的线谱频率参数。 线性预测分析l p a ( l i n e a rp r e d i c t i v ea n a l y s i s ) 是语音信号分析中最有效 的分析技术之一,用简洁的模型参数来表征语音信号的特征,分析时所需运算 量相对来讲并不大,应用这组参数可以降低编码时的码率,还可以实现有效的 语音合成。 语音信号可以看成是一个线性时变系统在准周期脉冲序列( 对浊音来说) 或 者随机噪声( 对清音来说) 激励下产生的输出,该系统近似用个全极点 ( a l l - p o l em o d e l ) 模型来表示,根据语音信号的准周期特点,在一帧语音信号 的时间内,可以近似的认为模型的参数是不变的。人在发音时,来自肺部的空 气流进入声道( 人的声道包含咽喉、口腔和鼻腔) ,该全极点模型的系数代表 声道参数,因此,实际语音信号处理中的语音信号的生成模型如图1 7 所示: 8 中国科学技术大学博士论文 第一章绪论 lg i il u ( n ) !+ o h ( 多叶 l 1 p 1 一y 瓯z j _ 1 设h ( z ) 是线性时不变稳定系统,且可用线性差分方程描述,那么h ( z ) 可 写成: 酢) 2 器;j 1 - 步l a k z - j2 丽g s ( z ) = 艺以z - t s ( z ) + g u ( z ) l i l 写成时间序列的形式 p s ( 疗) = 艺q j 一j ) + 面( 珂) 实际应用中( z ) 常采用全极点模型,对于浊音,激励u ( n ) 是一个周期脉冲 序列:对于清音,激励u ( n ) 是一个高斯自噪声序列。 语音信号模型化过程实际上要解决的是模型参数估计问题,求语音信号的 模型参数,通过线性预测分析来完成。 由于语音生成模型是低速率语音编码的基础,当模型参数的提取受到混杂 在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不 可懂。带噪语音的语音参数的提取和编码方法的研究成为国内外许多大学和研 究机构的一个研究热点。 1 4带噪语音编码的前端处理 9 中国科学技术大学博士论文第一掌绪论 语音通信时,接听者对接听夹杂着各种背景噪声的语音,会引起听觉疲劳、 有时甚至无法听清对方所说的语音。当语音信噪比比较低时,从带噪语音中提 取准确的基音周期和线性预测系数已经很困难。为了提高语音通话的质量和可 懂度,在语音信号前端进行语音增强是提高带噪语音编码的语音质量的一个有 效的途径。 采集语音信号时,有单通道和多通道两种不同的语音信号输入方式,多通 道的语音输入方式可以利用麦克风的位置和方向,分别采集语音和噪声信号, 采用噪声对消方法提取削弱噪声的语音信号。麦克阵列具有空间选择性,它能 有效抑制除所需语音信号方向外的干扰噪声,可以取得明显的消噪效果。 但是,在实际的语音通信环境下,使用多个话筒采集语音并不现实,研究 单通道语音增强方法具有更广泛的应用前景。目前比较常用的单通道语音增强 方法有基于谱减s s ( s p e c t r a ls u b t r a c t i o n ) 、维纳滤波( w i e n e rf i i t e r i n g ) 、 基于语音生成模型、基于语音谱特征的谐波增强、小波交换和k a i m a n 滤波等 语音增强方法。 1 5 论文的主要研究内容 针对带噪语音编码所面临的上述主要问题,论文分别对语音的基音周期和 线性预测系数的提取和l s f 参数的量化编码化方法进行了深入的研究和探讨。 当语音信号的信噪比比较低时,采用语音增强方法作为带噪语音编码的前端处 理,可以提高语音编码的质量,论文对基于k a l m a n 滤波的语音增强方法进行 了研究,并取得了一些研究成果和有用的结论。 论文由以下几个章节内容组成: 第二章主要分析了语音编码中最常用的短时平均幅度差函数a m d f 和自相 关函数a c f 方法,提出了一种基于a m d f 和a c f 的计算复杂度低的快速基音 周期参数的估计方法,该算法可以广泛应用于需要实时基音周期估计的场合。 给出一种适合于硬件电路实现的快速基音周期估计方法,并在一个f p g a ( 芯片型号为s p a r t a ni ix c 2 s 3 0 v q l 0 0 6 ) 芯片上实现了语音信号的基音周期实 对估计系统。目前还很少有适合采用硬件电路直接实现的基音周期估计算法, 当需要实时提取语音信号的基音周期时,最好能够使用硬件电路实现实时的基 音周期估计。 第三章针对语音信号的信噪比s n r ( s i g n “t on o i s er a t i o ) 比较低时,带噪 语音信号的基音周期难以估计准确的问题,提出了一种基于前置滤波和小波变 l o 中国科学技术大学博士论文 第一章绪论 换的基音周期检测方法。采用小波变换直接从语音信号中检测出声门闭合时刻 g c i 的信号锐交点,求两个声门闭合时刻的时间就得到基音周期,并且通过前 置低通滤波器降低了噪声和共振峰的影响,用一级小波变换便可以获得了比较 高的检测精度和噪声鲁棒性,同时降低了基音周期估计的计算复杂度。 第四章针对直接从带噪语音中难以准确提取线性预测系数的问题,给出了 一种基于谱减的带噪语音的线性预测系数提取方法。由于背景噪声的能量和频 率成分都是有可能发生变化。为了正确从带噪语音信号提取线性预测系数,使 每一帧信号所估计的噪声功率谱都能够动态地随背景噪声的变化而更新,采用 了具有动态跟踪性能的最小值统计跟踪方法进行噪声功率谱估计,通过谱减方 法求出语音信号的功率谱,从带噪语音的功率谱减去估计的噪声功率谱就得到 估计的语音功率谱。实验结果表明,使用谱减的方法提高了提取线性预测系数 的准确率。 第五章研究了几种常用的用于对语音信号的线谱频率参数进行矢量量化的 方法和基于高斯混合模型新的量化方法。基于高斯混合模型新的矢量量化方法 的计算量和存储大小不随量化比特数的多少而改变。采用高斯混合模型先估计 出语音参数的概率密度函数,然后运用变换编码和比特分配技巧在各个高斯概 率密度函数之间合理分配量化比特,计算量和存储量都大大减少。 第六章分析了目前常用的谱减、维纳滤波和k a l m a n 滤波单通道语音增强方 法。提出了一种基于声道慢变特性的k a l m a n 滤波的语音增强算法。该算法根 据人们在发声时,声道的形状变化比较缓慢,声道系数也具有缓慢变化的特点, 先将线性预测系数转化为线谱频率参数,然后对相邻帧的线谱频率参数做一阶 平滑,修正了状态转移矩阵,抑制了增强语音中的孤立残留噪声。作为语音编 码的前端处理部分,提高了语音编码质量。 最后,是论文的总结和展望。 中国科学技术大学博士论文 第_ 二章快速基音周期的提取方法 第二章快速基音周期的提取方法 语音信号的基音周期是语音信号处理中的一个非常重要的参数,它描述了 语音激励源的一个重要特征。基音周期信息在许多方面中都有广泛的应用,例 如在发音系统疾病的诊断、听觉残障者的语音指导、语音编码、语音合成、语 音识别、话者识别和声音转换等研究领域和应用中,一般都要用到基音周期参 数。对任何一种低码率语音声码器来说,基音周期估计的是否准确,会直接影 响到合成语音质量的好坏。 目前已经提出了很多关于语音信号的基音周期的估计方法,例如短时平均幅 度差函数a m d f ( a v e r a g em a g n i t u d ed

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论