(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf_第1页
(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf_第2页
(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf_第3页
(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf_第4页
(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(信号与信息处理专业论文)语音信号矢量量化编码技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

长存t 业大学硕士学位论文 摘要 语音通信一直是现代各种通信系统承载的一项重要的、不可缺少的业务。随着通 信网络用户数量的增加、网络业务综合化、多样化,网络带宽与系统容量、服务质量 的矛盾逐渐突出,传统的6 4 k b p s 的p c m 语音压缩编码已经不能满足逐渐变得拥挤的 传输信道要求。因此,压缩语音信号的传输带宽或降低电话信道的传输码率,一直是 人们追求的目标,语音编码在实现这一目标的过程中担当着重要角色。语音编码就是 压缩语音信号的数字表示而使表达这些信号所需比特数最小的算法。那么如何在不牺 牲语音通话质量的前提下尽可能降低其传输的比特速率是且j ; 研究的重要课题。 人们一直在寻找新的算法来提高编码质量,经过研究发现矢量量化技术对于语音 压缩编码并获得高质量的合成语音是非常有效的。而矢量量化之所以优于标量量化, 是由于它不仅能够象标量量化那样利用线性依赖( 线性相关) 和概率密度函数的形状来 消除冗余度,而且能够利用非线性依赖( 统计不独立) 和矢量量化的维数来消除冗余度, 从而压缩了数据。本论文主要对语音信号编码中的矢量量化技术进行了研究。 线性预测是许多语音编码方案的核心技术。为降低编码速率,选用高效的线性预 测系数编码方法很重要。通过阅读大量的文献资料,参数量化所选取的语音参数有部分 相关系数( p a r c o r ) 、对数面积比系数、倒谱系数等。而线谱对( 1 i n es p a 2 t n l mp a i r , l s p ) 即线谱频率( 1 i n es p e c t r u mf i e q u e n c y , l s f ) 是线性预测系数的等价参数,它对量化精度要 求不严格,在满足单调性的前提下,可以保证由它恢复出的合成滤波器是稳定的,所 以本论文采用的矢量量化技术是对l s p 参数进行量化编码。目前对l s p 参数的矢量量 化研究方法有两级矢量量化、分裂式矢量量化、预测式矢量量化、模拟退火法连接分 裂矢量量化等。它们各有优点,比一般的v q 算法性能要好。而本论文则采用有限状 态矢量量化( f s v q ) 技术对l s p 参数进行量化编码。 本论文首先从语音信号产生的离散数字模型出发,简单讲述了低速率语音编解码 的基本原理和技术;然后讲述了矢量量化技术的基本概念、矢量量化器的组成、分类 以及矢量量化的关键技术;接下来,讲述了c e l p 算法,然后对f s l 0 1 6 语音编解码器 的算法进行改进,主要思路是将f s v q 用于c e l p 声码器中,即用f s v q 算法代替c e l p 声码器的参数量化编码功能模块。最后通过仿真实验得出结果,并对结果进行了分析。 关键词:有限状态矢量量化码激励线性预测l s ps d 长存1 = 业人学硕:l 学位论文 a b s t r a c t s p e e c hc o m m u n i c a t i o ni sa l li m p o r t a n ta n di n d i s p e n s a b l es e r v i c eo fd i f f e r e n tm o d e r n c o m m u n i c a t i o ns y s t e m sf r o mt h ev e r yt i m e w i t ht h ei n c r e a s i n go fn e t w o r ku r 、t h e i n t e g r a t i n ga n dd i v e r s i f y i n go f n e t w o r ks e r v i c e ,t h ec o n t r a d i c t i o na m o n gb a n d w i d t h 、s y s t e m c a p a c i t ya n ds e r v i c eq u a l i t ya r em o r ea n dm o r eo b v i o u s ,t r a d i t i o n a l6 4 k b p sp c ms p e e c h c o d i n gc a nn o ts a t i s f yt h er e q u i r e m e n to ft r a n s m i tb a n d w i d t hw h i c h i sb e c o m i n gm o r ea n d m o r ec o n g e s t e d t h e r e f o r e ,c o m p r e s s i n gs p e e c hs i g n a lt r a n s m i s s i o nb a n d w i d t ho rr e d u c i n g t e l e p h o n e - c h a n n e lt r a n s m i s s i o ni st h eg o a lp e o p l ep u r s u e d a l lt h ew h i l e s p e e c hc o d i n gp l a y s a ni m p o r t a n tr o l ei nt h ec o b r s eo fr e a l i z a t i o no ft h eg o a l s p e e c hc o d i n gi sa na l g o r i t h mo f t h ed i g i t a ld e n o t a t i o no fc o m p r e s s i n gs p e e c hs i g m a ,m a k i n gu s e f u lb i t st oe x p r e s st h e s e s i g n a l sm i n i m i z e s o ,h o wt or e d u c et h eb i t - r a t eo fs p e e c hw i t h o u tn o t a b l yd e g r a d i n gi t s p e r c e p t u a lq u a l i t yi saq u e s t i o nt ot h er e s e a r c h e r s p e o p l ea r ea l w a y si ns e a r c ho ft h en g wa l g o r i t h m st oa d v a n c ec o d i n gq u a l i t y i tf i n d s o u tv q ( v e c t o rq u a n t i z a t i o n ) t e c h n o l o g yi sm o r ee f f e c t i v et os p e e c hc o m p r e s s i n gc o d i n g a n dg e t sh i g hq u a l i t ys y n t h e t i c a ls p e e c h a sv e c t o rq u a n t i z a t i o ni ss u p e r i o rt os c a l a r q u a n t i z a t i o n , i ti sn o to n l yu s i n gl i n e a rr e l i a n c e ( 1 i n e a rc o r r e l a t i o n ) a n dp r o b a b i l i t yd e n s i t y f u n c t i o ns h a p et oe l i m i n a t er e d u n d a n c ea ss c a l a rq u a n t i z a t i o n , b u ta l s ou s i n gn o n l i n e a r r e l i a n c e ( s t a t i s t i c a ln o ti n d e p e n d e n t ) a n dd i m e n s i o n so fv e c t o rq u a n t i z a t i o nt oe l i m i n a t e r e d u n d a n c e c o n s e q u e n t l y , i tc o m p r e s s e sd a t a t h i sp a p e rr e s e a r c h si n t ov e c t o rq u a n z a t i o n t e c h n o l o g i e si ns p e e c hs i g n a lc o d i n g l i n e a rp r e d i c t i o ni st h ec o r et e c h n o l o g yo fm a n ys p e e c hc o d i n gs c h e m e s i no r d e rt o r e d u c ec o d i n gs p e e d ,i ti sv e r yi m p o r t a n tt ou s em o r ee f f i c i e n tl i n e a rp r e d i c t i v ep a r a m e t e r s c o d i n gm e t h o d s r c a d i n ga l o to f l i t e r a t u r e , s p e e c hp a r a m e t e r so f p a r a m e t e rq u a n z a t i o nh a v e p a r tc o r r e l a t i o np a r a m e t e r ( p a r c o rp a r a m e t e o 、l o g a r i t h ma c r e a g er a t i o ,q u e f r e n c y p a r a m e t e ra n ds o o i ll i n es p e c t r u mp a i ri st h ee q u i v a l e n tp a r a m e t e ro fl i n e a rp r e d i c t i v e p a r a m e t e r , i ti sn o ts t r i c tw i t hq u a n z a t i o np r e c i s i o n , o nt h ep r e m i s eo f m o n o t o n o u sc h a r a c t e r , i tc a na s s u r es y n t h e t i c a lf i l t e rr e n e w e db yl i n es p e c t r u mp a i ri sr o b u s t n e s s s o ,t h i sp a p e r u s e sv e c t o rq u a n t i z a t i o nt e c h n o l o g yt oc o d ew i t hl s pp a r a m e t e r a tp r e s e n t , r e s e a r c h m e t h o d so nl s pp a r a m e t e r sv e c t o rq u a n t i z a t i o nh a v et w o s t a g ev e c t o rq u a n t i z a t i o n 、s p l i t v e c t o rq u a n t i z a t i o n 、p r e d i c t i v ev e c t o rq u a n t i z a t i o n 、s i m u l a t e da n n e a l i n gl i n k e ds p l i tv e c t o r q u a n t i z a t i o na n ds oo n t h e yh a v er e s p e c t i v em e r i t s 、b e t t e rp e r f o r m a n c e ,c o m p a r e dw i t h g e n e d cv qa l g o r i t h m s i nt h i sp a p e r u s e sf i n i t es t a t ev e c t o rq u a n t i z a t i o nt e c h n o l o g yt oc o d e w i t hl s p p a r a m e t e r s 1 1 长存t 业大学硕士学位论文 f i r s t , b a s e do nt h ed i s c r e t em o d e lo fs p e e c hp r o d u c t i o n , t h ep a p e ri n t r o d u c e st h e p r i n c i p l ea n dt e c h n o l o g yo fl o wb i t - r a t es p e e c hc o d e ci nb r i e f ;t h e nt e l l sb a s i cc o n c e p t so f v q ( v e c t o rq u a n t i z a t i o n ) t e c h n o l o g y , i t sc o m p o s i n g ,c l a s s i f i c a t i o na n dt h ek e yt e c h n o l o g y i ns u c c e s s i o n , i n t r o d u c e st h ea l g o r i t h mo fc o d ee x c i t e dl i n e a rp r e d i c t i o n , t h e ni m p r o v e s f s l 0 1 6s p e e c hc o d e ca l g o r i t h m , t h en l a i r l t h o u g h ti sm a k i n gf s v q ( f i n i t es t a t ev e c t o r q u a n t i z a t i o n ) u s ei nt h ec e l pv o c o d e rp a r a m e t e rq u a n t i z a t i o nc o d i n gm o d u l e f i n a l l y , g e t s t h er e s u l t st h r o u g hc o m p u t e rs i m u l a t i o ne x i :_ 3 r i m e n t sa n d a n a l y z e st h er e s u l t s k e yw o r d s :f i n i t es t a t ev e c t o rq u a n t i z a t i o nc o d ee x c i t e dl i n e a rp r e d i c t i o n l i n e - s p e c t r u mp a i rs p e c t r u md i s t o r t i o n i l l 长春t 业人学硕i :学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经 发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律结果由本人承担。 论文作者签名: 昊茅j 日期: 如口7 年年月f 日 长存1 = 业人学硕i :学位论文 第一章引言 1 1 语音编码技术发展概况 到目前为止,语音的压缩编码可以分为波形编码、参数编码以及混合编码三大类。 波形编码使重建语音波形与原始语音波形尽量保持一致。这种压缩编码具有适应能力 强、语音质量好、编码算法简单等优点,但是编码速率高,例如p c m 编码,速率为 6 4 k b p s 。为了降低数码率,c c i t t 于1 9 8 4 年l o 月提出了a d p c m 编码算法0 2 7 2 1 ) , 建议在l 路6 4 k b i t sp c m 话路中传输2 路话音信号,即将输入的p c m 数字话音信号 经过差分后对差值进行4 b i t 编码,因此数码率为3 2 k b i t s ,其语音质量达到了p c m 语 音的质量。经过三年多时间的修改,c c i t t 使3 2 k b i t s 的a d p c m 能够实现1 6 2 4 3 2 4 0 k b i f f s 四种数码率。至此,波形编码已经形成了一个完整的系列,并且得到了广泛的应 用。然而,在1 6 k b i t s 数码率以下继续进行波形编码,其话音质量将迅速下降。因此, 要在更低的速率下进行语音压缩编码,必须找到新的算法,参数编码就是在这样的背 景下提出来的。 参数编码又称为声源编码,是将话音信号在频域或其他正交变换域中提取能够表 征语音信号的特征参数,并将其变换成数字序列进行传输。解码是将接收到的数字序 列经过变换恢复出特征参数,再根据特征参数重建语音信号。参数编码是以人的发音 机制模型为基础,用一系列模拟声道频谱特性的滤波器系数和若干声源参数来描述这 个模型,将通过语音线性分析后得到的特征参数编码后进行传输。线性预测编码( l p c ) 及其各种改进型都属于参数编码。这种编码方式的速率可达到2 k b i t s - - 4 8 k b i t s ,甚至 更低,语音的清晰度尚可,但自然度不好,即有时分辨不出男、女声,对背景噪声很 敏感,所以主要用于军事通信系统中。 近些年来,人们在l p c 研究基础上对1 6 k b i t s 以下的高质量语音编码技术进行了 深入的研究,发现混合编码能解决波形编码和参数编码两者的缺点,即将两者结合起 来,尽量保留波形编码和参数编码的优点。在混合编码中,数字语音信号中既包括了 若干语音特征参数又包括了部分波形编码信息。混合编码可将数码率压缩到 4 k b i t s 8 k b i t s 。在8 k b i f f s - 一1 6 k b i t s 范围内能达到良好的语音质量。目前以混合编码 技术为基础的压缩编码方案包括:多脉冲线性激励预测编码( m u l t i p u l s el i n e a r p r e d i c t i v ec o d i n g ) ,欧洲g s m 中的规则脉冲激励预测编码( r e g u l a r - p u l s ee x c i t a t i o n c o d i n g ) ,码激励线性预测编码( c o d ee x c i t e dl i n e a rp r e d i c t i v ec o d i n g ) ,多带激励语音编 码( m u l t i b a n de x c i t a t i o n ) 。 长存r 业人学硕1 :学位论文 1 2 论文研究的主要内容和目标 本论文的内容主要涉及低速率语音编码的基本概念和原理。把重点放在语音编码 中的矢量量化技术原理的研究和应用方面。并以f s l 0 1 6 语音编解码器为基础,将f s v q 用于c e l p 声码器中,即用f s v q 算法代替c e l p 声码器的参数量化编码功能模块。 通过这种思想改善原来声码器的语音编码质量。 以下是论文的主要内容: 第一章简要讲述了语音编码技术的发展历史。 第二章从语音产生的离散时域模型出发,接着讲述了语音压缩的理论依据,语音 编码性能的评价指标以及语音的时域分析。 第三章详细讲述了低速率语音压缩编解码中矢量量化技术的基本概念,矢量量化 的分类及关键技术。它是本论文的理论基础。 第四章讲述了码激励线性预测编码的原理及其中的矢量量化技术。 第五章对典型的c e l p 算法进行了改进,即将f s v q 技术应用于c e l p 的参数量 化编码模块。 最后对全文作了总结。 2 k 备t 业人学硕i :学位论文 第二章语音压缩编解码技术基础 2 1 语音产生的离散时域模型 在对语音进行压缩之静,需要了解语音信号的产生机理以及它的一些重要特点, 在此基础上得出语音信号产生的离散时域模型。 根据产生方式的不同,人的语音可以分为浊音和清音两种。区分这两种不同性质 的语音,对于语音编码及语音合成都有非常重要的意义。 人的发音器官包括肺、气管、喉、咽、鼻和口等,这些器官共同形成一条形状复 杂的通道。其中喉以上的部分包括咽、口腔和鼻腔称为声道,其形状随发出声音的不 同而变化。喉部两片声带之间的空隙称为声门,当人说话时,两声带合拢因而受声门 下气流的冲击而张开,又由于声带的韧性迅速闭合。这一过程周而复始的进行,就形 成了一串周期性的脉冲气流进入声道。这一周期脉冲串的周期称为“基音周期”,用品 表示,它表示声门每开启和闭合一次的时间;其倒数称为“基音频率”,用无表示。声 带振动的频率即基音决定了声音频率的高低,频率快则音调高,频率慢则音调低。男 性说话者的以值大约在6 0 2 0 0 h z 范围,女性和小孩说话者的无值在2 0 0 - - - 4 5 0 h z 之间。 用上述方式发出的语音称为“浊音”( v o i c e ) 。 图2 - 1 一段2 0 m s 语音的时域波形( 取其中一帧) 语音的另一种产生方式是声门完全封闭,这时声道不是受声门周期脉冲的激励而 是利用口腔内原有的空气释放出来发声。由于该气流通过一个狭通道时在口腔中形成 湍流,具有随机噪声的特点。相应的语音称为“清音”( u n v o i c e ) 。 声道可以被看作是一个谐振腔,它有许多自然谐振频率( 在这些频率上其传递函数 具有极大值) ,它放大某些频率分量而衰减某些频率分量。这些谐振频率称为共振峰频 率,简称为共振峰。共振峰与声道的形状和大小有关,一种形状对应一种共振峰。 长春t 业人学硕i :学位论文 虽然各种各样的话音都有可能产生,但声道的形状和激励方式的变化相对比较慢, 因此话音在短时间( 2 0 m s 左右) 内可以被认为是准平稳的( q u a s i s t a t i o n a r y ) ,也就是说基 本特性是基本不变的。这是语音信号的重要特点。从图2 1 中可以看到浊音信号显示 出的高度周期性,这是由于声门的准周期性的振动和声道的谐振所引起的。话音参数 编码器就是来揭示这种周期性,目的是减少数据率而又尽可能不牺牲话音的质量。 目前还没有发现一种可以详细描述人类语音中已观察到的全部特征的模型。但由 于语音信号特有的短时平稳性,在- - d , 段时间内,我们可以采用一个如图2 2 所示的 线性时不变模型来尽可能的逼近实际的语音产生过程。这一模型是现代语音信号处理 的基础。 该离散时域模型包括三个部分:激励源、声道模型和辐射模型1 1 j 。 图2 - 2 语音信号产生的离散时域模型 信号 在浊音的情况下,激励信号由一个周期脉冲发生器产生,所产生的序列是一个周 期为的冲激序列,即每隔点便有一个样值为1 ,而其他样值为0 ,周期取决于 基音频率和语音的采样频率e ,n = 厶只,当f , = 8 k h z ,厶的变化范围为5 0 - - 4 5 0 h z 时,则的变化范围为1 8 1 6 0 。为了使浊音的激励信号具有声门气流脉冲的实际波形, 还须使冲激信号通过一个声门脉冲模型滤波器,其z 域传输函数为g ( z ) ,乘以系数加 的目的是调节浊音的幅度和能量。 在清音的情况下,激励由一个随机噪声发生器产生,产生的随机噪声均值为零, 自相关函数为一个单位冲激函数,且幅度服从正态分布,乘以系数a u 的目的是调节清 音的幅度和能量。 声道模型以刁给出了离散时域的声道传递函数,在大多数情况下它是一个全极点 函数: 门 v ( z ) = 1 芦一 ( 2 一1 ) 1 一ya k z “ 4 长存t 业人学顾i :学位论文 其中是模型的阶数,g 是模型的增益, a k ,k = l ,奶是模型的参数。显然值 越大,模型的参数与实际吻合的程度越好,但对大多数应用而言,取1 0 - - 1 2 就可以 了。 辐射模型烈力与唇形有关, r ( z 产l r z ,r 约等于零( 2 2 ) 这个模型中,除g 和r 保持不变外,4 ,以以及声道模型参数口川,都随 时间变化,但由于发音器官的惯性使这些参数的变化速度受到限制,对于声道参数, 在1 0 - 3 0 m s 内可以认为它们基本保持不变,因此可以把语音信号分成一帧一帧来分析, 通常取帧长为2 0 m s 。激励信号的基本性质在浊音时为准周期脉冲,在清音时为随机噪 声。当然,这样简单的模型是有局限性的,但在大多数的语音压缩编码算法中是合理 的。所以这种离散时域模型得到了广泛的应用。 2 2 语音可进行压缩的理论依据 语音信号之所以能够进行压缩编码,主要是有两条基本依据口1 。第一,利用了语音 信号存在的冗余度;第二,利用了人耳的听觉特性。 从前面我们讲述的语音信号产生的激励和它的结构特性表明,语音信号中存在很 大的冗余度。语音压缩实质上就是通过识别这些冗余信息荠去掉它们,从而达到压缩 的目的。语音信号的冗余度表现在以下四个方面: ( 1 ) 语音信号样本间有很强的相关性,即其短时谱是不平坦的;( 2 ) 浊音语音段具 有准周期特性;( 3 ) 声道的形状及其变化的速率是有限的;( 4 ) 传输码的概率分布是不 均匀的。 前三个冗余度是由于语音信号产生激励的物理结构决定的。第一种冗余度体现在 短时谱的不平坦性,理论上可以通过适当的滤波来去除,大多数波形编码技术都是利 用这一特性,从频谱平整化进行处理。第三种冗余度则是语音信号分帧处理的理论基 础,它允许声道滤波器参数或谱包络等可以按帧处理,同时通过一定的方法去除帧间 的相关性。最后一种冗余度与所采用的特殊编码方法有关,主要被各种概率编码方法 所利用。当传输的数码率被设定时,语音编码器的合成语音质量将通过有效地利用这 些冗余度而达到最佳。 利用人耳的听觉特点是语音压缩编码的第二个途径。人的听觉中有一个重要的特 点,就是听觉的掩蔽效应个强音能抑制另一个弱音的听觉。在编码过程中,利用 这个特点,并用一些准则来改变量化噪声的频谱形状,使得量化噪声在主观听觉上能 部分或全部被语音所屏蔽;或在后滤波技术中利用谱幅度的适度失真来降低量化噪声 对语音质量的影响。人的听觉对声调( p i t c h ) f l 自感觉很准确,但在不同的频段允许的畸变 是不同的,对低频端比较敏感( 因为浊音的基音和共振峰集中在那里) ,对高频端不太敏 感,能允许较大的基音偏差,“子带编码技术”利用这一特点。人的听觉对信号的相位 长存t 业人学硕i :学位论文 很不敏感,这样为某些分析和编码方法提供了依据;低码率的语音编码几乎不会给相 位因子分配码字。 , 对于人的听觉机理的研究现在处于初级阶段,但肯定对这方面的探索,将会给我 们提供更多可利用的信息。 2 3 语音信号的短时分析技术 研究表明,语音信号是短时平稳的随机序列,通常认为在5 - 3 0 m s 范围内语音信号 保持相对稳定一致的特征。因此,对于语音信号的分析和处理必须建立在短时的基础 上。 2 3 1 语音信号的存储和加窗 一帧语音信号s ( n ) 在进一步处理前往往要经过加窗处理,即用一定的窗函数w ( n ) 乘以s ( 疗) ,从而形成加窗语音瓯( ) 。在语音信号数字处理中常用的窗函数有矩形窗和 汉明窗,它们的表达式如下( 代表帧长) : 矩形窗: 州:p :y ( 2 - 3 ) 以刀) 2 1o ,其他 汉明窗: 以栉) : n 5 4 一o 4 6 c o s ( 2 石吾) ,o 嘲 2 ;而在参数编码中r 可以降低到o 2 5 甚 至o 1 以下。显然在后种情况下,重建语音的清晰度和自然度都会有所损失。 1 0 长备t 业人学硕i :学位论文 第三章语音压缩中的矢量量化技术 3 1 矢量量化概述 在信号的处理中,对信号的量化有两种方法:标量量化和矢量量化。标量量化是 指用一个离散的数字值来表示一个幅度具有连续取值( 模拟值) 的离散时域信号( 采样信 号) 。矢量量化是先将k 个( 贬:2 ) 个采样值形成k 维空间中的一个矢量,然后将这个 矢量一次进行量化,因而可以降低数码率。矢量量化( v e c t o rq u a n t i z a t i o n ) 是一种极其重 要的信号压缩方法,是从7 0 年代术才发展起来的,它利用信号间的冗余信息对信号进 行压缩,达到降低速率的目的。它广泛应用于语音编码、语音识别和合成、图像压缩 等领域。v q 在语音信号处理中占有着重要的地位。本论文重点讲述v q 在低速率语音 压缩编码中的应用。 3 1 1 矢量量化的基本特点 矢量量化研究的基础是信息论的一个分支:率一畸变理论1 5 。 量化速率r :每个采样信号平均所用的比特数,单位是比特采样; 量化信号与原信号之间的误差均方值和原始信号均方值之比,即: n 一0 卜x i i : “ 删: 量化畸变d : ( 3 一1 ) 其中x 为原始信号,叠为相应的量化信号。 率一畸变理论中有两项理论研究成果对于矢量量化算法的发展起关键作用。 第一,对于一定的量化速率置,量化畸变d 是一定的。因此d 和r 有一定的函数 关系,记为d ( r ) 或r ( d ) 。对于不同的信号源,根据其统计特性,可以算出相应的d ( r ) 或r ( d ) 。 第二,对于一个特定的信息源( 无记忆的信息源或者有记忆的信息源) ,如果给定了 量化速率r ,那么任何量化器给出的量化畸变不可能低于“率一畸变理论”给出的下 限d ( r ) 。而矢量量化能够接近这个下限。因此,矢量量化总是优于标量量化。 矢量量化具有以下特点: ( 1 ) 压缩能力强: ( 2 ) 一定产生失真,但失真可以控制:x 的分类越细,失真越小。 ( 3 ) 计算量大:每输入一个x ,都要和( m 1 ) 个】= :逐一比较( m 为码本容量) ,搜索 出畸变最小的。由于x 和f 都是k 维矢量,故搜索的矢量运算工作量很大。 ( 4 ) v q 是定长码。 矢量量化的研究目的在于针对特定的信息源和矢量维数,找到一种最佳的量化器, 长存1 = 业人学硕 :学位论文 能够在r 一定时给出最低的畸变。 3 1 2 矢量量化器 一般采用最近相邻准则( n e a r e s tn e i g h b o rr u l e ) 来设计,即满足下式: 球( x ) = i c e d ( x , r ) x d ) ( 3 - 2 3 ) k x f0 x ,) g ( 功的作用是:当两矢量的能量接近时,忽略能量差异引起的影响:当两矢量的能量 相差较大时,即进行线性加权;而当能量差超过门限时,则为某固定值。式中,口 为加权因子,砩、劫、口要经过实验来确定。 1 6 蚴 钾 箸妒 o 一 p 即印妒钾印蚴 r_11l【 r 工 长存r 业人学硕i :学位论文 3 4 矢量量化器中码本的设计 设计最佳的矢量量化器即要使畸变统计平均失真最小。码本是在这个过程中产生 的,所以也就是码本的建立过程。矢量量化器的设计源于标量量化器的设计,而标量 量化器的设计应用了l l o y d 提出的两个条件,后来这两个条件被推广到矢量量化器的 最佳设计上。 在矢量量化器的最佳设计中,重要的问题是怎样划分量化区间和确定量化矢量。 l l o y d 提出的两个条件回答了这两个问题。 3 4 1 码本设计的原则 1 1 目的:在v q 中,码本的生成是一个关键问题。若设计k 维m 级码本,则要根据m 失真最小的准则,分别决定如何对r 。进行划分,以得到合适的m 个胞腔( c e l l ) s , , ( 1 s 毽坳;以及求出s ,( 1 s f 岣的代表矢量f ,( 1 s 岣。最佳量化要满足其平均失真 d ( 9 最小,即 d ( q ) = m i n e d ( x ,】,) 】 ( 3 - 2 4 ) 2 ) 原则:最佳多维量化器必须满足下面两个条件 分割条件:对r 。的分割应满足( v o r o n o i 分割) 墨- - x r :d ( x ,r ) d ( x ,一) ) f j ( 3 2 5 ) 质,i j , ( c e n t r o i d ) 条件:当子空间分割x 佚丑,固定时,v o r o n o i 胞腔的质心就是量 化器的码字,即 r = e 【x i x r 】 ( 3 2 6 ) 矢量r 是胞腔s ,的质心。对于最佳胞腔的分割、最佳质心的计算与畸变的度量准则有 关。对于均方误差准则及加权均方误差准则,胞腔墨的质心,: 耻南荟x ( 3 。2 7 ) b i 表示胞腔墨中元素的个数,即胞腔墨中有b i + x o 矢量量化由码本】,和划分尼的条件唯一确定。当码本确定后,分割就可以通过最 近邻域准则( n e a r e s tn e i g h b o rr u l e ) 唯一决定。最佳量化器q 的设计也就是最佳码本y 的设计。 3 4 2 码本的设计 码本的设计通常采用l b g 算法,这个算法是由l i n d e ,b u z o ,g r a y 在1 9 8 0 年首 次提出的。它是标量量化器中l l o y d 算法的多维推广。 1 7 长存t 业人学顽i :学位论文 3 4 2 1l b g 算法 整个算法就是分割条件和质心条件的反复迭代过程,即由初始码本寻找最佳码本 的过程。首先对初始码本进行迭代优化开始,直到系统性能满足要求或者不再有明显 的改进为止。 这种算法既可以用于已知信号源概率分布的情况,也可以用于未知信号源概率分 布的场合,但此时要知道它的一列输出值( 称为训练序列) 。通常语音信号的概率分布随 着各种情况的不同,不可能事先统计过,因此无法知道它的概率分布。目前一般采用 训练序列来设计码本和矢量量化器。图3 - 2 描述了已知训练序列的算法流程图。 l b g 算法的具体步骤如下: 1 ) 初始条件: 码本长度m 初始码本,拓0 ,瑶“,堵j 停止计算门限0 占 1 初始平均失真d 。- - ) 0 0 ,训练序列z 黔 墨,r = l ,2 ,m ) 迭代初值n - - 0 2 ) 用码本堵作为已知质心,根据最佳划分原则把训练序列t s = - x , ,r = l ,2 ,埘 划分 为m 个胞腔,即 q 呻= x l d ,r ) d ( x ,i ) ,f r ,堵,x t s ,j = l ,2 ,m ( 3 2 8 ) 3 ) 计算平均失真与相对失真 平均失真:d ”2 聊1 _ _ 号百, ,n 。f i n ,d ( x , ,y ) 7 ( 3 - 2 9 ) 其中d ( 墨,d = d ( 矗。,y m ) ,是k 维输入矢量工,的量化畸变。 相对失真:口肿= i 里与; = 叫 ( 3 s 。) 如果西”s s ,则停止计算,当前码本即为设计好的码本,否则继续执行2 ) 4 ) 生成新码字 计算这时划分的各胞腔的质心,即用下式来计算: 卜南荟x ( 3 - 3 1 ) i s ,i 表示胞腔墨中元素的个数。由这m 个新质心 i ”,霹”,搿“ 构成新的码本 蹬”,设置萨什1 ,返回2 ) 再进行计算,直到满足式( 3 3 0 ) ,得到所要求的k 为止。 长存丁业大学硕 :学位论文 图3 - 2 已知训练序列的l b g 算法流程图 3 4 2 2 初始码本的生成 在码本的设计过程中,有一个问题需要解决:即如何选取初始码本。这对于最佳 1 9 长存t 业人学硕i 二学位论文 码本的设计有很大影响。那么就是要求码本在开始时对要编码的数据来说应具有代表 性。达到这一要求的方法之一是直接取输入信号矢量作为码字。因为相邻的语音信号 有很大的相关度,在语音波形量化时,应使样本之间的间隔足够大,这样才能忽略样 本之间的互相关。 常用的生成初始码本的方法有下面几种: ( 1 ) 随机选取法 最简单的方法是从训练序列中随机的选取肘个矢量作为初始码字,从而构成初始 码本,即随机选取法。该方法的优点是不用初始化计算,从而可大大减少计算时间。 它的问题是可能选到的是一些非典型的矢量作为码字,即被选中的码字在训练序列中 的分布不均匀。这样码字就没有代表性,那么码本中有限个码字得不到充分的利用, 从而使矢量量化器的性能变差。 ( 2 ) 分裂法 首先设定码本尺寸为m = i ,即初始码本中只包含一个码字。计算所有训练序列的 形心,将此形心作为第一个码字捌( 卢o ) 。然后将它分裂为搿= 瑚士g ;此时码本中 包含两个元素,一个是- - 0 ,另一个是卢1 ;并按m - = 2 用训练序列对它设计出m = 2 的 码本。接着,再分别将此码本中的两个码字一分为二,此时码本中就有4 个码字。这 个过程重复下去,经过l 0 9 2 m 次设计,就得到所要求的有m 个码字的初始码本。 用分裂法形成的初始码本性能较好,当然以此码本设计的矢量量化器性能也较好。 但是随着码本中码字的增加计算量也迅速增加。所以,这种算法是以牺牲运算量来换 取性能的提高。 。 ( 3 ) 乘积码本法 这种码本初始化的方法,是用若干个低维数的码本作为乘积码,求得所需的高维 数的码本,可简单地用2 个低维数的码本作乘积来获得。即维数为岛,大小为m 的码 本乘以维数为膏一岛,大小为m 2 的码本,得到一个k 维码本,其大小为 庐m i m 2 。 例如,要设计一个维数k = 8 ,尺寸m = 2 5 6 的初始码本,可以由两个小码本相乘得到,其 中一个维数为6 ,码本大小为1 6 ;另一个维数为2 ,码本大小为1 6 。 3 5 矢量量化中的搜索技术 矢量量化中的一个重要步骤是在经过训练的码本的基础上根据输入矢量找到满足 畸变失真最小的码字序号。通常在进行v q 编码时,采用全搜索算法,即对于每一个 输入矢量,需要比较它与码本中每一个码字之间的畸变,找出失真最小的码字,用其 标号作为编码的输出。若码本中有肘个码字,码字矢量和输入矢量的维数为置且用欧 氏距离衡量二者之间的畸变,那么完成一次全搜索所付出的计算代价是:乘运算k m 次,加减运算( 2 k 一1 ) m 次,比较运算( m 一1 ) 次。当k 和m 非常大时,所需的运算量 是很大的。为了解决上述问题,可以通过各种办法来达到使得码本容量比较小,搜索 长存t 业人学硕i :学位论文 算法的运算比较小的目的。一般,可以从改变码本结构着手,或者改变搜索的方法着 手,也可以将两者结合起来。 3 5 1 从改变码本结构着手 码本结构可以有下列一些结构:( 1 ) 树搜索码本v q 系统;( 2 ) 多级级联v q 系统; ( 3 ) 分裂式v q 系统;( 4 ) 有记忆v q 系统。 ( 1 ) 树搜索码本v q 系统 树搜索码本v q 系统中按照码本的形成方法可分为:直接形成的树状码本和由全 搜索码本形成的树状码本两类。 直接形成的树状码本的生成过程:在形成二进数码本时首先形成一个容量m 为2 的码本,即码本中只包含2 个码字和h ,即为一个1 比特v q 系统;接着根据最邻 近原则将所有输入矢量的集合分成两个子集,各以和h 为质心;然后对这两个子集 再分别进行1 比特v q ,形成两个容量为2 的码本,其中的码字为r o o 、r o 卜巧o 、k 1 。 这样,所有输入矢量的集合又可以分为4 个子集,各以上述4 个码字为质心。接着继 续分下去,分裂足次后就得到扩个码字。如图3 3 所示: 图3 - 3 树状码本( 二进,容量为4 ) 由全搜索码本形成的树状码本的生成过程:第一,按照标准的l b g 算法形成一个 达到最终容量m 的全搜索码本;第二,按照最近邻原则将这肘个码字分成m 2 对,即 要使每一对码字为畸变最小的相邻码字,然后求出这m 2 对码字的质心,作为新的上 一层的码字。这m 2 个新码字可以一样按照最近邻原则分成m 4 对。若m = 2 ,则经过 ( k 一1 ) 次合并,最后可以形成只有两个码字的最上层,树状码本就形成了。对上面两 种树状码本形成方法,在进行v q 编码时的搜索过程是相同的。首先按照最近邻原则, 找到和y l 中与输入矢量畸变最小者;接着从该码字出发向下一层搜索,直到最后一 层,找到畸变最小者,输出其下标。 可以看出,对于树状码本,用上述搜索方法完成搜索所需的畸变计算次数为2 k , 畸变大小比较次数为k ;而采用全搜索的畸变计算次数为2 ,畸变大小比较次数为( 2 - - 1 ) 次。 长存t 业人学硕i :学位论文 由此可见,采用树状码本从减小运算量的角度来看是明显的。不过这是以牺牲一 定的量化性能和存储量为代价的。一般来说,树状码本是一种次最优码本,在同样的 码本容量下,其平均畸变差于全搜索码本;它不仅要存储最终的2 “个码字,还要存储 每一层的码字,因此这种结构的码本所需的存储量大约是全搜索码本的2 倍。 ( 2 ) 多级级联v q 系统 多级v q 系统由若干个普通的全搜索v q 系统级联而成。如图3 - 4 所示: 图3 - 4 多级矢量量化器示意图 它的第一级是一个包括m 个码字的v q 系统。对于每一个输入矢量卫v q 编码 器l 按照最近邻原则找到一个码字f 1 ) ,并计算出x 与该码字的误差矢量a ( x ,z o ) 。 这个误差矢量即是第二级v q 系统的输入。这样一级级的推导就可以构成一个级联v q 系统。整个编码器的输出即是各级联v q 编码器输出码字的编号,而v q 译码器则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论