(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf_第1页
(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf_第2页
(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf_第3页
(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf_第4页
(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(通信与信息系统专业论文)自适应比特分配的dam在语音压缩应用中的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位沧文 稿要 f 2 3 基于离散幅度多分辫率分析( d a m ) 的匿童缠堡是近年来新出观的一种低延时编 码方案,它通过对窗宽即原始语音信号的数据段编码来压缩信号比特数;同时利用编 码序列符号关系存储信号局部时域特征信息,使得在解码端可以准确地恢复波形。基 本的d a m 声码器已经被实现并取得了良好的效果。本课题正是对d a m 在语音压缩领 域的应用的进一步探索与研究。7 论文第一部分对语音压缩算法作了一个总体的论述,然后着重讨论了离散幅度多 分辨分析的基本原理和性质,对d a m 变换中的求余现象进行了几何解释,刻画了信号 在d a m 分析中的特性,并介绍了已有的短延时低复杂度的d a m 声码器的实现方案。 在此基础上,通过对已有d a m 声码器的编码结果进行统计分析,发现其大部分数 值均偏低,根据这个特性,采用了新的编码格式,从而使初步编码后的信号取值范围 更集中,降低了信号之间的相关性,然后针对编码后信号的幅度特点进行比特自适应 分配,以达到进一步压缩语音的目的。理论分析和实验结果表明,改进的编码算法可 以在获得相同语音质量的条件下进一步降低比特率。同时由于算法的简洁,整个编码 方案低延时、低复杂度的优点也得以保留,这在广泛应用的实时交互式通信场合尤为 重要。论文最后还介绍了d a m 在信号检测、语音识别、图象处理等领域中应用的初步 研究。 关键词:离散幅度多分辨率分析饪蚺m * 声码器自适应比特分配短延迟 l 华中科技大学硕士学| 王论文 a b s t r a c t r r h e s p e e c hc o d i n g b a s e do nd a misan e w l o w g e ! a yc o d i n gr o c er l t l y 【t c o m p r e s s e ss i g n a lb yc o d i n gw i n d o wl e n g t ha n ds t o r e st h el o c a lw a v e f o r mf e a t u r e , w h i c hc a nh e i pr e c o n s t r u c tt h ew a v e f o r ma c c u r a t e l y t h eb a s i cd a mv o c o d e rh a s b e e n i m p l e m e n t e d a n d h a ss h o w nag o o dr e s u i t t h i s p a p e r i st h ef u r t h e l e x p l o r a t i o na n dr e s e a r c hf o rt h ea p p l j c a t i o no fd a mi nt h es p e e c hc o m p r e s sa r e a a g e n e r a l r e v i e wo nt h e d e v e l o p m e n t o f s p e e c hc o m p r e s sa l g o r i t h m s i s p r e s e n t e d i nt h ef i r s t p a r t o ft h i s p a p e r ,t h e n t h eb a s i c p r i n c i p l e a n d c h a r a c t e r i s t i co fd i s c r e t e a m p l i t u d em u l t i r e s o l u t i o ni sd i s c u s s e di nd e t a i l a n dt h e “r e s i d u a le f f e c t ”,as p e c i a lp h e n o m e n o ni nd a m ,i se x p l a i n e di nt h e v i e w0 f g e o m e t r y t h e f e a t u r e so f s i g n a l i nd 删a r ed e s c r i b e d a n dt h e i m p l e m e n t a t i o no fe x i s t e dl o w d e l a y ! o w c o m p l e x i t yd 洲v o c o d e ri si n t r o d u c e d o nt h eb a s eo ft h es t a t i s t i c a la n a l y s i sf o rt h ec o d i n gv a l u e so ft h ee x i s t e d d a mv o c o d e r ,n e wc o d i n gf o r m a ti sa d o p t e dt oc o n c e n t r a t et h ec o d i n gv a l u e ss o t h a tt h ec o r r e l a t i o ni sr e d u c e d t h e nt h ei n d e n t a d a p t i n gb i ta l l o c a t i o nis e m p l o y e dt oc o m p r e s st h es p e e c hf u r t h e r t h e o r e t i c a la n a l y s i sa n de x p e r i m e n t a l r e s u l t ss h o wt h a t i m p r o v e dc o d i n gm e t h o dc a nf a r t h e rr e d u c et h ec o d i n gr a t e m a i n t a i n i n gt h es a m es p e e c hq u a l i t y a n dd u et ot h es i m p l e n e s so ft h ea l g o r i t h m t h ei m p r o v e dd a mv o c o d e rs t i l li s l o w d e l a ya n d1 0 wc o m p ! e x i t y w h i c hm a k ei t q u i t es u i t a b l ei nh i g h l yi n t e r a c t i v ec o m m u n i c a t i o n s t h el a s ti st h ev a l u a b l e e x p l o r a t i o i i so f d a ma p p l i c a t i o n si no t h e ra r e a ss u c ha gs i g n a ! d e t e e t i o n s p e e c h r e c o g n it i o n ,a n ( ii m a g ep r o c e s s i n g k e y w c r d s :d i s c r e t e a i n p l i t u d e | l u i t i r e s o l u t i o n ( u m jv u c e d e r a d a p t i n gb i t a 1l o c a t i o n l o w 。一d e l a y i i l_; iii 1 1 llliiili lf-,il 华中科技大学硕士学位论文 - - - _ - _ _ - _ - _ - l _ - _ _ _ _ _ _ _ _ - - _ - - - 一_ _ - - _ - _ _ - - _ _ _ - _ - _ _ _ - - _ - - - _ _ _ - _ _ _ - - - _ _ - _ * “_ - _ - _ _ - 一 1绪论 自从1 9 3 7 年a h r e e v e s 提出脉冲编冯调制( p c m ) 以来,数字 匕语音压缩编码一 直得到持续的发展,大量学者对此进行研究,提出了许多很有效的语音编码方法。由 于通信网中实时传输语音信号的需要,低延时语音编码在近几年来日益受到关注。 基于离散幅度多分辨率分析( d a m ) 的语音编码【1 12 i 是近年来新出现的一种低延时 语音编码方案,它通过对窗宽即原始语音信号的数据段编码来压缩信号比特数:同时 利用编码序列符号关系存储信号局部时域特征信息,使得在解码端可以准确地恢复波 形。d a m 分析建立了以量化精度为尺度的多分辨率分析的概念,它在算法结构上是并行 的,而基于小波的多分辨率分析在算法结构上是迭代的。与之相比,离散幅度多分辨 率分析具有简单、高速的特点,尤其用硬件实现时有较大的优势,特别适用于实时信 号处理。文献 2 首先针对这一思想实现了基本的d a m 声码器并取得了良好的效果。 本课题的研究立足于文献 2 的基础上,通过对文献 2 中的编码结果进行统计分 析和实验证明,发现其大部分数值均偏低,根据这个统计特性,我们对编码格式进行 了修改,从而使初步编码后的信号取值范围更集中,然后针对信号的幅度特点进行比 特自适应分配,以达到在得到相同音质的条件下进一步压缩语音的目的。本课题属于 国家自然科学基金项目“离散幅度信号分析及其应用”( n o :8 6 5 4 3 3 2 3 ) 。相关的论文即 将发表在2 0 0 2 年的电子科学学刊上【3 1 。 1 1 语音编码综述 语音分元音和辅音两种音素。由声带振动引起的准周期性脉冲序列的空气流激励 声道后产生元音,周期脉冲的频率被称为基频:当声带不振动时空气流激励声道后将 产生辅音,其中,若空气流经过声道无阻碍将产生清音,若空气流在某点受到阻碍需 要强迫通过时最终产生的音是爆破音。 语音信号是非平稳的信号,但在短时间内( 典型的为5 2 0 m s ) 内可敬看作是近似 平稳的,因此我们一般讨论的信号统计特性和谱特性都是基于短时的。 华中鲁技大学硕士李位论文 ! ! = ! 竺! 竺竺要竺竺竺竺竺苎! 竺竺竺! 苎竺2 1 1 竺竺竺= 竺竺= = ! = = ! ! 竺! 竺竺! ! 竺竺! ! ! 竺! ! = ! 竺! = ! 竺竺 :博镇拟语矗裂球、量亿就得到了所器的数字善寺。由于蜒拟浯爵口弓粥:啊率一段! 氏予 4 k i i z ,根掘馨农l s h a n r o n ) 疋体取降频率在大于或等于8 :、:;? 4 能保证可以恢复到不 失真的语音信号:对取洋后的信号进行p c m 编码,用8 b il s 量沲数据,最后得到鸸逮 率为6 z i k 铂t s ,s 的数字信号。 语音数字化极大的提高了对语音进行处理的灵活性并使得对语音信号加密更为方 便,但同时也应看到这么高的码速率相应要求了高的存储空问和传输带宽。因此如河 对6 4 k b i t s s 的数字语音信号再进行编码压缩、在不降氐语音质量的同时用最少数量 的比特数表示语音信号从而进一步压缩带宽,就成为相当重要的任务。 事实上,在过去的六十多年里大量学者对这个问题进行了研究,提出了许多有效 的语音编码方法,其中大约有十几种已经成为i t u ( 原c c i t t ) 的语音编码标准,可以将 码速率从标准的6 4 k b i t s s 降到2 4 k b i t s s 甚至更低。 理论上说,语音信号还可以压缩至更低速率。从信息论的角度看【引,语音中最基本 的元素可以认为是音索,英语中音素有1 2 8 2 5 6 个,按照一般人的说话速度,平均每 秒发出1 0 个音素,因此此时的信息率为: i = l o g2 ( 2 5 6 、= 8 0 b i t s s 如果从另一角度看,把发音看成是以语音速率发报文,对每个字母赋七位码( a s c i t 标准) ,每分钟1 2 5 个英语单词,每个单词由七个字母组成,那么信息率为: i = 1 2 5 7 7 6 0 = 1 0 0 b it s s 因此可以认为语音压缩的极限速率为8 0 1 0 0 b i t s s ,当然,这时只能传送句子内 容,而讲话者的音质、音调等重要信息已经全部丢失。为进一步接近该极限目标,当 前仍有不少学者还在探索新的有效的编码方案。本节是对国内外语音编码研究的综述, 首先回顾了语音编码技术的起源,然后简要介绍了语音编码的备种方案最后是对语 音编码的前景展望。 1 1 1 历史回顾 语音编码的研究开始于1 9 3 9 年的b e l l 实验室,当时的研究目的是希望能通过电信 2 华中科技大学硕士学位论文 电缆的窄带建立一个语音传输系统,h o m e rd u d l e y 利用语音信号中存在的高冗余度建 立了第一个声码器,即后来被称作的通道声码器。陔声码器中利用九个频带互相衔接 的模拟带通滤波器对语音信号进行谱分解,第十个通道用于从语音中提取基频并进行 清浊音判别,然后对各通道输出进行取样编码,在解码端用周期信号或随机信号( 分 别用来模拟浊音或清音) 激励各滤波器合成最后的语音输出。随后的五十年代和六十 年代中,通道声码器得到了广泛的研究,另外还出现了共振峰声码器和模式匹配声码 器。 此时的声码器处理的还是模拟语音信号,然而人们很快认识到数字信号的可加密 性和传输存储的便利性,许多人开始致力于语音数字化。四十年代提出了脉冲编码调 制( p c m ) ,该方法对模拟语音信号直接进行离散时间、离散幅度的量化编码,没有去 除信号冗余度。随后为了去除信号冗余度又出现了差分脉冲编码调制( d p c m ) 、增量 调制( d m ) 和自适应差分脉冲编码调制( a d p c m ) ,其中6 4 k b i t s s 的p c m 和3 2 k b i t s s 的a d p c m 成为后来的c c i t t 标准。 随着数字计算机的发展,人们开始寻求码速率更低的语音编码方案博】,研究重点集 中在基于线性语音源系统模型的声码器的数字应用。该模型用线性时变系统模拟声道 和声门,用周期脉冲序列模拟浊音,用随机序列模拟清音。 源系统模型和自回归模型的结合产生了线性预测编码( l p c ) 【6j ,在这种算法中语音 信号的当前值由以前信号值的线性加权而成,加权系数由l e v i s o nd u r b i n 算法给出, 此时的声道滤波器即相当于一个全极点模型。i t a k u r a 和s a i t o 以及a t a l 和s e h r o e d e r 第一个将线性预测( l p ) 运用到语音编码中去,a t a i 和h a n a u e r 接着建立了一个基于l p 的分析合成系统,随后m a r k e l 和g r a y 讨论了l p c 在理论和实践方面的应用,最后由 m a k h o u l 和w o l f 完成谱分析的工作。 另外一种基于源系统模型的编码方法是同态声码器,在同态声码器中对语音信号 进行倒谱分析可以有效的分离出基音和共振峰【7 】。 六七十年代v l s i 技术的出现和数字信号处理理论的发展加速了语音编码算法的研 究。f l a n a g a n 和g o l d e n 提出了基于短时傅立叶变换( s t f t ) 的语音分析合成方法, s c h a f e r 和r a b i n e r 设计并仿真了这种方法,p o r t n o f f 为这种方法提供了理论基础。 在七十年代中后期线性预测方法【8 1 ,变换域编码【9 1 ,子带编码也得n t 进一步的发展。 华中科技大学硕士学位论文 另外人们还致力于将l p 方法运用到军事安全通信中去,八十年代早期制定了基于l p c - - 1 0 算法的联邦标准f s - - 1 0 1 5 。 受蜂窝和军事通信中要求的窄带通信和保密通信所推动,八十年代和九十年代的 研究重点在于能得到高质量语音的稳健低速率语音编码。几种比较有竞争力的算法包 括:m c a u l a y 和q u a t i e r i 提出的正弦分析合成算法 t o l :( f f i n 和h i m 提出的多带激 励声码器;a t a l 提出的基于l p c 和矢量量化的码激励线形预测算法c e l p “】。关于c e l p 的后续研究工作1 1 2 l 证实了c e l p 在中速率甚至低速率编码中的应用,随着高度结构化的 码书的发展,混合编码的实时应用也成为可能。 八十年代后期在语音编码方面取得的巨大进步导致了一系列的算法被采纳为标 准:南美数字蜂窝标准使用8 b i t s s 混合编码:日本数字蜂窝标准使用了一个类似的 6 7 k b i t s s 的混合编码;欧洲g s m 使用码速率为1 3 k b i t s s 的规则脉冲激励算法r p e l p ;在军事保密通信方面则形成了联邦1 0 1 6 标准:国际海洋卫星系统和澳大利亚卫 星系统采用了改进的多带激励编码m p l p 方法。目前g s m 、日本、南美标准正准备引进 半速率算法以增大蜂窝网络的容量。 过去几十年中语音编码得到了很大的成功,使用1 3 k b i t s s 、8 k b i t s s 、6 7 k b i t s s 语音编码的数字蜂窝标准都已经建立,当前的研究集中于可以在4 k b i t s s 甚至更低比 特率时取得高质量语音的编码器【1 3 1 。 1 1 2 波形编码 波形编码直接对波形进行编码而不使用语音信号模型。它们可以处理更多类型的 信号,所以这类编码通常比声码器更稳健,但是同时它们也需要更高的码速率。下面 首先讨论标量和矢量量化,然后讲述子带编码和变换域编码的几个基本概念。 1 标量量化 标量量化包括脉冲编码调制( p c m ) 、差分脉冲编码调制( d p c m ) 、增量调制( d m ) 和自适应差分脉冲编码调制( a d p c m ) 。d p c m 利用到了连续抽样信号之间的相关性,其 最简单的方法是编码器仅仅对相邻抽样值间的差进行编码传送。d m 实际上是d p c m 的一 个子类,它仅对预测误差用l 比特编码,其码速率一般大于d p c m 。d m 和d p c m 属于低 到中复杂度编码,在码速率低于3 2 k b i t s s 时一般比p c m 表现更好。在a d p c m 中,步 华中科技大学硕士学位论文 长和预测器可以跟踪语音的时变统计特性。g 7 2 lc c t 标准采用了一个a d p c m 3 2 k b i t s s 的算法,陔算法还被修改应用于码速率为2 4 k b il s s 、4 0 k b i t s s 的g 7 2 3 标准中。码速率低于2 4 k b it s s 时,a d p c m 的性能迅速下降。 2 子带编码 在子带编码中信号通过一系列带通滤波器被分解,接着各滤波器输出被取样编码, 在解码端则进行相反的处理。根据信号的统计特性和入耳的感觉特性,对不同滤波器 的输出取样编码时可使用不同位数的比特数,从而降低码速率。一般来说对更低频率 滤波器的输出分配的比特数更多些。子带编码中滤波器的设计非常重要,其带宽可以 相等或者不相等。在不考虑量化噪声的情况下,使用q m f 滤波器可以重建精确的语音 信号。另外小波变换也应用到滤波器的设计中。基于子带编码算法建立了两种标准: a t & t 标准和c c i t tg 7 2 2 标准。c c i t tg 7 2 2 标准主要应用于i s d n 电话会议,使用码 速率为6 4 k b i t s s 的7 k h z 的的音频信号。 3 变换域编码 变换域编码中信号逐帧进行单位变换,然后将得到的数据编码和传输,因为通常 变换后的数据是去相关性的,所以可以被独立编码因而码速率降低。在解码端再对其 进行反变换即可。在进行单位变换时通常用到的变换方法有离散余旋变换( d c t ) ,离 散傅立叶变换( d f t ) ,w a l s h h a d a m a r d 变换( w h t ) ,k a r h u n e n - - l o e v e 变换( k l t ) 。 理论上讲,k l t 变换可以最大程度的去除信号中的相关性因而是最佳变换,但进行k l t 变换需要用到大量的原始数据导致计算量的上升,所以实际应用中更多的是采用最接 近最佳变换的d c t 。 1 1 3 分析一合成编码 这一节中主要讨论正弦变换编码( s t c ) 和多带激励编码( m b e ) 。尽管这两种方法 也象声码器一样依赖语音特征,但是它们可以处理更广泛的信号,因而比传统的二状 态线性预测声码器更稳健。 1 正弦变换编码s t c 在正弦变换编码中假设语音信号可以用l 个幅度、相位、频率均时变的线形组合 表示:浊音信号是周期性的,可以用一系列正弦信号表示;适当选择正弦函数的随机 华中科技大学硕士学位论文 相位9 州可以得到清音。因此,其语音模型相当于用一系列的窄带信号去合成最后的语 音。对一弦模型的实验表明可以使用8 0 个正弦函数对语音进行合成。这种f 弦分析合 成系统对很多类型的信号( 音乐、生理声音、有背景噪声的语音等) 均可工作良好。 目前,正弦模型已经被成功的应用在低速率语音编码中。论文f 1 4 】中设计了一个码速率 为8 k b i t s s 的正弦编码器,1 9 8 7 年m i t 的l i n c o l n 实验室提出了从1 8 k b i t s s 到8 k b i t s s 的多速率正弦编码器i l ”。尽管前面所讨论的征弦编码器有较好的性能,但是在更低速 率下该模型参数对量化噪音和信道误码都很敏感,后来又提出了一种新的稳健的参数 表示法【1 6 i ,该系统对基音、清浊音判别和正弦信号幅度的倒谱系数的变换编码。因为 倒谱系数在很大程度上是不相关的,所以对倒谱序列的d c t 变换进行d p c m 编码。 s t c 算法是目前低速率编码的一种较有效的算法,在时间尺度调制、基音估计、信道 耦合等方面也得到了广泛应用。 2 多带激励编码器m b e 多带激励编码j 的谱模型基本上是m a k h o u l 提出的混合源模型:它将短时语音谱 看成是激励谱和声道包络谱的乘积,而且该激励信号是谐波信号和随机信号的组合。 因为在实际情况中语音的谱总是包括浊音和清音两部分,所以激励谱被划分成各子带, 每个子带可以是浊音的也可以是清音的,子带的数目远远高于传统子带编码的数目, 可以选择与谐波个数相等。声道谱包络可以通过对取样谱的线形内插得到。论文 1 7 给出了8 b k i t s b e 编码的初步结果无噪声的语音信号的d r t 评分为9 6 2 ,被宽带噪 声污染的信号的d r t 得分为5 8 。论文 1 8 介绍了一种更有效的4 8 k b i t s s m b e 编码, 其d r t 、d a m 分数为分别9 2 7 和6 0 4 ,复杂度为7 m i p s 。4 8 k b it s s 的m b e 是d o df s l 0 1 6 标准的候选者。h a r d w i c k 和l i m 后来又提出了改进的m b e ( i m b e ) 1 1 9 1 ,尽管它也是基 于m b e 分析合成模型,但它对m b e 模型参数进行了更有效的编码,而且对信道误码也 更稳健。澳大利亚移动卫星标准和国际移动标准采用了一个6 4 k b i t s s 的i m b e 算法 2 0 l ,该算法中,2 2 5 0 b i t s s 用来校正前向错误,剩下的4 1 5 0 b i t s s 用来对 m b e 参数 编码,在a t & td s p 3 2 c 上实现时算法延时为7 8 7 5 m s ,m o s 分为3 4 。 11 4 声码器 声码器与波形编码不同之处在于它主要依靠二状态的源系统模型,因而只能处理 华中科技大学硕士学位论文 语音信号。本节中我们将介绍通道声码器、共振峰声码器、同念声码器和线性预测声 码器。 1 通道声码器 d u d l e y 的通道声码器是最古老的语音分析合成方法,它的原理在于信号频谱可以 看作是声道和激励谱的乘积。声道的谱包络可以通过使用滤波器组获得。浊音信号的 精细谱结构由具有基音周期的类脉冲信号模拟,清音信号则使用随机激励。英国的 j o i n t 语音实验室完成了一个码速率可达2 4 k b i t s s 的j s r u 声码器,该声码器使用 1 9 个滤波器,并利用了d p c m 技术,在d r t 的评分中得分为8 7 。值得注意的是,即使 通信误码达到j ,其d r t 得分仍保持在8 1 分。 2 共振峰声码器 这类声码器与通道声码器的不同在于它并不将信号划分成互相连接的频带,而是 用具体参数描述共振峰的位置、幅度、带宽等,从而得到近似的谱包络。它的声道滤 波器是用级联或并联的数字滤波器实现的。在进行参数设计时要注意到其冲激响应的 d f t 应该是原始语音的谱包络的最佳近似。共振峰声码器的难点在于共振峰位置和带宽 的计算。 3 同态声码器 同态声码器的基本思想是认为声道和激励的对数幅度谱可以混合生成语音的对数 幅度谱。语音信号的对数幅度谱取反傅立叶变换后得到信号的复倒谱。在零点处产生 的冲激是由声道滤波器引起的,因此可以用倒谱窗提取这个冲激,窗宽应小于基音周 期,以免把有关基频的信息也提取出来:另外可以看到浊音信号的复倒谱图中在基音 周期处有很大冲激,利用峰值检测技术即可得到基音参数。 4 线性预测声码器 近二十年里线性预测声码器是使用最广泛的一种编码方法。对语音进行l p 分析的 原理在于:语音信号的每个取样值可以用它过去若干个取样值的加权和来表示,各加 权系数的确定原则是使预测误差的均方值最小,此时获得预测残差;然后将这些加权 系数或它们的变换形式进行编码传送;最后在解码端通过逆变换合成语音的谱包络。 在做线性预测分析时窗的长度取为2 0 3 0 m s ,这样低的帧频可能会导致l p 参数的较大 变化,所以一般需要在各帧中再取子帧( 长5 m s ) ,子帧参数通过线性内插得到【2 “。 华中科技大学硕士学位论文 在l p c 合成l i , i s 里想的激励应为预测残差x ( n 1 p7 ( n ) ,但在经i t f i g 二状态激励模型中 使用基音周期脉冲序列模拟浊音,用随机序列模拟清音。1 9 7 6 年美国国家安全防御部 门为4 k b i t s t s 的保密通信推荐了一种l p c 算法( 美国联邦标准f s 1 0 l5 ) ,l p c 1 0 使用 l o 阶预测器估计声道参数,对无噪声的语音l p c 1 0 算法的d r t 和d a m 得分分别为9 0 、 4 8 。八十年代中期一种增强的l p c l o 算法( l p c 一1 0 e ) 吲被提出,该方法的d r t 评 分为8 99 ,但是目耵建立更好的2 4 0 0 b i t s s 声码器仍然是挑战性问题,美国政府币在寻 求一种更好的改进算法以替代l p c 1 0 。 使用二状态的激励模型常常会出现有清,浊音判别错误,而且这种模型也不能处理 语音的过渡部分( 例如清浊音混合部分) 或者弱浊音信号。为解决这些问题,后来又 提出一种混合激励模型。该模型中,脉冲序列激励l p c 合成器的低频部分而噪音则激 励高频部分,激励滤波器和增益的选择应使得整个激励谱是平坦的。在t m s 3 2 0 c 3 0 d s p 系列芯片上实时实现2 4 0 0 b i t s s 混合激励l p c 声码器,对清晰语音d a m 得分为 5 8 9 ,对加噪语音为4 1 。论文 2 3 仲讨论了4 8 0 0 b i t s s 声码器的实现,对清晰语音和加 噪语音的d a m 得分分别为6 1 6 和4 4 。 从前面的讨论中可以看出线性预测实际上相当于一个短时的去相关器,因此理想 情况下预测残差应该有一个相对平坦的谱,这个残差信号正是全极点合成器的激励, 因此提出了一种依赖残差信号的线性预测编码。这个残差激励信号携带了没有被l p 分 析所包含的所有信息,例如相位信息、由于鼻音产生的零点等。论文【2 4 中讨论了一个 9 6 k b i t s s 的r e l p 声码器。在高于4 8 k b i f f s 时,r e l p 更强调感知重要的残差部分,所 以它具有比传统的二状态激励l p c 更好的语音质量。然而,r e l p 本身的语音质量也 因为在残差基带滤波中损失了信息而受到限制。在下一节中提出的分析合成线形预测 编码中由于使用了对波形匹配和感知都最佳的有效的激励模型而避免了这个问题。 1 1 5 分析合成线性预测编码 分析合成线性预测编码器是一种混合编码器,它在提取语音的共振峰和基音特征 方面与声码器是一致的,而在对输入波形进行匹配时具有波形编码的特征,另外,在 设计感知加权滤波器时利用了人耳的特性。这一类的编码器中,系统参数由线性预测 确定,码激励序列由闭环系统确定:在闭环系统中用感知加权滤波器计算原始语音信 华中科技大学硕士学位论文 号和重建信号之m 的差值。分析一合成线形预测编码使用的- , f l , 最通常的激励模型是: 多脉冲模型f ”l ,舰则脉冲激励模型f 2 6 i ,码激励模型1 2 7 i 。 在多脉冲激励线性预测( m p l p ) 算法中激励脉冲序列由多个非均匀分布的脉冲组 成,依照加权均方误差最小准则每次确定一个脉冲的幅度和位置,其激励编码比传统 的线性预测声码器更复杂,因为它需要同时对脉冲的位置和幅度进行编码。英国国际 通信( b t i ) 采用了一种码速率为9 6 k b i t s s 的m p l p 算法,在d s p 3 2 c 单片机上实现 时完成了大约7 5 的可处理部分。听力测验表明对于不含噪音的语音信号平均m o s 得分为3 4 ,单向延时低于4 0 m s 。 规则脉冲激励编码( r p e ) 中激励序列也由多个脉冲组成,它与多脉冲激励的不同 之处在于它的脉冲都是均匀分布的,因此所有脉冲的位置由该帧中第一个脉冲的位置 和各脉冲间的间隔决定。一般r p e 中第一个脉冲的位置每5 m s 更新一次,脉冲间距为 三到四。在r p e 中每5 m s 段一般有1 0 到1 3 个脉冲,通过解一系列的线性方程可以得 到它们的幅度值,注意,因为每帧脉冲个数固定所以脉冲间距不需被编码。全速率g s m 泛欧洲数字移动标准采用了一个1 3 k b i t s s r p e 编码【2 8 i ,该算法的g s m 编码的m o s 评分 在3 4 7 到3 9 之间,复杂度为5 m i p s 到6 m i p s 。 前面所讲的两种激励模型可以在中速率的条件下获得好质量的语音,但在更低速 率时一般采用码激励线性预测( c e l p ) 算法,它可以在低码速率的状态下产生和中速率 波形编码类似质量的语音。c e l p 算法已经可以在8 k b i t s s 的速率下获得通信质量的语 音,现在的目标是将码速率进一步压至4 k b i t s s ( 半速率南美蜂窝电信标准) ,c e l p 算法突破了多年来一直被认为是通信质量语音最低码速率9 6 0 0 k b i t s s 的瓶颈。目前 至少有四种c e l p 算法应用在各国和国际标准中,例如联邦标准i o l 6 c e l p ,其计算复杂 度为1 6 m i p s ,d r t 和m o s 评分分别为9 1 5 、3 2 ;北美数字蜂窝系统采用8 k b i t s s 的 矢量和激励线性预测( v s e l p ) 算法,该算法为减少计算复杂度并增强对信道误码的鲁 棒性采用了高度结构化的码书;日本数字蜂窝标准采用了一个6 7 k b i t s s 的v s e l p 算 法。另外还有1 6 k b i t s s 低延时c e l p ( l d c e l p ) 算法,该算法中通过使用一个后向自 适应预测器和短激励矢量( 5 个抽样点) 达到低延时的目标。在a t & td s p 3 2 c 处理器上 实现该编码器时复杂度为1 0 6 m i p s ,内存要求1 2 4 k b y t e s ,解码器则分别为8 0 6 m i p s 和1 3 8 k b y t e s 。 9 华中科技大学硕士学位论文 1 1 6 发展动向 目前使用1 3 k b i t s s 、8 k b i t s s 、6 7 k b i t s s 语音编码的数字蜂窝标准已经建立,在建 立半速率高质量语音编码标准方面取得重大进展。1 6 k b i t s s 的高质量低延时编码方法 也已经达到,但是要降低码速率则仍然还是一个挑战,所以当前的研究集中于可以在 4 k b i t s s 甚至更低比特率时取得高质量语音的编码器。在出现噪音信道的情况下,提高 低码速率编码器的性能也是一个问题。此外,还希望编码器可以处理除语音信号以外 其他的部分信号,例如音乐信号等。另外,军事方面的编码研究主要集中在改进的 2 4 k b i t s s 编码器和极低速率编码器,该编码器应该具有更强的对信道误码和中断的容 错力。 1 2 本论文研究的主要工作 本论文在对离散幅度多分辨率语音编码( d a m ) 方案研究的基础上提出改进算法, 该算法通过对编码序列幅度值的统计分析使用了新的编码格式,并应用了缩进式比特 自适应分配机制。理论分析和实验结果表明,改进的编码算法可以在相同语音质量的 条件下进一步降低比特率。 论文共分五章。第一章介绍课题背景和语音编码综述;第二章介绍离散幅度多分辨 率原理和d a m 声码器:第三章在对离散幅度多分辨率语音编码( d a m ) 方案研究的基 础上提出改进算法并给出了算法的流程图:第四章是实验结果和性能分析:最后是全 文的总结。 o 华中科技大学硕士学位论文 2 离散幅度多分辨率分析 21多分辨率分析的基本原理 多分辨率分析的思想起源于计算机图像处理领域。在计算机图像处理中所采集的 原始图像亮度经常变化,因而直接对原始图像的扶度值进行处理比较困难,而且图像 局部细节的变化包含了丰富的信息。于是不少学者采用多分辨率分析的方法,分析原 始图像在不同尺度上的逼近,发现不同尺度的细节信息与图像的物理结构、含义有关。 目前多分辨率分析的思想在信号检测、信噪分离、特征提取、语音压缩、图像压 缩等众多领域得到广泛应用并取得很好的效果。它的基本思想可用如下的示意图说明 【2 9 1 爿 ,( f )爿川厂( f )爿,( f )4 ,( f ) 巾弋弋:弋 q ,、,( f ) 分辨率:2 图2 1 d 川,( f ) d ,厂( f ) 2 一12 多分辨率分析的示意图 d 。几) 2 。 其中厂( f ) 为原始信号,a j ,( f ) 为在第_ ,尺度下对原始信号的逼近版本,d j ,( f ) 是在 第,尺度下的细节信息,它是爿川厂( f ) 与a j 厂( r ) 之间的误差。一般讨论二进多分辨率分 析,即分辨率为2 ,。随着,越来越大,逼近越来越粗,丢掉的信息越来越多,丢掉的 信息分别保留在一系列d j 厂o ) 中,这就好象是对信号一层层剥皮的过程。若把所有丢 掉的信息加起来得到作为原始信号的近似表示,当,值从一m 取到+ 。时,这种近似就 能做到任意精确,即 华中科技大学硕士学位论文 几) = d ,( ,) 22 离散幅度多分辨率分析 ( 2 1 ) 1 9 9 6 年在第三届信号处理国际会议( i c s p 9 6 ) 上离散幅度多分辨率分析( d a m ) 的概念1 3 0 l 被首次提出,它为信号处理提供了新的分析工具和途径。d a m 分析是基于幅 度分解的多分辨率分析方法,它以信号的量化精度作为尺度。 定义算子a ,为在尺度,下对函数厂( f ) 的逼近算子,即爿,f ( t ) 表示以2 ,为量化阶矩 f f ff ( t ) 的逼近,则4 ,( ,) 的二进制表示为 a s f ( t ) = q ( f ) 2 2 a t ( f ) ( 0 , 1 )( 2 - 2 ) 2 j 显然,a j ( ,) 舍弃了f ( t ) 中比27 更小的幅度变化细节,这个细节就是信号厂( f ) 以2 为 模的余数,表示为( ,( f ) ) 于是由( 2 1 ) 式,爿,( f ) 可写成 j i 4 ,巾) = q ( 0 2 一q ( 0 27 = 巾) 一( ,( f ) ) :, ( 2 - 3 ) 爿川,( f ) 包含了a s ,( f ) 的全部信息,或者说,a i ,( f ) 丢掉了爿川,( f ) 中的一些细节,这 个细节用d , f ( t 1 表示,则有 d ,厂( r ) = 爿。几) 一a ,几) = os - i ( ,) 2 ( 2 4 ) 定义疗几) 为第- ,尺度d a m 序列,它实际上就是量化结果用二进制表示后按位取 出比特值并在时间轴上展开得到的( 0 ,1 ) 方波信号。 另外,由( 2 2 ) 式易得 华中科技大学硕士学位论文 l i m 爿,( f ) = a ,( 0 2 厂( ,) ( 2 5 ) _ , 以上分析说明信号厂( r ) 的二进制表示就是一种二进多分辨分析,即二进离散幅度 多分辨分析。 d a m 变换的本质是对信号量化编码后作数据码重排,n ,( t ) 是同时得到的,不同 尺度下的多分辨率逼近可以同时进行,算法上并行简单,适合于高速实时信号处理。 相比较下,基于小波的子带多分辨率分析的算法结构是迭代的。 图2 2 ( a ) 给出基于h a r r 小波尺度函数的子带多分辨率逼近,图2 2 ( b ) d j 是d a m 在 不同量化精度下的逼近。 ,仃阶。: f ( t ) a i 一1 f ( t ) i一 厂、 婶2 f ( t ) ;莽羚: a i f ( t ) il a i 一1 f ( t ) r r 、 厂j l * z f ( t ) 一l _ l 1 ( b ) 图2 2( a ) 基于h a r r 小波尺度函数的子带多分辨率逼近 ( b ) 不同量化精度下的d a m 多分辨率逼近 2 3 二比特重构定理 上一节以表达式的形式证明了d a m 的多分辨性质。在实际处理信号时,可以用 几何图形的方式更直观地描述d a m 变换过程,为此先引入量化线、g 窗以及相关概念。 华中科技大学硕士学位论文 髓化线怂一组等间距的平行线t 问距u i l 为量化阶矩。当蚓k 【! 为q 时,找 门称之为q 量化线,剥于连续信号,( ,) ,用q 量化线切割它,彤成一系列划顶角千h 接的矩形,其 高为q ,其宽为所包含曲线段与q 量化线相交的相邻两点帕j 距离( 如图2 , 3 ) 。我们称陔 矩形为q 窗,它在n , t f 自j 轴上的宽度称为窗宽。 q ( o 2 a 1 1 ”a j + la j 8 0 f ( t ) a j + l ( t ) 8 j ( t )一 图2 3f i t ) 与d a m 序列的关系 式( 2 4 ) 给出了d a m 序列的定义。在图2 3 中d a m 序列口,( ,) 是- 4 - ( o ,1 ) 方波序列,它 在,( r ) 与q 量化线相交处翻转,其方波宽度就是对应q 窗的窗宽a 因此,用q 量化线切 割( 1 ) 生成q 窗的过程实质上是个对,( f ) 进行量化的过程,其结果是得到第尺度的 d a m 序列,即量化值的第位( 如图2 3 所示,( ,) 是( f ) 的有限精度表示) 。两个 相邻的d a m 序列称之为两比特序列。 文献【3 0 提出了幅度量化的二比特重构定理:只要信号,( f ) 是连续的,则它在第,尺 度的近似信号爿,( f ) 可由两个方波信号d ( f ) 和n 川( ,) 完全恢复。该定理的说明如下。 对于连续信号厂( f ) ,在某个变换尺度j 下( 对应量化阶矩g = 2 7 ) ,同时用q 量化 线和2 q 量化线切割它,分别得到方波序列a t ( f ) 和a l + l ( ,) 。a + l ( f ) 决定了所有2 q 窗的 窗宽,而,( f ) - q a 川( ,) 的相对位置决定了厂( f ) 在每个2 9 窗内的局部波形,这些波形只 华中科技大学硕士学位论文 能有上升型、下降型、凸型取j l 蜘型四种( 如图2 4 ) 。x q 于上s t 型波形,“,( ,) 相对口。( ,) 所给的窗内是一个“右边门”;对下降型是一个“庄边门”;对凸型是一个“中间窗” 或“空白”:对凹型则是一个“两边窗”或“一堵墙”。将由a s ( ,) 和as + l ( ,) 的相对位 置所确定的信号在每个2 q 窗内的波形依次首尾相连,就重构出爿,l ,( ,) ,其精度由q 决 定。 斟蜮幽 们l j 隧 图2 4 口,( ,) 与口川( ,) 的相对位置对应厂( ,) 的局部波形 2 4 数字信号重构的求余效应 在两比特重建定理中,假设原始信号厂( ,) 为连续信号,而在实际中处理的数据一般 都是取样量化后的数字信号。在时间离散化的采样过程中,当信号变化缓慢或采样频 率足够高时,两比特序列巳( ) 和口川( 盯) 记录了q 精度下重建厂( n ) 所需的全部信息;但 当信号变化太快或采样频率不够高时,将出现求余效应,类似增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论