(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf_第1页
(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf_第2页
(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf_第3页
(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf_第4页
(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(物理电子学专业论文)基于dsp技术的数字语音压缩技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 、随着多媒体技术的飞速发展,语音压缩技术已经越来越受到了人们的重视。 近几十年来,各种各样的语音压缩方案被人们提出并已经应用于实践,高质量、 低码率语音压缩算法是语音压缩领域目前研究的热点;数字信号处理器( d s p ) 是专门用于完成各种实时数字信息处理、具有特殊的硬件软件结构的微处理器。 将两项技术结合起来,即用d s p 实时实现高质量、低码率的语音压缩算法具有广 阔的应用前景。 g 7 2 3 1 是国际电信联盟( i t u t ) 于1 9 9 5 年推出的高质量低码率的语音压 缩标准,通常g 7 2 31 都是在一些高性能和高成本的d s p 芯片,如t i 公司的 t m s 3 2 0 c 5 0 0 0 系列和a d i 公司的a d s p 2 1 0 0 系列d s p 上实现的,而本设计首次 在t i 公司低成本的t m s 3 2 0 c 2 x xd s p 的平台上实现了g 7 2 3 1 ,这种语音压缩 解决方案可以使得系统的硬件成本降到最低, 。在详细透彻地掌握了g 7 2 3 1 语音压缩标准的原理和t m s 3 2 0 c 2 x x 的软件硬 件特点的基础上,成功地实现了d s p 的实时语音压缩解压。研究过程中首先根据 本课题要求的特殊性,对g 7 2 3 1 标准进行了改进,并将浮点算法改成了定点算 法;然后在p c 机上利用标准c 语言对改进后的算法进行了仿真,并给出了仿真 实验结果,为研究基于d s p 平台的压缩算法提供可行性依据;最后将算法移植到 d s p 上,采用d s p 汇编语言实现了g 7 2 3 1 全部算法模块。 对基于d s p 的g 7 2 3 1 改进型语音压缩解压算法进行了严格的测试。i 测试结 果表明:( 1 ) 本算法具有较好的重建语音质量,经过人耳的主观听觉测试m o s 分 在3 5 分以上,具有较高的保真度,达到了通信质量;( 2 ) 本编码算法复杂度 2 9 4 m i p s ,解码算法复杂度5 5 m i p s ,完全可以在速度为4 0 m i p s 的 t m s 3 2 0 f 2 4 0 7 a 上实时实现。 该d s p 语音压缩模块可以广泛地应用在数字语音记录、语音信箱、电话会议、 数字广播等各个方面。,、 , 关键词:语音压缩,数字信号处理器、码本激励线性预测、定点 vv 华中科技大学硕士学位论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n to fm u l t i m e d i at e c h n o l o g y , t h es p e e c hc o m p r e s s t e c h n o l o g y h a sb e e n b e c o m i n g m o r ea n dm o r e i m p o r t a n t i n r e c e n t y e a r s , m i s c e l l a n e o u sm e t h o do f s p e e c hc o m p r e s sh a sb e e na d v i s e da n dp u ti n t op r a c t i c e a t p r e s e n t ,t h er e s e a r c hf o c u s e so nt w oa s p e c t s :h i g hq u a l i t ya n dl o wb i tr a t e s ;d i g i t a l s i g n a lp r o c e s s o r ( d s p ) i sk i n do fp r o c e s s o rw h i c hh a ss p e c i a lh a r d w a r ea n ds o f t w a r e s t r u c t u r ea n dt y p i c a l l y a p p l i e s t or e a l t i m e p r o c e s s i n go fd i g i t a l i n f o r m a t i o n i ti s b r o a d l yu s e d t oi m p l e m e n tr e a l t i m es p e e c h c o m p r e s sb yd s p g 7 2 3 1i sa s p e e c hc o m p r e s sp r o t o c o lo fh i g hq u a l i t ya n dl o wb i tr a t e sa d v i s e d b yi t u _ ti n1 9 9 5 u s u a l l yt h ei m p l e m e n t a t i o no fg 7 2 3 1p r o t o c o lw a so nt h eh i g h q u a l i t y a n dh i g hc o s td s pc h i p ,s u c ha st m s 3 2 0 c 5 4 0 0s e r i e so ft i c o r pa n d a d s p 2 1 0 0s e r i e so fa d i c o r p n e v e r t h e l e s s ,i m p l e m e n t a t i o no fg 7 2 3 1p r o t o c o lo n t h el o wc o s td s p c h i po f t m s 3 2 0 c 2 x xc a r lm a k et h eh a r d w a r ec o s tl o w e s t b a s e do nt h et h o r o u g hm a s t e r yo fg 7 2 3 1 p r o t o c o la n dt h eh a r d w a r ea n ds o f t a r e c h a r a c t e r i s t i co f d s p , w eh a v es u c c e s s f u l l yi m p l e m e n tt h er e a l t i m es p e e c hc o m p r e s s o fg 7 2 3 1o nd s p f i r s t l y , w em e n dg 7 2 3 1 p r o t o c o lt of i tt h ea c t u a ls y s t e ma n d c h a n g et h ef l o a t p o i n ta l g o r i t h mt of i x - p o i n to n e ;s e c o n d l y , w es i m u l a t et h ep r o t o c o l b ycl a n g u a g eo np cm a c h i n ea n ds h o wt h ee x p e r i m e n tr e s u l t ;f i n a l l y ,w et r a n s p l a n t t h ea l g o r i t h mt od s p c h i pb y a s s e m b l el a n g u a g e w eh a v et e s t e dg 7 2 3 1a l g o r i t h mo nd s p t h et e s tr e s u l ti n d i c a t e st w o i t e m s :( 1 ) a c c o r d i n gt o t h es u b j e c t i v e l i s t e n i n gt e s t ,t h em o s s c o r eo ft h er e b u i l ts p e e c ho f g 7 2 31i so v e r3 5 t h er e b u i l ts p e e c hr e s e r v e sm o s tc h a r a c t e ro ft h eo r i g i n a ls p e e c h a n dr e a c h e st h ec o m m u n i c a t i o n q u a l i t y ;( 2 ) t h ea l g o r i t h mc o m p l e x i t y o fs p e e c h c o m p r e s si s2 9 4 m i p sa n d t h a to f s p e e c hd e c o m p r e s si s5 5 m i p s i ti su n q u e s t i o n a b l e f o rt m s 3 2 0 f 2 4 0 7 at oi m p l e m e n tt h er e a l t i m es p e e c h c o m p r e s so f g 7 2 3 1 t h es y s t e mc a nb eb r o a d l yu s e di nl o t so fa r e a s ,s u c ha sd i g i t a ls p e e c hr e c o r d , s p e e c h m a i lb o x ,c o n f e r e n c ec a l la n d d i g i t a lb r o a d c a s t i n g k e yw o r d s :s p e e c hc o m p r e s s ,d s p , c e l p , f i x p o i n t i i 华中科技大学硕士学位论文 1 绪论 1 1 课题的意义及研究内容 在当今信息化的社会,做为多媒体两大要素之一的数字语音技术,已经越来 越受到了人们的重视。由于数字语音信号是从时序信号序列直接采样得来的,信 息量非常大。以带宽最窄的电话信号为例,采样频率8 k h z ,采样精度8 b i t ,则一 分钟的数据量为4 8 0 k 字节。如此大的数据量用磁盘或光盘来记录,其代价是高 昂的,如用来实时通讯更是不可想象。尤其是在信息爆炸的今天,飞速膨胀的信 息量与有限的信道容量之间的矛盾目益严重,不解决好信号的压缩问题,“信息 高速公路”就根本无从谈起。 使用了语音压缩方法后,使得同样的存储空间能存储更多的语音数据,也使 得同样带宽的信道能传输更多的语音数据流。表1 1 列出了采用不同的压缩算法 后,l m 字的f l a s h 存储器能存储的语音数据长度。 表1 1 语音压缩算法对存储性能的影响 压缩算法存储语音数据长度 未压缩2 分钟 a d p c m4 分钟 g7 2 3l5 0 分钟 l p c - 1 02 小时 如上所述的原因,语音压缩技术在近几十年来得到了飞速的发展,人们提出 了各种具有不同性能特点的语音压缩编码标准,这些标准被广泛地应用在了电 话、多媒体通信、电视电话会议、安防系统、数字广播等人类生活的各个方面。 同时,语音压缩技术又是一门不断发展、不断完善的新兴技术,为了最大效率地 利用有限的信道容量,更低码率和更高重建语音质量的语音压缩方法成为了现今 华中科技大学硕士学位论文 该领域的研究热点。可以说,语音压缩技术的发展是和人类信息社会的发展紧密 相关的,对语音压缩技术的研究具有重要的现实意义。 如何在实际的系统中实现语音压缩, 机上的实时语音压缩技术已经较为成熟, 这也是一个重要的研究领域。目前在p c 而语音压缩在嵌入式系统中的应用还有 待发展和完善。由于大多数高质量、低码率的语音压缩方案都有较高的算法复杂 度,普通的单片机已经远远不能满足要求,必须要采用一种新型的数字信号处理 器件d s p 。研究语音压缩算法在d s p ,特别是在低成本d s p 上的实时应用,有 着广阔的发展前景。 本课题要求在现有的t i 公司t m s 3 2 0 c 2 x x f 4 2 】【4 3 1 系列d s p 平台上,使用最少 的硬件成本来实现语音功能的扩展。这里的语音功能指的是数字语音信号的实时 记录功能,具体来说就是:用语音处理器件来实现语音信号的实时压缩编码,并 将压缩后的数据储存在系统中,然后在适当的时候解码合成语音输出。 为了实现这一系统,本课题主要的研究重点包括如下三个方面: ( 1 ) 对目前流行的各种语音压缩标准做深入细致的分析和比较,结合本系统的 特点和要求选择一个最适合的语音压缩标准,再对该标准进行完整透彻的研究, 在此基础上根据课题的实际要求建立具体的压缩算法数学模型,然后在p c 机上 用标准c 语言模拟该算法。 ( 2 ) 在p c 机上模拟通过该算法后,再将算法移植到d s p 上实时实现,这也是 本课题的核心部分。要完成这部分工作,首先要深入了解和分析所选用的d s p 器 件的硬件结构和指令系统,然后用汇编语言编写算法,最后用大量的语音样本来 测试算法。 ( 3 ) 完成本课题所需的语音输入输出模块的硬件电路设计。 1 2 相关研究领域的现状及发展 语音压缩技术在近三十年来得到了飞速的发展。从8 0 年代起国际上著名的 通信研究机构和大学均大力开展高质量低码率语音压缩技术的研究,取得了大批 成果,进入9 0 年代这些成果被广泛应用。比较著名的算法有: ( 1 ) 多脉冲最大似然量化代数码本激励线性预测编码( g 7 2 3 1 ) l 2 7 】,它最初是 为可视电话而设计的,与它相配合的图像编码标准是h 2 6 3 ,图像和语音总数码率 2 华中科技大学硕士学位论文 小于2 8 8 k b s ; ( 2 ) 共轭结构代数码本激励线性预测编码( g 7 2 9 ) 1 2 8 1 ,是i t u t 于1 9 9 5 年下半 年通过的具有长话音质的8 k b s 编码标准,其音质在同档码速率中是最优的,将用 于第三代移动电话系统; ( 3 ) 矢量和激励线性预测编码( v s e l f ) ,被应用在半速率g s m 标准以及美国 地面数字蜂窝网i s 一5 4 标准中: ( 4 ) 2 4 k b s 的l p c 一1 0 算法【3 j ,特点是码率极低,但重建语音质量较差,被用 于各种语言学习器、语音提示器、语音合成器等产品中: ( 5 ) 规则脉冲激励长时预测编码( r p e l t f ) ,数码率1 3 k b s ,在信道误码率 为1 0 。信道中传输,话音质量不降低,被用于全速g s m 标准。 表1 2 列出了目前国内外流行的部分语音压缩标准的基本特点。表中码率的 单位是k b s ,质量指的是m o s 分,算法复杂度分为了三档,分别是简单、较复 杂和复杂。 表12各种语音压缩编码标准概况 组 i t ug s mt i an s a 织 标f s 准 g 7 1 lg 7 2 1g 7 2 8g 7 2 3 1g 7 2 9g s mi s 5 4 1 0 1 5 时 1 9 7 21 9 8 41 9 9 21 9 9 61 9 9 61 9 8 31 9 8 91 9 8 2 间 码6 3 盔 6 43 21 681 382 4 5 3 算 p c m a d l d m p m l q c s r p e -v s l p c 法 p c mc e l pa c e l pa c e l pl t pe l p 质 4 34l4 03 53 9 23 73 82 5 量 | 耋 简单简单复杂较复杂复杂较复杂较复杂简单 从以上的叙述及图表可以看出,现今流行的各种语音压缩算法大部分是基于 c e l p 1 ( 码本激励线性预测) 的,这是种集合了波形编码的高质量和参数编码的 低码率为一体的高效压缩算法。在此基础上探索更低码率和更高重建语音质量的 华中科技大学硕士学位论文 高效算法成为了当前语音压缩算法研究的方向。目前以c e l p 技术为基础的压缩 码率在4 k b s 8 k b s 的压缩算法已经比较成熟并正在逐渐成为标准;同时,码率在 4 k b s 以下的超低码率压缩算法正在被大量地研究并日趋成熟,具有代表性的有混 合激励线性预、狈i ( m e l p ) 、多子带激励( m b e ) 和正弦变换编码( s t c ) t 3 8 1 等等。 在语音压缩算法的d s p 实时实现方面,国内外的研究机构已经做了大量卓有 成效的工作。以g 7 2 3 1 标准为例,已经被报道在t i 公司的t m s 3 2 0 c 5 4 1 ”、 t m s 3 2 0 c 5 4 9 【4 6 j 芯片和a d 公司的a d s p 2 1 8 1 【2 4 】芯片上实时地实现。对于那些运 算速度很快的d s p 芯片来说,同时实时实现若干路语音压缩也成为了可能。 1 3 本课题研究的主要内容和关键技术 本课题经历了查阅资料、方案论证、建立数学模型、计算机模拟、d s p 实现 和实际语音调试等几大步骤。具体来说,主要内容有: ( 1 ) 广泛地查阅国内外相关资料,学习掌握语音压缩和数字信号处理器的理论 基础知识,同时对这两个领域的发展现状做详尽的了解; ( 2 ) 综合分析各种语音压缩方法的优缺点,根据课题的实际要求选定合适的语 音压缩算法;并在t i 公司t m s 3 2 0 c 2 x x 平台上实现该算法: ( 3 ) 结合课题的实际要求对选定的语音压缩算法进行一些必要的修改。在p c 机上用标准c 定点模拟修改后的算法,然后用大量语音样本进行调试,对算法复 杂度高的模块进行优化; f 4 1 将语音压缩算法移植到d s p 上,然后用大量语音样本进行调试,调试通 过后对汇编程序进行反复优化,尽量压缩程序执行的时间,使能够满足实时陛的 要求; ( 5 ) 完成语音输入输出部分的硬件电路设计。 华中科技大学硕士学位论文 2 语音信号特性及压缩原理 2 1 语音信号特性分析 1 1 语音的声学特性【2 1 语音是人的发音器官发出来的一种声波,它具有一定的音调、音强和音色。 音调是指声音的高低,在汉语语音学中又叫音高。音调取决于声波的频率,而声 波频率又与发音器官的长短、厚薄以及松紧程度有关。声音的强弱叫做音强,它 是由声波振动幅度决定的。音色是由混入基音的泛音所决定,每个基音又都有其 固定的频率和不同音强的泛音,使形成的每个声音各有其特殊的音色。所谓泛音 是许多频率与基音频率成简单倍数的声音,如基音频率为1 0 0 h z ,则泛音频率为 2 0 0 ,3 0 0 ,4 0 0 h z 等。每个人因其性别、 的成分也不同,故具有各不相同的音色, 人。 年龄、喉部和声道构造不同,产生泛音 因此我们能够按口音分辨出每个说话的 语音按照产生的声学机理可大致分为浊音和清音两种,而清音一般又分成摩 擦音和爆破音两种情况。当人发音时,空气从肺部排出形成空气流。空气流经过 声带时,根据声带的闭合状况将产生不同类型的语音:如果声带是绷紧的,则声 带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时空气流从声门喷 射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间歇期。因此,这种情况 下在声门处产生出一个准周期脉冲序列状的空气流。该空气流经过声道后最终从 嘴唇辐射出声波,这便是浊音语音。如果声带是完全舒展开来的,则肺部发出的 空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同的情况。一 种情况是,如果声道的某个部位发生了收缩形成了一个狭窄的通道,当空气流到 达此处时被迫以高速冲过收缩区,并在附近产生出空气的湍流,这种湍流空气通 过声道后便形成所谓摩擦音或清音。另一种情况是,如果声道的某个部位完全闭 合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会 让气压快速释放,经过声道后便形成所谓爆破音。 华中科技大学硕士学位论文 由此可见,语音是由空气流激励声道形成的。对于浊音、清音和爆破音三种 不同类型的音来说,它们的区别在于不同的激励源。浊音激励源是位于声门处的 准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流( 类似于噪 音) ,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。 2 ) 语音信号产生的数学模型 由以上的讨论知道,人在发声时有清音和浊音之分,发浊音时声带振动,发 清音时声带不振动。浊音有振动的基本频率( 基音) ,清音则无基音,具有平坦频 谱,与白噪声相似。发声时它们都通过人的声管( 包括喉管、口腔、舌、齿、唇等1 , 由于声管形状的变化,对声音的响应不同而形成不同的声音。这一过程可以用一 个数字滤波器来模拟5 】 6 】。 图2 1 语音产生的数学模型 图2 1 是语音产生的数学模型,用具有一定基音频率的脉冲源来代表浊音激 励,用具有平坦谱的噪声源来表示清音的激励。用一时变参数滤波器模拟声管的 变化,当滤波器的参数不变时,激励结果产生出来的语音是一个持续不变的单音。 只有当滤波器参数以及激励源都不断变化时,才能形成实际的语音。 该数学模型已经在语音处理的许多领域里得到了成功的应用,但是也存在着 某些局限性,需要注意的有以下几点: 华中科技大学硕士学位论文 ( 1 ) 模型中用传输函数来描述线性系统,要求该线性系统的参数固定不变。实 际上只有单元音因为声道参数的变化很缓慢,能够近似满足要求,而对于阻塞音 或爆破音来说,该模型就不太准确了。不过,根据语音缓慢时变的特点,可以认 为在l o 一3 0 m s 的一段短时间内,语音的变化十分微小,从而可认为模型参数是固 定不变的。这也就是用模型参数逐段缓慢变化( 而在每一段时间内参数固定不变、 来模拟连续时变的语音信号。对语音信号的这一近似处理是非常有用的,很多语 音压缩算法都是利用了这一原理,将语音信号相隔1 0 3 0 m s 划为帧,提取出这 一帧的固定不变的参数,然后对这些参数进行压缩打包,大大降低了压缩后的码 率。 ( 2 ) 一般情况下,时变线性系统的传输函数是全极点函数,这对于元音和大部 分辅音来说是比较符合实际的。但对于鼻音和阻塞音来说,由于出现了零点,这 种模型就不够准确了。不过,由于一个零点可以用多个极点来逼近,因而归根到 底可以用全极点模型来近似表示任何语音。当然,近年来也有人考虑将零点也放 进模型中去,形成零极点函数。 ( 3 ) 该数学模型认为任何语音都是由个适当的激励源作用于声道而产生的, 这意味着激励源与声道系统是互相独立的。上述假定对大多数语音是适合的,但 在有些情况下,例如某些瞬变音,实际上声门和声道是互相耦合的,使得语音呈 现非线性特性:此外,用清音和浊音来简单地划分语音不够准确,有的语音甚至 也不是清音和浊音的简单叠加。不过,对于大多数语音处理的应用场合来说,时 变线性系统来模拟并未造成太大的误差,因而这种数学模型得到了广泛的应用。 3 ) 语音信号的可压缩性 理论和实践证明,对语音信号进行压缩编码是可行而且有效的。这是因为语 音数据中存在着大量的数据冗余。这可以从时域和频域两方面来考虑【l 】。 时域信息冗余度包括: ( 1 ) 幅度非均匀分布。语音信号中的小幅度样本比大幅度样本出现的概率要 高,又由于通话中必然会有间歇,更出现了大量的低电平样本。此外,实际讲话 信号功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号取样值的 概率分布是非均匀的。 华中科技大学硕士学位论文 ( 2 ) 样本间的相关。对语音信号的波形分析表明,取样数据的最大相关性存在 于邻近样本之间。当取样频率为8 k h z 时,相邻取样值之间的相关系数大于o 8 5 ; 甚至在相距1 0 个样本之间,还可有o 3 左右的数量级。根据这种较强的一维相关 性,利用n 阶差分编码技术,可进行有效的数据压缩。 ( 3 ) 周期之间的相关。虽然语音信号需要一个电话通路提供整个3 0 0 3 4 0 0 h z 的带宽,但在特定的瞬间,某一声音却往往只是该频带内的少数频率分量在起作 用。当声音中只存在少数几个基本频率时,就会像某些振荡波形一样,在周期与 周期之间,存在着一定的相关性。利用语音周期之间的相关可进一步压缩码率。 ( 4 ) 话音间歇。打电话时平均每人讲话时间为通话总时间之半,另半时间昕 对方讲。通话分析表明,话音间隙使得全双工话路的典型效率约为4 0 。显然, 话音间隙本身就是一种冗余,若能正确检测出该静止段,便可“插空”传输更多 的信息。 频域信息冗余度包括: ( 1 ) 非均匀的长时功率谱密度。在相当长的时间间隔内进行统计平均,可得到 长时功率谱密度函数,典型曲线示于图2 2 a 。不难看出,其功率谱呈现强烈的非 平坦性。从频域的角度来看,这意味着没有充分利用给定的频段,或者说有着固 有的冗余度。 ( 2 1 语音特有的短时功率谱密度。由图2 2 b 看出,语音的短时功率谱在某些频 率上出现峰值,在另一些频率上出现谷值,而且整个谱也是随着频率增加而递减。 重要的是,整个功率谱的细节以基音频率为基础,形成了高次谐波结构。 从以上的分析可以看出语音信号具有较大的冗余度,这些冗余的数据量都可 以通过采取适当的压缩方法来去除,以达到存储和通信的要求。 语音信号压缩编码的潜力究竟有多大,其极限码速为多少i l l l 7 从信息论角度 来估计,语音中最基本的元素可以认为是音素,语音的音素约1 2 8 2 5 6 个,如 果按通常的说话速度,每秒平均发出1 0 个音素,则此时的信息率为: ,= 1 0 l 0 9 22 5 6 = 8 0 ( b i t s ) 如果从另一角度来估值,把发音看成是以语音速率来发报文,对英语来讲, 每个字母为七位,即7 b i t ,每分钟1 2 5 个英语单字可以认为达到了通信语音 速率。如果单字平均由7 个字母组成,则信息率为: 华中科技大学硕士学位论文 争 脚 抖 雷 霞 晕 ( a ) 长时功率谱 ( b ) 短时功率谱 图2 2 语音信号的功率谱密度 ,= 7 7 1 2 5 6 0 = 1 0 0 ( b i t s 、 所以,可以认为语音压缩编码的极限速率为8 0 1 0 0 b i t s ,当然,这时只能传 送句子内容,至于讲话者的音质、音调等重要信息已全部丢失。但是,从标准编 码速率( 6 4 k b i t s ) 至o 极限速率( 8 0 - 1 0 0 b i t s ) 之间存在着很大的跨距( 约6 4 0 倍) ,这对 于理论研究和实践制作都有巨大的吸引力。 2 2 语音压缩的基本原理和方法 语音压缩目前存在着各种各样的方案,这些方案按照基本原理可大致分为三 种:波形编码,参数模型编码和混合编码。 f 1 ) 波形编码 这是一种直接对信号波形进行采样编码的方法。p c m l 2 n 4 l ( 脉冲编码调制, g 7 1 1 标准) 即是这种方法的典型代表,其步骤是:首先用一个低通滤波器将输 入模拟语音信号的频谱限制到适当的宽度,然后以等于或高于奈奎斯特取样率的 频率对限带语音信号进行等间隔取样,并对取样值进行量化,最后用一组二进制 码脉冲序列表示量化后的取样值。由于大部分语音信号的频率范围都在4 k h z 以 下,根据奈奎斯特取样定律,8 k h z 的取样频率就可以满足要求。这一编码过程 可以用图2 3 的原理性方框图来说明。 华中科技大学硕士学位论文 模拟语音 数字语音 堂叫基h 鬈h 爱卜叵芦 图2 3语音信号波形编码原理图 上述的波形编码方法计算量小,几乎无延时,且在接收端能很好地恢复原信 号波形,缺点是压缩l l 4 , ,效率不高。为了降低系统的压缩码率,又对它进行了 很多改进: 利用信号的前后相关性构成差分编码系统,使进入量化编码器的信号动态 范围小于原始信号动态范围,从而减少每样值所需的比特数。这实际上是对输入 信号进行了预测,然后对预测误差进行编码。a d p c m ( 自适应差分脉冲编码调 制) 和a p c ( 自适应预测编码) 即是这样的编码器,字母中的a 表示预测系数是 时变的,保证产生最小的预测误差。g 7 2 6 标准规定用a r m a ( 2 ,6 ) 模型进行预测, 而a p c 系统中除l p c 预测外往往还有基音预测器( 又称长项预测) 以进一步减 小预测误差信号的动态范围。增量调制d m 也是一种特殊的差分编码系统,它的 差分仅仅在前后两位样值间进行,而可变斜率增量调制c v s d m 是它的改进。 非均匀p c m ( u 律压扩方法) 3 1 。其实质在于减少采样的位数,从而达到 数据压缩的目的。其基本思路是:当输入信号幅度小时,采用较小的量化间隔: 当输入信号大时,采用较大的量化间隔。这样就可以做到,在一定的精度下,用 更少的二进制码来表示采样值。 不同频率的声音信号对人耳的贡献不一样,于是人们设计了所谓的子带编 码器( s b c ) 。首先将语音信号按频率分成不同的各个子带,然后根据各子带对人 耳的贡献不同分别进行量化编码。实现子带划分可以用各种快速变换( f f t 、d c t 等) 或滤波器组,采用滤波器能将各子带由于量化产生的噪声限制在本子带内, 减少了噪声的影响,不过滤波器的设计比较复杂,一般是采用正交镜像滤波器 q m f 1 6 1 以保证信号的分带合成过程不产生附加的失真。采用变换进行频率分割 的编码系统一般也称为自适应变换编码a t c ,它的实现比s b c 简单一些,但由 于进行变换需要截取一段输入信号,等于对输入信号乘上一个窗函数,引入了附 华中科技大学硕士学位论文 加频率成分,故分带效果比用滤波器稍差。 由于对每一个样值单独编码处理,使系统码率不可能低于抽样频率,考虑 到声音信号样值间不仅存在线性相关性,还有非线性相关性,一段样值和另段 样值间也有整体相关性。根据信息论中多维信号的熵低于单维信号的熵之和的理 论,提出了对若干个信号样值一起量化处理的矢量量化方案【4 】 6 1 。矢量量化可以 大大压缩码率,在中低速语音压缩领域中得到广泛应用,如g 7 2 3 ,g 7 2 8 ,g 7 2 9 标准都采用了矢量量化思想。 ( 2 ) 参数模型编码 由前面的叙述可知,人类发音器官产生声音的过程可以用一个数学模型来逼 近。对该模型中的参数进行提取及编码传送称为参数模型编码,也叫参数编码。 此模型分成激励和声道两部分,对后者的逼近采用声管模型和共振峰模型两种, 而共振峰模型可借助l p c 分析导出高效算法,故更为常用。至于激励部分,最简 单的就是所谓的清浊音模型这样简化,虽然可将码率压得很低,但精确度不 够,所以又有许多改进。 由于描述语音产生模型的参数只有十几个,所以参数编码系统的压缩码率可 以做得很低。根据数学模型,把说话时的特征参数:清浊音判定、浊音周期、滤 波器的参数即时分析出来,把它们编成二进制码传送到收方,收方进行解码时得 到这些参数,然后按这些参数调整自己的模型,得到重建的话音。人的话音在短 时间内( 1 0 m s 一3 0 m s ) 可认为是不变的,在l p c 分析中,每1 0 m s 3 0 m s 传送一 次参数代码,不是像波形编码必须每0 1 2 5 m s 传送一次样值代码,所以l p c 压缩 码率可以很低。对数字语音信号逐帧( 每1 0 m s 3 0 m s 一帧) 进行短时线性预测分 析,并作清、浊音判决和基音提取,然后用二进制码编码,经复接后输出。接收 端完成话音重建,称为l p c 合成,激励信号在浊音段是用准周期脉冲,在清音段 是用白噪声。 参数模型编码的一个典型例子是美国使用的l p c - - 1 0 t 3 i 算法。在此系统中, 语音的采样率为8 k h z ,样本编码字长为1 2 位。以1 8 0 个采样值为一帧。 l p c l o 对每帧信号采样值进行处理。分别计算出1 0 阶线性预测系数、音 调、幅度及判断是清音还是浊音。 华中科技大学硕士学位论文 先计算出1 0 阶线性预测系数a 0 a 9 。前4 个系数用5 b i t 表示,第5 到第8 个 系数用4 b i t 表示,第9 个系数为3 b i t ,第1 0 个系数为2 b i t 。这样,1 0 个线性预测 系数共用了4 1 b i t 表示。用7 b i t 传送音调和清浊音判别。再用5 b i t 表示幅度,另 外还要加l b i t 同步位。这样一来,原来一帧( 1 8 0 个采样值) 数据可以用5 4 b i t 来传送。从而使系统的压缩码率为8 0 0 0 1 8 0 5 4 - = 2 4 k b s 。参数压缩的比特分 配见表2 1 。 参数编码试图用数学模型产生的合成语音代替原始语音,开创了语音压缩编 码的新领域,使压缩码率降到很低的程度。但是由于对模型加入了种种假设,比 如说过于简化的清浊音激励源模型,使解码系统的重建语音质量不够好。这类 编码器追求的是重建语音的可懂度,要迸一步提高重建语音质量,有效方法之一 表2 1l p c 1 0 参数编码的比特分配 清浊 参数 a o - a 3a 4 - a 7a 8a 9 音调幅度同步 音 量化 5432615l 比特 总比 5 4 特 就是采用混合编码方法。 f 3 ) 混合编码 人们在长期研究用参数模型法压缩语音的过程中,逐步认识到:语音质量难 于提高的原因不在于目前的声道模型,而在于对该模型激励信号的描述不够精 确。多年来人们一直使用准周期脉冲( 对浊音) 和白噪声( 对清音) 作为激励源, 正是这种过于简单的激励模型限制了重建语音质量的进一步提高。基于这种认 识,有人提出了一类被称为混合编码的新方案,它在保留参数模型法技术精华的 基础上,应用波形编码准则去优化激励信号,从而在4 1 6 k b s 的码率上获得了较 高质量的合成语音。这实际上是增加了部分编码比特来传送残差信号的信息, 通过牺牲压缩码率来提高重建语音质量。其代表是一类称为“分析合成” 1 2 华中科技大学硕士学位论文 ( a n a l y s i sb ys y n t h e s i s ,简写为a b s ) 【1 1 的方法,采用听觉加权技术,在闭环的 基础上寻找主观意义上失真最小的激励矢量。由于采用的激励信号模型不同,这 类方法已派生出多种新的编码方案。 2 3 码本激励线性预测编码( c e l p ) 在众多的1 6 k b s 以下的“混合编码”方案中,a t a l 博士于1 9 8 4 年提出的码 ( 本) 激励线性预测编碉j - - c o d e ( b o o k ) e x c i t e dl i n e a rp r e d i c t i o n ( c e l p ) 【1 5 】是最 有生命力的一种。它兼有“波形编码”与“参数编码”的特点,充分运用了高效 编码技术,在解决数码率与语音质量的矛盾方面向前跨了一大步。以它的基本思 想为基础的算法层出不穷:有s e l p ( 随机激励线性预测编码) ,v s e l p ( 矢量和 激励编码) ,p v e c ( 脉冲矢量激励编码) ,a c e l p ( 代数码激励线性预测编码) , l d c e l p ( 低时延码本激励线性预测编码) 等等。它的主要缺点是:运算量、存 储量太大。 如果把残差信号可能出现的各种样值的组合按一定的规则排列后存放在存 储器中,每一种样值的组合有一地址码,这个存储器称为码本。编码端和解码端 各有一个相同的码本,编码时在本地的码本中搜索出与当前信号最接近的样值组 合的地址码,将此地址码发送到解码端。解码器中有同样的码本,按收到的地址 码从码本中取出相应的残差信号加到滤波器上,就获得重建的话音。这种方法传 输的不是残差信号本身,而是码本的地址,所以可大大减少传输比特数,得到低 速率的声码器。只要码本编得好,即具有足够的数量又和实际的残差信号极其接 近,则在低码率下也可获得较好的话音质量,这就是c e l p 的基本原理。 c e l p 的关键是码本,将n 个样值集合在一起作为一个样值集合,称为n 维 矢量或码矢,由有限数量的码矢组成码本。从码本中选择适当的码矢代替残差信 号,将误差最小的码矢地址传送到接收端。例如设码矢大小为1 0 2 4 ,用1 0 比特 对码矢地址编码,若码矢维数n = 4 0 ,则每个样值相当于1 4 比特,因此编码效率 得到了大大的提高。 今天,一般把以l p a s ( 基于线性预测技术的分析一合成编码方法) 为基础 的用v q 技术对激励信号进行量化编码的算法统称为c e l p ,这时c e l p 已不是 单指某项特定的编码技术,而是一类重要的编码技术了。它在4 1 6 k b s 可以得到 华中科技大学硕士学位论文 比其他算法更高的重建语音质量,这一事实已得到公认,而且以c e l p 为基础的 多种算法已成为国际标准,其中包括g 7 2 8 建议的l d c e l p 、g 7 2 9 建议的 c s a c e l p 算法以及g 7 2 3 1 建议的m p m l q a c e l p 算法。 2 4语音压缩编码方案的选择 本课题要求在现有的t m s 3 2 0 c 2 x x 的d s p 平台上,使用最少的成本来实现 语音功能扩展。这里的语音功能指的是数字语音信号的实时记录功能,类似于留 言电话,当主人不在时,实时记录下客人的留言,主人回来时,能真实地再现留 言信息。为了实现这一任务,该语音处理系统必须要满足以下的一些基本要求: ( 1 ) 系统对语音存储的容量提出了很高的要求,要求当主人不在时能自动存入 曾来访过的客人的语音特征,能够存入的语音时间应该有一定的长度。而如前所 述,数字语音信号占用很大的带宽,对8 k h z 采样,1 6 b i t 量化的未压缩语音来说, 一分钟的数据量就达到了4 8 0 k 字。如果用1 m 字的f l a s h 存储器,只能存储2 分钟的语音数据,这显然是不可取的;而采用压缩比低的语音压缩方案,比如 3 2 k b s 的a d p c m ,则只能多存储倍的语音数据,也不能满足课题的要求。 为了能够存储长时间段的语音数据,可以采取两种措施:一是尽量增加存储 器的容量,但这样做造成了硬件成本加大,而且大容量的r a m 存储器并不常见: 二是采用高效的语音压缩方案。在语音编解码器所带存贮器容量一定的条件下, 语音压缩后的码率越低,则能存储的语音时间就越长,这是一种经济有效的软件 实现方案。 综上所述,系统应该首选压缩比高的语音压缩编码方案。 ( 2 ) 系统对语音压缩算法的延时没有要求。算法延时也是评价语音压缩算法的 一项重要指标。在通信应用中,考虑到回声的影响,对算法延时有很严格的限制。 但在本系统中,因为语音的压缩记录和解压再现并不要求是同时的,所以选择语 音压缩方案时可以不考虑延时因素。 ( 3 ) 系统对重建语音质量要求较高。语音编码后,其合成( 再生) 语音的质量 包括有清晰度( 又称可懂度) 和自然度。前者是衡量语音中的字、单词和旬的可 懂程度,而后者则是对讲话人的辨识水平。在本系统中,主人不但要能昕懂合成 语音的内容,还要能区分出留言人的身份,也就是说既要清晰度好,又要自然度 1 4 华中科技大学硕士学位论文 高,这就对选用的语音压缩算法提出了较高的要求。 目前,一般都使用m o s 分 1 0 l 11 来评价重建语音质量。m o s 是一种常用的主 观判定方法,以其平均主观打分来度量,采用五分制来评价语音的质量等级: m o s 4 0 分为高质量语音,接近信道透明编码,常称为网络质量,重建语音 质量符合长途通信要求; m o s3 5 分为通信质量,这时语音质量会稍有下降,但不足以妨碍正常通信; 大部分采用参数语音综合技术重建的语音质量,一般具有高的可懂度,但自 然度不够,这类算法的重建语音质量一般不会超过m o s 3 0 分。 ( 4 ) 语音压缩算法的算法复杂度应该在所选用的硬件承受范围之内。 t m s 3 2 0 c 2 x x 运算速度最高可达到4 0 m i p s ,因此,只要语音压缩算法的算法复 杂度不超过4 0 m i p s 就可以选用。 从以上的分析知道,语音压缩方案的选择应该从压缩率、重建语音质量和算 法复杂度三个方面( 本系统对延时不要求) 来考虑。目前流行的各种语音压缩方 法的基本特性见第一章的表1 2 。 结合表中列举的数据,首先从压缩率方面来考虑。压缩码率在8 k b s 以下的 语音压缩算法有4 种:g 7 2 9 标准的算术码本激励线性预测算法、g 7 2 3 1 标准的 多脉冲最大似然代数码本线性预测算法、i s 5 4 标准的矢量和线性预测算法和l p c 算法。其中g 7 2 3 1 的压缩码率是6 3 k b s 和5 3 k b s 两种,分别对应标准的两种 不同的码本搜索算法;l p c 的压缩码率仅仅只有2 4 k b s ,是所有备选算法中码率 最低的。 再考虑重建语音质量。l p c 算法的m o s 分只有2 5 分,合成语音的自然度 很差,远不能满足系统的要求,首先被排除:剩余3 种压缩方案的m o s 分均达 到了3 ,5 分以上,都能够满足系统的要求,其中g 7 2 9 的重建语音质量高达4 0 , 而g 7 2 3 1 的a c e l p 算法的码率仅为5 3 k b s ,这两种算法成为了课题重点考虑 的对象。 这两种算法各有优缺点:g 7 2 3 1 码率低,而且算法复杂度较g 7 2 9 低,但重 建语音质量不够好:g 7 2 9 重建语音质量很好,但是算法复杂且码率偏高。经过 分析权衡,最终还是选择了g 7 2 3 1 中的a c e l p 算法,压缩后的码率只有5 3 k b s , 华中科技大学硕士学位论文 可以最大限度地节约硬件存储器成本。 本章的内容可分为三部分: ( 1 ) 分析了语音信号的声学特性,指出可以用一个时变线性系统来模拟语音信 号的产生,并对该数学模型进行了详细的分析;从时域和频域两个方面论述了语 音信号具有较大的冗余度,可以大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论