




已阅读5页,还剩72页未读, 继续免费阅读
(信号与信息处理专业论文)dcme中g729a语音编码器的dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电学院硕士学位论文 摘要 摘要 下一代d c m e 产品将采用g 7 2 9 a 标准作为低速率语音编码的方案。 g 7 2 9 a 建议的共轭结构代数码激励线性预测( c s a c e l p ) 技术可以将6 4 k b l s 的p c m 话音压缩成8 k b s 的码流进行传输,结合g 7 6 6 建议的传真解调再调制 技术,实现的d c m e 系统可以达到1 0 2 0 倍增的增益。而且,g 7 2 9 a 还有语 音质量高、算法简单、时延适中等特点,很适合用在长途通信、移动通信等的 d c m e 中。 本文首先简要介绍d c m e 采用的技术,接下来说明了选择c s - a c e l p 作为 d c m e 语音编码算法的原因,然后详细介绍了c s - a c e l p 的原理和实现技术。 最后是作者实践工作的总结,讲述了用c 和汇编语言实现c s a c e l p 定点算法 的经验和技巧,以及在t m s 3 2 0 c 5 4 2d s p 上如何用汇编语言实时实现c s a c e l p 的硬件仿真。根据实验中所获得的数据,作者对c s a c e l p 的编码质量 做了定性的分析。 a b s t r a c t i t u tg 7 2 9 aw i l lb ea d o p t e da st h el o wr a t es p e e c he n c o d i n gm e t h o di nt h e n e x tg e n e r a t i o no fd c m e w i t ht h ec o n j u g a t e s t u r c t u r ea l g e b r a i c - c o d e e x c i t e dl i n e a r p r e d i c t i o n ( c s - a c e l p ) t e c h n i q u es p e c i f i e di ng 7 2 9r e c o m m e n d a t i o n ,6 4 k b sp c m s p e e c hb i ts t r e a mw i l lb ec o m p r e s s e di n t o 8 k b sa n dt h e nb et r a n s m i t t e di nt h e c o m m u n i c a t i o nn e t w o r k u s i n gc s a c e l pa n df a xd e m o d u l a t i o n r e m o d u l a t i o n t e c h n i q u e s ,t h en e wd c m es y s t e mi sa b l et oa c h i e v em u l t i p l i c a t i o ng a i nr a n g i n gf r o m 1 0t o2 0 w i t hs i m p l ea l g o r i t h m ,m o d e r a t ed e l a yi n t r o d u c e da n dg o o dq u a l i t yo f r e c o n s t r u c t e ds p e e c h ,g 7 2 9 ai ss u i t a b l ef o rd c m e sw h i c ha r eo f t e nu s e di nt o l lo r m o b i l ec o m m u n i c a t i o nn e t w o r k s i nt h i sp a p e r ,t h et e c h n i q u e su s e di nd c m ea r ef i r s ti n t r o d u c e db r i e f l y t h e n ,t h e r e a s o n sf o rc h o o s i n gi t u - tg 7 2 9 aa st h es p e e c hc o d i n gm e t h o do f d c m ea r es t a t e d t h ep r i n c i p l ea n di m p l e m e n t a t i o nt e c h n o l o g yo fc s - a c e l pa r et h e nd i s c u s s e di n d e t a i l s t h ea u t h o ra l s od e s c r i b e sh i sw o r ki na s s e m b l el a n g u a g es i m u l a t i o no fc s a c e l pi np cp l a t f o r ma n di nr e a l t i m ei m p l e m e n t a t i o no nt m s 3 2 0 c 5 4 2d s p s e p a r a t e l y b a s e do nt h er e a ld a t ao b t a i n e di ne x p e r i m e n t s ,t h ep e r f o r m a n c eo fc s a c e l pi sa n a l y z e di nt h el a s tp a r to f t h i sp a p e r 南京邮电学院学位论文独创性声明y 6 2 8 8 8 5 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 晾勘? 1 日期 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名:! 至丝导师签名:! 辽娃垒坠日期:业 南京邮电学院硕士学位论文 前言 由南京邮电学院完成的信息产业部( 原邮电部) 重点科技开发项目d c m e 6 是我国目前通信网上可供替代进口产品的唯一具有数字话音插空和可变速率 a d p c m 技术的数字电路倍增设备。为紧跟国际标准和技术的发展,拟开发的新 一代d c m e 中将采用更低速率语音编码技术。 经过全面的分析和比较之后,我们选择了i t u - tg 7 2 9 a 标准作为下一代 d c m e 的语音编码方案。g 7 2 9 协议基于c e l p 编码模型,采用了共轭结构的代数 码本激励线性预测算法,其标准速率是8 k b i t s ,其算法复杂度为2 0 m i p s 。g 7 2 9 a 简化了g 7 2 9 协议中某些处理过程,算法复杂度降为l o 5 个m i p s ,性能略有下 降。同时,g 7 2 9 b 协议又提供了静音压缩的技术,与g 7 2 9 a 协议结合使用,从 而可以进一步提高编解码器的效率。 我们首先在p c 平台上用c 语言仿真了g 7 2 9 a 语音编码标准,验证了它的 优异性能。基于d c m e 要在d s p 芯片上实现低速率语音编解码,我们重点研究 了算法在t i 公司d s p 芯片t m s 3 2 0 c 5 4 2 上的实现,经过汇编语言优化,实时实 现了该算法,并且制作了单路语音输入输出的c s a c e l p 试验平台。最后,我 们对g 7 2 9 b 的程序也进行了大量的汇编语言优化工作,本文是对这些工作的总 结,全文共分为六章: 第一章简要介绍了d c m e 在通信网中的作用以及有关d c m e 的技术。 第二章论述了为什么采用g 7 2 9 a 作为下一代d c m e 的语音编码方案。这一 章介绍了现代语音编码的技术,对i t u - t 最新四种低速率语音编码标准一一 g 7 2 8 、c t 7 2 9 、g 7 2 9 a 和g 7 2 3 1 作了对比。 第三章探讨了g 7 2 9 a 语音编解码原理,从原理上详细分析了算法中的关键 技术。 第四章探讨了g 7 2 9 b 中描述的静音压缩技术及其在d c m e 设备中的应用。 第五章在t m s 3 2 0 c 5 4 2d e m ob o a r d 上实现g 7 2 9 a 编解码,及其实时实现时 的优化方法和关键技术,探讨了一种缩短开发时间的优化方案,并用i t u t 提供 的g 7 2 9 a 语音编码器测试序列测试了优化结果。 第六章探讨了g 7 2 9a 语音编解码的硬件实现方案。 最后,给出了结论和进一步讨论 南京邮电学院硕士学位论文 第一章d c m e 简介 第一章d c m e 简介 1 1 d c m e 采用的技术 d c m e 即数字电路倍增设备( d i g i t a lc i r c u i tm u l t i p l i c a t i o ne q u i p m e n t ) 的英 文简称。根据i t u tg 7 6 3 建议,d c m e 是一种能将许多6 4 k b i t sp c m 编码的输 入中继信道集中到少数的传输信道的设备的总称。该类设备在电信网络中的作用 如图1 1 所示。 h 卜一 n 条电路_ ,- 一 变 l - 长 长 途 传输设备 途交 换i 雨 通搀 中信 ( n 条电路) 信 由 终终心心 h 一 1 1 1 - - - - 端 端 ( a ) 使用前 毒 长 卜长 童 干传 诛 诗 e 线输 通传输设备通棒千 倒 侧 信 ( n 条电路) 信 输 线 终 终 侧 侧 端端 卜 n 条电路- i i m 条电路 7 ( d ) 便崩居m ) n ) 图1 1 d c m e 使用示意图 d c m e 设备实现“电路倍增”主要是因为使用了两种技术:数字话音插空 d s i ( d i g i t a ls p e e c hi n t e r p o l a t i o n ) 和低速率语音编码l r e ( l o w r a t ee n c o d i n g ) 。 1 1 1 数字话音插空 在通信链路上出现的话音信号通常是双方交谈的结果。交谈时往往是一方 在说话另一方在听话,因而,在中继信道的每个方向上只是在部分时间存在着激 活的话音信号。另外,即便只有交谈一方在说话,言词之间也有间歇,因此电路 有空闲的时间。测量表明中继信道的每个方向上大约3 0 4 0 的时间有话音存 在,这是对大量被占用中继平均的结果,称为话音激活系数o 【。d c m e 利用平 2 南京邮电学院硕士学位论文第一章d c m e 简介 均信道活动性低的特点,检测语音的静寂时刻并加以利用,采用动态的时隙分配, 传输其他话路正在激活的语音,使得多数的中继信道可以共享少数的承载信道, 提高了传输信道的利用率。d c m e 采用d s i 技术可以获得1 d 即约2 2 5 倍的 电路增益。 1 1 2 低速率语音编码 低速率语音编码是相对国际标准( c c i t t 建议g 7 1 1 ) 的p c m 编码方法而 言的。标准p c m 采用8 k h z 频率取样,每样值8 b i t 非线性压扩编码,总信道码 率6 4 k b i t s 。p c m 编码未利用相邻样值和基音周期之间的相关性,而语音这种相 关性又是很大的,可以利用这种相关性在仍然保持比较高的话音质量的前提下降 低总码率。g 7 6 3 建议采用可变速率的自适应脉冲编码调制( v b r - a d p c m ) 语音 压缩技术,可以将6 4 k b p s 话音速率压缩至4 0 k b p s ,3 2 k b p s ,2 4 k b p s 或1 6 k b p s 。 d c m e 采用v b r a d p c m 技术可以获得2 3 倍的电路增益。 1 2d c m e 的倍增增益 图1 2 给出了d c m e 系统的传输增益示意图。其中,n 为n 条p c m 中继话 路传输所用的时隙数,n 为经数字话音插空( 即d s i ,下同) 动态分配后所用的 时隙数,c 为经l r e 压缩后所用的承载信道时隙数( 相应于p c m 的话路数) 。 图1 2d c m e 传输增益示意图 d c m e 系统首先利用d s i 技术动态分配话路时隙,提高信道利用率,然后 利用l r e 技术固定或动态压缩传输信道数。整个d c m e 系统的传输增益为: g d c m e = g d s i g l r e = n c ( 1 1 ) g l r e = p c m 码率l r e 码率= n c ( 1 2 ) g d s l = n n 1 4 0 = 2 5 ( 1 3 ) 南京邮电学院硕士学位论文 第一章d c m e 简介 1 3 d c m e 技术的发展 d c m e 的标准化工作在国际电联中属于s g - 1 5 ( 传送网系统和设备) 的研 究课题,1 9 9 4 年形成了g 7 6 3 建议,即“采用a d p c m ( 建议g 7 2 6 ) 和数字话 音插空的数字电路倍增设备”。关于a d p c m 算法经历过一段发展过程,i t u t 1 9 8 4 先行提出了3 2 k b s a d p c m 语音编码标准g , 7 2 1 ,之后由于该算法对9 6 0 0 b s 带内数据处理效果不好,故提出了对9 6 0 0 b ,s 带内数据采用4 0 k b s 编码的g 7 2 3 算法。后来建议又对a d p c m 在更低速率下的算法进行了补充,增加了2 4 k b s 及1 6 k b s 两种速率编码。鉴于以上4 种速率( 4 0 3 2 2 4 1 6 k b i t s ) 的a d p c m 算 法具有相同的原理,主要差别仅在于对预测误差信号的量化比特数量不一样,即 分别采用5 、4 、3 、2 比特量化,1 9 9 0 年由i t u ts g 一1 5 将多个a d p c m 协议及 其增补整合成为统一的g 7 2 6 建议,即可变比特率的a d p c m 算法。 1 9 9 6 年,i t u t 针对通信网上日益增加的话带数据,又提出了g 7 6 6 建议: 用于数字电路倍增设备的传真解调再调制技术。由于话带数据不同于话音,是 持续出现的,不能进行插空,故而话带数据路数增加会带来d c m e 电路增益的 显著下降。该建议指出:d c m e 中传真解调模块的基本功能是检测传真信号, 并对传真信号解调,然后传输解调后的数据,在对端d c m e 设备中,传真调制 模块将话带数据按原来的调制方式进行再调制。不能被检测出来的传真信号仍用 d c m e 中g 7 2 6a d p c m 信道传输。 随着语音编码技术的发展,i t u - t1 9 9 8 年通过了g 7 6 7 建议,该建议将g 7 6 3 建议中的语音压缩算法由a d p c m 延伸到l d - c e l p ( g 7 2 8 ) 。2 0 0 1 年又通过了 g 7 6 8 建议草案:使用8 k b sc s - a c e l p ( g 7 2 9 ) 的d c m e 设备。 4 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 第二章d c m e 中语音编码方案的选择 2 1 语音编码技术概述 自从3 0 年代末提出脉冲编码调制( p c m ) 原理以及声码器( v o c o d e r ) 概 念后,语音编码一直沿着这两个方向发展,它们也可以称为语音信号的波形编 码与声码化编码,或称为非参数编码与参数编码,参数编码有时也称模型编码。 结合波形编码和参数编码两者的优点又提出了 昆合编码。 2 1 1 波形编码 语音信号的波形编码直接对语音信号的时域或频域的波形进行编码,力图使 重建语音波形保持原语音信号的形状。波形编码器适应能力强,语音质量好,并 易于实现,但所需要的编码速率较高。在p c m ( g 7 1 l6 4 k b i t s ) 的基础上,利 用语音样值和基音周期之间的相关性,并根据人耳的听觉特性一一频率掩蔽效应 和等响度曲线,波形编码引入了差分编码、自适应预测、子带编码和矢量量化等 多种技术,提出了多种成熟的编码算法,如a d p c m 、a s b c ( 自适应子带编码) 、 a t c ( 自适应变换编码) 等。 2 1 2 参数编码 参数编码通过对语音信号特征参数的提取及编码,力图使重建信号具有尽可 能高的可懂性,即保持原语音的语意,而重建信号的波形同原语音信号的波形可 能会有相当大的差别。人类发音器官产生声音的过程可以用一个数学模型来逼 近,此模型可分成激励和声道两部分,对后者的逼近采用声管模型和共振峰模型 两种,而共振峰模型可借助l p c 分析导出高效算法,故更为常用。至于激励部 分,最简单的就是所谓的清浊音模型,为提高精度又有许多改进,如采用多脉 冲激励、码本激励等。 由于描述语音生成模型的参数只有十几个,并且考虑到语音的短时平稳性 ( 在约2 0 m s 的平稳期内,模型参数变化很小) ,所以参数编码系统的传码率可 以压缩得很低,比如美国联邦标准f s l 0 1 5 就是用1 0 阶l p c 线性预测a r 模型 逼近声道响应构成的声码器,编码系统的传码率仅为2 4 k b s 。参数编码试图用 数学模型产生的合成语音代替原始语音,对模型做了种种假设,所以其语音质量 还不够好,特别是自然度较低;另外,这类编码器对讲话噪声较敏感,需要安静 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 的讲话环境才能给出较高的可懂度,且时延大。要进一步提高产生的语音的质量, 有效的方法是采用混合编码法。 2 1 3 混合编码 集成电路技术的高速发展使得复杂度不再是制约算法的瓶颈,一些以穷举求 优的搜索方法可以达到优化目的,于是出现了混合编码,混合编码是将波形编码 与参数编码结合而产生的一种编码方式,使语音编码技术有了突破性的进展。混 合编码结合了以上两种编码方式的优点,采用了线性技术构成声道模型,不只传 输预测参数和清浊音信息,而是将预测误差信息和预测参数同时传输,在接收端 构成新的激励源去激励预测参数构成的合成滤波器,使得合成滤波器输出的信号 波形与原始语声信号的波形最大程度地拟合,从而获得自然度较高的语声。这种 编码技术的关键是:如何高效地传输预测误差信息。依据对激励信息的不同处理, 这类编码主要有:多脉冲线性预测编码( m p l p c ) 、规则脉冲激励线性预测编码 ( r p e l p c ) 、码激励线性预测( c e l p ) 等。 混合编码克服了原有波形编码器与声码器的弱点,而结合了它们的优点,在 4 1 6 k b s 速率上能够得到高质量的合成语音。在本质上也具有波形编码的优点, 有一定的抗噪和抗误码能力,但一般较复杂,时延大。 2 2c e l p 语音编码器 2 2 1 c e l p 编码器的结构 图2 1 是c e l p 的一个典型例子。c e l p 编码的原理是:认为语音信号是由 均值为零的高斯白噪声序列激励一个时变的滤波器产生的。用短时合成滤波器代 表声道模型,量化的激励矢量和长期合成滤波器代表声门激励模型,经增益调节 后的激励矢量顺序通过长期合成滤波器和短期合成滤波器得到合成语音信号。 两个合成滤波器都采用全极点模型,分别包含一个长期预测器和短期预测器 构成的反馈回路。长期预测器又称为基音预测器,其主要功能是提取浊音的基音 周期。通常采用一阶预测器,传输函数为( 2 - 1 ) ,其中p 是基音周期,d 为预测器 系数。公式( 2 2 ) 为相应的长期合成滤波器的传输函数。 e ( z ) = p z lf 2 一l 、 肫) = 高丽 ( 2 2 ) 6 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 ( a ) 输入码流厂 叫解码i i l 曩 壶眵由毫矛鏖墙 pr ,、:v 1 0 口z 一。( 2 - 3 ) b ( = ) = z “ ,2 ( z ) 。函1 丽( 2 - 4 ) 南京邮电学院硕士学位沦文 第二章d c m e 中语音编码方案的选择 激励v q 码本是由等长的激励码矢量构成的码表。码本矢量通常采用高斯分 布的随机数。 2 2 2 c e l p 编码过程 c e l p 基本上是按帧对输入语音进行编码,每进来一帧语音,编码器都要试 图找到最佳的预测系数、增益和激励码矢,以使合成的语音与输入语音在最小加 权均方误差准则上最为接近。 在实际编码过程中,编码器首先缓存一帧输入语音( 大约2 0 m s ) ,接着执行 线性预测( l p c ) 分析,从输人语音帧中提取l p c 参数。基音预测器参数( 包 括基音周期、基音预测器抽头系数) 以开环或闭环的方式获得。经量化后的l p c 参数和基音预测器参数作为边信息发送到解码器。这种方案称为前向预测。 输入语音帧又分为若干等长的子帧( 或称为矢量) ,通常长4 8 毫秒( 8 k 采 样频率下对应3 2 , - - 6 4 个样值) 。对于每一个语音矢量,编码器将激励v q 码本中 的一个候选码矢经增益调节后激励两个合成滤波器,然后将对应的输出结果与输 入语音矢量作比较,计算加权均方误差。编码器为v q 码本中每一个候选码矢都 要重复这个过程,找出使加权误差最小的那个激励码矢作为该帧输入语音的激励 矢量。这个过程称为闭环搜索( 有时又称为分析合成过程) 。采用闭环搜索的激 励矢量量化是c e l p 的主要特征,也是c e l p 编码器优越于其他线性预测编码器 如a p c 和m p l p c 的主要原因。 在通常的c e l p 编码器中,有五类信息需要编码发送到解码器端,包括: ( 1 ) l p c 参数;( 2 ) 基音周期:( 3 ) 基音预测器抽头系数;( 4 ) 激励增益;( 5 ) 激励码矢。解码器获取这些信息后就可以将增益定标后的激励矢量去激励合成滤 波器,一帧帧地产生重建语音。通常,重建语音还要经过一个后置滤波器,以使 解码语音主观听觉质量更好。 2 3 衡量语音编码性能的主要因素 语音编码或称语音压缩编码研究的基本问题,就是在给定编码速率的条件 下,如何得到尽量好的重建语音质量,或称编码质量,同时应尽可能减少编解码 时延以及算法的复杂程度。换一个角度也可以说,在给定编码质量、编解码时延 以及算法复杂程度的条件下,如何降低语音编码所需的比特率。这四个因素之间 有着密切的联系,并且在不同的应用中对各方面的侧重要求也有所不同。除了这 8 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 四个主要因素,语音编解码系统的鲁棒性( r o b u s t n e s s ,指抗误码、线路噪声等 干扰的能力) 也是衡量语音编码器的重要指标。 2 _ 3 1 编码质量 评价语音编码质量的方法归纳起来可以分成两类,即客观评定方法和主观评 定方法。 客观评定方法用客观测量的手段来评价语音编码质量,常用的方法有信噪 比、加权信噪比、平均分段信噪比等。它们都是建立在度量均方误差的基础上, 其特点是计算简单,但不能完全反映人对语音质量的感觉,这个问题对于速率为 1 6 k b s 以下的中、低速率语音编码尤为突出,因此此法主要用于速率较高的波形 编码类型的算法。 主观评定方法符合人类听话时对语音质量的感觉,目前得到了广泛应用。常 用的方法有平均意见分( m e a no p i n i o ns c o r e ,简称m o s 分) ,判断韵字测试 ( d i a g n o s t i cr h y m et e s t ,简称d r t 得分) ,判断满意度测量( d i a g n o s t i c a c c e p t a b i l i t ym e a s u r e ,简称d a m 得分) 等。其中m o s 分评定使用最为普遍。 m o s 得分采用五级评分标准,如表2 - 1 所示。参加测试的实验者,在听完 所测语音后,从这五个等级中选择其中某一级作为他对所测语音质量的评定。全 体实验者的平均分就是所测语音质量的m o s 分。 m o s 判分质量级别失真级别 5 优( e x c e l l e n t )不察觉 4 良( g o o d )刚有察觉 3 可( f a i r )有察觉且稍觉可厌 2 差( p o o r )明显察觉且可厌但可忍受 l 坏( u n a c c e p t a b l e )不可忍受 表2 一lm o s 判分五级标准及相应的描述该级语音质量的形容词 在数字语音通信中,通常认为m o s 分4 0 4 5 分为高质量数字化语音,达 到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。m o s 分为3 5 分左右称作通信质量,这时能感到重建话音质量有所下降,但不妨碍正 常通话,可以满足多数话音通信系统使用要求。m o s 分3 0 分以下常称合成语 音质量,系指一些声码器合成的语音能达到的质量。它一般具有足够高的可懂度, 9 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 但自然度及讲话人的确认等方面不够好。 2 1 3 2 编码速率 编码速率用比特秒( b i t s s ) 来度量,也可以用比特样值( b i t s s a m p l e ) 来度量, 它代表了平均每个语音样点用多少比特编码。目前在波形编码中,一般编码速率 = 2 b i t s s a m p l e ;而在参数编码中,速率可低到0 2 5 甚至o i b i t s s a m p l e 以下,当 然这种情况下重建语音只能保持一定的可懂性,而反映讲话人特征的信息和语音 的自然度受到很大的损失。 2 3 3 编解码时延 语音编解码时延通常由3 个主要部分组成,即算法时延、处理时延和通信时 延。其中算法时延是唯一与具体的硬件实现方案无关的时延。 ( 1 ) 算法时延( a l g o r i t h m i cd e l a y ) 。大多数低速率语音编码算法一次处理一帧语 音数据,其语音参数每帧更新和传送一次。另外,为了对数据进行充分分 析,有时需要对本帧后续数据进行分析,这种必须应用本帧后续段数据才 能完成本帧编码的方法称为“前视”( 1 0 0 k - a h e a d ) 。因此在分析语音之前, 不但需要缓存本帧数据,还要等待收齐“前视”部分。由此产生的时延称 为算法时延。 ( 2 ) 处理时延( p r o c e s s i n gd e l a y ) 。处理时延来自于编解码器在编解码过程中所 花费的时间。它依赖于执行编解码算法的硬件的处理速度和算法软件的复 杂度。算法与处理时延之和被称为单向编解码时延( o n ew a yc o d i n gd e l a y ) 。 ( 3 ) 上述算法与处理时延一般都归属于设备时延,除了设备时延外,信号延着 传输介质传送造成的时延称为传播时延( p r o p a g a t i o nd e l a y ) 。 设备时延和传播时延的总和称为单向传输时延( o n e w a yt r a n s m i s s i o nt i m e ) 。 时延是通信系统不可克服的损伤之一,严重时会引起交互性变差,回波,时滞等 不良效应,i t u - t g t l 4 建议给出了端到端传输时延的一般可接受,有限可接受, 一般不可接受的0 - 1 5 0 ,1 5 0 4 0 0 , 4 0 0 ( m s ) 这三种范围指标,不同类型的通信系 统中,对语音编码器的单向系统时延要求不一样。对于常用的话音服务,可能会 有几次编码转换,也就是会有多次语音编解码,例如g s m 呼叫p h s ( 小灵通) 用户至少要经历g s m 6 1 0 1 3 k b p s ,g 7 1 l - 6 4 k b p sp c m 及g 7 2 6 3 2 k b p s a d p c m , 1 0 南京邮电学院硕士学位论文第二章d c m e 中语音编码方案的选择 如果上述呼叫经过i p 电话则可能经历g 7 2 9 a ,g 7 2 3 1 等其他编码,因此对单次 语音编解码时延通常要求较高。 2 3 4 编解码复杂度 编解码算法的复杂程度同语音编码的语音质量有非常密切的关系。一般来 说,在同样编码速率的情况下,采用较复杂的算法将会获得更好的语音质量。换 句话说,对于相同语音质量,采用复杂一些的算法能够降低编码所需的速率。 目前在许多应用中都使用通用数字信号处理芯片( d s p ) 来实现编解码算法。 算法的复杂程度对于d s p 芯片的运算能力以及所需要的存储器容量都提出了一 定的要求。因此一般采用实现编解码算法所需要的运算速度( 每秒百万条指令, m i p s ) 、程序存储器( r o m ) 和数据存储器( r a m ) 的容量来衡量编解码算法 的复杂度。在芯片上集成较多的r a m 和r o m 会导致芯片的成本增加。可见编 解码算法的复杂程度决定硬件实现的复杂程度、体积、功耗以及成本。 2 4 新一代d c m e 中低速率语音编码方案的选择 由南京邮电学院完成的信息产业部( 原邮电部) 重点科技开发项目d c m e - 6 是我国目前通信网上可供替代进口产品的唯一具有数字话音插空和可变速率 a d p c m 技术的数字电路倍增设备。该设备符合i t u tg 7 6 3 建议,其语音编码 采用的是g 7 2 6 a d p c m 编码。为紧跟国际标准和技术的发展,新一代d c m e 中 将通过采用更低速率语音编码技术、传真解调再调制技术来提高数字电路倍增 设备的增益。其中,低速率语音编码技术是在保证编码语音质量的同时降低语音 编码的比特率。 从表2 2 可以看出,这些协议采用不同的算法,具有不同的速率。在实际选 择压缩算法时,要综合考虑各种因素。例如,高比特率可以保证良好的话音品质, 但要占用大量的存储空间,耗费更多的系统资源;而过低的比特率又会影响话音 的品质和增加延迟。所以,在较低比特率的前提下,保持较好的话音质量,是选 择压缩算法的原则。经过比较,就编码速率而言,8 k b s 速率的g 7 2 9 a 介于1 6 k b s 速率的g 7 2 8 和5 3 6 3k b s 速率的g 7 2 3 1 之间,从时延角度来看,显然是g 7 2 8 为优,但是,g 7 2 8 的算法复杂度是它的瓶颈,g 7 2 9 a 的算法复杂度是g 7 2 8 的 1 3 ,与( 3 , 7 2 3 1 基本相同,然而g 7 2 3 1 的算法时延又是g 7 2 9 a 的2 5 倍。所以 从编码速率、算法复杂度、时延来综合考虑,g 7 2 9 a 有明显的优势,而且通过 南京邮电学院硕士学位论文 第二章d c m e 中语音编码方案的选择 g 7 2 9 a 编解码器实现解码后的语音信号经过主观测试,具有很高的语音质量, 虽然与m o s 分达到了4 0 的g 7 2 8 相比稍有下降,但g 7 2 9 a 的m o s 分也达到 3 9 左右,与m o s 分仅在3 5 4 o 之间的g 7 2 3 1 相比有有很大优势,从而,g 7 2 9 a 极为适合作为新一代d c m e 中的语音编码方案。 编码标准 q 7 2 6g 7 2 8g 7 2 9g 7 2 9 ag 7 2 3 1 公布时间 1 9 9 11 9 9 21 9 9 61 9 9 61 9 9 6 算法 v b r a d p cl d c e l pc s - a c e l p c s a c e l p a c e l p m m p - m l q 码率( k b p s ) 1 6 2 4 3 2 4 01 6 885 3 6 3 m o s 分 2 3 2 4 4 24 14 03 93 5 4 0 算法时延 0 1 2 50 6 2 51 51 53 7 5 ( m s ) 运算量 7 5 23 3 52 01 0 5 1 0 ( m i p s ) 程序空间 7 8 75 3 62 21 3 9 6 3 ( k b y t e ) 数据空间 o 1 3 8 + 0 5 1 21 3 855 3 8 9 ( k b y t e ) 表2 - 2i t u - t 语音编码标准 综合以上分析,相比较g 7 2 8 、g 7 2 3 1 而言,g 7 2 9 a 具有语音质量好、时 延较低、算法复杂度适中、编码速率低等优点,综合各项指标,g 7 2 9 a 的优势 是明显的,很适合作为长途通信、移动通信等场合下的d c m e 中的语音编码方 案。 1 2 南京邮电学院硕士学位论文 第三章i t ug 7 2 9 a 语音编解码原理 第三章i t ug 7 2 9 a 语音编解码原理 0 ? 2 9 协议是由i t u - t 第1 5 研究小组提出,并在1 9 9 6 年3 月通过的8 k b p s 语音编码协议。g 7 2 9 协议基于c e l p ( c o d e e x c i t e dl i n e a r - p r e d i c t i o n ) 编码模型, 采用了共轭结构的代数码本激励线性预测( c o n j u g a t e s t u r c t u r ea l g e b r a i c c o d e e x c i t e dl i n e a r - p r e d i c t i o n ) 算法。其算法复杂度为2 0 m i p s 。由于g 7 2 9 编解码器 具有较高的语音质量和较低的延时,被广泛地应用在数据通信的各个领域,如i p 电话和h 3 2 3 网上多媒体通信系统等。 g 7 2 9 采用了线性预测技术,并采用前视来提高合成模型的精度。预测器系 数根据当前帧和下一帧进行更新,语音帧长为 0 m s ,由两个子帧组成,前视5 m s 。 为了降低比特率,线性预测器系数、激励信号以及增益均采用了矢量量化,并利 用了多级量化和分割量化技术。g 7 2 9 编码参数包括线性预测器系数、固定码本 索引与增益、自适应码本索引与增益,这些参数的比特分配见表3 1 。 参数码字子帧1子帧2每帧总计 线谱r 寸( l s p )l o ,l 1 ,l 2 ,l 3 1 8 自适应码本时延 p 1 p 2851 3 基音延时校验 p o1l 固定码本索引 c 1 c 21 31 32 6 固定码本符号 s 1 s 2448 码本增益( 第一 o a l g a 2336 级) 码本增益( 第二 g b l g b 2 448 级) 总计 8 0 表3 1c t 7 2 9 编码参数比特分配 3 1 g 7 2 9 编码器 g 7 2 9 编码器如图3 - 1 所示。电话线路上的模拟语音信号,经过话路带宽滤 波( 符合i t u tg 7 1 2 建议) 后,被8 k h z 采样,量化成1 6 比特线性p c m 数字 信号输入到编码器。下面对编码器的各功能模块作简要的介绍: 南京邮电学院硕士学位论文 第三章i t ug 7 2 9 a 语音编解码原理 ( 1 ) 预处理:该模块首先将1 6 比特线性p c m 信号幅度减半,防止d s p 定点实现时可能出现的数据上溢,然后采用截止频率为1 4 0 h z 的2 阶极,零点滤 波器进行高通滤波,除去不希望的低频分量。 ( 2 ) 线性预测分析和量化:短时相关分析采用1 0 阶线性预测滤波器模型。 线性预测分析针对1 0 m s 语音帧进行,首先对信号进行加线性预测分析窗,计算 窗口内语音信号自相关系数,然后由莱文森一杜宾算法求得线性预测滤波器系数 a i ,i = l ,1 0 。分析窗由两部分组成:第一部分是半个汉明窗,第二部分是四分之 一个余弦信号。 黼! 三i 钉磊可一掣毓 一l p j 鬣豇。l 一 图3 1g 7 2 9 编码器结构 由于线谱对参数l s p ( l i n es p e c t r ap a i r s ) 比线性预测( l p ) 系数具有更好 的内插特性和量化特性,因此需要将l p 系数转换为相应的l s p 系数。对于l o 阶的线性滤波器而言,l s p 系数是多项式p ( z ) ;a ( z ) + z 。1a ( z 1 ) 和 q ( z ) = a ( z ) 一z 。1 a ( z 一1 ) 的根,其中a ( z ) 为线性滤波器。求得l s p 系数q i 后,令c o = a r c c o s ( q i ) ,【1 ) 称为线谱频率( l s f - l i n es p e c t r af r e q u e n c y ) 。为了提高量化精度, 采用4 阶滑动平均预测器来预测当前帧的l s f ,然后对l s f 的计算值和预测值 1 4 南京邮电学院硕士学位论文第三章i r ug 7 2 9 a 语音编解码原理 之差进行两级矢量量化。第一级是1 0 维的矢量量化,其码本c 1 含有1 2 8 个矢 量,索引值记为l 1 ;第二级是1 0 b i t 矢量量化,使用了两个5 维的码本c 2 和c 3 , 分别含有3 2 个矢量,索引值记为l 2 、l 3 。码本搜索遵循均方误差最小化原则: 在搜索第一级码本时,g 7 2 9 将全面搜索1 2 8 个码本矢量,找到一个最佳索引l 1 ; 进行第二级码本搜索时,首先利用公式 d、4 西,= 11 - p ,。l e m + p 砧e 扣” f = 1 ,1 0 ( 3 - 1 ) 重构l s f 系数,其中l s f 量化系数由下式确定 ,= c i ,( 厶) + c z f ( 2 ) i = l ,5 = c 1 ,( 厶) + c 3 ,5 ( 厶) i = 6 ,1 0 ( 3 2 ) 然后再全面搜索码本c 2 ,找到最佳索引l 2 ,使得加权均方误差e l s f 最小。 = w , ( c o ,一西,) 2 ( 3 - 3 ) 同样,索引值l 3 的确定与此类似。 令q i ( c u r r e n t ) 为当前1 0 m s 语音帧的l s p 系数,q i ( p r e v i o u s t ) 为前一帧的l s p 系数,则当前帧两个子帧l s p 系数的内插规则为: 子帧1 : g ,= 0 5 q j ( ”1 + o 5 叮j f = l ,1 0 r 3 - 4 、 子帧2 :g j 2 = g j i = l ,1 0 、 内插完成后,将这两个子帧的l s p 系数转换为l p 滤波器系数,用以建立每个子 帧的合成滤波器和误差加权滤波器, ( 3 ) 开环基音分析:为了减少自适应码本搜索的计算量,需要计算开环基 音周期t o p ,自适应码本搜索围绕着开环基音值附近进行。开环基音分析每1 0 m s 进行一次,其数值范围限制在2 0 - - - 1 4 3 个样本点之间,对应的基音频率为5 5 h z 4 0 0 h z 。开环基音估计通过分段计算加权语音信号s w ( n ) 的短时自相关值,取各 段中自相关函数的最大值,从而确定基音周期。开环基音的计算按照如下步骤进 行:将基音周期可能出现的范围2 0 1 4 3 划分为三段,分别求出各段自相关函 数的最大值;对三个自相关函数最大值进行归一化,取其中最小的数值所对应 的时延作为基音周期;对基音周期进行一定规则的调整。 南京邮电学院硕士学位论文 第三章l t ug 7 2 9 a 语音编解码原理 ( 4 ) 自适应码本搜索:在开环基音分析基础上,进行更加精确的搜索,以 确定每个子帧的基音周期,也称为闭环基音搜索,它通过最小化原始语音信号和 重构语音信号的加权均方误差来进行闭环基音搜索,只要使下式取得最大值: 附) :挚! 些! ( 3 - 5 ) :。m 即) y a h ) 其中x ( n ) 为目标信号,y 。( ”) 是在延迟k 的后滤波激励信号。 y 。( ) = y 。一1 ) + “( 一k ) h ( n ) 。u ( n ) 为激励缓存,它是由l p 残差进行的扩展。 对于子帧1 的闭环基音t 1 来说,该值的搜索是局限在开环基音周期t o p 附近的 小范围【r m m ,t 。】内,范围为6 个抽样周期。对子帧2 的闭环基音t 2 的搜索是 局限在闭环基音t 1 的一个小范围内。f 。i 。和t 。通过一定的规则确定。子帧1 搜索时,若搜索的范围处于( 1 9 t 8 5 ) ,则采用整数时延搜索。基音周期对应的编码 参数p 1 可通过下式确定: i f 5 - t 1 1 5 乡;p 1 = 3 ( i n t ( ( t 1 ) 一1 9 ) + f r a c _ 1 ( 3 - 6 ) i f 8 5 t 1 1 4 3 p l = ( i n t ( t 1 ) - 8 5 ) + 1 9 7 ( 3 7 ) 第二子帧的基音周期搜索围绕着t l 附近的范围 t m i n ,t m a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年陪诊师考试服务态度试题及答案
- 2025年东莞市人工智能训练师初赛竞赛练习题及答案
- (试题)社会救助公共基础知识题库及答案
- 施工现场应急预案方案
- 2025年新媒体运营师中级考试预测题及实战技巧解析
- 2025年护士招聘面试预测题及应对技巧
- 北京市门头沟区2023-2024学年九年级下学期初中学业水平考试(一模)化学试题及答案
- 桃花姬阿胶糕课件
- 桃江眼科知识培训班课件
- 2025年财务主管职位面试预测题及应对建议
- 13电磁铁的应用(讲义)
- DBJ41T 256-2021 河南省海绵城市设计标准 河南省工程建设标准(住建厅版)
- 独家授权合同模板
- 南京外国语2024-2025九年级上学期第一次月考物理试卷及答案
- 2024年北京广播电视台招聘140人历年高频500题难、易错点模拟试题附带答案详解
- 湖南省名校联盟2024-2025学年高二上学期入学考试物理试题
- 《希腊神话》导读课
- 2024年幕墙工程专业分包合同协议书范本
- 生产与运作管理第5版配套教材电子课件(完整版)
- 广西现代物流集团有限公司招聘笔试题库2024
- 成人鼻肠管的留置与维护(2021团体标准解读)-20221004172843
评论
0/150
提交评论