(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf_第1页
(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf_第2页
(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf_第3页
(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf_第4页
(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(通信与信息系统专业论文)itutg729a语音编码算法的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着因特网和移动通信的蓬勃发展,频带利用率与通信质量成为目前该领域 两个突出的问题。低速率、高质量和低成本的语音编解码器成为解决这些问题的 有效途径。为满足这种需要,i t u t 提出基于共轭结构代数码激励线性预测 c s a c e l pg 7 2 9 标准。g 7 2 9 a 是8 k b i t s 语音编码标准g 7 2 9 减少复杂度的版本, 其编解码算法结构与g 7 2 9 的编解码算法结构一样,其比特流与g 7 2 9 的比特流可 互操作。g 7 2 9 a 具有非常好的性能,其语音质量与3 2 k b i t s 自适应差分脉冲编码 调* 0 ( a o p c m ) 算法相当,达到了长途电话质量要求。 本文首先介绍了语音编码压缩算法的分类及评价标准、现有的数字音频编码 标准以及论文的选题背景和主要研究内容。 本文的第二章对g 7 2 9 算法原理进行了深入的研究,系统阐述了g 7 2 9 语音编 码标准,其中对该标准的线形预测分析,矢量量化,码本搜索等关键技术作了详 细的阐述。 本文的第三章和第四章介绍了实现g 7 2 9 a 的c o l d f i r e 系列m c f 5 2 4 9 的硬件 开发平台,重点研究了c o l d f i r ev 2 内核。分析了如何优化实现g 7 2 9 a 标准,重 点研究了汇编级和算法级的优化。从而在f r e e s c a l e 公司的m c f 5 2 4 9 微处理器上 优化实现了g 7 2 9 a 标准。 通过研究g 7 2 9 a 算法原理及使用本文提出的优化方法,最后实时实现了 g 7 2 9 a 标准。优化后的g 7 2 9 a 算法的运算量仅是原始算法的1 1 3 ,大大降低了算 法的复杂度,完成了i t u t 全部功能的测试,并经主观试听,其输出的重构语音 仍然具有很高的质量。 关键词:g 7 2 9 a ,语音编码,编码速率,m c f 5 2 4 9 ,码本,实时性,优化 a b s t r a c t a b s t r a c t w i t ht h er a p i dp r o g r e s so fi n t e r n e ta n dm o r d e nm o b i l e c o m m u n i c a t i o n ,t h e b a n d w i d t hu t i l i z a t i o n a n ds p e e c hq u a l i t ya r eb e c o m i n gt h em a i np r o b l e m t h ev a l i d a p p r o a c ht os o l v et h i sp r o b l e mi sl o wr a t e ,d e l a y , l o s sa n dh i 曲q u a l i t yc o d e c t om e e t s u c hr e q u i r e m e n t ,i t u _ th a se n a c t e dg 7 2 9p r o t o c o li n1 9 9 6 t h e8 k b i u ss p e e c h c o d i n ga l g o r i t h mc o n j u g a t e s t r u c t u r e a l g e r b r a i c c o d ee x c i t e dl i n e a r p r e d i c t i o n ( c s a c e l p ) g 7 2 9 ai st h er e d u c e d - c o m p l e x i t yv e r s i o no f8 k b i t ss p e e c hc o d i n g a l g o r i t h mg 7 2 9s t a n d a r d i z e db ys g l 5o fi t u - tt h ea l g o r i t h ms t r u c t u r eo fg 7 2 9 ai s t h es a m ea st h a to fg 7 2 9a n dt h eb i t s t r e a mo fg 7 2 9 ai si n t e r o p e r a b l ew i t ht h a to f g 7 2 9 t h es p e e c hq u a l i t yp r o d u c e db yg 7 2 9 ai s e q u i v a l e n tt ot h a to f3 2 k b i t s s a d p c mf o rm o s to p e r a t i n g c o n d i t i o n s ,a c h i e v i n gt h er e q u e s to fl o n g - d i s t a n c e t e l e p h o n e i nt h ef i r s tc h a p t e r , t h ec l a s s i f i c a t i o nm e t h o da n de v a l u a t i o ns t a n d a r do ft h ed i g i t a l a u d i oc o d i n ga l g o r i t h m ,d i g i t a la u d i oc o d i n gs t a n d a r d si ne x i s t e n c e ,t h e d e v e l o p i n g t e n d e n c yo ft h ed i g i t a la u d i oc o d i n ga l g o r i t h ma r ei n t r o d u c e d i nt h es e c o n dc h a p t e r , t h ec o m p r e s s i o nt h e o r yo fg 7 2 9d e s c r i b e st h es p e c i a l m e t h o d ss u c ha sl i n e a rp r e d i c t i o n ,v e c t o rq u a n t i z a t i o na n dc o d e b o o ks e a r c h i n g i nt h et h i r da n df o u r t hc h a p t e r , d e s c r i b e st h ed e v e l o p m e n ts u p p o r tp l a t f o r m su s e d f o rf r e e s c a l ec o l d f i r ef a m i l y m c f 5 2 4 9 a n a l y s e sh o wt oa c h i e v et h eg 7 2 9 as t a n d a r d i nm c f 5 2 4 9a n dh o wt oa c h i e v et h e i n t e g r a t e dc a l c u l a t i o nw i t hca n da s s e m b l e l a n g u a g ei nm c f 5 2 4 9 s e v e r a ls o f t w a r eo p t i m i z a t i o nt e c h n i q u e sa r ep r e s e n t e df o r e f f i c i e n ti m p l e m e n t a t i o no fg 7 2 9 as t a n d a r d b yr e s e a r c h i n gp r i n c i p l eo fg 7 2 9 ac o d i n ga l g o r i t h ma n do p t i m i z a t i n gs o f t w a r e , t h ec o m p u t a t i o n a lc o m p l e x i t yo ft h eo p t i m i z e dg 7 2 9 aa l g o r i t h mh a sb e e nr e d u c e dt o 1 1 3t h a to ft h eo r i g i n a la ! g o r i t h m t h ee x p e r i m e n t ss h o wt h a tt h eo u t p u ts p e e c hh a s t h eh i g hr e c o n s t r u c t e ds p e e c hq u a l i t yw i t ht h eo p t i m i z e dg 7 2 9 a a l g o r i t h m a b s t r a c t k e yw o r d s :g 7 2 9 a ,s p e e c hc o d i n g ,b i t - r a t e ,m c f 5 2 4 9 ,a l g e b r i cc o d e b o o k ,r e a l - t i m e o p t i m i z a t i o n i t l 图目录 图目录 图2 - 1c e l p 合成模型的原理图1 0 图2 2c s a c e l p 编码器原理图一1 1 图2 3c s a c e l p 解码器原理图一1 2 图3 - 1m c f 5 2 4 9 开发板4 1 图3 2m c f 5 2 4 9 结构图4 2 图3 3c o l d f i r e 流水线结构一4 3 图3 4c o l d f i r em a c 功能框图4 4 图3 5c o l e f i r em a c 寄存器4 4 圈3 6c o l d f i r ev 2 用户编程模式寄存器4 6 ;司3 7g 7 2 9 a 实现的系统框图一4 7 图3 8s r a m 中运行程序的设置4 8 图3 9 语音编码算法主程序流程图一4 9 图4 - 1 模块化的程序设计和调试流程一6 0 图5 1 测试重构语音时的系统框图一6 9 图5 29 0 m s 长的原始语音波形6 9 图5 39 0 m s 长的重构语音波形7 0 图5 43 0 0 m s 长的原始语音波形7 0 图5 。53 0 0 m s 长的重构语音波形7 0 图5 - 6 原始音乐波形一7 1 图5 7 重构音乐波形7 1 v i i 表目录 表目录 表1 - 1m o s 五级评分标准一4 表1 2 主要语音压缩编码标准及应用5 表2 - 1 编码参数的比特分配9 表2 2 固定码本c 的结构2 6 表2 3 非零初始化参量描述3 7 表3 - 1c o l d f i r e 寻址方式4 5 表5 - 1 编解码器的时间复杂度一6 8 表5 2g 2 9 a 部分函数优化前后时钟周期数对照表6 8 表5 3 编解码器存储空间分配“6 8 v i i i 缩略字表 a d p c m c e l p c s 缩略字表 a d a p t i v ed i f f e r e n t i a lp c m c o d e b o o ke x c i t a t i o nl i n e a rp r e d i c t i o n c o m p r e s s i o nr a t i o c s - a c e l p c o n j u g a t es t r u c t u r ea l g e b r a i cc e l p d s p f i r f f t i t r i t u l p l p c l s f l s p p c m m a c m l p s m o s s r a m v o i p v q v a d d i g i t a ls i g n a lp r o c e s s o r f i n i t ed u r a t i o ni m p u l s er e s p o n s e f i n i t ef o u , i e rt r a n s f o r m i n f i n i t ed t , , a t i o ni m p u l s er e s p o n s e 自适应差分脉冲编码调制 码本激励线形预测 压缩比 共轭结构代数码本激励线 形预测 数字信号处理器 有限脉冲响应 快速傅立叶变换 无限脉冲响应。 i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n 国际电信联盟 i t ut e l e c o m m u n i c a t i o ns t a n d a r d d i z a t i o n 国际电信联盟电信标准化 s e c t o 。 部 l i n e a rp r e d i c t i v e 线形预测 l i n e a rp r e d i c t i v ec o d i n g 一 线形预测编码 l i n e a rs p e c i a lf r e q u e n c y l i n e a rs p e c t r a lp a r i t y p u l s ec o d em o d u l a t i o n m u l t i p l ya c c u m u l a t e m i l l i o ni n s t r u c t i o np e rs e c o n d m e a no p i n i o ns c o r e s t a t i cr a n d o ma c c e s sm e m o r y v o i c e0 v e ri p v e c t o rq u a n t i s a t i o n v o i c ea c t i v i t yd e t e c t o r 线谱频率 线谱对 脉冲编码调制 乘累加计算 每秒百万条指令 平均判断得分 静态随机访问存储器 i p 网络电话 矢量量化 语音激活检测 符号表 符号表 l p 合成滤波器 输入高通滤波器 长时后滤波器 短时后滤波器 倾斜补偿滤波器 输出高通滤波器 固定码本的预滤波器 加权滤波器 固定码本的贡献 目标信号和 ( n ) 的相关 误差信号 加权与合成滤波器的脉冲响应 残差信号 经过预处理的语音信号 重构的语音信号 开窗后的语音信号 后滤波器的输出信号 经过增益定标的后滤波器输出 x 州 州 晌 删 荆 删 删 娴 荆 删 删 符号表 加权的语音信号 目标信号 第二目标信号 l p 合成滤波器的激励 自适应码本的贡献 卷v ( n ) 。 ( n ) 卷积c 0 ) + ) 自适应码本增益 固定码本增益 短时后滤波器的增益 长时后滤波器的增益 倾斜后滤波器的增益 开环基音延时 l p 系数 反射系数 l s f 归一化频率 l s p 量化器输出 x i 咖 州 荆 州 咐 州 纠 昂 乳 毋 毋 乙 q i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:在g 疚日期:加多年f 月2 f 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:监导师签名生丝: 日期:耐年( 月彤日 第一章引言 1 1 语音编码技术概述 第一章引言 进入2 1 世纪以后,随着通信技术的突飞猛进,已经可以实现在人与人之间, 人与机器之间的高质量、无缝的信息交换。无缝通信是指用户可以方便地综合使 用电话、电视电话会议、可视电话、语音信箱、电子邮件等多媒体手段,既不影 响通信质量,又能随意地把一种通信手段转换成另一种通信手段;高质量是指通 信质量不随用户环境和传输媒介的变化而降低,使用起来方便快捷。由于产生信 息、获取信息的是人,而人是以语音作为主要的通信手段,因此无论何时、何地, 以任何方式通信,语音通信将是最基本、最重要的方式之一【l 】。 1 1 1 语音信号压缩的目的及意义 现代通信系统中,随着用户的激增及对服务质量要求的不断提高,带宽资源 显得十分紧张。因此,如何在尽量减少失真的情况下,高效的对语音信号进行压 缩编码,从而降低数码率、减少占用带宽,显得十分重要。实际上,语音信号中 含有大量的冗余信息,采用各种信源编码技术减小冗余度,并充分利用人耳的听 觉掩蔽效应【,j ,就可以将编码速率压缩很多倍,而仍能恢复出可懂度甚至自然度 很好的语音【j j 。 目前,语音压缩编码技术在可视电话、会议电视、i p 网络电话、数字蜂窝移 动通信、数字卫星系统。综合业务数字网( i s d n ) 、公共交换电话网( p s t n ) 、话 音存储转发系统等领域中有着广泛的应用尤其近几年,随着因特网的发展,i p 电 话的应用越来越广,使语音压缩编码传输的优势更加突出,它不仅可以大大节省 网络带宽,更重要的是便于实现与i p 的融合,带动了目前世界上两大网络一电信 网和计算机网的融合,从而减少通信成本、提高效率。 1 1 2 语音压缩编码技术的发展简史及方向 自从1 9 3 7 年a h r e e v e ,提出脉冲编码调制( p c m ) 以来,语音编码技术已有 7 0 多年的发展历史。6 4 k b i t s 的p c m 标准是电话设备中第一种被采用的技术,至 今仍占统治地位 4 】op c m 编码是一- l e o 波形编码方法,它将语音信号作为一般的波 电子科技大学硕士学位论文 形信号处理,具有适应能力强、方法简单、话音质量好的优点,但数码率较高。 后来发展的增量调制( d m ) 、增量脉冲编码调制( d p c m ) 、自适应差分脉冲编码调 制( a d p c m ) 等也属于波形编码,使数码率降到了3 2 k b i t s 。一般来说,波形编码 在3 2 k 一6 4 k b i t s 之间能够提供优良音质,当低于3 2 k b w s 时,音质显著降低,当低 于1 6 k b i t s 时,音质很差。 由于波形编码速率过高,占用较多的带宽资源。1 9 3 9 年美国h o m e rd u d l e y 发明了声码器,语音信号处理开始了参数编码和混合编码的研究。2 0 世纪6 0 年 代,研究出实用的共振峰声码器,最早把“线形预测( l p c ) ”技术应用到语音的 分析、合成中,后来又出现了相位声码器和同态声码器等。在众多声码器中, l p c i 5 】f 6 声码器最终因其成熟的算法和参数的精确估计成为研究的主流,并逐步走 向实用。8 0 年代,美国制订了两个基于l p c 声码器的标准。声码器与波形编码 不同,它先对语音信号分析,提取参数,再对参数进行编码传输,在解码端根据 接收到的参数合成重构语音,使重构语音昕起来与原始语音相同即可,不必强求 波形上的相同,因此,参数编码能够将数码率降得很低,但音质较差,自然度不 高。 最近几十年来,随着计算机及微电子技术的发展,语音编码技术也获得了飞 速发展。自从1 9 8 5 年提出码激励线性预测( c e l p ) 以来,基于c e l p 的算法成为 主流,各国和地区纷纷制订基于c e l p 的国际性和区域性标准,1 0 年间产生了3 个国示准、2 个地区性标准和2 个国家标准。j 袁种方法属于混合编码,它在保 留参堂模型技术精华的基础上,应用波形编码准则去优化激励信号,使其与输入 语音波形相匹配,同时还利用了矢量量化和感知加权等技术,从而在较低的数码 率上获得了较高的合成语音质量。基于c e l p 的语音编码算法已经成为目前最成 功的主流语音编码算法。 同时,随着第三代移动通信的发展,变速率语音压缩编码技术得到了相应的 发展。为了充分利用c d m a 技术,q u a l c o m m 于1 9 9 3 年提出了可变速率的 c e l p ( q c e l p ) ,己成为北美数字蜂窝通信标准。q c e l p 在理论上仍属于c e l p 。 同时,随着互联网的发展,i p 网络电话( v o i p ) 由于具有价格低廉、能够灵活地提 供各种增值业务、便于与新技术融合从而促进网络技术的发展等独特的应用优势 而得到迅猛发展。v o i p 作为一个重要的技术发展方向己受到业界高度重视,国 际上许多标准化组织积极制订系统标准各国厂商竞相开发相关产品。v o i p 技 术的基础是语音压缩技术,v o i p 的发展促进了语音压缩编解码技术的进一步发 2 第一章引言 展。 随着理论研究的深入和各种算法的成熟,高质量的语音压缩编码技术开始大 规模的走向实用化,各种国际标准的制定集中反映了其发展的水平和趋势。这些 标准的制定均根据应用背景,对编码质量、编码速率、编码延时以及算法的复杂 程度等进行综合权衡和最佳选择而制定的,以期在实际应用中获得最佳的效益。 目前,语音编码的研究主要集中于以c e l p 为核心的线性预测分析合成 ( l p a s ) 编码方面。c e l p 的编码速率较低,但复杂度较高,目前可以在 4 8 k b i t s 1 6 k b i t s 码率上获得较高质量的语音,是当今中低速率语音编码的主流技 术之一。较成功的语音编码方案都基于c e l p 技术,例如g 7 2 8 、g 7 2 9 及g 7 2 3 1 标准等,这些编码方案通过改善质量、降低复杂度、减少编码延迟使c e l p 在实 践中得到广泛应用。随着d s p 技术的发展,c e l p 技术还具有一定的潜力,例如 将g 7 2 9 扩展到6 4 k b i t s ,用于t d m a c d m a 移动无线系统。但当编码速率降至 2 4 k b i t s 以下时,由于c e l p 用于激励源的编码比特数过少,即使应用更高效的 量化技术也无法达到预期的指标,合成语音质量下降较快。为了解决这一问题, 目前比较好的算法还有正弦变换编码( s t c ) ,混合激励线性预测编码( m e l p c ) 、 时频域插值编码( t f i ) 、基音同步激励线性预测编码( p s e l p ) 、多带激励( m b e ) 声码器等。m b e 语音编码方案可以在2 4 k b i t s 4 8 k b i t s 的码率范围内合成具有良 好质量的语音信号,是目前这一码率范围内较理想的编码方案。更低码率的声码 器可做到6 0 0 b i t s ,这点已有报道,并有待更深入研究。 综上所述,当前语音压缩编码技术主要有两个努力方向 7 1 :一个是中低速率 语音编码的实用化,即如何在实用化过程中进一步减低编码速率和提高抗干扰、 抗噪声能力;另一个是如何进一步降低编码速率。目前己能在4 8 k b i t s 1 6 k b i t s 的速率上获得高质量的重建语音,下一个目标则是要在4 k b i t s 的速率上获得更短 延时、更高质量的重建语音,特别是对中长延时编码,正在研究更低速率( 如 4 0 0 b i t s 1 2 0 0 b i t s ) 的编码算法。随着研究的深入,还要求引入新的分析技术,如 非线性预测、多精度时频分析技术( 包括小波变换技术) 、高阶统计分析技术等, 这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性做语音分析 与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率 语音编码的研究上取得突破【8 j 。 电子科技大学硕士学位论文 1 2 语音编码器的性能衡量标准 语音压缩编码研究的基本问题就是在一定编码速率下,如何用较低的复杂度 和较小的延时得到尽量好的重建语音,由此可见,重建语音质量、编码速率、算 法延迟、算法复杂度是衡量编码器性能 9 】的四个主要因素。 1 ) 重建语音质量。重建语音质量是衡量编码算法优劣的关键性能之一,它包 括清晰度( 又称可懂度) 和自然度两个方面,前者是衡量语音中的字、词和句子的 可懂程度,后者则是对讲话人的辨别。其评定方法可分为主观评定和客观评定 f 1 0 1 【1 1 】。主观评定方法是基于统计的手段,由不同的实验者组成评测小组,让他们 根据自己的感觉进行评测,大量评测结果的综合平均得到评分。主观评价方法符 合人类听话时对语音质量的感觉,得到广泛的应用,尤其对编码速率低于1 6 k b i t s 的编解码器。根据评测的侧重点不同,有不同的主观评定标准,国际通常采用的 m o s 得分标准。m o s 得分采用五级评分标准,如表1 - 1 所示,通常得分在4 0 4 5 之间为高质量语音,符合长途通信要求;3 5 为可接受的通信质量,这时会感觉到 语音质量有所下降,但并不妨碍正常的通信,一般的语音编码算法的m o s 分应 该不低于3 0 分。 表1 1m o s 五级评分标准 m o s 判分质量级别失真级别 5 优察觉不到失真 4 良稍微察觉到失真但无不舒服感 3中 察觉到失真并且有不舒服感 2差 有不舒服感但还能忍受 1 劣很不舒服且无法忍受 2 ) 算法复杂度:算法复杂度直接决定了实时实现时对硬件系统要求的高低。 目前,许多语音编码算法都采用通用d s p 芯片来实现,算法的复杂度越高,所需 d s p 芯片的速度越快,存储器容量越大,成本和功耗也越高。算法的复杂度可以 用每秒需要执行的硬件指令数( m i p s ) 度量,相同的硬件平台,该指数越高,算法 越复杂。 3 ) 编码速率:编码速率是语音编码另 b i t s 或b p s ) 来度量,代表了编码的总速率 4 个非常重要的方面般用比特秒( 即 其大小与采样频率和每个样点编码的 第一章引言 位数有关,与重建语音质量相互矛盾,即编码速率越高,语音波形或参数量化就 越精细,语音质量越好,但对传输带宽或存储容量的要求越高,相反,编码速率 越低,对传输带宽或存储容量的要求越低,但语音质量越差。因此,一般在选择 编码器时要对语音质量和编码速率两个重要因素进行折衷处理。 4 ) 算法延迟:算法延迟也是编解码器性能的一个重要因素,一般可分成三种 类型:一是由于编解码过程产生的运算延迟,主要由算法复杂度决定;二是依赖 于硬件速度的处理延迟;其三是通信延迟。这三类延迟的总和称作“单向系统延 迟”,在没有回声的情况下,4 0 0 m s 是可以容忍的最大单向系统延迟,否则就会明 显感到反应“迟钝”。延迟影响语音质量的另一个因素是回声,它会影响到通信质 量中的清晰度,一般应采用回声抵消和抑制措施【”】。 以上四个因素密切联系,相互制约,在实际中应根据不同的应用场合侧重不 同的因素,而其它因素可以适当放宽要求。 1 3 主要的语音压缩编码标准及性能分析 目前主要的语音压缩标准有i t u 的g 系列标准、数字移动通信中的压缩标准、 美国国家安全局( n s a ) 的f s 1 0 1 5 和f s l 0 1 6 标准。表1 2 列出了i t u t 的g 系 列主要语音编码标准。 表1 2 主要语音压缩编码标准及应用 编码标准编码方式编码速率应用领域颁布时间 g 7 1 1p c m6 4 k b i t s公用电话网1 9 7 2 g 7 2 1a d p c m3 2 k b i i s公用网1 9 8 4 g 7 2 8l d c e l p1 6 k b i t s 无线通信 1 9 9 2 g 7 2 3 1 a c e l p m p m l q5 3 6 3 k b i t s低速多媒体通信 1 9 9 5 g 7 2 9c s a c e l p8 k b i t s 无线、卫星通信 1 9 9 6 1 ) g 7 1 1 :g 7 1 1 属于p c m 编码方式,采用非线性量化技术,编码速率为 6 4 k b i t s ,话音质量非常好,在电话网中广为使用,但数码率高,传输时占用较多 带宽。 2 1 ( 3 7 2 1 :为了降低数码率,c c i t t 于1 9 8 6 年提出了g 7 2 1 建议。它采用 电子科技大学硕士学位论文 a d p c m 编码方式,把语音信号和预测值的差值进行量化,在保证了语音质量的 同时把编码速率降低为3 2 k b i t s ,在全球的公共电话网络中被用于提供长话级语 音,与p c m 有相同的再生语音质量,也广泛应用于卫星、海缆以及可变速率编 码器中。 3 ) g 7 2 8 :低的数码率、较短的时延、更高的质量是人们期望的目标,波形编 码的局限性,决定了其数码率不可能降的太低,为了进一步降低数码率,必须选 用参数编码和混合编码技术。c c r l q 分别于1 9 9 2 公布g 7 2 8 标准,编码速率为 1 6 k b i t s ,算法延时小于2 m s ,语音质量可达m o s4 分以上,与g 7 1 1 音质基本相 当,主要应用于可视电话、存储和转发系统、数字移动无线系统、数字插空设各、 语音信息录音、分组化语音等领域,详细内容可见文献 1 3 1 4 1 1 1 5 。 4 ) g 7 2 3 1 - g7 2 3 1 是i t u - t 于1 9 9 5 年推出的面向多媒体通信的低码率语音 编码标准,最初是为可视电话而设计的,有5 3 k b i t s 和6 3 k b i t s 两种传输速率, 能根据信道的情况直接切换,使系统更加灵活。其中,6 3 k b i t s 的码率采用 m p m l q 技术,具有较高的重建语音质量,对于一般的语音信号,其质量相当于 g 7 2 1 ,但对于童声、音乐和具噪声背景的语音输入,其质量不如a d p c m ;5 3 k b i t s 的数码率采用a c e l p 技术,计算复杂度低。 5 ) g 7 2 9 及其附件:i t u t 于1 9 9 6 年公布了基于c s a c e l p 算法的g 7 2 9 标 准,编码速率为8 k b i t s ,语音质量与3 2 k b i t s 的g 7 2 1 相同,可以满足网络通信 的要求,最大算法延迟为1 5 m s 能够广泛应用于个人移动通信、卫星通信分组 语音和数字租用信道等领域。g 7 2 9 有5 个附件( a n n e x ) 。g 7 2 9 a n n e x a 是x ig 7 2 9 标准的简化,具有比g 7 2 9 低的复杂度,在d s p 上实现时占用较少的资源。( 3 7 2 9 a n n e xb 在原标准基础上增加语音激活检测功能,从而对静音压缩达到更低的码 率。g 7 2 9a n n e xc 描述的是具有互操作性的浮点版本。( 3 7 2 9a n n e xd 与g 7 2 9 a n n e xe 标准分别在g 7 2 9 算法的基础上进行扩展,达到所能达到的码率的上下 限,从而推广了g 7 2 9 的应用范围【1 6 】【1 7 】。 1 4 论文的选题与研究内容 1 4 1 选题背景与意义 本论文选择g 7 2 9 a 语音压缩标准鉴于以下原因 第一章引言 g 7 2 9 标准采用共扼结构一代数码激励线性预n ( c s a c e l p ) 技术,其数据传 输速率为8 k b i t s 。g 7 2 9 a 是g 7 2 9 标准减少复杂度的版本,其编解码算法结构与 g 7 2 9 的编解码算法结构一样,其比特流与g 7 2 9 的比特流可互操作,因而g 7 2 9 a 无需转换译码即可方便地代替g 7 2 9 ,应用于g 7 2 9 的全部适用领域。g 7 2 9 a 具 有非常好的性能,其语音质量与3 2 k b i t s 自适应差分脉冲编码调制( a d p c m ) 算法 相当,达到了长话质量要求,在有随机比特误码、发生帧丢失和多次转接等情况 下有很好的稳健性。并且时延较短。g 7 2 9 a 标准具有广泛的应用前景,典型的应 用包括d s v d 、数字卫星系统、可视电话、i p 电话及移动通信等。 同时,g 7 2 9 a 的基本算法c s - a c e l p 是以c e l p 为基础,c e l p 是日前中低 速率语音编码算法的主流,其实时实现是目前语音压缩编码的一个发展方向,是 该领域中一个具有重大意义的研究课题。 最后,g 7 2 9 的所有附件都是以g 7 2 9 为基础,根据不同应用场合的改进版本, 它们的算法原理相同,具体实现细节稍有不同,因此对g 7 2 9 a 实现进行研究, 可以为其它标准的实现奠定基础。 同时本课题也是电子科技大学摩托罗拉单片机研发中心计划项目。 本课题的目的是在m c f 5 2 4 9 上实时实现i t u tg 7 2 9 a 语音编码算法,我主 要对协议进行了全方面的研究和分析,进行代码的汇编级和算法级的优化研究, 并完成了相当部分代码的编写与测试。 1 4 2 论文的主要研究内容 论文的主要研究内容及贡献如下: 1 ) 整理阅读了国内外大量有关语音压缩编码和d s p 技术的文献资料。 2 ) g 7 2 9 的算法比较复杂,本文在i t u t 提供的基本算法原理的基础上,查 阅了大量中外文献,进一步对算法中的一些细节问题如线形预测分析、语音信号 的矢量量化和码激励线形预测编码等语音编码技术做了细致的研究和深入的理 解。 3 ) 对硬件平台m c f 5 2 4 9 ( m i c r o p r o c e s s o r c o l d f i r e ) 的c o l d f i r e v 2 内核的汇 编指令进行了研究,在研究汇编指令的基础上深入的研究如何优化实现g 7 2 9 a 算法,重点研究了c o l d f i r e 汇编代码的优化以及算法级的优化方法,从而在 7 电子科技大学硕士学位论文 m c f 5 2 4 9 上实时实现了i t u tg 7 2 9 a 语音编码算法, 4 ) 通过对g 7 2 9 a 算法流程的详细分析和研究,分别从c 语言级、汇编级和 算法级进行了优化,提出了各级优化的有效方法,尤其是汇编级,优化效果十分 明显。经过优化,能够在嵌入式微处理器m c f 5 2 4 9 上实现了g 7 2 9 a 编解码器, 经过主观上的试听,m o s 得分可在4 0 以上,达到长途音质。 第二章g 7 2 9 标准的分析与研究 第二章g 7 2 9 标准的分析与研究 g 7 2 9 a 是g 7 2 9 语音编码标准减少复杂度的版本,它在g 7 2 9 标准的基础上 进行了一定的简化,它的编解码算法结构与g 7 2 9 的编解码算法结构一样,其比 特流与g 7 2 9 的比特流可以相互操作。因此,本章首先介绍g 7 2 9 编解码器的总 体框架结构,然后对g 7 2 9 的编码器原理和解码器原理进行详细的分析与研究。 2 1g 7 2 9 标准概述 g 7 2 9 语音编码标准采用了共轭结构的代数码激励线性预测( c s a c e l p ) 技 术。c s a c e l p 是基于码激励线性预测( c e l p ) 编码模型,c s a c e l p 编码器的帧 长为1 0 m s ,对应于8 k h z 抽样频率的8 0 个语音样点。对每个帧长为1 0 m s 的语音 信号,先提取出c e l p 模型参数,包括线性预测滤波器系数、自适应和固定码本 索引及增益,然后将这些参数编码并传输。编码参数的比特分配如表2 1 所示。 在解码器端,使用这些参数恢复激励信号和合成滤波器参数。将激励信号通过短 时合成滤波器即可以重建语音,如图2 1 所示。短时合成滤波器是一个l o 阶的线 性预测( l p ) 滤波器。基音合成滤波器用自适应码本的方法来实现。得到重建语音 后,还要用后滤波器作进一步的处理,以改善合成出的语音的质量。 表2 1 编码参数的比特分配 参数码字子帧1子帧2总计帧 l s p 参数 l 0 l 1 ,l 2 ,l 318 自适应码本延迟p 1 ,p 2 851 3 基音延迟 p 0l1 固定码本索引 c 1 ,c 21 31 32 6 固定码本符号 s 1 ,s 2448 码本增益( 1 级)g a l ,g a 2336 码本增益( 2 级)g b l ,g b 2 448 总计 8 0 9 电子科技大学硕士学位论文 参数解码 2 :1 1 编码器 图2 1c e l p 合成模型的原理图 编码器原理如图2 2 所示。输入的语音信号首先进行预处理,预处理包括高 通滤波和信号定标。预处理后的信号将作为后面模块的输入信号。用于计算l p 滤波器系数的l p 分析每1 0 m s 进行一次。这些系数将被转化为线谱对( l s p ) 并用 1 8 b i t s 的预测式二级矢量量化器量化。激励信号通过分析合成搜索过程来选择, 在这一过程中经过感知加权处理的原始语音信号和重建语音信号之间的误差将被 最小化。感知加权处理的具体过程为:用感知加权滤波器对误差信号进行滤波, 感觉加权滤波器的系数来自未量化的l p 滤波器。感知加权滤波器是自适应的, 以使输入信号具有平坦的频响。 每5 m s 为一子帧( 4 0 个样本点) ,以子帧为单位确定激励参数( 固定码本和自 适应码本参数) 。在第一个子帧中需使用插值的l p 滤波器系数( 量毛和未量化的) , 在第二个子帧中需使用量化和未量化的l p 滤波器系数。使用经过感知加权的语 音信号,每1 0 m s 估计一次开环基音时延。然后对每个子帧重复下述操作。将l p 余量信号通过感知加权合成滤波器( z ) 彳( z ) ,计算出目标信号x ( ”) 。通过将l p 余量信号和激励信号之问的误差进行滤波处理的方法可以更新这些滤波器的初始 状态。该方法等效于以下的常规方法:将感知加权的语音信号减去感知加权的合 成滤波器的零输入响应。使用该常规方法时需计算感知加权合成滤波器的脉冲响 应 ( n ) 。为了得到自适应码本时延和增益,还需进行闭环基音分析。闭环基音分 析是围绕开环基音时延进行搜索的,在闭环基音分析过程中需使用目标信号x ( n ) 和脉冲响应h ( n ) ,另外还需使用1 3 分辨率的分数基音时延。基音时延在第一子 帧中用8 b i t s 进行编码,在第二予帧中用5 b i t s 进行编码。在固定码本搜索过程中 需使用新的目标信号一( ”) ,通过将目标信号x ( n ) 减去经过滤波处理的自适应码本 的方法可以得到x ( h ) 。1 7 b i t s 的代数码本被用于固定码本激励。自适应和固定码 l o 第二章g 7 2 9 标准的分析与研究 本的增益都被量化为7 b i t s 的矢量( m a 预测器将被用于固定码本增益分析) 。最后 使用所确定的激励信号更新滤波器存储器。 2 1 2 解码器 图2 2c s a c e l p 编码器原理图 解码器的详细方框图如图2 3 所示。首先从接收到的比特流中提取参数的索 引。将这些索引解码,得到相当于1 0 m s 语音帧对应的编码器参数。这些参数包 括l s p 系数、两个分数基音时延、两个固定码本矢量以及两组自适应码本增益和 固定码本增益。再对l s p 系数进行插值并转换成每子帧的l p 滤波器系数。然后, 对每个5 m s 的子帧进行如下的处理:首先将自适应码本矢量和固定码本矢量乘上 电子科技大学硕:e 学位论文 各自的增益,然后再将两者相加,即可得到激励信号;其次将激励信号通过l p 合成滤波器( 短时滤波器) 即可重建语音信号;最后将重建的语音信号还需进行后 处理,包括自适应后滤波、高通滤波和信号定标操作。 2 1 3 延时 图2 3c s a c e l p 解码器原理图 这个编码器用1 0 m s 帧编码语音和其它音频信号。此外,预留准备有5 m s 得到的总运算延时为1 5 m s 。编解码器在实际实现中的全部附加延时是由于: 1 ) 编码和解码操作所需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论