已阅读5页,还剩51页未读, 继续免费阅读
(通信与信息系统专业论文)基于tms320c6416的g729a音频编解码算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 捅要 语音通信在现代通信中占有重要位置。数字语音通信是目前电信网络中最重 要和最普通的业务,商业界和民众对移动电话和i p 电话持续增长的需要,有力地 证明数字语音通信强大的生命力。随着信息社会和通信技术的高速发展,频率资 源变得愈加宝贵。因此,压缩语音信号的传输带宽和降低电话信道的传输码率越 来越重要。采用语音编码技术可以在保证音质的同时,大大地减少数据传输量, 节省传输所需要的带宽。 采用语音压缩专用芯片的设备在信号处理灵活性、功能扩展等方面受到很大 的限制,很难加入一些新的功能或者算法。而使用d s p 来自主开发实现语音压缩 算法却可以使这一成本大大降低,同时可以方便地实现算法的更新,从而能够在 不更换硬件的情况下实现功能的升级。 本课题是广东省工业攻关项目“基于嵌入式操作系统的网络多媒体服务器” 的语音信号处理部分。主要研究内容是开发一个基于d s p 的数字语音编码系统。 核心算法是i t u t 组织提出的g 7 2 9 建议:共轭结构代数码激励线性预测编码 ( c s a c e l p ) 技术,核心硬件是t i 公司t m s 3 2 0 c 6 4 1 6 高性能定点d s p 。 基于嵌入式操作系统的网络多媒体服务器适用于网络音视频传输、视频会议 等。而其语音编码部分的技术,除了应用于本网络多媒体终端,还将广泛地用于 v o l p 等其它c t i ( 计算机电话集成:c o m p u t e r t e l e p h o n ei n t e g r a t i o n ) 语音通信系 统中,带来良好的经济效益与社会效益。 关键词:语音编码;g 7 2 9 ;d s p ;v o l p 华南理工人学硕士学位论文 a b s t r a c t s p e e c hc o m m u n i c a t i o ni sv e r yi m p o r t a n t i nt h em o d e r nc o m m u n i c a t i o n s d i g i t a l s p e e c hc o m m u n i c a t i o ni s t h em o s ti m p o r t a n ta n dm o s tc o m m o nb u s i n e s s o ft h e p r e s e n tt e l e c o mn e t w o r k d e m a n d so fm o b i l et e l e p h o n ea n di pt e l e p h o n eb yt h e b u s i n e s sc i r c l e sa n dt h ep u b l i ca r ei n c r e a s i n g i tp r o v e ss t r o n gv i t a l i t yo fd i g i t a l s p e e c hc o m m u n i c a t i o n t h ef r e q u e n c yr e s o u r c eb e c o m e sm o r ea n dm o r er a r ew i t ht h e q u i c kd e v e l o p m e n to ft h ei n f o r m a t i o ns o c i e t ya n dt h ec o m m u n i c a t i o nt e c h n o l o g y t h e r e f o r ei t i sm o r ea n dm o r ei m p o r t a n tt oc o m p r e s st r a n s m i s s i o nb a n d w i d t ho f s p e e c hs i g n a la n dr e d u c et r a n s m i s s i o ns p e e do ft e l e p h o n ec h a n n e l s p e e c hc o d i n g t e c h n i q u ei su s e dt or e d u c et h ea m o u n to fd a t an e e d e dt ob et r a n s m i t t e ds ot h a tw ec a n s a v et h eb a n d w i d t hr e q u i r e m e n t ,w h i l eg u a r a n t e e i n gt h eq u a l i t yo fs p e e c h u s i n gs p e c i f i c - p u r p o s ec h i pf o rs p e e c h c o d i n gm a k e st h er e l e v a n te q u i p m e n t e x p e n s i v ea n du n d e r m i n et h ef l e x i b i l i t yo fi t se x t e n s i o nt o n e wa l g o r i t h m sa n d f u n c t i o n s t h u s ,i m p l e m e n t i n gs u c ha na l g o r i t h mu s i n gag e n e r a l p u r p o s ed s pw i l l l o w e rt h ec o s tg r e a t l y ,a n da tt h es a m et i m e ,e x t e n s i o no fn e wa l g o r i t h m sa n d f u n c t i o n sw i l lb e c o m ec o n v e n i e n tw i t h o u tc h a n g i n gt h eh a r d w a r e t h i sr e s e a r c hi st h es p e e c hc o d i n gp a r to ft h eg u a n g d o n gp i v o ti n d u s t r yp r o j e c t : n e t w o r km u l t i m e d i as e r v e rb a s e do ne m b e do p e r a t i o ns y s t e m t h et a r g e ti st o d e v e l o pad s p - b a s e dd i g i t a ls p e e c hc o d i n gs y s t e m t h ec o r ea l g o r i t h mo fs p e e c h c o d i n g b a s eo nt h ei t u tr e c o m m e n d a t i o n g 7 2 9 c s a c e l p ( c o n j u g a t e s t r u c t u r e - a l g e b r a i cc o d ee x c i t e dl i n e a r p r e d i c t i o n ) t h ec o r e o fh a r d w a r ei nt h e s y s t e mi st e x a si n s t r u m e n t si n c | sh i g hp e r f o r m a n c ef i x e dd s pt m s 3 2 0 c 6 4 1 6 t h i sn e t w o r km u l t i m e d i as e r v e rb a s e do ne m b e do p e r a t i o ns y s t e ms u i t a b l ef o r s p e e c ha n dv i d e oo v e ri n t e r n e t ,v i d e oc o n f e r e n c ee t c a n dt h e t e c h n i q u eo ft h e s p e e c hc o d i n gw i l lb ew i d e l yu s e di nv o i pa n do t h e rc t i ( c o m p u t e rt e l e p h o n e i n t e g r a t i o n ) s p e e c hc o m m u n i c a t i o ns y s t e m ,w h i c hw i l ly i e l ds i g n i f i c a n te c o n o m i ca n d s o c i a lv a l u e k e yw o r d :s p e e c hc o d e ;g 7 2 9 ;d s p :v o l p i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:陷、巧翔 日期:乃i 年月,弓日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名: 随酉翔 冯勘 日期:0 r 年6 月,弓日 日期:溯脾g 月,乒日 第一章绪论 1 1 引言 第一章绪论 语音通信在现代通信中占有重要位置。无论何时何地,以任何方式通信,语 音通信都是最基本、最重要的方式之一。数字语音通信是目前电信网络中最重要 和最普通的业务,移动通信和i p 电话的持续增长,有力地证明了数字语音通信的 生命力。随着信息社会和通信技术的高速发展,频率资源变得愈加宝贵。因而人 们不断研究新的方法压缩语音信号的传输带宽或降低电话信道的传输码率。语音 编码是利用语音数据间相关性去除冗余部分,达到压缩语音信号数据量的一种方 法。 1 2 语音编码策略 语音编码目前主要分为三类,即波形编码、参数编码和混合编码。波形编码 力图使重建语音波形保持原语音信号的波形形状,它通常将语音信号作为一般的 波形信号来处理,具有适应能力强、语音质量高等优点,但它所需要的比特率高, 通常能在6 4 1 6 k b s 的速率上给出高的编码质量,当速率进一步降低时,其性能 会迅速降低。 参数编码则通过对语音信号特征参数进行提取和编码,力图使重建语音信号 具有尽可能高的可懂性,即保持原语音的语意,这使重建语音信号的波形同原始 语音信号的波形可能会有相当大的差别,但其码率很低,可低至2 4 一1 2 k b s 。 参数编码的主要问题是合成语音质量差,特别是自然度较低,另外,它对讲话环 境噪声比较敏感,只有在安静的讲话环境下才能给出高的可懂性。 混合编码则克服了波形编码和参数编码的弱点,同时又结合了二者的长处, 在4 1 6 k b s 码率上能得到高质量的合成语音。在混合编码技术中,只需分析一小 部分的波形和提取关键的语音参数,使用提取出的参数对语音样值进行合成,并 将其与原始波形进行比较,然后编码器根据实际样值和合成值之间的差异进行参 数调节。【1 1 1 3 语音编码标准及其应用现状 从上世纪7 0 年代开始,c c i t t ( 现国际电信联盟i t u t ) 组织制定了一系列 成功的语音编码标准,这些标准被广泛应用于电话通信系统、数字电路增容设备 ( d c m e ) 、广播等系统中。表卜1 1 6 1 是该组织建议的一系列波形编码标准。 华南理_ 大学硕士学位论文 表1 - 1i t u 建议的波形编码器的性能 t a b l e l lp e r f o r m a n c e0 fw a v ec o d e ci ni t ur e c o m m e n d a t i o n 编码标准 c c i t tc c i t t c c i t t g 7 1 1g 7 2 1 ,g 7 2 3 ,g 7 2 6 ,g 7 2 7g 7 2 2 公布年代 1 9 7 2 1 9 8 4 ,1 9 8 6 ,1 9 8 8 ,1 9 9 0 1 9 8 8 比特率 6 4 k b s1 6 ,2 4 ,3 2 ,4 0 k b s6 4 ,5 6 ,4 8 k b s 语音质量长途长途广播 运算量m i p s 11 2 5l o 编码器类型压扩p c m a d p c ms b a d p c m 与高、中码率的波形编码相对应的是以各种声码为代表的、基于参数模型方 法的语音编码,期望得到更低的比特率,但实际音质难以达到电话质量。人们在 长期研究中,逐步认识到音质难以提高的原因不在于声道模型,而在于对该模型 激励信号的描述不够精确。基于这种认识,8 0 年代后期出现了合成分析 ( a b s a n a l y s is b y s y n t h e s is ) 线性预测( l p a ) 编码,a b s l p a 在保留参数模 型技术精华的基础上,应用听觉加权技术和波形编码准则去优化激励信号,即在 闭环基础上寻找主观失真最小的激励矢量,从而以低于1 6 k b s 的码率获得较高质 量的合成语音。根据激励信号模型的不同,出现了很多基于a b s l p a 的混合编码 算法。 g s m1 3 k b sr p e l t p 编码器。1 9 8 7 年,欧洲邮电协议会议上,g s m 将这种编 码器作为泛欧数字移动电话的标准。规则脉冲激励一长时预测器( r p e l t p ) 采用 主观加权最小均方误差准则逼近原始语音波形,具有波形编码的特点,具有较好 的自然度,对噪声及多人说话环境不敏感,抗误码性能较好。它采用长时预测、 对数面积比量化等措施,使其在1 3 k b s 速率上得到相当好的合成语音质量。 g 7 2 81 6 k b sl d - c e l p 。g 7 2 8 低延时码激励线性预测( l d c e l p l o wd e l a y c e l p ) 编码是世界上第一个标准化的参数语音c o d e c ,它以c e l p 算法为基础,采 用后向自适应线性预测、5 0 阶合成滤波和短激励矢量( 5 个样值) 等改进方法, 达到低延时的目的,总的编码时延小于2 m s 。它对于背景噪声信号或音乐信号表 现出非常强抗误码能力。g 7 2 8 不能用于主干线的连接,可以用到点对点的终端 设备和电路增容设备中,如数字移动通信、车载卫星通信、可视电话、航天航空 电话、数字电路增容设备( d c m e ) 、分组电路复用设备( p c m e ) 、i s o n 等,这些应 用要求编码器低延时、低码率和高质量。1 2 】 g 7 2 3 1 5 3 6 3 3 k b sa c e l p 。代数码本激励线性预测编码( a c e l p ) 是i t u 多媒体通信标准h 3 2 4 中的语音编码标准。g 7 2 3 1 有两种码率,高码率为 6 3 k b s ,低码率为5 。3 k b s 。高码率采用多脉冲最大似然量化( m p - m l q ) 编码算 第一章绪论 法,低码率以a c e l p 算法为基础。g 7 2 3 1 目前在因特网的语音传输中应用得很 普遍。 g 7 2 98 k b sc s a c e l p 。i t u 在1 9 9 6 年提出g 7 2 9 标准,即8 k b s 共轭结 构一代数码激励线性预测编码( c s a c e l p ) 语音压缩标准。后来还通过g 7 2 9 a 和 g 7 2 9 b 作为g 7 2 9 的附件。c s a c e l p 编码器是基于码激励线性预测( c e l p ) 编码 模型的。编码器对语音帧处理,语音以1 0 m s 对应8 0 个采样点为一帧进行处理, 每帧提取c e l p 模型参数,这些参数被编码并传输。在译码端,这些参数被恢复成 激励和合成滤波器参数,并使激励通过短时合成滤波器来重建语音。g 7 2 9 主要 用于个人移动通信;低信噪比数字卫星系统;高质量移动无线通信、d c m e 、存储 检索、分组语音和数字租用信道等。 1 4 语音编解码系统的实现 实时语音编码系统的实现方法可以分为三类:纯软件实现、软硬件结合实现 和纯硬件实现。 纯软件方式以p c 机为平台,利用m m x ( m u l t i m e d i a - e x t e n s i o n ) 技术提高 执行速度,成本低,可移植性好,这种方式的缺点是数据压缩编码大量占用c p u 处理时间,限制了c p u 处理其他任务的能力。 软硬件结合的方式也就是通用d s p 方式,t i 、a d i 等厂商最近推出的通用 d s p 拥有强大的计算能力,价格低廉,普遍支持高级语言编程,因此被广泛采用 于各种实时数字信号处理系统。在通用d s p 上实现语音编解码系统具有可移植性 好,执行速度快,作为独立的设备不会占用主机c p u 资源的优点,但是正是由于 采用通用芯片,需要确保程序运行的正确性。 纯硬件方式也即采用专用处理器或设计专用芯片,这种方式采用硬件加速。 因此算法集成度高,执行速度大大优于前两种方法,但是专用芯片上的软件扩展 性和可移植性差,不适合于嵌入式应用,系统开发成本较高。 从以上三种实现方案来看,基于通用d s p 的系统具有开发灵活度高、可移植 性好、扩展性强、成本低等优点,另外,在需要处理的话路增加时,只要处理能 力足够强则不需要另外增加硬件,因此适合用于语音编解码系统的实现,本课题 采用这种方法。 在d s p 设计制造领域,美国t i ( t e x a si n s t r u m e n t s ) 公司是业内的领导者。 t i 发布的c 6 4 x x 内核d s p 中t m s 3 2 0 c 6 4 1 6 内核时钟达到5 0 0 m h z 以上,峰值处理 能力达到4 8 0 0 m i p s ,具有类似r i s c 的指令集和v e l o c 汀i 先进v l i w 结构内核等 等,大大简化了开发流程。本课题选择由其构成的实时数字信号处理系统实现语 音编鼹码算法。 华南理工人学硕士学位论文 1 5 研究工作概要和论文安排 本文研究课题来自广东省工业攻关项目( 项目编号:2 0 0 2 a 1 0 3 0 4 0 5 ) 。研究的 主要工作是在t it m s 3 2 0 c 6 4 1 6d s p 上构建q 7 2 9 a 音频编解码系统,并研究如 何在c 6 0 0 0 系列d s p 上优化实现g 7 2 9 a 编解码算法。本文各章内容安排如下: 第一章绪论,介绍本文工作背景和主要工作内容,概述了语音编码技术的基 本原理,包括目前国际上主要的语音压缩编码标准以及实时语音编解码系统的实 现方案。 第二章介绍共轭结构代数码激励线性预测语音编码标准的主要内容。 第三章阐述了t m s 3 2 0 c 6 4 1 6d s p 数字音频信号处理系统的基本结构、工作原 理。 第四章阐述基于c 6 4 1 6d s p 的编解码算法优化。首先介绍c 6 0 0 0 系列d s p 程序开发流程和常用优化方法,然后具体说明了压缩编码中部分模块的具体优化 过程,对优化前后的性能进行了比较分析,得出相应结论。 最后是总结与展望。 第二章共轭结构代数码激励线性预刹语音压缩编码 第二章共轭结构代数码激励线性预测语音压缩编码 本章介绍g 7 2 9 建议的共轭结构代数码激励线性预测语音编码标准3 】【7 】以及 其附加标准o 7 2 9 a b 4j 【5 】。 2 。1i t u - tg 。7 2 9 概述 i t u t 在1 9 9 6 年3 月公布了g t 7 2 9 建议的8 k b s 共轭结构代数码激励线性预 测( c s a c e l p ) 语音编码方案。该方案是对电话带宽的语音信号编码的标准, 编码前对输入的模拟信号通过电话带宽滤波( ( 3 7 1 2 建议标准) 后以8 k h z 采样, 1 6 位线性p c m 量化。解码后的输出也以类似的方式转换为模拟信号。对于其他 输入,如i t u g 7 1 1 建议指定的6 4 k b s 的p c m 信号,则要在编码之前先转换为1 6 位的线性p c m 信号,而在解码后也把1 6 位的线性p c m 信号也转换成相应的格 式。 c s a c e l p 是基于码激励线性预测( c o d e e x c i t e dl i n e a r - p r e d i c t i o i l ) 的编码 模式,编码操作基于语音帧进行,每帧1 0 m s 语音包含8 0 个采样点,对语音信号 分析提取各种参数( 线性预测滤波器系数,自适应码本、固定码本的序号和增益) , 然后把参数编码发送。参数编码的比特分配如表2 1 所示。 表2 - 18 k b sc s a c e l p 算法比特分配( 1 0 m s 帧) t a b l e2 - 1b i ta l l o c a t i o no f t h e8k b sc s a c e l pa l g o r i t h m ( 1 0m sf r a m e ) 参数码字子帧1子帧2每帧统计 线谱对 l 0 , l i l 2 。l 3181 8 自适应码本时延 p i p 2851 3 基音时延奇偶校验 p d l1 固定码本序号c 1 c 2 1 3 1 32 6 固定码本符号 s 1 s 2448 码本增益( 阶段1 )g a j g a 23 3 6 码本增益( 阶段2 ) g b l g b 2448 合计8 0 在解码端,在收到的参数中,根据自适应码矢序号和固定码矢序号在自适应 码本和固定码本中得到自适应码矢和固定码矢,分别乘以它们的增益按点相加后 构成激励序列;由线性预测滤波器系数构成合成滤波器;用自适应码本方法实现 长时或基音合成滤波器;重建语音后用后置滤波器进一步增强音质。 华南理工大学硕士学位论文 2 1 1 编码 图2 1c s a c e l p 编码器编码原理 f i g u r e2 1e n c o d i n gp r i n c i p l eo ft h ec s - a c e l pe n c o d e r 图2 1 给出了编码原理图。语音输入信号先经过高通滤波预处理,每一帧作 一次线性预测分析,计算l p 滤波器系数,这些系数转换为线谱对( l s p l i n e s p e c t r u mp a i r s ) 并用两段共1 8 b i t 矢量量化。根据未量化的l p 系数构成知觉加权 滤波器。采用a b s 方法以原始语音与合成语音的误差知觉加权最小为测度搜索 激励信号。知觉加权的量自适应调整从而保证输入的误差信号的频率响应是平坦 的。 激励参数( 固定和自适应码本) 每一5 m s 子帧( 4 0 个采样点) 确定一次。量 化的与未量化的l p 滤波器系数用于第二子帧,而在第一子帧使用内插的l p 滤波 器系数( 量化的与未量化的) 。根据知觉加权语音信号每1 0 m s 帧估计一次开环基 音时延。下面的操作每个子帧都重复进行。目标信号工例是由通过加权合成滤波 器w ( z ) a “纠滤过的l p 残差计算得到的。由l p 残差和激励之间误差滤波修改这 些滤波器的初始状态,这等效于从加权语音信号中减去加权合成滤波器的零输入 响应。计算加权合成滤波器的脉冲响应血m ,然后用目标x 和脉冲响应i l 例搜 索开环基音延时附近的值作闭环基音分析( 即寻找自适应码本延时和增益) ,分数 6 第二章共轭结构代数码激励线性预测语音压缩编码 基音延时( f r c t i o n a lp i t c hd e l a y ) 分辨率1 3 样点间隔,在第一子帧用8 b i t s 基音时延编码,在第二子帧用5 b i t s ,从目标信号中减去自适应码本的贡献。新的 目标信号x m 用于固定码本搜索寻找最佳激励,1 7 b i t s 的代数码本用于固定码本 编码。自适应码本和固定码本的增益用7 b i t s 组合矢量量化。最后,用确定的激 励信号修改滤波器存储器。 2 1 2 解码 图2 2c s a c e l p 解码器原理 f i g u r e2 - 2p r i n c i p l eo ft h ec s - a c e l pd e c o d e r 图2 2 给出了解码原理图。首先从接收码流中提取参数序号,解码这些序号 得到1 0 m s 语音帧对应的编码参数。参数包括l s p 参数,两个分数基音延时,两 个固定码本矢量与两组自适应和固定码本增益,每子帧l s p 参数被内插并转换为 l p 滤波器参数,然后每5 m s 帧按下面进行: 自适应和固定码本分别乘以各自的增益加起来构成激励; 激励l p 合成滤波器重构语音; 重构语音信号经过后置处理,包括长时后置滤波、短时合成滤波和高通滤 波。 2 1 3 延时 编码器对语音和其他音频信号作1 0 m s 帧编码,同时考虑将来5 m s ,结果总延 时1 5 m s ,实际编码中所有延时包含: 编解码处理所需时间; 在通信链路中的发送时间; 组合音频数据和其他数据时的复合延时。 华南理工大学硕上学位论文 2 2 编码器原理 图2 3 是编码器的信号流图。下面详细说明语音编码的过程。 图2 - 3c s a c e l p 编码器信号流图 t a b l e2 - 3s i g n a lf l o wa tt h ec s a c e l pe n c o d e r 8 ; 第二章共轭结构代数码激励线性预测语音压缩编码 2 2 1 预处理 输入1 6 位线性p c m 语音信号必须首先经过两种处理:输入样点值除以2 , 避免处理中产生溢出;通过一个截止频率为1 4 0 h z 的高通滤波器,消除不必要的 低频分量。两者结合起来用二阶零t 极点滤波器实现: 。,、0 4 6 3 6 3 7 1 8 0 9 2 7 2 4 7 0 5 z 一1 + 0 4 6 3 6 3 7 1 8 z ,、 爿一心】2 i 而面丽i 丽而面石广 2 1 经过滤波后的信号用s 俐表示。 2 2 2 线性预测分析和量化 短时分析和合成滤波都基于l o 阶线性预测滤波器。 l p 合成滤波器定义为: 高2 砭多 2 一( z ) 1 + 摹 这里的a 1 ( f :1 ,1 0 ) 是量化的线性预测系数。用3 0 m s 的非对称窗加权s 似, 求当前1 0 r e s 帧( 8 0 样点) 的自相关系数,用l e v i n s o n 算法求得l p 系数,然后 转化成l s p 系数并进行量化和内插,这样得到内插的量化滤波器系数和内插的未 量化滤波器系数,它们转变回l p 滤波器系数用以构成作用于每5 m s 帧合成和加 权滤波器。 2 2 2 1 加窗和系数计算 窗由两部分组成,前半部是1 2 个汉明窗,后半部是1 4 余弦函数 w 。0 ) = 0 5 4 - 0 4 6 州舞) c o s r 2 u ( n - 2 0 0 ) )、 1 5 9 片= 0 ,1 9 9 ( 2 3 ) 月= 2 0 0 ,2 3 9 秘 二工二 弦猩z 覆圈圈匿翼 口+ r 钺 图2 - 4l p 分析过程中的加窗过程 f i g u r e2 - 4w i n d o w i n gp r o c e d u r ei nl pa n a l y s i s 9 华南理工大学硕士学位论文 窗作用于2 4 0 个样点,其中1 2 0 个来自前1 5 m s ,8 0 个来自当前1 0 r e s 帧,4 0 个来自后5 m s ,加窗的过程如图2 - 4 所示。 加窗后的语音信号为: 一( 胛) = ( 功j ( 雕) i 1 = o ,2 3 9 ( 2 - 4 ) 对应的自相关函数r 为: r ( 1 j ) = 一( n ) s ( 疗一) 为了避免低电平输入信号带来的算术问题, 乘一个6 0 h z 带宽扩展因子: w l , g ( k ) = e x p 阿荆i 丹= 0 ,1 0 ( 2 - 5 ) 设置下界r ( 0 ) = 1 0 。自相关系数 = 1 ,1 0 ( 2 6 ) 这里矗= 6 0 h z 是扩展的带宽,f s = 8 0 0 0 h z 是采样频率。最后对,( 0 ) 乘以白噪声 校正因子1 0 0 0 1 ,想当于加上一个噪声谱地板4 0 d b 。所以最后得到的修正的自 相关系数: ,( 0 ) = 1 0 0 0 1 r ( o ) ,( ) = w t 。g ( k ) r ( k ) 2 2 2 2l e v i n s o n d u r b i n 算法 ( 2 7 ) 修正的自相关系数r 例用以求解线性预测滤波器系数口,( i - 1 ,1 0 ) ,即求解 下述方程: 1 0 口。,i ( i ;- k 1 ) = 一r f ( 七) = 1 ,1 0 ( 2 - 8 ) i = 1 这里使用经典的l e v i n s o n d u r b i n 算法求解。 2 2 2 3l p 系数转换为l s p 系数 为了进行量化和内插,l p 系数口,( f - 1 ,l o ) 需转换为l s p 系数。用l p 系数 按照下列方程构造一个对称多项式和一个反对称多项式,这组差分多项式的根就 定义为l s p 系数: f l ( z ) = 爿( z ) + :a ( z 。) ( 2 - 9 ) f 2 ( z ) = 彳( = ) 一z - u a ( z 。) ( 2 - 1 0 ) 1 0 一( z ) = 1 + 口,z 1 l 可以证明,这些多项式的根在单位圆上,丽且互相交替出现。其中曩( z ) 必定 1 0 第二章共轭结构代数码激励线性预测语音f 矗缩编码 有一个根z = 一1 = 石) ,而e ( z ) 必定有一个根z = 1 = 0 ) 。重新定义一组多项式 排除掉这两个根: e ( :) = f l ( z ) ( 1 + :。1 ) ( 2 - 1 1 ) e ( o ) = f 2 ( z ) ( 1 一= 。) ( 2 - 1 2 ) 每个多项式有5 个共轭复根在单位圆上( e + ”f ) ,它们可以表示为: e ( z ) = n ( 1 - 2 q 。= 。十2 。) ( 2 1 3 ) j = 1 3 一9 f 2 ( z ) = 兀( 1 - 2 q z 。1 + z 2 ) ( 2 - 1 4 ) i = 2 , 4 ,1 0 这里g ,= c o s ( o ) ,) ,脚。是线谱频率( l s f - l i n es p e c t r a lf r e q u e n c i e s ) 且满足 0 吼 出2 出,。 ,一,) ,= f ,。十l - 1 一j ) 2 ,= f ,一+ ,一i + j ) 1 2 e n d e n d 华南理工大学硕士学位论文 这个,为最小距离,调整要进行两次,第一次,= o 0 0 1 2 ,第二次| ,= 0 0 0 0 6 。 调整之后,当前m 帧的量化l s f 系数m ,可以通过当前和过往的量化输出,。和 ,得到: 国如:f 一壹反;v + 壹;。 r :,1 0 ( z 一z ) k = l= 1 这里。是m a 预测器的系数。有两种4 阶的 a 预测器,参数l o 比特确定使 用哪一种。初始化学:柳1 1 七 0 ,计算得到去,后,要检查对应滤波器的稳定 性,步骤如下: 系数的顺序是递增的; i f 国 0 其他 t + :一一1 o ( 2 - 1 9 ) 其他 一街。+ o 9 2 ;, r 一1 0 其他 0 ) i 是m a 预测值;甜,是计算值;是加权系数,是未量化的l s f 系数的函数 具有自适应性。 另外用1 2 乘以加权系数w ,和w 6 。则当前帧m 的量化矢量为: 第二章共轭结构代数码激励线性预测语音压缩编码 f = 音4 ( 一弘卜,j 。 :。, 先在码本l 1 中搜索,得到序号l 1 ,搜索原则是使( 未加权的) 均方误差最 小。接着在码本l 2 中搜索第二级低维部分。用第一级l 1 根据式2 - 1 7 重构 二,( f _ 1 ,5 ) ,并保证它们之间最小距离为0 0 0 1 2 。然后计算加权m s e 式2 - 1 8 , 使其最小的矢量l 2 即为所求。用第一级l 和第二级低维部分工2 ,依据上述方法 再第二级码本种得到高维部分工3 。,( f = l ,1 0 ) 要调整来保证0 0 0 0 6 的最小距离。 两个m a 预测器都要作这个处理,从中选取使加权m s e 最小的作为三0 比特。如 前所述,结果,要作两次调整。量化l s f 系数,要作稳定性检验。 2 2 2 5l s p 系数的内插 量化的( 非量化的) l p 系数用于第二子帧。对于第一予帧,量化的( 非量化 的) l p 系数是用相邻子帧的对应参数线性内插得到的。内插是在余弦域中对l s p 系数进行的。令g :为计算得到的当前l o r e s 帧的l s p 系数,口;9 ”是前一l o r e s 帧的l s p 系数,那么两个子帧的( 非量化) 内插l s p 系数表示为: s u b f r a m e l := o 5 9 ;”+ o 5 9 ;i = 1 ,1 0 ,、 s b f r a m e 2 :扩:g ;一1f - l 1 0 “吒 量化的l s p 系数同样要进行这样的内插。 2 2 2 6l s p 系数转化为l p 系数 当l s p 系数量化和内插完成,就应该转换回l p 系数a ,。量化的和未量化的 l s p 系数转化量化的和未量化的l p 系数。 2 2 3 知觉加权 感觉加权滤波器实际上是利用人耳听觉的“掩蔽效应”对噪声频谱进行整形, 使共振峰处的噪声能量较大,其他处噪声的能量较小,从而使激励信号的选择适 应于人耳的昕觉。 知觉加权滤波器是基于未被量化的l p 系数a 。 一而a ( z y , ) = 惫筹 沼z z , 华南理工大学硕士学位论文 其中一和,:确定滤波器的频率响应。根据输入信号的频谱包络适当调整这些 值可以使加权更有效。每1 0 m s 帧作一次调整,而每个第一子帧的内插被用于平 滑这个过程。频谱包络由一个二阶线性预测器得到,利用l e v i n s o n d u r b i n 求解过 程中的反射系数k 。,将其转换为对数面积比( l a r ) 系数0 ,: 纠。g 渊 ( 2 2 3 ) l a r 系数用于第二子帧,而第一予帧通过线性内插得到: 蹦狮附1 。紫0 竺了叫+ 0 。5 彰h ,2 ( 2 - 2 4 ) s u b f r a m e 2 :o = d y “”i = 1 , 2 频谱包络表征为平( f l a t = 1 ) 或斜( f l a t = 0 ) ,由门限函数确定,为了避免突变, 取前一子帧的表征值计入滞后: f l a t = 0 fd :椰 0 6 5a n d 伽t 枷- 1 1 = 1 1 f o f m 一1 5 2 a n dd :州 0 4 3a n d 伽t ”= 0 ( 2 - 2 5 ) f l a t ”1 其他 如果子帧内插频谱为“平”,那么 = o 9 4 ,y := 0 6 ;“斜”则托= 0 9 8 ,y :的 值自适应于l p 合成滤波器的谐振强度,在0 4 到0 7 之间。如果出现强谐振,则 取值接近上界,根据当前子帧连续两个l s p 系数间的最小距离准则 ( d 。= r a i n c o ,“+ ,】i = 1 ,9 ) 确定: ,2 = - 0 6 d 咖。+ 1 0 0 4 ,2 0 7 ( 2 - 2 6 ) 加权的语音信号用来估计语音帧中的基音延时: l o1 0 州珂) = s ( 门) + q ? s ( n - i ) - q r ;s w ( n f ) h = o 。,3 9 ( 2 2 7 ) 2 2 4 开环基音分析 为了减少最佳自适应码本延时的搜索的复杂度,由开环基音分析得到乙,搜 索范围限制在延时乙附近。每l o m s 帧作一次,开环基音估计用加权语音信号 s w ( 摊) 。先在 8 0 ,1 4 3 、 4 0 ,7 9 、 2 0 ,3 9 三个区间内找三个最大的自相关系数: 7 9 眦) = 州啪“片一七) ( 2 - 2 8 ) n = 0 结果r ( t 。) ,江l ,3 进行归一化: r ( 。) 2 覆雨r ( t i ) 霸乩,3 协z 。, 第二章共轭结构代数码激励线性预测语音压缩编码 在较低的范围内的短延时作为三个归一化自相关的选中者,这样加权归一化 自相关对应较长的延时。下面的算法确定最好的开环延时l : 乙= f l 足( 乙) = r ( ,i ) 矿r 0 2 ) o 8 5 r ( 乙) f ( 乙) = r ( f 2 ) t 。= t 2 e n d 矿掣( t 3 ) 0 8 5 r ( 乙) 胄( 乙) = r ( ,3 ) t 。= t 3 e n d 这个过程将延时范围分为三部分,有利于选较小的值,避免了基音的倍频。 2 2 5 脉冲相应的计算 加权合成滤波器矽( 曲,五( 力的冲击相应 ( 吣用于自适应码本和固定码本的搜 索。每一子帧计算一次。脉冲信号经过滤波器a ( z y ) 后,再相继经过1 a ( z ) 和 1 a ( z 协:) 就得到 ( n ) 。 2 2 6 目标信号的计算 自适应码本搜索用的目标信号x ( n ) 是从2 2 7 式的加权语音信号s w ( n ) 中减去 加权合成滤波器形( z ) 五( z ) :爿o ) 西o ) a ( z y :) 】的零输入响应,每一子帧进行一 次。实际做法是进行了一个等价过程:用l p 滤波器的残差r ( 以) 通过合成滤波器 l j ( z ) 和加权滤波器的组合,然后决定予帧的激励。这些滤波器的初始状态由滤 波残差和激励信号的差来调整。这些滤波器的存储器的调整将在后面说明。残差 信号r ( n ) 由下式给出: 1 0 ,( h ) = s ( 打) 一口s ( n - i ) 肛= o ,3 9 ( 2 - 3 0 ) 华南理工大学硕士学位论文 2 2 7 自适应码本搜索 自适应码本( 基音) 参数是延时和增益,每5 m s 子帧搜索一次。在搜索阶段, l p 残差扩展了激励信号,使闭环搜索简单化。在第一子帧,基音延时正在 1 9 ;,8 4 争 范围分辨率是1 3 ,在 8 5 ,1 4 3 范围内是整数。在第二子帧,延时l 在 i n t 幔) 一5 2 3 ,i n t ( t 。) + 4 争范围内,1 3 分辨率。 用闭环分析最小化加权均方误差来决定每一子帧的最佳延时。第一子帧在开 环延时乙附近小范围( 6 个样点) 的延时值中搜索正,由一下方法确定搜索的上 下界: o = 乙一3 矿f l n i l i 1 4 3 t h e n ,。= 1 4 3 f 。= ,。一6 e n d 对于第二子帧,是在互附近去找最佳的延时瓦,搜索边界为r 。一昙和f 。+ 昙, 这里f 。和f 。由五经如下步骤导出: f m m = i n t ( t 1 ) 一5 i f ,。 1 4 3 t h e n f 。= 1 4 3 t m l a2 一6 闭环基音搜索的准则是使原始语音和重构语音之间均方加权误差最小,即在 确定的搜索上下晃内找到使下式取值最大的延时: 雅1 :娶型丝! ( 2 - 3 1 ) 只( 七) = 等兰些 () :0 儿( 咖i - “, r t 、i 厶n ,k v j ,k x ( n ) 是目标信号,y ;( 门) 是延时k 的过去滤波激励( 过去的激励
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 诉讼上抵销的理论剖析与实践探究:以司法案例为视角
- 2026年安徽中安财产保险股份有限公司(筹) 公开招聘4人笔试模拟试题及答案详解
- 2026年安庆市潜山市天柱山人才服务有限公司公开招聘劳务派遣人员2名考试模拟试题及答案详解
- 2026华东师范大学附属浦东临港小学招聘考试模拟试题及答案详解
- 2026浙江温州医科大学附属眼视光医院(浙江省眼科医院)招聘2人第三批考试参考题库及答案详解
- 浙教版四年级上册信息科技第三单元身边的编码全课教学设计
- 2026年安徽交控徽风皖韵酒店管理集团有限公司所属汤口酒店相关岗位公开招聘考试参考题库及答案详解
- 2026年绵阳市中考地理试卷
- 2026浙江温州坚强新能源发展有限公司招聘1人笔试模拟试题及答案详解
- 2027中科宇航暑期实习生招聘考试模拟试题及答案详解
- 区块链技术与原理智慧树知到期末考试答案章节答案2024年山东劳动职业技术学院
- “上头”电子烟 是毒不是烟-禁毒宣传教育主题班会课件
- 油水井措施运行工作规范
- 加药装置操作说明
- “星火计划”人才培养项目
- 保险规划综合案例分析-
- 卫生部手术分级目录(2023年1月份修订)
- GB/T 3836.4-2021爆炸性环境第4部分:由本质安全型“i”保护的设备
- GB/T 308.1-2013滚动轴承球第1部分:钢球
- GA/T 1740.1-2020旅游景区安全防范要求第1部分:山岳型
- 内科学-血液系统疾病总论
评论
0/150
提交评论