(电路与系统专业论文)基于DM642的AMRWB算法优化与实现[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于DM642的AMRWB算法优化与实现[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于DM642的AMRWB算法优化与实现[电路与系统专业优秀论文].pdf_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于d m 6 4 2 的a m r w b 算法优化j 实现 摘要 随着第三代移动通信技术的发展,为了满足人们对高质量语音业务的要求, 弥补现有窄带语音编码的不足,由3 g p p e t s i 在2 0 0 1 年提出了一种宽带自适应多 速率语音编解码标准( a m r w b ) 。a m r w b 具有九种不同速率的编解码模式,其平均 编码速率低,自适应性好。其频带范围扩展到5 0 7 0 0 0 h z ,信号采样频率为1 6 k h z , 提高了语音的主观感觉质量。a m r w b 也是第一个同时应用于无线和有线网络业务 的语音编码标准。 a m r w b 采用代数码本激励模型,其计算复杂度高。对于由3 g p p 提供的标准 协议代码运行耗时较多,在实际应用过程中,需根据具体平台做相应的优化处理。 本文研究了a m r w b 算法的原理,对各个模块进行了分析;通过对d m 6 4 2 硬件资源 的研究,介绍了实现a m r w b 算法的硬件平台的构建方案;研究了对a m r w b 算法 进行优化和实现的方法。优化工作包括对基本算子的内联函数宏定义,对于重点模 块中计算最耗时的部分,进行线性汇编实现与优化处理;通过开辟堆栈空间实现 数据对齐方式,充分利用d s p 的数据打包处理技术和软件流水技术;研究了基于 编译器的c 优化与汇编优化的各种方法,以及它在a m r w b 算法中的具体应用;研 究了基于c 语言和线性汇编的混合编程的接口标准,分析a m r w b 编解码软件调试 和测试的过程,并给出了该算法在d m 6 4 2 硬件平台上实时实现的方法。 对a m r w b 算法优化前后的结果进行测试和分析表明,经过优化处理后的算 法在计算时间和储存空间两方面都得到了很大的改善,且测试输出的语音质量与 给出标准测试结果的语音质量一致。 关键词:变速率语音编码;a m r w b ;线性汇编;算法优化 硕七学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to f3g ( t h et h i r dg e n e r a t i o nm o b i l ec o m m u n i c a t i o n ) ,t o s a t i s f yt h er e q u i r e m e n t sf o rv o i c es e r v i c eo fh i g hq u a l i t ya n dm a k eu pf o rt h ed e f e c t s o fc u r r e n tn a r r o w b a n d sv o i c ec o d i n g ,3 g p p e t s ip u tf o r w a r daa m r - w bi n2 0 01 , w h i c hh a s9c o d e cp a t t e m si nd i f f e r e n tf a t e sw i t hl o wa v e r a g er a t eo fc o d i n ga n d g o o da d a p t a b i l i t y t h ep h o n o s e n s i t i v eq u a l i t yi si m p r o v e dw i t hi t sf r e q u e n c yb a n d r a n g ee x p a n d i n gt o5 0 7 0 0 0 h za n dt h ef r e q u e n c yo fs a m p l e ds i g n a lb e i n gl6 k h z i n t h em e a n t i m e ,a m r w bi st h ef l r s ta u d i oc o d i n gs t a n d a r dw h i c ha p p l i e st ob o t h w i r e da n dw i r e l e s sn e t w o r k s a d o p t i n gt h ea c e l pm o d e l ,a m r - w bi so fh i g hc o m p u t a t i o n a lc o m p l e x i t y t h e o p e r a t i o no ft h ec o d e so fs t a n d a r dp r o t o c o lp r o v i d e db y3 g p pi sq u i t et i m e - c o n s u m i n g , t h e r e f o r e ,t h ec o r r e s p o n d i n go p t i m i z a t i o np r o c e s s i n gn e e dt ob ed o n ea c c o r d i n gt o s p e c i 6 cp l a t f o r mw h i l ei np r a c t i c e i nt h i sp a p e r ,t h ep r i n c i p eo fa m r w ba l g o r i t h m i ss t u d i e da n de a c hm o d u l ei s a n a l y s e d ;an e wh a r d w a r ep l a t f o r m,r e a l i z e t h e a m r w ba l g o r i t h m ,i si n t r o d u c e dt h r o u g hs t u d y i n gt h eh a r d w a r er e s o u r c e so ft h e d m 6 4 2 t h ew a y si nt e r m so fo p t i m i z a t i o na n dr e a l i z a t i o no fa m r w ba l g o r i t h mi s a l s os t u d i e d t h eo p t i m i z a t i o np r o c e s s i n gi n c l u d e s :t h em a c r od e f i n i t i o no fi n l i n e f u n c t i o no ft h eb a s i c o p e r a t o r s ; t h er e a l i z a t i o na n do p t i m i z a t i o nf o r t h em o s t t i m e - c o n s u m i n gp a n so fk e ym o d u l e si nl i n e a ra s s e m b l yw a y d a t aa l i g n m e n tc o u l d b er e a c h e db yo p e n i n gu ps t a c ks p a c et om a k ef u l lu s eo fp a c k e tb u n d l i n ga n d s o f t w a r ep i p e l i n i n go fd sp t h i sp a p e rr e s e a r c h e st h es p e c i f i ca p p l i c a t i o no fe a c h m e t h o dt h a to p t i m i z e scl a n g u a g ea n da s s e m b l yi na m r - w ba l g o r i t h mb a s e do n c o m p i l e r t h ep a p e ra l s os t u d i e st h ei n t e r f a c es t a n d a r do fm i x e dp r o g r a m m i n gb a s e d o ncl a n g u a g ea n dl i n e a ra s s e m b l y ;a n a l y z e st h ep r o c e s so fd e b u g g i n ga n dt e s to f a m r w b sc o d e cs o f t w a r e ,a n d6 n d st h ew a y st h a te n a b l et h ea l g o r i t h mt o i m p l e m e n ti nr e a l t i m eo nt h ed m 6 4 2 sh a r d w a r ep l a t f o r m t h et e s ta n da n a l y s i so ft h er e s u l t sb e f o r ea n da f t e r t h eo p t i m i z a t i o no fa m r w b a l g o r i t h ms h o w :a f t e rt h eo p t i m i z a t i o n ,t h ea l g o r i t h mh a sb e e ng r e a t l yi m p r o v e di n t e m so fc o m p u t i n gt i m ea n ds t o r a g ea r e a ,a n dt h ev o i c eq u a l i t yi no u t p u tt e s t i n gi s c o n s i s t e n tw i t ht h eo n ei ns t a n d a r dt e s t i n g k e yw o r d s : v a r i b l er a t es p e e c hc o d e ;a m r w b ;l i n e a ra s s e m b l y ; a l g o r i t h mo p t i m i z a t i o n i i i 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得 的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承 担。 作者签名: 认云m 日期:卅年夕月 西日 j 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密瓯 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 歹月 r 其 讼- 日 诌旧 硕士学位论文 1 1 论文选题背景及意义 第1 章绪论 语音通信是人类通信最基本、最重要的方式之一。随着移动通信和互联网的 飞速发展,语音通信技术也在不断地进行更新并与之相融合。而语音编码作为数 字语音通信中的一项重要技术,也得到了飞速的发展。尤其是第三代移动通信的 发展,对语音编码算法提出了更高的要求,不但要求编码率低以增加系统容量, 而且要求合成音质较高以保证通话质量。而传统编码形式难于满足这两个要求, 随着语音激活检测技术的出现和发展,使对有无语音进行判断成为了可能,从而 可以对背景噪声和激活的语音部分以不同的速率进行编码,降低平均速率,人们 便提出了变速率语音压缩编码。由于其有定速率编码无法具备的优点,同时随着 移动通信市场的竞争异常激烈,变速率语音编码的研究也成为了研究热点。随着 技术的成熟,它的应用领域也会越来越广阔。 a m r w b ( 自适应多速率宽带语音编码标准) 是2 0 0 0 年1 2 月由国际电信联 盟公布的编码器的标准。它已被3 g p p 选定为g s m 和3 g 无线w - c d m a 的宽带 编码器,并将应用于i p 电话、第三代移动通信、i s d n 宽带电话、i s d n 可视电 话和电视会议的等领域。它同时也是有线和无线业务第一次采用同样的编码器。 a m r w b 编码是当前为数不多的变速率编码标准中的几种之一。a m r w b 的信 号带宽是5 0 h z 7 0 0 0 h z ,采样率为1 6 k h z ,相对于传统的2 0 0 h z 3 4 0 0 h z 带 宽,拓宽了的5 0 h z 2 0 0 h z 部分增强了语音的自然度和舒适度【卜3 1 ,高频带部分 扩充了3 4 0 0 h z 7 0 0 0 h z ,它增强了摩擦音的区分度,从而提高了语音的可理解 性,增强了通话的临场感,也能更容易识别说话人。因而不论从理论还是从实际 上,a m r w b 都是十分有应用前景的语音遍解码。 a m r w b 支持6 6 k b s 、8 8 5 k b s 、1 2 6 5 k b s 、1 4 2 5 k b s 、1 5 8 5 k b s 、1 8 2 5 k b s 、 1 9 8 5 k b s 、2 3 0 5 k b s 和2 3 8 5 k b s 九种速率,其比a m r n b ( 自适应多速率窄带 语音编码) ,e v r c ( 增强性变速率语音编码) ,13 k b s q c e l p ( 码激励线性预测编 码模式的编码) ,8 k b s q c e l p 等变速率编码标准的速率高,但它提供了更为灵活 的多种速率。 对于a m r w b 编码的研究,目前主要是基于具体的平台对由3 g p p 组织提供 的一套a m r w b 标准的a n s i c 代码的优化。虽然定点c 代码本身可以执行, 但是代码的执行效率太低,由于算法的复杂度太高,所以在产品化时,成本太高 或是无法实时实现,因此对于一些具体的移动终端,无法直接的应用。而且对其 基于d m 6 4 2 的a m r w b 算法优化勺实现 研究的技术资料也不是很多,针对具体的平台,其代码有不同程度的优化空间。 1 2 语音压缩编码发展现状 语音压缩编码是语音数字处理最重要的一种应用。语音压缩编码的目的是用 尽可能低的比特率来获取尽可能高的合成与音质量。语音编码技术从定速率向变 速率,从高比特率向低比特率发展。 语音编码按编码方式大致可以分为三种:波形编码、参数编码和混合编码。 波形编码是将时间域或频率域( 变换域) 信号直接变换为数字信号,针对语 音波形进行编码,力图使输入语音波形不变,即恢复的语音语音信号基本上与输 入语音波形形同,保持了较好的语音质里,波形编码具有语音质量好、抗噪性能 强等优点。主要有脉冲编码调制( p c m ) 、增量调制( d m ) 、自适应脉冲编码调制 ( a d p c m ) 和自适应预测编码( a p c ) 等。其缺点是所需的编码速率高,当速率降低 时语音重建质量就会急剧下降,一般在1 6 k b i t s 6 4 k b i t s 之间l 引。 参数编码又称声码器编码,它是将信源信号在频域或其它变换域提取特征参 数,然后对这些特征参数进行编码和传输;在译码端再将接收到的数字信号译成 特征参数,根据这些特征参数重建语音信号。在背景嗓声较小的情况下合成语音 听起来与原始语音相似。其特点是码率低,但语音质量不高。声源激励包括周期 脉冲和白噪声,分别对应于浊音和清音。在模型建立的分析过程中一般认为语音 的参数变化很慢,在1o 2 0m s 的间隔内是不变的,即语音信号具有短时平稳性。 在参量编码器中,最具有影响的应该是基于线性项测的声码器( 速率为2 4k b i t s 的l p c 1 0 e ) ,但是,由于它的语音质量不好目前已经被新的编码器所替代。在 这些编码算法中,使用合成一分析法是非常成功的一种,它更客观的模拟了激励 源的特性,从而使重构语音的质量具有本质性的提高。这样的编码器有:多脉冲 激励线性预测编码器( m p e l p c ) 及规则脉冲激励线性预测编码器( r p e l p c ) , 码激励线性预测( c e l p ) 编码器,矢量和激励线性预测( v s e l p ) 编码器,多带激励 线性预测编码器( m b e l p c ) 。最新的参量编码器有正弦变换编码器,波形内插编 码器等。参数编码的优点是可实现低速率语音编码,其编码速率可低至2 4 k b i t s 以下。其缺点是语音质量差,自然度较低1 5 j 。 混合编码将波形编码和参数编码结合起来,即利用率语音产生模型,通过对 模型中的参数进行编码,减少波形编码中被编码对象的动态范围或数目;又使编 码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提 高合成语音质量。可在4 k b i t p 6 k b i t s 速率上能够得到高质量的合成语音。应用 波形编码准则去优化激励信号,最具代表的是分析一合成( a b s ,a n a l y s i s b y s y n t h e s i s ) 编码器。a b s 编码器利用线性预测编码( l p c ) 模型,目标是寻 找激励信号,使用该信号激励产生的波形尽可能接近于原始话音的波形,典型的 硕上学位论文 a b s 编码器有多脉冲激励( m p e ,m u l t i p u l s e ,e x c i t e d ) 、等间隔脉冲激励( r p e ,r e g u l a 卜p u l s ee x c i t e d ) 和码激励线性预测( c e l p c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 编码 器等。a b s 编码器把输入语音分帧,计算合成滤波器的参数,然后确定激励参数。 m p e 、r p e 和c e l p 编码器之间的差别在于所使用的激励信号,m p e 使用固定数 目的脉冲作为每帧话音的激励信号,脉冲的位置和幅度由计算得得到;r p e 使用 固定间隔的脉冲,脉冲数目比m p e 多,c e l p 使用的激励信号是矢量信号,用码 本索引和增益表示【6 】。 语音编码器的发展从最初的6 4 k b i t s 的标准p c m 波形编码器到现在4 k b i t s 以下的参数编码的声码器,从最初的单一编码速率到现在自适应多码率,话带语 音编码在最近几十年得到了迅速的发展。语音编码按其发展年代大致可以分为三 个阶: 第一个阶段( 19 3 5 年至1 9 8 5 年) ,各国学者从人类发音机理和听觉机理出发, 对语音的声码器做了大量研究。于19 3 9 年成功了第一个声码器,奠定了语音产生 模型的基础,语音处理取代波形编码进入参数编码( 或模型编码) 的研究。共振 峰声码器的研究成功,使“线性预测编码( l p c :l i n e a rp r e d i c t i v ec o d i n g ) 技 术成功应用到语音分析和合成,并提出了自相关法、协方差法、格型法等实用快 速算法。接下来相继研制出了以瞬时频率为基础的相位声码器、以倒谱为基础的 同态声码器及2 4 k b i t s 的l p c 1 0 声码器标准( f s 1 0 1 5 ) ;在众多声码器中,l p c 声码器终因其成熟的算法和参数的精确估计成为研究的主流,并逐步得到实用, 参数编码在这个阶段获得了较大的发展。 第二个阶段是从2 0 世纪8 0 年代中期到9 0 年代中期。这阶段是语音发展的快 速时期,闭环分析算法的研究最为突出。最早使用闭环分析算法思想研究出实用 的方案,是1 9 8 5 年由b s a t a l 和m r s c h r o e d e r 提出的码激励线性预测( c e l p : c o d e e x c i t e dl i n e a rp r e d i c t i o n ) 算法。基于c e l p 算法提出的语音编码标准有 4 8 k b i t 的c e l p 联邦标准f s 一1 0 1 6 、g 7 2 8 、q 7 2 9 和q 7 2 9 a 等语音编码标准, 并采用了低时延码激励线性预测( l d c e l p ) 共轭结构代数码激励线性预测 ( c s a c e l p ) 等技术。同时也研制了适合于因特网的双速率( 5 3 6 3 k b i t s ) 多 媒体语音编码标准g 7 2 3 ,其中5 3 k b i t s 采用代数码激励线性预测( a c e l p ) 技 术,6 3 k b i t s 采用多脉冲最大似然度量化( m p m l q ) 技术【7 。在v o i p ( v o i c eo v e r i n t e r n e tp r o t o c 0 1 ) 技术的发展中,主要采用了g 7 2 9 、g 7 2 9 a 、g 7 2 3 等语音编码 标准。e t s l 分别在1 9 8 9 年、1 9 9 5 年和1 9 9 9 年公布了1 3 k b i t s 的脉冲激励一长时 预测( r p e l t p ) 语音编码方案( 全速率语音编码f r ) 、6 5 k b i t s 的矢量和激励 线性预测编码( v s e l p ) 方案( 半速率语音编码h r ) 和1 2 2 k b i t s 的a c e l p 方 案( 增强型全速率语音编码e f r ) 。t i a 在l9 9 1 年公布了i s 一5 4 ( 7 9 5 k b i t s 的v s e l p 技术) 标准,j d c 在1 9 9 2 年公布了j d c ( 6 7 k b i t 的v s e l p 技术) 标准。 基于d m 6 4 2 的a m r w b 算法优化j 实现 第三阶段是2 0 世纪9 0 年代中期到现在。主要研究在第三代移动通信技术使 用的编码技术,集中开发宽带语音编码标准的研制。其中变速率语音编码技术发 展较快,不断有新的国际标准和地区标准公布。开发出来并可用应用于第三代移 动通信的变速率语音编码主要有:可变速码激励线性预测( q c e l p ) 、增强型变 速率编解码器( e v r c ) 、自适应多码率( a m r ) 、宽带自适应多码率( a m r w b : a d a p t i v em u l t i r a t ew i d e b a n d ) 、可选模式声码器( s m v ) 和变速率多模式宽带 ( v m r w b ) 等。在3 g 三大标准中,中国提出的时分一码分多址( t d s c d m a ) 采用了a m r 语音编码技术;美国提出的c d m a 2 0 0 0 标准随着无线技术和编码技 术的发展,先后采用了q c e l p 、e v r c 和v m r w b 等声码器作为其语音编码方 案;欧洲提出的宽带码分多址( w c d m a ) 标准采用先后采用了a m r 、a m r w b 语音编码技术,s m v 作为其备选语音编码方案1 8 】。 1 3 变速率语音编码的发展趋势 语音编码算法大部分是针对电话颇带的语音信号,带宽限定为3 0 0 3 4 0 0 h z 。 将语音带宽限制在电话频带范围,虽然不会严重降低语音的主观质量【9 】,但是在 许多应用中,如语音广播、电话会议、多媒体通信及高清电视等,需要更高质量 的语音,即所谓“面对面交谈”的语音通信质量。如果将语音信号的频带扩展到 5 0 7 0 0 0 h z ,每个样点用1 6 b i t 量化,称为宽带语音,比窄带语音有更好韵主观质 量,5 0 2 0 0 h z 的低频段使语音更自然,3 4 0 0 7 0 0 0 h z 的高频段使语音的可懂度有 很大提高。宽带语音主要采用变速率语音编码,变速率语音编码可提高频带的有 效利用程度,是数字蜂窝和微蜂窝网的必然发展趋势。 由于语音信号本身存在大量的冗余度,如信息冗余、时间冗余、谱间冗余等。 在通信系统中总的容量一定的条件下,为了取得很好的语音质量,采用变速率语 音编码是首选。e t s i 3 g p p 公布的自适应多速率宽带( a m r w b ) 语音编码标准【1 0 】, 被选定为g s m 和3 g 无线w c d m a 的宽带语音编码器,并且该方案被i t u t 通 过作为新的标准g 7 2 2 2 是第一个同时应用于无线和有线网络业务的语音编码标 准。g 7 2 2 2 a m r w b 支持从6 6 2 3 8 5k b i t s 共9 种码率,可以根据网络情况动 态调整输出码率保持音质。但该变速率编码仍有改进的余地。 对变速率语音编码的自适应性技术的研究是它的主要发展方向。主要通过对 变速率判决算法改进来提高编码效率。利用更为精确的语音检测技术,把它融入 速率判决算法中,使判决更符合语音信号的特性,从而可以进一步降低编码速率 或者提高合成语音质量。低速率语音编码的研究,也给变速率语音编码提供的发 展的空间。若能使低速率与变速率技术在某种程度上结合,达到获得更低的平均 编码速率。或者把低速率中某种关键技术直接应用于变速率编码技术中。对通信 系统本身的特点做更深一步的研究,也是使变速率语音编码技术得到改善,能使 硕l 学位论文 它根据具体的系统特性,对算法中不足之处加以改进,增强顽健性。 1 4 本文研究的内容及章节安排 本文主要研究内容是对a m r w b 算法标准协议和标准c 源代码充分研究的 基础上,提出基于定点d m 6 4 2 硬件平台的代码优化策略和实现方法。本文的内 容组织结构安排如下: 第1 章介绍了选题的背景和意义,同时也简要介绍了语音编码技术发展的现 状,也讨论了变速语音发展的趋势。 第2 章主要研究了a m r w b 算法的编解码标准过程,对各模块的进行了分 析。本章为后面章节的理论基础。 第3 章介绍了d m 6 4 2 硬件平台,在这基础上提出了构建a m r w b 实现的语音 处理硬件系统平台方案,介绍了软件平台。同时也对a m r w b 算法程序的正确 性进行了软件仿真测试。 第4 章为本文的核心部分,主要研究了对a m r w b 的c 源程序优化的各种 方法与策略,并介绍了c 6 0 0 0 特有的线性汇编在优化中的使用方法。对于硬件平 台的具体实现过程也做了具体的分析。 第5 章是优化后的代码测试的结果分析。 最后为全文的总结和今后工作的展望。 基于d m 6 4 2 的a m r w b 算法优化与实现 第2 章a m r w b 语音编码标准分析 a m r w b 语音编码标准主要包括编码器和解码器两个部分,采用了比较先进 的语音激活检测技术,速率判决的自适应技术,丢帧失帧错误隐藏机制技术及舒 适背景噪声生成技术。语音激活技术主要用于有声和无声判断【1 1 1 ,其正确高低直 接影响速率的判决。速率判决的自适应技术主要是根据信道质量指标和有无语音 进行速率的切换l l 引。丢帧失帧错误隐藏机制用于避免或减少传输错误和包丢失对 语音的影响【l3 1 ,而舒适背景噪声生成技术主要为了避免无语音传输时,产生不舒 服的背景噪音【l 引。a m r w b 语音编码包括9 种速率编码模式组成,其分别为: 6 6 ,8 8 5 ,1 2 6 5 ,1 4 2 5 ,1 5 8 5 ,1 8 2 5 ,1 9 8 5 ,2 3 0 5 和2 3 8 5 k b i t s 。其中1 2 6 5 k b i t s 及以上码率模式都能够提供高质量的宽带语音,而两个低码率模式6 6k b i t s 和8 8 5 k b i t s 主要用在恶劣的无线信道环境或网络堵塞的场合a m r w b 语音编码 还提供了一个低码率背景噪声模式,其编码速率为1 7 5 k b i t s ,主要用在g s m 非 连续传输( d t x ) 操作中,也可以在其它系统中作为一种低速率的信源独立传输 模式,以便用来编码背景噪声。 2 1 编码原理及各模块分析 2 1 1 编码原理 a m r w b 语音编码的编码算法采用代数码本激励线性预测( a c e l p : a l g e b r a i c o d e e x i t a t i o nl i n e a rp r e d i c t i o n ) 技术。其编码模型是基于c e l p ( c o d e - e x c i t e dl i n e a rp r e d i c t i v e ) 模型,c e l p 语音合成模型如图2 1 所示。在该模型 中,从自适应码本和固定码本两个码本中搜索出最佳码矢,然后乘以各自最佳增 益g 。,g c 后相加,其矢量和做为短期线性预测合成滤波器( 上) 的激励信号源, 彳【z ) 再经过后置滤波器得到语音信号。 图2 1c e l p 语音合成模型 一6 一 硕1 j 学位论文 a m r w b 编码器主要是在1 2 8k h z 的采样率下,通过线性预测分析,基音 预测分析和固定码书的参数特征值的分析。每次以2 0 m s 语音为一帧进行编码, 编码的主要是求出c e l p 模型所需要的特征参数。a m r w b 语音编码器的信号流 程如图2 2 所示,为了降低复杂度和让最重要的频带范围传递更多的参数信息。 5 0 h z 6 4 0 0 h z 的低频带和6 4 0 0 h z 7 0 0 0 h z 的高频带编码是分开进行的。具体参考 文献 1 5 1 7 】。 图2 2a m r - w b 编码器原理1 言号流程图 由于a m r w b 语音编码器输入语音的采样率为1 6 k h z ,3 2 0 个样点,因而必 须对输入信号下采样,使采样率变为1 2 8k h z ,每帧长度为2 5 6 样点,再经过截止 频率为5 0 h z 的高通滤波器,滤掉异常的低频成分。为了防止d s p 定点运算产生 溢出错误,所有的样点都进行幅度除2 处理。然后进行预加重处理。处理之后的 信号在进行线性预测( l p ) 分析,每帧进行一次。每组l p 系数被转换成i s p ( i m m i t t a n c es p e c t r u mp a i r s ) 参数,采用分裂多级矢量量化( s m s v q ) 技术进 行量化。每帧语音再被分为4 个进行处理,对于量化和未量化的l p 系数参数根 据子帧的不同而采用不同的方法。开环基音延时估计是每隔一子帧进行一次或对 感觉加权语音每帧进行一次,自适应码书和固定码书的参数是每子帧传输一次。 而如下操作则是每子帧重复的: ( 1 ) 计算目标信号和加权合成滤波器的冲激响应。 ( 2 ) 利用目标信号和冲击响应,在开环基音延迟附近搜索进行闭环基音分析得 到,得到最佳基音延迟和增益。 ( 3 ) 目标信号通过移除自适应码本的贡献来更新并得到新目标x ,) ,该信号 基于d m 6 4 2 的a m r w b 算法优化与实现 用于进行代数码本搜索即固定码本搜索。 ( 4 ) 自适应码本和固定码本的增益采用6 比特或7 比特矢量量化。 ( 5 ) 最后进行滤波器状态更新,用于寻找下一子帧的目标信号。 2 1 2 编码各模块分析 1 预处理 预处理主要是为了外部语音采集频率转变成编码器处理所需的频率,对为 1 6 k h z 采样率的输入语音信号进行下采样处理,即先采用加4 的升抽样,接着通 过截止频率为6 4 k h z 的低通滤波器日一( z ) ,然后对输出信号进行降5 的降抽样。 经过下采样处理后每帧采样点由3 2 0 个下降到2 5 6 个,转变成采样率为1 2 8 k h z , 满足进行l p c 分析、l t p ( l o n gt e r mp r e d i c t o r ) 和固定码本搜索的要求,通过截 止频率为5 0 h z 的高通滤波器巩0 ) ,预防不必要的低频成分的产生。同时为了防 止定点运算产生溢出,将输入样点值都除以2 。 、o 9 8 9 5 0 2 1 9 7 9 0 0 4 z 一1 + o 9 8 9 5 0 2 z t 爿一t 2 了i 两函泛丁丽而征瓦= 广一 ( 2 1 ) 在合成分析编码中,最优基音和激励码本的搜索是通过在感觉加权域内最小 化合成语音和输入语音间的均方误差实现的。为克服传统感觉加权滤波在宽带信 号中由于高低频动态范围大而引起的频谱倾斜加大的缺点,对输入语音先进行预 加重处理( 预加重滤波器胃胛一删= l o 6 8 z - 1 ) ,l p 滤波器彳( z ) 的计算以预加重后的 语音为基础进行的。 2 线性预测分析和量化 短时预测或线性预测分析都是每一语音帧在3 0 m s 的不对称窗口基础上进行 一次自相关计算。自相关需要5 m s 的附加时间。加窗的自相关语音通过杜宾算法 实现向l p 系数的转化,然后把l p 系数换算成i s p 系数以便进行量化和插值处理。 ( 1 ) 加窗和自相关计算:l p 分析是在每帧加不对称窗上进行。该窗的加权主要 集中第4 个子帧,窗函数由两部分组成:一部分是为汉明窗( h a m m i n g ) ,另一部 分是四分之一汉明一余弦函数。窗函数公式如下: w ( ,? ) = o s 4 一。舶c o s ( 景) c 。s ( 掣) 、 4 三,一1 7 玎= o ,厶一1 刀:厶,三2 + 厶一1 ( 2 2 ) 其中l l = 2 5 6 ,l 2 = 1 2 8 。 加窗后的语音信号s ( 疗) ,n = 0 ,3 8 3 的自相关计算如下: 3 8 3 m ) 2 善( 咖如“) 飙,1 6( 2 3 ) 硕十学位论文 对自相关函数乘滞后窗( f ) 使其具有6 0 h z 的带宽扩展,滞后窗的表达式为: 一柑矧,爿,m 泣4 , 其中,兀= 6 0 h z 是扩展带宽,六= 1 2 8 0 0 h z 是采样频率,此外,r ( o ) 乘以白噪声 校正因子1 0 0 1 ,实际上是做了一个一4 0 d b 的噪声层。 ( 2 ) l e v i n s o n - d u r b i n 算法: 自相关系数的修正采用,( o ) = 1 0 0 1 厂( o ) 和 ,( 七) = ,( 七) ( 七) ,肛l ,1 6 ,线性合成滤波器的l p 系数吼( 肛l ,1 6 ) 通过下 列的等式获得: 1 6 吼,0 f 一七i ) = 一,7 ( f ) , 扛1 ,1 6( 2 5 ) 七= i ( 2 5 ) 式利用杜宾算法来求解,该算法的递推如下: e ( o ) = ,( o ) f o r 卢1t 01 6d o 、毛= 十( f ) + :,( f 一川e ( f 一1 ) q n = 毛 f o r 产1t o 扣1d o 口o ) - 巳o - 1 + t 口胃 e ( f ) = ( 1 一砰) e ( f 一1 ) 最后得出的解口f = 口户1 ,1 6 ( 3 ) l p 到i s p 的转化:为了便于量化和内插,需要把l p 系数吼( 扣1 ,1 6 ) 转化为i s p ( i m m i t t a n c es p e c t r a lp a i r ) 系数,对于1 6 阶滤波器,i s p 系数求解是 被定义为( 2 6 ) 式和( 2 7 ) 式的根。 z ( z ) = 么( z ) + z 一1 6 彳( z 一1 ) ( 2 6 ) ( z ) = 彳( z ) 一z - 1 6 彳( z - 1 ) ( 2 7 ) 实际上多项式z 。( z ) 与爿( z ) 是对称和反对称关系,事实证明这些多项式的根都在 单位圆上并且交替出现。z ( z ) 在z = 1 ( = o ) 和z = 一l ( = 兀) 有两个根。为消除这两个 根,定义新的多项式: 石( z ) 2 ( z ) ( 2 8 ) 厶( z ) = 月( z ) “1 一z 。2 ) ( 2 9 ) z ( z ) 和石( z ) 在单位圆上分别有8 对和7 对共扼根,因此可以被改写成: e ( z ) = ( 1 + 口【1 6 d 兀( 1 2 9 ,z 。1 + z 。2 ) ( 2 1 0 ) j 互o ,2 。 1 4 最( z ) = ( 1 一口【1 6 d 兀( 1 2 9 ,z 一+ z 五) ( 2 1 1 ) 幂于d m 6 4 2 的a m r w b 舅豫优化弓买蚬 式中,g ,= c o s ( w ) 为余弦域中的i s p 系数,口【1 6 】为最后一个l p 预测系数,需另外 计算,彬为线谱频率且满足顺序特性,o m 。 兀,因为多项式z ( z ) 和 厶( z ) 是对称的,所以只需要计算分别每个多项式的前8 个和7 个系数,系数的计 算采用下述递归关系式: f o r 仁0t o7 , 石o ) = 口i + 口肘一f , 以o ) = 口,一口。一,+ 以o 一2 ) , ( 2 1 2 ) ( 8 ) = 2 日。 其中m = 16 是预测阶数,厶( - 2 ) = 厶( 一1 ) = o 通过估计多项式正( z ) 和e ( z ) 在o 到7 【之间1 0 0 个点的值来计算i s p 系数, 并检查符号的变化。一个符号的变化就证明着一个根的存在,并将符号变化的间 隔4 等分以更好跟踪根的变化。c h e b y s h e v 多项式被用来对e ( 三) 和最( z ) 的估值。 用这种方法,根可以直接从余弦域扫, 搜索找到。多项式e ( z ) 和f 2 ( z ) 在z = 口p 处 的估值可以写成: e ( w ) = 2 p j 跏c 。g ) a n de ) = 2 p 一7 7 ”c :g ) ( 2 1 3 ) c 。g ) = 五( f ) 呒一。g ) + ( 8 ) 2 a n d c :g ) = o ) 吒一。g ) + 厶( 7 ) 2 ( 2 1 4 ) 式中:乙= c o s 如w ) 是第m 阶c h e b y s h e v 多项式,八i ) 是多项式e ( z ) 或f 2 ( z ) 的系 数,由公式( 2 1 2 ) 计算出。多项式c ) 是用迭代计算在x = c o s ( ) 处的值: f o r 七= 以_ r 一1 d o w nt 01 以= 2 x 钆+ l 一6 女+ 2 + ( 刀,一七) e n d c ( x ) = 地一也+ ( 刀,) 2 当咒,= 8 时,为计算c l ( x ) ,当刀,= 7 时,为计算c 2 ( x ) ,初始值= 厂( o ) ,6 盯+ l = o ( 4 ) i s p 系数的量化:l p 滤波器系数的量化i s p 系数在频率域值的量化,即 转换为i s f ( i m m i t t a ns p e c t r a lf r e q u e n c y ) 矢量,i s p 与i s f 之间的相互转换,是过 查表实现的,其方法为: r , z : 每叭o s 国a 扣0 1 4 0 6 ,则,在下 一帧置为1 o ,否则更新为,= o 9 1 ,。 开环基音增益g 为: s 州o b 耐0 一d 一) ( 2 2 4 ) d 咪是c p ) 取最大值时的基音延迟。中值滤波只在浊音帧时更新,加权受前帧基 音延迟可靠性影响,如果前一帧包括清音和静音,加权函数则会受到参数v 的哀 减。 ( 2 ) 8 8 5 ,1 2 6 5 ,1 4 2 5 ,1 5 8 5 ,1 8 2 5 ,1 9 8 5 ,2 3 0 5 ,2 3 8 5 k b i t s 模式:其 开环基音分析每帧进行两次计算基音延时,加权函数w ,矧和w 打例的计算与描述 及开环基音增益计算与6 6 0k b i t s 模式类似,只是在求取g 和c p ) 时,其上限是 6 3 而不是1 2 7 。 5 脉冲响应的计算 加权合成滤波器日( z 沙( z ) = 彳( z 7 。:归如一砌( z ) j ( z ) 的单位脉冲响应办俐每子帧 计算一次。该脉冲响应在进行自适应码本搜索和固定码本搜索时将被用到,脉冲 基予d m 6 4 2 的a m r w b 箕法傀化j 实现 响应蠢倒的计算是通过滤波器l ,l ( z ) 和如。黼0 ) 对滤波器l ,彳0 ,魏) 系数矢量零 扩袋焉进行滤波丽得到的 6 目标信号的计算 匿标信号箨) 溺予。自适应鸦本搜索,每子帧计算次,再该编码中等效的计 算方法是通过求取l l 残差信号,铆) ,它是通过合成滤波器与加权滤波器组成的 加权会裁滤波器劈0 矽0 ) = 么0 桫,域一蝴0 ) 7 叠0 ) 的滤波褥到。在确定予桢激磁 藤,该滤波器的初始状态就会逶过滤除纛p 残差和激励闻差异的方法进行更新。 l p 残差信号为: ,颤) = s g ) 幺s g i 摊攀o ,6 3 2 。2 5 ) 7 。自适应码本搜索 自适应码本搜索是在每个子帧进行的,它由溺环基音搜索和蠢适应鹤本矢量 舱计算( 通过在基音分数延时处内插过去的激励来得到) 组成。自适应码本的参 数是基音延时和基音滤波器增益。在搜索阶段,l p 残差激臌扩震使闭环搜索简单 化。自适应码本搜索的目的是要得到一个最佳的自适应码本索引。 一- 当在1 2 6 5 ,- 1 4 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论