(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(电路与系统专业论文)语音编码转换算法研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塞呈查耋矍兰竺;! 兰堡呈兰 摘要 语音编码技术是现代通信技术的一项核心技术,现今各种通信系统所采 用的语音编码技术标准各不相同,在解决各通信系统间的互联互通闷题的过 程中,基于t r a n s c o d i n g 技术的语音编码转换技术有着十分重要和广泛的应 用。 本论文主要研究3 g 移动通信系统和v o l p 通信系统中广泛使用的 a m r 、g 7 2 9 a 、 3 7 2 3 1 这三种主流声码器闯的语音编码转换技术。论文首 先从c e l p 语音编码技术基本构造框架的角度研究了这3 种语音编码技术标 准的具体技术特点,详细比较和分析了3 种声码器的异同,分析了3 种声码 器的时延、计算量、语音质量等特性。然后采用传统的t a n d e m 方案对 a m r h g 7 2 9 a 、a m r 针g 7 2 3 1 问的编码转换性能做出评估。在此基础 上,设计实现了a m r h g 7 2 9 a 和a m r h ( 3 7 2 3 1 之间的参数层的直接转 换算法方案。根据c e l p 语音编码技术的特点,一部分参数如线谱对 ( l s p ) 、基音、随机码本等采用参数直接转换方式或者直接转换与环路搜索 相结合的方式,而另外一些编码参数如增益参数等沿用t a n d e m 转换方式, 既改善了二次编码失真,又减小了二次编码过程的计算复杂度。其后,论文 对这两个编码转换系统方案进行了软件仿真,完整实现了a m r 与q 7 2 9 a 之间和a m r 与g 7 2 3 1 之间的编码转换算法。经过对该算法的计算量、语 音质量等特性分析,证明本论文所研究的编码转换技术是实用的、高效的, 具有很强的可扩展性和广泛的适用性。 关键词 语音编码:码流转换;语音编码转换;参数转换;语音质量评估; 算法;第三代移动通信;i p 电话;自适应多速率:码激励线性预测 g 7 2 3 1 ;g 7 2 9 a ;a m r ;l s p 参数转换:基音估计:闭环基音搜索 随机码本;感知加权。 量呈奎兰垩耋堡圭兰堡兰兰 a b s t r a c t r e s e a r c ho fs p e e c ht r a n s c o d r n ga l g o r i t h m s s p e e c hc o d i n gt e c h n i q u ei so n eo fk e m a lt e e h i q u e so fr e c e n tc o m m u n i c a t i o n t e c h o n o l o g i e s m a n yd i f f e r e n ts p e e c h c o d i n gs c h e m e sa r ea p p l i e di nv a r i o u s t e l e c o m m u n i c a t i o ns y s t e m s c o n s i d e r i n gc o m m u n i c a t i o nb e t w e e nt h e s es y s t e m s , t h es p e e c ht r a n s c o d i n gt e c h n i q u ei sv e r yi m p o r t a n ta n de x t e n s i v e i nt h i sp a p e r , as m a r tt r a n s c o d i n gs c h e m ei sd e v e l o p e db e t w e e nt h r e ep o p d a r s p e e c hc o d i n gs c h e m e s :a m r ,g 7 2 9 aa n dg 7 2 3 1 f i r s tt h ed i f f e r e n c e so f t h r e e c o d i n ga l g o r i t h m sa r em e n t i o n e df r o mt h ev i e wo fc e l pv o c o d er t h e nt i m e d e l a y , c o m p u t a t i o n ,v o i c eq u a l i t yo ft h et h r e ec o d e c sa r ea n a l y z e d b a s e do n t h e s e ,l s pp a r a m e t e rt r a n s c o d i n gm e t h o d ,p i t c hp a r a m e t e rt r a n s c o d i n gm e t h o d a n da d a p t i v e f i x e dc o d e b o o kp a r a m e t e rt r a n s c o d i n gm e t h o di sp r o p o s e d t h e s e m e t h o d sc a ni m p r o v ev o i c eq u a l i t yw h e r e a sr e d u c es y s t e mc o m p l e x i t 弘 k e y w o r d s s p e e c hc o d i n g ;c e l p ;s p e e c ht r a n s c o d i n g ;a l g o r i t h m ;c o d e c ;3 g ; s p e e c hc o d i n gt r a n s l a t i o n ;w - c d m a ;t d s c d m a ;n g n ;v o l p ;a m r ; g 7 2 9 a ;c s a c e l p ;g 7 2 3 1 ;a c e l p ;m p m l q ;p e s q ;m o s ; p i t c he s t i m a t i o n ;l o o p c l o s e dp i t c ha n a l y s i s ;l s p ;p e r c e p t u a lw e i g h t i n g 复旦人学理学硕上学位论文 1 1 课题背景 第1 章绪论 1 1 1 语音编码技术及c e l p 语音编码 语音编码技术的理论与实践研究从上世纪3 0 年代发展开始。1 9 3 9 年,美 国的h o m e r d u l l e y 发明声码器以来,语音编码技术开始了对参数编码和模型编 码的研究。6 0 年代以前,研究出实用的共振峰声码器;最早把“线性预测 ( l p c ) ”技术应用到语音分析和合成的是s a t o 、i t a k u r a ( 1 9 6 6 ) 和a t a l 、 s c h r o e d e r ( 1 9 6 7 ) 。在随后涌现的一大批声码器方案中,l p c 声码器因其成熟的 算法和参数的精确估计成为研究的主流,并逐步走向实用。1 9 8 2 年公布的 2 ,4 k b p sl p c 1 0 声码器标准( f s 一1 0 1 5 ) 和1 9 8 6 年l p c 一1 0 e 增强型声码器的正式 投入使用,可以算是5 0 年的研究总结1 】1 2 【3 】【4 】。 1 9 8 5 年,b s a t a l 和m r s c h r o e d e r 提出c e l p 算法以来【5 1 闭环合成分 析法a b s ( a n a l y s i s b y s y n t h e s i s ) 成为主流,随后的l o 年问,公布了一大批被 广泛应用的语音编码方案:f s 一1 0 1 6 1 6 j 、8 8 年公布的欧洲标准1 3 k b p sr p e l t p 方案n8 9 年公布的北美标准i s 5 4v s e l p 钔、c c i t t 于9 2 年公布的g 7 2 8 l d c e l p 9 1 、9 5 年公布的g 7 2 3 ,1a c e l p 双速率多媒体语音编码标准i l o 】1 1 1 、 9 6 年公布的g 7 2 9 ac s a c e l p 语音编码标准【1 2 】和9 8 年公布的欧洲电讯标准 a m r 自适应多速率语音编码标准【l3 j 等。 在这1 0 余年间产生的众多标准中,大多都有着共同的特点:采用a b s 算法,感知加权技术,复合窗技术,l s p 技术,后置滤波技术,分数基音内插 和增益自适应技术等【l ”。虽然在此期间也有一些组织公布了如多带激励声码器 ( a m b e i m b e ) b 5 1 等其它类型的语音编码技术方案,但是,c e l p 算法无疑已 经成为语音编码技术的主流。 复巨犬学理学硕士学位论文 1 1 2a m r 与3 g 通信系统 国际电信联盟( i t u ) 在2 0 0 0 年5 月确定w - c d m a 、c d m a 2 0 0 0 和t d s c d m a 三大主流无线接口标准,写入3 g 技术指导性文件“2 0 0 0 年国际移动通 讯计划”f 简称i m t - 2 0 0 0 ) 1 6 】,【”1 。 在3 g 的3 个主流标准中,w 二c d m a 和t d s c d m a 都采用的是自适应多 速率( a m r ) 声码器来传送话音。a m r 包括8 种不同的速率模式,c d m a 通信 系统可以根据载干l l ( c i ) 动态选择编码速率,以增强抗干扰能力。 当然,w - c d m a 还将引入新的宽带自适应多速率( w b a m r ) 声码器来进 一步改善话音质量。而c d m a 2 0 0 0 移动通信系统为了提高系统的容量,同时 又兼顾话音质量,一共采用了3 种话音压缩编码标准来实现移动终端的话音编 解码处理:e v r c ( i s 一1 2 7 ) 、8 kq c e l p ( i s 一9 6 ) 和1 3 kq c e l p ( i s 一7 3 3 ) 。e v r c 声码器话音质量教高,基本达到有线电话的水平。美国高通公司( q u b j c o n ) l n ) 的 码激励线性预测( q c e l p ) 话音编译码器包括8k b p s 和1 3k b p s 的标准。q c e l p 声码器采用全双工工作方式和可变数据压缩比率以及话音激活检测技术,在话 音间隙期,根据不同的信噪比背景分别选择1 、1 2 、1 4 或1 8 传输速率,可 以使平均速率比最高速率下降2 倍以上。 1 1 3g ;7 2 9 a ,c 。7 2 3 1 与v o l p 通信系统 同3 g 一样,n g n 也是当前通信界所关注的热点。i t u 对n g n 的定义 是:n g n 是基于分组的网络,能够利用多种宽带能力和q o s 保证的传送技术 提供电信业务:其业务相关功能与其传送技术相独立;使用者可以自由按入到 不同的业务提供商:支持通用移动。归纳起来,n g n 就是一个融合、无缝的 分组宽带网络,v o i p 、i p v p n 、f m c 、f t t h 以及i p v 6 等都属于n g n 的范 畴。其中,v o l p 对n g n 的推动和贡献最为显著。在v o l p 通信系统中,目前 广泛采用c t 7 2 9 a 0 8 1 和g 7 2 3 1 等声码器标准,尽管最近两年以来一些新兴的语 音编码技术如i l b c 等被越来越多的新型v o l p 通信系统所采用,但v o l p 各系 统间最为通用的声码器标准仍然是g 7 2 9 a 和g 7 2 3 1 。 圣呈奎兰矍兰堡圭耋竺篁兰 1 , 1 4 语音编码转换算法在媒体网关中的应用 媒体网关( m g w ) 是3 g 和v o l p 通信系统中的重要通信设备之一,媒体网 关作为核心网络和接入网络的接口,处理协议和数据的转换。例如,当实现 3 g 电路交换域( c s ) 与h 3 2 3 系统之间的呼叫处理时,媒体网关需要完成信 令、语音和图像的实时转换。 目前。绝大部分媒体网关按照传统的t a n d e m 方式t 1 9 1 处理语音码流的转 换,例如,m g w 接收到3 g 终端通信设备发送的a m r 数据以后,先进行 a m r 的解码,还原出语音信号,然后再以l p 终端兼容的编码格式( 如g 7 2 9 a ) 做压缩编码,送往i p 终端;反之亦然。 1 , 2 本论文所傲的工作 基于上述对c e l p 语音编码、3 g 、v o l p 以及编码转换算法应用的认识, 本文主要从提升编码转换的语音质量和缩减计算量的角度来研究语音编码转换 算法。本论文研究试图改进传统的t a n d e m 转码方式带来的高计算复杂度、转 换语音质量低、编码时延大等问题。而采用参数直接转换技术,简化了计算, 改善了语音质量,并且所研究的l s p 、基音、感知加权滤波和随机码本参数的 直接转换技术对于诸多c e l p 类型的声码器之间的编码转换算法具有普遍意 义。 本论文的主要任务是以a m r 、g 7 2 9 a 、g 7 2 3 1 三种常用的语音编码标准 为例,研究总结它们各自的技术特点,比较分析3 种编码器在几个关键技术上 的异同,并分别就a m r 与g 7 2 9 a 之间、a m r 与g 7 2 3 1 之间各种主要的编 码参数的编码转换算法一给予分析,并绘出具体算法和算法性能。 圣呈奎耋矍兰堡圭兰竺篓兰 1 3 论文的内容安排 本文的第2 章简要介绍了c e l p 编码技术以及a m r 、g 7 2 9 a 、g 7 2 3 1 三 种语音编码技术标准。第3 章比较分析了这3 种标准之间在几个关键技术上的 差异。第4 章是a m r 与g 7 2 9 a 的具体参数直接转换算法的设计和探讨,主 要包括l s p 参数直接转换、基音参数估计、感知加权滤波、随机码本参数转换 等。第5 章是a m r 与( 3 7 2 3 1 的具体参数直接转换算法的设计和探讨。第6 章分析总结了两个编码转换方案的总体性能,并给出了本论文的结论。 复旦大学理学硕 。学位论文 第2 章c e l p 语音编码技术 2 1 码激励线性预测声码器( c e l e ) 2 1 1c e l p 编码算法说明 】9 8 5 年,m a n f r e dr s c h r o e d e r 和b i s h n us a t a l 在i e e ei c a s s p 年会上首 先提出了用码本作为激励源的线性预测编码技术( c e l p ) 5 1 0c e l p 以其高质量 的合成语音以及优良的抗噪声和多次转接性能,在4 8 - - 1 6 k b s 速率上得到了 广泛的应用。 c e l p 采用分帧技术进行编码,帧长一般为2 0 3 0 m s 。c e l p 编码基于合 成分析( a b - s ) 搜索过程、感知加权、矢量量化( v q ) 和线性预测( l p ) 技术。在 c e l p 中,用从码本中搜索出来的最佳码矢量,乘以最佳增益,代替l p 余量 信号作为激励信号。c e l p 一般将每一语音帧分为2 5 个子帧,在每个子帧内 搜索最佳的码矢量作为激励信号。 图2 1 是c e l p 编码示意图。图中虚线框内是c e l p 综合器( 不计后置滤波 部分) 。如图所示,一般c e 心再j 一个自适应码本中的码字( 码矢量) 来逼近语音 的长时周期性结构;用一个固定的随机码本中的码字( 码矢量) 来逼近语音的经 过短时、长时预测后的余量信号。从两个码本中搜索出来的最佳码矢量,乘以 各自的最佳增益后相加,即为c e l p 激励信号源。将激励信号输入p 阶l p 综 合滤波器1 a ( z ) ,得到合成语音信号j ( ”) ,j ( h ) 与原始语音s ( n ) 的误差经过感 知加权滤波器w ( z ) ,得到感知加权误差e ( n ) 。c e l p 采用感知加权的最小平方 预测误差m s p e ( m i n i m u ms q u a r e dp r e d i c t i o ne r r o r ) 作为搜索最佳码矢量及其幅 度的度量准则。使感知加权误差平方最小的码矢量即是最佳码矢量。 自适应码本和随机码本的搜索过程在本质上是一致的,不同之处在于码本 结构和目标矢量的差别。为了减小计算量,一般采用两级码本顺序搜索的方 法。第一级自适应码本搜索的目标矢量是加权l p 余量信号,第二级随机码本 搜索的目标矢量是:第一级援索的b 标矢量减去包适应码本搜索褥到的最佳码 矢量激励综合加权滤波器的结果。c e l p 编码器的计算量主要是对码本中最佳 复巳大学理学硕士学位论文 码矢量以及幅度的搜索。计算复杂度和合成语音的质量取决于码本的大小。 图( 2 - 1 ) c e l p 编码示意图 2 , 1 2c e l p 码本搜索算法 令l 表示予帧的长度,s 、j 和e 是l 维列矢量,分别表示原始语音信 号、合成语音信号和加权误差信号。令v 表示正在搜索的激励矢量,f 表示码 本中码矢量的标号,若码本内总共有n 个码矢量,则可记为x ( o ,i - 1 , 2 ,n 。 若g 。表示第f 个码矢量的增益,则激励矢量可写成: v ( ) = g j 茁( 。)( 2 1 ) h 和w 是l + l 维矩阵。它们的第j 行元素分别由l p 滤波器和误差加权滤 波器( 感知加权滤波器) 对单位冲激8 ( t 一,) 的截断的冲激响应组成。如图2 - 1 所 示,合成语音;可以表示为激励信号与l p 滤波器冲激响应的卷积加上它的0 输入响应;( o ) : 塞呈查兰竺兰至圭兰堡丝塞 j ) = 蔷( o + f + v ( 1 日,1 i n 式中的u 在第一级搜索时是0 矢量 适应激励矢量。 加权误差信号p ( 。) = 0 一j ) 彬 若用e ( 0 1 表示搜索的目标矢量,则日( o 为 e ( o ) = “一;o ) 1 w 一, h w 将式( 2 - 4 ) 代入式( 2 3 ) 可得: e ( 。) = e ( 0 1 一v ( m h ( 2 - 2 ) 在第二级搜索时是经过幅度调整的自 如用y 表示滤波后的码矢量:y o = x ( “h 矽 则第i 个码矢量的加权误差p 是:g = e “一g y 7 令e ,表示相应于第i 个码矢量的误差的平方和: e ,= 舻1 l = e o ) t e 。= e “e o 7 2 9 j - e ”y f + 9 7 y “y 咿 ( 2 3 ) ( 2 - 4 ) ( 2 - 5 ) ( 2 - 6 ) ( 2 7 ) f 2 8 a ) f 2 8 b ) 式中t 表示转置。由式( 2 8 ) 可知,e ,是增益晶和标号i 的函数。对于给定的i 值,最佳增益g 。可用下式计算: 要:_ 2 y 咿蝎2y m 尸:0 ( 2 - 9 ) 昭 由此可知:最佳增益是目标矢量与滤波码矢量的互相关对滤波码矢量能量 之比。 g ,= e ( o ) y 7 y y 7( 2 1 0 a ) 用垂,表示量化的g ,: 喜,= q 】 ( 2 一1 0 ” 利用式( 2 8 b ) 计算满足最小点,的标号i 。因为式中第一项与标号无关,搜索满足 复旦大学理学硕士学位论文 最小e 的i ,只要求出使式( 2 8 b ) 右侧第二项为最大值时的i 即可 最佳标号i = m a x 富 2 e o y 一l y y 妒 ( 2 1 i ) 如果富,的量化误差可忽略不计,可将式( 2 一l o a ) 中g ,代替垒代入上式得 最佳鼢掣 号若等) ( 2 - 1 2 ) 从码本中搜索最佳激励矢量v “的过程是:由上式计算出最佳码矢量的标 号,再由式( 2 一l o ) 计算出最佳增益即可。 2 2a m r 语音编码标准简介 a m r 0 3 l 【1 明( a d a p t i v em u l t ir a t e ) 语音编码方案是3 g p p 制定的语音压缩 标准,用于w - c d m a 和t d s c d m a 第3 代移动通信系统。| 13 】( a d a p t i v e m u l t ir a t e ) 语音编码方案是3 g p p 制定的语音压缩标准,用于w - c d m a 和 t d s c d m a 第3 代移动通信系统。图( 2 2 ) 为编码器框图。语音样本以2 0m s 为一帧,每帧等分为4 个子帧。解码器的”合成”部分可以蕴含在编码器当中, 故只需研究合成后的“后滤波”部分。 2 2 1l s p 的矢量量化和内插 a m r 编码器各模式都使用1 0 阶合成滤波器。 在1 2 2k b p s 模式下,l p c 分析每帧2 次,其它速率模式下l p c 分析每帧 进行1 次,用l e v i n s o n - d u r b i n 算法求解l p 系数a i ,并转换为动态范围较小、 量化精度要求低的线谱对l s p 传输。l s p 参数采用矢量量化。首先用1 阶m a 模型预测得到残差r m ) : r ( n ) = z ( 拧) 一p ( n ) p ( n ) 2 a j f _ ,( n 一1 ) ,j2 1 , 2 ,1 0 ( 2 - 1 3 ) : 塞呈叁兰塞兰堡圭耋堡篁圣 r r e 厂1 a 砷饿黜扣暂;五p c 口脾 啼;d p 昨幻印p 托 强砌i 刖脚。产描衙:如研咖埘k :胁嘲柏y r m 妒细耐:怖删”口:删 枷 图( 2 2 ) a m r 编码器框图 其中z ( n ) 为在第1 1 帧去平均l s f 矢量,r ( n ) 为预测残差,p ( n ) 表示预测值,a j 为预测系数。“n ) 再采用独特的动态加权失真准则量化,即寻找使下式最小的 k : e 。,= 【,w ,一z 。w l 】2 ( 2 1 4 ) 卜4 7 一丽1 5 4 7 如酗 4 5 。 h 寸一蒜州啦其它 茎呈查耋塞兰竺兰兰堡尘兰 其中,f 为待量化l s p 矢量,力表示第k 个量化后的l s p 矢量,d i = n e m 并且l 厂0 = 0 ,工。= 4 0 0 0 。a m r 用内插法得到每个子帧对应的l s p 参 数。 2 2 2 感知加权 a m r 采用了感知加权技术。原始语音通过感知加权滤波器、( z ) 得到加权 语音,用于开环基音分析。 r r ( z ) = a ( z 1 7 1 ) a ( z y 2 ) 即加权语音由下式给出: 1 0 1 0 s 。( n ) = s ( 竹) + n ;y :j ( ,l f ) 一口,y i j ( ,l f ) j - ii = 1 f 2 1 5 ) ( 2 一1 6 ) 2 2 3 子帧预处理和后处理的筒化 自适应码本搜索、固定码本搜索、增益量化3 部分成为一个子帧流程。流 程开始前首先进行予帧预处理:计算加权合成滤波器 h ( z ) w ( z ) = a ( z y , ) t a ( z ) a ( z y :) 】豹脉冲响应和自适应码本搜索目标矢量 。流程结束前进行子帧后处理:剔除i - l ( z ) w ( z ) 的零输入响应,更新所有f i r 滤波器的递归状态。a m r 对这两部分都进行了简化,显著减少了计算复杂 度。 首先对于h ( n ) 的计算,a m r 采用”分级滤波”的方法:将r t ( z ) w ( z ) 分解为1 个f i r 和2 个l i p , 滤波器a ( z t n ) 和2 个i l r 滤波器1 五( z ) 、l a ( z ,0 。根据 脉冲响应的定义,将单位脉冲序列通过这3 个滤波器,即可锝h m ) 。该算法的 优点是:f i r 的冲激响应无需计算,只是其传函系数加上0 的扩展:而后2 个 i i r 的计算可以重复利用前面“感知加权”模块的算法,共用了代码,减少结构 复杂度。 另一个重要简化是计算目标矢量x 。理论上看,x n 应为加权语音信号s w ( n ) 减去h ( z ) w ( z ) 的零输入响应。计算的关键是计算“h ( z ) w ( z ) 的零输入响应”。如 果直接计算,必然用递归算法,复杂度较高;更为复杂的是,计算零输入响应 复旦大学理学硕 一学位论文 前还需知道h ( z ) w ( z ) 在2 个码本联合激励下前一帧的输出值,而该值不能直接 得到。为此。a m r 巧妙地将“预处理”和“后处理”结合,最大程度利用其他过 程的中间结果,设计更简单等效算法来计算零输入响应。其过程为:第一步, 在预处理过程中将“加重语音计算”部分的中间结果“l p 残差r e s ”通过量化后的 合成器1 4 ( z ) 和感觉加重滤波器a ( z l y ,) l a ( z 儿) ,其输出即为x 。其中2 个 i i r 滤波器1 一( z ) 和1 a ( z l y 9 直接利用前面递归算法,但是,其递归状态不能 用本身状态更新,而是强制用后处理部分计算的“零输入抵消状态”来更新。第 二步,进入后处理部分,将r e s 与码本搜索得到的激励u ( n ) 的差值r e s l p ( n ) 一u ( n ) 仿照预处理过程,依次通过1 a ( z ) 和a ( z l y l ) i a ( z y ,) ,保留后1 0 个输出状态 值,即为所求的“零输入抵消状态”。该状态的僮用于下一予帧的“第一步”即可 达到剔除零输入响应的目的。这两步的原理可以用线性系统定义来证明:第一 步,由线性系统零输入响应也有叠加性可知由r e s l p ( n ) u ( n ) 激励h ( z ) w ( z ) 产生 的零输入响应可以表达为r e s l p ( n ) 单独产生的部分m e mr e s 加上- u ( n ) 单独产生 的部分m e m u 。h ( z ) w ( z ) 总的输出显然为e 。( n ) = s w ( 疗) 一;。( ,i ) ,;。( 行) 为合成 加重语音) ,则总输出也可相应表达为s “n ) 和一屯( ”) 2 个部分:s w ( n ) 是在输入 r e s t e ( n ) 和状态m e m r e s 下的输出,而一j 。( 珂) 是在输入- u ( n ) 和状态m e m u 下的 输出。己知第二步中用上一步的m e mr e s + m e mu 替换原来的递归状态,此时 x n 可以看作是输入为r e s ,( n ) 、状态为m e mr e s + m e mu 下的输出,进一步可 等价为“输入为r e s t w ( n ) 、状态为m e mr e s 的输出”加上“输入为0 、状态为 m e m u 的输出”,而后者恰为h ( z ) w ( z ) 在u ( n ) 激励下的零输入响应的负值。这 就达到剔除的效果。 上述算法的优点在于极大减少了运算量:后处理端,m e mr e s + m e mu 的 计算所需的3 个滤波器可以巧妙省略。因为i t l e l t 1r e s + i i l g l nu 实际上就是( n ) 的后1 0 个状态值,而p 。( ) = x ( n ) 一誊。y ( h ) 一鸯。z ( 疗) ,y ( n ) 、z ( n ) 分别是自适应 码矢量和固定码矢量与h ( n ) 的卷积,可见e “n ) 已经作为码本搜索的中间结果 得到。 2 2 4 自适应码本搜索( 长时基音预测) a m r 采用开环、闭环两级和分数时延基音搜索。开环基音搜索采用自相关 复旦大学理学硕士学位论文 法,只搜索3 个近似的整数基音值。闭环搜索则在这3 个值附近,采用m m s e 准则,以分数基音步进来搜索,即在【l 。,一】范围内搜索最佳延时三。: 铲m 娃降n - j 娑:兰竺 i :( 玎一三 其中s w ( n ) 为加重语音。然后可得到自适应码本增益g 。: ( j 。( n - l ) & ( n ) g p = 型可丁一 q 一三) 2 2 5 固定码本的设计和搜索 r 2 - 1 7 ) ( 2 - 1 8 ) 固定码本搜索采用m m s e 判决,a m r 采用“规则排列的代数码本”。以 7 9 5k b p s 模式为例,每个固定码元矢量长为4 0 个样点,其中只在4 个按规则 排列的位置上有幅度为士1 的脉冲,其它3 6 个样点为0 。搜索时,只要寻找这 4 个位置即可。 码本采用“矩阵搜索”:首先根据前一帧加重合成滤波器零状态响应h ( 一 1 ) ,h ( 一3 9 ) ,构造一个4 0 维下三角t o e p l i z 矩阵h ,其对角线为h ( o ) ,对对角 ( 一2 ) h ( - 3 9 ) h ( - 0 r 一3 8 ) 矗( 0 )厅( 一3 7 ) h ( 3 9 ) h ( 3 8 ) h ( 3 7 ) _ j l ( o ) r 2 1 9 ) 记y ( n ) 为目标矢量,x i ( n ) 为第i 个码字c ,( n ) 与h ( n ) 的卷积,则m v i s e 判决 式为: ( 2 - 1 9 1 r。l 瓢m 塞呈查兰矍兰堡圭兰堡篁兰 和: 因为x ,( ) 和c ,( 聆) 的关系式可表达为矢量形式: x ,= h c 。 所以i o p t 的搜索等价于使下式最大化: 仁譬= 髻 其中d = h 7 x :目标矢量石:( ) 和脉冲响应h ( n ) 的矢量相关 3 9 d ( 一) = x :( 啪( f n ) ,”= 0 , 1 ,3 9 j = h 矩阵中的元素由下式计算: 3 9 o ( i ,) = h ( n - i ) h ( n n ( ,f ) h = j ( 2 - 2 0 ) f 2 2 1 ) r 2 2 2 ) f 2 2 3 ) 以7 9 5 k b i f f s 模式为例,码本矢量;可以表示为4 个单脉冲矢量m 。( 七) 之 3 ;。= s g n ,( 聊t ) 而r ( 七) = 。 ( 2 2 4 ) 其中,s g n i ( k ) 为第k 个单脉冲矢量的符号函数,m ( ) 为单位脉冲位于m i 的第i 个固定码矢量。以只表示该位置的幅度,将( 2 2 4 ) 代入( 2 2 1 ) 可得实际搜 索的式( 2 2 1 ) 的分子分母为 n p - i c = 只d ( 聊,) i = 0 n 。一1n 。2 n 。一l e 。= 妒( 埘,m ,) + 2 只q 妒( m ,讲,) i = 0j - oj = i + l ( 2 2 5 ) r 2 - 2 6 ) “矩阵搜索”的优点在于:由脉冲的稀疏性可知,在计算( 2 2 5 ) 、( 2 2 6 ) 的时 候,大量位置上为0 ,于是很大程度上减少了运算量;此外,由于采用规则码 本,如按照4 个脉冲i oi l i 2i 3 出现的可能位置进行全搜索,其总循环次数为 8 x8 x 8 x 1 6 = 8 1 9 2 ,远小于不采用规则位置的心= 2 1 9 3 3 6 0 次,从而提高了搜 索效率。规则码本的另一个好处是易于多模式扩展:由于规则码本无需存储, 复旦大学理学硕士学位论文 因此不同速率的规则码本之间只要相应地增加或减少脉冲即可,而核心的“矩 阵搜索”部分可以完全复用,这在实际物理实现时也简化了结构复杂度。即便 采用了这种规则码本和“矩阵搜索”,固定码本搜索的运算复杂度占整体的比例 仍高达2 0 - - 4 0 ,可见这种改进具有明显的实际意义。 2 2 6 增益的联合矢量量化 a m r 采用“码本增益联合矢量量化”。与标量量化相比,虽然引入了量化 表的存储,加大了运算复杂度,但却具有更优越的量化效率。记c ( i ) 为固定码 本矢量,固定码本增益为g e ,为固定码本激励的平均能量,e ( n ) 为其去平均能 量( 以d b 表示) : 砌) = 1 0 1 。g ( n 嘉g ;善n - 1c 2 ( 一应 ( 2 - 2 ,) 首先使用4 阶m a 预测器预测e ( n ) : e ( n ) = 6 ,k ( n - i ) , b l ,b 2 ,b 3 ,b 4 = 【o 6 8 ,0 5 8 ,0 3 4 ,o 1 9 盖( t ) 是第k 子帧的量化后预测能量误差。求出预测的固定码本增益 g := 1 0 0 0 5 ( e ( 哪+ e 一点,( 2 - 2 8 ) 肌耻,嘶g 瞧c 2 进一步求出相关系数: = g 。g c 最后将自适应码本增益和y 。二维矢量量化后传输。 2 3g 7 2 9 a 语音编码标准简介 g 7 2 9 a 1 8 】【2 0 1 1 2 1 1 是i t u 于1 9 9 5 年制定的语音编码方案,现广泛用于v o l p 等通信系统。 复旦大学理学硕士学位论文 2 3 1 编码器原理 编码器的构成如图2 3 所示。c sa c e l p 编码器主要包括预处理、线性预 测分析、感觉加权滤波器、自适应码本搜索、固定码本搜索等部分。每个部分 又包括若干的处理过程。编码的帧长为1 0m s ,对应8k 抽样s 的8 0 个语音样 点。每1 0 m s 帧分析语音信号,提取c e l p 模型的参数,包括线性预测滤波器 系数、分数基音时延、固定码本矢量、自适应和固定码本索引增益,将这些参 数编码并传输。 输入的语音信号首先被高通滤波并做定标处理,预处理输出信号是后面所 有分析的输入信号。线性预测分析和合成滤波是基于1 0 阶线性预澳t i ( l p ) 滤波 器,l p 合成滤波器定义为: 百1 _ :;丢_ ( 2 - 2 9 ) 五( z ) 1 + :、a 。z 1 其中:鑫,f = 1 , 2 ,1 0 是量化的线性预测( l p ) 系数。线性预测分析每帧r i o m s ) 执行一次,使用3 0m s 不对称窗的自相关方法。每8 0 个抽样点f 1 0m s ) 计算加窗语音信号的自相关系数并使用l e v i n s o n 算法转化成l p 系数,这些系 数被转化成线谱对( l s p ) 用于量化和内插。插值的量化及未量化的滤波器系数 再转回l p 滤波器系数,以便为每个子帧建立加权和合成滤波器。 自适应的感觉加权滤波器是基于未量化的l p 系数a ,由下式给出: c z ,= 一c z ,n ,c z ,托,= ;嚣 f 2 3 0 ) 其中:权重因子yl 和y2 确定了感觉加权滤波器w ( z ) 的频率响应,a ( z ) 是线性 预测分析滤波器。适当的调整这些参数可以使加权更为有效。令yt 和y2 为输 入信号频谱形状的函数。频谱形状的特征是平坦的( f l a t = 1 ) 或者是倾斜的 ( f l a t = 0 ) 。对于每个子帧,这个特征通过对数面积比( l a 砌使用一个门限函数来 得到。为了避免有较快地变亿,根据前一帧的f i a t 值形成一个滞后。如粟子帧 的插值谱为平坦的( f l a t = 1 ) ,则y l = o 9 4 ,托= 0 6 ;如果子帧的插值谱为倾斜的 ( f l a t = 0 ) ,则y l - o ,9 8 ,y 2 的值与l p 合成滤波器中响应强度相适应,但限毒q 在 0 4 0 ,7 之间。如果出现很强的响应,丫2 的值应该接近上限。 复旦大学理学硕土学位论文 巨( 2 一g 7 2 9 a 编码器捱赠 t r n b m i t t e d b i t s t r e a 一- 一 子帧的加权语音信号为: i o i o j 。( h ) = s ( ”) + ,y :s ( n f ) 一口,“j ( n f ) ,n = 0 ,1 ,2 一,3 9 ( 2 _ 3 1 ) - l t = l 基于感觉加权的语音信号每一帧( 1 0m s ) 做一次开环基音分析a 为了减少搜索 最佳自适应码本时延复杂性,搜索范围限定在候选时延乙附近。通过感觉加 权滤波器w ( z ) 将l p 的余量信号“n ) 滤波,这些滤波器的初始状态通过将l p 余量信号和激励信号之间的误差滤波来更新。计算加权合成滤波器的脉冲响应 h ( n ) 。然后使用目标信号x 【n ) 和脉冲响应n n ) ,通过围绕开环基音时延值搜 索。使用l 3 分辨率的分数基音时延。一旦确定了基音,就可以通过在给定整 数时延k 和分数时延t 处对后激励信号u ( n ) 插值计算自适应码本矢量v ( n ) : v ( 以) = u ( n - k j ) 6 3 0 ( f + f 3 ) + u ( n k + 1 + f ) - 6 3 0 ( 3 一t + i 3 ) ( 2 - 3 2 ) 其中。n = 0 ,1 ,2 ,3 9 ,t - = 0 ,1 , 2 插值滤波器b 3 0 基于加汉明窗的s i n ( x ) x 函数并在- t - 2 9 处截断在q - 3 0 处添 0 。确定了自适应码本时延后,自适应码本增益印由下式得到: g ,= 舞,边界为:。g ,5 l z 其中。x ( ) 是目标矢量,y n ) 是自适应玛本矢量滤波输出,通过v ( 鸡与h ( 豇) 卷积得到: y ( h ) = v ( i ) h ( n f ) ( 2 _ 3 3 ) 固定码本基于代数码本结构,使用交织的单脉冲序y i j ( i s p p ) 设计。码本矢 量c ( n ) 通过4 0 维的零矢量来构造,并在所得位置放置4 个单脉冲乘以他们 对应的符号: c ( n ) = s o a ( n 一, o ) 十j t 占( 玎一m 1 ) + s 2 占( n m 2 ) + 屯8 ( n 一埘3 ) ,玎= 0 , 1 2 3 9 其中6 ( o ) 是单脉冲。固定码本通过最小加权语音和加权重构语音之间的均 方误差来搜索。固定码本搜索中使用的目标信号为闭环基音搜索中使用的目标 信号减去自适应码本的贡献,即: x ( ,1 ) = 石( 竹) 一ge y ( ) 固定码本增益可以表示为:g 。= _ 反 ( 2 - 3 4 ) 其中窖:是基于前固定码本能量的预测增益,x 是校正因子。将自适应和固定码 本增益忍7 n t 联合矢量莹纯。合成和加权滤波器能状态更薪是诗葵下一子帧目 标信号所需要的,因而,要进行存储器更新。 复旦大学理学硕士学位论文 2 3 2 解码器原理 解码器的构成如图2 - 4 所示。首先从接收码流中提取出参数索引。解码这 些索引后得到相对应1 0 m s 语音帧的编码参数,包括:l s p 系数,两个分数基 音时延,两个固定码本矢量,两组自适应和固定码本增益。在每个1 0m s 帧内 对l s p 系数做内插后转换成l p 滤波器系数,然后在每个5m s 帧内做以下运 算: ( 1 1 通过自适应和固定码本矢量由各自增益定标后相加来构造激励信号。 ( 2 ) 通过l p 合成滤波器滤波激励信号来得到重建的语音信号。 ( 3 ) 重建语音交由后处理模块处理。后处理模块包括3 个部分:自适应后 滤波处理、高通滤波处理和定标处理。 图( 2 - 4 ) g 7 2 9 a 译码器框图 圣呈奎兰矍兰塑圭兰堡篁兰 2 4g 7 2 3 1 语音编码标准简介 g 7 2 3 ,1 【1 0 1 1 语音编码是低速率语音编码方案中的一种,它提供6 ,3 k b i t s 和5 3 k b i t s 两种码率,可在语音帧的交界处进行速率转换,由于码率较低,非 常适合于多媒体通信中的语音编码传输,且能获得较好质量的重建语音,在自 然度和可辨识性上都比较令人满意,g 7 2 3 1 语音编码方案属于混合语音编码, 即既包含参数编码又包含波形编码,这样既克服了波形编码和参数编码的缺 点,又吸取了它们各自的长处,因而在较低速率上可以得到高质量的合成语 音。 图( 2 - 5 ) g 7 2 3 1 编码器框图 复旦大学理学硕士学位论文 2 , 4 1 基本原理 ( 1 7 2 3 1 语音编码原理如图,它利用语音样点间的短时相关性和相邻语音段 的长时相关性,及对语音去除两种相关后的余量信号分别进行编码,对余量信 号的编码可选择两种码率,前者( m p m l q 算法) 利用余量信号中小信号对合成 语音质量影响不大,故可以对余量信号进行削波处理,只留下幅度较大者进行 编码;后者( a c e l p 算法) 用码书中存储的码字来替代余量信号,以搜索出与余 量信号之间均方误差最小的码矢量进行传输。两种算法的区别在于用来代替 余量信号的编码脉冲数目不同:a c e l p 所用的脉冲数略少于m p - m l q 的脉冲 数。 g 7 2 3 1 编码器的输入是8 k h z 采样后再经量化得到的1 6 b i t 线性p c m 数字 信号,编码器再把该输入信号分成2 4 0 个采样点为一帧的信号s ( n ) ,然后对每 一帧迸行处理。 2 4 2 语音短时分析编码及模拟解码 对语音信号进行短时分析,提取出语音信号的短时参数,并量化编码, 同时还将进行本地模拟解码。得到解码的综合滤波器l 乜) 供构建组合滤波器 时用。 首先把s ( n ) n 高通滤波后的2 4 0 个点工( 力,n = 0 ,l ,2 ,2 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论