（电路与系统专业论文）低码率声码器实时实现的研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：64 大小：1.45MB 积分：0 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

（电路与系统专业论文）低码率声码器实时实现的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要关键字：d s p ，l p c ，c e l e 声码器，流水线，语音压缩随着多媒体业务的迅猛发展，以及网络带宽的相对稳定，对于语音压缩技术的研究是一个挑战。这些年来，i t u 组织、制定了一个又一个语音压缩方面的协议组。本文研究了将i t u g 7 2 3 1 协议组用于t i t m s 3 2 0 c 6 2 1 1d s p 平台上实时实现声码器的方法。从硬件电路设计、芯片选择、到软件设计、算法优化，全面研究了语音压缩在d s p 上实现的各个问题。最后，根据我们的实验结果来看，这个方案是非常成功的。它不仅实时实现了g 7 2 3 1 的算法，而且比较稳定可靠，话音质量也达到了可通话通信级。更有意义的是，这套系统中的算法模块可以很方便地被别的算法替代，从另外一个方面说，就是提供了一个研究语音压缩的平台，为将来语音压缩方面的工作打好了基础。 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i ab u s i n e s si nc o m m u n i c a t i o n sa n dt h e r e l a t i v es t a b i l i t yo fb a n d w i d t ho fc o m m u n i c a t i o n sn e t w o r k ，t h e r ei sas h a r pc h a l l e n g e f o ra u d i o - c o m p r e s s i o nt e c h n o l o g y s oi t uh a sd r a f t e das e r i e so fp r o t o c o l sa b o u t a u d i o c o m p r e s s i o n h e r ew e g i v ea m e t h o dt os o l v et h ep r o b l e mo ft h er e a lt i m er e a l i z a t i o no f ( 3 7 2 3 1 a r i t h m e t i cb a s e do nt it m s 3 2 0 c 6 211 p l a t f o r m w es o l v e d as e r i e so fp r o b l e m sa b o u t i t ，i n c l u d i n gt h eh a r d w a r ed e v e l o p m e n t ，t h ec h i ps e l e c t i o n ，t h es o f t w a r ed e v e l o p m e n t ， a n dt h eo p t i m i z a t i o nf o ra r i t h m e t i c t h er e s u l tt e l l su st h ed e m a n d sa r ef u l f i l l e d i n t h i ss y s t e m t h em o d u l ef o ra r i t h m e t i cc a nb es u b s t i t u t ee a s i l yb yo t h e ra r i t h m e t i c i n o t h e rw o r d s ，w ec a nr e s e a r c ho t h e ra u d i o c o m p r e s s i o na r i t h m e t i co nt h i sp l a t f o r m s oi ti sm o r ei m p o r t a n tf o rt h ef u t u r er e s e a r c ho f a u d i o - c o m p r e s s i o n ，北京州i u 凡学坝| _ f l 肝究生毕业论迁低峭：年声鹏器实时实眦的研究绪论随着多媒体技术的同新月异，而基于现有带宽有限的现实，人们提出了对低速率语音传输的要求。实际上，提高语音质量可以从2 个方面着手，一方面加大光纤、光缆等基础设施的建设，另方面采用更具压缩效率的压缩算法。但是，像无线信道之类的无线频率资源却是固定的，正是在这有限的资源空间里，我们既要传送话音，而且还要传送图像数据业务。为了满足高质量的图像传输和大量的数据业务，就应该对语音压缩提出更好得算法来降低传输的码率。这时，研究低码率语音传输就显得尤其重要。根据我们实验室多年来在语音方面的工作、经验，研究一个d s p 平台上的实时语音系统很是必要，可以对过去的很多仿真平台上的结果进行实际测试，同时为进一步研究语音方面的新技术提供了一个平台。因此，我们决定建立一个低码率声码器的实时系统。该系统的核心处理器选用了t it m s 3 2 0 c 6 2 1 l ，经过慎重考虑以及反复论证设计了和该处理器相匹配的硬件平台；软件方面的开发是基于t i 提供的开发环境c c s 2 0 完成的。我的工作是建立一个d s p 语音处理的硬件平台、编写支持硬件的系统软件以及g 7 2 3 1 协议算法在该平台上的实时实现。根据对整个系统从浅入深的了解、完善过程组织了该篇论文。该论文主要完成了： 1 全面介绍了语音压缩技术的形成、发展、基本原理以及当前的主要技术； 2 详细介绍了i t u 制定的语音压缩方面的协议g 7 2 3 1 ： 3 介绍了d s p 相关知识以及该算法在d s p 平台上的具体实现流程； 4 介绍了该系统的硬件平台，而且对系统的信号匹配性进行了分析； 5 详细讲解了整个系统的软件运作过程，讲解了各个主要模块的实现流程以及在系统实现过程中软硬件方面的关键技术。北京惴f 乜人学坝f 。研究生毕业论上低“半声妈器实时实观的1 l j 咒第一章：语音编码技术的介绍以及发展历程 1 1语音编码技术的产生与发展 3 0 年代术，由于军事保密通信的需要，贝尔电话实验室的h o m e rd u d k e y 提出并实现了在低带宽电话电报电缆上传输语音信号的通道声码器，成为语音编码技术的开始。该声码器在第二次世界大战中的有效使用，为声码器技术的应用 _ 丌创了先河。此后，数字通信网的飞速发展推动了语音数字化编码技术的迅速发展。在6 0 年代，c c i t t 制定了第一个语音编码标准g 7 1 1 ，它把8 k h z 的语音抽样进行a 律或u 律的非均匀量化，得到了6 4 k b p s 的数字信号，语音质量达到了网络级。但是，这种编码方案没有对语音信号的信息冗余进行任何处理，占用了大量的信道带宽和存储空间。1 9 8 4 年，c c i t t 提出了3 2 k b p s 的a d p c m 编码标准 g 7 2 1 。a d p c m 进一步利用了语音信号样点的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化，在3 2 k b p s 速率上也能提供网络级的语音质量。进入8 0 年代以来，各种与语音应用服务相关的新业务不断涌现，要求语音数据能被灵活处理、存储和传送，这刺激了应用于移动通信、卫星通信、多媒体、智能网和保密通信等领域中的中低速率语音编码技术的发展。1 9 9 2 年， c c i t t 采纳了a t & t 提供的l d - c e l p 编码方案作为1 6 k b p s 的低延时语音编码标准 ( g 7 2 8 ) 。同时，北美、欧洲和日本等地区相继制定了蜂窝移动通信和移动卫星通信的中速率语音编码标准。数字移动通信的带宽有限，它要求在保证通信质量的前提下尽量降低语音信号占用的带宽。因此，中低速率编码技术得到了迅速发展。如在i s 一9 6 中采用的q c e l p 编码器，它的速率为8 k b p s 、4 k b p s 、2 k b p s 、l k b p s 中的一种。此外，具有高质量合成语音的低速率声码器技术也在军事保密通信中获得了广泛应用。 1 2 语音编码的理论极限语音编码的压缩极限究竟是多少? 从信息论的角度看，语音中的最基本元素可以认为是音素，英语中的音素共有1 2 8 2 5 6 个，如果按通常的说话速率，每秒平均发出i 0 个音素，则此时的信息率为：圯京懈f u 人学州i 研4 花生毕业沦奠帐蚪丰声绀器实时实现的f j f 究 = 1 0 l o g12 5 6 = 8 0 b i t s 如果从另一角度来估值，把发音看成是以语音速率束发报文，对英语来讲，每一个字母为一个7 b it 码，每分钟发1 2 5 个英语单字可以认为达到了通信的语音速率。如果单字平均由7 个字母组成，则信息率为：，= 7 7 1 2 5 6 0 = 1 0 0 ( b i t s 、可以认为语音压缩编码的极限速率为8 0 一l o o b i t s 。从标准编码速率到极限速率之间存在很大的差距，这对于理论研究和实践都存在极大的吸引力。语音压缩编码的推动力还在于：长期以来在通信网的发展中如何解决信息传输效率始终是一个关键问题。解决这个问题共有两个途径：一是研究新的调制方法与技术来提高信道的传输信息比特率；二是在信源上压缩信源的编码率。实际上，语音压缩编码与话音存储、语音识别和合成等技术都直接相关。而且，语音编码技术的进展对通信新业务的发展有着明显的影响。因此，i t u 才提出很多语音压缩编码标准建议以推动通信网的发展。 l 。3 语音编码技术的分类经过近5 0 年的发展，语音编码技术逐步形成了波形编码、参数编码和混合编码三大类。 ( 1 )波形编码所谓波形编码，就是对语音波形进行采样、量化，然后用二进制数表示出来。它的宗旨是在解码端尽可能准确的恢复语音信号的原始波形。这种技术包括： p c m 、d p c m 、d m 以及自适应量化的a d p c m 、a d m 、a t c ( 自适应变换编码) 、s b c ( 子带编码) 技术。由于波形编码器结构简单，没有充分利用语音信号的冗余特征，只有在较高速率上才可以得到满意的语音质量。当编码速率下降到1 6 k b s 以下时，编码语音质量迅速下降。这类算法结构简单，易于实现，且鲁棒性强t 可适应不同的信号。 ( 2 )参数编码所谓参数编码，就是以语音信号产生的数学模型为基础，根据输入语音信号分析出模型参数，然后在解码端根据这些模型参数来恢复语音。这种编码算法并 ! ：i 塑! ! 尘堂塑! ：坐丛生兰些! ! = j ! ：堑些兰兰坐鲨查些壅些堕! ! ! 垄不忠实的反映输入语音的原始波形，而是着眼于人i e 的听觉特征，确保解码语音的可懂度和清晰度。基于这种编码技术的编码系统一般称为声码器，它主要应用是在窄带信道上提供1 6 k b s 以下的低速率语音通信和一些对时延要求较宽( _ f ( 【l 卫星通信) 的场合。当前参数编码的研究方向主要是线性预测( l p c ) 声码器和余弦声码器。 ( 3 )混合编码技术 8 0 年代以来，最广泛研究的语音编码算法是基于线性预测技术的分析合成算法，简称l p a s 。现在一般部把以l p a s 为基础的用矢量量化( v q ) 技术对激励信号进行量化的编码算法统称为c e l p 。c e l p 具有波形编码和参数编码两方面的特点，因此也叫混合编码。它在4 k b i t s 到1 6 k b i t s 速率下得到比其他算法更高的重建话音质量。目前，以c e l p 为基础的多种算法已经成为国际标准，其中包括：i t ug 7 2 8 的1 6 k b i t s 的l d - c e l p ，北美数字蜂窝通信标准的8 k b i t s 的 v s e l p 及美国联邦通信标准( f s l 0 1 6 ) 的4 8 k b i t s 的c e l p 等算法。 1 4 语音编码技术的发展方向现代中低速语音编码体制主要沿两个方向发展，即码本激励线性预测编码 ( c e l p ) 和多带激励编码( m b e ) 。两个方向处理的注意力都集中在如何提供高质量、低码率、鲁棒性好、编码延时合适的编码体制。码激励线性预测( c e l p ) 以语音线性预测模型为基础，使用分析合成方法，对余量信号采用了矢量量化。但是，c e l p 有两个重大缺点：其一，当编码速率从4 8 k b s 进一步下降时，由于没有足够的比特表示激励矢量，余量信号的量化将产生较大的误差，从而导致合成语音质量迅速下降；其二，由于c e l p 的总体编码方案是建立在分析合成基础上的，其本质属于波形编码。对含环境噪声的语音，c e l p 一方面有保留环境噪声的倾向，另一方面在分析时又尚未解决准确提取语音参数的问题，因此它的编码性能也将恶化。在4 8 k b s - - 1 6 k b s 范围内， c e l p 是较好的选择方案。多带激励编码( m b e ) 将语音谱分成若干子带，根据各个子带的清浊音判决结果采用不同激励信号产生总的合成信号。它本质上属于参数编码，并不要求合成的语音在波f gl - 和原始语音近似，仅要求合成语音的音质良好。r a 于m b e 属于 4 l t j t | _ | | f 1 u 人学d 宄生 # 业沦立低鹇# 声蚂措其寸寓脱们f l j f ) 【参数编码，可以采用现代语音处理的先进技术提取合成所需的参数，尽量保证所提取参数的准确性，这对m b e 体制的抗环境噪声能力有利，并且可以设法使用尽可能少的比特率来对参数进行编码，以使得在较低的比特率条件下达到优良的合成语音。在2 4 k b s 一4 8 k b s 范围内，m b e 是较好的选择方案。 1 5 语音编码的主要技术指标语音压缩的技术指标主要包括四个：比特率、时延、复杂度和语音质量。在不同的应用中，可能强调不同的指标。在这种情况下，可以通过放宽其他性能指标的要求来保证关键性能指标的实现。 1 比特翠降低比特率往往是语音编码的首要目标，它直接关系到传输资源的有效利用和网络容量的提高。根据比特率和输入语音的关系可以将编码器分成两类：固定比特率和可变比特率编码器。固定比特率编码器的范围大致在o 8 6 4 k b i t ，s ，其中保密电话的比特率为 08 4 8 k b i t s ，数字移动电话的比特率为3 3 1 3 k b 甜s ，普通电话的比特率为 1 6 6 4 k b i t s 。可变比特率编码是近年出现的新技术。根据统计，两方通话是大约4 0 的时间是真正有声音的。因此，在有声时，采用固定比特率编码：在无声时，传送极低比特率信息( 如背景噪声特征) ，甚至不传任何信息。可变比特率编码主要包含两个算法：一是有声检测( v a d - - v o i c ea c t i v i t yd e t e c t i o n ) ，主要用于确定输入信号是噪音还是背景噪声。二是舒适噪音生成( c n g - - - c o m f o r t a b l en o i s e g e n e r a t i o n ) ，主要用于接受端重建背景噪声。 2 时延时延是一个语音编码系统的重要指标，不同的应用环境对时延的要求可能相差极大。如果一个语音编码器用于实时对话系统，那么超过3 0 0 m s 的时延就会让通话者感到不能忍受，我们称这类系统为对时延敏感的系统；而在一些象语音存储、语音下载的系统中，3 0 0 m s 的时延对用户来说是没有任何消极影响的，北京邮l u 人学坝17 1 i j l 宄生毕业论立低蚂半声鹏器实时实她的4 , 1 f j 我们称这类系统为对时延不敏感的系统。个系统的总系统时延包括算法时延( 帧长+ 预视长度) 、复用时延、处理时延、传输时延。 3 复杂度复杂度决定了编码器硬件的成本和功耗，也影响编解码器的适时性。通常编码算法都在d s p 芯片上实现。复杂度的衡量指标为定点d s p 实现所需的处理能力( 以百万指令秒( m i p s ) 为计量单位) 以及所需的r a m 容量。一般来说，压缩的比特率越低，其复杂度越高。 4 语音质量语音编码后，再生语音质量包括清晰度和自然度。前者衡量语音的可懂程度，而后者衡量对讲话人的辩识水平。 m o s ( m e a no p i n i o ns c o r e ) 分 m o s 是一种常用的主观判定方法，以其平均主观打分来度量，用五级确定语音的质量等级，分为优、良、中、差、劣五级。m o s 4 0 为高质量语音，称为网络质量，接近信道透明编码：m o s 3 5 称为通信质量，指质量有所下降，但还不妨碍正常通信：合成语音有较高的可懂度，但自然度不够，一般不操过m o s 3 o ；高质量语音频带在7 k h z 以上，m o s 分可达5 。衡量语音质量的客观度量一般有两种方法：音韵字可懂测度d r t ( d i a g n o s t i c r h y m et e s t ) 和满意度测度d a m ( d i a g n o s t i cr h y m et e s 0 。 1 6 语音编码的基本原理以及相关技术一语音生成的数学模型 6 ：i l 京l l | | j i b 人学坝i i i j 冗生毕业论上【乇蚂半声f l 器实时蛮观的l i j | 咒图2 1 上图是语音生成数字模型。它由声源和声道两部分组成。声源包括激励信号和增益g 。浊音激励源为一串周期性的脉冲，脉冲周期即基音周期；清音的激励源为噪音信号；增益反映信号的强弱。声源决定了语音信号频率的精细结构。声道由声道滤波器和辐射滤波器组成，前者可用全极型或极零型滤波器近似，后者反映了气流经嘴唇向外辐射后的衰减，衰减幅度为倍频程6 d b 。一般将二者合为一个滤波器，它决定了话音频谱的包络特性。该模型的局限在： a 该模型假设语音参数变化缓慢，即是短时平稳的。对一些变化较快的语音，这个模型就不太好，但仍然可用。 b 合成滤波器在此模型中一般用全极点的，但有些音要求有零点。解决的方法是在合成滤波器的传输函数中引入若干传输零点，但这将使模型复杂化；另一种方法是适当提高阶数p ，这使得全极点模型能更好地逼近既有极点又有零点的传输函数。 c 浊音、清音两种激励这种简单的二分法对浊擦音来说是不适用的，这需要更细致的激励模型。上述数字模型表明声码器进行语音编码时需要包含以下4 类参数：若干定义声道共振特性的滤波器系数。一个二进制参数，指明激励源是清音还是浊音。激励源能量值。基音周期值。二线性预测分析 i 【乇：。屿半，打f i 马措。央时。耍脱的6j f 。苑线性预测分析法是最有效的语音分析技术之一。在估计基本的语音参数方面，这种方法已经成为一种主要的技术了。线性预测分析所包含的基本概念是：一个语音抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值，能够决定唯一的一组预测器系数。这种方法的重要性既在于它能够极为精确地估计语音参数，又在于它的相应计算速度比较快。图2 2 给出了图2 1 语音生成模型的一种特殊形式，它适用于线性预测分析的讨论。在此情况下，辐射、声道和声门激励的组合谱效应用一个时变数字滤波器来表示，其稳态系统函数的形式为：一器2 面g 捌) 这个模型的主要优点在于可以用线性预测分析法对增益参数g 和滤波器系数 a 。进行非常直接而且高效率的计算。图22 简化语蓄严生硬型的万妖倒对于图2 2 所示的系统，语音抽样s ( n ) 和激励信号u ( n ) 之间的关系可用下列简单的差分方程来表示： 5 ( ) = 羔黜( n 一七) + g “( n ) 式( 2 2 ) k l 我们把一个预测系数为a k 的线性预测器定义为一个给出如下输出的系统： f ( 月) = 艺a t s ( n 一女) 式( 2 3 ) 氐鹇半声6 - q 器实时。英脱的1 l 肝充线性预测分析的基本问题是由语音信号直接决定一组预测系数 nk 它的原则是通过式( 2 1 ) 可以对语音谱的性质得到良好的估计。基本的途径是求出一组预测器系数使得在一段短语音波形中均方预测误差最小。所得到的参数就被“认为”是语音产生模型中系统函数h ( z ) 的参数。可以证明，通过令均方预测误差( 对所有时间取平均) 为最小值所求得的预测器系数与式( 2 2 ) 的系数相同。以最小均方误差作为估计模型参数的基础，理由在于这可以引出一组线性方程，能够高效的求解这一组方程以获得预测器参数。短时平均预测误差定义为： b = e ：( m ) 广p 2 = h ( m ) 一吼s 。( m t ) f 式( 2 4 ) ml 女t l j 只要令磐：0 ( i = 1 ，2 ，p ) ，我们就能得到使式( 2 4 ) 中的e 。达到最小值的 d a - 各个ak 值，由此可得方程：杰口y 。( f ，) = 妒。( f ，o ) ， i = l 2 ，p式( 2 5 ) i ；l 其中：眠( f ，七) = s 。( m - i ) s 。( m 一) m 为了求解最佳预测系数，我们必须首先算出1 l r 。( i ，k ) ( 1 2 i 2 p ，1 2 k 。p ) 。一旦算出这些数值，我们只需解出式( 2 5 ) 就可求得预测系数。由式( 2 4 ) 的m 的取值范围不同可以得到以下两种方法： a 自相关法求和范围的方法之一是假定波形段s 。( m ) 在间隔0 = n = n 一1 以外等于零a 在此情况下，已可以表示为： + p l e 。= p ：( m ) m = o 在此情况( f ，| ) 即等于短时自相关函数取( 1 - k ) 点的值，就是说帆( f ，k ) = r n ( 1 - k ) 其一p 尺。( ) = j ，( m ) s ，( m + ) b 协方差法求和范围的方法之一是先把计算均方误差的间隔固定下来，再研究它对计算y 。( f ) 的影响，也就是说如果我们定义：则眠( f ，k ) 成为 e = e ：( 研) n l ( f ，) = s 。( m - i ) s 。( m - k ) l - i = po = k = p 综上可知，因对被分析语音段所下的定义不同，可以得到两种不同的分析方程。对自相关，信号用一个n 点的窗加以窗化，帆( f ，自) 这个量用短时自相关函数求得。所得到的相关矩阵是托伯利兹的，由此引出一类预测器系数解法。对于协方差法，假定信号在p _ n = n 1 范围内是已知的。在此间隔以外的信号不必加以考虑，因为在计算时只需间隔以内的数值，在此情况下得到的相关矩阵是对称的但不是托伯利兹的。其结果是，两种相关的计算方法导致分析方程组的两种不同解法，而且使预测器系数具有某些不同的性质。在语音编码协议中，一般采用第一种方法，使用德宾递推算法来计算预测器系数。三分析合成方法( a n a l y s i s b y s y n t h e s i s ) 分析合成法即是将综合器引入编码器，使之与分析器相结合，在编码器中产生与译码器端完全一致的合成语音，将此合成语音与原始语音相比较，根据一定的误差准则，来调整计算各个参数，使得两者之间的误差达到最小。 g 7 2 8 ，g 7 2 9 和g 7 2 3 1 都采用了合成分析方法，其原理结构如下图所示：北京【| | ：f 乜人学岫f ：f l j | _ 宄生毕业沦史低妈半声码器实i i , 实眦的f i j ) c 四矢量量化技术矢量量化的过程是：将语音信号波形的k 个样点的每一帧或有k 个参数的每一参数帧，构成k 维欧氏空间中的一个矢量，然后对此矢量进行“集体”量化。通常所讲的标量量化，也可以说就是k = 1 的一维矢量量化。矢量量化的过程与标量量化相似：在标量量化时，在一维的零至无穷大值之间设置若干量化间隔，当某输入信号的幅度值落在某相邻的两个量化间隔之间时，就被量化为陔两阶梯的中心值。而在矢量量化时，则将k 维无限空间划分为m 个区域边界，然后将输入信号的矢量与这些边界值进行比较，并被量化为“距离”最小的区域边界的中心矢量值。由此可见，这里主要有两个问题：( 1 ) 如何划分m 个区域边界。这需要用大量的输入信号矢量，经过统计实验才能确定。这个过程称为“训练”或建立码本。方法是：将大量欲处理的信号的波形帧矢量或参数帧矢量进行统计划分；进一步，确定这些划分边界所对应的中心矢量值来得到码本。( 2 ) 如何确定两矢量在进行比较时的测度。这个测度就是两矢量之间的失真度。失真度是描述：当输入矢量用码本所对应的矢量来表征时，所应付出的代价。输入矢量被量化之后，得到的是：在码本中与该矢量之间具有最小失真的某码矢量的角标。这些角标就可以作为存储和传输的参数。在恢复时，只需按此角标从码本中找出相应的码矢量参数，直接复原或进行反变换，就可以得到恢复的时域信号了。由此可见，矢量量化兼有高度保密的优良性能。矢量量化的原理框图如下：化。信道语音处理中的矢量量化一般分为语音波形的矢量量化和语音参数的矢量量怔蚂 - 卢鹏：实时盛眦的川，语音波形的压缩编码，过去一般采用标量量化。但当传输速率降到8 k b i t s 以下时，性能就迅速变坏了。由先农信源编码理论可知：对由多个样本组成的矢量进行整体量化，总是要比对各个样本的标量量化优越。但是。这要遇到两个问题：( 1 ) 当维数k 增大时，会导致运算量和存储量按指数上升，也就是复杂度增加很快。虽然，人们可以在码本构造、搜索算法方面部分的解决这个问题，但k 的增大仍是匿难的。( 2 ) 在合成时会出现语音波形的不连续现象。特别是在低码率的时候显得更为突出，因为这时矢量的个数相对的少了，这个问题可以用交叠一些样本来构成矢量的方法得到缓解，或者有剩余误差序列来构成矢量而不用波形直接构成矢量。将语音信号先经过各种分析方法，得到各种参数，然后再将这些按帧或者按段分析所得的参数构成矢量，进行矢量量化。这种方法称为“参数的矢量量化”。如在g 7 2 3l 语音编解码协议中，对线性预测系数( l p c ) 系数的量化就采用了线性预测分段矢量量化方法，即：先用前一帧的线性预测系数对当前帧的系数进行线性预测，然后对预测的误差矢量进行矢量量化。把十维矢量分成三段，分别对3 维、3 维、4 维矢量进行矢量量化。五基音搜索基音搜索在语音压缩、语音识别和语音合成中扮演着非常重要的角色a 如何获得准确的基音估计是语音分析中的一个重要的问题。基音搜索算法可以分成两大类：一类算法使用语音信号的频域特性；另一类算法使用语音信号的时域特性。时域算法基于语音波形的相似性，典型的算法有平均幅度差异函数捡测法 ( a v e r a g em a g n i t u d ed i f f e r e n c ef u n c t i o r t ) 和自相关检测法( a u t 0 - c o r r e l a t i o n ) 等a 时域检测法的算法复杂度小于频域检测法，所以应用的范围较广。以下给出a m d f 和a u t o c o r r e l a t i o n 检测法的基本表达式。短时的a m d f 可以如下定义： 1n l 、e 腑( f ) = 寺m s ( 川) 1 t - = t r n i n ，t m 戤 n = o 低鹕半声码赫寅时实现的 i j f ，c ”= a r g mine,imi)fl i - f l a x ( ，) j ，有时为了减少计算量，可以采用可变长度的计方法 e “( r ) = ) 一s ( n - t 1) l 卜l n = 0 短时自相关检测法可以定义如下：一l 旯( ，) = j ( ”) s ( 丹+ ，) t = t m i t m “ f m a x = a r g m n r ( t ) 】 t = t r a i n 有时为了减少计算量，可以采用可变长度的计方法： 1p - i r ( f ) = s ( ”) j ( + f ) n = 0 在c e l p 编码方案中，进行基音预测主要有两种方法：一是开环法，即在原语音信号残差( 此残差由l p c 分析得到) 的基础上再进行一次预测，采用的准则为最小均方误差准则。二是闭环法，即把c e l p 方案中决定最优激励的分析合成过程( a b s ) 用于基音预测，所采用的准则是感觉加权最小均方误差准则。开环法虽然结构简单，计算量小，但预测增益要比闭环法小( 约2 d b ) 。由于在闭环法中采用了感觉加权最小均方误差准则，所以在鲁棒性( r o b u s t n e s s ) 上，闭环法要明显优于开环法。在g 7 2 3 1 协议中，开环基音周期的搜索采用的是基于加窗信号自相关的方法。搜索是在整数时延处进行的。闭环基音周期的搜索是在开环基音的附近进行搜索的。六。码激励线性预测编码( c e l p ) 在速率低于l b i t ，采样的情况下，采用矢量量化技术表示波形是非常有效的。 1 9 8 5 年提出了用矢量量化码本中的码字作为激励源的线性预测编码技术。码本 1 4 低鹚：# 声妈器实寸实现的 i j l “ 第二章：g 7 2 3 1 协议介绍 g 7 2 3 1 协议是为适应因特网上的视频点播和i p 电晒等业务需要而提出的。首先，它的码率较低，这样就可以用更多的比特位来表示图象信号：其次，它的时延比较大，每帧的算法时延就有3 7 5 m s 。这是因为它用于因特网上的i p 电话，可以容忍较大的时延。我们的声码器是针对网上的多媒体业务的，所以选用了 g 7 2 3 1 协议。 2 1 g 7 2 3 1 协议简介 1 适用范围本协议用于以得到很低速率的语音压缩信号和其他多媒体服务的音频压缩信号。设计时主要设计的用途是作为h 3 2 4 协议族的一部分用于可视电话系统。 2 比特率本协议包括两个速率：5 3 k b s 和6 3 k b s 。在编码器和解码器中，两种速率都必须实现。在3 0 m s 的帧的边界，两种速率能相互切换。 3 输入信号本协议用于压缩语音信号，音乐和其他音频信号也可以用本协议来压缩，但可能效果会比不上语音信号。 4 延时本协议的编码器以3 0 m s 为一帧，此外，有7 5 m s 的预视，因此，总共有3 7 5 m s 的算法时延。在实现时的其他时延包括： i 1 编码解码时的处理时延。 n 在信道内的传输时延。 i i i l 复用时由于缓冲带来的时延。 2 2 编码原理编码器的输入信号是1 6 b i t 的线性p c m 码。它是先对模拟信号进行滤波北京“：l u 人学坝坪究生毕业论文低吗半声鹅器实1 1 l f 唼脱的亢孵以8 0 0 0 h z 速率进行抽样，再把抽样信号转换为线性p c m 码而得到的。解码器的输出应该以同样的方式转换为模拟信号。编码的基本原理是线性预测分析合成原理，以感觉加权误差最小为准则。每帧为2 4 0 个抽样，在8 0 0 h z 的抽样速率下每帧的时问是3 0 m s 。每帧先进行高通滤波以消除直流信号，然后每帧信号被分成4 子帧，每子帧含6 0 个抽样。接下来对每子帧计算1 0 阶线性预测滤波器( l p c ) 系数。对最后一子帧的l p c 系数使用预测分维矢量量化器( p r e d i c t i v es p l i tv e c t o rq u a n t i z e rp s v q ) 进行量化。未被量化的l p c 系数被用来构建短时感觉加权滤波器，然后把信号用此感觉加权滤波器滤波，得到感觉加权信号。对每两子帧使用感觉加权信号计算开环基音周期l o l 。基音周期的搜索范围在1 8 到1 4 2 个抽样之间。然后，进行子帧处理。使用先前计算的基音周期构建噪音成型滤波器。然后计算l p c 合成滤波器，共振峰加权滤波器和噪音成型滤波器的联合冲激响应。使用开环基音周期和联合冲激响应计算出闭环基音预测器。这是一个5 阶闭环基音预测器。闭环基音周期和开环基音周期在数值上稍有差别。接着从目标矢量中减去闭环基音预测器的贡献。最后进行固定码本搜索，以得到激励信号的非周期部分。对高比特率编码器，使用的是多脉冲最大似然量化器( m u l t i - p u l s e m a x i m u ml i k e l i h o o d q u a n t i z a f i o nm p m l q ) ；对低比特率编码器，使用代数码本激励 f a l g e b r a i c c o d e e x c i t a t i o n a c e l p ) 。编码器模块图如下：北京邮z 也久学顿i j 研兔生鹭监论文侄乏鹅杠声鹇嚣寅时蛮j 址鹩 i j 圮 2 2 a 成帧( f r a m e r ) 编码器处理信号是以帧为单位的，每帧2 4 0 个抽样值a 每帧被分成两个部分，每部分有1 2 0 个抽样，对每部分分别进行基音估计。每部分再被分成两个子帧，因此，每帧信号共包含4 个子帧，每个子帧共有6 0 个抽样值a 2 2 2 高通滤波( h i g hp a s sf i l t e r ) 高通滤波的主要作用是去除输入信号里的直流分量，所用的滤波器的传输函数如下：北京邮i u 人! # 坝i ：l o f 冗生毕业论史低妈半声码器实时实现的 l i 宄即，= 走每 l 一二二二= 叫 1 2 8 2 2 3 l p c 分析( l p ca n a l y s i s ) 对每个输入的子帧进行l o 阶的线性预测分析。先对信号进行加窗处理，所用的窗是i 7 n ( h a m m i n g ) 窗。然后计算出1 1 个自相关系数。通过l e v i n s o n d u r b i n 递推算法来计算出l o 个线性预测系数( l p c ) 。每个子帧计算一组线性预测系数，得到4 组l p c 系数。这些l p c 系数被用来构建合成滤波器，它反映了语音信号的短时相关性。l p c 合成滤波器的定义如下： 1 a ，( z ) = 1 一 o - i ( _ 3 l 一f z 。 2 2 4 l s p 量化( l s pq u a n t i z e r ) 首先，进行7 5 h z 带宽扩展，然后，用预测分裂矢量量化的方法对l s p 系数进行矢量量化。量化的步骤如下： 1 1 l p c 系数a j 转化为l s p 系数p j l 。 2 ) 从l s p 系数p j 中减去直流分量p d c 得到p 。 3 、用前一予帧解码后得到的l s p 系数对这一子帧进行线性预测，预测系数为b = ( 1 2 1 3 2 ) ，当前子帧的值减去预测值得到残差矢量e 。 4 、把l o 维残差矢量分成3 段，每段分别是3 维，3 维，4 维的子矢量，对这三个子矢量分别用一个8 b i t 的码书进行量化，量化的准则是加权均方误差最小化。 5 、把码本搜索后得到的量化表的索引值传送到输出端。 2 2 5l s p 系数的解码( l s pd e c o d e r ) 解码l s p 系数的步骤如下： 1 1 由收到的索引值解码3 个残差子矢量，得到一个1 0 维残差矢量。北京j u 人坝f j 川“生毕业沧上骶避；年芦躺器妥毗蜒l 地鼢岍，0 2 ) 用i 讨一于帧解码后得到的l s p 系数对这一子帧进行线性预测，蛾差矢量加上预测矢量再加上自流分量就得到了l s p 系数的解码值。 3 ) 进行稳定性检查，如果不符合条件就进行调整。如果在调整之后还不能满足稳定性条件，就使用上一帧的l s p 系数。 2 2 6 l s p 系数内插( l s pi n t e r p o l a t i o n ) 在当前帧解码的l s p 系数p 。和前一帧解码的l s p 系数p n i 之间要进行线性内插，内插的结果再被转化为l p c 系数用以重构合成滤波器。内插表达式如下： o 。7 5 p n 1 + 0 2 5 p 。 i = 0 0 5 p + l + o 5 p 。 p l 0 2 5 p n 1 + 0 2 5 p n i 。2 p n i = 3 2 2 7 共振峰感觉加权滤波( f o r m a n tp e r c e p t u a lw e i g h t i n g f i l t e r ) 每个子帧都要使用未量化的l p c 系数构造一个共振峰感觉加权滤波器，这个滤波器的传输函数如下：形( z ) = 1 0 1 一2 1 ，? 1 0 卜2 , - j y ： 0 - j = 3 在上式中，y 。= o 9 ，yz ：0 5 。在构造好滤波器之后，每个子帧的信号都要通过该感觉加权滤波器得到感觉加权信号。 2 2 8 开环基音估计( p i t c he s t i m a t i o n ) 二! ! 塞型i ! ! ! 兰些坐! 壅生兰些堡兰堡坐兰兰坐竖盎坚兰些塑坐壅每1 ，贞信号要进行两次丌环基音估计，前两子帧和后两子帧各进行次。丌j ；i = 基音估汁是在经过感觉加权后的语音的基础上进行的。采用的估汁准则是自相关函数最大化。自相关函数的定义如下所示： 1 8 j c o l d ) ，则新的最大值被选定。如果j 和j 之间的差大于或者等于1 8 ，那么，只有c o l o ) 比c o l d 。) 大1 2 5 d b 时，新的最大值才被选定。 2 2 9 噪音成型滤波( h a r m o n i cn o i s es h a p i n g ) 为了提高合成语音的质量，需要构造一个噪音成型滤波器，这个滤波器的传输函数如下所示：只( z ) = 1 一屈“ l 的选取要最大化c p w ( ( j ) ，c p w ( i ) 的定义如下： c 一舻矿塑l ，l 。q 吼2 f n - j 4 f i n - j 其中： ( ，) = ，m + f i n 一门 l = l 。一l ，l z = l 一3 上式的最大值定义为c l 最优滤波器增益g o p t 如下式所示： l ! i t 乜人学坝i i l j f 究生毕业| 立低蚂：爷声：实时实脱的 l j | _ “ g ，w =5 9 f i n g 。的范围在【o ，u 2 _ f 自l ，感觉加权语音信号的能量e 为 5 9 e = 厂2 伽】噪音成型滤波器的系数g 由下式给出否则，i t = o 。 = 0 3 1 2 5 g , , 如果删咱。( - 一鲁) 观。 2 2 1 0 计算冲激响应( i m p u l s er e s p o n s ec a l c u l a t o r ) 为了进行闭环分析，需要计算出语音合成滤波器，感觉加权滤波器和噪音成型滤波器的联合冲激响应，联合滤波器的传输函数的表达式如下： s 。( z ) = 互( z ) 彬( z ) 只( z ) 0 s i 墨3 2 2 11 零输入响应的计算( z e r oi n p u tr e s p o n s e a n dr i n g i n g s u b t r a c t i o n ) 通过把值为零的输入信号输入联合滤波器，得到联合滤波器的零输入响应。然后在感觉加权语音信号里减去零输入响应得到码本搜索的输入信号。 2 2 12 基音预测器( p i t c hp r e d i c t o r ) 基音预测器的作用类似与传统的自适应码本的作用。在g 7 2 3 1 中，基音预测器是一个5 阶的预测器。对子帧0 和2 来说，闭环基音周期在开环基音周期 i t 京0 1 1 ；i u 人学f l ! ；! i + i j f 宄生毕业论文 f 【乇半h “屿群耍寸其i 驰的i ij l i ( - 1 + 1 ) 的范围内搜索，被编码为7 b i t 。对子帧l 和3 来浇，闭环基音周期用2 b i t 柬编码，表示与前一子帧的闭环基音周期的差异( 1 0 ，+ 1 ，+ 2 ) 。从这儿丌始，被量化的壁音周期被称为l 。对于高速率( 6 3 k b s ) 来说，基音预测器的增益使用两个码书来进f j = 矢量量化，一个具有8 5 个量化矢量而另一个具有1 7 0 个量化矢量。对于低速率( 5 3 k b s ) 来说，基音预测器的增益使用一个具有1 7 0 个量化矢量的吗书来进行矢量量化。具有1 7 0 个量化矢量的码书对高速率( 6 3 k b s ) f t i 低速率 ( 5 3 k b s ) 来说都是相同的。对于高速率( 6 3 k b s ) 来晓，当第0 个子帧的闭环基音周期l o 或第2 个子帧的闭环基音周期l 2 小于5 8 时，就采用具有8 5 个量化矢量的码书进行量化；否则，就采用具有1 7 0 个量化矢量的码书。最后，应该从感觉加权语音信号中减去自适应码书的作用而得到残余矢量，作为固定码本搜索的输入信号。 r

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）低码率声码器实时实现的研究.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）低码率声码器实时实现的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档