（通信与信息系统专业论文）mpeg4语音编解码算法及其实现研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-20 格式：PDF 页数：55 大小：1.50MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（通信与信息系统专业论文）mpeg4语音编解码算法及其实现研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要数字信号熬俦翰积存耱，无论在可靠往、魏予魏洼、缀整性还楚徐嵇骞面都远优于模拟信号，但数字话后的信号所占频带大大加宽，因此必须对数字信号进行压缩编码以减少信号所占的带宽。在语音处理领域，语音压缩编码技；乏已发展了近二十年，取锝了谗多成功，其中i s o 组织予1 9 9 6 年制定的m p e g 一4 c e l p 语音压缩缡筠昧准是整蒙熬或采之一，包括了璃率范圈为2 2 4 k b s 酶码率，麓提供很好的合成语音。骐针对的应用从移动卫星通信到i n t e m e t 技术，多媒体包装和语音数据库。在本论文中我们实现了其软件编解码，合成的语音有较高的犏鼹囊量。考您到实际系统的蛙玲比，我们鞋n 公司熬t m s 3 2 0 v c 5 4 0 2 芯片为硬件系统，实现了8 k 采榉矢量量亿参数的编码算法。论文第一章分绍了当今浯署编码的发展。第二章介绍了语音编码的理论背景。第三章介绍了编码算法和解隅算法。第四章介绍了具体实现方案。第五章对本论文做了简要总结。关键词：语音压缩m p e o - 4c e l p 弼激励线性预测d s p a b s 仃a c t i nc o m m u n i c a t i o ns y s t e m s t h ed i g i t a ls i g n a lp o s s e s s e sam u c hb e t t e rq u a l i t yt h a nt h ea n a l o g s i g n a lw i t hi t sh i g h e rr e l i a b i l i t y , h i g h e rs e c n d t y ，a n dl o w e rp r i c e h o w e v e r ，t h ed i g i t a ls i g n a lh a s i t so w nd i s a d v a n t a g e s f o re x a m p l e ，i t n e e d s h i g h e r b a n d w i d t h st h a nt h e a n a l o gs i g n a l c o n s e q u e n t l y , i no r d e rt or e d u c et h eb a n d w i d t h ，w em u s tt a k ea c t i o n st oc o m p r e s st h eo r i g i n a l d i g i t a l s c i e n t i s t s h a v eb e e ns t u d y i n gt h e s p e e c hc o m p r e s s i n gt e c h n o l o g ya n dh a v eg o tr n a n y v a l u a b l ea c h i e v e m e n t ss i n c et h e19 8 0 s m p e g - 4c e l pi so n eo ft h ei m p o m a n ta c h i e v e n l e n t s w i t hh i g hv o i c es y n t h e s i sq u a l i t ya tt h er a t eo f2 2 4 k b s i tc a nb ea p p l i e df r o mm o b i l es a t e l l i t e c o m m u n i c a t i o nt om u l t i m e d i ap a c k a g ea n ds p e e c hd a t a b a s ei nt h i sp a p e r , w er e a l i z et h e a l g o r i t h m s c h a p t e r 1 p r e s e n t s t h e d e v e l o p m e n to fs p e e c hc o d e c h a p t e r 2 p r e s e n t s t h e b a c k g r o u n do fs p e e c hc o d e c h a p t e r3p r e s e n t st h ea l g o r i t h m so fe n c o d ea n dd e c o d ec h a p t e r4 p r e s e n t st h ei m p l e m e n t a t i o no f t h ea l g o r i t h m c h a p t e r5g i v e s t h es u m m a r yo f t h i sp a p e r k e yw o r d s ：s p e e c hc o m p r e s s i n g m p e g - 4c e l pd s p 南京航空航天人学硕士学位论文第一章绪论声音是人类交流和传递信息的主要手段。作为最主要的信息传递途径之一，声音通信方式方便、快捷，在通信系统中占有非常重要的地位。但是人类的语音都是以模拟信号形式传输的，虽然模拟通信技术已相当发达，但是传输的效率不高，而且传输不是特别可靠、高效。因为模拟信号在传输一段距离后会减弱，当信号变弱时，必须对他们定期放大。这种信号放大既加强了语音信号，也加强了背景线路噪声，要将复杂的模拟语音信号和传输噪声区分开来是很困难的。克服以上缺点的有效方法是对语音进行数字化处理，以充分利用现代数字技术发展的成果。但是语音数字化以后，依照抽样定理，比特率大幅一h 升，这为传输带来了很大的困难，同时，也使它的应用受到限制。因此，需要对其进行压缩编码，压缩后的数字化语音传输具有以下优点：( 1 ) 便于与其它数字化信源集成，便于接口和标准化。( 2 ) 加密容易，保密性强，可以充分利用现有的硬件和软件手段。( 3 ) 加纠错编码后，抗信道干扰能力强，便于传输。( 4 ) 压缩后的数字化语音有利于提高话路容量，提高传输效率。( 5 ) 语音的数字化便于计算机的处理。但是数字化后信号的传输需付出大的多的信道带宽代价，因此研究声音信号的压缩技术是非常必要的。 1 1 语音编码的分类语音压缩编码归纳起来可以分为三大类：波形编码、参数编码和混合编码。一波形编码语音信号的波形编码力图使重建语音波形保持原语音信号的波形形状，也u 口失真要最小。这类编码器通常将语音信号作为一般的波形信号来处理，它具有适应能力强、语音质量好等优点。但所需的编码速率高。波形编码比较简单，编码前有采样定理对模拟语音进行量化，然后进行幅度量化，再进行二进制编码。解码器作数模变换后再由低通滤波器恢复出原始的模拟语音波形，这就是最简单的脉冲编码调制( p c m ) 。自适应增量调制( a d m ) 、自适应差分编码( a d p c m ) 、自适应预测编码( a p c ) 、自适应子带编码( a s b c ) 、自适应变换编码( a t c ) 等都属于这类编码器。波形编码的方法简单，码率较高，在3 2 k b i t s 至6 4 k b i t s 之间音质优良 1 ，当码率低于k b i t s 的时候音质明显降低，1 6 k b i t s 时音质：怍常差 1 。二参数编码参数编码又称为声码化编码、模型编码，它通过对语音信号特征参数的提取和编码，使重建语音信号具有尽可能高的可懂性，而重建语音信号的波形和原始 m p e g 4 语音编解码算法及其实现研究语音信号的波形还是会有相当大的差别。这类编码器的主要优点是编码后的码率可以做的很低，如1 2 k b i t s 、2 4 k b i t s ；但是同时也有缺点，首先是合戈语音质量较差，往往是清晰度可以而自然度较低，而且复杂度比较高 3 。其次，这类编码器对环境噪声较敏感，需要安静的讲话环境爿能给出较高的可懂度，通道声码器、共振峰声码器以及线性预测声码器都是典型的参数编码器。三混合编码混合编码是将波形编码和参数编码结合起来，尽量保持波形编码话音的离质量与参数编码话音的低速率。混合编码数字语音信号中既包括若干语音特征参鞋又包括部分波形编码信息。音质只比波形编码稍差，复杂度介于波形编码和参数编码之间 3 。多脉冲激励线性预测编码( m p l p c ) 、规则脉冲激励线性预测编码 ( r p e l p c ) 、码本激励线性预测编码( c e l p ) 等都属于混合编码。总的来说，现在的语音编码以混合编码为主，这有两层含义：激励的混合，达到更精确的表示残差信号；编码方式的混合，综合波形编码和参数编码的优点，从而获得更高的质量。但是在1 2 k b i t s 以下更低的速率，由于受各种手段的限制，还没有比较成熟的编码方法 3 。 1 2 肝e g 一4 音频标准目前正在发展的m p e g 一4 标准，其目标是提供未来的交互式多媒体应用。 m p e g 一4 制定出的是与以往不同的、具有高度灵活性和可扩展性的未来新一代i 国际标准。与以前音频标准相比，增加了许多新的关于合成内容及场景描述等j 页域的工作。增加了诸如可分级性、音调变化、可编辑性及延迟等功能。m p e g q 音频将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等合并在一起，给予了高度的灵活性。 m p e g 一4 中关于音频信号的编码包括：传统的音频编码标准，h 口所谓“j j 然音频”和新颖的“结构音频”以及自然和合成混合在一起的“合成自然混合编码”。一传统的自然音频编码 m p e g 一4 的编码工具不再仅限于支持码率的减少，其各种不同的工具支持从智能语音到高质量多声道音频信号，以及此范围内的音频信号质量。m p e g q 标准的自然音频编码将码率范围规定为每声道2 k b i t s 6 4 k b t s 。在如此宽的范围内定义t - - 种类型的编码器。在最低的码率范围2 k b i t s 6 k b i t s 之间使用的是参数编码 8 ，最适合于采样率为8 k h z 的语言信号；在6 k b i t s 2 4 k b it s 的码率范围内使用的是码激励线性预测编码 9 ，就是c e l p ，支持采样率为乩l i z 和1 6 k h z 的语言和音频信号；在最高的1 6 k b i t s 6 ，i k b i t s 的码率范目内使用南京航空航天大学硕士学位论文的是时间频率编码技术 8 ，如高级音频编码( a a c ) 标准，支持采样率为8 k t z 9 6 k h z 的任意音频信号。二新型的结构音频标准 m p e g 一4 标准不光包括传统的编码方法，还提供了有关合成、音视频场景、合成与自然内容的同步和时空联合等方面的描述。结构音频标准提供了关于合成音乐、声音效果、交互式多媒体场景下合成声音与自然声音的同步等方面的描述，是一种很灵活的工具，支持其他编码无法实现的交互式功能。三合成自然混合编码合成自然混合编码联合了自然和合成音频编码工具，带来许多优点。例如一个音轨可以由两个单独的音频对象组成，音轨可以使用c e l p 低码率语言编码器进行编码，而背景音乐可以使用结构音频的合成编码器。在解码器终端，这两部分分量被解码混合在一起。这种混合的过程在m p e g 一4 中定义为场景描述的二进制格式b i f s 。b i f s 在概念上类似于虚拟一现实描述语言v r m l ，但其音频分量在功能上被扩展了。b i f s 作为m p e g 一4 的系统工具被标准化。使用音频 b i f s ，音源可以被混合、分组、延迟、随同3 d 虚拟空间进行处理、使用信号处理功能进行译后处理并用结构音频命令语言传输作为比特流内容的一部分。对语言声音进行自然编码( 例如c e l p ) 可以获得良好的声音质量，但遇到回声、人工音乐等，则音质恶化，解决的办法则是在用户端使用结构音频命令描述的网声算法进行以后处理。合成自然混合编码综合了两者的优点，在带宽和声音质量上获得满意的效果。 1 3 论文研究的主要内容本课题所研究的是自然音频中的码激励线性预测编码( c e l p ) 。 m p e g 一4c e l p 编码是基于码激励线性预测( c e l p ) 声码器模型的。与通常的 c e l p 编码器一样，它也是由激励源和合成滤波器组成，在解码器中也同样，但还包含一后滤波器以增强重建语音的主观感知质量。c e l p 激励信号由自适应码本产生的周期信号和一个或几个固定码本产生的随机信号构成。在解码端，激励信号由码本索引( 自适应码本的基音延时及固定码本的索引) 和增益索引重建，然后将激励信号通过线性预测合成滤波器得到重建语音，合成滤波器的参数由相邻帧的l p c 参数通过线性插值得到，以获得较平滑的帧间过渡。与一般c e l p 不同的是m p e g 一4c e l p 提供了很大的灵活性。一般地，普通：e i j p 方案只针对特定应用提供所需码率下地压缩功能，而在m p e g 一4 中高质量音频信号压缩只是众多功能中的一项而已。m p e g 一4c e l p 主要支持以下4 个功能：；杉比特率，即支持从4 k b 到2 4 k b 的多种码率 9 ，如表1 - 1 和表卜2 所示；比特率可 m p e g 4 语音编解码算法及其实现研究调，对于8 k h z 采样的信号，可以2 k b p s 的步长调整码率 9 ；带宽可调，对于 8 k h z 采样的信号，在解码端为了增强重建信号的可懂度和自然度，解码可采用高频再生技术将信号带宽扩展到7 k h z 9 ；复杂度可调，对于1 6 k h z 采样，m p e g 一4 c e l p 提供3 种复杂度的解码。标摄量化矢量量化 4 3 2 5 ，4 7 2 5 ，5 1 2 5 ，5 5 3 4 ，5 8 3 43 8 5 0 ，4 2 5 0 ，4 6 5 0 ，4 9 0 0 ，5 2 0 0 6 1 3 4 ，6 6 5 0 ，6 9 5 0 ，7 2 5 0 ，7 5 5 05 5 0 0 ，5 7 0 0 ，6 0 0 0 ，6 3 0 0 ，6 6 0 ( ) 7 8 5 0 ，8 0 5 0 ，8 2 5 0 ，8 6 5 0 ，9 2 5 06 9 0 0 ，7 1 0 0 ，7 3 0 0 ，7 7 0 0 ，8 3 0 ( ) 9 6 5 0 ，1 0 0 5 0 ，1 0 4 5 0 ，1 0 8 5 0 ，11 2 5 08 7 0 0 ，9 1 0 0 9 5 0 0 ，9 9 0 0 ，1 0 3 0 0 11 4 5 0 ，1 1 6 5 0 ，1 2 9 0 0 ，1 3 3 0 0 ，1 3 7 0 01 0 5 0 0 ，1 0 7 0 0 ，11 0 0 0 ，l1 4 0 0 ，11 8 0 0 1 3 9 0 0 ，1 4 1 0 01 2 0 0 0 ，1 2 2 0 0 表卜18 k h z 采样率支持的比特率( b i t s ) 标量量化 i矢量量化 1 3 6 6 7 ，1 5 8 6 7 ，1 8 2 0 0 ，2 0 1 3 3 ，2 4 0 0 0 l1 3 2 6 7 ，1 5 0 6 7 ，1 7 0 0 0 ，1 9 3 3 3 ，2 3 2 0 0 表卜21 6 k h z 采样率支持的比特率( b it s ) 1 4 论文的安排论文各章节的主要内容如下：第二章主要介绍了与论文相关的理论背景和一些技术，例如语音的产生过程，数字模型，合成分析编码原理，线性预测分析基本原理了激励信号的生成。第三章，第四章主要介绍了m p e g 一4c e l p 编码器结构和解码器结构，以及编解码算法的软件实时实现的具体流程，并给出了实现结果。从结果上看达到了预期的效果。最后又给出了8 k h z 采样，矢量量化参数模式下，编码器在t m s v c 5 4 0 2 定点d s p 上实现的软硬件结构和软件优化等技术，最后给出了测试结果。第五章对全文进行总结，提出了自己的设想和待改进之处。 4 南京航空航天大学硕士学位论文第二章线性预测合成分析编码原理 m p e g 4c e l p 是基于线性预测合成分析原理的低比特率的混合编码器，以f 主要对语音产生过程、语音信号产生的数字模型及此类混合编码技术进行讨论。 2 1语音产生过程语音产生的大致过程可由图2 1 表示。从肺部压出的空气由气管到达声门，气流流经声门时形成声音，然后再经咽腔，由口腔或鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声管组成的声道，当腔体呈不同形状，舌、齿、唇等处于不同位黄时，相当于形成一个具有不同零极点分布的滤波器，气流通过该滤波器后产生相应的频晌输出，从而发出不同的音素。 i - 力图2 1 语音产生过程 ” ) ) ：盖，i ) ) ) 器音素可以分为两类。伴有声带振动的音称为浊音，声带不振动的音称为清音。由于声带振动有不同的频率，因此浊音就有不同的音调，称之为基音频率。气流压出的不同强度对应为声音的音量大小。浊音气流流经声道后，其幅频特性在声道的滤波作用下有两个显著的特点。一是幅频频谱的包络有几个明显的局部最大值，称之为共振峰。在这些频率点处，反射波相互迭加，声波能量加强。二是频谱的精细结构呈现周期性，即每隔定频率间距出现一个峰值，该间距对应的就是基音频率。对于浊音尤其是元音，频谱的前三个共振峰为特征共振峰，由于共振峰可以识别因素，而一个因素持续的时间相对较短，因此可以说频谱包络反映了话音怕短时相关性。而发话者基音频率的变化则比较缓慢，因此频谱的精细结构反映了话音的长时相关性。 m p e g 4 语音编解码算法及其实现研究 2 2 语音产生的数字模型人们通过对语音信号大量分析、模拟和试验，得到语音信号产生的数字模型，如图2 2 。在该图中清浊音开关模拟了加在声道上的激励的改变情况；当开二毛接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定：当丌关接在清音位置时，激励源是随机噪声发生器。图中的时变线性系统主要是用来模拟声道的特性。该系统的时变参数反映了语音的时变特性。增益控制代表了输出语音的音响强度。 l ! 型兰竺兰ik 清音1 时攀k 样值隔矿严f 掣黼胖恒 i 3 t , 4 ：n |增益控制i 图2 2 语音产生的数字模型 2 3 合成分析编码原理 m p e g - 4c e l p 是基于合成一分析法的线性预测编码方法，这是一种混合编码方法。线性预测技术就是用过去样点的线性组合来预测当前样点。假如用一f ，订代表原始语音信号，用线性预测的方法求出预测器的系数巩，构成线性预测逆滤波器，s ( h ) 通过该滤波器后得到了去除短时相关性的语音信号。再将其进行基音预测，建立基音逆滤波器，去除它的长时相关性后，就可得到最后的残差信号。残差信号是完全随机的、不可预测的部分。根据速率的不同要求，对残差信号采用不同的量化方法，从而得到不同的编码速率。让量化后的残差信号作为激励信号依次通过基音滤波器和线性预测滤波器后，便得到了合成语音信号。编码的过程就是不断改变模型参数，使模型更好的适应原始语音信号。为此又引入了合成分析的概念。同时，利用人耳的掩蔽效应，引入了感觉加权滤波器。综合以上两方面，可以得到如图2 3 所示的线性预测分析一合成编码的方框图。感觉加权的依据是人耳听觉的掩蔽效应。在语音频谱中能量较高的频段的噪声相对于能量较低频段的噪声而言不易被感知。因此在度量原始语音与合成语音之间的误差时可以计入这一因素，在语音能量高的频段，允许二者的误差大一些，反之小一些。为此可以引入一个频域感觉加权滤波器来计算二者的误差。感觉加权滤波器的频率响应中的峰、谷值f 好与语音谱中相反。作用是使实际误差信号南京航空航天大学硕士学位论文的谱不再平坦，而有着与语音信号谱具有相似的包络形状。这就使误差度量的优化过程与感觉上的共振峰对误差的掩蔽效应相吻合，产生较好的主观听觉效果。图2 3 线性预测分析一合成编码方框图合成一分析法的基本原理可以概括如下：假定一原始信号可以用一个模型来表示，这个模型又是由一组参数来决定的，随着这组参数的变化，模型所产生的合成信号也就不一样，原始信号与合成信号之间的误差也随之而变化。为了使模型参数能更好的适应原始信号，可以规定一个误差准则：当误差越小，模型合成信号就和原始信号越接近。这样总能找到一组参数，使误差最小，此时这组参数决定的模型就可以用来表示原始信号。根据合成一分析法进行语音编码时，一般在编码端配备编码和本地解码两个部分，配备本地解码的目的是完成合成功能，以便计算原始语音信号与合成语音信号之间的误差值。为了获得较好的语音效果，在分析合成语音与原始语音的误差时，采用感觉加权均方差技术，即将合成语音与原始语音的差值通过一个感觉加权滤波器，找出使得均方误差最小的一组语音参数。 2 4 线性预测分析基本原理语音的线性预测【1 6 】是表示语音信号波形的重要方法之一，其基本思想是：语音信号的每个取样值，可以用它过去的若干个取样值的线性组合来表示；各加权系数的确定原则是使预测误差的均方值最小。p 阶线性预测，是根据信号过去 p 个取样值 x ( 月一1 ) ，x ( n 一2 ) ，x ( n p ) 的加权和来预测信号当前取样值x ( n ) 。设预测值用x ( n ) 表示，a l 为预测系数则有；( ”) ：一妻q x ( n d 预测误差为 “p p ( ) = 石( n ) 一石( h ) = a i x ( r t f ) a o = 1 f = 0 ( 2 1 ) ( 2 2 ) 7 m p e g 4 语音编解码算法及其实现研究预测系数应按最小均方误差准则来确定，即占= e e 2 ( n ) 】_ m i n ( 2 - - 3 ) 为了根据式( 2 - - 3 ) 所表述的最小均方误差准则决定预测系数，对s 关于a i 求导数，并令所得结果等于零，即毒班卜掣 = o ，h 名p 训由式( 2 - - 2 ) 得掣：x ( 胛一f ) ，f ：1 ，2 ，p ( 2 。) 将式( 2 - - 5 ) 代入( 2 - - 4 ) 得 e e ( n ) x ( n f ) 】= o ，i = 1 ，2 ，p ( 2 6 ) 这是线性预测中一个很重要得结果，称为正交方程。它表明，预测误差与信号的过去p 个取样值是正交的。将式( 2 - - 2 ) 代入( 2 - - 6 ) 得 q e 【x ( h f ) x 一七) 】- o ，k = l 2 p a o = 1 ( 2 7 ) 如果信号得自相关函数用表示，即 r ( k f ) = e x ( n i ) x ( n - k ) , i ，k = l 2 p ； ( 2 一一8 ) 则式( 2 - - 7 ) 可写成如下简化形式： q 只( | i 一f ) = o ，k = l 2 pao=1(2-9) 在信号的自相关函数r ( k i ) 己知得情况下，解此方程组，即可求得线性预测系数a a ，这组预测系数是最佳的，因为能使预测误差的均方值最小。则式( 2 - - 3 ) 写成下面的形式： s = e e c 聍，( x c 一，+ 圭ta , x ( n - i ) ) 将正交方程( 2 - - 6 ) 代入上式，得到占的最小值矗。= e p ( ) x ( 月) 】( 2 - 1 0 ) 将式( 2 - - 2 ) 代入( 2 - - l o ) 得。= e ( 壹i = oq x c ”一。 x c ”， = e i i q x ( 川) ) l nj 南京航空航天大学硕士学位论文 p 利用式( 2 8 ) 得。= a , r ( k f ) ， k = o ，a o = 1 将式( 6 - - 9 ) 和计算最小均方误差的上式合并，最后得兰州h，=傺盎0(2-11)i=0【”，式( 2 - - 1 t ) 是著名得y u l e w a l k e r 方程。它是由p + 1 个线性方程构成得方程组其中包括p + 1 个未知数( p 个预测系数和一个最小均方误差值。) ，已知数掘是信号的自相关函数r ( k f ) 。显然，为解出所有的p + 1 个未知数，需要知道p + 1 个自相关函数值。 2 5 激励信号生成激励信号生成模型是声码器的主体部分，它通过分析比较大量激励源合成的结果，从中选出最佳匹配的激励信号。声码器编码输出的主要部分是激励信号。激励信号包括清浊音判定、基音周期和增益。清浊音可根据话音信号自相关函数归一化峰值电平来判定。若电平值大于给定阈值，则为浊音，否则为清音。如为清音，则激励源为随机信号。如为浊音则为准周期脉冲信号，激励源为空间位置有规律分布的脉冲串，脉冲位置间隔体现为基音周期，它决定了语音信号的长时相关性。如果长时相关也采用线性预测滤波器模型，该周期即对应为离散的时延。增益则是另一个参数。所以激励信号生成的主要问题是如何表示和选定浊音对应的脉冲源。一多脉冲激励其设计思想是只对激励信号的重要抽样编码，忽略其他抽样( 即将其置零) ，以此降低编码比特率。多脉冲激励信号用有限数量脉冲的幅度和位置表示为：一i “( ) = a f t - n , ) ( 2 一1 2 ) f - 0 式中口。，k 分别为脉冲幅值、脉冲位置和脉冲数，需要编码的信息只有脉冲位置和幅值。二规则脉冲激励其设计思想和多脉冲激励相同，但是为了降低复杂度，脉冲位置限定为间隔为s 的栅状结构，其激励信号表示为：型坼( 斤) = a f i ( n i s k ) k = o ，1 ，j l( 2 1 3 ) i = 0 在给定的子帧中只有s 个允许组合位置。激励信号搜索就是针对每种允i q ：l 内格栅位置计算脉冲幅值和相应误差，选定最佳逼近原信号的参数。 m p e g - 4 语音编解码算法及其实现研究三码本激励众所周知，采用矢量量化( v q ) 技术表示波形是非常有效的。码本激励的设计思想就是用v q 码本中的码字作为激励源。码本中每一个存储的码字矢量都可以代替余量信号作为可能的激励信号源。在编码时对码本中的码矢量逐个搜索，找到与输入语音误差最小的合成语音的激励码字矢量。只要将该码矢量的标号传送给收端，在接收端用存储的同样的码本根据收到的标号恢复出相应的码矢量作为激励。码矢量的搜索 1 一般用感觉加权的最小均方误差准则。令l 表示子帧的氏度，j 、s 和e 是l 维列矢量，分别表示原始语音信号、合成语音信号和加权误差信号。令v 表示正在搜索的激励矢量，i 表示码本中码矢量的标号，若码，忙中总共有个码矢量，则可记为x ( o ，i = 1 2 ，n 。若璺表示第i 个码矢量的增益，则激励矢量可写作： v ( i ) = g , x ( i ) ( 2 1 4 ) h 和是l 工维矩阵。它们的第j 行元素分别由l p 滤波器和误差加权滤波器对单位冲激6 ( t 一，) 的截断冲激相应组成。合成语音s 可以表示为激励信号与l l ，滤波器冲激响应的卷积加上它的零输入响应j ( 0 ) ： s ( j ) = s ( o ) + 0 + v ( i ) ) 日 ( 2 1 5 ) 式中的u 在第一级搜索时是零矢量，在第二级搜索时是经过幅度调整的自适f 丑激励矢量。加权误差信号p ( j ) 为： e ( i ) = 0 一s ( o ) w ( 2 - 1 6 ) 若用e ( 0 ) 表示搜索的目标矢量，则e ( o ) 为： e ( o ) = 0 - s ( o ) ) w i j i - 1 矿( 2 - - 1 7 ) 将式( 2 1 5 ) 和式( 2 1 7 ) 代入式( 2 1 6 ) 得 p ( f ) = p ( 0 ) 一v ( i ) n w ( 2 1 8 ) 如用y ( f ) 表示滤波后的码矢量，则： y ( i 1 = x ( o 肼r ( 2 1 9 ) 则第i 个码矢量的加权误差p ( f ) 是： e ( i ) = p ( o ) 一g ，y ( f ) ( 2 - - 2 0 ) 令e 表示相应于第i 个码矢量的误差的平方和：南京航空航天大学硕士学位论文 e = 1 1p ( f ) i i = p ( 咖( 矿 e = p ( o ) e ( o ) 7 2 9 , e ( o ) y ( i ) 7 + g ? y ( f ) 少( f ) 7 ( 2 21 ) 式中丁表示转置，由是( 2 - - 2 1 ) 可知，巨是增益吕和标号i 的函数。对于给定的i 值，最佳增益g ，可用下式计算善：也( o ) y ( 矿+ 2 9 y ( i ) y ( ：o ( 2 2 2 ) 由此可知，最佳增益为： g ，：e ( o ) y t ( i ) r ( 2 2 3 ) “y ( f ) y ( f ) 7 利用式( 2 2 1 ) 计算满足最小e 的标号i 。因为式中第一项与标号无关，搜索最小的巨的i ，只要使2 晶e ( o ) y ( f ) r 9 2 , y ( i ) y ( i ) 7 最大即可，将式( 2 2 3 ) 代入，可得最佳标号：弘m 叫孵沪z 。，从码本中搜索最佳激励矢量v ( i ) 的过程式：由式( 2 - - 2 4 ) 计算出最佳码矢量的 m p e g - 4 语音编解码算法及其实现研究第三章m p e g 一4c e l p 语音编解码器 3 1m p e g 一4c e l p 编码器图3 一l 描述了编码器的工作原理。先初始化编码器，然后将模拟信号经过 8 k h z 或1 6 k h z 采样，再经过1 6 比特量化，得到编码器的输入语音信号。对预处理后的输入信号进行线性预测分析，得到线性预测系数，即线性预测编码信息，利用该系数即可构造合成滤波器。激励信号经合成滤波器后生成重构信号，与输入信号相减后得到残差信号。该残差信号经误差加权滤波器处理，根据听觉感受改变频谱，反馈回控制回路，根据加权残差信号均方最小的准则确定激励信号及其增益。图2 - 2 1 编码原理图 3 1 1 初始化编码器初始化前先确定采样频率，编码后的比特率，对参数的量化模式 9 。需要初始化的参数有：帧长，子帧数，子帧长，线性预测阶数，l p c 码字索引数，线性预测分析次数。 n b o n f i g u r a t i o n 是8 k h z 采样时，所代表的比特率。0 代表2 7 种比特率的最小值，2 6 代表比特率的最大值。f r a m e s i z e 是一帧的样本数。n r o f _ s u b f r e 、，m e s 是组成一帧的子帧数。s b f r ms i z e 一个子帧的样本数。这三个参数有如下关系： f r a j i l es i z e = n r o fs t j b f r a m e s 半s b f r ms i z e 具体数值如表2 - 2 1 n b _ c o n f i g u r a t i o nf r a m es i z e n r o f s u b f r a m e s s b f r ms i z e ( s a m p l e s )( s a m p l e s ) l 0 ，1 ，2 3 2 048 0 壹塞堕窒堕茎奎兰堡圭堂垡丝茎 l 3 ，4 ，5 2 4 038 0 i6 1 2 1 6 028 0 l1 3 2 1 1 6 044 0 i2 2 2 6 8 024 0 表2 - 2 一i8 k h z 采样编码器配置 r a t e x 是1 6 k h z 采样时，比特率配置，如表2 - 2 2 比特率配置标量量化矢姑姑化 r a t e l1 3 6 6 7 b i t s1 3 2 6 7 b i t s r a t e 21 5 8 6 7 b it t s1 5 0 6 7 b it s r a t e 31 8 2 0 0 b i t s1 7 0 0 0 b i t s r a t e 4 2 0 1 3 3 b i t s1 9 3 3 3 b i t s r a t e 52 1 8 0 0 b i t s2 1 0 0 0 b i t s r a t e 62 4 0 0 0 b i t s2 3 2 0 0 b i t s 表2 - 2 21 6 k h z 采样比特率配置 1 6 k h z 采样f r a m e s i z e ，n r o f s u b f r a m e s ，s b f r ms i z e 三个参数具体数值如菱 2 2 3 b i tr a t e ( b i t s )f r a m es i z e f r o f _ s u b f r a m e ss b f r ms i z e w b c o n f i g m e ( s a m p l e s )( s a m p l e s ) r a t e l = b i t2 4 064 0 0 ，1 r a t e = r a t e 2 r a t e 2 b i t 1 6 044 02 r a t e = r a t e 3 r a t e 3 b i t2 4 083 03 r a t e = r a t e 4 r a t e 5 = b it2 4 01 02 4 4 ，5 r a t e = r a t e 6 表2 - 2 - 31 6 k h z 采样编码器配置线性预测阶数l p c o r d e r 由采样率确定，8 k h z 采样时l p c o r d e r = l o ；1 6 k h z 采样时i p c o r d e r = 2 0 。 l p c 码字索引数( n u ml p c i n d i c e s ) 是写进比特流的l p c 信息索引的数目，它并不等于线性预测阶数，当标量量化，i 6 k h z 采样时，2 0 个对数面积比索引 ( l a r ) 被压缩成9 个l p c 码字索引( 1 p c i n d i c e s ) ，此时n u m _ l p c i n d i c es = 玑当标量量化，8 k h z 采样时，n u m _ l p c i n d i c e s = 4 ( 1 0 个l a r 被压缩成d 个 l p c i n d i c e s ) ；当矢量量化，8 k h z 采样，h u m _ l p ci n d i c e s = 5 。 m p e g 4 语啻缟鼹码箕法及其实臻疆究线性预测分析次数( n l p c _ a n a l y s i s ) 楚簿一帧需要做多少次线性预测分析 1 6 k h z采样时， r l _ l p ca n a l y s i s = l ；8 k h z采样时 n j p a n a l y s i s = f r a m e s i z e 8 0 。 3 。1 。2 羲签瑾聂瓤翦面掰述，编褥器的输入语音为1 6 k 特的线往p c m 码。在进行编码之前，要对输入语音信号去除赢流分量，预处理的过程由下式给出：蹦加高嘉 1 ) a x 蠢g - s ( n ) 逶；童嚣。( ) 螽逯为p ps ( n ) ，魏滤波器静实瑗魏下： f o r ( n = 0 ；n f r a m e _ s i z e ；n + + ) p ps n 2 s n - p r e v x + o 9 9 + p r e v _ y ； p r e v _ x = s n ； p r e v _ ，= p p _ s n ；滤波器输入输出状态p r e y x ，p r e v _ y 被初始化为0 。 3 i 3 线性预测分析簸辩分拆与合成滤波器是基于l p c _ o r d e r 羚线噬预测( l p ) 滤波饕缝。姜：三i 了t z - z 、)t 。蕊1 而f a 1 + pa l z - i 百其中珥( i = 1 一，i p c o r d e r ) 是量化后的线性羰测系数。处理每个子帧时，都要先燕一令鬻，薄熬塞聂豹滔裔数据诗霎冀垂穗美滋数，霉囊舔鑫筏关溺数送行短l 嚣预测，域称为线性预灏分辨。每w i n d o w _ s i z e 】个样值对加窑君国语音数搽计算一次翻相关函数，并用l e v i n s o n 算法将自相关函数转换为线性预测系数。为了便于捅值和量化，又要把线性预测系数转换为对数面积比( l a r ) 或线谱对( l s p ) 。插值艏照化的和未量化的滤波器系数又被转化为线性预测系数采为每一子帧建立合成翱粳滤波爨。 3 1 3 1 加窗与自相关函数的计算。对融预处理后的一帧数据p p s ( n ) 要经过加窗处理，就是用窗函数 w i n d o w s i n ( o = i nl p ca n a l y s i s ) 来乘p p _ s ( n ) ，从而形成加窗n k s 。旧) 。南京航空航天大学硕士学位论文窗的大小和偏移如下表 w b _ c o n f i g u r e w i n d o ws i z e s 口 w i n d o w _ o f f s e t s 口 2 3 2 01 6 0 lo t h e r 4 0 02 8 0 表2 - 2 41 6 k h z 采样窗大小和窗偏移 n b _ c o n f i g u r e w i n d o w s i z e s w i n d o w _ o f f s e t s 0 ，1 ，2 1 6 0 0 ，8 0 ，1 6 0 ，2 4 0 3 ，4 ，5 1 6 0 0 ，8 0 ，1 6 0 6 1 21 6 00 8 0 1 3 2 l1 6 00 8 0 2 2 2 61 6 00 表2 - 2 58 k h z 采样窗大小和窗偏移 1 6 k h z 采样时用的是平方汉明窗，计算公式为： f o r ( x = o ：x w i n d o ws i z e s i ：x + + ) 1 w i n d o w i x = ( 0 5 4 0 4 6 c o s ( 2 * p i * x w i n d o w s i z e s i ) ) ： w i n d o w i x = w i n d o w i x $ w i n d o w i x ： ) 8 k h z 采样是用的是普通汉明窗，计算公式为： f o r ( x = o ：x w i n d o w s i z e s i ：x + + ) t w i n d o w i x = ( 0 5 4 0 4 6 c o s ( 2 * p i * x w i n d o ws i z e s i ) ) ： ) 加窗后的语音信号： s n = p p s n + w i n d o w _ o f f s e t s i * w i n d o w i n ，o = i n _ i p c a n a l y s i s ： o = n w i n d o ws i z e s i 用于计算自相关系数： r ( ) = s ( n ) u s ( n + k ) ，0 = 丘 = l p c d ，d e r ( 2 3 ) h = o 3 1 3 2l e v i n s o n - d u r b i n 算法 1 。自相关系数被用来计算线性预测系数o ，o = i i p c o r d e r ，算法使用了卜- 述迭代过程： ( 1 ) 计算k 1 = 一r 0 ) r ( 0 ) ( 2 ) 计算d ，= k ( 。 m p e g - 4 语音编解码算法及其实现研究 ( 3 ) 1 一心) 2 r ( o ) ( 4 ) 令m = 2 ( 5 ) k ”) - 一p ( m ) + 4 j ”1 ( 6 ) 卵= k 伽圳】了一 ( 7 ) 碰= 可卅1 + k 伸- m 一- ，”，f = 1 ，2 ，( 卅一1 ) ( 8 ) t g z p 。1 = 【1 一世”) 2 】 ( 9 ) m l p c o r d e r ? 若回答为是，则令m = m + l ，转入( 5 ) 继续运行。若回答为否，则停止运行，最终结果就是，= 口? ，j = o 1 0 ，且o = 1 0 。 ( 1 0 )结束通过将线性预测系数乘以g a m m a _ b e x ，对线性预测系数进行带宽扩展： g a m m a _ b e o z 1 0 ，g a m m a _ b e 1 = g a m m a ； f o r ( x = 2 ：x = l p c o r d e r ：x +

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）mpeg4语音编解码算法及其实现研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）mpeg4语音编解码算法及其实现研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档