（电路与系统专业论文）g729话音编码算法的研究及dsp实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：85 大小：1.93MB 积分：0 举报 版权申诉

已阅读5页，还剩80页未读，继续免费阅读

（电路与系统专业论文）g729话音编码算法的研究及dsp实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中国科学技术大学学位论文相关声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅或借阅，可以将学位论文编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。作者签名量垄叠 0 7 年3 - 月z 争日中图科学技术大学颤忙毕业论文摘要 g 7 2 9 语音编码算法均是i t u t 于1 9 9 6 年通过的基于c e l p 模型的编码算法，采用了共轭结构代数码激励线性预测( c s - a c e l p ) 技术，是编码速率和合成语音质量综合效率最优的压缩算法之一，但计算复杂和数据存储量大却是它的固有缺陷。随着数字信号处理器( d s p ) 技术的高速发展，d s p 以其卓越的运算能力为数字语音信号处理领域的研究及丌发提供了有力的工具，使得该复杂语音编码算法的实时实现成为可能。本文回顾了当丽最流行的语音编码理论和技术如语音产生的机理及其数学模型，短时分析技术，线性预测技术等：结合进化计算提出了语音中线谱对参数的一种码本设计算法；深入研究和阐述y g 7 2 98 k b sc s a c e l p 语音编码算法的基本原理，最后研究g 7 2 9 语音编码器在t 砒s 3 2 0 v c 5 4 0 2 定点d s p 芯片上实时实现的环节和优化方法。通过对优化后的程序进行测试验证，编解码结果正确。关键词：g 7 2 9 矢量量化t m s 3 2 0 v c 5 4 0 2 一d s p 线性预测基音周期c e l p 语音信号处理中国科学技术大学硕b 毕业论文 a b s t r a c t t h e6 7 2 9s p e e c hc o d i n ga l g o r i t h mw h i c hi sb a s e do nc e l pm o d e li sa d o p t e d b yi t u ti n1 9 9 6 i ta d o p t st h ec o n j u g a t es t r u c t u r ea l g e b r a i cc o d ee x c i t e dl i n e a r p r e d i c t i o n ( c s a c e l p ) a n di so n eo ft h eo p t i m i z a t i o na l g o r i t h m sc o n c e r n i n gc o d i n g r a t e sa n ds p e e c hs y n t h e s i sq u a l i t y b u th i 曲c o m p u t a t i o n a lc o m p l e x i t ya n dh u g e s t o r a g ec a p a c i t ya r ei t si n h e r e n td e f e c t s i nt h ep a s sy e a r s ，t h et e c h n o l o g yo fd i g i t a l s i g n a lp r o c e s s o r ( d s p ) h a sb e e nd e v e l o p e dr a p i d l y d s p sa r ew i d e l yu s e di ns p e e c h c o d i n gf o ri t sp r e d o m i n a n tp e r f o r m a n c ea n do f f e rap o w e r f u lt o o l s i tm a k e si t p o s s i b l et oi m p l e m e n tt h eg 7 2 9s p e e c hc o d i n ga l g o r i t h mr e a l - t i m e l y t h ea r t i c l er e v i e w st h em o s tp o p u l a rs p e e c hc o d i n gt h e o r ya n dt e c h n o l o g yl i k e t h em e c h a n i s mo fv o i c e ，m a t h e m a t i cm o d e l ，s h o r tt i m ea n a l y s i s ，l i n e a rp r e d i c t i o n t e c h n o l o g y e t c a na l g o r i t h mo fs p e e c hp a r a m e t e rl s fi s p r o p o s e d t od e s i g n c o d e b o o k s 1 1 l eb a s i cp r i n e i p l eo f g 7 2 98 k b sc s - a c e l ps p e e c hc o d i n ga l g o r i t h mi s s t u d i e da n de x p o u n d e dd e e p l y ia tl a s t , r e a l - t i m ei m p l e m e n t a t i o no ft h eg 7 2 9 s p e e c hc o d i n ga l g o r i t h mo nt m s 3 2 0 v c 5 4 0 2w h i c hi saf i x - p o i n td s p i sa c h i e v e d t h es t e p sa n do p t i m i z a t i o nm e t h o d sa r ea l s og i v e n t h ee x p e r i m e n t ss h o wt h a tt h e r e s u l t so ft h eo p t i m i z e da l g o r i t h m sa r ec o r r e c t k e v w o r d ： p r e d i c t i o n g 7 2 9v e c t o rq u a n t i z a t i o nt m s 3 2 0 v c 5 4 0 2 - d s pl i n e a r s p e e c hp i t c h c e l p s p e e c hs i g n a lp r o t e s t i n g 2 中固科学技术大学硕，i ：毕业论文第1 章绪论 1 1 引言 2 1 世纪的通信应在人与人之间、人与机器之间提供高质量的无缝的信息交换手段。无论何时、何地，以何种方式通信，语音通信将是最基本、最重要的方式之一。多媒体信息交换包括电话、电视电话会议、可视电话、语音信箱、电子邮件、图像传真以及数据通信等。无缝通信是指用户可方便地综合使用这些手段，而不影响通信质量，并能随意地把一种通信手段转换为另一种通信手段；高质量是指通信质量不随用户环境及传输媒介的变化而降低，用户使用起来方便快捷。这取决于信息高速公路得建设和计算机、微电子、材料、网络、通信等诸多关键科学领域的发展，而语音压缩编码将是最基本、最重要的技术。这是因为最终产生信息、获取信息的是人，而人是以语音作为主要通信手段的。话带语音压缩编码领域的研究已有几十年的历史。近十余年来，人们对这一领域的研究兴趣大大地增长，已有大量的技术应用于远程通信和存储。一些国家和国际标准化组织相继制定了语音压缩编码的标准，直接推动了语音压缩编码的发展【1 1 。本文讨论的共扼结构代数码激励线性预测( c s a c e l p ) ( c o n j u g a t e s t r u c t u r e a l g e b r a i c c o d e e x c i t e dl i n e a r - p r e d i c t i o n ) 语音编码算法就是其中一种高效高质量的语音压缩编码算法。该算法作为i t u tg 7 2 9 标准于1 9 9 5 年1 1 月盯u - ts g l 5 全会上通过，被广泛应用于个人移动通信、数字卫星系统、高质量数字移动无线通信及i p 电话等领域。本课题通过对该算法基本原理的分析和研究，提出了基于 d s pt m s 3 2 0 c 5 4 0 2 的算法实时实现方法。本课题的研究为在多媒体通信系统和无线个人通信系统中的语音信号处理提供了一条有效的途径。 1 2 语音编码的发展语音压缩编码的发展，一直在用尽可能低的数码率获得尽可能好的合成语音质量的矛盾中发展的。数码率实质上反应的是频带宽度，降低数码率实质上是压缩频带宽度，使得同一信道容量能传输更多路的信号。目前语音编码主要分为三类：波形编码、参数编码和混合编码。中国科学技术人学坝i 。毕业论文最早的语音编码系统采用波形编码方法，这种方法力图使重建语音波形保持原语音的波形形状。这类编码器通常将语音信号作为一般的波形信号来处理，具有适应能力强、话音质量好等优点。脉冲编码调制( p c m ) 、自适应增量调制 ( a d m ) 、自适应差分编码( a d p c m ) 、自适应预测编码( a p c ) 、自适应子带编码 ( a s b c ) 、自适应变换编码( a t c ) 等都属于这类编码器。它们分别在6 4 1 6 k b s 的速率上能给出高的编码质量，当速率进一步降低时，其性能会下降较快。参数编码始于1 9 3 9 年美国人h o m e rd u d e y 发明的声码器。这种编码方法是通过对人的发声生理过程的研究，建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的，它力图使合成语音具有尽可能的可懂性，保持原语音的语意，而合成语音的波形与原始语音的波形可能有相当大的差别由于它是以滤波器为主来构造语音产生模型，发送的只是滤波器的参数和相关的特征值，可以将比特率压得很低，但合成语音质量不是很好。主要声码器有通道声码器、共振峰声码器、相位声码器【”、同态声码器【3 】、线性预测( l p c ) 声码器等。其中l p c 声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数，较好地解决了编码速率和语音质量的问题，以其成熟的算法和参数的精确估计成为研究的主流，并已走向实用，如美国的l p c 1 0 声码器标准就是采用l p c 技术，且早在1 9 8 6 年正式投入了使用。二十世纪八十年代后期，综合波形编码和参数编码的混合编码算法成为主流，这种算法也假定了一个语音产生模型，但同时又使用与波形编码相匹配的技术将模型参数编码，吸收了两者的优点。所谓混合编码有两层含义：激励的混合，达到更精确的表示残差信号；编码方式的混合，综合波形编码和参数编码的优点，从而获得更高的质量。这种编码方法的典型例子是c e l p 模型，它在比特率为4 1 6 k b p s 时已经可以得到比其他算法更高的重建语音质量，而且以 c e l p 为基础的多种算法己成为国际标准，其中就包括本论文所研究的g 7 2 9 协议的c s a c e l p 。但是在1 2 k b p s 以下更低速率上，由于受各种手段的限制，还没有比较成熟的编码方法。在语音的数字通信中，语音质量和传输码率往往是一对矛盾，矢量量化 ( v e c t o rq u a n t i z a t i o n , v q ) 技术就是解决这一矛盾的有效方法。基于c e l p 的语音编码方案中，码本设计是一个重要部分。由于经典的l b g 算法【4 】存在容易陷于局部最优的问题，近年来对其的改进一直是一热点。有很多工作将遗传算法【5 j 、模糊c 均值等方法应用于码书设计，但存在着染色体过长或量化误差过大的问题。 6 中国科学技术大学硕士毕业论文随着进化计算的发展，人们更多的将其用于码本设计。 1 3 语音压缩算法的实现 c e l p 编码技术在中低速率上提供了语音编码方案，是目前语音编码算法中最主要的方案，但它的计算复杂度和数据存储量过大，这使性能良好的语音编码方案实时实现或实际应用中还存在许多困难。实用的语音编码通常以两种方式实现：第一种是用一台计算机( 微型机，小型机或工作站) 插上一块或者若干数字信号处理板来构成，后者由通用或专用的数字信号处理芯片( d s p 芯片) 及相应的存储芯片，接口芯片和a d ，d a 芯片组成。第二种由专用或者通用的 d s p 芯片及其他辅助芯片构成一个独立工作的系统。通用d s p ( d i g i t a ls i n g n a lp r o c e s s o r ) 芯片的出现及其性能价格比的迅速提高为各种实用化语音信号处理系统的实现铺平了道路。自8 0 年代初期d s p 芯片问世以来，在2 0 余年的时间里，d s p 芯片得到了极为迅速的发展，其性能价格比和开发手段等方面都有了长足进步。美国1 1 公司在8 0 年代中期研制出的第一代 d s p 芯片t m s 3 2 0 1 0 和t m s 3 2 0 2 0 完成一次乘，累加运算( 1 6 位，定点) 需要2 0 0 n s ，第二代d s p 芯片t m s 3 2 0 c 2 5 完成一次相同的运算需要l o o n s ，第三代d s p 芯片 t m s 3 2 0 c 3 0 完成一次乘累加( 3 2 位，浮点) 运算只需要5 0 n s 而且片内的r o m 和 r a m 和片外可扩展的r a m 的容量都大大增加。而本论文所采用的t m s 3 2 0 c 5 4 0 2 的运算能力为每秒执行1 0 0 万条指令，则只需要1 0 n s 可以完成一次乘累加( 1 6 位，定点) 。 1 4 本论文的主要工作本文回顾了当前最流行的语音编码理论和技术如语音产生的机理及其数学模型，短时分析技术，线性预测技术等；结合进化计算提出了语音中线谱对参数的一种码本设计算法：深入研究和阐述t g 7 2 98 k b sc s a c e l p 语音编码算法的基本原理，最后研究g 7 2 9 语音编码器在t m s 3 2 0 v c 5 4 0 2 定点d s p 芯片上实时实现的软、硬件结构和代码优化方法等关键技术。本文主要包括以下章节：第1 章：绪论第2 章：语音压缩技术分析 7 中固什擎技术人学坝l 毕业论文第3 章：l s f 矢量量化的改进第4 章：g 7 2 9 基本原理分析第5 章：编解码算法的d s p 实现结论 8 中国科学技术大学硕e 毕业论文第2 章语音压缩技术 g 7 2 9 是基于c e l p 模型的编码算法，c e l p 模型属于合成分析法( a b s ， a n a l y s i s - b y - s y n t h e s i s ) 的线性预测编码( l p c ，l i n e a rp r e d i c t i o nc o d i n g ) 。本章主要对语音形成机理进行分析、构造出声音生成数字模型以及对此类低比特率参数语音编码技术进行讨论。 2 1 语音产生的机理及其数学模型 2 1 1 人类语音的产生机理人类的发声器官由三部分组成：肺和气管、喉、声道。肺和气管是整个系统的能源，喉是主要的声音生成机构，而声道则对生成的语音进行调制。语音产生的过程如下：空气从肺部排出形成气流。空气流经过声带时，如果声带是绷紧的，则声带将产生张驰振动，即声带将周期性地启开和闭合。声带启开时，空气流从声门喷射出来，形成一个脉冲；声带闭合时，相应于脉冲序列的间歇期。因此，这种情况下在声门处产生一个准周期性脉冲序列的空气流，该气流经过声道后最终从嘴唇辐射出声波，这便是“浊声”语音。如果声带是完全舒展开来的，则肺部发出的空气流将不受影响地通过声门。空气流通过后，会遇到两种不同的情况：一种情况是，如果声道的某个部位发生收缩而形成一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生出空气的湍流，这种湍流通过声道后便形成“摩擦音”或“清音”：另一种情况是，如果声道的某个部位完全闭合在一起，当空气流达到时便在此处建立起空气压力，一旦闭合点突然开启便会让气压快速释放，经过声道后便会形成“爆破音”。所以，语音是由空气流激励声道最后从嘴唇或鼻孔辐射出来而产生的。对于浊音、清音和爆破音三种类型的语音而言，激励源是不同的，浊音是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流( 类似于噪声) ，而爆破音则是位于声道某闭合点处的建立起来的气压及突然释放。 2 1 2 语音信号产生的数字模型根据人类语音的产生过程，人类的发声器官和发声过程可以模拟抽象为如图 9 中固科学技术大学硕一毕业论文 2 1 所示的模型。语音生成系统分成三个部分，在声门以下称为“声门子系统”，它负责产生激励振动，是“激励系统”。从声门到嘴唇的呼气通道是声道，是“声道系统”，语音从嘴唇辐射出去，是“辐射系统”。激励系统分成浊音激励和清音激励两个分支，按照浊音清音开关所处的位置来决定产生的语音是浊音还是清音。浊图2 1 语音信号产生模型音清音开关模拟了加在声道上的激励的改变情况，当开关接在浊音位置时，激励信号由周期脉冲发生器产生周期冲激序列：当开关接在清音位置时，激励信号由随机噪声发生器产生方差为l 的高斯白噪声序列。不断控制清浊音开关，激励脉冲的周期以及噪声源强度，同时随着不同的发音改变滤波器特性，输出的信号就是所要求的语音信号序列。声门脉冲模型滤波器( 配) 的作用是：使浊音的激励信号具有声门气流脉冲的实际波形。声门波形的频率分析表明，其幅度频率谱按每倍频1 2 d b 的速率递减。滤波器g 弛) 表示如下： g ( ：) =_ 了上1 ( 2 1 ) ( 1 一g l ：) c 1 一g2 z “) 、当g l ，9 2 都接近1 时，g 【z ) 所产生的浊音信号频谱与声门气流脉冲的频谱接近。增益因子4 ，4 分别用于调节浊音和清音的幅度和能量。声道模型v ( z ) 给出了声道的传输函数，是一个全极点滤波器：矿( z ) ：_ - l( 2 2 ) 口，：“厶”，。 1 0 号中国科学技术大学硕士毕业论文其中，a o = 1 ，q 为实数，p 为全极点滤波器的阶。p 值越大，与声道实际的传输函数的吻合程度越商，实际应用中一般取p = 8 1 2 。当p 为偶数时，g ( z ) 一般有 p 2 个共扼极点r k ，e x p ( + j w k ) ，k = 1 ，p 2 ，各个m 分别与语音的各个共振峰相对应。辐射模型肥) 是一阶高通滤波器，与人的嘴有关，一般可表示为：尺( z ) = ( 1 一r z “) ，r = 1( 2 3 ) 在语音生成模型中，翰保持不变，昂，4 ，4 清浊判决，声道参数 a i ，扛l 2 ，p 是时变的。发声器官的惯性使这些参数的变化速度受到限制，对于声道参数，在一较短的时间内( 1 0 3 0 m s ) 可近似认为是不变的，因此，可认为语音信号是一个局部平稳的随机信号，即具有短时平稳性。 2 2 短时分析技术任何语音信号的处理算法和技术都建立在短时的基础上，短时分析技术是语音处理的基础，g 7 2 9 协议中用到的短时分析技术主要有以下几个。 2 2 1 语音信号的数字化存储和加窗语音经过a d 转化后变为一个离散的语音信号序列，此序列按顺序用循环队列的方式存储在数据区中，在处理中，按帧从数据区顺序取出数据。为了减少频域能量泄漏通常要对一段语音信号进行加窗处理，用窗函数以疗) 乘以原始语音s ( 疗) 得到加窗语音信号j 。( 行) ，在语音信号处理中通常采用矩形窗和汉明窗。 2 2 2 语音信号的短时自相关函数设j ，( 即) 是加窗处理后的语音信号，非零区间是n = o n - l 。l ( 聆) 的自相关函数称为语音信号的短时自相关函数，用r 。( f ) 表示，它的计算公式是：一i - l 凡( ，) = 乱( 甩) 乱( 打+ ，) = s w ( n ) s w ( n + 1 ) ( 2 4 ) h = n = 0 可以证明r 。( ，) 是偶函数，即r ( ，) = 凡( 一，) 。r 。( f ) 在l n = 1 n l 之外为o r 。u ) 的最大值在1 = 0 处，且尺，( o ) 是加窗后语音数据的平方和：中圈科学技术人学坝l 毕业论文 r w ( o ) = ( 以) ( 2 5 ) n = 0 对于确定信号，r 。( o ) 等于能量，对随机信号或周期信号，咒( o ) 等于平均功率，更为重要的是，当语音序列的周期为p 时，其自相关函数的周期也为p ，所以，可利用自相关函数中的第一个最大值的位置来估计其周期。这一性质使自相关函数成为估计各种信号周期的一种有效依据。 2 3 短时基音周期估计基音周期是指发浊音时声带振动所引起的振动频率的倒数，是语音信号最重要的参数之一，描述了语音激励源的特征。如果s ( n ) 是一个浊音性的周期信号，那么它的短时自关函数r 。，( ，) 也呈现出明显的周期性，而且足。，“) 的周期即等于 s ( n ) 的周期。相反，清音语音接近于随机噪声，它的短时自关函数不具有周期性并随着l 的增大而迅速减小。因此可以利用这个特点来判断一个语音是浊音还是清音，还可以籍以决定一个浊音的基音周期( 或基音频率) 。在决定基音周期时。是利用短时自相关函数在基音周期的各整数倍点上具有较高的峰值。第一最大峰值点的位置有时不能与基音周期相吻合，产生这种清况的原因有两个方面：一方面与窗的长度有关，一般认为窗长应至少大于两个基音周期，才可能有较好效果，语音中最长基音周期值约2 0 m s ( 相当于基音频率为5 0 h z ) ，因而在估计基音周期时窗长应选得大于4 0 m s 为宜；另一方而与声道特性的影响有关，有的情况下即使窗长已选得足够长，第一最大峰值点与基音周期仍不一致，这就是声道的共振峰特性造成的干扰。为了克服这个困难，可以从两条途径来解决。第一条是减少共振峰的影响，最简单的方法是用一个带宽为6 0 9 0 0 h z 的带通滤波器对语音信号进行滤波，并利用滤波信号的自相关函数来进行基音估计。这个滤波器可以放在对语音信号采样前( 模拟滤波1 也可以放在采样后( 数字滤波) 。之所以将此滤波器的高端截频置为9 0 0 h z ，是因为既可以去除大部分共振峰的影响，又可以当基音频率为最高4 5 0 h z 时仍能保留其一二次谐波。低端截频置为6 0 h z 是为了抑钼j s o h z 电源干扰。另一种更有效的方法是让语音信号通过一个线性预测逆滤波器，并通过求其残差信号的自关函数来估计基音周期。第二条途径是对语音信号进行非线性变换后再求自关函数。一种有效的非线性变换是中心削波，削波电平q 之值常取为该段语音最大采样值的6 8 。 1 2 中国科学技术大学顾扛毕业论文事实上，采用中心削波后的语音信号在基音周期点上的峰远比削波前尖锐突出，用它来进行基音周期估计的效果可以好得多。为了求基音周期。还可以采用短时平均幅度差函数( a m d f ) o ( ，) ，对于周期性的j ( 栉) ，( ，) 也呈现周期性，与凡( ，) 相反的是在周期的各个整数倍点上 r f f ) 具有谷值而不是峰值。事实上，( ，) 和0 ( ，) 有密切的关系，二者的关系可以由下式表达： , - ( 0 = b ( t k 2 【r ( 一r ( ，) 】( 2 6 ) 其中口( ，) 是随l 做平缓变化的固定函数。因为o ( ，) 的计算只涉及加减和求绝对值，而( ，) 则需要用相乘运算，因此求o ( ，) 的运算要更加简单和快捷。 g 7 2 9 协议采用的是短时自相关法估计基音周期。实际上，无论采用哪一种方法求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合。实际情况是大部分段落是吻合的，而在一些局部段落或区域中有一个或几个基音周期估值偏离了正常轨迹。由于语音信号的变化十分复杂，声门激励波形并不是一个完全的周期脉冲串清浊音过渡段的电平变化非常细微，基音周期从低音男性的 6 0 h z 至l j 高音女性的5 0 0 h z 变化范围较大，要找到一个完善的适用于不同讲话者、不同要求和环境，准确和可靠的检测语音信号周期的方法还是比较困难的。 2 4 基于合成分析法的线性预测编码( a b s l p c ) 原理基于合成分析法的线性预测编码( a b s l p c ) 技术的语音参数编码器的结构原理如图2 2 所示。图2 2a b s l p c 的基本结构中圆科学技术大学硕仁毕业论文激励信号经线性预测器后得到重构的语音信号i ( f ) ，线性预测器模拟声道特性，加强激励信号的某些频率域，减弱另一些频率域，体现了语音的短时相关性。激励信号则体现了长对相关性，输入线性预测器的激励信号是量化后的增益和基音信号。由于量化误差的影响，重构信号和输入信号s ( i ) 之间必然存在有限的差值p ( f ) ，称之为残差信号( r e s i d u a ls i g n a l ) ，最小化过程的目的就是调整激励信号，使残差的方差为最小，由此构成确定激励信号的闭环回路。感觉加权滤波器的作用就是对残差信号进行频谱掩蔽，也就是按照语音信号频谱的峰值来整形量化噪声，使得量化噪声的能量集中在原信号的高能区域。编码器参数将根据感觉加权均方误差准则选取，由此得到的量化噪声也许会增加。但是对于入的听觉系统来说可感的噪声却降低了，可以有效的提高a b s - l p c 编码器的性能。与此类似，在解码器的输出端也可以加入一个自适应后置滤波器，以进一步降低可感噪声，特别是低能量频率区域的噪声。其原理和编码器中的感觉加权滤波器相似，具体实现为短时相关滤波器和长时相关滤波器的组合。短时滤波器根据收到的预测合成器系数修改重建信号的频谱包络，长时滤波器参数则由收到的激励信号数据导出。为了修正误差判据，应进行输入信号预处理，使其更加符合人类听觉系统的感觉特性，降低编码参数的比特率。对于最小均方误差判据来说，原信号和重构信号之间的微小时延差，印相位不匹配造成很大的失配误差，但实际上这类误差是感觉不到的，即使时延差随时闻缓慢变化，人类听觉系统对此也不敏感。输入信号预处理的作用就是对信号进行简单的时延处理或较为复杂的时间变换处理。掩蔽相位误差，有效地提高基音预测的编码效率。 a b s l p c 的关键技术是如何确定和量化激励信号。激励信号的量化有多种方法：一种广为使用的方法称之为多脉冲激励( m p e ，m u l t i p u l s ee x c i t a t i o n ) 编码，该方法用于比特率为1 0 k b i t s 左右的语音编码器，其复杂度适中，有良好的语音质量。与此类似的一种方法称之为规则脉冲激励( r p e ，r e g u l a rp u l s ee x c i t a t i o n ) 编码，该方法限定激励脉冲的位置，复杂度较低，其比特率及质量和多脉冲编码类似。近年来得到广泛使用的方法是码本激励线性预：澳d ( c e l p ，c o d e e x c i t e d l i n e a rp r e d i c t i o n ) 编码，该方法采用矢量量化技术，用预定义的码本( c o d e b o o k ) 激励代替脉冲激励，码本中的每一个向量对应一个量化信号，编码信息转化为码本索引。这种方法具有很高的编码效率，但复杂度也很高，由于近年来高速中国科学技术大学硕士毕业论文 d s p 的出现才使这种方法成为实用。g 7 2 9 就是以此为基础具有8 k b i t s 低比特率声码器标准。 2 4 1 线性预测技术 a b s l p c 结构的内核是合成滤波器，它描述了语音信号的短时相关性。如图2 2 所示，其输入信号为激励信号，输出为重构语音信号。编码器按块处理方式工作。在每一时间块中，大量的激励信号试验通过合成滤波器，由此选定产生失真最小的激励信号作为编码参数送出。原则上可有多种方法实现该合成滤波器，如倒谱分析法，非线性预测分析法等，但由于其复杂度高，性能未见显著改进，因此很少采用。目前大量采用的是线性预测方法。 2 4 1 1 线性预测系数的计算设丌环预测公式为： s ( f ) = 一an s ( f 一刀) ( 2 7 ) 式中，为线性预测系数。则开环线性预测残差为： p ( f ) = s ( i ) - s ( i ) = s ( f ) + 口。s ( i - n ) ( 2 8 ) 对应的z 变换为： ”。 e ( z ) = ( 1 + a z 一”) s ( 疗) = ( z ) s ( z ) ( 2 9 ) ”i i a ( z ) 称之为l p 分析滤波器，确定基本准则是最小化p ( f ) 。记口= h a 2 ，】r ，输入信号的白相关系数为r ( i k ) = e s ( o s ( k ) 】。自相关矩阵记为r ，其元素为吼= r ( i k ) ，由此得： nnn e a ( 0 2 】= r ( o ) + 2 尺( 以) + a r ( m l - n ) a 。 n=-it=l n = l = r ( o ) + 2 【胄( 1 ) ，r ( 2 ) ，月( ) 】口+ a 7 r a ( 2 1 0 ) 对上式求极小值：令旦笪：0 得：锄 a 1r = - r ( o ，r ( 2 ) ，r ( ) 】 ( 2 1 1 ) 上式称之为y u l e - w a l k e r 方程。由于r 对称矩阵，可采用杜宾( d u r b i n ) 递推算法求解。假设在一帧时间内输入信号是统计稳定的，现用窗口函数截取输入信号抽中田科学技术犬学顾b 毕业论文样序列，窗口长度为l ，在窗口范围内的抽样值s ( i ) 的加权值为w ( i ) ，窗口范围之外的抽样值加权值为零，即不作为计算依据。则r ( 七) 的统计估计值为： l l t r ( 后) = w ( i ) s ( i ) w ( i + k ) s ( i + 后) ( 2 1 2 ) ，；0 将上式代入( 2 1 1 ) 式，即可求得预测系数a 。 2 4 1 2 预测系数的量化和内插 1 系数量化低比特率编码器一般将预测系数口。量化后传至解码器。除了常规的量化精度外，还得考虑系统的稳定性。由于传输信道误码的客观存在，如果直接传送巩，在接收端收到的口。会发生变化，而a 。的少量变化会导致滤波器频谱的很大变化，甚至会使滤波器不稳定。为此，量化并不是直接对口。进行，而是对吼的某种变换形式进行。最常用的变换形式就是线谱对( l s p ，l i n e a rs p e c t r u mp a i r ) 。线谱对的获取方法是利用滤波器a ( z ) 和a ( z 。) 构成一个和值滤波嚣e ( z ) 和一个差值滤波器q ( z ) ： p ( z ) = 彳( z ) + z - ( n + 1 ) a ( z 。1 ) ( 2 1 3 ) q ( z ) ；彳( z ) 一z - ( n + i ) a ( z - 1 )( 2 1 4 ) p ( z ) 和q ( z ) 的根称为l s p ，它们具有如下十分有用的性质； ( 1 ) p ( z ) 和q ( z ) 的根均位于单位圆上，且相互交替间隔排列。 ( 2 ) 只要接收端收到的l s p 仍然保持上述性质，则对应的爿( z ) 保持为最小相位滤波器。这样就最大程度地减小了传输误码影响，并确保l p 合成滤波器的稳定性。 ( 3 ) l s p 的频谱灵敏度具有很好的频率选择性，也就是说单个线谱频率( l s f ) 的误差只局限于该频率附近的频谱范围。性质( 1 ) 和性质( 2 ) 表示只要l s p 保持单调，即间隔交替，就能确保滤波器的稳定，使得量化的要求大为放宽，可采用多种方法进行量化。接收端只要沿单位圆搜索l s f ，且按升序依次确定p ( z ) 、q ( z ) 的根即可。性质( 3 ) 表示l s p 的频谱灵敏度是局部的，因此各个l s p 可以独立进行量化，对于灵敏度高的参数可以分配较多的量化比特，量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照，直接对口。量化就不具备这些优点。一则a n 的稳定性检验复杂，没有一个简易可行的准则；二则一个a 。的变化会引起整个频谱的变化，关联性太大。 1 6 中固科学技术人学碗i 。毕业论殳 2 系数内插由于顾测系数是逐帧计算更新的，在某种情况下，就可能在帧与帧之剧产生预测系数的突变，此瞬变效应将导致解码器语音恢复时产生失真。解决此问题的方法，一是盼视，利用部分下一帧的数据计算系数，达到平滑的作用。二是内插，即将：帧与本帧的系数计算值适当组合后作为最终的系数。具体实现时，可以对每一帧选取不同的权值，逐渐变更预测系数。第i 子帧的系数可按下式计算； s t c i ) = 形s + ( 1 一彬) 跟( 2 1 5 ) 式中，s 正和s 乃，分别为上帧和本帧计算的系数，彬为第i 子帧的权值。对于帧长为2 0 3 0 m s 的情况，每帧包含4 个子帧，形可取为0 2 5 ，0 7 5 ，1 o ，1 0 ( i = l ，2 ，3 ，4 ) 。同量化一样，内插不是直接对l p 系数进行的，而是对l p 系数的某种变换形式，女i l s f 进行的，以保证内插滤波器的稳定，并且允许对不同系数进行不同的内插。 2 4 1 3 感觉加权滤波器常用的感觉加权滤波器是根据表征语音信号短时相关性的l p 系数构成的，其传递函数为： w ( z ) ：兰黑0 儿 4 ，d = 1 0 ) ： s t e p 2 变异交叉。对第j 个加权因子搿。，：) 执行差分进化的变异、交叉操作，记做u ( i ，：) ，如下表示： “，( f ，：) = 啦，( 胆，：) + f + ( c t , j ( ，：) 一c ( 历，：) ) ( 3 1 2 ) m ( f ，：) = 啦h ( f ，：) + m p o ( i ，：) + “，( f ，：) m u i ( i ，：) ( 3 1 3 ) 其中式( 3 1 2 ) 表示变异操作，坍行，且，m ，n l 2 ，p ，常数f 在 o ，2 】之恻。式( 3 1 3 ) 表示交叉操作，m p o 和m u i 为交叉矩阵，二者互补。 s t e p3 适应度评价。将u ( i ，：) 作用至训练集乃中的各维分量上，形成新的训练集：乃u ，：) = u ，( f ，：) t r ( j ，：) ，= l ，2 ，f ( 3 1 4 ) 对r ，运 _ t l b g 算法，得到对应的码本p ；由r l 返回至原空问得到y = y u ( i ，：) ，此处的j ，是通过矢量u ( i ，：) 的加权作用而得到，故记作y = 妒 ( f ，：) ) 。适应度函数为测试集乃在码本y 下，采用式( 3 8 ) 的感觉加权欧式距离划分得到的总体失真；f ( t e ，妒( 甜( j ，：) ) ) 。 s t e p4 选择。如果f ( t e ，妒( “( f ，：) ) ) f ( r e ，妒( q j ( ，：) ) ) ，则口( ，( f ，：) = u ( i ，：) ，否则口。：) 保留原值。可得到更新的。 s t e p5 检查本代进化是否结束。如果i = n p ，更新k 。，转至s t e p 6 更新如下。将，( 乃，妒( “( f 。：) ) ) 、f ( t e ，妒( ( f ，：) ) ) ( f = 1 , 2 ，p ) 中最小的适应度函数对应的码本记作，+ ，姗4 f ( t e ，y ) ：一 ( 4 2 ) 这里盈( f = l ，2 ，1 0 ) 是量化线性预测系数。4 ( z ) 定义为分析滤波器，是一个全零点f i r 滤波器，也可以称为线性预测器。短时预测或线性预测分析每一帧进行一次，采用3 0 m s 的非对称窗自相关方法对每8 0 个抽样( 1 0 m s ) ，计算加窗语音信号的自相关系数并运用l e v i n s o n 舅：法变换为l p 系数，然后将l p 系数变换至t l s p 域以供量化和插值。插值后的未量化和量化的滤波器系数又变换回l p 滤波器系数，用以建立每一子帧的合成滤波器和加权滤波器。加窗和自相关计算 l p 分析窗如图4 3 所示，由两部分混合构成，第一部分是半个汉明窗，第二部分是1 4 余弦函数周期： w m 2 薯中国科学技术大学硕t 毕业论文图4 3l p 分析混合窗在l p 分析中有5 m s 的预视，这意味着要

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）g729话音编码算法的研究及dsp实现.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）g729话音编码算法的研究及dsp实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档