




已阅读5页,还剩79页未读, 继续免费阅读
(通信与信息系统专业论文)g729a语音压缩算法的优化及dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
g 7 2 9 a 语音压缩算珐的优化及d s p 实现摘要 g 7 2 9 a 语音压缩算法的优化及d s p 实现 摘要 国际电信联盟( i t u ) 于1 9 9 6 年提出了一种共轭结构代数码激励线性预测 ( c s a c e l p ) 的语音压缩编解码算法- g 7 2 9 。该算法在8 k b i t s 码率下具有良好的音 质,并且延迟较短,因此在i m t 2 0 0 0 、p c s 、p 电话以及各种手持设备中具有广 泛应用。0 7 2 9 a 是在g 7 2 9 的基础上进行了部分简化,它使编码的复杂度降低了 5 0 ,而语音质量并没有明显降低。 本文的主要工作是对g 7 2 9 a 算法的优化及d s p 实现。 优化体现在三方面: ( 1 ) 算法优化:g 7 2 9 a 的主要编码参数是l s p 参数,它求取l s p 参数采用的是 契比雪夫多项式法,计算量很大,需要6 6 8 7 1 3 个平均指令数。本文提出了一种利 用埃特金迭代法和多项式综合除法计算线谱对参数的新算法a p l s p ,将该算法应 用于g 7 2 9 a 中,计算量只有9 8 4 8 4 个平均指令数,运算速度提高了近7 倍。 ( 2 ) c 语言优化:主要方法有溢出判断的优化、循环优化和h - d i n e 关键字的使用 等。 ( 3 ) 编译器的优化:主要方法有基本指令集的优化、优化级别的选项、p r a g n m 指令的使用和d e b u g 功能的去除等。 通过三级优化后,g 7 2 9 a 算法的运算量从5 9 0 0 9 7 m i p s 降低到5 5 9 2 7 m i p s , 程序执行速度提高了1 0 倍多。 d s p 实现的硬件平台采用t i 的t m s 3 2 0 c 5 5 1 0d s p ,软件平台采用c c s2 0 , 主要技术使用d s p b i o s 编程,结合d m a 和m c b s p 进行语音数据传输。对采用 d s p b i o s 封装优化后的g7 2 9 a 算法程序进行测试,运算量仅为1 87 6 5 m i p s ,运 算速度提高了3 0 多倍。 对优化后及使用d s p b i o s 技术的程序进行测试验证,编解码结果完全正确, 运算时延小于算法所要求的最小时延,实现了g 7 2 9 a 协议在t m s 3 2 0 c 5 5 1 0d s p 上的实时化。因此,本文研究的优化方法及采用的d s p b i o s 编程技术对算法的实 g :7 2 9 a 语音压缩算硅的优化及d s p 实现 摘要 现是可行有效的,为g 7 2 9 a 协议在高性能、低功耗的嵌入式芯片上的实用化提供 了一个有利的借鉴。 关键词:g 7 2 9 a ,算法优化,l s p ,d s p ,d m a ,m c b s p u 作者:李娟娟 指导老师:俞一彪 t h eo p u mj z a t l o na n di m p l e m e n t a t i o no f g 7 2 9 哇! 型竺塑旦翌 a b s t r a c t t h e o p t i m i z a t i o na n di m p l e m e n t a t i o no f c 1 7 2 9 a c o d e co nd s p a b s t r a c t t h eg 7 2 9a l g o r i t h mf o ra n c o d i n gs p e e c hs i g n a lb a s e do nc o n j u g a t es t r u c t u r ea l g e b r a i c c o d ee x c i t e dl i n e a rp r e d i c t i o n ( c s a c e l p ) w a sp r o p o s e db yi t ui n1 9 9 6 n o to n l yh a s i ts h o r tc o d e - d e c o d ed e l a yb u ta l s op r o v i d e sg o o ds y n t h e s i z e ds p e e c ha t8 k b i t s ,t h e r e f o r e , i ti sw i d e l ya p p l i e di ni n t e r n a t i o n a lm o b i l et e l e c o m m u n i c a t i o n ( i m t - 2 0 0 0 ) ,p e r s o n a l c o m m u n i c a t i o ns y s t e m ( p c s ) ,i pp h o n ea n dh a n d h e l dd e v i c e g 7 2 9 a , w h i c hi s a r e d u c e dc o m p l e x i t yv e r s i o no fg 7 2 9 ,b r i n g s0 1 15 0 d r o pi ni t sc o m p l e x i t yw i t h o u t d e c r e a s i n gs p e e c hq u a l i t y h o wt oo p t i m i z eg 7 2 9 aa n di m p l e m e n ti tr e a lt i m ei st h ek e yp r o b l e m o p t i m i z a t i o n sh a v e t h r e ea s p e c t s : ( 1 ) a l g o r i t h mo p t i m i z a t i o n :t h ep r i m a r ye n c o d i n gp a r a m e t e r so ft & 7 2 9 aa r el s p p a r a m e t e r so b t a i n e db yc h e b y s h e vp o l y n o m i a l m e t h o d i th a sag r e a td e a lo f c o m p u t a t i o nc o m p l e x i t ya n dr e q u i r e s6 6 8 7 1 3c y c l e s t h i sp a p e rp r o p o s e sa ne f f e c t i v e a n de f f i c i e n ta l g o r i t h ma p l s p ( a i t k e n & p o l y n o m i a ll s p ) u s i n ga i t k e ni t e r a t i v e m e t h o da n dp o l y n o m i a ls y n t h e s i sd i v i s i o n i to n l yr e q u i r e s9 8 4 8 4c y c l e s ,w h i c h d e c r e a s e sa b o u t7t i m e sc a l c u l a t i o nc o m p l e x i t yt h a nb e f o r e ( 2 ) cl a n g u a g eo p t i m i z a t i o n :i t i n c l u d e so v e r f l o we s t i m a t i n go p t i m i z a t i o n ,l o o p u n r o o l i n g ,u s i n gi n l l n ea n d s oo n ( 3 ) c o m p i l e ro p t i m l z a t a o n :i th a su s i n gi n t r i n s l c s ,c h o o s i n go i ,p r a g r n a , d i s a b l i n g d e b u ge t c t h r o u g h o u tt h r e eo p t i m i z a t i o n s ,t h ec a l c u l a u o nc o m p l e x i t yo fg 【_ 7 2 9 ar e d u c e sf r o m 5 9 0 0 9 7 m i p st o5 59 2 7 m i p s ,t h e nt h ee x e c u t i n gr a t ei n c r e a s e so v e r1 0t i m e s t h ed s ph a r d w a r ep l a t f o r mi st m s 3 2 0 c 5 5 1 0d s p ,w l u l es o f t w a r ep l a t f o r mi s i i i 赫 t h eo p t m i z a t t o na n dl m p l e m e n t a u o no f g 7 2 9 ac o d e co nd s pa b s t r a c t c c s 2 0 a f t e rm a k a n gu s eo fd s p f b i o st e c h n i q u et op r o g r a mo p t i m a lg 7 2 9 aa n d c o m b i n i n gd m aw i t hm c b s pf o rt r a n s m i t t i n gs p e e c hs i g n a l s ,t h e c a l c u l a t i o n e o m p l e x i t yb a s e do nc 5 5 1 0d s p h a so n l y1 8 7 6 5 m i p s ,t h e nt h ee x e c u t i n gr a t ei n c r e a s e s m o r et h a n3 0t i m e s t h et e s to ft h eo p t i m a lc o d ew i t l ld s p b i o sp r o g r a m m i n gs h o w st h a tt h ee n c o d i n ga n d d e c o d i n gr e s u l t s 锄c o r r e c t c o m p u t i n gd e l a y i ss m a l l e rt h a nt h er e q u i r e dm i l l i r l l l l r f ld e l a y 如1 er e a l t i m ei m p l e m e n t a t i o no fg 7 2 9 ao nt m s 3 2 0 c 5 5 l od s ps h o w st h e s eo p t i m a l m e t h o d sw i 也d s p b i o sp r o g r a m m i n ga r ep r a c t i c a la n de f f e c t i v e a n dm a k 韶a no f f e ro f h e l pt h ea p p l i c a t i o no fg 7 2 9 ao nt h ee m b e d d e dc h i p 砸mh i 班p e r f o r m a n c ea n dl o w p o w e rc o n s u m p t i o n k e yw o r d s :g 7 2 9 a , a l g o r i t h mo p t i m i z a t i o n , l i n es p e c t r u mp a i r , d i g i t a ls i g n a l p r o c e s s i n g ,d i r e c tm e m o r ya c c e s s ,m u l t i c h a n n e lb u f f e rs e r i a lp o r t w r i t t e nb yj u a n j u a nl i s u p e r v i s e db yy i b i a oy u 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注孵引用的内容外,本论文不舍 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:弛日 学位论文使用授权声明 期:孑形乒。 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括邗登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏卅f 大学学位办办理。 研究生签名 导师签名 日 期: 日期: 塑生! g 7 2 9 a 语音压缩算庄的优化及d s p 实现第一章绪论 1 1 引言 第一章绪论 语音信号是最常用的信息载体之一,通信系统中最常见的数据形式就是语音。 2 1 世纪的通信技术应在人与人之间,人与机器之间达到高质量的无缝的信息交换的 水平。而不管处在什么情况下语音通信是最基本、最重要的方式之一。多媒体信息 交换包括电话、电视电话会议、可视电话、语音信箱,电子邮件,图像传真、数据 等等。无缝通信是指用户可方便地综合使用这些手段,而不影响通信质量,并能随 意地把一种通信手段转换为另一种通信手段;高质量是指通信质量不随用户环境及 传输媒介的变化而降低,用户使用起来方便快捷【l 】。这取决于信息高速公路的建设 和计算机、微电子、材料、网络、通信等诸多关键科学领域的发展,而语音压缩编 码是最基本、最重要的技术之一。 进入2 0 世纪9 0 年代以来,语音信号处理随着人们实际需求的日趋增多快速发 展起来,语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面 很广的综合性学科,包括生理学、心理学、计算机科学、通信理论、信息科学、模 式识别、人工智能、神经网络等众多学科,而且这些和语音信号处理密切相关的学 科如人工智能等也在蓬勃发展中,因此更加推动了语音技术的飞速发展【2 】。传统的 模拟语音技术有其不可避免的缺点如:( 1 ) 灵活陛差,硬件结构较复杂,维护困难。 ( 2 ) 系统精度受元器件影响,同一批次产品可能有不同的性能。( 3 ) 易受噪声、电磁 场等的干扰。( 4 ) 加密困难、保密性差。( 5 ) 模拟信号不便于计算机处理等。这就导 致了模拟语音技术有其一定的局限性,它必然要被数字语音技术所代替。 数字语音技术虽然可以有效克服模拟语音技术的诸多缺点,但是数字化语音在 信道中传输需要占用较宽的频带,而且对语音质量要求越高其占用的带宽就越大。 由于信道资源是有限的,所以必须对数字语音进行压缩编码,使其能够在有限的带 宽中传输尽可能多的信息。数字压缩语音技术的优点如:( i ) 灵活性好,可以通过 改变软件来修改设置,以适应不同需求。( 2 ) 精度仅与a d 的位数,计算机字长、 算法有关。( 3 ) 不易受干扰,可靠性和重复性好。( 4 ) 易于加密,保密性好。( 5 ) 数 字信号便于计算机处理。( 6 ) 有利于提高话路容量,提高传输效率。 q 7 2 9 a 语音压椎算去的优化及d s p 实现第一章绪t 仑 随着现代社会信息量的不断飞涨,信道容量越发显得宝贵,对语音压缩编码算 法的研究成为热点。从1 9 9 5 年起,n u 相继推出了g 7 2 x 系列的语音压缩标准, 其中包括g 【_ 7 2 3 1 、g 7 2 8 、g 7 2 9 和g 7 2 9 a 等。g 7 2 9 a 1 3 , 4 j 是g 7 2 9 的简化版本,是 i t u 于1 9 9 6 年6 月提出的。它采用共轭结构代数码激励线性预n ( c s a c e l p ) 的语 音压缩编解码算法,合成语音质量较好,算法延时少,是一种优秀的编解码算法。 本课题通过对该算法的分析、研究和优化,提出基于t m s 3 2 0 c 5 5 1 0d s p 的实时实 现方法。 1 2 语音编码技术的发展概况 l 自从上世纪3 0 年代提出脉冲编码调制( p c m ) 以及声码器( v o c o d c r ) 的概念 后,语音信号编码一直沿着波形编码与参数编码两个方向发展。l 语音信号的波形编码力图使重建语音信号和原始语音信号的波形保持一致,它 把语音信号当作一般的波形信号来处理,其优点是具有较强的适应能力,较好的合 成语音质量,缺点是编码速率高、编码效率低。常见的波形编码器有脉冲编码调制 ( p c m ) 、自适应增量调制( a d m ) 、自适应差分编码( a d p c m ) 、自适应预测 编码( a p c ) 、自适应子带编码( a s b c ) 、自适应变换编码( a t c ) 等。它们在 1 6 - 石4 k b i t s 的编码速率上有较高的编码质量,但是当编码速率进一步降低时,其性 l 能下降得很快。 参数编码始于1 9 3 9 年美国人h o m e r d u d c y 发明的声码器【5 1 ,它是根据语音信号 的特征参数来编码,又叫“声码器技术”。这种编码方法是通过对人的发声生理过 程的研究,建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的 目的,它力图使合成语音具有尽可能的可匿性,保持原语音的语意,而合成语音的 波形与原始语音的波形可能有相当大的差别。它具有编码速率低的优点,可以达到 2 4 k b l f f s 以下,但是合成语音音质差,而且对噪声较敏感、顽健性较差。主要声码 器有通道声码器、共振峰声码器、同态声码器以及线性预测( l p c ) 声码器等。 2 0 世纪8 0 年代后期,综合波形编码和参数编码的屁合编码技术被广泛应用, 这种算法假定了一个语音产生模型,但同时又使用与波形编码相匹配的技术将模型 参数编码。它吸收了两者的优点,其中最为典型的就是c e l p 6 】模型。它在比特率 为4 , , - 1 6 k b l f f s 时已经可以得到比其他算法更高的重建语音质量,而且以c e l p 为基 2 g 7 2 9 a 语音压缩算座的优化及d s p 实现第一章绪论 础的多种算法己成为国际标准,如本论文所研究的g 7 2 9 a 协议的c s a c e l p 算法 等。但是对于比特率低于1 2 k b i t s 以下的语音编码,由于受各种技术的制约,目前 还没有比较成熟的编码方法。 1 3d s p 技术的发展和应用 d s p m ( d i # m ls i g n a lp r o c e s s o r ) 是在模拟信号转换成数字信号以后进行高速 实时处理的专用处理器,其处理速度比最快的计算机c p u 还快1 0 5 0 倍。 d s p 发展历程大致经过7 0 年代的理论先行、8 0 年代的产品普及、9 0 年代的突 飞猛进三个阶段: ( 1 ) 7 0 年代只能依靠m p u ( 微处理器) 来处理数字信号,但却无法满足高速 实时的要求,而d s p 的发展也仅停留在理论方面,只有极少的应用。 ( 2 ) 8 0 年代1 9 8 2 年德州仪器1 1 推出了全世界第一代定点式数字信号处理器 t m s 3 2 0 1 0 ( 1 6 3 2 b i t ) ,数字信号的处理又进入一个全新的阶段,尤其在语音合成和 编码解码器中得到广泛应用。 至8 0 年代中期随着c m o s 技术的进步和发展,第二代基于c m o s 工艺的d s p 芯片应运而生,其存储容量和运算速度得到更大的改进,成为语音处理、图象处理 技术的基础。 8 0 年代后期,第三代d s p 芯片闯世,性能得到进一步的提升,应用的范围扩大 到通信、计算机等领域。 ( 3 ) 9 0 年代之后相继出现第四代和第五代d s p 器件。现在的d s p 是属于第五 代,它与第四代相比,系统集成度更高,将d s p 芯核及外围元件综合集成在单一芯 片上。不仅应用在通信和计算机领域,而且逐渐渗透到人们日常消费领域中。 目前d s p 有定点和浮点之分,通常定点d s p 提供1 6 位或2 4 位数据宽度,浮 点d s p 一般是3 2 位的数据宽度,从理论上讲,浮点d s p 的动态范围比定点d s p 大,更适合于d s p 的应用场合,但定点运算的d s p 器件的成本较低,对存储器的 要求也较低,而且耗电较省。因此,定点运算的可编程d s p 器件仍足市场上的主流 产品。本课题选用的是t i ( 美国德州仪器公司) 推出的新一代高性能低功耗1 6 位 定点数字信号处理器t m s 3 2 0 c 5 5 1 0d s p ,c 5 5 x 达到了c 5 4 x 的2 倍的周期效率, 并且只有c 5 4 x 的i 6 的功耗。正是因为c 5 5 x 优异的性能和极低的功耗,使其成为 3 g 7 2 9 a 语音压缩算庄的优化及d s p 实现第一章绪论 相当具有竞争力的d s p 产品。 1 4 研究内容 本文根据r r u 所提供的g 7 2 9 a 协议和c 语言实现算法,对g 7 2 9 a 算法的原理和 架构进行分析和研究,并在1 m s 3 2 0 c 5 5 1 0d s p 上实时实现。在研究过程中,发现该 算法所提供c 源代码在d s p 上执行的效率极低,必须进一步优化和改进。本课题的重 点主要放在算法级、c 语言级和编译器级的三级优化,并采用d s p b i o s 技术,来减少 d s p 的处理时延,达到实时的要求。 论文的结构安排为;第一章简要介绍语音编码和d s p 的发展历程和应用。第二章 在从语音信号处理的基本原理出发,详细的分析了c e l p 算法所采用的各项基本技术。 第三章对n u t 提供的g 7 2 9 算法进行了分析、归纳和总结,并对其进行了深入的剖析, 介绍了g 7 2 9 附件a 的算法简化。第四章介绍了q 7 2 9 a 算法的算法级、c 语言级和编 译器级的三级优化。第五章介绍了t m s 3 2 0 c 5 5 1 0d s p 硬件开发环境,并详细说明了 g 7 2 9 a 在t m s 3 2 0 c 5 5 1 0d s p 平台上实时实现的全过程。 g 7 2 9 a 语音压缩算唐的优化及d s p 实现第二章语音编码基础 第二章语音编码基础 1 2 7 2 9 协议的内容非常丰富,其中涉及到语音编码技术的很多方面,下面主要对 语音发音系统、语音信号产生的数字模型、语音信号的特点和c e l p 采用的主要语 音编码技术进行分析讨论。 2 1 语音发音系统及其数字模型 人的发音器官包括肺、气管、喉( 包括声带) 、咽,鼻和口。语音是从肺部呼 出的气流通过在喉头至嘴唇的器官的各种作用而发出的。声道的生理模型如图2 1 : 声带 鼻音 输出 口音 输出 图2 1 声道的生理模型 从声门到嘴唇的呼吸通道称为声道。成年人的声道长度约为1 7 c m 。经舌和鼻腔 的这一管道成为鼻道。经肺、支气管和气管的管道称为次声门系统。由声带振动激 发声道中空气发生振动,并从口和鼻向外辐射产生声音。声道是一个分布参数系统, 它有许多的自然谐振频率,因此可以把声道视为一个谐振腔,它能够放大某些频率 5 心纠心纠 g 7 2 9 a 语音压缩算唐的优化及d s p 实现第二章浯音编码基础 而衰减其它的频率成分。这些谐振频率就称为共振峰频率,简称共振峰【鲥。它是声 道的重要声学特征。它与发音器官的确切位置有很大的关系。当人们说话时,声道 的形状会不断的变化,共振峰的频率也随之变化,也就是说共振峰和声道的形状和 大小有关。 语音按其激励形式的不同大致分为三类:当气流通过声门时,声带的张力正好 使声带产生张弛振荡式振动,产生一股准周期性的脉冲气流,这一气流激励声道产 生有声语音,称之为浊音( v o i c e ds p e e c h ) 若声带不振动,而在某处收缩,迫使 气流高速通过而产生湍流就产生清音( u n v o i c e ds p e e c h ) 或称摩擦音。如果声道在 完全闭合的情况下突然释放就会产生爆破音( p l o s i v es p e e c h ) 。浊音具有周期性信 号的特点,清音则具有随机白噪声信号的特点。 完整的语音信号产生的数字模型【8 l 包括激励模型、声道模型和辐射模型三个部 分。其中激励源分为浊音和清音两个分支。如图2 2 所示。 图2 2 语音信号产生的数字模型 2 2 语音信号的主要特点 语音信号的主要特点有: ( 1 ) 语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。根据奈奎斯特抽样 定理【9 】用一个防混叠的带通滤破器将此范围内的语音信号频谱分量取出,按8 k h z 采样率对语音信号进行采样,就可以得到离散时域的语音信号。 ( 2 ) 语音信号的短时平稳性。语音信号是一种随机信号,但它的变化很缓慢, 所以可以认为在很短的时间内语音信号是平稳的。任何语音信号的分析和处理都可 6 g 7 2 9 a 语音压缩算詹的优化及d s p 实现 第二章语音编码基础 以建立在“短时”的基础上,将语音信号分帧处理,帧长一般取为1 0 3 0 m s 。语音 信号的“短时特征参数”有“短时能量”、“短时过零率”、“短时自相关函数”、 “短时平均幅度差”等。 ( 3 ) 语音信号的共振峰特性。声道的谐振频率称为共振峰频率,简称为共振峰。 一般来说,一个元音用3 个左右的共振峰来表示,分别为第l 共振峰,第2 共振峰, 第3 共振峰;对于较为复杂的辅音或鼻音,则大约需要5 个以上的共振峰。 ( 4 ) 语音信号的掩蔽效应。掩蔽效应是使一个声音a 能感知的阂值因另一个声 音b 的出现而提高的现象。这时b 叫掩蔽音,a 叫被掩蔽音。被掩蔽音刚能听到时 的掩蔽音的强度称为掩蔽闭限。研究掩蔽效应有助于对音色、响度和音高的理解和 估计。在语音编码中,利用掩蔽效应能够改善输出语音的质量。 2 3c e l p 编码技术 码激励线性预测c e l p ( c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 是一种有效的中低速率 语音压缩编码算法,它采用码本作为激励源,具有速率低、抗噪声强、合成语音质 量高以及多次音频转接性能良好等优点。c e l p 算法在4 8 1 6 k b i t s 的速率范围内 得到广泛的应用,已经成为一种主流的编码技术。目前,很多编码算法都基于c e l p , 如1 9 9 8 年美国联邦标准f e d s t d l 0 1 6 、矢量和激励线性预测v s e l p 声码器等。 本课题研究的删- tg 7 2 9 a 协议采用的c s a c e l p 算法也是基于c e l p 编码技术 发展起来的。c e l p 采用了线性预测、线谱对分析、感觉加权、矢量量化等主要技 术。图2 3 为c e l p 的编码器模型。 图2 3c e l p 的编码器模型 7 - 一 g 7 2 9 a 语音压缩算珐的优化及d s p 实现 第= 章语音编码基础 2 3 1 线性预测分析 维纳于1 9 4 7 年首次提出线性预测( l i n e a rp r e d i c t i o n ) 的概念。线陛预测是语 音信号中一项很重要的技术。 线性预测分析1 5 】的基本思想是:一个语音的抽样能够用过去若干个语音抽样的 线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的差值在某个准则下达 到最小值来决定唯一的一组预测系数。 线性预测分析可以和语音信号数字模型联系起来,可以用准周期脉冲或自噪声 激励一个线性时不变系统( 声道) 所产生的输出作为语音模型。如图2 4 : 改( 以)s ( n ) 图五4 语音模型 鼍( ,1 ) 表示模型的输入,j ( 刀) 表示模型的输出。当j ( ,1 ) 为确定性信号时,“( 胆) 采 用单位冲激序列,当j ( 厅) 为随机性信号时,u ( n ) 采用白噪声序列。 模型的系统函数l - l ( z ) 表示为 l + 艺6 ,:一 日( z ) = g 等一 ( 2 1 ) l 一芝q z 。 其中,系数口l ,岛及增益因子g 为模型的参数,p 、q 是选定的模型的阶数。 从时域上看,信号模型的输入与输出满足下面的差分方程: s ( ) :圭q j ( 玎一卅g 妻6 f “( 肛一,) ( 2 2 ) 上式表明,信号模型的输出是模型过去的输入、当前的输入以及过去输出的线 性组合。 根据( z ) 的有理式的不同,有三种不同的模型: ( 1 ) 自回归滑动平均模型,简称a r m a ( a u t o r e g r e s s i v em o v i n ga v e r a g e ) 模型。 g 7 2 9 a 语音压镭算,去的优化及d s p 实现 第二章语音编码基础 此时何( z ) 同时含有极点和零点。 ( 2 ) 滑动平均模型,简称m a ( m o v i n g a v e r a g e ) 。此时h ( z ) 为全零点模型。 ( 3 ) 自回归模型,简称a r ( a u t o r e g r e s s i v e ) 。此时h ( z ) 的分子多项式为常数, 即h ( z ) 为全极点模型。 实际上全极点模型在语音信号处理中最为常用。因为如果不考虑鼻音和摩擦音, 语音的声道传递函数就是一个全极点模型;而对于鼻音和摩擦音,既有极点又有零 点,但是如果模型阶数足够高,也可以用全极点模型来估计极零点模型,因为一个 零点可以用许多个极点近似。 可以利用最小均方误差准则对全极点模型参数进行估计。 预测误差为: e ;。z ( 加) 坝n ) 】2 :k ) 一妻a d ( n - 1 ) 1 2 ( 2 3 ) 口 nl j _ i j 把i ( 以) = q s o f ) 称为线性预测器一 要使均方预测误差最小,须对a 求偏导,并令其为0 ,得: 似 ) 一艺q j ( 疗一帅( 疗一j ) = o ,= l ,p ( 2 ,4 ) 由式( 2 4 ) 可推得l p c 正则方程组( 取p = 1 0 ) ,写成矩阵形式如下: ,( o )r 0 ),( 2 )r ( p 一1 ) r ( 1 )r ( 0 )r o )r ( p 一2 ) r ( p 1 ) r ( p 一2 ) r ( p 一3 ) ,( o ) 嚷 吱 t o ) r ( 2 ) ,( p ) 式( 2 5 ) 可以用递归方法求解。最常用的是l e v m s o n - d u r b m 递推算珐,是一种非 常高效的算法。 完整的递推过程如下: ( 1 ) ,= o 7 5 群= ,:i ( o ) 9 g 7 2 9 a 语音正镭算法的优化及d s p 实现第二章语音编码基础 卜1 ( 2 ) 七= 【( f ) 一町1 o 一,) 】耳 - i ( 3 ) 口:= 电 ( 4 ) 嘭= 亏1 一墨d 。- l ,i s j - i i ( 5 ) 彰= ( 1 一砰) 置, i fi p ,g o t o ( 1 ) 翰a i = 川,1 s j p 显然,由推导过程可知,t 在每一步递推中起很关键作用,该系数通常称为反 射系数或偏相关系数。 2 3 2 线谱对( l s p ) 分析 线谱对参剡1 0 1 作为语音信号线性预测参数的另一种表示形式,由于其良好的内 插特性和量化特性,被广泛应用于语音编码、语音识别等领域。它是频域参数,所 以和语音信号谱包络的峰有着更紧密的联系。在l s p 分析中,仍然采用全极点模型。 设p 阶线性预测误差滤波器传递函数为a ( z ) : a ( z ) 可表示为: 一( z ) :1 + 壶q z 一 ( 2 6 ) i l 4 ( z ) = 4 川( z ) 一砟z 一9 a 9 1 ( z 。1 ) ( 2 7 ) 分别将+ l = - 1 并0 k 。= l 时的a 川( z ) 用p ( :) 和q ( z ) 表示,可得 p ( z ) = 一( z ) + z 一”1 a ( z 一1 ) q ( z ) = 一( z ) 一z 一+ 1 a ( z 一1 ) ( 2 8 ) ( 2 9 ) t 由( 2 8 ) 、( 2 9 ) 可知,p ( z ) 和q ( z ) 均为p + l 阶多项式,r a ( z ) = 妻 p ( z ) + q ( z ) 】。 可以证明,当a ( z ) 的零点在z 平面单位圆内时,p ( :) 和q ( z ) 的零点在单位圆 1 0 ;一 参 一 一厮 g 7 2 9 a 语音压缩算庄的优化及d s p 实现第二章语音编码基础 上,并且p ( z ) 和q ( z ) 的零点沿着单位圆随的增加交替出现。设e ( z ) 的零点为p “, q ( z ) 的零点为p 问,那么p ( :) 和q ( 力可以写成下列因式分解形式: ,2 p ( z ) - - ( i + z 。) 兀( 1 - 2 c o s c a f z 。+ 严) ( 2 1 0 ) 口,2 q ( z ) = ( 1 - z 。1 ) 1 7 ( 1 - 2 e o s 毋z - + 严) ( 2 1 1 ) 忙i 并且q 和6 l 按下列关系式排列: 0 q b ,2 易,2 石 因式分解系数q 和岛成对出现,反映了谱的特性,所以称为“线谱对” ( 2 1 2 ) 由以上分析可知,线谱对分析的基本出发点是通过p ( z ) 和q ( 力将a ( z ) 的p 个 零点映射到单位圆上,这样使得这些零点可以直接用频率国来反映,且,( 力和q ( z ) 各提供了p 2 个零点频率。 线谱对参数可以反映语音信号的谱特陛,共振峰频率与l s p 线谱对的密集区相 对应。如果在某个特定的【q ,q ,】中,只移动其中任意一个线谱频率的位置, 计算机模拟结果表明:它所对应的频谱只在m 附近与原频谱有差异,而在其它频域 变化很小。这一性质很有用,因为对l s p 进行矢量量化时,就可以利用该性质把p 维l s p 特征矢量分成两个p 2 维的矢量来进行量化。这样既不影响总的量化效果, 又能够大大节约计算量。 2 3 3 感觉加权滤波器 由于人耳听觉具有掩蔽效应( m a s k i n ge f f e c t ) ,即会产生一个声音由于另一个 声音的出现而导致该声音能破感知的阈值提高的现象。为了使合成语音主观上听起 来更清晰平滑,c e l p 采用了感觉加权技术。它让合成语音信号和原始语音信号之 问的误差通过感知加权滤波器,使合成语音信号频谱中的共振峰处误差增大,而使 波谷处的误差减小;也就是增加了共振峰处的量化噪声,减小了波谷处的量化噪声。 。=毋 g 7 2 9 a 语音压镭算往的优化发d s p 实现 第二章语音编码基础 感知加权滤波器的传输函数为: ( 2 1 3 ) 感知加权滤波器的特性由预测系数q 和加权因子,来确定。,的取值在o l 之 间,由它控制共振峰区域误差的增加当y = l 时,( 力= 1 ,此时没有进行感知加 权;当,:o 时,矿( z ) :1 一妻q z 一,它等于语音的p 阶全极点模型的倒数。显然, w ( z ) 的作用就是使实际误差信号的谱不再平坦,而是有着与语音信号谱相似的包 络形状。实际听音结果表明,在8 k h z 采样频率下,取值在0 8 左右较为合适, g 7 2 9 a 中,y = 0 7 5 。 g 7 2 9 中感知加权滤波器的传递函数为: 矿( z ) :丛! ! 型 一a ( z l y 2 ) ( 2 1 4 ) 。 其中 和乃决定滤波器( 力的频响。适当调整这些值可以使加权更有效。 2 3 4 矢量量化州 矢量量化( v e c t o rq u a n t i z a t i o n ) 是一种重要的信号压缩方法,它是将语音波形 的取样值或语音的参数值分成一些组,每组构成一个矢量,然后用若干离散的数字 值来表示各矢量。矢量量化研究的基础是信息论的一个分支:“率一失真理论”。该 理论提出:矢量量化总是优于标量量化,而且矢量维数越大优势越明显。这是因为 矢量量化有效地应用了矢量中各分量间的各种相互关联的f 生质。 g 7 2 9 中有四处使用了矢量量化:固定码本矢量量化、自适应码本矢量量化、 线谱对的两阶矢量量化和两阶共轭结构增益矢量量化。 ( 1 ) 矢量量化的基本原理 矢量量化的过程是:将语音信号波形的k 个样点的每一帧,或k 个参数的每一参 器 赫 0 矿 磅 秭矧翳荔磅慨 嗍嘲j g 7 2 9 al 吾音压缩算庄的优化及d s p 实现 第二章语音编码基础 数帧,构成k 维空间的一个矢量,然后对这个矢量进行量化。若要对一个矢量x 进 行量化,首先要选择一个合适的失真测度。然后用最小失真原理,分别计算用量化 矢量z 替代x 所带来的失真。其中最小失真值所对应的那个量化矢量,就是矢量x 的重构矢量,或称为恢复矢量。通常把所有m 个量化矢量的构成的集合( r 称为码 书或码本( c o d e b o o k ) ,把码书中的每个量化矢量r o = 1 ,2 。埘) 称为码字或码矢。 矢量量化器工作过程如下:在编码端,将输入矢量与码本暑中的每一个码字进 行比较,分别计算出它们的失真。搜索到失真最小的码字f 。的序号j ,并将此序 号编码传输:在译码端,先将编码译为序号j ,再根据此序号从码本中找出相应的 码字巧。,并将它作为j ,输出。由于两个码本完全一样,此时失真最小。 ( 2 ) 矢量量化的失真测度 矢量量化器的设计中,失真测度的选择是很重要的。失真是将输入信号矢量用 码本的重构矢量来表征时的误差或所付出的代价,这种代价的统计平均值描述了矢 量量化器的工作特性。失真测度选用的是否合适,直接影响系统的性能。 理想的失真测度必须具备以下几个特性:必须在主观评价上有意义,即小的 失真应该对应于好的主观语音质量。必须是易于处理的,即在数学上易于实现, 这样可以用于实际的矢量量化器的设计。平均失真存在并且可以计算。 失真测度主要有均方误差( 欧氏距离) 、加权的均方误差、i t a k u r a - s a i t o 距离和 似然比失真测度等。其中最常用的是二阶的均方误差( 平方误差) : d 2 ( x ,l ,) = 圭( 五一只) 2 = ( x y ) 7 ( z y ) ( 2 1 5 ) - l 其中吐( x ,y ) 的下标2 表示平方误差,k 是矢量的维数,x ,y 分别表示输入信 号和码本中的矢量,而、只,分别表示x 和y 的元素。 ( 3 ) 最佳矢量量化器设计的两个条件 最佳矢量量化器是使得到的失真最小的量化器。设计最佳矢量量化器的过程也 是码本的设计过程。在矢量量化器的最佳设计中,最主要的问题是如何划分量化区 间和确定量化矢量,即如何寻找最佳划分和最佳码本。 一 孵绷蚴。嘲一鳓锄荔 g 7 2 9 a 语音压镏算唐的优化及d s p 实现第二章语音编码基础 最佳划分:对于给定码书( r ,找出所有码书矢量的最佳区域边界墨 ( i - l 2 ,m ) ,以使平均失真最小,即寻找最佳划分。由于码书已经确定,因此可 以用最近邻近准则( n n r ) 得到最佳划分。 最佳码书;对于给定的区域边界s ,找出最佳码书矢量,使码书的平均失真 最小。通常区域的形心组成了最佳码书的码字。 2 4 本章小结 本章首先对语音发音系统、语音信号产生的数字模型、语音信号的主要特点进 行了分析讨论,然后详细的介绍了c e l p 算法所采用的主要技术:线性预测分析、 线谱对分析、感觉加权滤波和矢量量化等。这些技术为下一章深入分析、研究g 7 2 9 a 算法打下了理论基础。 1 4 i 一 : 嘲 ) g 7 2 9 a 语音压缩芽唐的优化及d s p 实现第三章g 7 2 9 a 语音编解码器 第三章g 7 2 9 a 语音编解码器 i t u - t 于1 9 9 6 年3 月公布了g 7 2 9 协议,该协议使用共轭结构代数码激励线性 预测( c s a c e l p ) 算法对语音信号进行编解码,其码率为8 k b i t s 。 这个方案的特点是分析窗采用混合窗;l s p 参数采用二级矢量量化;以子帧为 单位的码本搜索分为自适应码本搜索和代数( 固定) 码本搜索;基音分析采用开环 基音分析和自适应码本搜索相结合,从而降低了运算量,减少了基音的量化比特数, 并提高了基音预测的准确度;代数码本算法简单,不需要存储码本,恢复音质清晰。 在8 k b i t s 码率下合成语音质量不低于3 2 k b i t sa d p c m 的水平,算法延时为1 5 m s 4 d l 。 编解码器处理的信号是数字语音信号,此信号是通过对输入的模拟信号先进行 电话带宽的滤波( g 7 1 2 ) ,再进行8 k h z 抽样,最后转换为1 6 b i tp c m 码,得到 1 2 8 k b i t s 的数字信号。输出信号则以同样的方式转换成模拟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 14.3热机的效率课件 2025-2026学年人教版物理九年级全册
- 知识产权评估培训课件
- 知识产权申报培训活动课件
- 钳工基本知识培训课件目标
- 知识产权培训课程分类课件
- 知识产权培训证书查询网课件
- 2025年生态循环农业技术模式与农业土壤修复效益分析报告
- 钢铁厂装车安全知识培训课件
- 钢铁出口基础知识培训课件
- 2025年安全员安全操作规程考试题集
- 肾动脉狭窄的超声诊断课件整理
- 金丝键合工艺培训汇编课件
- 奥维互动地图使用介绍课件
- 小学语文新课程标准最新版2022
- 室外雨污水、消防管网施工方案
- 传染病学总论-人卫最新版课件
- (中职)计算机组装与维修电子课件(完整版)
- (高职)旅游景区服务与管理电子课件完整版PPT全书电子教案
- 部编版七年级语文上册教案(全册)
- 《汉服》PPT课件(完整版)
- 某国有企业精细管理降本增效经验交流汇报材料企业降本增效.doc
评论
0/150
提交评论