（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：66 大小：1.78MB 积分：0 举报 版权申诉

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf_第2页

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf_第3页

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf_第4页

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf_第5页

已阅读5页，还剩61页未读，继续免费阅读

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要 i t u tg 7 2 3 1 是国际电信联盟制定的5 3 k b i t s 和6 3k b i t s 双速率语音多媒体通信编码标准，分别采用代数码本激励预测( a c e l p ) 算法和多脉冲最大似然量化( 咿一m l q ) 算法。其附录a 采用静音压缩技术，可进一步降低传输速率。该编码标准广泛应用于多媒体通信、蜂窝移动通信和i p 网络电话等领域。 f r e e s c a l e 公司的m c f 5 2 4 9 芯片是一款性价比极高的c o l d f i r e 处理器，它具有4 个e m a c 协处理器单元，能够在完成控制处理的同时进行信号处理运算。并且具有丰富的集成外设，这使得眦f 5 2 4 9 在某些场合下可以代替微控制器和 d s p 的组合。并且功耗很低，价格便宜，被设计作为m p 3 i m 音乐播放器的系统控制器解码器。论文主要研究了基于m c f 5 2 4 9 处理器的硬件平台开发和优化g 7 2 3 1 语音编解码器。按照要求，该编解码器最终运行于i tc l i n u x 操作系统上，在1 0 0 9 6 通过测试向量的前提下，编解码时间控制在1 8 m s 左右。课题的难点在于g 7 2 3 编解码器所需运算量较大，而m c f 5 2 4 9 的运算能力比起通用的d s p 有较大差距，故优化工作具有重大意义。论文的工作包括：算法优化和汇编级优化以及向l ac l i n u x 的移植。对优化后的g 7 2 3 1 编解码器测试表明，编解码一帧语音信号所需的时间为：低码率模式下为1 8 m s 左右，满足技术指标。关键词：m c f 5 2 4 9 ，g 7 2 3 1 ，编解码器，uc l i n u x ，优化 a b s t r a c t i r u tg 7 2 3 1i sad u a lr a t e s p e e c hc o d e cs t a n d a r df t o m i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n - t d c c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ( i t u - t ) 1 1 ：l i s c o d c ch a st w ok i n d so fb i tr a t e s ，i e ，5 3k b p sa n d6 3k b p s ，w h i c hc o r r e s p o n d st o t w od i f f e r e n ta l g o r i t h m s f o r5 3 k b p sc o d e c ，a l g e b r a i cc o d ee x c i t e dl i n e a r p r e d i c t i o n ( a c e l p ) p r i n c i p l e sa r eu s e d , w h i l ef o rt h e6 3k b p sc o d e c m u l t i p u l s e ，m a x i m u m l i k e l i h o o dq u a n t i z a t i o n ( m e m l q ) t e c h n i q u e sa r eu s c d s i l e n c e c o m p r e s s i o nt e c h n i q u e sa r ea l s ou s e di nt h el n a i 懿ao ft h es t a n d a r d , w h i c hc e n f u r t h e l - r e d u c et h eb i tr a t ea n dp r o v i d em o r ef l e x i b i l i t yf o rt h es y s t e r nd e s i g na n d a p p l i c a t i o n s 啊 c o d e cs t a n d a r di sw i d d yu s e di nm u l t i - m e d i ac o m m u n i c a t i o n , c e l l u l a rm o b i l ec o m m u n i c a t i o na n dv o l p 1 1 ”m c f 5 2 4 9w a sd e s i g n e da sas y s t e mc o n t r o l l e r d e c o d e rf o rm p 3m u s i c p l a y e r s t h e3 2 - b i tc o l d f i r ec o r ew i t he n h a n c e dm u l 卸l ya c c u m u l a t e ( e m a ou n i t p r o v i d e so p t i m u mp e r f o r m a n c ea n dc o d ed e n s i t yf o rt h ec o m b i n a t i o no fc o n t r o lc o d e a n ds i g n a lp r o c e s s i n g 1 1 1 ei n t e g r a t e dp e r i p h e r a l sa n de m a ca l l o wt h em c f 5 2 4 9t o r e p l a c eb o t l lt h em i c r o c o n t r o l l e ra n dt h ed s p i nc e r t a i na p p l i c a t i o n s i ti sa ne x c e l l e n t g e n e r a lp u r p o s es y s t e mc o n t r o l l e ra tav e r yc o m p e t i t i v ep n c e t h em a i nt a s ko ft h i st h e s i si st od e v e l o pa n do p t i m i z eg 7 2 3 1c o d e eo nt h e f r e e s c a l e sm c f 5 2 4 9 t h et i m ec o n s u m e db yt h ec o d e c ，w h i c hr u no n 肛c l i n u xo s ， s h o u l dn o tb em o r et h e n18 m s f r a m ea n dt h et e s tv o c t o rs h o u l db ea 1 1p a s s e d f o rt h e c o m p l e x i t ya n dc o m p u t a t i o n a lr e q u i r e m e n tf o rt h eg 7 2 3 1 ，t h e r ea r eal o to f w o r k st o d o b yc a r e f u le x p l o i t i n gt h ea l g o r i t h ma n dr e w r i t em o s to ft h ef u n c t i o n si na s s e m b l e l a n g u a g e , w ec a nm e e tt h ec h a l l e n g e s k e y w o r d s ：m c f 5 2 4 9 ，g 7 2 3 1 ，c a k i c c ，“c l i n u x ，o p t i m i z e 独创性声明本人声明所里交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得叁鲞盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：前芜军签字日期：口口6 学位论文版权使用授权书年弘月多7 日 f 本学位论文作者完全了解苤鲞盘茎有关保留、使用学位论文的规定。特授权鑫壅盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名看珑乒签字日期：力。d 辟二月刁日导师签名：签字日期：钐彬劢石年细力日天津大学硕士学位论文第一章绪论第一章绪论 v o i p 是指以分组的形式传送语音数据。数字化的语音的传输和存贮，在可靠性，抗干扰性，易保密性和低成本都远远胜于模拟语音。国内外很多厂商在网络承载语音业务上进行了相当可观的投资。网络承载语音业务在商业上主要有以下几点优势：语音和数据的综合。减少带宽。利用数字化的语音可以充分消除谈话的静音期及部分冗余所占用的带宽。低价格。本论文主要研究网络承载语音业务的发动机语音编解码器。语音编解码器的主要功能是把用户语音的p c m ( 脉冲编码调制) 样值编码成少量的比特。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有健壮性。在接收端，语音帧先被解码成p c m 语音样值，然后再转换为语音波形。 1 1 语音编解码技术概述 1 1 1 语音编码技术的发展国际上对语音信号压缩编码的标准是在国际电报电话咨询委员会( c c n t ) 下设的第1 5 研究组讨论制定的，相应的标准成为g 系列，由国际电信联盟( r r u ) 发表。 1 9 7 2 年，c c i t r 首先制定了g 7 1 l6 4 k b sp c m 编码标准。它采用的是子带自适应差分编码( a d p c m ) ，数据率为3 2 k b s 。它广泛的应用与数字通信、数字交换机等领域，至今，6 4 k b s 的标准p c m 系统仍占有统治地位。这种方法语音质量很好，但占用带宽较多。 c c i t r 于8 0 年代初着手研究低于6 4 k b s 的非p c m 编码算法，并于1 9 8 4 年通过了3 2 k b s a d p c m 语音编码g7 2 1 标准，它不仅可以达到p c m 相同的语音质量而且具有更优良的抗误码性能，广泛应用于卫星，海缆及数字语音插空设备以及可变速率编码器中。低码率、低延时、高质量始终是人们期望的目标。为此，c c i t t 采纳了a t & t b e l l 试验室提出的1 6 k b s 短延时码激励( l d c e l p ) 编码方案，于1 9 9 2 年和1 9 9 3 天津大学硕士学位论文第一章绪论年分别公布了浮点和定点算法的g 7 2 8 标准。该方法延时小于2 m s ，话音质量可达m o s4 分以上。因而在实际中得到广泛的应用，例如：可视电话伴音、无绳电话机、单路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、语音信息录音、数字移动无线系统、分组化语音等。 1 9 8 3 年欧洲数字移动通信特别工作组( o s m ) 制定了数字移动通信网的 1 3 k b s 长时预测规则脉冲激励( r p e e t a ) 语音编码标准。1 9 8 9 年北美蜂窝电话工业组织( c t i a ) 公布了北美数字移动通信标准。它采用的是矢量和激励线性预测技术( v s e l p ) ，速率为8 k b s 。 1 9 9 5 年，国际电联批准了一个被称为g 7 2 9 的新的话音压缩标准。这种编码方法延迟小，节省8 7 5 的带宽，可以提供与3 2 k b s 的a d p c m 相同的语音质量，其音质是同档次码速率中最优的，而且在噪声较大的环境中也会有较好多语音质量。广泛应用于个人移动通信、数字卫星通信、高质量移动无线通信、存储检索、分组语音和数字租用信道等领域。更低速率的语音压缩技术主要用于保密话音通信。美国国防部( d o d ) 分别于 1 9 8 4 年和1 9 9 0 年制定了基于l p c 、速率为2 4 k b s 的编码方案和基于c e l p 、速率为4 8 k b s 的编码方案。目前，语音压缩编码技术主要有两个努力方向：一个是中低速率的语音编码的实用化及如何在实用化过程中进一步降低编码速率和提高其抗干扰、抗噪声能力；另一个是如何进一步的降低其编码速率，目前己能在5 k b s 6 k b s 的速率上获得高质量的重建语音，下一个目标则是要在4 k b s 的速率上获得短延时、高质量的重建语音。特别是对中长延时编码，人们正在研究其更低速率( 如 4 0 0 b s 1 2 0 0 b s ) 的编码算法，在这个过程中当编码速率降至2 4 k b s 速率以下时， c e l p 算法即使应用更高效的量化技术也无法达到预期的指标，需要其它一些更符合低速率编码要求的算法，目前比较好的算法还有正弦变换编硬j ( s t c ) ，混合激励线性预测编码( m e l p c ) 、时频域插值编码( t f i ) 、基音同步激励线性预测编码 ( p s e l p ) 等，同时还要求引入新的分析技术，如非线性预测、多精度时频分析技术( 包括子波变换技术) 、高阶统计分析技术等，这些技术更能挖掘入耳听觉掩蔽等感知机理，更能以类似人耳的特性作语音的分析与合成，使语音编码系统更接近于人类听觉器官的处理方式工作，从而在低速率语音编码的研究上取得突破。总之，语音压缩编码技术的发展是十分迅速的，语音压缩编码发展的趋势向着具有更低速率，更高质量和更低延时的压缩编码方案方向发展。由于g - 7 2 3 1 标准以5 3 k b s 和6 3 k b s 两种较低的编码速率提供了高质量的重建语音，因此，在许多方面得到了应用。在本论文中，我们使用g 7 2 3 1 标准作为语音压缩算法，在m c f 5 2 4 9 的硬件平台上实现了语音的实时编解码，可以有效的传输语音信号。天津大学硕士学位论文第一章绪论 1 1 2 语音编码的分类自从2 0 世纪3 0 年代末，脉冲编码调制p c m 原理以及声码器( v o c o d c r ) 概念提出以来，语音信号编码一直沿着两个方向发展，逐步形成了语音信号的波形编码( w a v c f o r mc o d c c s ) 和参数编码( p a r a m e t e rc o d e c s ) 。近年来，语音编码技术有了突破性的进展，产生了新一代的参数编码算法，即混合编码( h y b r i dc o d c c s ) 。 1 ) 波形编码波形编码是最早实现的编码方案，它针对语音波形进行编码，而尽量保持输入波形不变，即恢复的语音信号基本上与输出语音信号波形相同。这类编码方法将语音信号作为一般的波形信号处理，具有适应能力强、语音质量好的优点但是所需要的编码速率高。在1 6 6 4 k b s 的数码率上能给出高的编码质量，当数码率进一步降低时，其性能下降较快。其中脉冲编码调f l i i j ( p c m ) ，是在数字通信系统中广泛采用的一种编码方式。此外，增量调制( a m ) 编码和自适应差分脉冲编码( a d p c m ) 通过非线性量化，也属于这一类。 2 ) 参数编码参数编码又称为声码器，它是以线性预测编码( l p c ) 方法为基础的，是低速率和甚低速率语音编码的重要方法之一。它的基本理论依据就是人的发声机理，由一个激励产生器产生激励信号，通过合成滤波器形成合成语音。其中，激励信号分成两部分：清音和浊音，前者由自噪声作为激励信号，后者由周期脉冲序列作为激励信号。因此，编码前必须首先进行清浊音判断。参数编码的优点是数据压缩率高，但是语音的合成质量较差，清晰度和自然度不好，同时复杂度也比较高。参数编码是一种比较早的编码方式，按激励信号的形成方法可分为十余种实现方案。 3 ) 混合编码混合编码不再区分清浊音，而是从听觉加权滤波器输出的误差信号提取激励信号，并与线性预测系数一起作为编码参数，在接受端则恢复激励信号和线性预测系数，然后合成恢复语音信号。这类编码方法的优点是话音质量较好、压缩效率较高，但是计算复杂度比较高。由于d s p 技术的发展，混合编码方式已经变得容易实现了。多脉冲激励线性预测编码( m p l p c ) 、码激励线性预测编码( c e l p l 都属于这一类。 1 1 3 编码器的评价评估编码器的性能时要考虑几个重要的因素。帧大小：帧的大小表示语音流量的时间长度，也称为帧延时。帧是语音编码天津大学硕士学位论文第一章绪论器的处理单位，每帧信息放在各语音分组之中，并传送给接受端。处理延时：它表示在编码器中对一帧语音做编码算法处理所需要的延时。它通常计入帧延时。处理延时又称为算法延时。前视延时：编码器为了对当前帧的编码提供帮助而检查前一帧的一定长度，此长度称为前视延时。这种做法是为了利用相邻语音帧之间的相关性。帧长度：这个值表示经编码处理后的字节数。语音的比特率：当编码器的输入是标准脉冲编码调制语音码流( 6 4 k b s ) 时，编码器的输出速率。 d s pm 口s 以及r a m 需求我们下面对几种编码器做一个比较表1 - 1 以上的属于对编码其的客观评价，其特点是计算简单，但不能完全反映人对语音质量的感觉。主观评定方法符合人类听话时对语音质量的感觉，最主要的主观评定方法是平均评定得分( m e a no p i n i o ns c o r e 搞写m o s ) 。m o s 得分采用五级评分标准，用来对编码器的话音满意度和可辨识说话人能力给予整体综合评价。同时，由于试听者对语音质量的主观感觉往往是和其注意力集中程度相联系的，因而，对应于主观评定等级，还有一个收听注意力等级( l i s t e n i n ge f c c ts c a l e ) 。表1 2 给出主观评定等级的质量等级、分数和相应的收听注意力等级。从用户角度看，通常认为m o s 分4 0 - 4 5 分为高质量语音编码，达到长途电话网的质量要求。m o s 分3 5 分左右称作通信质量，这时听者能感觉到语音质量有所下降，但不影响正常的通话，可以满足多数通信系统使用要求。m o s 分 3 0 分以下常称为合成语音质量，这种语音一般只有足够高的可懂度，但是自然天津大学硕士学位论文第一章绪论度较差，不容易识别讲话者。质量等级分数收听时的注意力优5完全放松，不需要注意力良4 需要注意，但不需明显集中注意力正常 3中等程度的注意力差2需要集中注意力劣1即使努力去听，也很难听懂表1 - 2 总之，语音编解码器是v o i p 技术的发动机，随着语音压缩技术的发展，原来的g 7 1 1 的6 4 k b s 的编码器最终会被淘汰，并由低比特率的编码器所代替。 1 2 本论文的任务和结构论文的任务是基于f r c e s c a l e 的c o l d f i r e 家族的m c f 5 2 4 9 的硬件平台开发和优化g 7 2 3 1 双速率语音编解码器。并且实现该编解码器在| lc l i n u x 操作系统上良好运行，要求编解码器1 0 0 通过测试向量。笔者承担了编解码器的移植，部分算法优化，部分汇编的优化，以及i ic l i n u x 下的调试。第一章介绍了语音编解码的历史、分类及评价。第二章较详细的介绍了 g 7 2 3 1 算法的各个模块。第三章和第四章分别介绍了硬件平台m c f 5 2 4 9 和软件平台一pc l i n u x 操作系统。第五章介绍了该课题实现的关键步骤优化。第六章介绍了后续工作一i t c l i n u x 下的调试和实现。论文最后小结了项目成绩和不足以及改进的方法。天津大学硕士学位论文第二章g 7 2 3 i 语音编码标准第二章g 7 2 3 i 语音编码标准 g 7 2 3 1 是i t u - t 制定的标准，它有两种速率：5 3 k b s 和6 3 k b s ，5 3 k b s 和 6 3 k b s 能够在传输过程中动态切换。g 7 2 3 1 中的两种速率采用不同的编码方案，对于5 3 k b s 采用a c e l p ( a l g e b r a i cc o d e - e x c i t e dl i n e a rp r e d i c t i o n ) ，对6 3 k b s 采用m p m l q ( m u l t y - p u l s e - m u l t yl e v e lq u a n t i z a t i o n ) 。g 7 2 3 1 编码器在6 3 k b s 提供长话语音质量。由于g 7 2 3 1 是为低比特率可视电话而设计，而在这种应用中，由于视频编解码的延时通常大于语音编解码的延时，因此对延时的要求不是很严格。g 7 2 3 1 编码器的帧长为3 0 m s ，还有7 5 m s 的前视延时。 g 7 2 3 1 编码器首先对语音信号进行传统电话带宽的滤波，再对语音信号用传统的8 k h z 进行抽样，并转换为线形p c m 码作为编码器的输入，在解码器中对输出进行逆操作来重构语音信号。 g 7 2 3 1 编码其将语音信号编码成帧，编码器对帧进行操作，每帧包括2 4 0 个采样点，采样速率为8 k h z 。在进一步处理( 高通滤波器去直流分量) 后将每帧分为4 个子帧，每个子帧包括6 0 个采样点。其他的各种操作包括l p c 滤波器以及l s p 滤波器非量化系数的计算码本搜索等，将会导致3 0 m s 的分组延时。对于每个子帧，用未处理的输入信号计算l p c 滤波器。最后一个子帧的滤波器系数用预测分裂矢量量化器( p s v q ) 进行量化。整个延时为3 7 5 m s 。同时，c t 7 2 3 1 采用了执行不连续传输的静音压缩。 g 7 2 3 1 的附件c 规定了一个信道编码规范，此规范可以和三倍速率的语音编码器一起使用。这个信道解码器的比特率也是可变的，它作为整个h 3 2 4 标准系列的一部分，是为移动多媒体应用设计的。这个信道信道编码器支持的比特率范围从o 7 k b s 到1 4 3 k b s 。它也支持 g 7 2 3 1 的三个操作模式：高速率模式、低速率模式和不连续传送模式。 2 1g 7 2 3 1 编码器该编码器基于线性预测分析合成技术，以尽量减少实际语音和合成语音之间经听觉加权后的误差信号的能量为准则来进行编码。帧内采用线性预测分析合成技术编码，在高速率模式下( 6 3 k b s ) ，声码器的激励信号采用多脉冲最大似然量化( m p - m l q ) ；在低速率模式下( 5 3 k b s ) ，声码器的激励信号采用代数码本激励天津大学硕士学位论文第二章g 7 2 3 1 语音编码标准线性预测( a c e l p ) 技术量化。此系统同样能够对音乐和其它音频信号进行压缩和解压缩，但是其处理效果不如语音。编码器的输入信号必须是经8 k h z 采样的1 6 比特的线性p c m 数字信号。输入的数字信号先分帧，每帧3 0 m s ，共有 2 4 0 个采样点。每帧信号先通过一个高通滤波器，去除低频成分，再分成4 个子帧，每个子帧6 0 个样点。对每个子帧进行1 0 阶l p c 预测，将最后一个子帧的 l p c 参数转化成线谱对l s p 参数，用预测分裂矢量量化法p s v q 进行量化。未量化的线性预测系数用作构造感知加权滤波器，每帧语音信号经感知加权滤波器滤波后得到加权语音信号。经加权的语音信号每两个子帧计算一个开环基音周期，这个基音预测是在1 2 0 个采样点基础上计算的，基音周期的搜索范围为1 8 至1 4 2 个样点。利用搜索得到的基音周期来构造谐波噪声成形滤波器，然后将 l p c 合成滤波器、共振峰感知加权滤波器和谐波噪声成形滤波器级联到一起构成联合滤波器，计算出该联合滤波器的冲激响应和零输入响应。利用估计出的开环基音值和联合滤波器的冲激响应，可以得到一个五阶的线性闭环基音预测器。通过这个五阶基音预测器，对每一子帧进行一次闭环基音搜索，然后将基音预测器的贡献从目标矢量中减去，得到相应子帧的残差矢量，最后对残差信号进行矢量量化。其框图如图2 1 所示。图2 - 1 每次在进入编码器之前，需要对编码器进行初始化。即将前一帧的l s p 矢量初始化为l s p 直流矢量p d c 以外，所有的静态编码器都初始化为0 。天津大学硕士学位论文第二章g 7 2 3 i 语音编码标准我们将详细介绍下算法中的部分模块。 2 1 1 语音信号的预处理语首信号的频带不包舍很低频翠的信号，所以在处理语首佰号z 丽一般要嬗过一个高通滤波器，去掉低频成分，在项目中采用的是一个单极点单零点的滤波器，其传输函数如下： h ( z ) 。西1 - - z - i 一个零点l ，一个微息“函1 2 7 ，对应z 平面，零点选在实轴和单位圆的交点上，保证了对直流的绝对抑制，而零点与极点选的非常近，保证在其余频率成分上 i z - l l i z 一函1 2 7l ，传输函数的比值为1 ，有较平坦的高通特性 2 1 2l p c 系数分析模块 l p c 分析的目的是使语音频谱变得较为平滑，它通过传统的k = v i s o n d u d f i n 递归算法实现，本编码器中使用的是1 0 阶线性预测分析。在计算线性预测系数之前，需要对语音信号进行预处理，以利于l p c 系数的计算。首先，以每一子帧为中心，去直流分量的语音信号x ( n 】使用1 8 0 样点窗长的h a m m i n g 窗进行加窗处理。这要需要增加存储的数据量，如要保存前一帧的1 2 0 个样点，还需要保存汉明窗的系数表格，但是能够获得较好的预测精度，增加了语音频谱的平滑性。然后，计算加窗语音信号的1 1 个自相关系数。为了展宽频带，增加信噪比，需要对自相关系数进行加权处理。对于r i o ，利用白噪声校正因子1 0 2 5 1 0 2 4 进行处理，表达式为： r 【o 】= r 【o 】( 1 + l 1 0 2 4 ) 其余l o 个自相关系数分别乘以二项窗系数，二项窗系数表如下所示。 1234567891 0 0 9 9 9 40 9 9 7 80 9 9 5 00 9 9 1 1 o 9 8 6 2 o 9 8 0 20 9 7 3 l0 9 6 5 00 9 5 5 90 9 4 5 9 表2 1 最后，对于每个子帧利用修正后的自相关系数，采用传统的l e v i n s o nd u r b i n 递归算法计算1 0 个l p c 系数a i j ，并利用这些l p c 系数构造短时加权滤波器。 l p c 合成滤波器定义式如下： 1 a 。( z ) = 1 l _ o i 3 l 一a q z l 天津大学硕士学位论文第二章g 7 2 3 1 语音编码标准其中，i 是子帧系数。 2 1 3l s p 量化模块 l s p 参数和l p c 参数可用互相转化，但是l s p 参数比较适合量化，所以将 l p c 参数转化为l s p 参数，然后进行量化，解码端根据l s p 参数反转化为l p c 参数。这里只对每帧的最后一个子帧的l p c 参数进行转化和量化。在量化前首先对最后一个子帧的l p c 系数乘以频带展宽系数r ，r = 0 9 9 4 ，取代原来的系数，实现频带扩展7 5 h z ，这样有利于基音周期估计和l s p 参数的量化。然后对最后一个子帧的l p c 参数利用p s v q 进行量化，计算合成滤波器 a ，( z ) 的l p 滤波器的量化系数。为了完成量化，我们首先利用l p c 和l s p 参数之间的关系，将l p c 参数 a j ) 衄。转化为l s p 参数 p ，扣“，。然后除去l s p 矢量中的直流成分，然后将此帧的l s p 矢量和上一帧的l s p 矢量比较，将差值( 残余误差矢量) 编码，实现差分编码。最后对残余误差矢量量化。编码端和解码端都有一个量化表，量化的目的是寻找量化表中最接近残余误差矢量的元素，该元素在量化表中的索引将作为l s p 参数量化的结果。具体方法如下： 1 ) 将l p c 参数 a ，触。转化为l s p 参数 p ：) 卜。加。 2 ) 取出最后一个子帧的l s p 参数： p j 砘，。，去掉直流分量p d c ，得到变 i p 。 3 ) 根据相关性，用前一帧解码器输出的l s p 向量叠。一。生成差值量化的比较标准： - n = b 【蚕。- 1 一p n c 】生成待量化信号：e 。= p 。- f 。 4 ) 把每组的l o 个参数按照3 ，3 ，4 分组。1 0 维l s p 矢量可以用3 维未量化l s p 参数p ：，3 维量化l s p 参数丸，4 维l s p 残差矢量c n 三个低位矢量来表示。每一个低维矢量分别采用有2 5 6 个码字的量化码本来量化，这大大减少了码本的大小和搜索量。使误差e 。，最小的l 就是待求的码字。 3 m = 0 p ：= l 矗+ 3 m 磊+ 3 m 蠢+ 3 m i ，如= 3 ，m = l 4 m = 2 p - 7 l ? 。= t 哥l | 。参h 。争k 1 0 ， o ，竹2 1 ，2 5 6 天津大学硕士学位论文第二章g 7 2 3 i 语音编码标准 p j = p + p d c 磊月= 死+ p d c + e t ，弓。= ( 瓦一直。) 7 既( 瓦- a ，) ， o m 2 l ，2 5 6 o m 2 l ，2 5 6 5 ) 其中e 。m 是第m 个分离残差l s p 码本的第l 项，w 。是一个由未量化的 l s p 参数p ：确定的对角加权矩阵：坼，2 忑两瓦i 石i 万，2 ，s 9 l 1 2 p 2 - p i 1 m “。2 p i o - - p 9 2 1 4l s p 解码和内插模块 l s p 参数的解码步骤如下： 1 ) 将三个子向量 e m 。) 。解码，得到得到1 0 阶的向量瓦。 2 ) 求解解码l s p 向量氐：蚕。= - n + p d c + a 。 3 ) 对l s p 参数叠。进行稳定性检测，判断瓦的有序性。判断公式如下：向+ 一磊 a m ，l j 9 其中，m _ 3 1 2 5 h z ，如果p ：和p ：+ l 不满足有序性判断，则用以下方是来修正式和最。：争= t 多j + 争i n ) 2 事i = 萝一妇| 2 争j “= 参+ m 2 若经过1 0 次循环修改后，l s p 参数的有序性仍得不到满足，则选取前一帧的l s p 参数来代替。由于在编码时仅仅对第3 子帧l s p 参数进行了编码，在解码器中求取前三帧的l s p 参数时使用了线性内插方法。然后利用l s p 和l p c 系数的对应关系，将 4 个插值的l s p 参数参。，转化为l p c 参数e ；。： o 7 5 元一i + o 2 5 a ，i = 0 二一o 5 晟一1 + o 5 a ，i = 1 k r d 0 2 5 5 一l + 0 7 5 7 ，i = 2 p 。，i = 3 天津大学硕士学位论文第二章g 7 2 3 i 语音编码标准筇= 每l a ”t 2 。磊o 】to s f 3 量化的l p c 合成滤波器五；( z ) 用于产生解码的语音信号，其定义为：五( ：) ：；一卜5 。z 一 j - i 2 1 5 基音估计模块对于每一个子帧，计算两次基音周期：前两个子帧和后两个子帧分别计算一次。对每两个子帧，使用以下公式求开环基音周期l o l ：，1 1 9、2 i f 【n f n - j i + c o l = 篙上， 1 8 c o l ( j ) ，则认为找到了新的最大点如果索引j 与j 的差值大于或等于1 8 ，则只有当c o l ( j ) 比c o l ( j ) 大1 2 5 d b 时才认为找到了新的最大点。搜索到开环基音周期后，用开环基音周期计算一个谐波整形滤波器，然后连同合成滤波器、加权滤波器一起构成组合滤波器，计算组合滤波器的冲激响应和零输入响应。并从谐波滤波器的输出w n 】中扣除零输入相应，得到向量： t i n = w 【n 】- z n 】如图2 - 1 所示，向量t n 】进入闭环基音预测模块。 2 1 6 基音预测模块在闭环基音提取阶段，所使用的方法是按照最小均方误差准则，在开环基音延迟的附近，寻找更为精确的基音延迟，将闭环基音提取与计算自适应码本的贡献相结合，用5 阶预测器完成。基音预测器的使用导致了闭环基音延迟( c l o s e d l o o pp i t c hl a g ) 和基音预测器量化增益的产生。这里使用两个码本来对基音增益进行量化，对高码率码本的长度分别为8 5 和1 7 0 ，对低码率码本长度为1 7 0 。对高码率，如果第0 和第1 子帧的l n 小于5 8 或第2 和第3 子帧的l ，小于5 8 ，则采用大小为8 5 的码本进行基音增益的量化。否则就采用大小为1 7 0 的码本进行量化。从目标矢量m n 】) 。船中减去自适应码本的贡献斛n 】) 。观j 9 就得到了残差信天津大学硕士学位论文第二章g 7 2 3 1 语音编码标准号研n ) 。脚。对提取出的闭环基音值要按奇数帧和偶数帧分别进行处理，即将奇数子帧( a p 子帧1 和3 1 的基音延迟用7 个b i t 表示，将偶数予帧( a p 予帧2 和4 ) 与奇数子帧( a p 其前一子帧) 基音延迟的差值用2 个b “表示( 这里基音延时的差值范围是( 1 ，0 ， + 1 ，+ 2 ) ，量化解码后的基音延时被定义为l 。这样每个3 0 m s 的语音帧只需要1 8 个b i t 传输基音延迟，相对于每个子帧都用7 个b i t 表示的方法，可以节省出l q 个b i t 。这一部分也是自相关函数和互相关函数的计算，由于这些计算是在子帧的基础上进行的，所以对每一帧要进行四次计算，这样就占据了绝大部分的编码时间。 2 1 7 固定码本搜索模块在高速率下使用多脉冲最大似然量化方法( m p - m l q ) 进行固定码本搜索，算法为：用一个子帧中5 个或6 个非零脉冲的输入信号通过s 。( z ) 滤波器来模拟 r n 】残差信号。如果这样的均方差最小，就将脉冲的位置和幅度记录下来。这样，用5 个或6 个点就可以代表6 0 个信号。在传送残差信号甜n 】) 。，时，将它作为m p - m l q 激励搜索的输入目标矢量。激励搜索相当于对该矢量进行量化，量化的过程是用矢量r 。i n 】逼近日标矢量 r 【n 】： r n 】= h j v n - j ，0 n 5 9 尸0 其中，v n j 是冲击响应为h n j 的组合滤波器s 【z 】的激励，定义如下： v n 】= g 艺a k 6 n m k 】，0 - 。m ，。误差函数e 嘶n 】叫n 】- r n 】一r i n = r n - a k h n - m k 】 k = o 参数的估计和量化是基于语音的分析综合( a n a l y s i s - b y - s y n t h e s i s ) 方法。为了计算g 一的估计和量化，我们首先计算冲击响应h 【n 和新的目标矢量r 【n 】的互相关关函数d d 】： d 【j 】= r n h n j 】， o j 岱9 天津大学硕士学位论文第二章g 7 2 3 1 语音编码标准。m a x j d j j ) m 5 9 ”一。j 一 h 【n m n 】然后用对数量化器对增益g 一进行量化。该增益量化器在两种码率下是相同的，量化间距为3 2 d b ，共2 4 级。以这个量化后的增益g 。为中心，在- 3 2 d b 至l j + 6 4 d b 的范围内，对

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于μclinux的语音编解码器的实现和优化.pdf

文档简介

温馨提示

最新文档

评论

相关文档